Книга: Аналитическая культура
* * *
* * *
Данное приложение воспроизводится (с небольшими изменениями и исправлениями) на основе публикации в авторском блоге[275]. Заголовок публикации сохранен.
В научной работе The Unreasonable Effectiveness of Data («Необоснованная эффективность данных»)[276] авторы, все сотрудники компании Google, утверждают, что происходит интересная вещь, когда массивы данных попадают в вычислительную инфраструктуру (web scale[277]):
Простые модели на основе большого объема данных значительно выигрывают у более сложных моделей на основе меньшего объема данных.
В этой научной работе и более подробной лекции, прочитанной Норвигом[278], авторы демонстрируют: когда размер обучающей выборки доходит до сотен миллионов или триллионов примеров, очень простые модели способны быть эффективнее более сложных, основанных на тщательно разработанных онтологиях, но на меньшем объеме данных. К сожалению, авторы практически не предоставляют объяснений, почему больше данных лучше. В этом приложении я хочу попытаться найти ответ на этот вопрос.
Мое предположение состоит в том, что существует несколько типов проблем и причин, почему больше данных лучше.
- 26 Люди читают только 60 % статьи
- Forward Zone
- LINQ to Objects
- 5. Вдохновение сотрудников на инновации
- Пять уроков Великого Магистра, или повесть о том, как Петя Бочкин изучал программирование
- Глава 4. План своевременного завершения
- Сайты, обслуживающие другие ресурсы
- 4.10.1. Состояние сброса МК
- Что такое Проводник?
- Пример 11-16. Передача переменных во вложенный сценарий awk, с помощью export
- Login Succeeds, but the Handshake Fails
- 12.3.1. TFTP Server