Книга: Аналитическая культура
* * *
* * *
Данное приложение воспроизводится (с небольшими изменениями и исправлениями) на основе публикации в авторском блоге[275]. Заголовок публикации сохранен.
В научной работе The Unreasonable Effectiveness of Data («Необоснованная эффективность данных»)[276] авторы, все сотрудники компании Google, утверждают, что происходит интересная вещь, когда массивы данных попадают в вычислительную инфраструктуру (web scale[277]):
Простые модели на основе большого объема данных значительно выигрывают у более сложных моделей на основе меньшего объема данных.
В этой научной работе и более подробной лекции, прочитанной Норвигом[278], авторы демонстрируют: когда размер обучающей выборки доходит до сотен миллионов или триллионов примеров, очень простые модели способны быть эффективнее более сложных, основанных на тщательно разработанных онтологиях, но на меньшем объеме данных. К сожалению, авторы практически не предоставляют объяснений, почему больше данных лучше. В этом приложении я хочу попытаться найти ответ на этот вопрос.
Мое предположение состоит в том, что существует несколько типов проблем и причин, почему больше данных лучше.
- Глава 22 Как обмануть Google и обеспечить себе место в топе
- Samba как контроллер домена
- Вперед, к переменам
- Класс TtdObjectList
- Личные контакты
- Защита прав
- Размещение пресс-релизов
- Настройка демонстрации
- Листинг 14.1. Простой пример создания и использования объекта ADO.NET DataSet
- Для чего нужны папки Windows, Documents and Settings, Program Files и Temp?
- Как получить рекомендации, не прося о них
- 19.2.4.5. В Linux создавайте RPM-пакеты