Книга: Аналитическая культура
* * *
* * *
Данное приложение воспроизводится (с небольшими изменениями и исправлениями) на основе публикации в авторском блоге[275]. Заголовок публикации сохранен.
В научной работе The Unreasonable Effectiveness of Data («Необоснованная эффективность данных»)[276] авторы, все сотрудники компании Google, утверждают, что происходит интересная вещь, когда массивы данных попадают в вычислительную инфраструктуру (web scale[277]):
Простые модели на основе большого объема данных значительно выигрывают у более сложных моделей на основе меньшего объема данных.
В этой научной работе и более подробной лекции, прочитанной Норвигом[278], авторы демонстрируют: когда размер обучающей выборки доходит до сотен миллионов или триллионов примеров, очень простые модели способны быть эффективнее более сложных, основанных на тщательно разработанных онтологиях, но на меньшем объеме данных. К сожалению, авторы практически не предоставляют объяснений, почему больше данных лучше. В этом приложении я хочу попытаться найти ответ на этот вопрос.
Мое предположение состоит в том, что существует несколько типов проблем и причин, почему больше данных лучше.
- Драйверы
- Распространение многоканальных маркетинговых систем
- Инструмент Камера
- 2.5.6 команда return (выдать, вернуться)
- Поддержка SAP
- Рецепт 6. Продвижение без спешки
- Автоматический доступ
- Два типа Клиента
- ГЛАВА 7. ЕЩЕ НЕСКОЛЬКО ПРИМЕРОВ ПРОГРАММ
- Yaffil - российский клон СУБД InterBase
- Способ восьмой Строго следовать продуманному ежедневному плану маркетинговой работы
- Субподряды