Книга: Аналитическая культура
* * *
* * *
Данное приложение воспроизводится (с небольшими изменениями и исправлениями) на основе публикации в авторском блоге[275]. Заголовок публикации сохранен.
В научной работе The Unreasonable Effectiveness of Data («Необоснованная эффективность данных»)[276] авторы, все сотрудники компании Google, утверждают, что происходит интересная вещь, когда массивы данных попадают в вычислительную инфраструктуру (web scale[277]):
Простые модели на основе большого объема данных значительно выигрывают у более сложных моделей на основе меньшего объема данных.
В этой научной работе и более подробной лекции, прочитанной Норвигом[278], авторы демонстрируют: когда размер обучающей выборки доходит до сотен миллионов или триллионов примеров, очень простые модели способны быть эффективнее более сложных, основанных на тщательно разработанных онтологиях, но на меньшем объеме данных. К сожалению, авторы практически не предоставляют объяснений, почему больше данных лучше. В этом приложении я хочу попытаться найти ответ на этот вопрос.
Мое предположение состоит в том, что существует несколько типов проблем и причин, почему больше данных лучше.
- 7.2 Сообщения об ошибках ICMP
- 9.10. Другая документация
- Три акта одной пьесы
- Классы, используемые для управления временем жизни
- Контрольные вопросы
- 2.3. Декларативный смысл пролог-программ
- Сбор информации
- Ежедневное развертывание в компании CSG International (2013 г.)
- Глава 18 Введите Google Адрес, и вас найдут
- 14.8. Небезопасная NFS
- Лекция 2. Критерии объектной ориентации
- Перемещение, копирование и удаление файлов