Книга: Аналитическая культура

Приложение А. О необоснованной эффективности данных: почему больше данных лучше?

* * *


Данное приложение воспроизводится (с небольшими изменениями и исправлениями) на основе публикации в авторском блоге[275]. Заголовок публикации сохранен.

В научной работе The Unreasonable Effectiveness of Data («Необоснованная эффективность данных»)[276] авторы, все сотрудники компании Google, утверждают, что происходит интересная вещь, когда массивы данных попадают в вычислительную инфраструктуру (web scale[277]):

Простые модели на основе большого объема данных значительно выигрывают у более сложных моделей на основе меньшего объема данных.

В этой научной работе и более подробной лекции, прочитанной Норвигом[278], авторы демонстрируют: когда размер обучающей выборки доходит до сотен миллионов или триллионов примеров, очень простые модели способны быть эффективнее более сложных, основанных на тщательно разработанных онтологиях, но на меньшем объеме данных. К сожалению, авторы практически не предоставляют объяснений, почему больше данных лучше. В этом приложении я хочу попытаться найти ответ на этот вопрос.

Мое предположение состоит в том, что существует несколько типов проблем и причин, почему больше данных лучше.

Оглавление книги


Генерация: 1.190. Запросов К БД/Cache: 3 / 1
поделиться
Вверх Вниз