Книга: Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим

Конец теории?

Конец теории?

Большие данные меняют наш подход к познанию мира. В эпоху малых данных мы руководствовались гипотезами о том, как устроен мир, а затем старались проверить их путем сбора и анализа данных. В дальнейшем наше понимание будет зависеть от изобилия данных, а не от гипотез. Получая и анализируя данные, мы увидим связи, о которых и не подозревали раньше.

Гипотезы часто являются продуктом теорий естественных и социальных наук, которые помогают объяснить, а иногда и спрогнозировать события окружающего мира. По мере того как мир переходит от гипотез к данным, велико искушение решить, что теории тоже больше не нужны.

В 2008 году главный редактор журнала Wired Крис Андерсон высказал мнение, что «ввиду огромного потока данных научные методы уже неактуальны». В статье «Век петабайтов» он заявил, что это означает не что иное, как «конец теории». Традиционный процесс научного открытия (проверка гипотезы на достоверность с помощью модели основополагающих причин), по утверждению Андерсона, уже отжил свое и заменен статистическим анализом корреляций, в котором нет места теории.[67]

В подтверждение Андерсон пояснил, что квантовая физика стала практически полностью теоретической областью, поскольку эксперименты слишком сложные, дорогостоящие и слишком масштабные для реализации. Эта теория, как считает Андерсон, уже не имеет ничего общего с действительностью. Чтобы объяснить новый метод, он приводит в пример поисковую систему Google и генетическое секвенирование. «Это мир, в котором большие объемы данных и прикладная математика заменяют любые другие нужные инструменты, — пишет Андерсон. — При достаточном количестве данных числа говорят сами за себя. И петабайты позволяют сказать, что корреляций вполне достаточно».

Статья вызвала оживленное обсуждение, хотя Андерсон быстро отказался от своих смелых заявлений.[68] Но его основная идея достойна внимания. По сути, он считает, что до недавнего времени в стремлении проанализировать и понять окружающий мир нам требовались теории, которые проверялись на достоверность. В эпоху больших данных, напротив, основная идея состоит в том, что нам больше не нужны теории — достаточно взглянуть на данные. Предполагается, что все обобщенные правила (о том, как устроен мир, как ведут себя люди, что покупают потребители, как часто ломаются детали и т. д.) могут утратить свою актуальность, когда в ход идет анализ больших данных.

«Конец теории» позволяет предположить: несмотря на то что предметные области, такие как физика и химия, полны теорий, анализ больших данных не нуждается в каких-либо концептуальных моделях. Но это абсурд!

Большие данные имеют теоретическую основу. При анализе больших данных используются статистические и математические теории, а иногда и теоретические знания из области компьютерных наук. Да, это не теории о причинной динамике того или иного явления (например, гравитации), но все же теории! И, как было показано ранее, модели на основе этих теорий, лежащих в основе анализа больших данных, открывают полезные возможности прогнозирования. На самом деле анализ больших данных может предложить свежий взгляд и новые идеи именно потому, что не обременен рамками традиционного мышления и присущими ему предубеждениями, которые неявно представлены в теориях конкретной области.

Поскольку анализ больших данных основан на теориях, эту основу невозможно игнорировать — более того, нужно признать, что она тоже влияет на результат. Все начинается с того, как мы выбираем данные. Их сбор может быть обусловлен удобством (доступны ли данные) или экономией (можно ли получить данные по дешевке). Наш выбор в данном случае зависит от теорий. Как полагают Дана Бойд[69] и Кейт Кроуфорд,[70] наши находки зависят от того, что мы выбираем. В конце концов, специалисты Google использовали в качестве закономерности условия поиска, связанные с гриппом, а не с размерами обуви. Точно так же, анализируя данные, мы выбираем инструменты, которые опираются на теории. Наконец, интерпретируя результаты, мы снова применяем теоретические знания. Эпоха больших данных отнюдь не лишена теорий — они повсюду, со всеми вытекающими последствиями.

Большие данные не предрекают «конец теории», но принципиально меняют наше представление об окружающем мире. Обществу предстоит еще ко многому привыкнуть ввиду этих изменений. Многие учреждения столкнутся с новыми трудностями. Но огромные преимущества, которые мы получим, делают такой компромисс не только целесообразным, но и неизбежным. При этом следует отметить, как это произойдет. Большинство специалистов в области высоких технологий, поскольку сами занимаются их созданием, сказали бы, что все дело в новых инструментах — от быстрых чипов до эффективного программного обеспечения. Однако эти инструменты не настолько важны, как можно подумать. Более глубокая причина сложившихся тенденций лежит в том, что у нас появилось намного больше данных, так как стало фиксироваться больше факторов действительности. Об этом — в следующей главе.

Оглавление книги


Генерация: 1.987. Запросов К БД/Cache: 3 / 0
поделиться
Вверх Вниз