Книга: Почему

Как отыскать причины

Как отыскать причины

Философы с давних пор ищут ответ на вопрос, что такое причина, хотя основные философские подходы к определению каузальности, как и вычислительные методы поиска причин на основе данных, которыми мы сегодня пользуемся, появились не ранее 70–80-х годов XX века. Неясно, будет ли когда-нибудь создана единая теория причинности, тем не менее важно постичь суть этого распространенного понятия, чтобы с большим пониманием размышлять о нем и применять в общении. Любой прогресс в этой области будет иметь важные последствия для развития информационных технологий и других наук. Если, к примеру, каузальные взаимосвязи не единообразны, вероятно, понадобятся разные методы, чтобы их выявить и описать, а также многочисленные эксперименты, чтобы проверить интуитивные взгляды на причинность.

Со времен Юма главный вызов заключался в следующем: как отличить каузальные и некаузальные паттерны осуществления событий? В 60–70-х годах XX века появились три основных метода, построенные на трудах Юма. Следствие редко проистекает от воздействия единственной причины, поэтому Джон Мэки[21] разработал теорию, представляющую собой набор условий, которые совместно производят следствия. Эта теория позволяет лучше исключить некаузальные взаимосвязи, исходя из сложности причин[22]. Точно так же многие каузальные взаимосвязи включают в себя элемент случайности, когда причины просто с большей вероятностью вызывают соответствующие следствия. Причем необязательно, что подобное будет происходить каждый раз (согласно вероятностным подходам Патрика Суппеса[23] и др.[24]). Юм также заложил основы контрфактуального подхода, задача которого – дать определение причины, исходя из того, насколько иными могли бы стать следствия, если бы причина не имела места[25]. Например, благодаря кому-то была достигнута победа в игре, поскольку без усилий этого конкретного игрока победить не удалось бы ни за что.

Кажется, что у всех этих философских трудов нет ничего общего с вычислительными методами, но это не так. Для компьютерщиков этаким святым Граалем в сфере искусственного разума стала возможность автоматизировать человеческое мышление, а ключевым элементом оказалось нахождение причин и формулировка объяснений. Это используется и в робототехнике (роботам нужны модели мира, чтобы планировать действия и предсказывать их последствия), в рекламе (компания Amazon лучше формулирует рекомендации для целевой аудитории, если знает, что заставило вас кликнуть по клавише «купить прямо сейчас») и медицине (врачи отделения интенсивной терапии моментально узнают, почему состояние пациента внезапно изменилось). И все же для разработки алгоритмов (последовательности шагов по решению задачи) мы должны конкретизировать проблему. Чтобы создать программу для выявления причин, требуется их рабочее определение.

В 1980-х годах группа специалистов по информационным технологиям под руководством Джуды Перла[26] доказала, что философские теории, определяющие каузальные взаимосвязи в терминах вероятностей, можно представить графически, обеспечив одновременно визуальное изображение причинных связей и способ кодирования математических зависимостей между переменными. Что еще важнее, эксперты предложили методы построения графических моделей на основе предварительного знания и методов их выведения из имеющихся данных[27]. Эти работы породили множество новых вопросов. Можно ли определить взаимосвязь там, где запаздывание между причиной и следствием – величина переменная? Если сами взаимосвязи со временем изменяются, что мы можем узнать? Кроме того, компьютерщики разработали метод автоматизации поиска объяснений, а также методы тестирования объяснений для каждой модели.

В последние несколько десятилетий заметен существенный прогресс, но многие проблемы по-прежнему не решены – главным образом потому, что нашей жизнью все в большей степени правит информация. Однако вместо тщательно выверенных баз данных, собираемых исключительно в рамках научных исследований, мы имеем дело с громадным массивом неопределенных сведений, полученных в результате простых наблюдений.

Представим на первый взгляд несложную проблему: определить социальный статус людей по данным Facebook. Первая сложность заключается в том, что этой социальной сетью пользуется далеко не каждый, так что вы изучите лишь определенную группу, которая может не быть репрезентативной для населения в целом. Вторая: не все используют Facebook одинаково. Кто-то вообще не указывает статус отношений, кто-то лжет, а кто-то просто не обновляет профиль.

Итак, возникла масса проблем с формулированием выводов о причинных зависимостях. Самые важные заключаются в поиске причин на основе неточных данных или данных, в которых отсутствуют необходимые переменные и результаты наблюдений (если мы не фиксируем фактов курения, не начнем ли выискивать другие условия, вызывающие рак легких?), сложных взаимосвязей (что происходит, когда для наступления следствия требуется целая последовательность событий?), а также причин и следствий нерегулярных ситуаций (что вызвало резкий обвал фондового рынка в 2010 году?).

Что интересно, именно массивы данных, к примеру электронные медицинские карты, сводят на одном поле здравоохранения специалистов как по эпидемиологии, так и по информатике, которые разбираются в факторах, влияющих на здоровье населения. Доступность исторических данных о состоянии здоровья больших групп населения – их диагнозы, симптомы, лечение, экологические условия проживания и многое другое – становится громадным преимуществом для исследователей, старающихся понять факторы, которые влияют на состояние здоровья, а затем использовать это понимание для плановых действий в здравоохранении. Соответствующие вызовы лежат одновременно в области планов клинических исследований (с традиционным упором на эпидемиологические аспекты) и в возможности делать эффективные и достоверные заключения на основе крупных наборов данных (здесь главное место отводится компьютерной науке).

Эпидемиология, с точки зрения стоящих перед ней целей, имеет долгую историю разработки методов выявления причин – начиная с Джеймса Линда, который выборочно обследовал моряков, чтобы узнать причины цинги[28], и Джона Сноу, который обнаружил, что холера передается через зараженную воду[29], до Коха, который выявил связь между бактериями и туберкулезом[30], и Остина Хилла, связавшего рак легких с курением и сформулировавшего инструкции по оценке каузальных утверждений[31].

Медицинские исследования в наше время основываются на данных больше, чем когда-либо в истории. И больницы, и отдельные специалисты, оказывающие врачебные услуги, переводят данные о пациентах из бумажных в электронные форматы, при этом они должны следовать определенным критериям их применения (например, на основе данных принимаются врачебные решения). И все же большинство задач по соответствию этим критериям включает в себя анализ больших и сложных массивов информации, для которого нужны вычислительные методы.

Нейробиологи имеют доступ к обширным объемам информации о мозговой деятельности, содержащимся в записях ЭЭГ и МРТ[32], и для их анализа берутся на вооружение методы из области экономики и информационных технологий. Данные ЭЭГ – это, по сути, количественные, числовые записи мозговой активности, которые структурно не слишком отличаются от информации фондового рынка, сообщающей цены на акции и объемы торгов в динамике. Клайв Грэнджер[33] сформулировал теорию причинности в терминах экономических временных рядов (и получил за это Нобелевскую премию), но сам метод не связан с экономикой и применялся также к другой биологической информации, например к биочипам для анализа экспрессии генов (на их основе измеряется динамика активности генов)[34].

Основная проблема в сфере экономики – определить, поможет ли реализация той или иной программы достичь поставленной цели. Это очень похоже на проблемы общественного здравоохранения, например попытки определить, поспособствует ли ограничение продаж газированных напитков борьбе с ожирением. Эта задача – одна из самых сложных, так как во многих случаях сам факт реализации программы инициирует изменения в системе.

В главе 9 мы увидим, как поспешное внедрение программы по сокращению размера учебных классов в штате Калифорния дало результаты, сильно отличавшиеся от тех, к которым привел первый эксперимент в Теннесси. Вмешательство может иметь положительный эффект при условии, что в остальном обстоятельства остаются прежними, а новая политика изменяет человеческое поведение. Если применение законов об использовании ремней безопасности снизило количество нарушений ПДД, а уровень смертности при этом поднялся, важно определить степень воздействия дорожного законодательства и решить, дать обратный ход жестким нормам или, напротив, ввести новые.

Наконец, для психологов выявление причин – как это работает, насколько по-разному действуют люди и животные, если осмысление дает сбой, – становится одним из ключей к пониманию поведения. Экономисты тоже стремятся понять, почему индивидуумы ведут себя так, а не иначе, в особенности когда дело доходит до принятия решений. Недавно психологи и экономисты совместно применили экспериментальные методы, чтобы изучить интуитивные воззрения на причинные взаимосвязи (в рамках научного направления, именуемого «экспериментальная философия», или X-Phi[35]).

Одна из главных проблем – выявление взаимосвязи между каузальными и моральными суждениями. Если некто подтасовал сведения в заявке на грант и получил финансирование, а другие, честные и достойные ученые – нет, потому что объемы средств ограничены, можно ли сказать, что причина неполучения ими гранта – тот самый мошенник? Стоит задаться вопросом о его виновности и о том, изменились бы наши взгляды на ситуацию, если бы жульничал кто-то другой. Понимание, каким образом формируются каузальные суждения, важно не только для лучшего представления о способе мышления, но и из практических соображений – к примеру, для разрешения разногласий, улучшения отдачи от теоретического обучения и практической подготовки[36] и обеспечения честных судебных разбирательств.

Как вы узнаете из этой книги, невозможно устранить все источники ошибок и смещений. Но реально эффективнее выявлять случаи, когда вмешательство этих факторов возможно, и учитывать последствия.

Оглавление книги


Генерация: 1.266. Запросов К БД/Cache: 3 / 1
поделиться
Вверх Вниз