Книга: Почему

Потребность в причинности

Потребность в причинности

Тысячи лет спустя после эпохального труда Аристотеля о причинности, через сотни лет после того, как Юм сформулировал два ее определения, и десятилетия после того, как автоматизация причинно-следственных выводов стала возможной благодаря новым мощным компьютерам, каузальность по-прежнему остается неразрешенной проблемой. Люди склонны видеть причинно-следственные связи там, где их нет, а наши алгоритмы не имеют «защиты от дурака». Более того, как только мы находим причину, все равно остается трудность использования этой информации для предотвращения или продуцирования определенного результата, поскольку существуют ограничения относительно того, какую именно информацию мы собрали и до какой степени способны ее осмыслить.

Теперь, рассмотрев все случаи, когда методики не работают, а ученые и политики совершают досадные каузальные ошибки, вы можете спросить: а какое нам до этого дело? Мы же более не связаны рамками маломасштабных экспериментов, когда приходится систематически изменять только один объект за раз, чтобы узнать, как работает система. Теперь мы располагаем громадными объемами данных о покупательских привычках, медицинских записях и активности в Сети, и все это – в цифровом формате. Теперь, куда бы вы ни направлялись, можете взять с собой датчик ускорений и GPS «в одном флаконе» (то есть смартфон), а ваша деятельность в Сети отслеживается множеством способов. Природа интернета, распространение электронных медкарт и вездесущие сенсоры сделали возможным генерирование огромного объема информации о великом количестве видов деятельности большего числа людей, чем когда бы то ни было. При таком массиве исходного материала, может, и не слишком важно, как что-то там работает. Можно отыскать информацию для корреляции – и хватит[405].

Когда есть столько информации, да еще такой детальной – последовательность книг, которые приобретает человек; каждый шаг, который он делает; результаты миллионов телефонных звонков в рамках политической кампании, – продавцы могут составлять рекламные объявления в расчете на целевых покупателей, фитнес-центры – оценивать, сколько калорий вы сожгли, а политики – выискивать избирателей, которых можно привлечь на свою сторону. Да, огромный объем данных в самом деле может повысить точность прогнозов, и если все, что мы желаем знать, это кто с большей вероятностью купит пару туфель, увидев рекламу, тогда, возможно, и не важно, как эта реклама работает. Даже если какие-то прогнозы окажутся ошибочными.

В таком случае забудьте про теорию и объяснения механизмов действия; все ответы уже содержатся в имеющихся данных.

Конечно, слово «причина» используется не всегда. Анализ данных может охватывать ассоциации, корреляции, связи, тенденции, взаимоотношения, взаимосвязи и факторы риска. И даже в тех случаях, когда язык каузальности звучит уж слишком туманно, выводы и заключения часто все равно применяются так, как если бы они причинами и были. В конце концов, мы оперируем сведениями, чтобы выяснить вероятный итог и иметь возможность изменить его или проконтролировать.

Даже если вам не приходится анализировать данные такого рода по долгу службы и неинтересно забираться в дебри функционирования девайсов вроде вашего фитнес-трекера, вам все равно не укрыться от результатов аналитической работы, которую выполняют другие.

Стоит ли поддерживать новую политику, предусматривающую снижение страховой премии людям, которые носят шагомеры? Почему мы выбираем одно лекарство, а не другое? Как мы уже видели, корреляции здесь не помогут. Даже если бы мы могли делать безошибочные прогнозы и осуществлять вмешательства на их основе, мы все равно всегда хотим знать, почему происходит то или иное, – и дети со своим назойливым «почему», и взрослые, которым нужно решить, где ошибка и кто виноват.

Ни в коей мере не выступая в роли «реликта ушедшей эпохи», как утверждал больше века назад Бертран Рассел[406],[407], причинность – и способность ее критического осмысления – необходима больше, чем когда-либо, именно сейчас, когда мы собираем эти громадные базы данных. Осознание того, когда можно, а когда нельзя выяснить причину, – умение столь же фундаментальное, как способность читать и писать. Мы проводим миллионы экспериментов, чтобы вычленить какой-нибудь значимый сигнал в горах цифрового щебня, и шансы найти нечто ценное по чистой случайности все растут, как и необходимость скептического отношения ко всем находкам без исключения[408].

Там, где невозможна экспериментальная валидация каждой отдельной находки, на помощь приходит статистика, с помощью которой мнимые открытия можно контролировать (до известной степени). Но знание о том, почему возникают ложные взаимосвязи, также поможет понять, когда полученный вывод – всего лишь корреляция.

Существует неверное понимание, что так называемые большие данные[409] – это всего-навсего больше сведений: больше людей, временных точек, переменных. Но сбор таких данных – это не просто расширение малого массива.

Чтобы получить несколько телефонных номеров, можно просмотреть адресную книгу и методично проверить каждый контакт. Звоня приятелю по телефону, мы точно знаем, кому соответствует этот номер, персональный он или принадлежит всему домовладению, домашний или мобильный. С другой стороны, когда нам нужны миллионы телефонных номеров, мы просто не способны знать каждого человека лично и должны собирать сведения из совокупности таких источников, как коммерческие базы данных и списки обзвона, которые, возможно, устарели или неверны и которые нельзя верифицировать в индивидуальном порядке. Кто-то мог переехать, кто-то зарегистрировал несколько номеров под разными именами, а кто-то просто отключил телефон.

Чем больше данных, тем выше шансы помех и ошибок, поэтому сопоставление не настолько однозначно, как кажется. По сравнению с небольшими контролируемыми наборами сведений возникает больше вопросов о качестве данных и потенциальных источников ошибок, смещений и упущенных моментов. При больших массивах информации переменные сложнее интерпретировать, а данные часто собираются по другим временным графикам.

Вместо того чтобы исчезнуть, становится только насущнее необходимость знать, почему происходит то или иное.

* * *

Мы нуждаемся не только в причинной зависимости, но и в глубоком знании соответствующего предмета, чтобы просто понять, был ли эксперимент успешным, и интерпретировать его результаты.

В ходе одного проекта я анализировала данные пациентов неврологического отделения интенсивной терапии, чтобы выяснить, что вызывает вторичные мозговые травмы у больных с инсультом. Чтобы ускорить исцеление, они содержатся в прохладных условиях, и у некоторых регистрировалась температура тела 20 °C. Этот показатель кажется необычно низким, но у таких пациентов вообще многие показатели аномальные, потому что они серьезно больны. Чтобы понимать, что 20 °C означают очень сильную гипотермию, и скептически отнестись к такому значению, нужно обладать определенными знаниями из области физиологии. А чтобы точно определить, почему зарегистрирована такая низкая температура, требуется еще больше специальных знаний. Многие клиницисты, однако, способны только взглянуть на этот показатель и немедленно понять, что произошло. Температура измеряется катетером, который вводится в мочевой пузырь, поэтому, если катетер выскальзывает, он начинает измерять температуру комнаты, которая как раз составляет около 20 °C. Это очевидно, если взглянуть на ситуацию в ретроспективе, но только тот, кто разбирается в данных и знает, откуда они берутся, способен все объяснить.

Без подобного понимания человек, перед которым просто вывалили беспорядочную кучу информации из базы и сказали «Ройся в ней, как твоей душе угодно», может ошибочно обнаружить, что низкая температура – индикатор улучшения состояния пациента, потому что медсестры после случая с выскользнувшим катетером начинают уделять ему больше внимания и быстро устранять проблемы. Действия на основе подобной корреляции способны стать причиной неэффективных вмешательств, когда охлаждение пациентов приблизится к опасному уровню.

В добавление к необходимости определять корректность значения переменной, узнавать, что она означает и когда ее нет, тоже может оказаться сложнее, чем представляется. Практически все вычислительные методы исходят из допущения, что общие причины измерены и мы располагаем «правильным» набором переменных. Этого, однако, недостаточно, если данные не показательны в отношении истинного состояния переменной или если общее следствие – единственный надежный индикатор того, что причина имела место.

Среди прочего, диагноз может упоминаться в медицинской карте пациента для выставления счета, потому что это предполагаемый диагноз или данные наследственности, а также по иным причинам (например, ошибка копирования)[410]. Даже если значение указано, оно может неэффективно экранировать последствия причины, наличие определенного заболевания отражается неточно, а если не указано, это может быть результатом недосмотра регистратора. Если пациент болен диабетом, но это неадекватно отражено в документации, можно вывести некорректное соотношение между высоким содержанием сахара в крови и инсулином.

В некоторых случаях необходимо обладать обширными знаниями, чтобы проводить различие между переменными, измеренными в разных временных рамках (сюда входят все теоретически измеримые временные точки), и теми, для которых недостает данных. Биллинговые[411] коды в медицинских картах могут сказать, от чего лечился пациент, а иногда в картах содержатся перечни патологических состояний пациента.

Если в ходе одного визита к врачу астма указывается, а в ходе другого нет, как это истолковать? Маловероятно, чтобы астма обладала свойством истинности только в один конкретный момент: это хроническое состояние. Однако пациент мог получать соответствующее лечение только в одном случае (и, следовательно, счет выставили только за этот визит). Все же, чтобы узнать, какие сведения упущены (врач некорректно не указал астму в списке проблем), а какие ложные (острое состояние вроде гриппа со временем ослабевает), нужно понимать не только саму проблему, но и как именно генерируются данные[412].

Наиболее оптимистичный сценарий – когда ошибки представляют собой просто случайные помехи, влияющие на все переменные в равной степени. В реальности, однако, устройства имеют разные уровни помех, а люди могут отвечать на одни вопросы точнее, чем на другие. К примеру, если мы спросим некую группу, курят ли они, одни солгут, а другие решат, что их спрашивают, курят они сейчас или курили ли в прошлом. Измерения артериального давления печально известны своей ненадежностью, поэтому мы можем обнаружить, что лекарство от гипертензии – лучший индикатор, указывающий, страдает ли человек от повышенного давления на самом деле. Конечно, затем мы увидим корреляции между этим препаратом и другими состояниями, а не между гипертензией и сопутствующими патологиями. Необходимы знания в конкретной области, чтобы понять: лекарство – просто индикатор гипертензии, оно не может быть причиной заболеваний.

Наконец, корреляции, выведенные на основе крупных наборов данных, которые изначально не предназначались для научных целей, могут отличаться низким уровнем обобщаемости, ограничивая нашу способность применить новое знание к будущим ситуациям.

В 2010 году ученые проверили, действительно ли пользователи Facebook с большей вероятностью пойдут на выборы в американский Конгресс, если получат информацию о голосовании при входе в соцсеть. И в частности, действительно ли процент пришедших на избирательные участки вырастет, если люди узнают, что их друзья уже проголосовали[413]. Более 60 миллионов человек получили извещения от Facebook с перечнем их друзей, которые указали, что уже проголосовали, а две группы поменьше (примерно по 600 000 человек в каждой) либо получили такую информацию в виде ссылки на местный избирательный участок, либо не получили никакой. Сравнив эти группы и кросс-ссылки с данными голосования, ученые заявили, что, по их оценкам, информирование в соцсети привело к увеличению числа проголосовавших примерно на 60 000 (а по косвенным данным – еще на 280 000).

И все же дополнительные 60 000 избирателей после рассылки извещений 61 миллиону – это прирост голосов менее чем на 0,1 %. Необработанные данные могут выглядеть внушительно, но только наличие громадной соцсети позволило применить подобный нецелевой метод. Если бы его пришлось реплицировать на соцсети меньшего охвата, то, чтобы получить значимую цифру новых голосов, понадобился бы иной, более прямой подход. В действительности фотографии близких друзей оказались намного эффективнее информации о том, что какие-то дальние знакомые посетили избирательные участки, однако фильтр подобного рода потребовал бы сведений о взаимоотношениях между людьми. С учетом слабого эффекта такого подхода, различий между пользователями Facebook и других соцсетей, а также несбалансированных размеров групп нельзя сказать, что это вмешательство эффективно и его можно с успехом использовать на примере других соцсетей или во время избирательных кампаний вне США. Вместо того чтобы отказываться от преимуществ причинности, лучше отказаться от идеи заиметь «черный ящик», который поглощает некий набор данных прямо из их источника и выдает поток причин, не требуя ни интерпретации, ни человеческого вмешательства. Каузальное осмысление необходимо и возможно, однако оно не идеально и, что более важно, требует специальных знаний.

Оглавление книги


Генерация: 1.374. Запросов К БД/Cache: 3 / 1
поделиться
Вверх Вниз