Книга: Почему
Оценка каузального утверждения
Разделы на этой странице:
Оценка каузального утверждения
Не существует однозначного теста на причинную зависимость, работающего во всех случаях, однако на практике все равно приходится делать и оценивать каузальные утверждения.
Правдиво ли заявление, что телешоу 16 and Pregnant на канале MTV снижает уровень подростковой беременности в регионах, где его показывают?[366]
Никто не проводил рандомизированного эксперимента по просмотру этого телешоу, и по большей части мы даже не знаем, смотрели ли его конкретные люди. Хотя теоретически можно случайным образом создать выборку молодых людей, любящих различные телешоу, подростковая беременность – явление не слишком распространенное, так что создавать достаточно крупную выборку для анализа следствия нерационально.
Мы обсуждали, как с успехом проводить выборочные эксперименты для выявления причин, однако во многих ситуациях это невозможно, и приходится оценивать другие доказательства, чтобы определить вероятность причинного характера зависимости. Есть различие между тем, что мы можем узнать посредством совершенного, идеально спланированного выборочного эксперимента, и данными любого реального эксперимента, который может выполняться не «вслепую», на базе малой выборки и большинство участников которого не доходят до его конца.
Кроме того, неправда, что ВКЭ (выборочный контролируемый эксперимент) в любом случае и наверняка превосходит любое исследование методом наблюдения[367]. Если речь о том, что конкретный человек должен сделать выбор между различными вариантами лечения, долговременное наблюдение пациентов с аналогичными характеристиками может дать более ценную информацию, чем эксперимент на основе небольшой группы без сопутствующих патологий, как у этого человека, и о которых нельзя сказать, что после приема нескольких других лекарств не было никакого эффекта, как у него. Здесь мы как раз имеем дело с проблемой внешней валидности, которую рассматривали в главе 7.
Если ВКЭ неприменим в обстоятельствах, которые мы измеряем, то его результаты для этой цели не будут лучшими доказательствами. Даже если условия аналогичны: то, что реально в рамках исследования наблюдением (где можно повторно использовать данные, например, из электронных медицинских карт), будет отличаться от условий ВКЭ. Если мы хотим узнать, какое влияние оказывают на старение годы постоянных занятий спортом, чтобы разработать государственную политику в этой области, тогда данные наблюдений за 50 лет за десятками тысяч людей могут быть полезнее, чем двухлетний ВКЭ с сотней участников. Хотя ВКЭ позиционируется как золотой стандарт подтверждающей информации для каузальных утверждений, мы можем научаться причинности и без исследований, но для этого нужно знать, как оценивать неэкспериментальные свидетельства[368].
* * *
В 1960-х годах Брэдфорд Хилл разработал ряд факторов для оценки каузальных утверждений[369]. Их, однако, иногда неверно трактуют как набор критериев, или чек-лист, для определения причинности. Не каждый аспект необходим (может иметь место причинно-следственная связь, где не каждое свойство истинно), а полный их набор – достаточен (даже при ложной каузальной зависимости могут присутствовать все свойства), но этот метод предоставляет набор объектов для анализа в тех случаях, когда эксперимент невозможен, и увязывает воедино множество рассмотренных теорий[370].
Набор факторов можно приблизительно поделить на указывающие значимость причины для следствия (сила, последовательность, биологический градиент) и дающие информацию о механизме действия (специфичность, временной характер, правдоподобность, логическая связность, эксперимент, аналогия). Хотя предложенный список не соответствует в точности порядку Хилла, я привожу его расшифровку, чтобы лучше ориентироваться в соответствующих статьях[371]. Мы рассмотрим каждый из факторов и сформулируем некоторые вопросы для анализа и оценки.
Сила
Если указание калорийности в ресторанных меню снижает содержание калорий в блюдах, заказанных посетителями, тогда жирность блюд, заказанных в местах, где посетителям дают такие сведения, и теми, где не дают, должна существенно различаться.
Аналогично, если уровень рождения детей у юных матерей в регионах, где показывают телешоу о подростковой беременности, лишь ненамного ниже показателей для регионов, где такое шоу не идет, утверждение, что телепередача реально меняет показатели беременности, будет менее убедительно.
С другой стороны, если и потребление калорий, и показатели беременности значительно снижаются в обоих случаях, тогда это будет более весомым доказательством причинно-следственной связи. Этот метод тесно связан с вероятностными подходами к причинности (см. главу 5), определяющими шансы следствия после причины, а также с мерами силы причинно-следственной связи (из главы 6). Сила может означать, что событие становится гораздо более вероятным (информация о калорийности существенно увеличивает шансы на то, что клиенты закажут нежирные блюда) или что следствие будет иметь больший эффект (информация о калорийности приводит к пятидесятипроцентному снижению жирности блюд).
Однако отсутствие сильных связей не означает отсутствия каузальной зависимости. Возможно, сама причина не имеет достаточной силы – например, когда пассивное курение вызывает рак легких в гораздо меньшей степени, чем непосредственное. Это пример случая, когда причина слаба, но детерминирована: диета приводит к потере веса у любого, кто ей следует, но все теряют лишь небольшую долю массы тела в процентном отношении. Могут также существовать подгруппы, которые еще не идентифицированы: к примеру, информация о калорийности эффективна только для людей, которые уже считают калории. Если проанализировать данные для каждого, связь может показаться незначительной.
Точно так же мы обсуждали множество сильных корреляций, возникающих без соответствующей причинной зависимости. Один из примеров – синдром Дауна и очередность рождения детей в семье. Очередность рождения дает определенные сведения о возрасте матери (в среднем женщины, рожающие четвертого ребенка, старше первородящих) и, следовательно, сильно связана с синдромом Дауна, но не служит его фактической причиной[372]. Действительно ли сила корреляции – убедительное доказательство каузальности, зависит от того, брались ли эти возможные общие причины в расчет и могут ли они объяснить связь между следствиями[373].
Если мы наблюдаем сильную корреляцию, возникает ряд вопросов, среди которых можно назвать следующие.
• Асимметрична ли зависимость (почему мы убеждены, что одно – причина, а другое – следствие)?
• Можно ли объяснить корреляцию общей причиной двух переменных?
• Возможно ли отнести это на счет методологических проблем (ограниченный диапазон, смещение выбора, ошибка)?
• Верно ли, что другие факторы, которые мы игнорируем, сильно коррелируют со следствием?
• С учетом данных временных рядов можно ли объяснить взаимозависимость нестационарностью обеих переменных (возможно, со временем они приобретают одинаковую восходящую тенденцию)?
Последовательность (повторяемость)
Если информация о калориях действительно снижает их потребление, такой результат должен быть подтвержден многими исследователями, которые используют разные методы, и должен быть истинным для большого количества ресторанов. Хотя это не совсем похоже на закономерности в теориях Юма и Маки, однако есть сходство: истинное причинное взаимоотношение должно наблюдаться не однократно, а во множестве экспериментов. Как мы говорили в главе 7, результаты могут не реплицироваться по разным причинам. Однако, выяснив, что информация о калориях не ведет к снижению жирности заказанных блюд во многих городах с различными группами населения (что утверждается учеными, применявшими несхожие методы), скажем: скорее всего, такой вывод не случайность. Вариации, имеющие место при повторении экспериментов, естественным образом повышают надежность утверждений о силе причинной взаимосвязи. С ними контрастирует постулат, что подсчет калорий привел к снижению жирности блюд в кофейнях в конкретном городе.
Непоследовательные результаты также можно использовать для опровержения причинных выводов, кажущихся сильными. В результате анализа множества статей о том, снижает или повышает та или иная пища риск заболевания раком, были найдены доказательства как за, так и против для почти любого протестированного продукта[374]. Кто угодно может избирательно выдрать из контекста литературы на эту тему факты, убедительно поддерживающие любое утверждение: всеобъемлющий же анализ покажет несостоятельность такого тезиса. Точно так же ложноположительные выводы одномоментной проверки множества гипотез (так что по чистой случайности одна из них может показаться значимой) не будут отличаться повторяемостью.
Если утверждение непоследовательно, какие можно сделать выводы? Возможно, важные свойства, необходимые, чтобы признать причину эффективной, присутствовали в одном месте, но не в другом. Например, многочисленные укусы москитов не обязательно вызывают малярию, поскольку заражение наступает только в том случае, если эти москиты – переносчики инфекции. Если неизвестны ключевые свойства эффективности, следствие может непредсказуемо варьироваться. Отметим, что непоследовательные результаты эксперимента не то же самое, что непоследовательность самой причины. Как и в случае с малярией, возможно, изученные группы населения существенно разнились.
Последовательные заключения все равно могут быть следствием ошибки или недосмотра, общих для всех экспериментов. К примеру, если в исследованиях фиксировалась только очередность рождения, но не возраст матери, сильно влияющий на итог, связь между очередностью и синдромом Дауна будет последовательна, но не каузальна.
Точно так же во всех исследованиях может наблюдаться одна и та же математическая погрешность, или же в них используются одни и те же загрязненные образцы.
К вопросам для оценки последовательности причинной взаимосвязи относятся такие[375].
• Имела ли место значимая вариация участников или методов эксперимента, которая может объяснить неудавшуюся репликацию?
• Насколько последовательны значения силы следствия в рамках всех исследований?
• Достаточным ли был исследовательский аппарат, чтобы выявить следствие?
• Были ли различные исследования независимыми (или у них были общие источники финансирования, например, одна и та же фармацевтическая компания оплачивала оба испытания)?
Специфичность
Если бы я сказала, что одно лекарство лечит рак, обычную простуду и малярию, это показалось бы совершенно невероятным. С другой стороны, мы знаем, что курение вызывает массу негативных последствий разной степени тяжести для здоровья.
Специфичность имеет отношение не просто к тому, как варьируются следствия некой причины, но и к силе влияния причины на каждое следствие. Это не означает, что причина обязана иметь единственное следствие (это крайне неправдоподобно). Более специфичная зависимость может дать более сильное подтверждение – в противовес тому, когда причина кажется очень важной, но теряет значимость среди множества следствий. Например, одно лекарство не сможет полностью исцелить много разных болезней, но окажет основное воздействие на одну из них и менее выраженное – на прочие. Точно так же, если некто заявил бы, что катание на велосипеде снижает смертность, это показалось бы неправдоподобным. С другой стороны, более достоверно утверждение, что велосипедный спорт снижает главным образом риск ожирения и смерти от сердечно-сосудистых заболеваний.
В некотором смысле специфичность также имеет отношение к тому, насколько непосредственна зависимость, о которой мы судим. Здесь могут иметь место весьма тонкие взаимосвязи: к примеру, электронные сообщения с просьбами о пожертвованиях на избирательную кампанию, рассылаемые в среду утром, дают больше средств, чем отправленные в субботу вечером. Сравните это с утверждением, где просто говорится, что рассылка электронных писем связана с увеличением собранных средств.
Специфичность зависит от уровня знаний. Если нам мало известно о том, как работает причина и каковы ее основные следствия, мы, возможно, обнаружим только очень косвенные ее доказательства (например, если проанализировать только уровень смертности курильщиков по сравнению со случаями рака легких и их летального исхода). Специфичность не необходимое условие, но сильная прямая зависимость воспринимается с большей готовностью, чем косвенная. В целом, однако, она считается одним из наименее важных критериев[376].
Правдоподобность множества следствий зависит от механизма гипотетической взаимосвязи. Если мы думаем, что защитный эффект велосипедных шлемов заключается в том, что они сокращают вероятность травмы головы, заметное снижение показателей подобных травм при минимальном влиянии на другие виды повреждений будет более убедительно, чем уменьшение риска всех травм. Падение общего количества повреждений можно также объяснить тем, что носители шлемов – более осторожные или опытные велосипедисты, которые с меньшей вероятностью травмируются[377].
Таким образом, специфичность нужно рассматривать совместно с силой взаимосвязи, принимая в расчет предыдущее знание.
• Вызывает ли причина разнообразные следствия, идентичные по силе?
• Что можно сказать о степени следствий этой причины по сравнению с тем, что ожидалось?
Временной характер
Привело ли сокращение подростковой беременности к увеличению просмотров телешоу на эту тему или все было как раз наоборот?
Как мы подробно обсуждали в главе 6, порядок событий – ключ к причинности. Порой, однако, неизвестно, что было сначала: телефонные звонки изменили настрой избирателей или все дело заключалось в грамотно составленном списке на обзвон, поскольку предпочтения голосующих были спрогнозированы исходя из результатов анализа демографических данных?
Упорядочивание последовательности событий – ключ к определению истинного направления причинно-следственной связи.
К примеру, симптомы заболевания, выявленные на ранней стадии, могут предшествовать постановке диагноза, однако в действительности это болезнь вызывает симптомы. Порядок вмешательства и результат видны в выборочном эксперименте, и их также можно узнать из наблюдательных данных по временным рядам (допуская, что измерения проводились достаточно регулярно, если А происходит перед B, это наблюдается последовательно). Однако подобное соображение может создать проблемы при исследованиях единовременных событий. Подобные перекрестные эксперименты делают «моментальный снимок» выборки: к примеру, людей спрашивают, где они живут и какими аллергиями страдают. Но это лишь скажет о ситуации в конкретный момент, и мы не сможем узнать, имел ли некто это заболевание до того, как переехал, и не спровоцировал ли проблему именно переезд.
Хотя приоритет по времени означает, что причина была перед следствием, мы также должны учитывать, сколько времени прошло между ними. Правдоподобность большого временного интервала зависит от уже имеющихся знаний. Если вы видите, как кто-то хочет спуститься по крутому желобу-горке для катания, вы ждете, что он окажется внизу гораздо быстрее, чем если бы горка была менее крутая, так что длительная задержка неправдоподобна в первом случае, а короткая – во втором. Мы могли наблюдать это в психологических исследованиях (см. главу 4), когда участники считали причинную взаимосвязь более вероятной при коротком запаздывании, за исключением случаев, когда им было известно, что механизм действия срабатывает медленнее. Если воздействие асбеста и развитие онкологического заболевания разделяет интервал всего в одну минуту, это крайне невероятно. А вот минута между прочтением информации о калорийности и изменением заказа вполне правдоподобна.
Аналогично, даже если причина случается перед следствием, она вполне может оказаться не единственной вещью, которая тогда произошла. Если расчет калорий представлен в то самое время, когда рестораны вносят кардинальные изменения в свои меню, трудно сказать, какое событие отвечает за перемены в поведении клиентов. К примеру, в некоторых работах утверждается, что учителя начальной школы могут влиять на уровень заработной платы бывшего ученика спустя десятилетия[378]. Чтобы подтвердить достоверность этого, мы должны иметь определенные доводы в пользу существования некоего следствия, действие которого тянется с самого детства (и приводит к другой цепочке событий, связанных с зарплатой), что оно не искажается общей причиной и не объясняется другими промежуточными причинами.
Вне зависимости от того, наблюдаем ли мы причину, происходящую до следствия, ключевые соображения будут такими.
• Корректен ли видимый порядок событий, нет ли искажения или какой-нибудь погрешности в методе сбора данных?
• Достоверна ли задержка по времени с учетом возможного механизма действия причины?
• Если есть длительная задержка, нельзя ли отнести следствие на счет других факторов, вмешивающихся в ход событий после гипотетической причины?
• И наоборот, не произошли ли примерно в то же время другие события, способные объяснить следствие?
Биологический градиент
Можно ли сказать, что чем больше причина, тем больше и следствие? Именно на этом основан метод сопутствующих изменений Милля[379]: если доза причины растет, реакция, которую она вызывает, также должна расти. Риск заболевания возрастает, если рабочие проводят больше времени в условиях загрязнения асбестом, поскольку его воздействие на организм увеличивается. С другой стороны, кажется неправдоподобным, что именно один бокал вина в день – доза, полезная для здоровья, поскольку маловероятно, что тело настолько чувствительно к чуть большему или чуть меньшему количеству вина.
«Доза» может также относиться к расстоянию: например, насколько близко к зараженной водяной колонке проживали обитатели Лондона, когда Сноу обнаружил, что в ней кроется причина заболевания холерой[380]. Если каждый из проживающих на приличном удалении имел аналогичный риск заражения, это стало бы менее убедительным доказательством, чем если бы риск снижался с удалением от означенной колонки.
Если воздействие на человека меняется (он прекращает принимать лекарство, бросает курить, кладет в пищу меньше соли), это также должно изменять побочные эффекты, риск рака и гипертензии, если их причиной служит воздействие фактора риска. Но тогда необходимо допустить, что следствие не носит постоянного характера.
И все же здесь также применимы те же оговорки, что и в методе Милля. В случае с алкоголем и заболеванием сердца риск становится выше как при низком, так и при высоком уровне потребления, а снижается где-то посередине, и многие биологические зависимости характеризуются J-образной кривой подобного типа (как показано на рис. 5.1), когда риск выше при низкой дозировке, снижается к середине, а потом быстро растет по мере роста кривой.
Ключевые вопросы таковы.
• Как количество (или вероятность) следствия изменяется при различных значениях причины?
• Если мы можем контролировать воздействие на человека, изменит ли это для него риск или исход?
• Насколько точно измерена доза?
Правдоподобность и логическая связность
Если исходить из того, что нам известно на сегодня: существует ли потенциальный механизм, способный связать причину и следствие?[381]
Если мы предположим, что избыточное потребление кофе приводит к преждевременной смерти, в это поверить было бы гораздо легче, имей мы понятие о том, как это может быть, которое вписывалось бы в рамки наших текущих знаний в области биологии. К примеру, если избыток кофеина вызывает у людей нервозность и снижает понимание текущей задачи, они, видимо, будут чаще попадать в аварии. С другой стороны, если мы решим, что в тот момент, когда президент появляется на публике в одежде теплых оттенков, рынок идет вверх, а холодные тона пригибают цены вниз, разрыв между нашими знаниями о рыночных механизмах и этим допущением будет слишком велик.
Согласно Хиллу, правдоподобность не абсолютно необходимый фактор – главным образом потому, что наши знания могут оказаться ошибочными и мы, возможно, просто не понимаем, как работает новая причина.
Однако важность наличия гипотетического механизма, посредством которого причина могла бы произвести свое следствие, подчеркивали и другие ученые[382]. В конце концов, мы и не можем требовать подобного доказательства, однако оно повысит доверие к нашим выводам. Чем необычнее взаимосвязь, тем больше требуется информации в ее поддержку.
И аналогично: считается ли потенциальная зависимость логически связной, если исходить из имеющегося знания? Не противоречит ли она общепринятым фактам, совместима ли с нашим знанием?
Это, конечно, не крайний аргумент, так как наше знание может быть неверным. Если, однако, возможная причинная зависимость идет вразрез со всем, что нам известно из области физики, включая закон притяжения, тогда следует проявить достаточный скептицизм[383].
Стоит, однако, иметь в виду разницу между логической связностью и правдоподобностью. Правдоподобность означает: мы можем осознать, что взаимосвязь сработает, исходя из того, что нам известно. Что касается логической связности: мы можем не иметь представления о том, как причина производит следствие, однако связь между ними не противоречит нашим знаниям. Когда Сноу впервые обнаружил связь между зараженными водяными колонками и холерой, идея, что в грязной воде содержатся крошечные бактерии, шла вразрез с преобладающей точкой зрения, будто болезнь вызывается зараженным воздухом.
Итак, наша идея о том, что – логически связное, а что – возможное, со временем трансформируется, потому что меняются и наши знания.
Оценивая правдоподобность и логическую связность корреляции, мы должны также оценить то, что, по нашему мнению, знаем. И если новая взаимосвязь этому противоречит, в какой степени мы уверены в том, что наши знания (по нашему мнению) верны?
Эксперимент
Если мы вмешиваемся, чтобы включить в цепочку событий причину или повысить ее воздействие, наступит ли следствие?
Основное отличие между этим вопросом и другими в том, что здесь требуется активно манипулировать чем-то, в то время как иные соображения могут быть основаны на чистом наблюдении. Эксперименты, однако, не обязаны представлять собой выборочные контролируемые тесты на людях. В некоторых случаях это невыполнимо, или же понадобится слишком много времени, чтобы сделать вывод; поэтому результаты получают посредством изучения инвитро[384] или на животных. К примеру, не было экспериментов, где бы людей заставляли курить, но исследования, доказавшие, что табачная смола, нанесенная на уши животных, провоцировала рак этой части тела, предоставили убедительные доказательства возможной канцерогенности компонента в составе сигарет. Экспериментирование дает возможность усилить связь между тем, что вызывает вмешательство, и тем, что из него следует. Таким образом, если существует общий мотив как фиктивной причины, так и следствия, манипулирование фиктивной причиной не окажет никакого воздействия.
Мы обсуждали в главе 7, что, скорее всего, не сумеем увидеть истинную каузальную взаимосвязь исходя из эксперимента (например, если размер выборки слишком мал) или обнаружим мнимую корреляцию (как в неслепых выборочных экспериментах). Что касается исследований на животных, даже если результаты окажутся положительными, придется тщательно проанализировать имеющиеся доказательства в пользу того, что причина здесь работает так же, как и в изученных системах, и у людей. К примеру, методы лечения сепсиса, которые должны были работать, если исходить из тестов на мышах, оказались безуспешными для людей. В результате возник вопрос, а действительно ли мыши – хороший аналог для изучения человеческих воспалительных заболеваний[385].
Если эксперимент не предусматривает участия людей или проводится инвитро, важно определить репрезентативность модели с точки зрения механизма действия причины на людей.
Аналогия
Наконец, если известна сходная причинная взаимосвязь, стандарты доказательств могут быть понижены, так как когда-то уже было показано, что эта причина способна произвести предполагаемое следствие.
Скажем, мы узнали, что указание содержания калорий в ресторанной еде ведет к снижению жирности заказываемых блюд. Тогда мы скорее поверим, что информация об этом способна менять поведение, так как нам уже известно о подобном влиянии. В других примерах вирус стал считаться более правдоподобной причиной различных видов рака после получения данных о том, что папилломавирус человека вызывает определенные виды рака шейки матки.
Эта аналогия позволяет также использовать результаты экспериментов над животными, чтобы лучше понимать людей или соотносить системы различных масштабов.
Мы должны оценить, насколько близко соответствие экспериментальных установок и интересующей нас системы. Точно так же необходимо проверить, какими доказательствами мы обладаем, применяя к одному сценарию то, что стало известно на основании другого.
* * *
Не забывая о том, что нет никакого чек-листа причинности и набора критериев, которые должны или удовлетворяются в любых случаях, скажем, что эти свойства увязывают вероятностные, механические, интервенционные и экспериментальные методы в единую группу объектов, которые необходимо учитывать. Кроме того, в каждом случае следует учитывать качество информации.
Выборочные эксперименты могут проводиться с нарушениями, выявленные связи – проистекать из смещения выборки, а животные модели – не подходить для конкретного заболевания. Стандарты доказательств также зависят от того, какой именно аргумент используется в поддержку некоего утверждения, а также от потенциальных рисков и затратности итоговых действий. Философы разработали теории аргументов, чтобы описать, каким должно быть доказательство научной гипотезы. Правда, все эти теории в целом очень отличаются от того, как на самом деле ученые рассматривают и используют факты, и часто игнорируют роль контекста, в котором используется конкретное доказательство[386].
К примеру, стандарты аргументов будут выше в судебном разбирательстве по делу об убийстве, чем при попытке узнать, кто из детей разбил вазу, так как последствия ошибки в первом случае намного тяжелее, чем во втором. Малоубедительное утверждение, что ежедневная плитка шоколада улучшает настроение, может оказаться достаточным для человека, который хочет продолжать есть шоколад, но неубедительным, чтобы разработать программу питания, цель которой – заставить всех каждый день есть шоколад.
- 7.6. Оценка эффективности рекламного текста
- Глава 6 Оценка эффективности тренинга
- Пакеты: оценка
- Оценка кредитоспособности организации-клиента
- 3.3. Оценка системы мотивации
- 3.3.2. Оценка информационной безопасности на основе модели зрелости процессов
- Инструкция утверждения
- Глава 3 Оценка эффекта и эффективности мероприятий по стимулированию
- 9. Оценка эффективности email-маркетинга Как повысить продажи с помощью простых инструментов
- Мониторинг и оценка
- Утверждения как средство для написания корректного ПО
- 6.3. Контроль реализации плана маркетинга и оценка его эффективности