Книга: Почему

Почему корреляция не причинно-следственная связь

Почему корреляция не причинно-следственная связь

Когда я читала лекцию о причинном осмыслении, один студент задал вопрос: «Разве Юм не утверждал, что причинность – всего лишь корреляция?»

И да, и нет. Да, причинно-следственная связь возможна, но мы не можем знать наверняка. А то, что мы способны наблюдать, – по сути, корреляция (или особый вид закономерности). Это, однако, не означает, что причинность представляет взаимосвязь только потому, что мы способны ее наблюдать. Это говорит еще и о том, что в большинстве работ, связанных с выявлением и оценкой причинных зависимостей, разрабатываются способы отличия каузальных корреляций от остальных.

Это можно проделать на основе экспериментов или статистических методов, но дело не только в том, чтобы выявить корреляцию. В этой книге мы проанализируем ситуации, в которых причинно-следственная связь кажется очевидной, но в реальности ее нет. В последующих главах мы также рассмотрим некоторые случаи, когда соотношения возникают без соответствующей причинной зависимости.

Первое – меры корреляции симметричны. Соотношение роста и возраста в точности соответствует зависимости между возрастом и ростом. С другой стороны, причинно-следственная связь может быть асимметрична. Если кофе вызывает бессонницу, это не значит, что бессонница также должна стать причиной потребления кофе, хотя такое может случиться, когда не выспавшийся ночью человек утром вынужден пить больше кофе.

Точно так же любая мера значимости причин (например, условные вероятности) отличается в двух направлениях. Если мы выявили корреляцию, не имея никакой информации о том, какой фактор имеет место в начале, то с равной вероятностью каждый из них может оказаться причиной другого (или будет наличествовать петля обратной связи), а мера взаимосвязи сама по себе не дает представления о различиях между двумя (или тремя) возможностями.

Если мы попытаемся придумать историю причинной взаимосвязи для пары коррелирующих вещей, нам придется, основываясь на базовых знаниях, предположить, какая из них, вероятнее всего, повлечет за собой другую. Например, даже если пол человека связан с риском инсульта, трудно представить, чтобы инсульт определял пол. Но если мы выявили соотношение между набором веса и пассивным образом жизни, никакие данные о том, как коррелируют эти факторы, не скажут о направленности найденной взаимосвязи.

Ошибочные корреляции могут возникать по многим причинам. В случае с СХУ и вирусом XMR соотношение возникло из-за загрязнения экспериментальных образцов. В других ситуациях это мог быть баг в компьютерной программе, ошибки в расшифровке результатов или некорректный анализ данных. Видимая связь может также возникнуть из-за статистических отклонений или простого совпадения, как в примере с фондовым рынком и футболом. Но есть еще одна причина – необъективность. Иногда, если выборка нерепрезентативна, мы можем увидеть корреляцию там, где ее нет. Точно та же проблема приводит к обнаружению соотношения и без причинной зависимости.

Важно понимать, что причинно-следственные связи не единственное, хотя и возможное в ряде случаев, объяснение корреляций. К примеру, мы нашли соотношение в ситуации, когда человек, съевший плотный завтрак, вовремя успевает на работу; однако, вероятно, оба фактора имеют общую причину: человек рано встал, а значит, у него было время хорошо позавтракать, вместо того чтобы в спешке бежать на службу. Выявив корреляцию между двумя переменными, нужно проверить, способен ли подобный неизмеренный фактор (общая причина) объяснить эту взаимосвязь.

В ряде случаев (о которых мы поговорим в главе 4) таким общим фактором оказывается время. Можно обнаружить множество ошибочных корреляций между факторами с устойчивыми по времени тенденциями. К примеру, если количество пользователей интернета всегда увеличивается и национальный долг – тоже, эти факторы будут взаимосвязаны. Но в целом мы ссылаемся на переменную или набор переменных, объясняющих корреляцию. Например, можно задуматься: действительно ли усердное учение обеспечивает лучшие оценки, или более вероятно, что лучшие студенты и усердно учатся, и получают высокие оценки. Возможно, врожденная способность становится общей причиной и оценок, и времени, проведенного за учебниками. Если бы была возможность изменить способность, это могло повлиять и на оценки, и на время обучения, но любое экспериментирование с оценками и усердием в учении не оказало бы никакого воздействия на два других фактора.

Аналогичная причина корреляции без прямой причинной зависимости – промежуточная переменная. Скажем, проживание в городе соотносится с низким индексом массы тела (ИМТ), поскольку горожане больше ходят, чем ездят на машине, и проявляют высокую физическую активность. Таким образом, жизнь в городе косвенно приводит к низкому ИМТ, однако переезд в город и постоянное использование транспорта – плохая стратегия для желающих похудеть. Большую часть времени мы ищем косвенные причины (например, курение вызывает рак легких, а не особые биологические процессы, посредством которых и происходит воздействие), но, если знать механизм (как именно причина производит следствие), можно найти лучшие пути для вмешательства.

Наконец, агрегированные данные могут приводить к странным результатам. В статье за 2012 год в журнале New England Journal of Medicine рассказывалось о поразительном соотношении между количеством шоколада на душу населения и числом Нобелевских лауреатов на 10 000 000 жителей[126]. Коэффициент корреляции составлял 0,791. Этот показатель возрос до 0,862 после исключения статистики по Швеции – стране, давшей гораздо больше лауреатов престижной премии, чем ожидалось, судя по статистике потребления шоколада.

Заметим, однако, что данные о шоколаде и Нобелевских премиях были взяты из различных источников, где каждая страна оценивалась отдельно. Это означает, что на самом деле мы не имеем ни малейшего представления, действительно ли потребители шоколада и лауреаты Нобелевки – представители одной и той же группы. Далее, количество награжденных – лишь малая доля населения, а значит, несколько дополнительных премий могли драматичным образом изменить расчеты. Большинство сообщений об отмеченной корреляции фокусировалось на потенциальном наличии причинной взаимосвязи между потреблением шоколада и получением награды, подавляя заголовками вроде «Шоколад делает нас умнее!»[127]; и «Хотите Нобелевку? Ешьте больше шоколада!»[128]. Работа ученых, однако, не поддерживает ни одно из подобных утверждений, и страны с большим числом лауреатов могли просто отметить это событие увеличенным количеством шоколада (не будем забывать, что коэффициент корреляции симметричен).

Более того, мы не способны ничего сказать о том, действительно ли любовь к шоколаду улучшит шансы на победу, если страны будут стимулировать его потребление у своих граждан, или этот продукт – просто индикатор иного фактора, к примеру экономического положения. Если нужны дополнительные причины, чтобы скептически отнестись к этой корреляции, вот еще факт.

Ученые, специально старавшиеся продемонстрировать всю глупость попыток интерпретировать взаимосвязь как причинно-следственную без дальнейших исследований, обнаружили статистически значимое соотношение между популяцией аистов и уровнем рождаемости[129].

Да, к исследованию про шоколад можно отнестись с юмором. Но подобный вид агрегированных данных часто используется для установления корреляции среди населения, и, по всем указанным причинам, эти данные особенно сложно использовать. Сведения за большой временной интервал несколько упростят задачу (например, росло ли потребление шоколада перед присуждением премий), но все равно придется учитывать разнообразные события, которые могут быть поводом для изменений (например, внезапный рост потребления шоколада и одновременная смена образовательной политики). Кроме того, Нобелевские премии часто присуждаются гораздо позже, чем случаются соответствующие события. Может найтись огромное количество иных условий, которые сформируют аналогичные корреляции. Если говорить об этом исследовании, «анализ по горячим следам» выявил еще одну забавную связь – между Нобелевскими премиями и молоком[130].

Оглавление книги


Генерация: 1.838. Запросов К БД/Cache: 3 / 1
поделиться
Вверх Вниз