Книга: Почему
Воспроизводимость
Воспроизводимость
Мы рассматривали массив электронных медицинских записей, чтобы выявить факторы риска застойной сердечной недостаточности, и поняли, что главным можно назвать диабет. Но, когда мы повторили эксперимент, взяв данные по второй выборке, не нашли никакой связи с диабетом, обнаружив вместо этого фактором риска назначение инсулина[301]. Как интерпретировать такое расхождение?
Попытки репликации эксперимента с использованием аналогичной технологии в точно таких же условиях очень важны, чтобы методика была хорошо задокументирована, а сделанные на ее основе выводы стабильны. Отметим: это не воспроизведение вариации исследования, чтобы обобщить тест. Один из примеров репликации – совместный доступ к компьютерным кодам, необработанным данным и этапам выполнения операций. Если кто-то еще сможет воспроизвести на этой основе аналогичные результаты, анализ можно считать реплицируемым. Идеальное повторение довольно сложно выполнить, поскольку любые малые изменения легко вызывают весомые различия в ряде экспериментов. Даже если речь идет о компьютерной программе, которая, кажется, должна вести себя одинаково при каждом запуске, невыявленный баг может стать причиной ее непредсказуемого поведения.
Однако, говоря о репликации в научной сфере, мы часто имеем в виду именно воспроизводимость. То есть хотим знать, получат ли другие экспериментаторы результаты некоего исследования с иными вводными, если обстоятельства будут несколько отличаться[302]. Это даст более строгие доказательства того, что заявленные результаты не были случайностью.
К примеру, в ходе изучения было обнаружено, что настроение детей улучшалось сильнее, если они получали 50 граммов шоколада, чем после угощения морковью. Главный вывод – шоколад делает детей счастливее, чем овощи; поэтому в другом эксперименте этот результат может быть получен на примере конфет M&M’s и брокколи, а в третьем это будут Hershey’s Kisses и сладкий картофель. Ни один из них не будет репликацией первого исследования, но все воспроизводят главный вывод (шоколад приносит больше удовольствия, чем овощи).
Воспроизведение результатов особенно важно при исследованиях методом наблюдений (где невозможность сделать это может говорить о наличии неизмеренных общих причин), но репродукция выводов экспериментальных изысканий также может стать способом получения обобщаемого знания. С учетом множества решений, принимаемых в рамках изучения, неудачные попытки воспроизвести результаты могут стать признаком потенциальных источников смещений или даже нарушения условий эксперимента.
В последних работах проскальзывает беспокойство из-за неудачных репродукций ключевых выводов. Фармацевтические компании утверждают, что удалось воспроизвести всего 20–25 % мишень-ориентированных препаратов, упомянутых в научных материалах[303]. В другом исследовании выяснили, что только 11 % выводов из 53 ключевых экспериментов в области рака обладали воспроизводимостью[304], а статистика по нескольким примерам из области наблюдательных исследований еще хуже[305]. Пытались в психологии репродуцировать выводы высокопрофильных исследований (часто формирующие базу для изысканий) – аналогичный эффект[306].
Но отчего истинная причинная зависимость, выявленная в одном эксперименте, не обнаруживается в другом?
Помимо проблем с подтасовкой и ненамеренными ошибками (к примеру, опечатка в электронной таблице[307] или загрязнение лабораторных образцов), воспроизведение истинного взаимоотношения не так однозначно, как кажется. В случае с исследованием сердечной недостаточности условия репродукции результатов были соблюдены, однако потребовалась масса базовых знаний по значению переменной. Когда диагнозы диабета соединили в единый структурированный формат с временем их постановки, обнаружилась связь с болезнью сердца. Во второй выборке причиной оказался препарат инсулина. Дело в том, что лекарства были одним из нескольких сохраненных атрибутов, поэтому как их временной паттерн, так и факт присутствия/отсутствия оказались более определенными параметрами. В медицинских исследованиях с использованием больничных карт проблематично было даже выяснить достаточно определенно, кто и в каком состоянии находился.
Но в разных местах не всегда можно собрать одинаковые данные.
Скажем, воспроизведение не удалось. Значит ли это, что первый вывод оказался ложноположительным или просто он менее генерализован, чем ожидалось? Может, вывод не должен репродуцироваться на базе конкретной выборки. Например, в силу того, что исследования выявили культурные различия в причинном осмыслении, некий фактор может реально влиять на него в одном месте, но аналогичный результат нельзя воспроизвести в другом. Это не означает, что какой-то из экспериментов неверен; скорее конкретный вывод может быть специфически привязан к первичной выборке участников или некоему ее атрибуту, который не всегда известен. В этом случае ценной будет сама попытка репликации: она покажет, когда вывод применим, а когда нет.
Может также оказаться, что отношение было истинным на момент его обнаружения, но ко времени позднейших тестов система изменилась, так как стала известна каузальная зависимость. В финансовой сфере, например, подобная взаимосвязь влияет на поведение во время торгов[308].
Итак, взаимосвязь может быть истинной на момент исследования, но не реплицироваться, потому что теряет истинность с течением времени или из-за того, что используется для изменения поведения (подробнее об этом в главе 9). Действие телерекламы за или против политического кандидата также может ослабевать, потому что люди теряют восприимчивость к сообщению, а оппоненты начинают ответную кампанию. И все-таки если эксперимент выходит за рамки специфической выборки и определенного временного периода, стараясь обобщить поведение, то неудача воспроизведения результатов опровергает его выводы.
Конечно, часто неудача с репродукцией результатов может означать, что выявленные взаимосвязи оказались ложными. Возможно, дело в искажениях применяемой методики из-за ошибок в анализе, или исследование проводилось предвзято. Многие факторы, воздействующие на внешнюю валидность, влияют и на воспроизводимость. Вспомним эксперимент с дохлым лососем из главы 3, когда ложное заключение стало следствием большого числа тестов. Проблема была решена скорректированным количеством сравнений. Но, если полученные результаты не более чем помехи, попытки валидации с новым лососем (или двумя) должны выявить разные активные области.
- Chapter 5. Kernel Initialization
- Кто такая Елена Ивашенцева?
- 11.2. Цели процесса
- Рис. 214. Имена почтовых серверов.
- Document
- ГЛАВА 3 Внутренняя структура .NET Compact Framework
- Джордж Буль Отец булевой алгебры
- Removable Storage Media
- Работа пользователей с виртуальной машиной
- 6.5. Общие команды меню Windows-программ. Буфер обмена Windows