Выборочный контролируемый эксперимент / Почему / Библиотека (книги, учебники и журналы) / В помощь Веб-Мастеру

Обложка
Аннотация

Саманта Клейнберг i

Книги автора: Почему

/ Ольга Поборцева i

Книги автора: Почему

/ Литагент МИФ без БК i

Книги автора: Делай новое! Улучшаем бизнес с помощью маркетинга Автоматический покупатель Кто. Решите вашу проблему номер один Прыжок в мечту, или Продажи в B2B. Как выигрывать в два раза больше корпоративных тендеров Аудит продаж. Практическая инструкция для девелопера Почему Как растут бренды. О чем не знают маркетологи

Книга: Почему

Выборочный контролируемый эксперимент

Выборочный контролируемый эксперимент

Манипулирование единственным объектом таким идеальным путем, как показано выше, затруднительно; выборочные (рандомизированные) контролируемые эксперименты (ВКЭ, РКЭ) лишь частично решают проблему. В подобного рода экспериментах участники выборочно распределяются по двум или более группам, при этом различие в воздействии между этими группами предположительно единственное. Если исходы отличаются, это объясняется воздействием, поскольку распределение всех других свойств одинаково. На самом деле это не идеализированное вмешательство, когда можно напрямую изменить один параметр (к примеру, повысить потребление соли, не меняя объема жидкости). Но такой подход ближе всех к идеальному.

Однако этот жесткий протокол также становится ограничением, когда дело доходит до использования результатов ВКЭ. Здесь оценивается только один фактор, но в реальном мире результаты необязательно используются именно так. К примеру, мы можем решить, что лекарство эффективно и не имеет побочных эффектов в рамках ВКЭ, но в жизни, возможно, его часто принимают со вторым препаратом, и они интенсивно взаимодействуют. Как это случалось много раз, такое взаимовлияние трудно предположить, пока лекарство не выйдет на рынок.

ВКЭ обычно рассматривается в медицинском контексте, но это просто разновидность экспериментальных исследований, которая может применяться во многих других сферах. Как известно, Google использовал данные по кликам, чтобы сделать выбор из 41 оттенка синего для своего логотипа[269], а пользовательские предпочтения можно протестировать, рандомизируя визиты или пользователей по конкретным оттенкам или текущей цветовой гамме и сравнивая количество кликов. В политических кампаниях также применяют выборочные эксперименты, чтобы определить, какое послание обнародовать и каким образом[270]. Вместо того чтобы искать корреляции между поведением избирателей и демографическими данными или разрабатывать теории о способах голосования, политические гуру пользуются обширными списками рассылки электронных писем и детализированными персональными данными, чтобы тестировать эффективность различных вмешательств. К примеру, в рамках кампании можно рандомизировать группу лиц с конкретными характеристиками по различным текстам электронных сообщений или скриптам телефонных звонков с просьбой о благотворительности. Тут есть четкий результат (количество пожертвованных денег), и при достаточно большой выборке можно протестировать множество сообщений для разнообразных групп. Во время кампании Обамы 2012 года было сделано именно это: на небольшой группе сторонников тестировались адресные строки сообщений, предполагаемые суммы пожертвований и даже формат электронных писем[271].

Приобретенные таким образом знания могут изменяться со временем (если сообщение однажды сработало, как будет во второй раз?), но ВКЭ используются во многих сферах помимо медицинской, например в экономике и образовании. Даже если вы никогда не проводили собственный ВКЭ, важно уметь оценивать результаты экспериментов для принятия решений.

Почему рандомизация

В XVIII веке Джеймс Линд задокументировал то, что считается первым в истории контролируемым экспериментом, – выяснил, что цитрусовые быстро излечивают цингу. На судне с экипажем, страдавшим от цинги, он прописал шести парам моряков с аналогичными симптомами шесть различных видов лечения. Помимо тестируемых Линдом средств, в число которых входили уксус, морская вода и, конечно же, лимоны и апельсины, моряки питались одинаково[272]. Линд обнаружил, что те, кто ел цитрусовые, поправлялись очень быстро в сравнении с остальными, что привело его к заключению об эффективности такого лечения.

Но Линд назначил каждой паре только одно из средств, вместо того чтобы задействовать рандомизацию. Действительно, он отмечал, что пациенты, пившие морскую воду, болели сильнее остальных[273]. Известно, что его результаты на самом деле оказались верными, но, если бы лечение выбиралось по степени заболевания, такое смещение могло исказить результаты (например, если пациентам с легкой формой цинги, которые и так чувствовали себя лучше, были бы прописаны цитрусовые) или привести к ситуации наподобие парадокса Симпсона (например, если бы пациенты, получавшие цитрусовые, были неизлечимы). Рандомизация в ВКЭ очень важна, чтобы избежать смещения в назначении воздействия.

Свойственное подобным исследованиям ограничение выбора – когда действовать и действовать ли вообще – может исказить наблюдаемые зависимости. К примеру, трудно проверить, действительно ли любовь к жестоким видеоиграм формирует жестокость в поведении. Поскольку не проводилось выборочного исследования детей по группам определенных видеоигр, даже если тут вообще присутствует корреляция, мы не можем знать, видеоигры формируют склонность к насилию или же склонность к насилию определяет любовь к соответствующим увлечениям, а может, причиной обеих переменных оказывается некий третий фактор.

Точно так же в исследовании здоровья медсестер: то, что женщины выбирали ГЗТ, зависит от их риск-факторов заболеваний сердца и склонности заботиться о своем состоянии. ГЗТ могла вообще никак не влиять на болезни сердца, но женщины, выбравшие этот вид лечения, делали какие-то другие вещи, снижавшие риск, и именно предоставление информации об этом сделало ГЗТ индикатором прогнозирования лучших исходов. Аналогичный пример – «слепое» использование препаратов для лечения пациентов, на которых другие средства не подействовали.

Это делает факт получения больными вмешательства и, следовательно, соответствующего результата зависимым от серьезности заболевания, качества медицинского обслуживания и так далее. Остаточные эффекты многих препаратов, которые принимались ранее, могут усилить искажения наблюдений, затрудняя возможность выяснить, почему лекарство не дало результата.

Основное преимущество рандомизации – придание жесткости ребру между выбором вмешательства и исходом.

Скажем, мы рандомизируем тринадцатилетних учащихся одной школы: одни получили СМС, убеждающие по 30 минут в день заниматься физкультурой, другие – сообщения с прогнозом погоды. Поскольку обе группы контактируют, мы не можем быть уверены, что школьники не поделились содержанием посланий и что те, кто получил текст о пользе спорта, не пригласят друзей присоединиться. Еще один пример «перемешивания» участников – совместный прием лекарств в клинических экспериментах, когда пациенты из команды вмешательства делятся препаратами с контрольной группой[274].

Чтобы предотвратить перемешивание, применяется кластерный метод рандомизации по группам, а не по отдельным лицам. В таком подходе вместо работы с учениками распределение по разным текстам сообщений проводится между школами.

Другой пример – рандомизация медицинской практики или больницы по методике лечения вместо рассмотрения отдельных пациентов. Здесь, чтобы добиться аналогичного уровня надежности результатов, нужны масштабные выборки, потому что отдельные лица в кластере могут коррелировать, а кластеры способны иметь разные размеры. В качестве кластера может выступать семья (которая будет сильно взаимосвязана благодаря генетике и окружающим условиям) или учебное заведение (соотношение может оказаться ниже, но все-таки присутствует из-за общего местонахождения)[275].

* * *

В зависимости от уровня (индивидуального или группового) рандомизация двух одинаковых групп, отличающихся только вмешательством, грешит отсутствием детализации участников (группы не обязательно должны быть идентичны, просто сравнимы).

Давайте решим, кто подходит нам как участник эксперимента.

Скажем, мы тестируем лекарства от изжоги. Можно привлечь людей любого возраста и пола, однако у многих может не быть этого симптома. При условии, что данные для исследования ограничены и время эксперимента также имеет рамки, это неразумная трата ресурсов, и большинство не страдающих изжогой вряд ли захотят участвовать.

Очертим круг участников теми, у кого изжога в анамнезе. Следует ли включать сюда людей, страдающих изжогой из-за еще какого-то состояния, например беременности? Включать лиц любого возраста или исключить детей? Возможно, мы считаем, что физиологические процессы, лежащие в основе заболевания, фундаментально отличаются в каждом возрасте, поэтому решаем включить в наш пул всех, от 21 до 65 лет, с изжогой в истории болезни. Следующая проблема: некоторые, скорее всего, ежедневно принимают лекарства от этой хвори или страдают другими заболеваниями, способными влиять на действие тестируемого препарата. В идеале группа участников должна состоять из тех, кто не принимает никаких средств, потенциально готовых взаимодействовать с испытываемым медикаментом. Тогда мы протестируем препарат на участниках от 21 до 65 лет с изжогой в анамнезе, которые не принимают лекарства от нее ежедневно.

Выборка участников исследования может полностью определить результаты за счет ее смещения – из-за отдельных лиц, которые будут принимать решение о своем участии, или из-за иных факторов, определяющих, получат ли они такую возможность вообще. Как мы видели в главе 3, некоторые смещения могут приводить к поиску доказательств в пользу конкретного вывода или влиять на то, как мы оцениваем собранные аргументы. Методология эксперимента также способна смещать данные в том или ином направлении. К примеру, в политических телефонных опросах звонки только по стационарным аппаратам, исключая мобильную связь, могут исказить демографические данные участников. Так, в 2008 году исследовательский центр Пью обнаружил, что использование только домашних телефонов снизило перевес Обамы над Маккейном в среднем на 2–3 % в нескольких плебисцитах и на 5 % – в финальном, перед выборами[276].

Считается, что рандомизация ограничивает смещение выборки. Но множество выборов, необходимых при подготовке эксперимента, означает, что угроза такого смещения не устранена. Участие в эксперименте добровольное, поэтому характеристики испытуемых могут фундаментально отличаться от остальных. Если исследователь, набирающий состав, знает, к какой группе приписать каждого из них (например, если распределение просто изменяется в рамках команд или есть более сложный порядок, известный исследователю), это также может определять, кто получит возможность участвовать. Такое смещение влияет на способность эксперимента предоставить данные для причинно-следственных выводов (внутренняя валидность), а также на масштабы применимости его результатов в зависимости от репрезентативности выборки (внешняя валидность, которую мы обсудим далее).

Нужно определить, как быть, если отдельные участники не доходят до конца эксперимента. Одни могут сойти с дистанции по своим причинам, а другие, напротив, прекратить участие из-за вмешательства, которое посчитали неприемлемым, например из-за побочных эффектов, перевешивающих любой позитив[277]. Когда понадобится связаться с участниками, чтобы получить сведения об их показателях, кто-то окажется вне досягаемости (напротив его фамилии появляется пометка «утрачен контакт для дальнейшего наблюдения»). К примеру, чтобы оценить состояние пациентов с инсультом через 3 и 6 месяцев после пребывания в больнице, протокол может предусматривать необходимость позвонить им и задать вопросы. Но порой одни не отвечают, другие сменили номер телефона или переехали, и у исследователей нет никакой возможности с ними связаться[278].

Некоторые эксперименты просто игнорируют пациентов, которых проблематично отследить при анализе данных. Это приводит к смещению результатов, которые намеренно не берутся в расчет, поэтому масса «утраченных контактов» может стать «красным флажком» при оценке работы. К примеру, мы тестируем вмешательство в виде физических упражнений в пожилом возрасте. По сравнению с контрольной группой, у которой оно отсутствует, те, кто упражнялся 10 часов в неделю, продемонстрировали пониженное содержание холестерина и прожили на 2 года дольше. Если, однако, 75 % этой выборки по вмешательству выпали из эксперимента из-за травм или усталости, исследователи, вероятнее всего, обнаружат, что те, здоровье которых позволяло тренироваться дольше часа в день, прожили дольше прочих.

То, что некто останется в эксперименте до конца, соблюдая это условие, будет ключевым фактором при оценке приемлемости вмешательства. Таким образом, просто не учитывая лиц с неполными данными, мы можем преувеличить эффективность воздействия и недооценить потенциальные побочные эффекты.

«Ошибка выжившего» – это разновидность смещения выборки, существующая при анализе только тех, кто выжил или остался в эксперименте до определенного момента. Но в более широком смысле это смещение появляется, когда анализируются результаты исключительно группы участников, достигших некоего измеряемого результата. Это могут быть компании, подававшие отчеты о прибылях и убытках не менее двух лет (при этом не учитываются те, кто обанкротился раньше); политики после первого срока в должности (не учитываются те, кто умер, ушел в отставку или был уволен); музыканты, записавшие хит (не учитываются те, кто вообще не добился контракта на запись).

Если наша цель – понять, какое значение имеют регулярные гастроли очень успешных музыкантов, последние как раз и могут стать корректной группой для исследования. С другой стороны, если цель – определить влияние художественного образования на музыкальные достижения, тогда включение в выборку только успешных музыкантов даст искаженный подход.

В ряде ситуаций мы просто не имеем возможности провести рандомизацию людей или ситуаций по этическим соображениям или просто из-за затратности, поэтому нужны иные типы экспериментов.

Исследование здоровья медсестер – пример когортного исследования, где одну группу лиц отслеживают в плановом порядке в течение некоторого времени. Недостатки такого подхода (помимо смещения выборки) следующие: можно собрать одинаковые данные на каждого участника, но отслеживание в течение долгого времени дорого стоит, к тому же может наблюдаться значительное число выбывших. Если интересующие экспериментаторов результаты встречаются редко, понадобится расширенная выборка. При этом нет гарантии, что наблюдение охватит достаточное количество случаев.

Еще один вариант – исследование методом «случай-контроль», которое в целом направлено в прошлое. Берутся две группы, различные по некоторому свойству (например, люди с рыжими волосами и без), и изучается различие между ними (к примеру, генетическая вариация). Но, поскольку модуляции только наблюдаются (без активного вмешательства), нельзя быть уверенным в отсутствии неизмеренных искажений.

Как контролировать

Вехой в истории медицины – и, возможно, первым примером выборочного контролируемого эксперимента – стал 1946 год, когда Брэдфорд Хилл с коллегами из Совета медицинских исследований Великобритании провели сравнительное исследование постельного режима и антибиотика стрептомицина в лечении туберкулеза[279]. Каждый госпиталь, участвующий в исследовании, получил набор пронумерованных и запечатанных конвертов, в которых содержались врачебные предписания (пребывание в постели или стрептомицин). Когда все пациенты, участвующие в исследовании, были подобраны, конверты открывались строго по очереди[280].

Как и в исследовании Линда, ученые не просто смотрели на показатели до и после применения стрептомицина, но сравнивали препарат со стандартом лечения на тот момент, а именно постельным режимом. Это важно, поскольку сравнение состояния пациентов до и после воздействия может выявить улучшения даже при абсолютно неэффективной терапии, если самочувствие просто улучшается со временем или сам факт воздействия стал позитивным.

К примеру, больные, убежденные, что антибиотик поможет им справиться с вирусом гриппа, иногда требуют у врачей прописать лекарство, пока те наконец не сдаются. Если они в результате выздоравливают (как в целом большинство людей), это не имеет отношения к лекарству: просто таково неизбежное течение болезни. Что бы они ни предприняли в определенный момент заболевания – выпили чашку кофе или просидели несколько часов у телевизора, – все дало бы одинаковый эффект.

Еще один резон в пользу контрольной группы таков: в реальности мы не выбираем между новым лечением и его отсутствием вообще, мы хотим знать, какой набор вариантов самый эффективный. Соответствующая контрольная группа определяется как по этическим, так и по техническим соображениям, поскольку нельзя разграничивать действенную терапию и пациента, и важно учитывать роль воздействия на исход.

Иногда можно сравнить воздействие и стандартное лечение, иногда – применить плацебо. Это реально в отсутствие стандартной терапии или вследствие смещения в методике эксперимента. Как бы то ни было, лечение, которое намного хуже общепринятого, все же может оказаться лучше, чем ничего.

Определить соответствующее плацебо – штука непростая, но, по сути, оно сильнее всего напоминает реальное вмешательство, когда не известно ключевое эффективное свойство. В простейшем случае, если лекарство дается в виде таблетки, самое распространенное плацебо – это таблетка-пустышка. В другом случае, если воздействие – это рассылка сообщений на тему заботы о здоровье, в качестве плацебо могут выступать тексты с информацией, не касающейся здоровья. С другой стороны, пустышку для акупунктуры определить гораздо сложнее. В экстремальных экспериментах, объектом которых становится болезнь Паркинсона или другие проблемы со здоровьем, используется симуляция операционного вмешательства, чтобы учесть воздействие хирургии как таковой[281].

Эффект плацебо, когда вмешательство без применения известных активных ингредиентов все же улучшает исход, может дать странные результаты[282] и даже иметь место, когда пациенты знают, что им дают пустышку[283]. Отмечались случаи побочных действий при плацебо[284] и, при сравнении с ним, – различия результатов в зависимости от дозировки (больше таблеток – сильнее проявление) и вида лекарства[285].

Еще один ключевой показатель исследования со стрептомицином: эксперимент был слепой, и ни пациенты, ни те, кто оценивал их состояние, не знали, кто какое лечение получает[286]. Это важный шаг по предотвращению предвзятости, поскольку больные, ожидающие, что препарат принесет им пользу, могут по-разному сообщать врачу о симптомах, да и те могут предвзято судить о состоянии пациента, если будут знать о его терапии.

В исследовании, тестирующем виды борьбы с разными типами склероза, также оценивалось значение слепого эксперимента: одних и тех же пациентов проверяли неврологи, проводившие слепое лечение, и те, кто знал, кто в какой группе находится. Через два года регулярных наблюдений «слепые» неврологи обнаружили, что ни одно из применяемых ими воздействий не оказало эффекта[287]. А оценки «неслепых» докторов в одной из групп выявили улучшение. Причина в том, что оценка пациентов носила качественный характер, и неврологи, знающие, к какой группе принадлежит тот или иной пациент, могли находиться под влиянием этого знания, расставляя рейтинги. Если выявление результатов эксперимента основано на подобном знании (и не важно, анализируется состояние пациентов при клинических испытаниях или рост цветов в вашем саду), то информация о распределении по группам может изменить интерпретацию имеющихся доказательств.

В целом одностороннее слепое исследование – это эксперимент, в рамках которого пациентам неизвестна группа их принадлежности, а ученым – известна. При двустороннем слепом исследовании ни больные, ни врачи не знают, кто в какой группе. Однако даже после того, как все данные собраны, их нельзя просто засунуть в «черный ящик» и получить на выходе однозначный результат. Для анализа требуется принять множество решений (например, какие статистические эксперименты проводить), и здесь также может влиять смещение. Альтернативой будет тройной слепой метод – как правило, это двустороннее слепое исследование, когда те, кто анализирует данные, не знают о распределении по группам[288].

Это не всегда практично, однако возможно заранее определить все этапы анализа данных до их сбора и зафиксировать ради доказательства, что программа строилась независимо от результатов[289].

Протоколы экспериментов и испытания лекарственных препаратов применяют именно этот принцип, когда аналитики должны подготовить программу до сбора любых данных[290]. Такой подход не свободен от некоторых прикладных проблем, поскольку часто возникают неожиданные сценарии (хотя при этом выявляется смещение в сторону положительных результатов[291]). В нашем гипотетическом эксперименте с изжогой можно было заранее определить, какие первичные сведения подлежат измерению (например, частота приступов), какие вторичные (например, сила приступа), какой из слепых методов будет применяться и какова приблизительная численность участников. Однако можно не суметь обеспечить целевую выборку или не предвидеть, что придется остановить эксперимент на ранней стадии из-за недостатка финансирования. В связи с этим придерживаться подготовленного плана не всегда получается.

Применимость результатов

Скажем, мы проводим эксперимент с изжогой, и, кажется, он будет удачным. Прием лекарства заметно снижает тяжесть заболевания и частоту приступов по сравнению с другим лечением, а сам препарат в итоге одобрен и выведен на рынок. У доктора, знакомого с результатами исследования, есть новый пациент 80 лет, который принимал 10 разных лекарств[292] и имеет в анамнезе диабет и застойную сердечную недостаточность. Следует ли прописывать ему новый медикамент?

Контролируемый эксперимент, пытающийся обеспечить внутреннюю валидность (то есть возможность ответить на изначально поставленный вопрос), нередко выполняется ценой внешней валидности (то есть повышенной обобщаемости результатов). Изучение однородной группы населения может привести к изолированию возможной причины, но это ограничит полезность результатов для принятия решений по остальному населению. С другой стороны, высокая вариативность ведет к искажениям и невозможности выявить истинное следствие, если оно есть только в определенных подгруппах. Важно, что на каждом отдельном этапе выборочного эксперимента присутствует отбор.

Типовые клинические испытания начинаются с пула потенциальных пациентов. Они выбираются из числа тех, кто проходит лечение в рамках системы, проводящей исследование, или тех, к кому эта система имеет доступ. Но с самого начала не берутся в расчет те, кто не может или не хочет обращаться за медицинской помощью. Еще есть лечившиеся в отделении, где проводится эксперимент, и у врача, участвующего в нем. Здоровье этих пациентов может быть хуже, чем у населения в целом, или, напротив, эксперимент может исключать самых тяжелых больных, которые лечатся где-то еще. Существуют критерии отбора в рамках самого исследования, когда исключаются пациенты со множественными хроническими заболеваниями (как в нашем гипотетическом опыте с изжогой). К тому моменту, когда пациент соглашается участвовать, выборка весьма значительно сужается. Суть не в том, чтобы непременно охватить экспериментом всех и вся, однако немало практических факторов влияют на отбор участников. Это следует принимать во внимание, переходя от оценки валидности эксперимента к попытке применить его результаты.

О том, как определить применимость результатов некоего исследования к конкретному пациенту или группе населения, написано немало[293]. Как правило, нам не приходится принимать решения в идеальном мире выборочного эксперимента, где пациенты страдают только одним заболеванием, и в большинстве случаев нет возможности ждать, пока кто-то проведет исследование, соответствующее нужному сценарию. Это справедливо и для врачей, определяющих программу лечения пациентов и пытающихся понять, в какой степени отчеты об испытаниях применимы к конкретному случаю. Проблема с ВКЭ состоит в том, что он подтверждает: лечение может вызвать определенное следствие только у отдельной группы населения. Другая же группа может не обладать свойствами, обеспечивающими эффективность воздействия.

Например, если, согласно ВКЭ, лекарство А лучше лекарства B, а другое исследование утверждает, что B лучше C, мы, вероятно, сделаем допущение, что А также лучше С. В одном обзоре нейролептических препаратов описаны как раз подобные случаи, но при этом выборочные эксперименты подтвердили, что C лучше А[294].

Откуда появляются такие аномальные заключения?

Многие испытания спонсируются производителями тестируемых медикаментов, однако противоречивые результаты возникают вне зависимости от того, кто оплачивает эксперимент. Даже если отчетные данные абсолютно правдивы и никто ничего не подтасовывает, с учетом огромного множества решений, которые необходимо принимать при проведении испытаний, возможность смещения результатов в пользу какого-либо исхода по-прежнему остается. Выбирая конкретную дозировку, критерии отбора, меры результатов и виды статистических тестов, можно смещать выводы в пользу определенного лекарства, когда оно очевидным образом будет смотреться лучше остальных.

Как мы увидим в главе 9, чтобы действительно знать, что полученный вывод можно применить к другой выборке, нужно быть уверенными, что свойства, определяющие эффективность причины, присутствуют в обеих выборках и что вторая не обладает характеристиками, отрицательно влияющими на причину. Но это достаточно обременительно, поскольку мы часто не знаем, что в точности необходимо для эффективного действия причины.

К примеру, мы проводим рандомизацию людей по различным видам офисных кресел, чтобы выяснить, действительно ли сидение на физиомячах[295] помогает сбросить вес по сравнению с обычными креслами. В этом эксперименте физиомячи приводят к статистически значимой потере веса за шесть месяцев; но, если испробовать их на другой группе людей, эффект окажется нулевым. Такое может случиться, если люди из первой выборки решат, что сидеть на мячах неудобно, или будут с них постоянно падать, поэтому им придется либо стоять, либо прохаживаться в течение дня гораздо чаще. А люди из второй выборки будут использовать мячи как кресла, то есть сидеть на месте. Реальное вмешательство – это нечто (а не мяч), побуждающее людей чаще вставать, хотя в рамках эксперимента его выявить нельзя.

Точно так же метод реализации вмешательства в контролируемых условиях может не отражать реальности. Некоторые лекарства необходимо принимать каждый день в одно и то же время, и в реальных условиях их эффективность может оказаться ниже, чем в условиях эксперимента, если пациенты – участники исследования с большей вероятностью склонны следовать инструкциям.

На способ использования результатов исследования влияет множество других факторов, к примеру длительность периода отслеживания. Если в выборочном эксперименте по тестированию нового метода лечения пациенты наблюдаются непродолжительное время, стоит задуматься, будет ли терапия такой же эффективной в долгосрочном масштабе и не вызовет ли побочных действий, которые проявятся через несколько лет. Период исследования также влияет на внутреннюю валидность. Если в рамках тестирования влияния сообщений, напоминающих о необходимости принять препарат, на повышение приверженности к лечению пациенты отслеживаются только три дня, это не будет убедительным доказательством того, что СМС в целом повышают дисциплину заболевших на долгое время, поскольку энтузиазм в отношении новых вмешательств со временем сходит на нет. Но из-за затратности часто возникает компромисс между продолжительностью отслеживания и размерами выборки.

Были разработаны чек-листы и инструкции для оценки результатов и определения данных, которые необходимо включить в материалы исследования[296]. Но главное, что необходимо оценивать и внутреннюю, и внешнюю валидность эксперимента. Важность каждого из этих факторов зависит от наших целей. Некоторые исследования с низкой внутренней валидностью можно усилить за счет высокой внешней валидности (что лучше соответствует конкретной выборке участников)[297]. Необходимо дать ответы на следующие ключевые вопросы: «Кто стал объектом изучения? Как проводился отбор? Где выполнялось исследование? Какова длительность отслеживания результатов? Кто входил в контрольную группу? Какой слепой метод использовался?»

Оглавление книги

Оглавление статьи/книги

Похожие страницы