Рандомизированный экспериментальный дизайн отличает то, что распределение участников исследования по группам, в которых условия эксперимента различны, основано на принципе рандомизации. Рандомизированный отбор предполагает, что каждый из обследуемых субъектов имеет равные шансы быть участником той или иной интервенционной программы, и выбор тактики в отношении одного обследуемого не зависит от тактического решения в отношении другого. Реализация указанного принципа может осуществляться таким образом, что число обследуемых лиц, подвергаемых изучаемому воздействию, окажется случайным либо, в случае заранее оговоренной численности, случайно формируются сопоставляемые группы. Чаще всего для достижения рандомизации используют таблицу случайных чисел или генерирование списка случайных чисел с использованием прикладных статистических программ, что рассматривалось в предыдущих разделах (см. Исследование популяционных срезов). В простейшем случае для распределения обследуемых лиц в зависимости от подверженности изучаемому воздействию с использованием таблицы случайных чисел поступают следующим образом: если имеется N потенциальных испытуемых, из которых n должно быть подвержено воздействию, то всех испытуемых нумеруют числами от 1 до N; лица, списочные номера которых соответствуют первым n числам, полученным по таблице случайных чисел, должны войти в группу, подвергаемую изучаемому интервенционому воздействию, а остальные N — n обследуемых составят контрольную группу наблюдений.
В ряде случаев могут быть основания предполагать, что исход воздействия зависит от ряда дополнительных характеристик, таких как пол обследуемого, стадия или клиническая форма заболевания, и тогда необходимо, чтобы сопоставляемые группы были сбалансированы и по этим показателям. Достигнуть такой цели можно при помощи более сложной процедуры рандомизации, именуемой методом блоков (blocking), когда каждый участник исследования классифицируется в зависимости от рассматриваемых показателей, что приводит к формированию отдельных подгрупп (блоков), а затем осуществляется рандомизация отдельно внутри каждого блока. Например, если имеется два блока и необходимо осуществить отбор n испытуемых для предполагаемого интервенционного воздействия, то внутри каждого блока осуществляют отбор n/2 испытуемых.
Важное достоинство принципа рандомизации состоит в том, что минимизируется вероятность ошибки отбора и повышается внутренняя валидность эксперимента. Соблюдение принципа рандомизации позволяет исследователю манипулировать на каждом этапе эксперимента какой-то одной переменной, вследствие чего ассоциация, выявляемая между воздействием и эффектом, с большей вероятностью отражает истинную причинно-следственную связь.
Рандомизированные контролируемые испытания (РКИ) (randomized controlled trials, RCT) — рандомизированные экспериментальные исследования, прежде всего для оценки эффективности лекарственных средств, широко распространены в медицине. В клинической психологии РКИ часто обозначаются как исследования эффекта (efficacy studies), т. е. доказательств того, что в идеальных условиях интервенционное воздействие работает, вызывает больше пользы, чем вреда. Этим они отличаются от прагматичных исследований эффективности (effectiveness studies), которые направлены на выявление того, как в целом в обычных условиях лечение влияет на пациента; чаще всего это неконтролируемые исследования, проводимые в полевых условиях (Barker C. [et al.], 2002).
Рандомизированные группы, предварительное тестирование и последующее тестирование — наиболее распространенный вариант рандомизированного экспериментального дизайна, который может быть описан следующей схемой:
R O X O,
R O (Y) O,
Процедура рандомизации может быть осуществлена при помощи таблицы случайных чисел, генератора случайных чисел. Многие прикладные статистические программы также позволяют распределить испытуемых в зависимости от их отношения к интервенционному воздействию на основе рандомизированного подхода. Например, такую процедуру можно выполнить при помощи программы WINPEPI (Abramson J. H., 2011). Межгрупповой фактор (between-groups factor) — независимая переменная, т. е. признак, говорящий о том, получают участники экспериментальное интервенционное вмешательство или нет. Именно на его основании участники исследования делятся на группы. В исследовании, соответствующем приведенной схеме, межгрупповой фактор имеет два уровня (основная и контрольная группа). Однако может быть больше одной основной и больше одной контрольной группы. Например, исследование может изучать эффекты психодинамической терапии, поведенческой терапии и сопоставлять их с психологическими характеристиками у лиц, находящихся в листе ожидания, т. е. не получающих лечение (контрольная группа). В этом случае межгрупповой фактор имеет 3 уровня (Sloane R. B., 1975).
Многофакторный дизайн (multi-factorial design) — дизайн, имеющий больше одного межгруппового фактора (рис. 27). Изучение влияния какого-то одного фактора является простейшим подходом к осуществлению интервенционных исследований. Однако с практической точки зрения нередко представляется оправданной проверка в ходе одного исследования сразу нескольких рабочих гипотез. Так, исследование, предполагающее анализ двух рабочих гипотез, может основываться на многофакторном подходе вида 2 х 2, при котором участники исследования сначала распределяются на основе принципа рандомизации в зависимости от терапии по схеме а или р, что направлено на проверку первой гипотезы, а затем в пределах каждой группы осуществляется дополнительное распределение на основе принципа рандомизации в отношении проведения терапии по схеме А или В, что направлено на проверку второй гипотезы.
Пример
В исследовании «Шеффилдский психотерапевтический проект» (Sheffield Psychotherapy Project) имелось два межгрупповых фактора: двухуровневый фактор, определяющий психотерапевтический подход (когнитивно-бихе-виоральная или психодинамически-интерперсональная терапия), и двухуровневый фактор, определяющий продолжительность терапии (8 или 16 сеансов) (Shapiro D. A., 1996).
Возможен многофакторный подход по принципу 2 х 2 х 2, при котором оценке подлежат 3 гипотезы, а обследуемые субъекты распределяются в зависимости от 3 режимов терапии; допустимо и многофакторное планирование исследований более высокого порядка.
Преимуществом многофакторного планирования интервенционных исследований является возможность изучения независимого влияния отдельных рассматриваемых факторов и их взаимодействия. С указанной целью часто прибегают к многофакторному дисперсионному анализу (MANOVA) (Altman D. G., 1999; Howell D. C., 2013; Peat J. K., Barton B., 2014).
Дизайн с предварительным тестированием и последующим тестированием является одним из вариантов дизайна с повторными измерениями (repeated-measures design): т. е. такого, при котором каждый участник обследуется в два момента времени и более. Число таких моментов, в которые проводится обследование участников эксперимента, может быть и большим, например каждые 6 мес., каждый год после окончания интервенционного воздействия и т. п. Статистический анализ в подобных ситуациях чаще всего выполняется при помощи дисперсионного анализа с повторными измерениями (repeated measures ANOVA) (Peat J. K., Barton B., 2014).
В тех случаях, когда исследование предполагает наличие многих промежуточных моментов, необходимо предусмотреть возможность возникновения такой ситуации, когда потребуется модификация протокола исследования или даже прекращение последнего раньше намеченных сроков. Для обеспечения благополучия пациентов необходимо контролировать промежуточные результаты, причем желательно, чтобы эту функцию выполняли независимые эксперты. С одной стороны, если промежуточные результаты свидетельствуют о безусловной пользе или очевидных негативных последствиях проводимого интервенционного воздействия, есть все основания для прекращения исследования. В подобных ситуациях нецелесообразно и неэтично как воздерживаться от очевидно эффективного воздействия в отношении лиц из контрольной группы наблюдений, так и подвергать испытуемых заведомо вредному воздействию. С другой стороны, нужно избегать соблазна прекратить дальнейшие исследования, довольствуясь предварительными данными, полученными благодаря небольшому числу наблюдений. Такие результаты могут носить лишь временный характер, и в ходе последующего анализа закономерности, выявленные на предварительных этапах, могут исчезнуть или стать диаметрально противоположными. Вот почему решение о преждевременном прекращении исследования нужно принимать с осторожностью и с учетом многих обстоятельств. Попытки комплексного учета промежуточных результатов клинических испытаний реализуются на основе ряда статистических подходов, однако следует понимать, что само по себе обсуждение проблемы модификации или прекращения испытания возможно лишь в случае выявления достоверной ассоциации. Статистический тест должен рассматриваться не как единственная основа для принятия решения, а скорее как сигнал к ревизии полученных промежуточных результатов. Нет единого мнения о том, какой статистический критерий должен рассматриваться в качестве такого сигнала. В качестве возможного подхода к оценке значимости полученных результатов можно использовать методику, основанную на последовательном анализе (Armitage P. [et al.], 2001). В тех случаях, когда предметом динамического мониторинга является изучение какого-либо количественного показателя с распределением, близким к нормальному, предлагается формула:
где 5 — характеристическая функция, отражающая степень достоверности и статистическую силу исследования при заданном числе пересмотров результатов; 0 — среднее значение изменения анализируемого показателя в группе, подвергшейся интервенционному воздействию; о2 — исходное среднеквадратическое отклонение изучаемого показателя; m — численность обследуемой и контрольной групп на каждой стадии.
При этом предполагается равное число наблюдений в группе, подвергшейся интервенционному вмешательству, и в контрольной группе наблюдений, а численность сопоставляемых групп практически не меняется на каждой стадии исследования. Значения характеристической функции 5 для различных значений числа пересмотров результатов N при уровне статистической достоверности 2а = 0,05 и статистической силе теста 1 - в = 0,95 представлены в табл. 3. В тех случаях, когда вычисленное значение 5 превышает критический уровень, указанный в таблице, результаты можно считать достаточно надежными для прекращения дальнейших интервенционных испытаний.
Расчет модифицируется в тех случаях, когда исследуемый эффект имеет не количественное, а качественное (категориальное) выражение. Для этого потребуется ряд предварительных преобразований. Если обозначить частоту распознаваемого состояния (колеблется в диапазоне от 0 до 1) в группе, подвергшейся интервенционному воздействию : и контрольной группе, соответственно, как ^ и Х2, то функция 5 вычисляется следующим образом:
а показатель 0, в свою очередь, рассчитывается на основании преобразования:
Очевидно, показания к преждевременному прекращению интервенционных исследований не могут быть абсолютно идентичными во всех случаях, и оценки, основанные на статистических подходах, не должны рассматриваться как безусловные основания для принятия решения. Вот почему статистическая оценка должна быть проанализирована в контексте всех имеющихся доказательств ее значимости, в частности с учетом известных или предположительных биологических механизмов, а также результатов других известных исследований в конкретной области.
Факторы блокирования (blocking factors) отражают индивидуальные различия пациентов по определенным переменным в рамках общего для всех дизайна (например, специфическая симптоматика).
Учет таких факторов блокирования также именуется стратификацией. Их можно выделить в ходе проведения рандомизированного интервенционного исследования. Факторы блокирования включаются в анализ в качестве потенциальных модераторов или для сбалансирования экспериментальных групп по принципиально важным показателям, которые могут отразиться на результатах исследования. Процедура исследования должна быть организована таким образом, чтобы участники исследования были сгруппированы в соответствующие категории до того, как будет осуществлена их рандомизация на предмет отношения к экспериментальному воздействию. Например, такими факторами блокирования (стратификации) выступали пол пациента и выраженность исходного уровня дистресса (Sloane R. B., 1975). Исследователи предварительно распределили участников исследования по 4 ячейкам таблицы 2 х 2 (мужчины/женщины х высо-кий/низкий уровень дистресса). Затем участников, вошедших в каждую такую ячейку, рандомизировали на предмет применения к ним одного из двух экспериментальных психотерапевтических подходов (поведенческая или психодинамическая терапия) или к нахождения в листе ожидания (контрольная группа).
Терминологически группа, в которой проводится изучаемое интервенционное воздействие, обозначается как основная (экспериментальная, опытная, активная) (Кельмансон И. А., 2002; Власов В. В., 2004; Покровский В. П., Брико Н. И., 2012; Rothman K. J. [et al.], 2008; Woodward M., 2014). Для обозначения альтернативной группы в экспериментальных исследованиях часто используются понятия контрольная группа и группа сравнения. Строго говоря, о контрольной группе следует говорить тогда, когда ее члены не подвергаются активному интервенционному воздействию, которое испытывают члены основной группы, и не получают какого-то иного активного воздействия. Термин «группа сравнения» предполагает, что ее члены получают какое-то альтернативное активное воздействие, отличное от того, которое получают представители основной группы. Однако часто используют обобщающий термин «контрольная группа», рассматривая в целом членов этой группы как альтернативу основной группы.
Контрольная группа, не получающая лечения (no-treatment controls), обеспечивает максимум контраста по отношению к исследуемому терапевтическому воздействию. Однако в ряде случаев использование в экспериментальных исследованиях такой контрольной группы сопряжено с рядом этических проблем, так как предполагает отказ от какого-либо лечения в отношении лиц, которые могут в нем нуждаться. Контрольная группа, включающая пациентов из листа ожидания (wait-list controls), может представлять некоторый компромисс, особенно в тех случаях, когда изучаемое лечение является краткосрочным и пациенты не страдают тяжелыми заболеваниями. В этой ситуации пациенты, включенные в лист ожидания на основе рандомизированного отбора, проходят то же первоначальное обследование, что и пациенты из основной группы, а затем относительно недолго ждут своей очереди до того момента, когда завершится лечение лиц, вошедших в основную группу.
Преимущества рандомизации по сравнению с иными принципами распределения испытуемых:
- При надлежащем соблюдении принципа рандомизации никто из исследователей, принимающих участие в исследовании, не будет заведомо осведомлен о том, из каких конкретных испытуемых будет состоять группа, подвергаемая изучаемому интервенционному воздействию. Как следствие, сводится к минимуму систематическая ошибка, связанная с тактическим выбором в отношении отдельного испытуемого. Такой ошибки не удается избежать при использовании иных принципов распределения обследуемых по отношению к изучаемому интервенционному воздействию.
- Соблюдение принципа рандомизации обеспечивает сопоставимость анализируемых групп по важнейшим характеристикам обследуемых, а имеющиеся различия сводятся лишь к непосредственно анализируемой тактике интервенционного воздействия. Данное обстоятельство весьма важно, так как многие характеристики, отражающие стартовые условия, в которых находятся испытуемые, во многом могут предопределять успех интервенционного воздействия. Важно отметить, что соблюдение принципа рандомизации позволяет не только нивелировать влияние таких заранее учтенных факторов, но и при большом числе наблюдений практически сводит к нулю и возможное влияние иных неучтенных и зачастую непредсказуемых факторов, которые могли повлиять на результаты (Кельмансон И. А., 2002; Hennekens C. H. [et al.], 1987; Rothman K. J. [et al.], 2008).
Практические ограничения рандомизированного исследования:
- Рандомизированное отнесение пациентов к основной или контрольной группе не дает полной уверенности в том, что группы окажутся эквивалентными с самого начала или останутся таковыми по ходу исследования.
- Многие экспериментальные исследования по ходу их проведения теряют часть испытуемых, что связано с их отказом от участия в исследовании до окончания лечения и сбора информации о последующем тестировании. Такое уменьшение численности уменьшает эквивалентность основной и контрольной групп.
- Возможен и так называемый феномен перетекания между сопоставляемыми группами. Если пациенты, находящиеся в одной больничной палате и составляющие основную группу, получают какое-то полезное воздействие (например, обучаются технике релаксации), они могут рассказывать об этом пациентам из другой больничной палаты, входящим в контрольную группу, обучая и их этой технике. В ходе проведения клинических испытаний описываются даже такие случаи, когда пациенты, получающие экспериментальные лекарственные средства, делятся этими лекарствами с пациентами из контрольной группы.
- Больничный персонал может не понять значения рандомизации в некоторых ситуациях, усматривая в этом нарушение этического принципа уважения автономии пациента, необходимости индивидуализированного подхода к проведению лечения.
- Рандомизированные исследования являются дорогостоящими и требуют больших временных затрат, поэтому используются в тех случаях, когда имеются предварительные свидетельства о пользе изучаемого экспериментального воздействия.
- Рандомизация по этическим соображениям не может быть использована для изучения влияния негативных воздействий (курения, потребления наркотиков, психологической травмы и т. п.).
- Рандомизированные исследования не принимают во внимание выбор пациента (Cook T. D., Campbell D. T., 1979; Rossi P. H. [et al.], 2004).
В ряде исследований после осуществления рандомизации и испытания авторы исключают из последующего анализа тех субъектов, которые плохо соблюдали условия протокола или по ряду признаков не удовлетворяли требованиям, предъявляемым к участникам. Такой подход следует признать тактически неверным. Исключение любого отобранного на основе принципа рандомизации пациента может привести к систематической ошибке, так как в любом исследовании абсолютно дисциплинированные пациенты составляют лишь часть наблюдений, а мотивы отказа от соблюдения условий протокола могут быть тесным образом связаны с вероятностью реализации изучаемого эффекта. Более того, идея интервенционного исследования предполагает поиск ответа на вопрос о том, в какой мере предложенная интервенционная программа сопряжена с положительным эффектом. Вот почему сама по себе рандомизация осуществляется, исходя из принципа подразделения испытуемых на группы, в которых предлагается или не предлагается к реализации анализируемая интервенционная программа, а не по принципу реализации или нереализации этой программы. Следовательно, искусственное сужение рамок анализируемой популяции неизбежно приведет к снижению статистической силы рандомизации, и истинные сравнения возможны только между сопоставляемыми группами в целом. После осуществления рандомизации необходимо включать в последующий анализ всех испытуемых: «once randomized, always analyzed» (Hennekens C. H. [et al.], 1987). В связи со сказанным становится очевидной необходимость обеспечения достаточно высокого уровня соблюдения участниками исследования условий протокола, сведения к минимуму потерь участников исследования в ходе динамического наблюдения за ними, а также сбора максимально полной информации. Если есть возможность, необходимо продолжать наблюдение даже за теми лицами, которые отказались от дальнейшего соблюдения условий исследования, что позволит в будущем осуществить сопоставление важнейших характеристик пациентов в зависимости от их склонности к сотрудничеству.