Валидность измерения (measurement validity) является ответом на вопрос, «измеряет ли измерение то, что оно должно измерить» (Barker C. [et al.], 2002). Например, измеряет ли шкала для оценки симптомов депрессии выраженность депрессии или же она измеряет что-то другое (самооценку, желание признать наличие проблемной ситуации и т. п.)? Сам по себе концепт «валидность измерения» более сложен для понимания и оценки, чем надежность. В настоящем разделе обсуждается именно валидность измерения, хотя постановка вопроса о валидности распространяется и на дизайн исследования, о чем говорилось в главе 2. Изучение качества методики измерения того или иного показателя предполагает, что на первом этапе требуется оценка надежности, а затем валидности. С одной стороны, надежность является необходимым, но не достаточным условием валидности. Для того чтобы быть валидным, измерение должно быть надежным, в противном случае оно будет преимущественно отражать влияние ошибки. Так, если два исследователя не могут прийти к единому суждению по поводу того, содержатся ли в тексте беседы пациента и психотерапевта признаки отказа пациента от лечения, нет возможности делать какие-то выводы о валидности категории отказа от лечения. С другой стороны, методика может быть очень надежной, но не валидной: например, измерение окружности головы для определения интеллекта. Оцениваются различные аспекты валидности методики, на которые нужно ориентироваться исследователю. К основным видам валидности следует отнести содержательную, внешнюю, критериальную и конструктную.
Содержательная валидность (content validity) — показатель того, насколько методика (а также каждый ее компонент или шкала) охватывает все аспекты того конструкта, который методика призвана измерить. Например, присутствуют ли в опроснике с целью выявить симптомы депрессии у пациента вопросы, затрагивающие сниженное настроение, снижение мотивации, нарушения сна и т. д. Оценка содержательной валидности носит качественный характер, и нет какого-то специального коэффициента содержательной валидности. Имеется три способа оценки содержательной валидности:
- анализ общепринятых подходов к изучению рассматриваемой проблемы на основании литературных данных;
- экспертная оценка содержания опросника специалистами;
- оценка содержания опросника самими больными.
Внешняя валидность (face validity) весьма близка к содержательной валидности. Оценка внешней валидности предполагает ответ на вопрос: лежит ли на поверхности то, что призвана измерить данная методика? Так, в опроснике, цель которого выявить симптомы депрессии, должны присутствовать вопросы, затрагивающие снижение настроения у пациента, а не его отношение к начальнику на работе. Внешняя валидность позволяет определить, охватывают ли вопросы опросника круг проблем, беспокоящих пациента. Внешняя валидность желательна, но не всегда обязательна. Так, в опроснике могут присутствовать «мелкие» на первый взгляд, не относящиеся к изучаемому конструкту вопросы, которые на самом деле позволяют снизить вероятность фальсификации данных. Внешняя валидность отчасти является своеобразным пиар-ходом, так как в результате шкала опросника выглядит правильной для потенциального респондента. Если у респондента не складывается такого впечатления, он может просто отказаться отвечать на поставленные вопросы. Как и содержательная валидность, внешняя валидность является качественной оценкой и не имеет какого-то измерения.
Критериальная валидность (criterion validity) устанавливает возможность точно оценить ту или иную переменную или тот или иной концептуальный показатель на основе сопоставления с «золотым стандартом» и возможность использования методики для замены такого «золотого стандарта». Оценка критериальной валидности методики предполагает использование и сравнение эффективности двух сопоставляемых методик (одновременное или попеременное в случайной последовательности), причем важно, чтобы разрабатываемая методика была проще в использовании и экономичнее, чем существующий метод оценки, рассматриваемый в качестве стандарта (Кельмансон И. А., 2004). Проблема критериальной валидности во многом является центральной в решении вопроса о валидности методики. Критериальная валидность позволяет оценить, насколько удовлетворительно измеренный показатель согласуется с другим показателем, принятым в качестве критерия, индикатора измеряемого конструкта. Такой принятый критерий часто именуется «золотым стандартом» диагностики. Существуют разновидности критериальной валидности:
- Конкурентная валидность: диагностика осуществляется на основе принятого критерия одновременно с анализируемой методикой. Результаты использования анализируемой методики сопоставляются с существующими критериями. Например, оценки по шкале симптомов депрессии могут быть сопоставлены с результатами обследования пациента врачом-психиатром.
- Предсказательная валидность: диагностика осуществляется в дальнейшем, когда оценивается реализация прогноза, предсказания, основанного на анализируемом методе. Оценка по шкале депрессии может быть рассмотрена в качестве прогностического фактора последующих суицидальных попыток.
В отличие от других видов валидности, критериальная имеет ряд количественных характеристик. Критериальная валидность диагностической методики прежде всего определяется тем, насколько эффективно она способна констатировать позитивные результаты теста у тех обследуемых, которые в действительности имеют распознаваемое заболевание или высокий риск его развития, и негативные — у лиц, не имеющих данного заболевания или характеризуемых низким риском его развития. В табл. 14 представлено возможное соотношение результатов диагностического теста и истинного наличия или отсутствия распознаваемого заболевания (состояния), верифицированного «золотым стандартом» диагностики. В этой таблице величине a соответствует число обследуемых, имеющих положительные результаты диагностического теста при истинном наличии заболевания (истинно положительные результаты), величине b — число обследуемых, имеющих положительные результаты теста при фактическом отсутствии заболевания (ложноположительные результаты), величине c — число обследуемых, имеющих отрицательные результаты диагностического теста при истинном наличии заболевания (ложноотрицательные результаты), величине d — число обследуемых, имеющих отрицательные результаты диагностического теста при отсутствии заболевания (истинно отрицательные результаты).
Двумя принципиальными операционными характеристиками теста, отражающими его критериальную валидность, являются чувствительность (sensitivity, Se) и специфичность (specificity, Sp) (Кельмансон И. А., 2002; Власов В. В., 2004; Кельмансон И. А., 2004; Покровский В. П., Брико Н. И., 2012; Barker C. [et al.], 2002; Rothman K. J. [et al.], 2008).
Чувствительность — вероятность того, что результаты диагностического теста окажутся положительными при истинном наличии заболевания. Показатель вычисляется следующим образом:
По мере увеличения чувствительности теста снижается число испытуемых, фактически имеющих заболевание и неверно классифицируемых как здоровые в результате диагностического теста (снижается число ложноотрицательных результатов). Иначе говоря, если тест имеет высокую чувствительность, его негативные результаты позволяют эффективно исключить наличие диагноза.
Для правильной интерпретации смысла показателя чувствительности предлагается мнемоническое правило: SnNout (если тест имеет высокую чувствительность (Sensitivity), его отрицательные (Negative) результаты позволяют отвергнуть (rule out) диагноз) (Кельмансон И. А., 2002, 2004; Straus S. E., 2011).
Специфичность — вероятность того, что результаты теста окажутся отрицательными при истинном отсутствии заболевания у обследуемого. Специфичность рассчитывается следующим образом:
Высокая специфичность теста означает низкую вероятность его положительных результатов у лиц с отсутствием заболевания (низкую вероятность ложноположительных результатов). Иначе говоря, если тест имеет высокую специфичность, его позитивный результат позволяет эффективно распознать диагностируемое заболевание. Правильно интерпретировать смысл показателя специфичности помогает мнемоническое правило: SpPin (если тест характеризуется высокой специфичностью (Specificity), его позитивные (Positive) результаты подтверждают (rule in) диагноз) (Кельмансон И. А., 2002, 2004; Straus S. E., 2011).
Пример
Рассмотрим данные валидизации Эдинбургской шкалы постнатальной депрессии (Choi S. K. [et al.], 2012). Было обследовано 250 женщин; в качестве порогового уровня диагностики высокого уровня депрессивной симптоматики авторы выбрали значение > 3 баллов по шкале (табл. 15).
Расчет показателей чувствительности и специфичности дает следующие результаты:
Sc = a/(a + с) = 35/38 = 0,92 (92 %),
Sp = d/(b + d) = 186/212 = 0,88 (88 %).
При выбранном пороговом уровне тест имеет высокую чувствительность, равную 92 %. Следовательно, лишь в 8 % случаев существует вероятность того, что женщины, фактически имеющие проявления депрессивной симптоматики, будут неверно классифицироваться как здоровые. Тест имеет и достаточно высокую специфичность: в 88 % случаев положительные результаты теста позволяют правильно диагностировать наличие депрессивной симптоматики.
Очевидно, было бы весьма желательно, чтобы тест одновременно характеризовался высокой чувствительностью и специфичностью, как в приведенном примере. Однако на практике такая ситуация встречается редко, и можно говорить о существовании конкурентных отношений: по мере увеличения чувствительности наблюдается снижение специфичности теста и наоборот. Такая взаимоисключающая связь показателей чувствительности и специфичности отчасти связана с тем, что диагностика заболевания предполагает наличие лиц с доказанным отсутствием этого заболевания, доказанным наличием, а также существование некой «серой зоны», в пределах которой констатация наличия или отсутствия заболевания зависит от строгости используемых критериев. В подобных случаях снижение порогового уровня (выбран для констатации заболевания), направленное на снижение риска просмотра заболевания (а значит, на повышение чувствительности теста), должно неизбежно приводить к увеличению доли тех лиц, у которых будет ошибочно диагностироваться заболевание, т. е. к снижению специфичности.
Пример
Предположим, имеется гипотетическая методика, направленная на выявление определенного диагноза. Получены результаты обследования 30 испытуемых по данной методике, выявлено наличие у них распознаваемого диагноза (табл. 16). Очевидно, на операционные характеристики данного диагностического теста будет влиять выбор того порогового уровня, после достижения которого можно констатировать наличие заболевания. Зависимость чувствительности и специфичности теста от порогового уровня суммы баллов представлена в табл. 17. Снижение порогового уровня диагностики приводит к возрастанию чувствительности теста, но создает высокую вероятность ложноположительных результатов за счет неизбежного снижения специфичности. Напротив, завышение порога суммы баллов, необходимой для констатации диагноза, приводит к возрастанию вероятности пропуска тех лиц, которые в действительности имеют диагноз; в то же время доля ложноположительных результатов снижается.
Решение о выборе порогового уровня показателей теста, необходимого для принятия решения, во многом зависит от конкретной ситуации, прежде всего от значимости риска недооценки, пропуска распознаваемого состояния. Так, вполне обоснованным можно считать повышение чувствительности теста за счет снижения его специфичности, если речь идет о диагностике тяжелого заболевания, которое нельзя просмотреть, а также в тех случаях, когда проведение теста не требует больших материальных затрат и технически легко реализуемо (например, измерение артериального давления). Увеличение специфичности обосновано в случаях дорогостоящих и труднореализуемых тестов. Таким образом, чувствительности и специфичности может придаваться разный вес в зависимости от конкретной задачи исследования. Если вес, придаваемый чувствительности методики , обозначить как w, то вес, придаваемый специфичности, составит 1 -w. В этом случае оптимальный пороговый уровень, когда характеристики теста будут максимально удовлетворять требованиям исследователя, определяется максимальным значением М (Woodward M., 2014):
Если цель состоит в том, чтобы добиться оптимальной классификации при равной весовой значимости чувствительности и специфичности , то w = 0,5. В этом случае уравнение имеет вид:
Для выявления оптимального порогового уровня диагностики можно использовать индекс Юдена (Youden’d index, J), который рассчитывается следующим образом (Власов В. В., 2004; Szklo M., Nieto F. J., 2007):
В рассматриваемом примере максимальные величины показателя М и индекса Юдена наблюдаются при диагностическом пороге 31 балл, который можно признать оптимальным для разделения испытуемых в зависимости от наличия/отсутствия распознаваемого заболевания, если предъявляются равные требования к специфичности и чувствительности теста (см. табл. 17).
Компромиссным решением может быть батарея тестов, когда на первом этапе применяются относительно доступные и достаточно чувствительные методики предварительной оценки вероятного риска распознаваемого состояния, а затем у лиц, характеризуемых повышенным риском, осуществляют более детальную диагностику, уже используя высокоспецифичные тесты. Иными словами, высокая чувствительность — это принцип скрининг-методик, а высокая специфичность — специальных диагностических методик.
Для интегральной оценки соотношения чувствительности и специфичности методики при различных пороговых уровнях диагностики часто используют так называемую характеристическую кривую (receiver operating characteristic curve, ROC-curve) (Armitage P. [et al.], 2001; Peat J. K., Barton B., 2014; Woodward M., 2014). Эта кривая отражает связь вероятностей ложноположительных (1-специфичность) и истинно положительных (чувствительность) результатов. На рис. 43 представлена кривая, основанная на операционных характеристиках рассматриваемого примера гипотетического диагностического теста. Чем меньше изгиб кривой, чем ближе она расположена к биссектрисе, проходящей через начало координат под углом 45°, тем менее эффективно диагностическое исследование, так как точки на такой диагонали соответствуют отсутствию диагностической валидности теста (перемещение диагностического порога не приводит к изменению пропорции ложноположительных и истинно положительных результатов ).
Площадь под кривой (area under the curve, AUC), ограниченная характеристической кривой и осью абсцисс, является хорошей интегральной характеристикой эффективности теста. Теоретически эта площадь может принимать значения от 0 до 1,0. Поскольку в валидных тестах характеристическая кривая проходит выше биссектрисы, то обычно заслуживает обсуждения лишь изменение площади в диапазоне от 0,5 до 1,0 (площадь под биссектрисой изначально равна 0,5 и свидетельствует об отсутствии валидности методики). Чем ближе значение площади к 1,0, тем более эффективен диагностический тест. Статистические расчеты направлены на выявление достоверности различий вычисленной площади и площади, равной 0,5, свидетельствующей об отсутствии эффективности методики . В рассматриваемом примере площадь под кривой равна 0,864; данное значение с 99,9 % вероятностью (Р = 0,001) отличается от неэффективного показателя, равного 0,5. Приведенные оценки свидетельствуют об эффективности методики . Отметим, что большинство прикладных статистических программ (SPSS, SAS, STATA) позволяют построить такие характеристические кривые и изучить их параметры.
Отношение правдоподобия при положительном результате теста говорит о том, во сколько раз вероятность положительного результата теста выше у пациента с действительным наличием заболевания по сравнению с пациентом, у которого заболевание отсутствует (Кельмансон И. А., 2002; Власов В. В., 2004; Armitage P. [et al.], 2001; Woodward M., 2014). Рассчитывается данный показатель следующим образом:
Отношение правдоподобия при отрицательном результате свидетельствует о том, во сколько раз вероятность отрицательного результата теста выше у пациента с наличием заболевания по сравнению с пациентом, у которого в действительности отсутствует заболевание (Кельмансон И. А., 2002; Власов В. В., 2004; Armitage P. [et al.], 2001; Woodward M., 2014). Данный показатель вычисляется следующим образом:
В приведенном примере диагностики симптомов постнатальной депрессии на основе показателей Эдинбургской шкалы (см. табл. 15) отношение правдоподобия составит:
Полученные цифры свидетельствуют о том, что при позитивных результатах теста вероятность наличия депрессии у женщины возрастает в 7,67 раза, при отрицательных результатах она возрастает в 0,09 раза (или уменьшается примерно в 11 раз).
Прогностичность (predictive value). Суждение о критериальной валидности диагностической методики во многом основывается на вероятности совпадения выявленных положительных результатов с истинным наличием заболевания и отрицательных результатов с его отсутствием. Для этих целей широко используются показатели про-гностичности (Кельмансон И. А., 2002; Власов В. В., 2004; Rothman K. J. [et al.], 2008; Woodward M., 2014).
Прогностигность положительного результата (predictive value positive, PV+) отражает вероятность того, что пациент, имеющий положительные результаты теста, в действительности страдает заболеванием. Расчет осуществляется по формуле:
Прогностигность отрицательного результата (predictive value negative, PV-) отражает вероятность того, что у обследуемого с отрицательными результатами диагностического метода в действительности заболевание отсутствует. Расчет осуществляется по формуле:
Высокие показатели прогностичности отрицательного результата являются непременным условием любого диагностического метода, направленного на выявление редкого заболевания (состояния), так как, по условию, большая часть обследуемых лиц не страдает данным заболеванием.
Показатели прогностичности теста отчасти зависят от его чувствительности и специфичности. Действительно, чем чувствительнее тест, тем меньше вероятность того, что пациент, имеющий отрицательные диагностические результаты, страдает заболеванием и, следовательно, тем выше прогностичность отрицательного результата. Аналогично, чем выше специфичность теста, тем меньше вероятность того, что у пациента с положительными диагностическими результатами отсутствует заболевание, т. е. тем выше прогностичность положительного результата. Однако нужно отметить, что при прочих равных условиях прогностичность диагностического исследования существенным образом зависит от преваленса (распространенности в популяции) распознаваемого заболевания (патологического состояния), что не учитывается при расчете показателей чувствительности и специфичности. Это положение особенно актуально в случаях диагностики относительно редких заболеваний, с чем сталкиваются исследователи при проведении скрининга. Преваленс заболевания (патологического состояния) в обследуемой популяции и операционные характеристики теста, взаимодействуя между собой, определяют, какова вероятность идентификации заболевания среди обследуемых лиц. Лучше всего указанная взаимосвязь выявляется, если вместо пре-валенса использовать производную от него величину — претестовые шансы заболевания (pretest odds) (Кельмансон И. А., 2002; Straus S. E., 2011). Эти показатели соотносятся следующим образом:
Претестовые шансы заболевания = преваленс / (1 - преваленс).
Тогда послетестовые шансы заболевания (post-test odds) будут вычисляться как произведение претестовых шансов и отношения правдоподобия при положительных результатах теста:
Послетестовые шансы = претестовые шансы х LR+.
Конструктная валидность (construct validity) оценивается с целью определить, насколько структура опросника позволяет достоверно измерить то, что он должен измерить. Строятся определенные гипотезы, в основе которых лежат различные факторы (например, психологические, социальные или клинические показатели). В процессе исследования эти теоретические предположения подтверждают или опровергают. Различают виды конструктной валидности:
- конвергентная (convergent validity). результаты двух способов измерения одной характеристики должны коррелировать между собой;
- дискриминантная (discriminant validity): результаты измерения различных характеристик не связаны между собой (Barker C. [et al.], 2002).
В обоих случаях конструктная валидность предполагает оценку взаимосвязи изучаемой шкалы с определенными характеристиками.
Факторный анализ по методу главных компонент (Howell D. C., 2013) — статистический прием, который обеспечивает проверку предполагаемой структуры опросника и призван выявить отдельные компоненты в пределах структуры опросника. Относится к общепринятым подходам к оценке конструктной валидности. В процессе проведения факторного анализа определяют то, как пункты опросника распределяются по отношению к своим шкалам. Кроме того, факторный анализ должен показывать, что пункты шкалы относятся к своему фактору и тесно с ним коррелируют, слабо коррелируя с другими факторами.
Пример
Опросник SF-36, предназначенный для оценки качества жизни, связанного со здоровьем, принципиально предполагает наличие двухкомпонентной структуры (физического и психологического компонентов здоровья). Пункты таких шкал «Физическое функционирование» и «Боль» имеют высокую «факторную нагрузку» на физический компонент здоровья и низкую — на психологический компонент (Новик А. А., Ионова Т. И., 2007).
Метод известных групп. Респондентов распределяют на группы в зависимости от наличия или отсутствия у них какого-либо фактора. Высказывается наиболее вероятное предположение в отношении распределения у них данного фактора, и проводится анализ взаимосвязей показателей в зависимости от изучаемого фактора.
Пример
Изучаются показатели качества жизни, связанного со здоровьем, в зависимости от возраста пациентов: высказывались предположения о различиях показателей физического здоровья в различных возрастных группах. Эти предположения были подтверждены: респонденты старших возрастных групп имели показатели качества жизни хуже, чем респонденты молодого возраста (Новик А. А., Ионова Т. И., 2007).
Еще одним способом оценки конструктной валидности является оценка корреляций с внешними критериями (шкалами другого опросника, симптомами, клиническими или лабораторными показателями и т. д.). В таком случае целесообразно использовать многочертную-многометодную матрицу (multitrait-multimethod matrix) (Barker C. [et al.], 2002). Данная методика была предложена исследователями Д. Кэмпблом и Д. Фиске (D. Campbell, D. Fiske). Матрица представляет собой таблицу, отражающую корреляции между различными методиками, измеряющими различные конструкты. Важно одновременно анализировать и соотносить друг с другом не только измеряемые черты (т. е. что измеряется), но и измерительные методы (т. е. как измеряется).
Пример
Исследуется конструкт «высокий уровень тревоги во время публичных выступлений». Можно изучить показатели тревоги при помощи, скажем, двух различных опросников, а также исследовать частоту сердечных сокращений, кожный гальванический рефлекс у испытуемых во время публичных выступлений. Кроме того, у испытуемых можно исследовать коэффициент интеллекта, выраженность экстраверсии, уровень самооценки.
Многочертно-многометодная матрица будет отражать взаимную корреляцию всех изученных показателей. В частности, матрица будет показывать выраженность положительных корреляций измерений, относящихся к изучаемому конструкту, с измерениями, относящимися к другим близким конструктам. Это будет конвергентная валидность. С другой стороны, матрица будет показывать слабость или отсутствие корреляций измерений, относящихся к изучаемому конструкту, с измерениями, относящимися к конструктам, которые не связанны с данным конструктом (дискриминантная валидность) . В приведенном примере все измерения, направленные на изучение тревоги во время публичных выступлений, должны хотя бы умеренно коррелировать друг с другом. Предположительно, они не должны достоверно коррелировать с возрастом и коэффициентом интеллекта испытуемых. Кроме того, они должны лишь незначительно коррелировать с показателем самооценки, однако гораздо сильнее коррелировать с выраженностью экстраверсии. Матрица также позволяет выявить степень вариабельности отдельных методик, тенденцию, с которой коррелируют между собой близкие методики. Например, различные опросники, основанные на самоотчетах, часто взаимно коррелируют, хотя и призваны оценивать различные конструкты. Вот почему важно использовать в ходе исследования различные методики, а не целиком полагаться на какой-то один тип измерения.