Надежность измерения исследования в клинической психологии

Надежность — воспроизводимость тех измерений, которые были получены при помощи данной методики (Barker C. [et al.], 2002). Чем более стабильны выявляемые результаты, тем больше доверия вызывает методика и тем меньше величина ошибки, которая влияет на процесс измерения. Математически это можно определить как долю вариации измеряемого параметра, связанной с ошибкой измерения, в общей вариации измеряемого признака. Высокая надежность методики позволяет измерить показатели с достаточной уверенностью и выявить связь между изучаемыми признаками, которая может быть не распознана, если надежность мала. Если методика абсолютно ненадежна, то она регистрирует случайную ошибку, а не истинные показатели. Уровень надежности еще не говорит о том, что же реально измеряет данная методика: высокая надежность лишь свидетельствует о повторяемости получаемых результатов. Например, термометр, из которого вытекла жидкость, будет всякий раз показывать одинаковые цифры, т. е. давать надежные измерения, хотя они и будут неверными. Значение, верность измеренных показателей определяется уже валидностью измерений.

Выбор конкретного подхода к оценке надежности зависит от метода исследования (наблюдение, анкетирование), шкалы, используемой при измерениях, а также ряда других обстоятельств. Однако чаще всего для оценки надежности используются следующие приемы:

  • внутреннее согласие (в том числе принцип разделения пополам);
  • межисследовательское согласие;
  • повторное тестирование;
  • эквивалентные формы опросников (Barker C. [et al.], 2002).

Оценка внутреннего согласия (internal consistency) — стандартный подход к оценке взаимной согласованности признаков, составляющих шкалу опросника. Предполагается, что признаки, входящие в опросник , эквивалентны или параллельны, т. е. нацелены на изучение одного и того же конструкта. Внутреннее согласие позволяет оценить, измеряют ли признаки одно и то же (высокое внутреннее согласие) или разные вещи (низкое внутреннее согласие). Чаще всего изучается взаимная ковариация признаков, входящих в опросник, что статистически находит свое выражение в показателе а Кронбаха (Cronbach’s alpha). Расчет проводится следующим образом:


где k — число признаков, входящих в опросник; S. — среднеквадратическое отклонение показателей i-го признака (i = 1, ..., k), ST — среднеквадратическое отклонение суммарных показателей по всем признакам опросника.

Если признаки, входящие в опросник, абсолютно не связаны по смыслу друг с другом, а равно нулю; если же все признаки измеряют фактически одно и то же, а будет равно 1,0. Принято считать, что внутреннее согласие удовлетворительное при величине а > 0,7. Показатели менее 0,5 считаются неудовлетворительными и требуют пересмотра методики (Woodward M., 2014). Очевидно, не только низкий, но и чрезмерно высокий (> 0,9) показатель а не может расцениваться как удовлетворительная находка, поскольку косвенно свидетельствует о тавтологии вопросов, входящих в опросник.

Пример
Рассчитывается показатель а Кронбаха на примере собственных данных оценки постнатальной депрессии при помощи Эдинбургской шкалы (Edinburgh Postnatal Depression Scale, EPDS). Опросник состоит из 10 вопросов, представленных в форме шкалы Лайкерта. Сумма баллов по всем вопросам отражает выраженность постанатальной депрессии. В табл. 6 представлены данные обследования 82 женщин. Расчет выглядит следующим образом:


Полученный показатель свидетельствует о высоком уровне внутреннего согласия.

Расчет показателя а Кронбаха можно выполнить при помощи большинства прикладных статистических программ (SPSS , STATA, SAS и др.). В ходе таких расчетов возможно осуществление ряда дополнительных важных процедур, например поочередного удаления из опросника отдельных признаков с оценкой соответствующего изменения показателя а Кронбаха: если при удалении определенного вопроса показатель Кронбаха увеличивается и внутренняя согласованность улучшается, данный вопрос, скорее всего, является лишним для опросника и может быть исключен.




Расчеты изменений внутреннего согласия при удалении отдельных вопросов, выполненные при помощи программы SPSS, представлены в табл. 7. Ни один исключенный признак не улучшает показателя внутреннего согласия. Между отдельно взятыми признаками и оставшимися показателями наблюдается хорошая корреляция, удаление признаков существенно не снижает общей вариации значений шкалы. Таким образом, можно сделать вывод о том, что все признаки, включенные в шкалу, хорошо взаимно согласованы.

Метод разделения пополам в настоящее время используется реже. Вопросы, входящие в опросник, делятся на две эквивалентные формы (например, содержащие четные и нечетные вопросы). Затем определяется корреляция показателей, полученных по двум формам опросника . Такой анализ проведен применительно к рассматриваемой Эдинбургской шкале: первую половину составили вопросы 1—5, вторую — вопросы 6—10. Показатель а Кронбаха составил 0,697 для первой половины и 0,668 для второй половины. Корреляция между показателями, полученными по двум половинам шкалы, — 0,658. Поскольку коэффициент корреляции рассчитывается между двумя половинами шкалы, т. е. при числе признаков меньшем, чем в исходном опроснике, в вычисленный показатель следует вносить поправку, так как при прочих равных условиях при большем количестве признаков, входящих в опросник, показатель внутреннего согласия возрастает. Используют формулу предсказания Спирмена—Брауна (Spearman-Brown prophecy phormula):

где rkk — показатель надежности опросника при объединении всех признаков; к — коэффициент, отражающий кратность увеличения количества признаков (в нашем случае он равен 2, так как суммарное число признаков увеличится в 2 раза); r11 — исходный показатель (Barker C. [et al.], 2002; Reddy M. V., 2015).

Таким образом, формула приобретает вид:


Скорректированный показатель r22 равен 0,794 и говорит о высокой внутренней согласованности признаков, входящих в опросник, и надежности методики.

Воспроизведение результатов исследования, полученных различными исследователями у одних и тех же испытуемых, потенциально может подвергнуться влиянию разных факторов:

  • Биологическая вариабельность изучаемых показателей у одного и того же обследуемого; примером могут служить показатели артериального давления, исследуемые у одного и того же пациента при различных обстоятельствах, в различное время суток и т. п.
  • Методика исследования изначально может иметь высокую вероятность вариабельности показателей, полученных в ходе повторных измерений. Чаще всего это обусловлено техническими погрешностями методики.
  • Факторы, прямо или косвенно связанные с людьми, выполняющими диагностические исследования. При этом различают внутриисследовательскую вариабельность (intra-observer variability), сводящуюся к тому, что один и тот же исследователь при повторном изучении показателей у одного и того же испытуемого может выявлять различные результаты, а также межисследовательскую вариабельность (inter-observer variability), которая заключается в неодинаковых подходах к использованию методики и трактовке ее результатов различными исследователями. Межисследовательская вариабельность сводится к минимуму в тех случаях, когда четко регламентирована процедура проведения исследования и заданы критерии, на основании которых возможна интерпретация результатов. Эти условия легче обеспечить, если используются количественные оценки. Задача осложняется, если используются качественные оценки, особенно при высокой вероятности субъективизма трактовок результатов .

Уровень межисследовательского согласия (inter-observer consistency) выражается в том, в какой мере различные исследователи однозначно трактуют результаты применения методики (Кельмансон И. А., 2002; Власов В. В., 2004; Barker С. [et al.], 2002). Статистические подходы к оценке межисследовательского согласия во многом зависят от используемой шкалы измерений. Поскольку в исследованиях довольно часто используются номинальные шкалы, нужно подробно рассмотреть статистические оценки, применяемых в этих случаях. Предположим, что методика предполагает вынесение бинарного суждения, например, о наличии или отсутствии заболевания, патологического состояния и т. п. Пример распределения оценок при вынесении таких суждений двумя независимыми исследователями представлен в табл. 8. Полное совпадение оценок исследователей наблюдается в a + b случаях, и степень межисследовательского согласия p0 рассчитывается следующим образом:


Нередко значение степени согласия приводят в процентах. Однако такая оценка учитывает совпадения, связанные как с одинаковыми подходами исследователей к трактовке результатов, так и с чистой случайностью.

Таким образом, истинное суждение о межисследовательском согласии должно предполагать коррекцию на возможность случайного совпадения результатов. С указанной целью используется критерий каппа (к) Коэна (Cohen’s kappa) (Armitage P. [et al.], 2001; Barker C. [et al.], 2002). Его расчет сводится к следующему. Прежде всего определяют фактическую (observed) степень согласия p0 по вышеприведенной формуле. Затем рассчитывают ожидаемую (calculated) степень согласия рс, исходя из гипотезы о том, что такое совпадение определяется исключительно влиянием случая. Расчет рс выглядит следующим образом:


Критерий к рассчитывается следующим образом:


Значение критерия к может достигать 1,0 при полном совпадении результатов, а его минимально возможная величина равна нулю при полном несовпадении. Предложены различные подходы к интерпретации значений критерия к (Szklo M., Nieto F. J., 2007) (рис. 40). Чаще всего об отличном межисследовательском согласии говорят при к 1 1 0,75, об удовлетворительном при 0,4 < к < 0,75; о плохом при к < 0,4 (Fleiss J. L. [et al.], 2003).

При большом числе обследованных (п > 100) можно достаточно точно оценить среднеквадратическое отклонение, соответствующее критерию к (Власов В. В., 2004):

Тогда статистическая достоверность критерия к будет оцениваться на основе z-преобразования:

Для оценки уровня статистической значимости полученное значение z необходимо сопоставить с таблицей граничных значений для £-критерия.

Когда проводится сопоставление результатов теста, предполагающего возможность более двух оценок, расчеты несколько усложняются. Если число возможных оценок равно l, то мера согласия будет основываться на разнице фактических и теоретически ожидаемых значений наблюдений в диагональных ячейках табл. 9. Ожидаемое число наблюдений в каждой ячейке таблицы будет рассчитываться следующим образом:


где E.. — ожидаемое число наблюдений в ячейке (i, i) в строке i и столбце i.


Таким образом, согласие может быть рассчитано как сумма разностей фактического числа и теоретически ожидаемого числа наблюдений в диагональных ячейках таблицы:

Пример
Два исследователя должны выявить у 100 испытуемых наличие диагноза шизофрении, аффективных нарушений или иных психических расстройств (Barker C. [et al.], 2002) (табл. 10). Фактическое совпадение диагнозов, установленных двумя исследователями, составит: 10 + 20 + 20 = 50. Таким образом, степень согласия р0 составляет 50/100 = 0,5.


Для вычисления рс необходимо прежде всего рассчитать долю наблюдений, приходящихся на каждую строку и каждый столбец таблицы: это делается суммированием числа наблюдений в соответствующих строках и столбцах и делением полученных значений на общее число наблюдений . Затем вычисляется р. путем последовательного перемножения значений долей, приходящихся на соответствующие строку и столбец для каждой клетки таблицы, и суммирования полученных значений:
рс = 0,3 х 0,2 + 0,4 х 0,5 + 0,3 х 0,3 = 0,06 + 0,20 + 0,09 = 0,35.

Тогда значение к составит: к = (0,5 - 0,35)/(1 - 0,35) = 0,23.

В приведенном примере, основанном на использовании номинальной шкалы признаков, возможно изучение показателя надежности и для какой-то отдельно взятой категории этой шкалы. Для этого категории признака нужно свести к двум: той, которая представляет интерес для анализа, и всем остальным суммарно. Так, может стоять вопрос: насколько надежной является диагностика шизофрении? Тогда таблица будет сведена к двум категориям: «диагноз шизофрении» и «отсутствие диагноза шизофрении», т. е. будет сведена к виду 2 х 2, что позволит выполнить соответствующие расчеты показателя к.

Если для измерения признака используются не номинальные, как в приведенном примере, а ординальные и интервальные шкалы, оценка показателя надежности усложняется.

Источник: 
Методология исследования в клинической психологии : учеб. пособие. Кельмансон И. А. — Санкт-Петербург : СпецЛит, 2017. — 328 с.
Материалы по теме
Методы и методики измерения в клинической психологии
Методология исследования в клинической психологии : учеб. пособие. Кельмансон И. А. — Санкт-...
Интервьюирование в клинической психологии
Методология исследования в клинической психологии : учеб. пособие. Кельмансон И. А. — Санкт-...
Наблюдение в клинической психологии
Методология исследования в клинической психологии : учеб. пособие. Кельмансон И. А. — Санкт-...
Валидность измерения исследования в клинической психологии
Методология исследования в клинической психологии : учеб. пособие. Кельмансон И. А. — Санкт-...
Описательные исследования в клинической психологии
Методология исследования в клинической психологии : учеб. пособие. Кельмансон И. А. — Санкт-...
Исследование популяционных срезов в клинической психологии
Методология исследования в клинической психологии : учеб. пособие. Кельмансон И. А. — Санкт-...
Исследования по принципу «случай — контроль» в клинической психологии
Методология исследования в клинической психологии : учеб. пособие. Кельмансон И. А. — Санкт-...
Когортные исследования в клинической психологии
Методология исследования в клинической психологии : учеб. пособие. Кельмансон И. А. — Санкт-...
Оставить комментарий