Стандарты психодиагностических измерений

24.03.2020

Методологической основой психодиагностики выступает психометрика, в том числе дифференциальная психометрика — наука об измерении индивидуально-психологических различий.

Психометрика разрабатывает технологию создания психодиагностических методик (тестов) и формулирует набор психометрических требований, которым они должны отвечать.

Любая психодиагностическая методика должна быть приведена к некому стандарту, предполагающему единую, неизменную (стандартную) процедуру ее проведения и обработки результатов. Смысл процедуры стандартизации — максимально уменьшить число случайных факторов, влияющих на результаты разных измерений. Для этого устанавливают средние (тестовые) показатели, их разброс и прочие статистические критерии. Численность выборки, на которой определяются статистические тестовые нормы, в современных исследованиях должна составлять, по-видимому, не меньше 1000 человек.

Стандарт измерения должен предполагать единый смысловой инструментарий, создать который объективно чрезвычайно трудно. Например, простейший возглас «Ух!» на пике спортивного состязания по-разному выражает чувства и мысли самого спортсмена, его противника, их тренеров, судей и болельщиков.

Понятие теста

Тест (англ. test — испытание, проверка, проба) — это стандартизованное краткое испытание (или их серия), предназначенное для установления качественных и количественных различий в измеряемой характеристике. В психологии исследуют личностные особенности, знания, умения, навыки и другие параметры психологической сферы.

Данные, которые используются в тестировании, принято относить к одному из трех типов: L-, Q- и Т-данные.

L-данные (англ. life record data — данные из жизни) — это данные, получаемые путем регистрации каких-либо психических проявлений в реальной жизни. Так, в педагогической практике для получения этого типа данных обычно пользуются экспертными оценками.
Q-данные (англ. questionnaire data — вопросные данные) — данные, получаемые с помощью анкетирования, опросников и других методов самооценок.
Т-данные (англ. tests data — данные тестов) — данные, получаемые с помощью объективных тестов в строго контролируемых условиях. Испытуемый не знает, на оценку какой характеристики направлена диагностическая процедура.

Полная диагностика требует привлечения всех трех типов данных. Их комплексный анализ позволяет построить объемный L-Q-T-образ исследуемой переменной и получить полную психологическую оценку изучаемого параметра.

В психодиагностике существуют понятия нормы, ключа, а также «сырого» и «стандартного» тестовых баллов.

Норма, в философском значении, подразумевает выделение в групповом сознании представлений об эталоне правильности и естественности, имеющие определенные параметры и рамки. Проще, это писаные и неписаные правила поведения, принятые в обществе. Суждения о том, что является нормой, в разных обществах неодинаковы. Причины следует искать в особенностях культуры, истории, духовных и нравственных ценностях, обычаях. В практическом плане нормой считаются среднестатистические данные, полученные в результате предварительного тестирования достаточно большой группы лиц, обычно не менее 1000 человек. Использовать показатели нормы корректно лишь в случае релевантности (максимального соответствия) характеристик исследуемой выборки той исходной группе, на которой была определена эта норма. В перечень характеристик входят, как минимум, все основные социокультурные и демографические признаки. Как правило, границы нормы достаточно широки. Надо помнить, что ценности любого общества, как и само общество в целом, трансформируются с течением времени. Потому меняются как взгляды на то, что следует считать нормой, так и количественные критерии нормы.

Ключом называют прилагаемую к психодиагностической методике (тесту) схему (таблицу) начисления баллов за объективно правильные и объективно неправильные ответы. Заданная правильность ответов соответствует некоему установленному в ходе предварительных исследований социокультурному (либо психометрическому) нормативу.

Понятия «сырого» и «стандартного» тестовых баллов. Суммарный балл, подсчитанный с помощью ключа, считается первоначальным, или «сырым». Такой балл хотя и отражает норму, тем не менее не всегда является окончательным диагностическим показателем. Обычно необходима его дополнительная корректировка, которая бы учитывала особенности характеристик лиц данного региона или социального слоя. Для уточнения количественных показателей нормы вводят специальные поправочные коэффициенты. Их принято называть стандартными баллами, или стенами (англ. standard ten — стандартная десятка). На них умножают «сырые» баллы. В профессионально подготовленных тестах они прилагаются к инструкции. Процедура перевода тестовых баллов из «сырой» шкалы в «стандартную» называется стандартизацией тестового балла. Она всегда используется в профессионально поставленной психодиагностике как свидетельство адаптации теста к данной среде. Во многих популярных методиках этого нет, потому их результаты обычно более сомнительны.

Результаты тестирования для наглядности нередко представляют в виде тестового (психодиагностического) профиля. Это обобщенное графическое изображение, где представлены итоговые данные по каждому проведенному тесту.

Объективность теста (понятия надежности, валидности и др.)

Для оценки объективности диагностических оценок используется ряд показателей: валидность, надежность, репрезентативность и др.

Валидность
Каждый исследователь должен быть уверен, что он действительно делает то, что планировал. Применительно к тестам создано понятие валидности. Валидность — это соответствие теста своему назначению, его точность. Высокая валидность указывает на то, что тест измеряет именно то, что мы хотим. Уровень валидности свидетельствует о том, пригодна ли методика для измерения определенных качеств, особенностей и насколько эффективно она это делает. К примеру, тест, предназначенный для оценки памяти, должен измерять именно способность к запоминанию, а не просто отражать общие интеллектуальные способности. Важнейший параметр валидности (применительно к отдельной личности) — это прогностическая валидность, иначе — возможность применяемого метода прогнозировать будущее поведение или характерные черты испытуемого. К сожалению, большинство тестов отличает низкая прогностическая валидность.

О валидности теста судят по так называемому критерию валидности, иначе — независимой от теста внешней, экспертной оценке; речь идет о сравнении полученных независимо друг от друга результатов тестирования. На практике в качестве критерия валидности часто используются показатели эффективности той деятельности, ради прогнозирования которой предпринимается тестирование (так называемые прагматические критерии).

Надежность
Надежность — это показатель помехоустойчивости теста, защищенности (независимости) получаемых результатов от случайных факторов. На практике под надежностью понимают в первую очередь устойчивую согласованность результатов неоднократного тестирования одного и того же объекта (ретестовая надежность). Надежность присутствует и тогда, когда один и тот же тест в руках разных исследователей приводит к одинаковому результату (межэкспертная надежность). Таким образом, надежный психологический тест должен показывать очень близкие результаты при многократной оценке одного и того же пациента даже в случае, если тест проводится разными психологами.

Абсолютной тестовой надежности не существует, погрешности допускаются, однако чем они выше, тем ниже тестовая эффективность. Математически надежность описывается отношением «истинной»

(«идеальной») дисперсии к реальной (эмпирической) дисперсии и называется коэффициентом надежности. На практике большинство тестов дают коэффициент надежности не выше 0,7-0,8.

Существуют три основных метода оценки надежности:

Повторное тестирование (ретестовая надежность или надежность — устойчивость) — подразумевает многократное выполнение теста и корреляционное сравнение полученных результатов.
Параллельное тестирование (эквивалентная надежность) — выявляется путем предъявления испытуемому теста и его альтернативного варианта; полученные результаты сравниваются между собой.
Расщепление — искусственное разделение теста на две в какой-то мере дублирующие друг друга части (согласованность, одномоментная надежность) и сравнение результатов выполнения двух частей по отдельности.

Для примера рассмотрим подробнее суть метода измерения ретестовой надежности. На одной и той же выборке испытуемых (не менее 30 человек), участвующих в пилотажном психометрическом экспериментальном исследовании, проводят первое тестирование Х, а затем повторное тестирование Y. Интервал между тестированиями составляет, как правило, две недели, что гарантирует забывание вопросов теста. Затем для двух рядов значений Х и Y подсчитывается коэффициент корреляции и его достоверность.

Надежность и валидность связаны между собой лишь односторонней связью; это означает возможность присутствия надежности без валидности, но невозможность существования валидности без надежности. Поэтому тест, который состоит во взвешивании клиента, может показывать неизменные результаты, не будучи валидным показателем состояния, допустим, здоровья или долголетия.

Поскольку валидность — более значимое качество по сравнению с надежностью, в психометрике принято следующее правило: валидность < надежности, т.е. валидность не может превышать надежности теста.

Репрезентативность
Репрезентативность — соответствие данной выборки стандартам более широкой популяции.

Достоверность
Достоверность, или правдивость методики, характеризует ее защищенность от лживых и неверных ответов. Для этого в профессиональные методики всегда вводится шкала лжи, позволяющая в определенной степени корректировать и нивелировать искажения. Наиболее надежными, валидными и достоверными признаются методы диагностики с использованием точной аппаратуры, снимающей объективные электрофизиологические данные, например, электроэнцефалография.

Достоверность методики в значительной степени зависит от точности входного стимула, например, точности заданного вопроса, который всеми испытуемыми должен быть воспринят однозначно одинаково, а также от точности и корректности трактовок полученных результатов. Разночтения по этим факторам приводят к большим погрешностям во всех психологических тестах.

Неотъемлемым элементом проверки достоверности служит корректно проведенный математический (статистический) анализ результатов тестирования. Сравнивают результаты повторных и независимых исследований, в том числе с применением параллельных контрольных тестов, проведенные в однотипных условиях на разных группах лиц. Важно знать: достоверность наиболее проверенных и надежных психологических тестов не превышает 80-90 %. Таким образом, ни один психологический тест не может считаться абсолютно достоверным, поскольку минимально достоверным уровнем значимости считается 95%.

Релевантность
Под релевантностью понимают смысловое соответствие психологических качеств, выявляемых диагностическим инструментом, их истинному пониманию. Для проверки выбирают независимый внешний критерий. Другими словами, должна быть уверенность в том, что те особенности индивидуальной психики, которые измеряются диагностической методикой, действительно объективно проявлены в данном слое социума (присутствует принцип соответствия).

Дискриминативность
Данное понятие отражает степень различения тестом количественных различий показателя. Так, тесты с субъективными замерами времени реакции на порядок уступают в точности инструментальным методикам. Дискриминативность последних выше.

Стандартизация процесса тестирования

Стандартизацию теста и процесса тестирования проводят в условиях эксперимента. Экспериментом называют процедуру исследований, при которой исследуется влияние некого фактора, иначе — независимой переменной, на некий объект, иначе — зависимую переменную. Стандартизация теста обеспечивает возможность сравнения данных независимых исследований. У психологов это называется «контроль всех зависимых переменных». В идеале единственной независимой переменной в тесте будет личность испытуемого. Для обеспечения равных условий необходимо строгое соблюдение всех рекомендаций разработчиков теста, в том числе специальных указаний по его проведению. В частности, они включают:

единую специфику стимульного материала;
временные ограничения (time limits);
стандартную инструкцию испытуемым;
выполнение пробных образцов заданий;
варианты возможных допустимых ответов на вопросы (если таковые ограничения необходимы).

В эксперименте выделяют отдельно экспериментальную и контрольную группы, иначе выборки. Контрольную группу образуют лица, которые не подвергаются воздействию независимой переменной в исследовании; во всем остальном условия опыта экспериментальной и контрольной групп максимально идентичны. При отборе лиц в обе группы используют метод случайности отбора (случайности выборки), гарантирующий непредвзятость исследования.

В современных исследованиях для большей объективности используют так называемый слепой или, чаще, двойной слепой эксперимент.

В слепом эксперименте есть исследователь и испытуемые. Испытуемые ничего не знают о целях, задачах, смысле, ожидаемых результатах и т.п. самого эксперимента; об этом знает только исследователь. При двойном слепом эксперименте, помимо исследователя и испытуемых, в эксперимент вводятся третьи лица, которые осуществляют воздействие и собирают данные. Ни испытуемым, ни лицам, собирающим данные, ничего не известно об эксперименте; они не знают ни вид (суть) воздействия, ни к кому именно применен тот или иной тип воздействия; таким образом, к исследователю стекаются «чистые», не зависящие от его пристрастности, результаты.

Математическая обработка результатов тестирования

Поскольку ни один психологический тест не может считаться абсолютно достоверным, в научных исследованиях, требующих доказательных результатов, необходим строгий математический (статистический) анализ. Для этого данные исследований подвергают математической обработке по специальным формулам. Существует набор общепринятых критериев (например, среднее, дисперсия, средняя ошибка, критерии Стьюдента, Фишера, коэффициент корреляции Пирсона), которым обычно пользуется большинство исследователей. Результаты математического анализа позволяют ответить на вопрос: насколько интересующие события или характеристики (переменные данные) зависят друг от друга и подлинна ли зависимость (связь, корреляция), обнаруженная в данной группе испытуемых, или это только случайность? Важна правильная методика проведения такого анализа и корректный выбор критерия. Отправным пунктом в грамотно спланированном исследовании есть количество наблюдений. В психологических исследованиях неустановленный желательный минимум составляет 15-20 наблюдений (человек) в экспериментальной и столько же — в контрольной группе. Такое количество обычно обеспечивает получение достоверных статистических данных, хотя серьезные проекты требуют гораздо более масштабного подхода (вплоть до тысячи и более наблюдений).

Установление связи между переменными. Чаще всего для описания связей между переменными используют методы регрессии и корреляции.

Два разных измерения, полученных по каждому элементу выборки, можно отобразить в виде точек в декартовой системе координат (х, у) — диаграммы рассеяния, являющейся графическим представлением связи между этими измерениями. Часто эти точки образуют почти прямую линию, свидетельствующую о линейной связи между переменными. Для получения линии регрессии — математического выражения линии наилучшего соответствия множеству точек диаграммы рассеяния — используются численные методы. После выведения линии регрессии появляется возможность предсказывать значения одной переменной по известным значениям другой и, к тому же, оценивать точность предсказания.

Коэффициент корреляции (г) — это количественный показатель тесноты линейной связи между двумя переменными. Методики вычисления коэффициентов корреляции исключают проблему сравнения разных единиц измерения переменных. Значения г изменяются в пределах от -1 до +1. Знак отражает направление связи. Отрицательная корреляция означает наличие обратной зависимости, когда с увеличением значений одной переменной значения другой переменной уменьшаются. Положительная корреляция свидетельствует о прямой зависимости, когда при увеличении значений одной переменной увеличиваются значения др. переменной. Абсолютная величина г показывает силу (тесноту) связи: г = ±1 означает прямолинейную зависимость, а г = 0 указывает на отсутствие линейной связи. Величина г2 показывает процент дисперсии одной переменной, который можно объяснить вариацией другой переменной. Психологи используют г2, чтобы оценить полезность конкретной меры для предсказания.

Развитие вычислительной техники позволяет решает задачу вычисления большого массива данных и анализировать связи между большим числом переменных. Поэтому сейчас в серьезных исследованиях используются такие методы, как множественная регрессия и факторный анализ.

Помехи (контаминации) и диагностические ошибки

Любое исследование не является свободным от неучтенных вмешательств, которые ведут к контаминации, или смешению событий. Такие факторы могут быть отнесены к категории помех.

Выделяют пять типов возможных непредусмотренных диагностических ошибок:

неправильное составление теста;
неправильная стандартизация теста;
неправильное применение теста;
неверная (субъективная) трактовка результатов;
неучтенная мотивация обследуемого.

В основе ошибок лежат те или иные причины. Вот типичные причины субъективных обманов:

статистические мистификации: увы, но многие из статистических данных, на которые мы по привычке ссылаемся, удручающе неправильны;
заблуждение — это ошибка или погрешность в процессе мышления;
ловушки, подстерегающие нас при принятии решений;
неспособность увидеть очевидное противоречие;
чрезмерная уверенность (самоуверенность, стереотип, консерватизм мышления), ведущая к ошибке;
пристрастность (тенденция принимать желаемое за действительное).

К ошибкам вследствие неправильного применения теста относят ошибки, связанные со сбором данных и их документированием. Это, в частности:

ошибки понимания, когда у респондента отсутствует четкое представление о том, о чем его спрашивают (иначе говоря, присутствует нечеткость или неоднозначность восприятия и понимания);
ошибки наблюдения, например, «слепота» на важные для диагноза черты, проявления личности; неверное субъективное восприятие черт в искаженной качественно или количественно форме, неумышленная пристрастность;
ошибки инструментальные — возникают вследствие неумения пользоваться аппаратурой и другой измерительной техникой как в техническом, так и в интерпретационном аспекте;
ошибки регистрации — как банальные описки, так и неумышленные, меняющие акцент восприятия (например, эмоциональная окрашенность записей в протоколе свидетельствует скорее об отношении психолога к обследуемому, нежели об особенностях поведения последнего).

Ошибки вследствие неверной (субъективной) трактовки результатов теста происходят в процессе обработки и интерпретации данных. В частности, это:

эффект первого впечатления — ошибка, основанная на переоценке диагностического значения первичной информации;
ошибка атрибуции — приписывание обследуемому черт, которых у него нет, или рассмотрение нестабильных черт в качестве стабильных;
ошибка ложной причины — неверное видение истории развития ситуации;
опознавательный радикализм — тенденция к ограничению сферы и рамок рабочих гипотез и нежелание искать лучшие решения.

Проблемы мотивации в тестировании
Позиция (мотивация) обследуемого индивида по отношению к проводимому обследованию сильно влияет на истинность результата психодиагностики. Поэтому ее важно определить как можно точнее, причем лучше не прямо, а завуалировано. Позиция бывает:

позитивной, когда индивид заинтересован в истинном результате, а значит, предполагаются максимально правдивые ответы;
негативной, т.е. подразумевающей скрытость и лживость поведения;
нейтральной, где лживость ответов будет присутствовать, но все-таки в меньшей степени, как результат нежелания индивида задумываться над проблемными для него вопросами.

В ситуации консультирования клиент, обращающийся за помощью к психологу, охотно идет на сотрудничество, старается выполнить инструкции как можно более точно, не имеет сознательных намерений приукрасить себя или фальсифицировать результаты. Естественно, в этом случае к диагностическому инструменту можно предъявлять минимально жесткие требования относительно его защищенности от фальсификации вследствие сознательной стратегии. Тем не менее стоит однако помнить, что даже при позитивной позиции могут существовать (и существуют!) области табу, интимно-личного, где клиент все-таки уйдет от правильного ответа.

В ситуации же экспертизы человек, знающий об этом, старается выдержать «экзамен», и для этого вполне осознанно контролирует свое поведение и свои ответы таким образом, чтобы предстать в максимально выигрышном свете (или добиться своей цели даже ценой симуляции отклонений и расстройств). Здесь результаты психодиагностики требуют многократного подтверждения, причем по разным методикам и разными лицами, для максимальной защиты от ошибки вследствие фальши. С целью выявления и снижения лжи, уменьшения влияния фактора обмана в современные варианты опросных тестов введен прием прямых и обратных вопросов, требующих полярных вариантов правильных ответов, а также специальные вопросы из категории шкалы лжи. Ответы на них позволяют косвенно предположить завуалированный обман.

Ключевые слова: Тесты

Источник: Русланов Д.В. Психология: базовая теория и практика. -2-е изд., переработанное и дополненное. - Х.: Полиграф-М. 2016.

Материалы по теме
Содержание психологического тестирования Акимова М.К., Гуревич К.М., Психологическая диагностика 3-е издание. Спб.:Питер, 2008.
Тест творческого мышления П. Торренса Е. П. Ильин. «Психология творчества, креативности, одаренности» Питер; СПб.; 2009
Формы психологического тестирования Акимова М.К., Гуревич К.М., Психологическая диагностика 3-е издание. Спб.:Питер, 2008.
Понятие и виды тестов Бурлачук Л. Ф. Психодиагностика: Учебник для вузов. — СПб.: Питер, 2006. — 351 с: ил
Тестирование в психологии Анна Анастази, Дифференциальная психология
Компьютеризированные и компьютерные тесты Бурлачук Л. Ф. Психодиагностика: Учебник для вузов. — СПб.: Питер, 2006. — 351 с: ил
Тест структуры интеллекта Амтхауэра Кондрашихина О.А., Дифференциальная психология
Об «объективных» тестах личности Бурлачук Л. Ф. Психодиагностика: Учебник для вузов. — СПб.: Питер, 2006. — 351 с: ил

Оставить комментарий

Вы здесь