Валидность теста

Содержание
  1. Надежность и валидность теста – это что такое?
  2. Что такое надежность
  3. Способы оценки надежности теста
  4. Что такое валидность
  5. Виды валидности теста
  6. Типы критериев валидности
  7. Основные требования к критериям
  8. Выводы
  9. Надежность и валидность тестов
  10. Надежность психологических тестов
  11. Валидность психологических тестов
  12. Соотношение надежности и валидности психологических тестов
  13. Примеры заключений о надежности и валидности психологически тестов
  14. Валидность теста
  15. Валидность теста конструктная
  16. Валидность теста по критерию
  17. Валидность теста по содержанию
  18. Валидность теста прогностическая
  19. Валидность эксперимента
  20. Валидность эксперимента внешняя
  21. Валидность эксперимента внутренняя
  22. QualiTester
  23. Интерпретация
  24. Рекомендации для тестолога
  25. Проблемы валидности психодиагностических методик. Виды валидности. Эмпирические способы определения валидности
  26. Валидность и надежность
  27. Содержательная валидность
  28. Очевидная валидность
  29. Эмпирическая валидность
  30. Критерий валидизации

Надежность и валидность теста – это что такое?

Валидность теста

*Надежность и валидность теста – это характеристики соответствия исследования формальным критериям, определяющим качество и пригодность к применению на практике.

Что такое надежность

В ходе проверки надежности теста проводится оценка постоянства полученных результатов при повторном проведении испытания. Расхождения данных должны отсутствовать или же быть незначительными.

В противном случае невозможно относиться к результатам теста с доверием.

Надежность теста – это критерий, который свидетельствует о точности измерений.

Существенными считаются следующие свойства тестов:

  • воспроизводимость результатов, полученных по итогам исследования;
  • степень точности методики измерения или соответствующих приборов;
  • устойчивость результатов на протяжении определенного периода времени.

В трактовке надежности можно выделить следующие основные составляющие:

  • надежность измерительного инструмента (а именно грамотности и объективности тестового задания), которая может быть оценена путем расчета соответствующего коэффициента;
  • стабильность изучаемого признака на протяжении длительного периода времени, а также предсказуемость и плавность его колебаний;
  • объективность результата (то есть его независимость от личных предпочтений исследователя).

На степень надежности может повлиять целый ряд негативных факторов, наиболее существенными из которых являются следующие:

  • несовершенство методики (неверная или неточная инструкция, нечеткая формулировка заданий);
  • временная нестабильность или постоянные колебания значений показателя, который подвергается исследованию;
  • несоответствие обстановки, в которой проводятся первоначальные и повторные исследования;
  • меняющееся поведение исследователя, а также нестабильность состояния испытуемого;
  • субъективный подход при оценке результатов теста.

Способы оценки надежности теста

При определении надежности теста могут быть использованы следующие методики.

Метод повторного тестирования является одним из самых распространенных. Он позволяет установить степень корреляции между результатами исследований, а также временем, в которое они были проведены. Данная методика отличается простотой и эффективностью. Тем не менее у испытуемых, как правило, повторные исследования вызывают раздражение и негативные реакции.

Метод проверки внутренней согласованности не берет во внимание постоянство получаемых при повторном исследовании результатов. Он устанавливает взаимосвязь ответов, которые были даны в рамках одного эксперимента. Вопросы теста делятся на два перечня (по определенному принципу), после чего рассчитывается коэффициент корреляции между результатами.

Метод эквивалентных форм заключается в использовании двух или более тестов с разными формулировками заданий, но с одинаковой сутью, формой и степенью сложности выполнения.

О надежности теста свидетельствуют одинаковые или приближенные результаты, которые были получены с использованием одного и того же измерительного прибора или вычислительной формулы.

Если же итоги сильно расходятся, то, скорее всего, они были искажены намеренно или же испытуемый не очень ответственно подошел к процессу опроса.

Что такое валидность

Валидность теста – это критерий, который определяет достоверность измерения. Можно сказать, что это пригодность того или иного инструментария к оценке определенной психологической характеристики. Стоит отметить, что валидность, надежность теста – это взаимодополняемые критерии, по отдельности они являются несущественными.

Валидность может рассматриваться с точки зрения теоретического и прагматического аспекта. В первом случае речь идет о методе оценки или же измерительном инструменте.

Что касается второго понимания валидности, то оно касается цели проведения исследовательских мероприятий.

Стоит отметить, что данный критерий может существенно отличаться для одного и того же теста, в зависимости от круга испытуемых. Наивысшая оценка может колебаться в районе 80%.

Валидность психологического теста может оцениваться в соответствии с количественными или качественными показателями. В первом случае речь идет о проведении математических расчетов. Качественная оценка производится описательно, на основании логических выводов.

Виды валидности теста

Выделяют следующие основные разновидности валидности теста:

  • конструктивная валидность теста – это критерий, применяемый при оценке теста, имеющего иерархическую структуру (используется в процессе исследования сложных психологических явлений);
  • валидность по критерию подразумевает сопоставление результатов тестирования с уровнем развития у испытуемого той или иной психологической характеристики;
  • валидность по содержанию определяет соответствие методики изучаемому явлению, а также круг параметров, которые она охватывает;
  • прогностическая валидность – это качественный показатель, который позволяет оценить перспективное развитие параметра.

Типы критериев валидности

Валидность теста – это один из показателей, который позволяет оценить адекватность и пригодность методики для изучения того или иного явления. Можно выделить четыре основных критерия, которые могут повлиять на нее:

  • критерий исполнителя (речь идет о квалификации и опыте исследователя);
  • субъективные критерии (отношение испытуемого к тому или иному явлению, что отражается на конечном результате теста);
  • физиологические критерии (состояние здоровья, усталость и прочие характеристики, которые могут оказать существенное влияние на конечный результат тестирования);
  • критерий случайностей (имеет место в определении вероятности наступления того или иного события).

Критерий валидности представляет собой независимый источник данных о том или ином явлении (психологическом свойстве), исследование которого проводится посредством тестирования. До тех пор, пока не будет проведена проверка полученных результатов на соответствие критерию, о валидности судить нельзя.

Основные требования к критериям

Внешние критерии, которые влияют на показатель валидности теста, должны отвечать следующим основным требованиям:

  • соответствие именно той сфере, в которой проводится исследование, релевантность, а также смысловая связь с диагностической моделью;
  • отсутствие каких-либо помех или резких разрывов в выборке (суть состоит в том, что все участники эксперимента должны соответствовать заранее установленным параметрам и находиться в схожих условиях);
  • исследуемый параметр должен быть надежным, постоянным и не подвергаться резким перепадам.

Проверка валидности тестов может осуществляться несколькими способами.

Оценка очевидной валидности подразумевает проверку соответствия теста его предназначению.

Оценка содержательной валидности – это проверка методики на наличие в ней всех составляющих, необходимых для всестороннего исследования того или иного явления или фактора.

Оценка конструктивной валидности проводится в том случае, когда для изучения определенного сложного показателя проводится ряд экспериментов. Она включает в себя:

  • конвергентную валидизацию – проверку взаимосвязи полученных с использованием различных комплексных методик;
  • дивергентную валидизацию, которая состоит в том, чтобы методика не подразумевала оценки посторонних показателей, не касающихся основного исследования.

Оценка прогностической валидности подразумевает установление возможности предвидения перспективного колебания изучаемого показателя.

Выводы

Валидность и надежность тестов – это взаимодополняемые показатели, которые дают наиболее полную оценку справедливости и значимости результатов исследований. Зачастую они определяются одновременно.

Надежность показывает, насколько результатам теста можно доверять. Имеется в виду их постоянство при каждом повторном проведении аналогичного испытания с одними и теми же участниками. Низкая степень надежности может говорить о намеренном искажении или безответственном подходе.

Понятие валидности теста связано с качественной стороной эксперимента. Речь идет о том, соответствует ли выбранный инструмент оценке того или иного психологического явления. Здесь могут быть применены как качественные показатели (теоретическая оценка), так и количественные (расчет соответствующих коэффициентов).

Источник: https://FB.ru/article/259956/nadejnost-i-validnost-testa---eto-chto-takoe

Надежность и валидность тестов

Валидность теста

  • Пишу на заказ дипломные, курсовые, магистерские работы по психологии, а также рефераты и эссе; делаю контрольные, отчеты по практике и статистические расчеты.Я профессиональный психолог и автор работ по психологии с многолетним стажем. Выступаю как индивидуальный предприниматель (ИП): заключаю договор, выдаю чеки об оплате.Помогаю студентам-психологам более 12 лет (этот сайт существует с 2007). Делаю качественно и быстро. Помогу даже с очень трудными темами.Вы всегда можете узнать у меня, как идут дела с дипломной; оперативно передать пожелания руководителя; спросить то, что не понятно. Я всегда на связи.Опишите ситуацию, и я скажу стоимость написания вашей работы.

В любом эмпирическом исследовании по психологии используются психологические тесты. Часто от студентов требуют указывать данные об их надежности и валидности.

Надежность психологических тестов

В обычной жизни надежность человека или какого-либо предмета означает уверенность в том, что на него можно положиться. Как же проверяют, что на психологический тест можно положиться?

Первый способ проверки надежности психологического теста – анализ устойчивости результатов теста. Действительно, если результаты использования теста на одной и той же выборке существенно не меняются при нескольких тестированиях, то это может служить критерием его надежности.

Повторное тестирование называется ретест. Его проводят с интервалом от недели до года. Затем анализируют корреляции нескольких замеров. Если корреляции между результатами ретестов не ниже 0,76, то такой тест считается надежным.

Недостатки ретестовой проверки надежности психологического теста.

1. Некоторые психологические показатели неустойчивы и изменчивы. Например, измеряя настроение, самочувствие в разное время дня или в разные дни, можно получить разные результаты, и это не будет следствием ненадежности теста.

2. При неоднократном заполнении одного и того же теста испытуемые к нему «привыкают». Они могут помнить свои ответы и отвечать так же. Могут, наоборот, менять ответы в сторону социальной желательности. Таким образом, ретестовая надежность не будет в полной мере отражать надежность теста.

Второй способ проверки надежности психологического теста – анализ согласованности различных частей теста. Например, в тесте один показатель, который диагностируется 10-ю вопросами. Согласованность данного теста определяется высокой корреляцией ответов на каждый вопрос с общим результатом по шкале.

Часто для определения согласованности психологического теста его расщепляют на две части. Можно это сделать, отбирая вопросы через один. Можно разделить первую и вторую половину теста. Далее анализируют корреляции ответов двух расщепленных частей теста. Чем выше корреляция, тем выше согласованность теста и его надежность.

Итак, надежность психологического теста – это характеристика его формальной пригодности для диагностики психологических показателей.

Например, если тест диагностики тревожности надежен, то это значит, что при его использовании на разных выборках, в разное время вы будете получать схожие результаты.

Но будут ли эти результаты характеризовать именно тревожность испытуемых? Надежность психологического теста этого не гарантирует. За это отвечает другой показатель – валидность психологического теста.

Валидность психологических тестов

Валидность психологических тестов отражает соответствие их результатов сущности измеряемых психологических феноменов. Например, насколько результат теста агрессивности отражает реальный уровень агрессивности респондента.

Можно выделить два основных способа определения валидности психологических тестов.

Первый способ выявления валидности психологического теста предполагает соотнесение результатов теста с аналогичными показателями других тестов. Например, для проверки валидности теста на самооценку можно сделать следующее:

  • провести тестирование испытуемых по новому тесту;
  • выявить самооценку испытуемых по другому тесту (предполагается, что он валиден);
  • рассчитать корреляцию показателей самооценки по двум психодиагностическим методикам;
  • статистически значимая корреляция даст основания говорить о валидности нового теста.

Такой способ позволяет выявить так называемую конструктную валидность. Она отражает соответствие выявляемого психологического показателя психологическому конструкту.

Второй способ выявления валидности психологического теста предполагает соотнесение результатов теста с внешними критериями. Такая валидность называется критериальная валидность психологического теста.

Например, показателем критериальной валидности теста склонности к отклоняющемуся поведению может быть реальное число правонарушений подростка. Применительно к тесту мотивации достижений показателем критериальной валидности может быть успешность выполнения той или иной деятельности.

Соотношение надежности и валидности психологических тестов

Надежность теста отражает его качество как метода диагностики, с точки зрения формальных показателей. Без учета содержательного анализа результатов.

Валидность оценивает именно содержательные результаты теста. Насколько они соответствуют реальным психологическим феноменам.

Надежный тест может не быть валидным. Например, тест инициативности может показывать высокую ретестовую надежность и согласованность частей. Однако, с содержательной точки зрения, результаты теста отражают не столько инициативность, сколько силу воли. То есть, надежность данного теста высокая, а валидность низкая.

В практике психологического тестирования надежность тестов с помощью ретеста. Валидность психологических тестов, как правило, проверяется с помощью анализа взаимосвязей с показателями других тестов, измеряющих аналогичные или схожие психологические показатели.

Примеры заключений о надежности и валидности психологически тестов

Тест смысложизненных ориентаций (СЖО)

Надежность СЖО

Надежность теста СЖО проверялась с помощью ретестирования с интервалом в 2 недели (испытуемые — 76 студентов МГУ). Результаты по тесту оказались устойчивы на уровне значимости 5% (р

Источник: http://dip-psi.ru/nadezhnost-i-validnost-testov

Валидность теста

Валидность теста

Валидность теста (от англ. valid – пригодный) – критерий качества теста, используемый при выяснении степени достоверности измерения того психического свойства, качества, явления, которое хотят измерить с помощью данного теста.

Различают несколько видов валидность теста:

  • валидность теста конструктная,
  • валидность теста по критерию,
  • валидность теста по содержанию,
  • прогностическая валидность теста и др.

Валидность лучших тестов, выраженная коэффициентами корреляции (линейными, ранговыми и др.) составляет 0,3-0,8. К сожалению, есть случаи, когда тесты применяются без проверки их на в. В результате оказывается, что они бесполезны или даже вредны.

Валидность теста – это показатель степени его эффективности. Она, естественно, меняется в зависимости от контингента людей, которые подвергаются тестированию, и характера их будущей деятельности.

Один и тот же тест может быть высоковалидным для одной ситуации, бесполезным для другой и вредным для третьей.

Валидность теста конструктная

критерий качества теста, используемый при измерении какого-либо сложного психического феномена, имеющего иерархическую структуру, измерить который из-за этого одним актом тестирования невозможно. Так, психодиагностика интеллекта невозможна без предварительного определения понятия “интеллект”, его структуры.

Степень соответсвия нашего предварительного понимания и определения интеллекта реальной возможности конкретного теста, степень соответствия структуры интеллеткта структуре теста и есть в.т.к. Она нацелена на определение точности измерения сложных, устойчивых типов поведения, качеств личности, психических явлений.

Валидность теста по критерию

критерий качества теста, с помощью которого можно судить об интересующем нас аспекте психики индивида в настоящем и будущем. Для его определения необходимо сопоставить результаты тестирования с уровнем развития измеряемого признака, качества личности на практике.

Например, для теста на технические способности основным критерием их определения будет выступать техническая деятельность конкретных специалистов, оценка их технических способностей с помощью экспертов, хорошо знающих испытуемых на протяжении достаточно продолжительного времени в интересующем нас аспекте. Оценка должна даваться по шкале порядковой, интервальной или отношений. В лучших тестах в. по критерию, измеренная коэффициентом корреляции, составляет от 0,3 до 0,8. Применение теста оправдано, если валидность по критерию оставляет 0,2-0,25.

Валидность теста по содержанию

критерий качества теста, используемый при вывяснении соответствия его области измеряемых психических явлений. В.т.к. показывает, насколько полно тест охватывает исследуемое множество измеряемых параметров.

Если, например, нужно проверить с помощью теста математическую подготовку абитуриента вуза, то в предлагаемый тест должны быть включены математические задания, для решения которых необходимы знания по всем разделам математики, изучаемым в средней школе.

Таким образом, степень соответствия структуры данного теста структуре программы математических дисциплин, изучаемых в школе, и является валидностью данного теста по содержанию. Естественно, что для обследования лиц, окончивших вузы, предназначаются тесты с иной вялидностью по содержанию.

Валидность теста прогностическая

критерий качества теста, используемый при предсказании характера развития измеряемого параметра в будущем. Одним из самых существенных недостатков подобных тестов является то, что они не учитывают неравномерность развития измеряемого параметра у различных людей в будущем. Данный вид валидности является особо ценным с практической точки зрения.

Валидность эксперимента

критерий качества эксперимента, степень его точности, в зависимости от которой выводы, полученные в его ходе могут быть распространены на всю генеральную совокупность. В.э. позволяет определить насколько всеобщими могут быть выводы, полученные путем исследования ограниченной по времени и обьему выборки. Различают внутреннюю и внешнюю валидность эксперимента.

Валидность эксперимента внешняя

критерий качества эксперимента, в зависимости от которого выводы об определенной тенденции, закономерности развития конкретных психических явлений, личностей, видов деятельности и т.д. могут быть распространены на другие явления и т.д.

в данной или иной сфере. Языком математики это можно сформулировать так: насколько закономерности данного подмножества характерны для всего множества. Для определения границ применения экспериментальных выводов и необходимо определять в.э.в.

Валидность эксперимента внутренняя

критерий качества эксперимента, используемый при выяснении степени достоверности выявленной в результате эксперимента тенденции, закономерности, характерной для данной единицы множества или для всего подмножества элементов генеральной совокупности.

Допустим, исследуя степень влияния освещенности на эффективность производственной деятельности ткачих, психологи обнаружили статистическую зависимость их эффективности работы от частоты смены освещения.

Что является основным фактором повышения эффективности деятельности: смена освещения, внимание экспериментаторов, особое поведение руководителей в период эксперимента или другие факторы? В данном случае психологи пришли к выводу: появление молодых мужчин-исследователй в цехе, где работали женщины, и послужило причиной повышения производительности их труда.

Но ведь могла быть и принята гипотеза о росте производительности ткацкого труда в зависимости от смены освещенности. В.э.в. показывает в какой степени независимая переменная (производительность труда) связана с зависимой (освещенность). Строго научное проведение психологического эксперимента предполагает определение его валидности.

Источник: https://hr-portal.ru/article/validnost-testa

QualiTester

Валидность теста

В крайнем левом столбце таблицы записаны номера тестируемых персон, в самой верхней строке записаны номера тестовых заданий
Знак суммы; в этом столбце суммируется и выводится количество правильных заданий выполненных тестируемым
Экспертная оценка — это оценка, которую выставляет сам преподаватель по десятибальной шкале, исходя из личного мнения о тестируемом, из опыта преподавания; преподавателем не должны овладеть злость, щедрость, обиды, радости, волнения, негодавания или иные проявления отношения к тому или иному тестируемому — иначе результаты анализа теста могут оказаться неудовлетворяующими действительности
  1. Валидность — пригодность тестовых результатов для той цели, ради чего проводилось тестирование.
  2. Валидность — это характеристика способности теста служить поставленной цели измерения.
  3. Валидность — определяет, насколько тест отражает то, что он должен оценивать.

Для оценки валидности теста обычно используют корреляцию между показателями теста и некоторым внешним критерием. При такой оценке очень важно выбрать значимый внешний критерий.

Для педагогических тестов в качестве критерия обычно берутся оценки экспертов, выставленные ими при традиционной проверке знаний студентов без использования тестов.

Процесс валидизации осложняется необходимостью установления меры согласованности оценок экспертов, которых обычно бывает не менее трех человек.

Основная формула

$$ V = \frac{\frac{1}{n}\left ( \sum\limits_{i=1}n Y_{i} \cdot y_{i} \right )- \overline{Y}\cdot \overline{y}}{S_{Y}\cdot S_{y}} \cdot \frac{n}{n-1}. $$

количество правильных ответовизвестно
средняя арифметическая тестовых баллов тестируемых $$ = \frac{1}{n}\sum\limits_{i=1}n y_{i} $$
экспертная оценкаизвестно
среднее арифметическое экспертных оценок $$ = \frac{1}{n}\sum\limits_{i=1}n Y_{i} $$
стандартное отклонение количества правильных оценок $$ =\sqrt{\frac{1}{n-1}\sum\limits_{i=1}n (y_{i} – \overline{y}){2}} $$
стандартное отклонение экспертных оценок $$ =\sqrt{\frac{1}{n-1}\sum\limits_{i=1}n (Y_{i} – \overline{Y}){2}} $$
    Надежностью называется характеристика теста, отражающая точность тестовых измерений, а также устойчивость тестовых результатов к действию случайных факторов. Во-первых, тест считается надежным, если он обеспечивает высокую точность измерений. И во-вторых, тест считается надежным, если он дает при повторном выполнении близкие результаты при условии, что подготовка ученика не изменилась за время до повторного выполнения теста. Таким образом будем считать, что надежность теста показывает, на сколько точно тест измеряет знания студентов или другие явления. Надежность характеризует точность теста как измерительного инструмента, устойчивость его к действию помех.
    Различают два вида надежности:
  1. надежность как устойчивость
  2. надежность как внутреннюю согласованность.

Однако большинство авторов предпочитают рассматривать только надежность как внутреннюю согласованность, так как этот вид измерений требует проведение тестирование только один раз. В случае надежность как внутренняя согласованность проводить тестирование приходится два раза.

Надежность как устойчивость измеряется с помощью повторного проведения теста на той же выборке испытуемых, обычно через две недели после первого тестирования. Для нахождения данной характеристики предлагается использовать формулу Пирсона.

Основная формула (Пирсона)

$$ V = \frac{n \sum\limits_{i=1}n X_{i} Y_{i} – \sum\limits_{i=1}n X_{i} \cdot \sum\limits_{i=1}n Y_{i}} {\sqrt{n \sum\limits_{i=1}n X_{i}2 – \left ( \sum\limits_{i=1}n X_{i} \right )2}{\sqrt{n \sum\limits_{i=1}n Y_{i}2 – \left ( \sum\limits_{i=1}n Y_{i} \right )2}}} $$

тестовый балл i-го испытуемого при первом измерении
тестовый балл i-го испытуемого при повторном измерении

Для проверки внутренней согласованности предлагается метод расщепления (автономных частей). При применении метода расщепления тестовую матрицу разбивают на две половины, состоящие из заданий с четными и нечетными номерами. Используя формулу Рюлона, найдем нужный нам коэффициент.

Основная формула (Рюлона)

$$ r = 1 -\frac{S_{d}{2}}{S_{Z}{2}} $$

дисперсия разностей между результатами каждого испытуемого по обеим половинам теста $$ = \frac{1}{n-1}\sum\limits_{i=1}n \left ( (X_{i} – Y_{i}) – \frac{1}{n}\sum\limits_{i=1}n(X_{i} – Y_{i})\right )2 $$
дисперсия суммарных баллов результата $$ = \frac{1}{n-1}\left (\frac{1}{n}\sum\limits_{i=1}n Z_{i} – Z_{i}\right )2 $$
количество правильных ответов
количество правильных ответов c четным номером
количество правильных ответов c нечетным номером
среднее арифметическое количества правильных ответов $$ = \frac{1}{n}\sum\limits_{i=1}n Z_{i} $$
обозначение $$ = \frac{1}{n}\sum\limits_{i=1}n (X_{i} – Y_{i}) $$

Дискриминативность задач определяется как способность отделять испытуемых с высоким общим баллом по тесту от тех, кто получил низкий балл, или испытуемых с высокой продуктивностью учебной деятельности от испытуемых с низкой продуктивностью.

Другими словами, дискриминативность — способность заданий теста дифференцировать студентов относительно “максимального” или “минимального” результата теста. Определение дискриминативности тестового задания необходимо для того, чтобы поставить заслон некачественным заданиям.

Для вычисления дискриминативности будет применяться метод крайних групп: при расчете дискриминативности тестового задания учитываются результаты наиболее и наименее успешных студентов — это самый простой и наглядный метод вычисления дискриминативности.

Доля членов крайних групп может изменяться в широких пределах в зависимости от величины выборки. Чем больше выборка, тем меньшей долей испытуемых можно ограничиться при выделении групп с высоким и низким результатами.

Нижняя граница “отсечения групп” составляет 10% от общего числа испытуемых в выборке, верхняя — 33%. В данном случае будет использоваться 27% группа, так как при таком процентном соотношении достигается максимальная точность определения дискриминативности.

Индекс дискриминации вычисляется как разность между долей лиц, правильно решивших задачу, из “высокопродуктивной” и “низкопродуктивной” групп.

Основная формула (Индекс дискриминации)

$$ D = \frac{N_{n_{max}}}{N_{max}} – \frac{N_{n_{min}}}{N_{min}} $$

общее количество испытуемых крайних группах27% от всего количества
количество студентов в группе худших, верно выполнивших задание
количество студентов в группе лучших, верно выполнивших задание
номер тестового задания
коэффициент дискриминативоности тестового заданияпо основной формуле

Интерпретация

Значение коэффициентаИнтерпретация
от 0.6 до 1высокая вылидность теста
от 0.3 до 0.6средняя вылидность теста
меньше 0.3низкая вылидность теста
Значение коэффициентаИнтерпретация
от 0.9 до 1очень высокая надежность теста
от 0.8 до 0.9высокая надежность тестаЗамечание : если тест разрабатывается профессионалами и его областью применения являются профессионально организованные службы тестирования и центры, то следует считать, что тест имеет низкую надежность.
от 0.7 до 0.8хорошая надежность теста
меньше 0.7низкая надежность теста
Замечание 1 : если тест разрабатывается профессионалами и его областью применения являются профессионально организованные службы тестирования и центры, то следует считать, что тест имеет низкую надежность при значении коэффициента менее 0.8.
Замечание 2 : если вы только начали разрабатывать тест и полученное значение коэффициента находится в пределах от 0.46 до 0.7 (тест имеет низкую надежность), то полученный результат свидетельствует о том, что в разрабатываемой методике присутствует некоторое число заданий, которые в силу своей специфичности ведут к снижению значения данного коэффициента.
Значение коэффициентаИнтерпретация
от 0.3 до 1задание эффективно
от 0.1 до 0.3задание следует проанализировать на пригодность использования в тесте (низкая дифференцирующая способность)
меньше 0.1задание некачественное — лучшая группа отвечает хуже, чем слабая

Рекомендации для тестолога

  1. Если тест рассматривать как средство контроля качества знаний обучаемых, то, прежде всего, необходимо совершенствовать форму тестовых заданий с целью повышения качества педагогического измерения, включая в тест не только задания с выбором одного правильного ответа, но и выбором нескольких правильных ответов. Безусловно, задания с выбором одного правильного ответа удобно использовать при автоматизированном контроле знаний (так составлены педагогические тесты для централизованного тестирования по математике). Однако с помощью таких заданий далеко не всегда можно качественно проверить знания испытуемых в силу того, что слишком велика вероятность угадывания правильных ответов. Такого недостатка лишены задания с выбором нескольких правильных ответов и задания открытой формы, а интенсивное развитие информационных технологий позволяет включить их в педагогический тест и при автоматизированном контроле знаний.
  2. Если рассматривать тест как средство обучения, предназначенное для формирования системы знаний обучаемых, то в педагогической практике целесообразно использовать комплексы тематических тестов по изучаемой дисциплине. Эти комплексы должны состоять не только из тестов для проверки практических умений и навыков обучаемых, но и из тестов для проверки их теоретических знаний, которые являются ядром формируемой педагогом системы знаний обучаемых.
  3. Если Вы хотите составить тестовые задания, обладающие удовлетворительной дискриминативностью, то необходимо избегать следующего:
    1. излишней сложности и запутанности формулировок;
    2. неоднозначности условий;
    3. очевидности решения;
    4. зависимости результата от памяти или от других индивидуальных особенностей испытуемого, а не от уровня развития тех умений и навыков, для оценки которых разрабатывается тест;
    5. абсурдности, нереальности вариантов ответов;
    6. появления двух и более правильных ответов, не оговоренных в условии.
  4. Если Вы хотите повысить валидность теста, то:
    1. составляйте тестовые задания оптимальной трудности для обеспечения нормального закона распределения баллов по тесту;
    2. проводите экспертизу качества содержания теста;
    3. правильно рассчитывайте оптимальное время выполнения теста;
    4. включайте в тест задания с высокой дискриминативностью.
  5. Если Вы хотите повысить надежность теста, то по возможности устраните влияние на Ваш тест следующих факторов:
    1. субъективизма при оценке результатов выполнения заданий теста, используя для этого задания закрытого типа;
    2. угадывания, которое существенно снижает надежность теста, особенно в тех случаях, когда тестируется группа слабых учеников, которые обычно прибегают к догадке при выполнении наиболее трудных заданий теста;
    3. некорректно сформулированных заданий, поскольку такие задания пропускают сильные ученики, что в целом негативно отражается на надежности теста;
    4. неоправданного выбора весовых коэффициентов;
    5. неоправданной длины теста, так как его надежность растет по мере увеличения длины, и для удовлетворительной, но не хорошей надежности, обычно достаточно 30 тестовых заданий;
    6. отсутствия стандартной инструкции к тесту, так как любые неоднозначности, двусмысленности и отступления от требований стандартизации в инструкции ведут к снижению надежности теста;
    7. источников ненадежности, связанных с испытуемыми, а не с заданиями теста (плохого самочувствия испытуемого, его усталости и скуки, шума в аудитории и т.п.).
  6. Иногда при нахождении коэффициента надежности происходит деление на нуль. Это может произойти, если все испытуемые имеют одинаковое количество правильных и неправильных ответов. Такое редко бывает на практике, скорее всего, произошла утечка ответов. В данном случае следует провести тест повторно.
  7. При нахождении надежности как устойчивости, так же возможен случай, который дает в ответе неопределенность, т.е. происходит деление нуля на нуль. Такое может произойти, когда испытуемый дал одинаковое количество правильных и неправильных ответов на первом и повторном тестировании. Это означает, что тест составлен очень удачно или же наоборот, очень неудачно. Советуем вам проверить другие тестовые характеристиками и, исходя из них, сделать заключение.
  8. При расчете валидности также возможен случай, когда происходит деление на нуль. Это может произойти в том случае, если все испытуемые имеют одинаковое количество правильных и неправильных ответов или, если все экспертные оценки одинаковы. Такой случай редко может произойти на практике, скорее всего, произошла утечка ответов, и данный результат искажен.

Источник: http://tester.quali.me/help.php

Проблемы валидности психодиагностических методик. Виды валидности. Эмпирические способы определения валидности

Валидность теста

Валидность (validity) – комплексная характеристика методики (теста), включающая сведения об области исследуемых явлений и репрезентативности диагностической процедуры по отношению к ним.

Валидность теста информирует о том, что должен измерять тест и насколько хорошо он это делает.

Выражение валидности в общих терминах наименования принципиально невозможно, так как ни один тест нельзя охарактеризовать высоким или низким уровнем валидности абстрактно, не учитывая его конкретной целенаправленности.

На деле между наименованием теста и его практическим назначением нередко существует несоответствие. Валидность теста должна определяться только относительно его специального использования.

Генерализованный (обобщенный) истинный результат — это термин, используемый для характеристики действительного уровня скрытых, не наблюдаемых качеств или свойств. Скрытое от внешнего наблюдения свойство не может быть измерено только с помощью одного какого-либо теста.

В практике для этой цели используется батарея с конечным числом разных тестов, направленных на измерение одного скрытого свойства, уровень которого требуется определить. Каждый из используемых тестов лишь частично покрывает исследуемое свойство.

Это особый случай отношений между сущностью и явлением.

Валидность и надежность

Валидность и надежность — связанные понятия. Их соотношение может быть проиллюстрировано следующим примером. Допустим, имеются два стрелка А и В. Стрелок А выбивает 90 очков из 100, а стрелок В — только 70. Соответственно, надежность стрелка А равна 0,90, а стрелка В — 0,70.

Однако стрелок А всегда стреляет по чужим мишеням, поэтому на соревнованиях его результаты не засчитываются. Второй стрелок всегда правильно выбирает мишени. Поэтому валидность стрелка А нулевая, а стрелка В — 0,70, т.е. численно равна надежности. Если стрелок А станет правильно выбирать мишени, его валидность тоже будет равна его надежности.

Если же он будет продолжать иногда путать мишени, то часть результатов не будет зачтена и валидность стрелка А будет ниже надежности. В нашем примере аналогом надежности является точность, меткость стрелка, а аналогом валидности — тоже точность стрельбы, но не по любой, а по строго определенной, “своей” мишени.

Поэтому надежный стрелок может стать валидным, не только сменив мишень, но и сменив команду. В истории известны случаи, когда тесты, признанные инвалидными для измерения одних свойств, оказывались валидными для других. Значит, надежность является необходимым условием валидности.

Ненадежный тест не может быть валидным, и, наоборот, валидный тест всегда надежен. Надежность теста не может быть меньше его валидности; в свою очередь, валидность не может превышать надежности.

В современной психометрии выделяются несколько видов валидности:

  1. содержательная (логическая);
  2. очевидная;
  3. эмпирическая;
  4. конструктная (концептуальная);
  5. прогностическая;
  6. дифференциальная;
  7. инкрементная;
  8. конкурентная.

Содержательная валидность

Содержательная валидность (content validity) – один из основных типов валидности методики, характеризующий степень репрезентативности содержания заданий теста измеряемой области психических свойств. Ее часто называют “логической валидностью” или “валидностью по определению”. Содержательная валидность означает, что тест является валидным по мнению специалистов.

Очевидная валидность

Очевидная валидность — это валидность с точки зрения испытуемого. Она означает то впечатление о предмете измерения, которое формируется у испытуемого при знакомстве с инструкцией и материалом теста.

Очевидная валидность играет важную роль в процессе тестирования, поскольку именно она в первую очередь определяет отношение испытуемых к обследованию. В.А. Аванесов приводит пример отказа от выполнения теста испытуемыми из-за отсутствия у теста очевидной валидности.

Во время социологического опроса моряков рыболовного флота он столкнулся со случаем отказа заполнять анкету под предлогом того, что анкета составлена “не для моряков”, в ней нет вопросов, относящихся к морякам, “на морские темы”.

Если бы опросник содержал “морские термины”, то он бы казался “своим” и вызывал больше доверия у испытуемых. Именно в силу этого обстоятельства очевидную валидность иногда называют также доверительной валидностью.

Эмпирическая валидность

Эмпирическая валидность (empirical validity) – совокупность характеристик валидности теста, полученных сравнительным статистическим способом оценивания.

Идея эмпирической валидности заключается в определении способности теста служить индикатором или предсказателем строго определенной психической особенности или формы поведения человека.

Для измерения эмпирической валидности теста вычисляется коэффициент корреляции тестового результата с внешним критерием — R(X,T).

Критерий валидизации

Критерий валидизации – непосредственная и независимая от валидизируемого теста мера психического свойства, на исследование которого направлена психодиагностическая методика.

В качестве критерия может выступать любой показатель, независимо и бесспорно измеряющий туже психологическую характеристику, что и валидизируемый тест. Вопрос о выборе критерия является в этом виде валидности основным, От выбора критерия зависят качественная и количественная оценки валидности.

Эмпирическая валидность теста — это всегда валидность по отношению к конкретному критерию. Поэтому процесс конструирования теста часто сопровождается поиском подходящего критерия.

Если к моменту проверки валидности такого экспериментального критерия не оказывается, в качестве него используются характеристики реального поведения, которые на основе существующих психологических теорий предполагаются связанными с измеряемым свойством.

Например, в качестве жизненных критериев для тестов интеллекта используются показатели успешности обучения, для экстравертированности — успешность административной деятельности, для тревожности — частота заболеваний неврозом и т.п.

Однако успешность обучения, поведения и деятельности редко зависит только от одного-единственного свойства психики. Реальное поведение человека множественно детерминированно, т.е. зависит не от одного, а от целого комплекса психических свойств.

Поэтому использование жизненных критериев для валидизации тестов имеет смысл только в отношении многомерных тестов, таких, как MMPI, 16PF, HSPQ и др., представляющих по существу многопрофильные батареи тестов. Для оценки валидности батареи тестов или многомерного теста в целом используются методы множественного регрессионного анализа.

Коэффициент валидности – статистический показатель эмпирической валидности теста. В качестве коэффициента валидности батареи тестов относительно жизненного критерия используется коэффициент множественной корреляции, или совокупный коэффициент корреляции (В).

Величина совокупного коэффициента корреляции показывает, какая часть дисперсии жизненного критерия может быть объяснена с помощью линейной комбинации тестовых оценок.

Поэтому чем больше Я, тем большая доля дисперсий элиминируется уравнением регрессии, тем ближе вычисленные значения жизненного критерия к его реальным значениям и тем, соответственно, выше валидность теста по отношению к данному жизненному критерию.

Валидность теста по отношению к жизненному критерию называется иногда практической валидностью. Наиболее распространенные многомерные личностные тесты и батареи тестов обладают высокой практической валидностью по отношению к большому числу жизненных ситуаций.

Критериальная валидность – комплекс характеристик, включающий текущую и прогностическую валидность методики и отражающий соответствие диагноза и прогноза определенному кругу критериев измеряемого качества.

Текущая валидность – характеристика теста, отражающая его способность различать испытуемых на основании диагностического признака, являющегося объектом исследования в данной методике.

Прогностическая валидность – информация о методике (тесте)  характеризующая степень точности и обоснованности суждения о диагностируемом психологическом качестве по его результату спустя определенное время после измерения.

Конструктная валидность (construct validity) – один из основных типов валидности, отражающий степень репрезентации исследуемого психологического конструкта в результатах теста.

Она устанавливается путем доказательства правильности теоретических концепций, положенных в основу теста.

Обращение к конструктной (концептуальной) валидности необходимо в тех случаях, когда результаты тестовых измерений используются не просто для предсказания поведения, а как основа для выводов о том, в какой степени испытуемые обладают некоторой определенной психологической характеристикой. Причем измеряемая психологическая характеристика не может быть отождествлена с какой-либо наблюдаемой особенностью поведения, а представляет собой теоретическую концепцию. Примерами таких концепций являются интеллект, черты личности, мотивы, установки и т.д. Конструктная (концептуальная) валидность имеет значение также при разработке принципиально новых тестов, для которых не определены внешние критерии валидности.

Конкурентная валидность – оценивается по корреляции разработанного теста с другими, валидность, которых относительно измеряемого параметра установлена.

Инкрементная валидность – имеет ограниченное значение и относиться к случаю, когда один тест из батареи тестов может иметь низкую корреляцию с критериями, но не перекрываться другими тестами из этой батареи.

Дифференциальная валидность – может быть проиллюстрирована на примере тестов интересов.

Источник: http://www.psyworld.ru/for-students/cards/general-psychology/993-2010-12-17-08-46-10.html

Все HR- сотруднику
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: