Содержательная валидность теста это

Содержательная валидность теста это

Психометрика – область ПД, связанная с теорией, практикой и измерениями ПД.

Методологическая дисциплина (по отношению к ПД):

Обосновывает требования к…

— измерительным психодиагностическим методам;

— процедурам разработки теста;

— применению процедуры статистического анализа;

— адаптации методик к новым условиям их применения;

— интерпретации тестовых данных (пр: проблема критерия и т.п.).
Знание психометрики необходимо для критичности…:

— в понимании ограниченности методик;

— в понимании допущений, которые были сделаны при разработке;

— в понимании валидности и надежности

и т.д.
Основные психометрические характеристики:

— валидность.
ВАЛИДНОСТЬ – это характеристика, которая включает в себя сведения об области измеряемых свойств и репрезентативности диагностической процедуры по отношению к ним.
Валидность – это такая характеристика, которая показывает то, что измеряет данная методика и насколько хорошо она это делает.
Виды валидности:

^ СОДЕРЖАТЕЛЬНАЯ ВАЛИДНОСТЬ – характеризует степень соответствия заданий теста измеряемой области психических свойств.

Закладывается уже на стадии разработки теста.

Устанавливается экспертами.
Этапы валидизации теста:

1. Определяется круг измеряемых свойств и (или) видов деятельности. Происходит расчленение свойства/ деятельности на элементы.

2. Разрабатывается модель тестовой деятельности или модель свойства, содержание которой подбирается путем выделения наиболее важных элементов реальной деятельности.

3. Проводится анализ степени соответствия разработанной модели реальной деятельности/ свойству (степень соответствия результатов 1 и 2 этапов).
^ КРИТЕРИАЛЬНАЯ/ эмпирическая ВАЛИДНОСТЬ – включает в себя текущую и прогностическую валидность.

— отражает степень соответствия прогноза и диагноза определенному кругу критериев измеряемого свойства.

^ Текущая валидность – степень соответствия диагноза.

Прогностическая валидность – степень соответствия прогноза.
В качестве критерия может выступать уровень достижений в какой-либо другой деятельности (производственная, научная, учебные успехи; степень развития какой-либо способности; степень выраженности какого-либо свойства личности; социально-демографические и географические данные и т.п.).

Подсчитывается корреляция двух рядов значений: баллов по тесту и показателей по внешнему параметру, избранному в качестве критерия валидности.
^ Пр: Разработка методики Экстра-Интраверсии.

Экстраверсия (1)/Интраверсия (2) → определение, свойства (1 и 2) → экспертная оценка участником эксперимента этих параметров + оценка экстра-интраверсии с помощью разрабатываемой методики → корреляция (чем выше, тем валидность больше).
^ КОНСТРУКТНАЯ ВАЛИДНОСТЬ – отражает степень представленности измеряемого психологического конструкта в результатах теста.
Для того, чтобы доказать валидность представленности измеряемого свойства, необходимо найти уже проверенную конструкцию, направленную на измерение того же самого.

Если такой конструкции нет, то привлекаются эксперты. При этом они работают не с тестом (как это было в случае с содержательной валидностью), а с испытуемыми из выборки стандартизации (наблюдают).

Если и это не удается, тогда прибегают к оценкам особого типа – субъективным, которые выносят испытуемому люди из его круга, имеющие опыт реального общения с ним.
Виды конструктной валидности:

конвергентная валидность (схождение) – для доказательства надо выбрать какое-то психологическое свойство, которое связано (прямо или обратно) с измеряемым свойством.
дискриминативная валидность – доказывается отсутствием связи между измеряемым свойством и каким-либо другим свойством.
Различия:

Содержательная – соответствие заданий теста измеряемому свойству.

Критериальная – соответствие диагноза и/или прогноза какому-либо критерию.

Конструктная – соответствие результата теста психологическому конструкту.

^ КОНКУРЕНТНАЯ ВАЛИДНОСТЬ – оценивается по корреляции разработанного теста с другими, валдность которых относительно данного параметра установлена.
ОЧЕВИДНАЯ ВАЛИДНОСТЬ – описывает представление о тесте, сложившееся у испытуемого. Тест должен восприниматься испытуемым как серьезный инструмент познания его личности.
Билет 19.

Технологический алгоритм разработки теста.
1. Определяемся с феноменом (с темой).
2. Изучение литературы по этому вопросу и знакомство с методиками, которые уже есть.
3. Формулируем операциональное определение феномена (операционализируемое – в котором содержаться поведенческие индикаторы).
4. Составление группы вопросов на каждый поведенческий индикатор (≈10-15 вопросов).
5. Экспертиза для установления содержательной валидности (экспертов д.б. не менее 3-х).

а) эксперт должен оценить каждый вопрос по степени соответствия изучаемому конструкту.

б) эксперт должен оценить степень корректности формулировок (понятность, недвусмысленность, предполагает ответы как ДА, так и НЕТ, не социально желательны, и т.д.).
6. Компоновать методику (для профилактики установки на согласие):

— по предполагаемым ответам;

— по формулировке и т.д.
7. Составить инструкцию и шкалу ответов.
8. Проведение на выборке испытуемых (не менее 100–150 человек).
9. Обработка данных и психометрическая проверка опросника.

а) определение шкал опросника (определение его психометрического конструкта).

(1)- по каменистой осыпи определяем количество факторов;

(2)- факторизуем по выделенному количеству факторов;

(3)- убираем вопросы с минимальной нагрузкой → (2) → (3)

б) проверка надежности:

— делим на 2 половины;

— сравниваем методом альфа-Кронбака.
10. Проверка валидности.

а) конструктная валидность (конвергентная – сравнить наш опросник с аналогичным (суммарный балл по нашему + суммарный балл по другому)). Оптимально: р = 0,7 или 0,8.

б) критериальная валидность – оценить каждого человека и т.д.
Билет 20.

^ Требования к психометрической подготовке психолога.
Для эффективного развития практической диагностики сегодня требуется резкое повышение психометрической культуры всех психологов, использующих измерительные психодиагностические методики-тесты.

Методами рестандартизации теста, простейшими приемами проверки надежности и валидности должны владеть все психологи.
Всеобщая психометрическая грамотность психологов не исключает выделение из их среды специалистов особого рода – психологов-психометристов, профессионально занимающихся психометрическим обеспечением ПД. ð целесообразно привести 2 списка нормативных требований – к психологу вообще и к психологу-психометристу.
^ Требования к психологу.

1. …уметь квалифицированно разбираться с психометрической документацией в методической литературе по ПД. Должен знать:

— какие психометрические характеристики теста должны указать его разработчики;

— в какой степени эти психометрические характеристики соответствуют типу теста, с одной стороны, и актуальной задаче, для которой требуется его использование – с другой
2. …правильно определить:

— в какой мере известные тестовые нормы по требующейся методике применимы в его ситуации с учетом контингента испытуемых и типа диагностической ситуации;

— в какой мере имеет место ситуация «внутрикультурного переноса» и требуется произвести рестандартизацию тестовых норм.
3. …уметь самостоятельно собрать данные, провести корреляционную обработку и измерить эмпирическую валидность – эффективность методики по отношению к заданному критерию. При необходимости должен уметь самостоятельно конкретизировать операциональные индикаторы критериальной информации.
4. …уметь самостоятельно определять появление слишком высокой погрешности в результатах, утрату методикой необходимого уровня надежности (при этом проверять свою гипотезу статистически).
5. …вести двойную документацию: все копии протоколов он должен быть готов передать в головную методическую организацию (научно-академическую или отраслевую) для пополнения общего банка данных и совершенствования психометрических характеристик методики.
6. …уметь самостоятельно выявлять и измерять уровень мотивационных искажений, обуславливающих фальсификацию испытуемыми тестовых данных, должен уметь корректно отсеивать недостоверные протоколы, статистически фиксировать достижение приемлемого уровня достоверности для массовых результатов в групповой диагностике.
7. …овладевать приемами сложного качественного подсчета косвенных тестовых показателей, а также интегральных показателей, требующих агрегирования многообразной числовой информации. Он должен уметь поставить задачу программисту (или психологу-психометристу) для автоматизации подсчетов на ЭВМ.
Требования к психологу-психометристу.

1. …уметь самостоятельно планировать и осуществлять все этапы по психометрическому конструированию или адаптации психодиагностических методик:

— проверка надежности и валидности на уровне отдельных пунктов теста;

— отсев ненадежных и невалидных пунктов;

— построение и анализ распределения тестовых баллов;

— построение математического уравнения для прогнозирования или «решающего правила» для распознавания.
2. …уметь организовывать хранение и обработку психодиагностических данных на ЭВМ, владеть навыками работы с ЭВМ в режиме диалога в рамках стандартных операциональных систем, интерпретаторов или компиляторов для языков высокого уровня, знать структуру используемых в ПД баз данных и уметь управлять базами данных.
3. …уметь организовывать работу психологов-психодиагностов:

— по ведению документации и используемым методикам;

— по соблюдению методических стандартов;

— по сведению и интеграции результатов в общие банки психодиагностической информации.
4. … уметь вести картотеку методик в рамках заданной области (отраслевой психологической службы), тщательно иерархизируя методики по уровню психометрической обеспеченности, вести библиотеку методических материалов и методических рекомендаций к использованию стандартизированных методик.
Билет 21.

Классификация психодиагностических процедур.
^ Психодиагностическое обследование характеризуется измерительно-испытательной и оценочной направленностью. За счет этой направленности достигается количественная и качественная оценка изучаемого явления.
Требования:

— стандартизация инструмента измерения + нормы.

— каждая диагностическая методика должна соответствовать требованиям надежности и валидности.

— жесткие требования к процедуре исследования.
Психодиагностический метод позволяет выявить специфические мотивы, которые определяют активность субъекта, они задают определенную стратегию поведения субъекта, и кроме того, они определяют особенности ситуации (как социальной, так и стимульной).
Характеризуя диагностический метод, мы также должны подчеркивать, что любое диагностическое обследование должно включать в себя элементы объяснения, раскрытие причин и выработку соответствующих рекомендаций.
Бурлачук.

Читайте также:  Как повысить скорость компьютера windows 7

3 подхода к классификации методов:

1. Объективный – диагностика осуществляется на основе успешности/ результативности и/или способа действий. Предполагает 2 большие группы методик:

— для диагностики собственно личностных особенностей (неинтеллектуальные);

— тесты интеллекта.
2. Субъективный – диагностика осуществляется на основе сведений, которые сообщает о себе обследуемый (пр: самоописание, самооценивание и т.д.).
3. Проективный – диагностика осуществляется на основе анализа особенностей взаимодействия с внешне нейтральным, как бы безличным, материалом, который в силу его известной неопределенности или слабоструктурированности становится объектом проекций.
Объективный подход.

Личностные опросники – представлены двумя группами.

  1. Тесты действий / целевые личностные тесты – это относительно простые, четко структурированные процедуры, ориентирующие обследуемого на выполнение какого-либо задания.

Качество выполнения этих заданий зависит от развития перцептивных процессов.

Иначе их называют непрямыми, т.к. цель в них замаскирована. Обследуемый не знает какая его индивидуальная особенность изучается.

(пр: тест замаскированных фигур – направлен на изучение полезависимости и поленезависимости.

Суть ее заключается в том: смотрят – насколько легко человек выделяет фигуру из фона, а судят о личностных особенностях человека).

  1. ^ Ситуационные тесты – обследуемый помещается в ситуацию, подобную той, которая может возникнуть в реальной действительности.

(пр: Хартшорн, Меем – тест исследования воспитательного характера.

Пр. тестов: дилемма выбора, с конкретной работой, с кружками — подглядывание).
^ Кроме личностных методик и тестов интеллекта в объективных методах:

  1. Тесты специальных способностей – они предназначены для измерения уровня развития отдельных сторон интеллекта и психомоторных функций, которые обеспечивают успешность деятельности в относительно узких областях деятельности.

(пр: тест музыкальных способностей; счетных, конторских и т.д.… способностей).

  1. Тесты достижений – выявляют овладение определенными ЗУНами.

Субъективный подход.

1. Личностные опросники.

2. Опросники состояния и настроения.

3. Опросники мнений.

… для получения информации в большей степени не имеющей отношения к личности человека.
Проективный подход.

1. Моторно-экспрессивные методики (все рисуночные тесты).

2. Перцептивно-структурные (методики на структурирование материала (пр: тест чернильных пятен Роршарха)).

3. Апперцептивно-динамические (интерпретационные методики).

Классификация Шванцара:

I. по используемому материалу:

1. Вербальные (задания формулируются словами).

2. Невербальные (пр: прогрессивные матрицы Ровена).

3. Манипуляционные (пр: Векслер, кубики Коса).

4. Тесты бумаги и карандаша (пр: тест шифровки фигур).
II. по количеству получаемых показателей:

1. Простые показатели (пр: Айзенк).

2. Комплексные показатели (пр: ОФДСИ Русалова).
III. по качеству ответа:

1. Тесты с правильным решением (пр: тесты интеллекта).

2. Тесты с возможностью различных ответов (пр: опросники).
IV. по психической активности обследуемых:

1. Интраспективные методики – предполагают ответы испытуемых, в которых сообщается о личном опыте субъекта, о его отношении к чему-либо (анкеты и беседы).

2. Экстраспективные – те методики, которые представлены различного рода наблюдениями.

3. Проективные – методики, в которых исследуемый проецирует неосознаваемые свойства личности на малоструктурированный, многозначный материал.

4. Исполнительные – те, в которых обследуемый осуществляет какое-либо действие, и уровень выполнения этого действия является показателем свойств личности.
Классификация Бодалева, Столина:

Дата добавления: 2015-06-04 ; Просмотров: 1660 ; Нарушение авторских прав?

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

Высокая надежность теста это необходимое, но недостаточное условие получения высококачественного теста. Тест еще должен быть валидным. Валидность – это важнейшая характеристика теста, без указания которой, его нельзя считать измерительным инструментом.

Анализируя сложную ситуацию с валидностью педагогических тестов, Е.Михайлычев 16 отмечает, что педагогу, заинтересовавшемуся валидностью, трудно будет разобраться в том, что же это такое.

Ниже мы приведем несколько определений валидности теста.

ВАЛИДНОСТЬ означает пригодность тестовых результатов для той цели, ради чего проводилось тестирование (В.Аванесов) 17 .

ВАЛИДНОСТЬ — это характеристика способности теста служить поставленной цели измерения (М.Челышкова) 7 .

ВАЛИДНОСТЬ — определяет, насколько тест отражает то, что он должен оценивать (А.Майоров) 18 .

Приведенные определения в целом перекликаются и являются практически равноценными. Мы несколько уточним определение, сделав акцент на цель тестирования. Тестирование как измерительная процедура, дает информацию, на основе которой в дальнейшем должно быть принято то или иное управленческое решение. Обоснованность этих решений, зачастую сильно влияющих на судьбу испытуемых, определяется надежностью и валидностью теста.

ВАЛИДНОСТЬ – это характеристика теста, отражающая его способность получать результаты, соответствующие поставленной цели и обосновывающая адекватность принимаемых решений.

После создания теста начинается процесс его валидизации. Приведем определение:

ВАЛИДИЗАЦИЯ – процесс накопления подтверждений для доказательства валидности теста 19 .

По нашему мнению ВАЛИДИЗАЦИЯ – это не столько сбор доказательств валидности теста, сколько процесс выполнения действий, повышающих его валидность. Вследствие этого будет расти и доказательная база валидности теста.

Выделяют три вида валидности – содержательную, критериальную и конструктную 20 . А.Майоров приводит следующую диаграмму видов валидности 18 :

Рис.3.9.1. Виды валидности.

КОНСТРУКТНАЯ ВАЛИДНОСТЬ (концептуальная валидность) определяется в случаях, когда представление об измеряемом свойстве существует в форме абстрактного образа, модели. Для объяснения определенных качеств личности создается концептуальная модель, которая с помощью тестов подтверждается или опровергается.

КРИТЕРИАЛЬНАЯ ВАЛИДНОСТЬ (эмпирическая валидность) предполагает наличие внешнего критерия, корреляция с которым определяет валидность теста.

Имеется два вида критериальной валидности – текущая и прогностическая.

Текущая критериальная валидность (concurrent validity) характеризует способность теста измерять некоторые качества личности. Валидность теста подтверждается корреляцией с некоторым внешним критерием, существующим в данное время. Допустим, тест показал для некоторого испытуемого отличные знания по предмету, а школьные отметки, выставленные учителем – неудовлетворительные. Если мы в качестве внешнего, независимого и достоверного критерия выберем школьные отметки, то критериальная валидность теста – низкая, даже если он имеет высокую надежность.

Прогностическая критериальная валидность (predictive validity) характеризует способность теста предсказывать будущие качества, формирующихся в результате воздействия внешних обстоятельств или целенаправленной собственной деятельности. Этот тип валидности характеризует корреляцию результатов тестирования с внешним критерием, который появится в будущем.

СОДЕРЖАТЕЛЬНАЯ ВАЛИДНОСТЬ (content validity) характеризует тест по степени его соответствия предметной области.

Согласно А.Анастази, содержательная валидность означает систематическую проверку содержания теста, с тем чтобы установить, соответствует ли оно репрезентативной выборке измеряемой области поведения. Такая процедура валидизации обычно применяется для тестов достижений 20 .

Содержательная валидность необязятельно означает полноту отображения изучаемой дисциплины. Например, для нормативно-ориентированного теста, полнота охвата всех тем может быть меньше, чем для критериально-ориентированного. Здесь важнее глубина проработки отдельных подтем, вопросов. Это позволит с большей эффективность дифференцировать обучаемых. Под содержанием понимается не только совокупность фактов, понятий, терминов, но и умение применять имеющиеся знания, оценивать информацию, выполнять действия, соответствующие верхним уровням таксономии Блума.

Для обеспечения содержательной валидности необходим детальный анализ учебных программ, на основании чего составляется спецификация теста. Спецификация содержит перечень учебных тем, их важность, количество и тип тестовых заданий. Оценка содержательной валидности выполняется экспертом в данной предметной области.

Согласно П.Клайну содержательная валидность определяется следующим образом:

1) указать категорию лиц, для которой предназначен тест;
2) составить список знаний, умений, навыков, подлежащих тестированию;
3) выполнить внешнюю экспертизу полученного списка на предмет его полноты и обоснованности;
4) на основе списка составить перечень заданий;
5) выполнить внешнюю экспертизу полученных заданий;
6) после проверки преобразовать их в задания в тестовой форме. В дальнейшем, на этой основе создать тестовые задания, образующие тест, который будет содержательно валидным.

Проблема валидизации педагогического теста является, видимо, самой сложной в процедуре создания высококачественного измерительного инструмента.

ЛЕКЦИЯ № 12. Содержательная валидность

1. Сущность, область применения. Этапы валидизации

Содержательная валидность – один из основных типов валидности методики, характеризующий степень репрезентативности содержания заданий теста измеряемой области психических свойств.

Комплекс сведений содержательной валидности традиционно имеет наибольшее значение для тестов, исследующих деятельность, близкую или совпадающую с реальной (чаще всего учебной или профессиональной). Изучаемая деятельность носит, как правило, синтетический характер, складывается из многих, подчас разнородных факторов (проявлений личностных особенностей, комплекса необходимых знаний и навыков, специфические способностей и т. д.). Поэтому одной из важнейших задач создания адекватной модели тестируемой деятельности является подбор таких заданий, которые будут охватывать главные аспекты изучаемого феномена в правильной пропорции к реальной деятельности в целом.

Читайте также:  Теле 2 комбинации услуг

Валидность по содержанию закладывается в тест уже при подборе заданий будущей методики. Первым этапом валидизации является определение круга исследуемых свойств и видов деятельности, расчленение сложной способности или деятельности на элементы. На втором этапе разрабатывают собственно модель тестовой деятельности на основе наиболее важных элементов реальной деятельности. Наконец, на последнем этапе проводят анализ степени соответствия разработанной модели реальной деятельности, проверку соответствия пропорций представленности элементов в заданиях теста и в реальной деятельности. Так, для тестов достижений по отдельным предметам разработке конкретного содержания тестовых задач предшествуют полная систематическая проверка соответствующих учебников и учебных программ, а также консультации со специалистами по данному предмету. На основе собранной таким путем информации составляют спецификацию теста, где указывают тестируемые области содержания (темы), задачи (процессы) обучения, а также относительное значение каждой темы и процесса для достижения целей обучения на данном этапе. Конкретные задания оцениваются экспертами по принципу их близости к реальным требованиям. Эксперты выносят суждения о том, охватывает ли тест репрезентативную выборку конкретных навыков и знаний исследуемой области обучения.

Широкое использование экспертных оценок сближает содержательную валидность с процедурой определения критериальной валидности. Однако существенным различием между этими типами валидности является то, что экспертные оценки при анализе содержания являются критерием самого теста, в то время как при критериальной валидизации они относятся к испытуемым из выборки стандартизации. Расчленение изучаемой деятельности или способности на элементы является необходимым этапом характеристики синтетической валидности. В содержательной валидности синтетический подход реализуется в анализе элементного состава содержания самого теста, а не в совокупности внешних валидизации критериев.

Экспертная оценка адекватности содержания заданий теста может быть дополнена при характеристике содержательной валидности рядом эмпирических процедур. Так, можно проверить, насколько от класса к классу повышается суммарный показатель для группы и индивидуальное выполнение теста достижений. Эта процедура в значительной мере близка определению валидности конструктной с помощью критерия возрастной дифференциации. Роль этого критерия при оценке содержательной валидности заключается не в верификации конструкта, лежащего в основе теста, а лишь в анализе гипотез, приведших к выбору того или иного материала теста.

Наряду с тестами достижений содержательная валидность является одной из важнейших форм валидизации критериально-ориентированных тестов , а также методик, предназначенных для профотбора, анализа успешности овладения профессией.

Для валидизации личностных опросников и тестов интеллекта критерии содержательной валидности имеют ограниченное применение и используются лишь на начальных стадиях составления теста. Личностные опросники, как правило, не имеют того сходства с исследуемой областью поведения, как это имеет место в случае тестов достижений. Ответы на вопросы анкеты, опросника, данные проективных исследований позволяют лишь косвенно судить о реальной деятельности испытуемого. Проявление личностных свойств и реализация способностей в деятельности могут носить индивидуальный характер.

При проведении теста интеллекта эффективное решение заданий может достигаться за счет логического мышления, механической памяти, психомоторной подвижности, разными путями и способами. Наконец, в отличие от тестов достижений опросники личностные и тесты интеллекта прямо не связаны с конкретным курсом обучения или общностью предшествовавшего жизненного опыта, на которых строится содержание тестов достижений.

2. Очевидная валидность

Очевидная валидность – представление о тесте, сфере его применения, результативности и прогностической ценности, которое возникает у испытуемого или другого лица, не располагающего специальными сведениями о характере использования и целях методики. Очевидная валидность не является компонентом объективно устанавливаемой валидности. Вместе с тем высокая очевидная валидность в большинстве случаев является весьма желательной. Она выступает в качестве фактора, побуждающего испытуемых к обследованию, способствует более серьезному и ответственному отношению к работе по выполнению заданий теста и к заключениям, формулируемым психологом.

Достаточный уровень очевидной валидности особенно значим для методик обследования взрослых. Если содержание тестовых заданий будет представляться несерьезным, чрезмерно легким, не соответствующим сути изучаемой деятельности, это может привести к ироническому, негативному или враждебному отношению испытуемых к ситуации обследования. Напротив, гипертрофированное отношение к возможностям методики, не вполне адекватное представление о ее направленности и прогностической значимости может вызвать избыточную мотивацию, нежелательную эмоциональную напряженность при обследовании, выраженное установочное поведение. Очевидно, что в приведенных случаях за счет неадекватной очевидной валидности реальная валидность теста снизится.

Представления испытуемых и пользователей психодиагностической информацией об очевидной валидности в немалой степени определяются названием методики, поскольку эта часть сведений о тесте наиболее доступна неспециалистам. Для предупреждения неадекватных мнений о методике следует избегать помещения на бланках, опросных листах, тестовых тетрадях туманных, необоснованно общих названий, которые могут быть неправильно истолкованы (например, «Тест личности», «Тест умственных способностей», «Комплексная батарея оценки достижений» и т. д.). Адекватность очевидной валидности повышается путем введения в инструкцию краткой характеристики целей исследования.

Очевидная валидность существенно улучшает применение понятных формулировок и терминов, а также заданий, по содержанию являющихся наиболее естественными с учетом возрастной, половой, профессиональной специфики испытуемых. Очевидная валидность иногда носит название внешней (face validity) или доверительной (faith validity) валидности.

ЛЕКЦИЯ № 13. Критерий валидности

1. Определение. Основное психометрическое неравенство

Соответствие теста измеряемому психическому свойству называется валидностью теста . Валидность является важнейшим психометрическим свойством теста. Если высокая надежность говорит о том, что тест действительно что-то измеряет, то высокая валидность указывает на то, что тест измеряет именно то, что мы хотим измерить. Конечно, на валидность теста также негативно влияют случайные факторы. Поэтому в психометрике принято следующее основное психометрическое неравенство:

что означает, что валидность не может превышать надежность теста.

Но в отличие от надежности, помимо случайных факторов, на валидность теста влияют систематические факторы. Они привносят систематические искажения в результаты. Эти факторы есть другие психические свойства, которые мешают проявиться в результатах теста тому свойству, на измерение которого направлен тест.

Например, мы хотим измерить потенциал обучаемости (важнейший компонент общих интеллектуальных способностей человека). Если мы даем испытуемому тест с жестким ограничением времени исполнения и отсутствием возможности вернуться и исправить допущенную ошибку, то очевидно, что искомое психическое свойство оказывается смешанным в тесте с ложным психическим свойством – стрессоустойчивостью: испытуемые с высокими показателями стрессоустойчивости будут лучше выполнять тест. В этом проявится эффект систематического искажения.

В современной психометрике разработаны десятки разнообразных теоретических и экспериментальных методов проверки валидности тестов. Основным элементом практически всех этих методов является так называемый критерий. Критерий валидности – это не зависимый от теста, внешний по отношению к тесту источник информации об измеряемом свойстве. Мы не можем судить о валидности теста до тех пор, пока не сравним его результаты с источником истинной (или заведомо более валидной) информации об измеряемом свойстве – с критерием.

2. Типы критериев валидности

В научных исследованиях преобладают специальные лабораторные критерии. Например, конструируется компактный тест-опросник на тревожность. А в качестве критерия валидности для него используется специальный трудоемкий объективный лабораторный эксперимент, в котором воспроизводится реальная ситуация тревожности (испытуемым-добровольцам угрожают за ошибочные действия ударами тока и т. п.).

На практике очень часто в качестве критерия валидности используются прагматические критерии – показатели эффективности той деятельности, ради прогнозирования которой предпринимается тестирование.

Очень часто в качестве критерия валидности используется экспертная оценка. Например, мы хотим убедиться, что короткий тест на измерение уровня дисциплинированности валиден. Для этого проводится опрос учителей об уровне дисциплинированности хорошо известных им учеников. После этого сравниваются результаты теста и экспертный рейтинг учеников по дисциплинированности.

Остановимся подробнее на этом последнем примере. Здесь мы имеем один из самых простых и популярных методов эмпирического (статистического) измерения валидности. Это метод известных групп. К участию в психометрическом эксперименте по проверке валидности теста приглашаются испытуемые, про которых известно, к какой группе по критерию они относятся. В случае с тестом дисциплинированности подбираются ученики, заведомо дисциплинированные по данным экспертной оценки учителей (высокая группа по критерию) и заведомо недисциплинированные (низкая группа по критерию). Ученики со средними показателями по критерию в тестировании не участвуют.

После проведения теста производится расчет, например, простейшей корреляции между тестом и критерием (табл. 1).

Расчет простейшей корреляции между тестом и критерием

Элемент «a» в этой таблице – это число испытуемых, попавших в высокую группу по тесту и по критерию, элемент «b» – число испытуемых, попавших в высокую группу по тесту, но в низкую группу по критерию и т. д.

Читайте также:  Outlook 2007 автоответчик на время отпуска

Очевидно, что при полной валидности теста элементы «b» и «с» таблицы должны быть равны нулю, т. е. тест не должен давать ошибок (говорить о том, что ученик низкодисциплинированный, когда учителя говорят о том, что ученик высокодисциплинированный – случай «с»).

3. Математическое выражение критерия валидности (коэффициент Гилфорда)

Меру совпадения (корреляции) между крайними группами по тесту и по критерию оценивают с помощью самого простого Фи-коэффициента Гилфорда:

При численности протестированной группы в 30 человек (это минимальная выборка для проверки валидности) статистически значимую связь теста с критерием мы можем констатировать – PH2 ≥ 0,36. Хотя это и очень невысокая валидность, но все же тест в данном случае дает значимо лучшие результаты, чем случайное гадание.

Однако метод известных групп обладает серьезным недостатком. Он не всегда позволяет использовать тест для прогноза. Дело в том, что при формировании известных групп оценивается поведение, которое происходило в прошлом, а мы хотим сделать тест для прогноза поведения, которое будет происходить в будущем. Многие тесты, используемые в образовательной психодиагностике, обладают указанным недостатком. Они проходят в лучшем случае проверку по методике известных групп и не обладают прогностической валидностью (или эта валидность строго экспериментально не доказана).

4. Основные схемы валидизации психодиагностических методик

Решение проблемы прогностической валидности под силу только крупным научно-методическим центрам. Ведь к психометрическому исследованию по проверке прогностической валидности надо привлекать на порядок больше испытуемых – не 30, а, как минимум, 300, так как неизвестно, кто из этих 300 попадет в крайние группы.

Например, мы хотим использовать тест для прогноза готовности школьников для обучения в вузе. Это типичная прогностическая психодиагностическая задача. Кто-то должен взяться за нелегкую многолетнюю программу проверки прогностического потенциала этого теста. Нужно протестировать 300–500 школьников, а затем подождать, кто из них поступит в вуз и будет успешно там учиться. После двух-трехлетнего интервала можно сформировать критериальные группы и подсчитать корреляцию с прежними тестовыми показателями этих бывших школьников. Только после реализации такой схемы психометрического эксперимента можно утверждать, что тест прошел проверку на прогностическую валидность. Без этого мы исходим только из доверия к научной интуиции разработчика теста и не имеем независимых доказательств того, что тест можно использовать для прогноза.

Различение обычной дешевой схемы валидизации теста (по известным группам) и дорогой прогностической схемы валидизации теста – важнейший элемент психодиагностической грамотности не только для психологов, но и для педагогов, как, впрочем, и для любых заказчиков психодиагностической информации.

ЛЕКЦИЯ № 14. Стандартизация тестов

1. Тестовые нормы

Что, несомненно, должен знать и уметь делать каждый грамотный пользователь теста, так это понимать, что такое тестовые нормы и как ими пользоваться.

Первоначальный суммарный балл, подсчитанный с помощью ключа, не является показателем, который можно диагностически интерпретировать. Его называют в тестологии «сырым» тестовым баллом. Применение тестовых норм в профессионально организованной психодиагностике основывается на переводе тестовых баллов из «сырой» шкалы в стандартную. Эта процедура называется стандартизацией тестового балла.

Допустим, мы провели тест из 20 заданий, и испытуемый дал 12 правильных ответов. Можно ли при этом сказать, что способность у испытуемого выражена лучше или хуже, чем в среднем? Нет. Для такого вывода нужно сравнить балл 12 со средним баллом по представительной выборке испытуемых.

Выборка, на которой определяются статистические тестовые нормы, называется выборкой стандартизации . Ее численность, как правило, не меньше 200 человек. Столько должны принять участие в психометрическом эксперименте по определению тестовых норм – в эксперименте по стандартизации теста.

2. Корреляция качественных признаков

Корреляция качественных признаков – метод анализа связи переменных, измеряемых в порядковых шкалах и шкалах наименований (см. шкалы измерительные). Наиболее часто такой корреляционный анализ проводят с помощью коэффициентов ранговой корреляции, используемых в случаях, когда обе переменные измеряются в шкалах порядка или легко могут быть преобразованы в ранги. При измерении сравниваемых переменных в шкалах наименований широко применяются коэффициенты сопряженности, в которых в качестве промежуточной расчетной величины используется критерий согласия Пирсона (см. критерий X2). Наиболее часто в таких расчетах пользуются коэффициентом сопряженности Пирсона :

Значение P всегда положительно и измеряется от нуля до единицы. Особенностью коэффициента сопряженности Пирсона является то, что максимальное его значение всегда меньше +1 и в значительной степени зависит от количества наблюдений (размера таблицы). В случае квадратной таблицы (k × k):

Так, в таблице размером (5 × 5) Pmax = 0,894; в таблице (10 × 10) Рmax = 0,949. Поэтому окончательной формой выражения связи между переменными с помощью коэффициента Пирсона является его отношение к величине Рmax для данного случая (Р / Рmax).

При расчете сопряженности находит применение также коэффициент Чупрова:

где t – число столбцов таблицы;

k – число строк таблицы.

В психологической диагностике описанные коэффициенты используются относительно редко.

3. Ранговая корреляция

Ранговая корреляция – метод корреляционного анализа, отражающий отношения переменных, упорядоченных по возрастанию их значения. Наиболее часто ранговая корреляция применяется для анализа связи между признаками, измеряемыми в порядковых шкалах (см. шкалы измерительные), а также как один из методов определения корреляции качественных признаков. Достоинством коэффициентов ранговой корреляции является возможность их использования независимо от характера распределения коррелирующих признаков.

В практике наиболее часто применяются такие ранговые меры связи, как коэффициенты ранговой корреляции Спирмена и Кендалла. Первым этапом расчета коэффициентов ранговой корреляции является ранжирование рядов переменных (табл. 2). Процедура ранжирования начинается с расположения переменных по возрастанию их значений. Разным значениям присваиваются ранги, обозначаемые натуральными числами. Если встречается несколько равных по значению переменных, им присваивается усредненный ранг.

Ранжирование распределения показателей теста (n = 18)

В таблице 2 приведены данные для расчета коэффициентов ранговой корреляции. Во второй графе представлены ранжированные показатели по первому из сравниваемых распределений (оценка IQ, в третьей графе – соответствующие им данные теста зрительной памяти).

Коэффициент корреляции рангов Спирмена (rs) определяется из уравнения:

где di – разности между рангами каждой переменной из пар значений X и Y;

n – число сопоставляемых пар.

Используя данные таблицы 2, получаем:

Коэффициент корреляции рангов Кендалла τ определяется следующей формулой:

где Р и Q рассчитываются по таблице 12.

Так, в восьмой графе подсчитывается, начиная с первого объекта X, сколько раз его ранг по Y меньше, чем ранг объектов, расположенных ниже. Соответственно, в девятой графе (S2) фиксируется, сколько раз ранг Y больше, чем ранги, стоящие ниже его в столбце X. Подставляя эти данные в формулу, получаем:

При сопоставлении приведенных коэффициентов оказывается, что коэффициент τ более информативен, чем rs, и рассчитывается проще. Поэтому на практике при расчете рановой корреляции отдают предпочтение коэффициенту τ (табл. 3).

Распределение IQ-оценок и показателей теста зрительной памяти

ЛЕКЦИЯ № 15. Измерительные шкалы

Измерительные шкалы (от лат. scala – «лестница») – форма фиксации совокупности признаков изучаемого объекта с упорядочиванием их в определенную числовую систему. Измерительные шкалы представляют собой метрические системы, моделирующие исследуемый феномен путем замены прямых обозначений изучаемых объектов числовыми значениями и отображение пропорций континуального состава элементов объекта в соответствующих числах. Каждому элементу совокупности проявлений свойств изучаемого объекта соответствует определенный балл или шкальный индекс, количественно устанавливающий положение наблюдаемой единицы на шкале, которая охватывает всю совокупность или ее часть, существенную с точки зрения задач исследования. Операция упорядочивания исходных эмпирических данных в шкальные носит название шкалирования. Измерительные шкалы являются главным средством сбора и анализа статистического материала как в прикладных, так и в теоретических исследованиях. Они различаются в зависимости от характера функции, лежащей в основе их построения. В качестве такой функции могут служить: сравнение по признаку убывания или возрастания, ранжирование, оценка интенсивности признака или оценка пропорциональных отношений между признаками. Наиболее общая классификация измерительных шкал предложена С. Стивенсон . В ее основу положен признак метрической детерминированности. Согласно этому признаку шкалы делятся на метрические (интервальные и шкалы отношений) и неметрические (номинативные, шкалы порядка).

Ссылка на основную публикацию
Слова содержащие приставку корень суффикс и окончание
Примеры разборов слов, у которых есть все основные морфемы: приставка, корень, суффикс, окончание. у бор к а у дивл ени...
Системная плата ecs mcp61m m3
Средняя цена по России, руб: 3 877 Общие характеристики Производитель Фирма, которая произвела данную материнскую плату. ECS Форм-фактор Форм-фактор –...
Системное администрирование windows 10
Наверняка вы уже слышали, что сегодня официально выходит Windows 10 Creators Update. В этой статье мы решили быть на шаг...
Словарь для it специалистов
ykaneva 2018-04-09T16:54:33+00:00 September 13th, 2017 | Практика английского | 7 Comments 7 142,973 Сегодня день программиста. По этому поводу в...
Adblock detector