Исследование системообразующих свойств теста, оценивание его надежности и валидности



страница1/2
Дата12.05.2016
Размер0.64 Mb.
  1   2
Апробационное тестирование
Цель апробационного тестированияпроверка функционирования заданий (анализ тестовых заданий) и всего теста в целом, исследование системообразующих свойств теста, оценивание его надежности и валидности.

Результаты апробации должны подвергнуться специальной статистической обработке, чтобы выявить задания, которые функционируют правильно (как и предполагалось разработчиком), и задания, которые не соответствуют требованиям. Дополнительно исследуется функционирование всего теста в целом как измерительного инструмента, выявляются проблемы и выясняются причины неудовлетворительных показателей.


Этапы проведения апробационного тестирования


  1. Разработка методики апробационного тестирования (выборка, условия проведения и т.д.)

  2. Разработка инструкций для участников и для преподавателей, проводящих апробацию теста

  3. Проведение апробационного тестирования

  4. Сбор эмпирических результатов

  5. Статистическая обработка результатов выполнения теста

  6. Интерпретация результатов обработки, проверка соответствия характеристик теста научно-обоснованным критериям качества

  7. Переработка заданий по результатам апробации; в случае необходимости разработка новых заданий

  8. Оптимизация длины теста и времени его выполнения на основании результатов апробации. Оптимизация расположения заданий в тесте. Оптимизация схемы оценивания заданий

  9. В случае необходимости (значительных изменений в тесте) повторная апробация (кросс-валидизация)


Подготовка и проведение апробации

Как правило, в рамках классической теории тестирования для получения относительно устойчивых характеристик заданий, необходимо иметь минимальную выборку в 200 человек. Другое правило эмпирического определения минимального объема – иметь в 5-10 раз больше испытуемых, чем заданий (Nunnally, 1967).

Второе требование к выборке апробации – ее репрезентативность (представительность). Выборка должна отражать всю генеральную совокупность учащихся, для которых предназначен тест, и при этом в правильных пропорциях.
Большое значение имеет разработка правильных инструкций, которые следует подготовить как для педагога, проводящего апробационное тестирование, так и для испытуемых, выполняющих тест. В инструкции для педагога содержатся рекомендации по подготовке группы учащихся к выполнению теста, примерные обязанности педагога на этапе проведения тестирования, рекомендации по подготовке краткого отчета. В целом, педагогу вовремя проведения апробации необходимо:

- объяснить учащимся, зачем нужен тест, почему они должны приложить максимум усилий для его выполнения;

- медленно, четко прочесть инструкцию;

- дать возможность испытуемым потренироваться, решив самостоятельно задачи-образцы (если такие имеются);

- сообщить о времени выполнения теста, о правилах исправления допущенных ошибок;

- проследить за правильностью заполнения регистрационных бланков;

- следить за порядком и общей обстановкой в аудитории, а также за состоянием испытуемых.
После проведения апробационного тестирования и сбора эмпирических данных начинается этап математико-статистической обработки, которая проводится, как правило, с помощью специального программного обеспечения. Но специалист, проводящий анализ, должен понимать выходные данные программ и уметь интерпретировать результаты.

Процесс научного обоснования качества теста заключается в сборе эмпирических результатов тестирования, их статистической обработке и интерпретации результатов обработки с целью получения параметров качества теста.




Обоснование качества теста в рамках классической теории тестирования

Анализ тестовых заданий
Статистическая обработка результатов тестирования с целью получения характеристик заданий теста в рамках классической теории тестов включает в себя несколько этапов.
1. Формирование матрицы ответов

В результате тестирования мы получаем матрицу индикаторов ответов A=(ani) размерности : n-ая строка этой матрицы (n=1,2,…, N) содержит баллы испытуемого n по всем заданиям теста; i-ый столбец матрицы (i=1,2,…,I) содержит баллы всех испытуемых по i-му заданию теста. Таким образом,



и элемент ani представляет собой балл испытуемого n за выполнение i-го задания теста. Если тест состоит только из дихотомических заданий, то все элементы матрицы A равны 0 или 1. Если в тесте присутствуют политомические задания, то элементы матрицы, соответствующие этим заданиям, имеют значения от 0 до m.

Сумма элементов матрицы A, стоящих в n-ой строке, называется первичным баллом испытуемого n:



, n=1,…,N

Сумма элементов матрицы A, стоящих в i-ом столбце, называется первичным баллом i-го задания:



, i=1,…,I
2. Выбраковка

Перед тем, как перейти к анализу данных по результатам тестирования, проводят выбраковку – удаляют строки и столбцы, состоящие полностью из 0 и 1 , т.е. удаляют задания, которые не смог выполнить никто или, наоборот, выполнили все. Аналогично с испытуемыми – для тех, кто выполнил все задания или не справился ни с одним заданием, истинный балл не может быть определен с помощью данного теста.


3. Упорядочение матрицы ответов

Иногда для улучшения восприятия баллов удобно упорядочить матрицу, т.е. произвести перестановку строк и столбцов, располагая первичные баллы в порядке убывания.


Задание I=10
Испытуемые N=15

1

2

3

4

5

6

7

8

9

10

bn

1

1

1

1

1

1

1

1

0

0

0

7

2

1

1

0

0

0

0

0

0

0

0

2

3

0

0

0

0

0

0

0

1

0

0

1

4

1

1

0

1

1

1

1

1

1

1

9

5

1

0

1

0

1

1

0

0

0

0

4

6

1

1

1

0

0

0

0

0

0

0

3

7

1

1

1

1

0

0

0

0

0

0

4

8

1

1

1

1

0

0

0

0

0

0

4

9

1

1

1

1

1

1

1

1

0

0

8

10

1

1

1

1

1

0

1

0

0

0

6

11

1

0

1

0

0

1

1

0

0

1

5

12

0

0

1

1

1

1

0

0

1

0

5

13

1

0

0

1

1

1

0

0

0

1

5

14

0

0

0

0

1

1

0

0

1

0

3

15

1

1

0

1

1

1

1

0

0

0

6

ci

12

9

9

9

9

9

6

3

3

3

балла

Табл.1
4. Графическая интерпретация эмпирических данных

Как правило, для графической интерпретации используют гистограмму. Гистограмма иллюстрирует плотность распределения тестовых баллов и позволяет показать соотношение размеров различных групп испытуемых, получивших низкие, средние и высокие баллы. При этом по оси абсцисс откладывается тестовый балл (или процент выполнения заданий теста при большом количестве заданий), высота столбцов соответствует частоте этого балла (или проценту испытуемых, имеющих результат в данном интервале, при большом количестве испытуемых).

На рис.1 приведена гистограмма, соответствующая матрице результатов тестирования, приведенной в табл.1.

Р
ис. 1
5. Подсчет средних значений первичных баллов

Среднее значение индивидуальных баллов рассчитывается как среднее арифметическое всех баллов:



- среднее значение первичных баллов испытуемых,

Аналогично,



- среднее значение первичных баллов заданий.

В рассматриваемом примере имеем:



;

.


  1. Расчет дисперсии тестовых баллов

Дисперсия (вариация) тестовых баллов характеризует меру рассеивания индивидуальных баллов испытуемых относительно среднего значения x:

Как следует из формулы, дисперсия выражается в квадратных единицах. Чтобы этого избежать, в качестве меры рассеивания берут среднее квадратическое отклонение – квадратный корень из дисперсии:

В нашем примере:

D=

Дисперсия играет важную роль в оценке качества теста при нормативно-ориентированной интерпретации. Слабая вариация результатов испытуемых говорит о низком качестве теста, т.к. указывает на низкую дифференциацию испытуемых по уровню подготовки. Излишне высокая дисперсия, характерная для случая, когда все испытуемые отличаются по числу выполненных заданий, также требует переработки теста. Превышение разумных пределов дисперсии приводит к искажению вида распределения, которое начинает существенно отличаться от планируемой теоретической нормальной кривой.


  1. Проверка гипотезы о нормальности распределения тестовых баллов

Большинство методов, применяемых для получения характеристик тестовых заданий, относятся к группе параметрических методов математической статистики, для использования которых требуется нормальное распределение эмпирических данных. В хорошо сбалансированном по трудности тесте распределение индивидуальных баллов имеет вид нормальной кривой. Нормальное распределение характеризуется тем, что крайние значения признака в нем встречаются достаточно редко, а значения, близкие к средней величине - достаточно часто.

Наиболее удобна на практике нормированная нормальная кривая со средним значением и стандартным отклонением . Такая кривая иногда называется единичной кривой (т.к. площадь под кривой равняется 1) (см. график на рис.2). Для совмещения любой нормальной кривой с единичной достаточно выполнить преобразование исходных баллов по формуле:




Отметим некоторые свойства нормального распределения:

1) 68 % площади под кривой лежит в пределах одного стандартного отклонения, откладываемого влево и вправо от среднего значения (т.е. );

2) 95 % площади под кривой лежит в пределах двух стандартных отклонений, откладываемых влево и вправо от среднего значения ();

3) 99,7 % площади под кривой лежит в пределах трех стандартных отклонений, откладываемых влево и вправо от среднего значения ().




Рис.2


Нормальность распределения можно проверить путем расчета показателей асимметрии и эксцесса и сопоставления их с критическими значениями. Асимметрия оценивает степень отклонения распределения от симметричного распределения, характерного для нормальной кривой. Показатель асимметрии (А) вычисляется по формуле:

, (1)

где все обозначения прежние.

Рассчитаем показатель асимметрии для теста, матрица ответов которого представлена в таблице 1. Имеем:

.

Для нормального распределения характерна нулевая асимметрия: А=0. Если А>0, то основная часть значений индивидуальных баллов больше среднего значения , что обычно характерно для излишне легких тестов. И наоборот, отрицательная асимметрия (А<0) встречается в излишне трудных тестах, не сбалансированных правильно по трудности при отборе заданий в тест. На рис.3 представлены кривые распределения с отрицательной, нулевой и положительной асимметрией (слева направо) соответственно.




Рис.3


Эксцесс дает представление о том, является ли распределение островершинным или плоским. Показатель эксцесса (Е) вычисляется по формуле:

, (2)

где все обозначения прежние. Для нормального распределения Е=0. Если кривая распределения – островершинная, то Е>0. Это бывает в тех случаях, когда какие-либо причины способствуют преимущественному появлению индивидуальных баллов, близких к среднему значению. Если же в распределении преобладают крайние значения, причем одновременно и более низкие, и более высокие, то кривая распределения будет плосковершинной и показатель эксцесса Е<0. На рис.4 изображены кривые с положительным, нулевым и отрицательным эксцессом (слева направо) соответственно.


Рис.4


В отдельных случаях при отрицательном эксцессе распределение индивидуальных баллов может быть двувершинным (бимодальным) (рис.5). Такое распределение указывает на то, что по результатам выполнения теста все испытуемые разделились на две группы: одна группа справилась с большинством легких заданий, а другая – с большинством трудных заданий теста. По всей вероятности, в тесте недостаточно представлены задания средней трудности. Необходимо провести коррекцию трудности заданий теста, добавив в него задания средней трудности, позволяющие выровнять распределение баллов.

Рис.5
После вычисления значений асимметрии и эксцесса необходимо провести проверку значимости найденных значений с помощью какого-либо из известных критериев. Дело в том, что вычисленные значения асимметрии и эксцесса являются выборочными, т.к. основаны на результатах данной выборки испытуемых. Выборочные значения асимметрии и эксцесса, как правило, отличаются от 0. Требуется определить, значимы ли эти отличия или нет. Если отличия незначимы, то гипотеза о нормальном распределении генеральной совокупности принимается. В противном случае, если отличия значимы - отклоняется.

Существует простой способ оценить значимость отличий выборочных значений асимметрии и эксцесса от 0. Способ использует асимптотический подход, поэтому объем выборки N должен быть достаточно большим (N > 50). Известно, что выборочные значения aВ и eВ распределены асимптотически нормально с параметрами и соответственно. Для нормального генерального распределения a = 0 и e = 0. Средние квадратические отклонения могут быть приблизительно оценены следующим образом:
(3)

Следовательно, асимптотически А~, Е~. Опуская выкладки, приведем простой алгоритм проверки гипотезы о нормальности генерального распределения с помощью выборочных асимметрии и эксцесса:

1) Выбираем уровень значимости . Обычно его выбирают равным 0,05.

2) Вычисляем значение по формуле . При обычно выбираемом уровне значимости = 0,05 параметр .

3) Вычисляем выборочные значения асимметрии А и эксцесса и Е (формулы (1) и (2)).

4) Вычисляем значения отклонений по формулам (3).

5) Если не выполняется хотя бы одно из неравенств

, (4)

то на уровне значимости гипотеза о нормальном распределении генеральной совокупности отклоняется. Если оба неравенства (4) выполняются, то нет оснований отвергать нулевую гипотезу.

Например, если объем выборки N=100, то и неравенства (4) принимают вид: .

8. Трудность задания (Коэффициент решаемости задания) вычисляется по формуле:

k

Очевидно, при дихотомической оценке значение k соответствует доли испытуемых данной выборки, выполнивших задание правильно. Следовательно, . Чем больше k, тем легче данное задание, и, наоборот, чем меньше , тем оно труднее.

Коэффициент решаемости 5-го задания в рассматриваемом примере равен:

Коэффициент решаемости задания ассоциируется с мерой его трудности. Оптимальное значение меры трудности для задания 0,5, но в тесте должны присутствовать и легкие задания (коэффициент решаемости ), и сложные (

Если экспертным путем определялся уровень сложности заданий, то заданиям первого уровня сложности соответствуют значения трудности ; заданиям второго уровня сложности - и заданиям третьего уровня сложности - В случае несовпадения предполагаемого уровня сложности задания и полученного уровня его трудности необходим анализ причин несовпадения.


9. Дифференцирующая способность задания (дискриминативность)

Цель создания многих тестов состоит в обеспечении информации об индивидуальных различиях между испытуемыми. Поэтому задания теста должны обладать способностью различать испытуемых с различным уровнем подготовки. Если на какое-либо задание теста отвечают все испытуемые, независимо от уровня их подготовки, то такое задание не дифференцирует сильных студентов от слабых. Аналогичная ситуация с заданием, на которое нет ни одного правильного ответа. Еще хуже ситуация, когда сильные испытуемые не отвечают на задание правильно, а слабые – отвечают. В этом случае задание не только не дифференцирует испытуемых, но и вносит дезинформацию в их оценивание. Про такие задания говорят, что они имеют отрицательную дискриминативность.

В качестве показателя дискриминативности используют различные показатели, которые будут рассмотрены далее.
Показатель различительной способности задания (показатель дискриминативности)

Этот показатель очень прост в применении, поэтому довольно популярен. Пусть - коэффициент решаемости j-го задания лучшей половиной тестируемых, - коэффициент решаемости j-го задания худшей половиной тестируемых. Тогда

.

Чаще всех испытуемых делят не пополам, а отбирают 27 % испытуемых, имеющих высокие баллы и 27 % испытуемых, имеющих низкие баллы.

Очевидно, что -. Если задание правильно выполняет больше лучших, чем худших тестируемых, то >0; в противном случае <0. Если задание выполнит одинаковое количество лучших и худших, то =0, задание не дифференцирует испытуемых. В литературе приводятся следующие принципы для интерпретации значений коэффициента :


  1. Если ≥ 0,4, то задание функционирует удовлетворительно;

  2. Если 0,30 ≤≤0,39, то требуется небольшая коррекция задания;

  3. Если 0,20 ≤≤0,29, то задание нуждается в пересмотре;

  4. Если ≤0,19, то задание должно быть исключено из теста или полностью переделано.

Недостаток применения этого коэффициента состоит в том, что у него нет никакого известного выборочного распределения, поэтому невозможно определить, насколько значимо величина коэффициента больше 0, например. Однако он часто используется из-за своей простоты.

Остальные методы анализа дифференцирующей силы заданий являются различными видами коэффициентов корреляции.

Точечная бисериальная корреляция



Точечно-бисериальный коэффициент представляет собой упрощенную формулу Пирсона – коэффициента корреляции между результатами выполнения каждого задания и суммой баллов по всему тесту (при дихотомическом способе оценки):
= ,

где


- средний балл испытуемых, выполнивших j-ое задание верно;

- средний балл всей группы испытуемых;

- среднее квадратическое отклонение результатов тестирования всех испытуемых;

- число испытуемых, выполнивших j-ое задание верно (трудность задания);

- число испытуемых, выполнивших j-ое задание неверно.

Полученный коэффициент корреляции иногда называют показателем валидности задания. Чем выше коэффициент корреляции, тем валиднее задание, тем выше его дифференцирующая способность. В целом, задание можно считать валидным, если значения ()>0,5.

Оценка валидности задания позволяет судить, насколько задание пригодно для работы в соответствии с общей целью создания теста. Если его цель – дифференциация испытуемых, то валидные задания должны четко отделять хорошо подготовленных от слабо подготовленных учеников тестируемой группы.
Бисериальный коэффициент корреляции
Это еще один коэффициент вычисления корреляции между результатами выполнения каждого задания и суммой баллов по всему тесту в предположении, что значения латентной переменной, лежащей в основе выполнения заданий, распределены нормально. Этот коэффициент и предыдущий связаны простым математическим соотношением. Следует отметить, что значение бисериальной корреляции для заданий средней трудности, по крайней мере, в полтора раза превышает значение точечной бисериальной корреляции для тех же самых переменных. Для заданий экстремальной трудности (очень легких и очень трудных) разница между бисериальной корреляцией и точечной бисериальной корреляцией резко возрастает.

Иногда используются и другие коэффициенты корреляции, например, коэффициент фи, тетрахорический коэффициент корреляции и др.


Могут быть предложены следующие рекомендации относительно выбора процедуры анализа дифференцирующей силы задания в случае их дихотомического оценивания.

  1. Если задания имеют среднюю трудность, то выбор статистического критерия не играет особого значения. Поэтому можно использовать показатель дискриминативности, как самый легкий по вычислению.

  2. Если стоит цель отобрать задания в экстремальном диапазоне трудности, то лучще применять бисериальный коэффициент корреляции.

Анализ заданий производится с учетом всей информации по нему, что, как правило, позволяет установить причины плохого функционирования задания. Для этого дополнительно используются данные по ответам испытуемых (в случае закрытых заданий данные по дистракторам). Все данные обычно сводят в таблицу.




Задание

Ответы к заданиям, %

Пропуски, %



Трудность

задания р



Показатель дискрими-

нативности



Точечная

бисериальная корреляция



1

2

3

4

1

24

4

52

16+

4

0,16

0,00

-0,06

2

4

28+

28

32

8

0,28

-0,17

-0,12

3

16

12

0

72+

0

0,72

-0,17

-0,29

Задание 1 имеет отрицательную точечную бисериальную корреляцию. Задание очень трудное – только 16% испытуемых выполнили его верно. При анализе распределения ответов видим, что 52% испытуемых выбрали вариант ответа 3 вместо помеченного, как правильный варианта 4. Возможная причина такой ситуации – отсутствие правильного ответа в задании.

Задание 2 также является отрицательно дифференцирующим. Оно тоже трудное. Ответы на него рспределены почти одинаково по трем из 4-х возможных позиций, включая правильный ответ. Возможная причина – испытуемые отвечали наугад. Дополнительно видим, что 8% испытуемых пропустили это задание, т.е., возможно, его не поняли. Возможно, задание было сформулировано неоднозначно, или для задания нет правильного ответа, или содержание задания неизвестно испытуемым.

Задание 3 имеет проблемы с содержанием и вариантами ответов. Оно легкое. Вариант ответа 3 никем не был выбран, т.е. это – неработающий дистрактор. Включение такого ответа увеличивает шансы на угадывание слабых испытуемых, поэтому задание получилось более легким. Необходимо переделать неработающий дистрактор.


Каталог: data -> 2010
2010 -> Программа дисциплины «Методы исследований в психологии и образовании»
2010 -> Рефлексивно-развивающие технологии инновационно-педагогической подготовки учащихся к межпоколенческому переходу
2010 -> Медиа и социальная активность молодежи
2010 -> Личко А. Е. Психопатии и акцентуации характера у подростков
2010 -> Программа дисциплины «Психология» для направления 080700. 62 «Бизнес-информатика»
2010 -> Программа дисциплины Психология для направления 080506. 65 «Логистика и управление цепями поставок» подготовки специалиста
2010 -> Программа дисциплины Психология Для направления 080500. 62 «Бизнес-информатика» подготовки бакалавра
2010 -> Первый теория и методология марксистской социологии глава первая
2010 -> Программа дисциплины «Социологическая теория»


Поделитесь с Вашими друзьями:
  1   2


База данных защищена авторским правом ©dogmon.org 2019
обратиться к администрации

    Главная страница