Главы, рекомендуемые для предварительного чтения
1 и 11.
[ведение
Эта глава охватывает некоторые основополагающие принципы, относящиеся к измерению как в физическом мире, так и при оценке индивидуальных различий. В частности мы будем анализировать понятия систематической и случайной ошибок измерения и увидим, как эти принципы естественным образом приведут нас к важному аспекту психометрики, известному как теория надежности. В заключение мы рассмотрим, как можно определить, действительно ли тест измеряет то, на измерение чего он претендует, другими словами, валиден ли он.
Фундаментальной и абсолютно неоспоримой характеристикой психологических тестов является то, что каждая шкала должна
Таблица 13.1
Гипотетический личностный опросник, состоящий из четырех утверждений
Утверждение 1
|
Я часто ощущаю беспокойство
|
Да/неопределенно/нет
|
Утверждение 2
|
Хорошая шумная вечеринка —
|
Да/неопределенно/нет
|
|
лучший способ отпраздновать
|
|
|
что-либо
|
|
Утверждение 3
|
Мне приходилось обращаться
|
Да/неопределенно/нет
|
|
к врачу из-за «нервов»
|
|
Утверждение 4
|
Я очень не люблю оставаться
|
Да/неопределенно/нет
|
|
один
|
|
оценивать одну (и только одну) психологическую характеристику. Например, предположим, что тест, состоящий из четырех утверждений, представленный в табл. 13.1, предъявили испытуемому. Его утверждения оцениваются путем выставления оценок: 0 баллов за ответ «нет», 1 балл за «неопределенный» ответ и 2 балла за ответ «да». Представьте себе, что некий испытуемый получил по этой шкале общий балл 4. Какие заключения вы можете сделать по поводу личности испытуемого?
Весьма простой ответ состоит в том, что никто не может надеяться на то, чтобы составить какое-либо заключение на основании оценок личности по этой шкале, поскольку ее утверждения, видимо, измеряют два разных концепта. Пункты 1 и 3, по-видимому, оценивают тревожность, в то время как пункты 2 и 4 скорее измеряют социабельность. Следовательно, общий балл 4, по этому тесту, мог возникнуть в случае, если испытуемый был:
• тревожным и несоциабельным (оценки 2, 0, 2, 0);
• нетревожным и социабельным (оценки 0, 2, 0, 2);
• умеренно тревожным и умеренно социабельным (оценки 1, 1, 1, 1) и т.д.
Интуитивно должно быть понятно, что, когда тесты обрабатываются таким способом, интерпретировать их значение можно только в том случае, если все задания в шкале измеряют одну и ту же базисную психологическую характеристику. Если все четыре утверждения измеряют по этому тесту тревожность, то чем выше
оценки испытуемых, тем более тревожными они должны быть. Однако если задания измеряют две или более совершенно разные характеристики, как в приведенном выше примере, такая интерпретация невозможна. Поэтому очень важно убедиться в том, что все утверждения в определенной шкале оценивают одну (и только одну) черту. Существуют два основных способа добиться этого. В данной главе мы рассмотрим теорию надежности — теорию, которая исходно предполагает, что все задания измеряют одну и ту же характеристику, и проверяет, так ли это на самом деле. В главах 14 и 15 мы изучим технику, позволяющую нам устано- вить, сколько характеристик измеряется определенным набором заданий.
и физические измерения
Измерение объектов в повседневной жизни может быть проведено с поразительной точностью. Хотя всегда существует некоторая «ошибка измерения», связанная с определением размера, массы или объема, которая, как правило, составляет весьма небольшой процент от измеряемого количества. Цифровые весы у меня в кухне взвешивают муку с точностью до двух граммов, поэтому ошибка измерения при взвешивании 225 г муки составляет приблизительно плюс или минус 1%. Измерительная лента может иметь отметки через* каждый сантиметр, поэтому ошибка, включающаяся в измерение положения любого конца ленты, может составлять приблизительно плюс или минус 0,5 см. Это означает, что общая ошибка при измерении стены размером 300 см в моем кабинете
2 х 0,5 см будет составлять приблизительно плюс или минус 1ПП • или
JUU СМ
0,3%. Существуют и более совершенные технические устройства, позволяющие в случае необходимости измерять такие расстояния с еще большей степенью точности.
Ошибка, связанная с проведением каждого измерения, может рассматриваться как случайная в том смысле, что она будет варьировать случайным образом от одного измерения к другому. Если бы стену измеряли 100 раз, ее длина иногда оказывалась бы равной 301 см или несколько меньше — 299 см, но если бы усредни-
ли 100 измерений, они должны были бы дать более точную оценку подлинной длины стены, чем та, которая получилась бы в результате одного измерения, поскольку случайные ошибки измерения имеют тенденцию нивелировать влияния друг друга при усреднении.
Другие методы измерения длины стены в моем кабинете включают использование цифрового измерителя; он оценивает, сколько времени потребуется звуковому импульсу, передаваемому из небольшого ящика, расположенного напротив одной стены, чтобы достичь другого конца комнаты и вернуться обратно. Наконец, мы можем измерить окружность небольшого деревянного валика и посчитать число вращений, которые он сделает, проходя по поверхности стены. Умножив длину окружности валика на число вращений, мы должны получить длину комнаты.
Так же как гарантируется, что ошибки измерения сведены к минимуму, измерительные инструменты должны быть сконструированы так, чтобы получаемые с их помощью оценки гарантированно находились под влиянием только одной физической переменной — именно той, которую хотят измерить. Например, показатели, получаемые по цифровым шкалам, не должны зависеть от времени дня, когда осуществляется измерение, от температуры комнаты, света или фактуры измеряемого объекта или еще чего-либо, за исключением его длины. Это прямой эквивалент принципа, который был продемонстрирован при использовании теста из четырех утверждений: измерительные инструменты должны измерять только одну характеристику объекта.
На практике это оказывается далеко не так просто. Допустим, что измерительная лента, цифровой измеритель и валик полностью свободны от ошибок измерения — «случайных ошибок», упоминавшихся выше. Дает ли это основание полагать, что длина моего кабинета может быть измерена с полной точностью? К сожалению, нет, поскольку ни один из этих инструментов не измеряет только длину. Измерительная лента будет слегка вытягиваться или сжиматься в зависимости от изменения температуры и влажности, и поэтому в холодный влажный день или в сухой и жаркий она будет давать несколько различающиеся показатели. Точность цифрового измерителя будет (хотя и в небольшой степени) зависеть от давления воздуха, поэтому он даст несколько иные показатели, если мой кабинет переместить на вершину горы Эверест. Если обои имеют сильный рельеф, валик будет измерять общую длину возвышений и углублений бумаги дополнительно к длине комнаты.
Рис. 13.1. Переменные, влияющие на показатели измерительного инструмента. Числа, расположенные рядом с каждой стрелкой, показывают относительную важность каждого из них в определении показателя.
Таким образом, даже если мы примем, что все эти инструменты измеряют длину (и только ее одну), размеры, определяемые каждым из них, будут в действительности подвержены влиянию нескольких различных переменных. Мы называем их источниками «систематической ошибки». В отличие от обсуждавшихся выше случайных ошибок, источники систематических ошибок не обнаруживают тенденцию к устранению, когда проводятся повторные измерения при одних и тех же физических условиях. Если мы 100 раз измеряем длину комнаты с помощью измерительной ленты в холодный влажный день, то показатели будут всегда слегка преувеличены, поскольку лента будет коробиться.
Это положение наряду с влиянием случайной ошибки (ошибки при считывании показателей с ленты) иллюстрирует диаграмма на рис, 13.1. Здесь источники ошибки обозначены эллипсами, а стрелки указывают на то, что каждый из них влияет на получаемый показатель (обозначен прямоугольником). Поскольку существует и некоторая случайная ошибка, связанная со считыванием показателей с измерительного инструмента, она тоже включена в рисунок. Числа, проставленные рядом с каждой стрелкой, указывают на относительную важность каждого из этих факторов в определении показателей измерительного инструмента. На схеме можно видеть, что показатель, который мы считываем с него, значи-
тельно больше зависит от длины комнаты, чем от чего-либо другого; влажность, ошибка измерения и температура являются следующими тремя наиболее важными переменными.
Если перечисленные три способа измерения длины моей стены (т.е. измерительный инструмент, валик или цифровой измеритель) находятся под влиянием различных физических переменных, то каким образом следует определять «подлинную» длину, руководствуясь этими тремя, слегка различающимися показателями? Решение, которое напрашивается само собой, состоит в том, чтобы усреднить эти три показателя, надеясь на интуитивную очевидность того, что среднее трех измерений окажется ближе к «подлинному» значению, нежели каждое из измерений, взятое поодиночке.
Мы можем подвести итог сказанному в нескольких основополагающих принципах:
• «Хорошие» измерительные инструменты -- это такие, на которые мало влияет случайная ошибка.
• «Хорошие» измерительные инструменты не подвержены влияниям источников систематической ошибки.
• Проведение многократных измерений при разных физических условиях и усреднение результатов уменьшают вклад случайных ошибок.
• Усреднение измерений, полученных с помощью разных инструментов, будет вести к уменьшению вклада систематической ошибки.
Измерение в психологии
В психологии ответ, который испытуемый дает на задание теста, представляет собой аналог измерения длины одним из методов, описанных выше, — с одной лишь существенной разницей, имеющей практическое значение, особенно в случае личностных измерений.
Упражнение
Представьте себе, что в личностном опроснике студентам был задан вопрос: «Получаете ли вы удовольствие от «хмельных» вечеринок?» — и они ответили, отмечая по пятибалльной шкале
ранги — от «совершенно согласен» до «совершенно не согласен». Попытайтесь составить список из шести факторов, которые могут повлиять на то, какие ответы они отмечают.
Кроме тех переменных, которые, вероятно, обнаруживают небольшую вариативность внутри группы (таких, как способность понять все слова в предложении), мой список включает следующее:
• их уровень экстраверсии (личностная черта);
• число вечеринок, на которых они недавно побывали (их печень может нуждаться в отдыхе);
• их возраст;
• их религиозные убеждения/этническая принадлежность;
• социальная желательность: для некоторых студентов может оказаться трудным признать, что они гораздо охотнее предпочли бы работу в университетской библиотеке участию в вечеринках, и поэтому они будут склонны преувеличивать свое подлинное пристрастие к вечеринкам;
• контекст, в котором задавался вопрос: потенциальный работодатель и студент-психолог вполне могут получить разные ответы на этот вопрос;
• предположение студента относительно того, что оценивается: например, один человек может прочесть вопрос, полагая, что он направлен на оценку того, есть ли у него проблемы с алкоголем, и ответит соответственно этому; кто-то другой может полагать, что измеряется уровень экстраверсии, и, следовательно, ответит соответствующим образом;
• способ, который испытуемый использует при работе с пятибалльной шкалой: некоторые индивидуумы используют оценки 1 и 5 довольно свободно, в то время как другие никогда не обращаются к полюсам шкалы;
• склонность соглашаться: установлено, что люди склонны соглашаться с утверждениями;
• настроение студента;
• случайная ошибка: если вы зададите студенту тот же самый вопрос двумя минутами позже, можете получить несколько отличающийся ответ.
Ваш список, вероятно, содержит и другие важные переменные. Множество посторонних факторов определяет, каким образом индивидуум будет отвечать на вопрос в личностном тесте, и некоторые из них мы рассмотрим в главе 17. То же самое в значи-
Рис. 13.2. Примеры переменных, которые могут оказывать влияние на ответы человека, получаемые на одно утверждение из личностного опросника.
тельной степени приложимо и к тесту способностей. На успешность здесь могут оказывать влияние не только способности, но и тревога, удача при угадывании правильного ответа, непонимание того, что ожидается, социальное давление (намеренное частичное выполнение теста, чтобы не выделяться из группы), осознаваемая важность получения высокой оценки и т.д. Мы могли бы сделать такое же заключение по поводу оценок поведения (когда особенности личности ранжирующего и его чувствительности будут также влиять на выставляемые ранги). Таким образом, любой фрагмент собранных данных при оценке индивидуальных различий, видимо, подвержен влиянию большого числа факторов, как показано на рис. 13.2.
Можно было бы провести эксперименты, чтобы определить меру влияния каждой из этих переменных на индивидуальный ответ, полученный на каждый вопрос. Если вопрос предназначен для измерения такой черты, как экстраверсия, «хорошим» будет
вопрос, при котором эффекты всех других переменных окажутся малы, аналогично тому как на «хороший» показатель длины влияет расстояние, а не температура, давление воздуха или что-либо еще. В предыдущем примере, касавшемся измерения длины стены, реальная длина стены оказывала решающее влияние на показатели, получаемые с помощью измерительной ленты. К сожалению, в психологии это не так. Почти невозможно найти вопрос личностного теста, для которого диагностируемая черта объясняла бы более чем 20—30% вариативности индивидуальных ответов на вопросы. Большая часть вариативности обязана своим происхождением другим факторам.
Проблема действительно серьезна. Кажется, что сложно или невозможно придумать вопросы, которые измеряли бы черту в чистом виде, поскольку ответы индивидуумов на каждый вопрос теста подвержены влияниям множества черт, состояний, аттитю-дов, настроений и везения. Можем ли мы надеяться, что личность или способности могут быть оценены с какой-либо степенью точности?
К счастью, существует подход к решению этой проблемы. Например, можно привести некоторые другие вопросы, измеряющие экстраверсию, каждый из которых зависит от действия различного набора посторонних факторов. В главе 5 показано, что Ай-зенк считает экстравертов социабельными, оптимистичными, разговорчивыми, импульсивными и т.д., — значит, можно сформулировать вопросы, которые измеряли бы и эти переменные тоже. Вопрос типа «Ведете ли вы себя тихо во время общественных мероприятий?» был бы подвержен влиянию определенного числа посторонних факторов, но лишь некоторые из них оказались бы теми же, что и для первого вопроса. Таким образом, если опрос^ ники конструировались из некоторого количества вопросов, на каждый из которых действует различный набор посторонних факторов, влияние последних будет иметь тенденцию к снижению, в то время как влияние черты будет накапливаться. Следовательно, чтобы разработать более точное измерение личностной черты, необходимо просто:
• написать несколько вопросов, каждый из которых отражает разные аспекты черты и, следовательно, оказывается под воздействием различных наборов посторонних факторов;
• оценить ответы на эти вопросы;
• сложить эти оценки вместе.
Общий (или средний) балл, полученный по опроснику, неизбежно будет лучшей оценкой черты индивидуума, чем ответ на один-единственный вопрос, поскольку посторонние факторы устраняют действие друг друга. Это тот же принцип, о котором говорилось в предыдущем разделе. Там я утверждал, что для получения «наилучшей» оценки длины комнаты по результатам трех измерений, которые слегка различаются (потому что на каждый действует различный набор посторонних факторов), мы должны просто взять среднее значение этих величин. Когда мы поступаем таким образом, 80%, 90% (и даже более) вариативности в общей оценке теста обусловливается личностной чертой, что намного лучше, чем 20 или 30%, которые можно было бы получить с помощью одного отдельно взятого, даже самого хорошего, вопроса. Этот простой принцип составляет основу «теории надежности», которая будет обсуждаться в следующем разделе. Прежде чем закончить этот раздел, необходимо объяснить, что означает термин «специфическая вариативность», который без предупреждения вкрался в рис. 13.2. Остальные стрелки на этом рисунке дают основание предполагать, что ответ индивидуума на этот вопрос может быть полностью охарактеризован в терминах пяти основных параметров (плюс некоторая ошибка измерения, которую мы можем опустить). Однако это не обязательно так. Вполне возможно, что некто, не являющийся экстравертом и не получающий удовольствия от выпивки, и чей ответ не подвержен сильному влиянию любого другого постороннего фактора, может тем не менее просто извлекать удовольствие из «пьяных» вечеринок. Другими словами, может получиться так, что некоторые индивидуумы ответят на этот вопрос полным согласием, даже несмотря на то что такой вариант ответа невозможно предугадать исходя из знания их аттитюдов, личностных черт и прочих обстоятельств из числа «мешающих факторов». Необходимо принимать это в расчет, что и делается с помощью понятия, называемого специфической вариативностью.
Надежность умственных тестов
В предыдущем разделе я показал, что отдельно взятый вопрос теста — плохое средство измерения черты и что значительно лучшую оценку ее выраженности можно получить, если мы сложим
оценки, полученные по некоторому количеству вопросов, измеряющих различные аспекты черты. Представим себе, что для измерения определенной черты разработано около 20 вопросов и они предъявляются приблизительно 200 испытуемым. Пока мы допускаем, что все вопросы измеряют одну и ту же черту, а о том, как проверить это допущение и устранить вопросы, которые измеряют ее плохо, мы будем говорить в главе 18. Специализированные компьютерные программы (такие, как операция оценки «надежности» в SPSS) могут быть использованы, чтобы вычислить по этим данным статистическую характеристику, которую различные авторы упоминают как «надежность» теста, «альфа», «коэффициент альфа», «KR-20», «альфа Кронбаха» или «внутренняя согласованность». Деталей того, как вычисляется эта статистика, мы здесь касаться не будем, но их можно найти в большинстве учебников по психометрике. Как вы можете ожидать исходя из прочитанного в предыдущем разделе, на коэффициент альфа влияют два фактора:
• средняя величина корреляции между вопросами теста. Поскольку мы допустили в предыдущем разделе, что различные задания теста подвержены действию разных посторонних факторов, единственная причина, по которой ответы индивидуумов на любую пару заданий должны коррелировать между собой, состоит в том, что оба вопроса измеряют одну и ту же скрытую черту. Поэтому, если все вопросы теста измеряют одну и ту же черту, корреляции между ними будут высокими и положительными (после обработки);
• количество вопросов в шкале. Снова я указываю на то, что общая цель построения шкалы из нескольких вопросов состоит в том, чтобы попытаться устранить действие посторонних факторов. Видимо, легко понять: чем больше вопросов в шкале, тем более вероятно, что все эти посторонние факторы будут устранены. В этом случае может оказаться полезной формула Спирмена — Брауна (имеющаяся в любом стандартном руководстве по психометрике). Она позволяет предсказать, как будет увеличиваться или уменьшаться надежность шкалы, если число вопросов в шкале меняется.
Следует помнить, что надежность теста — это просто статистическая характеристика, которая может быть вычислена на основе любого набора данных (при условии, что выборка составляет не менее 200 испытуемых). Помните также, что ее максимально воз-
20-989
Таблица 13.2 Корреляции между пятью гипотетическими вопросами теста
|
Вопрос 1
|
Вопрос 2
|
Вопрос 3
|
Вопрос 4
|
Вопрос 5
|
Вопрос 1
|
1,0
|
|
|
|
|
Вопрос 2
|
-0,02
|
1,0
|
|
|
|
Вопрос 3
|
0,10
|
0,28
|
1,0
|
|
|
Вопрос 4
|
0,15
|
0,31 .
|
0,24
|
1,0
|
|
Вопрос 5
|
0,12
|
0,25
|
0,27
|
0,36
|
1,0
|
можное значение составляет 1,0 (ее минимальное значение может при определенных обстоятельствах быть меньше 0). Это в высшей степени важно. Для больших тестов квадратный корень из коэффициента альфа представляет очень близкую апроксимацию к корреляции между оценками индивидуумов по определенному интеллектуальному тесту и подлинной оценкой их черты (Nunnally, 1978). Так, коэффициент альфа, равный 0,7, предполагает корреляцию
д/OJ или 0,84, между оценками, полученными по тесту, и подлинными оценками испытуемых, в то время как величина коэффициента альфа, равная 0,9, подразумевает, что корреляция достигает такого высокого значения, как 0,95. Поскольку основная цель использования психологических тестов — попытаться достичь максимально возможного приближения к подлинной оценке черты личности, из этого следует, что тесты должны иметь высокое значение коэффициента альфа.
Широко распространенное эмпирическое правило указывает на то, что тест не должен использоваться, если он имеет коэффициент альфа ниже 0,7, а применять его при принятии важных решений по поводу конкретного индивидуума (например, для оценки необходимости коррекционного обучения) можно только в том случае, если величина коэффициента альфа больше 0,9.
Поделитесь с Вашими друзьями: |