Строка «г с общей оценкой» — это просто корреляции ответов на каждое задание теста с общей оценкой по тесту. Чтобы понять, как они вычислялись, можете проверить одну или две из них.
Корреляции между каждым заданием и общей оценкой настолько тесны, насколько мы можем приблизиться к оценке корреляции между каждым заданием и подлинной оценкой, следовательно, кажется разумным изъять те задания, которые имеют небольшие корреляции с общей оценкой, еще раз тщательно проверив, что каждый аспект черты измеряется определенным заданием, и убедившись, что оставшиеся задания приблизительно поровну распределены по каждому из аспектов. Поэтому, хотя процедура анализа заданий включает удаление тех из них, которые имеют низкую корреляцию с общей оценкой на каждой стадии, это далеко не всегда будет самое низкокоррелирующее задание.
Существует одна явная проблема, возникающая при корреляции заданий с общей оценкой. Она состоит в том, что каждое задание вносит свой вклад в общую оценку, и, значит, мы в известной мере коррелируем его с самим собой. Чтобы обойти эту сложность, мы обычно основываем анализ заданий на «скорригиро-ванных корреляциях "задание х общая оценка"» или же на «откорректированных по Гилфорду корреляциях "задание х общая
оценка"». В данном примере задание 1 будут коррелировать с суммой заданий 2, 3, 4 и 5, задание 2 будут коррелировать с суммой заданий 1, 3, 4 и 5 и т.д. Были предложены и другие методы для вычисления таких поправок, но они имеют психометрические проблемы (Cooper, 1983).
Каждый раз, когда задание изымается, следует подсчитывать надежность теста (альфа). По мере того как убираются задания, имеющие низкие корреляции с общей оценкой, величина альфа будет расти. Если изымается все больше и больше заданий, величина альфа в конце концов начнет падать, поскольку она зависит как от средней корреляции между заданиями, так и от числа заданий в тесте. Конечно, устранение «плохих» заданий увеличивает среднюю корреляцию между оставшимися заданиями, но это также делает тест короче. Задания последовательно удаляются (на основе анализа их скорригированных корреляций в парах «задание х х общая оценка» и аспектов теста, с которыми они связаны по своему происхождению) до тех пор, пока тест не станет коротким, хорошо сбалансированным и высоконадежным.
Одна весьма неприятная особенность этого способа анализа состоит в том, что невозможно просто посмотреть на таблицу скорригированных корреляций заданий и общей оценки и исходя из этого точно решить, какие задания следует изъять. Это происходит потому, что общая оценка каждого человека будет неизбежно меняться каждый раз, когда удаляется задание. Следовательно, решив, какое задание изымать, необходимо заново пересчитывать общие оценки, все корреляции оставшихся заданий с общей оценкой и на каждой стадии пересчитывать коэффициент альфа. Мягко говоря, это утомительно. Однако я написал компьютерную программу на языке Бейсик (внесена в список в работе: Kline, 1986), которая осуществляет такой анализ автоматически. Модернизированную версию для компьютеров системы Эппл Макинтош можно найти с помощью моей страницы в Интернете, сервер Школы психологии в Королевском университете Белфаста (http:// www.psych.qub.ac.uk). С другой стороны, этот анализ может быть относительно свободно выполнен с помощью имеющейся в SPSS процедуры установления надежности.
Задание для самопроверки 18.2
(а) Что может факторный анализ, взятый изолированно, обнаружить в структуре теста?
(б) Почему в классическом анализе заданий необходимо после удаления задания заново пересчитывать все корреляции между каждым заданием и общей оценкой?
(в) Назовите четыре проблемы, связанные с конструированием тестов с помощью критериального принципа.
Следующие шаги
Когда анализ заданий закончен, задача того, кто конструирует тест, все еще далека от завершения. Инструкции (и возможно, бланки для ответов) должны быть отточенными. Примеры заданий должны быть разработаны и проверены; затем переработанный (более короткий и скорее всего более надежный) тест предъявляется другой выборке, состоящей приблизительно из 200 человек, для повторной проверки его надежности и факторной структуры. На этой стадии следует также установить его валидность (например, путем конструктной валидизации, как описано в главе 13). В случае тестов способностей должен быть отмечен объем времени, который требуется испытуемым для выполнения теста, и должно быть принято решение, какие временные ограничения (если они предусмотрены) следует установить. В руководстве по применению теста следует представить результаты этих анализов, инструкции по предъявлению теста, схему обработки и как можно больше доказательств того, что тест надежен и валиден. •
Резюме
В этой главе дано представление о нескольких основополагающих принципах написания заданий как для тестов способностей, так и для личностных тестов. Анализ заданий предлагается рассматривать как процедуру для выделения и изъятия заданий, которые оказываются несоответствующими и которые снижают надежность и/или валидность теста. Обсуждены четыре метода проведения анализа заданий: критериальный подход, факторный анализ, теория сложности заданий и классический анализ заданий. Существенные проблемы были выделены в широко распространенной методике критериального подхода; теория сложности заданий требует специализированных компьютерных программ; поэтому для со-
•
здания коротких; надежных и потенциально валидных шкал рекомендуются факторный анализ и классический анализ заданий.
Предложения
по дополнительному чтению
Книга Галликсена (Gulliksen, 1986) представляет обязательное чтение для любого, кто заинтересован в оценке способностей и достижений в обучении. Книга Клайна Руководство по конструированию теста (Kline, 1986) содержит множество хороших практических советов по поводу целостного процесса разработки и валидизации теста, так же как и книги Моше и Зейднера (Moshe, Zeidner, 1995), а также Спектора (Spector, 1992). Ссылки на специфические методы анализа ответов на задания теста можно найти в главах 14, 15 и 16.
Ответы на задания по самопроверке
18.1. Если тест содержит много очень легких или очень трудных заданий, вы не получите четких различий между индивидуумами в выборке. Черта, которую тест предположительно измеряет, вероятно, нормально распределена (т.е. частотная диаграмма имеет колоколообразную форму). Если ваш тест включает много трудных заданий, он выявит тонкие различия между высокоспособными участниками (которых в выборке относительно мало). Если он включает много очень легких заданий, тест выявит тонкие отличия между участниками с низким уровнем способностей (но таких тоже окажется немного). Обычно у вас есть необходимость провести дифференциацию подавляющего большинства индивидуумов в выборке, и это подразумевает, что у вас имеется много заданий, которые хорошо устанавливают различия в диапазоне от р = 0,2 до р = 0,8, поскольку это именно те задания, которые позволяют видеть различия между большинством испытуемых в выборке.
18.2. (а) Факторный анализ может показать, сколько отдельных конструктов измеряется с помощью набора заданий; другие методы исходит из допущений, что измеряется только один конструкт. Иногда набор заданий может измерять две весьма высококоррелирующих, но различных способности, например, флюидный и кристаллический интеллекты, и действительно, Кэттелл (Cattell, 1971) утверждает, что эти два фактора обнаруживаются, когда используется факторный анализ для исследования тестов, сконструированных с помощью классического анализа заданий.
(б) Каждый раз, когда удаляется задание, общая оценка каждого испытуемого меняется, и поэтому корреляции всех других заданий с общей оценкой также изменятся.
(в) Тест-будет иметь очень низкую (возможно, равную нулю) надежность, так как почти определенно будет измерять сочетание черт. Произвольный выбор критерия для измерения будет сильно влиять на задания, которые образуют тест. Поскольку между заданиями теста и критерием вычисляется очень много корреляций, некоторые из них могут оказаться значимыми чисто случайно. Аналогично этому, часть заданий, которые следуегвклю-чить, не будут включены. Он также практически не имеет теоретических оснований: сконструировав тест, мы не имеем реального понимания того, почему он работает и что он измеряет.
19
ИЗМЕРЕНИЕ
НАСТРОЕНИЯ
И МОТИВАЦИИ
Общая картина
Поскольку главы 13, 14, 15, 16 и 18 были посвящены оценке стабильных черт (таких, как общие способности или экстраверсия), до сих пор не упоминалась оценка состояний — настроения и мотивации. Эта оценка оказывается значительно более сложной, чем, по-видимому, считает большинство создателей тестов, поэтому необходимо рассмотреть основные вопросы измерений, прежде чем продолжать обсуждение теорий настроения и мотивации, описанных в главе 10.
Главы, рекомендуемые
для предварительного чтения
11, 14 и 15.
Эта глава всецело посвящена измерению состояний, В отличие от черт, состояния не являются стабильными, устойчивыми характеристиками индивидуумов — такими, например, как экстраверсия и вербальные способности. Напротив, состояния в высшей степени непостоянны, меняются от часа к часу или от минуты к минуте. Более полное обсуждение подлинной природы состояний дается в главе 10, но существенный момент, который надо иметь в виду, заключается в том, что они изменяются по интенсивности.
Выделяются два основных класса состояний: состояния настроения и мотивационные состояния. Настроения — это хорошо знакомые подъемы эмоций, которые мы ощущаем утром перед эк-
заменом, или любуясь прекрасным закатом, при просмотре волнующего зрелища на сцене или экране или после посещения важного матча, который наша команда выиграла. Некоторые теоретики проводят различия между настроениями и эмоциями, но, как я указывал в другой работе, это опасная практика (Cooper, 1997). Второй основной класс состояний — мотивационные состояния — внутренние ощущения, которые побуждают нас есть, когда мы голодны, проводить часы, занимаясь благотворительной деятельностью, выполняя бескорыстную, добровольную работу, тратить время и деньги в поисках партнера и т.д. В этой главе рассматривается, как можно оценивать указанные два типа состояний и определять шкалы, которые целенаправленно их измеряют.
Должно быть показано, что шкалы, измеряющие настроения, точно так же как и шкалы, измеряющие черты, являются надежными и валидными. Как можно оценить надежность шкалы настроения? Качество, которое совершенно определенно не должно обнаружиться, — это высокая временная стабильность (ретестовая надежность). Поскольку настроение меняется в течение времени, а черты остаются неизменными, в том случае, если обнаруживается, что индивидуумы имеют высокосходные оценки в двух ситуациях, это дает серьезные основания считать, что шкала измеряет какую-либо черту, а не состояние. Однако можно вычислить надежность шкалы состояний по внутренней согласованности, и как должно быть понятно из главы 13, — это в любом случае теоретически более полезное измерение надежности. Таким образом, надежность шкаЯ настроения может быть установлена измерением их внутренней согласованности, так же как и для шкал, измеряющих черты.
Оценка валидности шкал, измеряющих настроение, несколько более проблематична, поскольку состояния (по определению) длятся только короткий период и чувствительны к средовым влияниям; необходимо измерять настроение (или мотивацию) и оценивать его по поведенческому критерию почти в одно и то же время. Не будет большого смысла в том, чтобы измерять настроение (один раз) в понедельник, а затем коррелировать эти оценки с данными критерия, полученными в пятницу, поскольку уровень настроения/мотивации будет почти наверняка другим.
Конструктную валидность шкалы настроений можно было бы, разумеется, оценить, коррелируя оценки однократно измеренных настроения и мотивации с показателями по другим критериям,
29 - 989
таким, как сексуальное поведение, тревога (ранжируемая экспертом) и т.д. Однако с этим подходом связана проблема, поскольку можно спутать настроение (или мотивацию) с личностью. Например, предположим, что выборка включает индивидуумов, которые всегда тревожны (т.е. имеют высокий уровень выраженности черты тревожности или нейротицизма). Любые значимые корреляции между тревогой, определяемой по самооценке (опросники настроений), и тревогой, по оценке эксперта, могут просто доказывать, что утверждения опросника измеряют личностную тревогу. То же самое справедливо и для секса. Некоторые люди всегда склонны проявлять повышенный интерес к сексу, поэтому опросники могут уловить черту вместо состояния.
По этой причине более продуктивным будет провести лонги-тюдное исследование и посмотреть, как настроение и мотиваци-онное состояние варьируют по отношению к собственному базисному уровню каждого индивидуума. Например, оценки по опросникам состояния и определенные поведенческие критерии (или ранги) можно получить у одного человека во многих ситуациях, по ним вычислить корреляции, чтобы определить, имеет ли человек склонность выглядеть более тревожным приблизительно в то же время, когда опросник показывает, что он и чувствует наибольшую тревогу, не слишком обращая внимание на привычный уровень его тревожности как черты.
Можно также установить валидность по содержанию для шкал настроения, поскольку некоторые настроения имеют клиническую окраску — тревога, депрессия и т.д. Например, трудно было бы утверждать, что шкала настроения, которая устанавливает симптомы депрессии в DSM-IV, не была бы валидна. Однако подобный подход значительно более труден для мотивационных состояний.
Несколько сложнее установить прогностическую валидность шкал, измеряющих настроение или мотивацию, так как прогноз предполагает оценку будущего поведения, в то время как по своей природе настроение и мотивы преходящи. Оценки индивидуумов по шкалам, которые измеряют мотивацию и настроение, вряд ли будут в состоянии предсказывать стабильные аспекты будущего поведения, такие, как профессиональный успех или физическое здоровье. Любые исследования прогностической валидности должны выполняться в течение нескольких минут (или в лучшем случае часов), но не месяцев или лет, и об этом говорится в нескольких публикациях.
При просмотре любых публикаций Института Бьюроса обнаруживается, что было разработано весьма озадачивающее количество разнообразных тестов, особенно для оценки настроения. Некоторые из них предназначены для оценки отдельных настроений (например, Опросник тревожности как черты и состояния и Контрольный список прилагательных для оценки депрессии), в то же время такие опросники, как Профиль состояния настроения (POMS) (Lorr, McNair, 1988), Контрольный список прилагательных для оценки настроения (HMACL-4) (Howarth, 1988), Опросник восьми состояний (8SQ) (Curran, Cattell, 1976), Шкала дифференциальных эмоций (DES-III) (Izard etal, 1982), Контрольный список прилагательных для оценки настроения, по Новлису (Nowlis, Nowlis, 1956), Контрольный список прилагательных для оценки настроений (UWIST) (Matthews et al, 1990) и Шкала настроения, по Клайду (Clyde, 1963), претендуют на измерение не-которого числа отдельных состояний настроения. Как обсуждалось в главе 10, существуют надежные доказательства того, что все эти мультишкальные тесты измеряют два обобщенных показателя настроения, известных как позитивный и негативный аффекты (Zevon, Tellegen, 1982; Watson, Tellegen, 1985; Lorr, Wunderlich, 1988; Watson et al, 1988; McConville, Cooper, 1992). Эти шкалы очень широко используются, особенно POMS, привлекающая к себе всеобщий интерес в области психологии спорта.
Четыре проблемы в измерении настроения
Большинство упоминавшихся выше шкал были сконструированы путем предъявления наборов прилагательных группам добровольных испытуемых, к которым обращались с просьбой про-ранжировать, насколько точно каждое из них характеризовало их чувства или поведение в данный момент, а не то, как они обычно себя чувствуют или действуют. Сторонники такого подхода к конструированию шкалы настроения считают, что это достаточная гарантия того, что шкала измеряет состояние, а не черту личности.
29*
Однако почти с каждой из шкал, упоминавшихся выше, возникают проблемы. Во-первых, как правило, совершенно не ясно, как и почему отбирались именно данные прилагательные для включения в каждую шкалу. Нет гарантий того, что это случайная выборка прилагательных, потенциально описывающих настроение, — замечание, сделанное, в частности, Ховартом (Howarth, 1988). Во-вторых, не делается попыток изъять синонимы: многие из этих шкал могут иметь высокую надежность просто потому, что все прилагательные, содержащиеся в них, означают совершенно одни и те же состояния. Если кто-либо утверждает, что чувствует себя «взволнованным», он обязан также сказать, что он чувствует себя «обеспокоенным», поскольку эти два слова означают одно и то же. Вы можете вспомнить, что, когда мы изучали, как факторный анализ используется для обнаружения основных характеристик способностей и личности, ключевым требованием было, чтобы факторный анализ выделял, по существу, не ожидаемые корреляции между группами переменных. Например, если мы подвергаем факторному анализу ответы на вопросы, касающиеся раннего пробуждения, чувства депрессии, изменения в привычках питания, степени когнитивных нарушений, изменений сексуальной активности и т.д., мы должны обнаружить факторные нагрузки по всем этим переменным, поскольку все они могут быть симптомами депрессии («исходная черта»). Однако, с точки зрения логики, они совсем не обязаны группироваться вместе. Например, не существует физиологической, семантической или психологической причины, по которой раннее пробуждение должно быть связано с изменениями в привычках питания. Обнаружение того факта, что группа заданий неожиданно варьирует совместно, это именно то, что позволяет нам предположить присутствие некоторой исходной черты. Нам не следует (благоразумно) искать проявления какой-либо исходной черты там, где задания должны формировать фактор просто потому, что они синонимичны, но это не останавливает большинство теоретиков от такого рода действий.
В-третьих, этот метод конструирования шкал настроений (факторизация корреляций между заданиями на основе однократного предъявления теста большой группе людей) представляет собой совершенно такой же прием, который использовался при нахождении личностных черт. Поэтому можем ли мы когда-либо вообще быть уверены в том, что эти шкалы измеряют состояния настроения? Наивное предположение, что измеряется «состояние», толь-
ко потому, что инструкция просит испытуемых описать свои чувства «в данный момент», не кажется особенно научным. Во всяком случае имеются лучшие способы конструирования шкал настроений, и они будут обсуждаться в следующем разделе.
Последнее обстоятельство, вызывающее мое беспокойство, связано с условиями, при которых обычно предъявляются опросники, и с влиянием продолжительности тестирования на характер выполнения заданий. Предполагается, что настроение исключительно чувствительно к условиям среды, поэтому условия, в которых испытуемые заполняют опросники, по-видимому, влияют на получаемые оценки, и это в свою очередь будет влиять на число и природу извлекаемых факторов настроения. Поэтому обращение к большой группе студентов с просьбой заполнить опросники настроений кажется весьма недальновидным — трудно вообразить, что кто-либо мог чувствовать себя испуганным, жизнерадостным, оживленным или возбужденным, например, сидя в учебной аудитории, с трудом пробираясь через опросник, содержащий сотни заданий, ради получения зачета по курсу. Следовательно, в том, как отвечают на такие задания испытуемые, будет обнаружено лишь небольшое число индивидуальных различий, поэтому задания не будут формировать факторы. Однако, если тест предъявлялся в более естественных условиях, вполне возможно, что в ответах на задания такого типа индивидуальные различия будут обнаружены и выявятся факторы. Весьма вероятно, что предъявление опросников в таких условиях не сможет обнаружить некоторые важные настроения, которые должны были выявиться, если бы тот же самый опросник заполнялся в случайно выбранных ситуациях повседневной жизни людей.
Задание для самопроверки 19-1
Опишите четыре проблемы традиционных шкал настроения.
Обнаружение основных параметров настроения, таким образом, — запутанная проблема, и существует мало надежных доказательств, что мы приблизились к ее разрешению. Большинство попыток сделать это оказались безуспешными по любой из четырех причин, упоминавшихся выше, и при детальном исследовании этих шкал нередко возникают аномалии. Например, Опросник восьми состояний, разработанный Каррэном и Кэттеллом,
предположительно, измеряет восемь совершенно разных настроений, тем не менее корреляции между некоторыми шкалами составляют приблизительно 0,7—0,8, если принимается в расчет их надежность (Matthews, 1983). То же самое справедливо для Шкалы Ховарта (Howa'rth, Young, 1986). Сказанное дает основание полагать, что конвергентная валидность некоторых из этих шкал весьма сомнительна. Здесь не место исследовать психометрические свойства всех этих шкал в деталях, но даже при самом внимательном прочтении тестовых руководств и опубликованной литературы часто не удается обнаружить достаточно много убедительных доказательств их валидности. Тем не менее в следующем разделе мы рассмотрим метод конструирования шкалы, который гарантирует, что она будет измерять состояние настроения, а не черту, устраняя тем самым одну из главных проблем, очерченных выше.
Ключевая характеристика; которая отделяет настроение от личностных черт, состоит в том, что настроение изменяется во времени, тогда как личностные черты остаются более или менее постоянными. Это основополагающее различие может быть использовано при конструировании шкал, в отношении которых можно показать, что они измеряют настроение, а не личность. Рассмотрим, например, опросник, состоящий из пяти утверждений, представленный в табл. 19.1.
Предположим, что одного человека просят ответить на утверждения, указанные в табл. 19.1, в нескольких ситуациях. Например, представим себе, что испытуемый заполнял этот опросник из четырех пунктов в одно и то же время суток последовательно в течение 20 дней. Рисуя графики, в значительной степени похожие на те, которые изображены на рис. 19.1, можно показать, как ответы меняются день ото дня. (Я произвольно решил поместить ежедневные ответы на утверждения (а) и (Ь) на первый график, а ежедневные ответы на утверждения (с), (d) и (е) на второй график, поскольку нанесение всех пяти вариантов на один и тот же график мешало их восприятию.) Из графиков такого типа можно узнать довольно много о структуре настроений.
Например, ясно, что ответы на утверждения (а) и (Ь) обнаруживают тенденцию изменяться (возрастать и убывать) параллель-
Таблица 19.1 • Пять утверждений из гипотетического опросника
|
Полностью
согласен
|
Согласен
|
Нейтральное
отношение
|
Не
согласен
|
Полностью не согласен
|
|
|
|
Ч
|
2
|
1
|
(а) В данный момент
|
|
|
J
|
|
|
я чувствую себя
|
|
|
|
|
|
достаточно бодрым
|
|
|
|
|
|
(Ь) Мне легко сосре-
|
5
|
4
|
3
|
2
|
1
|
доточиться
|
|
|
|
|
|
|
|
|
•t
|
2
|
1
|
(с) Мое сердце силь-
|
5
|
|
j
|
|
|
но бьется
|
|
|
|
|
|
|
|
|
7
|
2
|
1
|
(d) Я обеспокоен
|
5
|
|
J
|
|
|
больше чем обычно
|
|
|
|
|
|
(е) Как правило, я
|
5
|
4
|
3
|
2
|
1
|
предпочитаю одино-
|
|
|
|
|
|
чество обществу дру-
|
|
|
|
|
|
гих людей
|
|
|
|
|
|
Поделитесь с Вашими друзьями: |