П лан с предварительным и итоговым тестированием на одной группе. Снова взяв за основу план с итоговым тестированием на одной группе, посмотрите, что получится, если мы также проведем с этой группой предварительное тестирование. Этот план имеет следующий вид (3):
(3)
Этот план широко используется в прикладных полевых исследованиях и представляет собой улучшение плана для неэквивалентных групп с точки зрения отбора. Очевидно, что для обоих наблюдений отбирают одних и тех же участников (внутригрупповой план). Однако за это улучшение нам приходится платить определенную цену, поскольку нас могут подстерегать другие угрозы внутренней валидности.
Возвращаясь, например, к Холокосту, какое влияние, на ваш взгляд, окажет предварительное тестирование (в котором спрашивают о том, знают ли люди об этом событии) на завершающее тестирование, оценивающее осведомленность о событии? Вы можете видеть, что в этом случае угрозой является само предварительное тестирование (...). Если мы решили минимизировать проблемы тестирования, проведя предварительный тест задолго до воздействия — скажем, за год до него, — мы можем столкнуться с другими угрозами. Против нас может сыграть фон: осведомленность группы способна изменить какое-то иное, связанное с Холокостом событие, помимо телепередачи, например арест военного преступника. Или же, особенно если наши участники — школьники, может оказать влияние созревание (изменения, связанные с временем). Таким образом, хотя план с предварительным тестированием может решить проблему отбора, при интерпретации необходимо проявлять крайнюю осторожность из-за других угроз внутренней валидности.
Корнилова Т.М.: "Этот план также находит широкое применение в педагогических и психологических исследованиях. Он лучше рассмотренного ранее плана, так как учитывает величину изменения зависимой переменной от первого ко второму измерению, т.е. имеет место контроль ЗП на уровнях «до» и «после» воздействия (схема О'ХО"). Достоверность выводов и при таком плане очень мала. Укажем некоторые причины.
Нет возможности развести факторы «фон» и «естественное развитие» от влияния собственно экспериментального воздействия.
Допустим, в качестве экспериментального фактора продолжает рассматриваться новый метод обучения. Показатели академической успеваемости изменяются к концу семестра (и началу экзаменационной сессии) сразу по нескольким причинам. Кроме воздействия обучения, вмешиваются побочные переменные. Так, «тревожность» как пример фактора «фон» обычно возрастает у студентов к началу экзаменационной сессии. Возможно, именно это является причиной больших усилий студентов в учебном процессе, а не воздействие нового метода обучения. В результате повышение показателей эффективности учения к концу семестра «естественно» и без эффекта введения нового метода.
К переменным фона может быть отнесена также переменная, называемая «экспериментальная изоляция». Например, в качестве экспериментальной исследуется группа в учреждении, пансионате и т.п. Члены этой группы оказываются вне влияний со стороны общения с другими аналогичными выборками – коллег, сверстников из других групп и т.п. Понятно, что в таких условиях возможно изменение установок, развитие (или даже искажение) мотивации учения и работы, т.е. появляются источники конкурирующих гипотез относительно причин изменений ЗП (О-измерений).
К факторам естественного развития относятся все те процессы (психического, экономического, социального и биологического характера), которые систематически изменяются независимо от конкретных внешних событий, просто с течением времени.
Так, испытуемые от момента измерения О' к измерению О" могли стать старше, устать, подвергнуться каким-то социальным воздействиям, в качестве которых выступают изменения в обществе. Наконец, ситуация в стране могла измениться так, что «естественно» изменилось отношение людей к тем или иным аспектам реальности или к собственной деятельности.
Далее, при такой схеме нет возможности оценить «эффект тестирования». Хорошо известно, что при тестировании, например, интеллекта или уровня знаний повторное проведение теста, пусть и по другой, альтернативной форме, вызывает эффект тренировки.
Неучаствовавшие ранее в процедуре тестирования люди обычно показывают худшие результаты по тестам, чем уже получившие опыт знакомства с тестированием. Возможен и обратный эффект. Например, при тестировании предубежденности по отношению к национальным меньшинствам повторное измерение может продемонстрировать большую величину эффекта, чем он есть в действительности. На результаты оказывает влияние повышение осведомленности людей (в группе, популяции) относительно «желаемого», т.е. ожидаемого от них, эффекта. При анонимных опросниках это может быть связано, в частности, с тем, что в суждениях, выражающих враждебность или отрицательное отношение, испытуемые изменяют свои представления, принимая установку большей враждебности. Этот факт, кстати, полностью применим и к обоснованию неадекватности опросников, выясняющих отношение к преподавателю, если в анкету заведомо включаются «отрицательные» шкалы.
«Реактивность» испытуемых – еще одно конкурирующее объяснение при исследованиях по плану О'ХО". Так, сама по себе процедура измерения переменных может выступать стимулом для изменения поведения, оценок или мыслей студентов.
Группа, подвергнутая тестированию, может начать демонстрировать иные формы поведения в силу возникновения у ее членов новых установок, связанных с реакцией на него. Известно, например, что появление в классе наблюдателя само по себе может изменить стиль общения преподавателя с учащимися. Для экспериментальных ситуаций эффекты реактивности принимают форму эффектов экспериментатора...". (Корнилова Т.В.)
Три рассмотренные плана называют неэкспериментальными, поскольку когда они используются, нет возможности оценить многие из угроз внутренней валидности. Планы, обсуждаемые ниже, называют квазиэкспериментальными, поскольку, хотя они не отвечают строгим требованиям базовой экспериментальной модели, мы обычно можем оценить большую часть угроз.
План с неэквивалентной контрольной группой, с предварительным и итоговым тестированием. В первом типе плана используется, кроме экспериментальной группы, неэквивалентная контрольная группа, не подвергаемая воздействию. С каждой группой проводятся и предварительный, и итоговый тесты. Этот план обозначают следующим образом (4):
(4)
Этот план наиболее широко используется в полевых исследованиях в социальных науках. Он позволяет нам оценить большинство явных угроз внутренней валидности.
В какой степени нам следует побеспокоиться о тех или иных угрозах, зависит в некоторой степени от исхода конкретного эксперимента. Если в результатах, показанных двумя группами в предварительном тесте, нет существенных различий, мы можем иметь определенную уверенность в том, что группы относительно эквивалентны и возможность угрозы со стороны отбора минимизирована. Если показатели контрольной группы одинаковы и в предварительном, и в итоговом тестах, минимизированы угрозы со стороны фона и созревания. Поскольку с обеими группами проводят один и тот же тест, различия во влиянии самого тестирования должны также быть минимальными. Если из двух групп между предварительным и итоговым тестированием выбывает различное число участников, проблемой может быть отсев участников. Однако план позволяет оценить эту угрозу, поскольку в предварительном тестировании мы получили информацию о выбывших участниках. Наиболее серьезная потенциальная проблема при использовании плана этого типа — наличие угрозы, которая взаимодействует с отбором групп. Опять же, если две группы показывают одинаковые результаты в предварительном тесте, угроза взаимодействия с отбором уменьшается, но все-таки возможна. Например, если школа А подвергается определенному воздействию, а школа Б — нет, в школе А при этом может работать новый директор, который требует от учителей выполнения новых стандартов. Это взаимодействие фон-отбор может являться угрозой для наших заключений.
Мы должны еще больше побеспокоиться о взаимодействиях с отбором, когда две группы имеют совершенно разные показатели предварительного тестирования. Например, предположим, что мы хотим определить, повышает ли производительность труда сдельная форма оплаты работников, занятых на сборочном конвейере. Нам нужны добровольцы, которые будут иметь более низкий оклад, но будут получать надбавку за сдельную (поштучную) работу. Предварительное тестирование показало, что добровольцы работают более производительно, но мы полагаем, что можем сравнить величину этого первичного различия с величиной различия при итоговом тестировании. Действительно, при итоговом тестировании различие стало еще более заметным. Обе группы повысили свою производительность, но группа сдельщиков повысила ее в большей степени. Мы заключаем, что сдельная оплата повышает производительность. Правы ли мы?
Поскольку предварительное тестирование показало различие в производительности, добровольцы в экспериментальной группе не только могли быть лучше на тот момент, но могли также «созревать» (научаться, приобретать опыт) более быстрыми темпами. Работники редко отличаются стабильностью, и мы знаем, что не отличались ею и эти работники, так как даже контрольная группа улучшила свои показатели. Когда прогрессируют все, мы не должны удивляться, что более умелые работники прогрессируют быстрее. Базовый план не позволяет нам определить величину этого потенциального взаимодействия созревание—отбор. Мы можем разделить экспериментальную группу (подвергающуюся воздействию) по результатам предварительного тестирования, чтобы получить некоторое представление об эффекте. То есть мы ожидаем, что менее способные работники из экспериментальной группы будут прогрессировать медленнее, чем более способные. Однако тогда мы будем иметь иной план. Суть здесь в том, что даже когда вы используете план с неэквивалентной контрольной группой и предварительным и итоговым тестированием, ваши результаты все равно могут подвергаться угрозам, подобным взаимодействию с отбором.
Варианты. Иногда, когда невозможно или нецелесообразно использовать один и тот же тест во время предварительного и итогового тестирования, применяют замещающее предварительное тестирование. То есть предварительное тестирование измеряет некоторую переменную или переменные, которые должны коррелировать с данными итогового тестирования. Например, если вы желаете оценить эффекты какого-то нового метода преподавания алгебры, то можете применить в одном классе новый метод, а второй класс учить по традиционной методике. Вместо того чтобы проводить предварительный тест, оценивающий успехи в алгебре, с классами, которым еще предстоит изучать алгебру, вы можете предложить им замещающий предварительный тест, оценивающий общие математические способности.
Замещающий предварительный тест можно использовать, если невозможно провести предварительное тестирование, например, когда экспериментальное воздействие состоит из какого-то непредсказуемого фонового события, влияющего на часть совокупности. Или же, когда все-таки возможно провести предварительный тест, тестирование может являться угрозой внутренней валидности, и замещающее тестирование можно проводить для того, чтобы не использовать тест, который будет применен в качестве итогового. В других случаях, когда формируется новое поведение, использование того же самого теста в качестве и предварительного, и итогового может оказаться бессмысленным. Например, едва ли разумно проводить итоговый экзамен по курсу общей психологии в двух учебных группах, прежде чем они прослушают этот курс.
Если угрозой является тестирование, мы можем использовать независимые выборки (т.е. разные группы испытуемых) для предварительного и итогового тестирования. Вместо того чтобы для каждой группы проводить и предварительный, и завершающий тесты на одних и тех же участниках, мы получаем по две подвыборки для каждой группы, одну — для предварительного теста, а другую — для итогового. Например, если какую-то образовательную программу вводят в одном классе, но не в другом, два класса можно разделить случайным образом, так что с одной половиной каждого класса будут проводить предварительный тест, а с другой половиной — позже итоговый. Очевидным недостатком этого варианта плана является то, что он полностью зависит от возможности сравнения подгрупп предварительного и итогового тестирования. Если вы считаете, что группы могут различаться по какому-то параметру, связанному с воздействием, тогда план имеет значительные изъяны.
Другой способ усовершенствования базового типа плана с неэквивалентной контрольной группой и предварительным и итоговым тестированием — более чем однократное предварительное тестирование (5):
(5)
это план с измерением исходного уровня. Если второе предтестовое измерение отличается от первого, то можно ожидать, что послетестовое измерение также будет отличаться от него даже при отсутствии Х. Если же дотестовые измерения не отличаются, то можно с уверенностью считать, что послетестовое изменение произошло в результате Х. Можно производить дополнительные измерения после воздействия. Это позволит судить о последействии программы, о том, как ослабляется её эффект, или же о задержке в появлении эффекта.
Добавление одного или нескольких предварительных тестов может помочь нам оценить эффекты двух возможных угроз. Вспомним наше обсуждение того, как «способные становятся еще более способными» и как это обстоятельство может привести к взаимодействию созревание—отбор? Если бы мы провели еще более ранний предварительный тест, то могли бы определить, соответствуют ли результаты этого теста тренду для каждой группы. Если они соответствуют, у нас есть веские основания заключить, что различие в завершающем тесте вызвано взаимодействием созревание—отбор, а не экспериментальным воздействием. То есть два предварительных теста обозначили бы тренд созревания, а итоги завершающего тестирования можно было бы интерпретировать всего лишь как продолжение этого тренда (Рис.).
Планы временных серий.
Второй основной класс квазиэкспериментальных планов называют планами временных серий. Исходный тип плана временных серий требует, чтобы одиночную группу наблюдали множество раз до экспериментального воздействия, а затем множество раз после воздействия. Обозначение одного из таких планов выглядит следующим образом (6):
О1 О2 О3 О4 О5 Х О6 О7 О8 О9 О10 (6)
Исходом, который легче всего интерпретировать для плана подобного типа, является скачкообразный переход горизонтальной линии на новый уровень. Например, если мы вводим новую систему оплаты труда для работников и обнаруживаем немедленное 10% увеличение производительности, причем это изменение сохраняется в течение всего времени исследования, то можем быть вполне уверены в том, что изменение вызвано новой системой оплаты. Однако даже при этом идеальном исходе нам по прежнему необходимо помнить о возможных угрозах, таких как фон или созревание. С экспериментальным воздействием могло совпасть какое-то фоновое событие (слух о возможной премии). Также возможно, но, скорее всего, маловероятно, что именно в то самое время, когда производилось воздействие, какое-то неизвестное событие привело к тому, что ряд плохо работающих или отрицательно влияющих на коллектив участников выбыл из исследования.
Используя планы временных серий, можно устранить или оценить и другие потенциальные угрозы внутренней валидности. Например, перестают быть проблемами отбор и взаимодействия с отбором, поскольку на протяжении всего эксперимента используют одну и ту же группу. Любые эффекты тестирования должны исчезнуть до начала экспериментального воздействия. Как правило, мы должны также суметь устранить проблему созревания (естественного развития), поскольку эффекты созревания обычно проявляются медленно; следовательно, мы ожидали бы увидеть тренд, а не дискретное изменение.
Когда изменение зависимой переменной отсрочено, носит временный характер или отражено в наклоне возрастающего или убывающего тренда, а не в общем уровне горизонтальной линии (т.е. её дискретным скачком), мы обычно делаем свое заключение с меньшей уверенностью. В этом случае мы иногда можем выявить эффекты воздействия с помощью более сложных статистических приемов.
Варианты. Как и в случае плана первого типа, возможны варианты простого плана временной серии. Один из вариантов, который увеличивает обоснованность выводов, — добавление во временную серию неэквивалентной контрольной группы, не подвергающейся воздействию. То есть вторую неэквивалентную группу оценивают на каждом интервале наблюдения, но экспериментальное воздействие на нее не производится. Контрольная группа позволяет нам оценивать эффекты фона как угрозу валидности, поскольку фоновое событие, вероятно, повлияет на обе группы одинаковым образом. Если две группы отбирают различным образом, может иметь место взаимодействие фон-отбор. Однако эта угроза превращается в проблему лишь в том маловероятном случае, когда какое-то уникальное фоновое событие совпадает с моментом воздействия и только для экспериментальной группы.
Когда ожидается, что эффекты воздействия будут обратимыми, можно использовать временную серию с устранением воздействия. После того как исходный план завершен, воздействие устраняется и производится еще один ряд наблюдений. Фактически этот план представляет собой частично совпадающую комбинацию двух исходных планов временных серий, в одной серии главным условием является наличие воздействия, а в другой — его отсутствие. Вы можете добавлять или устранять воздействие столько раз, сколько раз вы хотите повторить результат. Каждое повторение повышает вашу уверенность в причинном эффекте воздействия.
Еще один способ включения в план повторений — использовать неэквивалентные группы, но оказывать воздействие па разных этапах серии наблюдений для двух групп. Подобный план называют временными сериями с чередованием повторений. Этот план дает возможность нейтрализовать или учесть большинство источников угроз внутренней валидности, например фон и созревание. При этом, благодаря тому что включенные в план повторения производятся на выборке из другой совокупности, план повышает внешнюю валидность результата эксперимента. В табл. 10.2 сведены планы временных серий.
Можно применять или прекращать воздействия несколько раз на протяжении
(7)
длительного периода: этот план (7) особенно эффективен против "исторической" угрозы, так как при повторении программы маловероятно, что результат воздействия будет зависеть от какого-либо уникального случая.
Несколько уровней воздействия (8):
(8)
При изучении действия лекарства на поведение можно применять постепенно увеличивающиеся дозы. Здесь не указаны типы групп; это значит, что можно применять любой тип. Это типичная стратегия исследования "чувствительности" методики (или параметрического иссследования), когда основное внимание уделяется одному из эффектов, вызванных разными уровнями воздействий. Если Х1 и Х2 – разные или даже противоположные методики (обучения), для каждой из которых берётся отдельная группа испытуемых, то этот план позволяет судить о том, что применённые измерения достаточно чувствительны для того, чтобы провести разграничение между двумя разными методиками.
ТАБЛИЦА 10.2
Способы реализации различных планов временных серий. Заметьте, что участники распределялись в группы 1, 2 иЗ случайным образом и, следовательно, эти группы считаются неэквивалентными.
Момент 1
|
Момент 2
|
Момент3
|
Момент 4
|
Момент 5
|
Момент 6
|
Момент 7
|
|
|
Исходный план временных серий
|
|
|
|
Тест
|
Тест
|
Тест
|
Воздействие
|
Тест
|
Тест
|
Тест
|
группы 1
|
группы 1
|
группы 1
|
|
группы 1
|
группы 1
|
группы 1
|
|
С добавлением неэквивалентной контрольной группы, не подвергающейся воздействию
|
|
Тест
|
Тест
|
Тест
|
Воздействие
|
Тест
|
Тест
|
Тест
|
группы 1
|
группы 1
|
группы 1
|
|
группы 1
|
группы 1
|
группы 1
|
Тест
|
Тест
|
Тест
|
Отсутствие
|
Тест
|
Тест
|
Тест
|
группы 2
|
группы 2
|
группы 2
|
воздействия
|
группы 2
|
группы 2
|
группы 2
|
|
|
С устранением воздействия
|
|
|
|
Тест
|
Тест
|
Воздействие
|
Тест
|
Тест
|
Устранение
|
Тест
|
группы 1
|
группы 1
|
|
группы 1
|
группы 1
|
воздействия
|
группы 1
|
|
|
С чередованием повторений
|
|
|
|
Тест
|
Воздействие
|
Тест
|
Тест
|
Тест
|
Тест
|
Тест
|
группы 1
|
группы 1
|
группы 1
|
группы 1
|
группы 1
|
группы 1
|
|
Тест
|
Тест
|
Тест
|
Воздействие
|
Тест
|
Тест
|
Тест
|
группы 2
|
группы 2
|
группы 2
|
|
группы 2
|
группы 2
|
группы 2
|
Тест
|
Тест
|
Тест
|
Тест
|
Тест
|
Воздействие
|
Тест
|
группы 3
|
группы 3
|
группы 3
|
группы 3
|
группы 3
|
|
группы 3
|
Расширение наблюдений за счёт применения разнообразных методик измерения. Применение нескольких адекватных для данных воздействий методик повышает надёжность каузального вывода.
Другой путь расширения наблюдений – использование проксиизмерений: если нужно оценить эффективность новой программы обучения, но предварительные измерения не сделаны, то можно использовать данные стандартного теста достижений, полученные в посттестовый период, и сравнить их со среднесеместровыми средними оценками, полученными учащимся до введения новой методики. При отсутствии информации о предтестовом периоде можно попросить испытуемых вспомнить, что они чувствовали и как вели себя в этот период, и эту информацию использовать для предтестовых оценок. Хотя достоинство разных методик неодинаково, но всё же лучше не полагаться только на одну методику измерения.
Применение разных групп испытуемых как средство повышения надёжности данных эксперимента.
(9)
Пусть в этом плане (9) две группы R набираются из лиц, работающих в одном учреждении, а воздействия применяются для каждой группы в разное время. Тогда общение между участниками разных групп может очень навредить строгости каузального вывода. В этом случае нужно создать ещё одну неэквивалентную группу (из другого учреждения), которая не могла бы общаться с остальными участниками (10):
(10)
Поделитесь с Вашими друзьями: |