Факторный анализ назначение



Скачать 149.7 Kb.
Дата21.05.2016
Размер149.7 Kb.
ТипГлава
Глава 16

ФАКТОРНЫЙ АНАЛИЗ

НАЗНАЧЕНИЕ

Возникновение и развитие факторного анализа тесно связано с измерени­ями в психологии. Длительное время факторный анализ и воспринимался как математическая модель в психологической теории интеллекта. Лишь начи­ная с 50-х годов XX столетия, одновременно с разработкой математического обоснования факторного анализа, этот метод становится общенаучным. К на­стоящему времени факторный анализ является неотъемлемой частью любой серьезной статистической компьютерной программы и входит в основной инструментарий всех наук, имеющих дело с многопараметрическим описа­нием изучаемых объектов, таких, как социология, экономика, биология, ме­дицина и другие.



Основная идея факторного анализа была сформулирована еще Ф. Гальтоном, ос­новоположником измерений индивидуальных различий. Она сводится к тому, что если несколько признаков, измеренных на группе индивидов, изменяются согла­сованно, то можно предположить существование одной общей причины этой со­вместной изменчивости — фактора как скрытой (латентной), непосредственно не доступной измерению переменной. Далее К. Пирсон в 1901 году выдвигает идею «метода главных осей», а Ч. Спирмен, отстаивая свою однофакторную концепцию интеллекта, разрабатывает математический аппарат для оценки этого фактора, ис­ходя из множества измерений способнос­тей. В своей работе, опубликованной в 1904 году, Ч. Спирмен показал, что если ряд при- знаков попарно коррелируют друг с другом, _ то может быть составлена система линей­ных уравнений, связывающих все эти при­знаки, один общий фактор «общей ода­ренности» и по одному специфическому фактору «специальных способностей» для каждой переменной. В 1930-х годах Л. Тер-

Фактор — скрытая причина согласованной изменчивости наблюдаемых переменных



ЧАСТЬ III. МНОГОМЕРНЫЕ МЕТОДЫ И МОДЕЛИ

ГЛАВА 16. ФАКТОРНЫЙ АНАЛИЗ


стоун впервые предлагает «многофакторный анализ» для описания многочислен­ных измеренных способностей меньшим числом общих факторов интеллекта, яв­ляющихся линейной комбинацией этих исходных способностей. С 1950-х годов, с появлением компьютеров, факторный анализ начинает очень широко использоваться в психологии при разработке тестов, обоснования струк­турных теорий интеллекта и личности. При этом исследователь начинает с множе­ства измеренных эмпирических показателей, которые при помощи факторного анализа группируются по факторам (изучаемым свойствам). Факторы получают интерпретацию по входящим в них переменным, затем отбираются наиболее «ве­сомые» показатели этих факторов, отсеиваются малозначимые переменные, вы­числяются значения факторов для испытуемых и сопоставляются с внешними эм­пирическими показателями изучаемых свойств.

В дальнейшем, по мере развития математического обеспечения факторного анали­за, накопления опыта его использования, прежде всего в психологии, задача фак­торного анализа обобщается. Как общенаучный метод, факторный анализ стано­вится средством для замены набора коррелирующих измерений существенно меньшим числом новых переменных (факторов). При этом основными требовани­ями являются: а) минимальная потеря информации, содержащейся в исходных дан­ных, и б) возможность представления (интерпретации) факторов через исходные переменные.

Таким образом, главная цель факторного анализа — уменьшение размерно­сти исходных данных с целью их экономного описания при условии мини­мальных потерь исходной информации. Результатом факторного анализа является переход от множества исходных переменных к существенно мень­шему числу новых переменных — факторов. Фактор при этом интерпретиру­ется как причина совместной изменчивости нескольких исходных перемен­ных. '

Если исходить из предположения о том, что корреляции могут быть объ­яснены влиянием скрытых причин — факторов, то основное назначение фак­торного анализа — анализ корреляций множества признаков.



ПРИМЕР 16.1

Рассмотрим результаты факторного анализа на простом примере. Предположим, исследователь измерил на выборке из 50 испытуемых 5 показателей интеллекта: счет в уме, продолжение числовых рядов, осведомленность, словарный запас, установ­ление сходства. Все показатели статистически значимо взаимосвязаны на уровне р < 0,05, кроме показателя № 4 с № 1 и 2 (табл. 16.1).



Таблица 16.1 Матрица корреляций пяти показателей интеллекта



Показатели ,

1

2

3

4

" 5

1

Счет в уме

1,00

0,88

0,33

0,23

0,42

2

Числовые ряды

0,88

1,00

0,32

0,24

0,35

3

Осведомленность

0,33

0,32

1,00

0,58

0,58

4

Словарный запас

0,23

.0,24

0,58

1,00

0,54

5

Сходство

0,42

0,35.

0,58

0,54

1,00 ,,

Таблица 16.2 Факторные нагрузки после варимакс-вращения

Исходные переменные

Факторные нагрузки

А2 (общность)

Ъ

Рг

1

0,97

0,20

0,99

2

0,86

0,20

0,78

3

0,18

0,76

0,62

4

0,09

0,74

0,56

5

0,26

0,69

0,55

Собственное значение

1,79

1,70

3,5

Доля дисперсии

0,36

0,34

0,7



Применив факторный анализ, исследователь выделил два фактора. Основной ре­зультат, который подлежит интерпретации исследователем, — таблица факторных нагрузок после варимакс-вращения (табл. 16.2). Не рассматривая пока шаги, при­водящие к этому результату, попытаемся проинтерпретировать полученные данные. В нашем примере по фактору 1 (/",) максимальные нагрузки имеют переменные 1 и 2. Следовательно, фактор 1 и определяется этими переменными. Поскольку перемен­ная 1 — счет в уме, а переменная 2 — продолжение числового ряда, то фактору 1 мо­жет быть присвоено название «арифметические способности», как показателю лег­кости оперирования числовым материалом. Точно так же фактору 2 можно присвоить название «вербальные способности», как показателю словесного понимания. Нетруд­но заметить, что переменные, определяющие фактор, сильнее связаны друг с другом, чем с другими переменными (табл. 16.1). Так, переменные 1 и 2, определяющие фак­тор 1, сильнее связаны друг с другом, чем с переменными 3, 4 и 5. Таким образом, за взаимосвязью пяти исход­ных измерений способностей при помо­щи факторного анализа обнаруживает­ся действие двух латентных переменных (факторов).

Интерпретация фактора через исход­ные переменные



Интерпретация факторов — одна из основных задач факторного анализа. Ее решение заключается в идентификации факторов через исходные пере­менные. Эта идентификация и осуществляется по результатам обработки, представленным в табл. 16.2.

Основное содержание табл. 16.2 — величины ап... а25 — факторные нагруз­ки переменных 1 ... 5 (строки) по факторам 1 и 2 (столбцы). Факторные на­грузки — аналоги коэффициентов корреляции, показывают степень взаимо­связи соответствующих переменных и факторов: чем больше абсолютная величина факторной нагрузки, тем сильнее связь переменной с фактором, тем больше данная переменная обусловлена действием соответствующего фактора. Каждый фактор идентифицируется по тем переменным, с которы­ми он в наибольшей степени связан, то есть по переменным, имеющим по



ЧАСТЬ III. МНОГОМЕРНЫЕ МЕТОДЫ И МОДЕЛИ

этому фактору наибольшие нагрузки. Идентификация фактора заключается, как правило, в присвоении ему имени, обобщающего по смыслу наименова- ния входящих в него переменных.

Если исследователя интересует только структура измеренных признаков,. на этом факторный анализ завершается. Продолжая факторный анализ, ис­следователь далее может вычислить значения факторов для испытуемых, на­пример, с целью их дифференциации по преобладанию арифметических или вербальных способностей.

Выбирая факторный анализ как средство изучения корреляций, исследо­ватель должен отдавать себе отчет в том, что это один из самых сложных и трудоемких методов. Зачастую нет веских оснований предполагать наличие" факторов как скрытых причин изучаемых корреляции, и задача заключается лишь в обнаружении группировок тесно связанных переменных. Тогда целе­сообразнее вместо факторного анализа использовать кластерный анализ кор­реляций (см. главу 19). Помимо простоты, кластерный анализ обладает еще, одним преимуществом: его применение не связано с потерей исходной ин­формации о связях между переменными, что неизбежно при факторном ана-, лизе. И уже после выделения групп тесно связанных переменных можно по­пытаться применить факторный анализ для их объяснения.

Итак, можно сформулировать основные задачи факторного анализа:


  1. Исследование структуры взаимосвязей переменных. В этом случае каж­дая группировка переменных будет определяться фактором, по которому эти переменные имеют максимальные нагрузки.

  2. Идентификация факторов как скрытых (латентных) переменных — при-, чин взаимосвязи исходных переменных.

  3. Вычисление значений факторов для испытуемых как новых, интеграль­ных переменных. При этом число факторов существенно меньше числа исходных переменных. В этом смысле факторный анализ решает задачу со­кращения количества признаков с минимальными потерями исходной ин формации.

ПОСЛЕДОВАТЕЛЬНОСТЬ ФАКТОРНОГО АНАЛИЗА

Особенность факторного анализа заключается в неопределенности реше­ния его основных проблем, изложенных в предыдущем параграфе. Нет чет­ких критериев качества их решения, есть лишь рекомендации, которыми руководствуется исследователь в своем стремлении содержательно интерпре­тировать получаемые результаты. Поэтому факторный анализ — это пошаго­вая процедура, где на каждом шаге исследователь принимает решение о даль­нейших преобразованиях данных. Главным же ориентиром на этом пути остается возможность получения содержательной интерпретации конечных результатов.

Весь процесс факторного анализа можно представить как выполнение шести этапов:


  1. Выбор исходных данных.

  2. Предварительное решение проблемы числа факторов.

  3. Факторизация матрицы интеркорреляций.

  4. Вращение факторов и их предварительная интерпретация.

  5. Принятие решения о качестве факторной структуры.

Исследователь, в зависимости от своих целей, решает, сколько раз повто­рить эту последовательность, какие из этапов будут пропущены и насколько глубоко будет проработан каждый из них. Например, если исследователя ин­тересует только структура взаимосвязей признаков, то достаточно выполнить эту последовательность один раз, без последнего этапа.

Этап 1. Выбор исходных данных

Модель факторного анализа разрабатывалась для метрических данных. Поэтому первое требование к исходным данным — представление всех при­знаков в метрической шкале (не обязательно с одинаковыми средними и дис­персиями).

Включение в анализ порядковых или бинарных данных допустимо, но ис­следователь должен отдавать себе отчет, что искажения факторной структуры при этом будут соответствовать искажениям коэффициентов корреляций, и характер этих искажений неизвестен. В общем случае желательно перейти к единой шкале для всех признаков, либо ранговой, либо бинарной, затем вы­числять матрицу интеркорреляций, выбирая соответствующие меры взаимо­связи. Исследователь потеряет при этом существенную долю исходной ин­формации. А о допустимости дальнейшего вычисления значений факторных коэффициентов и оценок для объектов известно мало. Можно лишь сказать, что достоверность и ценность конечного результата обратно пропорциональ­ны доле потерянной исходной информации.

Если цель факторного анализа заключается только в определении струк­туры взаимосвязей переменных, то допустимо применение порядковых дан­ных, но перед проведением факторного анализа необходимо перейти к ран­гам по каждой переменной. Допустимо также использовать факторный анализ в отношении дихотомических переменных, если задача ограничивается оп­ределением структуры взаимосвязей и дихотомические корреляции между переменными не очень велики (не превышают 0,7)'.

Порядковые и даже дихотомические данные могут использоваться для вычисления оценок факторов, но при условии действительно простой фак­торной структуры, высоких значениях общностей и факторных нагрузок переменных, определяющих каждый фактор (К. Иберла, 1980). При этом же­лательно проверять устойчивость факторной структуры на параллельных вы­борках.

Как и в других многомерных методах, недопустимы функциональные за­висимости между переменными и корреляции, близкие к единице.

Количественное соотношение признаков и объектов зависит от целей исследования. Если цель анализа — изучение структуры взаимосвязей при­знаков, уменьшение их исходного количества путем перехода к новым пере-

1 См.: Факторный, дискриминантный и кластерный анализ / Дж.-О. Ким, Ч. У. Мьюллер, У. Р. Клекка и др. М., 198?. С. 64-65.

ЧАСТЬ III. МНОГОМЕРНЫЕ МЕТОДЫ И МОДЕЛИ

ГЛАВА 16. ФАКТОРНЫЙ АНАЛИЗ


менным — факторам, то строгих ограничений нет. Желательно лишь, чтобы количество признаков было не меньше количества объектов. Если исследо­ватель хочет обнаружить и обосновать наличие факторов за взаимосвязями переменных, то желательно иметь в три раза больше объектов, чем призна­ков. Данное соотношение может сложиться и в процессе анализа — при отсе­ивании мало информативных переменных. Если же стоит задача обоснова­ния выявленной факторной структуры для генеральной совокупности, то объектов должно быть еще больше, для проверки устойчивости этой структу­ры на параллельных выборках.

Этап 2. Решение проблемы числа факторов

На этом этапе матрица интеркорреляций исходных признаков обрабаты­вается с использованием анализа главных компонент. Применяется крите­рий отсеивания Р. Кеттелла и критерий Кайзера — величины собственного значения фактора, большего 1 (Eigenvalue, > 1). Эти критерии не являются жесткими, поэтому далее проверяется несколько гипотез о числе факторов. Начинать при этом рекомендуется с максимально возможного числа факто­ров, с учетом обоих критериев, постепенно уменьшая их число.



Этап 3. Факторизация матрицы интеркорреляций

Выбирается метод факторизации, желательно — главных осей, наимень­ших квадратов или максимального правдоподобия. Задается число факторов, в соответствии с проверяемой гипотезой. Результатом данного этапа являет­ся матрица факторных нагрузок (факторная структура) до вращения, которая не подлежит интерпретации.

Полезной информацией на этом этапе могут являться суммарная доля дис­персии (информативность) факторов и значения общностей переменных. Суммарная доля дисперсии — показатель того, насколько полно выделяемые факторы могут представить данный набор признаков, а этот набор — выделя­емые факторы. Общность переменной — показатель ее «участия» в фактор­ном анализе, насколько она влияет на факторную структуру. Переменные с наименьшими общностями — ближайшие кандидаты на исключение из ана­лиза в дальнейшем.

Этап 4. Вращение факторов и их предварительная интерпретация

На этом этапе выбирается один из аналитических методов вращения фак­торов, обычно — варимакс-вращение (Varimax normalized). Существуют и дру­гие методы вращения, в том числе косоугольного, но они выходят за рамки

нашего рассмотрения. В результате вращения достигается факторная струк­тура, наиболее доступная для интерпретации при данном соотношении пе­ременных и факторов.

Интерпретация факторов производится по таблице факторных нагрузок после вращения в следующем порядке. По каждой переменной (строке) выде­ляется наибольшая по абсолютной величине нагрузка — как доминирующая. Если вторая по величине нагрузка в строке отличается от уже выделенной менее чем на 0,2, то и она выделяется, но как второстепенная. После про­смотра всех строк — переменных, начинают просмотр столбцов — факторов. По каждому фактору выписывают наименования (обозначения) переменных, имеющих наибольшие нагрузки по этому фактору — выделенных на преды­дущем шаге. При этом обязательно учитывается знак факторной нагрузки переменной. Если знак отрицательный, это отмечается как противополож­ный полюс переменной. После такого просмотра всех факторов каждому из них присваивается наименование, обобщающее по смыслу включенные в него переменные. Если трудно подобрать термин из соответствующей теории, до­пускается наименование фактора по имени переменной, имеющей по срав­нению с другими наибольшую нагрузку по этому фактору.



Этап 5. Принятие решения о качестве факторной структуры

Формальное требование к факторной структуре сформулировал Л. Терстоун еще в 1930-х годах, назвав его принципом простой структуры. Геометрически принцип простой структуры означает, что все переменные располагаются на осях факторов, то есть каждая переменная имеет близкие к нулю нагрузки по всем факторам, кроме одного. На практике достижение такого результата с первого раза маловероятно, но качество факторной структуры определяется степенью приближения к простой структуре.

Следует отметить общий принцип соотношения качества факторной струк­туры и качества исходных данных: чем ниже качество исходных данных в смысле требований, предъявляемых к метрическим переменным, тем выше требования к простоте факторной структуры, величине общностей и фактор­ных нагрузок.

В настоящее время не существует формальных критериев соответствия


факторной структуры простой. Поэтому основным критерием остается воз­
можность хорошей содержательной интерпретации каждого фактора по двум
и более исходным переменным. Если перед исследователем стоит дополни­
тельно проблема обоснования устойчивости (воспроизводимости) факторной
структуры в генеральной совокупности, то добавляется требование однознач­-
ного соотнесения каждой переменной с одним из факторов. Это требование
означает, что каждая переменная имеет большую по абсолютной величине
нагрузку (0,7 и выше) только по одному фактору и малые (0,2 и менее) — по
всем остальным. .

ЧАСТЬ III. МНОГОМЕРНЫЕ МЕТОДЫ И МОДЕЛИ

Можно предложить способы максимального приближения к простой структуре путем пошагового сокращения числа факторов и переменных.



  1. Если по результатам интерпретации выявлен фактор, по которому ни одна из переменных не получила максимальной нагрузки (по строке), то это свидетельствует о необходимости сокращения количества факторов на один и повторения этапов 3 и 4 с новым числом факторов. То же касается фактора, идентифицируемого лишь по одной переменной, когда остальные в него не попадают даже с второстепенными нагрузками.

  2. Определяются неоднозначные переменные. Каждая такая переменная имеет примерно одинаковые по абсолютной величине максимальные нагрузки по двум и более факторам. Если обосновывается устойчивость факторной структуры, то неоднозначной является переменная, у которой между макси­мальной и следующей за ней по величине нагрузкой разность менее 0,5. Нео­днозначные переменные поочередно удаляются из числа исходных перемен­ных, и каждый раз повторяются этапы 3 и 4.

Очевидно, что приближение к простой структуре связано с невосполни­мой потерей исходной эмпирической информации. И каждый раз исследо­ватель должен решать, насколько целесообразна эта потеря в свете стоящих перед ним задач. Наиболее жестки требования к простой структуре в случае обоснования устойчивости и воспроизводимости факторов, например, при разработке теста или факторной теоретической модели. Гораздо мягче тре­бования при решении наиболее часто встречающихся задач — при изуче­нии структуры взаимосвязей или при сокращении исходного набора при­знаков для дальнейшего исследования, например, различий между группами объектов.


Поделитесь с Вашими друзьями:


База данных защищена авторским правом ©dogmon.org 2019
обратиться к администрации

    Главная страница