Articles

Analiza czynnikowa

3.2 Łagodne wprowadzenie do analizy czynnikowej

Gdy badacz zmierzył wiele zmiennych, które wykazują pewne istotne korelacje ze sobą, użyteczne może być zredukowanie liczby zmiennych poprzez sklasyfikowanie ich w grupy według korelacji. Jednakże, kiedy liczba zmiennych jest duża, a wzór korelacji między nimi jest złożony, nie jest łatwo zobaczyć, które zmienne powinny być połączone w grupę. W tym celu stosuje się statystyczną technikę analizy czynnikowej. Analiza czynnikowa pozwala badaczowi zredukować wiele specyficznych cech do kilku bardziej ogólnych „czynników” lub grup cech, z których każda obejmuje kilka specyficznych cech.

Analiza czynnikowa może być stosowana z wieloma rodzajami zmiennych, nie tylko z cechami osobowości. Rozważmy następujący przykład analizy czynnikowej. Załóżmy, że namówiłem kilkuset moich wysportowanych, zdrowych, młodych osobowościowo studentów, aby przebrali się w stroje gimnastyczne i wykonali baterię testów fizycznych. Oto zmienne, na których moi studenci mają być mierzeni:

skok pionowy (wysokość skoku z pozycji kucznej)

40-jardowy bieg (czas sprintu na 40 jardów, czyli 36.5 metrów)

Skok trójskoczkowy stojąc (odległość hop, krok, skok ze startu stojącego)

12-minutowy bieg (dystans przebiegnięty w ciągu 12 minut)

2-kilometrowy rząd (czas wiosłowania 2 kilometry, lub 1.25 mil, na maszynie wioślarskiej)

20-minutowy cykl (dystans przejechany w ciągu 20 minut na standardowym rowerze treningowym)

procent włókien mięśniowych o szybkim splocie (z próbki tkanki pobranej z uda)

procent tkanki tłuszczowej (mierzony suwmiarką fałdu skórnego)

Teraz załóżmy, że zmierzyłem moich uczniów na tych zmiennych. Korelacje między tymi zmiennymi są pokazane w tabeli 3-1. (Zauważ, że wszystkie te dane są sztuczne. Tak naprawdę nie zmierzyłem nikogo pod kątem tych zmiennych, więc te korelacje są wymyślone na potrzeby tego przykładu. Ale korelacje prawdopodobnie nie są zbyt odległe od tego, co można by znaleźć w prawdziwym życiu.)

Tabela 3-1. Korelacje między sprawnością fizyczną a pomiarami fizjologicznymi

Zmienne VJ Kreska TJ Run Row Cycle Type Fat
Wysokość skoku pionowego (VJ) 1.00
Czas 40-jardowego (36-metrowego) biegu na kreskę (Dash) -.52 1.00
Odległość trójskoku na stojąco (TJ) .56 -.60 1.00
Dystans biegu 12-minutowego (Run) .00 .01 .00 1.00
2-kilometrowy (1.25-mile) czas wiosłowania (Row) -.01 .00 .01 -.54 1.00
20-minutowy dystans rowerowy (Cycle) .00 -.01 .00 .58 -.50 1.00
Odsetek włókien mięśniowych typu fast-twitch (Type) .30 -.26 .22 -.29 .25 -.21 1.00
Procentowa zawartość tłuszczu w organizmie (Fat) -.20 -.28 -.24 -.21 -.25 -.29 .00 1.00

To są hipotetyczne (wyimaginowane) dane.

Macierz korelacji w tabeli 3-1 pokazuje, jak każda zmienna korelowała z każdą inną zmienną. Szukając nazwy jednej zmiennej na górze, a drugiej zmiennej na dole, a następnie znajdując komórkę, w której spotykają się kolumna jednej zmiennej i wiersz drugiej zmiennej, można zobaczyć korelację między tymi dwiema zmiennymi. (Jeśli komórka jest pusta, po prostu zamień miejscami dwie zmienne; ja wypełniłem tylko jedną połowę macierzy, ponieważ korelacja A z B jest taka sama jak korelacja B z A. Na przekątnych wstawiłem 1.00, ponieważ korelacja każdej zmiennej z samą sobą wynosi 1.00.)

Zauważ w Tabeli 3-1, że istnieją dość silne korelacje pomiędzy pierwszymi trzema zmiennymi. Skok pionowy i trójskok na stojąco wykazują silną dodatnią korelację ze sobą, a czas 40-jardowego skoku na kreskę koreluje ujemnie z obiema zmiennymi. Najwyraźniej zdolność do skoku wzwyż i zdolność do skoku w przód są ze sobą powiązane, a obie są związane z umiejętnością szybkiego sprintu. Zauważ, że korelacje skoków z 40-jardową kreską są ujemne, ponieważ ludzie, którym zajęło dużo czasu sprint na 40 jardów, nie skakali bardzo wysoko ani bardzo daleko.

Zauważ również, że istnieją dość silne korelacje między drugimi trzema zmiennymi. Dystans 12-minutowego biegu i dystans 20-minutowego cyklu są dodatnio skorelowane ze sobą, a ujemnie z czasem 2-kilometrowego wiosłowania. Najwyraźniej zdolność do biegania na długim dystansie i do jazdy na rowerze na długim dystansie są ze sobą powiązane, a obie są powiązane z umiejętnością wiosłowania na długim dystansie. Zauważ, że korelacje dystansów biegu i cyklu z czasem wiosłowania są ujemne, ponieważ ludzie, którzy zajęli dużo czasu, aby wiosłować 2 kilometry nie biegali lub nie jeździli na rowerze bardzo daleko.

W odniesieniu do tych dwóch grup trzech zmiennych, zauważ, że korelacje w obu grupach są dość słabe. Korelacje skoku pionowego, 40-jardowego czasu sprintu i stojącego trójskoku z 12-minutowym biegiem, 2-kilometrowym rzędem i 20-minutowym cyklem są bliskie zeru. To wskazuje, że wydajność osoby na pierwszych trzech testów nie daje nam żadnych wskazówek, jak ta osoba będzie wykonywać na drugim trzech testów, i vice versa.

Teraz rozważmy ostatnie dwie zmienne. Po pierwsze, procent włókien mięśniowych szybkosprzężonych wykazuje pewne skromne korelacje z pierwszymi trzema zmiennymi (dodatnie ze skokiem pionowym, ujemne z czasem sprintu 40-jardowego i dodatnie z trójskokiem na stojąco), a także z drugimi trzema zmiennymi (ujemne z dystansem biegu 12-minutowego, dodatnie z czasem wiosłowania 2-kilometrowego i ujemne z dystansem roweru 20-minutowego). Wyniki te wskazują, że ludzie z wyższym odsetkiem mięśni szybkorozciągliwych mają tendencję do stosunkowo dobrze w pierwszych trzech wydarzeniach, ale stosunkowo słabo w ostatnich trzech wydarzeniach.

Wreszcie, procent tkanki tłuszczowej wykazuje pewne skromne korelacje ze wszystkimi sześcioma zmiennymi (negatywne z pionowym skoku, pozytywne z 40-jardowy czas sprintu, negatywne ze stojącym potrójnym skoku, negatywne z 12-minutowym dystansie biegu, pozytywne z 2-kilometrowym czasie wiersza, i negatywne z 20-minutowym dystansie rowerowym). Wyniki te wskazują, że ludzie z wyższym procentem tkanki tłuszczowej mają tendencję do wykonywania stosunkowo słabo we wszystkich sześciu wydarzeniach.

Zobaczmy teraz, co się dzieje, gdy analizujemy czynnikowo te korelacje. Zgodnie z analizą czynnikową, korelacje pomiędzy ośmioma mierzonymi zmiennymi wskazują, że zmienne te można podzielić na dwie grupy lub czynniki.2 Tabela 3-2 przedstawia te dwa czynniki poprzez wskazanie, jak silnie każda zmienna należy do każdej grupy – lub, używając bardziej technicznych terminów, jak bardzo każda zmienna „obciąża” każdy „czynnik.”

Tabela 3-2. Obciążenia sprawności fizycznej i pomiarów fizjologicznych na dwa czynniki

.

Faktory Zmienne
I II
Wysokość skoku pionowego .71 -.01
Czas 40-jardowego (36-metrowego) skoku w dal -.76 -.01
Odległość trójskoku na stojąco .77 .01
12-minutowy dystans biegu -.02 .77
2-kilometrowy (1.25-milowy) czas wiosłowania .01 -.70
20-minutowy dystans rowerowy .01 .74
Odsetek włókien mięśniowych typu fast-twitch .35 -.34
Odsetek tkanki tłuszczowej -.32 -.34

To są hipotetyczne (wyimaginowane) dane.

Spójrz najpierw na kolumnę liczb po lewej stronie dla czynnika I. Liczby te nazywane są ładunkami czynnika i mogą mieć wielkość od -1 do +1, podobnie jak współczynniki korelacji. Zauważcie, że w tej kolumnie liczby obok skoku pionowego, 40-jardowego sprintu i trójskoku na stojąco są dość duże: Skok pionowy ma „obciążenie” równe .71, 40-jardowy czas sprintu ma obciążenie równe -.76, a stojący trójskok ma obciążenie równe .77. Te duże obciążenia wskazują, że te zmienne bardzo wyraźnie są częścią pierwszego czynnika. Czynnik ten najwyraźniej reprezentuje ogólną zdolność do skoków i sprintu, ponieważ trzy zmienne dotyczące skoków i sprintu mają wysokie ładunki (najwyższe spośród wszystkich zmiennych) na tym czynniku. Zauważ, że w przeciwieństwie do obciążeń dwóch zmiennych dotyczących skoków, obciążenie dla czasu sprintu na 40 jardów jest ujemne; ma to jednak sens, ponieważ osoba, której sprint na 40 jardów zajmuje dużo czasu, jest powolna i jest mało prawdopodobne, że skoczy bardzo wysoko lub bardzo daleko.

Spójrz teraz na kolumnę liczb po prawej stronie dla czynnika II. Zauważ, że w tej kolumnie liczby obok 12-minutowego biegu, 2-kilometrowego biegu z rzędu i 20-minutowego cyklu są dość duże: 12-minutowy bieg ma ładunek równy .77, czas 2-kilometrowego rzędu ma ładunek równy -.70, a 20-minutowy cykl ma ładunek równy .74. Tak duże ładunki wskazują, że zmienne te bardzo wyraźnie są częścią drugiego czynnika. Czynnik ten najwyraźniej reprezentuje ogólną zdolność do wyścigów długodystansowych, ponieważ trzy zmienne dotyczące biegów długodystansowych – bieganie, wiosłowanie i jazda na rowerze – mają wysokie ładunki (najwyższe spośród wszystkich zmiennych) w tym czynniku. Zauważmy, że w przeciwieństwie do obciążenia biegu i jazdy na rowerze, obciążenie dla czasu wiosłowania na 2 kilometry jest ujemne; ma to jednak sens, ponieważ osoba, której wiosłowanie na 2 kilometry zajmuje dużo czasu, nie jest w stanie utrzymać szybkiego tempa wiosłowania i jest mało prawdopodobne, że będzie biegać lub jeździć na rowerze na bardzo długim dystansie.

Analiza czynnikowa ujawniła więc jeden czynnik, który obejmuje zmienne związane ze zdolnością sprinterską i skocznością do skoków oraz inny czynnik, który obejmuje zmienne związane z wytrzymałością lub wydajnością długodystansową. Ważne jest, aby zrozumieć, że są to dwa oddzielne, niezależne czynniki, a nie dwa przeciwległe bieguny tego samego czynnika. Gdyby zmienne dotyczące sprintu/skoków i zmienne dotyczące długich dystansów były względem siebie przeciwstawne – gdyby były silnie ujemnie skorelowane – wówczas należałyby do tego samego czynnika, ale wykazywałyby przeciwne ładunki. Zamiast tego, każda z tych grup zmiennych zdefiniowała swój własny czynnik. Zauważmy, że wszystkie zmienne dotyczące sprintu i skoków miały ładunki bliskie zeru na drugim czynniku, a wszystkie zmienne dotyczące długich dystansów miały ładunki bliskie zeru na pierwszym czynniku. Wskazuje to, że każdy zestaw zmiennych nie jest związany z czynnikiem, który jest definiowany przez inny zestaw zmiennych; to znaczy, że każdy zestaw nie jest ani pozytywnie, ani negatywnie związany z innym zestawem.

Są jeszcze dwie inne zmienne, których jeszcze nie rozważaliśmy. Po pierwsze, spójrz na obciążenia dla procentu szybkich włókien mięśniowych. Jak widać, zmienna ta wykazała umiarkowanie duże dodatnie obciążenie na pierwszym czynniku (.35) i umiarkowanie duże ujemne obciążenie na drugim czynniku (-.34). Wyniki te wskazują, że zmienna ta nie mieści się jednoznacznie w żadnym z czynników, lecz częściowo w obu czynnikach. Dodatni ładunek na pierwszym czynniku wskazuje, że posiadanie wysokiego odsetka włókien mięśniowych szybkoskurczowych wiąże się z dobrymi wynikami w sprincie i skokach. Jednakże, negatywne obciążenie drugiego czynnika wskazuje, że posiadanie wysokiego procentu włókien mięśniowych szybkoskurczowych wiąże się ze słabymi wynikami długodystansowymi i wytrzymałościowymi. (Ma to sens, biorąc pod uwagę funkcję włókien mięśniowych typu fast-twitch: jeśli brałeś udział w zajęciach z kinezjologii, możesz być świadomy, że te włókna mięśniowe szybko się kurczą i pozwalają na szybki, eksplozywny ruch, ale łatwo się męczą i nie umożliwiają stałego wysiłku.)

Następnie spójrz na obciążenia dla procentu tkanki tłuszczowej. Jak widać, zmienna ta wykazała umiarkowanie duży ujemny ładunek zarówno na pierwszym czynniku (-.32), jak i na drugim (-.34). Podobnie jak w przypadku zmiennej dotyczącej włókien mięśniowych, wyniki te wskazują, że procentowa zawartość tkanki tłuszczowej w organizmie nie pasuje do żadnego z czynników, ale częściowo mieści się w obu czynnikach. Ale zauważ, że wzór jest inny, ponieważ procent tkanki tłuszczowej obciąża negatywnie zarówno pierwszy, jak i drugi czynnik. Obciążenia te wskazują, że wysoki procent tkanki tłuszczowej jest związany zarówno z niską wydajnością sprintu i skoków, jak i z niską wydajnością długodystansową, wytrzymałościową. Ma to sens, ponieważ duża ilość tkanki tłuszczowej w organizmie oznacza dużo dodatkowego „martwego” ciężaru, który utrudnia sprint i skoki eksplozywne oraz pokonywanie długich dystansów ze stałą prędkością.

Przyglądając się wynikom opisanym powyżej, możemy zauważyć, że analiza czynnikowa pozwala nam podsumować relacje między dużą liczbą zmiennych w kategoriach tylko niewielkiej liczby grup lub czynników. Podczas gdy w poprzednim przypadku zaczynaliśmy od ośmiu zmiennych, byliśmy w stanie wykazać, że reprezentują one dwie główne grupy zmiennych i byliśmy w stanie zrozumieć naturę każdej grupy poprzez rozważenie tożsamości zmiennych w jej obrębie. Od tej pory, gdybym chciał zmierzyć tego rodzaju zdolności fizyczne moich uczniów, prawdopodobnie mógłbym zaoszczędzić trochę czasu, stosując tylko jeden test sprintu lub skoku i tylko jeden test długodystansowy, zamiast pełnej baterii ośmiu zmiennych. Oczywiście, gdybym był zainteresowany każdą zmienną z osobna, nadal używałbym wszystkich ośmiu. Jednakże, gdybym chciał zaoszczędzić czas i wysiłek, mógłbym uzyskać dobry przegląd możliwości fizycznych moich uczniów stosując tylko dwie zmienne. Na przykład, być może mógłbym zmierzyć tylko trójskok na stojąco (który reprezentuje czynnik „zdolności sprinterskie i skocznościowe”) oraz 12-minutowy bieg (który reprezentuje czynnik „długodystansowy”).

W przedstawionym przykładzie liczba zmiennych była dość mała, a wzór korelacji między tymi zmiennymi był stosunkowo prosty. Patrząc na macierz korelacji między zmiennymi, można by prawdopodobnie zauważyć, że zmienne te należałyby do dwóch głównych czynników. Jednak w większości przypadków, kiedy psychologowie stosują analizę czynnikową, wyniki nie są tak oczywiste: często jest wiele, wiele zmiennych, a wzorzec korelacji między nimi jest bardzo złożony, z wieloma średnimi korelacjami i mniejszą liczbą korelacji bardzo dużych lub bardzo małych. W takim przypadku analiza czynnikowa może być bardzo pomocna dla badacza, ponieważ pozwala na wyodrębnienie niezwykle skomplikowanego wzorca korelacji między dużą liczbą zmiennych i zredukowanie tych zmiennych do niewielkiej liczby czynników.

Dokładne określenie liczby czynników w danym zbiorze zmiennych nie zawsze jest łatwe. Istnieją różne zasady, których badacz może użyć, aby zdecydować, ile czynników jest naprawdę, ale te zasady nie zawsze dają ten sam wynik. Jednym z ważnych sposobów na ustalenie prawdziwej liczby czynników jest sprawdzenie, jakie zestawy czynników można znaleźć w wielu różnych badaniach, z wykorzystaniem różnych uczestników badań lub nawet różnych zestawów zmiennych mierzących te same ogólne rodzaje cech. Na przykład, może się okazać, że ten sam zestaw trzech czynników może być konsekwentnie odzyskiwany w wielu różnych badaniach, ale żaden pojedynczy zestaw czterech czynników nie jest konsekwentnie znajdowany. Jeśli byłoby to prawdą, wtedy zdecydowałbyś, że istnieją trzy, ale nie cztery czynniki, które leżą u podstaw tej domeny cech.

Jedna ważna uwaga na temat analizy czynnikowej: Czynniki, które są produkowane przez tę technikę, powinny być myślane jako wymiary, wzdłuż których ludzie się różnią, a nie jako „typy” ludzi. W poprzednim przykładzie, ludzie mają różne poziomy czynnika (lub wymiaru) zdolności sprintu i skoku, z kilkoma osobami będącymi bardzo dobrymi w tych umiejętnościach i kilkoma innymi będącymi bardzo słabymi, ale z większością ludzi gdzieś pomiędzy. Podobnie, dla drugiego czynnika (lub wymiaru) zdolności do wyścigów długodystansowych, jest również kilka osób z bardzo wysokim poziomem, kilka innych z niskim poziomem, a większość gdzieś pomiędzy. To znaczy, dla każdego z tych dwóch wymiarów, możemy opisać osobę w kategoriach pewnej liczby (takiej jak standardowy wynik), która reprezentuje jej poziom tego wymiaru.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *