Factoranalyse
3.2 Een voorzichtige inleiding tot factoranalyse
Wanneer een onderzoeker veel variabelen heeft gemeten die substantiële correlaties met elkaar vertonen, kan het nuttig zijn om het aantal variabelen te verminderen door ze in groepen in te delen volgens de correlaties. Wanneer het aantal variabelen echter groot is en het patroon van de onderlinge correlaties complex, is het niet gemakkelijk te zien welke variabelen in een groep moeten worden samengevoegd. Dit is het punt waarop de statistische techniek van de factoranalyse wordt gebruikt. Met factoranalyse kan de onderzoeker veel specifieke kenmerken terugbrengen tot een paar meer algemene “factoren” of groepen van kenmerken, die elk een aantal van de specifieke kenmerken omvatten.
Factoranalyse kan worden gebruikt voor veel soorten variabelen, en niet alleen voor persoonlijkheidskenmerken. Beschouw het volgende voorbeeld van een factoranalyse. Stel dat ik een paar honderd van mijn fitte, gezonde, jonge persoonlijkheidsstudenten heb overgehaald om zich om te kleden in hun gymkleren en een reeks fysieke tests te doen. Dit zijn de variabelen waarop mijn studenten moeten worden gemeten:
verticale sprong (hoogte van de sprong vanuit een gehurkte positie)
40-yard dash (tijd om 40 yards te sprinten, of 36.5 meter)
drievoudige staande sprong (afstand van hop, stap, sprong vanuit staande start)
12-minuten hardlopen (afstand hardlopen in 12 minuten)
2-kilometer roeien (tijd om 2 kilometer te roeien, of 1,25 mijl, op een roeimachine)
2-kilometer roeien (tijd om 2 kilometer te roeien, of 1,25 mijl, op een roeimachine)25 mijl, op roeimachine)
20 minuten fietsen (afstand gefietst in 20 minuten op standaard hometrainer)
percent fast-twitch spiervezels (van weefselmonster genomen van dij)
percent lichaamsvet (gemeten met huidplooikalibers)
Tabel 3-1. Correlaties tussen fysieke fitheid en fysiologische metingen
Variabelen | VJ | Dash | TJ | Run | Row | Cycle | Type | Fat | |
---|---|---|---|---|---|---|---|---|---|
Verticale spronghoogte (VJ) | 1.00 | ||||||||
40-yard (36-meter) dash tijd (Dash) | -.52 | 1.00 | |||||||
Standsprong afstand (TJ) | .56 | -.60 | 1.00 | ||||||
12-minuten loop afstand (Run) | .00 | .01 | .00 | 1.00 | |||||
2-kilometer (1.25-mijl) roeitijd (Run) | .25-mijl) roeitijd (Row) | -.01 | .00 | .01 | -.54 | 1.00 | 20 minuten fietsafstand (Cycle) | .00 | -.01 | .00 | .58 | -.50 | 1.00 |
Snel-twitch spiervezeltype percentage (Type) | .30 | -.26 | .22 | -.29 | .25 | -.21 | 1.00 | ||
Lichaamsvetpercentage (Vet) | -.20 | .28 | -.24 | -.21 | .25 | -.29 | .00 | 1.00 | .00 |
Dit zijn hypothetische (denkbeeldige) gegevens.
De correlatiematrix in tabel 3-1 laat zien hoe elke variabele correleert met elke andere variabele. Door de naam van de ene variabele bovenaan te zoeken, en die van de andere variabele onderaan, en dan de cel te vinden waar de kolom van de ene variabele en de rij van de andere variabele samenkomen, kun je de correlatie tussen die twee variabelen zien. (Als de cel leeg is, verwisselt u gewoon de twee variabelen; ik heb slechts één helft van de matrix ingevuld, omdat de correlatie van A met B dezelfde is als de correlatie van B met A. Ik heb 1,00’s in de diagonalen gezet, omdat de correlatie van elke variabele met zichzelf 1,00 is.)
Zie je in Tabel 3-1 dat er vrij sterke correlaties zijn tussen de eerste drie variabelen. De verticale sprong en de staande driesprong vertonen een sterke positieve correlatie met elkaar, en de 40 meter sprinttijd correleert negatief met beide variabelen. Blijkbaar zijn het vermogen om omhoog te springen en het vermogen om vooruit te springen aan elkaar gerelateerd, en beide zijn gerelateerd aan het vermogen om snel te sprinten. Merk op dat de correlaties van de sprongen met de 40-yard dash negatief zijn, omdat mensen die er lang over deden om 40 yards te sprinten niet erg hoog of erg ver sprongen.
Merk ook op dat er vrij sterke correlaties zijn tussen de tweede drie variabelen. De 12 minuten ren afstand en de 20 minuten fiets afstand zijn positief gecorreleerd met elkaar, en negatief gecorreleerd met de 2-kilometer roeitijd. Blijkbaar zijn het vermogen om een lange afstand te lopen en om een lange afstand te fietsen aan elkaar gerelateerd, en beide zijn gerelateerd aan het vermogen om een lange afstand te roeien. Merk op dat de correlaties van de ren- en fietsafstanden met de roeitijden negatief zijn, omdat mensen die er lang over deden om 2 kilometer te roeien niet erg ver liepen of fietsten.
Met betrekking tot deze twee groepen van drie variabelen valt op dat de correlaties tussen de twee groepen vrij zwak neigen te zijn. De correlaties van de verticale sprong, de 40 meter sprinttijd en de staande driesprong met de 12-minuten loop, de 2-kilometer roei, en de 20-minuten cyclus zijn alle ongeveer nul. Dit geeft aan dat de prestaties van een persoon op de eerste drie tests ons geen enkele indicatie geven over hoe die persoon zal presteren op de tweede drie tests, en vice versa.
Laten we nu eens kijken naar de laatste twee variabelen. Ten eerste vertoont het percentage snelle spiervezels een bescheiden correlatie met de eerste drie variabelen (positief met verticale sprong, negatief met 40 meter sprinttijd, en positief met staande driesprong), en ook met de tweede drie variabelen (negatief met 12-minuten renafstand, positief met 2-kilometer roeitijd, en negatief met 20-minuten fietsafstand).
Ten slotte vertoont het lichaamsvetpercentage bescheiden correlaties met alle zes variabelen (negatief met de verticale sprong, positief met de sprinttijd van 40 meter, negatief met de staande driesprong, negatief met de afstand van 12 minuten hardlopen, positief met de rijtijd van 2 kilometer en negatief met de fietsafstand van 20 minuten). Deze resultaten geven aan dat mensen met een hoger percentage lichaamsvet het relatief slecht doen op alle zes de onderdelen.
Nu gaan we kijken wat er gebeurt als we deze correlaties in factoren analyseren. Volgens de factoranalyse geven de correlaties tussen de acht hier gemeten variabelen aan dat deze variabelen in twee groepen, of factoren, kunnen worden ingedeeld.2 Tabel 3-2 toont deze twee factoren door aan te geven hoe sterk elke variabele tot elke groep behoort – of, om een meer technische term te gebruiken, hoeveel elke variabele “laadt” op elke “factor.”
Factoren | Variabelen | |
---|---|---|
I | II | |
Verticale spronghoogte | .71 | -.01 |
40-yard (36-meter) dash tijd | -.76 | -.01 |
Standstand driesprong afstand | .77 | .01 |
12-minuten hardloopafstand | -.02 | .77 |
2-kilometer (1.25-mijl) roeitijd | -.01 | .25-mijl) roeitijd | .01 | -.70 |
20-minuten fietsafstand | .01 | .74 |
Fast-twitch spiervezeltype percentage | .35 | -.34 |
Lichaamsvetpercentage | -.32 | -.34 |
Dit zijn hypothetische (denkbeeldige) gegevens.
Kijk eerst naar de kolom met getallen links voor factor I. Deze getallen worden factorladingen genoemd, en ze kunnen in grootte uiteenlopen van -1 tot +1, net als correlatiecoëfficiënten. Merk op dat, voor deze kolom, de getallen naast de verticale sprong, de 40 meter sprinttijd, en de staande driesprong vrij groot zijn: Verticale sprong heeft een “lading” van .71, de 40 meter sprinttijd heeft een lading van -.76, en de staande driesprong heeft een lading van .77. Deze grote ladingen geven aan dat deze variabelen zeer duidelijk deel uitmaken van de eerste factor. Deze factor vertegenwoordigt blijkbaar een algemene spring- en sprintvaardigheid, want de drie spring- en sprintvariabelen hebben hoge ladingen (de hoogste van alle variabelen) op deze factor. Merk op dat, in tegenstelling tot de ladingen van de twee springvariabelen, de lading voor de sprinttijd van 40 meter negatief is; dit is echter logisch, want iemand die er lang over doet om 40 meter te sprinten is traag, en zal waarschijnlijk niet erg hoog of ver springen.
Kijk nu naar de kolom met getallen aan de rechterkant voor factor II. Merk op dat, voor deze kolom, de getallen naast 12-minuten hardlopen, 2-kilometer rijtijd, en 20-minuten cyclus vrij groot zijn: 12-minuten lopen heeft een lading van .77, 2-kilometer rijtijd heeft een lading van -.70, en 20-minuten cyclus heeft een lading van .74. Deze grote ladingen geven aan dat deze variabelen zeer duidelijk deel uitmaken van de tweede factor. Deze factor vertegenwoordigt blijkbaar een algemene vaardigheid in lange-afstandsracen, want de drie lange-afstandsvariabelen – lopen, roeien en fietsen – hebben een hoge lading (de hoogste van alle variabelen) op deze factor. Merk op dat, in tegenstelling tot de ladingen van lopen en fietsen, de lading voor 2-kilometer roeitijd negatief is; dit is echter logisch, omdat een persoon die er lang over doet om 2 kilometer te roeien, niet in staat is om een snel roeitempo aan te houden, en waarschijnlijk niet in staat zal zijn om een zeer lange afstand te lopen of te fietsen.
Dus, de factoranalyse heeft één factor aan het licht gebracht die variabelen omvat die geassocieerd zijn met sprint- en springvermogen, en een andere factor die variabelen omvat die geassocieerd zijn met uithoudingsvermogen of lange-afstandsprestaties. Het is belangrijk te begrijpen dat dit twee afzonderlijke, onafhankelijke factoren zijn, en niet twee tegenovergestelde polen van dezelfde factor. Als de variabelen voor sprinten/springen en lange afstand tegenover elkaar hadden gestaan – als ze sterk negatief gecorreleerd waren geweest – dan zouden ze tot dezelfde factor hebben behoord, maar zouden ze er tegengestelde ladingen op hebben vertoond. In plaats daarvan heeft elk van deze groepen variabelen zijn eigen factor gedefinieerd. Merk op dat de sprint- en springvariabelen allemaal een lading dicht bij nul hadden op de tweede factor, en dat de lange-afstandsvariabelen allemaal een lading dicht bij nul hadden op de eerste factor. Dit wijst erop dat elke reeks variabelen geen verband houdt met de factor die door de andere reeks variabelen wordt gedefinieerd; dat wil zeggen dat elke reeks noch positief noch negatief verband houdt met de andere reeks.
Er zijn nog twee variabelen die we nog niet hebben bekeken. Ten eerste, kijk naar de belasting van het percentage snelle spiervezels. Zoals u kunt zien, heeft deze variabele een bescheiden positieve lading op de eerste factor (.35) en een bescheiden negatieve lading op de tweede factor (-.34). Deze resultaten wijzen erop dat deze variabele niet netjes binnen één van beide factoren past, maar in plaats daarvan gedeeltelijk binnen beide factoren valt. De positieve belasting van de eerste factor geeft aan dat het hebben van een hoog percentage snelle spiervezels geassocieerd is met goede sprint- en springprestaties. De negatieve lading van de tweede factor geeft echter aan dat het hebben van een hoog percentage snelle spiervezels samenhangt met slechte prestaties op de lange afstand, uithoudingsvermogen. (Dit is logisch gezien de functie van snelle spiervezels: als u een les kinesiologie hebt gevolgd, weet u misschien dat deze spiervezels snel samentrekken en snelle, explosieve bewegingen mogelijk maken, maar dat ze snel moe worden en geen langdurige, constante inspanning mogelijk maken.)
Kijk nu eens naar de belastingsfactoren voor het percentage lichaamsvet. Zoals u kunt zien, vertoont deze variabele een bescheiden negatieve lading op zowel de eerste factor (-.32) als de tweede factor (-.34). Zoals het geval was voor de spiervezelvariabele, hierboven, geven deze resultaten aan dat het percentage lichaamsvet niet netjes binnen één van beide factoren past, maar in plaats daarvan gedeeltelijk binnen beide factoren ligt. Maar merk op dat het patroon anders is, want lichaamsvet heeft een negatieve invloed op zowel de eerste als de tweede factor. Deze belastingsfactoren geven aan dat een hoog lichaamsvetpercentage zowel verband houdt met slechte sprint- en springprestaties als met slechte uithoudingsprestaties op de lange afstand. Dit is logisch, want veel lichaamsvet betekent veel extra “dood” gewicht dat het moeilijker maakt om explosief te sprinten en te springen en om een lange afstand met volgehouden snelheid af te leggen.
Gezien de hierboven beschreven resultaten kunnen we zien dat factoranalyse ons in staat stelt de relaties tussen een groot aantal variabelen samen te vatten in termen van slechts een klein aantal groepen, of factoren. Terwijl wij in het vorige geval met acht variabelen begonnen, konden wij aantonen dat deze twee grote groepen variabelen vertegenwoordigden, en konden wij de aard van elke groep begrijpen door de identiteit van de variabelen binnen die groep in aanmerking te nemen. Als ik voortaan dit soort fysieke vaardigheden van mijn leerlingen wil meten, kan ik waarschijnlijk wat tijd besparen door slechts één sprint- of springtest en één langeafstandstest te gebruiken, in plaats van de volledige batterij van acht variabelen. Natuurlijk, als ik in elke variabele op zich geïnteresseerd zou zijn, zou ik ze alle acht blijven gebruiken. Als ik echter tijd en moeite zou willen besparen, zou ik een goed overzicht van de fysieke mogelijkheden van mijn leerlingen kunnen krijgen door slechts twee variabelen te gebruiken. Ik zou bijvoorbeeld alleen de staande driesprong kunnen meten (die de factor “sprint- en springvaardigheid” vertegenwoordigt) en de 12-minuten-loop (die de factor “lange afstand” vertegenwoordigt).
In het zojuist getoonde voorbeeld was het aantal variabelen vrij klein, en het patroon van de correlaties tussen die variabelen was betrekkelijk eenvoudig. Als je naar de matrix van de correlaties tussen de variabelen kijkt, zou je waarschijnlijk kunnen zien dat de variabelen in twee hoofdfactoren zouden vallen. Maar in de meeste gevallen dat psychologen factoranalyse gebruiken, zijn de resultaten lang niet zo duidelijk: Er zijn vaak zeer veel variabelen, en het patroon van de onderlinge correlaties is zeer complex, met veel middelgrote correlaties en minder correlaties die zeer groot of zeer klein zijn. In dat geval kan factoranalyse een grote hulp zijn voor de onderzoeker, door een zeer ingewikkeld patroon van correlaties tussen een groot aantal variabelen te nemen, en die variabelen terug te brengen tot een klein aantal factoren.
Hoeveel factoren een gegeven verzameling variabelen precies heeft, is niet altijd gemakkelijk te achterhalen. Er zijn verschillende regels die een onderzoeker kan gebruiken om te bepalen hoeveel factoren er werkelijk zijn, maar deze regels geven niet altijd hetzelfde resultaat. Een belangrijke manier om het werkelijke aantal factoren te achterhalen is na te gaan welke reeksen factoren kunnen worden gevonden in veel verschillende studies, waarbij verschillende deelnemers aan het onderzoek worden gebruikt of zelfs verschillende reeksen variabelen waarmee dezelfde algemene soorten kenmerken worden gemeten. U zou bijvoorbeeld kunnen vaststellen dat dezelfde set van drie factoren consistent kan worden teruggevonden in veel verschillende studies, maar dat geen enkele set van vier factoren consistent wordt gevonden. Als dit waar is, dan zou u besluiten dat er drie, maar niet vier, factoren zijn die ten grondslag liggen aan dit domein van kenmerken.
Een belangrijke opmerking over factoranalyse: De factoren die deze techniek oplevert, moeten worden gezien als dimensies waarin mensen verschillen, en niet als “typen” mensen. In het voorbeeld hierboven hebben mensen verschillende niveaus van de factor (of dimensie) sprint- en springvaardigheid, waarbij een paar mensen heel goed zijn in deze vaardigheden en een paar anderen heel slecht, maar de meeste mensen ergens daartussenin zitten. Zo zijn er ook voor de andere factor (of dimensie) van langeafstandsracevaardigheid een paar mensen met zeer hoge niveaus, een paar anderen met zeer lage niveaus, en de meeste anderen ergens daartussenin. Dat wil zeggen, voor elk van deze twee dimensies kunnen we een individu beschrijven in termen van een getal (zoals een standaardscore) dat zijn of haar niveau van die dimensie weergeeft.