Analisi Fattoriale
3.2 Un’introduzione gentile all’Analisi Fattoriale
Quando un ricercatore ha misurato molte variabili che mostrano alcune correlazioni sostanziali tra loro, può essere utile ridurre il numero di variabili categorizzandole in gruppi secondo le correlazioni. Tuttavia, quando il numero di variabili è grande e lo schema delle correlazioni tra loro è complesso, non è facile vedere quali variabili dovrebbero essere combinate in un gruppo. È qui che viene usata la tecnica statistica dell’analisi dei fattori. L’analisi dei fattori permette al ricercatore di ridurre molti tratti specifici in alcuni “fattori” più generali o gruppi di tratti, ognuno dei quali include diversi tratti specifici.
L’analisi dei fattori può essere usata con molti tipi di variabili, e non solo con le caratteristiche della personalità. Consideriamo il seguente esempio di analisi dei fattori. Supponiamo che io abbia convinto qualche centinaio dei miei studenti in forma, sani e di giovane personalità a cambiarsi in palestra e a fare una batteria di test fisici. Ecco le variabili su cui i miei studenti partecipanti devono essere misurati:
salto verticale (altezza del salto da una posizione accovacciata)
corsa di 40 yard (tempo di sprint di 40 yard, o 36.5 metri)
salto triplo in piedi (distanza di salto, passo, salto dalla partenza in piedi)
corsa di 12 minuti (distanza percorsa in 12 minuti)
corsa di 2 chilometri (tempo di remare 2 chilometri, o 1.25 miglia, sul vogatore)
ciclo di 20 minuti (distanza percorsa in 20 minuti su una cyclette standard)
percentuale di fibre muscolari a contrazione rapida (da un campione di tessuto prelevato dalla coscia)
percentuale di grasso corporeo (misurato con un calibro a pelle)
Ora, supponiamo che io abbia misurato i miei studenti su queste variabili. Le correlazioni tra le variabili sono mostrate nella tabella 3-1. (Si noti che tutti questi dati sono artificiali. Non ho realmente misurato nessuno per queste variabili, quindi queste correlazioni sono solo inventate per lo scopo di questo esempio. Ma le correlazioni non sono probabilmente troppo lontane da ciò che si troverebbe nella vita reale.)
Tabella 3-1. Correlazioni tra la forma fisica e le misure fisiologiche
Variabili | VJ | Dash | TJ | Run | Row | Cycle | Type | Fat |
---|---|---|---|---|---|---|---|---|
Altezza salto verticale (VJ) | 1.00 | |||||||
Tempo del trattino da 40 yard (36 metri) (Dash) | -.52 | 1.00 | ||||||
Distanza salto triplo in piedi (TJ) | .56 | -.60 | 1.00 | |||||
Distanza 12 minuti di corsa (Run) | .00 | .01 | .00 | 1.00 | ||||
2 chilometri (1.25 miglia) tempo di voga (Row) | -.01 | .00 | .01 | -.54 | 1.00 | |||
Distanza ciclo 20 minuti (Ciclo) | .00 | -.01 | .00 | .58 | -.50 | 1.00 | ||
Percentuale di fibre muscolari a contrazione rapida (Tipo) | .30 | -.26 | .22 | -.29 | .25 | -.21 | 1.00 | |
Percentuale di grasso corporeo (grasso) | -.20 | .28 | -.24 | -.21 | .25 | -.29 | .00 | 1.00 |
Questi sono dati ipotetici (immaginari). Cercando il nome di una variabile in alto, e dell’altra variabile a lato, e poi trovando la cella dove la colonna di una variabile e la riga dell’altra variabile si incontrano, si può vedere la correlazione tra queste due variabili. (Se la cella è vuota, basta scambiare le due variabili; ho riempito solo una metà della matrice, perché la correlazione di A con B è uguale alla correlazione di B con A. Ho messo 1.00 nelle diagonali perché la correlazione di ogni variabile con se stessa è 1.00.)
Nota nella tabella 3-1 che ci sono correlazioni abbastanza forti tra le prime tre variabili. Il salto verticale e il salto triplo in piedi mostrano una forte correlazione positiva l’uno con l’altro, e il tempo di percorrenza delle 40 yard è correlato negativamente con entrambe le variabili. Apparentemente, la capacità di saltare in alto e la capacità di saltare in avanti sono correlate tra loro, ed entrambe sono correlate alla capacità di sprintare velocemente. Si noti che le correlazioni dei salti con lo scatto di 40 yard sono negative, perché le persone che hanno impiegato molto tempo per sprintare 40 yard non hanno saltato molto in alto o molto lontano.
Nota anche che ci sono correlazioni abbastanza forti tra le seconde tre variabili. La distanza di corsa di 12 minuti e la distanza in bicicletta di 20 minuti sono correlate positivamente tra loro, e negativamente con il tempo di voga di 2 chilometri. Apparentemente la capacità di correre una lunga distanza e di pedalare una lunga distanza sono correlate tra loro, ed entrambe sono correlate alla capacità di remare una lunga distanza. Si noti che le correlazioni delle distanze di corsa e del ciclo con i tempi di voga sono negative, perché le persone che hanno impiegato molto tempo per remare 2 chilometri non hanno corso o pedalato molto lontano.
Per quanto riguarda questi due gruppi di tre variabili, si noti che le correlazioni tra i due gruppi tendono ad essere piuttosto deboli. Le correlazioni del salto verticale, il tempo di sprint di 40 yard e il salto triplo in piedi con la corsa di 12 minuti, la vogata di 2 chilometri e il ciclo di 20 minuti sono tutti circa zero. Questo indica che la performance di una persona sui primi tre test non ci dà alcuna indicazione su come quella persona si comporterà sui secondi tre test, e viceversa.
Ora consideriamo le ultime due variabili. In primo luogo, la percentuale di fibre muscolari a contrazione rapida mostra alcune modeste correlazioni con le prime tre variabili (positive con il salto verticale, negative con il tempo di sprint di 40 metri e positive con il salto triplo in piedi), e anche con le seconde tre variabili (negative con la distanza di corsa di 12 minuti, positive con il tempo di fila di 2 chilometri e negative con la distanza di ciclo di 20 minuti). Questi risultati indicano che le persone con una percentuale più alta di muscoli a contrazione rapida tendevano a fare relativamente bene nei primi tre eventi, ma relativamente male negli ultimi tre eventi.
Infine, la percentuale di grasso corporeo mostra alcune modeste correlazioni con tutte e sei le variabili (negative con il salto verticale, positive con il tempo di sprint di 40 yard, negative con il salto triplo in piedi, negative con la distanza di 12 minuti di corsa, positive con il tempo di 2 km di fila, e negative con la distanza di 20 minuti di ciclo). Questi risultati indicano che le persone con una percentuale più alta di grasso corporeo tendevano a fare relativamente male in tutti e sei gli eventi.
Ora, vediamo cosa succede quando analizziamo con i fattori queste correlazioni. Secondo l’analisi dei fattori, le correlazioni tra le otto variabili misurate qui indicano che queste variabili possono essere ordinate in due gruppi, o fattori.2 La tabella 3-2 mostra questi due fattori indicando quanto fortemente ogni variabile appartiene a ciascun gruppo – o, per usare termini più tecnici, quanto ogni variabile “carica” ciascun “fattore”.
Tabella 3-2. Carichi della forma fisica e delle misure fisiologiche su due fattori
Fattori | Variabili | ||
---|---|---|---|
I | II | ||
Altezza salto verticale | .71 | -.01 | |
40 yard (36 metri) tempo dash | -.76 | -.01 | |
Distanza salto triplo in piedi | .77 | .01 | |
12 minuti di distanza di corsa | -.02 | .77 | |
2 chilometri (1.25 miglia) tempo di canottaggio | .01 | -.70 | |
20 minuti distanza ciclo | .01 | .74 | |
Percentuale di fibre muscolari a contrazione rapida | .35 | -.34 | |
Percentuale di grasso corporeo | -.32 | -.34 |
Questi sono dati ipotetici (immaginari).
Guardate prima la colonna di numeri sulla sinistra per il fattore I. Questi numeri sono chiamati caricamenti dei fattori, e possono variare tra -1 e +1, proprio come i coefficienti di correlazione. Notate che, per questa colonna, i numeri accanto al salto verticale, al tempo di sprint di 40 yard e al salto triplo in piedi sono abbastanza grandi: Il salto verticale ha un “carico” di .71, il tempo di sprint di 40 yard ha un carico di -.76, e il salto triplo in piedi ha un carico di .77. Questi grandi caricamenti indicano che queste variabili fanno chiaramente parte del primo fattore. Questo fattore rappresenta apparentemente un’abilità generale di salto e sprint, perché le tre variabili di salto e sprint hanno carichi elevati (i più alti di tutte le variabili) su questo fattore. Si noti che, a differenza dei carichi delle due variabili di salto, il carico per il tempo di sprint di 40 metri è negativo; tuttavia, questo ha senso, perché una persona che impiega molto tempo per sprintare 40 metri è lenta, e sarebbe improbabile saltare molto in alto o molto lontano.
Ora guardate la colonna dei numeri sulla destra per il fattore II. Notate che, per questa colonna, i numeri accanto a 12 minuti di corsa, 2 chilometri di fila e 20 minuti di ciclo sono abbastanza grandi: La corsa di 12 minuti ha un carico di .77, il tempo di fila di 2 chilometri ha un carico di -.70, e il ciclo di 20 minuti ha un carico di .74. Questi grandi caricamenti indicano che queste variabili fanno chiaramente parte del secondo fattore. Questo fattore rappresenta apparentemente una capacità generale di corsa su lunga distanza, perché le tre variabili di lunga distanza – corsa, canottaggio e ciclismo – hanno un carico elevato (il più alto di tutte le variabili) su questo fattore. Si noti che, a differenza dei carichi della corsa e del ciclismo, il carico per il tempo di voga di 2 chilometri è negativo; tuttavia, questo ha senso, perché una persona che impiega molto tempo per remare 2 chilometri non è in grado di mantenere un ritmo di voga veloce, e sarebbe improbabile che corra o vada in bicicletta su una distanza molto lunga.
Quindi, l’analisi dei fattori ha rivelato un fattore che include variabili associate alla capacità di sprint e salto, e un altro fattore che include variabili associate alla resistenza o alle prestazioni su lunghe distanze. È importante capire che si tratta di due fattori separati e indipendenti, e non di due poli opposti dello stesso fattore. Se le variabili dello sprint e del salto e quelle della lunga distanza fossero state opposte l’una all’altra – se fossero state fortemente correlate negativamente – allora sarebbero appartenute allo stesso fattore, ma avrebbero mostrato carichi opposti su di esso. Invece, ognuno di questi gruppi di variabili ha definito il proprio fattore. Si noti che le variabili dello sprint e del salto avevano tutte un carico vicino allo zero sul secondo fattore, e che le variabili della lunga distanza avevano tutte un carico vicino allo zero sul primo fattore. Questo indica che ogni set di variabili non è correlato al fattore che è definito dall’altro set di variabili; cioè, ogni set non è né positivamente né negativamente correlato all’altro set.
Ci sono altre due variabili che non abbiamo ancora considerato. In primo luogo, guardate i caricamenti per la percentuale di fibre muscolari a contrazione rapida. Come potete vedere, questa variabile ha mostrato un modesto carico positivo sul primo fattore (.35) e un modesto carico negativo sul secondo fattore (-.34). Questi risultati indicano che questa variabile non si adatta perfettamente a nessuno dei due fattori, ma è invece parzialmente all’interno di entrambi i fattori. Il caricamento positivo sul primo fattore indica che avere un’alta percentuale di fibre muscolari a contrazione rapida è associato a buone prestazioni di sprint e salto. Tuttavia, il carico negativo sul secondo fattore indica che avere un’alta percentuale di fibre muscolari a contrazione rapida è associato a scarse prestazioni di resistenza sulla lunga distanza. (Questo ha senso data la funzione della fibra muscolare a contrazione rapida: se avete seguito un corso di kinesiologia, potreste sapere che queste fibre muscolari si contraggono rapidamente e permettono un movimento rapido ed esplosivo, ma si stancano facilmente e non permettono uno sforzo costante e prolungato.)
Poi guardate i caricamenti per il grasso corporeo percentuale. Come potete vedere, questa variabile ha mostrato un carico negativo di modeste dimensioni sia sul primo fattore (-.32) che sul secondo fattore (-.34). Come nel caso della variabile fibra muscolare, questi risultati indicano che la percentuale di grasso corporeo non si adatta perfettamente a nessuno dei due fattori, ma è invece parzialmente all’interno di entrambi i fattori. Ma si noti che il modello è diverso, perché la percentuale di grasso corporeo si carica negativamente sia sul primo che sul secondo fattore. Questi caricamenti indicano che un’alta percentuale di grasso corporeo è associata sia a scarse prestazioni di sprint e salto che a scarse prestazioni di resistenza sulla lunga distanza. Questo ha senso, perché avere molto grasso corporeo significa molto peso “morto” extra che renderà più difficile sprintare e saltare in modo esplosivo e più difficile coprire una lunga distanza a una velocità sostenuta.
Visto i risultati descritti sopra, possiamo vedere che l’analisi dei fattori ci permette di riassumere le relazioni tra un gran numero di variabili in termini di solo un piccolo numero di gruppi, o fattori. Mentre nel caso precedente abbiamo iniziato con otto variabili, siamo stati in grado di mostrare che queste rappresentavano due grandi gruppi di variabili, e siamo stati in grado di capire la natura di ogni gruppo considerando l’identità delle variabili al suo interno. D’ora in poi, se voglio misurare questo tipo di abilità fisiche dei miei studenti, potrei probabilmente risparmiare un po’ di tempo usando solo un test di sprint o salto, e solo un test di lunga distanza, invece dell’intera batteria di otto variabili. Naturalmente, se fossi interessato ad ogni variabile di per sé, continuerei ad usarle tutte e otto. Tuttavia, se stessi cercando di risparmiare tempo e fatica, potrei ottenere una buona panoramica delle capacità fisiche dei miei studenti utilizzando solo due variabili. Per esempio, forse potrei misurare solo il salto triplo in piedi (che rappresenta il fattore “abilità di sprint e salto”) e la corsa di 12 minuti (che rappresenta il fattore “lunga distanza”).
Nell’esempio appena mostrato, il numero di variabili era abbastanza piccolo, e lo schema delle correlazioni tra quelle variabili era relativamente semplice. Guardando la matrice delle correlazioni tra le variabili, si potrebbe probabilmente vedere che le variabili rientrano in due fattori principali. Ma nella maggior parte dei casi in cui gli psicologi usano l’analisi dei fattori, i risultati non sono così ovvi: ci sono spesso molte, molte variabili, e lo schema delle correlazioni tra loro è molto complesso, con molte correlazioni di media grandezza e meno correlazioni che sono molto grandi o molto piccole. Quando questo è il caso, l’analisi dei fattori può essere di grande aiuto al ricercatore, prendendo un modello estremamente complicato di correlazioni tra un gran numero di variabili, e riducendo quelle variabili a un piccolo numero di fattori.
Esattamente quanti fattori ci sono in un dato insieme di variabili non è sempre facile da capire. Ci sono varie regole che un ricercatore può usare per decidere quanti fattori ci sono realmente, ma queste regole non danno sempre lo stesso risultato. Un modo importante per capire il vero numero di fattori è vedere quali insiemi di fattori possono essere trovati in molti studi diversi, usando diversi partecipanti alla ricerca o anche diversi insiemi di variabili che misurano gli stessi tipi di caratteristiche generali. Per esempio, potreste scoprire che lo stesso insieme di tre fattori può essere recuperato in modo coerente in molti studi diversi, ma che nessun singolo insieme di quattro fattori viene trovato in modo coerente. Se questo fosse vero, allora decidereste che ci sono tre, ma non quattro, fattori alla base di questo dominio di caratteristiche.
Una nota importante sull’analisi dei fattori: I fattori che vengono prodotti da questa tecnica dovrebbero essere pensati come dimensioni lungo le quali le persone differiscono, e non come “tipi” di persone. Nell’esempio di prima, le persone hanno diversi livelli del fattore (o dimensione) dell’abilità nello sprint e nel salto, con alcune persone che sono molto brave in queste abilità e poche altre che sono molto scarse, ma la maggior parte delle persone si trova nel mezzo. Allo stesso modo, per l’altro fattore (o dimensione) dell’abilità nella corsa su lunga distanza, ci sono anche alcune persone con livelli molto alti, poche altre con livelli molto bassi, e la maggior parte degli altri da qualche parte nel mezzo. Cioè, per ciascuna di queste due dimensioni, possiamo descrivere un individuo in termini di qualche numero (come un punteggio standard) che rappresenta il suo livello di quella dimensione.