Tutorial SAS
Tabelle di frequenza a una via con SAS
PROC FREQ
.Way Frequency Tables using SAS
PROC FREQ
Vedi www.stattutorials.com/SASDATA per i file menzionati in questo tutorial
© TexaSoft, 2006
Questi tutorial di statistica SAS spiegano brevemente l’uso e l’interpretazione delle tecniche standard di analisi statistica per la ricerca medica, farmaceutica, clinica, di marketing o scientifica. Gli esempi includono istruzioni per il software SAS
Creazione di tabelle di frequenza a senso unicoWay Frequency Tables with PROC FREQ
I dati raccolti come conteggi richiedono un tipo specifico di analisi. Non ha senso calcolare medie e deviazioni standard sui dati categorici. Invece, i dati categorici vengono analizzati creando tabelle di frequenza e tabelle incrociate. La procedura principale in SAS per questo tipo di analisi è PROC FREQ.
Questo tutorial copre la creazione e l’analisi di una tabella di frequenza di una singola variabile utilizzando la procedura PROC FREQ.
La sintassi della PROC FREQ è:
PROC FREQ <opzioni>; specifica TABLES; < dichiarazioni>;
Le opzioni comunemente usate in PROC FREQ sono:
DATA = (Specifica quale serie di dati utilizzare)
ORDER=FREQ (Emettere i dati in ordine di frequenza)
Una dichiarazione comunemente usata con PROC FREQ è:
BY varlist (Specificare la lista BY per creare analisi subsetted)
L’istruzione TABLES è usata per richiedere quali tabelle saranno prodotte. Per esempio, per ottenere il conteggio del numero di soggetti in ogni categoria GROUP, utilizzare il codice:
PROC FREQ; TABLES GROUP;
Per produrre un test chi-quadro per la bontà dell’adattamento, utilizzare un codice come
proc freq;
tabelle colore / chisq nocum testp=(0.5625 0.1875 0.1875 0.0625);
(Vedi dettagli su queste opzioni più avanti nel tutorial.)
Creare una tabella di frequenza unidirezionale
Quando solo una variabile è usata nell’istruzione TABLES, PROC FREQ produce una tabella di frequenza. Ad esempio, utilizzando i dati del set di dati SAS SOMEDATA, il seguente codice produce una tabella di frequenza utilizzando i dati nella variabile STATUS: (PROCFREQ1.SAS)
* PRESUME CHE AVETE UNA LIBRERIA SAS NOMINATA MYDATA;
ODS RTF;
PROC FREQ DATA=MYDATA.SOMEDATA; TABLES STATUS;
TITLE ‘Simple Example of PROC FREQ’;
RUN;
PROC FREQ DATA=MYDATA.SOMEDATA ORDER=FREQ; TABLES STATUS;
TITLE ‘Simple Example of PROC FREQ’;
RUN;
ODS RTF CLOSE;
L’output di questo lavoro è:
Stato socioeconomico
STATO
Frequenza
Percentuale
Frequenza cumulativa
Cumulativo
Percento1
3
6.00
3
6.00
2
7
14.00
10
20.00
3
6
12.00
16
32.00
4
8
16.00
24
48.00
5
26
52.00
50
100.00
La frequenza dà il conteggio del numero di volte che la variabile STATUS ha assunto il valore nella colonna STATUS. La colonna percentuale è la percentuale del totale (50). Le colonne Frequenza cumulativa e Percentuale riportano un conteggio o una percentuale crescente per ogni valore di STATUS. Usa questo tipo di analisi per scoprire la distribuzione delle categorie nel tuo set di dati. Per esempio, in questi dati, più della metà dei soggetti rientra nella categoria STATUS=5. Se avevate sperato in un campione rappresentativo in ogni categoria, questo vi mostra che tale criterio non è stato soddisfatto.
Esercizio: Usando Order=Freq si ordina la tabella per frequenza. Cambiare la linea PROC FREQ per leggere
PROC FREQ Order=Freq; TABLES STATUS;
E rilancia il programma per ottenere l’output ordinato per frequenza. Questo ti aiuta a identificare quali categorie hanno più e meno conteggi.
Socioeconomico Status
STATUS
Frequenza
Percentuale
Cumulativa
FrequenzaCumulativo
Percento5
26
52.00
26
52.00
4
8
16.00
34
68.00
2
7
14.00
41
82.00
3
6
12.00
47
94.00
1
3
6.00
50
100.00
Supponiamo che i vostri dati siano già riassunti in conteggi. In questo caso potete usare l’istruzione WEIGHT per leggere i vostri dati. Per esempio (PROCFREQ2.SAS)
DATI CDS;
INPUT @1 CATEGORIA $9. @10 NUMERO 3.;
DATI;
JAZZ 252
POP 49
CLASSICO 59
iv
RAP 21
GOSPEL 44
JAZZ 21
;
ODS RTF;
PROC FREQ DATA=CDS ORDER=FREQ; WEIGHT NUMBER;
TITLE3 ‘READ IN SUMMARIZED DATA’;
TABLES CATEGORY;
RUN;
ODS RTF CLOSE;
Produce la seguente tabella:
CATEGORIA
Frequenza
Percentuale
Frequenza cumulativa
Cumulativo
PercentoJAZZ
273
61.21
273
61.21
CLASSICO
59
13.23
332
74.44
POP
49
10.99
381
85.43
GOSPEL
44
9.87
425
95.29
RAP
21
4.71
446
100.00
Notate che anche se i dati sono stati riassunti, c’erano due osservazioni nel set di dati per “JAZZ” che sono state combinate in una sola categoria nella tabella.
Testare la bontà dell’adattamento in una tabella a una via
Un test di bontà dell’adattamentofit test di una singola popolazione è un test per determinare se la distribuzione delle frequenze osservate nei dati del campione corrisponde strettamente al numero previsto di occorrenze sotto un’ipotetica distribuzione della popolazione. Le osservazioni dei dati devono essere indipendenti e ogni valore dei dati può essere contato in una e una sola categoria. Si suppone anche che il numero di osservazioni sia fisso. Le ipotesi da testare sono
Ho: La popolazione segue la distribuzione ipotizzata.
Ha: La popolazione non segue la distribuzione ipotizzata.
Una statistica Chi-quadro è il calcolo e una decisione può essere presa in base al p-value associato a questa statistica. Un p-value basso indica il rifiuto dell’ipotesi nulla. Cioè, un basso valore di p indica che i dati non seguono la distribuzione ipotizzata, o teorica.
Per esempio, i dati per questo test provengono da Zar (1999), pagina 465. Secondo una teoria genetica, le piante di pisello incrociate mostrano un rapporto 9:3:3:1 di prole gialla liscia, gialla rugosa, verde liscia, verde rugosa. Su 250 piante, sotto il rapporto teorico (distribuzione) di 9:3:3:1, ci si aspetta circa
(9/16)x250=140.625 piselli gialli lisci (56,25%)
(3/16)x250=46,875 piselli gialli rugosi (18,75%)
(3/16)x250=46,875 piselli verdi lisci (18,75%)
(1/16)x250=15,625 piselli verdi rugosi (6.25%)
Dopo aver coltivato 250 di queste piante di piselli, si osserva che
152 hanno piselli gialli lisci
39 hanno piselli gialli rugosi
53 hanno piselli verdi lisci piselli
6 hanno piselli verdi rugosi
È possibile eseguire questa analisi utilizzando il seguente programma SAS, (PROCFREQ3.SAS)
DATA GENE;
INPUT @1 COLOR $13. @15 NUMERO 3.;
DATI;
GIALLOSMOOTH 152
GIALLOWRINKLE 39
GREENSMOOTH 53
GREENWRINKLE 6
;
* IPOTESI A 9:3:3:1 RATIO;
PROC FREQ DATA=GENE ORDER=DATA; WEIGHT NUMBER;
TITLE3 ‘GOODNESS OF FIT ANALYSIS’;
TABLES COLOR / CHISQ NOCUM TESTP=(0.5625 0.1875 0.1875 0.0625);
RUN;
Il CHISQ richiede che venga eseguito un test Chi-Square test
La dichiarazione TESTP=() specifica le proporzioni ipotizzate da testare. (Si sarebbe potuto usare TESTF=() e usare invece le frequenze attese)
L’opzione NOCUM sopprime le frequenze cumulative
Utilizzare l’opzione ORDER=DATA per far sì che SAS visualizzi i dati nello stesso ordine in cui sono inseriti nel set di dati di input.
Il risultato di questa analisi è:
COLORE
Frequenza
Percentuale
Test
PercentoGIALLOSMOOTH
152
60.80
56.25
YELLOWWRINKLE
39
15.60
18.75
GREENSMOOTH
53
21.20
18.75
GREENWRINKLE
6
2.40
6.25
Chi-Square Test
per proporzioni specificateChi-Square
8.9724
DF
3
Pr > ChiSq
0.0297