Articles

Tutorial SAS

Tabelle di frequenza a una via con SAS

PROC FREQ

.Way Frequency Tables using SAS

PROC FREQ

Vedi www.stattutorials.com/SASDATA per i file menzionati in questo tutorial

© TexaSoft, 2006

Questi tutorial di statistica SAS spiegano brevemente l’uso e l’interpretazione delle tecniche standard di analisi statistica per la ricerca medica, farmaceutica, clinica, di marketing o scientifica. Gli esempi includono istruzioni per il software SAS

Creazione di tabelle di frequenza a senso unicoWay Frequency Tables with PROC FREQ

I dati raccolti come conteggi richiedono un tipo specifico di analisi. Non ha senso calcolare medie e deviazioni standard sui dati categorici. Invece, i dati categorici vengono analizzati creando tabelle di frequenza e tabelle incrociate. La procedura principale in SAS per questo tipo di analisi è PROC FREQ.

Questo tutorial copre la creazione e l’analisi di una tabella di frequenza di una singola variabile utilizzando la procedura PROC FREQ.

La sintassi della PROC FREQ è:

PROC FREQ <opzioni>; specifica TABLES; < dichiarazioni>;

Le opzioni comunemente usate in PROC FREQ sono:

DATA = (Specifica quale serie di dati utilizzare)

ORDER=FREQ (Emettere i dati in ordine di frequenza)

Una dichiarazione comunemente usata con PROC FREQ è:

BY varlist (Specificare la lista BY per creare analisi subsetted)

L’istruzione TABLES è usata per richiedere quali tabelle saranno prodotte. Per esempio, per ottenere il conteggio del numero di soggetti in ogni categoria GROUP, utilizzare il codice:

PROC FREQ; TABLES GROUP;

Per produrre un test chi-quadro per la bontà dell’adattamento, utilizzare un codice come

proc freq;

tabelle colore / chisq nocum testp=(0.5625 0.1875 0.1875 0.0625);

(Vedi dettagli su queste opzioni più avanti nel tutorial.)


Creare una tabella di frequenza unidirezionale

Quando solo una variabile è usata nell’istruzione TABLES, PROC FREQ produce una tabella di frequenza. Ad esempio, utilizzando i dati del set di dati SAS SOMEDATA, il seguente codice produce una tabella di frequenza utilizzando i dati nella variabile STATUS: (PROCFREQ1.SAS)

* PRESUME CHE AVETE UNA LIBRERIA SAS NOMINATA MYDATA;

ODS RTF;

PROC FREQ DATA=MYDATA.SOMEDATA; TABLES STATUS;

TITLE ‘Simple Example of PROC FREQ’;

RUN;

PROC FREQ DATA=MYDATA.SOMEDATA ORDER=FREQ; TABLES STATUS;

TITLE ‘Simple Example of PROC FREQ’;

RUN;

ODS RTF CLOSE;

L’output di questo lavoro è:

Stato socioeconomico

STATO

Frequenza

Percentuale

Frequenza cumulativa

Cumulativo
Percento

1

3

6.00

3

6.00

2

7

14.00

10

20.00

3

6

12.00

16

32.00

4

8

16.00

24

48.00

5

26

52.00

50

100.00

La frequenza dà il conteggio del numero di volte che la variabile STATUS ha assunto il valore nella colonna STATUS. La colonna percentuale è la percentuale del totale (50). Le colonne Frequenza cumulativa e Percentuale riportano un conteggio o una percentuale crescente per ogni valore di STATUS. Usa questo tipo di analisi per scoprire la distribuzione delle categorie nel tuo set di dati. Per esempio, in questi dati, più della metà dei soggetti rientra nella categoria STATUS=5. Se avevate sperato in un campione rappresentativo in ogni categoria, questo vi mostra che tale criterio non è stato soddisfatto.

Esercizio: Usando Order=Freq si ordina la tabella per frequenza. Cambiare la linea PROC FREQ per leggere

PROC FREQ Order=Freq; TABLES STATUS;

E rilancia il programma per ottenere l’output ordinato per frequenza. Questo ti aiuta a identificare quali categorie hanno più e meno conteggi.

Socioeconomico Status

STATUS

Frequenza

Percentuale

Cumulativa
Frequenza

Cumulativo
Percento

5

26

52.00

26

52.00

4

8

16.00

34

68.00

2

7

14.00

41

82.00

3

6

12.00

47

94.00

1

3

6.00

50

100.00

Supponiamo che i vostri dati siano già riassunti in conteggi. In questo caso potete usare l’istruzione WEIGHT per leggere i vostri dati. Per esempio (PROCFREQ2.SAS)

DATI CDS;

INPUT @1 CATEGORIA $9. @10 NUMERO 3.;

DATI;

JAZZ 252

POP 49

CLASSICO 59

iv

RAP 21

GOSPEL 44

JAZZ 21

;

ODS RTF;

PROC FREQ DATA=CDS ORDER=FREQ; WEIGHT NUMBER;

TITLE3 ‘READ IN SUMMARIZED DATA’;

TABLES CATEGORY;

RUN;

ODS RTF CLOSE;

Produce la seguente tabella:

CATEGORIA

Frequenza

Percentuale

Frequenza cumulativa

Cumulativo
Percento

JAZZ

273

61.21

273

61.21

CLASSICO

59

13.23

332

74.44

POP

49

10.99

381

85.43

GOSPEL

44

9.87

425

95.29

RAP

21

4.71

446

100.00

Notate che anche se i dati sono stati riassunti, c’erano due osservazioni nel set di dati per “JAZZ” che sono state combinate in una sola categoria nella tabella.

Testare la bontà dell’adattamento in una tabella a una via

Un test di bontà dell’adattamentofit test di una singola popolazione è un test per determinare se la distribuzione delle frequenze osservate nei dati del campione corrisponde strettamente al numero previsto di occorrenze sotto un’ipotetica distribuzione della popolazione. Le osservazioni dei dati devono essere indipendenti e ogni valore dei dati può essere contato in una e una sola categoria. Si suppone anche che il numero di osservazioni sia fisso. Le ipotesi da testare sono

Ho: La popolazione segue la distribuzione ipotizzata.
Ha: La popolazione non segue la distribuzione ipotizzata.

Una statistica Chi-quadro è il calcolo e una decisione può essere presa in base al p-value associato a questa statistica. Un p-value basso indica il rifiuto dell’ipotesi nulla. Cioè, un basso valore di p indica che i dati non seguono la distribuzione ipotizzata, o teorica.

Per esempio, i dati per questo test provengono da Zar (1999), pagina 465. Secondo una teoria genetica, le piante di pisello incrociate mostrano un rapporto 9:3:3:1 di prole gialla liscia, gialla rugosa, verde liscia, verde rugosa. Su 250 piante, sotto il rapporto teorico (distribuzione) di 9:3:3:1, ci si aspetta circa

(9/16)x250=140.625 piselli gialli lisci (56,25%)
(3/16)x250=46,875 piselli gialli rugosi (18,75%)
(3/16)x250=46,875 piselli verdi lisci (18,75%)
(1/16)x250=15,625 piselli verdi rugosi (6.25%)

Dopo aver coltivato 250 di queste piante di piselli, si osserva che

152 hanno piselli gialli lisci
39 hanno piselli gialli rugosi
53 hanno piselli verdi lisci piselli
6 hanno piselli verdi rugosi

È possibile eseguire questa analisi utilizzando il seguente programma SAS, (PROCFREQ3.SAS)

DATA GENE;

INPUT @1 COLOR $13. @15 NUMERO 3.;

DATI;

GIALLOSMOOTH 152

GIALLOWRINKLE 39

GREENSMOOTH 53

GREENWRINKLE 6

;

* IPOTESI A 9:3:3:1 RATIO;

PROC FREQ DATA=GENE ORDER=DATA; WEIGHT NUMBER;

TITLE3 ‘GOODNESS OF FIT ANALYSIS’;

TABLES COLOR / CHISQ NOCUM TESTP=(0.5625 0.1875 0.1875 0.0625);

RUN;

  • Il CHISQ richiede che venga eseguito un test Chi-Square test

  • La dichiarazione TESTP=() specifica le proporzioni ipotizzate da testare. (Si sarebbe potuto usare TESTF=() e usare invece le frequenze attese)

  • L’opzione NOCUM sopprime le frequenze cumulative

  • Utilizzare l’opzione ORDER=DATA per far sì che SAS visualizzi i dati nello stesso ordine in cui sono inseriti nel set di dati di input.

Il risultato di questa analisi è:

COLORE

Frequenza

Percentuale

Test
Percento

GIALLOSMOOTH

152

60.80

56.25

YELLOWWRINKLE

39

15.60

18.75

GREENSMOOTH

53

21.20

18.75

GREENWRINKLE

6

2.40

6.25

Chi-Square Test
per proporzioni specificate

Chi-Square

8.9724

DF

3

Pr > ChiSq

0.0297

Lascia una risposta

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *