Articles

SAS-Tutorials

Ein-Way Frequency Tables using SAS

PROC FREQ

Siehe www.stattutorials.com/SASDATA für die in diesem Tutorial erwähnten Dateien

© TexaSoft, 2006

Diese SAS-Statistik-Tutorials erklären kurz die Anwendung und Interpretation von statistischen Standard-Analysetechniken für medizinische, pharmazeutische, klinische Studien, Marketing oder wissenschaftliche Forschung. Die Beispiele enthalten Anleitungen für die SAS Software

Erstellen von Einweg-Häufigkeitstabellen mitWay Frequency Tables mit PROC FREQ

Daten, die als Zählungen erfasst werden, erfordern eine besondere Art der Datenanalyse. Es macht keinen Sinn, Mittelwerte und Standardabweichungen für kategoriale Daten zu berechnen. Stattdessen werden kategoriale Daten durch die Erstellung von Häufigkeits- und Kreuztabellen analysiert. Die primäre Prozedur in SAS für diese Art der Analyse ist PROC FREQ.

Dieses Tutorial behandelt die Erstellung und Analyse einer Häufigkeitstabelle für eine einzelne Variable mit Hilfe der PROC FREQ-Prozedur.

Die Syntax für PROC FREQ lautet:

PROC FREQ <options>; TABLES Angabe; <Angaben>;

Häufig verwendete Optionen in PROC FREQ sind:

DATA = (Geben Sie an, welcher Datensatz verwendet werden soll)

ORDER=FREQ (Daten in Häufigkeitsreihenfolge ausgeben)

Eine häufig verwendete Anweisung, die mit PROC FREQ verwendet wird, ist:

BY varlist (BY-Liste angeben, um subsettierte Analysen zu erstellen)

Die TABLES-Anweisung wird verwendet, um abzufragen, welche Tabellen erzeugt werden sollen. Um z. B. die Anzahl der Probanden in den einzelnen GRUPPEN-Kategorien zu erhalten, verwenden Sie diesen Code:

PROC FREQ; TABLES GROUP;

Um einen Chi-Quadrat-Test für die Anpassungsgüte zu erzeugen, verwenden Sie Code wie

proc freq;

tables color / chisq nocum testp=(0.5625 0.1875 0.1875 0.0625);

(Details zu diesen Optionen finden Sie später im Lernprogramm.)


Erstellen einer einseitigen Häufigkeitstabelle

Wenn nur eine Variable in der TABLES-Anweisung verwendet wird, PROC FREQ erzeugt eine Häufigkeitstabelle. Zum Beispiel erzeugt der folgende Code unter Verwendung der Daten aus dem SAS-Datensatz SOMEDATA eine Häufigkeitstabelle unter Verwendung der Daten in der Variable STATUS: (PROCFREQ1.SAS)

* Setzt voraus, dass Sie eine SAS-BIBRARY MIT DEM NAMEN MYDATA haben;

ODS RTF;

PROC FREQ DATA=MYDATA.SOMEDATA; TABLES STATUS;

TITLE ‚Einfaches Beispiel für PROC FREQ‘;

RUN;

PROC FREQ DATA=MYDATA.SOMEDATA ORDER=FREQ; TABLES STATUS;

TITLE ‚Einfaches Beispiel für PROC FREQ‘;

RUN;

ODS RTF CLOSE;

Die Ausgabe für diesen Job ist:

Sozioökonomischer Status

STATUS

Häufigkeit

Prozent

Kumulative
Häufigkeit

Kumulativ
Prozent

1

3

6.00

3

6.00

2

7

14.00

10

20.00

3

6

12.00

16

32.00

4

8

16.00

24

48.00

5

26

52.00

50

100.00

Die Häufigkeit gibt die Anzahl an, wie oft die Variable STATUS den Wert in der Spalte STATUS annahm. Die Prozentspalte gibt den Prozentsatz der Summe (50) an. Die Spalten „Kumulative Häufigkeit“ und „Prozent“ geben eine steigende Anzahl oder einen steigenden Prozentsatz für jeden Wert von STATUS an. Verwenden Sie diese Art der Analyse, um die Verteilung der Kategorien in Ihrem Datensatz zu ermitteln. In diesen Daten fällt zum Beispiel über die Hälfte der Probanden in die Kategorie STATUS=5. Wenn Sie auf eine repräsentative Stichprobe in jeder Kategorie gehofft hatten, zeigt Ihnen dies, dass dieses Kriterium nicht erfüllt wurde.

Übung: Mit Order=Freq ordnen Sie die Tabelle nach Häufigkeit. Ändern Sie die PROC FREQ-Zeile wie folgt

PROC FREQ Order=Freq; TABLES STATUS;

Und führen Sie das Programm erneut aus, um die nach Häufigkeit sortierte Ausgabe zu erhalten. So können Sie erkennen, welche Kategorien die meisten und welche die wenigsten Zählungen haben.

Sozioökonomischer Status

STATUS

Frequenz

Prozent

Kumulierte
Häufigkeit

Kumulativ
Prozent

5

26

52.00

26

52.00

4

8

16.00

34

68.00

2

7

14.00

41

82.00

3

6

12.00

47

94.00

1

3

6.00

50

100.00

Angenommen, Ihre Daten wurden bereits zu Zählungen zusammengefasst. In diesem Fall können Sie die Anweisung WEIGHT verwenden, um Ihre Daten einzulesen. Zum Beispiel (PROCFREQ2.SAS)

DATA CDS;

INPUT @1 CATEGORY $9. @10 NUMMER 3.;

DATALINEN;

JAZZ 252

POP 49

CLASSICAL 59

iv

RAP 21

GOSPEL 44

JAZZ 21

;

ODS RTF;

PROC FREQ DATA=CDS ORDER=FREQ; WEIGHT NUMBER;

TITLE3 ‚READ IN SUMMARIZED DATA‘;

TABLES CATEGORY;

RUN;

ODS RTF CLOSE;

Erzeugt die folgende Tabelle:

KATEGORIE

Häufigkeit

Prozent

Kumulative
Häufigkeit

Kumulativ
Prozent

JAZZ

273

61.21

273

61.21

CLASSICAL

59

13.23

332

74.44

POP

49

10.99

381

85.43

GOSPEL

44

9.87

425

95.29

RAP

21

4.71

446

100.00

Beachten Sie, dass, obwohl die Daten zusammengefasst wurden, es zwei Beobachtungen im Datensatz für „JAZZ“ gab, die in der Tabelle zu einer einzigen Kategorie zusammengefasst wurden.

Testen der Anpassungsgüte in einer einseitigen Tabelle

Ein AnpassungsgüteFit-Test einer einzelnen Population ist ein Test, um festzustellen, ob die Verteilung der beobachteten Häufigkeiten in den Stichprobendaten mit der erwarteten Anzahl des Auftretens unter einer hypothetischen Verteilung der Population genau übereinstimmt. Die Datenbeobachtungen müssen unabhängig sein und jeder Datenwert kann in einer und nur einer Kategorie gezählt werden. Es wird auch angenommen, dass die Anzahl der Beobachtungen fest ist. Die zu testenden Hypothesen sind

Ho: Die Grundgesamtheit folgt der hypothetischen Verteilung.
Ha: Die Grundgesamtheit folgt nicht der hypothetischen Verteilung.

Eine Chi-Quadrat-Statistik wird berechnet und eine Entscheidung kann auf der Grundlage des p-Wertes getroffen werden, der mit dieser Statistik verbunden ist. Ein niedriger p-Wert zeigt die Ablehnung der Nullhypothese an. Das heißt, ein niedriger p-Wert zeigt an, dass die Daten nicht der hypothetischen oder theoretischen Verteilung folgen.

Die Daten für diesen Test stammen zum Beispiel aus Zar (1999), Seite 465. Nach einer genetischen Theorie zeigen gekreuzte Erbsenpflanzen ein Verhältnis von 9:3:3:1 von gelben glatten, gelben faltigen, grünen glatten, grünen faltigen Nachkommen. Von 250 Pflanzen würde man bei dem theoretischen Verhältnis (Verteilung) von 9:3:3:1 etwa

(9/16)x250=140 erwarten.625 gelbe glatte Erbsen (56,25%)
(3/16)x250=46,875 gelbe faltige Erbsen (18,75%)
(3/16)x250=46,875 grüne glatte Erbsen (18,75%)
(1/16)x250=15,625 grüne faltige Erbsen (6.25%)

Nach dem Anbau von 250 dieser Erbsenpflanzen, stellen Sie fest, dass

152 gelbe glatte Erbsen haben
39 gelbe runzelige Erbsen haben
53 grüne glatte Erbsen haben Erbsen
6 haben grüne faltige Erbsen

Sie können diese Analyse mit dem folgenden SAS-Programm durchführen, (PROCFREQ3.SAS)

DATA GENE;

INPUT @1 COLOR $13. @15 NUMBER 3.;

DATALINEN;

GELBSTOFF 152

GELBWRINKEL 39

GREENSMOOTH 53

GREENWRINKLE 6

;

* HYPOTHESIZING A 9:3:3:1 RATIO;

PROC FREQ DATA=GENE ORDER=DATA; WEIGHT NUMBER;

TITLE3 ‚GUTES GEWICHT ANALYSE‘;

TABLES COLOR / CHISQ NOCUM TESTP=(0.5625 0.1875 0.1875 0.0625);

RUN;

  • Der CHISQ verlangt, dass ein Chi-Square-Test durchgeführt wird

  • Die Anweisung TESTP=() gibt die zu testenden hypothetischen Proportionen an. (Sie hätten auch die Anweisung TESTF=() verwenden können und stattdessen erwartete Häufigkeiten verwenden können.)

  • Die Option NOCUM unterdrückt kumulative Häufigkeiten

  • Verwenden Sie die Option ORDER=DATA, um SAS zu veranlassen, die Daten in der gleichen Reihenfolge anzuzeigen, wie sie im Eingabedatensatz eingegeben wurden.

Das Ergebnis dieser Analyse ist:

FARBE

Frequenz

Prozent

Test
Prozent

YELLOWSMOOTH

152

60.80

56.25

YELLOWWRINKLE

39

15.60

18.75

GREENSMOOTH

53

21.20

18.75

GREENWRINKLE

6

2.40

6.25

Chi-Quadratischer Test
für vorgegebene Proportionen

Chi-Quadrat

8.9724

DF

3

Pr > ChiSq

0.0297

Eine Antwort schreiben

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.