Articles

Didacticiels SAS

Tableaux de fréquence unidirectionnels avec SAS

.Way Frequency Tables using SAS

PROC FREQ

Voir www.stattutorials.com/SASDATA pour les fichiers mentionnés dans ce tutoriel

© TexaSoft, 2006

Ces tutoriels statistiques SAS expliquent brièvement l’utilisation et l’interprétation des techniques d’analyse statistique standard pour la recherche médicale, pharmaceutique, les essais cliniques, le marketing ou la recherche scientifique. Les exemples comprennent des instructions pratiques pour le logiciel SAS

Création de tableaux de fréquence à une voie avec PROC FREQ.Way Frequency Tables with PROC FREQ

Les données qui sont collectées sous forme de comptages nécessitent un type d’analyse de données spécifique. Cela n’a pas de sens de calculer des moyennes et des écarts types sur des données catégorielles. Au lieu de cela, les données catégorielles sont analysées en créant des tableaux de fréquence et des tableaux croisés. La procédure principale de SAS pour ce type d’analyse est PROC FREQ.

Ce tutoriel couvre la création et l’analyse d’un tableau de fréquence à variable unique à l’aide de la procédure PROC FREQ.

La syntaxe de PROC FREQ est la suivante :

PROC FREQ <options> ; spécification TABLES ; <statements>;

Les options couramment utilisées dans PROC FREQ sont :

DATA = (Spécifier le jeu de données à utiliser)

ORDER=FREQ. (Sortie des données par ordre de fréquence)

Une déclaration couramment utilisée avec PROC FREQ est :

BY varlist (Spécifier la liste BY pour créer des analyses sous-ensembles)

L’instruction TABLES est utilisée pour demander quels tableaux seront produits. Par exemple, pour obtenir les comptes du nombre de sujets dans chaque catégorie de GROUPE, utilisez le code :

PROC FREQ ; TABLES GROUP ;

Pour produire un test chi-deux pour la qualité de l’ajustement, utilisez un code tel que

proc freq ;

tables color / chisq nocum testp=(0.5625 0,1875 0,1875 0,0625);

(Voir les détails de ces options plus loin dans le tutoriel.)


Création d’un tableau de fréquence à une voie

Lorsqu’une seule variable est utilisée dans l’instruction TABLES, PROC FREQ produit un tableau de fréquences. Par exemple, en utilisant les données de l’ensemble de données SAS SOMEDATA, le code suivant produit un tableau de fréquences à l’aide des données de la variable STATUS : (PROCFREQ1.SAS)

* ASSUMES QUE VOUS AVEZ UNE BIBLIOTHÈQUE SAS NOMMÉE MYDATA ;

ODS RTF ;

PROC FREQ DATA=MYDATA.SOMEDATA ; TABLES STATUS;

TITLE ‘Simple Example of PROC FREQ’;

RUN;

PROC FREQ DATA=MYDATA.SOMEDATA ORDER=FREQ ; TABLES STATUS;

TITLE ‘Simple Example of PROC FREQ’;

RUN ;

ODS RTF CLOSE;

La sortie de ce travail est :

Statut socio-économique

STATUS

Fréquence

Pourcentage

Cumulatif
Fréquence

Cumulatif
Pourcentage

1

3

6.00

3

6.00

2

7

14.00

10

20.00

3

6

12.00

16

32.00

4

8

16.00

24

48.00

5

26

52.00

50

100.00

La fréquence donne le compte du nombre de fois où la variable STATUS a pris la valeur de la colonne STATUS. La colonne pourcentage donne le pourcentage du total (50). Les colonnes Fréquence et Pourcentage cumulés indiquent un nombre ou un pourcentage croissant pour chaque valeur de STATUS. Utilisez ce type d’analyse pour découvrir la distribution des catégories dans votre ensemble de données. Par exemple, dans ces données, plus de la moitié des sujets appartiennent à la catégorie STATUS=5. Si vous aviez espéré un échantillon représentatif dans chaque catégorie, cela vous montre que ce critère n’a pas été respecté.

Exercice : L’utilisation de la commande Order=Freq ordonne le tableau par fréquence. Modifiez la ligne PROC FREQ comme suit

PROC FREQ Order=Freq ; TABLES STATUS ;

Et réexécutez le programme pour obtenir la sortie triée par fréquence. Cela vous aide à identifier les catégories qui ont le plus et le moins de comptes.

Statut socio-économique Status

STATUS

Frequency

Pourcentage

Cumulatif
Fréquence

.

Cumulatif
Pourcentage

5

26

52.00

26

52.00

4

8

16.00

34

68.00

2

7

14.00

41

82.00

3

6

12.00

47

94.00

1

3

6.00

50

100.00

Supposons que vos données aient déjà été résumées en comptages. Dans ce cas, vous pouvez utiliser l’instruction WEIGHT pour lire vos données. Par exemple (PROCFREQ2.SAS)

DATA CDS;

INPUT @1 CATEGORY $9. @10 NUMÉRO 3.;

DATALINES ;

JAZZ 252

POP 49

CLASSIQUE 59

iv

RAP 21

GOSPEL 44

JAZZ 21

;

ODS RTF;

PROC FREQ DATA=CDS ORDER=FREQ ; WEIGHT NUMBER ;

TITLE3 ‘READ IN SUMMARIZED DATA’;

TABLES CATEGORY ;

RUN;

ODS RTF CLOSE;

Produit le tableau suivant :

CATEGORIE

Fréquence

Pourcentage

Cumulatif
Fréquence

Cumulatif
Percent

JAZZ

273

61.21

273

61.21

CLASSIQUE

59

13.23

332

74.44

POP

49

10.99

381

85.43

GOSPEL

44

9.87

425

95.29

RAP

21

4.71

446

100.00

Remarquez que, bien que les données aient été résumées, il y avait deux observations dans l’ensemble de données pour « JAZZ » qui ont été combinées en une seule catégorie dans le tableau.

Tester la qualité de l’ajustement dans un tableau à une voie

Un test de qualité de l’ajustement d’une population unique est un test de la qualité de l’ajustement.fit d’une population unique est un test visant à déterminer si la distribution des fréquences observées dans les données de l’échantillon correspond étroitement au nombre attendu d’occurrences sous une distribution hypothétique de la population. Les observations de données doivent être indépendantes et chaque valeur de données peut être comptée dans une et une seule catégorie. On suppose également que le nombre d’observations est fixe. Les hypothèses testées sont

Ho : La population suit la distribution hypothétique.
Ha : La population ne suit pas la distribution hypothétique.

Une statistique du chi-deux est calculée et une décision peut être prise en fonction de la valeur p associée à cette statistique. Une valeur p faible indique le rejet de l’hypothèse nulle. Autrement dit, une faible valeur p indique que les données ne suivent pas la distribution hypothétique, ou théorique.

Par exemple, les données pour ce test proviennent de Zar (1999), page 465. Selon une théorie génétique, les plants de pois croisés présentent un ratio de 9:3:3 :1 de descendance jaune lisse, jaune ridée, verte lisse, verte ridée. Sur 250 plantes, en vertu du ratio (distribution) théorique de 9:3:3:1, vous vous attendriez à environ

(9/16)x250=140.625 pois lisses jaunes (56,25%)
(3/16)x250=46,875 pois ridés jaunes (18,75%)
(3/16)x250=46,875 pois lisses verts (18,75%)
(1/16)x250=15,625 pois ridés verts (6.25%)

Après avoir cultivé 250 de ces plants de pois, vous observez que

152 ont des pois jaunes lisses
39 ont des pois jaunes ridés
53 ont des pois verts lisses
6 ont des pois verts ridés. verts lisses
6 ont des pois verts ridés

Vous pouvez effectuer cette analyse en utilisant le programme SAS suivant, (PROCFREQ3.SAS)

DATA GENE;

INPUT @1 COLOR $13. @15 NUMÉRO 3.;

DATALINES ;

YELLOWSMOOTH 152

YELLOWWRINKLE 39

VERTSMOOTH 53

GREENWRINKLE 6

;

* HYPOTHESISER UN 9 :3:3:1 RATIO;

PROC FREQ DATA=GENE ORDER=DATA ; WEIGHT NUMBER ;

TITLE3 ‘GOODNESS OF FIT ANALYSIS’;

TABLES COLOR / CHISQ NOCUM TESTP=(0.5625 0.1875 0.1875 0.0625);

RUN ;

  • Le CHISQ demande qu’un test de Chi-Square soit effectué

  • L’instruction TESTP=() précise les proportions hypothétiques à tester. (Vous auriez pu utiliser l’instruction TESTF=() et utiliser les fréquences attendues à la place.)

  • L’option NOCUM supprime les fréquences cumulées

  • Utilisez l’option ORDER=DATA pour que SAS affiche les données dans le même ordre que celui dans lequel elles sont entrées dans le jeu de données d’entrée.

Le résultat de cette analyse est :

COLOR

Frequency

Pourcentage

Test
Pourcentage

YELLOWSMOOTH

152

60.80

56.25

YELLOWWRINKLE

39

15.60

18.75

GREENSMOOTH

53

21.20

18.75

GREENWRINKLE

6

2.40

6.25

Chi-Square Test
for Specified Proportions

Chi-Square

8.9724

DF

3

Pr > ChiSq

0.0297

.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *