SAS tutorials
Um-Tabelas de Frequência de Via usando SAS
PROC FREQ
Ver www.stattutorials.com/SASDATA para os ficheiros mencionados neste tutorial
© TexaSoft, 2006
Estes tutoriais estatísticos SAS explicam brevemente a utilização e interpretação de técnicas de análise estatística padrão para Medicina, Farmacêutica, Ensaios Clínicos, Marketing ou Investigação Científica. Os exemplos incluem instruções de como fazer para o Software SAS
Criar um…Tabelas de Frequência com PROC FREQ
Os dados que são recolhidos como contagens requerem um tipo específico de análise de dados. Não faz sentido calcular meios e desvios padrão sobre dados categóricos. Em vez disso, os dados categóricos são analisados através da criação de tabelas de frequência e de tabulação cruzada. O procedimento primário dentro da SAS para este tipo de análise é o PROC FREQ.
Este tutorial cobre a criação e análise de uma única tabela de frequência variável usando o procedimento PROC FREQ.
A sintaxe do PROC FREQ é:
PROC FREQ <opções>; especificação de TABELAS; <exposições>;
Opções comummente utilizadas no PROC FREQ é:
DATA = (Especifique que conjunto de dados usar)
ORDEM=FREQ (Dados de saída por ordem de frequência)
Uma declaração comummente usada com PROC FREQ é:
BY varlist (Especifique BY list para criar análises subestabelecidas)
A declaração TABELAS é utilizada para solicitar quais as tabelas que serão produzidas. Por exemplo, para obter contagens do número de assuntos em cada categoria de GRUPO, utilize o código:
PROC FREQ; TABELAS DE GRUPO;
Para produzir um teste de qui-quadrado para a bondade de ajuste, usar código como
proc freq;
tabelas cor / chisq nocum testp=(0.5625 0.1875 0.1875 0.0625);
(Ver detalhes sobre estas opções mais tarde no tutorial.)
Criando uma Tabela de Frequência Unidireccional
Quando apenas uma variável é utilizada na declaração TABELAS, O PROC FREQ produz uma tabela de frequências. Por exemplo, utilizando os dados do conjunto de dados SOMEDATA SAS, o seguinte código produz uma tabela de frequência utilizando dados da variável STATUS: (PROCFREQ1.SAS)
* ESTATUTOS QUE TÊM UMA BIBLIOTECA SAS NOMEADA MYDATA;
ODS RTF;
PROC FREQ DATA=MYDATA.SOMEDATA; TABLES STATUS;
TÍTULO ‘Exemplo Simples de FREQ PROC’;
RUN;
PROC FREQ DATA=MYDATA.SOMEDATA ORDER=FREQ; TABLES STATUS;
TÍTULO ‘Exemplo Simples de FREQ PROC’;
RUN;
ODS RTF CLOSE;
A saída para este trabalho é:
Situação socioeconómica
STATUS
Frequência
Percent
Cumulativo
FrequênciaCumulativo
Percentagem1
3
6.00
3
6.00
2
7
14.00
10
20.00
3
6
12.00
16
32.00
4
8
16.00
24
48.00
5
26
52.00
50
100.00
A frequência dá a contagem do número de vezes que a variável STATUS assumiu o valor na coluna STATUS. A coluna de percentagem é a percentagem do total (50). As colunas de Frequência e Percentagem acumuladas reportam uma contagem crescente ou percentagem para cada valor de STATUS. Utilize este tipo de análise para descobrir a distribuição das categorias no seu conjunto de dados. Por exemplo, nestes dados, mais de metade dos sujeitos enquadram-se na categoria STATUS=5. Se esperava uma amostra representativa em cada categoria, isto mostra-lhe que esse critério não foi cumprido.
Exercício: Usando a Order=Freq ordena a tabela por frequência. Alterar a linha PROC FREQ para ler
PROC FREQ Order=Freq; TABLES STATUS;
E reexecutar o programa para obter a classificação por frequência de saída. Isto ajuda-o a identificar quais as categorias que têm mais e menos contagens.
Socioeconómico Status
STATUS
Frequência
Porcentagem
Cumulativo
FrequênciaCumulativo
Percent5
26
52.00
26
52.00
4
8
16.00
34
68.00
2
7
14.00
41
82.00
3
6
12.00
47
94.00
1
3
6.00
50
100.00
Suponha que os seus dados já estavam resumidos em contagens. Neste caso pode utilizar a declaração de PESO para ler nos seus dados. Por exemplo (PROCFREQ2.SAS)
DATA CDS;
INPUT @1 CATEGORY $9. @10 NÚMERO 3.;
DATALINES;
JAZZ 252
POP 49
CLASSICAL 59
iv
RAP 21
GOSPEL 44
JAZZ 21
;
ODS RTF;
PROC FREQ DATA=CDS ORDER=FREQ; WEIGHT NUMBER;
TÍTULO3 ‘LEIA EM DADOS RESUMIDOS’;
CATEGORIA DE TABELAS
RUN;
ODS RTF CLOSE;
Produz a seguinte tabela:
CATEGORIA
Frequência
Percentagem
Cumulativo
FrequênciaCumulativo
PercentualJAZZ
273
61.21
273
61.21
CLASSICAL
59
13.23
332
74.44
POP
49
10.99
381
85.43
GOSPEL
44
9.87
425
95.29
RAP
21
4.71
446
100.00
Note-se que embora os dados tenham sido resumidos, havia duas observações no conjunto de dados para “JAZZ” que foram combinadas numa única categoria na tabela.
Testando a bondade do ajuste numa tabela unidireccional
Uma bondade do ajuste numa tabela unidireccional
Uma bondade do ajuste numa tabela unidireccionalteste de ajuste de uma única população é um teste para determinar se a distribuição das frequências observadas nos dados da amostra corresponde de perto ao número esperado de ocorrências sob uma distribuição hipotética da população. As observações de dados devem ser independentes e cada valor de dados pode ser contado numa e apenas numa categoria. Assume-se também que o número de observações é fixo. As hipóteses em teste são
Ho: A população segue a distribuição hipotética.
Ha: A população não segue a distribuição hipotética.
Uma estatística qui-quadrada é calculada e pode ser tomada uma decisão com base no p-valor associado a essa estatística. Um baixo valor de p indica rejeição da hipótese nula. Ou seja, um baixo valor de p indica que os dados não seguem a distribuição da hipótese, ou teórica.
Por exemplo, os dados para este teste provêm de Zar (1999), página 465. De acordo com uma teoria genética, as plantas de ervilha de cruzamento mostram uma proporção de 9:3:3:1 de descendência amarela lisa, amarela enrugada, verde lisa, verde enrugada. De 250 plantas, sob a razão teórica (distribuição) de 9:3:3:1, seria de esperar cerca de
(9/16)x250=140.625 ervilhas amarelas lisas (56,25%)
(3/16)x250=46,875 ervilhas amarelas rugosas (18,75%)
(3/16)x250=46,875 ervilhas verdes lisas (18,75%)
(1/16)x250=15,625 ervilhas verdes rugosas (6.25%)
Após o cultivo de 250 destas plantas de ervilha, observa que
152 têm ervilhas lisas amarelas
39 têm ervilhas amarelas enrugadas
53 têm ervilhas verdes lisas ervilhas
6 têm ervilhas verdes enrugadas
Pode efectuar esta análise utilizando o seguinte programa SAS, (PROCFREQ3.SAS)
DATA GENE;
INPUT @1 COLOR $13. @15 NÚMERO 3.;
DATALINES;
YELLOWSMOOTH 152
YELLOWWRINKLE 39
GREENSMOOTH 53
GREENWRINKLE 6
;
* HYPOTHESIZING A 9:3:3:1 RATIO;
PROC FREQ DATA=PEDIDO DE GÊNERO=DATA; NÚMERO DE PESO;
TÍTULO3 ‘BOA ANÁLISE DE ADEQUAÇÃO’;
TABELAS COLORES / CHISQ NOCUM TESTP=(0.5625 0.1875 0.1875 0.0625);
RUN;
O CHISQ solicita que um Chi-Teste de quadrado a ser realizado
A declaração TESTP=() especifica as proporções hipotéticas a serem testadas. (Poderia ter utilizado o TESTF=() e utilizado frequências esperadas em vez disso.)
A opção NOCUM suprime frequências acumuladas
Utiliza a opção ORDER=DATA para fazer com que SAS exiba dados na mesma ordem em que são introduzidos no conjunto de dados de entrada.
O resultado desta análise é:
COLOR |
Frequência |
Percent |
Test |
YELLOWSMOOTH |
152 |
60.80 |
56.25 |
YELLOWWRINKLE |
39 |
15.60 |
18.75 |
GREENSMOOTH |
53 |
21.20 |
18.75 |
GREENWRINKLE |
6 |
2.40 |
6.25 |
Chi-Teste Quadrado |
|
Chi-Quadrado |
8.9724 |
DF |
3 |
Pr > ChiSq |
0.0297 |