Articles

SAS tutorials

Um-Tabelas de Frequência de Via usando SAS

PROC FREQ

Ver www.stattutorials.com/SASDATA para os ficheiros mencionados neste tutorial

© TexaSoft, 2006

Estes tutoriais estatísticos SAS explicam brevemente a utilização e interpretação de técnicas de análise estatística padrão para Medicina, Farmacêutica, Ensaios Clínicos, Marketing ou Investigação Científica. Os exemplos incluem instruções de como fazer para o Software SAS

Criar um…Tabelas de Frequência com PROC FREQ

Os dados que são recolhidos como contagens requerem um tipo específico de análise de dados. Não faz sentido calcular meios e desvios padrão sobre dados categóricos. Em vez disso, os dados categóricos são analisados através da criação de tabelas de frequência e de tabulação cruzada. O procedimento primário dentro da SAS para este tipo de análise é o PROC FREQ.

Este tutorial cobre a criação e análise de uma única tabela de frequência variável usando o procedimento PROC FREQ.

A sintaxe do PROC FREQ é:

PROC FREQ <opções>; especificação de TABELAS; <exposições>;

Opções comummente utilizadas no PROC FREQ é:

DATA = (Especifique que conjunto de dados usar)

ORDEM=FREQ (Dados de saída por ordem de frequência)

Uma declaração comummente usada com PROC FREQ é:

BY varlist (Especifique BY list para criar análises subestabelecidas)

A declaração TABELAS é utilizada para solicitar quais as tabelas que serão produzidas. Por exemplo, para obter contagens do número de assuntos em cada categoria de GRUPO, utilize o código:

PROC FREQ; TABELAS DE GRUPO;

Para produzir um teste de qui-quadrado para a bondade de ajuste, usar código como

proc freq;

tabelas cor / chisq nocum testp=(0.5625 0.1875 0.1875 0.0625);

(Ver detalhes sobre estas opções mais tarde no tutorial.)


Criando uma Tabela de Frequência Unidireccional

Quando apenas uma variável é utilizada na declaração TABELAS, O PROC FREQ produz uma tabela de frequências. Por exemplo, utilizando os dados do conjunto de dados SOMEDATA SAS, o seguinte código produz uma tabela de frequência utilizando dados da variável STATUS: (PROCFREQ1.SAS)

* ESTATUTOS QUE TÊM UMA BIBLIOTECA SAS NOMEADA MYDATA;

ODS RTF;

PROC FREQ DATA=MYDATA.SOMEDATA; TABLES STATUS;

TÍTULO ‘Exemplo Simples de FREQ PROC’;

RUN;

PROC FREQ DATA=MYDATA.SOMEDATA ORDER=FREQ; TABLES STATUS;

TÍTULO ‘Exemplo Simples de FREQ PROC’;

RUN;

ODS RTF CLOSE;

A saída para este trabalho é:

Situação socioeconómica

STATUS

Frequência

Percent

Cumulativo
Frequência

Cumulativo
Percentagem

1

3

6.00

3

6.00

2

7

14.00

10

20.00

3

6

12.00

16

32.00

4

8

16.00

24

48.00

5

26

52.00

50

100.00

A frequência dá a contagem do número de vezes que a variável STATUS assumiu o valor na coluna STATUS. A coluna de percentagem é a percentagem do total (50). As colunas de Frequência e Percentagem acumuladas reportam uma contagem crescente ou percentagem para cada valor de STATUS. Utilize este tipo de análise para descobrir a distribuição das categorias no seu conjunto de dados. Por exemplo, nestes dados, mais de metade dos sujeitos enquadram-se na categoria STATUS=5. Se esperava uma amostra representativa em cada categoria, isto mostra-lhe que esse critério não foi cumprido.

Exercício: Usando a Order=Freq ordena a tabela por frequência. Alterar a linha PROC FREQ para ler

PROC FREQ Order=Freq; TABLES STATUS;

E reexecutar o programa para obter a classificação por frequência de saída. Isto ajuda-o a identificar quais as categorias que têm mais e menos contagens.

Socioeconómico Status

STATUS

Frequência

Porcentagem

Cumulativo
Frequência

Cumulativo
Percent

5

26

52.00

26

52.00

4

8

16.00

34

68.00

2

7

14.00

41

82.00

3

6

12.00

47

94.00

1

3

6.00

50

100.00

Suponha que os seus dados já estavam resumidos em contagens. Neste caso pode utilizar a declaração de PESO para ler nos seus dados. Por exemplo (PROCFREQ2.SAS)

DATA CDS;

INPUT @1 CATEGORY $9. @10 NÚMERO 3.;

DATALINES;

JAZZ 252

POP 49

CLASSICAL 59

iv

RAP 21

GOSPEL 44

JAZZ 21

;

ODS RTF;

PROC FREQ DATA=CDS ORDER=FREQ; WEIGHT NUMBER;

TÍTULO3 ‘LEIA EM DADOS RESUMIDOS’;

CATEGORIA DE TABELAS

RUN;

ODS RTF CLOSE;

Produz a seguinte tabela:

CATEGORIA

Frequência

Percentagem

Cumulativo
Frequência

Cumulativo
Percentual

JAZZ

273

61.21

273

61.21

CLASSICAL

59

13.23

332

74.44

POP

49

10.99

381

85.43

GOSPEL

44

9.87

425

95.29

RAP

21

4.71

446

100.00

Note-se que embora os dados tenham sido resumidos, havia duas observações no conjunto de dados para “JAZZ” que foram combinadas numa única categoria na tabela.

Testando a bondade do ajuste numa tabela unidireccional

Uma bondade do ajuste numa tabela unidireccional

Uma bondade do ajuste numa tabela unidireccionalteste de ajuste de uma única população é um teste para determinar se a distribuição das frequências observadas nos dados da amostra corresponde de perto ao número esperado de ocorrências sob uma distribuição hipotética da população. As observações de dados devem ser independentes e cada valor de dados pode ser contado numa e apenas numa categoria. Assume-se também que o número de observações é fixo. As hipóteses em teste são

Ho: A população segue a distribuição hipotética.
Ha: A população não segue a distribuição hipotética.

Uma estatística qui-quadrada é calculada e pode ser tomada uma decisão com base no p-valor associado a essa estatística. Um baixo valor de p indica rejeição da hipótese nula. Ou seja, um baixo valor de p indica que os dados não seguem a distribuição da hipótese, ou teórica.

Por exemplo, os dados para este teste provêm de Zar (1999), página 465. De acordo com uma teoria genética, as plantas de ervilha de cruzamento mostram uma proporção de 9:3:3:1 de descendência amarela lisa, amarela enrugada, verde lisa, verde enrugada. De 250 plantas, sob a razão teórica (distribuição) de 9:3:3:1, seria de esperar cerca de

(9/16)x250=140.625 ervilhas amarelas lisas (56,25%)
(3/16)x250=46,875 ervilhas amarelas rugosas (18,75%)
(3/16)x250=46,875 ervilhas verdes lisas (18,75%)
(1/16)x250=15,625 ervilhas verdes rugosas (6.25%)

Após o cultivo de 250 destas plantas de ervilha, observa que

152 têm ervilhas lisas amarelas
39 têm ervilhas amarelas enrugadas
53 têm ervilhas verdes lisas ervilhas
6 têm ervilhas verdes enrugadas

Pode efectuar esta análise utilizando o seguinte programa SAS, (PROCFREQ3.SAS)

DATA GENE;

INPUT @1 COLOR $13. @15 NÚMERO 3.;

DATALINES;

YELLOWSMOOTH 152

YELLOWWRINKLE 39

GREENSMOOTH 53

GREENWRINKLE 6

;

* HYPOTHESIZING A 9:3:3:1 RATIO;

PROC FREQ DATA=PEDIDO DE GÊNERO=DATA; NÚMERO DE PESO;

TÍTULO3 ‘BOA ANÁLISE DE ADEQUAÇÃO’;

TABELAS COLORES / CHISQ NOCUM TESTP=(0.5625 0.1875 0.1875 0.0625);

RUN;

  • O CHISQ solicita que um Chi-Teste de quadrado a ser realizado

  • A declaração TESTP=() especifica as proporções hipotéticas a serem testadas. (Poderia ter utilizado o TESTF=() e utilizado frequências esperadas em vez disso.)

  • A opção NOCUM suprime frequências acumuladas

  • Utiliza a opção ORDER=DATA para fazer com que SAS exiba dados na mesma ordem em que são introduzidos no conjunto de dados de entrada.

O resultado desta análise é:

COLOR

Frequência

Percent

Test
Percent

YELLOWSMOOTH

152

60.80

56.25

YELLOWWRINKLE

39

15.60

18.75

GREENSMOOTH

53

21.20

18.75

GREENWRINKLE

6

2.40

6.25

Chi-Teste Quadrado
para Proporções Especificadas

Chi-Quadrado

8.9724

DF

3

Pr > ChiSq

0.0297

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *