análise de variância

Análise de Variância

Wagner Oliveira de Araujo

Technical Report - RT-MSTMA_001-09 - RelatórioTécnico

April - 2009 - Abril

The contents of this document are the sole responsibility of the authors.O conteúdo do presente documento é de única responsabilidade dos autores.

Mestrado Sociedade, Tenologia e Meio AmbienteCentro Universitário de Anápolis

www.unievangelica.edu.br

Análise de Variância

Wagner Oliveira de Araujo ∗

[email protected]

Clarimar Jose Coelho †

[email protected]

Resumo. Este meta-artigo descreve uma síntese da Análise Univariada de Variância,técnica estatística para determinar, com base em uma medida dependente, se váriasamostras são oriundas de populações com médias iguais.

1 Introduçãoa) A análise da variância é uma técnica que pode ser usada para determinar se as médias de

duas ou mais populações são iguais. ANalysis Of Variance (ANOVA);

b) Permite determinar se as médias de 2 ou mais populações são iguais.

c) População: o grupo (universo) do qual se extrai a amostra

d) Amostra: parcela do grupo examinada

e) Suposições:

- As amostras devem ser aleatórias e independentes

- As amostras devem ser extraídas de populações normais

- As populações devem ter variâncias iguais, isto é:

σ21 = σ2

3 = σ22 = . . . = σ2

k (1)

Observações:Média

y =1

n

n∑i=1

yi

Variância =

s2 =1

n− 1

n∑i=1

(yi − y)2

Covariância =

Sxy =

∑ni=1(xiyi − nx y)

n− 1

∗Mestrando em Sociedade, Tecnologia e Meio Ambiente – Responsável pelo texto do artigo.†Orientador, Centro Universitário de Anápolis – UniEVAGÉLICA

1

2

Tabela 1: Dados de QuilometragemTipos de Gasolina

Observação 1 2 3 41 15,1 14,9 15,4 15,62 15,0 15,2 15,2 15,53 14,9 14,9 16,1 15,84 15,7 14,8 15,3 15,35 15,4 14,9 15,2 15,76 15,1 15,3 15,2 15,7

Médias Amostrais 15,2 15,0 15,4 15,6Variâncias Amostrais 0,088 0,040 0,124 0,032

Tabela 2: Extrai-se uma amostra de cada população e, para cada uma delas, calcula-se a médiae a variância.

População 1 População 2 População 3 População kParâmetros desconhecidos µ1 µ2 µ3 µk

σ1 σ2 σ3 σk

↓ ↓ ↓ ↓Estatística Amostral x1 x2 x3 xk

s21 s2

2 s23 s2

k

• Duas hipóteses possíveis:

– H0: as médias das populações são todas iguais (nula);

– H1: as médias das populações não são iguais (alternativa).

• Se a hipótese nula for verdadeira: diferenças devidas à variações aleatórias nas amostras

• Caso contrário as diferenças são muito grandes para serem causadas apenas devido aaleatoriedade

• Fundamentos lógicos:

– Se H0 é verdadeira: conceitualmente idêntico a uma situação em que todas as amos-tras tenham sido tiradas de uma única população

– Se H0 é "falsa": as amostras vêm de populações com médias diferentes (mas nor-mais e com variâncias iguais)

• Variância populacional é a média das variâncias amostrais.

– Variância "dentro":

S2w =

s21+s2

2+s23+s2

4+...+s2k

K

s21 = variância da amostra 1

s22 = variância da amostra 2

...s2

k = variância da amostra kK = número de amostras

3

Veja Tabela 1 página 2

S2w =

0, 088 + 0, 040 + 0, 124 + 0, 032

4(2)

0, 2840

4= 0, 0710 (3)

• Estimativa "dentro"da variância não é afetada pela veracidade de H0 => não pode serusada sozinha para julgar se as médias populacionais são iguais;

• Estimativa "entre"da variância é sensível às diferenças das médias populacionais.

• Desvio padrão da distribuição amostral é:

– σx = σx√n

• σx => desvio padrão da população

• n = tamanho da amostra

• Não conhecemos o desvio padrão da distribuição amostral, neste caso, usa-se o desviopadrão da distribuição da qual se extraiu a amostra;

• A determinação da variância das médias amostrais possibilita estimar a variância da dis-tribuição da qual se extraiu a amostra.

– S2x =

S2b

n

• Estimativa "entre"da variância (Sb): Veja Tabela 1 página 2

• Calcular a média das médias amostrais:

– x =∑k

j=1 xj = 15,2 + 15,0 + 15,4 + 15,64

= 15, 3

• Calcular S2x

– S2x =

∑kj=1(xj−x)2

k−1= (15,2−15,3)2+(15,0−15,3)2+(15,4−15,3)2+(15,6−15,3)2

4−1= 0, 067

• Sendo n o número de amostras (observações) teremos:

– S2b = ns2

x = 6(0, 067) = 0, 402

• Comparando com a variância "dentro":

– S2w = 0, 071

• S2b > S2

w

– 0, 402 > 0, 071

• Temos então 2 estimativas da variância populacional.

– Se H0 é verdadeira S2b∼= S2

w

– Se H0 é falsa S2b > S2

w

4

Figura 1: Teste de hipótese

• No nosso exemplo sabemos que Sb é maior, mas não sabemos se é significativamentemaior (a variação casual devida a amostragem pode ser responsável por isso).

• Calculemos então a razão F : RazãoF =S2

b

S2w

• O valor obtido com a estatística é comparado com uma tabela de valores F

• As formas da distribuição F variam de acordo com os graus de liberdade do numerador edenominador. Ver Figura 2

Figura 2: Grau de liberdade do numerador e denominador

• Os graus de liberdade são calculados como:

– Numerador: número de amostras menos 1 (k − 1)

– Denominador: número de amostras x (tamanho da amostra -1) {k[n− 1]}– Exemplo: (k−1)

{k[n−1]} = 4−14(6−1)

= 320

• Utilização da tabela F

– Representam a linha divisória entre o aleatório e o não aleatório;

– Compara-se a razão F calculada com o valor tabelado

– Se o valor calculado for maior que o tabelado rejeitasse a hipótese nula. Ver Figura3

5

Figura 3: Rejeitando a hipótese nula

Figura 4: Maior que o tabulado

• Lembrando . . . F =S2

b

S2w

= 0,4020,071

= 5, 661 ≈ 5, 70

• Este valor é maior que o tabulado => rejeita-se H0. Ver Figura 4

• Atualmente os programas estatísticos fornecem diretamente o valor p

Tabela 3: FontesFonte de variação Soma de quadrados G.L. Variância Razão Fentre médias n

∑kj=1(xj − x)2 ÷ k − 1 = S2

b F = S2x

S2w

dentro de amostras ÷ k(n− 1) = S2w

Total kn− 1k = número de amos-trasn = número de obser-vações em cada amos-trank = número total deobservaçõesNota: i se refere às linhas, e j às colunas

1.1 Utilizando MatlabUtilizaremos o software Matlab 6.5 para gerar os resultados de nosso exemplo.

6

Tabela 4: Exemplo de tabela amostralAmostra

Observações 1 2 3 . . .n1 x1 x1 x1 . . . x1

n2 x2 x2 x2 . . . x2

n3 x3 x3 x3 . . . x3

n4...

......

...n5

n6 xn xn xn . . . xn

Médias Amostrais x1 x2 x3 . . . xk

Exemplo 1 – Código Entrada e Saída MatLab1 %Valores de Entrada2 X=[15.1,14.9,15.4,15.6; 15.0,15.2,15.2,15.5;3 14.9,14.9,16.1,15.8; 15.7,14.8,15.3,15.3;4 15.4,14.9,15.2,15.7; 15.1,15.3,15.2,15.7]5 p = anova1(X)6

7

8 %Valores de Saída9

10 X =11

12 15.1000 14.9000 15.4000 15.600013 15.0000 15.2000 15.2000 15.500014 14.9000 14.9000 16.1000 15.800015 15.7000 14.8000 15.3000 15.300016 15.4000 14.9000 15.2000 15.700017 15.1000 15.3000 15.2000 15.700018

19

20 p =21

22 0.005823

24 >>

Resultado produzido no MatLab:

7

(a) Execução de resultados

1 2 3 4

14.8

15

15.2

15.4

15.6

15.8

16

Val

ues

Column Number

(b) Plotagem do gráfico

Figura 5: Resultado da execução juntamente com o gráfico

8

ReferênciasFREUND, J. E.; SIMON, G. A. Estatística Aplicada: economia, administração e contabili-

dade. 9.ed. Porto Alegre: Bookman, 1997.

HAIR, J. F.; ANDERSON, R. E.; TATHAM, R. L.; BLACK, W. C. Multivariate Data Analsys.5.ed. New Jersey-USA: Prentice-Hall, 1998.

MANLY, B. J. F. Métodos Estatísticos Multivariados: uma introdução. 3.ed. Porto Alegre:Bookman, 2005.

RENCHER, A. C. Methods of Multivariate Analysis. 2.ed. Nova York: John Wiley & Sons,Inc, 2002.

STEVENSON, W. J. Estatística: aplicada à administração. 1.ed. São Paulo: HARBRA, 2001.

análise de variância

Documents