análise de variância
DESCRIPTION
Este meta-artigo descreve uma síntese da Análise Univariada de Variância, técnica estatística para determinar, com base em uma medida dependente, se várias amostras são oriundas de populações com médias iguais.TRANSCRIPT
Análise de Variância
Wagner Oliveira de Araujo
Technical Report - RT-MSTMA_001-09 - RelatórioTécnico
April - 2009 - Abril
The contents of this document are the sole responsibility of the authors.O conteúdo do presente documento é de única responsabilidade dos autores.
Mestrado Sociedade, Tenologia e Meio AmbienteCentro Universitário de Anápolis
www.unievangelica.edu.br
Análise de Variância
Wagner Oliveira de Araujo ∗
Clarimar Jose Coelho †
Resumo. Este meta-artigo descreve uma síntese da Análise Univariada de Variância,técnica estatística para determinar, com base em uma medida dependente, se váriasamostras são oriundas de populações com médias iguais.
1 Introduçãoa) A análise da variância é uma técnica que pode ser usada para determinar se as médias de
duas ou mais populações são iguais. ANalysis Of Variance (ANOVA);
b) Permite determinar se as médias de 2 ou mais populações são iguais.
c) População: o grupo (universo) do qual se extrai a amostra
d) Amostra: parcela do grupo examinada
e) Suposições:
- As amostras devem ser aleatórias e independentes
- As amostras devem ser extraídas de populações normais
- As populações devem ter variâncias iguais, isto é:
σ21 = σ2
3 = σ22 = . . . = σ2
k (1)
Observações:Média
y =1
n
n∑i=1
yi
Variância =
s2 =1
n− 1
n∑i=1
(yi − y)2
Covariância =
Sxy =
∑ni=1(xiyi − nx y)
n− 1
∗Mestrando em Sociedade, Tecnologia e Meio Ambiente – Responsável pelo texto do artigo.†Orientador, Centro Universitário de Anápolis – UniEVAGÉLICA
1
2
Tabela 1: Dados de QuilometragemTipos de Gasolina
Observação 1 2 3 41 15,1 14,9 15,4 15,62 15,0 15,2 15,2 15,53 14,9 14,9 16,1 15,84 15,7 14,8 15,3 15,35 15,4 14,9 15,2 15,76 15,1 15,3 15,2 15,7
Médias Amostrais 15,2 15,0 15,4 15,6Variâncias Amostrais 0,088 0,040 0,124 0,032
Tabela 2: Extrai-se uma amostra de cada população e, para cada uma delas, calcula-se a médiae a variância.
População 1 População 2 População 3 População kParâmetros desconhecidos µ1 µ2 µ3 µk
σ1 σ2 σ3 σk
↓ ↓ ↓ ↓Estatística Amostral x1 x2 x3 xk
s21 s2
2 s23 s2
k
• Duas hipóteses possíveis:
– H0: as médias das populações são todas iguais (nula);
– H1: as médias das populações não são iguais (alternativa).
• Se a hipótese nula for verdadeira: diferenças devidas à variações aleatórias nas amostras
• Caso contrário as diferenças são muito grandes para serem causadas apenas devido aaleatoriedade
• Fundamentos lógicos:
– Se H0 é verdadeira: conceitualmente idêntico a uma situação em que todas as amos-tras tenham sido tiradas de uma única população
– Se H0 é "falsa": as amostras vêm de populações com médias diferentes (mas nor-mais e com variâncias iguais)
• Variância populacional é a média das variâncias amostrais.
– Variância "dentro":
S2w =
s21+s2
2+s23+s2
4+...+s2k
K
s21 = variância da amostra 1
s22 = variância da amostra 2
...s2
k = variância da amostra kK = número de amostras
3
Veja Tabela 1 página 2
S2w =
0, 088 + 0, 040 + 0, 124 + 0, 032
4(2)
0, 2840
4= 0, 0710 (3)
• Estimativa "dentro"da variância não é afetada pela veracidade de H0 => não pode serusada sozinha para julgar se as médias populacionais são iguais;
• Estimativa "entre"da variância é sensível às diferenças das médias populacionais.
• Desvio padrão da distribuição amostral é:
– σx = σx√n
• σx => desvio padrão da população
• n = tamanho da amostra
• Não conhecemos o desvio padrão da distribuição amostral, neste caso, usa-se o desviopadrão da distribuição da qual se extraiu a amostra;
• A determinação da variância das médias amostrais possibilita estimar a variância da dis-tribuição da qual se extraiu a amostra.
– S2x =
S2b
n
• Estimativa "entre"da variância (Sb): Veja Tabela 1 página 2
• Calcular a média das médias amostrais:
– x =∑k
j=1 xj = 15,2 + 15,0 + 15,4 + 15,64
= 15, 3
• Calcular S2x
– S2x =
∑kj=1(xj−x)2
k−1= (15,2−15,3)2+(15,0−15,3)2+(15,4−15,3)2+(15,6−15,3)2
4−1= 0, 067
• Sendo n o número de amostras (observações) teremos:
– S2b = ns2
x = 6(0, 067) = 0, 402
• Comparando com a variância "dentro":
– S2w = 0, 071
• S2b > S2
w
– 0, 402 > 0, 071
• Temos então 2 estimativas da variância populacional.
– Se H0 é verdadeira S2b∼= S2
w
– Se H0 é falsa S2b > S2
w
4
Figura 1: Teste de hipótese
• No nosso exemplo sabemos que Sb é maior, mas não sabemos se é significativamentemaior (a variação casual devida a amostragem pode ser responsável por isso).
• Calculemos então a razão F : RazãoF =S2
b
S2w
• O valor obtido com a estatística é comparado com uma tabela de valores F
• As formas da distribuição F variam de acordo com os graus de liberdade do numerador edenominador. Ver Figura 2
Figura 2: Grau de liberdade do numerador e denominador
• Os graus de liberdade são calculados como:
– Numerador: número de amostras menos 1 (k − 1)
– Denominador: número de amostras x (tamanho da amostra -1) {k[n− 1]}– Exemplo: (k−1)
{k[n−1]} = 4−14(6−1)
= 320
• Utilização da tabela F
– Representam a linha divisória entre o aleatório e o não aleatório;
– Compara-se a razão F calculada com o valor tabelado
– Se o valor calculado for maior que o tabelado rejeitasse a hipótese nula. Ver Figura3
5
Figura 3: Rejeitando a hipótese nula
Figura 4: Maior que o tabulado
• Lembrando . . . F =S2
b
S2w
= 0,4020,071
= 5, 661 ≈ 5, 70
• Este valor é maior que o tabulado => rejeita-se H0. Ver Figura 4
• Atualmente os programas estatísticos fornecem diretamente o valor p
Tabela 3: FontesFonte de variação Soma de quadrados G.L. Variância Razão Fentre médias n
∑kj=1(xj − x)2 ÷ k − 1 = S2
b F = S2x
S2w
dentro de amostras ÷ k(n− 1) = S2w
Total kn− 1k = número de amos-trasn = número de obser-vações em cada amos-trank = número total deobservaçõesNota: i se refere às linhas, e j às colunas
1.1 Utilizando MatlabUtilizaremos o software Matlab 6.5 para gerar os resultados de nosso exemplo.
6
Tabela 4: Exemplo de tabela amostralAmostra
Observações 1 2 3 . . .n1 x1 x1 x1 . . . x1
n2 x2 x2 x2 . . . x2
n3 x3 x3 x3 . . . x3
n4...
......
...n5
n6 xn xn xn . . . xn
Médias Amostrais x1 x2 x3 . . . xk
Exemplo 1 – Código Entrada e Saída MatLab1 %Valores de Entrada2 X=[15.1,14.9,15.4,15.6; 15.0,15.2,15.2,15.5;3 14.9,14.9,16.1,15.8; 15.7,14.8,15.3,15.3;4 15.4,14.9,15.2,15.7; 15.1,15.3,15.2,15.7]5 p = anova1(X)6
7
8 %Valores de Saída9
10 X =11
12 15.1000 14.9000 15.4000 15.600013 15.0000 15.2000 15.2000 15.500014 14.9000 14.9000 16.1000 15.800015 15.7000 14.8000 15.3000 15.300016 15.4000 14.9000 15.2000 15.700017 15.1000 15.3000 15.2000 15.700018
19
20 p =21
22 0.005823
24 >>
Resultado produzido no MatLab:
7
(a) Execução de resultados
1 2 3 4
14.8
15
15.2
15.4
15.6
15.8
16
Val
ues
Column Number
(b) Plotagem do gráfico
Figura 5: Resultado da execução juntamente com o gráfico
8
ReferênciasFREUND, J. E.; SIMON, G. A. Estatística Aplicada: economia, administração e contabili-
dade. 9.ed. Porto Alegre: Bookman, 1997.
HAIR, J. F.; ANDERSON, R. E.; TATHAM, R. L.; BLACK, W. C. Multivariate Data Analsys.5.ed. New Jersey-USA: Prentice-Hall, 1998.
MANLY, B. J. F. Métodos Estatísticos Multivariados: uma introdução. 3.ed. Porto Alegre:Bookman, 2005.
RENCHER, A. C. Methods of Multivariate Analysis. 2.ed. Nova York: John Wiley & Sons,Inc, 2002.
STEVENSON, W. J. Estatística: aplicada à administração. 1.ed. São Paulo: HARBRA, 2001.