Download - BOLFARINE SANDOVAL Introducao a Infer en CIA a

8/7/2019 BOLFARINE SANDOVAL Introducao a Infer en CIA a

http://slidepdf.com/reader/full/bolfarine-sandoval-introducao-a-infer-en-cia-a 1/126

Heleno BolfarineMonica Carneiro Sandoval

INTRODUC AO A INFER ENCIAESTAT ISTICA



V



VI

CONTE UDO

PREF ACIO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iv

CAP ITULO 1. ELEMENTOS B ASICOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1. Alguns Modelos Especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1

1.1.1. O modelo normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1.2. O modelo exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1.3. O mode lo b inomia l . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.1.4. O modelo de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.1.5. O mode lo un i fo rme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2. Tipos de Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.3. Amostras, Estatısticas e Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .51.4. Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

CAP ITULO 2. ESTIMADORES EFICIENTES E ESTAT ISTICASSUFICIENTES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.1. Estimadores Ecientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.2. Estatısticas Sucientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .262.3. Estatısticas Conjuntamente Sucientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312.4. Famılias Exponenciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332.5. Estimadores Baseados em Estatısticas Sucientes . . . . . . . . . . . . . . . . . 392.6. Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

CAP ITULO 3. M ETODOS DE ESTIMAC A O . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 6

3.1. O Metodo de M´axima Verossimilhan¸ c a . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 63.2. Propriedades dos Estimadores de M´ axima Verossimilhan¸ ca . . . . . . . . 553.2.1. Invari a n c i a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 63.2.2. Distribui¸cao em grandes amostras . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

3.3. Verossimilhan¸ca para Amostras Independentes .................... 593.4. O Caso Multiparametrico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .613.5. Famılia Exponencial e o Metodo de M´ axima Verossimilhan¸ ca . . . . . .643.6. O Metodo dos Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 663.7. Estimadores Consistentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 683.8. Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

CAP ITULO 4. INTRODUC AO A TEORIA DAS DECIS OES.OS PRINC IPIOS MINIMAX E DE BAYES . . . . . . . . . . . . . . . . . . . 7 4

4.1. Os Elementos B´a s i c o s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 94.2. O Princıpio Minimax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 524.3. O Princıpio de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534.4. Estimadores de Bayes com Perda Quadr´ atica . . . . . . . . . . . . . . . . . . . . . 54



VII

4.5. Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

CAP ITULO 5. ESTIMAC AO POR INTERVALO . . . . . . . . . . . . . . . . . . . . . . . . 96

5.1. Amostras de Popula¸ coes Normais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 965.2. O Metodo da Quantidade Pivotal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .995.3. Intervalos para Popula¸ coes Normais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

5.3.1. O caso de uma unica amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1065.3.2. Duas amostras independentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

5.4. Intervalos de Conan¸ ca Aproximados . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1095.5. Intervalos de Conan¸ ca Bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1115.6. Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

CAP ITULO 6. TESTES DE HIP OTESES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

6.1. Ideias B´a s i c a s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 86.2. Formula¸cao Estatıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1196.3. Hipotese Nula Simples contra Alternativa Simples.Testes Mais Poderosos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

6.4. Testes Uniformemente Mais Poderosos ...........................1306.4.1. Hipotese nula simples contra alternativa composta . . . . . . . . . . 1306.4.2. Hipoteses compostas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

6.5. Testes da Raz˜ao de Verossimilhan¸cas Generalizada. . . . . . . . . . . . . . . .1346.6. Testes Bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1496.7. Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150

REFER ENCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

INDICE REMISSIVO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156



IX

constru¸cao de intervalos e o uso de quantidades pivotais. Tal enfoque propicia aconstru¸cao de intervalos exatos para v´ arios modelos importantes e aproximadosem situa coes mais complexas. Intervalos Bayesianos baseados na distribui¸ cao aposteriori s ao tambem considerados.

O Capıtulo 6 e dedicado ` a constru¸cao de testes de hipóteses. Testes ótimospara o caso de hipótese nula simples contra alternativa simples s˜ ao derivadosa partir do Lema de Neyman-Pearson. Algumas generaliza¸ coes para hip otesescompostas s ao tambem consideradas. Problemas mais complexos que podemenvolver hip oteses bilaterais são tratados utilizando a estatıstica da raz˜ ao deverossimilhan¸cas generalizada que, apesar de n˜ ao possuir propriedades ´ otimas,leva em geral a bons procedimentos que n˜ ao apresentam muita diculdade deimplementa¸cao.

Nao incluımos no texto tabelas estatısticas, pois a enfase maior e dada

a problemas teóricos. No caso de haver necessidade de utiliza¸ cao de tabelas,sugerimos aos estudantes utilizar as tabelas em Bussab e Morettin (1987).Agradecemos as colegas Elisete da Concei¸cao Quintaneiro Aubin, M´ arcia

D’Elia Branco e Silvia Lopes de Paula Ferrari que leram as vers˜ oes preliminarese contribuıram com v´ arias sugestões. Agradecemos tambem ` a aluna JacquelineSant’Eufemia David pela elabora¸ cao das guras.

Sao Paulo, setembro de 2000

Heleno Bolfarine e M onica C. Sandoval



1. Elementos Basicos

1.1 Alguns Modelos Especiais

Nesta se cao consideramos alguns modelos probabilısticos que s˜ ao comumente

utilizados na análise de dados em problemas pr´ aticos. O modelo probabilısti-co (ou estatıstico) e de suma importˆ ancia para inferir resultados da amostrapara a popula¸cao toda. E importante que, na sele¸ cao do modelo a ser utilizado,o estatıstico tenha em mente que o modelo deve representar, na medida dopossıvel, a complexidade que envolve o mundo real da popula¸ cao em estudo.Entre os modelos mais utilizados, temos

1.1.1 O modelo normal

Dizemos que X tem distribui¸cao normal com media µ e variancia σ2 , quedenotamos por X ∼N (µ, σ 2), se a funcao de densidade de probabilidade de X e dada por

f (x|µ, σ2

) =1

√2πσ e−( x − µ ) 2

2 σ2

, −∞< x < ∞,

em que −∞< µ < ∞e σ2 > 0. Nesse caso, µ e σ2 sao denominados parâmetrosda distribui¸cao e o suporte de X , isto e, A(x) = {x, f (x) > 0}, e a reta toda.Notemos tambem que

E [X ] = µ e V ar[X ] = σ2 .

Situa coes pr aticas em que o modelo normal e comumente utilizado incluemcaracterısticas populacionais, tais como: peso, altura, press˜ ao arterial, quocientede inteligencia, etc.

1.1.2 O modelo exponencial

Dizemos que X tem distribui¸cao exponencial com parâmetro θ, que denotamospor X ∼Exp (θ), quando a fun¸cao de densidade de probabilidade de X e dadapor



2 1. Elementos Básicos

f (x

|θ) = θe−θx , x > 0,

em que θ > 0. Nesse caso, A(x) = {x, x > 0}. Notemos tambem que

E [X ] =1θ

e V ar[X ] =1θ2 .

O modelo exponencial e comumente empregado para descrever tempo de vidade equipamentos. Lembremos que o modelo exponencial tem a bem conhecidapropriedade da falta de mem´ oria, ou seja, se o tempo de vida de um equipa-mento segue a distribui¸ cao exponencial, então, em qualquer instante, o equipa-mento e como se fosse novo, não importando o quanto ele j´ a tenha sido utilizado.

1.1.3 O modelo binomial

Dizemos que a vari avel aleat oria X tem distribui¸cao binomial, com parâmetrosn e θ, que denotamos por X ∼Binomial (n, θ ), se sua fun cao de probabilidadee dada por

f (x|θ) =nx

θx (1 −θ)n −x , x = 0 , 1, . . . , n ,

em que 0 < θ < 1. Nesse caso, o suporte de X e discreto e e dado por A(x) =

{x, x = 0 , 1, . . . , n }. Temos tambem que

E [X ] = nθ e V ar[X ] = nθ(1 −θ).

Lembremos que, se X tem distribui¸cao Binomial (n, θ ), ent ao, podemos escre-ver X = Y

1+ . . . + Y

n, sendo Y

1, . . . , Y

nn vari aveis aleat orias independentes e

de Bernoulli, ou seja, a fun¸cao de probabilidade de Y i e dada por

f (yi |θ) = θy i (1 −θ)1−y i , yi = 0 , 1,

i = 1 , . . . , n . O modelo binomial (ou de Bernoulli) e comumente empregadoem situa coes em que associamos a cada observa¸ cao da amostra dois tipos deresposta (como, por exemplo, sim e n˜ ao, ou sucesso e fracasso) aos quais as-sociamos os valores 0 e 1. Tais situa¸coes envolvem, por exemplo, pesquisaseleitorais, em que os indivıduos na popula¸ cao sao ou nao favor aveis a determi-nado partido ou candidato; propor¸ cao de pecas defeituosas produzidas em umalinha de produ¸cao e assim por diante.

1.1.4 O modelo de Poisson

Um outro modelo comumente empregado na pr´ atica e o modelo de Poisson.Dizemos que a vari avel aleat oria X tem distribui¸cao de Poisson com parâmetro



1.1 Alguns Modelos Especiais 3

θ, que denotamos por X

∼

Poisson (θ), quando a fun¸cao de probabilidade edada por

f (x|θ) =e−θ θx

x!, x = 0 , 1, . . . ,

em que θ > 0. Nesse caso, o suporte de X e o conjunto A(x) = {x, x = 0 , 1,...}.Temos tambem que,

E [X ] = V ar[X ] = θ.

O modelo de Poisson e bastante utilizado para descrever situa¸ coes que en-volvem, por exemplo, o n umero de chamadas que chegam a uma centraltelefonica, o numero de partıculas α emitidas por uma fonte radioativa ouo numero de pessoas que chegam a determinada la, sempre em um intervalode tempo xado.

1.1.5 O modelo uniforme

O modelo uniforme e bastante importante do ponto de vista te´ orico. Dizemosque X tem distribui¸cao uniforme no intervalo (0 , θ), que denotamos por X ∼U (0, θ), se a funcao de densidade de X e dada por

f (x|θ) =1θ , 0 < x < θ ,0, caso contr ario,

=1θ

I (0 ,θ ) (x),

θ > 0, em que

I (0 ,θ ) (x) = 1, 0 < x < θ ,0, caso contr ario,

ou seja, I (0 ,θ ) (x) e a fun cao indicadora do intervalo (0 , θ). Notemos que, nessecaso, A(x) = {x, 0 < x < θ }, ou seja, o suporte da vari´ avel X (ou de f (x|θ))depende do parˆametro θ. No caso dos modelos normal, exponencial, binomiale de Poisson, isso n ao acontece, ou seja, nesses casos, o suporte da distribui¸ caode X e independente de θ. Temos tambem que, se X ∼U (0, θ), ent ao,

E [X ] =θ2

e V ar[X ] =θ2

12.

No decorrer do texto, outros modelos parametricos, como por exemplo, o mo-

delo uniforme discreto e o modelo gama, ser˜ ao apresentados. Veremos tambemque os modelos normal, exponencial, binomial e de Poisson s˜ ao membros deuma famılia bastante geral de modelos, que e a famılia exponencial.




1.2 Tipos de Problemas

No presente texto, vamos nos ater exclusivamente a problemas de estima¸ cao ede testes de hipóteses.

Deni¸ cao 1.2.1. Seja X uma vari´ avel aleat´ oria com fun c˜ ao de densidade (ou de probabilidade) que abreviamos por f.d.p. (f.p.) e que denotamos por f (x|θ),em que θ e um parâmetro desconhecido. Chamamos de inferencia estatıstica oproblema que consiste em especicar um ou mais valores para θ, baseado em um conjunto de valores observados de X .

Vamos assumir que a distribui¸ cao da vari avel aleat oria X pertence a certafamılia de distribui¸ coes em que um particular elemento e especicado, quandoo valor do par ametro θ e especicado.

No caso de um problema de estima¸ cao , o objetivo e procurar, segundo al-gum criterio especicado, valores que representem adequadamente os parˆ ametrosdesconhecidos. No caso de problemas de testes de hip´ oteses , o objetivo e ver-icar a validade de arma¸ coes sobre um valor (ou valores) do(s) parˆ ametro(s)desconhecido(s). Por exemplo, quando o interesse e vericar se a propor¸ cao θde eleitores de determinado candidato e maior que 1 / 2 (ou 50%), as hip otesesa serem testadas são H 0 : θ ≤ 1/ 2 versus H 1 : θ > 1/ 2. Quando estamosinteressados em vericar se o peso medio, µ, de pacotes de um quilogramaempacotados por determinada m´ aquina realmente e um quilograma, ent˜ ao, aship oteses a serem testadas podem ser representadas por H 0 : µ = 1 versusH 1 : µ = 1.

1.3 Amostras, Estatısticas e Estimadores

Nesta se cao os conceitos de estatıstica e estimador s˜ ao introduzidos. Criteriospara a compara¸ cao de estimadores são tambem considerados.

Deni¸ cao 1.3.1. O conjunto de valores de uma caracterıstica (observ´ avel)associada a uma cole¸c˜ ao de indivıduos ou objetos de interesse e dito ser uma popula c˜ ao.

Qualquer parte (ou subconjunto) de uma popula¸ cao e denominada umaamostra. De maneira mais formal, temos

Deni¸ cao 1.3.2. Uma sequencia X 1 , . . . , X n de n vari´ aveis aleat´ orias indepen-dentes e identicamente distribuıdas (i.i.d.) com fun¸ c˜ ao de densidade (f.d.p.) ou,no caso discreto, fun¸c˜ ao de probabilidade (f.p.) f (x|θ) e dita ser uma amostra aleat´ oria de tamanho n da distribui¸c˜ ao de X . Nesse caso, temos,



1.3 Amostras, Estatısticas e Estimadores 5

(1.3.1) f (x1 , . . . , x n |θ) =

n

i=1 f (x i |θ) = f (x1|θ) . . . f (xn |θ).

Concluımos, a partir da Deni¸ cao 1.3.2, que usamos a amostra X 1 , . . . , X npara obter informa¸ cao sobre o par ametro θ. A funcao de densidade (ou deprobabilidade) conjunta dada em (1.3.1) e denominada fun¸cao de verossimi-lhan¸ ca de θ, correspondente à amostra observada x = ( x1 , . . . , x n )′ e seradenotada por

L(θ; x ) =n

i=1f (x i |θ).

Deni¸ cao 1.3.3. Qualquer fun c˜ ao da amostra que n˜ ao depende de parâmetrosdesconhecidos e denominada uma estatıstica.

No exemplo que apresentamos a seguir, consideramos v´ arias estatısticas queserao utilizadas com freqüencia nos capıtulos seguintes.

Exemplo 1.3.1. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oriaX , com f.d.p. ou f.p. f (x|θ). Exemplos de estatısticas s˜ ao

(i) X (1) = min (X 1 , . . . , X n ),

(ii) X (n ) = max (X 1 , . . . , X n ),

(iii) X = med (X 1 , . . . , X n ),

(iv) X = 1n

ni=1 X i ,

(v) σ2 = 1n

ni=1 (X i −X )2 .

Em (i), (ii) e (iii) acima, min (.), max (.) e med (.) denotam, respectivamente,o mınimo, o m aximo e a mediana amostral observada. Por outro lado, X e σ2

denotam, respectivamente, a media e a variˆ ancia amostrais.

Deni¸ cao 1.3.4. O conjunto Θ em que θ toma valores e denominado espa¸ coparametrico.

Exemplo 1.3.2. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oriaX ∼N (µ, σ 2 ).

(i) Se σ2 = 1, então θ = µ e o par ametro desconhecido e

Θ = {µ, −∞< µ < ∞};(ii) Se µ = 0, então θ = σ2 e o par ametro desconhecido e

Θ = {σ2 , σ2 > 0};




(iii) Se µ e σ2 sao desconhecidos então θ = ( µ, σ 2) e

Θ = {(µ, σ 2 ), −∞< µ < ∞ e σ2 > 0}.

Deni¸ cao 1.3.5. Qualquer estatıstica que assuma valores em Θ e um esti-mador para θ.

Em muitas situa¸ coes, o interesse e estimar uma fun¸ cao g(θ). Suponha, porexemplo, que no caso (iii) do exemplo anterior, o objetivo e estimar somenteµ, sendo σ2 um par ametro de pertuba¸ cao. Nesse caso, g(θ) = µ.

Deni¸ cao 1.3.6. Qualquer estatıstica que assuma valores somente no conjuntodos possıveis valores de g(θ) e um estimador para g(θ).

Um dos grandes problemas da estatıstica e o de encontrar um estimadorrazo avel para o parâmetro desconhecido θ ou para uma fun¸cao g(θ). Um dosprocedimentos comumente utilizados para se avaliar o desempenho de um es-timador e o seu erro quadr´ atico medio que e considerado a seguir.

Deni¸ cao 1.3.7. O erro quadr´ atico medio (EQM) de um estimador θ dopar ametro θ e dado por

EQM [θ] = E [(θ −θ)2].

Pode-se mostrar (ver Exercıcio 1.1) que

(1.3.2) EQM [θ] = V ar[θ] + B 2 (θ),

em queB (θ) = E [θ]−θ

e denominado o vıcio do estimador θ. Dizemos que um estimador θ e n aoviciado para θ se

E [θ] = θ,

para todo θ∈Θ, ou seja B (θ) = 0, para todo θ∈Θ. Se lim n →∞B (θ) = 0 paratodo θ∈Θ, dizemos que o estimador θ e assintoticamente nao viciado paraθ. No caso em que θ e um estimador n˜ ao viciado para θ, temos que

EQM [θ] = V ar[θ],

ou seja, o erro quadrático medio de θ se reduz a sua vari ancia. Um outro conceitoimportante em grandes amostras ( n → ∞) e a propriedade de consistencia quesera considerada na Se¸cao 3.7.

Exemplo 1.3.3. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oriaX com E [X ] = µ e V ar[X ] = σ2 . Temos, então, que




Como no Exemplo 1.3.3,

E [θ1] = θ e V ar[θ1] =13

.

Temos tambem (ver Exercıcio 1.3) que

(1.3.6) E [θ2 ] = θ e V ar[θ2 ] =616

.

Como θ1 e θ2 sao ambos n ao viciados, segue de (1.3.4) que X e melhor que θ2 ,pois V ar[X ] < V ar [θ2], para todo θ.

Exemplo 1.3.5. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oriaX com E [X ] = θ e V ar[X ] = σ2 , em que σ2 e conhecido. Consideramos agoraos estimadores lineares

X L =n

i=1

li X i ,

em que li ≥0, i = 1 , . . . , n sao constantes conhecidas. Como

E [X L ] = E n

i=1

li X i =n

i=1

li E [X i ] = θn

i=1

li ,

temos que X L e um estimador n˜ ao viciado para θ se e somente se

(1.3.7)n

i=1

li = 1 .

O estimador X L com a condi cao (1.3.7) e ent˜ao uma combina¸cao linear con-vexa de X 1 , . . . , X n . Notemos que θ1 e θ2 considerados no Exemplo 1.3.4 s˜aocombina coes lineares convexas de X 1 , X 2 , X 3 . Temos tambem que

(1.3.8) V ar[X L ] =n

i=1

l2i V ar[X i ] = σ2

n

i=1

l2i .

Portanto o estimador X L , que e n ao viciado e apresenta a menor variˆ ancia,e obtido minimizando-se (1.3.8) sujeito ` a condi cao (1.3.7). Para atingir talobjetivo, sendo l = n

i=1 li /n = 1 /n a media dos li ’s, temos que

n

i=1

(li −l)2 =n

i=1

l2i −nl

2=

n

i=1

l2i −1/n,

de modo que




V ar[X L ] = σ2

n

i=1 l2i

(1.3.9) = σ2n

i=1

li −1n

2

+1n

.

Assim, a express ao (1.3.9) ser a mınima quando li = 1 /n , ou seja o estimadorX L com menor vari ancia e a media amostral X . Portanto, dentre todos osestimadores lineares n˜ ao viciados X L , o que apresenta a menor variˆ ancia e amedia amostral X . De (1.3.9) segue tambem que V ar[X ] = σ2 /n. Uma outraforma de minimizar a variˆ ancia (1.3.8), sob a condi¸cao (1.3.7), e feita utilizando-se de multiplicadores de Lagrange. Nesse caso, temos o ”Lagrangeano”

L(λ) = σ2 n

i=1

l2i −λ

n

i=1

li −1 .

Derivando sucessivamente com rela¸ cao a l1 , . . . , l n , temos as equa coes

2σ2l1 −λ = 0 , . . . , 2σ2 ln −λ = 0 ,

de modo que2li σ2 = 2 ln σ2 ,

logoli = ln ,

i = 1 , . . . , n . Sendo ni=1 li = 1, segue que li = 1 /n , i = 1 , . . . , n , como

concluıdo acima.

Exemplo 1.3.6. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oriaX ∼N (µ, σ 2). Conforme visto no Exemplo 1.3.3, ˆσ2 e um estimador viciadopara σ2 . De (1.3.3) segue que

S 2 =n

n −1σ2 =

1n −1

n

i=1

(X i −X )2

e um estimador n˜ ao viciado para σ2 . Por outro lado, temos (ver Exercıcio 1.4)que

(1.3.10) EQM [S 2] = V ar[S 2] =2σ4

n −1,

e que

(1.3.11) EQM [σ2] =2σ4

(n −1)1 −

(3n −1)2n2 .




Notemos que σ2 , apesar de viciado, apresenta um EQM menor que o EQM do estimador S 2 .

Exemplo 1.3.7. Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n davari avel aleat oria X , com distribui¸cao de Bernoulli com parˆametro θ, ou sejaBinomial (1, θ). Conforme visto no modelo binomial, Y = X 1 + . . . + X n temdistribui¸cao Binomial (n, θ ). Consideremos os estimadores

θ1 = X =Y n

e θ2 =Y + √n/ 2

n + √n.

Como E [X ] = θ, temos que

EQM [ˆθ1] = V ar[X ] =

θ(1

−θ)

n .Por outro lado,

E [θ2] = E Y + √n/ 2

n + √n=

nθ + √n/ 2n + √n

=n

n + √nθ +

√n/ 2n + √n

,

de modo que θ2 e um estimador viciado para θ. Notemos que, na verdade, ovıcio e uma fun¸ cao linear de θ. Portanto

EQM [θ2] = E Y + √n/ 2

n + √n −θ2

=1

(n + √n)2 E (Y −nθ) + √n12 −θ

2

=1

(n + √n)2 V ar[Y ] + n12 −θ

2

=n

4(n + √n)2 .

Um fato importante a ser notado e que o EQM do estimador θ2 e independentede θ. O EQM dos dois estimadores e representado gracamente na Figura 1.1,para n = 9.

Temos, ent˜ao, que nenhum dos estimadores e melhor uniformemente, isto e,para todo θ. Para c1 < θ < c 2 , EQM [θ2] < EQM [θ1], ou seja, θ2 e melhor queθ1 . Por outro lado, para θ < c1 ou θ > c2 , temos que EQM [θ1] < EQM [θ2],ou seja, θ1 e melhor que θ2 . Para o c alculo de c1 e c2 , ver Exercıcio 1.5.




Figura 1.1. EQM de δ1 = θ1 e δ2 = θ2

0 1/2 1

1/64

1/36

EQM

θc1

δ1

c2

δ2

Exemplo 1.3.8. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oriaX ∼U (0, θ). Vamos considerar θ1 = X e θ2 = X (n ) como estimadores de θ.Como E [X ] = θ/ 2 e V ar[X ] = θ2/ 12 (ver o modelo (1.1.4)), temos que

(1.3.12) E [θ1] = E [X ] =θ2

,

e

(1.3.13) V ar[θ1 ] =θ2

12n.

Portanto o estimador θ1 e viciado para θ. Combinando (1.3.12) e (1.3.13) em(1.3.2), temos que

EQM [θ1] =θ2

12n+

θ2 −θ

2

=(1 + 3 n)

12nθ2 .

Por outro lado, a fun¸ cao de densidade de X (n ) (ver Exercıcio 1.6) e dada por

(1.3.14) f X ( n ) (x|θ) =nx n −1

θn , 0 < x < θ,

logo

(1.3.15) E [X (n ) ] =n

n + 1θ e V ar[X (n ) ] =

nθ 2

(n + 1)2(n + 2)

.

Portanto

EQM [θ2] =nθ 2

(n + 1) 2(n + 2)+

θ2

(n + 1) 2 =2θ2

(n + 1)( n + 2).




A Tabela 1.1 mostra o valor do EQM dos dois estimadores para v´ arios va-lores de n. Notemos tambem que, quando n → ∞, EQM [θ1] →θ2 / 4 e queEQM [θ2] →0.

Tabela 1.1. EQM de θ1 e θ2

n EQM [θ1] EQM [θ2] EQM [θ2]/EQM [θ1]3 5θ2/18 θ2 /10 0,275 4θ2/ 15 θ2 / 21 0,1210 31θ2/ 120 θ2 / 662 0,0420 61θ2/ 240 θ2 / 2312 0,01

Portanto X (n ) e melhor que X para todo θ e n > 1.

Exemplo 1.3.9. Consideremos uma urna com N bolas identicas marcadascom os numeros 1 , . . . , N . O objetivo e a estima¸ cao de N , o numero de bolasnumeradas na urna. Esse problema est´ a muitas vezes associado ao problemada estima¸cao do numero N de t axis em uma cidade, em que os t´ axis est aonumerados de 1 a N . Portanto uma determinada quantidade ( n) de bolas (t axis)e observada, com reposi¸ cao. Associada a i-esima observa¸cao, temos a vari´avelaleat oria

X i : numero da i-esima bola (t´ axi) retirada da urna,

i = 1 , . . . , n . Nesse caso,

P [X i = k] =1

N , k = 1 , . . . , N .

Portanto a distribui¸ cao de X i e uniforme discreta, pois a distribui¸ cao de X iassocia a mesma probabilidade a todos os possıveis valores de X i , i = 1 , . . . , n .Como possıveis estimadores de N , consideremos inicialmente N 1 = X e N 2 =X (n ) . Nao e difıcil vericar que

(1.3.16) E [N 1] = E [X ] =N + 1

2.

Por outro lado, desde que

P [X (n ) = k] = P [X (n ) ≤k]−P [X (n ) ≤k −1] =kN

n

−k −1

N

n

,

temos que

E [X (n ) ] = N −n N n +1 −N

k=1

(k −1)n .



1.4 Exercıcios 13

Usando a aproxima¸cao (Feller, 1976),

N

k=1

(k −1)n = 1 n + . . . + ( N −1)n∼= N

0yn dy =

N n +1

n + 1,

(para N grande), temos que

(1.3.17) E [N 2] = E [X (n ) ]∼= N −n N n +1 −N n +1

n + 1=

nn + 1

N.

De (1.3.16) e (1.3.17), podemos denir novos estimadores. Por exemplo,

N 3 = 2 X −1,

que e n ao viciado eN 4 =

n + 1n

X (n ) ,

que e aproximadamente n˜ ao viciado. Se n = 8 bolas s ao retiradas com reposi¸ caoda caixa e os n umeros observados são: 124, 212, 315, 628, 684, 712, 782, 926,ent ao, N 1 = X = 547 , 875, N 3 = 2 X −1 = 1095 , N 2 = X (n ) = 926 , eN 4 = 1042 . Podemos considerar tambem o estimador

N 5 =X n +1

(n ) −(X (n ) −1)n +1

X n(n ) −(X (n ) −1)n ,

que e um estimador n˜ ao viciado para N (ver Exercıcio 1.7).

1.4 Exercıcios

1.1. Verique a validade da express˜ ao (1.3.2).



1.4. Verique a validade das express˜ oes (1.3.10) e (1.3.11).

1.5. Encontre c1 e c2 na Figura 1.1. que são os pontos de interseçcao dos erros

quadr aticos medios deˆθ1 e

ˆθ2 .

1.6. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oria X ∼U (0, θ). Mostre que a fun¸cao de densidade de probabilidade de X (n ) e comodada em (1.3.14), com esperan¸ ca e vari ancia como dadas em (1.3.15).




1.7. Mostre que o N 5 no Exemplo 1.3.9 e um estimador n˜ ao viciado para N .

1.8. Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n da distribui¸ cao davari avel aleat oria X , em que X ∼N (µ, 1). Considere os estimadores ˆµ1 = X eµ2 = 10. Encontre o EQM de µ1 e de µ2 como funcao de µ. Fa ca um gr acodo EQM para n = 10.

1.9. Seja X uma unica vari avel aleat oria com distribui¸cao de Bernoulli compar ametro θ. Sejam θ1 = X e θ2 = 1 / 2 dois estimadores de θ.(i) Verique se θ1 e θ2 sao nao viciados para θ.(ii) Compare os EQMs . Fa ca um gr aco dos EQMs como funcao de θ.

1.10. Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n da distribui¸caoda vari avel aleat oria X com f.d.p. dada por

f (x|θ) = e −(x−θ ) , x > θ, θ > 0.

(i) Especique o espa¸co parametrico e o suporte associado ` a distribui¸cao de X .(ii) Verique se θ1 = X e θ2 = X (1) sao estimadores n˜ao viciados para θ.(iii) Encontre e compare os EQMs dos dois estimadores. Fa¸ ca um gr aco comofuncao de θ.

1.11. Sejam X 1 , . . . , X n um amostra aleat´ oria de tamanho n da distribui¸caoda vari avel aleat oria X com f.d.p. dada por

f (x|θ) =2xθ2 , 0 < x < θ, θ > 0.

(i) Especique o espa¸co parametrico e o suporte associado ` a distribui¸cao de X .(ii) Verique se θ1 = X e θ2 = X (n ) sao nao viciados para θ.(iii) Encontre e compare os EQMs dos dois estimadores. Fa¸ ca um gr aco dosEQMs como funcao de θ.

1.12. Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n da distribui¸caode uma vari´avel aleat oria X ∼U (0, θ). Considere os estimadores θ1 = c1X eθ2 = c2X (n ) .(i) Encontre c1 e c2 que tornam os estimadores n˜ ao viciados.(ii) Encontre e compare os EQMs dos dois estimadores.

1.13. Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n da distribui¸caoda vari avel aleat oria X

∼

N (0, σ2). Seja S 2 = ni=1 X 2i . Considere os esti-

madoresσ2

c = cS 2 .

(i) Encontre o EQM do estimador acima.(ii) Encontre o valor de c que minimiza o EQM em (i).



2. Estimadores Ecientes e Estatısticas

Sucientes

Neste capıtulo ser´ a apresentada a no¸ cao de estimador eciente, como sendoaquele que atinge o limite inferior da variˆ ancia dos estimadores n˜ ao viciados.Estimadores ecientes s˜ ao obtidos apenas para distribui¸ coes que sao membrosde uma classe especial, que e a famılia exponencial de distribui¸ coes. Veremostambem que todo estimador para ser ´ otimo, segundo o criterio do menor erroquadr atico medio, deve ser fun¸ cao de uma estatıstica suciente. De modo in-formal, estatısticas sucientes para um parˆ ametro (ou para uma distribui¸ cao)sao aquelas que condensam os dados sem perder nenhuma informa¸ cao contidanos mesmos. Ou seja, elas s ao t ao informativas para o parˆ ametro (ou para adistribui¸cao) quanto a amostra toda.

2.1 Estimadores Ecientes

Eciencia de um estimador θ de um par ametro θ e denida a seguir.

Deni¸ cao 2.1.1. Chamamos de eciencia de um estimador θ, n˜ ao viciado para o par ametro θ, o quociente

e(θ) =LI (θ)V ar[θ]

,

onde LI (θ) e o limite inferior da variˆ ancia dos estimadores n˜ ao viciados de θ.

Convem notar que:(i) e(θ) = 1 quando LI (θ) = V ar[θ], ou seja, quando a variˆancia de θ

coincide com o limite inferior da variˆ ancia dos estimadores n˜ ao viciados de θ.Nesse caso, θ e dito ser eciente ;

(ii) como veremos no teorema seguinte,

(2.1.1) LI (θ) =1

nE ∂ log f (X |θ )∂θ

2 ,

quando certas condi¸ coes de regularidade est˜ao satisfeitas;



16 2. Estimadores Ecientes e Estatısticas Sucientes

(iii) as condi coes de regularidade a que nos referimos no item (ii) s˜ ao basi-camente duas, isto e, que o suporte A(x) = {x, f (x|θ) > 0}seja independentede θ e que seja possıvel a troca das ordens das opera¸ coes de deriva cao e deintegra cao sob a distribui¸cao da vari avel aleat oria X ;

(iv) a n ao ser que mencionado o contr´ ario, todo logaritmo utilizado no textoe calculado na base e.

Exemplo 2.1.1. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oriaX ∼N (µ, σ 2 ), em que σ2 e conhecido. Temos que

f (x|µ) =1

√2πσe−

( x − µ ) 2

2 σ 2 , −∞< x < ∞,

e

log f (x|µ) = −log√2π −12 log σ

2

−(x

−µ)2

2σ2 .Portanto

(2.1.2)∂ log f (x|µ)

∂µ=

(x −µ)σ2 .

Assim,

E ∂ log f (X |µ)

∂µ

2

= E (X −µ)2

σ4 =1

σ4 E [(X −µ)2 ] =1

σ2 ,

logo concluımos, juntamente com (2.1.1), que

LI (µ) = σ2n

.

Conforme visto no Exemplo 1.3.3, temos que

V ar[X ] =σ2

n= LI (µ),

de modo que X e um estimador eciente para µ. De (2.1.2), temos tambem que

(2.1.3) E ∂ log f (X |µ)

∂µ=

1σ2 E [X −µ] = 0 .

Deni¸ cao 2.1.2. A quantidade∂ log f (X |θ)

∂θ

e chamada fun¸ c˜ ao escore.



2.1 Estimadores Ecientes 17

O resultado (2.1.3) na verdade vale em geral quando valem as condi¸ coes deregularidade, ou seja,

(2.1.4) E ∂ log f (X |θ)

∂θ= 0 .

Portanto o valor esperado da fun¸ cao escore e sempre igual a zero.

Deni¸ cao 2.1.3. A quantidade

I F (θ) = E ∂ log f (X |θ)

∂θ

2

,

e denominada informa¸ c˜ ao de Fisher de θ.

Como consequencia de (2.1.4) temos que

I F (θ) = V ar∂ log f (X |θ)

∂θ,

pois para uma vari´avel aleat oria X qualquer com E [X ] = 0, V ar[X ] = E [X 2].Um resultado importante (veja o Exercıcio 2.6) estabelece que

E ∂ log f (X |θ)

∂θ

2

= −E ∂ 2 log f (X |θ)

∂θ2 .

Uma outra propriedade importante estabelece que para uma amostra aleat´ oria,X 1 , . . . , X n , da vari avel aleat oria X com f.d.p (ou f.p.) f (x|θ) e informa caode Fisher I F (θ), a informa cao total de Fisher de θ correspondente `a amostraobservada e a soma da informa¸ cao de Fisher das n observa coes da amostra, ouseja, sendo

(2.1.5) L(θ; x ) = f (x1 , . . . , x n |θ) =n

i=1

f (x i |θ),

a densidade conjunta de X 1 , . . . , X n , temos que

E ∂ log L(θ; X )

∂θ

2

= −E ∂ 2 log L(θ; X )

∂θ2

(2.1.6) = −E n

i=1

∂ 2 log f (X i |θ)∂θ2 =

n

i=1

E −∂ 2 log f (X i |θ)

∂θ2 = nI F (θ),




pois X i , i = 1 , . . . , n tem a mesma informa¸ cao que X . Lembremos que, sendoX 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oria X , ent ao X 1 , . . . , X nsao independentes e identicamente distribuıdas com a mesma distribui¸ cao queX .

Teorema 2.1.1. Desigualdade da Informa¸ c ao. Quando as condi¸c˜ oes deregularidade est˜ ao satisfeitas, a variˆ ancia de qualquer estimador n˜ ao viciado θdo par ametro θ satisfaz a desigualdade

V ar[θ] ≥1

nI F (θ).

Prova. Vamos considerar o caso em que X e uma vari´avel aleat oria contınua.

Sendo X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oria X , temos que

(2.1.7) ∞

−∞. . . ∞

−∞L(θ; x )dx1 . . . d x n = 1 ,

onde L(θ; x ) e dada em (2.1.5). Desde que θ e n ao viciado, ou seja, E [θ] = θ,temos tambem que

(2.1.8) ∞

−∞. . . ∞

−∞θL(θ; x )dx1 . . . dx n = θ.

Derivando ambos os lados de (2.1.7) com rela¸ cao a θ, temos que

∂ ∂θ

∞

−∞ . . . ∞

−∞L(θ; x )dx1 . . . dx n = ∞

−∞ . . . ∞

−∞

∂L (θ; x )∂θ dx1 . . . d x n = 0 .

Por outro lado, de (2.1.8), temos que

∂ ∂θ ∞

−∞. . . ∞

−∞θL(θ; x )dx1 . . . x n = ∞

−∞. . . ∞

−∞θ

∂L (θ; x )∂θ

dx1 . . . dx n = 1 .

Como∂L (θ; x )

∂θ= t(θ; x )L(θ; x ),

ondet(θ; x ) =

∂ log L(θ; x )∂θ

,

temos das express˜oes acima que

E [t(θ; X )] = 0 ,

e



2.1 Estimadores Ecientes 19

E [θt (θ; X )] = 1 .Como

ρθt =E [θt (θ; X )] −E [θ]E [t(θ; X )]

V ar[θ]V ar[t(θ; X )],

onde ρθt denota o coeciente de correla¸ cao entre θ e t, de tal forma que ρ2θt ≤1,

temos queV ar[θ] ≥

1V ar[t(θ; X )]

.

Como as vari aveis X 1 , . . . , X n sao independentes e identicamente distribuıdascom densidade f (x|θ), temos de (2.1.5) e de (2.1.6) que

V ar[t(θ; X )] = V ar∂ log L(θ; X )

∂θ= nI F (θ),

o que prova o resultado.

Exemplo 2.1.2. Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n davari avel aleat oria X ∼Poisson (θ), com fun cao de probabilidade dada por

f (x|θ) =e−θ θx

x!, x = 0 , 1, . . . ,

Nesse caso, temos que

log f (x|θ) = −log x! + x log θ −θ,

de modo que∂ log f (x

|θ)

∂θ =

x

θ −1,ou seja,

E ∂ 2 log f (X |θ)

∂θ2 = −1θ

.

PortantoLI (θ) =

θn

.

Como V ar[X ] = θ/n , concluımos que X e um estimador eciente para θ.

Enfatizamos que a desigualdade da informa¸ cao (inicialmente chamada deCramer-Rao) n˜ ao e um metodo de constru¸ cao de estimadores. Ela apenas possi-bilita vericar se determinado estimador e ou n˜ ao eciente. E ent ao importante

que sejam estabelecidos metodos para constru¸ cao de estimadores que tenhamalguma propriedade interessante, ou que levem a estimadores com “boas” pro-priedades. Contudo, antes de estabelecermos tais metodos (ou criterios), vamosconsiderar estatısticas que reduzam (condensem) os dados sem que haja perdade informa cao. Tais estatısticas s˜ ao conhecidas como estatısticas sucientes.




2.2 Estatısticas Sucientes

Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oria X com funcaode densidade ou de probabilidade f (x|θ). Quando resumimos a informa¸ cao queos dados contem sobre θ, utilizando uma estatıstica, e importante que n˜ ao hajaperda de informa¸cao sobre θ. Ou seja, a estatıstica a ser considerada deve,dentro do possıvel, conter toda a informa¸ cao sobre θ presente na amostra. Emoutras palavras, se pudermos usar uma estatıstica T = T (X 1 , . . . , X n ) para ex-trairmos toda informa¸ cao que a amostra X 1 , . . . , X n contem sobre θ, ent ao dize-mos que T (que pode ser um vetor) e suciente para θ. Desse modo, o conhec-imento apenas de T (e nao necessariamente da amostra completa X 1 , . . . , X n )e suciente para que sejam feitas inferencias sobre θ. A seguir apresentamos adenicao formal.

Deni¸ cao 2.2.1. Dizemos que a estatıstica T = T (X 1 , . . . , X n ) e sucientepara θ, quando a distribui¸c˜ ao condicional de X 1 , . . . , X n dado T for indepen-dente de θ.

Os exemplos a seguir ilustram a obten¸ cao de estatısticas sucientes pelautiliza cao da Deni cao 2.2.1.

Exemplo 2.2.1. Sejam X 1 , . . . , X n uma amostra aleat´ oria da distribui¸caoBinomial (1, θ), ou seja, de Bernoulli (θ). Vamos vericar se a estatısticaT = n

i=1 X i e suciente para θ. De acordo com a Deni cao 2.2.1, T e su-ciente para θ, se a probabilidade condicional P [X 1 = x1 , . . . , X n = xn |T = t]for independente de θ. Temos, para x1 , . . . , x n = 0 ou 1 e t = 0 , . . . , n ,

P [X 1 = x1 , . . . , X n = xn |T = t] = 0, ni=1 x i = t,P [X 1 = x 1 ,...,X n = x n ,T = t ]

P [T = t ] , ni=1 x i = t;

ou seja, sendo ni=1 x i = t, temos que

P [X 1 = x1 , . . . , X n = xn |T = t] =P [X 1 = x1 , . . . , X n = xn , T = t]

P [T = t]

=P [X 1 = x1 , . . . , X n = xn ]

nt θt (1 −θ)n −t =

P [X 1 = x1] . . . P [X n = xn ]nt θt (1 −θ)n −t

=θx 1 (1 −θ)1−x 1 . . . θx n (1 −θ)1−x n

nt θt (1

−θ)n −t =

θt (1 −θ)n −t

nt θt (1

−θ)n −t =

1nt

,

pois sabemos que T ∼Binomial (n, θ ). Portanto

P [X 1 = x1 , . . . , X n = xn |T = t] =0, n

i=1 x i = t,1

(nt ) , n

i=1 x i = t,



2.2 Estatısticas Sucientes 21

de modo que, pela Deni¸cao 2.2.1, T = ni=1 X i e suciente para θ.

Exemplo 2.2.2. Consideremos novamente a situa¸ cao do Exemplo 2.2.1, comn = 3 e T = X 1 + 2 X 2 + X 3 . Vamos vericar se T e suciente. Notemos quepara X 1 = 1 , X 2 = 0 , X 3 = 1, temos que T = 2. Logo

(2.2.1) P [X 1 = 1 , X 2 = 0 , X 3 = 1 |T = 2] =P [X 1 = 1 , X 2 = 0 , X 3 = 1]

P [X 1 + 2 X 2 + X 3 = 2]

=P [X 1 = 1] P [X 2 = 0]P [X 3 = 1]

P [X 1 = 1 , X 2 = 0 , X 3 = 1] + P [X 1 = 0 , X 2 = 1 , X 3 = 0]

=θ2 (1 −θ)

θ2(1 −θ) + (1 −θ)2θ= θ.

Portanto, como a probabilidade (2.2.1) depende de θ, concluımos que T naoe suciente para θ, pois, nesse caso, a distribui¸cao condicional de X 1 , . . . , X ndado T depende de θ.

Exemplo 2.2.3. Sejam X 1 , . . . , X n uma amostra aleat´ oria da distribui¸cao dePoisson com parˆametro θ. Vamos vericar se T = n

i=1 X i e suciente paraθ. Sabemos que T = n

i=1 X i tem distribui¸cao de Poisson com parˆametro nθ .Assim, para xi = 0 , 1, 2,... , i = 1 , . . . , n e t = 0 , 1,... , temos

P [X 1 = x1 , . . . , X n = xn |T = t] =0, n

i=1 x i = t,P [X 1 = x 1 ,...,X n = x n ]

P [T = t ] ; ni=1 x i = t;

de modo que sen

i=1 xi = t, ent ao,

P [X 1 = x1 , . . . , X n = xn |T = t] =P [X 1 = x1] . . . P [X n = xn ]

P [T = t]

=e−θ θx 1

x1!. . .

e−θ θx n

xn !t!

e−nθ (nθ)t

=t!

x1!, . . . , x n !1n t ,

que e independente de θ. Segue, ent ao, da Deni cao 2.2.1 que ni=1 X i e su-

ciente para θ.

Notemos que a Deni¸cao 2.2.1 permite, apenas, que possamos vericar sedeterminada estatıstica e ou n˜ ao suciente. Contudo n˜ ao pode ser utilizadacomo um metodo para obten¸ cao de estatısticas sucientes. Um procedimentopara a obten¸cao de estatısticas sucientes e o criterio da fatora¸ cao que apre-sentamos a seguir.




Teorema 2.2.1. (Criterio da Fatora¸ c˜ ao de Neyman) Sejam X 1 , . . . , X n uma amostra aleat´ oria da distribui¸c˜ ao da vari´ avel aleat´ oria X com func˜ ao de densi-dade (ou de probabilidade) f (x|θ) e func˜ ao de verossimilhan¸ca L(θ; x ). Temos,ent˜ ao, que a estatıstica T = T (X 1 , . . . , X n ) e suciente para θ, se e somentese pudermos escrever

(2.2.2) L(θ; x ) = h(x1 , . . . , x n )gθ (T (x1 , . . . , x n )) ,

onde h(x1 , . . . , x n ) e uma fun¸c˜ ao que depende apenas de x1 , . . . , x n (n˜ ao de-pende de θ) e gθ (T (x1 , . . . , x n )) depende de θ e de x1 , . . . , x n somente atravesde T .Prova. Vamos provar o teorema apenas para o caso discreto. Nesse caso,L(θ; x ) = P θ [X = x ]. Suponhamos em primeiro lugar que (2.2.2) esteja veri-cada e ent ao,

P θ [X = x ] = f (x |θ) = h(x )gθ (T (x )) .Como

P [X = x |T (X ) = t] =0; T (x ) = tP θ [X = x ,T (X )= t ]

P θ [T ( X )= t ] ; T (x ) = t,

quando T (x ) = t, P [X = x |T (x ) = t] = 0, que e independente de θ, logo acondi cao da Deni cao 2.2.1 est a vericada. Quando T (x ) = t , o evento {X =x , T (X ) = t}est a contido no evento {T (x ) = t}, ent ao

P θ [X = x , T (X ) = t]P θ [T = t]

=P θ [X = x ]P θ [T = t]

=h(x )gθ (t)

{x ;T ( x )= t}h(x )gθ (t) =h(x )

{x ;T ( x )= t}h(x ) ,

que e independente de θ, portanto T = T (X ) e suciente para θ.Suponhamos agora que T = T (X ) seja suciente, de modo que a distribui¸ cao

condicional de X dado T e independente de θ. Sendo T (x ) = t, temos que

f (x |θ) = P θ [X = x ] = P θ [X = x , T (x ) = t]

= P [X = x |T (x ) = t]P θ [T (X ) = t] = h(x )gθ (t),

de modo que (2.2.2) est´a provada.

Exemplo 2.2.4. Consideremos novamente o modelo de Poisson do Exemplo2.2.3. Temos, ent˜ao, que

L(θ; x ) =n

i=1

f (x i |θ)

=e−θ θx 1

x1 !. . .

e−θ θx n

xn !=

1x1! . . . x n !

e−nθ θx 1 + ... + x n .



2.3 Estatısticas Conjuntamente Sucientes 23

Portanto, tomando

h(x1 , . . . , x n ) =1

ni=1 x i !

n

i=1

I {0,1,2,... }(xi ) e gθ (T (x )) = e −nθ θni =1

x i ,

temos, pelo criterio da fatora¸ cao, que T (X ) = ni=1 X i e suciente para θ,

onde X = ( X 1 , . . . , X n ).

Exemplo 2.2.5. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oriaX ∼U (0, θ). Conforme visto no Capıtulo 1, temos que (veja o Modelo 1.1.5)

f (x|θ) =1θ

I [0,θ ](x).

Temos entãoL(θ; x ) =

1θ

I [0,θ ](x1 ) . . .1θ

I [0,θ ](xn )

=1

θn I [0,θ ](x(n ) )I [0,x ( n ) ](x(1) ),

de modo que, pelo criterio da fatora¸ cao, X (n ) e uma estatıstica suciente paraθ.

Exemplo 2.2.6. Sejam X 1 , . . . , X n uma amostra aleat´ oria da distribui¸caoN (µ, 1). Temos, então, que

L(µ; x ) =1

√2πe−

( x 1 − µ ) 2

2 . . .1

√2πe−

( x n − µ ) 22

=1

√2π

n

e−ni =1

( x i − µ ) 2

2

=1

√2π

n

e−ni =1

x 2i

2 e−nµ 2

2 + µ ni =1

x i .

Portanto, pelo criterio da fatora¸ cao, T (X ) = ni=1 X i e uma estatıstica su-

ciente para µ.

2.3 Estatısticas Conjuntamente Sucientes

Na secao anterior vimos o caso uniparametrico, ou seja, a distribui¸ cao dosdados depende de um único par ametro θ. Nesta se cao consideramos o casomultiparametrico em que θ e um vetor de parˆ ametros, que denotamos por θ.Em muitas situa¸ coes, o modelo estatıstico depende de mais de um parˆ ametro.E o caso do modelo N (µ, σ 2 ), em que θ = ( µ, σ 2 ), sendo µ e σ2 desconhecidos.




E o caso tambem do modelo Gama (α, β ), em que α e β sao desconhecidos e,portanto, θ = ( α, β ).

Teorema 2.3.1. (Criterio da fatora¸ c˜ ao. Caso Multiparametrico) Sejam X 1 , . . . ,X n uma amostra aleat´ oria da distribui¸c˜ ao da vari´ avel aleat´ oria X , com func˜ aode densidade (ou de probabilidade) f (x|θ). Temos, ent˜ ao, que a estatıstica r -dimensional T = ( T 1 , . . . , T r ), T i = T i (X ) e conjuntamente suciente para θse

L(θ; x ) = f (x1 , . . . , x n |θ) =n

i=1f (x i |θ) = h(x1 , . . . , x n )gθ (T 1(x ), . . . , T r (x )) ,

onde h(x1 , . . . , x n ) e uma fun¸c˜ ao que n˜ ao depende de θ e gθ (T 1(x ), . . . , T r (x ))depende de θ e de x = ( x1 , . . . , x n ) somente por meio de (T 1(x ), . . . , T r (x )) .

No caso do Teorema 2.3.1, dizemos que a estatıstica suciente e de dimens˜ aor , que em muitos casos e tambem a dimens˜ ao do espa co parametrico Θ. Masexistem situa¸coes em que tal fato n ao ocorre, ou seja, a dimens˜ao de Θ e menorque r .

Exemplo 2.3.1. Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n davari avel aleat oria X ∼N (µ, σ 2 ), onde µ e σ2 sao desconhecidos. Temos, ent˜ ao,que θ = ( µ, σ 2 ). Nesse caso, a fun cao de verossimilhan¸ca pode ser escrita como

L(θ; x ) =1

√2πσ

n

e−ni =1

( x i − µ ) 2

2 σ 2

= 1√2πn 1

σn e−1

2 σ 2ni =1

x 2i + µ

σ 2ni =1

x i −n µ 22 σ 2 ,

com −∞< µ < ∞e σ2 > 0. Tomando h(x1 , . . . , x n ) = 1 / (√2π)n e

gθ (t1 (x ), t 2(x )) =1

σn e− 12 σ 2

ni =1

x 2i + µ

σ 2ni =1

x i −n µ 2

2 σ 2 ,

temos, de acordo com o criterio da fatora¸ cao, que T = ( ni=1 X i ,

ni=1 X 2i ) e

conjuntamente suciente para ( µ, σ 2).

Deni¸ cao 2.3.1. Dizemos que duas estatısticas T 1 e T 2 s˜ ao equivalentes seexistir uma rela¸c˜ ao 1:1 entre elas .

Em outra palavras, T 1 e T 2 sao equivalentes se T 1 puder ser obtida a partirde T 2 e vice-versa. Nesse caso, temos que, se T 1 e suciente para θ, ent ao T 2tambem e suciente para θ. Esse resultado vale tambem para o caso multidi-mensional.



2.4 Famılias Exponenciais 25

Exemplo 2.3.2. Consideremos novamente a situa¸ cao do Exemplo 2.2.6. Vi-mos que T 1 = ni=1 X i e suciente para µ. Como T 1 e equivalente a T 2 =n

i=1 X i /n = X , temos que T 2 = X tambem e suciente para µ.

Exemplo 2.3.3. Consideremos novamente a situa¸ cao do Exemplo 2.3.1. N ao edifıcil vericar que T 1 = ( n

i=1 X i ,ni=1 X 2i ) e T 2 = ( X, S 2) sao equivalentes.

Como T 1 e suciente para θ (Exemplo 2.3.1), temos que T 2 tambem e sucientepara θ = ( µ, σ 2 ).

Exemplo 2.3.4. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oriaX com distribui¸cao Gama (α, β ). Dizemos que X ∼Gama (α, β ), se sua f.d.p.e dada por

f (x|α, β ) =β α xα −1e−βx

Γ (α), x > 0, α, β > 0.

onde Γ (.) e a fun cao gama denida por Γ (t) = ∞0 x t−1e−x dx, para t > 0.

Ent ao, θ = ( α, β ). Temos que a fun¸cao de verossimilhan¸ca correspondente `aamostra observada e dada por

L(θ; x ) =β nα

Γ n (α)

n

i=1

xα −1i e−β n

i =1x i I (0 ,∞) (x ),

α > 0, β > 0. Portanto, pelo criterio da fatora¸ cao, temos que T 1 =( n

i=1 X i ,ni=1 X i ) e conjuntamente suciente para θ. Notemos que a es-

tatıstica T 2 = ( ni=1 log X i , X ) e equivalente a T 1 .

2.4 Famılias Exponenciais

Muitos dos modelos estatısticos considerados nas se¸ coes anteriores podem serconsiderados como casos especiais de uma famılia mais geral de distribui¸ coes .

Deni¸ cao 2.4.1. Dizemos que a distribui¸c˜ ao da vari´ avel aleat´ oria X pertencea famılia exponencial unidimensional de distribui¸ c˜ oes, se pudermos escrever sua f.p. ou f.d.p. como

(2.4.1) f (x|θ) = e c(θ )T (x )+ d (θ )+ S (x ) , x∈A

onde c, d s˜ ao fun c˜ oes reais de θ; T , S s˜ ao fun c˜ oes reais de x e A n˜ ao dependede θ.

Notemos que no caso em que X e contınua, para que f (x|θ) em (2.4.1) sejauma fun cao de densidade, e necess´ ario que

Aec(θ )T (x )+ d (θ )+ S (x )dx = 1 ,




ou seja,

Aec(θ )T (x )+ S (x )dx = e−d (θ ) ,

de modo que d(θ) est a associado a constante de normaliza¸ cao da densidade.Resultado similar vale para o caso em que X e uma vari avel aleat oria discreta.

Exemplo 2.4.1. Seja X uma vari avel aleat oria com distribui¸cao de Bernoul-li(θ). Ent ao, podemos escrever

f (x|θ) = θx (1 −θ)1−x =θ

1 −θ

x

(1 −θ) = e x log( θ1 − θ )+log(1 −θ ) , x = {0, 1}.

Portanto a distribui¸ cao de X pertence a famılia exponencial unidimensionalcom

c(θ) = log θ1 −θ

, d(θ) = log(1 −θ),

T (x) = x, S (x) = 0 , A = {0, 1}.

Exemplo 2.4.2. Seja X uma vari avel aleat oria com distribui¸cao N (µ, 1).Temos, então, que

f (x|µ) =1

√2πe−

( x − µ ) 22 = e µx −µ 2

2 −x 22 −log √2π .

Portanto a distribui¸ cao da vari avel aleat oria X pertence a famılia exponencialunidimensional com

c(µ) = µ, d(µ) = −µ2

2 ,

T (x) = x e S (x) = −x2

2 −log √2π, A = IR.

Outras distribui¸ coes que podem ser colocadas na forma da famılia exponen-cial unidimensional são, por exemplo, binomial, de Poisson e exponencial. Opr oximo resultado estabelece que amostras aleat´ orias de famılias exponenciaisunidimensionais são tambem membros da famılia exponencial unidimensional.

Teorema 2.4.1. Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n da vari´ avel aleat´ oria X , com fun c˜ ao de densidade (ou de probabilidade) dada por (2.4.1). Ent˜ ao, a distribui¸c˜ ao conjunta de X 1 , . . . , X n e dada por

(2.4.2) f (x1 , . . . , x n |θ) = e c∗(θ) ni =1

T (x i )+ d∗(θ )+ S ∗( x ) , x∈An ,

que tambem e da famılia exponencial com T (x ) = ni=1 T (x i ), c∗(θ) = c(θ),

d∗(θ) = nd(θ), e S ∗(x ) = ni=1 S (x i ).



2.4 Famılias Exponenciais 27

Notemos de (2.4.2) que considerando

h(x1 , . . . , x n ) = eni =1

S (x i )n

i=1

I A (x i ), e gθ (T ) = e c(θ ) ni =1

T (x i )+ nd (θ) ,

temos, pelo criterio da fatora¸ cao, que a estatıstica T (X ) = ni=1 T (X i ) e su-

ciente para θ.

Deni¸ cao 2.4.2. Dizemos que a distribui¸c˜ ao da vari´ avel aleat´ oria (ou de um vetor aleat´ orio) X pertence a famılia exponencial de dimens˜ ao k se a func˜ aode densidade (ou de probabilidade) de X e dada por

(2.4.3) f (x|θ) = ekj =1

c j (θ )T j (x )+ d (θ )+ S (x ) , x∈A,

onde cj , T j , d e S s˜ ao fun c˜ oes reais, j = 1 , . . . , k , e como no caso unidimen-sional, d(θ) est´ a associado a constante de normaliza¸ c˜ ao de (2.4.3) e A n˜ aodepende de θ.

Tambem, no caso de dimens˜ ao k, amostras de famılias exponenciais de di-mens ao k tem distribui¸ coes que sao membros da famılia exponencial de di-mens ao k. Para uma amostra X 1 , . . . , X n de uma vari´avel aleat oria com fun caode densidade (ou de probabilidade) dada por (2.4.3), temos que a fun¸ cao dedensidade (ou de probabilidade) conjunta de X 1 , . . . , X n e dada por

f (x1 , . . . , x n |θ) = ekj =1

c∗j (θ ) ni =1

T j ( x i )+ d∗(θ )+ S ∗(x ) ,

ondeT ∗j (x ) =

n

i=1T j (xi ), c∗j (θ) = cj (θ),

S ∗(x ) =n

i=1

S (x i ), d∗(θ) = nd(θ).

Nesse caso, (T ∗1 , . . . , T ∗k ) e conjuntamente suciente para θ.

Exemplo 2.4.3. Consideremos mais uma vez a situa¸ cao do Exemplo 2.3.1.Nesse caso, temos que θ = ( µ, σ 2 ), com

(2.4.4) f (x

|θ) =

1

√2πσe−

( x − µ ) 2

2 σ 2 ,

= e − 12 σ 2 x 2 + µ

σ 2 x− µ 2

2 σ 2 −12 log σ 2 −log √2π ,

que e da famılia exponencial bidimensional com




T 1(x) = x, T 2(x) = x2 , c1(θ) =µ

σ2, c2(θ) =

−1

2σ2,

d(θ) = −µ

2σ2 −12

log σ2 , S (x) = −log√2π, A = IR.

A distribui¸cao de uma amostra aleat´ oria da densidade (2.4.4) e tambem dafamılia exponencial com T 1(X ) = n

i=1 X i e T 2(X ) = ni=1 X 2i , que sao con-

juntamente sucientes para ( µ, σ 2).

Exemplo 2.4.4. Vamos considerar agora o caso em que o vetor ( X, Y ) e dis-tribuıdo de acordo com a distribui¸ cao normal bivariada com θ = ( µx , µy , σ2

x , σ2y ,

ρ), que denotamos por

X

Y ∼

N 2µx

µy; σ2

x ρσx σy

ρσx σy σ2y,

e com densidade

(2.4.5) f (x, y |θ) =σ−1

x σ−1y

2π(1 −ρ2)e−

12(1 − ρ 2 )

( x − µ x ) 2

σ 2x − 2 ρ

σ x σ y (x−µ x )( y−µy )+ ( y − µ y ) 2

σ 2y .

A densidade pode ser escrita como

f (x, y |θ) = e1

(1 − ρ 2 )µ xσ 2

x −ρµ y

σ x σ yx + 1

(1 − ρ 2 )µ yσ 2

y − ρµ xσ x σ y

y

e− 12(1 − ρ 2 ) σ 2

xx 2 − 1

2(1 − ρ 2 ) σ 2y

y 2 + ρ(1 − ρ 2 ) σ x σ y

xy

e−µ 2

x2(1 − ρ 2 ) σ 2

x −µ 2

y2(1 − ρ 2 ) σ 2

y+ ρµ x µ y

(1 − ρ 2 ) σ x σ y −log σ x σ y √1−ρ2 −log 2 π,

que corresponde a uma densidade na forma da famılia exponencial de dimens˜ ao5, em que

c1(θ) =1

(1 −ρ2)µx

σ2x −

ρµy

σx σy, T 1(x, y ) = x,

c2(θ) =1

(1 −ρ2)µy

σ2y −

ρµx

σx σy, T 2(x, y ) = y,

c3(θ) = −1

2(1 −ρ2)σ2x

, T 3(x, y ) = x2 ,

c4(θ) = − 12(1 −ρ2)σ2

y, T 4(x, y ) = y2 ,

c5(θ) =ρ

(1 −ρ2)σx σy, T 5(x, y ) = xy.



2.5 Estimadores Baseados em Estatısticas Sucientes 29

As funcoes d(θ) e S (x, y ) sao obtidas de maneira similar.Consideremos uma amostra aleat´ oria (X 1 , Y 1), . . . , (X n , Y n ) da densidade

normal bivariada (2.4.5). Temos, portanto, que a estatıstica

T 1 =n

i=1

X i ,n

i=1

Y i ,n

i=1

X 2i ,n

i=1

Y 2i ,n

i=1

X i Y i

e conjuntamente suciente para θ = ( µx , µy , σ2x , σ2

y , ρ). Notemos que a es-tatıstica

T 2 = ( X , Y, S 2x , S 2y , S xy ),

onde S 2x = ni=1 (X i −X )2 /n , S 2y = n

i=1 (Y i −Y )2 /n e S xy = ni=1 (X i −

X )(Y i −Y )/n e equivalente a T 1 e, portanto, e tambem conjuntamente su-

ciente para θ. Estimadores comumente considerados para θ e que sao funcoesde T 2 sao

(2.4.6) µx = X, µy = Y , σ2x =

n

i=1

(X i −X )2/n, σ2y =

n

i=1

(Y i −Y )2 /n,

e

(2.4.7) ρ =ni=1 (X i −X )(Y i −Y )

ni=1 (X i −X )2 ni=1 (Y i −Y )2

.

O estimador ρ e conhecido como coeciente de correla¸ cao de Pearson. Podemosmostrar que os estimadores de θ dados por (2.4.6) e (2.4.7) s˜ao estimadores demaxima verossimilhan¸ca.

2.5 Estimadores Baseados em Estatısticas Sucientes

Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oria X com funcaode densidade (ou de probabilidade) f (x|θ). Seja T = T (X 1 , . . . , X n ) uma es-tatıstica suciente para θ e S = S (X 1 , . . . , X n ) um estimador de θ que n ao efuncao da estatıstica suciente T . Ent ao,

(2.5.1) θ = E [S |T ],

e um estimador de θ, ou seja, e uma fun¸cao de T que n ao depende de θ,pois, sendo T suciente, a distribui¸ cao condicional de X 1 , . . . , X n dado T eindependente de θ. Notemos que S = S (X 1 , . . . , X n ) e uma fun¸cao apenas deX 1 , . . . , X n . Temos, tambem, que se S e um estimador n˜ ao viciado de θ, ent aoθ e tambem n˜ ao viciado para θ (veja o Exercıcio 2.8). Contudo o resultado mais




importante, conhecido como Teorema de Rao-Blackwell, estabelece que, se S eum estimador não viciado de θ, ent ao,

(2.5.2) V ar[θ] ≤V ar[S ],

para todo θ. Para provar esse resultado, notemos que

V ar[S ] = E {V ar[S |T ]}+ V ar{E [S |T ]}≥V ar{E [S |T ]}= V ar[θ],

pois E {V ar[S |T ]} ≥0. Portanto temos de (2.5.2) que o estimador θ baseadona estatıstica suciente T apresenta uma variˆ ancia menor (ou igual) que avari ancia do estimador não viciado S . Desse modo, qualquer estimador S que

nao e fun cao de uma estatıstica suciente pode ser melhorado pelo procedi-mento (2.5.1).

Exemplo 2.5.1. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oriaX ∼Poisson (θ). Queremos estimar P (X = 0 ) = τ = e −θ . Temos que aestatıstica T = n

i=1 X i e suciente para θ. Consideremos

S = 1, X 1 = 0,0, caso contr ario.

Temos que E (S ) = P (X 1 = 0) = e −θ , logo S e n ao viciado para e −θ . Notemosque, para t = 0 , 1, 2, ...,

E [S |T = t] = P (X 1 = 0 |T = t) =P ( n

i=2 X i = t)P (X 1 = 0)P ( n

i=1 X i = t)

=e−(n −1) θ ((n −1)θ)t

t!e−θ t!

e−nθ (nθ)t =n −1

n

t

,

portanto de acordo com (2.5.1) temos que o estimador

τ =n −1

n

ni =1

X i

e n ao viciado e e melhor que o estimador S , pois apresenta EQM menor.

A seguir apresentamos a deni¸ cao de estatıstica completa que, em conjuntocom a deni cao de suciencia, possibilita a obten¸ cao do estimador ótimo, istoe, o estimador não viciado de vari ancia uniformemente mınima.

Deni¸ cao 2.5.1. Uma estatıstica T = T (X 1 , . . . , X n ) e dita ser completa em rela c˜ ao a famılia f (x|θ) : θ∈Θ, se a ´ unica fun c˜ ao real g, denida no domınio



2.5 Estimadores Baseados em Estatısticas Sucientes 31

de T , tal que E [g(T )] = 0 , para todo θ e a fun¸c˜ ao nula, isto e, g(T ) = 0 com probabilidade 1.

Exemplo 2.5.2. Consideremos novamente o Exemplo 2.2.1. Temos que

E [g(T )] =n

x =0g(x)

nx

θx (1 −θ)n −x = 0 para todo θ,

se e somente se

(2.5.3)n

x =0g(x)

nx

ρx = 0 , para todo ρ

onde ρ = θ/ (1 −θ). Como o lado esquerdo de (2.5.3) e um polinˆ omio em ρ degrau n temos que g(x) = 0 para todo x. Portanto T = n

i=1X i e completa em

rela cao a famılia Binomial.

Exemplo 2.5.3. Sejam X 1 , X 2 uma amostra aleat´ oria da vari avel X ∼Bernoulli (θ). Seja T = X 1 −X 2 . Temos que E (T ) = E (X 1 −X 2) = 0, logoexiste a fun cao g(T ) = T tal que E (g(T )) = 0, mas g(T ) = 0 com probabilidade1. Portanto T = X 1 −X 2 nao e completa.

A demonstra¸cao do teorema a seguir pode ser encontrada em Lehmann(1986).

Teorema 2.5.2. Suponha que X tenha distribui¸c˜ ao da famılia exponencial k-dimensional (como denida em 2.4.2). Ent˜ ao, a estatıstica

T (X ) =n

i=1

T 1(X i ), . . . ,n

i=1

T k (X i )

e suciente para θ. T (X ) ser´ a tambem completa desde que o domınio devaria c˜ ao de (c1(θ), . . . , c k (θ)) contenha um retˆangulo k-dimensional.

No caso uniparametrico, e necess´ ario que o domınio de varia¸ cao de c(θ)contenha um intervalo da reta. No caso bidimensional, um quadrado e assimpor diante.

Teorema 2.5.3. (Lehmann-Scheffe) Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari´ avel aleat´ oria X com f.d.p. (ou f.p.), f (x|θ). Seja T uma estatıstica suciente e completa. Seja S um estimador n˜ ao viciado de θ. Ent˜ ao θ = E (S

|T )

e o unico estimador n˜ ao viciado de θ baseado em T e e o estimador n˜ ao viciadode vari ancia uniformemente mınima (ENVVUM) para θ.

Prova. De (2.5.1) e (2.5.2) temos que θ e um estimador n˜ ao viciado de θ e que,na procura de ENVVUM’s para θ, basta procurar entre os que s˜ ao funcao de




T (pois os que n ao sao podem ser melhorados). Falta provar, ent˜ ao, que h a umunico estimador n˜ao viciado de θ que e fun cao de T . Para isso, suponha queexistam θ1 e θ2 , ambos fun coes de T , tais que

E (θ1 ) = E (θ2) = θ,

de modo que E (θ1 − θ2) = 0 e como T e completa, θ1 − θ2 = 0, e portantoθ1 = θ2 com probabilidade 1.

Exemplo 2.5.4. Sejam X 1 , . . . , X n uma amostra aleat´ oria da distribui¸cao dePoisson com parˆametro θ. Pelos Exemplos 2.2.4 e 2.5.2 temos que T = n

i=1 X ie uma estatıstica suciente e completa. Como X e um estimador n˜ ao viciadode θ e e fun cao de T , e o ENVVUM.

2.6 Exercıcios

2.1. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oria X ∼N (0, σ2).(i) Encontre o limite inferior da variˆ ancia dos estimadores n˜ ao viciados de σ2 .(ii) Encontre uma estatıstica suciente para σ2 .(iii) Obtenha a partir desta estatıstica um estimador n˜ ao viciado para σ2 .(iv) Verique se este estimador e eciente.

2.2. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oria X ∼Binomial (2, θ).(i) Encontre o limite inferior da variˆ ancia dos estimadores n˜ ao viciados de θ.(ii) Encontre uma estatıstica suciente para θ.(iii) Obtenha um estimador n˜ ao viciado para θ que seja fun cao da estatısticasuciente.(iv) Verique se o estimador e eciente.

2.3. Sejam X 1 , . . . , X n uma amostra aleat´ oria da distribui cao da vari avelaleat oria X com funcao densidade de probabilidade dada por

f (x|θ) = θxθ−1 , 0 < x < 1, θ > 0.

(i) Mostre que a f.d.p. pertence ` a famılia exponencial.(ii) Encontre o limite inferior da variˆ ancia dos estimadores n˜ ao viciados de θ.(iii) Encontre uma estatıstica suciente para θ e sua distribui¸cao.(iv) Sugira um estimador n˜ ao viciado para θ que seja fun cao da estatısticasuciente e verique se e eciente.

2.4. Sejam X 1 , X 2 uma amostra aleat´ oria da vari avelaleat oria X ∼Poisson (θ).Mostre que T = X 1 + 2 X 2 nao e suciente para θ.



2.6 Exercıcios 33

2.5. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oria X comfuncao de densidade (ou de probabilidade) f (x|θ) para a qual as condi¸coesde regularidade est˜ ao satisfeitas. Seja ˆγ um estimador não viciado para g(θ).Mostre que

V ar(γ ) ≥(g′(θ))2

nE ∂ log f (X |θ )∂θ

2 .

2.6. Seja f (x|θ) uma fun cao densidade para a qual as condi¸ coes de regularidadeest ao satisfeitas. Mostre que

E ∂ log f (X |θ)

∂θ

2

= −E ∂ 2 log f (X |θ)

∂θ2 .

2.7. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oria X comf.d.p. dada por

f (x|θ) = e −(x−θ ) , x > θ, θ > 0.(i) Encontre uma estatıstica suciente para θ.(ii) Baseado nesta estatıstica, obtenha um estimador n˜ ao viciado para θ.

2.8. Mostre que se S e um estimador n˜ ao viciado de θ, ent ao θ dado por (2.5.1)tambem e n˜ ao viciado para θ.

2.9. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oria X ∼N (µ, 1).

(i) Mostre que o estimador ˆ γ = X 2

−1/n e n ao viciado para g(µ) = µ2.(ii) Existe ENVVUM para µ2?

(iii) Encontre o limite inferior da variˆ ancia dos estimadores n˜ ao viciados deg(µ) = µ2 e verique se γ e eciente.

2.10. Sejam X 1 , . . . , X n uma amostra aleat´ oria da variável aleat oria. X ∼Bernoulli (θ). Obtenha o ENVVUM para θ(1 −θ).Sugest ao: verique se S 2 = n

(n −1) X (1 −X ) e n ao viciado para θ(1 −θ).

2.11. Sejam X 1 , . . . , X n uma amostra aleat´ oria da variável aleat oria X comdistribui¸cao geometrica com parˆ ametro θ, isto e,

f (x|θ) = θ(1 −θ)x , x = 0 , 1, 2, ..., 0 < θ < 1.

Encontre o ENVVUM para 1 /θ .2.12. Sejam Y 1 , . . . , Y n vari aveis aleat orias independentes onde Y i ∼N (βx i , σ2),onde x i e conhecido, i = 1 , . . . , n . Note que, neste caso, as vari´ aveis Y i nao saoidenticamente distribuıdas.




(i) Encontre uma estatıstica conjuntamente suciente para β e σ2 .(ii) Baseado nessa estatıstica, obtenha os ENVVUM para β e para σ2 .



3. Metodos de Estima¸ cao

No capıtulo anterior consideramos um criterio para vericar se determinadoestimador e ou não eciente. Contudo tal procedimento n˜ ao e um metodo quepossibilita, em geral, a obten¸ cao de estimadores em situa¸ coes especıcas. Vimostambem que todo bom estimador deve ser fun¸ cao de uma estatıstica suciente.Neste capıtulo vamos considerar alguns metodos que possibilitam a obten¸ caode estimadores em situa¸ coes especıcas. O primeiro metodo que consideramos eo metodo de máxima verossimilhan¸ca em que estimadores são obtidos a partirda maximiza¸cao da fun cao de verossimilhan¸ca. O segundo metodo consideradoe o metodo dos momentos em que estimadores s˜ ao obtidos igualando-se osmomentos amostrais aos correspondentes momentos populacionais.

3.1 O Metodo de Maxima Verossimilhan¸ ca

O conceito de fun cao de verossimilhan¸ca, enunciado a seguir, e central na teoriada verossimilhan¸ca.

Deni¸ cao 3.1.1. Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n da vari´ avel aleat´ oria X com func˜ ao de densidade (ou de probabilidade) f (x|θ),com θ∈Θ, onde Θ e o espa co parametrico. A fun¸ c˜ ao de verossimilhan¸ca de θcorrespondente à amostra aleat´ oria observada e dada por

(3.1.1) L(θ; x ) =n

i=1

f (x i |θ).

Deni¸ cao 3.1.2. O estimador de m´ axima verossimilhan¸ca de θ e o valor θ∈Θque maximiza a fun c˜ ao de verossimilhan¸ca L(θ; x ).

O logaritmo natural da fun¸ cao de verossimilhan¸ca de θ e denotado por

(3.1.2) l(θ; x ) = log L(θ; x ).

Nao e difıcil vericar que o valor de θ que maximiza a fun¸cao de verossimi-lhan ca L(θ; x ), tambem maximiza l(θ; x ) dada por (3.1.2). Alem disso, no caso



36 3. Metodos de Estima¸ cao

uniparametrico onde Θ e um intervalo da reta e l(θ; x ) e derivável, o estimadorde maxima verossimilhan¸ca pode ser encontrado como a raiz da equa¸ cao deverossimilhan¸ca

(3.1.3) l′(θ; x ) =∂l (θ; x )

∂θ= 0 .

Em alguns exemplos simples, a solu¸cao da equa cao de verossimilhan¸ca pode serobtida explicitamente. Em situa¸ coes mais complicadas, a solu¸cao da equa cao(3.1.3) ser a em geral obtida por procedimentos numericos. Para se concluir quea solucao da equa cao (3.1.3) e um ponto de m´ aximo, e necessário vericar se

(3.1.4) l′′(θ; x ) =∂ 2 log L(θ; x )

∂θ2 |θ= θ < 0.

Em situa¸coes em que Θ e discreto ou em que o máximo de l(θ; x ) ocorre nafronteira de Θ (Exemplo 1.3.8), o estimador de m´ axima verossimilhan¸ca naopode ser obtido a partir da solu¸ cao de (3.1.3). Em tais situa¸ coes, o maximo eobtido a partir da inspe¸ cao da fun cao de verossimilhan¸ca.

Exemplo 3.1.1. Sejam X 1 , . . . , X n uma amostra aleat´ oria da distribui¸cao davari avel aleat oria X ∼N (µ, 1). Nesse caso, a fun cao de verossimilhan¸ca e dadapor

L(µ; x ) =1

√2π

n

e−12

ni =1

(x i −µ )2

,

com Θ = {µ;−∞< µ < ∞}. Como

l(µ; x ) = −n log√2π −12

n

i=1

(x i −µ)2 ,

segue de (3.1.3) que a equa¸cao de verossimilhan¸ca e dada por

n

i=1

(x i −µ) = 0 ,

logo o estimador de m axima verossimilhan¸ca de µ e dado por

µ =1n

n

i=1X i = X.

Nao e difıcil vericar nesse caso que (3.1.4) est´ a satisfeita.Ent ao X , alem de ser eciente (Exemplo 2.1.1) e fun¸ cao da estatıstica su-

ciente, e tambem estimador de m´ axima verossimilhan¸ca.



3.1 O Metodo de M´ axima Verossimilhanca 37

Exemplo 3.1.2. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oriaX ∼Bernoulli (θ). Nesse caso, a fun cao de verossimilhan¸ca de θ e dada por

L(θ; x ) = θni =1

x i (1 −θ)n −ni =1

x i ,

com Θ = {θ; 0 < θ < 1}. De modo que

l(θ; x ) =n

i=1

x i log θ + n −n

i=1

x i log(1 −θ).

Portanto segue de (3.1.3) que a equa¸ cao de verossimilhan¸ca de θ e dada porni=1 x i

θ −(n −

ni=1 x i )

1 −θ= 0 ,

logo o estimador de m axima verossimilhan¸ca de θ e dado por

θ =1n

n

i=1X i ,

pois neste caso, (3.1.4) tambem est´ a vericada.O exemplo a seguir ilustra uma situa¸ cao em que a equa cao (3.1.3) n ao pode

ser utilizada.

Exemplo 3.1.3. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oriaX ∼U (0, θ). Conforme visto no Exemplo 2.2.5, podemos escrever a fun¸ cao de

verossimilhan¸ca como

(3.1.5) L(θ; x ) =1

θn I [0,θ ](x(n ) )I [0,x ( n ) ](x(1) ),

onde Θ = {θ; θ > 0}. Nesse caso, a equa cao de verossimilhan¸ca (3.1.3) n ao levaa nenhum estimador para θ. Por outro lado, o gr´aco da fun cao de verossimi-lhan ca de θ e dado pela Figura 3.1.

Como a fun cao de verossimilhan¸ca (3.1.5) e nula para θ < x (n ) e vale 1/θ n

para θ ≥X (n ) , temos que o m aximo de L(θ; x ) e dado por θ = X (n ) , que e umaestatıstica suciente para θ. Nesse caso o estimador de m axima verossimilhan¸cade θ e viciado (ver Exemplo 1.3.8.).




Figura 3.1. Fun cao de Verossimilhan¸ca

0

L (θ , x )

n

n x )(

1

)( n x θ

No caso discreto, o estimador de m´ axima verossimilhan¸ca de θ, θ, pode serinterpretado como o valor de θ que maximiza a probabilidade de se observar aamostra que foi selecionada. O exemplo a seguir ilustra bem esse fato.

Exemplo 3.1.4. Temos uma caixa com bolas brancas e vermelhas. Sabe-seque a propor cao θ de bolas vermelhas na caixa e 1 / 3 ou 2/ 3. Portanto Θ =

{1/ 3, 2/ 3}. Para obtermos informa¸ cao sobre θ, uma amostra de n = 3 bolase observada com reposi¸ cao e apresenta bola vermelha na primeira extra¸ cao ebranca na segunda e na terceira extra¸ coes. Denindo

X i = 1, se a i-esima retirada apresenta bola vermelha0, se a i-esima retirada apresenta bola branca,

para i = 1 , 2, 3, temos que a fun cao de verossimilhan¸ca de θ associada a amostraobservada e dada por

L(θ; x ) = P θ [X 1 = 1 , X 2 = 0 , X 3 = 0] = θ(1 −θ)(1 −θ) = θ(1 −θ)2 .

Como

L 13; x = 13 23

2

= 427e

L23

; x =23

13

2

=227

,




temos que a estimativa de m´ axima verossimilhan¸ca de θ e dada por θ = 1 / 3,pois

L13

; x > L23

; x .

O exemplo que apresentamos a seguir ilustra uma situa¸ cao em que o esti-mador de m axima verossimilhan¸ca nao e unico.

Exemplo 3.1.5. Sejam X 1 , . . . , X n uma amostra aleat´ oria da distribui¸cao davari avel aleat oria X ∼U (θ −1/ 2, θ + 1 / 2), isto e

f (x|θ) = I [θ−1/ 2;θ+1 / 2](x),

θ > 0. Temos, ent˜ao, que

L(θ; x ) = I [θ−1/ 2;θ+1 / 2](x1 ) . . . I [θ−1/ 2;θ+1 / 2](xn )= I [x ( n ) −1/ 2;x (1) +1 / 2](θ),

poisθ −1/ 2 ≤x i ≤θ + 1 / 2, i = 1 , . . . , n ,

se e somente seθ ≤x(1) + 1 / 2 e x(n ) −1/ 2 ≤θ.

A Figura 3.2 apresenta o gr´ aco da fun cao L(θ; x ).

Figura 3.2. Fun cao de Verossimilhan¸ca

0

1

L(θ , x )

x (n)-1/2 x (1)+1/2 θ




Como L(θ; x ) e nula para θ < x (n )

−1/ 2 e para θ > x (1) + 1 / 2 e constante

no intervalo [ x(n ) −1/ 2; x(1) + 1 / 2], temos que qualquer ponto desse intervaloe um estimador de m´ axima verossimilhan¸ca de θ. Em particular,

θ =X (1) + X (n )

2

e um estimador de m´ axima verossimilhan¸ca de θ.Em alguns casos, principalmente quando a verossimilhan¸ ca est a associada

a modelos mais complexos, a fun¸cao de verossimilhan¸ca nao apresenta solu¸caoanalıtica explıcita. Em tais casos, os estimadores de m´ axima verossimilhan¸capodem ser obtidos por meio de metodos numericos. Vamos denotar por U (θ) afuncao escore, ou seja,

U (θ) =∂ log L(θ; x )

∂θ,

temos que, para o estimador de m´ axima verossimilhan¸ca θ,

U (θ) = 0 ,

de modo que, expandindo U (θ) em serie de Taylor em torno de um ponto θ0 ,obtemos

0 = U (θ)∼= U (θ0) + ( θ −θ0)U ′(θ0),

ou seja, chegamos a equa¸cao

(3.1.6) θ∼= θ0 −U (θ0)U ′(θ0 )

.

Da equa cao (3.1.6), obtemos o procedimento iterativo (Newton-Raphson)

(3.1.7) θj +1 = θj −U (θj )U ′(θj )

,

que e iniciado com o valor θ0 e ent ao um novo valor θ1 e obtido a partir de(3.1.7) e assim por diante, ate que o processo se estabilize, ou seja, para umdado ǫ pequeno, |θj +1 −θj | < ǫ. Nesse caso, o ponto θ em que o processose estabiliza e tomado como o estimador de m´ axima verossimilhan¸ca de θ.Em alguns casos, a substitui¸ cao de U ′(θj ) em (3.1.7) por E [U ′(θj )], ou seja, ainforma cao de Fisher em θj correspondente `a amostra observada multiplicadapor

−1, apresenta signicativa simplica¸ cao no procedimento. Esse metodo e

conhecido como metodo do escore. O exemplo a seguir ilustra uma aplica¸ caode tal procedimento.

Exemplo 3.1.6. Sejam X 1 , . . . , X n uma amostra aleat´ oria da distribui¸cao davari avel aleat oria X com funcao de densidade dada por




(3.1.8) f (x

|θ) =

1

2(1 + θx);

−1

≤x

≤1,

−1

≤θ

≤1.

Nesse caso,

L(θ; x ) =1

2n

n

i=1

(1 + θx i ),

de modo que

U (θ) =∂ log L(θ; x )

∂θ=

n

i=1

x i

1 + θx i.

Assim

U ′(θ) = −n

i=1

x2i

(1 + θx i )2 ,

de modo que o procedimento iterativo (3.1.7) se reduz a

(3.1.9) θj +1 = θj +ni=1

x i1+ θ j x i

ni=1

x 2i

(1+ θ j x i ) 2

.

Podemos vericar que a informa¸ cao de Fisher de θ e dada, para θ = 0, por

I F (θ) =1

2θ3 log1 + θ1 −θ −2θ ,

de modo que um procedimento alternativo a (3.1.9) e dado por

(3.1.10) θj +1 = θj −ni=1

x i1+ θ j x i

nI F (θj ) .

Uma amostra de tamanho n = 20 e gerada a partir da densidade (3.1.8) comθ = 0 , 4. Os dados foram gerados a partir do metodo da fun¸ cao de distribui¸cao,ou seja, sendo F (X ) = U , temos que U ∼U (0, 1). Nesse caso, como

F (x) = x

−1

12

(1 + θy)dy =x + 1

2+

θ(x2 −1)4

,

temos que se U ∼U (0, 1), ent ao,

(3.1.11) x = −1 + 2

1/ 4 −θ(1/ 2 −θ/ 4 −u)

θ

tem distribui¸cao com fun cao de densidade dada por (3.1.8), ou seja, para ugerado a partir da U (0, 1), x obtido a partir de (3.1.11) e um valor gerado apartir da distribui¸ cao com funcao de densidade dada por (3.1.8). As observa¸ coesgeradas s ao dadas na Tabela 3.1.




Tabela 3.1. n = 20 observa¸coes da densidade (3.1.8) com θ = 0 , 4

0,3374 0,9285 0,6802 -0,2139 0,1052-0,9793 -0,2623 -0,1964 0,5234 -0,0349-0,6082 0,7509 0,3424 -0,7010 -0,26050,4077 -0,7435 0,9862 0,9704 0,5313

Escrevendo um programa em Fortran (outra linguagem poderia tambem serfacilmente utilizada) para calcular o estimador de m´ axima verossimilhan¸ca,obtemos, ap´os 10 itera coes do programa, a Tabela 3.2 em que a segunda colunacorresponde ao procedimento dado em (3.1.9) e a terceira coluna correspondeao procedimento (3.1.10). Como valor inicial para o procedimento iterativo foiusado θ0 = X = 0 , 1282.

Tabela 3.2. Valores de θ obtidos nas 10 itera¸coesItera cao Usando (3.1.9) Usando (3.1.10)

1 0,128188 0,1281882 0,358745 0,3718613 0,351170 0,3491634 0,351140 0,3513285 0,351140 0,3511236 0,351140 0,3511427 0,351140 0,3511408 0,351140 0,3511409 0,351140 0,351140

10 0,351140 0,351140

3.2 Propriedades dos Estimadores de MaximaVerossimilhan¸ ca

O teorema a seguir apresenta uma propriedade importante dos estimadores demaxima verossimilhan¸ca, estabelecendo que o estimador de m´ axima verossimi-lhan ca e fun cao de uma estatıstica suciente.

Teorema 3.2.1. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari´ avel aleat´ oria X com func˜ ao de densidade (ou de probabilidade) f (x|θ). Seja T = T (X 1, . . . ,X n ) uma estatıstica suciente para θ. Ent˜ ao o estimador de m´ axima verossi-

milhan ca θ (se existir) e fun¸ c˜ ao de T .Prova. De acordo com o criterio da fatora¸ cao, temos que se T e suciente paraθ, ent ao,

L(θ; x ) = h(x )gθ (T (x )) ,



3.2 Propriedades dos Estimadores de M´ axima Verossimilhan¸ ca 43

onde gθ (T (x )) depende de x somente atraves de T . Como h(x ) e constantecom rela cao a θ, temos que maximar L(θ; x ) com rela cao a θ e equivalente amaximizar gθ (T (x )) com rela cao a θ. Como gθ (T (x )) depende de x somenteatraves de T , temos que θ sera obrigatoriamente uma fun¸ cao de T . Outraspropriedades s˜ao apresentadas nas subse¸ coes seguintes.

3.2.1 Invariancia

A seguir apresentamos uma propriedade bastante importante do metodo demaxima verossimilhan¸ca. Seja g(.) uma fun cao real 1 : 1 (inversıvel) denidaem Θ.

Teorema 3.2.2. (O princıpio da invariˆ ancia.) Sejam X 1 , . . . , X n uma amostra

aleat´ oria da vari´ avel aleat´ oria X com func˜ ao de densidade (ou de probabilidade)f (x|θ). Se θ e um estimador de m´ axima verossimilhan¸ca de θ, ent˜ ao g(θ) e um estimador de m´ axima verossimilhan¸ca de g(θ).

Prova. Provamos o resultado para o caso em que g e 1:1. Sendo g(.) umafuncao 1 : 1, temos que g(.) e inversıvel, de modo que θ = g−1(g(θ)). Assim

(3.2.1) L(θ; x ) = L(g−1(g(θ)); x ),

de modo que θ maximiza os dois lados de (3.2.1). Logo

θ = g−1(g(θ)) ,

portanto g(θ) = g(θ),

ou seja, o estimador de m´axima verossimilhan¸ca de g(θ) e g(θ).

Exemplo 3.2.1. Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n davari avel aleat oria X ∼Bernoulli (θ). Nesse caso, o par ametro de interesse eg(θ) = θ(1−θ). De acordo com o princıpio da invariˆ ancia, temos que o estimadorde maxima verossimilhan¸ca de g(θ) e dado por

(3.2.2) g(θ) = X (1 −X ).

De acordo com o Exercıcio 2.10 temos que o estimador dado em (3.2.2) e viciadopara g(θ). Por outro lado, usando o Exercıcio 2.10, temos que

E [g(θ)] −g(θ) =1n

θ(1 −θ),

que decresce a medida que n aumenta.




Exemplo 3.2.2. Sejam X 1 , . . . , X n uma amostra aleat´ oria da distribui¸cao davari avel aleat oria X ∼N (µ, 1). Vimos que µ = X e o estimador de máximaverossimilhan¸ca de µ. Suponhamos que queremos estimar

g(µ) = P µ [X ≤0] = Φ(−µ).

Pelo princıpio da invariˆ ancia, temos que

g(µ) = Φ(−X )

e o estimador de máxima verossimilhan¸ca de g(µ).

Exemplo 3.2.3. Sejam X 1 , . . . , X n uma amostra aleat´ oria da distribui¸cao davari avel aleat oria X ∼Exp (θ) com densidade

f (x|θ) = θe−θx ,

θ > 0 e x > 0. Nesse caso, θ = X −1e o estimador de máxima verossimilhan¸ca

de θ. Suponhamos que e de interesse estimar

g(θ) = P θ [X > 1] = e−θ .

De acordo com o princıpio da invariˆ ancia, temos que o estimador de m´ aximaverossimilhan¸ca e

g(θ) = e −1/X .

Nos tres exemplos acima, vimos situa¸ coes em que o estimador de máximaverossimilhan¸ca e uma fun¸cao complicada da amostra observada. Certamente,nao e uma tarefa fácil encontrar a distribui¸ cao do estimador Φ(−X ), por exem-plo. Contudo, se o tamanho da amostra for grande, o estimador de m´ aximaverossimilhan¸ca apresentar´ a uma distribui¸cao aproximadamente normal, comoveremos adiante. Alem disso, veremos que o estimador de m´ axima verossimi-lhan ca e eciente, em grandes amostras.

3.2.2 Distribui¸ cao em grandes amostras

No caso em que o tamanho da amostra e grande, e as condi¸ coes de regularidade,especicadas no Capıtulo 2, est˜ ao satisfeitas, temos que

(3.2.3) √n(θ

−θ) a

∼

N 0,1

I F (θ),

e

(3.2.4) √n(g(θ) −g(θ)) a

∼N 0,(g′(θ))2

I F (θ),



3.3 Verossimilhan¸ ca para Amostras Independentes 45

onde ” a

∼

”signica distribui¸cao assint otica. Temos então que, para amostrasgrandes, os estimadores de m´ axima verossimilhan¸ca de θ e g(θ) sao aproxi-madamente não viciados, cujas variâncias coincidem com os correspondenteslimites inferiores das variâncias dos estimadores n˜ ao viciados de θ e g(θ). Por-tanto, em grandes amostras, temos que o estimador de m´ axima verossimilhan¸cae eciente.

Exemplo 3.2.4. Considere o modelo do Exemplo 3.2.1. De acordo com (3.2.4),temos que a distribui¸ cao do estimador de máxima verossimilhan¸ca (3.2.2) edada por √n(g(θ) −θ(1 −θ)) a

∼N 0, (1 −2θ)2θ(1 −θ) ,

pois g′(θ) = 1 −2θ.

Exemplo 3.2.5. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oriaX ∼P oisson (θ). Nesse caso, temos que o estimador de m´ axima verossimi-lhan ca de θ e θ = X (verique!). De acordo com o princıpio da invariˆ ancia,temos que o estimador de máxima verossimilhan¸ca de e−θ e dado por

g(θ) = e −X .

Do resultado (3.2.4), temos que

√n(g(θ) −e−θ ) a

∼N (0, θe−2θ ).

3.3 Verossimilhan¸ ca para Amostras Independentes

Existem situa¸coes em que temos duas ou mais amostras independentes de dis-tribui¸coes que dependem de um parâmetro θ de interesse. No caso de duasamostras aleat´ orias independentes, X 1 , . . . , X n e Y 1 , . . . , Y n , podemos escrever

(3.3.1) L(θ; x , y ) = L(θ; x )L(θ; y ),

devido a independencia entre as amostras. Portanto a verossimilhan¸ ca conjuntae igual ao produto da verossimilhan¸ ca correspondente à amostra X 1 , . . . , X npela verossimilhan¸ca correspondente à amostra Y 1 , . . . , Y n . De (3.3.1), podemosescrever

l(θ; x , y ) = l(θ; x ) + l(θ; y ),

de modo que o logaritmo da verossimilhan¸ ca conjunta e igual ` a soma do logari-tmo das verossimilhan¸ cas correspondentes a cada uma das amostras. O exemploque apresentamos a seguir ilustra uma tal situa¸ cao.

Exemplo 3.3.1. Sejam X 1 , . . . , X n uma amostra aleat´ oria correspondente aX ∼N (µ, 4) e Y 1 , . . . , Y n uma amostra aleat´ oria correspondente a Y ∼N (µ, 9).




Assumindo que as duas amostras s˜ ao independentes, temos que a verossimi-lhan ca correspondente à amostra conjunta e dada por

(3.3.2) L(µ; x , y ) = L(µ; x )L(µ; y )

=1

2√2π

n

e−ni =1

( x i − µ ) 2

81

3√2π

m

e−mi =1

( y i − µ ) 2

18

=1

2√2π

n 13√2π

m

e−ni =1

( x i − µ ) 2

8 −mi =1

( y i − µ ) 2

18 .

Usando o criterio da fatora¸ cao, n ao e difıcil vericar que uma estatıstica su-ciente para µ e dada por

(3.3.3) T (x , y ) =

ni=1 X i

4 +

mi=1 Y i9 .

Alem disso, o logaritmo da verossimilhan¸ ca (3.3.2) pode ser escrito como

l(µ; x , y ) = −n2

log8π −m2

log 18π −n

i=1

(x i −µ)2

8 −m

i=1

(yi −µ)2

18,

de modo que

∂ log L(µ; x , y )∂µ

=n

i=1

(x i −µ)4

+m

i=1

(yi −µ)9

= 0 ,

cuja solu cao e dada por

µ =14

ni=1 X i + 1

9mi=1 Y i

n4 + m

9.

Podemos notar que o estimador de m´ axima verossimilhan¸ca e fun cao da es-tatıstica suciente dada em (3.3.3).

3.4 O Caso Multiparametrico

Nas secoes anteriores discutimos a obten¸ cao dos estimadores de máximaverossimilhan¸ca e estudamos suas propriedades no caso em que a fun¸ cao de

verossimilhan¸ca depende apenas de um parˆ ametro. Nesta se¸cao vamos consi-derar situa¸coes em que θ = ( θ1 , . . . , θ r ), ou seja, a verossimilhan¸ca depende dedois ou mais par ametros. O espa¸co parametrico ser´ a denotado por Θ. Nos casosem que as condi coes de regularidade estão satisfeitas, os estimadores de m´ aximaverossimilhan¸ca de θ1 , . . . , θ r podem ser obtidos como solu¸cao das equa coes



3.4 O Caso Multiparametrico 47

∂ log L(θ; x )

∂θ i= 0 ,

i = 1 , . . . , r . Nos casos em que o suporte da distribui¸ cao de X depende de θ ouo maximo ocorre na fronteira de Θ, o estimador de m´axima verossimilhan¸ca eem geral obtido inspecionando o gr´ aco da fun cao de verossimilhan¸ca, como nocaso uniparametrico. Nos casos em que a fun¸ cao de verossimilhan¸ca dependede dois par ametros, θ1 e θ2 , utilizando a equa¸cao

∂ log L(θ1 , θ2 ; x )∂θ1

= 0 ,

obtemos uma solu¸cao para θ1 como funcao de θ2 , que podemos denotar porθ1(θ2). Substituindo a solu¸ cao para θ1 na verossimilhan¸ca conjunta, temos agora

uma fun cao apenas de θ2 , ou seja,g(θ2 ; x ) = l(θ1(θ2), θ2 ; x ),

conhecida como verossimilhan¸ ca perlada de θ2 que pode ser usada para que oestimador de m´axima verossimilhan¸ca de θ2 possa ser obtido. A maximiza¸ caode g(θ2; x ) pode, ent ao, ser feita de maneira usual, ou seja, atraves de deriva¸ cao,quando possıvel.

Exemplo 3.4.1. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oriaX ∼N (µ, σ 2), onde µ e σ2 sao desconhecidos. Temos, ent˜ ao, que θ = ( µ, σ 2 ),com

L(θ; x ) =1

2πσ2

n/ 2

e−ni =1

( x i − µ ) 2

2 σ 2 ,

de modo que

l(µ, σ 2 ; x ) = −n2

log2πσ 2 −n

i=1

(x i −µ)2

2σ2 .

Assim∂l (µ, σ 2; x )

∂µ= 2

n

i=1

(xi −µ)2σ2 = 0

que leva ao estimador ˆµ = X . Portanto o logaritmo da verossimilhan¸ ca perladade σ2 e dada por

g(σ2; x ) = −

n2 log2πσ

2

−1

2σ2

n

i=1(xi −x)

2,

logo o estimador de m axima verossimilhan¸ca de σ2 e obtido como solu¸cao daequa cao




∂g(σ2 ; x )∂σ 2 = −

n2σ2 +

n

i=1

(xi

−x)2

2σ4 = 0

que leva ao estimador

σ2 =1n

n

i=1

(X i −X )2 ,

de modo que os estimadores de m´axima verossimilhan¸ca de µ e σ2 sao dados,respectivamente, por

µ = X =1n

n

i=1

X i e σ2 =1n

n

i=1

(X i −X )2 .

No caso multiparametrico, as mesmas propriedades como invariˆ ancia, fun caoda estatıstica suciente e outras, continuam valendo. O mesmo se aplica aocaso de varias amostras independentes, conforme ilustra o exemplo a seguir.

Exemplo 3.4.2. Sejam X 1 , . . . , X n uma amostra aleat´ oria de X ∼N (µx , σ2 )e Y 1 , . . . , Y m uma amostra aleat´ oria de Y ∼N (µy , σ2). Nesse caso, θ =(µx , µy , σ2). Portanto a verossimilhan¸ ca correspondente `a amostra observada edada por

L(θ; x , y ) =1

√2πσ

n 1√2πσ

m

e− 12 σ 2

ni =1

(x i −µ x ) 2 − 12 σ 2

mi =1

(y i −µy )2

,

logo

l(θ; x , y ) = −(n + m)2

log2π−(m + n)2

log σ2−n

i=1

(x i −µx )2

2σ2 −m

i=1

(yi −µy )2

2σ2 .

Derivando l(θ; x , y ) com rela cao a µx , µy e σ2 , chegamos as equa coes

∂l (θ; x , y )∂µ x

=n

i=1

(x i −µx ) = 0 ,

∂l (θ; x , y )∂µ y

=m

j =1

(yi −µy ) = 0

e

∂l (θ; x , y )∂σ 2 = −

(m + n)2

1σ2 +

12σ4

n

i=1

(x i −µx )2 +m

j =1

(yj −µy )2 = 0 ,

cuja solu cao apresenta os estimadores



3.5 Famılia Exponencial e o Metodo de M´ axima Verossimilhan¸ ca 49

µx = X, µy = Y

e

σ2 =ni=1 (X i −X )2 + m

j =1 (Y j −Y )2

m + n.

3.5 Famılia Exponencial e o Metodo de MaximaVerossimilhan¸ ca

Se a distribui¸cao da vari avel aleat oria X pertence à famılia exponencial unidi-mensional de distribui¸ coes, ent ao o estimador de máxima verossimilhan¸ca de θbaseado na amostra X = ( X 1 , . . . , X n ) e solu cao da equa cao

(3.5.1) E [T (X )] = T (X ),desde que a solu cao perten¸ca ao espa co parametrico correspondente ao parˆ a-metro θ. Esse resultado pode ser estendido para o caso k-parametrico em queos estimadores de máxima verossimilhan¸ca de θ1 , . . . , θ k seguem como solu coesdas equa coes

(3.5.2) E [T j (X )] = T j (X ),

j = 1 , . . . , k .

Exemplo 3.5.1. Consideremos uma popula¸ cao com 3 tipos de indivıduos de-nominados (rotulados) 1, 2, e 3, ocorrendo nas propor¸ coes de Hardy-Weinberg

p(1; θ) = θ2, p(2; θ) = 2 θ(1 −θ), p(3; θ) = (1 −θ)

2,

0 < θ < 1. Por exemplo, p(1; θ) = θ2 signica que a probabilidade de se observarum indivıduo do tipo 1 e θ2 . Para uma amostra de n = 3 indivıduos, se x1 = 1,x2 = 2 e x3 = 1, onde x1 = 1 signica que o primeiro indivıduo observado e dotipo 1, x2 = 2 signica que o segundo indivıduo observado e do tipo 2 e x3 = 1signica que o terceiro indivıduo observado e do tipo 1, temos que a fun¸ cao deverossimilhan¸ca correspondente e dada por

L(θ; x ) = p(1; θ) p(2; θ) p(1; θ) = 2 θ5(1 −θ),

de modo que de (3.1.3),

l′(θ; x ) =5

θ −1

1 −θ= 0

leva ao estimador θ = 5 / 6 (verique que l′′(θ; x ) < 0). Em geral, parauma amostra de n indivıduos, sendo n1 , n 2 , n 3 o numero de elementos de

{x1 , . . . , x n }iguais a 1, 2 e 3, respectivamente, temos que




L(θ; x ) = 2n 2

θ2n 1 + n 2

(1 −θ)2n 3 + n 2

= 2n 2 θ

1 −θ

2n 1 + n 2

(1 −θ)2n

.

Ent ao c(θ) = log( θ/ (1 −θ)) e T (X ) = 2 N 1 + N 2 de modo que

E [T (X )] = E [2N 1 + N 2] = 2nθ 2 + 2 nθ(1 −θ) = 2 nθ.

Assim a equa cao (3.5.1) torna-se

2N 1 + N 2 = 2 nθ

que produz o estimador θ = (2 N 1 + N 2)/ 2n .

Exemplo 3.5.2. Consideremos ( X 1 , Y 1), . . . , (X n , Y n ) uma amostra aleat´ oria

da distribui¸cao normal bivariada dada no Exemplo 2.4.4, em que e obtida aestatıstica suciente T = ( T 1 , T 2 , T 3 , T 4 , T 5), com T 1 = ni=1 X i , T 2 = n

i=1 Y i ,T 3 = n

i=1 X 2i , T 4 = ni=1 Y 2i , T 5 = n

i=1 X i Y i , para θ = ( µx , µy , σ2x , σ2

y , ρ).Como E [X i ] = µx , E [Y i ] = µy , E [X 2i ] = µ2

x + σ2x , E [Y 2i ] = µ2

y + σ2y e E [X i Y i ] =

µx µy + ρσx σy , i = 1 , . . . , n , segue que E [T 1] = nµ x , E [T 2] = nµ y , E [T 3] =nµ 2

x + nσ 2x , E [T 4] = nµ 2

y + nσ 2y e E [T 5] = nµ x µy + nρσ x σy , ent ao de (3.5.2),

temos que o estimador de m´ axima verossimilhan¸ca de θ tem componentes dadaspelas express oes (2.4.6) e (2.4.7).

3.6 O Metodo dos Momentos

O metodo dos momentos e um dos metodos de estima¸ cao mais simples e antigos.Esse metodo tem sido utilizado desde o seculo XVIII. Seja

m r =1n

n

i=1

X ri ,

r ≥1, o r -esimo momento amostral de uma amostra aleat´ oria X 1 , . . . , X n . Seja

µr = E [X r ],

r ≥1, o r -esimo momento populacional. O metodo dos momentos consiste naobten cao de estimadores para θ = ( θ1 , . . . , θ k ) resolvendo-se as equa coes

m r = µr ,

r = 1 , . . . , k .

Exemplo 3.6.1. Consideremos novamente o problema da estima¸ cao do numerode t axis em uma cidade. Sendo N o numero de t axis, vimos que



3.6 O Metodo dos Momentos 51

P [X i = k] =1

N , k = 1 , . . . , N ,

onde X i e o n umero do i-esimo táxi observado. Como o primeiro momentopopulacional e dado por

µ1 = E [X ] =N + 1

2,

temos que um estimador para N , utilizando-se os primeiros momentos popula-cional e amostral, e dado pela solu¸ cao da equa cao

N + 12

= X,

de onde segue queN = 2 X

−1.

Notemos que, nesse caso, o estimador obtido pelo metodo dos momentos n˜ ao efuncao da estatıstica suciente X (n ) .

Exemplo 3.6.2. Sejam X 1 , . . . , X n uma amostra aleat´ oria da distribui¸cao davari avel aleat oria X , com densidade gama com parˆ ametros α e β dados por

f (x|α, β ) =β α xα −1e−βx

Γ (α), x > 0, α > 0, β > 0.

ComoE [X ] =

αβ

e V ar[X ] =αβ 2

,

temos que estimadores para α e β sao obtidos como solu cao das equa coes

αβ

= 1n

n

i=1

X i

eα 2

β 2+

αβ 2

=1n

n

i=1

X 2i

que fornece os estimadores

(3.6.1) α =X

2

σ2 , e β =X σ2 ,

onde σ2 = ni=1 (X i −X )2 /n , como antes. Nesse caso, não e possıvel obter-

mos estimadores de máxima verossimilhan¸ca explıcitos para α e β . Metodos

computacionais como o metodo do escore considerado na Se¸ cao 3.1 devem serutilizados. Como valores iniciais para esses metodos computacionais, podemosutilizar os estimadores dados por (3.6.1). Notemos tambem que os estimadoresdados por (3.6.1) não sao funcoes da estatıstica conjuntamente suciente, quenesse caso e dada por ( n

i=1 X i ,ni=1 X i ).




3.7 Estimadores Consistentes

Os metodos de estima¸ cao considerados nesta se¸cao produzem, em geral, esti-madores consistentes, ou seja, ` a medida que o tamanho da amostra aumenta, osestimadores cam t˜ao pr oximos do par ametro que est´a sendo estimado quantodesejado. Consistencia est´ a ligada ao conceito de convergencia em probabilida-de (veja James, 1981).

Deni¸ cao 3.7.1. Sejam X 1 , . . . , X n uma amostra aleat´ oria da distribui¸c˜ ao da vari´ avel aleat´ oria X que depende do par ametro θ. Dizemos que o estimador θ = θ(X 1 , . . . , X n ) e consistente para o parˆ ametro θ, se,

lim n →∞P (|θ −θ| > ǫ) = 0 .

Em geral, usamos a desigualdade de Chebyshev (veja James,1981) para a veri-cacao dessa propriedade.

Exemplo 3.7.1. Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n dadistribui¸cao da vari avel aleat oria X com media θ e variancia σ2 . Temos, usandoa desigualdade de Chebyshev, que

P (|X −θ| > ǫ) ≤σ2

nǫ2 ,

de modo quelim n →∞P (|X −θ| > ǫ) = 0 ,

e portanto X e consistente para θ.

3.8 Exercıcios

3.1. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oria X comfuncao de densidade de probabilidade

f (x|θ) =θ

x2 , x ≥θ, θ > 0.

Encontre o estimador de m´ axima verossimilhan¸ca de θ e de E θ [1/X ].

3.2. Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n da vari avelaleat oria X com funcao de densidade de probabilidade dada por

f (x|θ) = θxθ−1 , 0 < x < 1, θ > 0.

(i) Encontre os estimadores de m´ axima verossimilhan¸ca de θ e de g(θ) = θ/ (1+θ). (ii) Encontre a distribui¸ cao aproximada dos estimadores em (i) quando n egrande.



3.8 Exercıcios 53

3.3. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oria X

∼N (µ, 1). Encontre o estimador de m´ axima verossimilhan¸ca de g(µ) = P µ [X > 0]e sua distribui¸cao aproximada quando n e grande.


f (x|θ) =xθ2 e−x/θ , x ≥0, θ > 0.

(i) Encontre o estimador de m´ axima verossimilhan¸ca de θ e verique se ele eeciente.(ii) Encontre o estimador de m´ axima verossimilhan¸ca de V ar[X ] e encontresua distribui¸cao aproximada em grandes amostras.

3.5. Encontre a distribui¸ cao aproximada para grandes amostras do estimadorde maxima verossimilhan¸ca de Φ(−θ), considerado no Exemplo 3.2.2.

3.6. Encontre o estimador de m´ axima verossimilhan¸ca de θ2 no Exercıcio 2.9e compare seu erro quadr´ atico medio com o do estimador eciente ˆ γ dado noExercıcio 2.9, (i).

3.7. Considere uma amostra aleat´ oria de tamanho n da distribui¸cao da vari avelaleat oria X onde cada observa¸cao apresenta um de tres resultados possıveis (porexemplo, favor avel, contra e indiferente), que denotamos por “0”, “1” e “2”.Suponhamos que a probabilidade de “0” e p1 = (1 −θ)/ 2, a probabilidade daocorrencia do resultado “1” e p2 = 1 / 2 e do resultado “2” e p3 = θ/ 2. Seja n1 :o numero de vezes que “0” ocorre, n2: o numero de vezes que “1” ocorre e n3 :o numero de vezes que o “2” ocorre.(i) Encontre, como fun¸ cao de n1 , n 2 , n 3 , uma estatıstica suciente para θ.(ii) Encontre o estimador de m´ axima verossimilhan¸ca de θ.


f (x|θ) = θ(θ + 1) xθ−1(1 −x), 0 ≤x ≤1, θ > 0.

(i) Encontre, usando o metodo dos momentos, um estimador para θ.(ii) Encontre o estimador de m´ axima verossimilhan¸ca de θ e sua distribui¸caoaproximada em grandes amostras.

3.9. Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n da vari avel X comfuncao de densidade de probabilidade dada por

f (x|θ) =1β

e−( x − α )

β e− e− ( x − α )

β

, −∞< x < ∞, −∞< α < ∞, β > 0.




(i) Encontre a distribui¸ cao de Y = e X .(ii) Discuta a obten¸cao do estimador de máxima verossimilhan¸ca para β ,quando α = 0.(iii) Encontre estatısticas conjuntamente sucientes para α e β .(iv) Discuta a obten¸ cao dos estimadores de máxima verossimilhan¸ca para α eβ e verique se sao funcoes das estatısticas obtidas em (iii).(v) Usando (i), gere uma amostra aleat´ oria de tamanho n =20 da variávelaleat oria Y . A partir desta amostra, obtenha uma amostra de tamanho n=20para a variável aleat oria X e usando um programa de computador, obtenha osestimadores de máxima verossimilhan¸ca de α e β .

3.10. Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n da vari avelaleat oria X com funcao de densidade de probabilidade

f (x|θ) = (x + 1)θ(θ + 1)

e−x/θ , x > 0, θ > 0.

(i) Encontre o estimador de m´ axima verossimilhan¸ca para θ e sua distribui¸caoem grandes amostras.(ii) Obtenha um estimador para θ usando o metodo dos momentos.

3.11. Refaca o Exercıcio 3.7 supondo agora que p1 = θ2 , p2 = 2 θ(1 −θ) e p3 = (1 −θ)2 .

3.12. Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n da distribui¸caoN (0, σ2). Encontre o estimador de m´ axima verossimilhan¸ca de σ e sua dis-tribui¸cao em grandes amostras.

3.13. Sejam X 1 , . . . , X n uma amostra aleat´ oria da variável aleat oria X comdistribui¸cao exponencial com parâmetro θ. Encontre o estimador de m´ aximaverossimilhan¸ca de g(θ) = P [X > 1] e sua distribui cao aproximada quando nfor grande.

3.14. Sejam X 1 , . . . , X n uma amostra aleat´ oria da variável aleat oria X comfuncao de densidade de probabilidade Weibull dada por

f (x|θ, a) = θax a −1e−θx a; x, a, θ > 0.

(i) Suponha que a seja conhecido. Encontre o estimador de m´ axima verossimi-lhan ca de θ e sua distribui¸cao aproximada para quando n for grande.(ii) Suponha agora que θ e a sao desconhecidos. Encontre as equa¸ coes de

verossimilhan¸ca para os dois parâmetros. Proponha um procedimento iterativopara encontrar os estimadores de m´ axima verossimilhan¸ca dos dois par ametros.Discuta a implementa¸ cao do procedimento no computador.(iii) Gere uma amostra com n = 10 elementos da distribui¸ cao de X assumindoque a = θ = 1. Usando o procedimento iterativo em (ii), obtenha estimadores



3.8 Exercıcios 55

de maxima verossimilhan¸ca de a e de θ. Compare as estimativas com os valoresusados para simular a amostra.

3.15. Obtenha a informa¸ cao de Fisher I F (θ) no Exemplo 3.1.6.

3.16. Obtenha os estimadores de m´ axima verossimilhan¸ca de β e σ2 no modelode regress ao dado no Exercıcio 2.12.

3.17. Verique se os estimadores obtidos nos Exemplos 3.1.2, 3.1.3, 3.2.1, 3.2.3e 3.6.2 sao consistentes.

3.18. Sejam Y 1 , . . . , Y n vari aveis aleat orias independentes com Y i ∼N (α +βx i , σ2), onde x i e conhecido, i = 1 , . . . , n . Encontre os estimadores de m´ aximaverossimilhan¸ca de α , β e σ2 .

3.19. Sejam Y 1 , . . . , Y n vari aveis aleat orias independentes com Y i ∼N (βx i ,σ2x i ), onde xi > 0 e conhecido, i = 1 , . . . , n . Encontre os estimadores demaxima verossimilhan¸ca de β e σ2 .

3.20. No caso do modelo do Exercıcio 3.18, os estimadores de α e β obtidosatraves do metodo de mınimos quadrados minimizam a soma de quadrados

ni=1 (Y i −α −βx i )2 . Verique que os estimadores de mınimos quadrados co-

incidem com os estimadores de m´axima verossimilhan¸ca de α e β .

3.21. Dena o criterio correspondente para obter os estimadores de mınimosquadrados para o modelo do Exercıcio 3.19.



4. Introdu¸ cao a Teoria das Decis˜ oes.

Os Princıpios Minimax e de Bayes

Neste capıtulo apresentamos uma breve introdu¸ cao a teoria das decisões. Osproblemas usuais de estima¸ cao e testes de hipóteses sao vistos pela otica da teo-ria dos jogos, em que os adversários s ao o estatıstico e a natureza. Em primeirolugar, apresentamos os elementos b´ asicos da teoria das decisões, sendo o obje-tivo principal a minimiza¸ cao da fun cao de risco. Como, em geral, não e possıvela obten cao de um procedimento que minimize a fun¸ cao de risco uniformementeem θ, outros criterios para a obten¸ cao de procedimentos ótimos s ao necessarios.Dois desses procedimentos são discutidos neste capıtulo. O primeiro e o pro-cedimento minimax, em que o estatıstico procura precaver-se contra o riscomaximo. A seguir apresentamos o princıpio de Bayes em que a caracterısticaprincipal e a formula¸ cao do problema de decisão, assumindo que a naturezautiliza um procedimento aleat´ orio, representado por uma distribui¸ cao de pro-babilidade, para escolher um valor para θ. Solucoes gerais sao apresentadaspara o estimador de Bayes com respeito a alguns tipos especiais de fun¸ coes deperda, dentre as quais destacamos a perda quadr´ atica.

4.1 Os Elementos Basicos

Os elementos b asicos de um problema de decisão sao:(i) um conjunto não vazio Θ dos possıveis estados da natureza que na verdaderepresenta o espa¸co parametrico. A natureza escolhe para θ um valor nesseconjunto;(ii) um conjunto não vazio Adas possıveis acões que podem ser tomadas peloestatıstico. No caso de problemas de estima¸ cao, A= Θ, em geral. No caso deproblemas de testes de hip´ oteses, geralmente Aconsiste nas a coes de se aceitarou rejeitar uma hip´ otese formulada;(iii) uma fun cao d : X → A, denominada fun¸cao de decis ao, em que X e oespa co amostral associado a uma vari´ avel aleat oria X correspondente a um ex-perimento idealizado pelo estatıstico para “espionar” (obter informa¸ coes) sobrea escolha de θ feita pela natureza. Seja Do conjunto (ou classe) das possıveisfuncoes de decisao. Nessa classe, o estatıstico procura um procedimento queseja “melhor”, segundo algum criterio;



4.1 Os Elementos B´ asicos 59

melhor procedimento em

D. Alem disso, estando as condi¸ coes (4.1.2) e (4.1.3)

satisfeitas, temos que o procedimento d2 e dito ser inadmissıvel. Gracamente,temos a situa¸cao da Figura 4.1.

Figura 4.1 Figura 4.2

0

R(θ,d)

d2

R(θ,d)

0

d1

θ

0

d2

d1

R(θ,d)

θ

Contudo, em geral, ocorre a situa¸ cao da Figura 4.2, em que o procedimentod1 e preferıvel para alguns valores de θ, enquanto que para outros valores de θ,d2 e preferıvel. Portanto, em geral, n˜ ao existe um procedimento que seja melhorpara todos os valores de θ. Em situa¸coes como essa, outros criterios devem serutilizados para se decidir sobre um procedimento em certa classe D. O exemploque apresentamos a seguir ilustra uma tal situa¸ cao.

Exemplo 4.1.1. Suponha que uma moeda apresenta cara com probabilidadeθ igual a 1/ 3 ou 2/ 3, ou seja, Θ = {1/ 3, 2/ 3}. E ent ao adequado tomar comoespa co das a coes A= {1/ 3, 2/ 3}. Para obter informa¸ cao sobre θ, o estatısticofaz um lan camento da moeda e observa a vari´ avel aleat oria X que denotao numero de caras obtidas no lan¸ camento. O espa¸co amostral associado aoexperimento e, portanto, X = {0, 1}. Nesse caso, podemos denir ent˜ao quatrofuncoes de decisao, d1 , d2 , d3 e d4 , que sao dadas por

d1(0) = 1 / 3, d2(0) = 1 / 3, d3(0) = 2 / 3, d4(0) = 2 / 3,

d1(1) = 2 / 3, d2(1) = 1 / 3, d3(1) = 2 / 3, d4(1) = 1 / 3.

Considerando a fun¸cao de perda do valor absoluto l(θ, a) =

|θ

−a

|, e como a

distribui¸cao de X e discreta, temos que,

R(θ, d) = l(θ, d(0)) P θ [X = 0] + l(θ, d(1)) P θ [X = 1] ,

onde P θ [X = 1] = θ = 1 −P θ [X = 0]. Portanto, para θ = 1 / 3, temos que



60 4. Introdu¸cao a Teoria das Decis˜ oes

R(1/ 3, d1) = l(1/ 3, d1(0)) .2/ 3 + l(1/ 3, d1(1)) .1/ 3

= 0 .2/ 3 + 1 / 3.1/ 3 = 1 / 9,

R(1/ 3, d2) = 0 .2/ 3 + 0 .1/ 3 = 0 ,

R(1/ 3, d3) = 1 / 3.2/ 3 + 1 / 3.1/ 3 = 1 / 3,

R(1/ 3, d4) = 1 / 3.2/ 3 + 0 .1/ 3 = 2 / 9.

Por outro lado, para θ = 2 / 3, de maneira similar, temos que

R(2/ 3, d1) = l(2/ 3, d1(0)) .1/ 3 + l(2/ 3, d1(1)) .2/ 3

= 1 / 3.1/ 3 + 0 .2/ 3 = 1 / 9,

R(2/ 3, d2) = 1 / 3.1/ 3 + 1 / 3.2/ 3 = 1 / 3,

R(2/ 3, d3) = 0 .1/ 3 + 0 .2/ 9 = 0 ,

R(2/ 3, d4) = 0 .1/ 3 + 1 / 3.2/ 3 = 2 / 9.

Resumindo os c alculos acima, temos a Tabela 4.1.

Tabela 4.1. Riscos de d1 , d2 , d3 , d4

d θ = 1 / 3 θ = 2 / 3 maxR (θ; d)d1 1/9 1/9 1/9d2 0 1/3 1/3d3 1/3 0 1/3d4 2/9 2/9 2/9

Da Tabela 4.1 podemos concluir que R(θ, d1) < R (θ, d4), para θ = 1 / 3 eθ = 2 / 3, de modo que d4 e inadmissıvel. Com rela¸ cao a d1 , d2 e d3 , temos asitua cao da Figura 4.2, em que nenhum procedimento e melhor para todo θ.

4.2 O Princıpio Minimax

Conforme mencionado na introdu¸ cao, o procedimento minimax e o procedi-mento que protege o estatıstico contra o risco m´ aximo.

Deni¸ cao 4.2.1. Dizemos que o procedimento d0 e um procedimento minimax numa classe Dde procedimentos, se

supθ∈Θ R(θ, d0 ) = inf d∈Dsupθ∈Θ R(θ, d).

Conforme notamos a partir da Deni¸ cao 4.2.1, o princıpio minimax comparasimplesmente o m aximo dos riscos dos procedimentos.




(4.3.1) =

{θ∈Θ}R(θ, d)π(θ),

no caso discreto. No caso em que Θ e contınuo, o somat orio em (4.3.1) esubstituıdo pela integral correspondente, ou seja,

r (π, d) = ΘR(θ, d)π(θ)dθ.

Notemos que se R(θ, d) e constante (isto e, independente de θ), ent ao r (π, d) =R(θ, d).

Deni¸ cao 4.3.2. Uma fun c˜ ao de decis˜ ao dB e chamada uma fun¸ c˜ ao de decis˜ aode Bayes com respeito a priori π e a classe Ddas fun c˜ oes de decis˜ ao, se

r (π, dB ) = mind∈D

r (π, d ).

Exemplo 4.3.1. Consideremos mais uma vez a situa¸ cao do Exemplo 4.2.1,sendo π(1/ 3) = p e π(2/ 3) = 1 − p. De acordo com a Deni cao 4.3.1, temos que

r (π, d1 ) =19

π(1/ 3) +19

π(2/ 3) =19 p +

19

(1 − p) = 1 / 9,

r (π, d2 ) = 0 p +13

(1 − p) =1 − p

3e

r (π, d3 ) =1

3 p + 0(1

− p) =

p

3.

Portanto temos que, se p < 1/ 3, d3 e a solu cao de Bayes. Se p = 1 / 3, ent ao d1e d3 sao solucoes de Bayes. Notemos que nesse caso a solu¸cao de Bayes n ao eunica. Se 1/ 3 < p < 2/ 3, ent ao d1 e a solu cao de Bayes. Se p = 2 / 3, ent ao d1 ed2 sao solucoes de Bayes, de modo que nesse caso tambem a solu¸ cao de Bayesnao e unica. Se p > 2/ 3, ent ao a solucao de Bayes e d2 .

Exemplo 4.3.2. Com rela cao ao Exemplo 4.2.2, vimos que d(X ) = X e asolucao minimax com rela¸cao a perda l(θ, a) = ( θ −a)2 /θ . Considerando apriori exponencial com parˆ ametro um para θ, ou seja,

π(θ) = e −θ , θ > 0,

temos que r (π, d) = E π [R(θ, d)] = E π [c2 + θ(c −1)2]

= c2 + ( c −1)2E π [θ]

= c2 + ( c −1)2 .



4.4 Estimadores de Bayes com Perda Quadr´ atica 63

Como∂r (π, d)

∂c= 2 c + 2( c −1) = 0 ,

temos que r (π, d) e mınimo quando c = 1 / 2, ou seja, com rela cao a priori e aperda acima, o estimador de Bayes na classe De dado por dB (X ) = X/ 2.

4.4 Estimadores de Bayes com Perda Quadratica

Com rela cao a perda quadrática, e possıvel a caracteriza¸ cao dos estimadoresna classe Dde todas as fun¸coes de decisao. Notemos que no Exemplo 4.3.2,o estimador de Bayes foi obtido numa particular classe de estimadores, ouseja,

D=

{d; d(X ) = cX

}. Contudo a fun¸cao de perda n ao era quadrática. O

resultado para perda quadr´ atica e enunciado e provado a seguir para o caso emque X e uma variável aleat oria contınua.

Teorema 4.4.1. Sejam X 1 , . . . , X n uma amostra aleat´ oria da distribui¸c˜ ao da vari´ avel aleat´ oria X , com fun c˜ ao de densidade de probabilidade f (x|θ). Consi-deremos para θ a distribui c˜ ao a priori com fun¸c˜ ao de densidade de probabilidadeπ(θ). Ent˜ ao, com rela c˜ ao a perda quadr´ atica, o procedimento (estimador) deBayes na classe Dde todas as fun c˜ oes de decis˜ ao e dado por

dB (X ) = E [θ|X ],

ou seja, e o valor esperado de θ calculado na distribui¸ c˜ ao condicional de θ dadoX 1 , . . . , X n , que e denominada “distribui¸ c˜ ao a posteriori de θ”.

Prova. Com rela cao a perda quadrática, a fun¸cao de risco de um procedimentoqualquer d(X ) e dada por

(4.4.1) R(θ, d) = X (θ −d(x )2)f (x |θ)dx ,

onde x = ( x1 , . . . , x n ), X e o espa co amostral e f (x |θ) = ni=1 f (x i |θ) e a

funcao de verossimilhan¸ca correspondente à amostra observada. Com rela¸ cao apriori π, temos de (4.4.1) que o risco de Bayes do procedimento d(X ) e dadopor

r (π, d) = Θ X (d(x ) −θ)2f (x |θ)dx π(θ)dθ

(4.4.2) = Θ X (d(x ) −θ)2f (x |θ)π(θ)dx dθ.

Como




(4.4.3) f (x

|θ)π(θ) = f (x ; θ) = π(θ

|x )g(x ),

temos de (4.4.2) que

r (π, d) = Θ X (d(x ) −θ)2π(θ|x )g(x )dx dθ

(4.4.4) = X Θ(d(x ) −θ)2π(θ|x )dθ g(x )dx .

De acordo com a Deni cao 4.3.2, temos que o procedimento de Bayes e oprocedimento que minimiza (4.4.4), ou seja, para cada x , e o procedimento queminimiza

(4.4.5) Θ(d(x ) −θ)2π(θ|x )dθ = E [(d(X ) −θ)2|X ].

Derivando (4.4.5) com rela¸ cao a d(X ) e igualando a derivada a zero, chegamosao procedimento

dB (X ) = E [θ|X ],

que e a forma geral do estimador de Bayes com rela¸ cao a perda quadrática.

De (4.4.3) temos que

(4.4.6) π(θ|x ) =f (x |θ)g(x )

=f (x |θ)π(θ)

g(x ),

onde

(4.4.7) g(x ) = Θf (x |θ)π(θ)dθ

e a densidade marginal de x = ( x1 , . . . , x n ). A densidade π(θ|x ) e denominadafuncao de densidade de probabilidade a posteriori e pode ser interpretada di-retamente a partir do Teorema de Bayes, ou seja, a densidade (ou fun¸ cao deprobabilidade) condicional e igual ` a densidade (ou fun¸cao de probabilidade)conjunta dividida pela densidade (ou fun¸ cao de probabilidade) marginal de x .O Teorema 4.4.1 pode ser generalizado para o caso de uma fun¸ cao qualquer deθ, τ (θ), ou seja, o estimador de Bayes de τ (θ) com rela cao a perda quadráticae dado por

dB (x ) = E [τ (θ)|X ] = Θτ (θ)π(θ|x )dθ.

Notemos, portanto, que os estimadores de Bayes n˜ ao sao invariantes, comosao os estimadores de máxima verossimilhan¸ca no sentido de que sendo θ um




estimador de Bayes de θ, τ (θ) nao e necessariamente um estimador de Bayesde τ (θ).

Exemplo 4.4.1. Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n davari avel aleat oria X com distribui¸cao de Bernoulli com parˆametro θ. Conside-remos para θ a funcao de densidade a priori

π(θ) =Γ [a + b]Γ [a]Γ [b]

θa −1 (1 −θ)b−1 ,

0 < θ < 1, a,b > 0, usualmente conhecida como densidade beta com parˆ ametrosa e b, que denotamos por Beta (a, b) e onde Γ [a] e a fun cao gama avaliada noponto a, ou seja,

(4.4.8) Γ [a] = ∞0

xa −1e−x dx.

Como

f (x |θ) =n

i=1

f (xi |θ) = θni =1

x i (1 −θ)n −ni =1

x i ,

temos de (4.4.7) que,

g(x ) = 1

0θ

ni =1

x i (1 −θ)n −ni =1

x i Γ [a + b]Γ [a]Γ [b]

θa−1(1 −θ)b−1dθ

=Γ [a + b]

Γ [a]Γ [b] 1

0

θni =1

x i + a−1(1

−θ)n −

ni =1

x i + b−1dθ

=Γ [a + b]Γ [a]Γ [b]

Γ [ ni=1 x i + a]Γ [n −

ni=1 x i + b]

Γ [n + a + b].

Portanto de (4.4.6) temos que

π(θ|x ) =Γ [a + b]

Γ [a ]Γ [b]θni =1

x i + a−1(1 −θ)n −ni =1

x i + b−1

Γ [a + b]Γ [a ]Γ [b]

Γ [ ni =1

x i + a ]Γ [n −ni =1

x i + b]Γ [n + a + b]

=Γ [n + a + b]

Γ [ ni=1 x i + a]Γ [n −

ni=1 x i + b]

θni =1

x i + a −1(1 −θ)n −ni =1

x i + b−1 ,

ou seja, a distribui¸cao a posteriori de θ dado X e uma distribui¸ cao beta compar ametros n

i=1 xi + a e n − ni=1 xi + b que denotamos por

θ|X ∼Betan

i=1x i + a; n −

n

i=1x i + b .




Ent ao, o estimador de Bayes de θ com rela cao a perda quadr´atica e dado por

(4.4.9) dB (X ) = E [θ|X ] =ni=1 xi + a

n + a + b.

Notemos, dos c alculos acima, que as distribui¸ coes a priori e a posteriori per-tencem a mesma famılia de distribui¸ coes, ou seja, no caso em que a distribui¸caode X e Bernoulli e a distribui¸ cao a priori e da famılia Beta, a distribui¸ cao aposteriori e tambem da famılia Beta. Dizemos, ent˜ ao, que a distribui¸cao Beta econjugada para a Bernoulli. E tambem verdade que a distribui¸ cao Beta e conju-gada para as distribui¸ coes Binomial e Binomial Negativa. Os parˆ ametros a e bda priori beta devem ser escolhidos de modo que π(θ) expresse o conhecimentoa priori que o estatıstico tem sobre θ. No caso particular em que a = b = 1,temos que

(4.4.10) π(θ) = 1 , 0 < θ < 1,

ou seja, nesse caso a distribui¸cao U (0, 1) e escolhida como priori para θ. Nocaso da priori uniforme, temos de (4.4.9) que

(4.4.11) dB (X ) =ni=1 X i + 1

n + 2.

A priori uniforme indica que, inicialmente, o estatıstico tem pouca informa¸ caosobre θ, pois com rela cao a essa priori, qualquer intervalo de mesmo compri-mento tem a mesma ´area (probabilidade).

Para calcularmos o risco de Bayes do estimador (4.4.11) com rela¸ cao a priori

uniforme, temos que

R(θ, d) = E ni=1 X i + 1n + 2 −θ

2

=1

(n + 2) 2 E n

i=1

X i −nθ + 1 −2θ2

=1

(n + 2) 2 [(4 −n)θ2 −(4 −n)θ + 1] .

Com rela cao a priori uniforme dada em (4.4.10), temos que E π [θ] = 1/ 2,

V arπ [θ] = 1/ 12 e E π [θ2

] = 1/ 3, de modo que

r (π, d ) =1

(n + 2) 2(4 −n)

3 −(4 −n)

2+ 1




=1

6(n + 2).

Certamente, o estimador de Bayes em (4.4.11) tem risco de Bayes menor, comrela cao a priori uniforme acima, que o risco de Bayes do estimador de m´ aximaverossimilhan¸ca θ = X .

Exemplo 4.4.2. Sejam X 1 , . . . , X n uma amostra aleat´ oria da distribui¸cao davari avel aleat oria X com distribui¸cao de Poisson (θ). Consideremos para θ adistribui¸cao a priori com fun cao de densidade de probabilidade

(4.4.12) π(θ) =ba θa−1e−θb

Γ [a],

θ > 0, a > 0, b > 0, ou seja, gama com parˆametros a e b, que denotamos porGama (a, b). Em (4.4.12), Γ [a] e como denido em (4.4.8). Como

f (x |θ)π(θ) =

e− nθ θni =1

x ini =1

x i ! θa −1e−θb ba

Γ [a]

=ba e−θ (n + b) θ

ni =1

x i + a −1

ni=1 x i !Γ [a]

,

θ > 0, temos que

g(x ) =

∞

0

ba e−θ (n + b)θni =1

x i + a −1

ni=1 x i !Γ [a]

dθ

=ba

ni=1 xi !Γ [a]

Γ [ ni=1 x i + a]

(n + b)ni =1

x i + a.

Portanto

π(θ|x ) =e−θ (n + b) θ i =1

x i + a −1

Γ [ ni =1

x i + a ](n + b)

ni =1

x i + a

,

ou seja, a distribui¸cao a posteriori de θ dado X e uma distribui¸ cao gama compar ametros n

i=1 xi + a e n + b que denotamos por

θ|X

∼Γ

n

i=1 x i + a; n + b .

Assim,

E [θ|X ] =ni=1 x i + an + b

.




Alem disso, no caso da Poisson, como visto acima, priori gama leva a umaposteriori gama, de modo que a distribui¸ cao gama e conjugada para a Poisson.Apos algumas manipula¸coes algebricas, n˜ao e difıcil vericar que (ver Exercıcio4.5)

R(θ, d) = E ni=1 xi + an + b −θ

2

=1

(n + b)2 [a2 + b2θ2 + θ(n −2ab)],

de modo quer (π, d) = E π [R(θ, d)] =

ab(n + b)

.

Exemplo 4.4.3. Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n davari avel aleat oria X com distribui¸cao N (µ, σ 20 ), onde σ20 e conhecido. Conside-remos para µ a priori N (a, b2), ou seja,

π(µ) =1

√2πbe−

( µ − a ) 2

2 b2 ,

onde a e b sao conhecidos. A priori N (a, b2) expressa o fato de que a e um valorrazo avel para µ enquanto que b2 (ou b) quantica a conan¸ca (ou certeza) deque a e um valor razo´avel para µ. Quanto maior b2 (ou b), mais incerto oestatıstico est´ a com rela cao a escolha feita pela natureza com rela¸ cao a µ. Aposuma serie de manipula¸ coes algebricas (verique!), temos que

f (x |µ)π(µ) =1

√2πσ 0

n 1

√2πb e−n

i =1

( x i − µ ) 2

2 σ20 −

( µ − a ) 2

2 b2

=1

√2πσ 0

n 1√2πb

e−

ni =1

x 2i

2 σ 20 − a 2

2 b2 +

ni =1

x iσ 2

0+ a

b 2

2

2 nσ 2

0+ 1

b 2

×

×e−1

2n

σ 20

+ 1b2 µ−

ni =1

x iσ 2

0+ a

b 2

nσ 2

0+ 1

b 2

2

,

e

g(x ) =1

√2πσ 0

n 1b 1n

σ 20

+ 1b2

e−

ni =1

x 2i

2 σ 20 − a 2

2 b 2 +ni =1

x iσ 2

0+ a

b 2

2

2 nσ 2

0+ 1

b 2,



4.5 Exercıcios 71

f (x

|θ) =

2!

x!(2 −x)!θx (1

−θ)2−x , x = 0 , 1, 2,

onde 0 < θ < 1. Considere os estimadores d1(X ) = X/ 2 e d2(X ) = ( X + 1) / 4e funcao de perda quadrática.(i) Verique se existe um estimador uniformemente melhor (melhor para todoθ), ou seja, verique se um dos estimadores e inadmissıvel.(ii) Qual dos estimadores e minimax?

4.3. Considere uma única observa¸cao da vari avel aleat oria X ∼Binomial (m, θ ).Seja l(θ, d) = ( θ −d)2 .(i) Encontre o risco de d(X ) = X/m .(ii) Encontre o risco de Bayes de d(X ) em (i), com rela cao a priori π(θ) =1, 0

≤θ

≤1.

4.4. Refaca o Exercıcio 4.3., considerando agora a perda l(θ, d) = ( θ −a)2 /θ (1 −θ).

4.5. Seja uma unica observa¸cao da distribui¸cao Poisson (θ). Encontre o riscode Bayes do estimador d(X ) = X , com rela cao a perda quadrática e a prioriGama (α, β ).

4.6. Considere o problema de se estimar θ∈Θ = {0, 1}, baseado em uma unicaobserva cao da vari avel aleat oria X , com densidade

f (x|θ) = 2 −(x + θ ) , x = 1 −θ, 2 −θ, 3 −θ,...

Considere a perda 0-1, ou seja,

l(0, 0) = l(1, 1) = 0 e l(0, 1) = l(1, 0) = 1 .

Considere tambem os estimadores

d1(X ) = 1, X = 0,0, X > 0, e d2 (X ) = 0, X ≤1,

1, X > 1,

(i) Encontre R(θ, di (X )) , i = 1 , 2.(ii) Qual dos estimadores e minimax? Alguns dos estimadores e inadmissıvel?

4.7. Seja X uma unica observa¸cao da distribui¸cao U (0, θ), onde θe uma vari avelaleat oria com densidade

π(θ) = θe−θ , θ > 0.

(i) Encontre a densidade a posteriori de θ.(ii) Encontre o estimador de Bayes de θ com respeito a perda quadrática.




4.8. Seja X o tempo de vida de uma lâmpada (em mil horas) fabricada porcerta companhia. Considera-se que X e uma variável aleat oria com densidade

f (x|θ) = θe−θx , x > 0.

Considere para θ a priori

π(θ) = 16 θe−4θ , θ > 0.

(i) Encontre a distribui¸ cao a posteriori de θ.(ii) Encontre o estimador de Bayes de E (X ) e V ar(X ) com rela cao a perdaquadr atica.

4.9. Em uma area de reorestamento, o n´ umero de arvores de determinada

especie, por hectare, com certa doen¸ ca tem uma distribui¸ cao Poisson (θ). Adistribui¸cao a priori de θ e exponencial com media igual a 1. Encontre o esti-mador de Bayes de P θ (X = 0) com rela¸cao a perda quadrática..

4.10. Sejam X 1 , . . . , X n uma amostra aleat´ oria da distribui¸ cao U (0, θ). Supo-nhamos que θ seja uma variável aleat oria com fun cao de densidade de proba-bilidade (Pareto)

π(θ) = bab/θ b+1 , θ ≥a,0, θ < a ,

Encontre a distribui¸ cao a posteriori de θ e o estimador de Bayes de θ comrela cao a perda quadrática.


∼Bernoulli (θ). Considere para θ a priori

π(θ) = 2θ, 0 < θ < 1,0, caso contr ario,

Encontre o estimador de Bayes de θ com rela cao a perda quadrática e seu riscode Bayes.

4.12. Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n da densidade

f (x|θ) = θxθ−1 , 0 < x < 1, θ > 0.

Vamos assumir para θ a priori gama

π(θ) = λ r θr −1e−θλ /Γ (r ),

onde r e λ sao conhecidos. Encontre a distribui¸ cao a posteriori de θ e o estimadorde Bayes de θ com rela cao a perda quadrática.



74 5. Estima¸cao por Intervalo

e como antes, X = ni=1 X i /n e S 2 = n

i=1 (X i

−X )2/ (n

−1).

Prova. (i) Temos queX ∼N (µ, σ 2 /n ),

enquanto que X i −X ∼N 0, σ2 (n −1)n . Por outro lado, a fun¸ cao geradora de

momentos (James, 1981) de Y 1 = X e Y 2 = X i −X e dada por

M Y 1 ,Y 2 (s1 , s2) = E es 1 X + s 2 (X i −X ) = E es 2 X i + X (s 1 −s 2 )

= E e(s 2 + ( s 1 − s 2 )n )X i + ( s 1 − s 2 )

nnj = i

X j

= E e(s

2+ ( s 1 − s 2 )

n)X

i E e( s 1 − s 2 )

nn

j = iX j

.

Como X i ∼N (µ, σ 2) e nj = i X j ∼N ((n −1)µ; (n −1)σ2), temos que

M Y 1 ,Y 2 (s1 , s2) = e µ s 2 + ( s 1 − s 2 )n + σ 2

2 s 2 + ( s 1 − s 2 )n

2

×e( n − 1)

n (s 1 −s 2 )µ+ 12 ( s 1 − s 2

n )2(n −1) σ 2

= e µs 1 +s 2

1 σ 2

2 n es 2

2 ( n − 1) σ 2

2 n

que e o produto das fun¸ coes geradoras de momentos das distribui¸ coes de X eX i −X . Portanto temos que X i −X e X sao independentes, pois a fun¸ cao gera-dora da distribui¸ cao conjunta e o produto das fun¸ coes geradoras de momentosdas distribui¸coes marginais. Como ni=1 (X i −X )2 e fun cao de X i −X que eindependente de X , temos que S 2 e independente de X .

(ii) Nao e difıcil vericar que

(5.1.1)n

i=1

(X i −µ)2

σ2 =n

i=1

(X i −X )2

σ2 + n(X −µ)2

σ2 .

Como (X i −µ)/σ ∼N (0, 1), temos que ( X i −µ)2 /σ 2∼χ 2

1 , i = 1 , . . . , n , demodo que

Y 1 =n

i=1

(X i −µ)2

σ2 ∼χ 2n .

Tambem n(X −µ)2 /σ 2∼χ 2

1 . Como a fun cao geradora de momentos da dis-tribui¸cao quiquadrado com g graus de liberdade e dada por

M g (s) = (1 −2s)−g/ 2 ,




Sendo a distribui¸cao de Q(X ; θ) independente de θ, λ1 e λ2 tambem n˜ ao de-pendem de θ. Alem disso, se para cada X existirem t1(X ) e t2(X ) tais que

λ1 ≤Q(X ; θ) ≤λ2 se e somente se t1 (X ) ≤θ ≤ t2(X )

e ent ao de (5.2.1),

(5.2.2) P [t1(X ) ≤θ ≤ t2(X )] = γ,

de modo que [t1(X ); t2 (X )] e um intervalo (aleat´ orio) que contem θ com proba-bilidade (coeciente de conan¸ ca) γ = 1 −α. Nos casos em que a distribui¸caoda vari avel aleat oria X e discreta, em geral, n˜ ao se consegue determinar λ1 e λ2de tal forma que (5.2.1) esteja satisfeita exatamente. Em tais casos, podemosescolher λ1 e λ2 tal que (5.2.1) esteja satisfeita para um coeciente de con-

anca maior ou igual a γ (o mais pr oximo possıvel). Quando n e razoavelmentegrande, uma alternativa seria considerar os intervalos de conan¸ ca baseadosna distribui¸cao do estimador de m´axima verossimilhan¸ca que consideramos naSecao 3.5. Um outro ponto a salientar e que, na maioria dos casos, existemmuitos pares ( λ1 , λ 2) satisfazendo (5.2.1). Sempre que possıvel, devemos esco-lher (λ1 , λ 2) que produz o intervalo de menor comprimento. Tal procedimentoe facilitado em situa¸ coes em que a distribui¸cao de Q(X ; θ) e simetrica, comono caso da distribui¸cao normal.

Exemplo 5.2.1. Sejam X 1 , . . . , X n uma amostra aleat´ oria da distribui¸cao davari avel aleat oria X , com densidade

(5.2.3) f (x|θ) = θe−θx

, θ > 0, x > 0.Como vimos no Capıtulo 2, a estatıstica T = n

i=1 X i e suciente para θ. Mas,como a distribui¸cao de T e Gama (n; θ), temos que T nao e uma quantidadepivotal para θ. Por outro lado, a densidade de Q(X ; θ) = 2 θ n

i=1 X i e dadapor

(5.2.4) f Q (y) =yn −1e−y/ 2

2n Γ [n], y > 0

que corresponde a densidade de uma distribui¸ cao quiquadrado com 2 n graus deliberdade, que denotamos por χ 2

2n . Portanto Q(X ; θ) pode ser considerada comouma quantidade pivotal, pois sua distribui¸ cao e independente de θ. Ent ao, dado

o coeciente de conan ca γ = 1 −α , obtemos λ1 e λ2 na tabela da distribui¸ caoχ 22n , de modo que

(5.2.5) P λ1 ≤2θn

i=1X i ≤λ2 = γ,



5.2 O Metodo da Quantidade Pivotal 77

logo um intervalo de conan¸ca para θ com coeciente de conan¸ca γ e dadopor

(5.2.6)λ1

2 ni=1 X i

;λ2

2 ni=1 X i

.

Conforme enfatizado anteriormente, existem innitos pares ( λ1 , λ 2) para osquais (5.2.5) est´a vericada. Sempre que possıvel, ( λ1 , λ 2 ) devem ser escolhidosde modo que o intervalo (5.2.6) seja de comprimento mınimo. Tal intervaloexiste, mas ( λ1 , λ 2 ) deve ser obtido por metodos computacionais. Uma alterna-tiva e considerarmos intervalos simetricos em que ( λ1 , λ 2 ) sao obtidos a partirda distribui¸cao χ 2

2n , de modo que a area a esquerda de λ1 seja igual a area adireita de λ2 e igual a α/ 2. Ver Figura 5.1.

Figura 5.1. Determina¸cao de λ1 e λ2

0 λ2λ 1 x

f(x)

α/2

α/2

Denotando estes pontos por q1 e q2 , temos que o intervalo simetrico e dadopor

(5.2.7)q1

2 ni=1 X i

;q2

2 ni=1 X i

.

A nao ser que o tamanho da amostra n seja muito pequeno, o intervalo (5.2.7) ebastante pr´ oximo do intervalo de comprimento mınimo. Consideramos a seguirn = 20 observa¸coes simuladas a partir da distribui¸ cao exponencial com θ = 2.Como

F (x) = 1 −e−θx




e como qualquer que seja a fun¸cao de distribui¸cao F (x)

U = F (X )∼U (0, 1),

ou seja, a distribui¸cao de F (X ) e uniforme no intervalo (0 , 1), gerando ob-serva coes u a partir da distribui¸ cao U (0, 1), temos que

(5.2.8) x = −1θ

log(1 −u)

e uma observa¸ cao simulada da distribui¸ cao exponencial com parˆametro θ e comdensidade dada em (5.2.3). As n = 20 observa¸coes simuladas a partir da U (0, 1)sao dadas na Tabela 5.1 abaixo.

Tabela 5.1. n = 20 observa¸coes da U (0, 1)

0,659 0,591 0,381 0,658 0,0120,469 0,017 0,128 0,328 0,1660,353 0,594 0,051 0,757 0,0450,847 0,749 0,535 0,700 0,781

Usando os valores da Tabela 5.1 na rela¸ cao (5.2.8) temos na Tabela 5.2 asn = 20 observa¸coes simuladas da distribui¸ cao exponencial (5.2.3) com θ = 2.

Tabela 5.2. n = 20 observa¸coes da distribui¸cao Exp (2)

0,5380 0,4470 0,2398 0,5365 0.00610,3165 0,0086 0,0064 0,1995 0,9008

0,2177 0,4507 0,0262 0,7073 0,02300,9339 0,6912 0,3829 0,6020 0,7593

Considerando as primeiras n = 10 observa¸coes na Tabela 5.2, temos que10i=1 X i = 3 , 1992. Tomando α = 0 , 05, temos da tabela da distribui¸ cao qui-

quadrado com 20 graus de liberdade que q1 = 9 , 59 e q2 = 34 , 17, ent ao de(5.2.7) segue que o intervalo [1 , 50;5, 34] e um intervalo de conan¸ ca paraθ com coeciente de conan¸ca γ = 0 , 95. Considerando n = 20, temos que

20i=1 X i = 7 , 9934 e usando a aproxima¸cao normal para a distribui¸ cao qui-

quadrado (a maioria das tabelas da distribui¸ cao quiquadrado n˜ao trazem per-centis para 40 graus de liberdade), ou seja,

χ 22n −E [χ 2

2n ]

V ar[χ 22n ]

a

∼

N (0, 1)

temos, usando a tabela da distribui¸ cao N (0, 1), que

q1 = −1, 96√80 + 40 e q2 = 1 , 96√80 + 40 ,



5.2 O Metodo da Quantidade Pivotal 79

de modo que, nesse caso, o intervalo e dado por [1 , 41;3, 60] que, conforme eraesperado, tem comprimento bem menor que o comprimento do correspondenteintervalo com n = 10.

Exemplo 5.2.2. Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n davari avel aleat oria X com distribui¸cao uniforme no intervalo (0 , θ), ou seja, X ∼U (0, θ). Vimos no Capıtulo 2 que uma estatıstica suciente para θ e dada porY = X (n ) = max {X 1 , . . . , X n }, com funcao de densidade dada por

f Y (y) =ny n −1

θn I [0,θ ](y)I [0,∞) (θ).

Logo X (n ) nao e uma quantidade pivotal j´ a que sua distribui¸cao depende de θ.Por outro lado, a distribui¸ cao da quantidade Q(X ; θ) = X (n ) /θ e dada por

(5.2.9) f Q (q) = nqn −1I [0,1](q)

que nao depende de θ. Portanto a vari´ avel aleat oria Q(X ; θ) e uma quantidadepivotal, de modo que dado γ = 1 −α, podemos encontrar λ1 e λ2 na distribui¸caode Q, tal que

(5.2.10) λ 2

λ 1

f Q (q)dq = γ = 1 −α.

Como existem innitos pares ( λ1 , λ 2) satisfazendo (5.2.10), consideramos ointervalo simetrico, ou seja, consideramos o intervalo satisfazendo

(5.2.11) λ 1

0f Q (q)dq =

α2

e 1

λ 2

f Q (q)dq =α2

.

Resolvendo as equa¸coes (5.2.11), chegamos a

λ1 =α2

1/ne λ2 = 1 −

α2

1/n,

de modo que

P λ1 ≤X (n )

θ ≤λ2 = P X (n )

λ2 ≤θ ≤X (n )

λ1= 1 −α

que leva ao intervalo

(5.2.12)X (n )

(1 −α/ 2)1/n ;X (n )

(α/ 2)1/n .




Considerando as primeiras n = 10 observa¸coes da Tabela 5.1 e γ = 0 , 95, temosque o intervalo (5.2.12) se reduz a [0 , 659/ (0, 975)1/ 10 ; 0, 659/ (0, 025)1/ 10], ouseja, [0, 661; 0, 953]. Considerando as n = 20 observa¸coes da Tabela 5.1, o in-tervalo se reduz a (0,848;1,019). Notemos que θ = 1 n ao est a contido no in-tervalo com n = 10, mas est´a contido no intervalo com n = 20. Como a dis-tribui¸cao de Q nao e simetrica, o intervalo (5.2.12) n˜ ao e o de menor compri-mento para um dado γ . No Exercıcio 5.3 apresentamos um intervalo de menorcomprimento que o do intervalo (5.2.12). E importante ressaltar que o coe-ciente de conan¸ca γ est a associado ao intervalo aleat´ orio que segue de (5.2.2).Quanto ao intervalo numerico que segue do intervalo aleat´ orio, arma coes dotipo P [0, 848 ≤θ ≤1, 019] nao sao apropriadas, pois n˜ ao existem quantidadesaleat orias associadas `a desigualdade 0 , 848 ≤ θ ≤ 1, 019. O que se aplica nocaso numerico e a interpreta¸ cao frequentista, ou seja, para cada 100 intervalos

numericos construıdos a partir do intervalo aleat´ orio, aproximadamente 100 γ %deles vao conter θ. Para um problema particular, o intervalo que construımosa partir de uma amostra observada pode ser ou n˜ ao um daqueles 100(1 −γ )%que nao contem θ. Mas nao temos condi coes de sabe-lo.

5.3 Intervalos para Popula¸ coes Normais

Consideremos em primeiro lugar (Se¸ cao 5.3.1) o caso de uma unica amostra. Aseguir, na Se cao 5.3.2, abordamos o caso de duas amostras.

5.3.1 O caso de uma ´ unica amostra

Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n da distribui¸cao N (µ, σ 2 ).Assumindo σ2 conhecido, temos que uma quantidade pivotal para µ, baseadana estatıstica suciente n

i=1 X i = nX e dada por

Q(X ; µ) =X −µσ/ √n

que tem distribui¸ cao N (0, 1). Portanto, dado o coeciente de conan¸ ca γ , de-terminamos λ1 e λ2 de modo que

(5.3.1) P λ1 ≤X −µσ/ √n ≤λ2 = γ.

Conforme enfatizado anteriormente, existem innitos pares ( λ1 , λ 2) que satis-fazem (5.3.1). Como a distribui¸ cao N (0, 1) e simetrica, o intervalo de menorcomprimento e o intervalo simetrico, ou seja, aquele em que a ´ area a direita deλ2 e igual a area a esquerda de λ1 que e igual a α/ 2. Sejam ent ao λ1 = −zα/ 2 e



5.3 Intervalos para Popula¸ coes Normais 81

λ2 = zα/ 2 , onde P (Z

≤zα/ 2) = 1

−α/ 2, Z

∼

N (0, 1) de modo que o intervalode menor comprimento e dado por

(5.3.2) X −zα/ 2σ√n

; X + zα/ 2σ√n

.

Por outro lado, sendo σ2 desconhecido, temos pelo Teorema 5.1. (iii), que

Q(X , µ) =X −µS/ √n ∼

tn −1

que nesse caso e uma quantidade pivotal. Ent˜ ao, dado γ , existem λ1 e λ2 nadistribui¸cao tn −1 de modo que

P λ1 ≤ X −µS/ √n ≤λ2 = γ.

Como a distribui¸cao da quantidade pivotal Q e simetrica, devemos escolher λ1e λ2 de modo que a area a direita de λ2 seja igual a area a esquerda de λ1 , ouseja λ1 = −tα/ 2 e λ2 = tα/ 2 , onde P (T ≤ tα/ 2) = 1 −α/ 2, T ∼tn −1 de modoque o intervalo de menor comprimento e dado por

X −tα/ 2S √n

; X + tα/ 2S √n

.

Quanto a σ2 , considerando µ desconhecido, temos, de acordo com o Teorema5.1. (ii), que

Q(X , σ2) = (n −1)S 2σ2 ∼χ 2

n −1

e uma quantidade pivotal para σ2 . Portanto, dado γ , podemos determinar λ1e λ2 de modo que

(5.3.3) P λ1 ≤(n −1)S 2

σ2 ≤λ2 = γ.

Considerando o intervalo simetrico, ou seja, λ1 = q1 e λ2 = q2 , onde P [χ 2n −1 ≥q2 ] = P [χ 2

n −1 ≤q1] = α/ 2, temos de (5.3.3), o intervalo

(n −1)S 2

q2

;(n −1)S 2

q1

.




5.3.2 Duas amostras independentes

Vamos considerar o caso em que temos X 1 , . . . , X n , uma amostra aleat´ oriada vari avel aleat oria X ∼N (µ1 , σ2 ) e Y 1 , . . . , Y m , uma amostra aleat´ oria davari avel aleat oria Y ∼N (µ2 , σ2), onde X e Y sao independentes. Sabemos que

X −Y ∼N µ1 −µ2 , σ2 1n

+1m

de modo que, sendo θ = µ1 −µ2 , consideramos a quantidade pivotal

Q(X , Y , θ) =X −Y −(µ1 −µ2)

σ

1n + 1

m∼N (0, 1).

Sendo σ2 conhecido, temos, como na se¸cao anterior, o intervalo

X −Y −zα/ 2σ 1n

+1m

; X −Y + zα/ 2σ 1n

+1m

onde zα/ 2 e obtido como em (5.3.2). Sendo σ2 desconhecido, temos que umaquantidade pivotal e dada por

(5.3.4) Q(X , Y , θ) =X −Y −(µ1 −µ2)

S p 1n + 1

m∼tn + m −2

ondeS 2 p =

(n −1)S 2x + ( m −1)S 2y(n + m −2)

, S 2x =1

n −1

n

i=1

(X i −X )2

e S 2y =1

m −1

m

i=1

(Y i −Y )2 .

Como(n −1)S 2x

σ2 ∼χ 2n −1 e

(m −1)S 2yσ2 ∼χ 2

m −1 ,

e, pela independencia de S 2x e S 2y , temos que

(5.3.5)(n + m

−2)S 2 p

σ2 =(n

−1)S 2x + ( m

−1)S 2y

σ2∼χ

2n + m −2 .

Ent ao do Teorema 5.1, (iii) segue o resultado (5.3.4). Um intervalo de conan¸ capara θ = µ1 −µ2 , com coeciente de conan¸ca γ e, ent ao, dado por



5.4 Intervalos de Conan¸ ca Aproximados 83

X −Y −tα/ 2S p 1n +

1m ; X −Y + tα/ 2S p

1n +

1m ,

onde tα/ 2 e obtido na tabela da distribui¸ cao t com n + m −2 graus de liberdade.Para construirmos um intervalo de conan¸ ca para σ2 , podemos considerar aquantidade pivotal (5.3.5).

No caso em que X ∼N (µ1 , σ21 ) e Y ∼N (µ2 , σ2

2 ) e o interesse e a constru¸ caode um intervalo de conan¸ ca para σ2

1 /σ 22 , notando que

(n −1)S 2xσ2

1 ∼χ 2n −1 e

(m −1)S 2yσ2

2 ∼χ 2m −1 ,

temos que

Q(X , Y , θ) =(m −1)S 2y /σ 2

2 (m −1)(n −1)S 2x /σ 2

1 (n −1) ∼F m −1,n −1 ,

onde F m −1,n −1 denota a distribui¸ cao F com m −1 e n −1 graus de liberdade, euma quantidade pivotal para θ. Ent ao, dado γ , obtemos λ1 e λ2 na distribui¸caoF m −1 ,n −1 , de modo que

P λ1 ≤σ2

1 S 2yσ2

2 S 2x ≤λ2 = γ

Considerando o intervalo simetrico, ou seja, λ1 = F 1 e λ2 = F 2 , de modo que

P [F m −1,n −1 ≥F 2] = P [F m −1,n −1 ≤F 1] = α/ 2,

onde F 1 e F 2 sao obtidos na tabela da distribui¸ cao F com m −1 e n −1 grausde liberdade, temos o intervalo

F 1S 2xS 2y

; F 2S 2xS 2y

.

5.4 Intervalos de Conan¸ ca Aproximados

Nesta se cao consideramos intervalos de conan¸ ca aproximados para um parˆ a-

metro θ baseados na distribui¸ cao assint otica do estimador de m´axima verossi-milhan ca θ de θ. De acordo com (3.2.3), temos que

θ −θ

(nI F (θ))−1a

∼N (0, 1).




Como, I F (θ) pode depender de θ, que nao e conhecido, substituindo I F (θ) porI F (θ), temos que

(5.4.1) Q(X , θ) =θ −θ

(nI F (θ))−1

a

∼N (0, 1),

de modo que Q(X , θ) e uma quantidade pivotal com distribui¸ cao aproximada-mente igual a distribui¸ cao N (0, 1) em grandes amostras. Com rela¸ cao a umafuncao g(θ), podemos considerar a vari´ avel aleat oria

(5.4.2) Q(X , g(θ)) =g(θ) −g(θ)

(g ′ ( θ)) 2

nI F ( θ)

a

∼N (0, 1),

que para amostras grandes e uma quantidade pivotal.

Exemplo 5.4.1. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oriaX ∼Bernoulli (θ). Como o estimador de m´axima verossimilhan¸ca de θ e θ = X e I F (θ) = 1 /θ (1 −θ), de (5.4.1), temos que uma quantidade pivotal para θ edada por

Q(X , θ) =X −θ

X (1−X )n

a

∼N (0, 1),

de modo que para valores grandes de n, um intervalo de conan¸ ca para θ comcoeciente de conan¸ca aproximadamente γ e dado por

X −zα/ 2 X (1 −X )n

; X + zα/ 2 X (1 −X )n

.

Suponhamos agora, que seja de interesse a obten¸ cao de um intervalo deconan ca para g(θ) = θ(1 −θ). Como g

′(θ) = 1 −2θ e I F (θ) = 1 /θ (1 −θ),

temos de (5.4.2) que uma quantidade pivotal para g(θ) e dada por

Q(X , θ) =θ(1 −θ) −θ(1 −θ)

θ(1−θ )(1 −2θ) 2

n

a

∼N (0, 1),

de modo que um intervalo de conan¸ ca aproximado para g(θ) = θ(1−θ) e dadopor

X (1 − X ) − zα/ 2 X (1 − X )(1 − 2X )2

n; X (1 − X ) + zα/ 2 X (1 − X )(1 − 2X )2

n,



5.5 Intervalos de Conan¸ ca Bayesianos 85

onde zα/ 2 e obtido na tabela da distribui¸ cao N (0, 1).

Exemplo 5.4.2. Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n davari avel aleat oria X ∼Exp (θ) , com funcao densidade

f (x|θ) = θe−θx ; x > 0, θ > 0.

Como I −1F (θ) = θ2 e θ = 1 /X , segue de (5.4.1) que uma quantidade pivotal

para θ e dada por

Q(X , θ) =1/X −θ

θ2 /n

a

∼N (0, 1),

de modo que um intervalo de conan¸ ca com coeciente de conan¸ca aproximadoγ = 1

−α e dado por

(5.4.3)1X −zα/ 2 1nX

2 ;1X

+ zα/ 2 1nX 2 .

Considerando a amostra da Tabela 5.2, temos que para n = 10 o intervalo(5.4.3) se reduz a (1,189;5,063) e para n = 20, temos o intervalo (1,405;3,599).Notemos que o intervalo aproximado para θ com n = 20 coincide com o intervaloexato obtido no Exemplo 5.2.1.

5.5 Intervalos de Conan¸ ca Bayesianos

Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n da vari avel aleat oriaX com funcao densidade de probabilidade (ou fun¸ cao de probabilidade) f (x|θ).Consideremos para θ a funcao de densidade a priori π(θ). Portanto a fun¸ cao dedensidade a posteriori para θ, e, de acordo com (4.4.6), dada por

π(θ|X ) =ni=1 f (xi |θ)π(θ)

Θni=1 f (xi |θ)π(θ)dθ

.

Deni¸ cao 5.5.1. Dizemos que [t1 ; t2] e um intervalo de conan¸ ca Bayesianopara θ, com coeciente de conan¸ca γ = 1 −α se

(5.5.1)

t 2

t 1π(θ

|X )dθ = γ.

Como no caso cl assico existem, em geral, innitos intervalos [ t1 ; t2 ] satis-fazendo (5.5.1). Sempre que possıvel, o comprimento do intervalo [ t1 ; t2] deveser mınimo. Nos casos em que a fun¸ cao de densidade a posteriori e simetrica,




os intervalos simetricos s˜ ao em geral os de menor comprimento. O intervaloBayesiano de menor comprimento e usualmente conhecido como o intervalode densidade a posteriori m´ axima “highest posterior density (HPD) interval”.Metodos computacionais s˜ ao em geral necess arios para a obten¸ cao do intervaloHPD.

Exemplo 5.5.1. Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n dadistribui¸cao N (µ, 1). Consideremos para µ a distribui¸cao a priori N (µ0 , 1).Do Exemplo 4.4.3, temos que a distribui¸ cao a posteriori de µ dado X quedenotamos por µ|X , e dada por

µ|X ∼N ni=1 X i + µ0

n + 1,

1n + 1

.

Sendo γ = 0 , 95, temos ent ao de (5.5.1) e da tabela da distribui¸ cao N (0, 1) que[t1 ; t2] deve ser escolhido de modo que

t1 −ni =1

X i + µ 0

n +1

1n +1

= −1, 96 et2 −

ni =1

X i + µ 0

n +1

1n +1

= 1 , 96,

ou seja,

t1 =ni=1 X i + µ0

n + 1 −1, 96 1n + 1e t2 =

ni=1 X i + µ0

n + 1+ 1 , 96 1n + 1

,

logo o intervalo Bayesiano de menor comprimento (HPD) para µ com coeciente

de conan ca γ = 0 , 95 e dado porni=1 X i + µ0

n + 1 −1, 96 1n + 1;

ni=1 X i + µ0

n + 1+ 1 , 96 1n + 1

.

Exemplo 5.5.2. Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n davari avel aleat oria X ∼U (0, θ). Consideremos para θ a priori com densidade(Pareto)

π(θ) =bab

θb+1 I (a, ∞) (θ).

Do Exercıcio 4.10, temos que a densidade a posteriori de θ dado X 1 , . . . , X n edada por

(5.5.2) h(θ|X ) = (n + b)(max (a, X (n ) ))n + b

θn + b+1 I (max (a,X ( n ) );∞) (θ).

Ent ao, temos de (5.5.1) que o intervalo Bayesiano “simetrico” para θ, comcoeciente de conan¸ca γ = 1 −α e obtido pela solu¸cao das equa coes



5.6 Exercıcios 87

t 1

max (a,X ( n ) )

(n + b)max (a, X (n ) )n + b

θn + b+1 dθ =α2

e

∞t 2

(n + b)max (a, X (n ) )n + b

θn + b+1 dθ =α2

,

o que leva a

t1 =max (a, X (n ) )

(1 −α/ 2)1/n + b e t2 =max (a, X (n ) )

(α/ 2)1/n + b ,

de modo que o intervalo Bayesiano simetrico para θ, com coeciente de con-anca γ = 1 −α , e dado por

(5.5.3)max (a, X (n ) )

(1 −α/ 2)1/n + b ;max (a, X (n ) )

α/ 21/n + b .

Desde que a densidade a posteriori (5.5.2) n˜ ao e simetrica, temos que o intervalo(5.5.3) n ao e o HPD que nesse caso deve ser obtido numericamente.

5.6 Exercıcios


5.2. Considere o Exemplo 5.2.1. Mostre que a distribui¸ cao da quantidade pi-

votalQ(X , θ) = 2 θ

n

i=1

X i

e quiquadrado com 2 n graus de liberdade com densidade dada por (5.2.4).

5.3. Considere o Exemplo 5.2.2. Mostre que a distibui¸ cao de Q(X , θ) = X (n ) /θe dada por (5.2.9). Considere o intervalo

(5.6.1) X (n ) ;X (n )

α 1/n .

Encontre seu coeciente de conan¸ ca, compare seu comprimento com o dointervalo obtido no Exemplo 5.2.2, e mostre que o intervalo (5.6.1) e o de menorcomprimento dentre todos os intervalos com coeciente de conan¸ ca γ = 1 −α.

5.4. Seja X uma unica observa¸cao da densidade

f (x|θ) = θxθ−1 0 < x < 1, θ > 0.




(i) Mostre que

−θlog X e uma quantidade pivotal e use-a para construir um

intervalo de conan¸ca para θ com coeciente de conan¸ca γ = 1 −α.(ii) Seja Y = ( −log X )−1 . Encontre o coeciente de conan¸ ca associado aointervalo ( Y/2, Y ).

5.5. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oria X ∼N (θ, θ). Sugira uma quantidade pivotal para construir um intervalo de con-anca para θ com γ = 1 −α.

5.6. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oria X comfuncao de densidade de probabilidade dada por

f (x|θ) = I (θ−1/ 2,θ +1 / 2) (x).

Seja [X (1) ; X (n ) ] um intervalo de conan¸ca para θ. Calcule seu coeciente deconan ca. Mostre que o resultado vale para qualquer distribui¸ cao simetrica emtorno de θ.

5.7. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oria X comfuncao densidade de probabilidade dada por

f (x|θ) = θe−θx ; x > 0, θ > 0.

Encontre intervalos de conan¸ ca para E (X ) e V ar(X ) com coecientes deconan ca γ = 1 −α.

5.8. Sejam X 1 , X 2 uma amostra aleat´ oria de tamanho 2 da distribui¸ cao N (µ, 1).Seja Y

1< Y

2a amostra ordenada correspondente.

(i) Encontre o coeciente de conan¸ ca associado ao intervalo ( Y 1 , Y 2).(ii) Considere o intervalo de conan¸ ca para µ baseado na quantidade pivotalX −µ, onde X = ( X 1+ X 2)/ 2. Compare o comprimento esperado deste intervalocom o comprimento esperado do intervalo em (i) usando o mesmo γ .

5.9. Sejam X 1 , . . . , X n +1 , uma amostra aleat´ oria de tamanho n + 1 ( n > 1) dadistribui¸cao N (µ, σ 2 ), onde µ e σ2 sao desconhecidos.(i) Encontre c tal que

c(X −X n +1 )S ∼tn −1 ,

onde

X =

1

n

n

i=1 X i e S 2

=

1

n

n

i=1 (X i −X )2

.

(ii) Se n = 8, encontre k de modo que

P [X −kS ≤X 9 ≤X + kS ] = 0, 80.



5.6 Exercıcios 89


∼Exp (θ1) e Y 1 , . . . , Y m uma amostra aleat´ oria da variável aleat oria Y ∼Exp (θ2 ).Assumindo que as duas amostras s˜ ao independentes,(i) obtenha uma quantidade pivotal para construir um intervalo de conan¸ capara θ1/θ 2 .(ii) Suponha que θ1 = 1 , 5 e θ2 = 2 , 0. Simule uma amostra aleat´ oria comn = 10 da variável X e com m = 15 da variável aleat oria Y . Como ca o seuintervalo obtido a partir da quantidade pivotal encontrada em (i)?

5.11. Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n da distribui¸caoPoisson (θ), com priori

π(θ) = e −θ , θ > 0.

Construa um intervalo de conan¸ ca Bayesiano simetrico para θ com γ = 0 , 95.

Se n = 10 eni=1 X i = 18, como ca o intervalo?

5.12. Considere o Exercıcio 4.9. Obtenha um intervalo de conan¸ ca Bayesianopara θ com coeciente de conan¸ca γ = 0 , 95. Como ca seu intervalo se x = 4?

5.13. Considere o Exercıcio 4.12. Construa um intervalo de conan¸ ca para θcom coeciente de conan¸ca γ = 1 −α, sendo r = λ = 2. Considere θ = 2 esimule uma amostra de X com n = 10. Como ca o intervalo com γ = 0 , 95?

5.14. Usando a amostra de tamanho n = 20 no Exemplo 3.1.6, construa umintervalo aproximado para θ, onde f (x|θ) e dada em (3.1.8).



6. Testes de Hip´ oteses

Neste capıtulo apresentamos a teoria de testes de hip´ oteses em um nıvel bas-tante introdut´ orio. Testes ótimos, como os testes mais poderosos para hip´ otesenula simples contra alternativa simples e testes uniformemente mais poderosospara hipóteses compostas, são obtidos utilizando o conhecido Lema de Neyman-Pearson. Situa¸ coes mais complexas, como o caso de hip oteses bilaterais, sãotratadas utilizando-se a estatıstica da raz˜ ao de verossimilhan¸cas generalizadaque, apesar de não apresentar propriedades ´ otimas, tem um comportamentobastante satisfat´ orio.

6.1 Ideias Basicas

Em muitas situa¸ coes temos interesse em tomar a decis˜ ao de aceitar ou rejeitardeterminada arma¸ cao baseando-se em um conjunto de evidencias. Um exem-plo comum e o caso em que um indivıduo est´ a sendo julgado por determinadodelito. Com base nas evidencias (testemunhas, fatos, etc.), o j´ uri ter a que de-cidir pela culpa ou inocencia do indivıduo. Podemos, ent˜ ao, concluir que o j uriformula duas hipóteses: “H 0 : o indivıduo e inocente” e a alternativa “ H 1 : oindivıduo e culpado”. Com base nas evidencias apresentadas, o j´ uri ter a quese decidir por H 0 ou por H 1 . Ao tomar, por exemplo, a decis˜ ao de aceitar H 1(ent ao rejeitar H 0) como verdadeira, o júri pode estar cometendo um erro, pois,apesar das evidencias, o indivıduo pode ser inocente. O mesmo pode acontecercom rela cao a aceita cao da hip otese H 0 como verdadeira. Nesse caso, o júriestaria considerando como inocente um indivıduo culpado.

Um problema mais próximo da area de atua¸cao da estatıstica (apesar de quemuita estatıstica tem sido utilizada em problemas jurıdicos), e o problema de sedecidir sobre a eciencia ou n˜ ao de certa vacina utilizada no combate ` a determi-nada doen¸ca. Os pesquisadores formulam ent˜ ao as hip oteses “ H 0 : a vacina n ao

e eciente” e “ H 1 : a vacina e eciente”. Nesse caso, um experimento e plane- jado, envolvendo um grupo possivelmente grande de indivıduos em que umaparte (escolhida ao acaso) recebe a vacina e o restante recebe uma substˆ anciainoqua. Com base nos resultados desse experimento, os pesquisadores ter˜ ao



92 6. Testes de Hipóteses

ent ao que se decidir por H 0 ou H 1 . Novamente, não est a descartada a possi-bilidade de que erros sejam cometidos ao se considerar, por exemplo, a vacinaeciente ( H 0 falsa) quando, na verdade, ela n˜ ao o e (H 0 e verdadeira), o queseria bastante prejudicial ` a popula cao. O estatıstico envolvido na pesquisa deveprocurar utilizar tecnicas que tornem mınima a probabilidade de se cometererros.

6.2 Formula¸ cao Estatıstica

Nesta se cao os princıpios básicos da teoria são especicados. Formalizamos aseguir a no cao de hip otese estatıstica.

Deni¸ cao 6.2.1. Chamamos de hip´ otese estatıstica qualquer arma¸ c˜ ao acerca da distribui¸c˜ ao de probabilidades de uma ou mais vari´ aveis aleat´ orias.

Denotamos por H 0 (hip otese nula) a hipótese de interesse. Caso H 0 seja rejeitada, aceitamos como verdadeira a hip´ otese alternativa H 1 . Sendo a vari avelaleat oria X distribuıda de acordo com a fun¸ cao de densidade (ou de probabi-lidade) f (x|θ), com θ∈Θ, dizemos que a distribui¸cao de X est a totalmenteespecicada quando conhecemos f (x|θ) e θ. A distribui¸cao de X sera dita estarparcialmente especicada quando conhecemos a fun¸ cao de densidade (ou deprobabilidade) f (x|θ), mas n ao θ. Associados as hip oteses H 0 e H 1 , denimosos conjuntos Θ0 e Θ1 , ou seja, H 0 arma que θ∈Θ0 (nota cao: H 0 : θ∈Θ0 ) eH 1 arma que θ∈Θ1 (nota cao: H 1 : θ∈Θ1). No caso em que Θ0 = {θ0}dize-mos que H 0 e simples. Caso contr´ ario, dizemos que H 0 e composta. O mesmo

vale para a hipótese alternativa H 1 .Deni¸ cao 6.2.2. Chamamos de teste de uma hip´ otese estatıstica a fun¸ c˜ aode decis˜ ao d : X → {a0 , a 1}, em que a0 corresponde à ac˜ ao de considerar a hip´ otese H 0 como verdadeira e a1 corresponde à ac˜ ao de considerar a hip´ oteseH 1 como verdadeira.

Na deni cao acima, X denota o espa co amostral associado à amostraX 1 , . . . , X n . A funcao de decis ao d divide o espa co amostral X em dois conjun-tos

A 0 = {(x1 , . . . , x n )∈ X ; d(x1 , . . . , x n ) = a0}e

A 1 =

{(x1 , . . . , x n )

∈X ; d(x1 , . . . , x n ) = a1

},

onde A 0∪A 1 = X e A 0 ∩A 1 = ∅. Como em A 0 temos os pontos amostrais

x = ( x1 , . . . , x n ) que levam a aceita cao de H 0 , vamos chamar A 0 de regiao deaceita c˜ ao e, por analogia, A 1 de regiao de rejei c˜ ao de H 0 , tambem chamada deregi˜ ao crıtica .



6.2 Formula¸cao Estatıstica 93

Exemplo 6.2.1. Uma caixa contem duas moedas. Uma apresenta cara comprobabilidade p = 0 , 5 (equilibrada) e a outra apresenta cara com probabili-dade p = 0 , 6. Uma moeda e escolhida aleatoriamente e lan¸ cada tres vezes.Suponhamos que as hipóteses de interesse são H 0 : p = 0 , 5 e H 1 : p = 0 , 6.Seja X i a vari avel de Bernoulli que assume o valor 1 se ocorre cara no i-esimolan camento e 0 caso contrário, i = 1 , 2, 3. Nesse caso,

X = {(0, 0, 0), (1, 0, 0), (0, 1, 0), (0, 0, 1), (0, 1, 1), (1, 0, 1), (1, 1, 0), (1, 1, 1)}.

Podemos considerar, por exemplo, a regi˜ ao crıtica

A 1 = {(x1 , x2 , x3 ); x1 + x2 + x3 ≥2},

de modo queA 0 = {(x1 , x2 , x3 ); x1 + x2 + x3 < 2}.

Notemos que A 0∪A 1 = X e A 0 ∩A 1 = ∅.

No caso em que H 0 : θ = θ0 (simples) e H 1 : θ = θ1 (simples), considerandoa funcao de perda l(θ, d) = 0 ou 1, se a decis ao correta ou incorreta, respecti-vamente, e tomada, a fun¸ cao de risco e, então, dada por

R(θ0 , d) = E [l(θ0 , d)] = 0.P [X ∈A 0|θ0 ] + 1.P [X ∈A 1 |θ0]

= P [X ∈A 1 |θ0] = α = P H 0 [Rejeitar H 0]

eR(θ1 , d) = E [l(θ1 , d)] = 0.P [X

∈

A 1

|θ1 ] + 1.P [X

∈

A 0

|θ1]

= P [X ∈A 0 |θ1] = β = P H 1 [aceitar H 0].

Os riscos α e β sao conhecidos na literatura como probabilidades dos errosdos tipos I e II, respectivamente. Mais precisamente, o erro do tipo I ocorrequando rejeitamos H 0 , sendo H 0 verdadeira, enquanto que o erro do tipo IIocorre quando aceitamos H 0 , sendo H 0 falsa. A situa cao descrita acima est´ ailustrada na Tabela 6.1 dada abaixo.

Tabela 6.1. Tipos de erros em testes de hip´ oteses

Decisao H 0 e verdadeira H 0 e falsaAceitar H 0 Decisao correta Erro do tipo IIRejeitar H 0 Erro do tipo I Decis ao correta

Deni¸ cao 6.2.3. O poder do teste com regi˜ ao crıtica A 1 para testar H 0 : θ = θ0contra H 1 : θ = θ1 e dado por




(6.2.1) π(θ1) = P H 1 [X

∈

A 1 ] = P [X

∈

A 1

|θ1 ].

Notemos de (6.2.1) que π(θ1) = 1 −β , onde β e a probabilidade de se cometero erro do tipo II.

Exemplo 6.2.2. Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n dadistribui¸cao da vari avel aleat oria X ∼N (µ, 1). Consideremos as hip´oteses H 0 :µ = 0 e H 1 : µ = 1. Consideremos o teste com regi˜ ao crıtica A 1 = {x ; x ≥c},onde, como nos capıtulos anteriores, x = ( x1 + . . . + xn )/n . Suponhamos quen = 16 e que temos interesse em xar α = 0 , 05. Ent ao, para determinar c,temos que resolver a equa¸cao α = P H 0 [X ≥c], ou seja,

0, 05 = P H 0 [X ≥c] = P [Z ≥c√n],

onde Z = X √n∼N (0, 1). Ent ao, c√n = 1 , 64, pois na distribui¸cao N (0, 1), ovalor 1, 64 e o percentil 95%. Logo c = 0 , 41, de modo que A 1 = {x , x ≥0, 41}.

6.3 Hip´ otese Nula Simples contra Alternativa Simples.Testes Mais Poderosos

Nesta se cao, xada a probabilidade do erro do tipo I, α , tambem conhecidacomo nıvel do teste, procuramos a regi˜ ao crıtica A∗1 que tenha a menor pro-babilidade de erro do tipo II, ou seja, maior poder dentre todos os testes comnıvel menor ou igual a α . Enfatizamos que, no caso discreto,

α(A 1) = P H 0 [X ∈A 1] =

x∈

A 1f (x |θ0) e β (A 1 ) =

x∈

A 0f (x |θ1),

onde A 0 = A c1 , conforme enfatizado anteriormente.

Exemplo 6.3.1. Consideremos o problema de se testar H 0 : θ = θ0 versus H 1 :θ = θ1 , com uma unica observa¸cao da vari avel aleat oria X , com distribui¸caode probabilidade dada na Tabela 6.2 abaixo.

Tabela 6.2. Fun cao de probabilidade da vari´ avel aleat oriaX sob H 0 e H 1

X 0 1 2 3 4 5f (x

|θ0) 0,02 0,03 0,05 0,05 0,35 0,50

f (x|θ1) 0,04 0,05 0,08 0,12 0,41 0,30

Notemos que as possıveis regi˜oes crıticas A 1 de nıvel α(A 1) = 0 , 05 com osrespectivos β = β (A 1 ) sao dadas na Tabela 6.3 abaixo.




o que conclui a prova.

Para o caso em que X e uma vari´avel aleat oria contınua, a demostra¸ cao ean aloga, bastando substituir as somas por integrais correspondentes.

Exemplo 6.3.2. Consideremos o Exemplo 6.3.1 novamente. Temos que o testecom α + β (a = b = 1) mınimo tem regi˜ ao crıtica dada por A∗1 = {0, 1, 2, 3, 4},de modo que α = 0 , 5 e β = 0 , 3 sendo α + β = 0 , 80.

O resultado que apresentamos a seguir considera o teste mais poderoso(M.P.) de nıvel α para testar H 0 : θ = θ0 contra H 1 : θ = θ1 .

Lema 6.3.2. (Lema de Neyman-Pearson) Consideremos o teste com regi˜ aocrıtica

(6.3.2) A∗1 = x ; L1(x )L0(x ) ≥k .

em que L0(x ) e L1(x ) s˜ ao dados em (6.3.1). Ent ao A∗1 e a melhor regi˜ aocrıtica de nıvel α = α(A∗1 ) para testar H 0 : θ = θ0 contra H 1 : θ = θ1 , isto e,β (A∗1 ) ≤β (A 1) para qualquer outro teste A 1 com α(A 1 ) ≤α.

Prova. Do Lema 6.3.1, temos que

(6.3.3) kα (A∗1 ) + β (A∗1 ) ≤kα (A 1) + β (A 1 ),

para qualquer outra regi˜ ao crıtica A 1 . Como α(A 1 ) ≤α(A∗1 ), a desigualdade(6.3.3) implica que β (A∗1 ) ≤β (A 1), o que conclui a prova.

O teste com regi ao crıtica (6.3.2) e tambem conhecido como teste da raz˜ aode verossimilhan¸cas. Calculando a fun¸cao de verossimilhan¸ca dada em (3.1.1)sob H 0 (L0(x )) e sob H 1 (L1(x )), o teste mais poderoso rejeita H 0 quandoL1(x )/L 0(x ) ≥ k, ou seja, quando a evidencia em favor de H 1 (expressa porL1(x )) e maior que a evidencia em favor de H 0 (expressa por L0(x )). Portanto,a seguir, quando nos referimos ao teste M.P., nos referimos ` a regiao crıtica A∗1 .

Exemplo 6.3.3. Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n dadistribui¸cao de X ∼N (µ, 1). O objetivo e encontrar o teste M.P. para testarH 0 : µ = 0 contra H 1 : µ = 1. Nesse caso, a fun¸cao de verossimilhan¸ca e dadapor

L(µ; x ) =1

√2π

n

e−ni =1

( x i − µ ) 2

2 ,

de modo que o teste M.P. rejeita H 0 quando

L1(x )L0(x )

=1√2π

ne−

ni =1

(x i −1) 2 / 2

1√2π

ne−

ni =1

x 2i / 2 ≥k,



6.3 Hip otese Nula Simples contra Alternativa Simples. Testes Mais Poderosos 97

ou seja, quandoe

ni =1 x i −n2 ≥k,

que e equivalente a rejeitar H 0 quando ni=1 x i ≥ log k + n/ 2 = c. Portanto a

regiao crıtica do teste M.P. e dada por

(6.3.4) A∗1 = x ,n

i=1x i ≥c .

Dado α = 0 , 05, por exemplo, c e tal que

0, 05 = P H 0

n

i=1

X i ≥c .

Como, sob H 0 , ni=1 X i ∼N (0, n ), temos que c = 1 , 64√n. Sendo n = 9, temos

que c = 4 , 92, de modo que, de (6.3.4),

(6.3.5) A∗1 = x ;n

i=1x i ≥4, 92 .

Associada a regiao crıtica (6.3.5), temos que

β = P H 1

n

i=1

X i < 4, 92 = P H 1

ni=1 X i −n

√n<

4, 92 −n√n

,

e como n = 9, β = P Z ≤ −4,08

3 = 0 , 09, onde Z ∼N (0, 1). O poder doteste e, ent˜ ao, dado por π(θ1 ) = 1 −β = 0 , 91. Sendo as hip oteses de interesseH 0 : µ = µ0 e H 1 : µ = µ1 > µ 0 , o teste M.P. tem regi˜ ao crıtica dada por(6.3.4) com c dado por

c = 1 , 64√n + nµ 0 .

Exemplo 6.3.4. Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n davari avel aleat oria X ∼N (µ, σ 2), onde µ e conhecido. Queremos o teste M.P.para testar H 0 : σ2 = σ2

0 contra H 1 : σ2 = σ21 (> σ 2

0 ). De acordo com o Lema6.3.2, temos que o teste M.P. rejeita H 0 quando

L1(x )L0(x ) =

1

√2πσ 2

1

n

e−ni =1

( x i − µ ) 2

2 σ 21

1√2πσ 20

n

e−ni =1

( x i − µ ) 2

2 σ 20

≥k,

que e equivalente a




n

i=1 (xi −µ)2

≥log(k( σ 1

σ0)n )

12

1σ 2

0 − 1σ 2

1

= c.

Ent ao, a regi ao crıtica do teste M.P. e dada por

(6.3.6) A∗1 = x ;n

i=1

(x i −µ)2 ≥c .

Fixando α, temos que o valor de c em (6.3.6) e dado pela solu¸cao da equa cao

α = P H 0

n

i=1

(X i −µ)2 ≥c = P n

i=1

(X i −µ)2

σ20 ≥

cσ2

0.

Mas, sob H 0 ,n

i=1

(X i −µ)2

σ20 ∼χ 2

n ,

ent ao, sendo α = 0 , 05, n = 10 e σ20 = 8, temos

0, 05 = P χ 210 ≥

c8

onde χ 210 e a vari avel aleat oria com distribui¸cao quiquadrado com 10 graus de

liberdade. Portanto temos que a regi˜ ao crıtica e dada por

(6.3.7) A∗1 = x ;

10

i=1(x i −µ)

2

≥146, 456 .

Nesse caso, sendo σ21 = 10 , 0 temos que

β = P H 1

10

i=1

(X i −µ)2 < 146, 456 = P χ 210 ≤14, 646 = 0 , 85,

pois, sob H 1 ,10

i=1

(X i −µ)2

10 ∼χ 210 .

Assim, associado a regiao crıtica (6.3.7) temos o poder π(σ21 ) = 1

−β = 0 , 15.

Exemplo 6.3.5. Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n dadistribui¸cao da vari avel aleat oria X com distribui¸cao Bernoulli (θ). Conside-remos o problema de testar H 0 : θ = θ0 contra H 1 : θ = θ1 (θ1 > θ 0). De



6.3 Hip otese Nula Simples contra Alternativa Simples. Testes Mais Poderosos 99

acordo com o Lema de Neyman-Pearson e a fun¸ cao de verossimilhan¸ca dadaem (3.1.1), a regi ao crıtica do teste M.P. rejeita H 0 quando

θni =1

x i

1 (1 −θ1 )n −ni =1

x i

θni =1

x i

0 (1 −θ0 )n −ni =1

x i ≥k,

que pode ser escrita como

θ1(1 −θ0)θ0(1 −θ1)

ni =1

x i

≥k1 −θ0

1 −θ1

n

,

que se reduz an

i=1xi ≥

log[k( 1−θ01

−θ1

)n ]

log[θ1 (1−θ0 )θ0 (1−θ1 ) ] = c.

Portanto a regi˜ ao crıtica do teste M.P. e dada por

A∗1 = x ;n

i=1

x i ≥c .

Sob H 0 , ni=1 X i ∼Binomial (n, θ 0), ent ao sendo α = 0 , 055, θ0 = 0 , 5, θ1 =

0, 6 e n = 10, temos que

α = P H 0

n

i=1

X i ≥c ,

leva a regiao crıtica

(6.3.8) A∗1 = x ;10

i=1

x i ≥8 .

Assim, associada a regiao crıtica A∗1 em (6.3.8), temos que

β = P H 1

10

i=1

X i ≤7 = 0 , 833.

Portanto o poder associado ` a regiao crıtica (6.3.8) e dado por π(0, 6) = 1 −0, 833 = 0 , 167. Sendo n grande (maior que 20, pelo menos), podemos usar aaproxima¸cao normal, ou seja,

ni=1 X i −nθ

nθ(1 −θ)a

∼N (0, 1).




Dado α , podemos obter o valor de c na regi ao crıtica (6.3.8), como solu¸ cao daequa cao

α = P Z ≥c −nθ0

nθ0(1 −θ0),

onde Z ∼N (0, 1).

Denimos a seguir nıvel descritivo que est´ a associado ao valor efetivamenteobservado da estatıstica do teste.

Deni¸ cao 6.3.1. Consideramos como nıvel descritivo, que denotamos por α ,como o menor nıvel de signicância α para o qual a hip´ otese nula H 0 seria rejeitada.

Notemos que, se α > α , rejeitamos H 0 e, se α < α , nao rejeitamos H 0 , ondeα e o nıvel de signicância adotado.

Exemplo 6.3.6. Consideremos novamente o Exemplo 6.3.3 e suponhamos quepara uma amostra de n = 9 observa¸coes, x = 0 , 68. Portanto

α = P H 0 [X ≥0, 68] = P [Z ≥2, 04] = 0, 02,

onde Z ∼N (0, 1). Nesse caso, tomando α = 0 , 05, rejeitamos H 0 : µ = 0.

6.4 Testes Uniformemente Mais Poderosos

Na secao anterior consideramos testes ´ otimos (M.P.) para testar hip´ oteses nu-las simples contra alternativas simples. Nesta se¸ cao generalizamos os resultadosda Secao 6.3 para o caso de hip oteses mais complexas. A Se¸cao 6.4.1 apresentatestes otimos para o caso em que temos hip´ otese nula simples e alternativas com-postas. Na Se cao 6.4.2, discutimos brevemente o caso em que as duas hip´ otesessao compostas.

6.4.1 Hip´ otese nula simples contra alternativa composta

Consideremos que as hipóteses de interesse são H 0 : θ = θ0 contra H 1 : θ∈Θ1 .

Deni¸ cao 6.4.1. Um teste A∗1 e dito ser uniformemente mais poderoso

(U.M.P.) para testar H 0 : θ = θ0 contra H 1 : θ ∈Θ1 , se ele e M.P. denıvel α para testar H 0 : θ = θ0 contra H 1 : θ = θ1 , qualquer que seja θ1∈Θ1 .

De acordo com a Deni cao 6.4.1, a regi ao crıtica A∗1 nao pode dependerparticularmente de θ1 , para qualquer θ1∈Θ1 .



6.4 Testes Uniformemente Mais Poderosos 101

Exemplo 6.4.1. Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n dadistribui¸cao N (µ, 1). Consideremos as hipóteses H 0 : µ = 0 contra H 1 : µ > 0.Neste caso, Θ1 = {µ; µ > 0}. Para testar H 0 : µ = 0 contra H 1 : µ = µ1 > 0,temos do Exemplo 6.3.3 que o teste M.P. tem regi˜ ao crıtica dada por A∗1 =

{x ; ni=1 x i ≥c}. Como A∗1 nao depende do particular µ1 especicado acima,

segue da Deni cao 6.4.1 que A∗1 e a regi ao crıtica do teste U.M.P. para testarH 0 : µ = 0 contra H 1 : µ > 0.

Exemplo 6.4.2. Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n dadistribui¸cao Bernoulli (θ). Consideremos as hipóteses H 0 : θ = 0 , 5 contraH 1 : θ < 0, 5. Para testar H 0 : θ = 0 , 5 contra H 1 : θ = θ1 < 0, 5, temos que oteste M.P. tem regi˜ ao crıtica dada por A∗1 = {x , n

i=1 x i ≤ c}. Como A∗1 naodepende do particular valor de θ1 especicado em H 1 , temos que A∗1 e a regi aocrıtica do teste U.M.P. para testar H 0 : θ = 0 , 5 contra H 1 : θ < 0, 5.

Exemplo 6.4.3. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oriaX ∼N (µ, 1). Consideremos as hipóteses H 0 : µ = 0 contra H 1 : µ = 0.Para testar H 0 : µ = 0 contra H 1 : µ = 1, o teste M.P. e dado por A∗1 =

{x , ni=1 x i ≥c}. Por outro lado, para testar H 0 : µ = 0 contra H 1 : µ = −1,

o teste M.P. tem regi˜ ao crıtica dada por A∗1 = {x ; ni=1 x i ≤ c}. Portanto a

regiao crıtica do teste M.P. depende do particular valor de µ1 escolhido paraH 1 , ou seja, a regi ao crıtica não e unica. Portanto n˜ ao existe teste U.M.P. paratestar H 0 : µ = 0 contra H 1 : µ = 0.

Deni¸ cao 6.4.2. A func˜ ao de poder π(θ) com regi˜ ao crıtica A∗1 para testar H 0 : θ = θ0 contra H 1 : θ∈Θ1 e dada por

π(θ) = P θ [X ∈A∗1],

ou seja, e a probabilidade de rejeitar H 0 para θ∈Θ. Notemos que π(θ0) = α.

Exemplo 6.4.4. Sejam X 1 , . . . , X n , uma amostra aleat´ oria de tamanho n dadistribui¸cao N (µ, 1). Consideremos o problema de testar H 0 : µ = 0 contraH 1 : µ > 0. Conforme visto no Exemplo 6.4.1, a regi˜ ao crıtica do teste U.M.P.e dada por A∗1 = {x , n

i=1 x i ≥ c}. Sendo n = 9 e α = 0 , 05, temos, comono Exemplo 6.3.3, que c = 1 , 64√9 = 4 , 92, de modo que A∗1 = {x ; n

i=1 x i ≥4, 92}. A funcao de poder e, então, dada por

(6.4.1) π(µ) = P µ9

i=1

X i

≥4, 92 = 1

−Φ

4, 92 −9µ

3,

onde Φ(.) denota a fun¸cao de distribui¸cao acumulada da distribui¸ cao N (0, 1).Ent ao,

π(0, 3) = 1 −Φ(0, 74) = 1 −0, 77 = 0 , 23.




De modo similar, π(0, 5) = 1

−Φ(0, 14) = 0 , 44 e π(1, 0) = 0 , 91 e π(0, 0) =

0, 05 = α. Gracamente, temos a Figura 6.1 que representa a fun¸ cao poder doteste.

Figura 6.1. Fun cao poder dada em (6.4.1)

0 0.5 1

0.05

0.5

1

µ

π(µ)

6.4.2 Hip´ oteses compostas

Nesta se cao consideramos brevemente testes U.M.P. para situa¸ coes onde aship oteses nula e alternativa s˜ ao compostas. Mais especicamente, consideramoso problema de se testar as hip´ oteses H 0 : θ ∈Θ0 contra H 1 : θ ∈Θ1 . Oresultado apresentado a seguir estabelece condi¸ coes para que se tenha o testeU.M.P. para testar as hip´ oteses compostas acima. A demonstra¸ cao pode servista em De Groot (1975).

Teorema 6.4.1. No caso em que X 1 , . . . , X n seguem uma distribui¸c˜ ao da famılia exponencial (Se¸c˜ ao 2.4), temos que o teste U.M.P. para testar H 0 :θ = θ0 contra H 1 : θ > θ0 e tambem U.M.P. para testar H 0 : θ ≤ θ0 contra H 1 : θ > θ0 . Tambem o teste U.M.P. para testar H 0 : θ = θ0 contra H 1 : θ < θ0e U.M.P. para testar H 0 : θ ≥θ0 contra H 1 : θ < θ0 .

Exemplo 6.4.5. Sejam X 1 , . . . , X n uma amostra aleat´ oria de tamanho n davari avel aleat oria X

∼

N (µ, 1). De acordo com o Teorema 6.4.1, temos doExemplo 6.4.1 que o teste U.M.P. para testar H 0 : µ ≤ 0 contra H 1 : µ > 0tem regi ao crıtica dada por A∗1 = {x ; n

=1 x i ≥c}.

Exemplo 6.4.6. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oriaX ∼Bernoulli (θ). De acordo com o Teorema 6.4.1 e Exemplo 6.4.2, segue que



6.5 Testes da Raz ao de Verossimilhan¸ cas Generalizada 103

o teste U.M.P. para testar H 0 : θ

≥0, 5 contra H 1 : θ < 0, 5 e dada por

A∗1 = {x , ni=1 x i ≤c}.

A funcao de poder do teste U.M.P., nesta situa¸ cao mais geral, e tambemcomo na Deni cao 6.4.2, ou seja, π(θ) = P θ [X ∈

A∗1 ], θ∈Θ.

6.5 Testes da Razao de Verossimilhan¸ cas Generalizada

Na Secao 6.4 vimos que os testes UMP existem apenas em situa¸ coes especiais.Essas situa¸coes compreendem o caso das famılias exponenciais unidimensionais.Vimos tambem que, em geral, n˜ ao existem testes UMP para testar H 0 : θ = θ0versus H 1 : θ = θ0 . Tambem n˜ ao existe teste UMP na maioria dos casos em quea distribui¸cao envolve mais de um parâmetro desconhecido como, por exemplo,a N (µ, σ 2) com µ e σ2 desconhecidos. Um procedimento que produz testesrazo aveis e que pode ser utilizado em muitos casos, sem muita diculdade, e oTeste da Razão de Verossimilhan¸cas Generalizada (TRVG).

Consideremos uma situa¸ cao bastante geral onde as hip´ oteses de interessesao

H 0 : θ∈Θ0 versus H 1 : θ∈Θ1

onde Θ = Θ0∪Θ1 , Θ0 ∩Θ1 = ∅, Θ0 = ∅e Θ1 = ∅.O TRVG pode ser denido como o teste com regi˜ ao crıtica dada por (verBickel e Doksum(1976))

A∗1 = x ;sup θ∈Θ 1 L(θ; x )sup θ

∈

Θ 0 L(θ; x ) ≥c .

Podemos notar que, quando as hip´ oteses s ao simples, ou seja, Θ0 = {θ0}eΘ1 = {θ1}, o TRVG coincide com o LNP dado em (6.3.2).

Comosup θ∈Θ L(θ; x )sup θ∈Θ 0 L(θ; x )

= max 1,sup θ∈Θ 1 L(θ; x )sup θ∈Θ 0 L(θ; x )

,

por facilidades computacionais o TRVG pode tambem ser denido como

(6.5.1) A∗1 = x ; λ(x ) =sup θ∈Θ 0 L(θ; x )sup θ∈Θ L(θ; x ) ≤c .

Observemos que 0 ≤λ(x ) ≤1, pois o numerador e o supremo com rela¸ cao a θ

pertencente a um subconjunto de Θ (Θ0∈Θ), enquanto que o denominador eo supremo sobre todo conjunto Θ. Se a hipotese H 0 for verdadeira, esperamos

que λ(x ) esteja “próximo” de 1, e se a hip otese H 0 for falsa, esperamos que odenominador seja grande em rela¸ cao ao numerador, e, portanto, λ(x ) deve ser“pr oximo” de zero.




Para determinar c em (6.5.1) temos que resolver a equa¸ cao

α = sup θ∈Θ 0 P (λ(X ) ≤c).

Para isso, precisamos da distribui¸ cao da estatıstica λ(X ) que, em geral, n ao esimples de ser obtida, ou, ent˜ ao, podemos encontrar uma fun¸ cao h estritamentecrescente no domınio de λ(x ) tal que h(λ(X )) tenha uma forma simples e umadistribui¸cao conhecida e tabelada sob a hip´ otese H 0 .

Para implementa¸ cao do TRVG, os seguintes passos devem ser seguidos:

1) obter o estimador de m´ axima verossimilhan¸ca (EM V ) θ de θ;

2) obter o EM V θ0 de θ, quando θ∈Θ0 ;

3) calcular λ(X ) =L ( θ0 ;X )L ( θ ;X ) ;

4) encontrar a fun¸cao h;

5) obter c, resolvendo a equa¸cao α = P H 0 (h(λ(X )) ≤c).

A seguir apresentamos alguns exemplos.

Exemplo 6.5.1. Consideremos o Exemplo 6.3.3 novamente, mas agora o in-teresse e testar H 0 : µ = µ0 versus H 1 : µ = µ0 . Conforme vimos no Exemplo6.4.3 nao existe teste UMP nesse caso. Pelo Exemplo 3.1.1, temos que o EM V de µ e dado por µ = X . Como a hip otese H 0 so especica um unico valor paraµ, o numerador de λ(x ) em (6.5.1) e L(µ0; x ) de modo que

λ(x ) =(2π)−n/ 2e−12 (x i −µ 0 )2

(2π)−n/ 2e−12 (x i −x ) 2 = e −1

2 [ (x i −µ0 ) 2 − (x i −x ) 2 ].

Podemos simplicar λ(x ) usando o fato de que

(6.5.2) (xi −µ0 )2 = (xi −x)2 + n(x −µ0)2 .

De (6.5.1) temos que o TRVG rejeita H 0 quando

e−n2 (µ 0 −x )2

≤c,

que e equivalente a rejeitar H 0 quando

|x −µ0| ≥ −2logc/n.

Portanto a regi˜ ao crıtica do TRVG e dada por

A∗1 = {x ;√n|x −µ0| ≥a}.




Fixado α, obtemos a de forma que

α = P H 0 (√n |X −µ0| ≥a)

Como sob H 0 , √n(X −µ0) ∼N (0, 1), temos que a = zα/ 2 . Sendo α = 0 , 05temos que A∗1 = {x ;√n|x −µ0 | ≥ 1, 96}. Considerando µ0 = 0, n = 9,

ni=1 x i = 3 , 4, nao rejeitamos H 0 pois √9|3, 4/ 9 −0| < 1, 96. Nesse caso,

a funcao de poder do teste e

π(µ) = P µ (√n |X | ≥1, 96) = 1 −P (−1, 96−√nµ ≤√n(X −µ) ≤1, 96−√nµ)

= 1 −[Φ(1, 96 −√nµ) −Φ(−1, 96 −√nµ)],

pois temos que √n(X −µ) ∼N (0, 1) quando µ e o verdadeiro valor dopar ametro. A Figura 6.2 apresenta o gr´ aco dessa fun cao poder para os da-

dos acima. Notemos que π(0) = 1 −P (−1, 96 ≤ Z ≤ 1, 96) = 0 , 05, ondeZ ∼N (0, 1). De maneira similar, π(0, 3) = π(−0, 3) = 0 , 15, e assim por di-ante.

Figura 6.2. Fun cao poder

-1 -0.5 0 0.5 1

0.5

1

π(µ)

µ

Exemplo 6.5.2. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oriaX ∼N (µ, σ 2 ) com µ e σ2 desconhecidos. O interesse e testar H 0 : µ = µ0 versusH 1 : µ = µ0 . Nesse caso,

Θ0 = {(µ0 , σ2); σ2 > 0} e Θ = {(µ, σ 2), −∞< µ < ∞, σ2 > 0}De acordo com o Exemplo 3.4.1, o EM V de (µ, σ 2) em Θ e dado por µ = X e σ2 = (X i −X )2 /n e em Θ0 e dado por µ0 = µ0 e σ2

0 = (X i −µ0)2 /n .Logo a estatıstica do TRVG e dada por




λ(x ) = (2π)−n/ 2

(σ20 )−

n/ 2

e− 1

2 σ 20

(x i −µ0 )2

(2π)−n/ 2(σ2 )−n/ 2e−1

2 σ 2 (x i −x ) 2 = σ2

σ20

n/ 2

.

Usando (6.5.2), temos que o TRVG rejeita H 0 quando

11 + n (x−µ 0 )2

(x i −x ) 2

n/ 2

≤c


√n|x −µ0|

(x i −x )2

n −1

≥ (c−2/n −1)(n −1)


A∗1 = x ;√n |x −µ0|

s ≥a

onde s2 =(x i −x ) 2

n −1 . Sob a hip otese H 0 , √n (X −µ0 )S ∼tn −1 e, ent ao, dado

α = 0 , 05 e n = 9 obtemos, usando a tabela da distribui¸ cao t com 8 graus deliberdade, a = 2 , 306. Se µ0 = 0, x = 0 , 68 e s = 1 , 2, ent ao √n (x−µ0 )

s = 1 , 7 demodo que n ao rejeitamos H 0 .

Exemplo 6.5.3. Consideremos novamente o Exemplo 6.5.2, mas sendo que o

interesse e testar H 0 : σ2 = σ20 versus H 1 : σ2 = σ20 . Nesse caso,Θ0 = {(µ, σ 2 ); −∞< µ < ∞, σ2 = σ2

0}e

Θ = {(µ, σ 2), −∞< µ < ∞, σ2 > 0}Pelo Exemplo 3.4.1., o EM V de (µ, σ 2) em Θ e dado por µ = X e σ2 =

(X i −X )2 /n , enquanto que em Θ0 e dado por µ0 = X e σ20 = σ2

0 . Logo, aestatıstica do TRVG e dada por

λ(x ) =(2π)−n/ 2(σ2

0 )−n/ 2e−1

2 σ 20

(x i −x ) 2

(2π)−n/ 2(σ2)−n/ 2e−1

2 σ 2 (x i −x ) 2 =σ2

σ20

n/ 2

e− 12 σ 2

0(x i −x ) 2 + n/ 2

.

Ent ao, temos que o TRVG rejeita H 0 quando

(x i −x)2

σ20

n/ 2

e−( x i − x ) 2

2 σ 20 ≤c.




Notemos que se g(y) = yn/ 2e−y/ 2 , y > 0 ent ao a fun cao log g(y) (e tambemg(y)) e crescente para y < n , atingindo o ponto de m´aximo em y = n e edecrescente para y > n , logo g(y) ≤ c se e somente se y ≤ c1 ou y ≥ c2 comg(c1) = g(c2). Portanto o TRVG e equivalente a rejeitar H 0 quando

(xi −x)2

σ20 ≤c1 ou

(x i −x)2

σ20 ≥c2 .

Sob a hip otese H 0 ,(X i −X ) 2

σ 20 ∼χ 2

n −1 e, ent ao, dado α = 0 , 05 e n = 9 obtemos,usando a tabela da distribui¸ cao quiquadrado com 8 graus de liberdade, c1 =2, 180 e c2 = 17 , 534 se considerarmos, como na Se¸cao 5.2, probabilidades iguaispara as duas caudas.

Exemplo 6.5.4. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari aval aleat´oriaX com funcao densidade de probabilidade dada por

f (x|θ) = e−(x−θ ) , x ≥θ0, x < θ

onde −∞< θ < ∞. A funcao de verossimilhan¸ca pode ser escrita como

L(θ; x ) = e− x i + nθ , θ ≤x(1)0, θ > x (1)

.

Suponhamos que o interesse seja testar H 0 : θ ≤θ0 versus H 1 : θ > θ 0 onde θ0e um valor especicado. Podemos vericar que L(θ; x ) e uma fun¸cao crescenteem θ no intervalo

−∞< θ

≤x(1) . Logo, em Θ, o EM V de θ e θ = X (1) e em

Θ0 e dado por θ = θ0 se x(1) > θ 0 e θ = x(1) se x(1) ≤θ0 . Portanto a estatısticado TRVG e dada por

λ(x ) =1, x(1) ≤θ0

e−n (x (1) −θ0 ) , x(1) > θ 0.

Portanto a regi˜ ao crıtica do TRVG pode ser escrita como

A1 = x , x (1) ≥θ0 −log c

n.

Como mencionado anteriormente, a forma e a distribui¸ cao de λ(X ) po-

dem ser complicadas e nem sempre podemos encontrar uma fun¸ cao h comdistribui¸cao conhecida. O Teorema a seguir fornece a distribui¸ cao assint oticada estatıstica do TRVG, resolvendo esse problema pelo menos para o caso deamostras grandes. A prova desse resultado envolve conhecimentos avan¸ cadosde probabilidade e pode ser encontrada em Sen e Singer (1993).




Teorema 6.5.1. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari´ avel aleat´ oria X com f.d.p. f (x|θ). Sob as condi c˜ oes de regularidade, se θ ∈Θ0 , ent˜ ao a distribui c˜ ao da estatıstica −2logλ(X ) converge para a distribui¸ c˜ ao quiquadradoquando o tamanho da amostra n tende ao innito. O n´ umero de graus deliberdade da distribui¸c˜ ao limite e a diferen¸ ca entre o n´ umero de parâmetrosn˜ ao especicados em Θ e o n´ umero de parâmetros n˜ ao especicados em Θ0 .

Exemplo 6.5.5. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oriaX ∼Poisson (θ). O interesse e testar H 0 : θ = 5 versus H 1 : θ = 5. PeloExemplo 3.2.5 temos que o EM V de θ e dado por θ = X . Como a hip otese H 0so especica um unico valor para θ, o numerador de λ(x ) em 6.5.1 e L(5, x ) demodo que

λ(x ) =e−

5n 5 x i

xi !x

i!

e−nx x x i = e −n (5−x ) (5/x ) x i

Pelo Teorema 6.5.1 temos que

−2logλ(x ) = −2 −n(5 −x) + x i log(5/x ) .


A∗1 = {−2[−n(5 −x) + x i log5/x ] ≥c}onde um valor aproximado para c e obtido de modo que P (χ 2

1 ≥c) = 0 , 05, querequer a utiliza¸cao da tabela da distribui¸ cao quiquadrado.

A seguir apresentamos alguns exemplos onde o interesse e a compara¸ cao deduas popula¸coes.

Exemplo 6.5.6. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oriaX ∼N (µX , σ2 ) e Y 1 , . . . , Y m uma amostra aleat´ oria da variável aleat oria Y ∼N (µY , σ2). Suponhamos que as amostras s˜ ao independentes e que o interesse etestar H 0 : µX = µY versus H 1 : µX = µY . Nesse caso

Θ0 = {(µX , µY , σ2); µX = µY = µ, −∞< µ < ∞, σ2 > 0}e

Θ = {(µX , µY , σ2), −∞< µ X < ∞, −∞< µ Y < ∞, σ2 > 0}Em Θ os EMVs sao dados por

µX = X , µY = Y

e




σ2

=(X i

−X )2 + (Y i

−Y )2

n + m ,enquanto que em Θ0 sao dados por

µ0 =X i + Y in + m

e σ20 =

(X i −µ0)2 + (yi −µ0)2

n + m.

Logo a estatıstica do TRVG pode ser escrita como

λ(x , y ) =(2π)−(n + m ) / 2(σ2

0 )−(n + m ) / 2e− 12 σ 2

0 { (x i −µ0 ) 2 + (y i −µ20 )}

(2π)−(n + m ) / 2(σ2)−(n + m ) / 2e− 12 σ 2 { (x i −x ) 2 + (y i −y ) 2 }

=σ2

σ2

0

(n + m ) / 2.

Usando (6.5.1), temos que o TRVG rejeita H 0 quando

11 + n (x−µ0 ) 2 + m (y−µ0 ) 2

(x i −x ) 2 + (y i −y )2

(n + m ) / 2

≤c


n(x −µ0)2 + m(y −µ0)2

s2 p ≥c1

onde s2 p =

(x i

−x ) 2 + (y i

−y )2

n + m −2 . Mas

x −µ0 =m

n + m(x −y)

y −µ0 =n

n + m(y −x),

portanto a regi˜ ao crıtica do TRVG e dada por

A∗1 = (x , y );x −y

s p ( 1n + 1

m ) ≤c1 oux −y

s p ( 1n + 1

m ) ≥c2

Sob a hip otese H 0 ,X

−Y

S p √1n + 1

m∼tn + m −2 . Os valores de c1 e c2 sao obtidos

utilizando a tabela da distribui¸ cao t com n + m −2 graus de liberdade.

Exemplo 6.5.7. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oriaX ∼N (µX , σ2

X ) e Y 1 , . . . , Y m uma amostra aleat´ oria da vari´avel aleat oria Y ∼




N (µY , σ2Y ). Suponhamos que as amostras s˜ ao independentes e que o interesse

e testar H 0 : σ2X = σ2Y versus H 1 : σ2X = σ2Y . Nesse caso

Θ0 = {(µX , µY , σ2 ); −∞< µ X , µY < ∞, σ2 > 0}e

Θ = {(µX , µY , σ2X , σ2

Y ), −∞< µ X , µY < ∞, σ2X > 0, σ2

Y > 0}Em Θ os EMVs dos par ametros s ao dados por

µX = X , µY = Y

e

σ2X =

(X i −X )2

n, σ2

Y =(Y i −Y )2

menquanto que em Θ0 sao dados por

µX = X, µY = Y , σ2 =(X i −X )2 + (yi −Y )2

n + m.

Logo a estatıstica do TRVG e

λ(x , y ) =(2π)−(n + m ) / 2(σ2 )−(n + m ) / 2e−

12 σ 2 { (x i −x ) 2 + (y i −y 2}

(2πσ2X )−n/ 2e−

12 σ 2

X(x i −x ) 2

(2πσ2Y )−m/ 2e−

12 σ 2

Y (y i −y ) 2

=(σ2

X )n/ 2 (σ2Y )

m/ 2

(σ2 )(n + m ) / 2 ,

de modo que rejeitamos H 0 quando

g(F ) =( m −1

n −1 F )m/ 2

(1 + m −1n −1 F )n + m/ 2 ≤c

onde F =(y i −y )2 / (m −1)(x i −x )2 / (n −1)

. Mas g(F ) ≤ c se e somente se F ≤ c1 ou F ≥ c2 ,portanto a regi˜ ao crıtica do TRVG e dada por

A∗1 = {(x , y ); F ≤c1 ou F ≥c2}Sob a hip otese H 0 , F

∼

F m −1,n −1 e, ent ao, dado α = 0 , 10, m = 9 e n = 8,

obtemos usando a tabela da distribui¸ cao F com 8 e 7 graus de liberdade quec1 = 0 , 27 e c2 = 3 , 5.

Exemplo 6.5.8. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oriaX ∼Bernoulli (θ1) e Y 1 , . . . , Y m uma amostra aleat´ oria da vari avel aleat oria




Y

∼

Bernoulli (θ2). Suponhamos que as amostras s˜ ao independentes e que ointeresse e testar H 0 : θ1 = θ2 versus H 1 : θ1 = θ2 . Nesse caso

Θ0 = {(θ1 , θ2); θ1 = θ2 = θ, 0 < θ < 1}e

Θ = {(θ1 , θ2); 0 < θ 1 < 1, 0 < θ 2 < 1}Em Θ os EMVs sao dados por

θ1 = X e θ2 = Y ,

enquanto que em Θ0 e dado por

θ =x i + yi

n + m .

Logo

λ(x , y ) =θ( x i + y i )(1 −θ)(n + m − x i − y i )

θx i

1 (1 −θ1)n − x i

θy2

2 (1 −θ2)m − y i

Como n ao conseguimos explicitar a regi˜ ao crıtica atraves de uma estatısticacom distribui¸cao conhecida, ent˜ao pelo Teorema 6.5.1, temos que

−2log λ(x , y ) = −2 x i + yi log θ

+ m + n − x i − yi log(1 −θ)

− x i logθ1 − n − x i log(1 −θ1)

− yi log θ2 − m − yi log(1 −θ2 )

tem distribui¸cao aproximadamente χ 21 . Logo, quando −2log λ(x , y ) ≥c rejeita-

mos H 0 . Suponhamos que n = 400, x i = 60, m = 225, yi = 40. Assim,θ = 100 / 625 de modo que −2logλ(x , y ) = 0 , 82. Tomando α = 0 , 05, temos quec = 3 , 841, portanto n˜ao rejeitamos H 0 .

Exemplo 6.5.9. Consideramos neste exemplo uma extens˜ ao do modelo bino-mial considerado no exemplo anterior. Suponhamos que os indivıduos em umapopula cao podem ser de tres tipos, que rotulamos por tipos 1, 2 e 3. No caso

de preferencia eleitoral, por exemplo, um indivıduo e do tipo 1 se ele for eleitordo partido A; do tipo 2 se for eleitor do partido B e do tipo 3 se for eleitorde um outro partido, que n˜ ao o A e ou o B. Suponhamos que a propor¸cao deindıviduos do tipo i seja θi , i = 1 , 2, 3, de modo que θ1 + θ2 + θ3 = 1. Para umaamostra de n indivıduos observados na popula¸ cao suponhamos que n i seja do




tipo i, i = 1 , 2, 3, de modo que n1 + n2 + n3 = n. A funcao de verossimilhan¸capode ent ao ser escrita como

(6.5.4) L(θ, x ) = θn 11 θn 2

2 (1 −θ1 −θ2 )n −n 1 −n 2 ,

onde x = ( x1 , . . . , x n ), com xi representando o r´ otulo (1, 2 ou 3) do i-esimoindivıduo observado na amostra. Portanto, como no Exemplo 3.5.1, n1 , n2 e n3representam o número de elementos de {x1 , . . . , x n }iguais a 1, 2 ou 3, respec-tivamente. Derivando-se o logaritmo da verossimilhan¸ ca (6.5.4) com rela cao aθ1 e a θ2 , temos os estimadores de máxima verossimilhan¸ca

(6.5.5) θ1 =n1

ne θ2 =

n2

n,

de modo que o estimador de máxima verossimilhan¸ca de θ3

e dado porθ3 = n3 /n (veja o Exercıcio 6.13). A extens˜ ao para o caso geral (caso multino-mial, com k tipos diferentes de indivıduos) pode ser feita de maneira similar.Suponhamos agora que queremos testar a hip´ otese de que os indivıduos na po-pula cao seguem o equilıbrio de Hardy-Weinberg, isto e, que H 0 : θ1 = p(1; θ) =θ2 , θ2 = p(2; θ) = 2 θ(1 −θ), θ3 = p(3; θ) = (1 −θ)2 , para 0 < θ < 1. Sob omodelo geral, ou seja, em Θ = {(θ1 , θ2 , θ3); θi > 0, θ1 + θ2 + θ3 = 1 }os es-timadores de máxima verissimilhan¸ca de θ = ( θ1 , θ2 , θ3) sao como dados em(6.5.5). Sob a hip otese H 0 , ou seja em Θ0 (escreva!), temos que o estimador demaxima verossimilhan¸ca de θ e obtido no Exemplo 3.5.1, ou seja, e dado porθ = (2 n1 + n2)/ 2n. Temos, portanto, que a raz˜ ao de verossimilhan¸cas genera-lizada e dada por

λ(x ) = ( 2n 1 + n 22n )2n 1 (2(2 n

1+ n

2)

2n (1 − 2n 1 + n 22n )) n 2 (1 − 2n 1 + n 22n )2n 3

( n 1n )n 1 ( n 2

n )n 2 ( n 3n )n 3

,

de modo que

−2log λ(x ) = −2 (2n1 + n2)log2n1 + n2

2n −n1 log n1 −n2 log n2

(6.5.6) +( n2 + 2 n3)log 1 −2n1 + n2

2n −n3 log n3 + n log n + n2 log2 ,

que tem, aproximadamente, distribui¸ cao χ 21 .

Uma estatıstica assintoticamente (em grandes amostras) equivalente (vejaBickel e Doksun, 1977) a estatıstica da raz˜ ao de verossimilhan¸cas generalizada,calculada acima, e dada pela estatıstica quiquadrado de Pearson, que no casodo modelo do equilıbrio de Hardy-Weinberg, e dada por




(6.5.7) Q =

3

i=1

(n i

−np(i; θ))2

np(i; θ)

=(n1 −nθ2)2

nθ2+

(n2 −n2θ(1 −θ)) 2

n2θ(1 −θ)+

(n3 −n(1 −θ)2)2

n(1 −θ)2,

que, para n grande, tem a mesma distribui¸ cao que −2log λ(x ), ou seja, χ 21 .

Notemos que a estatıstica Q dada em (6.5.7) e, em geral, interpretada comoa soma do quadrado da diferen¸ ca entre o n umero observado (dado por n i ) eo numero esperado (sob H 0) de indivıduos do tipo i na amostra, que e dadopor ng i (θ), dividido pelo n umero esperado (sob H 0) de indivıduos do tipo i naamostra, para todos os tipos de indivıduos na popula¸ cao. No caso do equilıbriode Hardy-Weinberg, temos que p(1; θ) = θ2 , p(2; θ) = 2 θ(1

−θ) e p(3; θ) =

(1 −θ)2 . A estatıstica Q pode tambem ser generalizada para situa¸ coes maiscomplexas que aquela considerada acima. Entre outras, citamos sua utiliza¸ caoem testes de independencia em tabelas de contigencia, discutido em textosbasicos de estatıstica como, por exemplo, em Bussab e Morettin (1987).

Vamos discutir brevemente as rela¸ coes entre testes de hip´oteses e intervalosde conan ca. Consideremos o Exemplo 6.5.1 novamente. Nesse exemplo temosque, para um nıvel α xado, a hip otese H 0 e aceita se |x −µ0 | ≤zα/ 2 / √n, ouequivalentemente, se

x −zα/ 2

√n ≤µ0 ≤x +zα/ 2

√n.

Como o teste tem nıvel α , a P (H 0 ser aceita |µ = µ0) = 1 −α, ent ao podemosescrever que

P X −zα/ 2

√n ≤µ0 ≤X +zα/ 2

√n |µ = µ0 = 1 −α.

No entanto essa probabilidade deve valer para todo µ0 , de modo que

P X −zα/ 2

√n ≤µ ≤X +zα/ 2

√n= 1 −α.

Portanto o intervalo x −zα/ 2√n ; x + zα/ 2√n obtido a partir da regi˜ ao de aceita cao

do teste de nıvel α , e um intervalo de 100(1 −α)% de conan ca para µ e coincidecom o intervalo (5.3.2).

Por outro lado, a partir do intervalo de conan¸ ca, podemos construir umteste bilateral ( H 0 : θ = θ0 versus H 1 : θ = θ0) onde

rejeitamos H 0 se θ0∈I.C.




aceitamos H 0 se θ0

∈

I.C.

Esse teste tem nıvel α , pois

P (H 0 ser rejeitada |θ = θ0) = P θ0 (θ0∈I.C ) = α.

Concluımos, ent˜ ao, que podemos obter um intervalo de conan¸ ca a partir deum teste de hipótese e vice e versa.

6.6 Testes Bayesianos

O problema de testes de hip´ oteses tambem pode ser formulado do ponto devista Bayesiano. Nesse caso, o teste ser´ a baseado na distribui¸ cao a posteriori.

Como vimos na se cao anterior existe uma rela¸ cao entre testes de hip´ oteses eintervalos de conan¸ca, ent ao uma maneira de se construir um teste Bayesianoe atraves da obten¸ cao de um intervalo de conan¸ ca Bayesiano.

Suponhamos que o interesse seja testar H 0 : θ = θ0 versus H 1 : θ = θ0 .Para isso, construımos o intervalo Bayesiano para θ e, se θ0 estiver contido nointervalo, então aceitamos H 0 e, se θ0 estiver fora do intervalo, ent˜ ao rejeitamosH 0 .

Exemplo 6.6.1. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oriaX ∼N (µ, 1), e consideremos uma priori N (0, 1). O interesse e testar H 0 : µ = 0versus H 1 : µ = 0. Do Exemplo 4.4.3 temos que a distribui¸ cao a posteriori deµ e N nx

n +1 , 1n +1 , ou seja,

µ − nxn +1

1n +1∼N (0, 1).

Logo

P −zα/ 2 ≤µ − nx

n +1

1n +1

≤zα/ 2 = γ

de modo que o intervalo Bayesiano (intervalo de credibilidade) com probabili-dade γ e dado por

nx

n + 1 −zα/ 2

1

n + 1,

nx

n + 1+ zα/ 2

1

n + 1.

Suponhamos que n = 8, 8i=1 xi = 0 , 57 e α = 0 , 05. Logo o intervalo de

conan ca Bayesiano e [-0,59;0,72]. Como o zero está contido no intervalo, n˜ aorejeitamos a hipótese H 0 , ao nıvel de α = 5%.



6.7 Exercıcios 115

6.7 Exercıcios

6.1. Seja X uma vari avel aleat oria com fun cao de densidade f (x|θ) = θ2xe−θx ,x > 0, θ > 0. Queremos testar H 0 : θ = 1 versus H 1 : θ = 2.i) Qual e a regi˜ao crıtica se n = 5 e α = 0 , 05?ii) Se n = 1, qual e o teste que minimiza α + β ? E qual o valor de α + β ?

6.2. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oria X ∼N (µ, 1). Queremos testar H 0 : µ = 0 versus H 1 : µ = 1. Encontre n queproduz o teste mais poderoso com α = β = 0 , 05.

6.3. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oria X comfuncao de densidade dada por

f (x|θ) = θxθ

−1, 0 < x < 1 , θ > 0.

i) Mostre que o teste mais poderoso para testar H 0 : θ = 1 versus H 1 : θ = 2,rejeita H 0 , se e somente se, n

i=1 −logx i ≤a, onde a e uma constante.ii) Sendo n = 2 e α = (1 −log2)/ 2, qual a regi ao crıtica?

6.4. Seja X uma unica observa¸cao da fun cao de densidade

f (x|θ) = (2 θx + 1 −θ)I (0 ,1) (x)

Queremos testar H 0 : θ = 0 versus H 1 : θ = 1.i) Obtenha o teste mais poderoso com nıvel de signicˆ ancia α .ii) Se α = 0 , 05 e x = 0 , 8, qual a sua conclus ao?

6.5. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oria X ∼Poisson (θ).i) Encontre o teste UMP para testar H 0 : θ = θ0 versus H 1 : θ > θ 0 .ii) Seja α = 0 , 05, faca o graco da fun cao poder para θ0 = 1 e n = 25 (use oTeorema do limite central).

6.6. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oria X ∼N (µX , 1) e sejam Y 1 , . . . , Y m uma amostra aleat´ oria da vari avel aleat oriaY ∼N (µY , 4) sendo as amostras independentes.i) Determine o teste mais poderoso para testar

H 0 : µX = µY = 0 versus H 1 : µX = µY = 1

ii) Sendo n = 9, x i = 3 , 95; m = 4; yi = 2 , 03. Qual a sua conclus˜ao aonıvel de signic ancia de 5%? E qual o poder do teste?

6.7. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oria X comf.d.p. dada por




f (x

|θ) =

1

θx(1−θ ) /θ , 0 < x < 1, θ > 0.

Queremos testar H 0 : θ ≤θ0 versus H 1 : θ > θ 0 .i) Encontre o teste UMP de nıvel α (se existir).ii) Se n = 2, θ0 = 1 e α = 0 , 05, encontre a regi˜ao crıtica.

6.8. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oria X ∼N (0, σ2).i) Encontre o teste UMP para testar H 0 : σ2 = σ2

0 versus H 1 : σ2 > σ 20 .

ii) Seja α = 0 , 05, n = 9 e σ20 = 9, fa ca o graco da fun cao poder.

6.9. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oria X ∼exp(θ).i) Encontre o teste da raz˜ ao de verossimilhan¸cas generalizada para testar

H 0 : θ = 1 versus H 1 : θ = 1 .

ii) Se voce observar n = 5; x1 = 0 , 8; x2 = 1 , 3; x3 = 1 , 8; x4 = 0 , 9 e x5 = 1 , 0,qual a sua decis ao ao nıvel de 5%?

6.10. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oria X ∼N (µX , 9) e seja Y 1 , . . . , Y m uma amostra aleat´ oria da vari avel aleat oria Y ∼N (µY , 25), sendo as amostras independentes.i) Determine o teste da RVG para testar

H 0 : µX = µY versus H 1 : µX = µY

ii) Sendo n = 9, x i = 3 , 4, m = 16, yi = 4 , 3. Qual a sua conclus˜ao a umnıvel de signic ancia de 5%?

6.11. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oria X ∼Poisson (θ1) e sejam Y 1 , . . . , Y m uma amostra aleat´ oria da vari avel aleat oriaY ∼Poisson (θ2) sendo as amostras independentes.i) Encontre o teste da RVG(aproximado) para testar H 0 : θ1 = θ2 versus H 1 :θ1 = θ2 .ii) Sendo n = 5, xi = 3 , 8; m = 8; yi = 4 , 8, qual a sua conclus ao a umnıvel de signic ancia de 5%?

6.12. Sejam X 1 , . . . , X n uma amostra aleat´ oria da vari avel aleat oria X ∼exp(θ1 ) e sejam Y 1 , . . . , Y n uma amostra aleat´ oria da vari avel aleat oria Y ∼exp(θ2 ), sendo as amostras independentes.i) Determine o teste mais poderoso para testar

H 0 : θ1 = θ2 = 1 versus H 1 : θ1 = θ2 = 2 .

ii) Verique se seu teste e UMP para testar



6.7 Exercıcios 117

H 0 : θ1 = θ2 = 1 versus H 1 : θ1 = θ2 > 1.

iii) Se voce observar n = 5, x = 1 , 1; y = 0 , 8, qual a sua decis ao ao nıvel de5%?iv) Determine o teste da RVG para testar H 0 : θ1 = θ2 versus H 1 : θ1 = θ2 .v) Mostre que o teste acima e equivalente a um teste F exato.

6.13. Discuta a obten¸cao dos estimadores de máxima verossimilhan¸ca dadosem (6.5.5). Suponha que em uma popula¸ cao com tres tipos de indivıduos, temospara uma amostra de n = 100 indivıduos, n1 = 26 do tipo 1, n2 = 47 do tipo2 e n3 = 27 do tipo 3. Verique ao nıvel de 5% se a distribui¸ cao dos tipos deindivıduos na popula¸ cao segue o equilıbrio de Hardy-Weinberg.

6.14. Discuta a implementa¸ cao de um procedimento (teste) para vericar se

um dado e equilibrado, ou seja, para testar H 0 : θ1 = . . . = θ6 sendo que nlan camentos do dado apresenta n i ocorrencia da face i, i = 1 , . . . , 6. Sendon = 120, n1 = 23, n2 = 18, n3 = 15, n4 = 21, n5 = 27 e n6 = 16, qual suadecisao ao nıvel de 5%?

6.15. Um modelo genetico para a distribui¸ cao dos tipos de sangue 1, 2, 3 e 4,especica as propor¸coes θ1 = p(1; θ) = (2 + θ)/ 4, θ2 = p(2; θ) = (1 −θ)/ 4 =θ3 = p(3; θ) e θ4 = p(4; θ) = θ/ 4. Uma amostra de n = 100 indivıduos dapopula cao apresenta n1 = 65, n2 = 6, n3 = 8 e n4 = 21. Verique se os dadosobtidos suportam o modelo genetico acima para a distribui¸ cao dos tipos desangue na popula¸cao de onde foi selecionada a amostra.

6.16. Desenvolva o teste da razão de verossimilhan¸cas generalizada para testar

H 0 : β = β 0 versus H 1 : β = β 0 no modelo de regress ao descrito no Exercıcio2.12.

6.17. O teste t pareado. Sejam ( X 1 , Y 1), . . . , (X n , Y n ) uma amostra aleat´ oriada vari avel aleat oria bidimensional ( X, Y ) com distribui¸cao normal bivariadacomo dada no Exemplo 2.4.4. Mostre que para testar H 0 : µx = µy versusH 1 : µx = µy , o teste da razão de verossimilhan¸cas generalizado apresentaregiao crıtica dada por

A∗= {d ;√n |d|

S d> c },

onde d = ni=1 di /n e S 2d = n

i=1 (di −d)2 / (n −1).



Referencias

1. BICKEL, P.J. e DOKSUM, K.A. (1977). Mathematical Statistical. Basic Ideasand Selected Topics. Holden-Day.

2. BUSSAB, W.O. e MORETTIN, P.A. (1987). Estatıstica B asica. Sao Paulo: Atual.3. DEGROOT, M.H. (1989). Probability and Statistics. New York: Addison-Wesley.4. FELLER, W. (1976). Probabilidades. Sao Paulo: Edgard Bl¨ ucher.5. JAMES, B.R. (1981). Probabilidade: Um Curso em Nıvel Intermedi´ ario. Rio de

Janeiro: Livro Tecnico.6. LEHMANN, E.L. (1986). Testing Statistical Hypotheses. Wiley: New York.7. SEN, P.K. e SINGER, J.M. (1993). Large Sample Methods in Statistics. An In-

troduction with Applications. Chapman and Hall.



120 Referencias

Download - BOLFARINE SANDOVAL Introducao a Infer en CIA a

Top Related