bootstrap e jackknifecristianocs/metcomput/aula8.pdf · bootstrap e jackknife...

83
Bootstrap e jackknife Cristiano de Carvalho Santos [email protected] Departamento de Estatística, Universidade Federal de Minas Gerais (UFMG)

Upload: others

Post on 27-Mar-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Bootstrap e jackknifeCristiano de Carvalho [email protected]

Departamento de Estatística,Universidade Federal de Minas Gerais (UFMG)

Page 2: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Introdução

I O bootstrap foi introduzido por Efron em 1979, com maisdesenvolvimentos nos anos seguintes.

I Métodos bootstrap são uma classe métodos Monte Carlo queestimam a distribuição de uma população por reamostragem esão frequentemente utilizados quando a distribuição dapopulação alvo não é especificada e a amostra é a únicainformação disponível.

I Eforon deu o nome bootstrap porque ao usar o método pareceestar puxando-se por seu próprio bootstrap.

Page 3: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

I Métodos de reamostragem tratam uma amostra observadacomo uma população finita e amostras aleatórias são geradasdela para estimar características populacionais e fazerinferência sobre a população amostrada.

I Métodos Monte Carlo que envolvem amostragem de umadistribuição de probabilidade completamente especificada sãoalgumas vezes chamados de bootstrap paramétrico.

Page 4: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Ideia do bootstrap

I A distribuição da população finita representada pela amostrapode ser considerada como uma pseudo-população comcaracterísticas semelhantes à da população verdadeira.

I Ao gerar repetidamente amostras aleatórias a partir dessapseudo-população (reamostragem), a distribuição amostral deuma estatística pode ser estimada.

I Logo, propriedades de um estimador, como viés ou erropadrão, podem ser estimadas.

Page 5: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

As estimativas de Bootstrap de uma distribuição de amostragemsão análogas à ideia de estimativa de densidade:

I Um histograma não é a densidade, mas em um problema nãoparamétrico, pode ser visto como uma estimativa razoável dafunção de densidade.

I Temos métodos para gerar amostras aleatórias a partir dedensidades completamente especificadas; bootstrap geraamostras aleatórias a partir da distribuição empírica daamostra.

Page 6: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Suponha que x = (x1, . . . , xn)T ∈ Rn é uma amostra aleatóriaobservada de uma distribuição com fda F (x). Se X∗ é selecionadoaleatoriamente de x, então

P (X∗ = xi) = 1n, i = 1, . . . , n.

I Reamostragem gera uma amostra aleatória X∗1 , . . . , X∗n poramostrar com reposição de x, logo X∗ são iid comdistribuição Uniforme no conjunto {x1, . . . , xn}.

I A fda empírica Fn(x) é um estimador de F (x) e também é afda de X∗, pois reamostrar de x é equivalente a gerar dadistribuição Fn(x).

Page 7: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Seja θ = g(Fn) o valor do parâmetro quando Fn é a distribuição,θ = s(x) uma estimativa de θ = g(F ) obtida com a amostraobservada e θ∗ uma estimativa obtida com uma amostra bootstrapx∗.

Obs.: Frequentemente θ e θ são iguais, mas podem ser diferentes.Por exemplo, se θ for a média aparada dos dados e θ for a médiada distribuição Fn.

Métodos bootstrap fazem um ou outra das grandes suposições aseguir:A - A fda empírica Fn é uma boa aproximação da fda FX , então a

distribuição de θ∗ é similar a distribuição de θ.

B - A distribuição de θ∗ − θ é similar a distribuição de θ − θ.

Page 8: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

I Em ambos os pressupostos, a tarefa de fazer inferências sobreθ se reduz a aprender sobre a distribuição bootstrap de θ∗.

I Às vezes, os aspectos relevantes da distribuição de bootstrappodem ser determinados matematicamente, mas, na maioriados problemas não-triviais, a distribuição deve ser estimadausando métodos Monte Carlo.

Page 9: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

A estimativa bootstrap da distribuição de θ é obtido por:

1. Para cada réplica bootstrap, indexada por b = 1, . . . , B:a) Gere uma amostra

x∗(b) = (x∗1, . . . , x∗n)T

por amostrar com reposição da amostra observadax = (x1, . . . , xn)T ∈ Rn.

b) Calcule θ(b) com a b-ésima amostra bootstrap.

2. A estimativa bootstrap de Fθ é dada pela distribuição empíricade θ(1), . . . , θ(B).

Page 10: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Estimação do erro padrão

A estimativa bootstrap do erro padrão de um estimador θ é odesvio padrão amostral das réplicas bootstrap θ(1), . . . , θ(B). Isto é,

se(θ) =

√√√√ 1B − 1

B∑b=1

[θ(b) − θ

]2,

em que θ = 1B

B∑b=1

θ(b).

Obs: De acordo com Efron e Tibshirani, o número de réplicasnecessárias para boas estimativas do erro padrão não é grande,B = 50 é suficiente usualmente e raramente temos B > 200.

Page 11: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

ExemploO conjunto de dados da escola de direito no pacote bootstrap é deEfron e Tibshirani. O quadro de dados contém LSAT (pontuaçãomédia na pontuação do teste de admissão na faculdade de direito)e GPA (nota média na metade da graduação) para 15 escolas dedireito.

LSAT 576 635 558 578 666 580 555 661 651 605 653 575 545 572 594GPA 339 330 281 303 344 307 300 343 336 313 312 274 276 288 296

I Este conjunto de dados é uma amostra aleatória do universode 82 faculdades de direito (law82 - bootstrap).

I O objetivo é estimar a correlação entre as pontuações LSAT eGPA e calcular a estimativa de bootstrap do erro padrão dacorrelação da amostra.

Page 12: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Estimação do viés

O viés de um estimador θ para θ é

V iés(θ) = EF [θ − θ] = EF [s(X)]− g(F ),

Uma estimativa bootstrap do víes é obtida ao substituir F por Fn eassim

V iés(θ) = EFn [s(X∗)]− g(Fn) = θ − θ,

em que θ = 1B

B∑b=1

θ(b).

Page 13: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Exemplo

Os dados de Efron e Tibshirani contêm medidas de um certohormônio na corrente sanguínea de oito indivíduos após o uso deum adesivo médico. O parâmetro de interesse é

θ = E(new)− E(old)E(old)− E(placebo) .

Se |θ| ≤ 0, 2, isso indica bioequivalência dos adesivos antigo enovo. A estatística é Y /Z.

Desejamos calcular uma estimativa bootstrap de viés na estatísticade razão de bioequivalência.

Page 14: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal
Page 15: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Jackknife

I É um método de reamostragem proposto porQuenouille(1949) como uma técnica para redução de viés epor Tukey para estimar o erro padrão.

I No Jackknife, como em um tipo de validação cruzada, sãoconsideradas subamostras em que cada xi é omitido.

Page 16: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Seja x = (x1, . . . , xn)T ∈ Rn é uma amostra aleatória observadade uma distribuição com fda F (x).

Definimos x[−i] = (x1, . . . , xi−1, xi+1, . . . , xn)T o subconjunto de xsem a i-ésima observação.

Seja θ = Tn(x) e θ[−i] = Tn(x[−i]), i = 1, . . . , n.

Suponha queI O parâmetro θ = g(F ) é uma função da distribuição F ;I Fn é a fda empírica de uma amostra aleatória de F ;I A estimativa “plug-in” de θ é θ = g(Fn).I Um “plug-in” θ é suave no sentido que pequenas mudanças

nos dados correspondem a pequenas mudanças em θ.

Page 17: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Jackknife para estimar viésSe θ é uma estatística suave, então θ[−i] = g(Fn−1(x[−i])) e aestimativa jackknife do viés é dada por

V iésjack(θ) = (n− 1)(θ[.] − θ),

em que θ[.] = 1n

∑ni=1 θ[−i] é a média das estimativas obtidas com as

amostras com uma observação retirada.

O fator n− 1 aparece para obter estimador jackknife não viesadopara o viés do estimador plug-in da variância populacional.

Então, um estimador jackknife é dado por

θJ = nθ − n− 1n

n∑i=1

θ[−i].

Page 18: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Jackknife para estimar erro padrão

Uma estimativa jackknife do erro padrão é

sejack(θ) =√√√√n− 1

n

n∑i=1

(θ[−i] − θ[.]

)2,

para estatísticas suaves θ.

O fator n−1n

faz com que sejack seja um estimador não viciado doerro padrão da média.

Page 19: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Exemplo

Continuação do exemplo dos adesivos com hormônio e exemplocom a mediana no script!

Page 20: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Intervalos de confiança bootstrap

Existem várias abordagens para obter intervalos de confiançaaproximados para o parâmetro de interesse. Entre eles, osintervalos de confiança:I bootstrap normal padrão;

I bootstrap básico;

I bootstrap percentílico;

I bootstrap t.

Page 21: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

O intervalo de confiança bootstrap normal padrão

Este intervalo de confiança possui uma abordagem simples, masnão necessariamente a melhor.

Se θ é uma média amostral e o tamanho amostral é grande, entãoo Teorema Central do Limite implica que

Z = θ − E[θ]se(θ)

é aproximadamente normal padrão.

Page 22: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Logo, se θ é um estimador não viesado para θ, um intervalo deconfiança 100(1− α)% para θ é o intervalo

θ ± zα/2se(θ),

em que zα/2 = Φ−1(1− α/2).

Este intervalo é simples, mas faz muitas suposições:I A distribuição de θ é normal ou θ é a média amostral e o

tamanho amostral é grande.

I θ é um estimador não viciado de θ. O viés pode ser estimadoe usado para centrar a distribuição de Z, mas o estimador éuma variável aleatória e a variável transformada não temdistribuição Normal.

I se(θ) é tratado como conhecido, mas é estimado.

Page 23: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

O intervalo de confiança bootstrap básico

Este intervalo transforma a distribuição das réplicas do estimadorpor subtrair o valor observado da estatística.

Suponha que T é um estimador de θ e aα tal que

P (T − θ > aα) = 1− α→ P (T − aα > θ) = 1− α.

Disso, o intervalo de confiança 100(1− 2α)% é

(t− a1−α, t− aα).

O percentil de ordem α de θ∗ − θ pode ser estimado porbα = θα − θ.

Page 24: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

O limite superior do intervalo aproximado é dado por

θ − bα = θ − (θα − θ) = 2θ − θα/2

e, similarmente, o limite inferior do intervalo é dado por2θ − θ1−α/2.

Então, o intervalo de confiança 100(1− α)% é dado por

(2θ − θ1−α/2, 2θ − θα/2).

Page 25: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

O intervalo de confiança bootstrap percentílico

I Esta abordagem utiliza a distribuição empírica das réplicasbootstrap como a distribuição de referência.

Suponha que θ(1), . . . , θ(B) são as réplicas bootstrap da estatísticaθ.

O intervalo é dado por

(θα/2, θ1−α/2),

em que θα/2 é o percentil empírico calculado com a amostraθ(1), . . . , θ(B).

Page 26: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

O intervalo de confiança bootstrap t

O bootstrap t não usa distribuição t-Student como referência, masusa a distribuição amostral de uma estatística (studentized) geradapor reamostragem.

O intervalo é dado por

(θ − t∗1−α/2se(θ), θ − t∗α/2se(θ)),

em que se(θ), t∗1−α/2 e t∗α/2 são calculados como a seguir.

Page 27: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

1. Calcule a estatística observada θ.

2. Para cada réplica, indexada por b = 1, . . . , B:a) Gere uma amostra

x∗(b) = (x∗1, . . . , x∗n)T

por amostrar com reposição da amostra observadax = (x1, . . . , xn)T ∈ Rn.

b) Calcule θ(b) com a b-ésima amostra bootstrap.

c) Calcule ou estime o erro padrão se(θ(b)). (Uma estimativabootstrap por reamostrar da amostra atual x(b)).

d) Calcule t(b) = θ(b)−θse(θ(b)) .

Page 28: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

3. Encontre os quantis t∗1−α/2 e t∗α/2 da amostra ordenada de t(b).

4. Calcule se(θ) dado pelo desvio padrão das réplicas θ(b).

5. Calcule os limites de confiança dados por

(θ − t∗1−α/2se(θ), θ − t∗α/2se(θ)).

Uma desvantagem desta abordagem é fazer um bootstrappara cada réplica b com o intuito de estimar se(θ(b)). Ouseja, são B bootstraps dentro de um bootstrap!

Page 29: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Exemplo

Comparação dos intervalos de confiança para a correlação nosdados da faculdade de direito.

Page 30: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Melhores intervalos de confiança bootstrap

I O melhor intervalo de confiança do bootstrap é chamado BCapara “viés corrigido” e “ajustado para aceleração”.

I Intervalos BCa são uma versão modificada de intervalospercentuais que têm melhores propriedades teóricas e melhordesempenho na prática.

I Para um intervalo de confiança de 100(1− α)%, os quantishabituais α/2 e 1− α/2 são ajustados por dois fatores: umacorreção para viés e uma correção para assimetria.

I A correção de viés é denotada z0 e o ajuste de assimetria ou“aceleração” é dado por a.

Page 31: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Um intervalo bootstrap BCa de confiança de 100(1− α)% écalculado por

α1 = Φ−1(z0 + z0 + zα/2

1− a(z0 + zα/2)

),

α2 = Φ−1(z0 + z0 + z1−α/2

1− a(z0 + z1−α/2)

),

em que zα = Φ−1(α),

z0 = Φ−1(

1B

B∑b=1

I{θ(b) < θ})

e a =∑ni=1(θ[.] − θ[−i])3

6(∑ni=1(θ[.] − θ[−i])2)3/2

.

Page 32: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Os limites sãos quantis empíricos das réplicas bootstrap e ointervalo BCa é

(θα1 , θα2).

Exemplo: Aplicação da metodologia no problema debioequivalência no script.

Page 33: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Estruturas mais gerais de dados

I No mundo real, um mecanismo de probabilidade desconhecidoP fornece um conjunto de dados x observado.

I Em aplicações específicas, precisamos definir a regra deconstrução dos dados com mais cuidado. O conjunto de dadosx pode não ser mais um único vetor. Ele tem uma formadependente da estrutura de dados, por exemplo, x = (z,y)no problema de duas amostras.

Page 34: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal
Page 35: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Dois problemas práticos surgem:

(1) Precisamos estimar todo o mecanismo de probabilidade P apartir dos dados observados x. É fácil de fazer para a maioriadas estruturas de dados familiares. Nenhuma prescrição geralé possível, mas soluções ad hoc bastante naturais estãodisponíveis.

(2) Precisamos simular os dados de bootstrap de P de acordo coma estrutura de dados relevante. Este passo é conceitualmentedireto, mas pode requerer algum cuidado na programação se aeficiência computacional for necessária.

Page 36: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Modelos de Regressão

O conjunto de dados x para um modelo de regressão linearconsiste de n pontos

x1, . . . ,xn,

em que xi = (ci, yi), tal que ci = (ci1, . . . , cip) é um vetor decovariáveis, enquanto que yi é a variável resposta.

A suposição chave do modelo linear é que

µi = E[Yi|ci] = ciβ =p∑j=1

cijβj.

O vetor de parâmetros β = (β1, . . . , βp)T é desconhecido e objetivousual a análise de regressão é fazer inferência sobre β a partir dosdados observados.

Page 37: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

A estrutura de probabilidade do modelo linear é usualmenteexpressa como

yi = ciβ + εi, para i = 1, 2, . . . , n.

Assumimos que os temos de erro εi são uma amostra aleatória deuma distribuição desconhecida F com esperança 0, isto é,

F → (ε1, . . . , εn) (E[εi] = 0).

Note queE[Yi|ci] = E[ciβ + εi|ci] = ciβ,

em que usamos o fato de que E[εi|ci] = E[εi] = 0, dado que εi éselecionado independentemente de ci.

Page 38: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Definimos o erro quadrático residual por

RSE(b) =n∑i=1

(yi − cib)2.

A estimativa de mínimos quadrados de β é o valor que minimizaRSE(b).

Seja C com a i-ésima linha sendo ci e seja y o vetor (y1, . . . , yn)T .Então a estimativa de mínimos quadrados é dada pela solução de

CTCβ = CTy

que é dada porβ = (CTC)−1CTy.

Page 39: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

O erro padrão de βj é dado por

se(βj) = σF√Gjj,

em que Gjj é o j-ésimo elemento da diagonal da matriz inversaG−1, tal que G = CTC e σ2

F = V arF (ε).

Na prática, σ2F é estimado por

σ2F =

n∑i=1

(yi − ciβ)2/n = RSE(β)/n,

ou pela versão com viés corrigido dada por

σ2F =

n∑i=1

(yi − ciβ)2/(n− p) = RSE(β)/(n− p).

Page 40: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Os correspondentes erros padrão estimados para os componentesde β são

se(βj) = σF√Gjj ou se(βj) = σF

√Gjj.

Page 41: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Aplicação do bootstrap

I Nenhum dos cálculos até agora requer o bootstrap.

I No entanto, uma análise de bootstrap para o modelo deregressão linear pode ser útil para assegurar que o bootstrapestá dando respostas razoáveis.

I Podemos aplicar o bootstrap a modelos de regressão maisgerais que não têm solução matemática: onde a função deregressão é não linear nos parâmetros β, e onde usamosmétodos de ajuste diferentes de mínimos quadrados.

Page 42: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

O modelo de probabilidade P → x para regressão linear tem duascomponentes,

P = (β, F ),

em que F é a distribuição de probabilidade dos termos de erro.

Temos disponível β, mas como podemos estimar F?

Se β é conhecido, sabemos que εi = yi − ciβ para i = 1, . . . , n.Então podemos calcular uma aproximação para os erros

εi = yi − ciβ, para i = 1, . . . , n.

A estimativa para F é a distribuição empírica de εi dada por

F : probabilidade 1/n de sair εi, i = 1, . . . , n.

Page 43: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Com P = (β, F ), sabemos como gerar os conjuntos de dadosbootstrap para o modelo de regressão linear: P → x∗.Para gerar x∗, primeiro selecionamos uma amostra bootstrap doserros aleatórios,

F → (ε∗i , . . . , ε∗n) = ε∗.

Então, as respostas bootstrap y∗i são geradas de acordo com

y∗i = ciβ + ε∗i , para i = 1, . . . , n.

A estimativa de mínimos quadrados bootstrap é dada por

β∗ = (CTC)−1CTy∗.

Page 44: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Neste caso, não precisamos de simulações de Monte Carlo paradescobrir erros padrão de bootstrap,

V ar(β∗) = (CTC)−1V ar(y∗)C(CTC)−1

= σ2F (CTC)−1,

dado que V ar(y∗) = σ2FI em que I é a matriz identidade. Então,

se∞(βj) = seF (β∗j ) = σF√Gjj,

em que ∞ acima representa B =∞.

Em outras palavras, a estimativa bootstrap do erro padrãopara βj é igual a estimativa usual!

Page 45: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Bootstrap dos pares vs bootstrap dos resíduosExistem dois diferentes caminha para implementar um bootstrappara o modelo de regressão:1. O método dos pares considera xi = (ci, yi) de modo que um

conjunto de dados de bootstrap x∗ é da forma

x∗ = {(ci1 , yi1), . . . , (cin , yin)}

para i1, . . . , in sendo uma amostra aleatória dos inteiros de 1 an.

2. O método apresentado anteriormente pode ser chamado debootstrap dos resíduos. Ele produz conjuntos de dados daforma

x∗ = {(c1, c1β + εi1), . . . , (cn, cnβ + εin)}.

Page 46: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Qual método de bootstrap é melhor?

A resposta depende de até que ponto acreditamos no modelo deregressão linear. Esse modelo assume que os erros tem a mesmadistribuição F para qualquer valor de ci. Esta suposição podefalhar mesmo se a esperança µi = ciβ esteja correta.

1. O bootstrap dos pares é menos sensível as suposições domodelo. A estimativa de erro padrão obtida por bootstrap dospares dá respostas razoáveis, mesmo que as suposições domodelo de regressão estejam completamente erradas.

I A única suposição por trás deste bootstrap é que os paresoriginais xi = (ci, yi) foram amostrados aleatoriamente apartir de alguma distribuição F , onde F é uma distribuiçãoem vetores (c, y) com dimensão (p+ 1).

Page 47: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

I Mesmo que as suposições do modelo de regressão estejamcorretas, não é um desastre. Pode-se mostrar que asestimativas obtidas por esse método se aproximam daquelasdadas pelo bootstrap dos resíduos quando o número de paresn se torna grande.

2. O argumento inverso também pode ser feito. O modelo deregressão não precisa se manter perfeito para que os resíduospossam dar resultados razoáveis. Além disso, as diferenças nasdistribuições de erro podem ser incorporadas no modelo,levando a uma versão mais apropriada dos resíduos debootstrap.

Ponto importante: O bootstrap pode ser implementado demaneiras diferentes para o mesmo problema, dependendo de comoo modelo de probabilidade é interpretado.

Page 48: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Exemplo: Os dados de sobrevivência de células

Um radiologista realizou um experimento envolvendo 14 placasbacterianas. As placas foram expostas a várias doses de radiação ea proporção das células sobreviventes foi medida. Doses maioreslevam a menores proporções de sobrevivência, como seria de seesperar. O ponto de interrogação após a resposta para a placa 13reflete alguma incerteza nesse resultado expresso pelo investigador.

Page 49: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal
Page 50: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

O investigador estava interessado em uma análise de regressão,com variável preditora

dosei = zi i = 1, 2, . . . , 14

e variável resposta

log (proporção de sobrevivênciai) = yi i = 1, 2, . . . , 14.

Page 51: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Dois modelos teóricos diferentes de dano por radiação estavamdisponíveis, um dos quais previa uma regressão linear,

µi = E[yi|zi] = β1zi,

e outro com regressão quadrática,

µi = E[yi|zi] = β1zi + β2z2i .

Não existe intercepto por que era conhecido que com uma dosezero a proporção de sobrevivência era 1, logo y = log 1 = 0.

Page 52: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

SejaMSR(b) = median(yi − cib)2.

A estimativa de minima mediana dos quadrados da regressão(LMS) para β é o valor que minimiza MSR(b), isto é,

MSR(β) = minb

(MSR(b)).

Page 53: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Os erros padrão foram obtidos pelos métodos bootstrap.I Os erros padrão na linha 3 são baseados em bootstrap dos

pares com B = 400 replicações.I As covariáveis nos dados de sobrevivência celular foram

números fixos, estabelecidos pelo investigador: ela escolheu asdoses

1.175, 1.175, 2.35, . . . , 14.100

para ter um bom experimento para discriminar entre osmodelos de sobrevivência de radiação linear e quadrática. Issotorna o bootstrap dos resíduos mais interessante.

Page 54: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal
Page 55: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Olhando para a Figura, podemos ver que a resposta yi é maisdispersa para valores maiores de z. Como um modeloaproximadamente apropriado, assumiremos que os erros do modelolinear aumentam linearmente com a dose z. Isso equivale a

yi = ciβ + ziεi para i = 1, . . . , 14.

O vetor β foi estimado pelo LMS como β = (−0.83, 0.0114).Então F foi estimada por F , a distribuição empírica dasquantidades

(yi − ciβ)/zi, para i = 1, . . . , 14.

A linha 4 da Tabela 9.5 relata erros padrão de bootstrap para asestimativas de LMS obtidos com B = 200 replicações de bootstrap,utilizando o bootstrap dos resíduos.

Page 56: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Bootstrap paramétrico

I De fato, a amostragem de bootstrap pode ser realizada deforma paramétrica.

Quando os dados são modelados por uma distribuição paramétrica,isto é,

X1, . . . ,Xniid∼ F (x,θ),

uma outra estimativa de F pode ser obtida.

Suponha que os dados observados são usados para estimar θ por θ.No bootstrap paramétrico, Cada pseudo banco de dados X∗ podeser gerado por amostrar tal que

X∗1, . . . ,X∗niid∼ F (x, θ).

Page 57: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

I Quando o modelo é conhecido ou acredita-se ser uma boarepresentação da realidade, o bootstrap paramétrico pode seruma ferramenta poderosa:I permitindo inferência em situações de outra forma intratáveis;I produzindo intervalos de confiança muito mais precisos do

que aqueles produzidos pela teoria assintótica padrão.

I É tentador usar um modelo conveniente, mas inadequado. Seo modelo não se encaixa bem no mecanismo que gera osdados, o bootstrap paramétrico pode levar a uma inferênciaerrônea.

I Há ocasiões que poucas outras ferramentas inferenciaisparecem viáveis.

Page 58: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Teste de hipóteses com o Bootstrap

I Os testes de bootstrap dão resultados semelhantes aos testesde permutação quando ambos estão disponíveis.

I Os testes de bootstrap são mais amplamente aplicáveis,embora menos precisos.

Page 59: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

O problema de duas amostras

Observamos duas amostras aleatórias independentes z e y depossivelmente duas diferentes distribuições de probabilidade F e G,

F → z = (z1, . . . , zn) independente deG → y = (y1, . . . , ym)

e desejamos testar a hipótese nula

H0 : F = G.

Page 60: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Um teste de hipóteses é baseado em uma estatística de teste t(x).Podemos considerar, por exemplo, t(x) = z − y.

Podemos decidir sobre as hipóteses a partir de

p-valor = PH0(|t(x∗)| ≥ |t(x)|).

A quantidade t(x) é o valor observado e a variável aleatória x∗ temuma distribuição especificada pela hipótese nula H0, denotada porF0.

Page 61: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Denotamos por x a amostra combinada de z e y. A distribuiçãoempírica de x, denotada por F0, coloca probabilidade

1/(n+m)

para cada valor de x.

Sob H0, F0 fornece uma estimativa não-paramétrica da populaçãocomum que gerou z e y.

Page 62: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Testes mais precisos podem ser obtidos através do uso de umaestatística estudentizada. Podemos utilizar

t(x) = z − yσ√

1/n+ 1/m,

em que

σ =

n∑i=1

(zi − z)2 +m∑j=1

(yj − y)2

n+m− 2

1/2

.

Page 63: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Algoritmo1. Gere B amostras de tamanho n+m com reposição de x.

Para cada uma das amostras, denote as primeiras nobservações por z∗ e as m observações restantes por y∗.

2. Avalie t(·) em cada reamostra, isto é, t(x∗b).

3. Calcule

p-valorboot =B∑b=1

I{|t(x∗b)| ≥ |tobs|}/B,

em que tobs = t(x) é o valor observado da estatística de teste.

Page 64: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

O algoritmo acima testa a hipótese nula de que as duas populaçõessão idênticas, ou seja, F = G. E se quiséssemos testar apenas sesuas médias eram iguais?

Se não estivermos dispostos a assumir que as variâncias nas duaspopulações são iguais, poderíamos basear o teste em

t(x) = z − y√σ2

1/n+ σ22/m

,

em que

σ1 =n∑i=1

(zi − z)2/(n− 1) e σ2 =m∑j=1

(yj − y)2/(m− 1).

Page 65: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

I A suposição de variância igual é atraente para o teste t porquesimplifica a forma da distribuição da estatística de teste.

I Mas ao considerar um teste de hipótese de bootstrap paracomparar as duas médias, não há razão convincente paraassumir variações iguais e, portanto, não fazemos essasuposição.

Para prosseguir, precisamos de estimativas de F e G que utilizemapenas a suposição de uma média comum. Seja x a média daamostra combinada, podemos1. transladar ambas as amostras de modo que tenham a média x;2. reamostrar de cada população separadamente.

Page 66: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Algoritmo1. Faça F colocando igual probabilidade nos pontos

zi = zi − z + x,

para i = 1, . . . , n e G colocando igual probabilidade nospontos

yi = yi − y + x,

para i = 1, . . . ,m, em que z e y são as médias dos grupos e xé a média da amostra combinada.

2. Gere B conjuntos de dados (z∗,y∗) em que z∗ é amostradocom reposição de z1, . . . , zn e y∗ é amostrado com reposiçãode y1, . . . , ym.

Page 67: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

3. Para cada banco de dados calcule

t(x) = z∗ − y∗√σ∗21 /n+ σ∗22 /m

,

4. Calcule

p-valorboot =B∑b=1

I{|t(x∗b)| ≥ |tobs|}/B,

em que tobs = t(x) é o valor observado da estatística de teste.

Page 68: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Exemplo

Simulação no script!

Page 69: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

O problema com uma amostra

Suponha que observamos uma amostra z com distribuição deprobabilidade F , isto é

F → z = (z1, . . . , zn)

e desejamos testar a hipótese nula

H0 : µZ = µ0.

Um bootstrap pode ser utilizado considerando a estatística de teste

t(z) = z − µ0

σ/√n.

Page 70: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Qual a distribuição da estatística de teste sob H0?

I Necessitamos de uma distribuição F que estima dadistribuição F sob H0.

I Observe primeiro que a distribuição empírica Fn não éapropriada estimar para F porque não obedece a H0. Ou seja,a média de F não é igual ao valor nulo de µ0.

Page 71: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Uma maneira simples é transladar a distribuição empírica Fn paraque tenha a média desejada. Em outras palavras, usamos comonossa distribuição nula estimada a distribuição empírica nos valores

zi = zi − z + µ0, para i = 1, . . . , n.

Então, amostramosz∗1 , . . . , z

∗n

com reposição de z1, . . . , zn e para cada amostra bootstrapcalculamos a estatística

t(z∗) =¯z∗ − µ0¯σ∗/√n.

Logo,

p-valorboot =B∑b=1

I{|t(z∗b)| ≥ |tobs|}/B.

Page 72: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Existe uma maneira diferente, mas equivalente, de fazer umbootstrap no problema de uma amostra.

Amostramos com substituição dos dados originais (nãotransladados)

z1, . . . , zn

e calculamos a estatística

t(z∗) = z∗ − zσ∗/√n,

em que σ∗ é o desvio padrão da reamostra.

Page 73: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Esta estatística é igual a anterior pois

¯z∗ − µ0 = (z∗ − z + µ0)− µ0 = z∗ − z

e os desvios padrão também são iguais.

Page 74: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Exemplo

Simulação no script!

Page 75: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Testes de permutação

I Testes de permutação são baseados em reamostragem, mas asamostras são geradas sem reposição.

I Podem ser aplicados para realizar testes não paramétricos deigualdade de distribuições, independência, entre outros.

Page 76: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Igualdade de distribuições

Suponha duas amostras aleatórias independentes z e y depossivelmente duas diferentes distribuições de probabilidade F e G,

F → z = (z1, . . . , zn) independente deG → y = (y1, . . . , ym)

Seja x a amostra agrupada

x = (z1, . . . , zn, y1, . . . , yn),

que é indexada por

v = {1, . . . , n, n+ 1, . . . , n+m} = {1, . . . , N}.

Page 77: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Seja X∗ = (Z∗,Y ∗) representando uma partição da amostraagrupada X, em que Z∗ tem n elementos e Y ∗ tem m = N − nelementos.

Então, X∗ é uma permutação π dos inteiros v, em que z∗i = zπ(i).

O número de possíveis partições é igual a(Nn

)e sob

H0 : F = G,

uma amostra aleatória Z∗ tem probabilidade

1(Nn

) = n!m!N !

para quaisquer valores possíveis. Isto é, sob H0 todas aspermutações são igualmente prováveis.

Page 78: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

I Os grupos podem ser comparados de várias maneiras. Porexemplo, com médias amostrais, medianas ou médiasaparadas.

I Mais geralmente, pode-se perguntar se as distribuições dasduas variáveis diferem e comparar os grupos por qualquerestatística que mede a distância entre duas amostras.

Seθ(Z,Y ) = θ(X,v)

é uma estatística, então a distribuição de permutação de θ∗ é adistribuição de replicações

{θ∗} ={θ(X, πj(v)), j = 1, . . . ,

(N

n

)}.

Page 79: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Assim,

p-valor = P (|θ∗| ≥ |θ|) =(N

n

)−1 (Nn)∑j=1

I{|θ(j)| ≥ |θ|},

onde θ é o valor calculado com a amostra observada.

Obs: O p-valor pode ser calculado de maneira similar para um testeunilateral a esquerda ou bilateral.

I Na prática, a menos que o tamanho amostral seja muitopequeno, avaliar a estatística de teste para todas aspermutações é computacionalmente intensivo.

I Um teste de permutação aproximado é implementado aoamostrar aleatoriamente um grande número de amostras semreposição.

Page 80: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Algoritmo para teste de permutação aproximado1. Calcule o valor observado θ(Z,Y ) = θ(X,v) para a

estatística de teste.

2. Para cada réplica, indexada por b = 1, . . . , B:a) Gere uma permutação aleatória πb = π(v).b) Calcule a estatística θ(b) = θ(X, πb)

3. Se grandes valores de θ dão suporte a hipótese alternativa,calcule

p-valor =1 +∑B

j=1 I{θ(b) ≥ θ}B + 1 .

4. Rejeite H0 se p-valor ≤ α.

Page 81: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Exemplo

São registrados pesos em gramas, para seis grupos de pintinhosrecém-nascidos alimentados com suplementos diferentes. Existemseis tipos de suplementos alimentares. Sugere-se que os grupossoja e linhaça podem ser semelhantes. A distribuição de pesos paraesses dois grupos é comparada.

No script!

Page 82: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Teste de independência

Uma teste de independência de Z e Y dado por

H0 : FZY = FZFY vs H1 : FZY 6= FZFY

pode ser implementado como um teste de permutação?I Se X e Y estão correlacionados/associados, eles são

dependentesI A hipótese nula é H0 : ρ = 0 onde ρ = cor(Z, Y )I Diferentes definições de ρ medem diferentes tipos de

associação.

Como podemos usar um teste de permutação para responder a essapergunta?

Page 83: Bootstrap e jackknifecristianocs/MetComput/Aula8.pdf · Bootstrap e jackknife CristianodeCarvalhoSantos cristcarvalhosan@gmail.com Departamento de Estatística, Universidade Federal

Seja v = (v1, . . . , vn) o vetor de permutação que contém osinteiros {1, . . . , n} em alguma ordem. Esse vetor estará associadoa ordenação de yi.

Existem n! possíveis vetores v.

Se H0 : ρ = 0 é verdadeira, então reordenar yi não afetará acorrelação.

Sob H0, o vetor v em probabilidade 1/n! de assumir cada um dosn! possíveis resultados.

Para o teste de H0 : ρ = 0, temos que

p-valor =∑n!j=1 I{|ρ(j)| ≥ |ρ|}

n! .

Quando n! é muito grande utilizamos a aproximação Monte Carlo.