bootstrap e jackknifecristianocs/metcomput/aula8.pdf · bootstrap e jackknife...

Bootstrap e jackknifeCristiano de Carvalho [email protected]

Departamento de Estatística,Universidade Federal de Minas Gerais (UFMG)

Introdução

I O bootstrap foi introduzido por Efron em 1979, com maisdesenvolvimentos nos anos seguintes.

I Métodos bootstrap são uma classe métodos Monte Carlo queestimam a distribuição de uma população por reamostragem esão frequentemente utilizados quando a distribuição dapopulação alvo não é especificada e a amostra é a únicainformação disponível.

I Eforon deu o nome bootstrap porque ao usar o método pareceestar puxando-se por seu próprio bootstrap.

I Métodos de reamostragem tratam uma amostra observadacomo uma população finita e amostras aleatórias são geradasdela para estimar características populacionais e fazerinferência sobre a população amostrada.

I Métodos Monte Carlo que envolvem amostragem de umadistribuição de probabilidade completamente especificada sãoalgumas vezes chamados de bootstrap paramétrico.

Ideia do bootstrap

I A distribuição da população finita representada pela amostrapode ser considerada como uma pseudo-população comcaracterísticas semelhantes à da população verdadeira.

I Ao gerar repetidamente amostras aleatórias a partir dessapseudo-população (reamostragem), a distribuição amostral deuma estatística pode ser estimada.

I Logo, propriedades de um estimador, como viés ou erropadrão, podem ser estimadas.

As estimativas de Bootstrap de uma distribuição de amostragemsão análogas à ideia de estimativa de densidade:

I Um histograma não é a densidade, mas em um problema nãoparamétrico, pode ser visto como uma estimativa razoável dafunção de densidade.

I Temos métodos para gerar amostras aleatórias a partir dedensidades completamente especificadas; bootstrap geraamostras aleatórias a partir da distribuição empírica daamostra.

Suponha que x = (x1, . . . , xn)T ∈ Rn é uma amostra aleatóriaobservada de uma distribuição com fda F (x). Se X∗ é selecionadoaleatoriamente de x, então

P (X∗ = xi) = 1n, i = 1, . . . , n.

I Reamostragem gera uma amostra aleatória X∗1 , . . . , X∗n poramostrar com reposição de x, logo X∗ são iid comdistribuição Uniforme no conjunto {x1, . . . , xn}.

I A fda empírica Fn(x) é um estimador de F (x) e também é afda de X∗, pois reamostrar de x é equivalente a gerar dadistribuição Fn(x).

Seja θ = g(Fn) o valor do parâmetro quando Fn é a distribuição,θ = s(x) uma estimativa de θ = g(F ) obtida com a amostraobservada e θ∗ uma estimativa obtida com uma amostra bootstrapx∗.

Obs.: Frequentemente θ e θ são iguais, mas podem ser diferentes.Por exemplo, se θ for a média aparada dos dados e θ for a médiada distribuição Fn.

Métodos bootstrap fazem um ou outra das grandes suposições aseguir:A - A fda empírica Fn é uma boa aproximação da fda FX , então a

distribuição de θ∗ é similar a distribuição de θ.

B - A distribuição de θ∗ − θ é similar a distribuição de θ − θ.

I Em ambos os pressupostos, a tarefa de fazer inferências sobreθ se reduz a aprender sobre a distribuição bootstrap de θ∗.

I Às vezes, os aspectos relevantes da distribuição de bootstrappodem ser determinados matematicamente, mas, na maioriados problemas não-triviais, a distribuição deve ser estimadausando métodos Monte Carlo.

A estimativa bootstrap da distribuição de θ é obtido por:

1. Para cada réplica bootstrap, indexada por b = 1, . . . , B:a) Gere uma amostra

x∗(b) = (x∗1, . . . , x∗n)T

por amostrar com reposição da amostra observadax = (x1, . . . , xn)T ∈ Rn.

b) Calcule θ(b) com a b-ésima amostra bootstrap.

2. A estimativa bootstrap de Fθ é dada pela distribuição empíricade θ(1), . . . , θ(B).

Estimação do erro padrão

A estimativa bootstrap do erro padrão de um estimador θ é odesvio padrão amostral das réplicas bootstrap θ(1), . . . , θ(B). Isto é,

se(θ) =

√√√√ 1B − 1

B∑b=1

[θ(b) − θ

]2,

em que θ = 1B

B∑b=1

θ(b).

Obs: De acordo com Efron e Tibshirani, o número de réplicasnecessárias para boas estimativas do erro padrão não é grande,B = 50 é suficiente usualmente e raramente temos B > 200.

ExemploO conjunto de dados da escola de direito no pacote bootstrap é deEfron e Tibshirani. O quadro de dados contém LSAT (pontuaçãomédia na pontuação do teste de admissão na faculdade de direito)e GPA (nota média na metade da graduação) para 15 escolas dedireito.

LSAT 576 635 558 578 666 580 555 661 651 605 653 575 545 572 594GPA 339 330 281 303 344 307 300 343 336 313 312 274 276 288 296

I Este conjunto de dados é uma amostra aleatória do universode 82 faculdades de direito (law82 - bootstrap).

I O objetivo é estimar a correlação entre as pontuações LSAT eGPA e calcular a estimativa de bootstrap do erro padrão dacorrelação da amostra.

Estimação do viés

O viés de um estimador θ para θ é

V iés(θ) = EF [θ − θ] = EF [s(X)]− g(F ),

Uma estimativa bootstrap do víes é obtida ao substituir F por Fn eassim

V iés(θ) = EFn [s(X∗)]− g(Fn) = θ − θ,

em que θ = 1B

B∑b=1

θ(b).

Exemplo

Os dados de Efron e Tibshirani contêm medidas de um certohormônio na corrente sanguínea de oito indivíduos após o uso deum adesivo médico. O parâmetro de interesse é

θ = E(new)− E(old)E(old)− E(placebo) .

Se |θ| ≤ 0, 2, isso indica bioequivalência dos adesivos antigo enovo. A estatística é Y /Z.

Desejamos calcular uma estimativa bootstrap de viés na estatísticade razão de bioequivalência.

Jackknife

I É um método de reamostragem proposto porQuenouille(1949) como uma técnica para redução de viés epor Tukey para estimar o erro padrão.

I No Jackknife, como em um tipo de validação cruzada, sãoconsideradas subamostras em que cada xi é omitido.

Seja x = (x1, . . . , xn)T ∈ Rn é uma amostra aleatória observadade uma distribuição com fda F (x).

Definimos x[−i] = (x1, . . . , xi−1, xi+1, . . . , xn)T o subconjunto de xsem a i-ésima observação.

Seja θ = Tn(x) e θ[−i] = Tn(x[−i]), i = 1, . . . , n.

Suponha queI O parâmetro θ = g(F ) é uma função da distribuição F ;I Fn é a fda empírica de uma amostra aleatória de F ;I A estimativa “plug-in” de θ é θ = g(Fn).I Um “plug-in” θ é suave no sentido que pequenas mudanças

nos dados correspondem a pequenas mudanças em θ.

Jackknife para estimar viésSe θ é uma estatística suave, então θ[−i] = g(Fn−1(x[−i])) e aestimativa jackknife do viés é dada por

V iésjack(θ) = (n− 1)(θ[.] − θ),

em que θ[.] = 1n

∑ni=1 θ[−i] é a média das estimativas obtidas com as

amostras com uma observação retirada.

O fator n− 1 aparece para obter estimador jackknife não viesadopara o viés do estimador plug-in da variância populacional.

Então, um estimador jackknife é dado por

θJ = nθ − n− 1n

n∑i=1

θ[−i].

Jackknife para estimar erro padrão

Uma estimativa jackknife do erro padrão é

sejack(θ) =√√√√n− 1

n

n∑i=1

(θ[−i] − θ[.]

)2,

para estatísticas suaves θ.

O fator n−1n

faz com que sejack seja um estimador não viciado doerro padrão da média.

Exemplo

Continuação do exemplo dos adesivos com hormônio e exemplocom a mediana no script!

Intervalos de confiança bootstrap

Existem várias abordagens para obter intervalos de confiançaaproximados para o parâmetro de interesse. Entre eles, osintervalos de confiança:I bootstrap normal padrão;

I bootstrap básico;

I bootstrap percentílico;

I bootstrap t.

O intervalo de confiança bootstrap normal padrão

Este intervalo de confiança possui uma abordagem simples, masnão necessariamente a melhor.

Se θ é uma média amostral e o tamanho amostral é grande, entãoo Teorema Central do Limite implica que

Z = θ − E[θ]se(θ)

é aproximadamente normal padrão.

Logo, se θ é um estimador não viesado para θ, um intervalo deconfiança 100(1− α)% para θ é o intervalo

θ ± zα/2se(θ),

em que zα/2 = Φ−1(1− α/2).

Este intervalo é simples, mas faz muitas suposições:I A distribuição de θ é normal ou θ é a média amostral e o

tamanho amostral é grande.

I θ é um estimador não viciado de θ. O viés pode ser estimadoe usado para centrar a distribuição de Z, mas o estimador éuma variável aleatória e a variável transformada não temdistribuição Normal.

I se(θ) é tratado como conhecido, mas é estimado.

O intervalo de confiança bootstrap básico

Este intervalo transforma a distribuição das réplicas do estimadorpor subtrair o valor observado da estatística.

Suponha que T é um estimador de θ e aα tal que

P (T − θ > aα) = 1− α→ P (T − aα > θ) = 1− α.

Disso, o intervalo de confiança 100(1− 2α)% é

(t− a1−α, t− aα).

O percentil de ordem α de θ∗ − θ pode ser estimado porbα = θα − θ.

O limite superior do intervalo aproximado é dado por

θ − bα = θ − (θα − θ) = 2θ − θα/2

e, similarmente, o limite inferior do intervalo é dado por2θ − θ1−α/2.

Então, o intervalo de confiança 100(1− α)% é dado por

(2θ − θ1−α/2, 2θ − θα/2).

O intervalo de confiança bootstrap percentílico

I Esta abordagem utiliza a distribuição empírica das réplicasbootstrap como a distribuição de referência.

Suponha que θ(1), . . . , θ(B) são as réplicas bootstrap da estatísticaθ.

O intervalo é dado por

(θα/2, θ1−α/2),

em que θα/2 é o percentil empírico calculado com a amostraθ(1), . . . , θ(B).

O intervalo de confiança bootstrap t

O bootstrap t não usa distribuição t-Student como referência, masusa a distribuição amostral de uma estatística (studentized) geradapor reamostragem.

O intervalo é dado por

(θ − t∗1−α/2se(θ), θ − t∗α/2se(θ)),

em que se(θ), t∗1−α/2 e t∗α/2 são calculados como a seguir.

1. Calcule a estatística observada θ.

2. Para cada réplica, indexada por b = 1, . . . , B:a) Gere uma amostra

x∗(b) = (x∗1, . . . , x∗n)T

por amostrar com reposição da amostra observadax = (x1, . . . , xn)T ∈ Rn.

b) Calcule θ(b) com a b-ésima amostra bootstrap.

c) Calcule ou estime o erro padrão se(θ(b)). (Uma estimativabootstrap por reamostrar da amostra atual x(b)).

d) Calcule t(b) = θ(b)−θse(θ(b)) .

3. Encontre os quantis t∗1−α/2 e t∗α/2 da amostra ordenada de t(b).

4. Calcule se(θ) dado pelo desvio padrão das réplicas θ(b).

5. Calcule os limites de confiança dados por

(θ − t∗1−α/2se(θ), θ − t∗α/2se(θ)).

Uma desvantagem desta abordagem é fazer um bootstrappara cada réplica b com o intuito de estimar se(θ(b)). Ouseja, são B bootstraps dentro de um bootstrap!

Exemplo

Comparação dos intervalos de confiança para a correlação nosdados da faculdade de direito.

Melhores intervalos de confiança bootstrap

I O melhor intervalo de confiança do bootstrap é chamado BCapara “viés corrigido” e “ajustado para aceleração”.

I Intervalos BCa são uma versão modificada de intervalospercentuais que têm melhores propriedades teóricas e melhordesempenho na prática.

I Para um intervalo de confiança de 100(1− α)%, os quantishabituais α/2 e 1− α/2 são ajustados por dois fatores: umacorreção para viés e uma correção para assimetria.

I A correção de viés é denotada z0 e o ajuste de assimetria ou“aceleração” é dado por a.

Um intervalo bootstrap BCa de confiança de 100(1− α)% écalculado por

α1 = Φ−1(z0 + z0 + zα/2

1− a(z0 + zα/2)

),

α2 = Φ−1(z0 + z0 + z1−α/2

1− a(z0 + z1−α/2)

),

em que zα = Φ−1(α),

z0 = Φ−1(

1B

B∑b=1

I{θ(b) < θ})

e a =∑ni=1(θ[.] − θ[−i])3

6(∑ni=1(θ[.] − θ[−i])2)3/2

.

Os limites sãos quantis empíricos das réplicas bootstrap e ointervalo BCa é

(θα1 , θα2).

Exemplo: Aplicação da metodologia no problema debioequivalência no script.

Estruturas mais gerais de dados

I No mundo real, um mecanismo de probabilidade desconhecidoP fornece um conjunto de dados x observado.

I Em aplicações específicas, precisamos definir a regra deconstrução dos dados com mais cuidado. O conjunto de dadosx pode não ser mais um único vetor. Ele tem uma formadependente da estrutura de dados, por exemplo, x = (z,y)no problema de duas amostras.

Dois problemas práticos surgem:

(1) Precisamos estimar todo o mecanismo de probabilidade P apartir dos dados observados x. É fácil de fazer para a maioriadas estruturas de dados familiares. Nenhuma prescrição geralé possível, mas soluções ad hoc bastante naturais estãodisponíveis.

(2) Precisamos simular os dados de bootstrap de P de acordo coma estrutura de dados relevante. Este passo é conceitualmentedireto, mas pode requerer algum cuidado na programação se aeficiência computacional for necessária.

Modelos de Regressão

O conjunto de dados x para um modelo de regressão linearconsiste de n pontos

x1, . . . ,xn,

em que xi = (ci, yi), tal que ci = (ci1, . . . , cip) é um vetor decovariáveis, enquanto que yi é a variável resposta.

A suposição chave do modelo linear é que

µi = E[Yi|ci] = ciβ =p∑j=1

cijβj.

O vetor de parâmetros β = (β1, . . . , βp)T é desconhecido e objetivousual a análise de regressão é fazer inferência sobre β a partir dosdados observados.

A estrutura de probabilidade do modelo linear é usualmenteexpressa como

yi = ciβ + εi, para i = 1, 2, . . . , n.

Assumimos que os temos de erro εi são uma amostra aleatória deuma distribuição desconhecida F com esperança 0, isto é,

F → (ε1, . . . , εn) (E[εi] = 0).

Note queE[Yi|ci] = E[ciβ + εi|ci] = ciβ,

em que usamos o fato de que E[εi|ci] = E[εi] = 0, dado que εi éselecionado independentemente de ci.

Definimos o erro quadrático residual por

RSE(b) =n∑i=1

(yi − cib)2.

A estimativa de mínimos quadrados de β é o valor que minimizaRSE(b).

Seja C com a i-ésima linha sendo ci e seja y o vetor (y1, . . . , yn)T .Então a estimativa de mínimos quadrados é dada pela solução de

CTCβ = CTy

que é dada porβ = (CTC)−1CTy.

O erro padrão de βj é dado por

se(βj) = σF√Gjj,

em que Gjj é o j-ésimo elemento da diagonal da matriz inversaG−1, tal que G = CTC e σ2

F = V arF (ε).

Na prática, σ2F é estimado por

σ2F =

n∑i=1

(yi − ciβ)2/n = RSE(β)/n,

ou pela versão com viés corrigido dada por

σ2F =

n∑i=1

(yi − ciβ)2/(n− p) = RSE(β)/(n− p).

Os correspondentes erros padrão estimados para os componentesde β são

se(βj) = σF√Gjj ou se(βj) = σF

√Gjj.

Aplicação do bootstrap

I Nenhum dos cálculos até agora requer o bootstrap.

I No entanto, uma análise de bootstrap para o modelo deregressão linear pode ser útil para assegurar que o bootstrapestá dando respostas razoáveis.

I Podemos aplicar o bootstrap a modelos de regressão maisgerais que não têm solução matemática: onde a função deregressão é não linear nos parâmetros β, e onde usamosmétodos de ajuste diferentes de mínimos quadrados.

O modelo de probabilidade P → x para regressão linear tem duascomponentes,

P = (β, F ),

em que F é a distribuição de probabilidade dos termos de erro.

Temos disponível β, mas como podemos estimar F?

Se β é conhecido, sabemos que εi = yi − ciβ para i = 1, . . . , n.Então podemos calcular uma aproximação para os erros

εi = yi − ciβ, para i = 1, . . . , n.

A estimativa para F é a distribuição empírica de εi dada por

F : probabilidade 1/n de sair εi, i = 1, . . . , n.

Com P = (β, F ), sabemos como gerar os conjuntos de dadosbootstrap para o modelo de regressão linear: P → x∗.Para gerar x∗, primeiro selecionamos uma amostra bootstrap doserros aleatórios,

F → (ε∗i , . . . , ε∗n) = ε∗.

Então, as respostas bootstrap y∗i são geradas de acordo com

y∗i = ciβ + ε∗i , para i = 1, . . . , n.

A estimativa de mínimos quadrados bootstrap é dada por

β∗ = (CTC)−1CTy∗.

Neste caso, não precisamos de simulações de Monte Carlo paradescobrir erros padrão de bootstrap,

V ar(β∗) = (CTC)−1V ar(y∗)C(CTC)−1

= σ2F (CTC)−1,

dado que V ar(y∗) = σ2FI em que I é a matriz identidade. Então,

se∞(βj) = seF (β∗j ) = σF√Gjj,

em que ∞ acima representa B =∞.

Em outras palavras, a estimativa bootstrap do erro padrãopara βj é igual a estimativa usual!

Bootstrap dos pares vs bootstrap dos resíduosExistem dois diferentes caminha para implementar um bootstrappara o modelo de regressão:1. O método dos pares considera xi = (ci, yi) de modo que um

conjunto de dados de bootstrap x∗ é da forma

x∗ = {(ci1 , yi1), . . . , (cin , yin)}

para i1, . . . , in sendo uma amostra aleatória dos inteiros de 1 an.

2. O método apresentado anteriormente pode ser chamado debootstrap dos resíduos. Ele produz conjuntos de dados daforma

x∗ = {(c1, c1β + εi1), . . . , (cn, cnβ + εin)}.

Qual método de bootstrap é melhor?

A resposta depende de até que ponto acreditamos no modelo deregressão linear. Esse modelo assume que os erros tem a mesmadistribuição F para qualquer valor de ci. Esta suposição podefalhar mesmo se a esperança µi = ciβ esteja correta.

1. O bootstrap dos pares é menos sensível as suposições domodelo. A estimativa de erro padrão obtida por bootstrap dospares dá respostas razoáveis, mesmo que as suposições domodelo de regressão estejam completamente erradas.

I A única suposição por trás deste bootstrap é que os paresoriginais xi = (ci, yi) foram amostrados aleatoriamente apartir de alguma distribuição F , onde F é uma distribuiçãoem vetores (c, y) com dimensão (p+ 1).

I Mesmo que as suposições do modelo de regressão estejamcorretas, não é um desastre. Pode-se mostrar que asestimativas obtidas por esse método se aproximam daquelasdadas pelo bootstrap dos resíduos quando o número de paresn se torna grande.

2. O argumento inverso também pode ser feito. O modelo deregressão não precisa se manter perfeito para que os resíduospossam dar resultados razoáveis. Além disso, as diferenças nasdistribuições de erro podem ser incorporadas no modelo,levando a uma versão mais apropriada dos resíduos debootstrap.

Ponto importante: O bootstrap pode ser implementado demaneiras diferentes para o mesmo problema, dependendo de comoo modelo de probabilidade é interpretado.

Exemplo: Os dados de sobrevivência de células

Um radiologista realizou um experimento envolvendo 14 placasbacterianas. As placas foram expostas a várias doses de radiação ea proporção das células sobreviventes foi medida. Doses maioreslevam a menores proporções de sobrevivência, como seria de seesperar. O ponto de interrogação após a resposta para a placa 13reflete alguma incerteza nesse resultado expresso pelo investigador.

O investigador estava interessado em uma análise de regressão,com variável preditora

dosei = zi i = 1, 2, . . . , 14

e variável resposta

log (proporção de sobrevivênciai) = yi i = 1, 2, . . . , 14.

Dois modelos teóricos diferentes de dano por radiação estavamdisponíveis, um dos quais previa uma regressão linear,

µi = E[yi|zi] = β1zi,

e outro com regressão quadrática,

µi = E[yi|zi] = β1zi + β2z2i .

Não existe intercepto por que era conhecido que com uma dosezero a proporção de sobrevivência era 1, logo y = log 1 = 0.

SejaMSR(b) = median(yi − cib)2.

A estimativa de minima mediana dos quadrados da regressão(LMS) para β é o valor que minimiza MSR(b), isto é,

MSR(β) = minb

(MSR(b)).

Os erros padrão foram obtidos pelos métodos bootstrap.I Os erros padrão na linha 3 são baseados em bootstrap dos

pares com B = 400 replicações.I As covariáveis nos dados de sobrevivência celular foram

números fixos, estabelecidos pelo investigador: ela escolheu asdoses

1.175, 1.175, 2.35, . . . , 14.100

para ter um bom experimento para discriminar entre osmodelos de sobrevivência de radiação linear e quadrática. Issotorna o bootstrap dos resíduos mais interessante.

Olhando para a Figura, podemos ver que a resposta yi é maisdispersa para valores maiores de z. Como um modeloaproximadamente apropriado, assumiremos que os erros do modelolinear aumentam linearmente com a dose z. Isso equivale a

yi = ciβ + ziεi para i = 1, . . . , 14.

O vetor β foi estimado pelo LMS como β = (−0.83, 0.0114).Então F foi estimada por F , a distribuição empírica dasquantidades

(yi − ciβ)/zi, para i = 1, . . . , 14.

A linha 4 da Tabela 9.5 relata erros padrão de bootstrap para asestimativas de LMS obtidos com B = 200 replicações de bootstrap,utilizando o bootstrap dos resíduos.

Bootstrap paramétrico

I De fato, a amostragem de bootstrap pode ser realizada deforma paramétrica.

Quando os dados são modelados por uma distribuição paramétrica,isto é,

X1, . . . ,Xniid∼ F (x,θ),

uma outra estimativa de F pode ser obtida.

Suponha que os dados observados são usados para estimar θ por θ.No bootstrap paramétrico, Cada pseudo banco de dados X∗ podeser gerado por amostrar tal que

X∗1, . . . ,X∗niid∼ F (x, θ).

I Quando o modelo é conhecido ou acredita-se ser uma boarepresentação da realidade, o bootstrap paramétrico pode seruma ferramenta poderosa:I permitindo inferência em situações de outra forma intratáveis;I produzindo intervalos de confiança muito mais precisos do

que aqueles produzidos pela teoria assintótica padrão.

I É tentador usar um modelo conveniente, mas inadequado. Seo modelo não se encaixa bem no mecanismo que gera osdados, o bootstrap paramétrico pode levar a uma inferênciaerrônea.

I Há ocasiões que poucas outras ferramentas inferenciaisparecem viáveis.

Teste de hipóteses com o Bootstrap

I Os testes de bootstrap dão resultados semelhantes aos testesde permutação quando ambos estão disponíveis.

I Os testes de bootstrap são mais amplamente aplicáveis,embora menos precisos.

O problema de duas amostras

Observamos duas amostras aleatórias independentes z e y depossivelmente duas diferentes distribuições de probabilidade F e G,

F → z = (z1, . . . , zn) independente deG → y = (y1, . . . , ym)

e desejamos testar a hipótese nula

H0 : F = G.

Um teste de hipóteses é baseado em uma estatística de teste t(x).Podemos considerar, por exemplo, t(x) = z − y.

Podemos decidir sobre as hipóteses a partir de

p-valor = PH0(|t(x∗)| ≥ |t(x)|).

A quantidade t(x) é o valor observado e a variável aleatória x∗ temuma distribuição especificada pela hipótese nula H0, denotada porF0.

Denotamos por x a amostra combinada de z e y. A distribuiçãoempírica de x, denotada por F0, coloca probabilidade

1/(n+m)

para cada valor de x.

Sob H0, F0 fornece uma estimativa não-paramétrica da populaçãocomum que gerou z e y.

Testes mais precisos podem ser obtidos através do uso de umaestatística estudentizada. Podemos utilizar

t(x) = z − yσ√

1/n+ 1/m,

em que

σ =

n∑i=1

(zi − z)2 +m∑j=1

(yj − y)2

n+m− 2

1/2

.

Algoritmo1. Gere B amostras de tamanho n+m com reposição de x.

Para cada uma das amostras, denote as primeiras nobservações por z∗ e as m observações restantes por y∗.

2. Avalie t(·) em cada reamostra, isto é, t(x∗b).

3. Calcule

p-valorboot =B∑b=1

I{|t(x∗b)| ≥ |tobs|}/B,

em que tobs = t(x) é o valor observado da estatística de teste.

O algoritmo acima testa a hipótese nula de que as duas populaçõessão idênticas, ou seja, F = G. E se quiséssemos testar apenas sesuas médias eram iguais?

Se não estivermos dispostos a assumir que as variâncias nas duaspopulações são iguais, poderíamos basear o teste em

t(x) = z − y√σ2

1/n+ σ22/m

,

em que

σ1 =n∑i=1

(zi − z)2/(n− 1) e σ2 =m∑j=1

(yj − y)2/(m− 1).

I A suposição de variância igual é atraente para o teste t porquesimplifica a forma da distribuição da estatística de teste.

I Mas ao considerar um teste de hipótese de bootstrap paracomparar as duas médias, não há razão convincente paraassumir variações iguais e, portanto, não fazemos essasuposição.

Para prosseguir, precisamos de estimativas de F e G que utilizemapenas a suposição de uma média comum. Seja x a média daamostra combinada, podemos1. transladar ambas as amostras de modo que tenham a média x;2. reamostrar de cada população separadamente.

Algoritmo1. Faça F colocando igual probabilidade nos pontos

zi = zi − z + x,

para i = 1, . . . , n e G colocando igual probabilidade nospontos

yi = yi − y + x,

para i = 1, . . . ,m, em que z e y são as médias dos grupos e xé a média da amostra combinada.

2. Gere B conjuntos de dados (z∗,y∗) em que z∗ é amostradocom reposição de z1, . . . , zn e y∗ é amostrado com reposiçãode y1, . . . , ym.

3. Para cada banco de dados calcule

t(x) = z∗ − y∗√σ∗21 /n+ σ∗22 /m

,

4. Calcule


I{|t(x∗b)| ≥ |tobs|}/B,

em que tobs = t(x) é o valor observado da estatística de teste.

Exemplo

Simulação no script!

O problema com uma amostra

Suponha que observamos uma amostra z com distribuição deprobabilidade F , isto é

F → z = (z1, . . . , zn)

e desejamos testar a hipótese nula

H0 : µZ = µ0.

Um bootstrap pode ser utilizado considerando a estatística de teste

t(z) = z − µ0

σ/√n.

Qual a distribuição da estatística de teste sob H0?

I Necessitamos de uma distribuição F que estima dadistribuição F sob H0.

I Observe primeiro que a distribuição empírica Fn não éapropriada estimar para F porque não obedece a H0. Ou seja,a média de F não é igual ao valor nulo de µ0.

Uma maneira simples é transladar a distribuição empírica Fn paraque tenha a média desejada. Em outras palavras, usamos comonossa distribuição nula estimada a distribuição empírica nos valores

zi = zi − z + µ0, para i = 1, . . . , n.

Então, amostramosz∗1 , . . . , z

∗n

com reposição de z1, . . . , zn e para cada amostra bootstrapcalculamos a estatística

t(z∗) =¯z∗ − µ0¯σ∗/√n.

Logo,


I{|t(z∗b)| ≥ |tobs|}/B.

Existe uma maneira diferente, mas equivalente, de fazer umbootstrap no problema de uma amostra.

Amostramos com substituição dos dados originais (nãotransladados)

z1, . . . , zn

e calculamos a estatística

t(z∗) = z∗ − zσ∗/√n,

em que σ∗ é o desvio padrão da reamostra.

Esta estatística é igual a anterior pois

¯z∗ − µ0 = (z∗ − z + µ0)− µ0 = z∗ − z

e os desvios padrão também são iguais.

Exemplo

Simulação no script!

Testes de permutação

I Testes de permutação são baseados em reamostragem, mas asamostras são geradas sem reposição.

I Podem ser aplicados para realizar testes não paramétricos deigualdade de distribuições, independência, entre outros.

Igualdade de distribuições

Suponha duas amostras aleatórias independentes z e y depossivelmente duas diferentes distribuições de probabilidade F e G,

F → z = (z1, . . . , zn) independente deG → y = (y1, . . . , ym)

Seja x a amostra agrupada

x = (z1, . . . , zn, y1, . . . , yn),

que é indexada por

v = {1, . . . , n, n+ 1, . . . , n+m} = {1, . . . , N}.

Seja X∗ = (Z∗,Y ∗) representando uma partição da amostraagrupada X, em que Z∗ tem n elementos e Y ∗ tem m = N − nelementos.

Então, X∗ é uma permutação π dos inteiros v, em que z∗i = zπ(i).

O número de possíveis partições é igual a(Nn

)e sob

H0 : F = G,

uma amostra aleatória Z∗ tem probabilidade

1(Nn

) = n!m!N !

para quaisquer valores possíveis. Isto é, sob H0 todas aspermutações são igualmente prováveis.

I Os grupos podem ser comparados de várias maneiras. Porexemplo, com médias amostrais, medianas ou médiasaparadas.

I Mais geralmente, pode-se perguntar se as distribuições dasduas variáveis diferem e comparar os grupos por qualquerestatística que mede a distância entre duas amostras.

Seθ(Z,Y ) = θ(X,v)

é uma estatística, então a distribuição de permutação de θ∗ é adistribuição de replicações

{θ∗} ={θ(X, πj(v)), j = 1, . . . ,

(N

n

)}.

Assim,

p-valor = P (|θ∗| ≥ |θ|) =(N

n

)−1 (Nn)∑j=1

I{|θ(j)| ≥ |θ|},

onde θ é o valor calculado com a amostra observada.

Obs: O p-valor pode ser calculado de maneira similar para um testeunilateral a esquerda ou bilateral.

I Na prática, a menos que o tamanho amostral seja muitopequeno, avaliar a estatística de teste para todas aspermutações é computacionalmente intensivo.

I Um teste de permutação aproximado é implementado aoamostrar aleatoriamente um grande número de amostras semreposição.

Algoritmo para teste de permutação aproximado1. Calcule o valor observado θ(Z,Y ) = θ(X,v) para a

estatística de teste.

2. Para cada réplica, indexada por b = 1, . . . , B:a) Gere uma permutação aleatória πb = π(v).b) Calcule a estatística θ(b) = θ(X, πb)

3. Se grandes valores de θ dão suporte a hipótese alternativa,calcule

p-valor =1 +∑B

j=1 I{θ(b) ≥ θ}B + 1 .

4. Rejeite H0 se p-valor ≤ α.

Exemplo

São registrados pesos em gramas, para seis grupos de pintinhosrecém-nascidos alimentados com suplementos diferentes. Existemseis tipos de suplementos alimentares. Sugere-se que os grupossoja e linhaça podem ser semelhantes. A distribuição de pesos paraesses dois grupos é comparada.

No script!

Teste de independência

Uma teste de independência de Z e Y dado por

H0 : FZY = FZFY vs H1 : FZY 6= FZFY

pode ser implementado como um teste de permutação?I Se X e Y estão correlacionados/associados, eles são

dependentesI A hipótese nula é H0 : ρ = 0 onde ρ = cor(Z, Y )I Diferentes definições de ρ medem diferentes tipos de

associação.

Como podemos usar um teste de permutação para responder a essapergunta?

Seja v = (v1, . . . , vn) o vetor de permutação que contém osinteiros {1, . . . , n} em alguma ordem. Esse vetor estará associadoa ordenação de yi.

Existem n! possíveis vetores v.

Se H0 : ρ = 0 é verdadeira, então reordenar yi não afetará acorrelação.

Sob H0, o vetor v em probabilidade 1/n! de assumir cada um dosn! possíveis resultados.

Para o teste de H0 : ρ = 0, temos que

p-valor =∑n!j=1 I{|ρ(j)| ≥ |ρ|}

n! .

Quando n! é muito grande utilizamos a aproximação Monte Carlo.

bootstrap e jackknifecristianocs/metcomput/aula8.pdf · bootstrap e jackknife...

Documents