modelos de regress~ao para dados correlacionados · conteudo da aula modelos de regress~ao: i...

Modelos de regressao

para dados correlacionados

Cibele [email protected]

ICMC USP

Mini-curso oferecido no

Workshop on Probabilistic and Statistical Methods

28 a 30 de janeiro de 2013

Cibele Russo (ICMC USP) Modelos para dados correlacionados 1 / 51

Conteudo da aula

Modelos de regressao:

I Modelo de regressao linear simples

I Modelo de regressao linear multipla

I A distribuicao normal multivariada

I Modelo de regressao linear multivariada


Modelos de regressao:

Modelo de regressao linear simples

Modelo de regressao linear multipla

(sem considerar a correlacao entre as observacoes)


Modelos de regressao

Modelos de regressao sao ferramentas estatısticas que buscam explicar a

relacao entre duas ou mais variaveis.

Essentially, all models are wrong, but some are useful.

George Box

(Box, G. e Draper, N. R. 1987, Empirical Model-Building and Response Surfaces, Wiley Series

in Probability and Statistics.)


Modelos de regressao: modelo teorico

Y : variavel resposta (v. aleatoria)

x1, . . . xp: p variaveis preditoras (v. nao aleatorias)

ε: erro aleatorio

Modelo matematico:

Y = f (x1, . . . , xp) + ε

Suposicao mais comum:

ε ∼ (0, σ2), σ2 > 0 um parametro desconhecido.

(E (ε) = 0 e Var(εi ) = σ2).


Modelos de regressao: modelo amostral

Yi : observacao da variavel resposta Y na i-esima unidade

experimental (v. aleatoria),

xi1, . . . xip: valores de x1, . . . , xp variaveis preditoras (v. nao

aleatorias)

εi : erro aleatorio e i = 1, . . . , n.

Modelo matematico (amostral):

Yi = f (xi1, . . . , xip) + εi , para i = 1, . . . , n.

Suposicoes mais comuns:

εi e independente de εj para i 6= j e i , j = 1, . . . , n e

εi ∼ (0, σ2), σ2 > 0 um parametro desconhecido.

(E (εi ) = 0, Var(εi ) = σ2, Cov(εi , εj) = 0 para todo i , j = 1, . . . , n e i 6= j .)Cibele Russo (ICMC USP) Modelos para dados correlacionados 6 / 51


Y1, . . . ,Yn: n observacoes da variavel resposta Y (v. aleatoria)

x1, . . . xn: n observacoes da variavel preditora x (v. nao aleatoria)

ε: erro aleatorio

Modelo matematico:

Yi = β0 + β1xi + εi , i = 1, . . . , n

Suposicoes εii .i .d∼ (0, σ2), i = 1, . . . , n.

β0 e um parametro, chamado intercepto ou coeficiente linear da reta.

E o valor esperado de Y quando x = 0.

β1 e um parametro, chamado coeficiente angular da reta. E o

aumento (diminuicao) medio (a) em Y quando aumentamos uma

unidade em x .


Ao assumir um modelo de regressao linear simples para Y em x ,

assumimos que a relacao entre essas duas variaveis e linear e que os

erros ε1, . . . , εn sao independentes, o que nao acontece sempre.

Suponha inicialmente que x e Y estao relacionadas de forma linear e que

ε1, . . . , εn sao independentes, ou seja, Y1, . . . ,Yn sao independentes.


Temos interesse em estimar os parametros β0, β1 e σ2.

Para isso, usamos estimadores, que sao funcoes das observacoes.

Vamos denotar os valores observados (observacoes) de

Y1, . . . ,Yn por y1, . . . , yn, respectivamente.



Queremos encontrar a melhor reta para explicar a relacao (suposta linear)

entre x e Y . Assim, teremos o

Modelo ajustado:

Yi = β0 + β1xi , i = 1, . . . , n

β0 e uma estimativa de β0

β1 e uma estimativa de β1

Yi e o valor ajustado de Y para x = xi .

Resıduo: ei = yi − Yi



No modelo de regressao linear simples, o metodo de mınimos quadrados

busca minimizar∑n

i=1 e2i e leva aos

Estimadores de mınimos quadrados (EMQ)

β0 = y − β1x e β1 =

n∑i=1

(xi − x)(yi − y)

n∑i=1

(xi − x)2

com x =

n∑i=1

xi

ne y =

n∑i=1

yi

n.



Se no modelo

Yi = β0 + β1xi + εi , i = 1, . . . , n

assumirmos que εii .i .d .∼ N(0, σ2), entao os estimadores de maxima

verossimilhanca (EMV) de β0 e β1 sao dados por

β0MV= y − β1MV

x e β1MV=

n∑i=1

(xi − x)(yi − y)

n∑i=1

(xi − x)2

com x =

n∑i=1

xi

ne y =

n∑i=1

yi

n(coincidem com os EMQs β0 e β1).



No modelo

Yi = β0 + β1xi + εi , i = 1, . . . , n, com εii .i .d .∼ N(0, σ2)

o estimador de maxima verossimilhanca de σ2

σ2MV =

n∑i=1

(yi − Yi )2

ne viesado.

Um estimador nao viesado para σ2 seria

σ2 =

n∑i=1

(yi − Yi )2

n − 2.


Observacao: Distribuicao normal

A notacao W ∼ N(µ, σ2) indica que W e uma variavel aleatoria contınua

com funcao densidade de probabilidades (f. d. p.) dada por

f (w) =1√

2πσ2exp

{−(x − µ)2

2σ2

}com µ ∈ R e σ2 > 0.


Observacao: Distribuicao normal

Funcao densidade de probabilidades de Z ∼ N(0, 1).

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

Função densidade de probabilidades de Z~N(0,1)

z

f(z)


A suposicao de normalidade para os erros

(Figura adaptada de Draper, N. A e Smith, H. 1998, Applied Regression Analysis, Wiley Series

in Probability and Statistics, Wiley.)


Modelo de regressao linear multipla

Modelo matematico:

Yi = β0 + x1iβ1 + x2iβ2 + . . .+ xipβp + εi , i = 1, . . . , n

Matricialmente: Y = Xβ + ε

Y: vetor de respostas ou variaveis dependentes

X : matriz do modelo de regressao

β: vetor de parametros

ε: vetor de erros aleatorios

Y =

Y1

...

Yn

, X =

1 x11 x21 . . . xp1

1 x12 x22 . . . xp2

......

. . . . . ....

1 xn2 xn2 . . . xn2

, β =

β0

β1

...

βp

, ε =

ε1

...

εn


Estimacao em um modelo de regressao linear multipla

Assumindo ε ∼ Nn(0, σ2In), o estimador de maxima verossimilhanca (ou

de mınimos quadrados) de β e dado por

β = (X ′X )−1X ′y

em que y e o vetor observado de Y.

Obs 1: In e a matriz identidade n × n

Obs 2: Falaremos mais adiante da distribuicao normal multivariada.


Estimacao em um modelo de regressao linear multipla

Modelo ajustado:

Y = X β

Vetor de resıduos:

ei = y − Y

Estimador nao viesado de σ2:

σ2 =(y − Y)′(y − Y)

n − p − 1


Propriedades

1 β = (X ′X )−1X ′y ∼ Np(β, σ2(X ′X )−1)

2 Y = X β = X (X ′X )−1X ′y ∼ Nn(Xβ,X (X ′X )−1X ′σ2)


Propriedades

Predicao de novas observacoes

Dado X = x, podemos prever o valor de Y |X = x fazendo Y |X = x = xβ


Exemplo: Um primeiro modelo

Dados ortodonticos: Suponha que nao soubessemos que os dados sao

correlacionados e queremos ajustar um modelo de regressao linear simples

para cada grupo determinado pelo genero.

> install.packages(c(”stats”, ”nlme”, ”Hmisc”, ”lattice”))

> library(nlme)

> attach(Orthodont)

> fit.lm<-lm(distance~ age)

> summary(fit.lm)

> plot(age,distance,pch=16)

> abline(fit.lm)

Certifique-se que os comandos foram passados corretamente para o R.


Exemplo de ajuste: modelo de regressao linear simples

Dados ortodonticos

Exercıcio: como interpretar o modelo ajustado?



O modelo ajustado para Y (distancia) usando como covariavel x (idade) e

dado por

Yi = 16, 7611 + 0, 6602xi , 1, . . . , n.

A interpretacao das estimativas dos parametros e

A estimativa da distancia em uma crianca com idade 0 e 16,7611

(β0)?.

O aumento estimado na distancia e de 0,6602 quando se aumenta 1

ano de idade.

? Importante: Deve-se tomar cuidado com a interpretacao de β0, pois

nao se deve extrapolar o modelo de regressao para intervalos distantes dos

valores da covariavel. A relacao entre as duas variaveis pode mudar de

comportamento longe dos valores de x .Cibele Russo (ICMC USP) Modelos para dados correlacionados 24 / 51


●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

● ●

●

●

●

● ●

8 9 10 11 12 13 14

2025

30

Orthodont data

age

dist

ance

Modelo de regressao linear simples ajustado aos dados ortodonticos



Fitted values (mm)

Sta

ndar

dize

d re

sidu

als

−2

−1

0

1

2

21 22 23 24 25 26 27

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

● ● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

● ●

●

●

●

●

●

● ● ●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

● ●

● ●

●

●

● ●

●

●

●

●

●

●

● ● ●

●

●

●

●

●

●

●

●

●

Resıduos do modelo de regressao linear simples ajustado aos dados

ortodonticosCibele Russo (ICMC USP) Modelos para dados correlacionados 26 / 51

Exercıcio: um modelo para cada genero

Dados ortodonticos: Suponha que nao soubessemos que os dados sao

correlacionados mas quisessemos ajustar um modelo de regressao linear

simples para os dados de cada grupo.

> attach(Orthodont)

> fit.Sex<-lmList(distance~ age|Sex,Orthodont)

> coef(fit.Sex)

> coef(fit.Sex)[1,]

> coef(fit.Sex)[2,]

> intervals(fit.Sex)

> plot(intervals(fit.Sex))

> plot(fit.Sex)

Certifique-se que os comandos foram passados corretamente para o R.


Correlacao

O que e correlacao?

Correlacao ou coeficiente de correlacao e uma ferramenta utilizada em

Probabilidade e Estatıstica para medir o grau de relacionamento linear

entre duas variaveis aleatorias sem implicar relacao de causalidade.


Correlacao

Seja W uma variavel aleatoria contınua (unidimensional) com f. d. p.

f (w) .

Momentos populacionais: O k-esimo momento de g(W ) e definido

como

E (g(W )k) =

∫ ∞−∞

[g(w)]k f (w)dw

desde que a integral acima exista.

Valor esperado de W : E (W ) = µ1 = µ =

∫ ∞−∞

wf (w)dw .

Variancia de W : Var(W ) = E (W − µ)2 =

∫ ∞−∞

(w − µ)2f (w)dw .


Correlacao

Seja W uma variavel aleatoria contınua com f. d. p. fw (w) e Z uma

variavel aleatoria contınua com f. d. p. fz(z), e suponha que a f. d. p.

conjunta de (W ,Z ) seja f (w , z). Define-se

Valor esperado de W : E (W ) = µw

Valor esperado de W : E (Z ) = µz

Variancia de W : Var(W ) = σ2W .

Variancia de W : Var(Z ) = σ2Z .

Covariancia entre W e Z : Cov(W ,Z ) = E ((W − µw )(Z − µz)) = σWZ .

Coeficiente de correlacao entre W e Z : ρW ,Z =σWZ√σ2W

√σ2Z

.


Correlacao - caso multidimensional

Seja vetor aleatorio

W =

W1

...

Wn

,ou seja, cada elemento Wi e uma variavel aleatoria, i = 1, . . . , n com f. d.

p. fi (wi ).



Valor esperado de W:

E (W) = µ =

µ1

...

µn

em que µi = E (Wi ) =

∫ ∞−∞

wi fi (wi )dwi .



Variancia de W:

Var(W) = E [(W − µ)(W − µ)′]

= E

W1 − µ1

...

Wn − µn

[ W1 − µ1 . . . Wn − µn]=

=E

(W1 − µ1)2 (W1 − µ1)(W2 − µ2) . . . (W1 − µ1)(Wn − µn)

(W2 − µ2)(W1 − µ1) (W2 − µ2)2 . . . (W2 − µ2)(Wn − µn)...

.... . .

...

(Wn − µn)(W1 − µ1) (Wn − µn)(W2 − µ2) . . . (Wn − µn)2

.


Matriz de variancias e covariancias

Variancia de W :

Σ = Var(W) =

σ11 σ12 . . . σ1n

σ21 σ22 . . . σ2n

......

. . ....

σn1 σn2 . . . σnn

.


Matriz de correlacao

Matriz de correlacao de W :

R = Cor(W) =

ρ11 ρ12 . . . ρ1n

ρ21 ρ22 . . . ρ2n

......

. . ....

ρn1 ρn2 . . . ρnn

com ρij =

σij√σii√σjj

para i , j = 1, . . . , n.

Propriedades:

−1 ≤ ρij ≤ 1, para i , j = 1, . . . , n.

ρjj = 1, para j = 1, . . . , n.


Matrizes de variancias e covariancias e correlacoes

amostrais

Em geral Σ e R sao desconhecidas, mas podemos estima-las obtendo a

matriz de variancia e covariancias amostral e a matriz de correlacoes

amostrais.

Matriz de variancias e covariancias amostrais (nao viesada para Σ)

s = var(W) =

s11 s12 . . . s1n

s21 s22 . . . s2n

......

. . ....

sn1 sn2 . . . snn

com sij =

n∑k=1

(wki − wi )(wkj − wj)

n − 1


Matrizes de variancias e covariancias e correlacoes

amostrais

Matriz de correlacoes amostrais

r = cor(W) =

1 r12 . . . r1n

r21 1 . . . r2n...

.... . .

...

rn1 rn2 . . . 1

com rij =

sij√sii√sjj

para i , j = 1, . . . , n.


Distribuicao normal multivariada

Definicao

O vetor p-dimensional U tem distribuicao normal multivariada se, e

somente se, toda combinacao linear de U tem distribuicao normal

univariada.

U ∼ Np ⇐⇒ t′U ∼ N1 ∀t ∈ Rp.


Observacao: Distribuicao normal multivariada

Propriedades

1 A media E (U) = µ e Var(U) = Σ existem. Notacao: U ∼ Np(µ,Σ).

2 Fixado t ∈ Rp um vetor de constantes, t′U ∼ N(t′U, t′Σt).

3 Se U ∼ Np(µ,Σ) e r(Σ) = p entao a funcao densidade de

probabilidades de U e dada por

f (u) =1

(2π)p/2|Σ|1/2exp

{−(u− µ)′Σ−1(u− µ)

2

}, µ ∈ Rp



Consequencias

1 U ∼ Np(µ,Σ) e tal que U =

U1

U2

...

Up

.Se Σ e diagonal, entao U1,. . . ,Up sao v.a.independentes, cada uma

com distribuicao normal univariada.



Consequencias

2 Se U =

[U1

U2

]com Var(U) =

[Σ11 Σ12

Σ′12 Σ22

]em que

Σ12 = Var(U1), Σ22 = Var(U2), Σ12 = Cov(U1,U2).

Entao U1 e independente de U2 se, e somente se, Σ12 = 0.



Propriedades

1 U ∼ Np(µ,Σ) e particionada como U =

[U1

U2

],

com a particao adequada para o vetor de medias e a matriz de

variancias e covariancias

µ =

[µ1

µ2

]e Σ =

[Σ11 Σ12

Σ′12 Σ22

].

Entao U1 ∼ N(µ1,Σ11) e U2 ∼ N(µ2,Σ22) tem distribuicao normal

multivariada com as dimensoes dos vetores U1 e U2.


Contornos elıpticos da normal bivariada (elementos nao

correlacionados)


Distribuicao normal (elementos correlacionados)

Definindo os parametros da distribuicao Normal (µ, Σ),

com µ =

[1

0

]e Σ =

[2 1

1 1

]:


Modelar dados correlacionados

Qual a forma mais simples de modelar dados correlacionados?


Modelo de regressao multivariada

Um modelo de regressao linear multivariado e da forma

Yi = Xiβ + εi

onde

Yi =

Y1i

...

Yni

e o vetor de respostas do i-esimo indivıduo

Xi e uma matriz de planejamento

β e um vetor de parametros

εi =

ε1i...

εni

Suposicao comum: εi

i .i .d .∼ N(0,Σ)



Uma possibilidade e reescrever o modelo de forma multivariada como

Y = Xβ + ε

com matrizes adequadas Y, X , β e ε.

Pode-se obter βi = (X ′i Xi )−1X ′i yi , em que yi e o valor observado de Yi

para i = 1, . . . , n e

β = [β1, β2, . . . , βn], o que e equivalente a fazer

β = (X ′X )−1X ′y.



Comandos em R:

> library(nlme)

> attach(Orthodont)

> X<-cbind(1,matrix(age,ncol=1)[1:4])

> Y<-matrix(distance,nrow=4,byrow=F)

> Betachapeu<-solve(t(X)%∗%X)%∗%t(X)%∗%Y> Betachapeu

Certifique-se que os comandos foram passados corretamente para o R, especialmente o ∗.


Modelo multivariado

Exemplo: Dados ortodonticos

●

●

●

●

8 9 10 11 12 13 14

2025

30

●

●●

●

8 9 10 11 12 13 14

2025

30

●●

●

●

8 9 10 11 12 13 14

2025

30

●

●

●●

8 9 10 11 12 13 14

2025

30

●

●

●

●

8 9 10 11 12 13 14

2025

30

●

●

●

●

8 9 10 11 12 13 14

2025

30

● ●

●

●

8 9 10 11 12 13 14

2025

30

●

●

●

●

8 9 10 11 12 13 14

2025

30

●

●

●

●

8 9 10 11 12 13 14

2025

30●

●

●●

8 9 10 11 12 13 14

2025

30

● ●●

●

8 9 10 11 12 13 14

2025

30

●

●●

●

8 9 10 11 12 13 14

2025

30

●

●

●

●

8 9 10 11 12 13 14

2025

30

●

● ●●

8 9 10 11 12 13 14

2025

30

●

●

●

●

8 9 10 11 12 13 14

2025

30

●●

●

●

8 9 10 11 12 13 14

2025

30

●

●

●

●

8 9 10 11 12 13 14

2025

30

●●

●

●

8 9 10 11 12 13 14

2025

30

●

●●

●

8 9 10 11 12 13 14

2025

30

●

●●

●

8 9 10 11 12 13 14

2025

30

●

●●

●

8 9 10 11 12 13 14

2025

30

●

● ●

●

8 9 10 11 12 13 14

2025

30

●

●●

●

8 9 10 11 12 13 14

2025

30

● ●●

●

8 9 10 11 12 13 14

2025

30

●

●

●●

8 9 10 11 12 13 14

2025

30

●

● ●●

8 9 10 11 12 13 14

2025

30

●●

● ●

8 9 10 11 12 13 14

2025

30

age

dist

ance


Modelo com efeitos mistos

Neste curso, vamos considerar os modelos com efeitos mistos, que

permitem fazer previsoes especıficas para cada unidade experimental, e ao

mesmo tempo identificar padroes similares entre as observacoes.


Proxima aula

Modelos lineares com efeitos mistos


modelos de regress~ao para dados correlacionados · conteudo da aula modelos de regress~ao: i...

Documents