regression logistique conditionnelle pour´ donnees corr...

33
egression logistique conditionnelle pour donn ´ ees corr ´ el´ ees Thierry Duchesne 1 epartement de math ´ ematiques et de statistique Universit ´ e Laval [email protected] En collaboration avec Radu Craiu (Statistics, Toronto) et Daniel Fortin (Biologie, Laval) eminaire de statistique Universit ´ e de Sherbrooke, 8 d´ ecembre 2005 1 Travail support´ e par CRSNG et FQRNT

Upload: duongliem

Post on 14-Sep-2018

257 views

Category:

Documents


0 download

TRANSCRIPT

Regression logistique conditionnelle pourdonnees correlees

Thierry Duchesne1

Departement de mathematiques et de statistiqueUniversite Laval

[email protected]

En collaboration avec Radu Craiu (Statistics, Toronto)et Daniel Fortin (Biologie, Laval)

Seminaire de statistiqueUniversite de Sherbrooke, 8 decembre 2005

1Travail supporte par CRSNG et FQRNT

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Apercu

1 IntroductionRegression logistique conditionnelleProbleme: strates correlees par grappes

2 Equations d’estimation generalisees (GEE)Introduction: rappel sur les GEE

3 GEE pour regression logistique conditionnelleEsperance et variance conditionnelleStructure de correlation de travailEquations d’estimation generaliseesSelection de modele: critere QIC

4 Application: Deplacement des wapitis a YellowstoneExemple sur les deplacements des wapitis

5 ConclusionRecherche future

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Regression logistique conditionnelle

Type de donnees a analyser

Jeu de donnees de la forme (Ysi,xsi), i = 1, . . . ,ns,s = 1, . . . ,S, ou x>si = (xsi1, . . . ,xsip) sont des variablesexogenes et Ysi sont des variables reponses binaires (0 ou1).

On suppose ∑nsi=1Ysi = ms fixee d’avance dans chacune des

S strates (e.g., etude cas-temoin: ns = 2, ms = 1).

Pour estimer les effets des xsi j sur les Ysi, nous utilisons laregression logistique conditionnelle.

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Regression logistique conditionnelle

Type de donnees a analyser

Jeu de donnees de la forme (Ysi,xsi), i = 1, . . . ,ns,s = 1, . . . ,S, ou x>si = (xsi1, . . . ,xsip) sont des variablesexogenes et Ysi sont des variables reponses binaires (0 ou1).On suppose ∑

nsi=1Ysi = ms fixee d’avance dans chacune des

S strates (e.g., etude cas-temoin: ns = 2, ms = 1).

Pour estimer les effets des xsi j sur les Ysi, nous utilisons laregression logistique conditionnelle.

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Regression logistique conditionnelle

Type de donnees a analyser

Jeu de donnees de la forme (Ysi,xsi), i = 1, . . . ,ns,s = 1, . . . ,S, ou x>si = (xsi1, . . . ,xsip) sont des variablesexogenes et Ysi sont des variables reponses binaires (0 ou1).On suppose ∑

nsi=1Ysi = ms fixee d’avance dans chacune des

S strates (e.g., etude cas-temoin: ns = 2, ms = 1).

Pour estimer les effets des xsi j sur les Ysi, nous utilisons laregression logistique conditionnelle.

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Regression logistique conditionnelle

Modele de regression logistique conditionnelle

Hosmer & Lemeshow (1989)Pour chaque strate s, on suppose

un effet aleatoire θs;(Ys1|xs1,θs), . . . ,(Ysns |xsns ,θs) conditionnellementindependantes (sachant θs);

P[Ysi = 1|xsi,θs] =expθs +β>xsi

1+ expθs +β>xsi, i = 1, . . . ,ns,

ou β> = (β1, . . . ,βp) est le parametre d’interet.

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Regression logistique conditionnelle

Distribution de Ys1, . . . ,Ysns sachant leur somme

Sachant ∑nsi=1Ysi = ms (que l’on denotera “|ms”), on a que

P [Ys1 = ys1, . . . ,Ysns = ysns |ms,Xs ] =exp

∑nsi=1 β>xsiysi

(nsms)

l=1 exp

∑nsi=1 β>xsivli

,

ou ∑(ns

ms)l=1 represente la somme sur tous les vecteurs possibles

de taille ns constitues de ms ‘1’ et ns−ms ‘0’ et ou vli est le ie

element du le tel vecteur, vl.

L’effet aleatoire θs disparait en conditionnant sur ∑iYsi = ms!!

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Regression logistique conditionnelle

Distribution de Ys1, . . . ,Ysns sachant leur somme

Sachant ∑nsi=1Ysi = ms (que l’on denotera “|ms”), on a que

P [Ys1 = ys1, . . . ,Ysns = ysns |ms,Xs ] =exp

∑nsi=1 β>xsiysi

(nsms)

l=1 exp

∑nsi=1 β>xsivli

,

ou ∑(ns

ms)l=1 represente la somme sur tous les vecteurs possibles

de taille ns constitues de ms ‘1’ et ns−ms ‘0’ et ou vli est le ie

element du le tel vecteur, vl.

L’effet aleatoire θs disparait en conditionnant sur ∑iYsi = ms!!

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Regression logistique conditionnelle

Fonction de vraisemblance

En supposant les strates independantes, on a queLFull(β ) = ∏

nss=1 L(s)

Full(β ), ou L(s)Full(β ) est

P[Ys1 = ys1, . . . ,Ysns = ysns |ms,Xs] de la page precedente.

Lemme

Posons x(− j)si ≡ xsi−xs j. Alors pour tout choix de j, on a que

L(s)Full(β ) = L(s)

(− j)(β ), ou

L(s)(− j)(β ) =

exp

∑i6= j β>x(− j)si ysi

(nsms)

l=1 exp

∑i 6= j β>x(− j)si vli

.

Nous poserons x∗si ≡ xsi−xs1 et ne travaillerons qu’avecL(s)(β )≡ L(s)

(−1)(β ).

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Regression logistique conditionnelle

Fonction de vraisemblance

En supposant les strates independantes, on a queLFull(β ) = ∏

nss=1 L(s)

Full(β ), ou L(s)Full(β ) est

P[Ys1 = ys1, . . . ,Ysns = ysns |ms,Xs] de la page precedente.

Lemme

Posons x(− j)si ≡ xsi−xs j. Alors pour tout choix de j, on a que

L(s)Full(β ) = L(s)

(− j)(β ), ou

L(s)(− j)(β ) =

exp

∑i6= j β>x(− j)si ysi

(nsms)

l=1 exp

∑i 6= j β>x(− j)si vli

.

Nous poserons x∗si ≡ xsi−xs1 et ne travaillerons qu’avecL(s)(β )≡ L(s)

(−1)(β ).

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Regression logistique conditionnelle

Fonction de vraisemblance

On aura donc les fonctions de vraisemblance,log-vraisemblance et de score suivantes:

L(β ) =S

∏s=1

exp

∑nsi=2 β>x∗siysi

(nsms)

l=1 exp

∑nsi=2 β>x∗sivli

l(β ) =

S

∑s=1

ns

∑i=2

β>x∗siysi− ln

(nsms)∑l=1

exp

ns

∑i=2

β>x∗sivli

U(β ) =

S

∑s=1

ns

∑i=2

x∗siysi−∑

(nsms)

l=1 vlix∗si exp

∑nsi=2 β>x∗sivli

(nsms)

l=1 exp

∑nsi=2 β>x∗sivli

.

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Probleme: strates correlees par grappes

Et si les strates sont correlees par grappes?

La fonction de vraisemblance suppose que

Cov(Ysi,Ys′i′ |ms,ms′ ,xsi,xs′i′) = 0, s 6= s′,

c.-a-d. que les reponses de strates differentes sont noncorrelees.Que faire si ce n’est pas le cas?

Exemple des wapitis

Chaque strate correspond a 201 choix possibles dedeplacements d’un wapiti. Plusieurs strates sont obtenues pourchaque wapiti ⇒ strates pour un meme animal possiblementcorrelees?

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Introduction: rappel sur les GEE

Equations d’estimation

Dans la plupart de nos analyses en statistique, nous estimonsles parametres d’interet en resolvant des equationsd’estimation.

Regression lineaire

β = argminβ

n

∑i=1

(Yi−β>xi)2

⇔ U(β ) ≡n

∑i=1

xi(Yi− β>xi) = 0.

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Introduction: rappel sur les GEE

Equations d’estimation

Dans la plupart de nos analyses en statistique, nous estimonsles parametres d’interet en resolvant des equationsd’estimation.

Estimation par maximum de vraisemblance

θ = argmaxθ

n

∏i=1

Li(θ ;Yi,xi)

en general ... ⇔ U(β ) ≡n

∑i=1

∂θlnLi(θ ;Yi,xi)

∣∣∣∣θ=θ

= 0.

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Introduction: rappel sur les GEE

Equations d’estimation generalisees

On suppose Yi j|xi j ∼ f (y|xi j), f dans la familleexponentielle.On pose µi j(β ) = E[Yi j|xi j] et gµi j(β )= β>xi j, ou g estune fonction de lien connue.On choisit une structure de correlation de travailRi(α)≈Corr[Yi|Xi].On pose Ai = diag(Var[Yi j|xi j], j = 1, . . . ,ni).

On estime β par βGEE qui resoud

UGEE(βGEE)≡n

∑i=1

D>i V−1

i Yi−µi(βGEE)= 0,

ou Di = AiXi et Vi = A1/2i Ri(α)A1/2

i .

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Introduction: rappel sur les GEE

Proprietes de βGEE

L’estimateur βGEE qui resoud UGEE(βGEE) = 0 a les proprietessuivantes, meme si notre choix de Ri(α) n’est pas parfait:

βGEE ≈ N(β ,Σ);Σ est estimee de facon convergente par la variancesandwich robuste, VS = VT CEVT , ou

VT =

(n

∑i=1

D>i V−1

i Di

)−1∣∣∣∣∣∣

α=α

β=β

et

CE =

[n

∑i=1

D>i V−1

i Yi−µi(β )Yi−µi(β )>V−1i Di

]∣∣∣∣∣α=α

β=β

.

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Esperance et variance conditionnelle

Objectif a atteindre

Nous desirons appliquer l’approche GEE a la regressionlogistique conditionnelle, c.-a-d. dans le cas ou

on observe (Y (g)si ,x∗(g)

si ), g = 1, . . . ,G (grappes), s = 1, . . . ,S(g)

(strates), i = 2, . . . ,n(g)s (observations individuelles);

on sait avant de recueillir les donnees que ∑n(g)

si=1Y (g)

si = m(g)s ;

on suppose que Corr∗(Y (g)si ,Y (g′)

s′i′ ) = 0 mais queCorr∗(Y (g)

si ,Y (g)s′i′ ) n’est pas necessairement 0.

Note: A partir d’ici, un ∗ sur E, Var, Cov ou Corr denote uneoperation conditionnelle aux variables explicatives et a lasomme des Y dans les strates.

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Esperance et variance conditionnelle

Esperance conditionnelle

Nous aurons besoin de µ(g)si ≡ E[Y (g)

si |m(g)s ,x∗(g)

si ] etµ

(g)si,s j ≡ E[Y (g)

si Y (g)s j |m

(g)s ,x(g)

si ,x(g)s j ].

Lemme(En omettant les (g) et les s ...)

µi =∑

(nm)

l=1 vli exp

∑nk=2 β>x∗kvlk

(nm)

l=1 exp

∑nk=2 β>x∗kvlk

µi, j =

∑(n

m)l=1 vlivl j exp

nk=2 β>x∗kvlk

(nm)

l=1 exp

∑nk=2 β>x∗kvlk

.

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Structure de correlation de travail

Matrice de variance des Y

Des hypotheses enoncees precedemment, on a que

Cov∗(Y (g)si ,Y (g′)

s′i′ ) =

0, g 6= g′

µ(g)si,si′−µ

(g)si µ

(g)si′ , g = g′, s = s′

ρ∗(Y (g)si ,Y (g)

s′i′ )√

µ(g)si (1−µ

(g)si )µ

(g)s′i′ (1−µ

(g)s′i′ ),

ou ρ∗(Y (g)si ,Y (g)

s′i′ ) = Corr∗(Y (g)si ,Y (g)

s′i′ ), g = g′, s 6= s′.

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Structure de correlation de travail

Structures de correlation

Si on pose ρ∗(Y (g)si ,Y (g)

s′i′ ) = 0, on obtient V(g)Indep ≡Var∗[Y(g)]diagonale par blocs:

V(g)Indep =

B(g)

1 0 · · · 0

0 B(g)2

. . ....

.... . . . . . 0

0 · · · 0 B(g)S(g)

.

On pose alors(

A(g)s

)1/2=(

B(g)s

)1/2,(

A(g))1/2

= diag(

A(g)s

)1/2,s = 1, . . . ,S(g)

et on a que

V(g)Indep =(A(g)

)1/2 I(A(g)

)1/2. ⇒ On remplace I par R(g)(α) . . .

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Equations d’estimation generalisees

Equations d’estimation generalisees

Posons Y(g)> = (Y(g)>1 , . . . ,Y(g)>

S(g) ), µ(g)(β )> = (µ(g)>1 , . . . ,µ

(g)>

S(g) ) etD(g) = ∂ µ(g)(β )/∂β>.

GEE pour regression logistique conditionnelle

U(β ) =G

∑g=1

D(g)>(

V(g))−1

Y(g)−µ(g)(β )

= 0.

Les resultats classiques (normalite asymptotique et varianceestimee de facon convergente par la variance sandwichrobuste) sont toujours valides.

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Selection de modele: critere QIC

Choix des variables explicatives

1 Procedure d’exclusion (backward selection) basee sur leserreurs standards sandwich robustes ⇒ Approche valide,mais approche qui compare tous les sous-modelespreferable.

2 Ajuster tous les sous-modeles possibles et prendre lemodele avec meilleur critere AIC (ca devient d’ailleurs latendance en biologie) ⇒ Pas valide ici car base sur lalog-vraisemblance, donc sur l’independance entre lesstrates!

3 Comme en 2, mais remplacer l’AIC par un critere valide ⇒Le critere QIC de Pan (Biometrics, 2001)?

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Selection de modele: critere QIC

Choix des variables explicatives

1 Procedure d’exclusion (backward selection) basee sur leserreurs standards sandwich robustes ⇒ Approche valide,mais approche qui compare tous les sous-modelespreferable.

2 Ajuster tous les sous-modeles possibles et prendre lemodele avec meilleur critere AIC (ca devient d’ailleurs latendance en biologie) ⇒ Pas valide ici car base sur lalog-vraisemblance, donc sur l’independance entre lesstrates!

3 Comme en 2, mais remplacer l’AIC par un critere valide ⇒Le critere QIC de Pan (Biometrics, 2001)?

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Selection de modele: critere QIC

Choix des variables explicatives

1 Procedure d’exclusion (backward selection) basee sur leserreurs standards sandwich robustes ⇒ Approche valide,mais approche qui compare tous les sous-modelespreferable.

2 Ajuster tous les sous-modeles possibles et prendre lemodele avec meilleur critere AIC (ca devient d’ailleurs latendance en biologie) ⇒ Pas valide ici car base sur lalog-vraisemblance, donc sur l’independance entre lesstrates!

3 Comme en 2, mais remplacer l’AIC par un critere valide ⇒Le critere QIC de Pan (Biometrics, 2001)?

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Selection de modele: critere QIC

Le critere QIC

Posons ΩI = ∑Gg=1 D(g)> (V(g)Indep

)−1 D(g) et soit β (R) obtenu enresolvant les GEE sous une structure de correlation de travail Ret V(R), la variance sandwich correspondante.

QIC, Pan (Biometrics, 2001)

Dans le cas de la regression logistique conditionnelle, le“quasi-likelihood under independence criterion” (QIC) est definipar

QIC =−2Qβ (R)+2traceΩIV(R),

ou Qβ (R) represente la log-vraisemblance (sous R = I)evaluee en β = β (R).

On choisit le modele au QIC le plus faible.

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Selection de modele: critere QIC

Le critere QIC

Posons ΩI = ∑Gg=1 D(g)> (V(g)Indep

)−1 D(g) et soit β (R) obtenu enresolvant les GEE sous une structure de correlation de travail Ret V(R), la variance sandwich correspondante.

QIC, Pan (Biometrics, 2001)

Dans le cas de la regression logistique conditionnelle, le“quasi-likelihood under independence criterion” (QIC) est definipar

QIC =−2Qβ (R)+2traceΩIV(R),

ou Qβ (R) represente la log-vraisemblance (sous R = I)evaluee en β = β (R).

On choisit le modele au QIC le plus faible.

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Exemple sur les deplacements des wapitis

Ou est Yellowstone?

MontanaParc nationalde Yellowstone Wyoming

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Exemple sur les deplacements des wapitis

But de l’analyse

Objectif

• Déterminer si la cascade trophiqueobservée dans le parc pouvait être causéepar l’influence des loups sur les patrons de déplacements des wapitis.

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Exemple sur les deplacements des wapitis

Ce que l’on tente de prouver

Prédiction

• L’augmentation des risques de rencontrer des loups diminue la probabilité que les wapitis visitent des peuplements de peupliers faux-tremble.

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Exemple sur les deplacements des wapitis

Les strates

Step Selection Functions. Fortin et al. 2005 Ecology 86(5): 1320-1330

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Exemple sur les deplacements des wapitis

Les strates

Step Selection Functions. Fortin et al. 2005 Ecology 86(5): 1320-1330

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Exemple sur les deplacements des wapitis

Resultats, GEE et methode d’exclusion

Variable β

Drtmin 0.744Drtmin2 -0.056Aspenend 0.338Forestend -0.289Forestprop -0.770Sslope -2.189Aspenend × Wavg

3 -0.885Forestend × Wavg

3 0.313Wavg

3 0.240Indice de présence des loups

Pro

babi

lité

rela

tive

PeuplierForêtOuvert

Fonction de sélection des Pas du wapiti durant l’hiver à Yellowstone

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Recherche future

Que reste-t-il a faire?

Quelques simulations pour tester si QIC meilleur quemethode d’exclusion.Etude plus approfondie des choix possibles de correlationde travail.Ameliorer l’estimation des parametres des matrices decorrelation.