regression logistique conditionnelle pour´ donnees corr...
TRANSCRIPT
Regression logistique conditionnelle pourdonnees correlees
Thierry Duchesne1
Departement de mathematiques et de statistiqueUniversite Laval
En collaboration avec Radu Craiu (Statistics, Toronto)et Daniel Fortin (Biologie, Laval)
Seminaire de statistiqueUniversite de Sherbrooke, 8 decembre 2005
1Travail supporte par CRSNG et FQRNT
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Apercu
1 IntroductionRegression logistique conditionnelleProbleme: strates correlees par grappes
2 Equations d’estimation generalisees (GEE)Introduction: rappel sur les GEE
3 GEE pour regression logistique conditionnelleEsperance et variance conditionnelleStructure de correlation de travailEquations d’estimation generaliseesSelection de modele: critere QIC
4 Application: Deplacement des wapitis a YellowstoneExemple sur les deplacements des wapitis
5 ConclusionRecherche future
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Regression logistique conditionnelle
Type de donnees a analyser
Jeu de donnees de la forme (Ysi,xsi), i = 1, . . . ,ns,s = 1, . . . ,S, ou x>si = (xsi1, . . . ,xsip) sont des variablesexogenes et Ysi sont des variables reponses binaires (0 ou1).
On suppose ∑nsi=1Ysi = ms fixee d’avance dans chacune des
S strates (e.g., etude cas-temoin: ns = 2, ms = 1).
Pour estimer les effets des xsi j sur les Ysi, nous utilisons laregression logistique conditionnelle.
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Regression logistique conditionnelle
Type de donnees a analyser
Jeu de donnees de la forme (Ysi,xsi), i = 1, . . . ,ns,s = 1, . . . ,S, ou x>si = (xsi1, . . . ,xsip) sont des variablesexogenes et Ysi sont des variables reponses binaires (0 ou1).On suppose ∑
nsi=1Ysi = ms fixee d’avance dans chacune des
S strates (e.g., etude cas-temoin: ns = 2, ms = 1).
Pour estimer les effets des xsi j sur les Ysi, nous utilisons laregression logistique conditionnelle.
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Regression logistique conditionnelle
Type de donnees a analyser
Jeu de donnees de la forme (Ysi,xsi), i = 1, . . . ,ns,s = 1, . . . ,S, ou x>si = (xsi1, . . . ,xsip) sont des variablesexogenes et Ysi sont des variables reponses binaires (0 ou1).On suppose ∑
nsi=1Ysi = ms fixee d’avance dans chacune des
S strates (e.g., etude cas-temoin: ns = 2, ms = 1).
Pour estimer les effets des xsi j sur les Ysi, nous utilisons laregression logistique conditionnelle.
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Regression logistique conditionnelle
Modele de regression logistique conditionnelle
Hosmer & Lemeshow (1989)Pour chaque strate s, on suppose
un effet aleatoire θs;(Ys1|xs1,θs), . . . ,(Ysns |xsns ,θs) conditionnellementindependantes (sachant θs);
P[Ysi = 1|xsi,θs] =expθs +β>xsi
1+ expθs +β>xsi, i = 1, . . . ,ns,
ou β> = (β1, . . . ,βp) est le parametre d’interet.
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Regression logistique conditionnelle
Distribution de Ys1, . . . ,Ysns sachant leur somme
Sachant ∑nsi=1Ysi = ms (que l’on denotera “|ms”), on a que
P [Ys1 = ys1, . . . ,Ysns = ysns |ms,Xs ] =exp
∑nsi=1 β>xsiysi
∑
(nsms)
l=1 exp
∑nsi=1 β>xsivli
,
ou ∑(ns
ms)l=1 represente la somme sur tous les vecteurs possibles
de taille ns constitues de ms ‘1’ et ns−ms ‘0’ et ou vli est le ie
element du le tel vecteur, vl.
L’effet aleatoire θs disparait en conditionnant sur ∑iYsi = ms!!
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Regression logistique conditionnelle
Distribution de Ys1, . . . ,Ysns sachant leur somme
Sachant ∑nsi=1Ysi = ms (que l’on denotera “|ms”), on a que
P [Ys1 = ys1, . . . ,Ysns = ysns |ms,Xs ] =exp
∑nsi=1 β>xsiysi
∑
(nsms)
l=1 exp
∑nsi=1 β>xsivli
,
ou ∑(ns
ms)l=1 represente la somme sur tous les vecteurs possibles
de taille ns constitues de ms ‘1’ et ns−ms ‘0’ et ou vli est le ie
element du le tel vecteur, vl.
L’effet aleatoire θs disparait en conditionnant sur ∑iYsi = ms!!
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Regression logistique conditionnelle
Fonction de vraisemblance
En supposant les strates independantes, on a queLFull(β ) = ∏
nss=1 L(s)
Full(β ), ou L(s)Full(β ) est
P[Ys1 = ys1, . . . ,Ysns = ysns |ms,Xs] de la page precedente.
Lemme
Posons x(− j)si ≡ xsi−xs j. Alors pour tout choix de j, on a que
L(s)Full(β ) = L(s)
(− j)(β ), ou
L(s)(− j)(β ) =
exp
∑i6= j β>x(− j)si ysi
∑
(nsms)
l=1 exp
∑i 6= j β>x(− j)si vli
.
Nous poserons x∗si ≡ xsi−xs1 et ne travaillerons qu’avecL(s)(β )≡ L(s)
(−1)(β ).
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Regression logistique conditionnelle
Fonction de vraisemblance
En supposant les strates independantes, on a queLFull(β ) = ∏
nss=1 L(s)
Full(β ), ou L(s)Full(β ) est
P[Ys1 = ys1, . . . ,Ysns = ysns |ms,Xs] de la page precedente.
Lemme
Posons x(− j)si ≡ xsi−xs j. Alors pour tout choix de j, on a que
L(s)Full(β ) = L(s)
(− j)(β ), ou
L(s)(− j)(β ) =
exp
∑i6= j β>x(− j)si ysi
∑
(nsms)
l=1 exp
∑i 6= j β>x(− j)si vli
.
Nous poserons x∗si ≡ xsi−xs1 et ne travaillerons qu’avecL(s)(β )≡ L(s)
(−1)(β ).
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Regression logistique conditionnelle
Fonction de vraisemblance
On aura donc les fonctions de vraisemblance,log-vraisemblance et de score suivantes:
L(β ) =S
∏s=1
exp
∑nsi=2 β>x∗siysi
∑
(nsms)
l=1 exp
∑nsi=2 β>x∗sivli
l(β ) =
S
∑s=1
ns
∑i=2
β>x∗siysi− ln
(nsms)∑l=1
exp
ns
∑i=2
β>x∗sivli
U(β ) =
S
∑s=1
ns
∑i=2
x∗siysi−∑
(nsms)
l=1 vlix∗si exp
∑nsi=2 β>x∗sivli
∑
(nsms)
l=1 exp
∑nsi=2 β>x∗sivli
.
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Probleme: strates correlees par grappes
Et si les strates sont correlees par grappes?
La fonction de vraisemblance suppose que
Cov(Ysi,Ys′i′ |ms,ms′ ,xsi,xs′i′) = 0, s 6= s′,
c.-a-d. que les reponses de strates differentes sont noncorrelees.Que faire si ce n’est pas le cas?
Exemple des wapitis
Chaque strate correspond a 201 choix possibles dedeplacements d’un wapiti. Plusieurs strates sont obtenues pourchaque wapiti ⇒ strates pour un meme animal possiblementcorrelees?
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Introduction: rappel sur les GEE
Equations d’estimation
Dans la plupart de nos analyses en statistique, nous estimonsles parametres d’interet en resolvant des equationsd’estimation.
Regression lineaire
β = argminβ
n
∑i=1
(Yi−β>xi)2
⇔ U(β ) ≡n
∑i=1
xi(Yi− β>xi) = 0.
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Introduction: rappel sur les GEE
Equations d’estimation
Dans la plupart de nos analyses en statistique, nous estimonsles parametres d’interet en resolvant des equationsd’estimation.
Estimation par maximum de vraisemblance
θ = argmaxθ
n
∏i=1
Li(θ ;Yi,xi)
en general ... ⇔ U(β ) ≡n
∑i=1
∂
∂θlnLi(θ ;Yi,xi)
∣∣∣∣θ=θ
= 0.
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Introduction: rappel sur les GEE
Equations d’estimation generalisees
On suppose Yi j|xi j ∼ f (y|xi j), f dans la familleexponentielle.On pose µi j(β ) = E[Yi j|xi j] et gµi j(β )= β>xi j, ou g estune fonction de lien connue.On choisit une structure de correlation de travailRi(α)≈Corr[Yi|Xi].On pose Ai = diag(Var[Yi j|xi j], j = 1, . . . ,ni).
On estime β par βGEE qui resoud
UGEE(βGEE)≡n
∑i=1
D>i V−1
i Yi−µi(βGEE)= 0,
ou Di = AiXi et Vi = A1/2i Ri(α)A1/2
i .
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Introduction: rappel sur les GEE
Proprietes de βGEE
L’estimateur βGEE qui resoud UGEE(βGEE) = 0 a les proprietessuivantes, meme si notre choix de Ri(α) n’est pas parfait:
βGEE ≈ N(β ,Σ);Σ est estimee de facon convergente par la variancesandwich robuste, VS = VT CEVT , ou
VT =
(n
∑i=1
D>i V−1
i Di
)−1∣∣∣∣∣∣
α=α
β=β
et
CE =
[n
∑i=1
D>i V−1
i Yi−µi(β )Yi−µi(β )>V−1i Di
]∣∣∣∣∣α=α
β=β
.
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Esperance et variance conditionnelle
Objectif a atteindre
Nous desirons appliquer l’approche GEE a la regressionlogistique conditionnelle, c.-a-d. dans le cas ou
on observe (Y (g)si ,x∗(g)
si ), g = 1, . . . ,G (grappes), s = 1, . . . ,S(g)
(strates), i = 2, . . . ,n(g)s (observations individuelles);
on sait avant de recueillir les donnees que ∑n(g)
si=1Y (g)
si = m(g)s ;
on suppose que Corr∗(Y (g)si ,Y (g′)
s′i′ ) = 0 mais queCorr∗(Y (g)
si ,Y (g)s′i′ ) n’est pas necessairement 0.
Note: A partir d’ici, un ∗ sur E, Var, Cov ou Corr denote uneoperation conditionnelle aux variables explicatives et a lasomme des Y dans les strates.
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Esperance et variance conditionnelle
Esperance conditionnelle
Nous aurons besoin de µ(g)si ≡ E[Y (g)
si |m(g)s ,x∗(g)
si ] etµ
(g)si,s j ≡ E[Y (g)
si Y (g)s j |m
(g)s ,x(g)
si ,x(g)s j ].
Lemme(En omettant les (g) et les s ...)
µi =∑
(nm)
l=1 vli exp
∑nk=2 β>x∗kvlk
∑
(nm)
l=1 exp
∑nk=2 β>x∗kvlk
µi, j =
∑(n
m)l=1 vlivl j exp
∑
nk=2 β>x∗kvlk
∑
(nm)
l=1 exp
∑nk=2 β>x∗kvlk
.
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Structure de correlation de travail
Matrice de variance des Y
Des hypotheses enoncees precedemment, on a que
Cov∗(Y (g)si ,Y (g′)
s′i′ ) =
0, g 6= g′
µ(g)si,si′−µ
(g)si µ
(g)si′ , g = g′, s = s′
ρ∗(Y (g)si ,Y (g)
s′i′ )√
µ(g)si (1−µ
(g)si )µ
(g)s′i′ (1−µ
(g)s′i′ ),
ou ρ∗(Y (g)si ,Y (g)
s′i′ ) = Corr∗(Y (g)si ,Y (g)
s′i′ ), g = g′, s 6= s′.
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Structure de correlation de travail
Structures de correlation
Si on pose ρ∗(Y (g)si ,Y (g)
s′i′ ) = 0, on obtient V(g)Indep ≡Var∗[Y(g)]diagonale par blocs:
V(g)Indep =
B(g)
1 0 · · · 0
0 B(g)2
. . ....
.... . . . . . 0
0 · · · 0 B(g)S(g)
.
On pose alors(
A(g)s
)1/2=(
B(g)s
)1/2,(
A(g))1/2
= diag(
A(g)s
)1/2,s = 1, . . . ,S(g)
et on a que
V(g)Indep =(A(g)
)1/2 I(A(g)
)1/2. ⇒ On remplace I par R(g)(α) . . .
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Equations d’estimation generalisees
Equations d’estimation generalisees
Posons Y(g)> = (Y(g)>1 , . . . ,Y(g)>
S(g) ), µ(g)(β )> = (µ(g)>1 , . . . ,µ
(g)>
S(g) ) etD(g) = ∂ µ(g)(β )/∂β>.
GEE pour regression logistique conditionnelle
U(β ) =G
∑g=1
D(g)>(
V(g))−1
Y(g)−µ(g)(β )
= 0.
Les resultats classiques (normalite asymptotique et varianceestimee de facon convergente par la variance sandwichrobuste) sont toujours valides.
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Selection de modele: critere QIC
Choix des variables explicatives
1 Procedure d’exclusion (backward selection) basee sur leserreurs standards sandwich robustes ⇒ Approche valide,mais approche qui compare tous les sous-modelespreferable.
2 Ajuster tous les sous-modeles possibles et prendre lemodele avec meilleur critere AIC (ca devient d’ailleurs latendance en biologie) ⇒ Pas valide ici car base sur lalog-vraisemblance, donc sur l’independance entre lesstrates!
3 Comme en 2, mais remplacer l’AIC par un critere valide ⇒Le critere QIC de Pan (Biometrics, 2001)?
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Selection de modele: critere QIC
Choix des variables explicatives
1 Procedure d’exclusion (backward selection) basee sur leserreurs standards sandwich robustes ⇒ Approche valide,mais approche qui compare tous les sous-modelespreferable.
2 Ajuster tous les sous-modeles possibles et prendre lemodele avec meilleur critere AIC (ca devient d’ailleurs latendance en biologie) ⇒ Pas valide ici car base sur lalog-vraisemblance, donc sur l’independance entre lesstrates!
3 Comme en 2, mais remplacer l’AIC par un critere valide ⇒Le critere QIC de Pan (Biometrics, 2001)?
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Selection de modele: critere QIC
Choix des variables explicatives
1 Procedure d’exclusion (backward selection) basee sur leserreurs standards sandwich robustes ⇒ Approche valide,mais approche qui compare tous les sous-modelespreferable.
2 Ajuster tous les sous-modeles possibles et prendre lemodele avec meilleur critere AIC (ca devient d’ailleurs latendance en biologie) ⇒ Pas valide ici car base sur lalog-vraisemblance, donc sur l’independance entre lesstrates!
3 Comme en 2, mais remplacer l’AIC par un critere valide ⇒Le critere QIC de Pan (Biometrics, 2001)?
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Selection de modele: critere QIC
Le critere QIC
Posons ΩI = ∑Gg=1 D(g)> (V(g)Indep
)−1 D(g) et soit β (R) obtenu enresolvant les GEE sous une structure de correlation de travail Ret V(R), la variance sandwich correspondante.
QIC, Pan (Biometrics, 2001)
Dans le cas de la regression logistique conditionnelle, le“quasi-likelihood under independence criterion” (QIC) est definipar
QIC =−2Qβ (R)+2traceΩIV(R),
ou Qβ (R) represente la log-vraisemblance (sous R = I)evaluee en β = β (R).
On choisit le modele au QIC le plus faible.
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Selection de modele: critere QIC
Le critere QIC
Posons ΩI = ∑Gg=1 D(g)> (V(g)Indep
)−1 D(g) et soit β (R) obtenu enresolvant les GEE sous une structure de correlation de travail Ret V(R), la variance sandwich correspondante.
QIC, Pan (Biometrics, 2001)
Dans le cas de la regression logistique conditionnelle, le“quasi-likelihood under independence criterion” (QIC) est definipar
QIC =−2Qβ (R)+2traceΩIV(R),
ou Qβ (R) represente la log-vraisemblance (sous R = I)evaluee en β = β (R).
On choisit le modele au QIC le plus faible.
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Exemple sur les deplacements des wapitis
Ou est Yellowstone?
MontanaParc nationalde Yellowstone Wyoming
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Exemple sur les deplacements des wapitis
But de l’analyse
Objectif
• Déterminer si la cascade trophiqueobservée dans le parc pouvait être causéepar l’influence des loups sur les patrons de déplacements des wapitis.
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Exemple sur les deplacements des wapitis
Ce que l’on tente de prouver
Prédiction
• L’augmentation des risques de rencontrer des loups diminue la probabilité que les wapitis visitent des peuplements de peupliers faux-tremble.
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Exemple sur les deplacements des wapitis
Les strates
Step Selection Functions. Fortin et al. 2005 Ecology 86(5): 1320-1330
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Exemple sur les deplacements des wapitis
Les strates
Step Selection Functions. Fortin et al. 2005 Ecology 86(5): 1320-1330
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Exemple sur les deplacements des wapitis
Resultats, GEE et methode d’exclusion
Variable β
Drtmin 0.744Drtmin2 -0.056Aspenend 0.338Forestend -0.289Forestprop -0.770Sslope -2.189Aspenend × Wavg
3 -0.885Forestend × Wavg
3 0.313Wavg
3 0.240Indice de présence des loups
Pro
babi
lité
rela
tive
PeuplierForêtOuvert
Fonction de sélection des Pas du wapiti durant l’hiver à Yellowstone
Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion
Recherche future
Que reste-t-il a faire?
Quelques simulations pour tester si QIC meilleur quemethode d’exclusion.Etude plus approfondie des choix possibles de correlationde travail.Ameliorer l’estimation des parametres des matrices decorrelation.