regression logistique conditionnelle pour´ donnees corr...

Regression logistique conditionnelle pourdonnees correlees

Thierry Duchesne1

Departement de mathematiques et de statistiqueUniversite Laval

[email protected]

En collaboration avec Radu Craiu (Statistics, Toronto)et Daniel Fortin (Biologie, Laval)

Seminaire de statistiqueUniversite de Sherbrooke, 8 decembre 2005

1Travail supporte par CRSNG et FQRNT

Apercu Introduction GEE GEE pour regression logistique conditionnelle Application Conclusion

Apercu

1 IntroductionRegression logistique conditionnelleProbleme: strates correlees par grappes

2 Equations d’estimation generalisees (GEE)Introduction: rappel sur les GEE

3 GEE pour regression logistique conditionnelleEsperance et variance conditionnelleStructure de correlation de travailEquations d’estimation generaliseesSelection de modele: critere QIC

4 Application: Deplacement des wapitis a YellowstoneExemple sur les deplacements des wapitis

5 ConclusionRecherche future


Regression logistique conditionnelle

Type de donnees a analyser

Jeu de donnees de la forme (Ysi,xsi), i = 1, . . . ,ns,s = 1, . . . ,S, ou x>si = (xsi1, . . . ,xsip) sont des variablesexogenes et Ysi sont des variables reponses binaires (0 ou1).

On suppose ∑nsi=1Ysi = ms fixee d’avance dans chacune des

S strates (e.g., etude cas-temoin: ns = 2, ms = 1).

Pour estimer les effets des xsi j sur les Ysi, nous utilisons laregression logistique conditionnelle.



Type de donnees a analyser

Jeu de donnees de la forme (Ysi,xsi), i = 1, . . . ,ns,s = 1, . . . ,S, ou x>si = (xsi1, . . . ,xsip) sont des variablesexogenes et Ysi sont des variables reponses binaires (0 ou1).On suppose ∑

nsi=1Ysi = ms fixee d’avance dans chacune des

S strates (e.g., etude cas-temoin: ns = 2, ms = 1).

Pour estimer les effets des xsi j sur les Ysi, nous utilisons laregression logistique conditionnelle.



Modele de regression logistique conditionnelle

Hosmer & Lemeshow (1989)Pour chaque strate s, on suppose

un effet aleatoire θs;(Ys1|xs1,θs), . . . ,(Ysns |xsns ,θs) conditionnellementindependantes (sachant θs);

P[Ysi = 1|xsi,θs] =expθs +β>xsi

1+ expθs +β>xsi, i = 1, . . . ,ns,

ou β> = (β1, . . . ,βp) est le parametre d’interet.



Distribution de Ys1, . . . ,Ysns sachant leur somme

Sachant ∑nsi=1Ysi = ms (que l’on denotera “|ms”), on a que

P [Ys1 = ys1, . . . ,Ysns = ysns |ms,Xs ] =exp

∑nsi=1 β>xsiysi

∑

(nsms)

l=1 exp

∑nsi=1 β>xsivli

,

ou ∑(ns

ms)l=1 represente la somme sur tous les vecteurs possibles

de taille ns constitues de ms ‘1’ et ns−ms ‘0’ et ou vli est le ie

element du le tel vecteur, vl.

L’effet aleatoire θs disparait en conditionnant sur ∑iYsi = ms!!



Fonction de vraisemblance

En supposant les strates independantes, on a queLFull(β ) = ∏

nss=1 L(s)

Full(β ), ou L(s)Full(β ) est

P[Ys1 = ys1, . . . ,Ysns = ysns |ms,Xs] de la page precedente.

Lemme

Posons x(− j)si ≡ xsi−xs j. Alors pour tout choix de j, on a que

L(s)Full(β ) = L(s)

(− j)(β ), ou

L(s)(− j)(β ) =

exp

∑i6= j β>x(− j)si ysi

∑

(nsms)

l=1 exp

∑i 6= j β>x(− j)si vli

.

Nous poserons x∗si ≡ xsi−xs1 et ne travaillerons qu’avecL(s)(β )≡ L(s)

(−1)(β ).



Fonction de vraisemblance

On aura donc les fonctions de vraisemblance,log-vraisemblance et de score suivantes:

L(β ) =S

∏s=1

exp

∑nsi=2 β>x∗siysi

∑

(nsms)

l=1 exp

∑nsi=2 β>x∗sivli

l(β ) =

S

∑s=1

ns

∑i=2

β>x∗siysi− ln

(nsms)∑l=1

exp

ns

∑i=2

β>x∗sivli

U(β ) =

S

∑s=1

ns

∑i=2

x∗siysi−∑

(nsms)

l=1 vlix∗si exp


∑

(nsms)

l=1 exp


.


Probleme: strates correlees par grappes

Et si les strates sont correlees par grappes?

La fonction de vraisemblance suppose que

Cov(Ysi,Ys′i′ |ms,ms′ ,xsi,xs′i′) = 0, s 6= s′,

c.-a-d. que les reponses de strates differentes sont noncorrelees.Que faire si ce n’est pas le cas?

Exemple des wapitis

Chaque strate correspond a 201 choix possibles dedeplacements d’un wapiti. Plusieurs strates sont obtenues pourchaque wapiti ⇒ strates pour un meme animal possiblementcorrelees?


Introduction: rappel sur les GEE

Equations d’estimation

Dans la plupart de nos analyses en statistique, nous estimonsles parametres d’interet en resolvant des equationsd’estimation.

Regression lineaire

β = argminβ

n

∑i=1

(Yi−β>xi)2

⇔ U(β ) ≡n

∑i=1

xi(Yi− β>xi) = 0.



Equations d’estimation

Dans la plupart de nos analyses en statistique, nous estimonsles parametres d’interet en resolvant des equationsd’estimation.

Estimation par maximum de vraisemblance

θ = argmaxθ

n

∏i=1

Li(θ ;Yi,xi)

en general ... ⇔ U(β ) ≡n

∑i=1

∂

∂θlnLi(θ ;Yi,xi)

∣∣∣∣θ=θ

= 0.



Equations d’estimation generalisees

On suppose Yi j|xi j ∼ f (y|xi j), f dans la familleexponentielle.On pose µi j(β ) = E[Yi j|xi j] et gµi j(β )= β>xi j, ou g estune fonction de lien connue.On choisit une structure de correlation de travailRi(α)≈Corr[Yi|Xi].On pose Ai = diag(Var[Yi j|xi j], j = 1, . . . ,ni).

On estime β par βGEE qui resoud

UGEE(βGEE)≡n

∑i=1

D>i V−1

i Yi−µi(βGEE)= 0,

ou Di = AiXi et Vi = A1/2i Ri(α)A1/2

i .



Proprietes de βGEE

L’estimateur βGEE qui resoud UGEE(βGEE) = 0 a les proprietessuivantes, meme si notre choix de Ri(α) n’est pas parfait:

βGEE ≈ N(β ,Σ);Σ est estimee de facon convergente par la variancesandwich robuste, VS = VT CEVT , ou

VT =

(n

∑i=1

D>i V−1

i Di

)−1∣∣∣∣∣∣

α=α

β=β

et

CE =

[n

∑i=1

D>i V−1

i Yi−µi(β )Yi−µi(β )>V−1i Di

]∣∣∣∣∣α=α

β=β

.


Esperance et variance conditionnelle

Objectif a atteindre

Nous desirons appliquer l’approche GEE a la regressionlogistique conditionnelle, c.-a-d. dans le cas ou

on observe (Y (g)si ,x∗(g)

si ), g = 1, . . . ,G (grappes), s = 1, . . . ,S(g)

(strates), i = 2, . . . ,n(g)s (observations individuelles);

on sait avant de recueillir les donnees que ∑n(g)

si=1Y (g)

si = m(g)s ;

on suppose que Corr∗(Y (g)si ,Y (g′)

s′i′ ) = 0 mais queCorr∗(Y (g)

si ,Y (g)s′i′ ) n’est pas necessairement 0.

Note: A partir d’ici, un ∗ sur E, Var, Cov ou Corr denote uneoperation conditionnelle aux variables explicatives et a lasomme des Y dans les strates.


Esperance et variance conditionnelle

Esperance conditionnelle

Nous aurons besoin de µ(g)si ≡ E[Y (g)

si |m(g)s ,x∗(g)

si ] etµ

(g)si,s j ≡ E[Y (g)

si Y (g)s j |m

(g)s ,x(g)

si ,x(g)s j ].

Lemme(En omettant les (g) et les s ...)

µi =∑

(nm)

l=1 vli exp

∑nk=2 β>x∗kvlk

∑

(nm)

l=1 exp

∑nk=2 β>x∗kvlk

µi, j =

∑(n

m)l=1 vlivl j exp

∑

nk=2 β>x∗kvlk

∑

(nm)

l=1 exp

∑nk=2 β>x∗kvlk

.


Structure de correlation de travail

Matrice de variance des Y

Des hypotheses enoncees precedemment, on a que

Cov∗(Y (g)si ,Y (g′)

s′i′ ) =

0, g 6= g′

µ(g)si,si′−µ

(g)si µ

(g)si′ , g = g′, s = s′

ρ∗(Y (g)si ,Y (g)

s′i′ )√

µ(g)si (1−µ

(g)si )µ

(g)s′i′ (1−µ

(g)s′i′ ),

ou ρ∗(Y (g)si ,Y (g)

s′i′ ) = Corr∗(Y (g)si ,Y (g)

s′i′ ), g = g′, s 6= s′.


Structure de correlation de travail

Structures de correlation

Si on pose ρ∗(Y (g)si ,Y (g)

s′i′ ) = 0, on obtient V(g)Indep ≡Var∗[Y(g)]diagonale par blocs:

V(g)Indep =

B(g)

1 0 · · · 0

0 B(g)2

. . ....

.... . . . . . 0

0 · · · 0 B(g)S(g)

.

On pose alors(

A(g)s

)1/2=(

B(g)s

)1/2,(

A(g))1/2

= diag(

A(g)s

)1/2,s = 1, . . . ,S(g)

et on a que

V(g)Indep =(A(g)

)1/2 I(A(g)

)1/2. ⇒ On remplace I par R(g)(α) . . .




Posons Y(g)> = (Y(g)>1 , . . . ,Y(g)>

S(g) ), µ(g)(β )> = (µ(g)>1 , . . . ,µ

(g)>

S(g) ) etD(g) = ∂ µ(g)(β )/∂β>.

GEE pour regression logistique conditionnelle

U(β ) =G

∑g=1

D(g)>(

V(g))−1

Y(g)−µ(g)(β )

= 0.

Les resultats classiques (normalite asymptotique et varianceestimee de facon convergente par la variance sandwichrobuste) sont toujours valides.


Selection de modele: critere QIC

Choix des variables explicatives

1 Procedure d’exclusion (backward selection) basee sur leserreurs standards sandwich robustes ⇒ Approche valide,mais approche qui compare tous les sous-modelespreferable.

2 Ajuster tous les sous-modeles possibles et prendre lemodele avec meilleur critere AIC (ca devient d’ailleurs latendance en biologie) ⇒ Pas valide ici car base sur lalog-vraisemblance, donc sur l’independance entre lesstrates!

3 Comme en 2, mais remplacer l’AIC par un critere valide ⇒Le critere QIC de Pan (Biometrics, 2001)?


Selection de modele: critere QIC

Le critere QIC

Posons ΩI = ∑Gg=1 D(g)> (V(g)Indep

)−1 D(g) et soit β (R) obtenu enresolvant les GEE sous une structure de correlation de travail Ret V(R), la variance sandwich correspondante.

QIC, Pan (Biometrics, 2001)

Dans le cas de la regression logistique conditionnelle, le“quasi-likelihood under independence criterion” (QIC) est definipar

QIC =−2Qβ (R)+2traceΩIV(R),

ou Qβ (R) represente la log-vraisemblance (sous R = I)evaluee en β = β (R).

On choisit le modele au QIC le plus faible.


Exemple sur les deplacements des wapitis

Ou est Yellowstone?

MontanaParc nationalde Yellowstone Wyoming



But de l’analyse

Objectif

• Déterminer si la cascade trophiqueobservée dans le parc pouvait être causéepar l’influence des loups sur les patrons de déplacements des wapitis.



Ce que l’on tente de prouver

Prédiction

• L’augmentation des risques de rencontrer des loups diminue la probabilité que les wapitis visitent des peuplements de peupliers faux-tremble.



Les strates

Step Selection Functions. Fortin et al. 2005 Ecology 86(5): 1320-1330



Resultats, GEE et methode d’exclusion

Variable β

Drtmin 0.744Drtmin2 -0.056Aspenend 0.338Forestend -0.289Forestprop -0.770Sslope -2.189Aspenend × Wavg

3 -0.885Forestend × Wavg

3 0.313Wavg

3 0.240Indice de présence des loups

Pro

babi

lité

rela

tive

PeuplierForêtOuvert

Fonction de sélection des Pas du wapiti durant l’hiver à Yellowstone


Recherche future

Que reste-t-il a faire?

Quelques simulations pour tester si QIC meilleur quemethode d’exclusion.Etude plus approfondie des choix possibles de correlationde travail.Ameliorer l’estimation des parametres des matrices decorrelation.

regression logistique conditionnelle pour´ donnees corr...

Documents