regression logistique conditionnelle pour´ donnees corr´ el´ ees´ · 2005. 12. 7. ·...

33
egression logistique conditionnelle pour donn ´ ees corr ´ el´ ees Thierry Duchesne 1 epartement de math ´ ematiques et de statistique Universit ´ e Laval [email protected] En collaboration avec Radu Craiu (Statistics, Toronto) et Daniel Fortin (Biologie, Laval) eminaire de statistique Universit ´ e de Sherbrooke, 8 d´ ecembre 2005 1 Travail support´ e par CRSNG et FQRNT

Upload: others

Post on 05-Feb-2021

2 views

Category:

Documents


0 download

TRANSCRIPT

  • Régression logistique conditionnelle pourdonnées corrélées

    Thierry Duchesne1

    Département de mathématiques et de statistiqueUniversité Laval

    [email protected]

    En collaboration avec Radu Craiu (Statistics, Toronto)et Daniel Fortin (Biologie, Laval)

    Séminaire de statistiqueUniversité de Sherbrooke, 8 décembre 2005

    1Travail supporté par CRSNG et FQRNT

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Aperçu

    1 IntroductionRégression logistique conditionnelleProblème: strates corrélées par grappes

    2 Équations d’estimation généralisées (GEE)Introduction: rappel sur les GEE

    3 GEE pour régression logistique conditionnelleEspérance et variance conditionnelleStructure de corrélation de travailÉquations d’estimation généraliséesSélection de modèle: critère QIC

    4 Application: Déplacement des wapitis à YellowstoneExemple sur les déplacements des wapitis

    5 ConclusionRecherche future

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Régression logistique conditionnelle

    Type de données à analyser

    Jeu de données de la forme (Ysi,xsi), i = 1, . . . ,ns,s = 1, . . . ,S, où x>si = (xsi1, . . . ,xsip) sont des variablesexogènes et Ysi sont des variables réponses binaires (0 ou1).

    On suppose ∑nsi=1Ysi = ms fixée d’avance dans chacune desS strates (e.g., étude cas-témoin: ns = 2, ms = 1).

    Pour estimer les effets des xsi j sur les Ysi, nous utilisons larégression logistique conditionnelle.

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Régression logistique conditionnelle

    Type de données à analyser

    Jeu de données de la forme (Ysi,xsi), i = 1, . . . ,ns,s = 1, . . . ,S, où x>si = (xsi1, . . . ,xsip) sont des variablesexogènes et Ysi sont des variables réponses binaires (0 ou1).On suppose ∑nsi=1Ysi = ms fixée d’avance dans chacune desS strates (e.g., étude cas-témoin: ns = 2, ms = 1).

    Pour estimer les effets des xsi j sur les Ysi, nous utilisons larégression logistique conditionnelle.

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Régression logistique conditionnelle

    Type de données à analyser

    Jeu de données de la forme (Ysi,xsi), i = 1, . . . ,ns,s = 1, . . . ,S, où x>si = (xsi1, . . . ,xsip) sont des variablesexogènes et Ysi sont des variables réponses binaires (0 ou1).On suppose ∑nsi=1Ysi = ms fixée d’avance dans chacune desS strates (e.g., étude cas-témoin: ns = 2, ms = 1).

    Pour estimer les effets des xsi j sur les Ysi, nous utilisons larégression logistique conditionnelle.

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Régression logistique conditionnelle

    Modèle de régression logistique conditionnelle

    Hosmer & Lemeshow (1989)Pour chaque strate s, on suppose

    un effet aléatoire θs;(Ys1|xs1,θs), . . . ,(Ysns |xsns ,θs) conditionnellementindépendantes (sachant θs);

    P[Ysi = 1|xsi,θs] =exp{θs +β>xsi}

    1+ exp{θs +β>xsi}, i = 1, . . . ,ns,

    où β> = (β1, . . . ,βp) est le paramètre d’intérêt.

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Régression logistique conditionnelle

    Distribution de Ys1, . . . ,Ysns sachant leur somme

    Sachant ∑nsi=1Ysi = ms (que l’on dénotera “|ms”), on a que

    P [Ys1 = ys1, . . . ,Ysns = ysns |ms,Xs ] =exp{

    ∑nsi=1 β>xsiysi

    }∑

    (nsms)l=1 exp

    {∑nsi=1 β>xsivli

    } ,où ∑

    (nsms)l=1 représente la somme sur tous les vecteurs possibles

    de taille ns constitués de ms ‘1’ et ns−ms ‘0’ et où vli est le ieélément du le tel vecteur, vl.

    L’effet aléatoire θs disparait en conditionnant sur ∑iYsi = ms!!

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Régression logistique conditionnelle

    Distribution de Ys1, . . . ,Ysns sachant leur somme

    Sachant ∑nsi=1Ysi = ms (que l’on dénotera “|ms”), on a que

    P [Ys1 = ys1, . . . ,Ysns = ysns |ms,Xs ] =exp{

    ∑nsi=1 β>xsiysi

    }∑

    (nsms)l=1 exp

    {∑nsi=1 β>xsivli

    } ,où ∑

    (nsms)l=1 représente la somme sur tous les vecteurs possibles

    de taille ns constitués de ms ‘1’ et ns−ms ‘0’ et où vli est le ieélément du le tel vecteur, vl.

    L’effet aléatoire θs disparait en conditionnant sur ∑iYsi = ms!!

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Régression logistique conditionnelle

    Fonction de vraisemblance

    En supposant les strates indépendantes, on a queLFull(β ) = ∏nss=1 L

    (s)Full(β ), où L

    (s)Full(β ) est

    P[Ys1 = ys1, . . . ,Ysns = ysns |ms,Xs] de la page précédente.

    Lemme

    Posons x(− j)si ≡ xsi−xs j. Alors pour tout choix de j, on a queL(s)Full(β ) = L

    (s)(− j)(β ), où

    L(s)(− j)(β ) =exp{

    ∑i6= j β>x(− j)si ysi

    }∑

    (nsms)l=1 exp

    {∑i 6= j β>x

    (− j)si vli

    } .Nous poserons x∗si ≡ xsi−xs1 et ne travaillerons qu’avecL(s)(β )≡ L(s)(−1)(β ).

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Régression logistique conditionnelle

    Fonction de vraisemblance

    En supposant les strates indépendantes, on a queLFull(β ) = ∏nss=1 L

    (s)Full(β ), où L

    (s)Full(β ) est

    P[Ys1 = ys1, . . . ,Ysns = ysns |ms,Xs] de la page précédente.

    Lemme

    Posons x(− j)si ≡ xsi−xs j. Alors pour tout choix de j, on a queL(s)Full(β ) = L

    (s)(− j)(β ), où

    L(s)(− j)(β ) =exp{

    ∑i6= j β>x(− j)si ysi

    }∑

    (nsms)l=1 exp

    {∑i 6= j β>x

    (− j)si vli

    } .Nous poserons x∗si ≡ xsi−xs1 et ne travaillerons qu’avecL(s)(β )≡ L(s)(−1)(β ).

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Régression logistique conditionnelle

    Fonction de vraisemblance

    On aura donc les fonctions de vraisemblance,log-vraisemblance et de score suivantes:

    L(β ) =S

    ∏s=1

    exp{

    ∑nsi=2 β>x∗siysi

    }∑

    (nsms)l=1 exp

    {∑nsi=2 β>x∗sivli

    }l(β ) =

    S

    ∑s=1

    ns∑i=2

    β>x∗siysi− ln(nsms)∑l=1

    exp

    {ns

    ∑i=2

    β>x∗sivli

    }U(β ) =

    S

    ∑s=1

    ns∑i=2

    x∗siysi−∑

    (nsms)l=1 vlix

    ∗si exp

    {∑nsi=2 β

    >x∗sivli}

    ∑(nsms)l=1 exp

    {∑nsi=2 β>x∗sivli

    } .

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Problème: strates corrélées par grappes

    Et si les strates sont corrélées par grappes?

    La fonction de vraisemblance suppose que

    Cov(Ysi,Ys′i′ |ms,ms′ ,xsi,xs′i′) = 0, s 6= s′,

    c.-à-d. que les réponses de strates différentes sont noncorrélées.Que faire si ce n’est pas le cas?

    Exemple des wapitis

    Chaque strate correspond à 201 choix possibles dedéplacements d’un wapiti. Plusieurs strates sont obtenues pourchaque wapiti ⇒ strates pour un même animal possiblementcorrélées?

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Introduction: rappel sur les GEE

    Équations d’estimation

    Dans la plupart de nos analyses en statistique, nous estimonsles paramètres d’intérêt en résolvant des équationsd’estimation.

    Régression linéaire

    β̂ = argminβ

    n

    ∑i=1

    (Yi−β>xi)2

    ⇔ U(β̂ ) ≡n

    ∑i=1

    xi(Yi− β̂>xi) = 0.

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Introduction: rappel sur les GEE

    Équations d’estimation

    Dans la plupart de nos analyses en statistique, nous estimonsles paramètres d’intérêt en résolvant des équationsd’estimation.

    Estimation par maximum de vraisemblance

    θ̂ = argmaxθ

    n

    ∏i=1

    Li(θ ;Yi,xi)

    en général ... ⇔ U(β̂ ) ≡n

    ∑i=1

    ∂∂θ

    lnLi(θ ;Yi,xi)∣∣∣∣θ=θ̂

    = 0.

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Introduction: rappel sur les GEE

    Équations d’estimation généralisées

    On suppose Yi j|xi j ∼ f (y|xi j), f dans la familleexponentielle.On pose µi j(β ) = E[Yi j|xi j] et g{µi j(β )}= β>xi j, où g estune fonction de lien connue.On choisit une structure de corrélation de travailRi(α)≈Corr[Yi|Xi].On pose Ai = diag(Var[Yi j|xi j], j = 1, . . . ,ni).On estime β par β̂GEE qui résoud

    UGEE(β̂GEE)≡n

    ∑i=1

    D>i V−1i {Yi−µi(β̂GEE)}= 0,

    où Di = AiXi et Vi = A1/2i Ri(α)A

    1/2i .

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Introduction: rappel sur les GEE

    Propriétés de β̂GEE

    L’estimateur β̂GEE qui résoud UGEE(β̂GEE) = 0 a les propriétéssuivantes, même si notre choix de Ri(α) n’est pas parfait:

    β̂GEE ≈ N(β ,Σ);Σ est estimée de façon convergente par la variancesandwich robuste, V̂S = V̂T ĈEV̂T , où

    V̂T =

    (n

    ∑i=1

    D>i V−1i Di

    )−1∣∣∣∣∣∣ α=α̂β=β̂

    et

    ĈE =

    [n

    ∑i=1

    D>i V−1i {Yi−µi(β )}{Yi−µi(β )}

    >V−1i Di

    ]∣∣∣∣∣ α=α̂β=β̂

    .

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Espérance et variance conditionnelle

    Objectif à atteindre

    Nous désirons appliquer l’approche GEE à la régressionlogistique conditionnelle, c.-à-d. dans le cas où

    on observe (Y (g)si ,x∗(g)si ), g = 1, . . . ,G (grappes), s = 1, . . . ,S

    (g)

    (strates), i = 2, . . . ,n(g)s (observations individuelles);

    on sait avant de recueillir les données que ∑n(g)s

    i=1Y(g)si = m

    (g)s ;

    on suppose que Corr∗(Y (g)si ,Y(g′)s′i′ ) = 0 mais que

    Corr∗(Y (g)si ,Y(g)s′i′ ) n’est pas nécessairement 0.

    Note: À partir d’ici, un ∗ sur E, Var, Cov ou Corr dénote uneopération conditionnelle aux variables explicatives et à lasomme des Y dans les strates.

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Espérance et variance conditionnelle

    Espérance conditionnelle

    Nous aurons besoin de µ(g)si ≡ E[Y(g)si |m

    (g)s ,x

    ∗(g)si ] et

    µ(g)si,s j ≡ E[Y(g)si Y

    (g)s j |m

    (g)s ,x

    (g)si ,x

    (g)s j ].

    Lemme(En omettant les (g) et les s ...)

    µi =∑

    (nm)l=1 vli exp

    {∑nk=2 β>x∗kvlk

    }∑

    (nm)l=1 exp

    {∑nk=2 β>x∗kvlk

    }µi, j =

    ∑(nm)l=1 vlivl j exp

    {∑nk=2 β>x∗kvlk

    }∑

    (nm)l=1 exp

    {∑nk=2 β>x∗kvlk

    } .

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Structure de corrélation de travail

    Matrice de variance des Y

    Des hypothèses énoncées précédemment, on a que

    Cov∗(Y (g)si ,Y(g′)s′i′ ) =

    0, g 6= g′

    µ(g)si,si′−µ(g)si µ

    (g)si′ , g = g

    ′, s = s′

    ρ∗(Y (g)si ,Y(g)s′i′ )√

    µ(g)si (1−µ(g)si )µ

    (g)s′i′ (1−µ

    (g)s′i′ ),

    où ρ∗(Y (g)si ,Y(g)s′i′ ) = Corr

    ∗(Y (g)si ,Y(g)s′i′ ), g = g

    ′, s 6= s′.

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Structure de corrélation de travail

    Structures de corrélation

    Si on pose ρ∗(Y (g)si ,Y(g)s′i′ ) = 0, on obtient V

    (g)Indep ≡Var∗[Y(g)]diagonale par blocs:

    V(g)Indep =

    B(g)1 0 · · · 0

    0 B(g)2. . .

    ......

    . . . . . . 00 · · · 0 B(g)

    S(g)

    .

    On pose alors(

    A(g)s)1/2

    =(

    B(g)s)1/2

    ,(A(g)

    )1/2= diag

    {(A(g)s

    )1/2,s = 1, . . . ,S(g)

    }et on a que

    V(g)Indep =(A(g)

    )1/2 I(A(g))1/2. ⇒ On remplace I par R(g)(α) . . .

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Équations d’estimation généralisées

    Équations d’estimation généralisées

    Posons Y(g)> = (Y(g)>1 , . . . ,Y(g)>S(g)

    ), µ(g)(β )> = (µ(g)>

    1 , . . . ,µ(g)>

    S(g)) et

    D(g) = ∂ µ(g)(β )/∂β>.

    GEE pour régression logistique conditionnelle

    U(β ) =G

    ∑g=1

    D(g)>(

    V(g))−1{

    Y(g)−µ(g)(β )}

    = 0.

    Les résultats classiques (normalité asymptotique et varianceestimée de façon convergente par la variance sandwichrobuste) sont toujours valides.

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Sélection de modèle: critère QIC

    Choix des variables explicatives

    1 Procédure d’exclusion (backward selection) basée sur leserreurs standards sandwich robustes ⇒ Approche valide,mais approche qui compare tous les sous-modèlespréférable.

    2 Ajuster tous les sous-modèles possibles et prendre lemodèle avec meilleur critère AIC (ça devient d’ailleurs latendance en biologie) ⇒ Pas valide ici car basé sur lalog-vraisemblance, donc sur l’indépendance entre lesstrates!

    3 Comme en 2, mais remplacer l’AIC par un critère valide ⇒Le critère QIC de Pan (Biometrics, 2001)?

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Sélection de modèle: critère QIC

    Choix des variables explicatives

    1 Procédure d’exclusion (backward selection) basée sur leserreurs standards sandwich robustes ⇒ Approche valide,mais approche qui compare tous les sous-modèlespréférable.

    2 Ajuster tous les sous-modèles possibles et prendre lemodèle avec meilleur critère AIC (ça devient d’ailleurs latendance en biologie) ⇒ Pas valide ici car basé sur lalog-vraisemblance, donc sur l’indépendance entre lesstrates!

    3 Comme en 2, mais remplacer l’AIC par un critère valide ⇒Le critère QIC de Pan (Biometrics, 2001)?

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Sélection de modèle: critère QIC

    Choix des variables explicatives

    1 Procédure d’exclusion (backward selection) basée sur leserreurs standards sandwich robustes ⇒ Approche valide,mais approche qui compare tous les sous-modèlespréférable.

    2 Ajuster tous les sous-modèles possibles et prendre lemodèle avec meilleur critère AIC (ça devient d’ailleurs latendance en biologie) ⇒ Pas valide ici car basé sur lalog-vraisemblance, donc sur l’indépendance entre lesstrates!

    3 Comme en 2, mais remplacer l’AIC par un critère valide ⇒Le critère QIC de Pan (Biometrics, 2001)?

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Sélection de modèle: critère QIC

    Le critère QIC

    Posons ΩI = ∑Gg=1 D(g)>(V(g)Indep

    )−1 D(g) et soit β̂ (R) obtenu enrésolvant les GEE sous une structure de corrélation de travail Ret V̂(R), la variance sandwich correspondante.

    QIC, Pan (Biometrics, 2001)

    Dans le cas de la régression logistique conditionnelle, le“quasi-likelihood under independence criterion” (QIC) est définipar

    QIC =−2Q{β̂ (R)}+2trace{ΩIV̂(R)},

    où Q{β̂ (R)} représente la log-vraisemblance (sous R = I)évaluée en β = β̂ (R).

    On choisit le modèle au QIC le plus faible.

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Sélection de modèle: critère QIC

    Le critère QIC

    Posons ΩI = ∑Gg=1 D(g)>(V(g)Indep

    )−1 D(g) et soit β̂ (R) obtenu enrésolvant les GEE sous une structure de corrélation de travail Ret V̂(R), la variance sandwich correspondante.

    QIC, Pan (Biometrics, 2001)

    Dans le cas de la régression logistique conditionnelle, le“quasi-likelihood under independence criterion” (QIC) est définipar

    QIC =−2Q{β̂ (R)}+2trace{ΩIV̂(R)},

    où Q{β̂ (R)} représente la log-vraisemblance (sous R = I)évaluée en β = β̂ (R).

    On choisit le modèle au QIC le plus faible.

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Exemple sur les déplacements des wapitis

    Où est Yellowstone?

    MontanaParc nationalde Yellowstone Wyoming

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Exemple sur les déplacements des wapitis

    But de l’analyse

    Objectif

    • Déterminer si la cascade trophiqueobservée dans le parc pouvait être causéepar l’influence des loups sur les patrons de déplacements des wapitis.

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Exemple sur les déplacements des wapitis

    Ce que l’on tente de prouver

    Prédiction

    • L’augmentation des risques de rencontrer des loups diminue la probabilité que les wapitis visitent des peuplements de peupliers faux-tremble.

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Exemple sur les déplacements des wapitis

    Les strates

    Step Selection Functions. Fortin et al. 2005 Ecology 86(5): 1320-1330

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Exemple sur les déplacements des wapitis

    Les strates

    Step Selection Functions. Fortin et al. 2005 Ecology 86(5): 1320-1330

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Exemple sur les déplacements des wapitis

    Résultats, GEE et méthode d’exclusion

    Variable βDrtmin 0.744Drtmin2 -0.056Aspenend 0.338Forestend -0.289Forestprop -0.770Sslope -2.189Aspenend × Wavg3 -0.885Forestend × Wavg3 0.313Wavg3 0.240

    Indice de présence des loups

    Pro

    babi

    lité

    rela

    tive

    PeuplierForêtOuvert

    Fonction de sélection des Pas du wapiti durant l’hiver à Yellowstone

  • Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

    Recherche future

    Que reste-t-il à faire?

    Quelques simulations pour tester si QIC meilleur queméthode d’exclusion.Étude plus approfondie des choix possibles de corrélationde travail.Améliorer l’estimation des paramètres des matrices decorrélation.

    AperçuIntroductionRégression logistique conditionnelleProblème: strates corrélées par grappes

    Équations d'estimation généralisées (GEE)Introduction: rappel sur les GEE

    GEE pour régression logistique conditionnelleEspérance et variance conditionnelleStructure de corrélation de travailÉquations d'estimation généraliséesSélection de modèle: critère QIC

    Application: Déplacement des wapitis à YellowstoneExemple sur les déplacements des wapitis

    ConclusionRecherche future