classification m1-mass · glm-intro biblio logistique d´efinitions exemple design...

47
Classification M1-MASS Francois Kauffmann 24 f´ evrier 2009 Francois Kauffmann Classification M1-MASS 24 f´ evrier 2009 1 / 47

Upload: others

Post on 08-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

Classification M1-MASS

Francois Kauffmann

24 fevrier 2009

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 1 / 47

Page 2: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Premiere partie I

Introduction aux modeles lineaires generalises

Bibliographie

Regression logistique

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 2 / 47

Page 3: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Chapitre

Bibliographie

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 3 / 47

Page 4: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Bibliographie I

Alan Agresti.Categorical Data Analysis.Wiley Series in probability and statistics, 2002.

Alan Agresti.An introduction to categorical data Analysis.Wiley Series in probability and statistics, 2007.

J.J. Droesbeke, M. Lejeune, and G. Saporta, editors.Modeles statistiques pour donnees qualitatives.Editions TECHNIP, 2005.

Ludwig Fahrmeir and Gerhard Tutz.Multivariate Statistical Modelling based on generalizedlinear models.Springer, 1994.

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 4 / 47

Page 5: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Bibliographie II

Michael Falk, Frank Marohn, and Bernward Tewes.Foundations of statistical Analyses and Applications withSAS.Birkhauser Verlag, 2002.

Michael Friendly.Categorical data analysis with graphics.SCS Short Course,http ://www.math.yorku.ca/SCS/friendly.html, 2003.

J. Glenn.Analysis of discrete data.Lecture Notes, http ://www.stat.psu.edu/ jglenn/stat504,2008.

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 5 / 47

Page 6: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Bibliographie III

G. Rodriguez.Generalized linear models.Lecture Notes Princeton University,http ://data.princeton.edu/wws509, 2004.

Maura E. Stokes, Charles S. Davis, and Gary G. Koch.Categorical Data Analysis using the SAS system.SAS, 2000.

Laura A. Thompson.R and splus manual to accompany agresti’s categoricaldata analysis.Lecture notes for analysis of Discrete Data,http ://www.stat.ufl.edu/˜ aa/cda, 2007.

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 6 / 47

Page 7: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Bibliographie IV

Stephane Tuffery.Data Mining et statistique decisionnelle.Editions TECHNIP, 2005.

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 7 / 47

Page 8: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Chapitre

Regression logistiqueDefinitionsExempleModelisation de l’influence des facteursInterpretation des coefficientsInteractionsModele sature

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 8 / 47

Page 9: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Paragraphe

Regression logistiqueDefinitionsExempleModelisation de l’influence des facteursInterpretation des coefficientsInteractionsModele sature

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 9 / 47

Page 10: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Loi de Bernoulli

DefinitionOn dit que la variable aleatoire Y a valeurs dans {0, 1} suit uneloi de Bernoulli de parametre π ∈ [0, 1] et

Pr([Y = 1]) = π, Pr([Y = 0]) = 1− π

y ∈ {0, 1}, Pr([Y = y ]) = πy (1− π)1−y

On a alors

E (Y ) = π

var(Y ) = π(1− π)

Objectif Modeliser une experience succes/echec avec uneprobabilite de succes de π.

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 10 / 47

Page 11: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Loi binomiale

DefinitionSoient Y1, · · · , Yn n va independantes suivant une loi deBernoulli de parametre π, alors on dit que la somme de cesvariables suit une loi binomiale de parametre n, π.

Y = Y1 + · · ·+ Yn ∼ B(n, π)

E (Y ) = nπ

var(Y ) = nπ(1− π)

Objectif On fait n experiences succes/echec , on veut modeliserle nombre de succes.

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 11 / 47

Page 12: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Famille exponentielle binomiale

Soit X un ensemble d’individus, on suppose que ∀x ∈ XZπ(x) ∼ B(nx , π(x)) suit une loi binomiale de parametre π(x) a valeursdans {0, 1}, alors ∀y ∈ {0, 1}

Pr([Zπ(x) = y ]) =

n

y

!π(x)y (1− π(x))nx−y

log(Pr([Zπ(x) = y ])) = ylog

„π(x)

1− π(x)

«+ nlog(1− π(x)) + log(C y

n )

= n

„y/nlog(

π(x)

1− π(x)) + log(1− π(x))

«+ log(C y

n )

=A(y/nθ(x)− γ(θ(x)))

φ+ τ(y/n,

φ

A)

avec A = nx , φ = 1, θ(x) = log( π(x)1−π(x)

), γ(θ(x)) = −log(1− π(x)) =

log(1 + eθ(x))

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 12 / 47

Page 13: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Fonction logit

Definition

ODDS :

{]0, 1[ → Rπ 7−→ π

1−π

logit :

{]0, 1[ → Rπ 7−→ ln π

1−π

logit−1 :

{R → ]0, 1[

y 7−→ ey

1+ey

si π est une probabilite de succes, on appelle cote de du succescontre l’echec la quantite π

1−π , par exemple si π = 3/4, alors le

rapports des chances est π1−π = 3

1 sur 4 tirages, on a trois dechances de succes contre une chance d’echec

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 13 / 47

Page 14: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Modele de regression logistique

DefinitionSoit X un ensemble de groupe d’individus. Pour chacun desgroupes d’individus x ∈ X , d’effectif nx , on modelise le nombrede succes par une variable aleatoire Yπ(x) binomiale a nx

tirages, de moyenne π(x) ∈]0, 1[. On suppose que :

loi ∀x ∈ X , Yπ(x) ∼ B(nx , π(x))

design il existe une application Z : X →Mp,1(R) ditede design ou factorielle.

lien ∃β ∈Mp,1(R),∀x ∈ X , logit(π(x)) = Z (x)′β

Ce modele est un modele lineaire generalise associe a unefamille exponentielle binomiale, de fonction de lien logit et defonction de design Z. L’objectif est d’estimer la probabilite desucces π(x) et le parametre inconu β a partir d’un echantillonobserve.

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 14 / 47

Page 15: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

EstimationSoit (Yπ(xi ))1≤i≤n un echantillon independant, la log vraisemblancede l’echantillon est

log(L(β)) =i=n∑i=1

Yxi log(π(xi )) + (nxi − Yπ(xi ))log(1− π(xi ))

logit(π(xi )) = Z (xi )′β

L’estimateur au sens du maximum de vraisemblance est

β = ArgMaxβ∈Mp,1(R)log(L(β))

cov(β) =

(∂2Log(L(β))

∂2β(β)

)−1

La deviance residuelle de ce modele est

D = 2i=n∑i=1

Yπ(xi )log

(Yπ(xi )/nxi

π(xi )

)+(ni −Yπ(xi ))log

(1− Yπ(xi )/nxi

1− π(xi )

)

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 15 / 47

Page 16: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Implementation

En R on a

glm(Y ~ X1+X2+...+Xk, family=binomial(link=logit),...)

En SAS

proc genmod;class X1 ... Xk;model Y=X1 ... Xk/dist=binomial link=logit;

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 16 / 47

Page 17: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Paragraphe

Regression logistiqueDefinitionsExempleModelisation de l’influence des facteursInterpretation des coefficientsInteractionsModele sature

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 17 / 47

Page 18: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Etude sur les divorces

Les questions suivantes ont ete posees a un echantillond’environ 1000 personnes (500 mariees, 500 en instance dedivorce)(Thornes,Collard 1979). :

I Etes vous marie ou en instance de divorce ?

I Avez vous eu des experiences pre-conjugales avant votremariage avec une autre personne que votre mari oufemme ?

I Avez vous eu des experiences extra-conjugales pendantvotre mariage avec d’autres personnes que votre mari oufemme ?

Objectif Le statut marie ou divorce peut-il etre explique par lesexe de la personne, ses experiences pre et extra-conjugales ?Est que les variables explicatives precedentes augmentent oudiminuent le rapport des chances etre marie contre etredivorce ?

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 18 / 47

Page 19: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Table binomiale

X-bin ExtramaritalSex PremaritalSex Gender marie divorce1 extra.non pre.non femme 322 2142 extra.non pre.non homme 130 683 extra.non pre.oui femme 25 544 extra.non pre.oui homme 42 605 extra.oui pre.non femme 4 366 extra.oui pre.non homme 4 177 extra.oui pre.oui femme 4 178 extra.oui pre.oui homme 11 28

Tab.: Matrice explicative binomiale

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 19 / 47

Page 20: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Tableau de contigence a 4 entrees

Statut divorce marieGender PremaritalSex ExtramaritalSexfemme pre.oui extra.oui 17 4

extra.non 54 25pre.non extra.oui 36 4

extra.non 214 322homme pre.oui extra.oui 28 11

extra.non 60 42pre.non extra.oui 17 4

extra.non 68 130

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 20 / 47

Page 21: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Interactions variables qualitatives

PreSex

MaritalStatus

Gen

der

divorce marie

fem

me

hom

me

pre.oui pre.non

extr

a.ou

iex

tra.

non

extr

a.ou

iex

tra.

non

pre.oui pre.non

Fig.: Interactions entre variables

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 21 / 47

Page 22: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Modele logistique

loi Yπ(x) variable aleatoire binomiale de parametresnx et de probabilite de succes π(x) modelise lenombre de personnes mariees par groupes. Pourla premiere observation binomiale on a 4 individusmaries (succes) et 17 individus divorces ou(echec).

design Il s’agit de specifier la fonction factorielle Z . Unmodele factoriel Z (x) du groupe x est

Z (x) = [δGenderfemme (x), δPre

Oui (x), δExtraOui (x)]′ ∈M3,1({0, 1}

Pour la premiere observation x1, on aZ (x1) = [1, 1, 1]′

lien ∃β ∈M3,1(R),∀x ∈ X , logit(π(x)) = Z (x)′β

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 22 / 47

Page 23: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Paragraphe

Regression logistiqueDefinitionsExempleModelisation de l’influence des facteursInterpretation des coefficientsInteractionsModele sature

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 23 / 47

Page 24: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Variables explicatives

Les variables E=ExtraMaritalStatus, P=PremaritalStatus et G=Gender sont des variables qualitatives. Pourutiliser ces variables qualitatives dans une etude quantitative,on code ces variables en variables quantitatives, cette operationmodelise l’influence des variables explicatives sur le logarithmede la cote de succes : log(π(x)).. Pour chacune des modalitesm d’une variable qualitatives X on construit une nouvellevariable appellee δX

m. La i-eme composante vaut 1 si Xi = m et0 sinon. Ce codage est appele codage disjonctif.

I E (ExtraMarital) → (δEOui , δ

ENon)

I G (Sexe) → (δGHomme , δ

GFemme)

I P(PreMarital) → (δPOui , δ

PNon)

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 24 / 47

Page 25: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

La matrice factorielleSoit x un individu, et π(x) probabilite d’etre marie(succes) lemodele de regression logistique s’ecrit :

∀x ∈ X , logit(π(x)) = Z (x)′β

La modelisation consite a choisir les composantes du vecteurZ (x) ou les colonnes de la matrice factorielleZ = [Z (x1), · · · , Z (xn)]

′ ∈Mn,p(R) ou x1, · · · , xn sont lesgroupes d’individus de l’echantillon.

degre 0 1

degre 1 (δEOui , δ

ENon, δ

GHomme , δ

GFemme , δ

POui , δ

PNon) une sous famille

generatrice est (1, δENon, δ

GHomme , δ

PNon).

degre 2(δENonδ

GHomme , δ

ENonδ

PNon, δ

GHommeδ

PNon

)degre 3

(δENonδ

GHommeδ

PNon

)Ces fonctions forment une famille generatrice de l’ensemble desfonctions definies sur l’ensemble des modalites.

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 25 / 47

Page 26: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Exemples de matrice factorielle

1. Z (x) = 1, Z ∈Mn,1(R) n’a qu’une colonne constituee de1,

2. Z (x) = [1, δENon(x)]′, Z ∈Mn,2(R).

3. Z (x) = (1, δENon(x), δG

Homme(x))′, Z ∈Mn,3(R)

4. Z (x) = (1, δENon(x), δG

Homme(x), δENon(x)δG

Homme(x))′, Z ∈Mn,4(R)

DefinitionSoit Z ∈Mn,p la matrice factorielle d’un modele lineariregeneralise, le nombre de degres de liberte de ce modele estdim(Im(Z ))

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 26 / 47

Page 27: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Tableau disjonctif

Matrice factorielle Z contenant

X 1 δE0 δP

0 δGh δE

0 δP0 δE

0 δGh δP

0 δGh δE

0 δP0 δG

h1 1 0 0 0 0 0 0 02 1 0 0 0 0 0 0 03 1 1 0 0 0 0 0 04 1 1 0 0 0 0 0 05 1 0 1 0 0 0 0 06 1 0 1 0 0 0 0 07 1 1 1 0 1 0 0 08 1 1 1 0 1 0 0 09 1 0 0 1 0 0 0 010 1 0 0 1 0 0 0 011 1 1 0 1 0 1 0 012 1 1 0 1 0 1 0 013 1 0 1 1 0 0 1 014 1 0 1 1 0 0 1 015 1 1 1 1 1 1 1 116 1 1 1 1 1 1 1 1

Tab.: Matrice factorielle

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 27 / 47

Page 28: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Paragraphe

Regression logistiqueDefinitionsExempleModelisation de l’influence des facteursInterpretation des coefficientsInteractionsModele sature

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 28 / 47

Page 29: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Des modeles sans interactions

Voici quelques modeles sans interaction, de degre 1. Onexplique lineairement logit(π(x)) = log( π(x)

1−π(x)) qui est lelogarithme de la cote d’etre marie contre celle d’etre divorce.

1. logit(π(x)) = β0. La cote d’etre marie ne depend pas del’individu, elle est constante. ODDS(π(x)) = exp(β0). Laprobabilite d’etre marie est constante.

2. logit(π(x)) = β0 + β1δENon(x). La cote d’etre marie ne

depend que des experiences pre-maritales.I si x est un individu n’ayant pas eu d’experiences

pre-maritales alors sa cote d’etre marie estODDS(π(x)) = exp(β0)

I si x est un individu ayant eu des experiences pre-maritalesalors sa cote d’etre marie est ODDS(π(x)) = exp(β0 + β1)

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 29 / 47

Page 30: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Un modele d’ordre 1

logit(π(x)) = β0 + β1δEOui (x) + β2δ

GHomme(x)

La cote d’un individu x d’etre marie est

ODDS(π(x)) = exp(β0)exp(β1δEOui (x))exp(β2δ

GHomme(x))

Soit x un homme et x ′ une femme ayant les memecaracteritiques pour les autres variables explicatives, alors on a

δEOui (x) = δE

Oui (x′), δG

Homme(x) = 1, δGHomme(x

′) = 0

Le rapport des cotes des hommes d’etre marie sur la cote decelle des femmes est

ODDS(π(x))

ODDS(π(x ′))=

exp(β0)exp(β1δEOui (x))exp(β2δ

GHomme(x))

exp(β0)exp(β1δEOui (x

′))exp(β2δGHomme(x

′))

= exp(β2)

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 30 / 47

Page 31: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Rapport des cotes

DefinitionSoient xet x ′ deux individus, le rapport de la cote d’etre mariede l’individu x sur la cote d’etre marie de l’individu x ′ est noteORx/x ′(π). En anglais ce rapport est appele OddsRatio.

ORx/x ′(π) =ODDS(π(x))

ODDS(π(x ′))

Donc ODDS(π(x)) = ODDS(π(x ′))ODDSx/x ′(π). La coted’etre marie de l’individu x est la cote de l’individu x ′ multipliepar le rapport des cotes de l’individu x sur la cote de l’individux ′. Si ORx/x ′ < 1, la cote d’etre marie pour l’individu x estdiminuee par rapport a la cote de l’individu x .

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 31 / 47

Page 32: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Interpretation des coefficientsPrenons comme exemple le modele de degre 1

ORx/x ′(π)exp(β0)exp(β1δ

EOui (x))exp(β2δ

GHomme(x))

exp(β0)exp(β1δEOui (x

′))exp(β2δGHomme(x

′))

β0 Si x est un individu de sexe feminin et n’ayant pas eud’experience pre-conjugale alors

δEOui (x) = 0 et δG

Homme(x) = 0

On a doncODDS(π(x)) = exp(β0)

L’ensemble des femmes n’ayant pas eu d’experiencepre-conjugale est appele groupe de reference et pour unindividu du groupe de reference, sa cote d’etre marie estexp(β0). Si toutes les variables explicatives sontqualitatives, le groupe de reference est celui pour le queltoutes les covariables autre que le terme constant soientnulles.Francois Kauffmann Classification M1-MASS 24 fevrier 2009 32 / 47

Page 33: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Interpretation des coefficients

β1 Soit x0 un individu du groupe de reference (femme,n’ayant pas eu d’experience pre-conjugale) et x un hommen’ayant pas eu d’experience pre-conjugale alors

δEOui (x) = 0 et δG

Homme(x) = 1

On a donc

ODDS(π(x)) = exp(β0)exp(β1 × 1)exp(β2 × 0)

ODDS(π(x0)) = exp(β0)

ODDS(π(x))

ODDS(π(x0))= exp(β1)

La cote d’etre marie pour un homme n’ayant pas eud’experience pre-conjugale est multipliee par exp(β1) parrapport a la cote de celle des femmes n’ayant pas eud’experience pre-conjugale.

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 33 / 47

Page 34: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Interpretation des coefficients

β2 Soit x0 un individu du groupe de reference (femme,n’ayant pas eu d’experience pre-conjugale) et x une femmeayant eu des experiences pre-conjugales alors

δEOui (x) = 1 et δG

Homme(x) = 0

On a donc

ODDS(π(x)) = exp(β0)exp(β1 × 0)exp(β2 × 1))

ODDS(π(x0)) = exp(β0)

ODDS(π(x))

ODDS(π(x0))= exp(β2)

La cote d’etre marie pour une femme ayant eu desexperiences pre-conjugales est multipliee par exp(β2) parrapport a la cote de celle des femmes n’ayant pas eud’experience pre-conjugale.

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 34 / 47

Page 35: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Paragraphe

Regression logistiqueDefinitionsExempleModelisation de l’influence des facteursInterpretation des coefficientsInteractionsModele sature

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 35 / 47

Page 36: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Avec ou sans interactionsOn considere les deux modeles suivants

logit(π(x)) = β0 + β1δEOui (x) + β2δ

GHomme

logit(π(x)) = β0 + β1δEOui (x) + β2δ

GHomme(x) + β3δ

EOui (x)δG

Homme(x)

Tab.: Modele sans interaction

logit(π(x)) E (x) = Oui E (x) = NonG (x) = Homme β0 + β1 + β2 β0 + β2

G (x) = Femme β0 + β1 β0

Cotes des lignes ou des colonnes sont proportionnelles, 3 d.l.l.

Tab.: Modele avec interactions

logit(π(x)) E (x) = Oui E (x) = NonG (x) = Homme β0 + β1 + β2 + β3 β0 + β2

G (x) = Femme β0 + β1 β0

Cotes des lignes ou des colonnes ne sont pas proportionnelles, 4 d.d.lFrancois Kauffmann Classification M1-MASS 24 fevrier 2009 36 / 47

Page 37: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Interactions et rapport des cotes

On etudie le rapport des cotes d’etre marie pour un homme surla cote de celle des femmes :

Tab.: ORHomme/Femme

modele E (x) = Oui E (x) = Non

sans exp(β2) exp(β2)avec exp(β2 + β3) exp(β2)

sans Dans le modele sans interactions le rapport des coteshomme/femme ne depend pas des experiencesextra-conjugales.

avec Dans le modele avec interaction sexe et experiencepre-conjugale le rapport des cotes homme/femme dependdes experiences extra-conjugales.

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 37 / 47

Page 38: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Paragraphe

Regression logistiqueDefinitionsExempleModelisation de l’influence des facteursInterpretation des coefficientsInteractionsModele sature

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 38 / 47

Page 39: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Modele sature

DefinitionOn dit que le modele ∀x ∈ X , logit(π(x)) = Z (x)′β est saturesi le nombre de degre de libertes du modele superieur ou egal ala taille de l’echantillon.

Dans le cas des donnees sur le mariage, il y a 8 lignes pour lesdonnees groupees, il faut donc avoir un modele factoriel tel que

Z = [Z (x1), · · · , Z (xn)]′ ∈Mn,p(R)

soit de rang 8, il faut donc que Z contienne huit colonnesindependantes.

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 39 / 47

Page 40: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Modele sature

loi Yπ(x) variable aleatoire binomiale de parametrenx et de probabilite d’etre marie π(x)

design Ici l’ensemble des modalites estM = {1, 0} × {1, 0} × {H, F}, avecX = (E , P, G ), on prend la famille (δX

m)m∈M

Z (x) = [δE1 δP

1 δGF , δE

0 δP1 δG

F , · · · , δE0 δP

0 δGH ](x)

lien ∃β ∈M8,1(R),∀x ∈ X , logit(π(x)) = Z (x)′β

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 40 / 47

Page 41: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Matrice factorielle Z (x)

Z δE1 δP

1 δGF δE

0 δP1 δG

F δE1 δP

0 δGF δE

0 δP0 δG

F δE1 δP

1 δGH δE

0 δP1 δG

H δE1 δP

0 δGH δE

0 δP0 δG

H1 0 0 0 1 0 0 0 02 0 0 0 0 0 0 0 13 0 1 0 0 0 0 0 04 0 0 0 0 0 1 0 05 0 0 1 0 0 0 0 06 0 0 0 0 0 0 1 07 1 0 0 0 0 0 0 08 0 0 0 0 1 0 0 0

Tab.: Matrice factorielle

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 41 / 47

Page 42: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Estimations des β

logit(π1)logit(π2)logit(π3)logit(π4)logit(π5)logit(π6)logit(π7)logit(π8)

= Z

β1

β2

β3

β4

β5

β6

β7

β8

+

ε1ε2ε3ε4ε5ε6ε7ε8

=

β4 + ε1β8 + ε2β2 + ε3β6 + ε4β3 + ε5β7 + ε6β1 + ε7β5 + ε8

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 42 / 47

Page 43: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Estimations des π(x)

Soit x une femme ayant eu des experiences pre et extraconjugales, (modalite de reference), alors dans la cas dumodele sature on a :

π(x) = Pr([Yx = marie])

∼ nb({Y = marie, E = 1, P = 1, G = F})nb({E = 1, P = 1, G = F})

= 4/(4 + 17)

= π(x)

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 43 / 47

Page 44: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Cote d’etre marieLa cote empirique d’etre marie contre etre divorce pour unindividu x = (E = 1, P = 1, G = F ) vaut

ODDS(π(x)) = 4/17 ∼ 1

4.

Sur 5 femmes appartenant au groupeI P = 1(PremaritalSex = OUI )I E = 1(ExtramaritalSex = Oui)I G = F (Femme)

on a une femme mariee contre quatre divorcee.De la meme facon on peut calculer la cote empirique d’etremarie contre etre divorce pour les hommesx = (E = 1, P = 1, G = H) vaut 11/28 ∼ 0.39

ODDS(π(x)) = 11/28 ∼ 12

28.

Sur 40 hommes, on a 12 hommes maries contre 28 de divorcesdans les meme conditions.

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 44 / 47

Page 45: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Rapport des cotes

Soit deux individus x = (E = 1, P = 1, G = H) etx ′ = (E = 1, P = 1, G = F ), alors

ODDS(π(x)) =11

28

ODDS(π(x ′)) =4

17

OR(x/x ′) =ODDS(π(x))

ODDS(π(x ′))

=11/28

4/17

OR(x/x ′) ∼ 2

La cote d’etre marie contre etre divorce d’un homme est deuxfois la cote des femmmes si on eu des experiences pre et extramaritale.

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 45 / 47

Page 46: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Estimations des β

On dit dans ce cas que le modele est sature car le nombred’inconnues (β1, β2, · · · , β8) est ici de 8 et le nombred’equations est de 8. Dans le cas ou la matrice Z est de rang 8,le systeme d’equations a une unique solution.

log(322

214) = β4 groupe E=0,P=0,G=F

log(130

68) = β8 groupe E=0,P=0,G=H

log(25

54) = β2 groupe E=0,P=1,G=F

... =...

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 46 / 47

Page 47: Classification M1-MASS · GLM-Intro Biblio Logistique D´efinitions Exemple Design Interpr´etation Interactions Satur´e Premi`ere partie I Introduction aux mod`eles lin´eaires

GLM-Intro

Biblio

Logistique

Definitions

Exemple

Design

Interpretation

Interactions

Sature

Interpretation des coefficients

Soit x un individu du groupe E = 0, P = 0, G = F , laprobabilite

ODDS(Pr([Yx = marie])) = exp(β4)

On trouve β4 = log(322/214), la cote d’etre marie contred’etre divorce pour x est estimee par e log(322/214) = 322

214 et laprobabilite

π(x) = Pr([Yx = marie]) =322

322 + 214

Francois Kauffmann Classification M1-MASS 24 fevrier 2009 47 / 47