lineaire, tests et intervalles de con ance cours 4a 6 ...cappe/2006-2007/cours4-6_2pp.pdf ·...
TRANSCRIPT
Deuxieme partie II
Cours 4 a 6 : Construction d’estimateurs, Modelelineaire, Tests et intervalles de confiance
(version corrigee, 4 avril 2007)
Construction d’estimateurs
4 Construction d’estimateursEstimateur de momentsDivergence de KullbackMaximum de vraisemblanceL’exemple de la regression logistiqueM-Estimateurs
5 Le modele lineaire
6 Tests et intervalles de confiance
Construction d’estimateurs
La question a laquelle on cherche a repondre
Etant donne un modele statistique {Pθ, θ ∈ Θ} comment utiliserles donnees au mieux pour estimer θ ?
Un premier critere important
Estimateur consistant [Definition 5.1]
Une sequence d’estimateurs θn (ou par abus de langage unestimateur) de θ est dit consistant si θn
n→∞−−−→ θ presque surement(consistance forte) ou en probabilite (consistance faible), lorsquel’on suppose que les observations sont de loi Pθ
Cet objectif n’est envisageable que si le modele est identifiable ausens ou θ1 6= θ2 ⇒ Pθ1 6= Pθ2Autres criteres On souhaite en particulier que le risquequadratique de θn soit aussi faible que possible
Construction d’estimateurs Estimateur de moments
Estimateur de moments
Si δ(y) est une statistique telle que Eθ[δ(Y )] = θ, l’estimateur
1n
n∑i=1
δ(Yi)
est
Sans biais
Consistant (loi des grands nombres)
On peut juger de ses performances (vis a vis de la pertequadratique) en comparant Vθ[δ(Y )] a I−1
F (θ) (rappel : laborne n’est pas necessairement atteignable)
Construction d’estimateurs Estimateur de moments
Il est possible d’etre plus precis dans certains modelesSi {Pθ, θ ∈ Θ} correspond a un modele exponentiel sous formenaturelle (`(y; θ) = C(θ)h(y) exp [θ′T (y)]), l’estimateur demoments base sur la statistique T (Y ) est efficace pour
ϕ = Eθ[T (Y )] = −∂ logC(θ)∂θ
Preuve Cf. critere d’efficacite vu precedemment :
T (y)− Eθ[T (Y )] =∂ log `(y; θ)
∂θ
Ou en calculant l’expression de la borne de FDCR pour verifier que∂2 logC(θ)∂θ∂θ′ = −IF (θ) = −Vθ[T (Y )]
Exemples Estimation de la moyenne dans le modele gaussien (devariance connue), estimation de l’esperance pour une loiexponentielle, . . . [Section 4.3]
Construction d’estimateurs Estimateur de moments
On peut generaliser la construction
Exemple (Modele lineaire univarie)
{Yi = β0 + β1Xi + Ui avec Eθ[Ui|Xi] = 0 et Eθ[U2
i |Xi] <∞E[Xi] = 0 et E[X2
i ] <∞
On a
Eθ (Yi) = E (Eθ [Yi|Xi]) = β0 + β1E[Xi] = β0
Eθ (XiYi) = E (XiEθ [Yi|Xi]) = β1E[X2i ]
Donc (1/n∑n
i=1 Yi) et (1/n∑n
i=1XiYi)/ (
1/n∑n
i=1X2i
)sont
des estimateurs consistants de β0 et β1
Mais l’evaluation des performances devient delicate (voir plus loinconcernant l’approche asymptotique)
Construction d’estimateurs Estimateur de moments
latitude
temperature
−15 −10 −5 0 5 10−20
−15
−10
−5
0
5
10
15
20
Fig.: Regression lineaire sur les donnees de temperature en fonction de lalatitude (centree)
Construction d’estimateurs Divergence de Kullback
On recherche un critere numerique
1 Permettant d’attester la proximite de deux lois
2 Susceptible d’etre approche empiriquement (a partir dedonnees)
3 Se pretant a l’optimisation
4 Garantissant de bonnes performances statistiques
Construction d’estimateurs Divergence de Kullback
Divergence de Kullback*-(Leibler) [Definition 3.14]
Pour deux lois P1 et P2, de densites `1 et `2 par rapport a µ, ondefinit la divergence de Kullback par
I(P1‖P2) = EP1
[log
`1(Y )`2(Y )
]=∫
log`1(y)`2(y)
`1(y)µ(dy)
La divergence de Kullback
Ne depend pas du choix de µ
Est toujours bien definie (c’est une quantite positive qui vauteventuellement +∞)
Dans un modele parametrique, on note I(θ1‖θ2) plutot queI(Pθ1‖Pθ2)
[Definition 3.14]
*Solomon Kullback (1903 – 1994)Construction d’estimateurs Divergence de Kullback
Propriete [Proposition 3.15]
1 I(P1‖P2) ≥ 02 I(P1‖P2) = 0 si et seulement si P1 = P2
Preuve Rappel (Inegalite de Jensen) : Si g est un fonction convexeet E|Z| <∞, E[g(Z)] ≥ g(E[Z]) ; si, de plus, g est strictementconvexe, E[g(Z)] = g(E[Z]) implique qu’il existe c ∈ R tel queP[Z = c] = 1
I(P1‖P2) = −EP1
[log
`2(Y )`1(Y )
]soit en appliquant l’inegalite de Jensen a la fonction − log,
I(P1‖P2) ≥ − log∫`2(y)`1(y)
`1(y)µ(dy) = 0
Construction d’estimateurs Maximum de vraisemblance
Utilisation de la divergence de Kullback en statistiqueLa divergence de Kullback constitue une mesure permettantd’attester la proximite de deux lois P1 et P2 (bien qu’elle ne soitpas symetrique)
Critere asymptotique du maximum de vraisemblance
Q(θ) def= − I(P‖Pθ) =∫
log`(y; θ)`(y)
`(y)µ(dy)
ou P designe la loi des observations et {Pθ, θ ∈ Θ} est un modelestatistique parametrique
θ0def= arg max
θ∈ΘQ(θ)
definit le meilleur ajustement (au sens de la divergence deKullback) dans la famille parametrique {Pθ, θ ∈ Θ}
Construction d’estimateurs Maximum de vraisemblance
Proprietes du critere asymptotique du maximum devraisemblance
1 Si P = Pθ0 pour θ0 ∈ Θ et le modele {Pθ, θ ∈ Θ} estidentifiable, Q(θ) admet un maximum unique en θ = θ0
2 Si, de plus, le modele est regulier (de vraisemblance `(·; θ))
∂2Q(θ)∂θ∂θ′
∣∣∣∣θ=θ0
= Eθ0
[∂2 log `(Y ; θ)
∂θ∂θ′
∣∣∣∣θ=θ0
]= −IF (θ0)
[Proposition 3.16]
En particulier
Q(θ) = −12(θ − θ0)′IF (θ0)(θ − θ0) + o(‖θ − θ0‖2)
la matrice d’information de Fisher determine lecomportement local du critere autour du maximum θ0
Construction d’estimateurs Maximum de vraisemblance
Estimateur du maximum de vraisemblance
On appelle critere empirique du maximum de vraisemblance
Qn(θ) =1n
n∑i=1
log `(Yi; θ)=1n
log `n(Y1, . . . , Yn; θ)︸ ︷︷ ︸Ln(Y1,...,Yn;θ)
L’estimateur du maximum de vraisemblance est defini(implicitement) par
θn = arg maxθ∈Θ
Qn(θ)
Remarque Qn(θ) a meme optimum que
Qn(θ) = 1n
∑ni=1 log `(Yi;θ)
`(Yi;θ0)
Pθ0 p.s.−−−−−→ Q(θ)
Construction d’estimateurs Maximum de vraisemblance
Exemple (Modele de regression lineaire univarie gaussien)
Yi = β0 + β1Xi + Ui
avec Ui|Xi ∼ N (0, σ2)
Qn(θ) = Cte − 12nσ2
n∑i=1
(Yi − β0 − β1Xi)2︸ ︷︷ ︸a minimiser en β0, β1
En supposant 1n
∑ni=1Xi = 0 (sinon, s’y ramener) on trouve
β0,n =1n
n∑i=1
Yi β1,n =∑n
i=1XiYi∑ni=1X
2i
Construction d’estimateurs Maximum de vraisemblance
Cas des modeles exponentielsSi {Pθ, θ ∈ Θ} correspond a un modele exponentiel sous formenaturelle (`(y; θ) = C(θ)h(y) exp [θ′T (y)])
Q(θ) = logC(θ) + θ′EP[T (y)] et la condition d’optimalite aupremier ordre est
−∂ logC(θ)∂θ
= Eθ[T (Y )] = EP[T (y)]
Qn(θ) = logC(θ) + θ′(
1n
∑ni=1 T (Yi)
)et la condition
d’optimalite au premier ordre est
−∂ logC(θ)∂θ
= Eθ[T (Y )] =1n
n∑i=1
T (Yi)
Si IF (θ) � 0, Q et Qn sont des fonctions strictementconcaves de θ est l’estimateur du maximum de vraisemblanceθn est defini (implicitement) par l’equation de vraisemblance
Eθn[T (Y )] =
1n
n∑i=1
T (Yi)
Construction d’estimateurs Maximum de vraisemblance
Equivariance du maximum de vraisemblance
Si ϕ = g(θ) correspond a une reparametrisation du modele (gbijective)
ϕn = g(θn
)Exemple (Estimation d’une loi exponentielle)
Pour`(y; θ) = θ e−θy pour y ∈ R+
l’equation de vraisemblance s’ecrit
n
θ−
n∑i=1
Yi = 0
donc l’estimateur du maximum de vraisemblance de θ estθn =
(1n
∑ni=1 Yi
)−1et celui de ϕ = 1/θ= Eθ[Y ] est 1
n
∑ni=1 Yi
Construction d’estimateurs L’exemple de la regression logistique
On s’interesse souvent a des modeles conditionnels dans lesquels lavariable de reponse Y est categorielle (ou qualitative), c’est-a-direprend un nombre fini de valeurs (on considere ici le cas binaire)
sbp100 120 140 160 180 200 220
0
1
tobacco−5 0 5 10 15 20 25 30 35
0
1
ldl0 5 10 15 20
0
1
obesity15 20 25 30 35 40 45 50
0
1
alcohol−20 0 20 40 60 80 100 120
0
1
age10 15 20 25 30 35 40 45 50 55 60 65
0
1
Fig.: Presence de la maladie coronarienne en fonction de 6 facteurs (270individus)
Construction d’estimateurs L’exemple de la regression logistique
Regression logistique (ou modele logit)
Conditionnellement a X, Y est une variable de Bernoulli telle que
logPθ(Y = 1|X)Pθ(Y = 0|X)
= X ′θ
C’est un modele de regression lineaire sur le log-rapport deprobabilites
De facon equivalente
logit (Pθ[Y = 1|X]) = X ′θ avec
logit : ]0, 1[→]−∞,+∞[, p 7→ logp
1− p
Pθ(Y = 1|X) = logit−1 (X ′θ) avec
logit−1 : ]−∞,+∞[→]0, 1[, x 7→ ex
1 + ex=(1 + e−x
)−1
Construction d’estimateurs L’exemple de la regression logistique
Formulation equivalenteOn peut voir le modele logit comme un modele a donnee latente ou
Y ∗ = X ′θ + U
Y = 1{Y ∗ > 0}
[Section 2.27]
Pθ(Y = 1|X) = Pθ(Y ∗ > 0|X)= Pθ(U > −X ′θ|X) = 1− F (−X ′θ)
ou F (x) designe la fonction de repartition de U (supposeindependant de X), qui doit donc etre egale a logit−1(x)(de facon equivalente, logit−1(U) suit une loi uniforme sur ]0, 1[)
On peut imaginer d’autre types de modelisation pour U (par ex.modele probit)
Construction d’estimateurs L’exemple de la regression logistique
Estimateur du maximum de vraisemblance
Log-vraisemblance (conditionnelle)
log `n(Y1, . . . , Yn|X1, . . . , Xn; θ)
=n∑i=1
Yi log Pθ(Yi = 1|Xi) + (1− Yi) log Pθ(Yi = 0|Xi)
=n∑i=1
Yi logPθ(Yi = 1|Xi)Pθ(Yi = 0|Xi)
+ log Pθ(Yi = 0|Xi)
=n∑i=1
Yi(X ′iθ)− log(1 + eX
′iθ)
Gradient (fonction de score)
∂ log `n(Y1, . . . , Yn|X1, . . . , Xn; θ)∂θ
=n∑i=1
Xi {Yi − Pθ(Yi = 1|Xi)}
Construction d’estimateurs L’exemple de la regression logistique
Hessien
∂2 log `n(Y1, . . . , Yn|X1, . . . , Xn; θ)∂θ∂θ′
= −n∑i=1
XiX′i Pθ(Yi = 1|Xi) {1− Pθ(Yi = 1|Xi)}︸ ︷︷ ︸
variance conditionnelle de Yi
� 0(≺ 0 avec PX -probabilite 1 si X a une loi continue et n > p)
La maximisation de la log-vraisemblance (conditionnelle) est unprobleme d’optimisation convexe
Construction d’estimateurs L’exemple de la regression logistique
sbp100 120 140 160 180 200 220
0
1
tobacco−5 0 5 10 15 20 25 30 35
0
1
ldl0 5 10 15 20
0
1
obesity15 20 25 30 35 40 45 50
0
1
alcohol−20 0 20 40 60 80 100 120
0
1
age10 15 20 25 30 35 40 45 50 55 60 65
0
1
Fig.: Presence de la maladie coronarienneen fonction de 6 facteurs
sbp 1.66
tobacco 6.61
ldl 0.74
obesity 2E-4
alcohol - 2.24
age 9.59
Tab.: Parametres estimes(20 iterations de l’algorithmede Newton) sur les donneescentrees et normalisees
Construction d’estimateurs M-Estimateurs
M-EstimateurDans les cas ou
L’estimateur du maximum de vraisemblance est difficile adeterminer
La loi des observations n’est pas entierement determinee parle parametre θ (modele semi-parametrique)
On souhaite imposer certaines proprietes aux estimateurs (voirci-apres l’exemple de regression robuste)
on est amene a utiliser un M-Estimateur defini (implicitement) par
θn = arg maxθ∈Θ
1n
n∑i=1
ψ(Yi; θ)
ou ψ est une fonction a valeur reelle [Definition 5.3]
Remarque : Ce cadre general est aussi interessant car il permetd’inclure d’autres types d’estimateurs (comme les estimateurs demoments)
Construction d’estimateurs M-Estimateurs
Outre des conditions de regularite (cf. [Proposition 5.4]), il estraisonnable de penser (et nous le demontrerons plus loin) que θnne peut etre consistant que si
Eθ0 [ψ(Y ; θ)] a un maximum unique en θ0
puisque c’est le critere asymptotique limite lorsque Y1, . . . , Yn sontIID de loi Pθ0 (par la loi des grands nombres)
Modele de regression non-lineaire
Dans un modele conditionnel ou E [h(X; θ1)] = E [h(X; θ2)]implique θ1 = θ2 (en notant h(X; θ) = Eθ[Y |X]), on peut utiliserle critere des moindres carres (non-lineaire) :
Qn(θ) =1n
n∑i=1
− (Yi − h(Xi; θ))2︸ ︷︷ ︸
ψ(Yi,Xi;θ)
Construction d’estimateurs M-Estimateurs
La regression lineaire est sensible a la presence de donneesaberrantes
latitude
temperature
−15 −10 −5 0 5 10−20
−15
−10
−5
0
5
10
15
20
Fig.: Regression lineaire sur les donnees de temperature en fonction de lalatitude, avec ou sans donnee aberrante
Construction d’estimateurs M-Estimateurs
Regression lineaire robuste
Plutot que la fonction des moindres carres : ψ(x, y;β) = −γMC(r)ou
γMC(r) = r2 avec rdef=y − (β0 + β1x)
On utilise une fonction de Huber
γH(r) =
{r2 si |r| ≤ τ
2τ |r| − τ2 sinon
0τ τ
On verifie aisement que γH est convexe et de classe C1 (mais pasC2) de telle facon que
min(β0,β1)∈R2
1n
n∑i=1
γH {Yi − (β0 + β1Xi)}
est un probleme de minimisation convexe qui se prete bien al’optimisation numerique
Construction d’estimateurs M-Estimateurs
latitude
temperature
−15 −10 −5 0 5 10−20
−15
−10
−5
0
5
10
15
20
Fig.: Regression lineaire robuste sur les donnees de temperature enfonction de la latitude, avec ou sans donnee aberrante (τ = 4.9, soitenviron 80% des residus qui tombent la partie quadratique du critere)
Le modele lineaire
4 Construction d’estimateurs
5 Le modele lineaireEstimateur des moindres carresCas gaussien
6 Tests et intervalles de confiance
Le modele lineaire
Le modele lineaire [Chapitre 9]
On s’interesse ici au cas du modele lineaire (ou modele deregression lineaire) dans lequel
Yi = X ′iβ + Ui
ou Ui est independant de Xi et E[Ui] = 0, E[U2i ] = σ2
Si on suppose de plus que Ui ∼ N (0, σ2), on parlera de modelelineaire gaussien (ou normal)
Remarque Dans le cas ou les regresseurs {Xi} sont aleatoires, lemodele est defini de facon conditionnelle (de meme que certainsdes resultats qui suivent doivent etre compris de faconconditionnelle)
Le modele lineaire
Il est utile de reecrire le modele de l’ensemble des observationssous forme vectorielle :
Y1
...
Yn
︸ ︷︷ ︸
Y
=
X ′
1 = (X1(1), . . . , X1(p))
...
X ′n = (Xn(1), . . . , Xn(p))
︸ ︷︷ ︸
X (n×p)
β +
U1
...
Un
︸ ︷︷ ︸
U
avec Eθ[U ] = 0 et Vθ[U ] = σ2Idn (ou U ∼ N (0, σ2Idn) si lemodele est gaussien)
On suppose que X est de rang p
Le modele lineaire Estimateur des moindres carres
On considere le critere des moindres carresψ(Xi, Yi;β) = −(Yi −X ′
iβ)2
βMC = arg minβ∈Rp
n∑i=1
(Yi −X ′iβ)2︸ ︷︷ ︸
‖Y−Xβ‖2
Interpretation geometriqueProbleme de projection orthogonale duvecteur Y ∈ Rn sur le sous espace dedimension p im(X) (engendre par lescolonnes de X)
⇔ Y − Y ⊥ im(X) ou Ydef=Xβ im(X)
Y
Y
Y − Y
Le modele lineaire Estimateur des moindres carres
La condition Y − Y ⊥ im(X) est equivalente a X ′(Y −Xβ) = 0d’ou
L’estimateur des moindres carres
β =(X ′X
)−1X ′Y
La decomposition β = β + (X ′X)−1X ′U montre que
1 Eθ[β] = β, β est sans biais
2 Vθ[β] = σ2 (X ′X)−1
Propriete β est l’estimateur lineaire sans biais de β de matrice decovariance minimale [Theoreme (Gauss-Markov) 4.11]
Remarque : Generalisation au cas heteroscedastique, Eθ[Ui] = σ2i ,
ou au cas d’une matrice de covariance quelconque (connue)
Le modele lineaire Estimateur des moindres carres
Relation de Pythagore
‖Y − Y ‖2 = ‖Y ‖2 − ‖Y ‖2 = ‖Y ‖2 − Y ′Y
= Y ′Y − Y ′X(X ′X
)−1X ′Y = Y ′
(Idn −X
(X ′X
)−1X ′)Y
= U ′(Idn −X
(X ′X
)−1X ′)U
X (X ′X)−1X ′ est la matrice de projection sur im(X)Idn −X (X ′X)−1X ′ est la matrice de projection sur lesous-espace (de dimension n− p) orthogonal a im(X)
Il existe M matrice unitaire (M ′M = Idn) telle que
Idn −X(X ′X
)−1X ′ = M
Idn−p... 0
· · · · · ·
0... 0
M ′
Le modele lineaire Estimateur des moindres carres
Estimation de la variance
‖Y − Y ‖2/(n− p) est un estimateur sans biais de la variance σ2
Preuve
Eθ(‖Y − Y ‖2
)= Eθ
{tr[U ′(Idn −X
(X ′X
)−1X ′)U]}
= tr[(
Idn −X(X ′X
)−1X ′)
Eθ(UU ′
)]= σ2(n− p)
Le modele lineaire Cas gaussien
Dans le cas gaussien, U ∼ N (0, σ2Idn)
1 log `n(Y1, . . . , Yn; θ) = −12
{n log 2π + n log σ2 + ‖Y−Xβ‖2
σ2
}donc β et (n− p)/nσ2 sont les estimateurs du maximum devraisemblance
2 β = β + (X ′X)−1X ′U implique que
β ∼ N(β, σ2
(XX ′)−1
)
3 (n− p)σ2/σ2 ∼ χ2(n− p), (( loi du khi-deux a n− p degresde libertes )), dans la mesure ou
(n− p)σ2 = ‖Y − Y ‖2 = U ′M
Idn−p... 0
· · · · · ·
0... 0
M ′U︸ ︷︷ ︸∼N (0,σ2Idn)
Le modele lineaire Cas gaussien
Rappel [Cours de probabilite, Tables 3 et 4]
La loi du khi-deux a k degres deliberte est la loi de
∑ki=1X
2i
lorsque {Xi} sont IID de loiN (0, 1)
La loi de Student* a k degres deliberte est la loi de Yq
1/kPk
i=1X2i
lorsque {Xi} sont IID de loiN (0, 1) et Y est une variablenormale independante des {Xi}
*William S. Gosset (1876–1937)
Le modele lineaire Cas gaussien
4βi−βi√σ2xii
∼ t(n− p) ou xii est le ieme terme diagonal de
(XX ′)−1 et t(n− p) designe la loi de Student a n− p degresde liberte
Preuve β = β + (X ′X)−1X ′U et(n− p)σ2 = ‖(Idn −X (X ′X)−1X ′)U‖2, or
Cov[(X ′X
)−1X ′U , (Idn −X
(X ′X
)−1X ′)U
]=(X ′X
)−1X ′ Eθ[UU ′]︸ ︷︷ ︸
σ2Idn
(Idn −X(X ′X
)−1X ′) = 0 (3)
donc (X ′X)−1X ′U et (Idn −X (X ′X)−1X ′)U sont independantset, par suite, β et σ2 sont independants
Tests et intervalles de confiance
4 Construction d’estimateurs
5 Le modele lineaire
6 Tests et intervalles de confianceTestsCas de deux hypotheses simplesCas general : Approche de Neyman-PearsonIntervalles de confiance
Tests et intervalles de confiance Tests
La problematique des tests
Test d’hypotheses (binaires) [Section 6.1]
Soit un modele statistique {Pθ; θ ∈ Θ} et des hypotheses
H0 : θ ∈ Θ0
H1 : θ ∈ Θ1 = Θ \Θ0
Un test (pur) est une statistique a valeur dans {0, 1} dontl’interpretation est {
ϕ(Y ) = 1 H1 est vraie
ϕ(Y ) = 0 H0 est vraie
Remarque : Il existe egalement des tests mixtes ou aleatoires dontl’importance est essentiellement theorique
Tests et intervalles de confiance Tests
Hypotheses simples et composites
Une hypothese Hi : θ ∈ Θi est dite
Simple si Θi = {θi}Composite sinon
1 Dans le cas d’un modele parametrique et si Hi est unehypothese simple, la loi des observations est connue sous Hi
2 Il est frequent qu’une seule des deux hypotheses soit simple :par exemple, Θ = Rp, H0 : θ = θ0
3 Les hypotheses peuvent aussi etre definies implicitement sousla forme Hi : g(θ) = 0 ou g : Θ → Rp est une fonction(par exemple, g(θ1, θ2) = θ1 − θ2 pour tester l’egalite de deuxcoordonnees du parametres)
Tests et intervalles de confiance Tests
Comment quantifier la performance d’un test ?
Risque de premiere espece
αϕ(θ) def=Pθ [ϕ(Y ) = 1] = Eθ [ϕ(Y )] pour θ ∈ Θ0
Risque de seconde espece
βϕ(θ) = Pθ [ϕ(Y ) = 0] = 1−Eθ [ϕ(Y )] pour θ ∈ Θ1
On utilise en general plutot la puissance
ρϕ(θ) = Eθ [ϕ(Y )] pour θ ∈ Θ1
En se placant du point de vue de H0, on peut interpreter αϕ(θ)comme le (( taux de fausses alarmes )) et ρϕ(θ) comme la(( probabilite de detection ))
Tests et intervalles de confiance Cas de deux hypotheses simples
On considere un modele statistique domine et deux hypothesessimples {
H0 : θ = θ0 `(y; θ0)H1 : θ = θ1 `(y; θ1)
=⇒
{αϕ =
∫ϕ(y)`(y; θ0)µ(dy)
ρϕ =∫ϕ(y)`(y; θ1)µ(dy)
On presente ici deux facons classiques de choisir ϕ : l’approchebayesienne et l’approche de Neyman-Pearson*
*Thomas Bayes (1702–1761), Jerzy Neyman (1894–1981), Egon Pearson(1895–1986)
Tests et intervalles de confiance Cas de deux hypotheses simples
Dans l’approche bayesienne
1 On definit une fonction de perte en donnant des couts c0 et c1aux erreurs de premiere et seconde espece
2 On probabilise les hypotheses en specifiant des probabilites apriori π0 et π1 (π0 + π1 = 1) pour H0 et H1
Le risque du test est defini par
rϕ = E {c0P(ϕ(Y ) = 1|H0 vraie) + c1P(ϕ(Y ) = 0|H1 vraie)}= c0π0αϕ + c1π1(1− ρϕ)
Test bayesien
Le test ϕ qui minimise le risque bayesien rϕ est donne par
ϕ(y) =
{1 si `(y;θ1)
`(y;θ0) >c0π0c1π1
0 sinon
Tests et intervalles de confiance Cas de deux hypotheses simples
Preuve
rϕ = c0π0αϕ + c1π1(1− ρϕ)
= c0π0
∫ϕ(y)`(y; θ0)µ(dy)
+ c1π1
(1−
∫ϕ(y)`(y; θ1)µ(dy)
)Le risque bayesien minimal est obtenu en
arg minϕ mesurable
∫ϕ(y) [c0π0`(y; θ0)− c1π1`(y; θ1)]µ(dy)
soit
ϕ(y) =
{1 si c0π0`(y; θ0)− c1π1`(y; θ1) < 00 sinon (valeur en cas d’egalite indifferente)
Tests et intervalles de confiance Cas de deux hypotheses simples
Exemple (Test de deux lois normales de meme variance)
{H0 : Y ∼ N (µ0, σ)H1 : Y ∼ N (µ1, σ) avec µ1 > µ0
`(Y ; θ1)`(Y ; θ0)
≷ s⇔ log`(Y ; θ1)`(Y ; θ0)
≷ log s
⇔ −12
[(Y − µ1
σ
)2
−(Y − µ0
σ
)2]≷ log s
⇔ (µ1 − µ0)σ
[Y − (µ0 + µ1)/2
σ
]≷ log s
De meme pour n observations
log`n(Y1, . . . , Yn; θ1)`n(Y1, . . . , Yn; θ0)
=(µ1 − µ0)
σ
[∑ni=1 {Yi − (µ0 + µ1)/2}
σ
]Tests et intervalles de confiance Cas de deux hypotheses simples
Test de deux lois normales de meme variance (suite)1
σ√n
∑ni=1 {Yi − (µ0 + µ1)/2} a pour loi{
Sous H0, N(−√n[µ1−µ0
2σ
], 1)
Sous H1, N(√n[µ1−µ0
2σ
], 1)
D’ou pour le test 1σ√n
∑ni=1 {Yi − (µ0 + µ1)/2} ≷ t :
Risque de premiere espece α(t) = 1− Φ(t+
√n[µ1−µ0
2σ
])Puissance ρ(t) = 1− Φ
(t−
√n[µ1−µ0
2σ
])La courbe ρ(t) en fonction de α(t) (lorsque t varie) est dite courbeCOR (Caracteristique Operationnelle de Reception) et nousrenseigne sur le compromis entre les deux objectifs antagonistesρ(t) ↑ et α(t) ↓
Tests et intervalles de confiance Cas de deux hypotheses simples
risque 1er esp.
puissance
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.00.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Fig.: Courbes COR pour (µ1 − µ0)/σ = 0.2 avec 10, 50 et 200observations
Tests et intervalles de confiance Cas de deux hypotheses simples
Dans l’approche de Neyman-Pearson
1 On dissymetrise les deux types d’erreurs :{H0 est l’hypothese de reference ou hypothese nulle
H1 est l’hypothese alternative
2 On cherche a maximiser la puissance du test sous lacontrainte que le risque de premiere espece αϕ(θ) soitinferieur a une valeur α specifiee par l’utilisateur
Le niveau du test est la valeur αϕ = supθ∈Θ0αϕ(θ)
Test UPP (Uniformement Plus Puissant) [Definition 6.9]
Un test ϕ est dit UPP dans la classe C si αϕ ≤ αϕ pour ϕ ∈ Cimplique
ρϕ(θ) ≤ ρϕ(θ) ⇔ Eθ[ϕ(Y )] ≤ Eθ[ϕ(Y )]
pour θ ∈ Θ1
Tests et intervalles de confiance Cas de deux hypotheses simples
Lemme de Neyman-Pearson [Proposition 6.13]
Pour tout α, 0 < α < 1, il existe un test de Neyman de la forme*
ϕ(y) =
{1 si `(y; θ1)/`(y; θ0) > s
0 si `(y; θ1)/`(y; θ0) < s (ou s ∈ R+)
qui est de niveau α ; celui-ci est UPP dans la classe des tests deniveau inferieur ou egal a α
Inversement, un test qui possede ces proprietes est necessairementun test de Neyman
*La formulation ci-dessus suffit si on suppose que µ“n
y : `(y;θ1)`(y;θ0)
= so”
= 0
∀s ∈ R+, sinon il faut regler plus precisement le cas d’egalite (en considerantun test mixte)
Tests et intervalles de confiance Cas de deux hypotheses simples
Preuve La preuve complete est donnee dans le polycopie
L’argument principal est le fait que si ϕ est un test de Neymanassocie au seuil s et ϕ est un autre test∫
[ϕ(y)− ϕ(y)] [`(y; θ1)− s`(y; θ0)]µ(dy) ≥ 0
d’ouEθ1 [ϕ(Y )− ϕ(Y )] ≥ sEθ0 [ϕ(Y )− ϕ(Y )]
c’est a direρϕ − ρϕ ≥ s (αϕ − αϕ)
Tests et intervalles de confiance Cas general : Approche de Neyman-Pearson
Cas general
Les arguments precedents se generalisent difficilement dans le casou les deux hypotheses ne sont pas des hypotheses simples*
L’approche adoptee dans la suite consiste a
1 Choisir une statistique de test ξ(Y ) dont la loi est connuesous H0
2 Ajuster le seuil s de facon a ce que le test ϕ(Y ) correspondanta ξ(Y ) ≷ s soit de niveau α (fixe par l’utilisateur,suffisamment faible pour que le test soit significatif)
3 Si possible, evaluer la puissance du test (sous H1)
*Voir toutefois le cas d’une hypothese composite unilaterale [Section 6.3.2]Tests et intervalles de confiance Cas general : Approche de Neyman-Pearson
(Exemple) Cas de la regression lineaire – Test de Student
Dans le modele Yi = β0 + β1Xi + Ui avecUi ∼ N (0, σ2), on sait que
ξn = (β1 − β1)/√σ2x11
=
√√√√ n∑i=1
X2i
(β1 − β1)√σ2
suit une loi de Student a n− 2 degres delibertes (cf. cours precedent + regresseurscentres)
latitude
temperature
−15 −10 −5 0 5 10−20
−15
−10
−5
0
5
10
15
20
On utilise ξn =√∑n
i=1X2i|β1|√σ2
pour tester l’hypothese H0 :
β1 = 0, c’est-a-dire, (( les regresseurs n’ont pas d’influence sur lavaleur des variables de reponse ))
Tests et intervalles de confiance Cas general : Approche de Neyman-Pearson
En utilisant la [Table n 4] ouequivalent (fonction cdft enscilab) on determine le seuilz1−α/2 tel que
P(T > z1−α/2) = α/2
pour une variable T de loi deStudent a n− 2 degres de liberte,ou α est le niveau de confiance(souvent pris a 0.05)
ξn
z1−α/2
α
ξn ≤ z1−α/2 ⇒ H0 acceptee
ξn > z1−α/2 ⇒ H0 refusee
(au niveau de confiance α)
Remarque Pour une idee plus qualitative du resultat, on calculesouvent la probabilite critique (ou p-valeur) : 2P(T > ξn)(interpretation : le niveau de confiance maximum pour lequel onaurait rejete l’hypothese H0)
Tests et intervalles de confiance Cas general : Approche de Neyman-Pearson
latitude
temperature
−15 −10 −5 0 5 10−20
−15
−10
−5
0
5
10
15
20
temperatures/latitudes
n H0 (α = 0.05) p-valeur
7 Acceptee 0.1414 Rejetee 6.7 10−5
28 Rejetee 6.5 10−10
56 Rejetee 1.1 10−16
longitude
temperature
−30 −20 −10 0 10 20 30 40−20
−15
−10
−5
0
5
10
15
20
temperatures/longitudes
n H0 (α = 0.05) p-valeur
7 Acceptee 0.6014 Acceptee 0.9028 Acceptee 0.7856 Acceptee 0.87
Tests et intervalles de confiance Intervalles de confiance
Les intervalles de confiances
Question posee Au vu des donnees, quelles sont les valeurs de θqui sont credibles ? Et comment quantifier la fiabilite de la reponsefournie a cette question ?
Region de confiance [Definition 8.1]
Une region de confiance pour θ est une fonction S(y) de y a valeurdans l’ensemble des parties de Y telle que
Pθ (θ ∈ S(Y )) = 1− α
ou 1− α est dit probabilite de couverture ou niveau de confiance
Si θ est un parametre scalaire, on parle d’intervalle de confiance
Tests et intervalles de confiance Intervalles de confiance
Fonction pivotale
Une fonction v(y; θ) est dite pivotale si la loi de v(Y ; θ) ne dependpas de θ sous Pθ
Si v est un fonction pivotale a valeur reelle telle quePθ (v(Y ; θ) ∈ [a, b]) = 1− α,
{θ : v(Y ; θ) ∈ [a, b]}
constitue une region de confiance de probabilite decouverture 1− α
Si v(Y ; θ) a une loi symetrique sous Pθ, on verifie que pour uneprobabilite 1−α donnee, l’intervalle de longueur minimale verifiantles conditions ci-dessus est de la forme [−a, a] ; c’est celui-ci quisera choisi
Tests et intervalles de confiance Intervalles de confiance
(Exemple) Cas de la regression lineaire Dans le modeleYi = β0 + β1Xi + Ui avec Ui ∼ N (0, σ2), on sait que√√√√ n∑
i=1
X2i
(β1 − β1)√σ2
suit une loi de Student a n− 2 degres de libertes
Si z1−α/2 designe le niveau depasse avec probabilite α/2 pourcette loi,β1 − z1−α/2
√σ2√∑ni=1X
2i
, β1 + z1−α/2
√σ2√∑ni=1X
2i
est l’intervalle de confiance de probabilite 1− α pour β1
Tests et intervalles de confiance Intervalles de confiance
Dans le cas precedent, l’intervalle de confiance obtenu coıncideavec l’ensemble des valeurs de β1∗ pour lequel le test d’hypotheseH0 : β1 = β1∗ de niveau α aurait ete accepte, compte tenu de lavaleur estime β1
Par exemple On peut tester H0 : β1 = 0 en verifiant si l’origine sesitue ou non dans l’intervalleβ1 − z1−α/2
√σ2√∑ni=1X
2i
, β1 + z1−α/2
√σ2√∑ni=1X
2i
Cette equivalence entre test et intervalle de confiance constitueune remarque generale
Tests et intervalles de confiance Intervalles de confiance
latitude
temperature
−15 −10 −5 0 5 10−20
−15
−10
−5
0
5
10
15
20
temperatures/latitudes
n Intervalle de confiance a 95%
7 −0.76± 1.1314 −1.15± 0.4228 −1.15± 0.2556 −1.14± 0.19
longitude
temperature
−30 −20 −10 0 10 20 30 40−20
−15
−10
−5
0
5
10
15
20
temperatures/longitudes
n Intervalle de confiance a 95%
7 0.07± 0.3414 −0.02± 0.3328 −0.03± 0.1956 0.01± 0.13