lineaire, tests et intervalles de con ance cours 4a 6 ...cappe/2006-2007/cours4-6_2pp.pdf ·...

Deuxieme partie II

Cours 4 a 6 : Construction d’estimateurs, Modelelineaire, Tests et intervalles de confiance

(version corrigee, 4 avril 2007)

Construction d’estimateurs

4 Construction d’estimateursEstimateur de momentsDivergence de KullbackMaximum de vraisemblanceL’exemple de la regression logistiqueM-Estimateurs

5 Le modele lineaire

6 Tests et intervalles de confiance

Construction d’estimateurs

La question a laquelle on cherche a repondre

Etant donne un modele statistique {Pθ, θ ∈ Θ} comment utiliserles donnees au mieux pour estimer θ ?

Un premier critere important

Estimateur consistant [Definition 5.1]

Une sequence d’estimateurs θn (ou par abus de langage unestimateur) de θ est dit consistant si θn

n→∞−−−→ θ presque surement(consistance forte) ou en probabilite (consistance faible), lorsquel’on suppose que les observations sont de loi Pθ

Cet objectif n’est envisageable que si le modele est identifiable ausens ou θ1 6= θ2 ⇒ Pθ1 6= Pθ2Autres criteres On souhaite en particulier que le risquequadratique de θn soit aussi faible que possible

Construction d’estimateurs Estimateur de moments

Estimateur de moments

Si δ(y) est une statistique telle que Eθ[δ(Y )] = θ, l’estimateur

1n

n∑i=1

δ(Yi)

est

Sans biais

Consistant (loi des grands nombres)

On peut juger de ses performances (vis a vis de la pertequadratique) en comparant Vθ[δ(Y )] a I−1

F (θ) (rappel : laborne n’est pas necessairement atteignable)


Il est possible d’etre plus precis dans certains modelesSi {Pθ, θ ∈ Θ} correspond a un modele exponentiel sous formenaturelle (`(y; θ) = C(θ)h(y) exp [θ′T (y)]), l’estimateur demoments base sur la statistique T (Y ) est efficace pour

ϕ = Eθ[T (Y )] = −∂ logC(θ)∂θ

Preuve Cf. critere d’efficacite vu precedemment :

T (y)− Eθ[T (Y )] =∂ log `(y; θ)

∂θ

Ou en calculant l’expression de la borne de FDCR pour verifier que∂2 logC(θ)∂θ∂θ′ = −IF (θ) = −Vθ[T (Y )]

Exemples Estimation de la moyenne dans le modele gaussien (devariance connue), estimation de l’esperance pour une loiexponentielle, . . . [Section 4.3]


On peut generaliser la construction

Exemple (Modele lineaire univarie)

{Yi = β0 + β1Xi + Ui avec Eθ[Ui|Xi] = 0 et Eθ[U2

i |Xi] <∞E[Xi] = 0 et E[X2

i ] <∞

On a

Eθ (Yi) = E (Eθ [Yi|Xi]) = β0 + β1E[Xi] = β0

Eθ (XiYi) = E (XiEθ [Yi|Xi]) = β1E[X2i ]

Donc (1/n∑n

i=1 Yi) et (1/n∑n

i=1XiYi)/ (

1/n∑n

i=1X2i

)sont

des estimateurs consistants de β0 et β1

Mais l’evaluation des performances devient delicate (voir plus loinconcernant l’approche asymptotique)


latitude

temperature

−15 −10 −5 0 5 10−20

−15

−10

−5

0

5

10

15

20

Fig.: Regression lineaire sur les donnees de temperature en fonction de lalatitude (centree)

Construction d’estimateurs Divergence de Kullback

On recherche un critere numerique

1 Permettant d’attester la proximite de deux lois

2 Susceptible d’etre approche empiriquement (a partir dedonnees)

3 Se pretant a l’optimisation

4 Garantissant de bonnes performances statistiques

Construction d’estimateurs Divergence de Kullback

Divergence de Kullback*-(Leibler) [Definition 3.14]

Pour deux lois P1 et P2, de densites `1 et `2 par rapport a µ, ondefinit la divergence de Kullback par

I(P1‖P2) = EP1

[log

`1(Y )`2(Y )

]=∫

log`1(y)`2(y)

`1(y)µ(dy)

La divergence de Kullback

Ne depend pas du choix de µ

Est toujours bien definie (c’est une quantite positive qui vauteventuellement +∞)

Dans un modele parametrique, on note I(θ1‖θ2) plutot queI(Pθ1‖Pθ2)

[Definition 3.14]

*Solomon Kullback (1903 – 1994)Construction d’estimateurs Divergence de Kullback

Propriete [Proposition 3.15]

1 I(P1‖P2) ≥ 02 I(P1‖P2) = 0 si et seulement si P1 = P2

Preuve Rappel (Inegalite de Jensen) : Si g est un fonction convexeet E|Z| <∞, E[g(Z)] ≥ g(E[Z]) ; si, de plus, g est strictementconvexe, E[g(Z)] = g(E[Z]) implique qu’il existe c ∈ R tel queP[Z = c] = 1

I(P1‖P2) = −EP1

[log

`2(Y )`1(Y )

]soit en appliquant l’inegalite de Jensen a la fonction − log,

I(P1‖P2) ≥ − log∫`2(y)`1(y)

`1(y)µ(dy) = 0

Construction d’estimateurs Maximum de vraisemblance

Utilisation de la divergence de Kullback en statistiqueLa divergence de Kullback constitue une mesure permettantd’attester la proximite de deux lois P1 et P2 (bien qu’elle ne soitpas symetrique)

Critere asymptotique du maximum de vraisemblance

Q(θ) def= − I(P‖Pθ) =∫

log`(y; θ)`(y)

`(y)µ(dy)

ou P designe la loi des observations et {Pθ, θ ∈ Θ} est un modelestatistique parametrique

θ0def= arg max

θ∈ΘQ(θ)

definit le meilleur ajustement (au sens de la divergence deKullback) dans la famille parametrique {Pθ, θ ∈ Θ}


Proprietes du critere asymptotique du maximum devraisemblance

1 Si P = Pθ0 pour θ0 ∈ Θ et le modele {Pθ, θ ∈ Θ} estidentifiable, Q(θ) admet un maximum unique en θ = θ0

2 Si, de plus, le modele est regulier (de vraisemblance `(·; θ))

∂2Q(θ)∂θ∂θ′

∣∣∣∣θ=θ0

= Eθ0

[∂2 log `(Y ; θ)

∂θ∂θ′

∣∣∣∣θ=θ0

]= −IF (θ0)

[Proposition 3.16]

En particulier

Q(θ) = −12(θ − θ0)′IF (θ0)(θ − θ0) + o(‖θ − θ0‖2)

la matrice d’information de Fisher determine lecomportement local du critere autour du maximum θ0


Estimateur du maximum de vraisemblance

On appelle critere empirique du maximum de vraisemblance

Qn(θ) =1n

n∑i=1

log `(Yi; θ)=1n

log `n(Y1, . . . , Yn; θ)︸︷︷︸Ln(Y1,...,Yn;θ)

L’estimateur du maximum de vraisemblance est defini(implicitement) par

θn = arg maxθ∈Θ

Qn(θ)

Remarque Qn(θ) a meme optimum que

Qn(θ) = 1n

∑ni=1 log `(Yi;θ)

`(Yi;θ0)

Pθ0 p.s.−−−−−→ Q(θ)


Exemple (Modele de regression lineaire univarie gaussien)

Yi = β0 + β1Xi + Ui

avec Ui|Xi ∼ N (0, σ2)

Qn(θ) = Cte − 12nσ2

n∑i=1

(Yi − β0 − β1Xi)2︸︷︷︸a minimiser en β0, β1

En supposant 1n

∑ni=1Xi = 0 (sinon, s’y ramener) on trouve

β0,n =1n

n∑i=1

Yi β1,n =∑n

i=1XiYi∑ni=1X

2i


Cas des modeles exponentielsSi {Pθ, θ ∈ Θ} correspond a un modele exponentiel sous formenaturelle (`(y; θ) = C(θ)h(y) exp [θ′T (y)])

Q(θ) = logC(θ) + θ′EP[T (y)] et la condition d’optimalite aupremier ordre est

−∂ logC(θ)∂θ

= Eθ[T (Y )] = EP[T (y)]

Qn(θ) = logC(θ) + θ′(

1n

∑ni=1 T (Yi)

)et la condition

d’optimalite au premier ordre est

−∂ logC(θ)∂θ

= Eθ[T (Y )] =1n

n∑i=1

T (Yi)

Si IF (θ) � 0, Q et Qn sont des fonctions strictementconcaves de θ est l’estimateur du maximum de vraisemblanceθn est defini (implicitement) par l’equation de vraisemblance

Eθn[T (Y )] =

1n

n∑i=1

T (Yi)


Equivariance du maximum de vraisemblance

Si ϕ = g(θ) correspond a une reparametrisation du modele (gbijective)

ϕn = g(θn

)Exemple (Estimation d’une loi exponentielle)

Pour`(y; θ) = θ e−θy pour y ∈ R+

l’equation de vraisemblance s’ecrit

n

θ−

n∑i=1

Yi = 0

donc l’estimateur du maximum de vraisemblance de θ estθn =

(1n

∑ni=1 Yi

)−1et celui de ϕ = 1/θ= Eθ[Y ] est 1

n

∑ni=1 Yi

Construction d’estimateurs L’exemple de la regression logistique

On s’interesse souvent a des modeles conditionnels dans lesquels lavariable de reponse Y est categorielle (ou qualitative), c’est-a-direprend un nombre fini de valeurs (on considere ici le cas binaire)

sbp100 120 140 160 180 200 220

0

1

tobacco−5 0 5 10 15 20 25 30 35

0

1

ldl0 5 10 15 20

0

1

obesity15 20 25 30 35 40 45 50

0

1

alcohol−20 0 20 40 60 80 100 120

0

1

age10 15 20 25 30 35 40 45 50 55 60 65

0

1

Fig.: Presence de la maladie coronarienne en fonction de 6 facteurs (270individus)


Regression logistique (ou modele logit)

Conditionnellement a X, Y est une variable de Bernoulli telle que

logPθ(Y = 1|X)Pθ(Y = 0|X)

= X ′θ

C’est un modele de regression lineaire sur le log-rapport deprobabilites

De facon equivalente

logit (Pθ[Y = 1|X]) = X ′θ avec

logit : ]0, 1[→]−∞,+∞[, p 7→ logp

1− p

Pθ(Y = 1|X) = logit−1 (X ′θ) avec

logit−1 : ]−∞,+∞[→]0, 1[, x 7→ ex

1 + ex=(1 + e−x

)−1


Formulation equivalenteOn peut voir le modele logit comme un modele a donnee latente ou

Y ∗ = X ′θ + U

Y = 1{Y ∗ > 0}

[Section 2.27]

Pθ(Y = 1|X) = Pθ(Y ∗ > 0|X)= Pθ(U > −X ′θ|X) = 1− F (−X ′θ)

ou F (x) designe la fonction de repartition de U (supposeindependant de X), qui doit donc etre egale a logit−1(x)(de facon equivalente, logit−1(U) suit une loi uniforme sur ]0, 1[)

On peut imaginer d’autre types de modelisation pour U (par ex.modele probit)


Estimateur du maximum de vraisemblance

Log-vraisemblance (conditionnelle)

log `n(Y1, . . . , Yn|X1, . . . , Xn; θ)

=n∑i=1

Yi log Pθ(Yi = 1|Xi) + (1− Yi) log Pθ(Yi = 0|Xi)

=n∑i=1

Yi logPθ(Yi = 1|Xi)Pθ(Yi = 0|Xi)

+ log Pθ(Yi = 0|Xi)

=n∑i=1

Yi(X ′iθ)− log(1 + eX

′iθ)

Gradient (fonction de score)

∂ log `n(Y1, . . . , Yn|X1, . . . , Xn; θ)∂θ

=n∑i=1

Xi {Yi − Pθ(Yi = 1|Xi)}


Hessien

∂2 log `n(Y1, . . . , Yn|X1, . . . , Xn; θ)∂θ∂θ′

= −n∑i=1

XiX′i Pθ(Yi = 1|Xi) {1− Pθ(Yi = 1|Xi)}︸︷︷︸

variance conditionnelle de Yi

� 0(≺ 0 avec PX -probabilite 1 si X a une loi continue et n > p)

La maximisation de la log-vraisemblance (conditionnelle) est unprobleme d’optimisation convexe


sbp100 120 140 160 180 200 220

0

1

tobacco−5 0 5 10 15 20 25 30 35

0

1

ldl0 5 10 15 20

0

1

obesity15 20 25 30 35 40 45 50

0

1

alcohol−20 0 20 40 60 80 100 120

0

1

age10 15 20 25 30 35 40 45 50 55 60 65

0

1

Fig.: Presence de la maladie coronarienneen fonction de 6 facteurs

sbp 1.66

tobacco 6.61

ldl 0.74

obesity 2E-4

alcohol - 2.24

age 9.59

Tab.: Parametres estimes(20 iterations de l’algorithmede Newton) sur les donneescentrees et normalisees

Construction d’estimateurs M-Estimateurs

M-EstimateurDans les cas ou

L’estimateur du maximum de vraisemblance est difficile adeterminer

La loi des observations n’est pas entierement determinee parle parametre θ (modele semi-parametrique)

On souhaite imposer certaines proprietes aux estimateurs (voirci-apres l’exemple de regression robuste)

on est amene a utiliser un M-Estimateur defini (implicitement) par

θn = arg maxθ∈Θ

1n

n∑i=1

ψ(Yi; θ)

ou ψ est une fonction a valeur reelle [Definition 5.3]

Remarque : Ce cadre general est aussi interessant car il permetd’inclure d’autres types d’estimateurs (comme les estimateurs demoments)


Outre des conditions de regularite (cf. [Proposition 5.4]), il estraisonnable de penser (et nous le demontrerons plus loin) que θnne peut etre consistant que si

Eθ0 [ψ(Y ; θ)] a un maximum unique en θ0

puisque c’est le critere asymptotique limite lorsque Y1, . . . , Yn sontIID de loi Pθ0 (par la loi des grands nombres)

Modele de regression non-lineaire

Dans un modele conditionnel ou E [h(X; θ1)] = E [h(X; θ2)]implique θ1 = θ2 (en notant h(X; θ) = Eθ[Y |X]), on peut utiliserle critere des moindres carres (non-lineaire) :

Qn(θ) =1n

n∑i=1

− (Yi − h(Xi; θ))2︸︷︷︸

ψ(Yi,Xi;θ)


La regression lineaire est sensible a la presence de donneesaberrantes

latitude

temperature

−15 −10 −5 0 5 10−20

−15

−10

−5

0

5

10

15

20

Fig.: Regression lineaire sur les donnees de temperature en fonction de lalatitude, avec ou sans donnee aberrante


Regression lineaire robuste

Plutot que la fonction des moindres carres : ψ(x, y;β) = −γMC(r)ou

γMC(r) = r2 avec rdef=y − (β0 + β1x)

On utilise une fonction de Huber

γH(r) =

{r2 si |r| ≤ τ

2τ |r| − τ2 sinon

0τ τ

On verifie aisement que γH est convexe et de classe C1 (mais pasC2) de telle facon que

min(β0,β1)∈R2

1n

n∑i=1

γH {Yi − (β0 + β1Xi)}

est un probleme de minimisation convexe qui se prete bien al’optimisation numerique


latitude

temperature

−15 −10 −5 0 5 10−20

−15

−10

−5

0

5

10

15

20

Fig.: Regression lineaire robuste sur les donnees de temperature enfonction de la latitude, avec ou sans donnee aberrante (τ = 4.9, soitenviron 80% des residus qui tombent la partie quadratique du critere)

Le modele lineaire

4 Construction d’estimateurs

5 Le modele lineaireEstimateur des moindres carresCas gaussien

6 Tests et intervalles de confiance

Le modele lineaire

Le modele lineaire [Chapitre 9]

On s’interesse ici au cas du modele lineaire (ou modele deregression lineaire) dans lequel

Yi = X ′iβ + Ui

ou Ui est independant de Xi et E[Ui] = 0, E[U2i ] = σ2

Si on suppose de plus que Ui ∼ N (0, σ2), on parlera de modelelineaire gaussien (ou normal)

Remarque Dans le cas ou les regresseurs {Xi} sont aleatoires, lemodele est defini de facon conditionnelle (de meme que certainsdes resultats qui suivent doivent etre compris de faconconditionnelle)

Le modele lineaire

Il est utile de reecrire le modele de l’ensemble des observationssous forme vectorielle :

Y1

...

Yn

︸︷︷︸

Y

=

X ′

1 = (X1(1), . . . , X1(p))

...

X ′n = (Xn(1), . . . , Xn(p))

︸︷︷︸

X (n×p)

β +

U1

...

Un

︸︷︷︸

U

avec Eθ[U ] = 0 et Vθ[U ] = σ2Idn (ou U ∼ N (0, σ2Idn) si lemodele est gaussien)

On suppose que X est de rang p

Le modele lineaire Estimateur des moindres carres

On considere le critere des moindres carresψ(Xi, Yi;β) = −(Yi −X ′

iβ)2

βMC = arg minβ∈Rp

n∑i=1

(Yi −X ′iβ)2︸︷︷︸

‖Y−Xβ‖2

Interpretation geometriqueProbleme de projection orthogonale duvecteur Y ∈ Rn sur le sous espace dedimension p im(X) (engendre par lescolonnes de X)

⇔ Y − Y ⊥ im(X) ou Ydef=Xβ im(X)

Y

Y

Y − Y


La condition Y − Y ⊥ im(X) est equivalente a X ′(Y −Xβ) = 0d’ou

L’estimateur des moindres carres

β =(X ′X

)−1X ′Y

La decomposition β = β + (X ′X)−1X ′U montre que

1 Eθ[β] = β, β est sans biais

2 Vθ[β] = σ2 (X ′X)−1

Propriete β est l’estimateur lineaire sans biais de β de matrice decovariance minimale [Theoreme (Gauss-Markov) 4.11]

Remarque : Generalisation au cas heteroscedastique, Eθ[Ui] = σ2i ,

ou au cas d’une matrice de covariance quelconque (connue)


Relation de Pythagore

‖Y − Y ‖2 = ‖Y ‖2 − ‖Y ‖2 = ‖Y ‖2 − Y ′Y

= Y ′Y − Y ′X(X ′X

)−1X ′Y = Y ′

(Idn −X

(X ′X

)−1X ′)Y

= U ′(Idn −X

(X ′X

)−1X ′)U

X (X ′X)−1X ′ est la matrice de projection sur im(X)Idn −X (X ′X)−1X ′ est la matrice de projection sur lesous-espace (de dimension n− p) orthogonal a im(X)

Il existe M matrice unitaire (M ′M = Idn) telle que

Idn −X(X ′X

)−1X ′ = M

Idn−p... 0

· · · · · ·

0... 0

M ′


Estimation de la variance

‖Y − Y ‖2/(n− p) est un estimateur sans biais de la variance σ2

Preuve

Eθ(‖Y − Y ‖2

)= Eθ

{tr[U ′(Idn −X

(X ′X

)−1X ′)U]}

= tr[(

Idn −X(X ′X

)−1X ′)

Eθ(UU ′

)]= σ2(n− p)

Le modele lineaire Cas gaussien

Dans le cas gaussien, U ∼ N (0, σ2Idn)

1 log `n(Y1, . . . , Yn; θ) = −12

{n log 2π + n log σ2 + ‖Y−Xβ‖2

σ2

}donc β et (n− p)/nσ2 sont les estimateurs du maximum devraisemblance

2 β = β + (X ′X)−1X ′U implique que

β ∼ N(β, σ2

(XX ′)−1

)

3 (n− p)σ2/σ2 ∼ χ2(n− p), (( loi du khi-deux a n− p degresde libertes )), dans la mesure ou

(n− p)σ2 = ‖Y − Y ‖2 = U ′M

Idn−p... 0

· · · · · ·

0... 0

M ′U︸︷︷︸∼N (0,σ2Idn)


Rappel [Cours de probabilite, Tables 3 et 4]

La loi du khi-deux a k degres deliberte est la loi de

∑ki=1X

2i

lorsque {Xi} sont IID de loiN (0, 1)

La loi de Student* a k degres deliberte est la loi de Yq

1/kPk

i=1X2i

lorsque {Xi} sont IID de loiN (0, 1) et Y est une variablenormale independante des {Xi}

*William S. Gosset (1876–1937)


4βi−βi√σ2xii

∼ t(n− p) ou xii est le ieme terme diagonal de

(XX ′)−1 et t(n− p) designe la loi de Student a n− p degresde liberte

Preuve β = β + (X ′X)−1X ′U et(n− p)σ2 = ‖(Idn −X (X ′X)−1X ′)U‖2, or

Cov[(X ′X

)−1X ′U , (Idn −X

(X ′X

)−1X ′)U

]=(X ′X

)−1X ′ Eθ[UU ′]︸︷︷︸

σ2Idn

(Idn −X(X ′X

)−1X ′) = 0 (3)

donc (X ′X)−1X ′U et (Idn −X (X ′X)−1X ′)U sont independantset, par suite, β et σ2 sont independants

Tests et intervalles de confiance

4 Construction d’estimateurs

5 Le modele lineaire

6 Tests et intervalles de confianceTestsCas de deux hypotheses simplesCas general : Approche de Neyman-PearsonIntervalles de confiance

Tests et intervalles de confiance Tests

La problematique des tests

Test d’hypotheses (binaires) [Section 6.1]

Soit un modele statistique {Pθ; θ ∈ Θ} et des hypotheses

H0 : θ ∈ Θ0

H1 : θ ∈ Θ1 = Θ \Θ0

Un test (pur) est une statistique a valeur dans {0, 1} dontl’interpretation est {

ϕ(Y ) = 1 H1 est vraie

ϕ(Y ) = 0 H0 est vraie

Remarque : Il existe egalement des tests mixtes ou aleatoires dontl’importance est essentiellement theorique


Hypotheses simples et composites

Une hypothese Hi : θ ∈ Θi est dite

Simple si Θi = {θi}Composite sinon

1 Dans le cas d’un modele parametrique et si Hi est unehypothese simple, la loi des observations est connue sous Hi

2 Il est frequent qu’une seule des deux hypotheses soit simple :par exemple, Θ = Rp, H0 : θ = θ0

3 Les hypotheses peuvent aussi etre definies implicitement sousla forme Hi : g(θ) = 0 ou g : Θ → Rp est une fonction(par exemple, g(θ1, θ2) = θ1 − θ2 pour tester l’egalite de deuxcoordonnees du parametres)


Comment quantifier la performance d’un test ?

Risque de premiere espece

αϕ(θ) def=Pθ [ϕ(Y ) = 1] = Eθ [ϕ(Y )] pour θ ∈ Θ0

Risque de seconde espece

βϕ(θ) = Pθ [ϕ(Y ) = 0] = 1−Eθ [ϕ(Y )] pour θ ∈ Θ1

On utilise en general plutot la puissance

ρϕ(θ) = Eθ [ϕ(Y )] pour θ ∈ Θ1

En se placant du point de vue de H0, on peut interpreter αϕ(θ)comme le (( taux de fausses alarmes )) et ρϕ(θ) comme la(( probabilite de detection ))

Tests et intervalles de confiance Cas de deux hypotheses simples

On considere un modele statistique domine et deux hypothesessimples {

H0 : θ = θ0 `(y; θ0)H1 : θ = θ1 `(y; θ1)

=⇒

{αϕ =

∫ϕ(y)`(y; θ0)µ(dy)

ρϕ =∫ϕ(y)`(y; θ1)µ(dy)

On presente ici deux facons classiques de choisir ϕ : l’approchebayesienne et l’approche de Neyman-Pearson*

*Thomas Bayes (1702–1761), Jerzy Neyman (1894–1981), Egon Pearson(1895–1986)


Dans l’approche bayesienne

1 On definit une fonction de perte en donnant des couts c0 et c1aux erreurs de premiere et seconde espece

2 On probabilise les hypotheses en specifiant des probabilites apriori π0 et π1 (π0 + π1 = 1) pour H0 et H1

Le risque du test est defini par

rϕ = E {c0P(ϕ(Y ) = 1|H0 vraie) + c1P(ϕ(Y ) = 0|H1 vraie)}= c0π0αϕ + c1π1(1− ρϕ)

Test bayesien

Le test ϕ qui minimise le risque bayesien rϕ est donne par

ϕ(y) =

{1 si `(y;θ1)

`(y;θ0) >c0π0c1π1

0 sinon


Preuve

rϕ = c0π0αϕ + c1π1(1− ρϕ)

= c0π0

∫ϕ(y)`(y; θ0)µ(dy)

+ c1π1

(1−

∫ϕ(y)`(y; θ1)µ(dy)

)Le risque bayesien minimal est obtenu en

arg minϕ mesurable

∫ϕ(y) [c0π0`(y; θ0)− c1π1`(y; θ1)]µ(dy)

soit

ϕ(y) =

{1 si c0π0`(y; θ0)− c1π1`(y; θ1) < 00 sinon (valeur en cas d’egalite indifferente)


Exemple (Test de deux lois normales de meme variance)

{H0 : Y ∼ N (µ0, σ)H1 : Y ∼ N (µ1, σ) avec µ1 > µ0

`(Y ; θ1)`(Y ; θ0)

≷ s⇔ log`(Y ; θ1)`(Y ; θ0)

≷ log s

⇔ −12

[(Y − µ1

σ

)2

−(Y − µ0

σ

)2]≷ log s

⇔ (µ1 − µ0)σ

[Y − (µ0 + µ1)/2

σ

]≷ log s

De meme pour n observations

log`n(Y1, . . . , Yn; θ1)`n(Y1, . . . , Yn; θ0)

=(µ1 − µ0)

σ

[∑ni=1 {Yi − (µ0 + µ1)/2}

σ

]Tests et intervalles de confiance Cas de deux hypotheses simples

Test de deux lois normales de meme variance (suite)1

σ√n

∑ni=1 {Yi − (µ0 + µ1)/2} a pour loi{

Sous H0, N(−√n[µ1−µ0

2σ

], 1)

Sous H1, N(√n[µ1−µ0

2σ

], 1)

D’ou pour le test 1σ√n

∑ni=1 {Yi − (µ0 + µ1)/2} ≷ t :

Risque de premiere espece α(t) = 1− Φ(t+

√n[µ1−µ0

2σ

])Puissance ρ(t) = 1− Φ

(t−

√n[µ1−µ0

2σ

])La courbe ρ(t) en fonction de α(t) (lorsque t varie) est dite courbeCOR (Caracteristique Operationnelle de Reception) et nousrenseigne sur le compromis entre les deux objectifs antagonistesρ(t) ↑ et α(t) ↓


risque 1er esp.

puissance

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.00.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

Fig.: Courbes COR pour (µ1 − µ0)/σ = 0.2 avec 10, 50 et 200observations


Dans l’approche de Neyman-Pearson

1 On dissymetrise les deux types d’erreurs :{H0 est l’hypothese de reference ou hypothese nulle

H1 est l’hypothese alternative

2 On cherche a maximiser la puissance du test sous lacontrainte que le risque de premiere espece αϕ(θ) soitinferieur a une valeur α specifiee par l’utilisateur

Le niveau du test est la valeur αϕ = supθ∈Θ0αϕ(θ)

Test UPP (Uniformement Plus Puissant) [Definition 6.9]

Un test ϕ est dit UPP dans la classe C si αϕ ≤ αϕ pour ϕ ∈ Cimplique

ρϕ(θ) ≤ ρϕ(θ) ⇔ Eθ[ϕ(Y )] ≤ Eθ[ϕ(Y )]

pour θ ∈ Θ1


Lemme de Neyman-Pearson [Proposition 6.13]

Pour tout α, 0 < α < 1, il existe un test de Neyman de la forme*

ϕ(y) =

{1 si `(y; θ1)/`(y; θ0) > s

0 si `(y; θ1)/`(y; θ0) < s (ou s ∈ R+)

qui est de niveau α ; celui-ci est UPP dans la classe des tests deniveau inferieur ou egal a α

Inversement, un test qui possede ces proprietes est necessairementun test de Neyman

*La formulation ci-dessus suffit si on suppose que µ“n

y : `(y;θ1)`(y;θ0)

= so”

= 0

∀s ∈ R+, sinon il faut regler plus precisement le cas d’egalite (en considerantun test mixte)


Preuve La preuve complete est donnee dans le polycopie

L’argument principal est le fait que si ϕ est un test de Neymanassocie au seuil s et ϕ est un autre test∫

[ϕ(y)− ϕ(y)] [`(y; θ1)− s`(y; θ0)]µ(dy) ≥ 0

d’ouEθ1 [ϕ(Y )− ϕ(Y )] ≥ sEθ0 [ϕ(Y )− ϕ(Y )]

c’est a direρϕ − ρϕ ≥ s (αϕ − αϕ)

Tests et intervalles de confiance Cas general : Approche de Neyman-Pearson

Cas general

Les arguments precedents se generalisent difficilement dans le casou les deux hypotheses ne sont pas des hypotheses simples*

L’approche adoptee dans la suite consiste a

1 Choisir une statistique de test ξ(Y ) dont la loi est connuesous H0

2 Ajuster le seuil s de facon a ce que le test ϕ(Y ) correspondanta ξ(Y ) ≷ s soit de niveau α (fixe par l’utilisateur,suffisamment faible pour que le test soit significatif)

3 Si possible, evaluer la puissance du test (sous H1)

*Voir toutefois le cas d’une hypothese composite unilaterale [Section 6.3.2]Tests et intervalles de confiance Cas general : Approche de Neyman-Pearson

(Exemple) Cas de la regression lineaire – Test de Student

Dans le modele Yi = β0 + β1Xi + Ui avecUi ∼ N (0, σ2), on sait que

ξn = (β1 − β1)/√σ2x11

=

√√√√ n∑i=1

X2i

(β1 − β1)√σ2

suit une loi de Student a n− 2 degres delibertes (cf. cours precedent + regresseurscentres)

latitude

temperature

−15 −10 −5 0 5 10−20

−15

−10

−5

0

5

10

15

20

On utilise ξn =√∑n

i=1X2i|β1|√σ2

pour tester l’hypothese H0 :

β1 = 0, c’est-a-dire, (( les regresseurs n’ont pas d’influence sur lavaleur des variables de reponse ))


En utilisant la [Table n 4] ouequivalent (fonction cdft enscilab) on determine le seuilz1−α/2 tel que

P(T > z1−α/2) = α/2

pour une variable T de loi deStudent a n− 2 degres de liberte,ou α est le niveau de confiance(souvent pris a 0.05)

ξn

z1−α/2

α

ξn ≤ z1−α/2 ⇒ H0 acceptee

ξn > z1−α/2 ⇒ H0 refusee

(au niveau de confiance α)

Remarque Pour une idee plus qualitative du resultat, on calculesouvent la probabilite critique (ou p-valeur) : 2P(T > ξn)(interpretation : le niveau de confiance maximum pour lequel onaurait rejete l’hypothese H0)


latitude

temperature

−15 −10 −5 0 5 10−20

−15

−10

−5

0

5

10

15

20

temperatures/latitudes

n H0 (α = 0.05) p-valeur

7 Acceptee 0.1414 Rejetee 6.7 10−5

28 Rejetee 6.5 10−10

56 Rejetee 1.1 10−16

longitude

temperature

−30 −20 −10 0 10 20 30 40−20

−15

−10

−5

0

5

10

15

20

temperatures/longitudes

n H0 (α = 0.05) p-valeur

7 Acceptee 0.6014 Acceptee 0.9028 Acceptee 0.7856 Acceptee 0.87

Tests et intervalles de confiance Intervalles de confiance

Les intervalles de confiances

Question posee Au vu des donnees, quelles sont les valeurs de θqui sont credibles ? Et comment quantifier la fiabilite de la reponsefournie a cette question ?

Region de confiance [Definition 8.1]

Une region de confiance pour θ est une fonction S(y) de y a valeurdans l’ensemble des parties de Y telle que

Pθ (θ ∈ S(Y )) = 1− α

ou 1− α est dit probabilite de couverture ou niveau de confiance

Si θ est un parametre scalaire, on parle d’intervalle de confiance


Fonction pivotale

Une fonction v(y; θ) est dite pivotale si la loi de v(Y ; θ) ne dependpas de θ sous Pθ

Si v est un fonction pivotale a valeur reelle telle quePθ (v(Y ; θ) ∈ [a, b]) = 1− α,

{θ : v(Y ; θ) ∈ [a, b]}

constitue une region de confiance de probabilite decouverture 1− α

Si v(Y ; θ) a une loi symetrique sous Pθ, on verifie que pour uneprobabilite 1−α donnee, l’intervalle de longueur minimale verifiantles conditions ci-dessus est de la forme [−a, a] ; c’est celui-ci quisera choisi


(Exemple) Cas de la regression lineaire Dans le modeleYi = β0 + β1Xi + Ui avec Ui ∼ N (0, σ2), on sait que√√√√ n∑

i=1

X2i

(β1 − β1)√σ2

suit une loi de Student a n− 2 degres de libertes

Si z1−α/2 designe le niveau depasse avec probabilite α/2 pourcette loi,β1 − z1−α/2

√σ2√∑ni=1X

2i

, β1 + z1−α/2

√σ2√∑ni=1X

2i

est l’intervalle de confiance de probabilite 1− α pour β1


Dans le cas precedent, l’intervalle de confiance obtenu coıncideavec l’ensemble des valeurs de β1∗ pour lequel le test d’hypotheseH0 : β1 = β1∗ de niveau α aurait ete accepte, compte tenu de lavaleur estime β1

Par exemple On peut tester H0 : β1 = 0 en verifiant si l’origine sesitue ou non dans l’intervalleβ1 − z1−α/2

√σ2√∑ni=1X

2i

, β1 + z1−α/2

√σ2√∑ni=1X

2i

Cette equivalence entre test et intervalle de confiance constitueune remarque generale


latitude

temperature

−15 −10 −5 0 5 10−20

−15

−10

−5

0

5

10

15

20

temperatures/latitudes

n Intervalle de confiance a 95%

7 −0.76± 1.1314 −1.15± 0.4228 −1.15± 0.2556 −1.14± 0.19

longitude

temperature

−30 −20 −10 0 10 20 30 40−20

−15

−10

−5

0

5

10

15

20

temperatures/longitudes

n Intervalle de confiance a 95%

7 0.07± 0.3414 −0.02± 0.3328 −0.03± 0.1956 0.01± 0.13

lineaire, tests et intervalles de con ance cours 4a 6 ...cappe/2006-2007/cours4-6_2pp.pdf ·...

Documents