stat2–introduction `a la statistique...

Bayesien (v2) Mathieu Ribatet—[email protected] – 1 / 36

STAT2–Introduction a la statistique Bayesienne

Mathieu Ribatet

Ecole Centrale de Nantes

mailto:[email protected]

Quelques references bibliographiques


[1] M. K. Cowles. Applied Bayesian Statistics with R and OpenBugs

Examples. Springer Texts in Statistics. Springer-Verlag, 2013.

[2] J. A. Hartigan. Bayes Theory. Springer Series in Statistics.Springer-Verlag, 1983.

[3] C.P. Robert. The Bayesian Choice: A Decision-theoretic Motivation.Springer Texts in Statistics. Springer-Verlag, 2007.


1. Introduction

1. Introduction

2. Notions de base

3. Loi a priori

4. InferenceBayesienne



Modele statistique (parametrique)


Definition 1. Une famille parametree de fonctions {f(x; θ) : x ∈ E, θ ∈ Θ}est un modele statistique si, pour tout θ ∈ Θ, x 7→ f(x; θ) est une densite deprobabilite sur E.L’ensemble Θ est appele espace des parametres et E espace des observations.

Remarque. On parle de modele statistique parametrique lorsque dim(Θ) < ∞.

Exemple 1. La famille

{

f(x; θ) =1√2πσ2

exp

(

−(x− µ)2

2σ2

)

: x ∈ R, θ = (µ, σ2) ∈ R× (0,∞)

}

est un modele statistique, celui de la loi Gausienne.


Statistique frequentiste


� Soit {g(x; θ) : x ∈ X, θ ∈ Θ} un modele statistique.� La statistique frequentiste suppose l’existence d’un “vrai” parametre θ∗

generant les donnees, i.e.,

(X1, . . . , Xn) ∼ g(·; θ∗).

� Ensuite on cherchera / utilisera un estimateur θ de θ∗ avec de bonnesproprietes, e.g.,

√n(θ − θ∗)

L−→ N(0,Σ), n → ∞.


Statistique frequentiste


� Soit {g(x; θ) : x ∈ X, θ ∈ Θ} un modele statistique.� La statistique frequentiste suppose l’existence d’un “vrai” parametre θ∗

generant les donnees, i.e.,

(X1, . . . , Xn) ∼ g(·; θ∗).

� Ensuite on cherchera / utilisera un estimateur θ de θ∗ avec de bonnesproprietes, e.g.,

√n(θ − θ∗)

L−→ N(0,Σ), n → ∞.

Remarque. Bien souvent on supposera que le modele statistique utilise pourl’estimation contient celui generant les donnees. . . mais on peut generalisercela !


Estimation ponctuelle et precision


� L’estimateur θ nous donnera donc une estimation ponctuelle pour θ∗� Bien souvent on utilisera des resultats asymptotiques comme celui plus

haut pour obtenir des intervalles de confiance, e.g.,

[

θ − z0.975std.err(θ), θ + z0.975std.err(θ)]

, z0.975 = Φ−1(0.975).


Estimation ponctuelle et precision


� L’estimateur θ nous donnera donc une estimation ponctuelle pour θ∗� Bien souvent on utilisera des resultats asymptotiques comme celui plus

haut pour obtenir des intervalles de confiance, e.g.,

[

θ − z0.975std.err(θ), θ + z0.975std.err(θ)]

, z0.975 = Φ−1(0.975).

� En bref, θ est une variable aleatoire pour laquelle bien souvent seule la loiasymptotique est connue. . .


2. Notions de base

1. Introduction

2. Notions de base

3. Loi a priori




Idee fondamentale de la statistique Bayesienne


Idee : Considerer le parametre θ comme une variable aleatoire.





� On supposera donc que θ ∼ π et cette loi est appelee loi a priori.� La loi a priori encode nos connaissances // ignorances sur θ∗ avant d’avoir

acces aux donnees






acces aux donnees

Exemple 2. Pour notre modele gaussien on pourrait par exemple poser

π(θ) = π(µ)× π(σ2) = N(µ0, τ)× InvGamma(α, β).






acces aux donnees

Exemple 2. Pour notre modele gaussien on pourrait par exemple poser

π(θ) = π(µ)× π(σ2) = N(µ0, τ)× InvGamma(α, β).

Definition 2. Les parametres de la loi a priori, dans notre exemple µ0, τ, α etβ, sont appeles hyper-parametres.C’est au statisticien de fixer les valeurs pour ces hyper parametres. On ne lesajuste pas, on les definit !


Loi jointe et a posteriori


� Puisque θ admet une loi, on peut pour un modele statistique{f(x | θ) : x ∈ E, θ ∈ Θ} donne exprimer la loi jointe

π(x, θ) = f(x | θ)π(θ)

� Toutefois la loi jointe n’a que peu d’interet pour le Bayesien et ons’interessera bien plus a la loi a posteriori

Definition 3. On appelle loi a posteriori la loi dont la densite est donnee par

π(θ | x) = f(x | θ)π(θ)∫

Θ f(x | θ)π(θ)dθ .


Loi jointe et a posteriori


� Puisque θ admet une loi, on peut pour un modele statistique{f(x | θ) : x ∈ E, θ ∈ Θ} donne exprimer la loi jointe

π(x, θ) = f(x | θ)π(θ)

� Toutefois la loi jointe n’a que peu d’interet pour le Bayesien et ons’interessera bien plus a la loi a posteriori

Definition 3. On appelle loi a posteriori la loi dont la densite est donnee par

π(θ | x) = f(x | θ)π(θ)∫


Remarque. Attention j’utiliserai toujours f(x | θ) pour designer selon lecontexte soit la densite evaluee en x ∈ R, soit la vraisemblance evaluee enx ∈ R

n.


Loi marginale et constante de normalisation


π(θ | x) = f(x | θ)π(θ)∫


� Le denominateur correspond a la loi marginale de x—que l’on noteraparfois m(x).

� Elle joue le role de constante de normalisation pour la loi a posterioripuisqu’elle est independante de θ.


Loi marginale et constante de normalisation


π(θ | x) = f(x | θ)π(θ)∫


� Le denominateur correspond a la loi marginale de x—que l’on noteraparfois m(x).

� Elle joue le role de constante de normalisation pour la loi a posterioripuisqu’elle est independante de θ.

� Aussi bien souvent nous travaillerons a une constante multiplicative pres,i.e.,

π(θ | x) = f(x | θ)π(θ)∫

Θ f(x | θ)π(θ)dθ ∝ f(x | θ)π(θ).


Au fait pourquoi le nom statistique Bayesienne ?


� Rappelons nous le Theoreme de Bayes

Pr(Y ∈ A | X ∈ B) =Pr(X ∈ B | Y ∈ A) Pr(Y ∈ A)

Pr(X ∈ B).






Pr(X ∈ B).

� Mais puisque l’on considere θ comme une v.a., cela nous autorise a ecrire

Pr(θ ∈ A | X ∈ B) =Pr(X ∈ B | θ ∈ A) Pr(θ ∈ A)

Pr(X ∈ B).






Pr(X ∈ B).

� Mais puisque l’on considere θ comme une v.a., cela nous autorise a ecrire

Pr(θ ∈ A | X ∈ B) =Pr(X ∈ B | θ ∈ A) Pr(θ ∈ A)

Pr(X ∈ B).

� Ceci est a comparer avec la definition de notre loi a posteriori

π(θ | x) = f(x | θ)π(θ)∫



Sommeil


� Soit X le nombre d’etudiants qui vonts’endormir pendant mon cours parmi les npresents aujourd’hui

� On s’interesse a la probabilite inconnue

p = Pr(un etudiant quelconque s’endort).

� Quelle loi a priori ? Expression loi jointe// loi a posteriori ?


Illustration numerique


0.0 0.2 0.4 0.6 0.8 1.0

05

10

15

20

25

30

35

p

π(p

x)

X = 0

0.0 0.2 0.4 0.6 0.8 1.0

01

23

45

p

π(p

x)

X = 11

0.0 0.2 0.4 0.6 0.8 1.0

01

23

4

p

π(p

x)

X = 17

0.0 0.2 0.4 0.6 0.8 1.0

05

10

15

20

25

30

35

p

π(p

x)

X = 33

Figure 1: Evolution de la loi a posteriori π(p | X) en fonction de X—ici n = 33.


3. Loi a priori

1. Introduction

2. Notions de base

3. Loi a priori




Loi a priori conjuguee


Definition 4. Une famille F de lois de probabilites sur Θ est dite conjugueepour le modele statistique {f(x | θ) : x ∈ E, θ ∈ Θ} si, pour tout π ∈ F , laloi a posteriori

π(θ | x) ∝ f(x | θ)π(θ)appartient egalement a F .


Loi a priori conjuguee


Definition 4. Une famille F de lois de probabilites sur Θ est dite conjugueepour le modele statistique {f(x | θ) : x ∈ E, θ ∈ Θ} si, pour tout π ∈ F , laloi a posteriori

π(θ | x) ∝ f(x | θ)π(θ)appartient egalement a F .

� L’utilisation de lois conjuguees est une “astuce” permettant d’obtenir deslois a posteriori explicitesa

aOn verra plus tard lors du cours Bayesien avance que cela nous servira pour obtenir des

echantillonneurs de type MCMC efficaces


Sommeil 2


Reprenons notre exemple du sommeil en coursmais supposons que la loi a priori est uneBeta(α, β) dont la densite est

f(x) =xα−1(1− x)β−1

B(α, β)1{0≤x≤1},

avec α > 0, β > 0 et B(·, ·) la fonction Beta.

� La loi a posteriori est alors. . .


Illustration


f(x) =xα−1(1− x)β−1

B(α, β), E[X] =

α

α+ β, Var[X] =

αβ

(α+ β)2(α+ β + 1).

� α ≫ β ⇒ “plus de poids vers 1”� α ≪ β ⇒ “plus de poids vers 0”

0.0 0.2 0.4 0.6 0.8 1.0

05

10

15

p

π(p)

α = 0.5, β = 2

0.0 0.2 0.4 0.6 0.8 1.0

0.6

0.8

1.0

1.2

1.4

p

π(p)

α = 1, β = 1

0.0 0.2 0.4 0.6 0.8 1.0

05

10

15

p

π(p)

α = 2, β = 0.5

0.0 0.2 0.4 0.6 0.8 1.0

01

23

p

π(p

x)

Figure 2: Impact de la loi a priori sur la loi a posteriori. Ici n = 10 et x = 2.


Teasing. . .


� On verra dans le cours Bayesien avance que lorsque n → ∞ l’impact deπ(θ) sera (bien souvent) negligeable

� Pour le moment on se contentera de la “preuve” numerique suivante. . .

0.0 0.2 0.4 0.6 0.8 1.0

05

10

15

p

π(p)

0.0 0.2 0.4 0.6 0.8 1.0

01

23

p

π(p

x)

n = 10

0.0 0.2 0.4 0.6 0.8 1.0

01

23

45

67

p

π(p

x)

n = 50

0.0 0.2 0.4 0.6 0.8 1.0

010

20

30

40

50

60

p

π(p

x)

n = 5000

Figure 3: Evolution de la loi a posteriori en fonction de n—ici p∗ = 1/3.


Loi impropre


Definition 5. Une mesure µ sur E est dite impropre si c’est une mesureσ-finie mais non finie, i.e.,

µ(E) = ∞,

mais pour autant il existe un recouvrement au plus denombrable {En : n ∈ I},I ⊆ N, de E tel que

µ(En) < ∞, ∀n ∈ I.

Exemple 3. Les mesures sur (0,∞)

dµ1(x) = dx, dµ2(x) = x−2dx

sont des lois de probabilites impropres.


Utilisation de loi a priori impropre


� Il est tout a fait possible d’utiliser une loi a priori impropre. . .




� Il est tout a fait possible d’utiliser une loi a priori impropre. . .� . . . a la restriction pres que l’on doit s’assurer que

m(x) =

∫

Θf(x | θ)π(θ)dθ < ∞.




� Il est tout a fait possible d’utiliser une loi a priori impropre. . .� . . . a la restriction pres que l’on doit s’assurer que

m(x) =

∫

Θf(x | θ)π(θ)dθ < ∞.

� De sorte que la loi a posteriori

π(θ | x) = f(x | θ)π(θ)m(x)

definit bien une loi de probabilite non degeneree.


Un exemple Gaussien


Exemple 4. On dispose d’un n-echantillon iid x = (x1, . . . , xn). Consideronsle modele Gaussien N(µ, 1) et prenons comme loi a priori π(µ) ∝ 1{µ∈R}.Que vaut m(x) ?


Loi a priori non informative


� Nous avons vu que l’issue de notre inference depend du choix de la loi apriori

� C’est l’un des points vivement critique des statistiques Bayesiennes





� C’est l’un des points vivement critique des statistiques Bayesiennes� Ne serait-il pas possible “d’annihiler” l’impact de la loi a priori ?





� C’est l’un des points vivement critique des statistiques Bayesiennes� Ne serait-il pas possible “d’annihiler” l’impact de la loi a priori ?� L’objectif (idealise) de l’utilisation d’une loi a priori non informative est

– d’encoder notre totale ignorance sur θ ;– de ne pas influencer la loi a posteriori.

� Pour ce cours nous allons voir deux familles de lois a priori noninformatives : Laplace et Jeffreys.





� C’est l’un des points vivement critique des statistiques Bayesiennes� Ne serait-il pas possible “d’annihiler” l’impact de la loi a priori ?� L’objectif (idealise) de l’utilisation d’une loi a priori non informative est

– d’encoder notre totale ignorance sur θ ;– de ne pas influencer la loi a posteriori.

� Pour ce cours nous allons voir deux familles de lois a priori noninformatives : Laplace et Jeffreys.

� La notion de loi a priori non informative est sujet a controverse.


Loi a priori de Laplace


Definition 6. La loi a priori de Laplace consiste a poser π(θ) ∝ 1{θ∈Θ}.




Definition 6. La loi a priori de Laplace consiste a poser π(θ) ∝ 1{θ∈Θ}. C’estdonc la loi uniforme (discrete ou continue selon Θ), voire la mesure deLebesgue si nous sommes impropre.





� La loi a priori de Laplace a quelques defauts cependant :

� elle peut mener a une loi a priori impropre et donc. . .� elle est non invariante par reparametrisation.





� La loi a priori de Laplace a quelques defauts cependant :

� elle peut mener a une loi a priori impropre et donc. . .� elle est non invariante par reparametrisation.

Exemple 5. Considerons le modele Exponentiel(λ), λ > 0 et sareparametrisation via λ = exp(θ), θ ∈ R. Dans le premier cas on a

π1(λ) ∝ 1{λ>0},

et dans le 2eme

π2(θ) ∝ 1 =⇒ π2(λ) ∝ λ−1π2(lnλ)1{λ>0} ∝ λ−11{λ>0}.


Loi a priori de Jeffreys


Definition 7. Soit un modele statistique {f(x; θ) : x ∈ E, θ ∈ Θ}. On appelleinformation de Fisher la quantite

I(θ) = E

[

{∇θ ln f(X; θ)}⊤∇θ ln f(X; θ)]

, X ∼ f(·; θ).

Sous les hypotheses d’interversion du signe integral et derive alors

I(θ) = −E[

∇2θ ln f(X; θ)

]

.


Loi a priori de Jeffreys


Definition 7. Soit un modele statistique {f(x; θ) : x ∈ E, θ ∈ Θ}. On appelleinformation de Fisher la quantite

I(θ) = E

[

{∇θ ln f(X; θ)}⊤∇θ ln f(X; θ)]

, X ∼ f(·; θ).

Sous les hypotheses d’interversion du signe integral et derive alors

I(θ) = −E[

∇2θ ln f(X; θ)

]

.

Definition 8. La loi a priori de Jeffreys est donnee par π(θ) ∝ |I(θ)|1/2, ou|A| correspond au determinant de A.

� Cette loi a priori est invariante par reparametrisation� Elle peut neanmoins donner lieu a des lois a priori impropres� Elle n’est pas recommandee lorsque dimΘ > 1.1

1On verra en TD ce qu’il faut alors faire. . .


Sommeil 3


� Puisque vous ne dormez toujours pas,reprenons encore notre exemple sur le som-meil en cours. . .

� Quelle est la loi a priori de Jeffrey la prob-abilite p de s’endormir ?


4. Inference Bayesienne

1. Introduction

2. Notions de base

3. Loi a priori




Motivation


� Dans le cadre de travail Bayesien, la loi a posteriori π(θ | x) contienttoute l’information necessaire sur θ

� Cela dit devoir manipuler l’integralite de la loi est parfois peu commode.� Il est donc utile d’utiliser des resumes statistiques de π(θ | x) comme

– la moyenne a posteriori– la mediane a posteriori– le mode/maximum a posteriori (MAP)– un quantile a posteriori d’ordre p.

� On peut egalement s’interesser a des regions de confiance.


Motivation


� Dans le cadre de travail Bayesien, la loi a posteriori π(θ | x) contienttoute l’information necessaire sur θ

� Cela dit devoir manipuler l’integralite de la loi est parfois peu commode.� Il est donc utile d’utiliser des resumes statistiques de π(θ | x) comme

– la moyenne a posteriori– la mediane a posteriori– le mode/maximum a posteriori (MAP)– un quantile a posteriori d’ordre p.

� On peut egalement s’interesser a des regions de confiance.

� Nous verrons dans le cours Bayesien avance (ou pas !) que ces choixpeuvent etre justifies via la theorie de la decision.


Rappels : Intervalles de confiances (frequentiste)


Definition 9. Un intervalle de confiance de niveau α pour une quantited’interet f(θ0) est un intervalle aleatoire Iα tel que Pr{f(θ0) ∈ Iα} = 1− α.

Exemple 6. Soient X1, . . . , Xn ∼ N(µ, σ2), σ2 connu. Alors

I =

[

Xn − 1.96σ√n, Xn + 1.96

σ√n

]

,

est un intervalle de confiance pour µ a 95%.


Rappels : Intervalles de confiances (frequentiste)


Definition 9. Un intervalle de confiance de niveau α pour une quantited’interet f(θ0) est un intervalle aleatoire Iα tel que Pr{f(θ0) ∈ Iα} = 1− α.

Exemple 6. Soient X1, . . . , Xn ∼ N(µ, σ2), σ2 connu. Alors

I =

[

Xn − 1.96σ√n, Xn + 1.96

σ√n

]

,

est un intervalle de confiance pour µ a 95%.

� En pratique on obtient donc une realisation de cet intervalle aleatoire. Leniveau α% correspond donc a la proportion que n realisations de cet intervallede confiance contienne le vrai parametre f(θ0) lorsque n → ∞ !!!


Region α–credible


Definition 10. Pour une loi a priori π donnee, un ensemble Cx ⊂ Θ est unensemble α–credible si

Prπ(θ ∈ Cx | x) ≥ 1− α.





Prπ(θ ∈ Cx | x) ≥ 1− α.

Remarque. Avez vous bien compris le sens de la notation suivante

Prπ(θ ∈ Cx | x) = . . .?





Prπ(θ ∈ Cx | x) ≥ 1− α.


Prπ(θ ∈ Cx | x) =∫

Θ1{θ∈Cx} . . .





Prπ(θ ∈ Cx | x) ≥ 1− α.


Prπ(θ ∈ Cx | x) =∫

Θ1{θ∈Cx}π(θ | x)dθ.


Intervalle de credibilite


On se restreint au cas ou θ est un parametre scalaire.2

Definition 11. Pour une loi a priori π donnee, un intervalle Ix ⊂ R est unintervalle de credibilite de niveau 1− α si

Prπ(θ ∈ Ix | x) = 1− α.


Intervalle de credibilite


On se restreint au cas ou θ est un parametre scalaire.2

Definition 11. Pour une loi a priori π donnee, un intervalle Ix ⊂ R est unintervalle de credibilite de niveau 1− α si

Prπ(θ ∈ Ix | x) = 1− α.

� Bien souvent on utilisera des intervalles de credibilite symetriques, i.e.,

Ix =[

qπ

(α

2, x

)

, qπ

(

1− α

2, x

)]

,

avecqπ(p, x) = inf {u ∈ R : Prπ (θ ≤ u | x) ≥ 1− α} .

2ou alors on se restreint a θj , j ∈ {1, . . . , p} lorsque dimΘ = p.


Illustration


0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

p

π(p

x)

0.0 0.2 0.4 0.6 0.8 1.00

.00

.51

.01

.52

.02

.53

.0p

π(p

x)

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

p

π(p

x)

Figure 4: Trois differents intervalles de credibilite (segments rouges) tous de niveau 95%.


Region HPD (High Posterior Density)


Definition 12. Une region α–credible Cx est une region HPD α–credible sielle est de la forme Cx = {θ ∈ Θ: π(θ | x) ≥ uα}.

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

p

π(p

x)

u0.9

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

p

π(p

x)

u0.95

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

p

π(p

x)

u0.99

Figure 5: Illustration des regions α–credibles HPD de niveau 90%, 95% et 99%.


Region HPD (High Posterior Density)


Definition 12. Une region α–credible Cx est une region HPD α–credible sielle est de la forme Cx = {θ ∈ Θ: π(θ | x) ≥ uα}.

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

p

π(p

x)

u0.9

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

p

π(p

x)

u0.95

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

p

π(p

x)

u0.99

Figure 5: Illustration des regions α–credibles HPD de niveau 90%, 95% et 99%.

� Les regions HPD peuvent etre non connexes !


Intervalles de confiance vs. credibilite


Pr(θ0 ∈ I) = 1− α

� I est aleatoire� La prochaine realisation de I aura

(1−α)% de chance de contenir θ0.

Prπ(θ ∈ I | x) = 1− α.

� θ est aleatoire� Ayant observe x, il y a (1 − α)%

de chance que I contienne θ0.


Loi predictive a posteriori


� On souhaite predire une nouvelle observation xn+1.� En statistique frequentiste, on utilisera souvent le predicteur E[X],

X ∼ f(·; θ), θ estimateur de θ.� Cependant cela ne tient pas compte de l’incertitude d’estimation sur θ.� Le cadre Bayesien permet de tenir compte de cette incertitude.

Definition 13. On appelle loi predictive a posteriori la loi de densite

π(xn+1 | x) =∫

f(xn+1 | θ, x)π(θ | x)dθ.


Loi predictive a posteriori


� On souhaite predire une nouvelle observation xn+1.� En statistique frequentiste, on utilisera souvent le predicteur E[X],

X ∼ f(·; θ), θ estimateur de θ.� Cependant cela ne tient pas compte de l’incertitude d’estimation sur θ.� Le cadre Bayesien permet de tenir compte de cette incertitude.

Definition 13. On appelle loi predictive a posteriori la loi de densite

π(xn+1 | x) =∫

f(xn+1 | θ, x)π(θ | x)dθ.

� On utilisera alors le predicteur Bayesien

xn+1 =

∫

xn+1π(xn+1 | x)dxn+1.


Sommeil 4


Un nouvel eleve arrive en cours d’annee (il aprolonge sa cesure) et suit mon cours pourla premiere fois. Va-t-il s’endormir durant cecours ?


Parce que nous n’avons pas assez de temps. . .


� Les statistiques Bayesiennes ont le vent en poupe depuis le debut desannees 2000

� Ici nous sommes restes dans un cadre (bien trop) scolaire� Heureusement le cours Bayesien avance du second semestre viendra

combler ce manque en couvrant notamment

– les techniques dıtes de Monte Carlo– les algorithmes plus specifiques de type MCMC– les modeles Bayesiens hierarchiques.


stat2–introduction `a la statistique...

Documents