stat2–introduction `a la statistique...

63
Bayesien (v2) Mathieu Ribatet—[email protected] – 1 / 36 STAT2–Introduction ` a la statistique Bay´ esienne Mathieu Ribatet ´ Ecole Centrale de Nantes

Upload: others

Post on 24-Jan-2021

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Bayesien (v2) Mathieu Ribatet—[email protected] – 1 / 36

STAT2–Introduction a la statistique Bayesienne

Mathieu Ribatet

Ecole Centrale de Nantes

Page 2: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Quelques references bibliographiques

Bayesien (v2) Mathieu Ribatet—[email protected] – 2 / 36

[1] M. K. Cowles. Applied Bayesian Statistics with R and OpenBugs

Examples. Springer Texts in Statistics. Springer-Verlag, 2013.

[2] J. A. Hartigan. Bayes Theory. Springer Series in Statistics.Springer-Verlag, 1983.

[3] C.P. Robert. The Bayesian Choice: A Decision-theoretic Motivation.Springer Texts in Statistics. Springer-Verlag, 2007.

Page 3: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

1. Introduction

1. Introduction

2. Notions de base

3. Loi a priori

4. InferenceBayesienne

Bayesien (v2) Mathieu Ribatet—[email protected] – 3 / 36

Page 4: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Modele statistique (parametrique)

Bayesien (v2) Mathieu Ribatet—[email protected] – 4 / 36

Definition 1. Une famille parametree de fonctions {f(x; θ) : x ∈ E, θ ∈ Θ}est un modele statistique si, pour tout θ ∈ Θ, x 7→ f(x; θ) est une densite deprobabilite sur E.L’ensemble Θ est appele espace des parametres et E espace des observations.

Remarque. On parle de modele statistique parametrique lorsque dim(Θ) < ∞.

Exemple 1. La famille

{

f(x; θ) =1√2πσ2

exp

(

−(x− µ)2

2σ2

)

: x ∈ R, θ = (µ, σ2) ∈ R× (0,∞)

}

est un modele statistique, celui de la loi Gausienne.

Page 5: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Statistique frequentiste

Bayesien (v2) Mathieu Ribatet—[email protected] – 5 / 36

� Soit {g(x; θ) : x ∈ X, θ ∈ Θ} un modele statistique.� La statistique frequentiste suppose l’existence d’un “vrai” parametre θ∗

generant les donnees, i.e.,

(X1, . . . , Xn) ∼ g(·; θ∗).

� Ensuite on cherchera / utilisera un estimateur θ de θ∗ avec de bonnesproprietes, e.g.,

√n(θ − θ∗)

L−→ N(0,Σ), n → ∞.

Page 6: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Statistique frequentiste

Bayesien (v2) Mathieu Ribatet—[email protected] – 5 / 36

� Soit {g(x; θ) : x ∈ X, θ ∈ Θ} un modele statistique.� La statistique frequentiste suppose l’existence d’un “vrai” parametre θ∗

generant les donnees, i.e.,

(X1, . . . , Xn) ∼ g(·; θ∗).

� Ensuite on cherchera / utilisera un estimateur θ de θ∗ avec de bonnesproprietes, e.g.,

√n(θ − θ∗)

L−→ N(0,Σ), n → ∞.

Remarque. Bien souvent on supposera que le modele statistique utilise pourl’estimation contient celui generant les donnees. . . mais on peut generalisercela !

Page 7: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Estimation ponctuelle et precision

Bayesien (v2) Mathieu Ribatet—[email protected] – 6 / 36

� L’estimateur θ nous donnera donc une estimation ponctuelle pour θ∗� Bien souvent on utilisera des resultats asymptotiques comme celui plus

haut pour obtenir des intervalles de confiance, e.g.,

[

θ − z0.975std.err(θ), θ + z0.975std.err(θ)]

, z0.975 = Φ−1(0.975).

Page 8: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Estimation ponctuelle et precision

Bayesien (v2) Mathieu Ribatet—[email protected] – 6 / 36

� L’estimateur θ nous donnera donc une estimation ponctuelle pour θ∗� Bien souvent on utilisera des resultats asymptotiques comme celui plus

haut pour obtenir des intervalles de confiance, e.g.,

[

θ − z0.975std.err(θ), θ + z0.975std.err(θ)]

, z0.975 = Φ−1(0.975).

� En bref, θ est une variable aleatoire pour laquelle bien souvent seule la loiasymptotique est connue. . .

Page 9: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

2. Notions de base

1. Introduction

2. Notions de base

3. Loi a priori

4. InferenceBayesienne

Bayesien (v2) Mathieu Ribatet—[email protected] – 7 / 36

Page 10: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Idee fondamentale de la statistique Bayesienne

Bayesien (v2) Mathieu Ribatet—[email protected] – 8 / 36

Idee : Considerer le parametre θ comme une variable aleatoire.

Page 11: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Idee fondamentale de la statistique Bayesienne

Bayesien (v2) Mathieu Ribatet—[email protected] – 8 / 36

Idee : Considerer le parametre θ comme une variable aleatoire.

� On supposera donc que θ ∼ π et cette loi est appelee loi a priori.� La loi a priori encode nos connaissances // ignorances sur θ∗ avant d’avoir

acces aux donnees

Page 12: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Idee fondamentale de la statistique Bayesienne

Bayesien (v2) Mathieu Ribatet—[email protected] – 8 / 36

Idee : Considerer le parametre θ comme une variable aleatoire.

� On supposera donc que θ ∼ π et cette loi est appelee loi a priori.� La loi a priori encode nos connaissances // ignorances sur θ∗ avant d’avoir

acces aux donnees

Exemple 2. Pour notre modele gaussien on pourrait par exemple poser

π(θ) = π(µ)× π(σ2) = N(µ0, τ)× InvGamma(α, β).

Page 13: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Idee fondamentale de la statistique Bayesienne

Bayesien (v2) Mathieu Ribatet—[email protected] – 8 / 36

Idee : Considerer le parametre θ comme une variable aleatoire.

� On supposera donc que θ ∼ π et cette loi est appelee loi a priori.� La loi a priori encode nos connaissances // ignorances sur θ∗ avant d’avoir

acces aux donnees

Exemple 2. Pour notre modele gaussien on pourrait par exemple poser

π(θ) = π(µ)× π(σ2) = N(µ0, τ)× InvGamma(α, β).

Definition 2. Les parametres de la loi a priori, dans notre exemple µ0, τ, α etβ, sont appeles hyper-parametres.C’est au statisticien de fixer les valeurs pour ces hyper parametres. On ne lesajuste pas, on les definit !

Page 14: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Loi jointe et a posteriori

Bayesien (v2) Mathieu Ribatet—[email protected] – 9 / 36

� Puisque θ admet une loi, on peut pour un modele statistique{f(x | θ) : x ∈ E, θ ∈ Θ} donne exprimer la loi jointe

π(x, θ) = f(x | θ)π(θ)

� Toutefois la loi jointe n’a que peu d’interet pour le Bayesien et ons’interessera bien plus a la loi a posteriori

Definition 3. On appelle loi a posteriori la loi dont la densite est donnee par

π(θ | x) = f(x | θ)π(θ)∫

Θ f(x | θ)π(θ)dθ .

Page 15: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Loi jointe et a posteriori

Bayesien (v2) Mathieu Ribatet—[email protected] – 9 / 36

� Puisque θ admet une loi, on peut pour un modele statistique{f(x | θ) : x ∈ E, θ ∈ Θ} donne exprimer la loi jointe

π(x, θ) = f(x | θ)π(θ)

� Toutefois la loi jointe n’a que peu d’interet pour le Bayesien et ons’interessera bien plus a la loi a posteriori

Definition 3. On appelle loi a posteriori la loi dont la densite est donnee par

π(θ | x) = f(x | θ)π(θ)∫

Θ f(x | θ)π(θ)dθ .

Remarque. Attention j’utiliserai toujours f(x | θ) pour designer selon lecontexte soit la densite evaluee en x ∈ R, soit la vraisemblance evaluee enx ∈ R

n.

Page 16: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Loi marginale et constante de normalisation

Bayesien (v2) Mathieu Ribatet—[email protected] – 10 / 36

π(θ | x) = f(x | θ)π(θ)∫

Θ f(x | θ)π(θ)dθ .

� Le denominateur correspond a la loi marginale de x—que l’on noteraparfois m(x).

� Elle joue le role de constante de normalisation pour la loi a posterioripuisqu’elle est independante de θ.

Page 17: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Loi marginale et constante de normalisation

Bayesien (v2) Mathieu Ribatet—[email protected] – 10 / 36

π(θ | x) = f(x | θ)π(θ)∫

Θ f(x | θ)π(θ)dθ .

� Le denominateur correspond a la loi marginale de x—que l’on noteraparfois m(x).

� Elle joue le role de constante de normalisation pour la loi a posterioripuisqu’elle est independante de θ.

� Aussi bien souvent nous travaillerons a une constante multiplicative pres,i.e.,

π(θ | x) = f(x | θ)π(θ)∫

Θ f(x | θ)π(θ)dθ ∝ f(x | θ)π(θ).

Page 18: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Au fait pourquoi le nom statistique Bayesienne ?

Bayesien (v2) Mathieu Ribatet—[email protected] – 11 / 36

� Rappelons nous le Theoreme de Bayes

Pr(Y ∈ A | X ∈ B) =Pr(X ∈ B | Y ∈ A) Pr(Y ∈ A)

Pr(X ∈ B).

Page 19: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Au fait pourquoi le nom statistique Bayesienne ?

Bayesien (v2) Mathieu Ribatet—[email protected] – 11 / 36

� Rappelons nous le Theoreme de Bayes

Pr(Y ∈ A | X ∈ B) =Pr(X ∈ B | Y ∈ A) Pr(Y ∈ A)

Pr(X ∈ B).

� Mais puisque l’on considere θ comme une v.a., cela nous autorise a ecrire

Pr(θ ∈ A | X ∈ B) =Pr(X ∈ B | θ ∈ A) Pr(θ ∈ A)

Pr(X ∈ B).

Page 20: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Au fait pourquoi le nom statistique Bayesienne ?

Bayesien (v2) Mathieu Ribatet—[email protected] – 11 / 36

� Rappelons nous le Theoreme de Bayes

Pr(Y ∈ A | X ∈ B) =Pr(X ∈ B | Y ∈ A) Pr(Y ∈ A)

Pr(X ∈ B).

� Mais puisque l’on considere θ comme une v.a., cela nous autorise a ecrire

Pr(θ ∈ A | X ∈ B) =Pr(X ∈ B | θ ∈ A) Pr(θ ∈ A)

Pr(X ∈ B).

� Ceci est a comparer avec la definition de notre loi a posteriori

π(θ | x) = f(x | θ)π(θ)∫

Θ f(x | θ)π(θ)dθ .

Page 21: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Sommeil

Bayesien (v2) Mathieu Ribatet—[email protected] – 12 / 36

� Soit X le nombre d’etudiants qui vonts’endormir pendant mon cours parmi les npresents aujourd’hui

� On s’interesse a la probabilite inconnue

p = Pr(un etudiant quelconque s’endort).

� Quelle loi a priori ? Expression loi jointe// loi a posteriori ?

Page 22: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Illustration numerique

Bayesien (v2) Mathieu Ribatet—[email protected] – 13 / 36

0.0 0.2 0.4 0.6 0.8 1.0

05

10

15

20

25

30

35

p

π(p

x)

X = 0

0.0 0.2 0.4 0.6 0.8 1.0

01

23

45

p

π(p

x)

X = 11

0.0 0.2 0.4 0.6 0.8 1.0

01

23

4

p

π(p

x)

X = 17

0.0 0.2 0.4 0.6 0.8 1.0

05

10

15

20

25

30

35

p

π(p

x)

X = 33

Figure 1: Evolution de la loi a posteriori π(p | X) en fonction de X—ici n = 33.

Page 23: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

3. Loi a priori

1. Introduction

2. Notions de base

3. Loi a priori

4. InferenceBayesienne

Bayesien (v2) Mathieu Ribatet—[email protected] – 14 / 36

Page 24: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Loi a priori conjuguee

Bayesien (v2) Mathieu Ribatet—[email protected] – 15 / 36

Definition 4. Une famille F de lois de probabilites sur Θ est dite conjugueepour le modele statistique {f(x | θ) : x ∈ E, θ ∈ Θ} si, pour tout π ∈ F , laloi a posteriori

π(θ | x) ∝ f(x | θ)π(θ)appartient egalement a F .

Page 25: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Loi a priori conjuguee

Bayesien (v2) Mathieu Ribatet—[email protected] – 15 / 36

Definition 4. Une famille F de lois de probabilites sur Θ est dite conjugueepour le modele statistique {f(x | θ) : x ∈ E, θ ∈ Θ} si, pour tout π ∈ F , laloi a posteriori

π(θ | x) ∝ f(x | θ)π(θ)appartient egalement a F .

� L’utilisation de lois conjuguees est une “astuce” permettant d’obtenir deslois a posteriori explicitesa

aOn verra plus tard lors du cours Bayesien avance que cela nous servira pour obtenir des

echantillonneurs de type MCMC efficaces

Page 26: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Sommeil 2

Bayesien (v2) Mathieu Ribatet—[email protected] – 16 / 36

Reprenons notre exemple du sommeil en coursmais supposons que la loi a priori est uneBeta(α, β) dont la densite est

f(x) =xα−1(1− x)β−1

B(α, β)1{0≤x≤1},

avec α > 0, β > 0 et B(·, ·) la fonction Beta.

� La loi a posteriori est alors. . .

Page 27: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Illustration

Bayesien (v2) Mathieu Ribatet—[email protected] – 17 / 36

f(x) =xα−1(1− x)β−1

B(α, β), E[X] =

α

α+ β, Var[X] =

αβ

(α+ β)2(α+ β + 1).

� α ≫ β ⇒ “plus de poids vers 1”� α ≪ β ⇒ “plus de poids vers 0”

0.0 0.2 0.4 0.6 0.8 1.0

05

10

15

p

π(p)

α = 0.5, β = 2

0.0 0.2 0.4 0.6 0.8 1.0

0.6

0.8

1.0

1.2

1.4

p

π(p)

α = 1, β = 1

0.0 0.2 0.4 0.6 0.8 1.0

05

10

15

p

π(p)

α = 2, β = 0.5

0.0 0.2 0.4 0.6 0.8 1.0

01

23

p

π(p

x)

Figure 2: Impact de la loi a priori sur la loi a posteriori. Ici n = 10 et x = 2.

Page 28: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Teasing. . .

Bayesien (v2) Mathieu Ribatet—[email protected] – 18 / 36

� On verra dans le cours Bayesien avance que lorsque n → ∞ l’impact deπ(θ) sera (bien souvent) negligeable

� Pour le moment on se contentera de la “preuve” numerique suivante. . .

0.0 0.2 0.4 0.6 0.8 1.0

05

10

15

p

π(p)

0.0 0.2 0.4 0.6 0.8 1.0

01

23

p

π(p

x)

n = 10

0.0 0.2 0.4 0.6 0.8 1.0

01

23

45

67

p

π(p

x)

n = 50

0.0 0.2 0.4 0.6 0.8 1.0

010

20

30

40

50

60

p

π(p

x)

n = 5000

Figure 3: Evolution de la loi a posteriori en fonction de n—ici p∗ = 1/3.

Page 29: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Loi impropre

Bayesien (v2) Mathieu Ribatet—[email protected] – 19 / 36

Definition 5. Une mesure µ sur E est dite impropre si c’est une mesureσ-finie mais non finie, i.e.,

µ(E) = ∞,

mais pour autant il existe un recouvrement au plus denombrable {En : n ∈ I},I ⊆ N, de E tel que

µ(En) < ∞, ∀n ∈ I.

Exemple 3. Les mesures sur (0,∞)

dµ1(x) = dx, dµ2(x) = x−2dx

sont des lois de probabilites impropres.

Page 30: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Utilisation de loi a priori impropre

Bayesien (v2) Mathieu Ribatet—[email protected] – 20 / 36

� Il est tout a fait possible d’utiliser une loi a priori impropre. . .

Page 31: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Utilisation de loi a priori impropre

Bayesien (v2) Mathieu Ribatet—[email protected] – 20 / 36

� Il est tout a fait possible d’utiliser une loi a priori impropre. . .� . . . a la restriction pres que l’on doit s’assurer que

m(x) =

Θf(x | θ)π(θ)dθ < ∞.

Page 32: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Utilisation de loi a priori impropre

Bayesien (v2) Mathieu Ribatet—[email protected] – 20 / 36

� Il est tout a fait possible d’utiliser une loi a priori impropre. . .� . . . a la restriction pres que l’on doit s’assurer que

m(x) =

Θf(x | θ)π(θ)dθ < ∞.

� De sorte que la loi a posteriori

π(θ | x) = f(x | θ)π(θ)m(x)

definit bien une loi de probabilite non degeneree.

Page 33: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Un exemple Gaussien

Bayesien (v2) Mathieu Ribatet—[email protected] – 21 / 36

Exemple 4. On dispose d’un n-echantillon iid x = (x1, . . . , xn). Consideronsle modele Gaussien N(µ, 1) et prenons comme loi a priori π(µ) ∝ 1{µ∈R}.Que vaut m(x) ?

Page 34: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Loi a priori non informative

Bayesien (v2) Mathieu Ribatet—[email protected] – 22 / 36

� Nous avons vu que l’issue de notre inference depend du choix de la loi apriori

� C’est l’un des points vivement critique des statistiques Bayesiennes

Page 35: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Loi a priori non informative

Bayesien (v2) Mathieu Ribatet—[email protected] – 22 / 36

� Nous avons vu que l’issue de notre inference depend du choix de la loi apriori

� C’est l’un des points vivement critique des statistiques Bayesiennes� Ne serait-il pas possible “d’annihiler” l’impact de la loi a priori ?

Page 36: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Loi a priori non informative

Bayesien (v2) Mathieu Ribatet—[email protected] – 22 / 36

� Nous avons vu que l’issue de notre inference depend du choix de la loi apriori

� C’est l’un des points vivement critique des statistiques Bayesiennes� Ne serait-il pas possible “d’annihiler” l’impact de la loi a priori ?� L’objectif (idealise) de l’utilisation d’une loi a priori non informative est

– d’encoder notre totale ignorance sur θ ;– de ne pas influencer la loi a posteriori.

� Pour ce cours nous allons voir deux familles de lois a priori noninformatives : Laplace et Jeffreys.

Page 37: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Loi a priori non informative

Bayesien (v2) Mathieu Ribatet—[email protected] – 22 / 36

� Nous avons vu que l’issue de notre inference depend du choix de la loi apriori

� C’est l’un des points vivement critique des statistiques Bayesiennes� Ne serait-il pas possible “d’annihiler” l’impact de la loi a priori ?� L’objectif (idealise) de l’utilisation d’une loi a priori non informative est

– d’encoder notre totale ignorance sur θ ;– de ne pas influencer la loi a posteriori.

� Pour ce cours nous allons voir deux familles de lois a priori noninformatives : Laplace et Jeffreys.

� La notion de loi a priori non informative est sujet a controverse.

Page 38: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Loi a priori de Laplace

Bayesien (v2) Mathieu Ribatet—[email protected] – 23 / 36

Definition 6. La loi a priori de Laplace consiste a poser π(θ) ∝ 1{θ∈Θ}.

Page 39: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Loi a priori de Laplace

Bayesien (v2) Mathieu Ribatet—[email protected] – 23 / 36

Definition 6. La loi a priori de Laplace consiste a poser π(θ) ∝ 1{θ∈Θ}. C’estdonc la loi uniforme (discrete ou continue selon Θ), voire la mesure deLebesgue si nous sommes impropre.

Page 40: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Loi a priori de Laplace

Bayesien (v2) Mathieu Ribatet—[email protected] – 23 / 36

Definition 6. La loi a priori de Laplace consiste a poser π(θ) ∝ 1{θ∈Θ}. C’estdonc la loi uniforme (discrete ou continue selon Θ), voire la mesure deLebesgue si nous sommes impropre.

� La loi a priori de Laplace a quelques defauts cependant :

� elle peut mener a une loi a priori impropre et donc. . .� elle est non invariante par reparametrisation.

Page 41: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Loi a priori de Laplace

Bayesien (v2) Mathieu Ribatet—[email protected] – 23 / 36

Definition 6. La loi a priori de Laplace consiste a poser π(θ) ∝ 1{θ∈Θ}. C’estdonc la loi uniforme (discrete ou continue selon Θ), voire la mesure deLebesgue si nous sommes impropre.

� La loi a priori de Laplace a quelques defauts cependant :

� elle peut mener a une loi a priori impropre et donc. . .� elle est non invariante par reparametrisation.

Exemple 5. Considerons le modele Exponentiel(λ), λ > 0 et sareparametrisation via λ = exp(θ), θ ∈ R. Dans le premier cas on a

π1(λ) ∝ 1{λ>0},

et dans le 2eme

π2(θ) ∝ 1 =⇒ π2(λ) ∝ λ−1π2(lnλ)1{λ>0} ∝ λ−11{λ>0}.

Page 42: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Loi a priori de Jeffreys

Bayesien (v2) Mathieu Ribatet—[email protected] – 24 / 36

Definition 7. Soit un modele statistique {f(x; θ) : x ∈ E, θ ∈ Θ}. On appelleinformation de Fisher la quantite

I(θ) = E

[

{∇θ ln f(X; θ)}⊤∇θ ln f(X; θ)]

, X ∼ f(·; θ).

Sous les hypotheses d’interversion du signe integral et derive alors

I(θ) = −E[

∇2θ ln f(X; θ)

]

.

Page 43: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Loi a priori de Jeffreys

Bayesien (v2) Mathieu Ribatet—[email protected] – 24 / 36

Definition 7. Soit un modele statistique {f(x; θ) : x ∈ E, θ ∈ Θ}. On appelleinformation de Fisher la quantite

I(θ) = E

[

{∇θ ln f(X; θ)}⊤∇θ ln f(X; θ)]

, X ∼ f(·; θ).

Sous les hypotheses d’interversion du signe integral et derive alors

I(θ) = −E[

∇2θ ln f(X; θ)

]

.

Definition 8. La loi a priori de Jeffreys est donnee par π(θ) ∝ |I(θ)|1/2, ou|A| correspond au determinant de A.

� Cette loi a priori est invariante par reparametrisation� Elle peut neanmoins donner lieu a des lois a priori impropres� Elle n’est pas recommandee lorsque dimΘ > 1.1

1On verra en TD ce qu’il faut alors faire. . .

Page 44: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Sommeil 3

Bayesien (v2) Mathieu Ribatet—[email protected] – 25 / 36

� Puisque vous ne dormez toujours pas,reprenons encore notre exemple sur le som-meil en cours. . .

� Quelle est la loi a priori de Jeffrey la prob-abilite p de s’endormir ?

Page 45: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

4. Inference Bayesienne

1. Introduction

2. Notions de base

3. Loi a priori

4. InferenceBayesienne

Bayesien (v2) Mathieu Ribatet—[email protected] – 26 / 36

Page 46: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Motivation

Bayesien (v2) Mathieu Ribatet—[email protected] – 27 / 36

� Dans le cadre de travail Bayesien, la loi a posteriori π(θ | x) contienttoute l’information necessaire sur θ

� Cela dit devoir manipuler l’integralite de la loi est parfois peu commode.� Il est donc utile d’utiliser des resumes statistiques de π(θ | x) comme

– la moyenne a posteriori– la mediane a posteriori– le mode/maximum a posteriori (MAP)– un quantile a posteriori d’ordre p.

� On peut egalement s’interesser a des regions de confiance.

Page 47: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Motivation

Bayesien (v2) Mathieu Ribatet—[email protected] – 27 / 36

� Dans le cadre de travail Bayesien, la loi a posteriori π(θ | x) contienttoute l’information necessaire sur θ

� Cela dit devoir manipuler l’integralite de la loi est parfois peu commode.� Il est donc utile d’utiliser des resumes statistiques de π(θ | x) comme

– la moyenne a posteriori– la mediane a posteriori– le mode/maximum a posteriori (MAP)– un quantile a posteriori d’ordre p.

� On peut egalement s’interesser a des regions de confiance.

� Nous verrons dans le cours Bayesien avance (ou pas !) que ces choixpeuvent etre justifies via la theorie de la decision.

Page 48: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Rappels : Intervalles de confiances (frequentiste)

Bayesien (v2) Mathieu Ribatet—[email protected] – 28 / 36

Definition 9. Un intervalle de confiance de niveau α pour une quantited’interet f(θ0) est un intervalle aleatoire Iα tel que Pr{f(θ0) ∈ Iα} = 1− α.

Exemple 6. Soient X1, . . . , Xn ∼ N(µ, σ2), σ2 connu. Alors

I =

[

Xn − 1.96σ√n, Xn + 1.96

σ√n

]

,

est un intervalle de confiance pour µ a 95%.

Page 49: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Rappels : Intervalles de confiances (frequentiste)

Bayesien (v2) Mathieu Ribatet—[email protected] – 28 / 36

Definition 9. Un intervalle de confiance de niveau α pour une quantited’interet f(θ0) est un intervalle aleatoire Iα tel que Pr{f(θ0) ∈ Iα} = 1− α.

Exemple 6. Soient X1, . . . , Xn ∼ N(µ, σ2), σ2 connu. Alors

I =

[

Xn − 1.96σ√n, Xn + 1.96

σ√n

]

,

est un intervalle de confiance pour µ a 95%.

� En pratique on obtient donc une realisation de cet intervalle aleatoire. Leniveau α% correspond donc a la proportion que n realisations de cet intervallede confiance contienne le vrai parametre f(θ0) lorsque n → ∞ !!!

Page 50: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Region α–credible

Bayesien (v2) Mathieu Ribatet—[email protected] – 29 / 36

Definition 10. Pour une loi a priori π donnee, un ensemble Cx ⊂ Θ est unensemble α–credible si

Prπ(θ ∈ Cx | x) ≥ 1− α.

Page 51: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Region α–credible

Bayesien (v2) Mathieu Ribatet—[email protected] – 29 / 36

Definition 10. Pour une loi a priori π donnee, un ensemble Cx ⊂ Θ est unensemble α–credible si

Prπ(θ ∈ Cx | x) ≥ 1− α.

Remarque. Avez vous bien compris le sens de la notation suivante

Prπ(θ ∈ Cx | x) = . . .?

Page 52: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Region α–credible

Bayesien (v2) Mathieu Ribatet—[email protected] – 29 / 36

Definition 10. Pour une loi a priori π donnee, un ensemble Cx ⊂ Θ est unensemble α–credible si

Prπ(θ ∈ Cx | x) ≥ 1− α.

Remarque. Avez vous bien compris le sens de la notation suivante

Prπ(θ ∈ Cx | x) =∫

Θ1{θ∈Cx} . . .

Page 53: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Region α–credible

Bayesien (v2) Mathieu Ribatet—[email protected] – 29 / 36

Definition 10. Pour une loi a priori π donnee, un ensemble Cx ⊂ Θ est unensemble α–credible si

Prπ(θ ∈ Cx | x) ≥ 1− α.

Remarque. Avez vous bien compris le sens de la notation suivante

Prπ(θ ∈ Cx | x) =∫

Θ1{θ∈Cx}π(θ | x)dθ.

Page 54: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Intervalle de credibilite

Bayesien (v2) Mathieu Ribatet—[email protected] – 30 / 36

On se restreint au cas ou θ est un parametre scalaire.2

Definition 11. Pour une loi a priori π donnee, un intervalle Ix ⊂ R est unintervalle de credibilite de niveau 1− α si

Prπ(θ ∈ Ix | x) = 1− α.

Page 55: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Intervalle de credibilite

Bayesien (v2) Mathieu Ribatet—[email protected] – 30 / 36

On se restreint au cas ou θ est un parametre scalaire.2

Definition 11. Pour une loi a priori π donnee, un intervalle Ix ⊂ R est unintervalle de credibilite de niveau 1− α si

Prπ(θ ∈ Ix | x) = 1− α.

� Bien souvent on utilisera des intervalles de credibilite symetriques, i.e.,

Ix =[

2, x

)

, qπ

(

1− α

2, x

)]

,

avecqπ(p, x) = inf {u ∈ R : Prπ (θ ≤ u | x) ≥ 1− α} .

2ou alors on se restreint a θj , j ∈ {1, . . . , p} lorsque dimΘ = p.

Page 56: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Illustration

Bayesien (v2) Mathieu Ribatet—[email protected] – 31 / 36

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

p

π(p

x)

0.0 0.2 0.4 0.6 0.8 1.00

.00

.51

.01

.52

.02

.53

.0p

π(p

x)

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

p

π(p

x)

Figure 4: Trois differents intervalles de credibilite (segments rouges) tous de niveau 95%.

Page 57: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Region HPD (High Posterior Density)

Bayesien (v2) Mathieu Ribatet—[email protected] – 32 / 36

Definition 12. Une region α–credible Cx est une region HPD α–credible sielle est de la forme Cx = {θ ∈ Θ: π(θ | x) ≥ uα}.

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

p

π(p

x)

u0.9

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

p

π(p

x)

u0.95

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

p

π(p

x)

u0.99

Figure 5: Illustration des regions α–credibles HPD de niveau 90%, 95% et 99%.

Page 58: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Region HPD (High Posterior Density)

Bayesien (v2) Mathieu Ribatet—[email protected] – 32 / 36

Definition 12. Une region α–credible Cx est une region HPD α–credible sielle est de la forme Cx = {θ ∈ Θ: π(θ | x) ≥ uα}.

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

p

π(p

x)

u0.9

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

p

π(p

x)

u0.95

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

p

π(p

x)

u0.99

Figure 5: Illustration des regions α–credibles HPD de niveau 90%, 95% et 99%.

� Les regions HPD peuvent etre non connexes !

Page 59: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Intervalles de confiance vs. credibilite

Bayesien (v2) Mathieu Ribatet—[email protected] – 33 / 36

Pr(θ0 ∈ I) = 1− α

� I est aleatoire� La prochaine realisation de I aura

(1−α)% de chance de contenir θ0.

Prπ(θ ∈ I | x) = 1− α.

� θ est aleatoire� Ayant observe x, il y a (1 − α)%

de chance que I contienne θ0.

Page 60: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Loi predictive a posteriori

Bayesien (v2) Mathieu Ribatet—[email protected] – 34 / 36

� On souhaite predire une nouvelle observation xn+1.� En statistique frequentiste, on utilisera souvent le predicteur E[X],

X ∼ f(·; θ), θ estimateur de θ.� Cependant cela ne tient pas compte de l’incertitude d’estimation sur θ.� Le cadre Bayesien permet de tenir compte de cette incertitude.

Definition 13. On appelle loi predictive a posteriori la loi de densite

π(xn+1 | x) =∫

f(xn+1 | θ, x)π(θ | x)dθ.

Page 61: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Loi predictive a posteriori

Bayesien (v2) Mathieu Ribatet—[email protected] – 34 / 36

� On souhaite predire une nouvelle observation xn+1.� En statistique frequentiste, on utilisera souvent le predicteur E[X],

X ∼ f(·; θ), θ estimateur de θ.� Cependant cela ne tient pas compte de l’incertitude d’estimation sur θ.� Le cadre Bayesien permet de tenir compte de cette incertitude.

Definition 13. On appelle loi predictive a posteriori la loi de densite

π(xn+1 | x) =∫

f(xn+1 | θ, x)π(θ | x)dθ.

� On utilisera alors le predicteur Bayesien

xn+1 =

xn+1π(xn+1 | x)dxn+1.

Page 62: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Sommeil 4

Bayesien (v2) Mathieu Ribatet—[email protected] – 35 / 36

Un nouvel eleve arrive en cours d’annee (il aprolonge sa cesure) et suit mon cours pourla premiere fois. Va-t-il s’endormir durant cecours ?

Page 63: STAT2–Introduction `a la statistique Bay´esiennemribatet.perso.math.cnrs.fr/CentraleNantes/STA2/...STAT2–Introduction `a la statistique Bay´esienne Mathieu Ribatet Ecole Centrale

Parce que nous n’avons pas assez de temps. . .

Bayesien (v2) Mathieu Ribatet—[email protected] – 36 / 36

� Les statistiques Bayesiennes ont le vent en poupe depuis le debut desannees 2000

� Ici nous sommes restes dans un cadre (bien trop) scolaire� Heureusement le cours Bayesien avance du second semestre viendra

combler ce manque en couvrant notamment

– les techniques dıtes de Monte Carlo– les algorithmes plus specifiques de type MCMC– les modeles Bayesiens hierarchiques.