stat2–introduction `a la statistique...
TRANSCRIPT
Bayesien (v2) Mathieu Ribatet—[email protected] – 1 / 36
STAT2–Introduction a la statistique Bayesienne
Mathieu Ribatet
Ecole Centrale de Nantes
Quelques references bibliographiques
Bayesien (v2) Mathieu Ribatet—[email protected] – 2 / 36
[1] M. K. Cowles. Applied Bayesian Statistics with R and OpenBugs
Examples. Springer Texts in Statistics. Springer-Verlag, 2013.
[2] J. A. Hartigan. Bayes Theory. Springer Series in Statistics.Springer-Verlag, 1983.
[3] C.P. Robert. The Bayesian Choice: A Decision-theoretic Motivation.Springer Texts in Statistics. Springer-Verlag, 2007.
1. Introduction
1. Introduction
2. Notions de base
3. Loi a priori
4. InferenceBayesienne
Bayesien (v2) Mathieu Ribatet—[email protected] – 3 / 36
Modele statistique (parametrique)
Bayesien (v2) Mathieu Ribatet—[email protected] – 4 / 36
Definition 1. Une famille parametree de fonctions {f(x; θ) : x ∈ E, θ ∈ Θ}est un modele statistique si, pour tout θ ∈ Θ, x 7→ f(x; θ) est une densite deprobabilite sur E.L’ensemble Θ est appele espace des parametres et E espace des observations.
Remarque. On parle de modele statistique parametrique lorsque dim(Θ) < ∞.
Exemple 1. La famille
{
f(x; θ) =1√2πσ2
exp
(
−(x− µ)2
2σ2
)
: x ∈ R, θ = (µ, σ2) ∈ R× (0,∞)
}
est un modele statistique, celui de la loi Gausienne.
Statistique frequentiste
Bayesien (v2) Mathieu Ribatet—[email protected] – 5 / 36
� Soit {g(x; θ) : x ∈ X, θ ∈ Θ} un modele statistique.� La statistique frequentiste suppose l’existence d’un “vrai” parametre θ∗
generant les donnees, i.e.,
(X1, . . . , Xn) ∼ g(·; θ∗).
� Ensuite on cherchera / utilisera un estimateur θ de θ∗ avec de bonnesproprietes, e.g.,
√n(θ − θ∗)
L−→ N(0,Σ), n → ∞.
Statistique frequentiste
Bayesien (v2) Mathieu Ribatet—[email protected] – 5 / 36
� Soit {g(x; θ) : x ∈ X, θ ∈ Θ} un modele statistique.� La statistique frequentiste suppose l’existence d’un “vrai” parametre θ∗
generant les donnees, i.e.,
(X1, . . . , Xn) ∼ g(·; θ∗).
� Ensuite on cherchera / utilisera un estimateur θ de θ∗ avec de bonnesproprietes, e.g.,
√n(θ − θ∗)
L−→ N(0,Σ), n → ∞.
Remarque. Bien souvent on supposera que le modele statistique utilise pourl’estimation contient celui generant les donnees. . . mais on peut generalisercela !
Estimation ponctuelle et precision
Bayesien (v2) Mathieu Ribatet—[email protected] – 6 / 36
� L’estimateur θ nous donnera donc une estimation ponctuelle pour θ∗� Bien souvent on utilisera des resultats asymptotiques comme celui plus
haut pour obtenir des intervalles de confiance, e.g.,
[
θ − z0.975std.err(θ), θ + z0.975std.err(θ)]
, z0.975 = Φ−1(0.975).
Estimation ponctuelle et precision
Bayesien (v2) Mathieu Ribatet—[email protected] – 6 / 36
� L’estimateur θ nous donnera donc une estimation ponctuelle pour θ∗� Bien souvent on utilisera des resultats asymptotiques comme celui plus
haut pour obtenir des intervalles de confiance, e.g.,
[
θ − z0.975std.err(θ), θ + z0.975std.err(θ)]
, z0.975 = Φ−1(0.975).
� En bref, θ est une variable aleatoire pour laquelle bien souvent seule la loiasymptotique est connue. . .
2. Notions de base
1. Introduction
2. Notions de base
3. Loi a priori
4. InferenceBayesienne
Bayesien (v2) Mathieu Ribatet—[email protected] – 7 / 36
Idee fondamentale de la statistique Bayesienne
Bayesien (v2) Mathieu Ribatet—[email protected] – 8 / 36
Idee : Considerer le parametre θ comme une variable aleatoire.
Idee fondamentale de la statistique Bayesienne
Bayesien (v2) Mathieu Ribatet—[email protected] – 8 / 36
Idee : Considerer le parametre θ comme une variable aleatoire.
� On supposera donc que θ ∼ π et cette loi est appelee loi a priori.� La loi a priori encode nos connaissances // ignorances sur θ∗ avant d’avoir
acces aux donnees
Idee fondamentale de la statistique Bayesienne
Bayesien (v2) Mathieu Ribatet—[email protected] – 8 / 36
Idee : Considerer le parametre θ comme une variable aleatoire.
� On supposera donc que θ ∼ π et cette loi est appelee loi a priori.� La loi a priori encode nos connaissances // ignorances sur θ∗ avant d’avoir
acces aux donnees
Exemple 2. Pour notre modele gaussien on pourrait par exemple poser
π(θ) = π(µ)× π(σ2) = N(µ0, τ)× InvGamma(α, β).
Idee fondamentale de la statistique Bayesienne
Bayesien (v2) Mathieu Ribatet—[email protected] – 8 / 36
Idee : Considerer le parametre θ comme une variable aleatoire.
� On supposera donc que θ ∼ π et cette loi est appelee loi a priori.� La loi a priori encode nos connaissances // ignorances sur θ∗ avant d’avoir
acces aux donnees
Exemple 2. Pour notre modele gaussien on pourrait par exemple poser
π(θ) = π(µ)× π(σ2) = N(µ0, τ)× InvGamma(α, β).
Definition 2. Les parametres de la loi a priori, dans notre exemple µ0, τ, α etβ, sont appeles hyper-parametres.C’est au statisticien de fixer les valeurs pour ces hyper parametres. On ne lesajuste pas, on les definit !
Loi jointe et a posteriori
Bayesien (v2) Mathieu Ribatet—[email protected] – 9 / 36
� Puisque θ admet une loi, on peut pour un modele statistique{f(x | θ) : x ∈ E, θ ∈ Θ} donne exprimer la loi jointe
π(x, θ) = f(x | θ)π(θ)
� Toutefois la loi jointe n’a que peu d’interet pour le Bayesien et ons’interessera bien plus a la loi a posteriori
Definition 3. On appelle loi a posteriori la loi dont la densite est donnee par
π(θ | x) = f(x | θ)π(θ)∫
Θ f(x | θ)π(θ)dθ .
Loi jointe et a posteriori
Bayesien (v2) Mathieu Ribatet—[email protected] – 9 / 36
� Puisque θ admet une loi, on peut pour un modele statistique{f(x | θ) : x ∈ E, θ ∈ Θ} donne exprimer la loi jointe
π(x, θ) = f(x | θ)π(θ)
� Toutefois la loi jointe n’a que peu d’interet pour le Bayesien et ons’interessera bien plus a la loi a posteriori
Definition 3. On appelle loi a posteriori la loi dont la densite est donnee par
π(θ | x) = f(x | θ)π(θ)∫
Θ f(x | θ)π(θ)dθ .
Remarque. Attention j’utiliserai toujours f(x | θ) pour designer selon lecontexte soit la densite evaluee en x ∈ R, soit la vraisemblance evaluee enx ∈ R
n.
Loi marginale et constante de normalisation
Bayesien (v2) Mathieu Ribatet—[email protected] – 10 / 36
π(θ | x) = f(x | θ)π(θ)∫
Θ f(x | θ)π(θ)dθ .
� Le denominateur correspond a la loi marginale de x—que l’on noteraparfois m(x).
� Elle joue le role de constante de normalisation pour la loi a posterioripuisqu’elle est independante de θ.
Loi marginale et constante de normalisation
Bayesien (v2) Mathieu Ribatet—[email protected] – 10 / 36
π(θ | x) = f(x | θ)π(θ)∫
Θ f(x | θ)π(θ)dθ .
� Le denominateur correspond a la loi marginale de x—que l’on noteraparfois m(x).
� Elle joue le role de constante de normalisation pour la loi a posterioripuisqu’elle est independante de θ.
� Aussi bien souvent nous travaillerons a une constante multiplicative pres,i.e.,
π(θ | x) = f(x | θ)π(θ)∫
Θ f(x | θ)π(θ)dθ ∝ f(x | θ)π(θ).
Au fait pourquoi le nom statistique Bayesienne ?
Bayesien (v2) Mathieu Ribatet—[email protected] – 11 / 36
� Rappelons nous le Theoreme de Bayes
Pr(Y ∈ A | X ∈ B) =Pr(X ∈ B | Y ∈ A) Pr(Y ∈ A)
Pr(X ∈ B).
Au fait pourquoi le nom statistique Bayesienne ?
Bayesien (v2) Mathieu Ribatet—[email protected] – 11 / 36
� Rappelons nous le Theoreme de Bayes
Pr(Y ∈ A | X ∈ B) =Pr(X ∈ B | Y ∈ A) Pr(Y ∈ A)
Pr(X ∈ B).
� Mais puisque l’on considere θ comme une v.a., cela nous autorise a ecrire
Pr(θ ∈ A | X ∈ B) =Pr(X ∈ B | θ ∈ A) Pr(θ ∈ A)
Pr(X ∈ B).
Au fait pourquoi le nom statistique Bayesienne ?
Bayesien (v2) Mathieu Ribatet—[email protected] – 11 / 36
� Rappelons nous le Theoreme de Bayes
Pr(Y ∈ A | X ∈ B) =Pr(X ∈ B | Y ∈ A) Pr(Y ∈ A)
Pr(X ∈ B).
� Mais puisque l’on considere θ comme une v.a., cela nous autorise a ecrire
Pr(θ ∈ A | X ∈ B) =Pr(X ∈ B | θ ∈ A) Pr(θ ∈ A)
Pr(X ∈ B).
� Ceci est a comparer avec la definition de notre loi a posteriori
π(θ | x) = f(x | θ)π(θ)∫
Θ f(x | θ)π(θ)dθ .
Sommeil
Bayesien (v2) Mathieu Ribatet—[email protected] – 12 / 36
� Soit X le nombre d’etudiants qui vonts’endormir pendant mon cours parmi les npresents aujourd’hui
� On s’interesse a la probabilite inconnue
p = Pr(un etudiant quelconque s’endort).
� Quelle loi a priori ? Expression loi jointe// loi a posteriori ?
Illustration numerique
Bayesien (v2) Mathieu Ribatet—[email protected] – 13 / 36
0.0 0.2 0.4 0.6 0.8 1.0
05
10
15
20
25
30
35
p
π(p
x)
X = 0
0.0 0.2 0.4 0.6 0.8 1.0
01
23
45
p
π(p
x)
X = 11
0.0 0.2 0.4 0.6 0.8 1.0
01
23
4
p
π(p
x)
X = 17
0.0 0.2 0.4 0.6 0.8 1.0
05
10
15
20
25
30
35
p
π(p
x)
X = 33
Figure 1: Evolution de la loi a posteriori π(p | X) en fonction de X—ici n = 33.
3. Loi a priori
1. Introduction
2. Notions de base
3. Loi a priori
4. InferenceBayesienne
Bayesien (v2) Mathieu Ribatet—[email protected] – 14 / 36
Loi a priori conjuguee
Bayesien (v2) Mathieu Ribatet—[email protected] – 15 / 36
Definition 4. Une famille F de lois de probabilites sur Θ est dite conjugueepour le modele statistique {f(x | θ) : x ∈ E, θ ∈ Θ} si, pour tout π ∈ F , laloi a posteriori
π(θ | x) ∝ f(x | θ)π(θ)appartient egalement a F .
Loi a priori conjuguee
Bayesien (v2) Mathieu Ribatet—[email protected] – 15 / 36
Definition 4. Une famille F de lois de probabilites sur Θ est dite conjugueepour le modele statistique {f(x | θ) : x ∈ E, θ ∈ Θ} si, pour tout π ∈ F , laloi a posteriori
π(θ | x) ∝ f(x | θ)π(θ)appartient egalement a F .
� L’utilisation de lois conjuguees est une “astuce” permettant d’obtenir deslois a posteriori explicitesa
aOn verra plus tard lors du cours Bayesien avance que cela nous servira pour obtenir des
echantillonneurs de type MCMC efficaces
Sommeil 2
Bayesien (v2) Mathieu Ribatet—[email protected] – 16 / 36
Reprenons notre exemple du sommeil en coursmais supposons que la loi a priori est uneBeta(α, β) dont la densite est
f(x) =xα−1(1− x)β−1
B(α, β)1{0≤x≤1},
avec α > 0, β > 0 et B(·, ·) la fonction Beta.
� La loi a posteriori est alors. . .
Illustration
Bayesien (v2) Mathieu Ribatet—[email protected] – 17 / 36
f(x) =xα−1(1− x)β−1
B(α, β), E[X] =
α
α+ β, Var[X] =
αβ
(α+ β)2(α+ β + 1).
� α ≫ β ⇒ “plus de poids vers 1”� α ≪ β ⇒ “plus de poids vers 0”
0.0 0.2 0.4 0.6 0.8 1.0
05
10
15
p
π(p)
α = 0.5, β = 2
0.0 0.2 0.4 0.6 0.8 1.0
0.6
0.8
1.0
1.2
1.4
p
π(p)
α = 1, β = 1
0.0 0.2 0.4 0.6 0.8 1.0
05
10
15
p
π(p)
α = 2, β = 0.5
0.0 0.2 0.4 0.6 0.8 1.0
01
23
p
π(p
x)
Figure 2: Impact de la loi a priori sur la loi a posteriori. Ici n = 10 et x = 2.
Teasing. . .
Bayesien (v2) Mathieu Ribatet—[email protected] – 18 / 36
� On verra dans le cours Bayesien avance que lorsque n → ∞ l’impact deπ(θ) sera (bien souvent) negligeable
� Pour le moment on se contentera de la “preuve” numerique suivante. . .
0.0 0.2 0.4 0.6 0.8 1.0
05
10
15
p
π(p)
0.0 0.2 0.4 0.6 0.8 1.0
01
23
p
π(p
x)
n = 10
0.0 0.2 0.4 0.6 0.8 1.0
01
23
45
67
p
π(p
x)
n = 50
0.0 0.2 0.4 0.6 0.8 1.0
010
20
30
40
50
60
p
π(p
x)
n = 5000
Figure 3: Evolution de la loi a posteriori en fonction de n—ici p∗ = 1/3.
Loi impropre
Bayesien (v2) Mathieu Ribatet—[email protected] – 19 / 36
Definition 5. Une mesure µ sur E est dite impropre si c’est une mesureσ-finie mais non finie, i.e.,
µ(E) = ∞,
mais pour autant il existe un recouvrement au plus denombrable {En : n ∈ I},I ⊆ N, de E tel que
µ(En) < ∞, ∀n ∈ I.
Exemple 3. Les mesures sur (0,∞)
dµ1(x) = dx, dµ2(x) = x−2dx
sont des lois de probabilites impropres.
Utilisation de loi a priori impropre
Bayesien (v2) Mathieu Ribatet—[email protected] – 20 / 36
� Il est tout a fait possible d’utiliser une loi a priori impropre. . .
Utilisation de loi a priori impropre
Bayesien (v2) Mathieu Ribatet—[email protected] – 20 / 36
� Il est tout a fait possible d’utiliser une loi a priori impropre. . .� . . . a la restriction pres que l’on doit s’assurer que
m(x) =
∫
Θf(x | θ)π(θ)dθ < ∞.
Utilisation de loi a priori impropre
Bayesien (v2) Mathieu Ribatet—[email protected] – 20 / 36
� Il est tout a fait possible d’utiliser une loi a priori impropre. . .� . . . a la restriction pres que l’on doit s’assurer que
m(x) =
∫
Θf(x | θ)π(θ)dθ < ∞.
� De sorte que la loi a posteriori
π(θ | x) = f(x | θ)π(θ)m(x)
definit bien une loi de probabilite non degeneree.
Un exemple Gaussien
Bayesien (v2) Mathieu Ribatet—[email protected] – 21 / 36
Exemple 4. On dispose d’un n-echantillon iid x = (x1, . . . , xn). Consideronsle modele Gaussien N(µ, 1) et prenons comme loi a priori π(µ) ∝ 1{µ∈R}.Que vaut m(x) ?
Loi a priori non informative
Bayesien (v2) Mathieu Ribatet—[email protected] – 22 / 36
� Nous avons vu que l’issue de notre inference depend du choix de la loi apriori
� C’est l’un des points vivement critique des statistiques Bayesiennes
Loi a priori non informative
Bayesien (v2) Mathieu Ribatet—[email protected] – 22 / 36
� Nous avons vu que l’issue de notre inference depend du choix de la loi apriori
� C’est l’un des points vivement critique des statistiques Bayesiennes� Ne serait-il pas possible “d’annihiler” l’impact de la loi a priori ?
Loi a priori non informative
Bayesien (v2) Mathieu Ribatet—[email protected] – 22 / 36
� Nous avons vu que l’issue de notre inference depend du choix de la loi apriori
� C’est l’un des points vivement critique des statistiques Bayesiennes� Ne serait-il pas possible “d’annihiler” l’impact de la loi a priori ?� L’objectif (idealise) de l’utilisation d’une loi a priori non informative est
– d’encoder notre totale ignorance sur θ ;– de ne pas influencer la loi a posteriori.
� Pour ce cours nous allons voir deux familles de lois a priori noninformatives : Laplace et Jeffreys.
Loi a priori non informative
Bayesien (v2) Mathieu Ribatet—[email protected] – 22 / 36
� Nous avons vu que l’issue de notre inference depend du choix de la loi apriori
� C’est l’un des points vivement critique des statistiques Bayesiennes� Ne serait-il pas possible “d’annihiler” l’impact de la loi a priori ?� L’objectif (idealise) de l’utilisation d’une loi a priori non informative est
– d’encoder notre totale ignorance sur θ ;– de ne pas influencer la loi a posteriori.
� Pour ce cours nous allons voir deux familles de lois a priori noninformatives : Laplace et Jeffreys.
� La notion de loi a priori non informative est sujet a controverse.
Loi a priori de Laplace
Bayesien (v2) Mathieu Ribatet—[email protected] – 23 / 36
Definition 6. La loi a priori de Laplace consiste a poser π(θ) ∝ 1{θ∈Θ}.
Loi a priori de Laplace
Bayesien (v2) Mathieu Ribatet—[email protected] – 23 / 36
Definition 6. La loi a priori de Laplace consiste a poser π(θ) ∝ 1{θ∈Θ}. C’estdonc la loi uniforme (discrete ou continue selon Θ), voire la mesure deLebesgue si nous sommes impropre.
Loi a priori de Laplace
Bayesien (v2) Mathieu Ribatet—[email protected] – 23 / 36
Definition 6. La loi a priori de Laplace consiste a poser π(θ) ∝ 1{θ∈Θ}. C’estdonc la loi uniforme (discrete ou continue selon Θ), voire la mesure deLebesgue si nous sommes impropre.
� La loi a priori de Laplace a quelques defauts cependant :
� elle peut mener a une loi a priori impropre et donc. . .� elle est non invariante par reparametrisation.
Loi a priori de Laplace
Bayesien (v2) Mathieu Ribatet—[email protected] – 23 / 36
Definition 6. La loi a priori de Laplace consiste a poser π(θ) ∝ 1{θ∈Θ}. C’estdonc la loi uniforme (discrete ou continue selon Θ), voire la mesure deLebesgue si nous sommes impropre.
� La loi a priori de Laplace a quelques defauts cependant :
� elle peut mener a une loi a priori impropre et donc. . .� elle est non invariante par reparametrisation.
Exemple 5. Considerons le modele Exponentiel(λ), λ > 0 et sareparametrisation via λ = exp(θ), θ ∈ R. Dans le premier cas on a
π1(λ) ∝ 1{λ>0},
et dans le 2eme
π2(θ) ∝ 1 =⇒ π2(λ) ∝ λ−1π2(lnλ)1{λ>0} ∝ λ−11{λ>0}.
Loi a priori de Jeffreys
Bayesien (v2) Mathieu Ribatet—[email protected] – 24 / 36
Definition 7. Soit un modele statistique {f(x; θ) : x ∈ E, θ ∈ Θ}. On appelleinformation de Fisher la quantite
I(θ) = E
[
{∇θ ln f(X; θ)}⊤∇θ ln f(X; θ)]
, X ∼ f(·; θ).
Sous les hypotheses d’interversion du signe integral et derive alors
I(θ) = −E[
∇2θ ln f(X; θ)
]
.
Loi a priori de Jeffreys
Bayesien (v2) Mathieu Ribatet—[email protected] – 24 / 36
Definition 7. Soit un modele statistique {f(x; θ) : x ∈ E, θ ∈ Θ}. On appelleinformation de Fisher la quantite
I(θ) = E
[
{∇θ ln f(X; θ)}⊤∇θ ln f(X; θ)]
, X ∼ f(·; θ).
Sous les hypotheses d’interversion du signe integral et derive alors
I(θ) = −E[
∇2θ ln f(X; θ)
]
.
Definition 8. La loi a priori de Jeffreys est donnee par π(θ) ∝ |I(θ)|1/2, ou|A| correspond au determinant de A.
� Cette loi a priori est invariante par reparametrisation� Elle peut neanmoins donner lieu a des lois a priori impropres� Elle n’est pas recommandee lorsque dimΘ > 1.1
1On verra en TD ce qu’il faut alors faire. . .
Sommeil 3
Bayesien (v2) Mathieu Ribatet—[email protected] – 25 / 36
� Puisque vous ne dormez toujours pas,reprenons encore notre exemple sur le som-meil en cours. . .
� Quelle est la loi a priori de Jeffrey la prob-abilite p de s’endormir ?
4. Inference Bayesienne
1. Introduction
2. Notions de base
3. Loi a priori
4. InferenceBayesienne
Bayesien (v2) Mathieu Ribatet—[email protected] – 26 / 36
Motivation
Bayesien (v2) Mathieu Ribatet—[email protected] – 27 / 36
� Dans le cadre de travail Bayesien, la loi a posteriori π(θ | x) contienttoute l’information necessaire sur θ
� Cela dit devoir manipuler l’integralite de la loi est parfois peu commode.� Il est donc utile d’utiliser des resumes statistiques de π(θ | x) comme
– la moyenne a posteriori– la mediane a posteriori– le mode/maximum a posteriori (MAP)– un quantile a posteriori d’ordre p.
� On peut egalement s’interesser a des regions de confiance.
Motivation
Bayesien (v2) Mathieu Ribatet—[email protected] – 27 / 36
� Dans le cadre de travail Bayesien, la loi a posteriori π(θ | x) contienttoute l’information necessaire sur θ
� Cela dit devoir manipuler l’integralite de la loi est parfois peu commode.� Il est donc utile d’utiliser des resumes statistiques de π(θ | x) comme
– la moyenne a posteriori– la mediane a posteriori– le mode/maximum a posteriori (MAP)– un quantile a posteriori d’ordre p.
� On peut egalement s’interesser a des regions de confiance.
� Nous verrons dans le cours Bayesien avance (ou pas !) que ces choixpeuvent etre justifies via la theorie de la decision.
Rappels : Intervalles de confiances (frequentiste)
Bayesien (v2) Mathieu Ribatet—[email protected] – 28 / 36
Definition 9. Un intervalle de confiance de niveau α pour une quantited’interet f(θ0) est un intervalle aleatoire Iα tel que Pr{f(θ0) ∈ Iα} = 1− α.
Exemple 6. Soient X1, . . . , Xn ∼ N(µ, σ2), σ2 connu. Alors
I =
[
Xn − 1.96σ√n, Xn + 1.96
σ√n
]
,
est un intervalle de confiance pour µ a 95%.
Rappels : Intervalles de confiances (frequentiste)
Bayesien (v2) Mathieu Ribatet—[email protected] – 28 / 36
Definition 9. Un intervalle de confiance de niveau α pour une quantited’interet f(θ0) est un intervalle aleatoire Iα tel que Pr{f(θ0) ∈ Iα} = 1− α.
Exemple 6. Soient X1, . . . , Xn ∼ N(µ, σ2), σ2 connu. Alors
I =
[
Xn − 1.96σ√n, Xn + 1.96
σ√n
]
,
est un intervalle de confiance pour µ a 95%.
� En pratique on obtient donc une realisation de cet intervalle aleatoire. Leniveau α% correspond donc a la proportion que n realisations de cet intervallede confiance contienne le vrai parametre f(θ0) lorsque n → ∞ !!!
Region α–credible
Bayesien (v2) Mathieu Ribatet—[email protected] – 29 / 36
Definition 10. Pour une loi a priori π donnee, un ensemble Cx ⊂ Θ est unensemble α–credible si
Prπ(θ ∈ Cx | x) ≥ 1− α.
Region α–credible
Bayesien (v2) Mathieu Ribatet—[email protected] – 29 / 36
Definition 10. Pour une loi a priori π donnee, un ensemble Cx ⊂ Θ est unensemble α–credible si
Prπ(θ ∈ Cx | x) ≥ 1− α.
Remarque. Avez vous bien compris le sens de la notation suivante
Prπ(θ ∈ Cx | x) = . . .?
Region α–credible
Bayesien (v2) Mathieu Ribatet—[email protected] – 29 / 36
Definition 10. Pour une loi a priori π donnee, un ensemble Cx ⊂ Θ est unensemble α–credible si
Prπ(θ ∈ Cx | x) ≥ 1− α.
Remarque. Avez vous bien compris le sens de la notation suivante
Prπ(θ ∈ Cx | x) =∫
Θ1{θ∈Cx} . . .
Region α–credible
Bayesien (v2) Mathieu Ribatet—[email protected] – 29 / 36
Definition 10. Pour une loi a priori π donnee, un ensemble Cx ⊂ Θ est unensemble α–credible si
Prπ(θ ∈ Cx | x) ≥ 1− α.
Remarque. Avez vous bien compris le sens de la notation suivante
Prπ(θ ∈ Cx | x) =∫
Θ1{θ∈Cx}π(θ | x)dθ.
Intervalle de credibilite
Bayesien (v2) Mathieu Ribatet—[email protected] – 30 / 36
On se restreint au cas ou θ est un parametre scalaire.2
Definition 11. Pour une loi a priori π donnee, un intervalle Ix ⊂ R est unintervalle de credibilite de niveau 1− α si
Prπ(θ ∈ Ix | x) = 1− α.
Intervalle de credibilite
Bayesien (v2) Mathieu Ribatet—[email protected] – 30 / 36
On se restreint au cas ou θ est un parametre scalaire.2
Definition 11. Pour une loi a priori π donnee, un intervalle Ix ⊂ R est unintervalle de credibilite de niveau 1− α si
Prπ(θ ∈ Ix | x) = 1− α.
� Bien souvent on utilisera des intervalles de credibilite symetriques, i.e.,
Ix =[
qπ
(α
2, x
)
, qπ
(
1− α
2, x
)]
,
avecqπ(p, x) = inf {u ∈ R : Prπ (θ ≤ u | x) ≥ 1− α} .
2ou alors on se restreint a θj , j ∈ {1, . . . , p} lorsque dimΘ = p.
Illustration
Bayesien (v2) Mathieu Ribatet—[email protected] – 31 / 36
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.5
1.0
1.5
2.0
2.5
3.0
p
π(p
x)
0.0 0.2 0.4 0.6 0.8 1.00
.00
.51
.01
.52
.02
.53
.0p
π(p
x)
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.5
1.0
1.5
2.0
2.5
3.0
p
π(p
x)
Figure 4: Trois differents intervalles de credibilite (segments rouges) tous de niveau 95%.
Region HPD (High Posterior Density)
Bayesien (v2) Mathieu Ribatet—[email protected] – 32 / 36
Definition 12. Une region α–credible Cx est une region HPD α–credible sielle est de la forme Cx = {θ ∈ Θ: π(θ | x) ≥ uα}.
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.5
1.0
1.5
2.0
2.5
3.0
p
π(p
x)
u0.9
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.5
1.0
1.5
2.0
2.5
3.0
p
π(p
x)
u0.95
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.5
1.0
1.5
2.0
2.5
3.0
p
π(p
x)
u0.99
Figure 5: Illustration des regions α–credibles HPD de niveau 90%, 95% et 99%.
Region HPD (High Posterior Density)
Bayesien (v2) Mathieu Ribatet—[email protected] – 32 / 36
Definition 12. Une region α–credible Cx est une region HPD α–credible sielle est de la forme Cx = {θ ∈ Θ: π(θ | x) ≥ uα}.
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.5
1.0
1.5
2.0
2.5
3.0
p
π(p
x)
u0.9
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.5
1.0
1.5
2.0
2.5
3.0
p
π(p
x)
u0.95
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.5
1.0
1.5
2.0
2.5
3.0
p
π(p
x)
u0.99
Figure 5: Illustration des regions α–credibles HPD de niveau 90%, 95% et 99%.
� Les regions HPD peuvent etre non connexes !
Intervalles de confiance vs. credibilite
Bayesien (v2) Mathieu Ribatet—[email protected] – 33 / 36
Pr(θ0 ∈ I) = 1− α
� I est aleatoire� La prochaine realisation de I aura
(1−α)% de chance de contenir θ0.
Prπ(θ ∈ I | x) = 1− α.
� θ est aleatoire� Ayant observe x, il y a (1 − α)%
de chance que I contienne θ0.
Loi predictive a posteriori
Bayesien (v2) Mathieu Ribatet—[email protected] – 34 / 36
� On souhaite predire une nouvelle observation xn+1.� En statistique frequentiste, on utilisera souvent le predicteur E[X],
X ∼ f(·; θ), θ estimateur de θ.� Cependant cela ne tient pas compte de l’incertitude d’estimation sur θ.� Le cadre Bayesien permet de tenir compte de cette incertitude.
Definition 13. On appelle loi predictive a posteriori la loi de densite
π(xn+1 | x) =∫
f(xn+1 | θ, x)π(θ | x)dθ.
Loi predictive a posteriori
Bayesien (v2) Mathieu Ribatet—[email protected] – 34 / 36
� On souhaite predire une nouvelle observation xn+1.� En statistique frequentiste, on utilisera souvent le predicteur E[X],
X ∼ f(·; θ), θ estimateur de θ.� Cependant cela ne tient pas compte de l’incertitude d’estimation sur θ.� Le cadre Bayesien permet de tenir compte de cette incertitude.
Definition 13. On appelle loi predictive a posteriori la loi de densite
π(xn+1 | x) =∫
f(xn+1 | θ, x)π(θ | x)dθ.
� On utilisera alors le predicteur Bayesien
xn+1 =
∫
xn+1π(xn+1 | x)dxn+1.
Sommeil 4
Bayesien (v2) Mathieu Ribatet—[email protected] – 35 / 36
Un nouvel eleve arrive en cours d’annee (il aprolonge sa cesure) et suit mon cours pourla premiere fois. Va-t-il s’endormir durant cecours ?
Parce que nous n’avons pas assez de temps. . .
Bayesien (v2) Mathieu Ribatet—[email protected] – 36 / 36
� Les statistiques Bayesiennes ont le vent en poupe depuis le debut desannees 2000
� Ici nous sommes restes dans un cadre (bien trop) scolaire� Heureusement le cours Bayesien avance du second semestre viendra
combler ce manque en couvrant notamment
– les techniques dıtes de Monte Carlo– les algorithmes plus specifiques de type MCMC– les modeles Bayesiens hierarchiques.