m ethodes de simulation de monte-carlo en analyse...

Methodes de Simulation deMonte-Carlo en Analyse

d’Images

Patrick Heas

Universite de Rennes 1, Master SISEA, 2015

Table des matieres

1 Introduction 51.1 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2 Principe de l’estimation bayesienne . . . . . . . . . . . . . . . . . 7

2 Integration de Monte Carlo 92.1 Probleme introductif : le suivi visuel . . . . . . . . . . . . . . . . 92.2 Approximations de Monte Carlo . . . . . . . . . . . . . . . . . . 102.3 Echantillonnage pondere . . . . . . . . . . . . . . . . . . . . . . . 112.4 Methodes d’echantillonage i.i.d. . . . . . . . . . . . . . . . . . . . 12

2.4.1 Transformation inverse . . . . . . . . . . . . . . . . . . . . 122.4.2 Acceptation-rejet . . . . . . . . . . . . . . . . . . . . . . . 13

2.5 Une resolution du probleme de suivi visuel . . . . . . . . . . . . . 132.6 Limitations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3 Modeles probabilistes pour les images 153.1 L’espace des images possibles . . . . . . . . . . . . . . . . . . . . 153.2 Champs aleatoires . . . . . . . . . . . . . . . . . . . . . . . . . . 163.3 Modelisation Markovienne . . . . . . . . . . . . . . . . . . . . . . 17

3.3.1 Voisinage et cliques . . . . . . . . . . . . . . . . . . . . . . 183.3.2 Distribution de Gibbs et champs de Markov . . . . . . . . 193.3.3 Equivalence Markov-Gibbs . . . . . . . . . . . . . . . . . 21

4 Methodes MCMC 234.1 Problemes introductifs . . . . . . . . . . . . . . . . . . . . . . . . 23

4.1.1 Modele de vraisemblance . . . . . . . . . . . . . . . . . . 234.1.2 Modele a posteriori . . . . . . . . . . . . . . . . . . . . . . 244.1.3 Problemes et recours aux methodes MCMC . . . . . . . . 25

4.2 Chaıne de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . 264.2.1 Comportement asymptotique . . . . . . . . . . . . . . . . 27

4.3 Algorithmes MCMC . . . . . . . . . . . . . . . . . . . . . . . . . 294.3.1 Choix de la matrice de transition . . . . . . . . . . . . . . 294.3.2 Algorithmes de Metropolis-Hasting . . . . . . . . . . . . . 304.3.3 Algorithmes a base de calculs locaux . . . . . . . . . . . . 31

4.4 Maximisation par recuit simule . . . . . . . . . . . . . . . . . . . 34

3

4 TABLE DES MATIERES

4.5 Resolution des problemes d’analyse d’images . . . . . . . . . . . 354.5.1 Resolution generique . . . . . . . . . . . . . . . . . . . . . 354.5.2 Particularisation . . . . . . . . . . . . . . . . . . . . . . . 36

Chapitre 1

Introduction

1.1 Motivations

Ce cours vise a apporter des outils statistiques pour la resolution de problemesd’analyse d’images. Citons quelques problemes d’interet en analyse d’images :

— debruitage, restauration,— in-painting,— deconvolution, super-resolution— segmentation, classification,— estimation de mouvement,— suivi visuel d’objets dans les sequences d’images— etc.Ce cours adoptera une approche probabiliste : les images (ou ses attributs)

seront considerees comme la realisation d’une variable aleatoire. On sera amenea choisir une loi a posteriori pour cette variable aleatoire.

Figure 1.1 – In-painting, i.e., estimation des parties non-observees (en rouge)de l image. De droite a gauche : image originale, observee et reconstruite.

5

6 CHAPITRE 1. INTRODUCTION

Figure 1.2 – Segmentation binaire.

Figure 1.3 – Super-resolution/deconvolution d’image.

Figure 1.4 – Suivi d’un joueur dans une sequence d’images.

1.2. PRINCIPE DE L’ESTIMATION BAYESIENNE 7

Exemple 1 (A posteriori, il va pleuvoir ...)

Pour illustrer la construction d’une loi a posteriori, on se propose de repondre ala problematique suivante : “en Bretagne, quelle est la probabilite qu’il pleuvelorsque le temps est nuageux ? ” Les donnees du probleme sont les suivantes.

— Il y a a priori 3 chance sur 4 que le temps soit pluvieux.— Si il pleut alors il y a des nuages.— S’il ne pleut pas alors il y a 1 chances sur 3 qu’il y ait des nuages. ‖

On supposera dans ce cours que la loi a posteriori est donnee. Cette loiest specifique a la modelisation de chaque probleme de traitement d’imagesus-mentionne. Ces problemes peuvent ensuite etre traites sous la forme deproblemes d’estimation bayesienne.

1.2 Principe de l’estimation bayesienne

Soit X une variable aleatoire discrete a valeur dans Λ. Soit Y une autrevariables aleatoire. La distribution a posteriori de X sachant Y est donnee parla formule de Bayes

π(x|y) = π(y|x)π(x)/π(y),

ou π(y|x) est la distribution de vraisemblance, π(x) est la distribution a prioriet π(y) est une constante de normalisation appelee evidence. Soit une fonctionφ definie sur Λ a valeur dans Γ. Un estimateur bayesien est defini par

φ(y) = arg minϕ

E[L(φ(x), ϕ)|Y = y]

ou L : Γ × Γ → R+ est une fonction de cout et ou l’esperance a posteriori estdonne par

E[L(φ(X), ϕ)|Y = y] =∑x∈Λ

L(φ(x), ϕ)π(x|y)

En particulier, on peut montrer que l’estimateur bayesien associe a une fonctionde cout L(φ(x), ϕ) = ‖φ(x) − ϕ‖22 minimisant l’erreur quadratique moyenne(MMSE, pour minimum mean-square error) de φ(X) sachant Y est la moyennea posteriori [5], i.e.,

φmmse(y) = E[φ(X)|Y = y].

L’estimateur bayesien du maximum a posteriori

φmap(y) = arg maxx

π(x|y),

correspond quant a lui au cas φ(x) = x associe a la fonction de cout L(x, ϕ) =1− δ(x, ϕ).

8 CHAPITRE 1. INTRODUCTION

Les solutions envisagees dans ce cours se baseront sur des approximationsde type Monte Carlo de ces esperances. Le principe de ces approximationsest de construire une sequence de realisations {xn}Nn=1 telle que la moyennearithmetique converge vers l’esperance lorsque le nombre d’elements N tendvers l’infini :

1

N

N∑n=1

φ(xn) −→N→∞

E[φ(X)|Y = y].

Chapitre 2

Integration de Monte Carlo

Soit X une variable aleatoire discrete a valeur dans un ensemble fini Λ dedistribution π donnee. On souhaite evaluer l’esperance

E[φ(X)] =∑x∈Λ

φ(x)π(x) (2.1)

pour une certaine fonction φ : Λ→ R.

2.1 Probleme introductif : le suivi visuel

On souhaite suivre une region d’interet dans une sequence de T images.

Cette region est fixee a priori par l’utilisateur : on considere ici un rectangleparametre par la position, en pixel, du centre du rectangle (p1, p2) et un pa-rametre d’echelle s qui permet de prendre en compte les effets de zoom. L’etatglobal du systeme est une trajectoire {x1, ..., xT } ou xt = (p1, p2, s) est est unerealisation d’une variable aleatoire notee Xt. On se fixe une equation d’etat apriori pour le suivi {

Xt+1 = Xt +Wt

X1 = W1

,

ou les Wt sont des bruits blancs Gaussiens independants centres en 0 et dematrice de covariance diagonale donnee. On a donc un modele a priori Gaussienqui admet la factorisation en densites Gaussiennes decorrelees

π(x1, ..., xT ) = π(x1)

T∏t=2

π(xt|xt−1). (2.2)

On se fixe par ailleurs un modele d’observation base sur une distance entreun histogramme de couleur de reference note q∗ = {q∗(j), j = 1, ..., J} et l’his-togramme de couleur yt(xt) = {y(xt, j), j = 1, ..., J} observe a l’etat courant

9

10 CHAPITRE 2. INTEGRATION DE MONTE CARLO

xt. Les elements des histogrammes q∗(j) (ou yt(xt, j)) represente le nombrenormalise de pixels de la zone initiale (ou de la zone courante) dont la cou-leur la plus proche est la couleur j. On definit la probabilite de vraisemblance(non-Gaussienne) comme suit

π(y1, ..., yT |x1, ..., xT ) =

T∏t=1

1

Zexp{−αD2(q∗, yt(xt))}, (2.3)

avec α > 0, Z une constante de normalisation et la distance

D(q∗, yt(xt)) = (1−J∑j=1

√q∗(j)yt(xt, j) )1/2.

L’objectif est le calcul de l’estimateur MMSE de l’etat global du systeme,i.e., le calcul de l’esperance E[X1, ..., XT |Y1 = y1, ..., YT = yt].

2.2 Approximations de Monte Carlo

On approche une esperance de la forme de (2.1) en supposant que l’on soitcapable de generer un ensemble d’echantillons {ξi}Ni=1 independants et iden-tiquement distribues (i.i.d.) selon π. Cette approche est connue sous le nomd’integration de Monte Carlo.

Proposition 1 (Loi des grands nombres) Si E[|φ(X)|] <∞, alors

EN [φ(X)] ,1

N

N∑i=1

φ(ξi) −→N→∞

E[φ(X)], (2.4)

Cet estimateur est non-biaise et de variance 1NE|φ(X)− E[φ(X)]|2 , 1

N σ2.

Mieux, la vitesse de convergence en 1/√N de l’erreur de cet estimateur vers

la loi normale est garantie par le theoreme central limite.

Theoreme 1 (Theoreme central limite)

Si E[|φ(X)|] <∞, alors

√N(EN [φ(X)]− E[φ(X)]) =

1√N

N∑i=1

(φ(ξi)− E[φ(X)]) −→N→∞

N (0, σ2), (2.5)

La convergence vers la loi normale donnee par le theoreme 1 permet deconstruire des intervalles de confiance. Mais l’ecart type est lui meme inconnuen general. Neanmoins, les memes echantillons fournissent un estimateur σ2

N de

2.3. ECHANTILLONNAGE PONDERE 11

la variance σ2 asymptotiquement convergent a peu de frais puisque par la loides grands nombres on a

σ2N ,

1

N

N∑i=1

φ2(ξi)− (EN [φ(X)])2 −→N→∞

σ2.

Proposition 2 (Intervalles de confiance)Soit α ∈ (0, 1) fixe. Un intervalle de confiance de niveau asymptotique 1 − αpour l’esperance E[φ(X)] est

[EN [φ(X)]− qα/2σN√N,EN [φ(X)] + qα/2

σN√N

], (2.6)

ou qα/2 designe le α/2-quantile de la loi normale centree reduite.

Typiquement α = 0.05 donne qα/2 = 1.96, ce qui permet de construire unintervalle de confiance a 95% pour E[φ(X)].

2.3 Echantillonnage pondere

L’idee est de tirer des realisations non pas suivant la loi π mais selon une den-site auxiliaire ν. Cette densite auxiliaire peut etre particulierement utile lorsquela loi cible π est difficile a echantillonner directement. Il s’agit simplement d’unereecriture de l’esperance sous la forme

E[φ(X)] =∑x∈Λ

φ(x)π(x) (2.7)

=∑y∈Λ

π(y)

ν(y)φ(y)ν(y) =

∑y∈Λ

w(y)φ(y)ν(y) (2.8)

= E[w(Y )φ(Y )] (2.9)

ou Y a pour densite ν(y) et avec la ponderation w(y) = π(y)ν(y) . Pour que celle-ci

soit bien definie, il faut s’assurer qu’on ne divise pas par zero, i.e., ν(y) = 0implique π(y) = 0. Muni de cette reecriture, dans ce contexte d’echantillonnagepondere, l’estimateur de Monte-Carlo prend la forme

EN [φ(X)] =1

N

N∑i=1

w(ζi)φ(ζi), (2.10)

ou les ζi sont i.i.d. de densite ν. On peut alors utiliser la proposition 1, letheoreme 1 et la proposition 2 pour respectivement obtenir la convergence del’estimateur vers l’esperance EN [φ(X)], caracteriser la loi asymptotique de l’er-reur d’estimation et fournir des intervalles de confiance.

Pour mettre en oeuvre cette methode, il sera necessaire de pouvoir


— echantillonner selon la loi ν de maniere i.i.d.— calculer la ponderation w(y) pour tout y.

Ce contexte sera par exemple favorable a l’application de suivi visuel presenteen introduction.

2.4 Methodes d’echantillonage i.i.d.

Le probleme a resoudre est donc a present le suivant : comment echantillonnerX de facon i.i.d., i.e., tirer un ensemble de realisation i.i.d. selon la loi π ou ν ?Il existe de nombreuses methodes d’echantillonnage. Parmi elles decrivons lesdeux plus connues.

2.4.1 Transformation inverse

La facon la plus connue de proceder est par inversion de la fonction derepartition, procede connue sous le nom de methode de la transformation in-verse. Cette methode utilise une sequence i.i.d. de variables aleatoires {Ui}i≥1

uniformement distribuees sur [0, 1] et genere {Xi}i≥1 par

Xi = F−1(Ui),

ouF−1(u) = inf{x;F (x) ≥ u}

est l’inverse generalise de la fonction de repartition F de X. On a alors le resultatsuivant dont on pourra trouver une preuve simple dans le livre de C. Robert,au chapitre 2 [4].

Proposition 3 (methode de la transformation inverse)Soit F−1 l’inverse generalisee de la fonction de repartition de X de distributionπ. Si Ui suit une loi uniforme sur [0, 1], alors la variable aleatoire F−1(Ui) estdistribuee selon π.

Algorithme 1 (transformation inverse)— Tirer une realisation u de la loi uniforme sur [0, 1]— Faire la transformation x = F−1(u)

Exemple 2 (pile ou face)

Comment simuler le resultat du jet d’une piece avec un tirage uniforme sur [0.1] ?La methode (intuitive) de simulation decoule de la methode de la transforma-tion inverse. On prendra la variable aleatoire unidimensionnelle Z distribueeuniformement sur les 2 etats pile et face symbolises respectivement par les va-leurs numeriques −1 et 1. ‖

2.5. UNE RESOLUTION DU PROBLEME DE SUIVI VISUEL 13

Exemple 3 (echantillonnage d’une variable exponentielle)

Comment simuler une variable aleatoire unidimensionnelle Z distribuee selonπ(z) = exp(−z)1[0,∞] ? ‖

2.4.2 Acceptation-rejet

Une autre facon de proceder est d’utiliser une methode d’acceptation-rejetqui se base sur le resultat suivant demontre dans le livre de C. Robert, au cha-pitre 2 [4].

Proposition 4 (methode d’acceptation-rejet)Soit X de distribution π et soit g(x) une distribution de probabilite qui satisfaitπ(x) ≤ Mg(x) pour une constante M ≥ 1. Alors, pour simuler X, il suffit degenerer une realisation y d’une variable distribuee selon g puis, une realisationu d’une variable uniformement distribuee sur [0,Mg(y)], jusqu’a ce que l’on ob-tienne 0 < u < π(y).

Algorithme 2 (acceptation-rejet)— Tirer une realisation u selon la loi uniforme sur [0, 1] et y selon g

— Accepter x = y si u ≤ π(y)Mg(y) sinon retirer.

Exemple 4 (Pile ou face alambique)

Comment simuler avec cette methode le resultat du jet d’une piece avec untirage uniforme sur [0.1] ? ‖

2.5 Une resolution du probleme de suivi visuel

On resoud le probleme du suivi visuel ennonce dans la section 2.1 par uneapproximation de methode de Monte Carlo de l’estimateur MMSE. D’apres laregle de Bayes, on a la distribution a posteriori

π(x1, ..., xT |y1, ..., yT ) =π(y1, ..., yT |x1, ..., xT )π(x1, ..., xT )

π(y1, ..., yT )

L’idee consiste a apporcher l’esperance a posteriori par echantillonage pondereou l’on considere pour densite auxiliaire la loi a priori. En effet, la densite a prioriπ(x1, ..., xT ) admettant la factorisation en Gaussiennes decorrelees (2.2), il estrelativement simple d’utiliser la methode de la transformation inverse (utilisantune fonction de repartition approchee numeriquement) pour l’echantillonner demaniere sequentielle : on genere la realisation Gaussienne x1, puis la realisationGaussienne x2 sachant x1, jusqu’a obtention de la realisation Gaussienne xT


Figure 2.1 – Suivi d’un enfant dans une sequence d’images. A gauche : ini-tialisation de la region d’interet parametrisee par l’etat x1. A droite : regiond’interet parametrisee par l’etat x20 = EN [X20|Y1 = y1, ..., YT = yT ] (en rouge)ou par les echantillons ζi(20) (en jaune).

sachant xT−1. On montre que, par le rapport de deux approximations de MonteCarlo de la forme (2.10), on obtient

EN [X1, ..., XT |Y1 = y1, ..., YT = yT ] =1

N

N∑i=1

w(ζi)ζi, (2.11)

ou les realisations ζi de la trajectoire X1, ..., XT sont des trajectoires distribueesselon la loi a priori π(x1, ..., xT ) et les poids sont donnes par

w(ζi) =π(y1, ..., yT |ζi)∑Nj=1 π(y1, ..., yT |ζj)

.

En tant que rapport de deux estimateurs non-biaises, l’estimateur (2.11) estbiaise mais on peut montrer qu’il est asymptotiquement non-biaise et qu’il verifieun theoreme central limite, voir demonstration dans [3].

2.6 Limitations

La methode de la transformation inverse est, pour certains problemes d’ana-lyse d’image, inutilisable car comme on va le voir il est souvent possible decalculer la distribution de probabilite d’une image qu’a une constante de nor-malisation pres, du a la trop grande dimensionalite de l’espace Λ. On ne peutdonc pas s’appuyer sur la methode de l’inverse pour obtenir les echantillons. Lamethode d’acceptation-rejet souffre du meme defaut puisque qu’il est necessairede borner superieurement π. Les methodes basees sur les chaınes de MarkovMonte Carlo s’affranchissent de cette limitation. Mais avant il nous faut intro-duire ce qu’est un modele probabiliste pour l’image.

Chapitre 3

Modeles probabilistes pourles images

3.1 L’espace des images possibles

On represente les images digitales monochromes par un ensemble fini denombres, qui quantifie les intensites lumineuses, encore appelees niveaux de grisdes pixels.

Mais les images peuvent aussi contenir des information de “plus haut ni-veau”, e.g., les objets contenus dans la scene, les textures, etc. On representedonc une image comme un vecteur

x = (x(1), x(2), · · · )

a valeur dans Λ, ou chaque composante x(i) de ce vecteur represente souventelle-meme une composante multidimensionnelle. L’espace Λ est l’ensemble desconfigurations possibles. On fera l’hypothese que cet ensemble est fini. Cet es-pace reste neanmoins tres grand, comme l’illustre les exemples ci-dessous.

Exemple 5 (Niveaux de gris)

On definit comme suit la composante x(1) qui code les niveaux de gris :— soit S une grille finie ou chaque noeud est l’emplacement d’un pixel a

l’ecran,— soit Λs l’ensemble fini des niveaux de gris,— soit, pour tout s ∈ S, xs(1) ∈ Λs le niveau de gris du pixel s,— soit x(1) = {xs(1)}s∈S une configuration de niveaux de gris.

Si la grille S contient 256 × 256 pixels codes en 8 bits, i.e., Λs = {1, · · · , 256},alors il y a 256256×256 configurations possibles de x(1), c est a dire largementplus que le nombre d’atome (1080) dans l’Univers visible ! ‖

15

16 CHAPITRE 3. MODELES PROBABILISTES POUR LES IMAGES

Exemple 6 (Etiquettes)Etant donnee une image, on souhaite etiqueter chaque pixel comme appar-tenant a un ensemble coherents au sens des textures, des objets constituantl’image, etc). On definit comme suit la composante x(2) qui code cette classifi-cation/segmentation de l’image :

— soit S une grille finie ou chaque noeud est l’emplacement d’un pixel al’ecran,

— soit M le nombre d’etiquette,— soit, pour tout s ∈ S, xs(2) ∈ {1, · · · ,M} l’etiquette du pixel s,— soit x(2) = {xs(2)}s∈S une configuration d’etiquettes.

Si la grille S contient 256 × 256, alors il y a M256×256 configurations possiblesde x(2), ce qui est encore incommensurable ! ‖

3.2 Champs aleatoires

On cherche a definir une structure qui restreindra l’ensemble des configura-tions possibles des images. Cette structure sera formulee par des contraintes.

Dans un premier temps, on choisit de formuler nos connaissances a priorisur l’image de maniere “rigide” : on ne veut pas de pixels adjacents qui aientdes niveaux de gris differents. On abouti ainsi a une classe tres limitee d’imageconstituee de l’ensemble des images a intensite lumineuse constante.

Dans un second temps, on choisit de relacher les contraintes, et de juger dudegre de satisfaction des contraintes par une fonction π(x) definie pour toutx ∈ Λ telle que :

— π(x) > π(x′) signifie que l’image x′ est moins appropriee que l’image x,— π est positive et normalisee, i.e.,

∑x∈Λ π(x) = 1.

En rajoutant que la probabilite d’un evenement A est

P(X ∈ A) =∑x∈A

π(x),

on donne a π la structure d’une distribution de probabilite.

On se concentrera dans ce cours a des variables aleatoires discretes. Onintroduit d’abord quelques definitions.

Definition 1 (Champ aleatoire)Soit S un ensemble fini d’elements notes s et appeles sites et soit Λs un ensemblefini. Un champ aleatoire sur S sur Λs est une collection X = {Xs}s∈S devariables aleatoires Xs a valeur dans Λs

Definition 2 (Probabilite jointe)La distribution de probabilite du champ aleatoire X est la fonction π : Λ→ [0, 1]definit sur l’espace des configurations possible Λ telle que

∑x∈Λ π(x) = 1 et telle

que pour tout evenement x ∈ Λ, P(X = x) = π(x).

3.3. MODELISATION MARKOVIENNE 17

Definition 3 (Caracteristique locale)La caracteristique locale d’un champ aleatoire au site t est la probabilite condi-tionnelle

P(Xt = xt|XS\t = xS\t) =π(x)∑

xt∈Λsπ(x)

:= π(xt|xS\t)

sous l’hypothese de la contrainte de positivite∑xt∈Λs

π(x) = 0⇒ π(x) = 0.

Exemple 7 (Modele binaire d’Ising)

Ce modele a ete introduit par Ising (1925) pour la comprehension qualitativedes phenomenes de transition dans les materiaux ferromagnetiques. Prenonsdans un premier temps une version simplifiee. Soit Λs = {−1, 1}, i.e., quelquesoit s ∈ S, Xs prend ses valeurs dans {−1, 1}. On definit la distribution jointesuivante π(x) = 1

Z exp{∑〈xs,xt〉 xsxt} ou Z est une constante de normalisation

et 〈xs, xt〉 designe l’ensemble de site s et t dans S tels que ces sites soient voisins(c.f. definition 4). Montrer que la caracteristique locale s’ecrit

P(Xτ = xτ |XS\t = xS\τ ) =exp{

∑s∈∂(τ) xsxτ}

exp{∑s∈∂(τ) xs}+ exp{−

∑s∈∂(τ) xs}

,

ou les sites s ∈ ∂(τ) sont les voisins de τ. ‖L’exemple precedent montre que la probabilite d’avoir xτ en τ connaissant

la configurations des autres sites S \ τ ne depend que des voisins ∂(τ). Onexploitera cette propriete par la suite pour simplifier les calculs impliquant ladistribution de probabilite jointe en manipulations ne faisant qu’intervenir lescaracteristiques locales.

3.3 Modelisation Markovienne

La description probabiliste des images souleve les problemes suivants.

— La dimension de l’espace des images est generalement tres grande ce quimene a une description probabiliste complexe.

— Les images de notre monde representent une proportion infinitesimaledes realisations possibles.

On cherchera donc a simplifier cette description probabiliste en supprimant lesdependances inutiles (pour representer les images de notre monde) et on cher-chera a ne manipuler que les caracteristiques locales. La simplification exploiteral’independance des variables aleatoires des sites non voisins, au travers d’unefactorisation de la distribution de probabilite jointe.


3.3.1 Voisinage et cliques

Definition 4 (Voisinage)Un systeme de voisinage sur S est une collection N = {∂(s)}s∈S de sous-ensembles de S telle que pour tout s ∈ S :

— s /∈ ∂(s),— t ∈ ∂(s)⇒ s ∈ ∂(t)

ou t ∈ ∂(s) est appele voisin de s, et les couples voisins sont notes 〈s, t〉

Definition 5 (Cliques)Tout singleton {s} est une clique. Un sous-ensemble C ⊂ S est appele clique si2 elements distincts sont voisins. Une clique C est maximale si pour tout sites, C ∪ {s} n’est pas une clique.

Il decoule de ces definitions les remarques suivantes.— Si ∂(s) = ∅, alors ∀s ∈ S les cliques maximales sont les singletons.— Si ∂(s) = S \ s, alors tout sous-ensemble de S est une clique.— Soit S = Z2

m = {(i, j) ∈ Z2; i, j ∈ [1,m]}. On definit le systeme devoisinage N par

∂(s = (i, j)) = {(k, l) ∈ Z2m; ((k − i)p + (l − j)p)1/p ≤ D}. (3.1)

Pour la distance euclidienne (p = 2), on obtient les cliques ci-dessouspour D= 1 (colonne α) et D=

√2 (colonne β) :


3.3.2 Distribution de Gibbs et champs de Markov

Definition 6 (Energie et potentiels de Gibbs)Un potentiel de Gibbs sur Λ relatif au systeme de voisinage N est une collection{VC}C⊂S de fonctions VC : Λ → R ne portant que sur la restriction de x ausous-ensemble {xs; s ∈ C}. La fonction d’energie U : Λ→ R est dite derivee dupotentiel {VC}C⊂S si

U(x) =∑C

VC(x).

Definition 7 (Distribution de Gibbs)Soit la fonction d’energie U derivee du potentiel {VC}C⊂S et Z est une constantede normalisation. Alors la fonction

π(x) =1

Zexp{−U(x)} (3.2)

definit sur l’espace de configurations Λ est une distribution de Gibbs.

On remarque immediatement que maximiser la distribution de probabiliteπ(x) equivaut a minimiser l’energie U(x). On peut egalement noter que laconstante de normalisation est souvent inaccessible, car elle implique le calculprohibitif de la somme

Z =∑x∈Λ

exp{−U(x)}.

Suite de l’exemple 7.Dans une version finie du modele fini d’Ising, on definit S = Z2

M , Λs = {+1,−1},et le systeme de voisinage N est definit avec une distance euclidienne et D= 1(colonne α de la figure precedente). Les potentiels de Gibbs sont

V{s}(x) = γxs et V〈s,t〉(x) = ζxsxt

avec des coefficients γ et ζ dependants des parametres physiques suivants : laconstante de Boltzmann, le champs magnetique externe et l’energie interne d’undipole magnetique elementaire. La fonction d’energie derivee de ces potentielsest donc

U(x) = γ∑s∈S

xs + ζ∑〈s,t〉

xsxt. (3.3)

Interpretez comme un modele attractif ou repulsif en presence d’un etat majo-ritaire (positif ou negatif ) .

L’energie peut se recrire sous la forme suivante. Soient :— M , le cardinal de S,— C, l’ensemble des cliques a deux elements,— L, le cardinal de l’ensemble C, i.e., le nombre de cliques a deux elements— `(x) le cardinal de l’ensemble {〈s, t〉 ∈ C;xs 6= xt}, i.e., la longueur de la

frontiere entre etats opposes


— η−1(x) le cardinal de l’ensemble {s ∈ S;xs = −1}.Alors il vient la representation suivante pour l’energie de potentiel :

U(x) = ζ(L− 2`(x)) + γ(M − 2η−1(x)).

Pour un voisinage a 4 voisins (sauf les pixels aux bords), determinez les energiescorrespondantes aux champs constants (constitues entierement de−1 ou entierementde +1). Pour ζ = −1 et γ = 0, les champs constants sont les minima globauxde l’energie U . Les images en “echequier” correspondent quant a eux a la valeurmaximale de U . ‖

Exemple 8 (Balayage et modele d’Ising )

On considere la suite d’images obtenue de la maniere suivante.— L’image initiale x1 est celle a gauche de la figure.— On remplace le premier pixel noir (en partant du haut) de la colonne

noire la plus a droite par un pixel blanc pour former l’image x2.— On itere l’etape precedente jusqu’a obtenir une image xk entierement

blanche.

. . . . . . . . . . . .

Quelle est l’evolution de l’energie U(xk) en fonction de k ? . ‖


On a par ailleurs la representation suivante d’un champ aleatoire dit Mar-kovien, i.e., a dependance spatiale courte.

Definition 8 (Champ de Markov)Le champ aleatoire X de distribution de probabilite π est appele champ de Mar-kov par rapport au systeme de voisinage N si pour tout site s ∈ S on a lapropriete de Markov :

π(xs|xS\s) = π(xs|xt∈∂(s)).

3.3.3 Equivalence Markov-Gibbs

On cherche a relier la representation sous forme de caracteristiques localesdefinissant le champ de Markov (definition 8) a la representation de la proba-bilite jointe donnee par la distribution de Gibbs (definition 7). Les theoremessuivants etablissent une equivalence entre les deux representations.

Theoreme 2 (Distributions de Gibbs sont des champs de Markov)Soit X un champ aleatoire de distribution π de la forme (3.2), ou l’energie derived’un potentiel {VC}C⊂S relatif a un systeme de voisinage N ; alors X est Mar-kovien par rapport au meme systeme de voisinage. De plus, ses caracteristiqueslocales sont donnees par la probabilite conditionnelle

π(xs|xt∈∂(s)) =exp{−

∑C3s Vc(x)}Zs

ou Zs est une constante de normalisation et∑C3s signifie que la sommation

est faite sur l’ensemble des cliques qui contiennent le site s.

La preuve procede de maniere analogue a l’exemple 7. Ce theoreme permetdonc de representer n’importe quelle distribution jointe (multidimensionnelle)de la forme (3.2) par une distribution conditionnelle (unidimensionnelle). Enparticulier, pour un systeme de voisinageN definit avec une distance euclidienneet D= 1 (colonne α de la figure precedente) on passera de la distribution deGibbs a la caracteristique locale en modifiant les operateurs de sommation dansl’energie de potentiel de la facon suivante :

—∑〈s,t〉∈C V〈s,t〉 ⇒

∑t∈∂(s) V〈s,t〉

—∑s V{s} ⇒ V{s}

La reciproque du precedent theoreme est prouvee par le theoreme ci-dessous.Cette reciproque est neanmoins moins utile en pratique. Les preuve detaillee deces deux theoremes sont fournies dans le livre de P. Bremeau, au chapitre 7 [1].

Theoreme 3 (theoreme d’Hammersley-Clifford)Soit X un champ aleatoire de Markov de distribution π relatif au systeme devoisinage N . Si π admet des caracteristiques locales (contraintes de positivite),alors la distribution π admet une representation sous forme de distributionde Gibbs (3.2) pour une certaine fonction d’energie U derivee des potentiels{VC}C ⊂ S associe a N .


Fin de l’exemple 7.Dans le cas du modele d’Ising, on applique le theoreme 2 pour obtenir larepresentation de la distribution π du champ aleatoire X sous forme de ca-racteristiques locales

π(xs|xt, t ∈ ∂(s)) =1

Zsexp{−γxs − ζ

∑t∈∂(s)

xsxt}. ‖

Exemple 9 (Modele M -aires de Potts)

Ce modele generalise le modele d’Ising pour un espace aM etats Λs = {0, ...,M−1}. On definit la distribution jointe suivante

π(x) =1

Zexp{−ζ

∑〈s,t〉

ϕ(xs, xt)}

ou Z est une constante de normalisation et avec les potentiels

ϕ(xs, xt) =

{− 1 si xs 6= xt

1 si xs = xt

Deduisez l’energie de potentiel et la caracteristique locale . ‖

Chapitre 4

Methodes MCMC

4.1 Problemes introductifs : debruitage, quanti-fication, deconvolution, super-resolution

On souhaite debruiter, quantifier, deconvoluer ou accroitre la resolutiond’une image ou bien encore accomplir une combinaison de ces operations. L’in-tensite lumineuse des pixels de l’image est codee en 8 bits, i.e., avec 256 niveauxde gris. On suppose que le bruit de l’image provient d’un bruit blanc Gaussien.On suppose que l’image resulte d’une convolution par un filtre a reponse impul-sionnelle finie (RIF), et que le facteur d’accroissement de la resolution souhaiteest K. L’ensemble de ces problemes peut etre modelise a posteriori de la faconsuivante .

4.1.1 Modele de vraisemblance

Soit deux grilles finies R = Z2n et S = Z2

m constituees respectivement de n etm = 2Kn sites. Soit X = {Xs}s∈S un champ aleatoire a valeur dans Λ = {Λs}n.On definit l’ensemble Λs = {µ1, · · · , µM}, ou µi representera le niveau de grisde la i-ieme classe. Soit une matrice h = {hij}i∈R,j∈S constituee d’elementsreels hij ∈ R. Le champ aleatoire observee Y = {Ys}s∈S definie sur une grilleR, suit le modele probabiliste

Y = hX +B,

ou B = {Bs}s∈S est un bruit blanc Gaussien de variance σ2, i.e., Bs sont i.i.dselon N (0, σ2). On a donc la distribution conditionnelle suivante : pour toutr ∈ R :

π(yr|x) =1√2πσ

exp{− 1

2σ2(yr − (hx)r)

2}

23

24 CHAPITRE 4. METHODES MCMC

Soit d(r) ⊂ S l’ensemble de sites du champ aleatoire X dont depend la variablealeatoire Yr observee au site r ∈ R. Le filtrage est de type RIF, i.e., pour chaquevariable Yr observee, l’operateur h n’est fonction que des variables {Xt}t∈d(r).Autrement dit ce modele Markovien s’ecrit

π(yr|x) = π(yr|{xt}t∈d(r)) =1√2πσ

exp{− 1

2σ2(yr −

∑t∈d(r)

hrtxt)2}.

L’hypothese de bruit blanc se traduit par l’independance conditionnelles desvariables observees {Yr}r∈R, i.e., le champ aleatoire observe Y suit condition-nellement a X la distribution suivante appelee vraisemblance :

π(y|x) =1

(2π)n/2σnexp{− 1

2σ2

∑r∈R

(yr −∑t∈d(r)

hrtxt)2}.

4.1.2 Modele a posteriori

On suppose que l’image originale (avant filtrage, sous echantillonnage etdeterioration par du bruit blanc) est composee de regions ou l’intensite lumi-neuse est homogene. Un modele a priori M-aires de Potts attractif est choisipour representer l’image originale. On definit le systeme de voisinage par (3.1)avec D= 1 (systeme a 4 voisins). Soit la fonction

ϕ(xs, xt) =

{− 1 si xs 6= xt

1 si xs = xt.

Les potentiels de Gibbs sont

V〈s,t〉(x) = ζϕ(xs, xt)

avec un coefficients ζ < 0 pour que le modele soit attractif. La fonction d’energiederivee de ces potentiels est donc

U(x) = ζ∑〈s,t〉

ϕ(xs, xt).

et le champ aleatoire X suit donc la distribution de Gibbs

π(x) =1

Zexp{−ζ

∑〈s,t〉

ϕ(xs, xt)}

En appliquant la formule de Bayes on obtient que le champ aleatoire X suitconditionnellement a Y la distribution de Gibbs suivante appelee a posteriori

π(x|y) =π(y|x)π(x)

π(y)

=1

Z ′exp{−

∑r∈R

(yr −∑t∈d(r)

hrtxt)2 − 2σ2ζ

∑〈s,t〉

ϕ(xs, xt)},

4.1. PROBLEMES INTRODUCTIFS 25

ou Z ′ = Z(2π)n/2σnπ(y) est une constante de normalization. La caracteristiquelocale est donnee par le theoreme 2 :

π(xs|xt∈∂(s), yr|s∈d(r)) =1

Z ′sexp{−Us(x)}, (4.1)

ou l’energie est

Us(x) =∑

r∈R|s∈d(r)

(yr −∑t∈d(r)

hrtxt)2 + 2σ2ζ

∑t∈∂(s)

ϕ(xs, xt),

et ou la constante de normalization de la caracteristique locale est

Z ′s =∑xs∈Λs

exp{−Us(x)}.

4.1.3 Problemes et recours aux methodes MCMC

Le but est d’evaluer l’estimateur MMSE :

EX|Y [X] =∑x∈Λ

xπ(x|y). (4.2)

On ne peut malheureusement pas utiliser des methodes de Monte Carloutilisant un echantillonnage i.i.d. de la loi a posteriori, car la constante de nor-malisation Z est inaccessible. Les methodes basees sur les chaınes de MarkovMonte Carlo (MCMC) ne partagent pas ce defaut.

Figure 4.1 – Chaıne de Markov de champs aleatoires.

Comme illustre dans la figure 4.1, le principe des methodes MCMC est deconstruire une sequence de champs aleatoires {Xn}Nn=1 telle que la moyenne

1

N

N∑n=1

φ(Xn)

converge presque surement vers l’esperance (2.1). On remarque que l’on relacheici la contrainte que les elements de la sequence soient des realisations i.i.d.de la variable X. Les sections suivantes detaillent les proprietes que doiventneanmoins respecter la sequence pour garantir la convergence vers l’esperance.Ces sequences seront des chaınes de Markov. On presente d’abord leurs definitions.


4.2 Chaıne de Markov

Definition 9 (Chaıne de Markov homogene)Soit {Xn}n≥0 un processus aleatoire a temps discret a valeur dans un ensemblefini Λ. Si pour tout entier naturel n et tous les etats i0, i1, ..., in−1, i, j

P(Xn+1 = j|Xn = i,Xn−1 = in−1, ..., X0 = i0) = P(Xn+1 = j|Xn = i)

est appele chaıne de Markov. Elle est qualifiee d’homogene si les probabilites detransition Kij = P(Xn+1 = j|Xn = i) sont independantes de n. La matriceK = {Kij}i,j∈Λest alors appele matrice de transition de la chaıne de Markovhomogene.

Proposition 5 (Equations de Chapman-Kolmogorov)Pour tout m ≥ 0, la matrice de transition en m coups est la puissance mieme

de la matrice de transition K, i.e., Km.

Cette proposition se prouve simplement par recurrence en exploitant la proprietemarkovienne de la chaıne. Une preuve detaillee est fourni dans [2], au chapitre3.

Corollaire 1 (Loi marginale de la chaıne)Soit {Xn}n≥0 une chaıne de Markov de loi initiale µ et de matrice de transitionK, alors pour tout entier naturel m, la loi de Xm est :

P(Xm) = µKm.

La preuve, detaillee dans [2] au chapitre 3, decoule simplement de la marginali-sation de la loi jointe du couple (Xm, X0) developpee selon le produit d’une loiconditionelle par la loi initiale.

Exemple 10 (Cas pathologiques)

Kp1 =

[0 11 0

]. Kp2 =

[1 00 1

].

La loi marginale P(Xm) d’une chaıne associee a Kp1 ou Kp1 converge-t-ellequand m→∞ ? ‖

Exemple 11 (Bob le poisson rouge)

Bob, le poisson rouge, occupe ses journees en repartissant ses activites parmi 3possibilites : se reposer dans le rocher (etat 1), manger (etat 2), nager en rond(etat 3). Toutes les minutes, il peut soit changer d’activite, soit continuer cellequ’il etait en train de faire. Il n’a aucune memoire (c’est un poisson rouge) desactivites autres que celle qu’il est en train de faire :

— Quand il se repose, il a 9 chances sur 10 de ne pas se reveiller la minutesuivante.

— Quand il se reveille, il y a 1 chance sur 2 qu’il aille manger et 1 chancesur 2 qu’il parte faire de l’exercice.

4.2. CHAINE DE MARKOV 27

— Son repas ne dure qu’une minute, apres il fait autre chose.— Apres avoir mange, il y a 2 chances sur 10 qu’il parte nager en rond, 7

chances sur 10 qu’il retourne se reposer et 1 chance sur 10 qu’il remange.— Nager est fatigant ; il y a 8 chances sur 10 qu’il retourne dormir au bout

d’une minute. Sinon il continue en oubliant qu’il est deja un peu fatigue.L’activite de Bob est modelise par une chaıne de Markov homogene de matricede transition

K =

0.9 0.05 0.050.7 0.1 0.20.8 0 0.2

.Prenons l’hypothese que Bob dort lors de la premiere minute de l’etude.

µ =[1 0 0

].

Montrez qu’apres 10 minutes, il y a 4, 9% de chances que Bob mange . ‖

4.2.1 Comportement asymptotique

On cherche maintenant a construire une chaıne de Markov homogene {Xn}n≥0

qui converge vers une distribution π dite stationnaire. Ensuite, sous l’hypotheseque π corresponde aussi a la distribution cible du champs aleatoire de Markov Xd’interet, on detaillera des conditions suffisantes pour faire converger la moyenneempirique des elements de la chaine vers l’esperance (4.2). Les resultats de cettesection sont prouves dans le livre de Bremeau [1], au chapitre 3. Enfin, dansla section suivante, on fournira une methode pour s’assurer de cette correspon-dance de loi et ainsi verifier l’hypothese.

On commence par definir la propriete de stationnarite d’une loi. Soit |Λ| lecardinal de l’ensemble Λ.

Definition 10 (Loi stationnaire)Le vecteur ligne π = (π(1), · · · , π(|Λ|)) est une distribution stationnaire d’unechaıne de Markov de matrice de transition K si πK = π.

La propriete suivante d’irreductibilite vise a garantir l’unicite de la loi sta-tionnaire de la chaıne de Markov, independamment de la condition initiale.

Definition 11 (Chaıne irreductible)Une chaıne de Markov est dite irreductible si pour tout x, y ∈ Λ il est possibled’atteindre l’etat y a partir de x en un nombre fini de transition i.e., il existepour tout n ≥ 0 un entier m tel que

P(Xn+m = y|Xn = x) = Kmxy > 0

avec la matrice pour m transition Km.

Proposition 6 (Unicite de la loi stationnaire)Si la chaıne est irreductible, alors la loi stationnaire π est unique. De plusπ(x) > 0 pour tout x ∈ Λ.


La propriete suivante sert a garantir que la chaıne possede la propriete de resterdans un etat pendant un temps arbitraire.

Definition 12 (aperiodicite)La periode d’un etat x ∈ Λ est definie par

p.g.c.d.{m ≥ 1;Kmxx > 0},

ou p.g.c.d. designe le plus grand commun diviseur. Une chaıne est dite aperiodiquesi ses etats possedent une periode egale a 1.

Une condition suffisante pour garantir l’aperiodicite est que pour tout x ∈ Λon ait Kxx > 0. On a a present reuni des proprietes suffisantes pour garan-tir la convergence de la chaıne vers la loi stationnaire independamment de ladistribution initiale.

Theoreme 4 (Convergence en loi)Si la chaıne est irreductible et aperiodique et de loi stationnaire π alors pourtoute loi initiale µ, la loi de Xn converge vers π :

P(Xn) = µKn → π quand n→∞

Le theoreme suivant nous indique que la moyenne empirique des elements de lachaine converge vers l’esperance.

Theoreme 5 (Theoreme ergodique)Soit une fonction φ : Λ → R. Si la chaıne {Xn}n≥0 est irreductible et de loistationnaire π alors pour toute loi initiale µ,

1

N

N∑i=1

φ(Xi) −→N→∞

E[φ(X)],

et√N

(1

N

N∑i=1

φ(Xi)− E[φ(X)]

)−→N→∞

N (0, σ2).

C’est ce qu’on appelle une loi forte des grands nombres ou l’hypothese i.i.d. estrelachee par rapport a la version standard (2.5). Contrairement au cas i.i.d.,la variance σ2 dans le theoreme 5 n’est pas triviale car il faut tenir compteici des dependances entre variables Xi de la chaıne, ce qui complique tout ...Pour obtenir le corollaire suivant, il suffit d’appliquer le theoreme ergodique ala fonction indicatrice φ : Λ→ R, y → 1y=x.

Corollaire 2 (Temps moyen dans chaque etat)Soit {Xn}n≥0 irreductible et de loi stationnaire π, alors le temps relatif passepar une trajectoire de la chaıne dans un etat x ∈ Λ converge presque surementvers π(x)

4.3. ALGORITHMES MCMC 29

Exemple 10 (suite)Peut-on appliquer le theoreme 5 aux chaınes associees a Kp1 et Kp2 ? ‖

Exemple 11 (suite)Montrez que la loi stationnaire de la chaıne est π =

[0.8834 0.0491 0.0675

],

et qu’elle est unique. ‖

4.3 Algorithmes MCMC

Soit un champ de Markov X de distribution de Gibbs π de la forme (3.2).On cherche maintenant

— a choisir une matrice de transition K pour que la distribution cible πdu champ de Markov X corresponde a la distribution stationnaire de lachaıne de Markov {Xn}n≥0,

— a concevoir des algorithmes MCMC qui convergent independement de laloi intiale ; on devra donc garantir la convergence de la chaıne, i.e., veillera ce que la matrice de transition K satisfasse les conditions du theoreme4 : la chaıne de Markov homogene engendree doit etre irreductible etaperiodique,

— a concevoir des algorithmes MCMC qui ne necessite que des calculs decaracteristiques locales.

4.3.1 Choix de la matrice de transition

Condition d’equilibre detaille

Pour choisir la matrice de transition de la chaine on s’appuiera sur lescontraintes donnees par la condition d’equilibre detaille.

Definition 13 Une chaıne de Markov de matrice de transition K satisfait lacondition d’equilibre detaille pour une distribution η si l’egalite suivante estsatisfaite :

η(x)Kxy = η(y)Kyx

pour tout x, y,∈ Λ.

Proposition 7 Supposons que la chaıne de Markov de matrice de transition Ksatisfasse la condition d’equilibre detaille pour une distribution cible π. Alors ladistribution π est une loi stationnaire de la chaıne.

Une preuve de cette proposition est donnee dans le livre de C. Robert [4], auchapitre 6.


Loi de proposition et d’acceptation

Il existe une infinite de matrice de transition possible, et parmi elles il existeune infinite qui corresponde a une chaıne reversible, i.e., telle que

Kxyπ(x) = Kyxπ(y). (4.3)

On cherchera des solution de la forme

Kxy = qxyαxy + (1− r(x))δx(y), r(x) =∑y∈Λ

αxyqxy (4.4)

ou {qxy}x,y∈Λ est une matrice de transition arbitraire que l’on nommera matricede proposition. La probabilite d’effectuer la transition de x vers y donnee par(4.4) s’interprete de la maniere suivante. Lorsque l’etat courant est x, l’etatcandidat suivant y est genere avec la probabilite qxy. Ce nouvel etat est alorsaccepte avec la probabilite αxy et refuse avec la probabilite 1 − αxy. Dans cedernier cas, l’etat suivant reste identique au pecedent, i.e., y = x.

Il reste donc a choisir les probabilites d’acceptation {αxy}x,y∈Λ. Une formeassez generale est celle proposee par Hasting (1970)

αxy =zxy

1 + txy, (4.5)

ou Z = {zxy}x,y∈Λss

est une matrice symetrique et

txy =π(x)qxyπ(y)qyx

.

Evidement une contrainte supplementaire est que αxy ∈ [0, 1] pour tout x, y ∈Λss. On verifie aisement que la condition d’equilibre detaille (4.3) est satisfaite.Par la proposition 7, on en conclut que π est la distribution stationnaire de lachaıne.

4.3.2 Algorithmes de Metropolis-Hasting

A present le probleme a traiter pour determiner l’algorithme MCMC estcelui du choix de la matrice {zxy}x,y∈Λ. Pour satisfaire la contrainte αxy ∈ [0, 1]pour tout x, y ∈ Λss, on doit avoir necessairement

zxy ≤ 1 + min(txy, tyx),

car la matrice Z est symetrique. L’egalite correspond aux algorithmes de Metropolis-Hasting

αxy = min

(1,π(y)qyxπ(x)qxy

)= min

(1, exp(U(x)−U(y)) qyx

qxy

), (4.6)


ou l’on rappelle que π a la forme d’une distribution de Gibbs (3.2). Notons qu’ilexiste des alternatives. Par exemple faire le choix zxy = 1 pour tout x, y ∈ Λconduit a l’echantillonneurs de Barker

αxy =exp−U(y) qyx

expU(y) qyx + exp−U(x) qxy. (4.7)

Par ailleurs, il est important de remarquer que ces algorithmes ne necessite pasla connaissance de la constance de normalization de la distribution π, puisqueseul un rapport de probabilite sera calcule.

Algorithme 3 (Metropolis-Hasting)Etant donne Xt = xt, la realisation de la chaıne au temps t,

— Tirer une realisation y distribuee selon qxty

— Fixer

Xt+1 =

{y avec la probabilite αxty

xt avec la probabilite 1− αxty

.

ou αxy est donne par (4.6).

Il reste ensuite a choisir la loi de proposition qxy. Le choix particulier ou qxy =g(y) est une distribution qui ne depend pas de l’etat courant de la chaıne, e.g.,une distribution uniforme, i.e., qxy = g(y) =constante, mene a l’algorithme deMetropolis-Hasting independant. La convergence de cet algorithme est garantiepar le theoreme 4, si g est positive sur le support de de π. Notons qu’une condi-tion suffisante dans ce cas est π(y) ≤ Mg(y), pour tout y ∈ Λ. Cette conditionrappelle l’algorithme d’acceptation-rejet presente au chapitre 2.4.2. En fait l’al-gorithme suivant est une generalisation de cette methode. La comparaison estdetaillee dans le livre de C. Robert, au chapitre 7.4.

4.3.3 Algorithmes a base de calculs locaux

La vitesse de convergence de la chaıne depend du choix de la matrice deproposition. Elle peut s’averer etre extremement lente dans le cas par exempled’une loi de proposition uniforme. Pour palier cet inconvenient, on construit lamatrice de transition K a partir d’une composition de matrices de transitionbasees sur les caracteristiques locales.

Decomposition locale de la matrice de transition

On construite une chaıne heterogene ne modifiant qu’une seule composanteXs du champ aleatoire X (au site s) a chaque pas de temps selon la matricede transition locale notee Ks = {Ks

xy}x,y∈Λqui satisfait les conditions suivantespour tout s ∈ S :

i) Ksxy > 0 si et seulement si xS\s = yS\s


ii) aperiodicite : Ksxx > 0 pour tout x ∈ Λ

iii) equilibre detaille : Ksyxπ(y) = Ks

xyπ(x) pour tout x, y ∈ Λ

On itere le balayage sequentiel des M sites de la grille S en operant lestransitions correspondantes :

X0 → X1 → . . .→ XM−1 →XM → XM+1 → . . .→X2M → X2M+1 → . . .

La chaıne extraite {XrM}r≥0 de matrice de transition notee

K = KsM · · ·Ks2Ks1

est :— homogene car K ne depend pas du temps r,— irreductible puisque pour tout x, y ∈ Λ on a Kxy > 0,— aperiodique par ii),— satisfait les conditions d’equilibre detaille par iii).

On rappelle que la condition iii) est suffisante pour que la chaıne ait pour loistationnaire la distribution π de part la proposition 7. On a donc ainsi reunitles conditions du theoreme 4 garantissant la convergence de la chaıne vers π.

Pour satisfaire la condition iii), on choisit une matrice de transition localede la forme proposee dans la section 4.3.1 : Ks

yx = qsxyαsxy + (1 − rs(x))δx(y)

ou qsxy est la loi locale de proposition, αsxy la probabilite d’acceptation et rs(x) =∑xs∈Λs

qsxyαsxy ; la probabilite d’acceptation locale est de type Metropolis-Hasting :

αsxy = min

(1,π(y)qsyxπ(x)qsxy

)= min

(1, exp{

∑C3s

Vc(x)− Vc(y)}qsyxqsxy

), (4.8)

ou l’on rappelle que π a la forme d’une distribution de Gibbs (3.2).

Echantillonneurs a base de calculs locaux

En prenant une loi de proposition qsxy, ou— qsxys est uniforme sur Λs (et qsxtxt

= 1 pour tout t ∈ S \ s),— qsxys = π(ys|xt∈∂(s)) est la caracteristique locale de la distribution de

Gibbs (et qsxxt= 1 pour tout t ∈ S \ s),

on obtient respectivement la M-composition d’echantillonneurs de Metropolis-Hasting independants et l’echantillonneur de Gibbs . On pourra utiliser la methodede la transformation inverse expose au chapitre 2.4.1 pour accepter une transi-tion avec une probabilite αxy (pour l’echantilloneur de Metropolis-Hasting) oubien pour echantillonner les lois caracteristiques locales (pour l’echantilloneur deGibbs). L’echantillonneur de Gibbs est en principe plus avantageux car contrai-rement a l’algorithme de Metropolis-Hasting, il ne rejette pas d’echantillons.Toutefois il necessite l’echantillonnage des distributions caracteristiques locales.

Algorithme 4 (Metropolis-Hasting independants a balayage)A partir de t=0, iterer une infinite de fois :


— pour tout s ∈ S— Tirer une realisation y distribuee uniformement sur Λs.— Fixer la composante locale

Xt+1s =

{y avec la probabilite αsxt

sy

xts avec la probabilite 1− αsxtsy

,

avec αsxy = min(1, exp{

∑C3s Vc(x)− Vc(y)}

).

— t=t+1

Algorithme 5 (Echantillonnage de Gibbs)A partir de t=0, iterer une infinite de fois :

— pour tout s ∈ S— Tirer une realisation y distribuee selon la caracteristique locale

π(xs|xt∈∂(s)) =exp{−

∑C3s Vc(x)}Zs

avec Zs =∑xs∈Λs

(exp{−

∑C3s Vc(x)}

)— Fixer

Xt+1r =

{y si r = s

xtr sinon

— t=t+1

Dans ce dernier algorithme, la probabilite d’acceptation est uniformementegale a 1. En effet, on remarque que dans ce cas

αsxy = min

(1,π(y)π(xs|xt∈∂(s))

π(x)π(ys|xt∈∂(s))

)= min

(1,π(y)π(xs|xt∈S\s)π(xt∈S\s))

π(x)π(ys|xt∈S\s)π(xt∈S\s)

)= min

(1,π(y)π(xs, xt∈S\s)

π(x)π(ys, xt∈S\s)

)= 1

La convergence de ces algorithmes est assuree par la proposition 7 et le theoreme4, car l’on verifie aisement que les conditions i) et ii) de la section 4.3.3 sontsatisfaites.

Exemple 12 (Pile ou face encore plus alambique)On considere une piece truquee ayant une probabilite p de faire pile avec p > 1

2 .

P(Pile) = p

P(Face) = 1− p.

On effectue 1000 tirages successifs de cette piece. Une realisation sera doncrepresentee sous la forme d’un vecteur a 1000 elements (on choisit 0 pour pileet 1 pour face). On souhaite simuler cet evenement en utilisant l’algorithme deMetropolis-Hasting independant.


(a) On suppose que les resultats des differents lancers sont independants,ecrivez la probabilite d’obtenir un certain vecteur x = (x1, . . . , x1000),π(x) =?

(b) Verifiez qu’on peut ecrire cette probabilite sous la forme d’un champ deGibbs : π(x) = 1

Z exp(−∑Vi(xi)

)(chaque xi n’ayant aucun voisin).

(c) Pour appliquer l’algorithme de Metropolis, on part d’une configurationarbitraire. On prend par exemple x0 = (0, . . . , 0) (uniquement des piles).Ensuite pour chaque composante xi, on tire une nouvelle valeur uni-formement dans Λ = {0, 1}. Dans quel cas va-t-on accepter cette nouvellevaleur avec une probabilite egale a 1 ?

(d) Si on n’est pas dans le cas precedent, avec quelle probabilite accepte-t-onla nouvelle valeur ? ‖

Exemple 13 (Echec de Gibbs parallelise)

On considere que la variable aleatoire X prend ses valeurs dans Λ = {0, 1} ×{0, 1} de distribution π nulle en (1, 1) et equiprobable sur les autres etats. Sur cetespace d’etats, on considere la chaıne de Markov {Xn}n regie par les transitionssuivantes : partant de X = (x1, x2), le point suivant est X ′ = (x′1, x

′2) ou x′1 est

tire suivant la loi conditionnelle π(·|x1) et x′2 est tire suivant la loi conditionnelleπ(·|x2). Cette facon de se deplacer dans l’espace d’etats s’apparente donc aun echantillonneur de Gibbs ou toutes les coordonnees seraient remises a joursimultanement en parallele.

— Donner le graphe de transition de la chaıne de Markov {Xn}n. Cettechaıne est-elle irreductible ? aperiodique ?

— Soit µ la loi stationnaire : sans la calculer, deduire de la question precedenteque µ(1, 1) 6= π(1, 1), donc que l’algorithme propose ne converge pas versce que l’on veut.

4.4 Maximisation par recuit simule

Soit un espace d’etat fini Λ, une energie derivee de potentielle U et unetemperature T > 0. La chaıne de Markov de recuit simule {Xn}n≥0 est defnitpar les probabilites de transitions

P(Xn+1 = y|Xn = x) =1

|Λ|αxy + (1−

∑y∈Λ

1

|Λ|αxy)δx(y),

avec αxy = min(1, exp{(U(y)−U(x))/T}), ou y est la realisation d’une variableuniformement distribuee sur Λ et ou l’operateur | · | designe le cardinal d’unensemble. Cette chaıne correspond a la dynamique de Metropolis independantegeneree avec l’algorithme 3.

Selon sa valeur, la temperature T a tendance a accentuer ou a lisser lesextrema de U . En particulier, lorsque la temperature tend vers 0, on peut mon-trer que la distribution de Gibbs associee a l’energie U(x)/T se concentre sur le

4.5. RESOLUTION DES PROBLEMES D’ANALYSE D’IMAGES 35

minimum de U , i.e., donc sur l’ensembleM le plus probable. Une idee consistealors a se donner une suite de temperature {Tn}n decroissant vers 0, et pourtout n, a simuler une chaıne de Markov {Xn}n ayant pour loi stationnaire lamesure de Gibbs associee a U(x)/Tn

La chaıne {Xn}n verifie bien les proprietes d’irreductibilite et d’aperiodicite.Notons cependant que si T depend de n alors la chaıne de Markov n’est plushomogene. On peut tout de meme s’appuyer sur les resultats precedents etprouver le theoreme suivant (pour une preuve, voir les references dans le livrede Robert).

Theoreme 6 (recuit simule) Soit M l’ensemble de points ou U atteint sonminimum. Il existe une constante C dependante de la fonction U telle que lachaıne de Markov de recuit simule {Xn}n≥0 avec le scema de refroidissementTn = C/ log n converge bien vers M :

limn→∞

P(Xn ∈M) = 1.

4.5 Resolution des problemes d’analyse d’images

4.5.1 Resolution generique

On souhaite resoudre les problemes introductifs d’analyse d’image poses ala section 4.1. Il se resument a evaluer l’estimateur MMSE :

EX|Y [X] =∑x∈Λ

xπ(x|y).

On approche cette esperance a l’aide d’un echantillonneur de Gibbs. Soit Nun entier naturel suffisamment grand.

Algorithme 6 (Estimateur MMSE)— A partir de t = 0, et tant que t < N :

— pour tout s ∈ S :— Tirer une realisation ξ distribuee selon la caracteristique locale

π(xs|xt∈∂(s), yr|s∈d(r))

donnee par (4.1)— Fixer

Xt+1r =

{ξ si r = s

xtr sinon

— t=t+1— approcher l’estimateur MMSE par la moyenne empirique

EX|Y [X] ≈ 1

N

N∑t=1

Xt


La realisation ξ distribuee selon la caracteristique locale est obtenue par lamethode de la transformation inverse. Notons par Fs la fonction de repartitionassociee a la caracteristique locale.

Algorithme 7 (Echantillonnage de la caracteristique locale) Soit la ca-

racteristique locale de la forme∑Mi=1 w(µi)δµi

(xs).— pour i=1,...,M :

— fixer xs = µi— calculer yi = exp{−Us(x)}

— calculer Z ′s =∑Mj=1 yi

— tirer une realisation u de la loi uniforme sur [0, 1]

— retourner le plus petit µi tel que Fs(i) = 1Z′

s

∑ij=1 yj ≥ u

On remarque que, en divisant l’energie par une variable de temperaturesoumise au refroidissement T t = C/ log t, on obtient par l’algorithme 6 unesequence d’images {Xt}t qui est garantie de converger vers l’estimateur MAPd’apres le theoreme 6.

4.5.2 Particularisation

Exemple 14 (Debruitage d’une image constante par morceaux)

L’image presentee dans la figure 4.2 est une image quantifiee en 6 niveaux degris, et deterioree par du bruit. On utilise l’algorithme presente precedemmentpour restaurer l’image au sens de la MMSE. On a fixe donc ici M = 6. Dansce probleme, on suppose une matrice unite H de sorte que l’energie de la ca-racteristique locale s’ecrit dans ce cas particulier :

Us(x) = (ys − xs)2 + 2ζσ2∑t∈∂(s)

ϕ(xs, xt).

Les niveaux de gris des 4 classes sont donnes par Λs = {42, 85, 127, 170, 212}.Enfin on choisit un parametre ζ = 1, un bruit d’ecart-type σ = 28 et un systemede voisinage definit par (3.1) avec D = 1 et p = 2. On utilise l’algorithme 6pour restaurer l’intensite des pixelsde l’image originale. Le resultat obtenu pourN = 1000 est presente dans la figure 4.2. On peut remarquer que l’estimationMMSE donne des niveaux de gris proches mais en dehors de Λs.

Exemple 15 (Quantification d’une coupe d’IRM cerebrale)

L’image presentee dans la figure 4.3 est une coupe d’IRM cerebrale. Pour le suivitherapeutique du patient ou pour evaluer l’efficacite d’un medicament, il peutetre utile de quantifier les differents volumes cerebraux. Avant de pouvoir mesu-rer des variations de volume, il faut donc detecter et segmenter ces volumes. Onsouhaiterait extraire les 3 classes du cerveau (matiere grise, matiere blanche etliquide cephalo-rachidien). On choisit donc M = 4 (une classe supplementaireest necessaire pour representer le fond). Les niveaux de gris des 4 classes sont

4.5. RESOLUTION DES PROBLEMES D’ANALYSE D’IMAGES 37

Figure 4.2 – Debruitage au sens MMSE d’une image

donnes par Λs = {0, 60, 80, 225}. Dans ce probleme, on suppose aussi une ma-trice unite H et un systeme de voisinage definit par (3.1) avec D = 1 et p = 2.de sorte que l’energie de la caracteristique locale s’ecrit identiquement que dansl’exemple precedent. Enfin on choisit les parametres ζ = 200 et σ = 1. L’estima-tion MMSE fournie par l’algorithme 6 donne des niveaux de gris proches maisen dehors de Λs, puisque l’on rappelle que la moyenne a posteriori n’est pasnecessairement dans les solutions admissibles. Le resultat obtenu pour N = 200est presente dans la figure 4.3.

Figure 4.3 – Quantification au sens MMSE d’une image IRM en 4 niveaux degris. Les niveaux de gris estimes sont codes en fausses couleurs selon la table laplus a gauche.

Bibliographie

[1] Bremaud, P. : Markov Chains : Gibbs Fields, Monte Carlo Simulation, andQueues, springer science and business media, -444 pages edn. (1999)

[2] Guyader, A. : Esperance conditionnelle et chaine de Markov, polycopie pourlicence mass 3, rennes 2 edn. (2014)

[3] Le Gland, F. : Filtrage bayesien et approximation particulaire, polycopiepour ENSTA, cycle ingenieur 3eme annee (2015)

[4] Robert, C. : Monte Carlo Statistical Methods, springer texts in statistics,2nd ed., 649 pages edn. (2004)

[5] Robert, C. : The Bayesian Choice : From Decision-Theoretic Foundationsto Computational Implementation (Springer Texts in Statistics), 2nd edn.Springer Verlag, New York (2007)

39

m ethodes de simulation de monte-carlo en analyse...

Documents