cours oroc–sc–fp (3/5) filtrage bay´esien et … · 2017-10-17 · introduction distributions...

Introduction Distributions de Gibbs–Boltzmann Melanges finis Distributions a support fini Approximation particulaire

cours OROC–SC–FP (3/5)

Filtrage Bayesienet Approximation Particulaire

Francois Le GlandINRIA Rennes et IRMAR

http://www.irisa.fr/aspi/legland/ensta/

6 octobre 2017

1 / 74


Introductionmotivationmethodes de Monte Carlo (rappel)

Distributions de Gibbs–Boltzmann

Melanges finis

Distributions a support fini

Approximation particulaire

2 / 74


Motivationpour approximer le filtre bayesien

µn(dx) = P[Xn ∈ dx | Y0:n]

on utilise ici la relation de recurrence preuve a la seance precedente

µk−1 −−−−−−−−−→ ηk = µk−1 Qk −−−−−−−−−→ µk = gk · ηkavec la condition initiale µ0 = g0 · η0ici, la notation

µk−1 Qk(dx′) =

∫

E

µk−1(dx)Qk(x , dx′)

designe l’action du noyau markovien Qk(x , dx′) sur la distribution de

probabilite µk−1(dx), et la notation

gk · ηk =gk ηk〈ηk , gk〉

designe le produit projectif de la distribution de probabilite a prioriηk(dx

′) et de la fonction de vraisemblance gk(x′)

3 / 74


idee : rechercher une approximation sous la forme de distributions deprobabilite empiriques (eventuellement ponderees)

ηk ≈ ηNk =1

N

N∑

i=1

δξik

et µk ≈ µNk =

N∑

i=1

w ik δ

ξikavec

N∑

i=1

w ik = 1

associees a une population de N particules caracterisee par

◮ les positions (ξ1k , · · · , ξNk ) dans E◮ et les poids positifs (w1

k , · · · ,wNk )

4 / 74


approximation initiale : par echantillonnage pondere

µ0 = g0 · η0 ≈ g0 · SN(η0) =

N∑

i=1

g0(ξi0) δξi0

N∑

j=1

g0(ξj0)

=

N∑

i=1

w i0 δξi0

ou les variables aleatoires (ξ10 , · · · , ξN0 ) sont i.i.d. de distributioncommune η0

etape de correction : clairement, a partir de la definition

µNk = gk · ηNk =

N∑

i=1

gk(ξik) δξik

N∑

j=1

gk(ξjk)

=N∑

i=1

w ik δ

ξik

est automatiquement de la forme recherchee

5 / 74


etape de prediction : a partir de la definition

〈µNk−1 Qk , φ〉 =

∫

µNk−1(dx)

∫

Qk(x , dx′)φ(x ′)

=N∑

i=1

w ik−1

∫

Qk(ξik−1, dx

′)φ(x ′)

=

∫

[N∑

i=1

w ik−1 Qk(ξ

ik−1, dx

′) ]φ(x ′)

pour toute fonction φ, de sorte que

µNk−1 Qk(dx

′) =

N∑

i=1

w ik−1 m

ik(dx

′)

s’exprime comme un melange fini, avec

mik(dx

′) = Qk(ξik−1, dx

′) pour tout i = 1 · · ·Nqu’il s’agit d’approximer / echantillonner, selon une methode appropriee

6 / 74


question : comment approcher

◮ une distribution de Gibbs–Boltzmann de la forme

µ = g · η =g η

〈η, g〉 telle que 〈µ, φ〉 = 〈η, g φ〉〈η, g〉

◮ ou un melange fini de la forme

η =

M∑

i=1

wi mi tel que 〈η, φ〉 =M∑

i=1

wi 〈mi , φ〉

a l’aide d’un echantillon ?

7 / 74


Methodes de Monte Carlo (rappel)s’il est difficile de calculer une integrale (ou une esperance)

〈µ, φ〉 =∫

E

φ(x)µ(dx) = E[φ(X )] avec X ∼ µ(dx)

mais qu’il est facile de simuler une v.a. selon la distribution µ, alors onpeut former la distribution empirique

SN(µ) =1

N

N∑

i=1

δξi

ou (ξ1, · · · , ξN) est un N–echantillon distribue selon µ, d’oul’approximation sans biais

〈µ, φ〉 ≈ 〈SN(µ), φ〉 = 1

N

N∑

i=1

φ(ξi )

8 / 74


expression comme somme de variables aleatoires i.i.d. centrees

〈SN(µ)− µ, φ〉 = 1

N

N∑

i=1

(φ(ξi )− 〈µ, φ〉)

d’ou l’expression de la variance (non–asymptotique)

E| 〈SN(µ)− µ, φ〉 |2 = 1

Nvar(φ, µ)

facile, compte tenu de l’identite

1

N2

N∑

i,j=1

E[ (φ(ξi )−〈µ, φ〉) (φ(ξj)−〈µ, φ〉) ] = 1

N2

N∑

i=1

E|φ(ξi )− 〈µ, φ〉 |2︸︷︷︸

var(φ, µ)

plus generalement (inegalites de Marcinkiewicz–Zygmund) : pour p ≥ 2

{E| 〈SN(µ)− µ, φ〉 |p }1/p ≤ cp√N

〈µ, |φ− 〈µ, φ〉|p〉1/p

9 / 74


theoremes limites (pour une grande taille d’echantillon N)

loi (forte) des grands nombres

〈SN(µ), φ〉 −→ 〈µ, φ〉

en probabilite (presque surement) quand N ↑ ∞, a vitesse 1/√N

theoreme central limite

√N 〈SN(µ)− µ, φ〉 = 1√

N

N∑

i=1

(φ(ξi )− 〈µ, φ〉) =⇒ N (0, var(φ, µ))

en distribution quand N ↑ ∞

10 / 74


Introduction

Distributions de Gibbs–Boltzmanndistributions de Gibbs–Boltzmannechantillonnage pondereestimations et theoremes limites

Melanges finis



11 / 74


Distributions de Gibbs–Boltzmanncas particulier important : distribution de Gibbs–Boltzmann

µ = g · η =g η

〈η, g〉 c–a–d 〈µ, φ〉 = 〈η, g φ〉〈η, g〉 (⋆)

avec (decomposition non unique)

◮ une distribution de probabilite η

◮ une fonction positive g

on introduit aussi la mesure positive (non–normalisee) definie par

〈γ, φ〉 = 〈η, g φ〉 = E[g(Ξ)φ(Ξ)] d’ou 〈µ, φ〉 = 〈η, g φ〉〈η, g〉 =

〈γ, φ〉〈γ, 1〉

ou la v.a. Ξ a pour loi ηmotivation : formule de Bayes

”loi a posteriori” ∝ ”fonction de vraisemblance” × ”loi a priori”

12 / 74


s’il est difficile de simuler une v.a. selon µ, mais qu’il est facile de

◮ simuler une v.a. selon η

◮ evaluer pour tout x , la fonction positive g(x)

alors il est possible de

◮ generer exactement une v.a. de loi µ = g · η [acceptation / rejet]

◮ approcher µ par une distribution empirique ponderee associee a unechantillon de loi η [echantillonnage pondere]

meme si la constante de normalisation 〈η, g〉 est inconnue

13 / 74


Echantillonnage pondere

idee : approximer numerateur et denominateur dans (⋆) a l’aide d’ununique echantillon distribue selon η : on introduit les approximationssuivantes

〈γ, φ〉 = 〈η, g φ〉 ≈ 〈SN(η), g φ〉 = 1

N

N∑

i=1

g(ξi )φ(ξi )

d’ou

〈µ, φ〉 = 〈g · η, φ〉 ≈ 〈g · SN(η), φ〉 =

N∑

i=1

g(ξi )φ(ξi )

N∑

i=1

g(ξi )

pour toute fonction φ, ou les variables aleatoires (ξ1, · · · , ξN) sont i.i.d.de distribution de probabilite commune η

14 / 74


ceci definit implicitement les approximations Monte Carlo ponderees

γ ≈ γN = g SN(η) =1

N

N∑

i=1

g(ξi ) δξi

et

µ ≈ µN = g · SN(η) =

N∑

i=1

g(ξi ) δξi

N∑

j=1

g(ξj)

=

N∑

i=1

w i δξi

ou les poids (w1, · · · ,wN) sont definis pour tout i = 1 · · ·N par

w i =g(ξi )

N∑

j=1

g(ξj)

parfois note w i ∝ g(ξi )

a une constante multiplicative pres

15 / 74


−5 −4 −3 −2 −1 0 1 2 3 4 50

0.2

0.4

0.6

0.8

1

1.2

1.4prior distribution (sample view)

prior

Figure : Densite a priori et echantillon

16 / 74


−5 −4 −3 −2 −1 0 1 2 3 4 50

0.2

0.4

0.6

0.8

1

1.2

1.4prior distribution (histogram view)

prior

Figure : Densite a priori et histogramme associe a l’echantillon

17 / 74


−5 −4 −3 −2 −1 0 1 2 3 4 50

0.2

0.4

0.6

0.8

1

1.2

1.4

prior distribution, likelihood functionand posterior distribution (weighted sample view)

priorlikelihoodposterior

Figure : Densite a priori, fonction de vraisemblance, densite a posteriori etechantillon pondere

18 / 74


−5 −4 −3 −2 −1 0 1 2 3 4 50

0.2

0.4

0.6

0.8

1

1.2

1.4

prior distribution, likelihood functionand posterior distribution (histogram view)


Figure : Densite a priori, fonction de vraisemblance, densite a posteriori ethistogramme associe a l’echantillon pondere

19 / 74


−5 −4 −3 −2 −1 0 1 2 3 4 50

0.2

0.4

0.6

0.8

1

1.2

1.4

prior distribution, likelihood functionand posterior distribution (weighted sample view)


Figure : Densite a priori, fonction de vraisemblance, densite a posteriori etechantillon pondere (exemple d’incoherence)

20 / 74


−5 −4 −3 −2 −1 0 1 2 3 4 50

0.2

0.4

0.6

0.8

1

1.2

1.4

prior distribution, likelihood functionand posterior distribution (histogram view)


Figure : Densite a priori, fonction de vraisemblance, densite a posteriori ethistogramme associe a l’echantillon pondere (exemple d’incoherence)

21 / 74


solution : changement de distribution de probabilitesoit ν une distribution de probabilite dominant η, c’est–a–dire que siν(A) = 0 alors necessairement η(A) = 0

〈η, g φ〉 = 〈ν, dηdν

g φ〉 et en particulier 〈η, g〉 = 〈ν, dηdν

g〉

de sorte que

〈µ, φ〉 = 〈η, g φ〉〈η, g〉 =

〈ν, dηdν

g φ〉

〈ν, dηdν

g〉=

〈ν, h φ〉〈ν, h〉 avec h =

dη

dνg

d’ou l’expression alternative en terme de distribution de Gibbs–Boltzmann

µ = h · ν =h ν

〈ν, h〉

et il s’agit de proposer une paire (ν, h) presentant une incoherencemoindre que celle de la paire (η, g)

22 / 74


Estimations et theoremes limitesla v.a. 〈γN , φ〉 est un estimateur non–biaise de 〈γ, φ〉Theoreme

E| 〈γN − γ, φ〉〈γ, 1〉 |2 = 1

N

var(g φ, η)

〈η, g〉2et pour tout p ≥ 2

{E| 〈γN − γ, φ〉〈γ, 1〉 |p }1/p ≤ cp√

N(〈η, |g φ− 〈η, g φ〉|p〉

〈η, g〉p )1/p

Preuve il suffit de remarquer que

γ = g η et γN = g SN(η)

de sorte que〈γN − γ, φ〉 = 〈SN(η)− η, g φ〉

et d’appliquer le resultat du cas general �

23 / 74


en revanche, comme rapport de deux estimateurs non–biaises, la v.a.〈µN , φ〉 est un estimateur biaise de 〈µ, φ〉Theoreme

E[ 〈µN , φ〉 ] = 〈µ, φ〉+ O(1/N)

{E| 〈µN − µ, φ〉 |2 }1/2 = 1√N

(〈η, g2 |φ− 〈µ, φ〉|2〉

〈η, g〉2 )1/2 + O(1/N)

et pour tout p ≥ 2

{E| 〈µN − µ, φ〉 |p }1/p = O(1/√N)

Preuve on pose

T 0N = 〈γN − γ, φ− 〈µ, φ〉〉 = 〈γN , φ〉 − 〈µ, φ〉〈γN , 1〉

compte tenu que〈γ, φ〉 − 〈µ, φ〉〈γ, 1〉 = 0

24 / 74


on pose aussiD = 〈γ, 1〉 et DN = 〈γN , 1〉

on en deduit que la difference ∆N = 〈µN − µ, φ〉 verifie

∆N =〈γN , φ〉〈γN , 1〉 − 〈µ, φ〉 = 〈γN − γ, φ− 〈µ, φ〉〉

〈γN , 1〉 =T 0N

DN

et on a la majoration grossiere

|∆N | = | T0N

DN

| = | 〈γN , φ− 〈µ, φ〉〉〈γN , 1〉 | ≤ ‖φ− 〈µ, φ〉 ‖ ≤ osc(φ)

25 / 74


on rappelle que

T 0N

D=

〈γN − γ, φ− 〈µ, φ〉〉〈γ, 1〉 et

DN − D

D=

〈γN − γ, 1〉〈γ, 1〉

et on remarque que, pour φ′ = φ− 〈µ, φ〉

g φ′ − 〈η, g φ′〉 = g (φ− 〈µ, φ〉)− 〈η, g φ〉+ 〈µ, φ〉〈η, g〉 = g (φ− 〈µ, φ〉)

d’apres le Theoreme precedent applique a φ− 〈µ, φ〉 et a φ ≡ 1, on a

‖TN0

D‖2 = {E|T

N0

D|2 }1/2 = 1√

N(〈η, g2 |φ− 〈µ, φ〉|2〉

〈η, g〉2 )1/2

‖TN0

D‖p ≤ cp√

N(〈η, gp |φ− 〈µ, φ〉|p〉

〈η, g〉p )1/p

‖DN − D

D‖p ≤ cp√

N(〈η, |g − 〈η, g〉|p〉

〈η, g〉p )1/p

26 / 74


on remarque que

∆N =T 0N

DN

=T 0N

D− T 0

N

DN

DN − D

D=

T 0N

D−∆N

DN − D

D

et en iterant

∆N =T 0N

D− (

T 0N

D−∆N

DN − D

D)DN − D

D

=T 0N

D− T 0

N

D

DN − D

D+∆N (

DN − D

D)2

27 / 74


pour le biais, on remarque que T 0N est de moyenne nulle de sorte que

E[∆N ] = −E[T 0N

D

DN − D

D] + E[

T 0N

DN

(DN − D

D)2 ]

et en utilisant l’inegalite triangulaire puis l’inegalite de Holder, on a

|E[∆N ] | ≤ E| T0N

D

DN − D

D|+ E| T

0N

DN

(DN − D

D)2 |

≤ ‖T0N

D‖2 ‖

DN − D

D‖2 + osc(φ) ‖DN − D

D‖22

ou les deux termes dans la majoration sont d’ordre 1/N

28 / 74


pour le moment d’ordre 2 (variance), en utilisant l’inegalite triangulairepuis l’inegalite de Holder, on a

| ‖∆N‖2 − ‖T0N

D‖2 | ≤ ‖∆N − T 0

N

D‖2

≤ ‖T0N

D

DN − D

D‖2 + ‖T

0N

DN

(DN − D

D)2‖2

≤ ‖T0N

D‖4 ‖

DN − D

D‖4 + osc(φ) ‖DN − D

D‖24

ou les deux termes dans la majoration sont d’ordre 1/N

29 / 74


pour le moment d’ordre p, une majoration grossiere suffit et en utilisantl’inegalite triangulaire, on a

‖∆N‖p ≤ ‖T0N

D‖p + ‖T

0N

DN

DN − D

D‖p

≤ ‖T0N

D‖p + osc(φ) ‖DN − D

D‖p

ou les deux termes dans la majoration sont d’ordre 1/√N �

30 / 74


Theoreme

√N [

〈γN , 1〉〈γ, 1〉 −1] =⇒ N (0,V ) et

√N 〈µN−µ, φ〉 =⇒ N (0, v(φ))

en distribution quand N ↑ ∞, pour toute fonction φ, avec l’expressionsuivante pour la variance asymptotique

V =〈η, g2〉〈η, g〉2 − 1 et v(φ) =

〈η, g2 |φ− 〈µ, φ〉|2〉〈η, g〉2

Preuve on remarque que

γN = g SN(η) et µN =γN

〈γN , 1〉

de sorte que pour toute fonction φ

√N

〈γN − γ, φ〉〈γ, 1〉 =

√N

〈SN(η)− η, g φ〉〈η, g〉 =⇒ N (0,

var(g φ, η)

〈η, g〉2 )

en distribution quand N ↑ ∞, pour toute fonction φ

31 / 74


en particulier pour φ ≡ 1

√N [

〈γN , 1〉〈γ, 1〉 − 1] =⇒ N (0,

var(g , η)

〈η, g〉2 )

en distribution quand N ↑ ∞, et il resulte de la decomposition suivante

〈µN − µ, φ〉 = 〈γN − γ, φ− 〈µ, φ〉〉〈γN , 1〉

que√N 〈µN − µ, φ〉 = 〈γ, 1〉

〈γN , 1〉√N

〈γN − γ, φ− 〈µ, φ〉〉〈γ, 1〉

d’apres la loi des grands nombres

〈γN , 1〉 = 1

N

N∑

i=1

g(ξi ) −→ 〈η, g〉 = 〈γ, 1〉

en probabilite quand N ↑ ∞, et d’apres le lemme de Slutsky

√N 〈µN − µ, φ〉 =⇒ N (0,

var(g (φ− 〈µ, φ〉), η)〈η, g〉2 )

en distribution quand N ↑ ∞32 / 74


finalement, on remarque que

〈η, g (φ− 〈µ, φ〉) 〉 = 〈η, g φ〉 − 〈η, g〉〈µ, φ〉 = 0

de sorte que

var(g (φ− 〈µ, φ〉), η) = 〈η, g2 |φ− 〈µ, φ〉|2〉 �

Remarque la variance asymptotique V s’interprete en terme de ladistance du χ2 entre les distributions de probabilite µ et η, definie par

χ2(µ, η) =

∫

E

(dµ

dη(x)− 1)2 η(dx) =

∫

E

(dµ

dη(x))2 η(dx)− 1

compte tenu que

µ = g · η =g η

〈η, g〉 de sorte quedµ

dη(x) =

g(x)

〈η, g〉

33 / 74


Introduction


Melanges finismelanges finisstrategies de re–echantillonnagestrategies de re–echantillonnage : comparaisons



34 / 74


Melanges finisetant donne un melange fini

η =M∑

i=1

wi mi avecM∑

i=1

wi = 1

de M distributions de probabilite (m1, · · · ,mM) avec les poids positifs(w1, · · · ,wM), et s’il est facile

◮ de simuler pour tout i = 1 · · ·M une variable aleatoire distribueeselon mi

alors il est facile de simuler une variable aleatoire distribuee selon η : ilsuffit

◮ de simuler une variable aleatoire I a valeurs dans l’ensemble fini{1, · · · ,M} et distribuee selon les poids (w1, · · · ,wM), c’est–a–dire

P[I = i ] = wi pour tout i = 1 · · ·M

◮ et de generer une variable aleatoire distribuee selon mI

35 / 74


la probabilite de selectionner une composante du melange est d’autantplus grande que le poids de cette composante est grand

objectif : simuler un N–echantillon distribue selon le melange fini η, oubien approximer la distribution de probabilite η par un melange fini de Nmasses de Dirac, appelees particules, ou

le nombre N de particules n’est pas necessairement egalau nombre M de composantes du melange

il restera a savoir

◮ simuler une variable aleatoire a valeurs dans l’ensemble fini{1, · · · ,M} et distribuee selon des poids (w1, · · · ,wM) donnes

◮ voire simuler globalement un N–echantillon a valeurs dansl’ensemble fini {1, · · · ,M} et distribue selon des poids (w1, · · · ,wM)donnes, plus efficacement qu’en repetant N fois la simulation d’uneseule variable aleatoire

36 / 74


Re–echantillonnage multinomial

on simule un N–echantillon (ξ1, · · · , ξN) distribue selon η, et on pose

SN(η) =1

N

N∑

i=1

δξi(multi)

utilisation des poids pour selectionner (avec remise) les composantes dumelange de plus forts poids, avec l’effet attendu que

◮ les composantes de plus forts poids seront selectionnees plusieurs fois

◮ a l’inverse, les composantes de moins forts poids pourront meme etreeliminees et ne plus etre representees du tout dans l’approximation

si Ni designe le nombre de fois que la i–eme composante du melange estselectionee, ou de maniere equivalente son nombre Ni de representantsdans l’approximation, pour tout i = 1 · · ·M, alors

le vecteur aleatoire (N1, · · · ,NM) suit une loi multinomiale

37 / 74


Theoreme la variable aleatoire 〈SN(η), φ〉 est un estimateur non–biaisede 〈η, φ〉, et les moments de l’erreur d’estimation verifient

E| 〈SN(η)− η, φ〉 |2 = 1

Nvar(φ, η)

ou de maniere equivalente

E| 〈SN(η)− η, φ〉 |2 = 1

N

M∑

i=1

wi var(φ,mi ) +1

NWM

WM =M∑

i=1

wi |〈mi , φ〉|2 − |M∑

i=1

wi 〈mi , φ〉|2

pour toute fonction φ

interpretation de WM comme variance des moyennes intra–composantesaffectees du poids de chaque composante

38 / 74


preuve de l’equivalence :

var(φ, η) = 〈m, |φ|2〉 − |〈m, φ〉|2

=

M∑

i=1

wi 〈mi , |φ|2〉 − |M∑

i=1

wi 〈mi , φ〉|2

=

M∑

i=1

wi [ 〈mi , |φ|2〉 − |〈mi , φ〉|2 ]

+ [

M∑

i=1

wi |〈mi , φ〉|2 − |M∑

i=1

wi 〈mi , φ〉|2 ]

=

M∑

i=1

wi var(φ,mi ) + [

M∑

i=1

wi |〈mi , φ〉|2 − |M∑

i=1

wi 〈mi , φ〉|2 ]

39 / 74


Remarque intuitivement, si tous les poids sont egaux a (ou proches de)1/M, c’est–a–dire si la repartition des poids de melange est proche del’equidistribution, alors il peut etre contre–productif de selectionner lescomposantes du melange

40 / 74


Stratification par composante

on decide de conserver les poids et de simuler un representantexactement pour chaque composante du melange (ce qui impose que Nest necessairement egal au nombre M de composantes du melangeinitial), et on pose

ηM =

M∑

i=1

wi δξi(strata)

ou independamment pour tout i = 1 · · ·M la variable aleatoire ξi estdistribuee selon mi

41 / 74


Theoreme la variable aleatoire 〈ηM , φ〉 est un estimateur non–biaise de〈η, φ〉, et la variance de l’erreur d’estimation verifie

E| 〈ηM − η, φ〉 |2 =M∑

i=1

w2i var(φ,mi )


Preuve par independance

E| 〈ηM−η, φ〉 |2 = E|M∑

i=1

wi [φ(ξi )−〈mi , φ〉 ] |2 =

M∑

i=1

w2i E|φ(ξi )− 〈mi , φ〉|2︸︷︷︸

var(φ,mi )

pour toute fonction φ �

Remarque intuitivement, cette approche est pertinente dans le cas ou larepartition des poids de melange est proche de l’equidistribution, mais enrevanche peu appropriee dans le cas extreme ou presque tous les poidssont nuls sauf quelques uns

42 / 74


soit a comparer les variances des estimateurs (multi) et (strata) avecN = M

Vmulti ≥1

M

M∑

i=1

wi var(φ,mi ) et Vstrata =M∑

i=1

w2i var(φ,mi )

◮ a l’equidistribution, c’est–a–dire si tous les poids sont egaux entre eux(et egaux a 1/M), alors

Vmulti ≥1

M2

M∑

i=1

var(φ,mi ) = Vstrata

ce qui confirme l’intuition que redistribuer est contre–productif dans cecas◮ a l’inverse, si la distribution des poids est completement degeneree,c’est–a–dire si tous les poids sont nuls sauf le poids wa = 1 pour unecertaine composante du melange, alors

Vmulti =1

Mvar(φ,ma) ≤ var(φ,ma) = Vstrata

ce qui confirme l’intuition que redistribuer est pertinent dans ce cas43 / 74


Echantillonnage adaptatif

etant donne le melange fini

η =

M∑

i=1

wi mi

il n’est veritablement interessant de selectionner les differentescomposantes que si les poids (w1, · · · ,wM) sont tres desequilibresplusieurs criteres ete proposes pour mesurer l’ecart a l’equidistribution, etpour decider de redistribuer ou non les particules

◮ taille effective de l’echantillon

◮ entropie de l’echantillon

44 / 74


la distance du χ2 entre deux vecteurs de probabilite p = (p1, · · · , pM) etq = (q1, · · · , qM) est definie par

χ2(p, q) =

M∑

i=1

qi (piqi

− 1)2 =

M∑

i=1

p2iqi

− 1

et en particulier pour p = (w1, · · · ,wM) et q = (1/M, · · · , 1/M), il vient

0 ≤ M

M∑

i=1

w2i − 1 =

M

Meff

− 1

ou Meff est la taille effective de l’echantillon, definie par

1 ≤ Meff = 1 / [

M∑

i=1

w2i ] ≤ M

et ou l’egalite est atteinte a l’equidistribution, ce qui suggere deredistribuer si

M

Meff

− 1 ≥ χ2red > 0 c–a–d si Meff ≤ cred M

ou le seuil cred = 1/(1 + χ2red

) < 1 reste a determiner45 / 74


re–interpretation des resultats precedentspour l’estimateur (strata) avec stratification par composante

E| 〈ηM − η, φ〉 |2 =M∑

i=1

w2i var(φ,mi ) =

1

Meff

M∑

i=1

w�i var(φ,mi )

pour toute fonction φ, ou les nouveaux poids (w�1 , · · · ,w�

M ) sont definispour tout i = 1 · · ·M par

w�i =

w2i

M∑

j=1

w2j

c–a–d w�i ∝ w2

i

a une constante de normalisation pres

46 / 74


on introduit l’approximation adaptative

ηM =

M∑

i=1

wi δξi si Meff > cred M

avec ξi ∼ mi pour tout i = 1 · · ·M

1

M

M∑

i=1

δξisi Meff ≤ cred M

avec ξi ∼ η pour tout i = 1 · · ·M

avec l’expression suivante pour la variance de l’erreur d’estimation

E| 〈ηM − η, φ〉 |2 =

1

Meff

M∑

i=1

w�i var(φ,mi ) si Meff > cred M

1

Mvar(φ, η) si Meff ≤ cred M

47 / 74


Remarque re–echantillonner selon les poids respectifs n’est donc approprieque dans les cas ou la repartition des poids de melange est eloigne del’equidistribution, mais introduit de toute maniere un alea supplementaire

pour limiter cette source d’alea, on peut par exemple affecter de manieredeterministe a chaque composante i = 1 · · ·M un nombre derepresentants egal au nombre Ni de fois que le poids 1/N est contenudans le poids wi de la composante (le poids 1/N est celui qui sera affectea chaque particule dans l’approximation finale)

a l’issue de cette premiere passe, (N − N0) representants sont dejaaffectes et il reste ensuite a completer la population de particules demaniere a assurer un effectif de la taille N desiree, par exemple ensimulant un N0–echantillon selon la distribution residuelle des poids nonencore affectes

48 / 74


0.05 0.05 0.2 0.05 0.1 0.1 0.4 0.05

ici N = M = 8, d’ou 1/N = 0.125, et a l’issue de la premiere passe :la composante 3 a recu 1 representant, la composante 7 a recu 3representants,et il reste N0 = 4 representants a affecter

49 / 74


0.05 0.05 0.2 0.05 0.1 0.1 0.4 0.05

0.05 0.05 0.075 0.05 0.1 0.1 0.025 0.0550 / 74


Re–echantillonnage residuel multinomialpour toute composante i = 1 · · ·M on definit le nombre Ni = ⌊N wi⌋ deses representants affectes a l’issue de la premiere passe, comme resultatde la division euclidienne

N wi = Ni + qi avec 0 ≤ qi < 1

et compte tenu des identites

N =

M∑

i=1

N wi =

M∑

i=1

(Ni + qi ) =

M∑

i=1

Ni + N0 avec N0 =

M∑

i=1

qi

et

η =

M∑

i=1

wi mi =1

N

M∑

i=1

(Ni + qi ) mi =

M∑

i=1

Ni

Nmi +

N0

Nm0

avec

m0 =

M∑

i=1

qiN0

mi

on deduit qu’il reste N0 representants a affecter de maniere a approcherla distribution de probabilite residuelle convenablement renormalisee m0

51 / 74


l’approximation proposee consiste a simuler◮ pour tout i = 1 · · ·M, un Ni–echantillon (ξi,1, · · · , ξi,Ni ) distribue

selon mi

◮ un N0–echantillon (ξ0,1, · · · , ξ0,N0) distribue selon le melange fini m0

toutes les variables aleatoires etant simulees de maniere independantes,et a poser

ηN =1

N

M∑

i=1

Ni∑

j=1

δξi,j

+1

N

N0∑

j=1

δξ0,j

(residu)

c’est–a–dire

〈ηN , φ〉 =1

N

M∑

i=1

Ni∑

j=1

φ(ξi,j) +1

N

N0∑

j=1

φ(ξ0,j)

et par difference

〈ηN − η, φ〉 = 1

N

M∑

i=1

Ni∑

j=1

[φ(ξi,j)− 〈mi , φ〉] +1

N

N0∑

j=1

[φ(ξ0,j)− 〈m0, φ〉]

pour toute fonction φ52 / 74


Theoreme la variable aleatoire 〈ηN , φ〉 est un estimateur non–biaise de〈η, φ〉, et la variance de l’erreur d’estimation verifie

E| 〈ηN − η, φ〉 |2 = 1

N[

M∑

i=1

Ni

Nvar(φ,mi ) +

N0

Nvar(φ,m0) ]

ou de maniere equivalente

E| 〈ηN − η, φ〉 |2 = 1

N

M∑

i=1

wi var(φ,mi ) +N0

N2WM

WM =

M∑

i=1

qiN0

|〈mi , φ〉 |2 − |M∑

i=1

qiN0

〈mi , φ〉 |2


interpretation de WM comme variance des moyennes intra–composantesaffectees du poids residuel de chaque composante

53 / 74


preuve de l’equivalence :

Ni

Nvar(φ,mi ) = wi var(φ,mi )−

qiN

[ 〈mi , |φ|2〉 − |〈mi , φ〉 |2 ]

var(φ,m0) =

M∑

i=1

qiN0

〈mi , |φ|2〉 − |M∑

i=1

qiN0

〈mi , φ〉 |2

de sorte que

M∑

i=1

Ni

Nvar(φ,mi ) +

N0

Nvar(φ,m0) =

=M∑

i=1

wi var(φ,mi )−M∑

i=1

qiN

[ 〈mi , |φ|2〉 − |〈mi , φ〉 |2 ]

+N0

N[

M∑

i=1

qiN0

〈mi , |φ|2〉 − |M∑

i=1

qiN0

〈mi , φ〉 |2 ]

=

M∑

i=1

wi var(φ,mi ) +N0

N[

M∑

i=1

qiN0

|〈mi , φ〉 |2 − |M∑

i=1

qiN0

〈mi , φ〉 |2 ]54 / 74


Introduction


Melanges finis



63 / 74


Echantillonnage selon une distribution a support fini

objectif : simuler une variable aleatoire I , ou un N–echantillon(I1, · · · , IN), a valeurs dans l’ensemble fini {1, · · · ,M} et distribue selonles poids (w1, · · · ,wM)

la methode la plus directe est la methode d’inversion :on decoupe l’intervalle [0, 1] en M segments adjacents de longueursrespectives (w1, · · · ,wM),

◮ on simule une variable aleatoire U uniforme sur [0, 1]

◮ si U appartient au j–eme segment, alors on pose I = j

une recherche binaire en O(log2 M) operations permet d’obtenir ceresultat, et il suffit donc de N O(log2 M) operations pour generer unN–echantillon a valeurs dans l’ensemble fini {1, · · · ,M} et distribueselon les poids (w1, · · · ,wM)

64 / 74


amelioration : au lieu de repeter N fois l’operation de

◮ generer une variable aleatoire uniforme sur [0, 1]

◮ puis effectuer une recherche binaire

on simule un N–echantillon (U1, · · · ,UN) de variables aleatoiresuniformes sur [0, 1], on ordonne cet echantillon, ce qui necessiteO(N log2 N) operations, et on applique la methode d’inversion al’echantillon re–ordonne U(1) ≤ · · · ≤ U(N)

si U(i) appartient au j–eme segment, alors on pose Ii = j , de sorte quepour simuler Ii+1 il suffit de tester l’appartenance de U(i+1) aux segmentssitues a partir du j–eme segment

❄ ❄❄ ❄❄ ❄ ❄ ❄

65 / 74


amelioration supplementaire : pour eviter l’etape prealable dere–ordonner les variables aleatoires uniformes, on simule directement uneN–statistique d’ordre uniforme, c’est–a–dire un vecteur aleatoire(V1, · · · ,VN) distribue comme le vecteur aleatoire obtenu enre–ordonnant un N–echantillon (U1, · · · ,UN) de variables aleatoiresuniformes sur [0, 1], ce qui peut etre effectue en O(N) operations

Proposition soit (U1, · · · ,UN) un N–echantillon de variables aleatoiresuniformes sur [0, 1], et on definit

Vi = U1/NN · · ·U1/i

i pour tout i = N · · · 1

ou bien par recurrence : VN = U1/NN et

Vi = Vi+1 U1/ii pour tout i = N − 1 · · · 1

alors le vecteur aleatoire (V1, · · · ,VN) est distribue comme le vecteuraleatoire (U(1), · · · ,U(N)) obtenu en re–ordonnant (U1, · · · ,UN)

fonction MATLAB fct multi.m

66 / 74


Introduction


Melanges finis



67 / 74


Algorithme SIR : echantillonnage / re–echantillonnage

objectif : approximer la suite {µk} (par exemple le filtre bayesien) definiepar la relation de recurrence

µk−1 −−−−−−−−−→ ηk = µk−1 Qk −−−−−−−−−→ µk = gk · ηk

avec la condition initiale µ0 = g0 · η0idee : rechercher une approximation sous la forme de distributions deprobabilite empiriques (eventuellement ponderees)

ηk ≈ ηNk =1

N

N∑

i=1

δξik

et µk ≈ µNk =

N∑

i=1

w ik δ

ξikavec

N∑

i=1

w ik = 1

associees a une population de N particules caracterisee par

◮ les positions (ξ1k , · · · , ξNk ) dans E◮ et les poids positifs (w1

k , · · · ,wNk )

68 / 74


approximation initiale : par echantillonnage pondere

µ0 = g0 · η0 ≈ g0 · SN(η0) =

N∑

i=1

g0(ξi0) δξi0

N∑

j=1

g0(ξj0)

=

N∑

i=1

w i0 δξi0

ou les variables aleatoires (ξ10 , · · · , ξN0 ) sont i.i.d. de distributioncommune η0

etape de correction : clairement, a partir de la definition

µNk = gk · ηNk =

N∑

i=1

gk(ξik) δξik

N∑

j=1

gk(ξjk)

=N∑

i=1

w ik δ

ξik

est automatiquement de la forme recherchee

69 / 74


etape de prediction : a partir de la definition

〈µNk−1 Qk , φ〉 =

∫

µNk−1(dx)

∫

Qk(x , dx′)φ(x ′)

=N∑

i=1

w ik−1

∫

Qk(ξik−1, dx

′)φ(x ′)

=

∫

[N∑

i=1

w ik−1 Qk(ξ

ik−1, dx

′) ]φ(x ′)

pour toute fonction φ, de sorte que

µNk−1 Qk =

N∑

i=1

w ik−1 m

ik

s’exprime comme un melange fini, avec

mik(dx


′) pour tout i = 1 · · ·Nqu’il s’agit d’approximer / echantillonner, selon une methode appropriee

70 / 74


algorithme SIR (sampling with importance resampling), recursif

◮ pour k = 0, independamment pour tout i = 1 · · ·Non simule une v.a. ξi0 distribuee selon η0(dx), et on definit

w i0 = g0(ξ

i0) /

[N∑

j=1

g0(ξj0)

]

◮ pour tout k = 1 · · · n, independamment pour tout i = 1 · · ·N• on selectionne un individu ξ i

k−1 au sein de la population(ξ1k−1, · · · , ξ

Nk−1) et selon les poids (w 1

k−1, · · · ,wNk−1)

• on simule une v.a. ξik distribuee selon mik(dx


′)

et on definit

w ik = gk(ξ

ik) /

[N∑

j=1

gk(ξjk)

]

71 / 74


algorithme SIR (sampling with importance resampling), recursif

◮ pour k = 0, independamment pour tout i = 1 · · ·Non simule une v.a. ξi0 distribuee selon η0(dx), et on definit

w i0 = qV0 (Y0 − h0(ξ

i0)) /

[N∑

j=1

qV0 (Y0 − h0(ξj0))

]

◮ pour tout k = 1 · · · n, independamment pour tout i = 1 · · ·N• on selectionne un individu ξ i

k−1 au sein de la population(ξ1k−1, · · · , ξ

Nk−1) et selon les poids (w 1

k−1, · · · ,wNk−1)

• on simule une v.a. W ik distribuee selon pW

k (dw)

• on pose ξik = fk(ξik−1,W

ik)

et on definit

w ik = qVk (Yk − hk(ξ

ik)) /

[N∑

j=1

qVk (Yk − hk(ξjk))

]

72 / 74


en resume, les particules (ξ1k−1, · · · , ξNk−1)

◮ sont selectionnees selon leurs poids respectifs (w1k−1, · · · ,wN

k−1)[etape de selection]

◮ evoluent selon les probabilites de transition Qk(x , dx′) [etape de

mutation]

◮ et sont ponderees en evaluant la fonction de vraisemblance gk[etape de ponderation]

pros : au lieu de s’accumuler le long de chaque trajectoire, les poids sontici utilises pour redistribuer les particulesles particules de plus fort poids sont multipliees et les particules de plusfaible poids sont elimineesen ne conservant a chaque pas de temps que les particules les pluspertinentes, on espere concentrer la puissance de calcul disponible dansles regions d’interet

73 / 74


cons : introduction d’un alea supplementaire, a l’etape dere–echantillonnagesolutions proposees

◮ autres procedures de redistribution / allocation d’un nombre(quasiment) deterministe de descendants a chaque particule

◮ re–echantillonnage adaptatif, seulement quand les poids(w1

k , · · · ,wNk ) sont trop desequilibres

cons : reduction du nombre de positions differentes

◮ degenerescence des positions : en pratique, on compte sur l’etape demutation pour recreer de la diversite

solution proposee

◮ apres l’etape de re–echantillonnage, on deplace d’une petite quantitealeatoire chaque particule selectionnee

74 / 74

cours oroc–sc–fp (3/5) filtrage bay´esien et … · 2017-10-17 · introduction distributions...

Documents