julien diard lpnc-cnrs cours edisce/edmstii - m2r sciences cognitives, « cognition bayésienne »...

Julien Diard — LPNC-CNRSCours EDISCE/EDMSTII - M2R Sciences Cognitives, « Cognition bayésienne » — 2012 1

Cours 5

Julien DiardLaboratoire de Psychologie et NeuroCognition – CNRS

UE Cognition bayésienne18/01/2012

http://diard.wordpress.com [email protected]


Plan des cours1. Introduction à la Programmation Bayésienne :

incomplétude, incertitude2. Programmation bayésienne : exemple détaillé,

Classes de modèles probabilistes3. Distributions usuelles, Programmation

bayésienne des robots4. Modélisation bayésienne de la perception et de

l’action5. Comparaison bayésienne de modèles6. Compléments : inférence, apprentissage,

principe d’entropie


Plan• Résumé + questions !• Comparaison et sélection de modèles

– Cadre général : fit, complexité, capacité de généralisation– Méthodes de validation croisée– Apparté : mesures de distance entre distribution de probabilités

• Sélection bayésienne de modèles– Sélection probabiliste vs. Bayésienne– Tel monsieur Jourdain… un exemple– Apparté : vocabulaire– Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS– Sélection bayésienne de modèles

• Questions ouvertes

• Modélisation de la perception et de l’action– Exemple : boucle perception et action de la lecture et l’écriture

• Modélisation : choix des variables


P Vrot Vtrans px0..px7 lm0..lm7 veille feu obj? eng tach_t -1 td_t -1 tempo tour dir prox dirG proxG vtrans_c dnv mnv mld per

πWatchman

⎛

⎝ ⎜ ⎜

⎞

⎠ ⎟ ⎟

=1Z

P Td Tach

td_t - 1 tempo tour πMoove

⎛

⎝ ⎜

⎞

⎠ ⎟

P Tach

Base

veille feu obj?

eng tach_t - 1

πTask

⎛

⎝

⎜ ⎜ ⎜

⎞

⎠

⎟ ⎟ ⎟

P Base px0...px7

lm0...lm7 πBase

⎛

⎝ ⎜

⎞

⎠ ⎟

⎛

⎝

⎜ ⎜ ⎜ ⎜ ⎜ ⎜

⎞

⎠

⎟ ⎟ ⎟ ⎟ ⎟ ⎟

Base∑

⎛

⎝

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜

⎞

⎠

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟

Tach∑

P ThetaL DistL lm0..lm7 πFusion( )DistL∑

P H prox πHoming( )

P Vrot Vtrans H Td ThetaL

dir prox dirG proxG vtrans_c πWatchman

⎛

⎝ ⎜

⎞

⎠ ⎟

⎛

⎝

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜

⎞

⎠

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟

TdThetaL H

∑ .

• Inférence exacte – sommation, propagation

des incertitudes

• Inférence approximée– décisions intermédiaires

(tirage de points), propagation d’une partie des incertitudes


Modélisation de la

perception• Perception

– Un problème inverse (Poggio, 1984)

• Modèle bayésien– Inversion + hypothèse

d’indépendance conditionnelle–

S1

S2

Sn

V

S1S2Sn

V?

€

P S1S2K SnV | C( )

= P V | C( )P S1 |VC( )P S2 |VC( )K P Sn |VC( )

stimulus

sensations

perception


Humans integrate visual and haptic information in a

statistically optimal fashion

• Mécanisme d’integration visuo-haptique par fusion de gaussiennes

• Utilisé par les humains


Causal inference (Körding et al., 07; Sato et al., 07)

• Y a-t-il une source unique, ou deux sources distinctes ?


Sources


Devinette n° 1

• Quel est le suivant ?– {1, 3, 5, 7, 9, 11, ?}– {1, 1, 2, 3, 5, 8, 13, ?}– {0, 4, 7, 6, 8, 2, 5, 8, 9, ?}


Réponses

– {1, 3, 5, 7, 9, 11, ?} 42– {1, 1, 2, 3, 5, 8, 13, ?} 42– {0, 4, 7, 6, 8, 2, 5, 8, 9, ?} 42


Devinette n° 2

• Combien de méthodes pour définir une relation mathématique ?


• Combien de méthodes pour définir une relation mathématique ?

– Par fonction analytique f• E F• x | f(x)

– Par extension• Ensemble de points• (pas pratique pour un

ensemble infini)


Quelle méthode pour la devinette ?

• Passage de points à une fonction

• Utilisation de la fonction pour prédire le point suivant

≅ Modélisation


Modélisation : méthode

• Définir une classe de modèles M

• Définir une mesure de « qualité »

• Sélectionner le modèle dans M qui maximise la mesure

mod

élis

ati

on data set

set of models set of parameters


Modélisation

• Méthode très générale !– Machine learning

• Réseau de neurone• Algorithmes

génétiques• Apprentissage

bayésien

– Curve fitting– Optimisation– Regression

mod

élis

ati

on data set



Précaution

• Toute l’activité scientifique n’est pas que la modélisation

– Modèle vs. Théorie– Modèle vs. Expérience


Mesures de qualité de modèles• Falsifiability (réfutabilité, pas falsifiabilité !)

– Existe-t-il des observations incompatibles ?

• Explanatory adequacy– Make sense of the data but also of established findings

• Interpretability– Réifiabilité : les paramètres sont liés à d’autres processus

• Faithfulness– La qualité du modèle vient de sa structure, pas de propriétés

du calcul, ni de la simulation

• Goodness of fit• Complexity (or simplicity)• Generalizability

(Karl Popper, La connaissance objective, 1985)(Léna Soler, Introduction à l’épistémologie, 2000)

(Myung, 2003)


Mesures de qualité de fit

• Residual• Pourcentage de la variance

– Percent variance accounted for PVAF

• Root mean square deviation RMSD= root mean square error RMSE


Mesures de qualité de fit

• Correlation coefficient R2

– aka• Pearson’s sample correlation coefficient• Simple correlation coefficient• Cross-correlation coefficient• Product-moment coefficient

• Formes multidimensionnelles– Matricielles– Multiple Correlation Coefficient R


Correlation coefficient


Correlation coefficient

• r = 0.816

• Explorer les données !


Fit vs complexity

• Fit to regularity– Intéressant à

modéliser

• Fit to experimental noise– Pas intéressant


Théorème

• Par n points passe un unique polynôme de degré n-1– n points (ou contraintes)– Polynôme degré n-1 a n paramètres

• f(x) = ax2 + bx + c

• Par deux points passe une unique droite• Par trois points passe une unique

parabole


Théorème• Par n points passe un unique polynôme

de degré n-1

• Idem– développement limité de Taylor– Transformée de Fourier– Somme de noyaux Gaussiens

avec assez de paramètres, on approxime tout


Fit vs complexity

overfitting

underfitting

« sweet spot »


Complexité d’un modèle = Nombre de paramètres + Forme

fonctionnelle

– M1 : y = sin(cos(ax))aexp(-bx)/xb

– M2 : y = axb

– M3 : y = ax + b

a=12b=1


Fonctionnelle de Tikhonov

• Mesure à minimiser– R(M, Δ) = GM(Δ) + λ H(M)

– GM(Δ) mesure de fit

– H(M) mesure de complexité • indépendante de Δ

– λ : poids relatif• Compromis à résoudre : complexity

regularization (central en machine learning)


Generalizability

Fit sur les points observés

Fit sur les points pas encore observés

overfittingunderfitting « sweet spot »


Mesure de generalisation

– Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT

– Mesure de divergence entre distribution de probabilité D

– D(f,g) > D(f,f)=0 si f ≠ g€

E D(M, MT )[ ] = D(P(Δ ˆ θ M),P(Δ MT ))P(Δ MT )dy∫


Mesure de generalisation

• Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT

• MT est évidemment inconnu

€

E D(M,MT )[ ] = D(P(Δ ˆ θ M),P(Δ MT ))P(Δ MT )dy∫


Cross-validation (CV)

• Estimer la généralisation du modèle sans connaître le vrai modèle– Partitionner les données Δ– Identification de

paramètres sur la partie calibration

– Estimation de la capacité de généralisation sur la partie validation


Méthodes de CV• Split-sample, hold-out method• Split-half cross-validation

– Coupe en deux Δ = Δ1, Δ2

– Estime les paramètres sur Δ1

– Calcule l’erreur de prédiction sur Δ2 e1

– Intervertir Δ1, Δ2, recommencer e2

• Validation croisée

– Erreur de prédiction finale : moyenne des erreurs de prédiction (e1 + e2) / 2


Méthodes de CV

• Leave-one-out cross-validation– Découper en n-1 données pour

l’identification, et 1 donnée pour l’erreur de prédiction

– Répéter n fois– Erreur de prédiction moyenne sur les

n étapes


Méthodes de CV

• K-fold cross-validation– K blocs de taille n/K– Données pour l’identification : K-1

blocs (taille n-n/K)– Données pour la prédiction : 1 bloc

(taille n/K)– Idem leave-n/K-out– Choix de K change le résultat


Méthode de CV

• Bootstrapping– Tirage avec replacement

subsamples au lieu de subsets des données

– .632+ bootstrap method• 63,2 % de Δ pour l’identification


Critique de la CV

• Large training set overfitting• Small training set underfitting• Trouver le bon découpage

– même problème que trouver la bonne pondération dans la fonctionnelle de Tikhonov

• Rien résolu (mais facile à coder)


Mesures de distances entre distributions de

probabilités• Déf : Une métrique est une

fonction g non-négative telle que– Inégalité triangulaire g(x,y)+g(y,z) ≥

g(x,z)– Symétrique g(x,y) = g(y,x)– g(x,x) = 0– g(x,y) = 0 => x = y


Mesures de distances entre distributions de

probabilités• Kullback-Leibler

– Distance / divergence de Kullback-Leibler

– KL divergence– Information gain– Relative entropy

• Cross entropy• Mutual information


KL divergence

•

• Pas une mesure de distance– D(p,q) ≠ D(q,p)

• se symétrise Ds(p,q)=Ds(q,p)= (D(p,q)+D(q,p)) /2

– D(p,q) > 0 pour tout p,q

– D(p,q) = 0 ssi pk = qk pour tout k

€

D( p,q) = DKL ( p q) = pk log2

pk

qkk

∑


Cross entropy

• Entropie H(p), cross-entropie H(p,q)

•

• Relation avec la KL divergence€

D( p,q) = H( p,q) = − pk logqk

k

∑

€

DKL ( p q) = pk log2

pk

qkk

∑

DKL ( p q) = H(p,q) − H(p)


Mutual information

•

• mesurée en bits• I(X,Y) = I(Y,X)• I(X,Y) ≥ 0• €

I(X,Y ) = P(xy)log2

P(xy)

P(x)P(y)y∈Y

∑x∈X

∑

€

I(X,Y ) = DKL (P(XY ) P(X)P(Y ))


Notation probabiliste• Soient

– Θ = {θ1, θ2, …} paramètres des modèles

– Δ = {δ1, δ2, …, δn} données expérimentales

– δi = {x, y} une donnée• x condition : var indépendante contrôlée VI• y observation pour cette condition : var dépendante

VD

• Un modèle– –

48


En modélisation probabiliste

• Plusieurs modèles– Espace de paramètres Θ = {θ1, θ2,

…}

– Classe des modèles M = {m1, m2, …}

– Un modèle : P(y | x [Θ = θ1] [M = m1])

• Méta-modèle, modèle hiérarchique–


Méta-modèle


Méta-modèle• Version simplifiée : une seule classe de

modèle


Mesure de comparaison des modèles

• Calculer la probabilité d’un modèle m1, au vu de données expérimentales Δ


• Si P() = uniforme–

• Modèle de maximum de vraisemblance• Maximum Likelihood (MLE)

• Si P() uniforme– Modèle = prior vraisemblance

• Modèle de maximum a posteriori (MAP)• Modèle bayésien

Posterior Prior Vraisemblance


Goodness of fit en probabilités

• Maximiser la vraisemblance •

•


Tel monsieur Jourdain…

• Un phénomène génère des couples di = x,y• Un modèle

– prédit y = F(x), F linéaire, F = ax + b– autorise du « bruit » dans les mesures

• On observe D = {dx1, …, dxn}• Question

– Quels sont les paramètres a, b les plus probables ?

€

p(di Θ) =1

2πσexp −

(di − F(Θ))2

2σ 2

⎛

⎝ ⎜

⎞

⎠ ⎟



€

P Θ | D( )∝ P Θ( ) P di | Θ( )i=1

n

∏

€

p(di Θ) =1

2πσexp −

(di − F(Θ))2

2σ 2

⎛

⎝ ⎜

⎞

⎠ ⎟



€

* = argmaxP Θ | D( )

= argmaxP Θ( )P D | Θ( )

= argmax P di | Θ( )i=1

n

∏

= argmax log P di | Θ( )( )i=1

n

∑ ⎡

⎣ ⎢

⎤

⎦ ⎥

= argmin(di − F(Θ))2

2σ i2

i=1

n

∑ ⎡

⎣ ⎢

⎤

⎦ ⎥

= argmin (di − F(Θ))2

i=1

n

∑ ⎡

⎣ ⎢

⎤

⎦ ⎥

€

P Θ | D( )∝ P Θ( ) P di | Θ( )i=1

n

∏

€

p(di Θ) =1

2π σexp −

(di − F(Θ))2

2σ 2

⎛

⎝ ⎜

⎞

⎠ ⎟


Moindre carrés de l’erreur

• Comme – un Réseau de Neurones &

Backpropagation• (Mitchell 95, p167)

– Une régression linéaire– residual– …


Least square fitting sur Mathworldhttp://mathworld.wolfram.com


Pour aller plus loin…

• Inférence dans les cas non-linéaires

• Moindres carrés Bayésien

• Espace de modèles = {3x+2, 4x3-

2x2+4}

• Priors hiérarchiques– P( | )

• Rasoir d’Occam automatique…

€

P Θ( ) =1

2π σ Θ

exp −(Θ − μ Θ )2

2σ Θ2

⎛

⎝ ⎜

⎞

⎠ ⎟

€

* = arg max P Θ | D( )

= arg max P Θ( )P D | Θ( )

= arg max P Θ( ) P di | Θ( )i =1

n

∏

= arg max log P Θ( )( ) + log P di | Θ( )( )i =1

n

∑ ⎡

⎣ ⎢

⎤

⎦ ⎥

= arg min(Θ − μ Θ )2

2σ Θ2 +

(di − F(Θ))2

2σ i2

i =1

n

∑ ⎡

⎣ ⎢

⎤

⎦ ⎥

= arg min(Θ − μ Θ )2

σ Θ2 +

(di − F(Θ))2

σ i2

i =1

n

∑ ⎡

⎣ ⎢

⎤

⎦ ⎥


Odds, posterior odds, evidence

• Un modèle à 2 cas : – Une hypothèse H, et

€

P(H Δ) =P(H)P(Δ H)

P(Δ)

P(H Δ) =P(H )P(Δ H )

P(Δ)

P(H Δ)

P(H Δ)=

P(H)

P(H )

P(Δ H)

P(Δ H )

€

H



• Odds , log odds (stats)

• Posterior odds

• Odds en bijection avec p

€

O(H Δ) =P(H Δ)

P(H Δ)

€

O(H Δ) = O(H)P(Δ H)

P(Δ H )


• Evidence (en decibels db)

• Evidence en bijection avec p


€

e(H Δ) =10log10 O(H Δ)

e(H Δ) = e(H) +10log10

P(Δ H)

P(Δ H )

e(H Δ) = e(H) +10 log10

P(δ i H)

P(δi H )i

∑


Identification de paramètres vs Sélection de modèles

• Identification de paramètres learning– –

• Sélection de modèle– –


Comparaison de modèles

• Basés sur la vraisemblance– AIC Akaike Information Criterion– BIC Bayesian Information Criterion– MDL Minimum Description Length

– BMS Bayesian Model Selection


AIC

• avec k le nombre de paramètres

• Modèle M qui minimise la mesure AIC• Fonctionnelle de Tikhonov

– AIC = lack of fit + complexity

• Dérive de l’approximation pour de larges ensembles de données de la KL divergence


BIC

• avec – k le nombre de paramètres– n le nombre de données

• Dérive de l’approximation pour de larges ensembles de données de la Bayesian Model Selection


MDL

avec– k le nombre de paramètres– n le nombre de données– I(θ) la matrice d’information de Fisher

• Matrice des espérances des log des dérivées partielles de la vraisemblance selon les dimensions

– |.| le déterminant de la matrice


MDL

•

• Mesure de complexité qui prend en compte la forme fonctionnelle

• Provient de la théorie de l’information– Compression des données Δ par

modèle + déviation


BMS

• • Vraisemblance

–

• Vraisemblance marginale–


Bayesian model selection

•

• Attention– BMS Bayesian model selection– BMS Bootstrap model selection


« vraie » Bayesian model selection

•

• Prior sur M uniforme ou pas• Prior sur les paramètres θ

uniformes ou pas


Bayesian model selection •

• Intégrale sur l’espace des paramètres– MAP si on la fait– méthodes de Monte-Carlo (voire, méthode de

Gibbs (Mitchell 95)) si on tire aléatoirement dans θ pour approximer

• Gibbs sampling• Metropolis-Hastings• Random walk methods

– Approximation du log vraisemblance autour de• BMSL Bayesian Model Selection Laplace approximation

€

ˆ θ


Bayes Factor

• Extension du odds

• Ratio de vraisemblances marginales si prior uniforme sur M– P(M1) = P(M2)€

P(M1 Δ)

P(M2 Δ)=

P(M1)

P(M2)

P(Δ M1)

P(Δ M2)


Bayesian Model Selection

•

– n’a pas la forme d’une fonctionnelle de Tikhonov

– et pourtant, mesure la complexité des M


BMS et mesure de complexité

• « Occam automatique » : intuition

• Si • et P(Δ | θ) concentré autour de

– Alors P(θ2 | Δ) pénalisé par la normalisation sur Θ2 (espace plus grand)

€

P(M1 Δ)

P(M2 Δ)=

P(M1)

P(M2)

P(Δθ1M1)θ 1∫ P(θ1 M1)

P(Δθ2M2)θ 2

∫ P(θ2 M2)

€

1 ⊂Θ2

€

ˆ θ ∈ Θ1


Rasoir d’Occam automatique

MacKay, 03


Question ouverte 1 • Sélectionner un modèle, ok

• Boucle expérimentale – où prendre la prochaine

donnée expérimentale ?– Notion d’expérience cruciale

(discriminante)• Distinguer les modèles

Distinguabilité des modèles– Design optimization– Active learning (active

perception)– Optimal experimental

design– Bayesian model

distinguishability

mod

élis

ati

on data set


?


Question ouverte 2

• Deux problèmes inverses– Perception

• Phénomène = f -1 (stimuli)

– Modélisation• Modèle = f -1 (observations)

• Doit-on conclure que le cerveau construit des modèles comme un scientifique le fait ?

• Le cerveau est-il bayésien ?


Question ouverte 3

• Pourquoi 42 ?


Modélisation du contrôle

• Mouvements de pointage, volontaire, chez l’humain

• Etude des régularités– Lois du mouvement

• Isochronie, loi de Fitts, loi de la puissance 2/3

• Hypothèses sur les mécanismes – Modèles (neuro)cognitifs


Modèles de planification de mouvements

Planification de mouvement =Sélection d’une trajectoire selon un coût


Quelle grandeur manipulée par le système

de contrôle ?

+ free energy principle(Friston 10)+ inactivation principle(Berret 08)+ …


Minimum variance

• Bruit dépendant du signal (signal dependent noise SDN)


Bayesian Decision Theory

• Modèle probabiliste + modèle de coût (reward, cost, loss function)

Prior

Posterior

Likelihood

Cost function

X

X

Bayes theorem Bayesian

decision theory

outputobservation i


• Modélisation bayésienne d’une boucle sensorimotrice : application à l’écriture


Importance des variables cachées


Modélisation d’une série temporelle

t y delta_y dy seuillé81 1,982 1,98 0,08 183 2,01 0,03 184 2,1 0,09 185 2,15 0,05 186 2,14 -0,01 087 2,18 0,04 188 2,18 0 089 2,24 0,06 190 2,33 0,09 191 2,33 0 092 2,33 0 093 2,38 0,05 194 2,32 -0,06 -195 2,28 -0,04 -196 2,26 -0,02 -197 2,19 -0,07 -198 2,14 -0,05 -199 2,16 0,02 1100 2,19 0,03 1101 2,2 0,01 0102 2,23 0,03 1103 2,17 -0,06 -1104 2,14 -0,03 -1105 2,13 -0,01 0


-1 7,00 0,290 6,00 0,251 11,00 0,46


P(y)


Variable cachée V1 = {Bleu, Rouge}

V1=R V1=B



-1 2,00 0,140 4,00 0,291 8,00 0,57

P(y | [V1=R])

-1 5,00 0,500 2,00 0,201 3,00 0,30

P(y | [V1=B])


V2 = {Bleu, Rouge}t y delta_y dy seuillé

81 1,982 1,98 0,08 183 2,01 0,03 184 2,1 0,09 185 2,15 0,05 186 2,14 -0,01 087 2,18 0,04 188 2,18 0 089 2,24 0,06 190 2,33 0,09 191 2,33 0 092 2,33 0 093 2,38 0,05 194 2,32 -0,06 -195 2,28 -0,04 -196 2,26 -0,02 -197 2,19 -0,07 -198 2,14 -0,05 -199 2,16 0,02 1100 2,19 0,03 1101 2,2 0,01 0102 2,23 0,03 1103 2,17 -0,06 -1104 2,14 -0,03 -1105 2,13 -0,01 0

[V1

=R

][V

1=

B]

P(y | [V1=R] [V2=R])

P(y | [V1=R] [V2=B])

P(y | [V1=B] [V2=R])

P(y | [V1=B] [V2=B])


Digression : entropie

• Déf :

• Exemple :

[Shannon, 1948]


• Exemple 2 : P(X), X = {-1, 0, 1}


Variables cachées, connaissance et entropie

• Théorème :Les variables cachées apportent de l’information

P(y | [V1=B] [V2=B])P(y)


Prédiction de la prochaine valeur ?

P(y)

P(y | [V1=B] [V2=B])t y delta_y dy seuillé

81 1,982 1,98 0,08 183 2,01 0,03 184 2,1 0,09 185 2,15 0,05 186 2,14 -0,01 087 2,18 0,04 188 2,18 0 089 2,24 0,06 190 2,33 0,09 191 2,33 0 092 2,33 0 093 2,38 0,05 194 2,32 -0,06 -195 2,28 -0,04 -196 2,26 -0,02 -197 2,19 -0,07 -198 2,14 -0,05 -199 2,16 0,02 1100 2,19 0,03 1101 2,2 0,01 0102 2,23 0,03 1103 2,17 -0,06 -1104 2,14 -0,03 -1105 2,13 -0,01 0


Pour 2007, [V1=B] et [V2=B]


Merci de votre attention !

Questions ?


Distinguabilité des modèles

• Modèle de distinguabilité– Extension du méta-modèle de fit– P(Δ Θ M)

= P(y | x Θ M) P(x | Θ M) P(Θ | M) P(M)


Distinguabilité des modèles

julien diard lpnc-cnrs cours edisce/edmstii - m2r sciences cognitives, « cognition bayésienne »...

Documents

modlisation baysienne

comparaison baysienne

programmation baysienne

probabilits slection

bms slection baysienne

vocabulaire slection

julien diard laboratoire

modles slection probabiliste