apprentissage (ii) mirta b. gordon laboratoire leibniz-imag grenoble dynamique des systèmes...

23
Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes

Upload: felicien-bouvier

Post on 03-Apr-2015

105 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes

Apprentissage (II)

Mirta B. GordonLaboratoire Leibniz-IMAG

Grenoble

Dynamique des systèmes complexes et applications aux SHS :modèles, concepts méthodes

Page 2: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes

mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 2

plan

•c’est quoi ?

•différents types d’apprentissage– supervisé

•les réseaux de neurones – le perceptron– réseaux plus complexes

•quelques résultats de la théorie de l’apprentissage

•différents types d’apprentissage• bayesien• non supervisé

• par renforcement

Page 3: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes

mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 3

classifieur élémentaire : le perceptron

•d’inspiration biologique : « neurone  » élémentaire

•surface discriminante linéaire :

• stabilité d’un exemple : – distance à la surface discriminante

avec signe – si mal classé

x1 x2xNxi

w1 wN

=sgn(w.x)

input :

output : hsgn

xwhN

1iii

xw

w

wwxw

h

0xwquetelsN

1iii

xwx

Page 4: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes

mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 4

commentaire 1

•inspiration biologique : – McCullock et Pitts (1943)

• des unités binaires connectées en cascades peuvent réaliser toutes les fonctions logiques

– Rosenblatt (1962)• une unité binaire peut apprendre à reconnaître des formes :

perceptron

• Minsky et Pappert (1969) : le perceptron n’est pas intéressants : il ne peut faire que des séparations linéaires

– Hopfield (1982)• un réseau d’unités binaires interconnectées avec des poids Jik

données par la règle de Hebb, modèlise une mémoire associative

ki

M

1kiik JJ

Page 5: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes

mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 5

algorithme du perceptron

•on initialise les poids du perceptron

•on parcourt les exemples – si la sortie donnée par le perceptron est incorrecte, on modifie

les poids

– jusqu’à convergence

•convergence assurée seulement si les exemples sont linéairement séparables

•si les exemples sont linéairement séparables : infinité de solutions

xww

)M1(

entrée · sortie

Page 6: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes

mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 6

commentaire 2

•règle de Hebb – modèle de Hopfield :

•algorithme du perceptron :

iii xww

état du neurone de sortie état du neurone d’entrée

ki

M

1kiik JJ

1,1 x MM2211M ,,,,,,,,,L xxxx

Mk

Miki

2k

2i

1k

1iM ,,,,,,,,,L

wi

i kJik

i

Page 7: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes

mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 7

exemples non séparables linéairement

•problème : – l’algorithme du perceptron ne converge pas– les autres algorithmes convergent mais souvent vers des

solutions « non intéressantes » (trop d’exemples mal classés)

•deux solutions :

•« classiques » : réseaux en couches

•« moderne » :Support Vector Machines

Page 8: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes

solution classique :perceptron multicouche

Page 9: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes

mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 9

perceptrons binaires « cachés »

•réseau en couches avec unités binaires

•permet de représenter des surfaces discriminantes plus complexes

•méthode constructive : – on rajoutte des perceptrons cachés un à un : plusieurs

heuristiques

x1 x2 xNxi

w1

w2w3

x1

x2

++

+ -

-

couche cachée

représentations internes

Page 10: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes

mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 10

apprentissage d’une fonction réelle

•LM = { (xy) }1≤≤M,

x=(x1, x

2, …, xN) ; y R

•neurones cachés à valeurs réelles

•peut apprendre toute fonction continue des entrées– à condition que le nombre de neurones cachés soit suffisant

•apprentissage : "error backpropagation" – minimisation de l’écart quadratique :

•problèmes : – beaucoup de minima locaux : qualité de la solution ?– nombre de neurones cachés : par tâtonnement

x1 x2 xNxi

w1

w2w3

couche cachée

=tanh(w.x)

2

M tanhy21

L,E xww

Page 11: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes

solution « moderne »Machines à Vecteurs Support (SVM)

Page 12: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes

mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 12

•marge : distance à la surface discriminante de l’exemple le plus proche

perceptron de marge maximale

2

Page 13: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes

mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 13

Support Vector Machines (SVM)

•application de l'espace des entrées x vers un espace de plus grande dimension (feature space)

•Support Vector Machine = perceptron de marge maximale dans le feature space

•algorithmes efficaces

•exemple: 2x,xxx

0,0

0,0

2d featurespace

1d inputspace

x

x2

)x,x(x 2

x

xx

Page 14: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes

mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 14

théorie de l’apprentissage

•question fondamentale :– est-ce que minimiser le nombre d’erreurs garantit qu’on

minimise la probabilité de mal classer de nouvelles données ?g : erreur de généralisation (de prédiction) -> probabilité de

faire une erreur de classification sur des entrées autres que les exemples

•réponse : – oui, à condition que le nombre d’exemples M soit supérieur à la

capacité du réseau

•capacité ≈ nombre maximum d’exemples que l’on peut apprendre sans erreurs, quels que soient les exemples

– proportionnelle au nombre de paramètres à déterminer– perceptron ≈ 2N où N est le nombre de poids = dimension des

entrées

Page 15: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes

mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 15

erreur de prédiction

•tâches de classification réalisables et non réalisables :– pour un perceptron : réalisable -> séparable linéairement

•comment varie g en fonction du nombre d’exemples ?– tâche réalisable :

•le meilleur algorithme : Bayes (b ≈ 0.5)

MN

bb

NMg

g

0.5

0

0.2

0.1

0.3

0.4

2 4 60

coeff qui dépend de l’algorithme

Page 16: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes

inférence bayesienne

Page 17: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes

mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 17

règle de Bayes

•probabilités apabpbpbapb,ap

b

ap(a)

p(b)

p(a,b)

p(a)

p(b|a)

p(b)

p(a|b)

bp

apabpbap

Page 18: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes

mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 18

inférence bayesienne

•inférence = apprentissage– modifier les hypothèses en fonction des données (exemples)

•cadre probabiliste :– on se donne un modèle des données

• perceptron le problème est linéairement séparable

– probabilité a priori des paramètres du modèle• en absence de toute autre information : equiprobabilité

tous les poids w ont la même probabilité

•LM = { (x) }1≤≤M

•on utilise les exemples pour calculer la probabilité a posteriori des poids avec la règle de Bayes

Page 19: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes

mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 19

inférence des poids d’un perceptron

•formule de Bayes :

•a priori :

•modèle des données – paramétré par les poids w

M

0MM Lp

wpwLpLwp

p(w)p0(w)

autrement0

classésbientoussi1wLp M

ctewp0

Page 20: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes

mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 20

probabilité des poids a posteriori

M

0MM Lp

wpwLpLwp

hyperplans compatibles avec LM

probabilité a posteriori cte > 0

autrement0

classésbientoussi1wLp M

p0(w)a priori : p0(w)

p(w|LM)

probabilité a posteriori = 0

Page 21: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes

mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 21

classifieur bayesien optimal

•comment classer la nouvelle entrée ?– on classe comme la moyenne pondérée des poids (pondérée par

la probabilité a posteriori)– dans notre cas : poids équiprobables règle de la majorité

p(w)p0(w)

p(w|LM)

perceptron optimal

Page 22: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes

mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 22

inférence bayesienne : résumé

M

0MM Lp

wpwLpLwp

hypothèse a priorivraisemblance des données

paramètres a posteriori(compatibles avec LM)

Page 23: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes

fin deuxième cours