apprentissage (ii) mirta b. gordon laboratoire leibniz-imag grenoble dynamique des systèmes...

Apprentissage (II)

Mirta B. GordonLaboratoire Leibniz-IMAG

Grenoble

Dynamique des systèmes complexes et applications aux SHS :modèles, concepts méthodes

mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 2

plan

•c’est quoi ?

•différents types d’apprentissage– supervisé

•les réseaux de neurones – le perceptron– réseaux plus complexes

•quelques résultats de la théorie de l’apprentissage

•différents types d’apprentissage• bayesien• non supervisé

• par renforcement


classifieur élémentaire : le perceptron

•d’inspiration biologique : « neurone » élémentaire

•surface discriminante linéaire :

• stabilité d’un exemple : – distance à la surface discriminante

avec signe – si mal classé

x1 x2xNxi

w1 wN

=sgn(w.x)

input :

output : hsgn

xwhN

1iii

xw

w

wwxw

h

0xwquetelsN

1iii

xwx


commentaire 1

•inspiration biologique : – McCullock et Pitts (1943)

• des unités binaires connectées en cascades peuvent réaliser toutes les fonctions logiques

– Rosenblatt (1962)• une unité binaire peut apprendre à reconnaître des formes :

perceptron

• Minsky et Pappert (1969) : le perceptron n’est pas intéressants : il ne peut faire que des séparations linéaires

– Hopfield (1982)• un réseau d’unités binaires interconnectées avec des poids Jik

données par la règle de Hebb, modèlise une mémoire associative

ki

M

1kiik JJ


algorithme du perceptron

•on initialise les poids du perceptron

•on parcourt les exemples – si la sortie donnée par le perceptron est incorrecte, on modifie

les poids

– jusqu’à convergence

•convergence assurée seulement si les exemples sont linéairement séparables

•si les exemples sont linéairement séparables : infinité de solutions

xww

)M1(

entrée · sortie


commentaire 2

•règle de Hebb – modèle de Hopfield :

•algorithme du perceptron :

iii xww

état du neurone de sortie état du neurone d’entrée

ki

M

1kiik JJ

1,1 x MM2211M ,,,,,,,,,L xxxx

Mk

Miki

2k

2i

1k

1iM ,,,,,,,,,L

wi

i kJik

i


exemples non séparables linéairement

•problème : – l’algorithme du perceptron ne converge pas– les autres algorithmes convergent mais souvent vers des

solutions « non intéressantes » (trop d’exemples mal classés)

•deux solutions :

•« classiques » : réseaux en couches

•« moderne » :Support Vector Machines

solution classique :perceptron multicouche


perceptrons binaires « cachés »

•réseau en couches avec unités binaires

•permet de représenter des surfaces discriminantes plus complexes

•méthode constructive : – on rajoutte des perceptrons cachés un à un : plusieurs

heuristiques

x1 x2 xNxi

w1

w2w3

x1

x2

++

+ -

-

couche cachée

représentations internes


apprentissage d’une fonction réelle

•LM = { (xy) }1≤≤M,

x=(x1, x

2, …, xN) ; y R

•neurones cachés à valeurs réelles

•peut apprendre toute fonction continue des entrées– à condition que le nombre de neurones cachés soit suffisant

•apprentissage : "error backpropagation" – minimisation de l’écart quadratique :

•problèmes : – beaucoup de minima locaux : qualité de la solution ?– nombre de neurones cachés : par tâtonnement

x1 x2 xNxi

w1

w2w3

couche cachée

=tanh(w.x)

2

M tanhy21

L,E xww

solution « moderne »Machines à Vecteurs Support (SVM)


•marge : distance à la surface discriminante de l’exemple le plus proche

perceptron de marge maximale

2


Support Vector Machines (SVM)

•application de l'espace des entrées x vers un espace de plus grande dimension (feature space)

•Support Vector Machine = perceptron de marge maximale dans le feature space

•algorithmes efficaces

•exemple: 2x,xxx

0,0

0,0

2d featurespace

1d inputspace

x

x2

)x,x(x 2

x

xx


théorie de l’apprentissage

•question fondamentale :– est-ce que minimiser le nombre d’erreurs garantit qu’on

minimise la probabilité de mal classer de nouvelles données ?g : erreur de généralisation (de prédiction) -> probabilité de

faire une erreur de classification sur des entrées autres que les exemples

•réponse : – oui, à condition que le nombre d’exemples M soit supérieur à la

capacité du réseau

•capacité ≈ nombre maximum d’exemples que l’on peut apprendre sans erreurs, quels que soient les exemples

– proportionnelle au nombre de paramètres à déterminer– perceptron ≈ 2N où N est le nombre de poids = dimension des

entrées


erreur de prédiction

•tâches de classification réalisables et non réalisables :– pour un perceptron : réalisable -> séparable linéairement

•comment varie g en fonction du nombre d’exemples ?– tâche réalisable :

•le meilleur algorithme : Bayes (b ≈ 0.5)

MN

bb

NMg

g

0.5

0

0.2

0.1

0.3

0.4

2 4 60

coeff qui dépend de l’algorithme

inférence bayesienne


règle de Bayes

•probabilités apabpbpbapb,ap

b

ap(a)

p(b)

p(a,b)

p(a)

p(b|a)

p(b)

p(a|b)

bp

apabpbap


inférence bayesienne

•inférence = apprentissage– modifier les hypothèses en fonction des données (exemples)

•cadre probabiliste :– on se donne un modèle des données

• perceptron le problème est linéairement séparable

– probabilité a priori des paramètres du modèle• en absence de toute autre information : equiprobabilité

tous les poids w ont la même probabilité

•LM = { (x) }1≤≤M

•on utilise les exemples pour calculer la probabilité a posteriori des poids avec la règle de Bayes


inférence des poids d’un perceptron

•formule de Bayes :

•a priori :

•modèle des données – paramétré par les poids w

M

0MM Lp

wpwLpLwp

p(w)p0(w)

autrement0

classésbientoussi1wLp M

ctewp0


probabilité des poids a posteriori

M

0MM Lp

wpwLpLwp

hyperplans compatibles avec LM

probabilité a posteriori cte > 0

autrement0

classésbientoussi1wLp M

p0(w)a priori : p0(w)

p(w|LM)

probabilité a posteriori = 0


classifieur bayesien optimal

•comment classer la nouvelle entrée ?– on classe comme la moyenne pondérée des poids (pondérée par

la probabilité a posteriori)– dans notre cas : poids équiprobables règle de la majorité

p(w)p0(w)

p(w|LM)

perceptron optimal


inférence bayesienne : résumé

M

0MM Lp

wpwLpLwp

hypothèse a priorivraisemblance des données

paramètres a posteriori(compatibles avec LM)

fin deuxième cours

apprentissage (ii) mirta b. gordon laboratoire leibniz-imag grenoble dynamique des systèmes...

Documents