apprentissage (ii) mirta b. gordon laboratoire leibniz-imag grenoble dynamique des systèmes...
TRANSCRIPT
Apprentissage (II)
Mirta B. GordonLaboratoire Leibniz-IMAG
Grenoble
Dynamique des systèmes complexes et applications aux SHS :modèles, concepts méthodes
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 2
plan
•c’est quoi ?
•différents types d’apprentissage– supervisé
•les réseaux de neurones – le perceptron– réseaux plus complexes
•quelques résultats de la théorie de l’apprentissage
•différents types d’apprentissage• bayesien• non supervisé
• par renforcement
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 3
classifieur élémentaire : le perceptron
•d’inspiration biologique : « neurone » élémentaire
•surface discriminante linéaire :
• stabilité d’un exemple : – distance à la surface discriminante
avec signe – si mal classé
x1 x2xNxi
w1 wN
=sgn(w.x)
input :
output : hsgn
xwhN
1iii
xw
w
wwxw
h
0xwquetelsN
1iii
xwx
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 4
commentaire 1
•inspiration biologique : – McCullock et Pitts (1943)
• des unités binaires connectées en cascades peuvent réaliser toutes les fonctions logiques
– Rosenblatt (1962)• une unité binaire peut apprendre à reconnaître des formes :
perceptron
• Minsky et Pappert (1969) : le perceptron n’est pas intéressants : il ne peut faire que des séparations linéaires
– Hopfield (1982)• un réseau d’unités binaires interconnectées avec des poids Jik
données par la règle de Hebb, modèlise une mémoire associative
ki
M
1kiik JJ
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 5
algorithme du perceptron
•on initialise les poids du perceptron
•on parcourt les exemples – si la sortie donnée par le perceptron est incorrecte, on modifie
les poids
– jusqu’à convergence
•convergence assurée seulement si les exemples sont linéairement séparables
•si les exemples sont linéairement séparables : infinité de solutions
xww
)M1(
entrée · sortie
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 6
commentaire 2
•règle de Hebb – modèle de Hopfield :
•algorithme du perceptron :
iii xww
état du neurone de sortie état du neurone d’entrée
ki
M
1kiik JJ
1,1 x MM2211M ,,,,,,,,,L xxxx
Mk
Miki
2k
2i
1k
1iM ,,,,,,,,,L
wi
i kJik
i
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 7
exemples non séparables linéairement
•problème : – l’algorithme du perceptron ne converge pas– les autres algorithmes convergent mais souvent vers des
solutions « non intéressantes » (trop d’exemples mal classés)
•deux solutions :
•« classiques » : réseaux en couches
•« moderne » :Support Vector Machines
solution classique :perceptron multicouche
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 9
perceptrons binaires « cachés »
•réseau en couches avec unités binaires
•permet de représenter des surfaces discriminantes plus complexes
•méthode constructive : – on rajoutte des perceptrons cachés un à un : plusieurs
heuristiques
x1 x2 xNxi
w1
w2w3
x1
x2
++
+ -
-
couche cachée
représentations internes
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 10
apprentissage d’une fonction réelle
•LM = { (xy) }1≤≤M,
x=(x1, x
2, …, xN) ; y R
•neurones cachés à valeurs réelles
•peut apprendre toute fonction continue des entrées– à condition que le nombre de neurones cachés soit suffisant
•apprentissage : "error backpropagation" – minimisation de l’écart quadratique :
•problèmes : – beaucoup de minima locaux : qualité de la solution ?– nombre de neurones cachés : par tâtonnement
x1 x2 xNxi
w1
w2w3
couche cachée
=tanh(w.x)
2
M tanhy21
L,E xww
solution « moderne »Machines à Vecteurs Support (SVM)
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 12
•marge : distance à la surface discriminante de l’exemple le plus proche
perceptron de marge maximale
2
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 13
Support Vector Machines (SVM)
•application de l'espace des entrées x vers un espace de plus grande dimension (feature space)
•Support Vector Machine = perceptron de marge maximale dans le feature space
•algorithmes efficaces
•exemple: 2x,xxx
0,0
0,0
2d featurespace
1d inputspace
x
x2
)x,x(x 2
x
xx
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 14
théorie de l’apprentissage
•question fondamentale :– est-ce que minimiser le nombre d’erreurs garantit qu’on
minimise la probabilité de mal classer de nouvelles données ?g : erreur de généralisation (de prédiction) -> probabilité de
faire une erreur de classification sur des entrées autres que les exemples
•réponse : – oui, à condition que le nombre d’exemples M soit supérieur à la
capacité du réseau
•capacité ≈ nombre maximum d’exemples que l’on peut apprendre sans erreurs, quels que soient les exemples
– proportionnelle au nombre de paramètres à déterminer– perceptron ≈ 2N où N est le nombre de poids = dimension des
entrées
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 15
erreur de prédiction
•tâches de classification réalisables et non réalisables :– pour un perceptron : réalisable -> séparable linéairement
•comment varie g en fonction du nombre d’exemples ?– tâche réalisable :
•le meilleur algorithme : Bayes (b ≈ 0.5)
MN
bb
NMg
g
0.5
0
0.2
0.1
0.3
0.4
2 4 60
coeff qui dépend de l’algorithme
inférence bayesienne
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 17
règle de Bayes
•probabilités apabpbpbapb,ap
b
ap(a)
p(b)
p(a,b)
p(a)
p(b|a)
p(b)
p(a|b)
bp
apabpbap
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 18
inférence bayesienne
•inférence = apprentissage– modifier les hypothèses en fonction des données (exemples)
•cadre probabiliste :– on se donne un modèle des données
• perceptron le problème est linéairement séparable
– probabilité a priori des paramètres du modèle• en absence de toute autre information : equiprobabilité
tous les poids w ont la même probabilité
•LM = { (x) }1≤≤M
•on utilise les exemples pour calculer la probabilité a posteriori des poids avec la règle de Bayes
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 19
inférence des poids d’un perceptron
•formule de Bayes :
•a priori :
•modèle des données – paramétré par les poids w
M
0MM Lp
wpwLpLwp
p(w)p0(w)
autrement0
classésbientoussi1wLp M
ctewp0
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 20
probabilité des poids a posteriori
M
0MM Lp
wpwLpLwp
hyperplans compatibles avec LM
probabilité a posteriori cte > 0
autrement0
classésbientoussi1wLp M
p0(w)a priori : p0(w)
p(w|LM)
probabilité a posteriori = 0
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 21
classifieur bayesien optimal
•comment classer la nouvelle entrée ?– on classe comme la moyenne pondérée des poids (pondérée par
la probabilité a posteriori)– dans notre cas : poids équiprobables règle de la majorité
p(w)p0(w)
p(w|LM)
perceptron optimal
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 22
inférence bayesienne : résumé
M
0MM Lp
wpwLpLwp
hypothèse a priorivraisemblance des données
paramètres a posteriori(compatibles avec LM)
fin deuxième cours