1 les réseaux connexionnistes plan les réseaux...

1!A. Cornuéjols!Les réseaux connexionnistes!

Les réseaux connexionnistes

Antoine Cornuéjols "

([email protected]) "

AgroParisTech "


Plan!

1.  Introduction 2.  Le perceptron 3.  Le perceptron multi-couches (PMC) 4.  Apprentissage dans les PMC 5.  Aspects calculatoires 6.  Aspects méthodologiques de l’apprentissage 7.  Applications 8.  Développements et perspectives 9.  Conclusions


Plan!

1.  Introduction 2.  Le perceptron 3.  Le perceptron multi-couches (PMC) 4.  Apprentissage dans les PMC 5.  Aspects calculatoires 6.  Aspects méthodologiques de l’apprentissage 7.  Applications 8.  Développements et perspectives 9.  Conclusions


Introduction : Pourquoi les réseaux de neurones ?!

•  Inspiration biologique !  Le cerveau naturel : un modèle très séduisant

–  Robuste et tolérant aux fautes –  Flexible. Facilement adaptable

–  S’accommode d’informations incomplètes, incertaines, vagues, bruitées ...

–  Massivement parallèle

–  Capable d’apprentissage

!  Neurones

–  ! 1011 neurones dans le cerveau humain

–  ! 104 connexions (synapses + axones) / neurone –  Potentiel d’action / période réfractaire / neuro-transmetteurs

–  Signaux excitateurs / inhibiteurs


Introduction : Pourquoi les réseaux de neurones ?!

•  Les attraits pratiques

!  Calculs parallélisables

!  Implantables directement sur circuits dédiés

!  Robustes et tolérants aux fautes (calculs et représentations distribués)

!  Algorithmes simples

!  D’emploi très général

•  Les défauts

!  Opacité des “raisonnements”

!  et des résultats d’apprentissage


Bref historique!

!  Prémisses

–  Mc Culloch & Pitts (1943) : 1er modèle de neurone formel. Rapport neurone et calcul logique : base de l’intelligence artificielle.

–  Règle de Hebb (1949) : apprentissage par renforcement du couplage synaptique

!  Premières réalisations

–  ADALINE (Widrow-Hoff, 1960)

–  PERCEPTRON (Rosenblatt, 1958-1962)

–  Analyse de Minsky & Papert (1969)

!  Nouveaux modèles : the 80s

–  Kohonen (apprentissage compétitif), ...

–  Hopfield (1982) (réseau bouclé)

–  Perceptron Multi-Couches (1985)

!  The new millenium

–  Deep belief networks

–  Reservoir computing


Le perceptron !!  Rosenblatt (1958-1962)


Plan!

1.  Introduction

2. Le perceptron 3.  Le perceptron multi-couches (PMC) 4.  Apprentissage dans les PMC 5.  Aspects calculatoires 6.  Aspects méthodologiques de l’apprentissage 7.  Applications 8.  Développements et perspectives 9.  Conclusions


Discrimination linéaire : le Perceptron!

[Rosenblatt, 1957,1962]!


Le Perceptron Multi-Couches : propagation!

g(a) = 11 + e! a

yl = g wjk ! jj= 0, d"

#

$ %

&

' ( = g(ak )

Fonction à base radiale

Fonction sigmoïde

Fonction à seuil

Fonction à rampe

Activation ai

Sortie zi

+1

+1

+1

g’(a) = g(a)(1-g(a))!


Capacité expressive : Séparations linéaires!12!A. Cornuéjols!Les réseaux connexionnistes!

Capacité expressive : Séparations linéaires!


Plan!

1.  Introduction 2.  Le perceptron

3. Le perceptron multi-couches (PMC) 4.  Apprentissage dans les PMC 5.  Aspects calculatoires 6.  Aspects méthodologiques de l’apprentissage 7.  Applications 8.  Développements et perspectives 9.  Conclusions


Les réseaux de neurones : Types de réseaux!

•  Interconnecté à boucles (e.g. réseau de Hopfield) !  Fonctionnement

en reconnaissance

!  Apprentissage ?


Modèles de base : le Perceptron Multi-Couches!

•  Topologie typique!


Le Perceptron Multi-Couches : exemple du XOR!


Exemple de réseau (simulateur JavaNNS)!18!A. Cornuéjols!Les réseaux connexionnistes!

Exemple de solution trouvée par un RN!

!"#$%&'()*(+,'(-)&./)0()*(#(-1$%&'(+2)34--(4--154#/)0(

%6)7&'$(108)&8109(-:0+,'/4(;#+#(.-109(#(0'.6#&(0'+2)6


Définition formelle du problème!22!A. Cornuéjols!Les réseaux connexionnistes!

L’objectif de l’induction!

R(h) = l h(x), u( ) dP(x, y)X!Y"

Étiquette !prédite!

Étiquette vraie!(ou désirée)!

Loi de probabilité!jointe sur X ! Y!


Exemples de fonctions de pertes!

•  Discrimination!

•  Régression!

•  Estimation de densité!

l (h(xi), ui) = 0 si ui = h(xi )1 si ui ! h(xi )" # $

l (h(xi), ui) = h(xi) ! ui[ ]2

l (h(xi)) = ! ln h(xi)


Les grands principes inductifs!


Le principe inductif ERM!

REmp(h) = l h(xi ), ui( )i = 1

m

!

R(h) = l h(x), u( ) dP(x, y)X!Y"


Le PMC : l’apprentissage !

•  Trouver des poids permettant au réseau de réaliser une relation entrée-sortie spécifiée par des exemples de cette relation

(Toujours le problème de la généralisation)

•  Apprentissage : !  Minimiser la fonction de coût E(w,{xl,ul}) en fonction du paramètre w

!  Utiliser pour ceci une méthode de descente de gradient

(algorithme de rétro-propagation de gradient)

!  Principe inductif : On fait alors l’hypothèse que ce qui marche sur les exemples (minimisation du risque empirique), marche sur des données non vues (minimisation du risque réel)

!wij " #$E $wij


L’apprentissage : descente de gradient!•  Apprentissage = recherche dans l’espace multidimensionnel des paramètres (poids

synaptiques) en vue de minimiser la fonction de coût

•  Quasi totalité des règles d’apprentissage pour les RNs

= méthode de descente de gradient !  Solution optimale w* tq. :

wij(!+1) = wij

(! ) " # $E$wij w(! )

E(!+1) = E(! ) " #wE

!E(w* ) = 0

! = ""w1

,""w2

, ...,""wN

#

$ %

&

' (

T


Le Perceptron Multi-Couches : apprentissage!

Objectif :

!  Algorithme (rétro-propagation de gradient) : descente de gradient

Algorithme itératif :

Cas hors-ligne (gradient total) :

où :

Cas en-ligne (gradient stochastique) :

w( t ) = w( t!1) ! "# Ew(t )

wij (t) = wij (t !1)!"(t)1m

#RE (xk ,w)#wijk=1

m

$

wij (t) = wij (t !1)!"(t)#RE(xk,w)

#wij

RE(xk,w) = [tk ! f (xk ,w)]2

!

w * = argminw

1m

y(xl ; w) " u(xl )[ ]2

l=1

m

#


Le Perceptron Multi-Couches : apprentissage!

1. Présentation d’un exemple parmi l’ensemble d’apprentissage

Séquentielle, aléatoire, en fonction d’un critère donné

2. Calcul de l’état du réseau

3. Calcul de l’erreur = fct(sortie - sortie désirée) (e.g. = (yl - ul)2)

4. Calcul des gradients

Par l’algorithme de rétro-propagation de gradient

5. Modification des poids synaptiques

6. Critère d’arrêt

Sur l’erreur. Nombre de présentation d’exemples, ...

7. Retour en 1


PMC : La rétro-propagation de gradient!

•  Le problème : Détermination des responsabilités (“credit assignment problem”) Quelle connexion est responsable, et de combien, de l’erreur E ?

•  Principe : Calculer l’erreur sur une connexion en fonction de l’erreur sur la couche suivante

•  Deux étapes : 1. Evaluation des dérivées de l’erreur par rapport aux poids

2. Utilisation de ces dérivées pour calculer la modification de chaque poids


1. Evaluation de l’erreur Ej (ou E) due à chaque connexion :

Idée : calculer l’erreur sur la connexion wji en fonction de l’erreur après la cellule j

!  Pour les cellules de la couche de sortie :

!  Pour les cellules d’une couche cachée :

PMC : La rétro-propagation de gradient!! El

! wij

!k = " El

" ak = g' (ak )

" El

" yk = g' (ak ) # uk(xl) $ yk( )

! j = " El

" aj =

" El

" ak

" ak" ajk

# = ! k " ak" zj

" zj" ajk

# = g' (aj ) $ wjk !kk#

! El

! wij =

! El

! aj ! aj! wij

= " j zi


PMC : La rétro-propagation de gradient! ai : activation de la cellule i

zi : sortie de la cellule i

!i : erreur attachée à la cellule i

w!ij! j!i! k!y!k!

Cellule de sortie!Cellule cachée!

"#k!

a!k!a!j!

"#j!w!jk!

z!j!z!i!



•  2. Modification des poids

!  On suppose gradient à pas (constant ou non ): $(t)!

!  Si apprentissage stochastique (après présentation de chaque exemple)

!  Si apprentissage total (après présentation de l’ensemble des exemples)

! wji = "(t)# j ai

! wji = "(t) # jn ai

n

n$


Le PMC : passes avant et arrière (résumé)!

x!

ai(x) = wjxj

j=1

d

! +w0yi(x) = g(ai(x))

ys (x) = wjsyjj=1

k

!ys(x)!

wis!

k neurones sur la!couche cachée!

. . .x1 x2 x3 xd

w1 w2 w3wd

yi(x)

x0

w0Biais

. . .y (x)1


Le PMC : passes avant et arrière (résumé)!

x!

ys(x)!

wis!

.! .! .!x!1! x!2! x!3! x!d!

w!1! w!2! w!3! w!d!

y!i!(!x!)!

x!0!w!0!

B!i!a!i!s!

.! .! .!y!(!x!)!1!

!s = g' (as ) (us"ys )

! j = g' (aj ) wjs! scellules scouchesuivante

"

wis(t +1) = wis(t) ! "(t)# sai

wei (t +1) = wei(t) ! "(t )# iae



•  Efficacité en apprentissage

!  En O(w) pour chaque passe d’apprentissage, w = nb de poids

!  Il faut typiquement plusieurs centaines de passes (voir plus loin)

!  Il faut typiquement recommencer plusieurs dizaines de fois un apprentissage en

partant avec différentes initialisations des poids

•  Efficacité en reconnaissance !  Possibilité de temps réel


Illustration!38!A. Cornuéjols!Les réseaux connexionnistes!

Illustration!



Illustration!



Illustration!


Applications : la discrimination!

•  1 neurone de sortie !  {0,1}

!  [0,1]

–  Erreur quadratique

!  Probabilité [0,1]

–  Critère entropique

•  Exemple :!!  Mines cylindriques / roches "

(http://www.ics.uci.edu/mlearn/MLRepository.html)!

. . .x1 x2 x3 xd

w1 w2 w3wd

x0

w0Biais

. . .


Applications : la discrimination multiclasse!

•  c-1 problèmes de discrimination

•  1 neurone de sortie !  {0,1, …, c}

!  [0,1]

•  n (! c) neurones de sortie !  1 neurone / classe

!  Code correcteur d’erreur

Exemple :!

!  Reconnaissance de caractères manuscrits!

!  Reconnaissance de locuteurs!

. . .x1 x2 x3 xd

w1 w2 w3wd

yi(x)

x0

w0Biais

. . .y (x)1

x!

y(x)!


Discrimination linéaire : le Perceptron!46!A. Cornuéjols!Les réseaux connexionnistes!


Discrimination contre tous les autres!



Discrimination entre deux classes!


Applications : optimisation multi-objectif!

•  cf [Tom Mitchell] !  prédire à la fois la classe et la couleur

!  plutôt que la classe seulement.


Rôle de la couche cachée!50!A. Cornuéjols!Les réseaux connexionnistes!

Rôle de la couche cachée!


Rôle de la couche cachée!52!A. Cornuéjols!Les réseaux connexionnistes!

PMC : Les applications!

•  Automatique : identification et contrôle de processus (e.g. Commande de robot)

•  Traitement du signal (filtrage, compression de données, traitement de la parole (Identification du locuteur, ...)

•  Traitement d’images, reconnaissance des formes (reconnaissance de l’écriture manuscrite, Lecture automatique des codes postaux (Zip codes, USA), ...)

•  Prédiction (consommations d’eau, d’électricité, météorologie, bourse, ...)

•  Diagnostic (industrie, médecine, science, ...)


Application aux codes postaux (Zip codes)!

•  [Le Cun et al., 1989, ...] (ATT Bell Labs : très forte équipe)

•  ! 10000 exemples de chiffres manuscrits

•  Segmentés et redimensionnés sur matrice 16 x 16

•  Technique des poids partagés (“weight sharing”)

•  Technique du optimal brain damage

•  99% de reconnaissance correcte (sur l’ensemble d’apprentissage)

•  9% de rejet (pour reconnaissance humaine)


La base de données!


Application aux codes postaux (Zip codes)!56!A. Cornuéjols!Les réseaux connexionnistes!

Les erreurs commises!


La régression!58!A. Cornuéjols!Les réseaux connexionnistes!

Un échec : QSAR!

•  Quantitative Structure Activity Relations!

Prédire certaines propriétés de molécules (par exemple activité biologique) à partir de descriptions :!-  chimiques!-  géométriques!-  éléctriques!


Plan!

1.  Introduction 2.  Le perceptron 3.  Le perceptron multi-couches (PMC) 4.  Apprentissage dans les PMC

5. Aspects calculatoires 6.  Aspects méthodologiques de l’apprentissage 7.  Applications 8.  Développements et perspectives 9.  Conclusions


PMC : Mise en pratique (1)!•  Problèmes techniques :

comment améliorer la performance de l’algorithme !  Le PMC en tant que méthode d’optimisation : variantes

•  Ajout d’un moment •  Méthodes du 2° ordre •  Hessien •  Gradients conjugués

!  Heuristiques •  Apprentissage séquentiel vs en mode batch •  Choix de la fonction d’activation •  Normalisation des entrées •  Initialisation des poids •  Les gains d’apprentissage


PMC : La rétro-propagation de gradient (variantes)!

•  Ajout d’un moment

! wji (t +1) = " #$ E$ wji

+ % !wji(t)


Convergence!

•  Réglage du pas d’apprentissage : $!


PMC : Problèmes de convergence!

•  Minimums locaux. “Ravins”. etc. !  Ajout d’un terme de moment (inertie)

!  Conditionnement des variables

!  Bruiter les données d’apprentissage

!  Algorithme stochastique (vs. total)

!  Un pas de gradient variable (dans le temps et pour chaque cellule)

!  Utilisation de la dérivée seconde (Hessien). Gradient conjugué.


PMC : Problèmes de convergence (gradients variables)!

•  Gain adaptatif !  si le gradient ne change pas de signe, sinon

!  Gain beaucoup plus faible en stochastique qu’en gradient total

!  Gain propre à chaque couche (e.g. 1 / (# entrées cellule)1/2 )

•  Algorithmes plus complexes !  Gradients conjugués

–  Idée : Essayer de minimiser indépendamment sur chaque axe, en utilisant un moment sur la direction de recherche

!  Méthodes de second ordre (Hessien)

"  Diminuent le nombre de pas mais augmentent le temps calcul.


Plan!

1.  Introduction 2.  Le perceptron 3.  Le perceptron multi-couches (PMC) 4.  Apprentissage dans les PMC 5.  Aspects calculatoires

6. Aspects méthodologiques de l’apprentissage 7.  Applications 8.  Développements et perspectives 9.  Conclusions


Le sur-apprentissage!


Le problème de la sélection de modèle!68!A. Cornuéjols!Les réseaux connexionnistes!

Contrôle de H : régularisation!

•  Principe : limiter l’expressivité de H !

•  Nouveau risque empirique :

•  Exemples de régularisateurs utilisés : –  Contrôle de l’architecture du RN

–  Contrôle des paramètres •  Soft-weight sharing •  Weight decay •  Réseaux à convolution

–  Exemples bruités

Remp (!) = 1m

L(h (xl ,! ),u ll=1

m

" ) + # $[h(. ,! )]Terme de pénalisation!


Contrôle par limite de l’exploration effective de H !

•  Règle de l’arrêt prématuré

•  Weight decay


Généralisation : optimiser la structure d’un réseau!

•  Par croissance progressive

!  Cascade correlation [Fahlman,1990]

•  Par élagage

!  Optimal brain damage [Le Cun,1990]

!  Optimal brain surgeon [Hassibi,1993]


Introduction de connaissances a priori!

Invariances

•  Exemples obtenus par transformation !  Translation / rotation / dilatation

•  Fonction de coût incorporant des dérivées (e.g. spatiales)


Plan!

1.  Introduction 2.  Le perceptron 3.  Le perceptron multi-couches (PMC) 4.  Apprentissage dans les PMC 5.  Aspects calculatoires 6.  Aspects méthodologiques de l’apprentissage

7. Applications 8.  Développements et perspectives 9.  Conclusions


ANN Application Areas!

•  Classification!•  Clustering!•  Associative memory !•  Control !•  Function approximation !


Applications for ANN Classifiers !

•  Pattern recognition!!  Industrial inspection!

!  Fault diagnosis!!  Image recognition!!  Target recognition!!  Speech recognition!

!  Natural language processing!

•  Character recognition!!  Handwriting recognition!

!  Automatic text-to-speech conversion!


Presented by Martin Ho, Eddy Li, Eric Wong and Kitty Wong - Copyright© 2000

Neural Network Approaches ALVINN - Autonomous Land Vehicle In a Neural Network

ALVINN!76!A. Cornuéjols!Les réseaux connexionnistes!

Presented by Martin Ho, Eddy Li, Eric Wong and Kitty Wong - Copyright© 2000

- Developed in 1993.

- Performs driving with Neural Networks.

- An intelligent VLSI image sensor for road following.

- Learns to filter out image details not relevant to driving.

Hidden layer

Output units

Input units

ALVINN!


Plan!

1.  Introduction 2.  Le perceptron 3.  Le perceptron multi-couches (PMC) 4.  Apprentissage dans les PMC 5.  Aspects calculatoires 6.  Aspects méthodologiques de l’apprentissage 7.  Applications

8. Développements et perspectives 9.  Conclusions


PMC à fonctions radiales (RBF)!

•  Définition !  Couche cachée de cellules à fonction d’activation radiale (e.g. gaussienne)

–  Idée : “paver” l’espace des entrées avec ces “champs récepteurs”

!  Couche de sortie : combinaison linéaire sur la couche cachée

•  Propriétés

!  Approximateur universel ([Hartman et al.,90], ...)

!  Mais non parcimonieux (explosion combinatoire avec la taille des entrées)

"  Réservé aux problèmes de faible dimensionalité

!  Liens étroits avec les systèmes d’inférence floue et les réseaux neuro-flous


PMC à fonctions radiales (RBF) : apprentissage!•  Paramètres à régler :

!  Nb de cellules cachées

!  Position des centres des champs récepteurs

!  Diamètre des champs récepteurs

!  Poids vers la couche de sortie (moyenne pondérée)

•  Méthodes !  Adaptation de la rétro-propagation (possible)

!  Détermination de chaque type de paramètres par une méthode propre (souvent plus efficace)

–  Centres déterminés par méthodes de “clustering” (k-means, ...)

–  Diamètres déterminés par optimisation des taux de recouvrement (PPV, ...)

–  Poids par technique d’optimisation linéaire (calcul de pseudo-inverse, ...)


Les réseaux récurrents!

•  Tâches !  Reconnaissance de séquence

E.g. reconnaître le mot correspondant à un signal vocal

!  Reproduction de séquence

E.g. poursuivre la séquence quand une séquence initiale a été fournie (ex: prévision de consommation d’électricité)

!  Association temporelle

Production d’une séquence en réponse à la reconnaissance d’une autre séquence.

"  Time Delay Neural Networks (TDNNs) !  Duplication des couches (artifice : pas vraiment récurrents)

"  Réseaux récurrents


Recurrent ANN Architectures!

•  Feedback connections!•  Dynamic memory: y(t+1)=f(x("),y("),s(")) ""(t,t-1,...)!•  Models :!

!  Jordan/Elman ANNs!

!  Hopfield !

!  Adaptive Resonance Theory (ART)!



Sortie

Cachée

Contexte Entrée

Sortie

Cachée

Contexte

Sortie

Cachée

Contexte

EntréeSortie

Cachée

Contexte Entrée

1

!!i

!

1

(d)

(a) (b) (c)



•  Problèmes

!  Notoirement difficiles à contrôler

–  Dynamique chaotique

!  Mémoire du passé limitée

!  Paramètres supplémentaires

–  Apprentissage mal compris


Une idée intrigante : le «#reservoir computing#»!

•  Idée : !  Utiliser un réseau récurrent sans l’entraîner explicitement

!  Mais entraîner une seule couche de sortie

•  Permet de rendre compte du temps

!  Séries temporelles


Une idée intrigante : le «#reservoir computing#»!

•  Semble prometteur :

!  Mais encore du domaine de la recherche

•  Voir aussi!–  Liquid State Machines!

–  Echo State Machines!

–  Backpropagation-Decorrelation!


Plan!

1.  Introduction 2.  Le perceptron 3.  Le perceptron multi-couches (PMC) 4.  Apprentissage dans les PMC 5.  Aspects calculatoires 6.  Aspects méthodologiques de l’apprentissage 7.  Applications 8.  Développements et perspectives

9. Conclusions


Conclusions!

•  Limites !  Apprentissage lent et difficile

!  Opacité

–  Réseaux appris très difficile à interpréter

–  Difficile d’utiliser de la connaissance a priori

!  Apprentissage incrémental de nouveaux concepts difficile : « catastrophic forgetting »

•  Avantages !  Famille de modèles souple : s’adapte à une grande variété de problèmes


Sources documentaires!

•  Ouvrages / articles !  Dreyfus et. al (2001) : Réseaux de neurones. Méthodologie et applications. Eyrolles, 2001.

!  Bishop C. (06) : Neural networks for pattern recognition. Clarendon Press - Oxford, 1995.

!  Haykin (98) : Neural Networks. Prentice Hall, 1998.

!  Hertz, Krogh & Palmer (91) : Introduction to the theory of neural computation. Addison Wesley, 1991.

!  Thiria, Gascuel, Lechevallier & Canu (97) : Statistiques et méthodes neuronales. Dunod, 1997.

!  Vapnik (95) : The nature of statistical learning. Springer Verlag, 1995.

•  Sites web !  http://www.lps.ens.fr/~nadal/ (point d’entrée pour de nombreux sites)

1 les réseaux connexionnistes plan les réseaux...

Documents