classification 2008 2
DESCRIPTION
genie mecaniqueTRANSCRIPT
-
MTHODES
DE
CLASSIFICATION
Pierre-Louis GONZALEZ
-
2
MTHODES DE CLASSIFICATION
Objet Oprer des regroupements en classes homognes dun
ensemble dindividus.
Donnes Les donnes se prsentent en gnral sous la forme dun
tableau individus variables.
1. Ayant dfini un critre de distance (dissemblance) ou
dissimilarit (pas ncessairement dingalit triangulaire)
entre les individus, on procde au regroupement des
individus.
2. Ce regroupement ncessite une stratgie de
classification : critre de classification.
-
3
MTHODES
NON HIERARCHIQUES
Partition en k classes
Exemples : Centres mobiles
Nues dynamiques
Avantages : Permettent la classification densembles volumineux.
Inconvnients : On impose au dpart le nombre de classes.
-
4
HIRARCHIQUES : suites de partitions embotes
a b c d e
a, b, c, d, eab, c, d, eabc, deabcde
OU
Avantages : La lecture de larbre permet de dterminer le nombre
optimal de classes.
Inconvnients : Coteux en temps de calcul.
-
5
lments de vocabulaire
classification automatique classification non supervise apprentissage sans professeur
Le terme classification en anglais fait rfrence laffectation dun
individu une classe (existant a priori) dans le cadre de lanalyse
discriminante. Il se traduit en franais par le terme classement.
Lquivalent en anglais de classification automatique est cluster
analysis .
-
6
lments de vocabulaire
E : ensemble des n objets classer
Dissimilarit : ( ) ( )d i j d j i, ,= ( )d i i, = 0 ( )d i j, 0
Similarit : ( ) ( )s i j s j i, ,= ( )s i j, 0 ( ) ( )s i i s i j, ,
-
7
I. MTHODES DE PARTITIONNEMENT
1. Considrations combinatoires
Pn k, = nombre de partitions en k classes de n individus
Pn k, = P k Pn k n k +1 1 1, , (rcurrence) (nombre de Stirling de 2me espce)
Ex : P12 5 1 379 400, =
Pn = nombre total de partitions
(nombres de Bell)
Ex : P12 4 213 597=
Ncessit dalgorithmes pour trouver une bonne partition.
Comment dfinir la qualit dune partition ?
-
8
2. Inertie intra-classe et Inertie inter-classe
n points dans un espace euclidien
( )d i i2 , distance euclidienne
Soit une partition en k classes de poids Pi
g g gk1 2, ... centres de gravit
I I Ik1 2, ... inerties associes
I PIW i i= inertie intra ( )I Pd g gB i i= 2 , inertie inter
I I IB W+ = g = centre de gravit des n individus
g1 g2
gk
g
x x
x
xx
x
xx x
x
x
xx
x
x
x
xx
x
xx
xx
x
xx
xx
xx
xx
x
x
x
x
x
x x
x
x
xx x
x
x
-
9
Comparaison de deux partitions en k classes : La meilleure est celle
qui a linertie IW la plus faible (ou linertie IB la plus forte).
Remarque : Ce critre ne permet pas de comparer des partitions
nombres diffrents de classe.
3. Mthode des centres mobiles
xx
xx
x
x
xx x
x
xc1
xx
x
x
x x
x
x
x
x
x
x x
x x
x
x
xx
xx
x
xx
x
x x
x
xc2
c3x
1re tape : choix de centres ci et partition associe (les ci sont
choisis au hasard).
La classe Eci est forme de tous les points plus proches de ci
que de tout autre centre.
-
10
2me tape : calcul des centres de gravit de chaque classe
dfinition dune nouvelle partition.
x x x
x
x
xx
x x
x x x
x
x
x x
x x
x
x
x x
x
x x
x
x
x
xx
x
( )g12
( )g32
( )g22
x
x
+ itrations successives
x
RSULTAT FONDAMENTAL
Linertie intra-classe diminue chaque tape.
Dmonstration :
Soit Egi la classe obtenue en remplaant ci par ( )gi2 centre de
gravit de Eci .
Daprs le thorme de Konig-Huygens, gi ntant pas le centre de
gravit de Egi
( )1 21n
d gE
ii
k
gi
A
A=
, est suprieur linertie intra-classe de la
partition Egi .
-
11
Il suffit de montrer alors que :
( )1 121 1n
d j g nj E ii
k
i
k
ci
= =
, dEgi2
A )(A, gi
Or, si on considre un point quelconque, il figurera dans le membre
de droite avec son carr de distance au gi qui sera le plus proche de
lui par construction des Egi , tandis que dans le membre de gauche,
il figurera avec sa distance un gi qui ne sera pas forcment le plus
proche de lui, mais qui sera seulement son centre de gravit dans la
partition Eci .
Le nuage tant fini, lalgorithme converge.
Lexprience montre que le nombre ditrations ncessaires est en
gnral faible.
-
12
EXEMPLE : Mthode des Centres Mobiles
Etape 0
c1 c2
Etape 1
Calcul des centres de gravitdes classes formes l tape
g g
2 1
1 2
'
Etape 2
+ D fin itio n d e n o u v e lle s c lassesau tou r d es cen tres d e g rav it
Etape 3
Calcul des centres de gravitdes classes formes l tapeNouvelle dfinition des classesautour de ces centres
' .2
Choix des centres
Constitution de classes autour des centres c1 et c2Classe 1 : points plus proches de c1 que de c2Classe 2 : points plus proches de c2 que de c1
STABILITE
x xx
xx
xx
x x xx x x
c1c2
x xx
xx
xx
x x xx x x
c1c2
( )g12x x
x
xx
xx
x x xx x x( )g22
( )g13x x
x
xx
x x
x x xx x x
( )g23
FIN de lalgorithme
-
13
4. Gnralisation : nues dynamiques
Lide est dassocier une classe un reprsentant diffrent de son centre
de gravit.
Par exemple :
un ensemble dindividus (noyau form de q points appels les talons)
une droite une loi de probabilit
Algorithme - Principe
Il faut faire dcrotre le critre U mesurant ladquation entre les
classes et leurs reprsentants.
-
14
Initialisation Deux possibilits :
1. Soit on se donne au dpart une fonction daffectation qui
gnre une partition ( )Q Q k= 1 ... Q sur E. Les noyaux pour chaque classe sont calculs.
2. Soit on se donne k noyaux.
tape daffectation Pour chaque individu, dterminer la classe laquelle on doit
laffecter (ncessit davoir dfini une distance entre un point et
un noyau, ou un groupe de points).
tape de reprsentation Pour chaque classe dfinie, calculer le nouveau noyau.
-
15
La convergence vers un minimum local est obtenue si chaque tape fait
dcrotre le critre U.
ARRT DE LALGORITHME quand la dcroissance atteint un seuil fix a
priori.
Pratique de la mthode
Comme la partition finale peut dpendre de linitialisation, on
recommence s fois (exemple : s tirages alatoires de noyaux).
Formes fortes Ensemble dlments ayant toujours t regroups lors de la
partition finale.
-
16
Exemples :
113
30
38 35 40
5 25 030 8 53 2
4340 35
Premire partition
partition-produit
Deuximepartition
Trois partitions de base en 6 classes :
Partition 1 127 188 229 245 151 60
Partition 2 232 182 213 149 114 110
Partition 3 44 198 325 99 130 204
Ces trois partitions sont ensuite croises entre elles
6 2163 = classes
Groupements stables rangs par effectifs dcroissants :
168 114 110 107 88 83 78 26 22 16
15 14 12 12 12 11 10 7 7 7
7 formes fortes deffectifs importants
c
1000 individus d
-
17
5. Variantes des mthodes centres mobiles
K-means (Mac Queen 1967)
On effectue un recentrage ds quun objet change de classe.
Isodata (Ball et Hall 1965)
Un certain nombre de contraintes sont imposes pour
empcher la formation de classes deffectifs trop faibles ou de
diamtre trop grand.
-
18
II. LA CLASSIFICATION HIRARCHIQUE
Elle consiste fournir un ensemble de partitions de E en classes de
moins en moins fines obtenues par regroupements successifs de parties.
edcba
Arbre de classificationou dendrogramme
Dmarche : Cet arbre est obtenu dans la plupart des mthodes de
manire ascendante :
On regroupe dabord les deux individus les plus proches qui
forment un sommet
Il ne reste plus que (n-1) objets et on itre le processus jusqu
un regroupement complet.
Un des problmes consiste dfinir une mesure de dissimilarit entre
classes.
Remarque : Les mthodes descendantes ou algorithmes divisifs
sont pratiquement inutilises.
-
19
1. Stratgies dagrgation sur dissimilarits
Le problme est de dfinir la dissimilarit entre la runion de deux
lments et un troisime :
( )d a b,c . A chaque solution correspond une ultramtrique diffrente.
x x
xx x
x
x
x
x
A
cd (A, c) ?
a. Le saut minimum
Cette mthode (connue sous le nom de single linkage en
anglais ) consiste crire que :
( ) ( ){ }d a b,c d a c d b,c ( ) inf , ; =
x x
x
xx
xx x x
xx
x
x
x
xx
x
x
x
xx
xx
x
x
x
xx
x x
x
La distance entre parties est donc la plus petite distance entre
lments des deux parties.
-
20
b. Le diamtre ( complete linkage )
On prend ici comme distances entre parties la plus grande
distance entre deux lments.
( )[ ] ( ) ( )[ ]d a b c d a c d b c , ; sup , , ,=
x x
x
xx
xx x x
xx
x
x
x
xx
x
x
x
xx
xx
x
x
x
xx
x x
x
-
21
2. Stratgies diverses
saut minimum (plus proche)
diamtre
moyenne des distances
mdiane des distances
distance au centre de gravit.
A
Indice i(A)
Lindice ou niveau dagrgation est le niveau auquel on trouve agrgs
pour la premire fois tous les constituants de A.
-
22
3. La mthode de Ward pour distance Euclidienne
Si on peut considrer E comme un nuage dun espace Rp, on agrge les
individus qui font le moins varier linertie intra-classe.
A chaque pas, on cherche obtenir un minimum local de linertie intra-
classe ou un maximum de linertie inter-classe.
Lindice de dissimilarit entre deux classes (ou niveau dagrgation de ces
deux classes) est alors gal la perte dinertie inter-classe rsultant de leur
regroupement.
Calculons cette perte dinertie :
gA = centre de gravit de la classe A (poids pA ) gB = centre de gravit de la classe B (poids pB )
gAB = centre de gravit de leur runion gAB = p g p gp pA A B BA B
++
-
23
Lintertie inter-classe tant la moyenne des carrs des distances des
centres de gravit des classes au centre de gravit total, la variation
dinertie inter-classe, lors du regroupement de A et B est gale :
( ) ( ) ( ) ( )p d g g p d g g p p d g gA A B B A B AB2 2 2, , ,+ +
Elle vaut :
( ) ( ) A B p pp p d g gA BA B A B, ,= + 2
Remarque : Cette mthode entre dans le cadre de la formule de Lance
et Williams gnralise :
( )[ ] ( ) ( ) ( ) ( ) ( ) A B C p p A C p p B C p A Bp p pA C B C CA B C, ;, , ,
= + + + + +
On peut donc utiliser lalgorithme gnral.
On notera que la somme des niveaux dagrgation des diffrents noeuds
de larbre doit tre gale linertie totale du nuage, puisque la somme des
pertes dinertie est gale linertie totale.
Cette mthode est donc complmentaire de lanalyse en composantes
principales et repose sur un critre doptimisation assez naturel.
Elle constitue notre avis la meilleure mthode de classification
hirarchique sur donnes euclidiennes.
Il ne faut pas oublier cependant que le choix de la mtrique dans lespace
des individus conditionne galement les rsultats.
-
24
III. LA PRATIQUE DE LA CLASSIFICATION
1. Les mthodes mixtes
En prsence dun grand nombre dindividus (>103), il est impossible
dutiliser directement les mthodes de classification hirarchique.
On combine les techniques non hirarchiques et hirarchiques.
Etape 1 : Mthode centres mobiles ou nues dynamiques . On forme par exemple 50 classes.
Etape 2 : Construction dun arbre partir des k classes formes ltape 1. Coupure de larbre en un nombre judicieux de
classes.
Etape 3 : Consolidation de la partition obtenue ltape 2 (mthode de type centres mobiles ).
-
25
2. Interprtation dune partition
2-1. Utilisation des outils de base de la statistique Pour chaque variable :
Calcul de paramtres caractristiques de chaque classe
(moyenne, cart-type, min, max...)
Reprsentations graphiques : botes moustaches, intervalle de
confiance pour les moyennes.
Analyse de la variance un facteur pour chaque variable (on
peut ainsi classer les variables par ordre de contribution la
cration des classes).
2-2. En liaison avec une analyse factorielle (A.C.P.
dans le cas de variables quantitatives)
On peut reprer les classes formes dans le plan des individus.
Projeter les points moyens reprsentant chaque classe.
Utiliser les valeurs-tests pour chaque classe sur les axes
interprts.
2-3. Les deux approches sont complmentaires, la
premire approche peut tre longue mettre en oeuvre si le nombre
de variables est lev.
-
26
IV. LA CLASSIFICATION DE DONNES QUALITATIVES
1. Les n individus classer sont dcrits par des variables qualitatives
a. Donnes de prsence - absence
On utilise un des indices de dissimilarit dduit des indices de
similarit proposs qui combinent de diverses manires les quatre
nombres suivants associs un couple dindividus.
a = nombre de caractristiques communes
b = nombre de caractristiques possdes par i et pas par j
c = nombre de caractristiques possdes par j et pas par i
d = nombre de caractristiques que ne possdent ni i, ni j.
Les indices compris entre 0 et 1 sont aisment transformables en
dissimilarit par complmentation 1.
Jaccard aa b c+ +
Dice ou Czekanowski 22a
a b c+ +
Ochia ( ) ( )a
a b a c+ +
Russel et Rao aa b c d+ + +
Rogers et Tanimoto ( )a d
a d b c+
+ + +2
-
27
b. Individus dcrits par des variables qualitatives m1
m2 ... mp modalits
On utilise la reprsentation disjonctive complte et la
distance du 2 entre lignes du tableau.
( )d i i npn x xpj ij i jj22
2
, =
(Elle traduit le fait que deux individus ayant en commun une
modalit rare sont plus proches que deux individus ayant en
commun une modalit frquente).
On utilise alors la mthode de Ward (puisque la distance du 2 est euclidienne) sur le tableau des distances.
Autre solution : Classification hirarchique sur le tableau des coordonnes factorielles des n individus aprs A.C.M. de X.
Les deux approches sont quivalentes si on utilise tous les
facteurs de lA.C.M. soit m pi , en conservant la normalisation de chaque axe .
-
28
2. Classification hirarchique des lignes (ou des colonnes) dun tableau de contingence
Elle seffectue avec la mthode de Ward et la distance du 2 entre lignes (ou entre colonnes).
Cette mthode revient regrouper les catgories dune variable
qualitative de la faon suivante : chaque tape, on runit les deux
catgories (en sommant les effectifs) qui font diminuer le moins possible
le 2 puisque linertie totale est ici gale 2
n .