méthodes de segmentation
TRANSCRIPT
1
Michel Tenenhaus
Méthodes de segmentation
2
Les données
Réponse : Y - Numérique- Ordinale- Nominale
Prédicteurs : X1,…, Xk - Numérique - Ordinale- Nominale
Objectif :
• Construire un arbre de décision à l’aide des prédicteurs.
• Les segments terminaux sont aussi purs que possible par rapport à la réponse Y.
découpé en 10 classes,puis considéré comme
ordinale
3
Les méthodes
• CHAID : Chi-squared Automatic Interaction Detector
• CART : Classification And Decision Tree
• SIPINA : Système Interactif pour les Processus d’Interrogation Non-Arborescent
4
Exemple : Référendum sur la constitution européenne
Vote constitution européenne
Sexe Classe d'age Proximité politique Dernier diplôme
Confiance en son avenir
Oui Femme 25-34 PS Bac+3/4 Confiant+ Oui Homme 60 et + PS < Bac Confiant- Oui Femme 35 à 44 ans UMP Bac+3/4 Nsp Oui Homme 45-59 PS Bac Confiant++ Oui Femme 35 à 44 ans UMP Bac+5/Grande école Confiant++ Oui Homme 25-34 UMP Bac Confiant+ Oui Femme 25-34 UMP Bac Confiant+ Oui Homme 35 à 44 ans PS Bac+5/Grande école Confiant+ Oui Femme 35 à 44 ans UDF Pas de diplôme Confiant+ Oui Homme 45-59 UDF < Bac Confiant-- Oui Homme 25-34 UMP Bac+5/Grande école Confiant+ Oui Homme 60 et + UMP < Bac Confiant+ Oui Femme 35 à 44 ans PS < Bac Confiant+ Oui Homme 18-24 UMP Bac+3/4 Confiant- Oui Femme 35 à 44 ans PS Bac+2 Confiant- Oui Femme 18-24 Verts Bac Confiant++ Oui Femme 60 et + UMP < Bac Confiant+ Oui Homme 35 à 44 ans PS Bac+2 Confiant+ Oui Homme 60 et + UMP < Bac Confiant+
5
Sexe * Vote constitution européenne
% within Sexe
56.1% 43.9%53.2% 46.8%54.7% 45.3%
HommeFemme
Sexe
Total
Non Oui
Vote constitutioneuropéenne
Khi-deux = 1.936, NS = .164
Classe d'age * Vote constitution européenne
% within Classe d'age
59.8% 40.2%55.8% 44.3%58.8% 41.2%59.7% 40.3%42.9% 57.1%54.7% 45.3%
18-2425-3435 à 44 ans45-5960 et +
Classed'age
Total
Non Oui
Vote constitutioneuropéenne
Khi-deux = 43.62, NS = .000
Proximité politique * Vote constitution européenne
% within Proximité politique
94.9% 5.1%98.4% 1.6%58.8% 41.2%65.8% 34.2%23.9% 76.1%22.5% 77.5%75.0% 25.0%58.3% 41.7%96.8% 3.2%71.2% 28.8%56.9% 43.1%30.0% 70.0%54.7% 45.3%
EGPCPSVertsUDFUMPMPFMNRFNAucun partINspRefus
Proximitépolitique
Total
Non Oui
Vote constitutioneuropéenne
Khi-deux = 536.3, NS = .000
Revenu foyer * Vote constitution européenne
% within Revenu foyer
59.0% 41.0%66.0% 34.0%66.9% 33.1%60.4% 39.6%64.4% 35.6%54.5% 45.5%58.5% 41.5%46.1% 53.9%25.3% 74.7%54.9% 45.1%37.5% 62.5%54.7% 45.3%
< 1 000 Euros1 000-1 200 €1 200-1 400 €1 400-1 700 €1 700-2 000 €2 000-2 300 €2 300-3 000 €3 000-4 500 €> 4 500 €NspRefus
Revenufoyer
Total
Non Oui
Vote constitutioneuropéenne
Khi-deux = 112.5, NS = .000
6
Dernier diplôme * Vote constitution européenne
% within Dernier diplôme
64.5% 35.5%55.9% 44.1%48.8% 51.2%42.2% 57.8%29.6% 70.4%66.9% 33.1%50.0% 50.0%54.7% 45.3%
< BacBacBac+2Bac+3/4Bac+5 et plusPas de diplômeNSP
Dernierdiplôme
Total
Non Oui
Vote constitutioneuropéenne
Khi-deux = 123.6, NS = .000
Confiance en son avenir * Vote constitution européenne
% within Confiance en son avenir
30.2% 69.8%31.7% 68.3%74.1% 25.9%90.7% 9.3%43.3% 56.7%54.7% 45.3%
Confiant++Confiant+Confiant-Confiant--Nsp
Confianceen sonavenir
Total
Non Oui
Vote constitutioneuropéenne
Khi-deux = 545.3, NS = .000
Tableau croisé Khi-deux et p-value Vote*Sexe 1.94 (p = .164) Vote*Age 43.6 (p = .000) Vote*[Proximité politique] 536.3 (p = .000) Vote*[Revenu foyer] 112.5 (p = .000) Vote*Diplôme 123.6 (p = .000) Vote*[Confiance en son avenir] 545.3 (p= .000)
7
Model Summary
CRTVote constitution européenneSexe, Classe d'age, Proximité politique,Revenu foyer, Dernier diplôme , Confiance enson avenirNone
5
50
30
Confiance en son avenir, Proximité politique,Dernier diplôme , Revenu foyer, Sexe
9
5
3
Growing MethodDependent VariableIndependent Variables
ValidationMaximum Tree DepthMinimum Cases inParent NodeMinimum Cases inChild Node
Specifications
Independent VariablesIncludedNumber of NodesNumber of TerminalNodesDepth
Results
Utilisation de CART
Élagage avec la règle de un écart-type
8
9
Présentation de CHAID
1. Mesures de liaison entre deux variables X et Y
. .
- * [ ]
- ( )
ˆ-
ˆ̂- estimation
de à l'aide du
modèle 3 estimé par MV
ij
ij ij
i jij
ij
ij
X Y n
m E n
n nm
nm
m
X qualitative à I modalités
Nature de Y Modèle Test d’indépendance :
Statistique utilisée
Loi sous l’hypothèse d’indépendance
1. Modèle d’indépendance : ( ) X Y
ij i jLog m Nominale
(J modalités) 2. Modèle saturé :
( ) X Y XYij i j ijLog m
0Test H : 0, ,XYij i j
- 22
ˆ
ˆij ij
i j ij
n m
m
- 2 2 ( )ˆ
ijij
i j ij
nG n Log
m
2[(I-1)(J-1)]
Ordinale
3. Modèle d’association : ( )
( )ij
X Yi j i j
Log m
x y y
0 1Test H : ... 0Ix x
2ˆ̂
2 ( )ˆ
ijij
i j ij
mH n Log
m 2(I-1)
Numérique Analyse de la variance à un facteur F F(I-1,n-I)
10
2. Description d’une étape de CHAID sur un segment
Pour chaque prédicteur Xj :
- Fusion des modalités i et i’ de Xj telles que les profils Prob(Y/Xj=i) et Prob(Y/Xj=i’) sur le segment sont voisins.
- Si Xj est ordinale, seules des modalités adjacentes sont autorisées à fusionner.
- D’où des nouveaux prédicteurs Xj*.
1. Phase de fusion
11
Description d’une étape de CHAID sur un segment
Pour chaque prédicteur Xj :
- Étude des tableaux croisés Xj*Y :
Calcul de la p-value du test d’indépendance, éventuellement corrigée pour tenir compte du nombre de modalités (Mutiplicateur de Bonferroni).
- Sélection du prédicteur Xj* ayant la plus petite p-value et division du
segment selon ce prédicteur.
2. Phase de division
12
Description d’une étape de CHAID sur un segment
- Segment pur- Prédicteurs constants sur le segment- Taille du segment- Taille des segments descendants- Profondeur de l’arbre- Valeur de la p-value minimum
3. Règle d’arrêt basées sur des critères
13
Étude danoise sur la prospérité (Source : Croux, 2005)
Congélateur Numéro Secteur Revenu Age Sexe Oui Non
1 Privé Elevé Agé Masculin 152 39 2 Public Elevé Agé Masculin 82 18 3 Privé Moyen Agé Masculin 135 31 4 Public Moyen Agé Masculin 35 12 5 Privé Bas Agé Masculin 89 45 6 Public Bas Agé Masculin 20 9 7 Privé Elevé Jeune Masculin 259 46 8 Public Elevé Jeune Masculin 101 26 9 Privé Moyen Jeune Masculin 183 55 10 Public Moyen Jeune Masculin 54 15 11 Privé Bas Jeune Masculin 108 54 12 Public Bas Jeune Masculin 22 13 13 Privé Elevé Agé Féminin 82 17 14 Public Elevé Agé Féminin 85 16 15 Privé Moyen Agé Féminin 46 16 16 Public Moyen Agé Féminin 60 11 17 Privé Bas Agé Féminin 29 29 18 Public Bas Agé Féminin 40 18 19 Privé Elevé Jeune Féminin 160 23 20 Public Elevé Jeune Féminin 152 28 21 Privé Moyen Jeune Féminin 89 17 22 Public Moyen Jeune Féminin 56 21 23 Privé Bas Jeune Féminin 57 41 24 Public Bas Jeune Féminin 34 28
14
Utilisation de CHAID pour Y binaire
Model Summary
CHAIDcongelateurrevenu, age, sexe, secteurNone
3
100
50
revenu, sexe
6
4
2
Growing MethodDependent VariableIndependent VariablesValidationMaximum Tree DepthMinimum Cases inParent NodeMinimum Cases inChild Node
Specifications
Independent VariablesIncludedNumber of NodesNumber of TerminalNodesDepth
Results
Pas de correction de Bonferroni
15
16
Étude MaliTest de l’efficacité du diffuseur d’iode RHODIFUSE
Conséquences biologiques dudéficit en iode :Chez l’enfant :- Retard mental- Troubles musculaire- Paralysie- Crétinisme
Chez l’adulte :- Goitre- Adynamie- Crétinisme- Hypoproductivité
17
Classification des goitres selon l ’OMS
• Groupe 0 : Thyroïde non palpable, ou palpable mais dont les lobes sont de volume inférieur à la phalange distale du pouce du sujet.
• Groupe 1A : Nettement palpable, et dont les lobes ont un volume supérieur à la phalange distale du pouce du sujet, non visible lorsque la tête est en extension.
• Groupe 1B : Idem, mais visible en extension du cou, mais non visible en position normale.
• Groupe 2 : Thyroïde nettement visible lorsque la tête est en position normale.
• Groupe 3 : Thyroïde volumineuse, nettement visible à plus de 5 mètres.
18
L’expérimentation
N’Djiba
Sebabougou
Sirablo (Témoin)
Woloni
Bamako
17
19
4 2
6
Niger
5
7
15
15
37
19
Les données
• Y = Niveau de goitre : 1= 0, 2 = IA, 3 = IB, 4 = II
• X1 = Village : 1 = Sirablo (Témoin), 2 = Woloni
3 = N ’Djiba, 4 = Sebabougou
• X2 = Sexe : 1 = Homme, 2 = Femme
• X3 = Jour : 0 = 0, 1 = 180, 2 = 360
• X4 = Iode : 1 = Absence, 2 = Présence
20
Les données (en effectif)Répartition des goitres par niveau
Sirablo Homme 0 Absence 106 12 46 11 175Sirablo Homme 180 Absence 60 31 46 15 152Sirablo Homme 360 Absence 64 23 50 14 151Sirablo Femme 0 Absence 77 21 71 65 234Sirablo Femme 180 Absence 46 28 63 65 202Sirablo Femme 360 Absence 44 29 67 57 197Woloni Homme 0 Absence 127 27 45 12 211Woloni Homme 180 Présence 145 28 19 1 193Woloni Homme 360 Présence 161 16 12 2 191Woloni Femme 0 Absence 69 21 65 50 205Woloni Femme 180 Présence 76 40 41 13 170Woloni Femme 360 Présence 89 28 33 10 160N'Djiba Homme 0 Absence 91 8 14 6 119N'Djiba Homme 180 Présence 94 14 10 0 118N'Djiba Homme 360 Présence 99 7 12 0 118N'Djiba Femme 0 Absence 42 18 45 34 139N'Djiba Femme 180 Présence 50 29 38 13 130N'Djiba Femme 360 Présence 67 18 32 6 123Sebabougou Homme 0 Absence 112 47 30 13 202Sebabougou Homme 180 Présence 155 26 10 1 192Sebabougou Homme 360 Présence 171 12 12 2 197Sebabougou Femme 0 Absence 86 40 47 55 228Sebabougou Femme 180 Présence 119 26 39 18 202Sebabougou Femme 360 Présence 132 12 41 22 207
123456789101112131415161718192021222324
VILLAGE SEXE JOUR IODE G1 G2 G3 G4 Total
21
Les données (en fréquence)Fréquence de répartition des goitres
Sirablo Homme 0 Absence .61 .07 .26 .06Sirablo Homme 180 Absence .39 .20 .30 .10Sirablo Homme 360 Absence .42 .15 .33 .09Sirablo Femme 0 Absence .33 .09 .30 .28Sirablo Femme 180 Absence .23 .14 .31 .32Sirablo Femme 360 Absence .22 .15 .34 .29Woloni Homme 0 Absence .60 .13 .21 .06Woloni Homme 180 Présence .75 .15 .10 .01Woloni Homme 360 Présence .84 .08 .06 .01Woloni Femme 0 Absence .34 .10 .32 .24Woloni Femme 180 Présence .45 .24 .24 .08Woloni Femme 360 Présence .56 .18 .21 .06N'Djiba Homme 0 Absence .76 .07 .12 .05N'Djiba Homme 180 Présence .80 .12 .08 .00N'Djiba Homme 360 Présence .84 .06 .10 .00N'Djiba Femme 0 Absence .30 .13 .32 .24N'Djiba Femme 180 Présence .38 .22 .29 .10N'Djiba Femme 360 Présence .54 .15 .26 .05Sebabougou Homme 0 Absence .55 .23 .15 .06Sebabougou Homme 180 Présence .81 .14 .05 .01Sebabougou Homme 360 Présence .87 .06 .06 .01Sebabougou Femme 0 Absence .38 .18 .21 .24Sebabougou Femme 180 Présence .59 .13 .19 .09Sebabougou Femme 360 Présence .64 .06 .20 .11
123456789101112131415161718192021222324
VILLAGE SEXE JOUR IODE Goitre 1 Goitre 2 Goitre 3 Goitre 4
22
Évolution des niveaux moyens de goitreSIRABLO (Témoin)
JOUR
3601800
Niv
eau
moy
en d
e go
itre
2.8
2.6
2.4
2.2
2.0
1.8
1.6
SEXE
Homme
Femme
WOLONI
JOUR
3601800
Niv
eau
moy
en d
e go
itre
2.6
2.4
2.2
2.0
1.8
1.6
1.4
1.2
1.0
SEXE
Homme
Femme
N'DJIBA
JOUR
3601800
Niv
eau
moy
en d
e go
itre
2.6
2.4
2.2
2.0
1.8
1.6
1.4
1.2
1.0
SEXE
Homme
Femme
SEBABOUGOU
JOUR
3601800
Niv
eau
moy
en d
e go
itre
2.6
2.4
2.2
2.0
1.8
1.6
1.4
1.2
1.0
SEXE
Homme
Femme
23
Utilisationde CHAIDpour Y ordinale
Population deshommes
24
Population desfemmes
25
École de Management Avancé
Professeur Indice Age Sexe EMA Doctorat Directeur Recherche Pédagogie 1 20 60 M 0 1 1 2 4 2 20 53 M 0 1 1 3 3 3 20 52 M 1 1 1 2 4 4 20 50 M 0 1 0 5 4 5 20 48 M 0 1 0 5 4 6 20 48 M 1 1 1 1 4 7 19 55 M 0 0 0 1 4
94 3 46 F 0 1 0 1 3 95 3 30 M 1 0 0 1 4 96 1 44 M 0 1 0 1 1
26
Utilisation de CHAID pour Y numérique
Model Summary
CHAIDIndiceAge, Homme, EMA, Doctorat, Directeur,Pédagogie, RechercheNone
3
10
5
Age, EMA, Pédagogie, Recherche
10
6
3
Growing MethodDependent VariableIndependent Variables
ValidationMaximum Tree DepthMinimum Cases inParent NodeMinimum Cases inChild Node
Specifications
Independent VariablesIncludedNumber of NodesNumber of TerminalNodesDepth
Results
Avec de correction de Bonferroni
27
28
Présentation de CART Exemple : Crédit
On observe sur n = 323 personnes :
Réponse Y : Credit ranking (good/bad)
4 prédicteurs X :
- X1 = Classe d’age (young, middle, old)
- X2 = Has AMEX card (yes/no)
- X3 = Paid Weekly/Monthly (weekly pay/monthly salary)
- X4 = Social Class (management, professional, clerical,
skilled, unskilled).
29
Mesures de liaison entre X binaire et Y
Y nominale : le critère GiniMesure de l’impureté d’un segment : Indice de Gini
,
2
( ) ( | ) ( | )
( | ) 1 ( | )
1 ( | )
j kj k
j
j
i t p j t p k t
p j t p j t
p j t
où p(j|t) = fréquence de la modalité j de Y sur le segment t
Entropie quadratique
Résultat :10 ( ) 1i tJ
30
Exemple
2 2
Impureté = Prob(Bad)*Prob(Good) + Prob(Good)*Prob(Bad) .5201*.4799 .4799*.5201 .49919198
1 .5201 .47991 1 .52
Segment très impur
31
Division d’un segmentSegment tEffectif = nt
Impureté i(t)
Segment tdroit
Effectif = ntdroit
Impureté i(tdroit)
Segment tgauche
Effectif = ntgauche
Impureté i(tgauche)
X X1 aX = 1
Diminution de l’impureté = mesure de liaison entre X et Y
2
2
( , ) ( ) ( ) ( )
( | ) ( | )
tg tdGini g d g d
t t
tg tdg d
jt
n nt t i t i t i tn n
n np j t p j t
n
CritèreGini
32
Exemple
(0)
(1) (2)
i(0)=.49919198
i(1)=.23106222 i(2)=.26634552
Diminution de l’impureté = Critère de Gini1 2(0) (1) (2)
.4992 .5108 .23106 .4892 .26635 .2508
n ni i in n
33
Y nominale : le critère Twoing
Segment t Effectif = nt
Segment tdroit
Effectif = ntdroit
Segment tgauche
Effectif = ntgauche
X X = 0X = 1
2
2( , ) ( | ) ( | )tg tdTwoing g d g d
jt
n nt t p j t p j t
n
34
Y ordinale : le critère Ordered Twoing
Segment t Effectif = nt
Segment tdroit
Effectif = ntdroit
Segment tgauche
Effectif = ntgauche
X X = 0X = 1
2Ordered Twoing 2( , ) ( | ) ( | )tg tdg d g d
tj
n nt t p Y j t p Y j t
nMax
35
Y numérique : le critère LSD(Least Square Deviation)
Segment t Effectif = nt
Segment tdroit
Effectif = ntdroit
Segment tgauche
Effectif = ntgauche
X X = 0X = 1
2
2( , ) ( ) ( )tg tdg d g d
t
n nt t y t y t
n
36
Construction de l’arbre maximum TMax
• On part de l’échantillon de base t0.• Pour chaque prédicteur Xj, on cherche la dichotomie
des modalités de Xj conduisant à deux segments descendants tg et td maximisant (tg,td).
• Si X est nominale, la dichotomie est quelconque.• Si X est ordinale, la dichotomie est {[X i],[X > i]} • On itère la procédure sur chaque segment descendant.• La procédure est stoppée en fonction de règles d’arrête
définies par l’utilisateur.
37
Exemple Crédit
Category % nGood 47.99 155Bad 52.01 168Total (100.00) 323
Node 0
Category % nGood 13.33 22Bad 86.67 143Total (51.08) 165
Node 2
Category % nGood 100.00 7Bad 0.00 0Total (2.17) 7
Node 6Category % nGood 9.49 15Bad 90.51 143Total (48.92) 158
Node 5
Category % nGood 84.18 133Bad 15.82 25Total (48.92) 158
Node 1
Category % nGood 99.08 108Bad 0.92 1Total (33.75) 109
Node 4Category % nGood 51.02 25Bad 48.98 24Total (15.17) 49
Node 3
Category % nGood 100.00 8Bad 0.00 0Total (2.48) 8
Node 8Category % nGood 41.46 17Bad 58.54 24Total (12.69) 41
Node 7
Credit ranking (1=Good)
Paid Weekly/MonthlyImprovement=0.2508
Weekly pay
Age CategoricalImprovement=0.0340
Old ( > 35)Middle (25-35);Young (< 25)
Monthly salary
Age CategoricalImprovement=0.0484
Middle (25-35);Old ( > 35)Young (< 25)
Social ClassImprovement=0.0142
Clerical;ManagementProfessional
Règles d’arrêt : - Improvement minimum = 0.01 - Effectif segment parent minimum = 25 - Effectif segment descendant minimum = 1
38
Les règles d’arrêt
• Les prédicteurs sont constants sur le segment.• Le segment est pur.• Profondeur de l’arbre égale au maximum spécifié.• Taille du segment < minimum spécifié (ici 20).• Taille du sous-segment < minimum spécifié (ici 5).• Diminution de l’impureté < minimum spécifié
(ici .0001).
39
Risque global
• Chaque segment terminal est affectéà la modalité de Y la plus fréquente dans le segment.
• Risque = % de mal classés
40
Tableau de classification et risque global
Misclassification Matrix
Actual Category Good Bad Total
Predicted Category Good 123 1 124 Bad 32 167 199 Total 155 168 323
Resubstitution
Risk Estimate 0.102167 SE of Risk Estimate 0.016852
.102167 (1 .102167)
323
33/ 323
41
Tableau des gains
nttn
n - Gain = Nb de réponses cibles dans le segment t
- Gain (%) = % de réponses cibles de l’échantillon total dans le segment t
- Resp (%) = % de réponses cibles dans le segment t
- Index (%) = Proportion de réponses cibles dans le segment
Proportion de réponses cibles dans l'échantillon totalt
42
Élagage (Pruning)
• On construit l’arbre maximum Tmax.
• On recherche le plus petit arbre T dont le risque de mauvaise classification
est peu supérieur à celui de l’arbre complet.
max ( )Nb de mal classés( )
n
kkt T
n n tC T
n
( = ensemble des segments terminaux)T
43
Mesure de coût-complexité C(T)
( ) ( )C T C T T
- = Nombre de segments terminaux de l'arbre T T
- = Pénalité attribuée à chaque segments terminal
max
- ( ) = Arbre construit dans la phase de construction de minimisant ( )
TT C T
max- (0) = arbre de complexité maximumT T
- Plus augmente, plus le nombre de segments terminaux de ( ) diminue.T
44
L’algorithme d’élagage de CART
max 1 2 3 racine...T T T T T
racine- Soit = Segment racine = Echantillon de base.T
- L'algorithme de CART permet de construire une suite d'arbres emboités ( ) :k kT T
correspondant à une suite croissante de pénalités de complexité k :
1 2 30 ...
45
Choix de l’arbre à retenir
max 1 2 racine( ) ( ) ( ) ... ( )C T C T C T C T
- Calcul des risques de mauvaise classification de la suite de sous-arbres :
max maxmax
( ) 1 ( )Ecart-type ( )
C T C TC T
n
max- Calcul de l'écart-type de ( ) :C T
max max( ) ( ) + *Ecart-type ( )jC T C T C T
- Choix de l'arbre ayant le plus petit nombre de segments terminaux et vérifiant :
jT
Par défaut = 1
46
Exemple : Qualité des vins de Bordeaux
Variables observées sur 34 années (1924 - 1957)
• TEMPERATURE : Somme des températures moyennes journalières
• SOLEIL : Durée d’insolation• CHALEUR : Nombre de jours de grande chaleur• PLUIE : Hauteur des pluies• QUALITE DU VIN : Bon (1), Moyen (2), Médiocre (3)
47
Les données 3064 1201 10 361 23000 1053 11 338 33155 1133 19 393 23085 970 4 467 33245 1258 36 294 13267 1386 35 225 13080 966 13 417 32974 1189 12 488 33038 1103 14 677 33318 1310 29 427 23317 1362 25 326 13182 1171 28 326 32998 1102 9 349 33221 1424 21 382 13019 1230 16 275 23022 1285 9 303 23094 1329 11 339 23009 1210 15 536 33227 1331 21 414 23308 1366 24 282 13212 1289 17 302 23361 1444 25 253 13061 1175 12 261 23478 1317 42 259 13126 1248 11 315 23458 1508 43 286 13252 1361 26 346 23052 1186 14 443 33270 1399 24 306 13198 1259 20 367 12904 1164 6 311 33247 1277 19 375 13083 1195 5 441 33043 1208 14 371 3
12345678910111213141516171819202122232425262728293031323334
Température Soleil Chaleur Pluie Qualité
48
Arbre de taillemaximale T1
49
T2 T3
T4 T5
50
Q u e l a r b r e f a u t - i l c h o i s i r ? C a l c u l o n s l e s c o û t s d ’ e r r e u r d e c l a s s e m e n t ( o u p r o p o r t i o n s d e m a l c l a s s é s ) a s s o c i é s à c e s d i f f é r e n t s a r b r e s :
A r b r e P é n a l i t é C o û t T 1 = T m a x 0 2 / 3 4 = . 0 5 8 8
T 2 . 0 2 9 4 / 3 4 = . 1 1 7 6 T 3 . 0 5 9 6 / 3 4 = . 1 7 6 4 T 4 . 1 4 7 1 1 / 3 4 = . 3 2 3 5
T 5 = T r a c i n e . 3 2 4 2 2 / 3 4 = . 6 4 7 0
I c i l ’ é c a r t - t y p e d u c o û t d e l ’ a r b r e d e t a i l l e m a x i m a l e v a u t
. 0 5 8 8 ( 1 . 0 5 8 8 )( ( ) ) . 0 4 0 3
3 4m a xE T C T
L a r è g l e d u « u n é c a r t - t y p e » c o n d u i t d o n c à s é l e c t i o n n e r l e p l u s p e t i t a r b r e T j t e l q u e
( ) ( ) ( ( ) ) . 0 5 8 8 0 . 0 4 0 3 . 0 9 9 1j m a x m a xC T C T E T C T D ’ o ù l a s é l e c t i o n d e l ’ a r b r e T m a x . S i l ’ o n a p p l i q u e l a r è g l e d u « d e u x é c a r t s - t y p e s » , o n u t i l i s e l e s e u i l . 1 3 9 4 e t o n e s t a l o r s a m e n é à s é l e c t i o n n e r l ’ a r b r e T 2 . P o u r t r o i s é c a r t s - t y p e s , l e s e u i l d e v i e n t . 1 7 9 7 e t l ’ a r b r e s é l e c t i o n n é d e v i e n t T 3 .
51
Présentation de SIPINA Exemple : Titanic
Survivant Classe Age Sexe
Oui Non
Pourcentage de
survivants M 57 118 33 Adulte F 140 4 97 M 5 0 100
Première Enfant
F 1 0 100 M 14 154 8 Adulte F 80 13 86 M 11 0 100
Deuxième Enfant
F 13 0 100 M 75 387 16 Adulte F 76 89 46 M 13 35 27
Troisième Enfant
F 14 17 45 M 192 670 22 Equipage Adulte F 20 3 87
52
Mesure de liaison entre X et Y nominale
Mesure de l’impureté (entropie, incertitude)d’un segment t : Indice de Gini corrigée
2
2 ( )( ) 1 ( | ) 1
( )j
j j
n ti t p j t
n t
Dans CART :Indépendantde la tailledu segment
2( )( ) 1
( )j
j
n ti t
n t J
Dans SIPINA :
Diminue lorsque la taille du segment
augmente
Le paramètre est fixé automatiquement par SIPINA.
53
Le graphe latticiel de SIPINA
Survie au naufrage du Titanic
54
Mesure de liaison entre X et Y nominale
Mesure de l’incertitude sur une partitionS = {t1,…, tK} de
l’échantillon de base t0
2
1
( )( )( ) 1
( )
Kj kk
k j k
n tn ti S
n n t J
Mesure de l’incertitude sur une partition induite par XSX = {t1=[X=1],…, tI=[X=I]} de l’échantillon de base t0
2
1
( ) 1I
ijiX
i j i
nni S
n n J
0 0( , ) ( ) ( )X XI t S i t i S Mesure de la force
de la liaison entre X et Y :Gain sur l’incertitude
55
Description de l’algorithme SIPINA
• La partition initiale S0 est formée de l’échantillon de base.
• Le paramètre est fixé de manière automatique.
• Recherche de la variable Xj conduisant à la meilleure partition S1, soit maximisant le gain sur l’incertitude
0 0( , ) ( ) ( )j jX XI S S i S i S
Recherche de la partition S1
56
Description de l’algorithme SIPINA
• Éclatement : Un segment t de Si est divisé à l’aide d’un prédicteur X en I segments th = t[X = h]. D’où : Si+1 = Si – {t} + {t1}+…+{tI}.
• Fusion : On fusionne les deux segments tq et tr de Si. D’où : Si+1 = Si – {tq}{tr } + tqtr .
• Partition admissible : Si+1 est admissible si
Opérations de base pour le passage de la partition Si à Si+1
1 1( , ) ( ) ( ) 0i i i iI S S i S i S Gain sur l’incertitude
57
Exemples des opérations de base sur Titanic
Éclatement :
Fusion :
S1
S3
58
Exemple sur Titanic
Fusion :
59
Description de l’algorithme SIPINA
• Fusion : On fusionne les deux segments de Si conduisant à une partition S'i+1 maximisant le gain sur l’incertitude I(Si,S'i+1). Si gain > 0, on pose Si+1=
S'i+1 et on repasse une étape de fusion. Sinon, passage à la phase suivante.• Fusion-éclatement : On construit toutes les partitions obtenues par fusion de
deux segments de Si. Pour chacune de ces partitions, on recherche le prédicteur conduisant au meilleur éclatement des deux segments fusionnés. On retient la partition à gain sur incertitude maximum. Si cette partition est admissible, elle définit Si+1. et on retourne à l’étape Fusion. Sinon on passe à la phase suivante.
• Éclatement : Pour chaque segment de Si, on recherche la meilleure partition admissible obtenue par éclatement à l’aide d’un prédicteur. On retient celle qui conduit au meilleur gain sur l’incertitude. Si cette meilleure partition admissible existe, elle définit Si+1 et on repart en phase 1. Sinon le processus s’arrête et Si est optimale.
Passage de la partition Si à Si+1