cap 2001 algorithmes pour lapprentissage de règles à partir de données multi-instance yann...

21
CAP 2001 Algorithmes pour l’apprentissage Algorithmes pour l’apprentissage de règles à partir de de règles à partir de données données multi-instance multi-instance Yann Chevaleyre et Jean-Daniel Zucker Université de Paris VI – LIP6 - CNRS

Upload: arianne-pons

Post on 03-Apr-2015

105 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: CAP 2001 Algorithmes pour lapprentissage de règles à partir de données multi-instance Yann Chevaleyre et Jean-Daniel Zucker Université de Paris VI – LIP6

CAP 2001

Algorithmes pour l’apprentissageAlgorithmes pour l’apprentissage

de règles à partir dede règles à partir de

données données multi-instancemulti-instance

Yann Chevaleyre et Jean-Daniel Zucker Université de Paris VI – LIP6 - CNRS

Page 2: CAP 2001 Algorithmes pour lapprentissage de règles à partir de données multi-instance Yann Chevaleyre et Jean-Daniel Zucker Université de Paris VI – LIP6

CAP 2001

descriptionatomique

Motivations

ReprésentationAtt/Val

Représentationrelationelle

descriptio

n

globale- peu expressif+ algorithmes performants

+ très expressif- difficilement apprenable,nécessitedes biais forts

ReprésentationReprésentationMIMI

La plupart des algorithmes d ’apprentissage MI utilisent des données La plupart des algorithmes d ’apprentissage MI utilisent des données numériques, et génèrent des hypothèses difficilement interprétablesnumériques, et génèrent des hypothèses difficilement interprétables

Notre but: concevoir des Notre but: concevoir des algorithmes efficacesalgorithmes efficaces, utilisant des données , utilisant des données symboliques et numériquessymboliques et numériques, et générant des hypothèses , et générant des hypothèses compréhensibles comme des compréhensibles comme des listes de décisionlistes de décision

Le choix du langage de représentation des données a un effetLe choix du langage de représentation des données a un effetdéterminant sur l ’apprentissagedéterminant sur l ’apprentissage

Page 3: CAP 2001 Algorithmes pour lapprentissage de règles à partir de données multi-instance Yann Chevaleyre et Jean-Daniel Zucker Université de Paris VI – LIP6

CAP 2001Plan

• 1) L ’apprentissage multi-instances

– La représentation multi-instances, sources de données multi-instances,

le problème d ’apprentissage multi-instances

• 2) Extension d ’un algorithme d ’apprentissage propositionnel

– Méthode, extension de l ’algorithme Ripper

• 3) Analyse de l ’extension multi-instances de Ripper

– Les littéraux contradictoires, les littéraux non significatifs, les littéraux

indiscernables

• Conclusion et perspectives

Page 4: CAP 2001 Algorithmes pour lapprentissage de règles à partir de données multi-instance Yann Chevaleyre et Jean-Daniel Zucker Université de Paris VI – LIP6

CAP 2001La représentation multi-instances: définition

labi {0,1}est représenté par

Vecteur A/V xi

exemple iest représenté par

Vecteur A/V xi,1

Vecteur A/V xi,2

Vecteur A/V xi,r

+

exemplei +

instances sac

labi {0,1}

Représentation Att/Val classique:

Représentation multi-instance:

Page 5: CAP 2001 Algorithmes pour lapprentissage de règles à partir de données multi-instance Yann Chevaleyre et Jean-Daniel Zucker Université de Paris VI – LIP6

CAP 2001Sources de données multi-instances

Les objets complexes (images, molécules, …) sont facilementLes objets complexes (images, molécules, …) sont facilementreprésentables sous forme de sacs d ’instancesreprésentables sous forme de sacs d ’instances

Atom Type Chargec 1 1.18h 3 -1,2h 2 2.78… … …

Les Les Bases de données relationelles Bases de données relationelles peuvent l ’être aussipeuvent l ’être aussi

id name age sex

1 Laura 43 f2 Joe 12 m3 Marry 24 f… … … …

id year balance1 1997 2341 1998 8031 1999 12002 1999 932

… … …

id name age sex year balance1 Laura 43 f 1997 2341 Laura 43 f 1998 8031 Laura 43 f 1999 1200

id name age sex year balance

2 Joe 12 m 1999 932… … … … … …

Des langages de représentations plus complexes (Des langages de représentations plus complexes (faits datalog,faits datalog,clauses prolog,…) clauses prolog,…) peuvent être peuvent être MI-propositionalisés MI-propositionalisés [zucker98],[zucker98],[Alphonse et Rouveirol 2000][Alphonse et Rouveirol 2000]

0,n

1

Page 6: CAP 2001 Algorithmes pour lapprentissage de règles à partir de données multi-instance Yann Chevaleyre et Jean-Daniel Zucker Université de Paris VI – LIP6

CAP 2001Le problème d ’apprentissage MI

A partir de B+,B- ensembles desacs positifs (resp. négatifs),

trouver H, hypothèse consistante

Il existe un fonction f, telle que :lab(b)=1 ssi x b, f (x)

Problème d ’apprentissageProblème d ’apprentissagemulti-instances multi-instances sans biaissans biais

biais biais single-tuplesingle-tuple

Problème Problème multi-instancesmulti-instances[Dietterich 97][Dietterich 97]

Trouver une fonction h qui couvreau moins une instancesde chaque sac positifet aucune instance des sacs négatifs

Note: la fonction Note: la fonction hh a pour a pourdomaine l ’espace des instances,domaine l ’espace des instances,et non plus l ’espace des sacs.et non plus l ’espace des sacs.

Page 7: CAP 2001 Algorithmes pour lapprentissage de règles à partir de données multi-instance Yann Chevaleyre et Jean-Daniel Zucker Université de Paris VI – LIP6

CAP 2001Extension d ’un algorithme d apprentissage de règles

Représenter Représenter l ’ensemble des sacs l ’ensemble des sacs sous la forme sous la forme d ’un d ’un ensemble de vecteursensemble de vecteurs..

att1 att21.2 c-33 a

att1 att27.9 a

b1+b1+

b2-b2-

ajout de bag-id et du

label à chaque instance

att1 att2 bag-id lab1.2 c 1 +-33 a 1 +

7.9 a 2 -

Mesurer le degré de consistance Mesurer le degré de consistance au sens multi-instances au sens multi-instances de de l ’hypothèse en cours de raffinementl ’hypothèse en cours de raffinement

Au lieu de mesurer p(r), n(r), nombre de vecteurs couverts par r,Au lieu de mesurer p(r), n(r), nombre de vecteurs couverts par r,on calcule p*(r), n*(r), le nombre de sacs dont r couvre au moinson calcule p*(r), n*(r), le nombre de sacs dont r couvre au moinsune instanceune instance

Page 8: CAP 2001 Algorithmes pour lapprentissage de règles à partir de données multi-instance Yann Chevaleyre et Jean-Daniel Zucker Université de Paris VI – LIP6

CAP 2001Extension de l ’algorithme Ripper (Cohen 95)

• RipperRipper (Cohen 95) est un algorithme d ’apprentissage de règles (Cohen 95) est un algorithme d ’apprentissage de règlesrapide, pouvant traiter un grand nombre d ’exemples, et se rapide, pouvant traiter un grand nombre d ’exemples, et se comparant à C4.5comparant à C4.5• Naive-RipperMi Naive-RipperMi est l ’extension de Ripper au cas multi-instancesest l ’extension de Ripper au cas multi-instances

Algorithme Accuracy Type d'hypothèseIterated Discrimin 92.4 APRDiverse Density 88.9 point dans l'espace des instRipper-MI 88 ens. de règles (avg 7 litterals)Tilde 87 arbre de décision d'ordre 1All positive APR 80.4 APRMulti-Inst 76.7 APR

Naive-Ripper-MINaive-Ripper-MI a été testé sur les bases multi-instances a été testé sur les bases multi-instances musk musk (Dietterich 97). Sur (Dietterich 97). Sur musk1 musk1 (5,2 instances par sac en moyenne), il (5,2 instances par sac en moyenne), il obtint de bonnes performances. Sur obtint de bonnes performances. Sur musk2musk2 (65 instances par sac), (65 instances par sac),performances très moyennes (77%). performances très moyennes (77%).

Page 9: CAP 2001 Algorithmes pour lapprentissage de règles à partir de données multi-instance Yann Chevaleyre et Jean-Daniel Zucker Université de Paris VI – LIP6

CAP 2001Analyse de l ’algorithme Naive-RipperMI

Objectif: Analyse des pathologies liées au problème multi-instances Objectif: Analyse des pathologies liées au problème multi-instances et à l ’algorithme et à l ’algorithme Naive-Ripper-MINaive-Ripper-MI..

5 sacs5 sacspositifs:positifs:

• le sac des triangles blancs• le sac des carrés blancs...

• le sac des triangles noirs• le sac des carrés noirs...

5 sacs 5 sacs négatifs: négatifs:

Y

X2 4 6 8 10 12

2

4

6

8

Les littéraux contradictoiresLes littéraux contradictoires

Les littéraux non significatifsLes littéraux non significatifs

Les littéraux indiscernablesLes littéraux indiscernables

Moyen: étude de NaiveRipperMi sur une BD simpleMoyen: étude de NaiveRipperMi sur une BD simple

Page 10: CAP 2001 Algorithmes pour lapprentissage de règles à partir de données multi-instance Yann Chevaleyre et Jean-Daniel Zucker Université de Paris VI – LIP6

CAP 2001

Tâche d ’apprentissage: découvrir une règle couvrant Tâche d ’apprentissage: découvrir une règle couvrant au moinsune instance de chaque sac positifde chaque sac positif

Concept cible : Concept cible :

Y

X2 4 6 8 10 12

2

4

6

X > 5X > 5 & X < 9& X < 9 & Y > 3& Y > 3

Analyse de l ’algorithme Naive-RipperMI

Page 11: CAP 2001 Algorithmes pour lapprentissage de règles à partir de données multi-instance Yann Chevaleyre et Jean-Daniel Zucker Université de Paris VI – LIP6

CAP 2001

Y

X2 4 6 8 10 12

2

4

6

11ièreière étape: Naive-RipperMi génère une première règle étape: Naive-RipperMi génère une première règle

X > 11X > 11 & Y < 5& Y < 5

Analyse de Naive-RipperMi: les littéraux contradictoires

Concept cible : Concept cible : X > 5X > 5 & & X < 9X < 9 & Y > 3& Y > 3

Littérauxcontradictoires

Page 12: CAP 2001 Algorithmes pour lapprentissage de règles à partir de données multi-instance Yann Chevaleyre et Jean-Daniel Zucker Université de Paris VI – LIP6

CAP 2001

Y

X2 4 6 8 10 12

2

4

6

2ième étape: Naive-RipperMi supprime le(s) sac(s) couvert(s) par2ième étape: Naive-RipperMi supprime le(s) sac(s) couvert(s) parla règle induite, et induit une nouvelle règle...la règle induite, et induit une nouvelle règle...

Analyse de Naive-RipperMi: les littéraux contradictoires

Page 13: CAP 2001 Algorithmes pour lapprentissage de règles à partir de données multi-instance Yann Chevaleyre et Jean-Daniel Zucker Université de Paris VI – LIP6

CAP 2001Analyse de Naive-RipperMi: les littéraux contradictoires

Phénomène Phénomène spécifiquement multi-instances

Contrairement aux autres pathologies mono-instances (overfitting,Contrairement aux autres pathologies mono-instances (overfitting, problèmes de sélection d ’attributs), problèmes de sélection d ’attributs), l ’accroissement du nombre d ’exemples ne résout rien.

On ne peut pas « rattraper » une règle comportant un littéralOn ne peut pas « rattraper » une règle comportant un littéral contradictoire par raffinage successifs contradictoire par raffinage successifs

Le principe de l ’algorithme par couverture élimine réduit les chancesLe principe de l ’algorithme par couverture élimine réduit les chances de trouver le concept cible de trouver le concept cible

Si le littéral Si le littéral ll est contradictoire, alors est contradictoire, alors ll ne l ’est pas. ne l ’est pas.

Il suffit donc, lorsqu ’on choisit le littéral Il suffit donc, lorsqu ’on choisit le littéral l l d ’examinerd ’examiner

en même temps en même temps ll => => partition de l ’espace des instances

Page 14: CAP 2001 Algorithmes pour lapprentissage de règles à partir de données multi-instance Yann Chevaleyre et Jean-Daniel Zucker Université de Paris VI – LIP6

CAP 2001Analyse de Naive-RipperMi: les littéraux contradictoires

2 4 12

Y

X6 8 10

2

4

6

Construction d ’une Construction d ’une partition de l ’espace des instancesde l ’espace des instances

On extrait la meilleure règle : X < 11 & Y < 6 & X > 5 & Y > 3On extrait la meilleure règle : X < 11 & Y < 6 & X > 5 & Y > 3

Page 15: CAP 2001 Algorithmes pour lapprentissage de règles à partir de données multi-instance Yann Chevaleyre et Jean-Daniel Zucker Université de Paris VI – LIP6

CAP 2001Analyse de Naive-RipperMi: les littéraux non significatifs

En apprentissage multi-instances, les littéraux En apprentissage multi-instances, les littéraux non significatifs peuvent se trouver n ’importe où dans la règle, et peuvent se trouver n ’importe où dans la règle, et non plus seulement à la finnon plus seulement à la fin

Utiliser un élagage Utiliser un élagage global

Y

X2 4 6 8 10 12

2

4

6

Y < 6 & Y > 3 & X > 5 & X < 9Y < 6 & Y > 3 & X > 5 & X < 9

Page 16: CAP 2001 Algorithmes pour lapprentissage de règles à partir de données multi-instance Yann Chevaleyre et Jean-Daniel Zucker Université de Paris VI – LIP6

CAP 2001

X

Y

2 4 6 8 10 12

2

4

6

Analyse de Naive-RipperMi: les littéraux indiscernables

Quand le nombre d ’instances par sac augmente, les littéraux Quand le nombre d ’instances par sac augmente, les littéraux initiaux couvrent tous les sacs. initiaux couvrent tous les sacs. On ne dispose pas d ’assez d ’information pour en choisir un

Page 17: CAP 2001 Algorithmes pour lapprentissage de règles à partir de données multi-instance Yann Chevaleyre et Jean-Daniel Zucker Université de Paris VI – LIP6

CAP 2001

X

Y

2 4 6 8 10 12

2

4

6

Quand le nombre d ’instances par sac augmente, les littéraux Quand le nombre d ’instances par sac augmente, les littéraux initiaux couvrent tous les sacs. initiaux couvrent tous les sacs. On ne dispose pas d ’assez d ’information pour en choisir un

Analyse de Naive-RipperMi: les littéraux indiscernables

Page 18: CAP 2001 Algorithmes pour lapprentissage de règles à partir de données multi-instance Yann Chevaleyre et Jean-Daniel Zucker Université de Paris VI – LIP6

CAP 2001Analyse de Naive-RipperMi: les littéraux indiscernables

Solution : Solution : Prendre en compte le nombre d ’instances couverts à l ’aide d ’un modèle sur les données

Calculer Pr(instance couverte Calculer Pr(instance couverte concept cible) concept cible)

X

Y

2 4 6 8 10 12

2

4

6

Concept cible

Y > 5

Page 19: CAP 2001 Algorithmes pour lapprentissage de règles à partir de données multi-instance Yann Chevaleyre et Jean-Daniel Zucker Université de Paris VI – LIP6

CAP 2001Analyse de Naive-RipperMi: les littéraux indiscernables

Modèle choisit: Un sac b+ ayant r instances est composé de:Modèle choisit: Un sac b+ ayant r instances est composé de:

1 instance 1 instance concept cible concept cibler-1 instances tirées aléatoirement d ’une distribution r-1 instances tirées aléatoirement d ’une distribution DD

Calcul de Pr(instance couverte Calcul de Pr(instance couverte concept cible) concept cible)

Page 20: CAP 2001 Algorithmes pour lapprentissage de règles à partir de données multi-instance Yann Chevaleyre et Jean-Daniel Zucker Université de Paris VI – LIP6

CAP 2001

Ce phénomène est fréquent lorsque ne nombre d ’instances Ce phénomène est fréquent lorsque ne nombre d ’instances par sac est grand par sac est grand

Construire une Construire une partition de l ’espace des instancesde l ’espace des instances

Page 21: CAP 2001 Algorithmes pour lapprentissage de règles à partir de données multi-instance Yann Chevaleyre et Jean-Daniel Zucker Université de Paris VI – LIP6

CAP 2001

Nombre d ’instances par sac

Tau

x d 

’err

eur

(%)