apprendre le sanghtml.transferts-lr.org/mas_ml3003.pdfi selon des lois de student et pas des lois...
TRANSCRIPT
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
Apprendre le sangJournee technique Machine Learning Transfert LR
Andre Mas, IMAG-UM
30 Mars 2017
Apprendre le sang 30 Mars 2017 1 / 23
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
Deux projets autour de la cytometrie en flux (CMF) :
Satt AxLR ⇒ Renaud Cezar
Horiba ⇒ Sebastien Raimbault
C. Carre, B. Charlier, A.M.(IMAG), P. Pudlo (Univ.Marseille)
Apprendre le sang 30 Mars 2017 2 / 23
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
Deux projets autour de la cytometrie en flux (CMF) :
Satt AxLR ⇒ Renaud Cezar
Horiba ⇒ Sebastien Raimbault
C. Carre, B. Charlier, A.M.(IMAG), P. Pudlo (Univ.Marseille)
Apprendre le sang 30 Mars 2017 2 / 23
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
Satt AxLR ⇒ Renaud Cezar
Horiba ⇒ Sebastien Raimbault
C. Carre, B. Charlier, A.M.(IMAG), P. Pudlo (Univ.Marseille)
Objectif ici :
Presenter des methodes de ML efficaces pour laclassification des cellules dans un cadre CMF en
hematologie/cancerologie/immunologie
Apprendre le sang 30 Mars 2017 2 / 23
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
Plan
1 Specificite des donnees flowCyt
2 Recalage
3 Apprentissage avec modele
4 Apprentissage par arbre
Apprendre le sang 30 Mars 2017 3 / 23
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
Grandes matrices numeriques : 15 colonnes et plusieurscentaines de milliers/plusieurs millions de lignes.
1 ligne = 1 cellule, 1 colonne = 1 descripteur
Pretraitement crucial : elimination des artefacts/debris +transformations non lineaires des variables.
Forte variabilite inter-individuelle mais aussi temporelle aindividu fixe.
Specificite des donnees flowCyt Apprendre le sang 30 Mars 2017 4 / 23
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
Figure: Le meme patient au debut du taitement (gauche : ACP a t1) eten cours (droite : resultat a t2 projete sur l’ACP a t1).
Specificite des donnees flowCyt Apprendre le sang 30 Mars 2017 5 / 23
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
Figure: Deux patients distincts - Gauche : ACP du patient 1 puis droite :projection du patient 2 sur l’ACP du patient 1.
Specificite des donnees flowCyt Apprendre le sang 30 Mars 2017 6 / 23
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
La differenciation cellulaire, source de difficulte pour laclassification en cyto :
Les classes peuvent etre contigues/peu separees les unes des autres.
Specificite des donnees flowCyt Apprendre le sang 30 Mars 2017 7 / 23
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
1 Specificite des donnees flowCyt
2 Recalage
3 Apprentissage avec modele
4 Apprentissage par arbre
Specificite des donnees flowCyt Apprendre le sang 30 Mars 2017 8 / 23
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
Recalage
Objectif : “Recentrage” d’un nuage test sur un nuage dereference
Recalage non rigide via un diffeomorphisme
Methode issue de l’imagerie medicale
Une bonne video vaut mieux qu’un long discours
Recalage Apprendre le sang 30 Mars 2017 9 / 23
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
Plan
1 Specificite des donnees flowCyt
2 Recalage
3 Apprentissage avec modele
4 Apprentissage par arbre
Recalage Apprendre le sang 30 Mars 2017 10 / 23
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
Graphe de la densite de probabilite d’un melange de n=3distributions :
Apprentissage avec modele Apprendre le sang 30 Mars 2017 11 / 23
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
Apprentissage avec modele : melange de Student
Melange de lois de probabilites = nouvelle loi de probabiliteavec plusieurs modes (ou bosses).
Permettent de modeliser des populations avec caracteristiquesheterogenes (moyennes differentes).
Definition mathematique :
f (x) =∑n
i=1 πi fi (x)
Les fi sont des densites de probabilite.
Les poids πi sont positifs et∑n
i=1 πi = 1.
On modelise ainsi n clusters Ci et les πi sont vues comme desproba d’appartenance a Ci .
Apprentissage avec modele Apprendre le sang 30 Mars 2017 12 / 23
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
Ici on choisit les fi selon des lois de Student et pas des loisnormales/Gaussiennes.
Apprentissage avec modele Apprendre le sang 30 Mars 2017 13 / 23
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
Methode d’estimation des melanges de Student
Optimisation d’un critere base sur la vraisemblance
Training = Donnees observees vs Donnees test 7→ Donneesmanquantes
Methode de type EM
Differents strategies possibles d’initialisation (k-means, CAH,expert...)
Apprentissage avec modele Apprendre le sang 30 Mars 2017 14 / 23
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
Methode d’estimation des melanges de Student
Optimisation d’un critere base sur la vraisemblance
Training = Donnees observees vs Donnees test 7→ Donneesmanquantes
Methode de type EM
Differents strategies possibles d’initialisation (k-means, CAH,expert...)
Apprentissage avec modele Apprendre le sang 30 Mars 2017 14 / 23
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
Un exemple de clustering de donnees cyto par melange de Student :
Apprentissage avec modele Apprendre le sang 30 Mars 2017 15 / 23
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
Plan
1 Specificite des donnees flowCyt
2 Recalage
3 Apprentissage avec modele
4 Apprentissage par arbre
Apprentissage avec modele Apprendre le sang 30 Mars 2017 16 / 23
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
Un exemple d’arbre de classification en cyto
CART method to discriminate Bcll/Bnormal/noneCART method to discriminate Bcll/Bnormal/noneCART method to discriminate Bcll/Bnormal/noneCART method to discriminate Bcll/Bnormal/noneCART method to discriminate Bcll/Bnormal/noneCART method to discriminate Bcll/Bnormal/noneCART method to discriminate Bcll/Bnormal/noneCART method to discriminate Bcll/Bnormal/noneCART method to discriminate Bcll/Bnormal/noneCART method to discriminate Bcll/Bnormal/noneCART method to discriminate Bcll/Bnormal/noneCART method to discriminate Bcll/Bnormal/noneCART method to discriminate Bcll/Bnormal/noneCART method to discriminate Bcll/Bnormal/none
CD19.PC7 >= 228
CD38.APC < 54
SS.INT < 204
ROR1.PE >= 16
SS.INT < 200
.02 .00 .98
.79 .09 .12
.96 .02 .02
.98 .02 .00
.99 .00 .00 .00 1.00 .00
.00 .00 1.00
.02 .44 .53
.05 .91 .04 .00 .00 1.00
.00 .00 1.00
none
Bcll
Bcll
Bcll
Bcll Bnormal
none
none
Bnormal none
none
yes no
Apprentissage par arbre Apprendre le sang 30 Mars 2017 17 / 23
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
Le principe de CART en image:
Apprentissage par arbre Apprendre le sang 30 Mars 2017 18 / 23
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
Le principe de CART pour la classification :
Construction d’un arbre binaire selon la regle “Divide and conquer”
i A chaque noeud les donnees restantes sont divisees en 2.
ii Via un critere de coupe (indice de Gini) on parcourt alors :
les variables pour detecter la plus separantele domaine de ces variables pour determiner la valeur du cut-off
iii Arret sur critere de purete ou de nombre de feuille minimal
iv La classe majoritaire parmi les feuilles est retenue.
Version automatisee et non-subjective du gating manuelProbleme avec l’approche precedente : l’arbre peut etre tropgrand... 7→ Surapprentissage (overfitting)
Apprentissage par arbre Apprendre le sang 30 Mars 2017 19 / 23
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
Le principe de CART pour la classification :
Construction d’un arbre binaire selon la regle “Divide and conquer”Version automatisee et non-subjective du gating manuel
Probleme avec l’approche precedente : l’arbre peut etre tropgrand... 7→ Surapprentissage (overfitting)
Apprentissage par arbre Apprendre le sang 30 Mars 2017 19 / 23
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
Le principe de CART pour la classification :
Construction d’un arbre binaire selon la regle “Divide and conquer”Version automatisee et non-subjective du gating manuelProbleme avec l’approche precedente : l’arbre peut etre tropgrand... 7→ Surapprentissage (overfitting)
Apprentissage par arbre Apprendre le sang 30 Mars 2017 19 / 23
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
L’elagage: “Inside every big tree is a small, perfect tree waiting to come out”
Raccourcir un arbre ∼ lisser un signal bruite
i Generalisation (peu profond) vs Precision (profond)
ii Qualite de prediction sur donnees test vs Adequation auxdonnees de training
Critere: minT {R (T ) + α |T |}
R (T ) : Risque de l’arbre T - petit si arbre profond|T | : nombre de noeuds terminaux - grand si arbre profondα : parametre de complexite - calibre par validation croisee
Apprentissage par arbre Apprendre le sang 30 Mars 2017 20 / 23
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
L’elagage: “Inside every big tree is a small, perfect tree waiting to come out”
Critere: minT {R (T ) + α |T |}
R (T ) : Risque de l’arbre T - petit si arbre profond|T | : nombre de noeuds terminaux - grand si arbre profondα : parametre de complexite - calibre par validation croisee
Apprentissage par arbre Apprendre le sang 30 Mars 2017 20 / 23
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
Le principe des Random Forests : Wisdom of crowds
Double Bagging sur CART
Construction de B arbres sous optimaux par randomisation(weak learners)
Le label majoritaire sur ces B arbres est garde (agregation)
Amelioration des performances par rapport a un seul arbremais couteux en temps de calcul.Probleme : Boıte noire, pas d’interpretation possible contrairementa CART
Apprentissage par arbre Apprendre le sang 30 Mars 2017 21 / 23
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
Le principe des Random Forests : Wisdom of crowds
Double Bagging sur CART
Construction de B arbres sous optimaux par randomisation(weak learners)
Le label majoritaire sur ces B arbres est garde (agregation)
Amelioration des performances par rapport a un seul arbremais couteux en temps de calcul.
Probleme : Boıte noire, pas d’interpretation possible contrairementa CART
Apprentissage par arbre Apprendre le sang 30 Mars 2017 21 / 23
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
Le principe des Random Forests : Wisdom of crowds
Double Bagging sur CART
Construction de B arbres sous optimaux par randomisation(weak learners)
Le label majoritaire sur ces B arbres est garde (agregation)
Amelioration des performances par rapport a un seul arbremais couteux en temps de calcul.Probleme : Boıte noire, pas d’interpretation possible contrairementa CART
Apprentissage par arbre Apprendre le sang 30 Mars 2017 21 / 23
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
Apprentissage par arbre Apprendre le sang 30 Mars 2017 22 / 23
Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre
Merci pour votre attention !
Apprentissage par arbre Apprendre le sang 30 Mars 2017 23 / 23