apprendre le sanghtml.transferts-lr.org/mas_ml3003.pdfi selon des lois de student et pas des lois...

31
Sp´ ecificit´ e des donn´ ees flowCyt Recalage Apprentissage avec mod` ele Apprentissage par arbre Apprendre le sang Journ´ ee technique Machine Learning Transfert LR Andr´ e Mas, IMAG-UM 30 Mars 2017 Apprendre le sang 30 Mars 2017 1 / 23

Upload: others

Post on 26-Mar-2021

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

Apprendre le sangJournee technique Machine Learning Transfert LR

Andre Mas, IMAG-UM

30 Mars 2017

Apprendre le sang 30 Mars 2017 1 / 23

Page 2: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

Deux projets autour de la cytometrie en flux (CMF) :

Satt AxLR ⇒ Renaud Cezar

Horiba ⇒ Sebastien Raimbault

C. Carre, B. Charlier, A.M.(IMAG), P. Pudlo (Univ.Marseille)

Apprendre le sang 30 Mars 2017 2 / 23

Page 3: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

Deux projets autour de la cytometrie en flux (CMF) :

Satt AxLR ⇒ Renaud Cezar

Horiba ⇒ Sebastien Raimbault

C. Carre, B. Charlier, A.M.(IMAG), P. Pudlo (Univ.Marseille)

Apprendre le sang 30 Mars 2017 2 / 23

Page 4: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

Satt AxLR ⇒ Renaud Cezar

Horiba ⇒ Sebastien Raimbault

C. Carre, B. Charlier, A.M.(IMAG), P. Pudlo (Univ.Marseille)

Objectif ici :

Presenter des methodes de ML efficaces pour laclassification des cellules dans un cadre CMF en

hematologie/cancerologie/immunologie

Apprendre le sang 30 Mars 2017 2 / 23

Page 5: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

Plan

1 Specificite des donnees flowCyt

2 Recalage

3 Apprentissage avec modele

4 Apprentissage par arbre

Apprendre le sang 30 Mars 2017 3 / 23

Page 6: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

Grandes matrices numeriques : 15 colonnes et plusieurscentaines de milliers/plusieurs millions de lignes.

1 ligne = 1 cellule, 1 colonne = 1 descripteur

Pretraitement crucial : elimination des artefacts/debris +transformations non lineaires des variables.

Forte variabilite inter-individuelle mais aussi temporelle aindividu fixe.

Specificite des donnees flowCyt Apprendre le sang 30 Mars 2017 4 / 23

Page 7: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

Figure: Le meme patient au debut du taitement (gauche : ACP a t1) eten cours (droite : resultat a t2 projete sur l’ACP a t1).

Specificite des donnees flowCyt Apprendre le sang 30 Mars 2017 5 / 23

Page 8: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

Figure: Deux patients distincts - Gauche : ACP du patient 1 puis droite :projection du patient 2 sur l’ACP du patient 1.

Specificite des donnees flowCyt Apprendre le sang 30 Mars 2017 6 / 23

Page 9: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

La differenciation cellulaire, source de difficulte pour laclassification en cyto :

Les classes peuvent etre contigues/peu separees les unes des autres.

Specificite des donnees flowCyt Apprendre le sang 30 Mars 2017 7 / 23

Page 10: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

1 Specificite des donnees flowCyt

2 Recalage

3 Apprentissage avec modele

4 Apprentissage par arbre

Specificite des donnees flowCyt Apprendre le sang 30 Mars 2017 8 / 23

Page 11: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

Recalage

Objectif : “Recentrage” d’un nuage test sur un nuage dereference

Recalage non rigide via un diffeomorphisme

Methode issue de l’imagerie medicale

Une bonne video vaut mieux qu’un long discours

Recalage Apprendre le sang 30 Mars 2017 9 / 23

Page 12: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

Plan

1 Specificite des donnees flowCyt

2 Recalage

3 Apprentissage avec modele

4 Apprentissage par arbre

Recalage Apprendre le sang 30 Mars 2017 10 / 23

Page 13: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

Graphe de la densite de probabilite d’un melange de n=3distributions :

Apprentissage avec modele Apprendre le sang 30 Mars 2017 11 / 23

Page 14: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

Apprentissage avec modele : melange de Student

Melange de lois de probabilites = nouvelle loi de probabiliteavec plusieurs modes (ou bosses).

Permettent de modeliser des populations avec caracteristiquesheterogenes (moyennes differentes).

Definition mathematique :

f (x) =∑n

i=1 πi fi (x)

Les fi sont des densites de probabilite.

Les poids πi sont positifs et∑n

i=1 πi = 1.

On modelise ainsi n clusters Ci et les πi sont vues comme desproba d’appartenance a Ci .

Apprentissage avec modele Apprendre le sang 30 Mars 2017 12 / 23

Page 15: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

Ici on choisit les fi selon des lois de Student et pas des loisnormales/Gaussiennes.

Apprentissage avec modele Apprendre le sang 30 Mars 2017 13 / 23

Page 16: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

Methode d’estimation des melanges de Student

Optimisation d’un critere base sur la vraisemblance

Training = Donnees observees vs Donnees test 7→ Donneesmanquantes

Methode de type EM

Differents strategies possibles d’initialisation (k-means, CAH,expert...)

Apprentissage avec modele Apprendre le sang 30 Mars 2017 14 / 23

Page 17: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

Methode d’estimation des melanges de Student

Optimisation d’un critere base sur la vraisemblance

Training = Donnees observees vs Donnees test 7→ Donneesmanquantes

Methode de type EM

Differents strategies possibles d’initialisation (k-means, CAH,expert...)

Apprentissage avec modele Apprendre le sang 30 Mars 2017 14 / 23

Page 18: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

Un exemple de clustering de donnees cyto par melange de Student :

Apprentissage avec modele Apprendre le sang 30 Mars 2017 15 / 23

Page 19: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

Plan

1 Specificite des donnees flowCyt

2 Recalage

3 Apprentissage avec modele

4 Apprentissage par arbre

Apprentissage avec modele Apprendre le sang 30 Mars 2017 16 / 23

Page 20: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

Un exemple d’arbre de classification en cyto

CART method to discriminate Bcll/Bnormal/noneCART method to discriminate Bcll/Bnormal/noneCART method to discriminate Bcll/Bnormal/noneCART method to discriminate Bcll/Bnormal/noneCART method to discriminate Bcll/Bnormal/noneCART method to discriminate Bcll/Bnormal/noneCART method to discriminate Bcll/Bnormal/noneCART method to discriminate Bcll/Bnormal/noneCART method to discriminate Bcll/Bnormal/noneCART method to discriminate Bcll/Bnormal/noneCART method to discriminate Bcll/Bnormal/noneCART method to discriminate Bcll/Bnormal/noneCART method to discriminate Bcll/Bnormal/noneCART method to discriminate Bcll/Bnormal/none

CD19.PC7 >= 228

CD38.APC < 54

SS.INT < 204

ROR1.PE >= 16

SS.INT < 200

.02 .00 .98

.79 .09 .12

.96 .02 .02

.98 .02 .00

.99 .00 .00 .00 1.00 .00

.00 .00 1.00

.02 .44 .53

.05 .91 .04 .00 .00 1.00

.00 .00 1.00

none

Bcll

Bcll

Bcll

Bcll Bnormal

none

none

Bnormal none

none

yes no

Apprentissage par arbre Apprendre le sang 30 Mars 2017 17 / 23

Page 21: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

Le principe de CART en image:

Apprentissage par arbre Apprendre le sang 30 Mars 2017 18 / 23

Page 22: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

Le principe de CART pour la classification :

Construction d’un arbre binaire selon la regle “Divide and conquer”

i A chaque noeud les donnees restantes sont divisees en 2.

ii Via un critere de coupe (indice de Gini) on parcourt alors :

les variables pour detecter la plus separantele domaine de ces variables pour determiner la valeur du cut-off

iii Arret sur critere de purete ou de nombre de feuille minimal

iv La classe majoritaire parmi les feuilles est retenue.

Version automatisee et non-subjective du gating manuelProbleme avec l’approche precedente : l’arbre peut etre tropgrand... 7→ Surapprentissage (overfitting)

Apprentissage par arbre Apprendre le sang 30 Mars 2017 19 / 23

Page 23: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

Le principe de CART pour la classification :

Construction d’un arbre binaire selon la regle “Divide and conquer”Version automatisee et non-subjective du gating manuel

Probleme avec l’approche precedente : l’arbre peut etre tropgrand... 7→ Surapprentissage (overfitting)

Apprentissage par arbre Apprendre le sang 30 Mars 2017 19 / 23

Page 24: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

Le principe de CART pour la classification :

Construction d’un arbre binaire selon la regle “Divide and conquer”Version automatisee et non-subjective du gating manuelProbleme avec l’approche precedente : l’arbre peut etre tropgrand... 7→ Surapprentissage (overfitting)

Apprentissage par arbre Apprendre le sang 30 Mars 2017 19 / 23

Page 25: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

L’elagage: “Inside every big tree is a small, perfect tree waiting to come out”

Raccourcir un arbre ∼ lisser un signal bruite

i Generalisation (peu profond) vs Precision (profond)

ii Qualite de prediction sur donnees test vs Adequation auxdonnees de training

Critere: minT {R (T ) + α |T |}

R (T ) : Risque de l’arbre T - petit si arbre profond|T | : nombre de noeuds terminaux - grand si arbre profondα : parametre de complexite - calibre par validation croisee

Apprentissage par arbre Apprendre le sang 30 Mars 2017 20 / 23

Page 26: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

L’elagage: “Inside every big tree is a small, perfect tree waiting to come out”

Critere: minT {R (T ) + α |T |}

R (T ) : Risque de l’arbre T - petit si arbre profond|T | : nombre de noeuds terminaux - grand si arbre profondα : parametre de complexite - calibre par validation croisee

Apprentissage par arbre Apprendre le sang 30 Mars 2017 20 / 23

Page 27: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

Le principe des Random Forests : Wisdom of crowds

Double Bagging sur CART

Construction de B arbres sous optimaux par randomisation(weak learners)

Le label majoritaire sur ces B arbres est garde (agregation)

Amelioration des performances par rapport a un seul arbremais couteux en temps de calcul.Probleme : Boıte noire, pas d’interpretation possible contrairementa CART

Apprentissage par arbre Apprendre le sang 30 Mars 2017 21 / 23

Page 28: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

Le principe des Random Forests : Wisdom of crowds

Double Bagging sur CART

Construction de B arbres sous optimaux par randomisation(weak learners)

Le label majoritaire sur ces B arbres est garde (agregation)

Amelioration des performances par rapport a un seul arbremais couteux en temps de calcul.

Probleme : Boıte noire, pas d’interpretation possible contrairementa CART

Apprentissage par arbre Apprendre le sang 30 Mars 2017 21 / 23

Page 29: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

Le principe des Random Forests : Wisdom of crowds

Double Bagging sur CART

Construction de B arbres sous optimaux par randomisation(weak learners)

Le label majoritaire sur ces B arbres est garde (agregation)

Amelioration des performances par rapport a un seul arbremais couteux en temps de calcul.Probleme : Boıte noire, pas d’interpretation possible contrairementa CART

Apprentissage par arbre Apprendre le sang 30 Mars 2017 21 / 23

Page 30: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

Apprentissage par arbre Apprendre le sang 30 Mars 2017 22 / 23

Page 31: Apprendre le sanghtml.transferts-lr.org/MAS_ML3003.pdfi selon des lois de Student et pas des lois normales/Gaussiennes. Apprentissage avec mod ele Apprendre le sang 30 Mars 2017 13

Specificite des donnees flowCyt Recalage Apprentissage avec modele Apprentissage par arbre

Merci pour votre attention !

Apprentissage par arbre Apprendre le sang 30 Mars 2017 23 / 23