big data developers in paris presentation : social data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Pump it up !

Atouati Samed - Lamrani Alaoui Abdellah

Ecole Centrale Paris - IBM

March 20, 2017

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !


Qui sommes nous ?


Pump it up !


Présentation du projetContexteExploration du dataset

Notre approcheData Science et Machine LearningFeature engineeringModèles de Machine LearningProposition d’améliorations

Visualisation

Feedback : Data Science Experience


Pump it up !


Contexte

Contexte

§ Data Challenge : https://www.drivendata.org/§ Données fournies par le ministère des eaux de Tanzanie et

Taarifa (une plateforme web collaborative à caractèresociale).

§ But : Prédire le caractère "fonctionnel", "fonctionnel mais abesoin de réparation" et "non fonctionnel" de pompes àeaux en Tanzanie.


Pump it up !


Exploration du dataset

Exploration du dataset§ Pour prédire la fonctionnalité des pompes nous avons à

notre disposition 40 variables dont :§ la position géographique§ l’installateur§ le type de pompe§ . . . (exploration sur le notebook)


Pump it up !


Data Science et Machine Learning

La Data Science


Pump it up !


Feature engineering

Feature engineering

Présentation du feature engineering dans le notebook.


Pump it up !


Feature engineering

Machine Learning

§ Apprentissage par l’exemple pour un but d’analyseprédictive.

§ Principalement 2 types d’Apprentissage :§ Apprentissage supervisé (Régression, Classification)§ Apprentissage non supervisé (Clustering)


Pump it up !


Feature engineering

Méthodologie


Pump it up !


Modèles de Machine Learning

SVM§ Modèle basé sur la construction d’un hyperplan

séparateur. Le but est de trouver l’hyperplan qui sépare lemieux les données avec la plus grande marge (pouvoir degénéralisation).

Figure: SVM : hyperplan séparateur


Pump it up !



SVM (l’astuce du noyau)

Figure: SVM : astuce du noyau


Pump it up !



Résultats

Figure: SVM : Résultats - Crossvalidation


Pump it up !



Remarques

§ SVM est un modèle intéressant car facile d’utilisation estqui permet de gérer des données non linéaires mais . . .

§ Résultats sur le test set : 0.54 de précision.§ SVM est meilleur quand il n’y a pas beaucoup de données.

Random Forest performe mieux quand le nombre dedonnées est élevé.


Pump it up !



Random Forest (1)§ Méthode basée sur des arbres décisionnels :

Figure: Exemple d’arbre de décision


Pump it up !



Random Forest (2)

§ Il s’agit alors d’un classifieur construit à partir desdécisions de nombreux arbres décisionnels générés.

§ Les arbres sont construits à partir de données générées(bootstrap / bagging).

§ A partir des votes des différents arbres, une décision estprise.

§ Les forêts aléatoires sont un type d’algorithme avec l’unedes meilleures performances de nos jours.


Pump it up !



Résultats

Figure: Résultats sur le cross-validation set: Random Forest


Pump it up !



Remarques

§ Random Forest est un modèle très intéressant car permetde directement prendre en compte les variablescatégoriques et s’adapte bien aux valeurs manquantes.

§ Il s’agit d’une application directe du bagging pourdiminuer la variance. L’idée derrière l’algorithme estintuitive mais il n’y a pas de preuves théoriques de sesperformances.

§ Nous avons obtenu un résultat sur le test set de : 0.73.


Pump it up !



Gradient Boosting Classifier (1)§ Methode basée sur un algorithme d’optimisation :

Gradient Descent.

Figure: Gradient Descent


Pump it up !



Gradient Boosting Classifier (2)

§ On considère une famille de classifieurs, par exemple lesarbres décisionnels.

§ On considère aussi une fonction de coût fonction desclassifieurs:

J(F(x)) = 7errors

§ On applique l’algorithme gradient descent à la fonction decoût et on aboutit au classifieur minimisant l’erreur.


Pump it up !



Résultats

Figure: Résultats sur le cross-validation set: Gradient Boosting


Pump it up !



Remarques

§ Le modèle Gradient Boosting avec les arbres de décisionest intéressant car permet parfois d’obtenir de meilleursrésultats que Random Forest.

§ L’inconvénient est que le modèle est séquentiel,contrairement à Random Forest qui a l’avantage depouvoir être parallélisé.



Pump it up !



Stacking

Figure: Stacking


Pump it up !



Résultats

Figure: Résultats des différents modèles sur le cross-validation set.


Pump it up !



Commentaires

§ Le gradient boosting donne de meilleurs résultats que lesforêts aléatoires et la régression logistique. Et le stackingaméliore légèrement la performance obtenue par legradient boosting.

§ Cependant le modèle est pour l’homme riche qui abeaucoup de données.



Pump it up !


Proposition d’améliorations

Proposition d’améliorations

§ Chercher à construire de nouvelles features, soit enconsidérant les données d’origine, soit en combinant lesfeatures déjà obtenues.

§ Essayer les techniques du type apprentissage de métrique+ clustering. L’apprentissage de métrique permettrait derapprocher les observations ayant la même classe tout enéloignant celles dont la classe diffère entre elles.

§ Avec plus de puissance de calcul, essayer les réseaux deneurones et les combiner avec les autres modèles.


Pump it up !


Application web


Pump it up !


Feedback


Pump it up !


Une plateforme prometteuse . . .

§ Une collaboration facilitée.§ Un accès rapide à différentes ressources (notebooks,

tutoriels, données).§ Une boîte à outil adaptée au Data Scientist (Python,

Rstudio, Spark ..).§ Un service d’aide réactive et efficace.§ Un système facile à prendre en main.


Pump it up !


. . . à améliorer

§ Probleme de vitesse d’exécution des scripts.§ Pas de collaboration possible sur Rstudio.§ Il n’y a pas de moyens simples pour inclure directement

des images dans les notebooks.§ Ecriture de fichiers n’est pas immédiate.


Pump it up !


Merci pour votre attention


Pump it up !


Contacts :

§ Abdellah Lamrani Alaoui :§ [email protected]

§ Samed Atouati :§ [email protected]


Pump it up !

big data developers in paris presentation : social data

Data & Analytics