big data developers in paris presentation : social data
TRANSCRIPT
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Pump it up !
Atouati Samed - Lamrani Alaoui Abdellah
Ecole Centrale Paris - IBM
March 20, 2017
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Qui sommes nous ?
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Présentation du projetContexteExploration du dataset
Notre approcheData Science et Machine LearningFeature engineeringModèles de Machine LearningProposition d’améliorations
Visualisation
Feedback : Data Science Experience
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Contexte
Contexte
§ Data Challenge : https://www.drivendata.org/§ Données fournies par le ministère des eaux de Tanzanie et
Taarifa (une plateforme web collaborative à caractèresociale).
§ But : Prédire le caractère "fonctionnel", "fonctionnel mais abesoin de réparation" et "non fonctionnel" de pompes àeaux en Tanzanie.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Exploration du dataset
Exploration du dataset§ Pour prédire la fonctionnalité des pompes nous avons à
notre disposition 40 variables dont :§ la position géographique§ l’installateur§ le type de pompe§ . . . (exploration sur le notebook)
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Data Science et Machine Learning
La Data Science
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Feature engineering
Feature engineering
Présentation du feature engineering dans le notebook.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Feature engineering
Machine Learning
§ Apprentissage par l’exemple pour un but d’analyseprédictive.
§ Principalement 2 types d’Apprentissage :§ Apprentissage supervisé (Régression, Classification)§ Apprentissage non supervisé (Clustering)
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Feature engineering
Méthodologie
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
SVM§ Modèle basé sur la construction d’un hyperplan
séparateur. Le but est de trouver l’hyperplan qui sépare lemieux les données avec la plus grande marge (pouvoir degénéralisation).
Figure: SVM : hyperplan séparateur
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
SVM (l’astuce du noyau)
Figure: SVM : astuce du noyau
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Résultats
Figure: SVM : Résultats - Crossvalidation
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Remarques
§ SVM est un modèle intéressant car facile d’utilisation estqui permet de gérer des données non linéaires mais . . .
§ Résultats sur le test set : 0.54 de précision.§ SVM est meilleur quand il n’y a pas beaucoup de données.
Random Forest performe mieux quand le nombre dedonnées est élevé.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Random Forest (1)§ Méthode basée sur des arbres décisionnels :
Figure: Exemple d’arbre de décision
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Random Forest (2)
§ Il s’agit alors d’un classifieur construit à partir desdécisions de nombreux arbres décisionnels générés.
§ Les arbres sont construits à partir de données générées(bootstrap / bagging).
§ A partir des votes des différents arbres, une décision estprise.
§ Les forêts aléatoires sont un type d’algorithme avec l’unedes meilleures performances de nos jours.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Résultats
Figure: Résultats sur le cross-validation set: Random Forest
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Remarques
§ Random Forest est un modèle très intéressant car permetde directement prendre en compte les variablescatégoriques et s’adapte bien aux valeurs manquantes.
§ Il s’agit d’une application directe du bagging pourdiminuer la variance. L’idée derrière l’algorithme estintuitive mais il n’y a pas de preuves théoriques de sesperformances.
§ Nous avons obtenu un résultat sur le test set de : 0.73.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Gradient Boosting Classifier (1)§ Methode basée sur un algorithme d’optimisation :
Gradient Descent.
Figure: Gradient Descent
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Gradient Boosting Classifier (2)
§ On considère une famille de classifieurs, par exemple lesarbres décisionnels.
§ On considère aussi une fonction de coût fonction desclassifieurs:
J(F(x)) = 7errors
§ On applique l’algorithme gradient descent à la fonction decoût et on aboutit au classifieur minimisant l’erreur.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Résultats
Figure: Résultats sur le cross-validation set: Gradient Boosting
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Remarques
§ Le modèle Gradient Boosting avec les arbres de décisionest intéressant car permet parfois d’obtenir de meilleursrésultats que Random Forest.
§ L’inconvénient est que le modèle est séquentiel,contrairement à Random Forest qui a l’avantage depouvoir être parallélisé.
§ Nous avons obtenu un résultat sur le test set de : 0.76.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Stacking
Figure: Stacking
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Résultats
Figure: Résultats des différents modèles sur le cross-validation set.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Modèles de Machine Learning
Commentaires
§ Le gradient boosting donne de meilleurs résultats que lesforêts aléatoires et la régression logistique. Et le stackingaméliore légèrement la performance obtenue par legradient boosting.
§ Cependant le modèle est pour l’homme riche qui abeaucoup de données.
§ Nous avons obtenu un résultat sur le test set de : 0.7675.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Proposition d’améliorations
Proposition d’améliorations
§ Chercher à construire de nouvelles features, soit enconsidérant les données d’origine, soit en combinant lesfeatures déjà obtenues.
§ Essayer les techniques du type apprentissage de métrique+ clustering. L’apprentissage de métrique permettrait derapprocher les observations ayant la même classe tout enéloignant celles dont la classe diffère entre elles.
§ Avec plus de puissance de calcul, essayer les réseaux deneurones et les combiner avec les autres modèles.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Application web
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Feedback
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Une plateforme prometteuse . . .
§ Une collaboration facilitée.§ Un accès rapide à différentes ressources (notebooks,
tutoriels, données).§ Une boîte à outil adaptée au Data Scientist (Python,
Rstudio, Spark ..).§ Un service d’aide réactive et efficace.§ Un système facile à prendre en main.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
. . . à améliorer
§ Probleme de vitesse d’exécution des scripts.§ Pas de collaboration possible sur Rstudio.§ Il n’y a pas de moyens simples pour inclure directement
des images dans les notebooks.§ Ecriture de fichiers n’est pas immédiate.
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Merci pour votre attention
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience
Contacts :
§ Abdellah Lamrani Alaoui :§ [email protected]
§ Samed Atouati :§ [email protected]
Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM
Pump it up !