big data developers in paris presentation : social data

31
Présentation du projet Notre approche Visualisation Feedback : Data Science Experience Pump it up ! Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM March 20, 2017 Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM Pump it up !

Upload: abdellah-lamrani-alaoui

Post on 05-Apr-2017

214 views

Category:

Data & Analytics


3 download

TRANSCRIPT

Page 1: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Pump it up !

Atouati Samed - Lamrani Alaoui Abdellah

Ecole Centrale Paris - IBM

March 20, 2017

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !

Page 2: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Qui sommes nous ?

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !

Page 3: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Présentation du projetContexteExploration du dataset

Notre approcheData Science et Machine LearningFeature engineeringModèles de Machine LearningProposition d’améliorations

Visualisation

Feedback : Data Science Experience

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !

Page 4: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Contexte

Contexte

§ Data Challenge : https://www.drivendata.org/§ Données fournies par le ministère des eaux de Tanzanie et

Taarifa (une plateforme web collaborative à caractèresociale).

§ But : Prédire le caractère "fonctionnel", "fonctionnel mais abesoin de réparation" et "non fonctionnel" de pompes àeaux en Tanzanie.

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !

Page 5: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Exploration du dataset

Exploration du dataset§ Pour prédire la fonctionnalité des pompes nous avons à

notre disposition 40 variables dont :§ la position géographique§ l’installateur§ le type de pompe§ . . . (exploration sur le notebook)

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !

Page 6: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Data Science et Machine Learning

La Data Science

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !

Page 7: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Feature engineering

Feature engineering

Présentation du feature engineering dans le notebook.

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !

Page 8: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Feature engineering

Machine Learning

§ Apprentissage par l’exemple pour un but d’analyseprédictive.

§ Principalement 2 types d’Apprentissage :§ Apprentissage supervisé (Régression, Classification)§ Apprentissage non supervisé (Clustering)

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !

Page 9: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Feature engineering

Méthodologie

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !

Page 10: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Modèles de Machine Learning

SVM§ Modèle basé sur la construction d’un hyperplan

séparateur. Le but est de trouver l’hyperplan qui sépare lemieux les données avec la plus grande marge (pouvoir degénéralisation).

Figure: SVM : hyperplan séparateur

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !

Page 11: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Modèles de Machine Learning

SVM (l’astuce du noyau)

Figure: SVM : astuce du noyau

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !

Page 12: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Modèles de Machine Learning

Résultats

Figure: SVM : Résultats - Crossvalidation

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !

Page 13: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Modèles de Machine Learning

Remarques

§ SVM est un modèle intéressant car facile d’utilisation estqui permet de gérer des données non linéaires mais . . .

§ Résultats sur le test set : 0.54 de précision.§ SVM est meilleur quand il n’y a pas beaucoup de données.

Random Forest performe mieux quand le nombre dedonnées est élevé.

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !

Page 14: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Modèles de Machine Learning

Random Forest (1)§ Méthode basée sur des arbres décisionnels :

Figure: Exemple d’arbre de décision

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !

Page 15: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Modèles de Machine Learning

Random Forest (2)

§ Il s’agit alors d’un classifieur construit à partir desdécisions de nombreux arbres décisionnels générés.

§ Les arbres sont construits à partir de données générées(bootstrap / bagging).

§ A partir des votes des différents arbres, une décision estprise.

§ Les forêts aléatoires sont un type d’algorithme avec l’unedes meilleures performances de nos jours.

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !

Page 16: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Modèles de Machine Learning

Résultats

Figure: Résultats sur le cross-validation set: Random Forest

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !

Page 17: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Modèles de Machine Learning

Remarques

§ Random Forest est un modèle très intéressant car permetde directement prendre en compte les variablescatégoriques et s’adapte bien aux valeurs manquantes.

§ Il s’agit d’une application directe du bagging pourdiminuer la variance. L’idée derrière l’algorithme estintuitive mais il n’y a pas de preuves théoriques de sesperformances.

§ Nous avons obtenu un résultat sur le test set de : 0.73.

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !

Page 18: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Modèles de Machine Learning

Gradient Boosting Classifier (1)§ Methode basée sur un algorithme d’optimisation :

Gradient Descent.

Figure: Gradient Descent

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !

Page 19: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Modèles de Machine Learning

Gradient Boosting Classifier (2)

§ On considère une famille de classifieurs, par exemple lesarbres décisionnels.

§ On considère aussi une fonction de coût fonction desclassifieurs:

J(F(x)) = 7errors

§ On applique l’algorithme gradient descent à la fonction decoût et on aboutit au classifieur minimisant l’erreur.

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !

Page 20: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Modèles de Machine Learning

Résultats

Figure: Résultats sur le cross-validation set: Gradient Boosting

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !

Page 21: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Modèles de Machine Learning

Remarques

§ Le modèle Gradient Boosting avec les arbres de décisionest intéressant car permet parfois d’obtenir de meilleursrésultats que Random Forest.

§ L’inconvénient est que le modèle est séquentiel,contrairement à Random Forest qui a l’avantage depouvoir être parallélisé.

§ Nous avons obtenu un résultat sur le test set de : 0.76.

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !

Page 22: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Modèles de Machine Learning

Stacking

Figure: Stacking

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !

Page 23: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Modèles de Machine Learning

Résultats

Figure: Résultats des différents modèles sur le cross-validation set.

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !

Page 24: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Modèles de Machine Learning

Commentaires

§ Le gradient boosting donne de meilleurs résultats que lesforêts aléatoires et la régression logistique. Et le stackingaméliore légèrement la performance obtenue par legradient boosting.

§ Cependant le modèle est pour l’homme riche qui abeaucoup de données.

§ Nous avons obtenu un résultat sur le test set de : 0.7675.

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !

Page 25: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Proposition d’améliorations

Proposition d’améliorations

§ Chercher à construire de nouvelles features, soit enconsidérant les données d’origine, soit en combinant lesfeatures déjà obtenues.

§ Essayer les techniques du type apprentissage de métrique+ clustering. L’apprentissage de métrique permettrait derapprocher les observations ayant la même classe tout enéloignant celles dont la classe diffère entre elles.

§ Avec plus de puissance de calcul, essayer les réseaux deneurones et les combiner avec les autres modèles.

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !

Page 26: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Application web

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !

Page 27: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Feedback

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !

Page 28: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Une plateforme prometteuse . . .

§ Une collaboration facilitée.§ Un accès rapide à différentes ressources (notebooks,

tutoriels, données).§ Une boîte à outil adaptée au Data Scientist (Python,

Rstudio, Spark ..).§ Un service d’aide réactive et efficace.§ Un système facile à prendre en main.

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !

Page 29: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

. . . à améliorer

§ Probleme de vitesse d’exécution des scripts.§ Pas de collaboration possible sur Rstudio.§ Il n’y a pas de moyens simples pour inclure directement

des images dans les notebooks.§ Ecriture de fichiers n’est pas immédiate.

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !

Page 30: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Merci pour votre attention

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !

Page 31: Big Data Developers in Paris presentation : Social Data

Présentation du projet Notre approche Visualisation Feedback : Data Science Experience

Contacts :

§ Abdellah Lamrani Alaoui :§ [email protected]

§ Samed Atouati :§ [email protected]

Atouati Samed - Lamrani Alaoui Abdellah Ecole Centrale Paris - IBM

Pump it up !