techday arrow group: conférence big data à l'école 42
TRANSCRIPT
24 mars 2015 TechDay Big Data – Ecole 42 6
Agenda
• Qu’est-ce que le Big Data ?• Méthodologie• Square Predict• Hadoop
24 mars 2015 TechDay Big Data – Ecole 42 7
Agenda
• Qu’est-ce que le Big Data ?
• Méthodologie
• Square Predict
• Hadoop
24 mars 2015 TechDay Big Data – Ecole 42 8
Chaque minute sur Internet…
source: http://pennystocks.la/internet-in-real-time/
24 mars 2015 TechDay Big Data – Ecole 42 10
Le Big Data, selon un rapport de recherche de Gartner de 2001 est unedémarche consistant à extraire l’information pertinente d’un ensemble dedonnées caractérisées par :
Le Big Data
24 mars 2015 TechDay Big Data – Ecole 42 11
Le Big Data peut améliorer les performances dans ces domaines:
• Recommandations : déjà utilisés par les géants de la vente en ligne
• Analyse de sentiments : analyse des données non structurées pour déterminer le ressenti des utilisateurs face à un produit, une marque…
• Modélisation des risques : meilleure détermination des risques par traitement croisé des données historiques et facteurs environnementaux, et simulation des scenarios potentiels
• Détection de fraudes : détection de comportements inhabituels
• Analyse des graphes sociaux : pour déterminer les clients les plus influents qui ne sont pas forcement ceux qui achètent le plus
• Résiliation clients : détection des comportements amenant à la résiliation et amélioration des relations clients
• …
Que peut apporter le Big Data ?
24 mars 2015 TechDay Big Data – Ecole 42 12
• Un projet Big Data est un projet de R&D appliqué et non un projetd’informatisation de processus métiers.
• Un projet Big Data dépend des données et non de spécifications. Le cahier descharges est remplacé par les cas d’utilisation des données.
• La technologie et les mathématiques statistiques permettent aujourd’hui derendre accessible des traitements en temps réel.
Spécificités d’un projet Big Data
24 mars 2015 TechDay Big Data – Ecole 42 13
MétierMétier
StatistiqueStatistiqueITIT
Un projet Big Data est la mise en commun des trois compétences :
Projet Big Data
Projet Big Data
Compétences indispensables
24 mars 2015 TechDay Big Data – Ecole 42 14
Agenda
• Qu’est-ce que le Big Data ?
• Méthodologie
• Square Predict
• Hadoop
24 mars 2015 TechDay Big Data – Ecole 42 15
Arrow Group a conçu une méthodologie Big Data Analytics conciliant la méthodologie de data mining CRISP-DM et la méthodologie agile Scrum :
Méthodologie Big Data Analytics
24 mars 2015 TechDay Big Data – Ecole 42 17
Objectifs
• Définir les objectifs client par cas d’usage
• Identifier le besoin, les conditions de réussite, les données clients
• Construire le périmètre, le cadrage, les conditions de collaboration entre le client et l’équipe projet
Compréhension du Business – Cas d’usage
Métier
StatistiqueIT
24 mars 2015 TechDay Big Data – Ecole 42 18
Métier
StatistiqueIT
Objectifs
• Identifier l’ensemble des données exploitables : données du client, de l’Open Data, des réseaux sociaux, du Web sémantique, des logs, des capteurs…
• Elaborer les méthodes de collecte
• Collecter les données
Compréhension des Données
24 mars 2015 TechDay Big Data – Ecole 42 19
Objectifs
• Auditer et améliorer la qualité des donnée
• Elaborer les méthodes de fusion
• Elaborer les règles de Privacy by Design à appliquer
• Préparer les donner à analyser
Audit des Données
Métier
StatistiqueIT
24 mars 2015 TechDay Big Data – Ecole 42 20
Objectifs
• Sélection des méthodes d’analyse
• Paramétrage des algorithmes
• Application des techniques d’analyse
Modélisation & Analyse
Métier
StatistiqueIT
24 mars 2015 TechDay Big Data – Ecole 42 21
Objectifs
• Analyse des résultats
• Vérification du respect des objectifs business
Métier
StatistiqueIT
Evaluation
24 mars 2015 TechDay Big Data – Ecole 42 22
Objectifs
• Elaboration de la présentation des résultats
• Elaboration du retour d’expérience sur le développement du cas d’usage
Métier
StatistiqueIT
Déploiement
24 mars 2015 TechDay Big Data – Ecole 42 23
Agenda
• Qu’est-ce que le Big Data ?
• Méthodologie
• Square Predict
• Hadoop
24 mars 2015 TechDay Big Data – Ecole 42 24
Square Predict vise à valoriser et monétiser l'énorme quantité de données dontles assureurs disposent depuis des années.
Consortium :
Métier
StatistiqueIT
Assureur français leader mondial
24 mars 2015 TechDay Big Data – Ecole 42 25
Assurance Multi-Risque Habitation : Sinistralité Incendie & Dégât des Eaux
Evaluation en temps réel de la sévérité d’une catastrophe naturelle
Exemples de cas d’usages
24 mars 2015 TechDay Big Data – Ecole 42 26
Compréhension & audit des données:
Evaluation et déploiement:
Assurance Multi-Risque Habitation –Sinistralité Incendie & Dégât des Eaux
24 mars 2015 TechDay Big Data – Ecole 42 27
Compréhension & audit des données• Base sinistres d’origine climatique• Base contrats (clients)• Sites Web alertes météo• Réseaux sociaux• Flux RSS d’information
Evaluation et déploiement:
Sévérité en temps réel d’une catastrophe climatique
24 mars 2015 TechDay Big Data – Ecole 42 28
Agenda
• Qu’est-ce que le Big Data ?
• Méthodologie
• Square Predict
• Hadoop
24 mars 2015 TechDay Big Data – Ecole 42 29
● Qu’est ce que c’est ?● Histoire.● Architecture de référence.● Système d’exploitation de la Donnée.● le Coeur de Hadoop.
o HDFSo Map Reduce.
● Demoo Réaliser un programme MapReduce Hadoop/Java.o Usine Logicielle SF4H.
● En bref : o YARN.o Hive.o Spark.
Hadoop
24 mars 2015 TechDay Big Data – Ecole 42 30
● Solution Open Source Big Data fournissant un socleo Distribué
Stockage. Traitement.
o Scalable Scalabilité linéaire.
● Stockage local => Rapide et peu cher.o SAN => 2-10$ / Goo NAS => 1-5$ / Goo Local => 0.05$ / Go.
● Cluster de “commodity hardware”● Open Source pour éviter le “vendor lock-in”
HadoopQu’est ce que c’est ?
24 mars 2015 TechDay Big Data – Ecole 42 33
En 10 ans, son adoption ne fait plus aucun doute !
HadoopArchitecture de référence BI
24 mars 2015 TechDay Big Data – Ecole 42 35
● Système de fichier distribué.● Scalable horizontale (ajout de noeuds)● Tolérant aux pannes (réplication)● Full Scan, Gros Fichier (--- lecture aléatoire)
Replication Factor (3)Block Sise (128 Mo)
#NameNode (SPOF, FAT, Master/Slave)
HadoopHDFS (Hadoop Distributed File System)
24 mars 2015 TechDay Big Data – Ecole 42 36
HadoopMapReduce
● Framework de programmationo Parallélisation automatique des jobs Hadoop.o Gestion transparente du mode distribué.o Le traitement est envoyé là où résident les données.
● MapReduce = 2 fonctions.o map()
Convertir les données en entrée en une série de paires clé/valeur.o reduce()
Appliquer un traitement à l’ensemble des valeurs regroupées par leur clé. Consolider les données issues du Mapper.
MapReduce est un Framework=> Structurant en terme de développement / conception.=> Il faut rentrer dans le paradigme.
24 mars 2015 TechDay Big Data – Ecole 42 40
HadoopDémo (Méthode)
1 - Créons.
Créer un projet à l’aide de l’archetype.
- Développer les Fonctions Map / Reduce et le Job.
2 - Développons. 3 - Testons.
- Écrire un Test Unitaire. Simulation Cluster In Memory.
4 - Testons encore.
- Tester dans le HDP en standalone.
- Tester le projet sur la plateforme avec passage à l'échelle.
5 - Testons encore et encore..
- Mettre le projet sur le SCM.
6 - Partageons.
24 mars 2015 TechDay Big Data – Ecole 42 45
HadoopEn Bref : YarnYARN (Yet-Another-Resource-Negotiator) est aussi appelé MapReduce 2.0. Ce n’est pas une refonte
mais une évolution du framework MapReduce.
Des tâches Map sont en attente alors que des slots de tâche reduce sont libres.
Valeurs codées en dur.
JT NN
TE DN TE DN TE DN
ResourceManager
AplicationMaster AM AM
TE DN TE DN TE DN
Avant Après
Problème de limite de “Scalability”
Problème d’allocation des resources
24 mars 2015 TechDay Big Data – Ecole 42 46
Hadoop se transforme en OS de la donnée !● Client et cluster peuvent utiliser des versions différentes.
● Des protocoles de communication standardisés et documentés.
● Évolution du framework progressive avec rétro-compatibilité sans destruction des services.
HadoopEn Bref : Yarn
24 mars 2015 TechDay Big Data – Ecole 42 47
HadoopEn Bref : Hive
● Requêtage SQL sur Hadoop (HiveQL)○ Permet d’accéder simplement aux données○ Ouvre Hadoop aux habitués du SQL○ Propose des drivers xDBC pour brancher des outils externes (Tableau, etc.)
● Origine :○ Facebook (90% des Jobs Hadoop de Facebook sont générés avec Hive)
● Les Requêtes HiveQL sont compilés en jobs Map Reduce○ Lenteur importante (latence des jobs Map Reduce)
● Faibles performances + ● Marché très important du BD SQL.
○ Impala○ Spark SQL○ Drill○ Elatstic Search For Hadoop.
Horton Works pousse à l'optimisation (stringer)
24 mars 2015 TechDay Big Data – Ecole 42 48
HadoopEn Bref : Spark
● Spark est un Moteur Map Reduce + évolué et + Rapide.
● Compatibilité Stockage, Moteur d'exécution
● +Rapide.Utilisation intensive de la mémoire
(RDD)Langage de programmation
fonctionnel orienté opération “lazyless”.
● Un EcoSystéme dédié au traitement analytique.
24 mars 2015 TechDay Big Data – Ecole 42 49
Philippe [email protected]
Stéphane [email protected]
Arrow Financial Consulting
Arrow Group Recrutement
@Arrow_Group1
MerciQuestions ?