techday arrow group: conférence big data à l'école 42

24 mars 2015 TechDay Big Data – Ecole 42 1

TechDay Big Data

Philippe Barra & Stéphane Goumard


Qui est Arrow Group ?


www.arrow‐group.eu


Agenda

• Qu’est-ce que le Big Data ?• Méthodologie• Square Predict• Hadoop


Agenda

• Qu’est-ce que le Big Data ?

• Méthodologie

• Square Predict

• Hadoop


Chaque minute sur Internet…

source: http://pennystocks.la/internet-in-real-time/


Evolution du hardware exponentielle


Le Big Data, selon un rapport de recherche de Gartner de 2001 est unedémarche consistant à extraire l’information pertinente d’un ensemble dedonnées caractérisées par :

Le Big Data


Le Big Data peut améliorer les performances dans ces domaines:

• Recommandations : déjà utilisés par les géants de la vente en ligne

• Analyse de sentiments : analyse des données non structurées pour déterminer le ressenti des utilisateurs face à un produit, une marque…

• Modélisation des risques : meilleure détermination des risques par traitement croisé des données historiques et facteurs environnementaux, et simulation des scenarios potentiels

• Détection de fraudes : détection de comportements inhabituels

• Analyse des graphes sociaux : pour déterminer les clients les plus influents qui ne sont pas forcement ceux qui achètent le plus

• Résiliation clients : détection des comportements amenant à la résiliation et amélioration des relations clients

• …

Que peut apporter le Big Data ?


• Un projet Big Data est un projet de R&D appliqué et non un projetd’informatisation de processus métiers.

• Un projet Big Data dépend des données et non de spécifications. Le cahier descharges est remplacé par les cas d’utilisation des données.

• La technologie et les mathématiques statistiques permettent aujourd’hui derendre accessible des traitements en temps réel.

Spécificités d’un projet Big Data


MétierMétier

StatistiqueStatistiqueITIT

Un projet Big Data est la mise en commun des trois compétences :

Projet Big Data

Projet Big Data

Compétences indispensables


Agenda


• Méthodologie

• Square Predict

• Hadoop


Arrow Group a conçu une méthodologie Big Data Analytics conciliant la méthodologie de data mining CRISP-DM et la méthodologie agile Scrum :

Méthodologie Big Data Analytics


Processus Big Data Analytics


Objectifs

• Définir les objectifs client par cas d’usage

• Identifier le besoin, les conditions de réussite, les données clients

• Construire le périmètre, le cadrage, les conditions de collaboration entre le client et l’équipe projet

Compréhension du Business – Cas d’usage

Métier

StatistiqueIT


Métier

StatistiqueIT

Objectifs

• Identifier l’ensemble des données exploitables : données du client, de l’Open Data, des réseaux sociaux, du Web sémantique, des logs, des capteurs…

• Elaborer les méthodes de collecte

• Collecter les données

Compréhension des Données


Objectifs

• Auditer et améliorer la qualité des donnée

• Elaborer les méthodes de fusion

• Elaborer les règles de Privacy by Design à appliquer

• Préparer les donner à analyser

Audit des Données

Métier

StatistiqueIT


Objectifs

• Sélection des méthodes d’analyse

• Paramétrage des algorithmes

• Application des techniques d’analyse

Modélisation & Analyse

Métier

StatistiqueIT


Objectifs

• Analyse des résultats

• Vérification du respect des objectifs business

Métier

StatistiqueIT

Evaluation


Objectifs

• Elaboration de la présentation des résultats

• Elaboration du retour d’expérience sur le développement du cas d’usage

Métier

StatistiqueIT

Déploiement


Agenda


• Méthodologie

• Square Predict

• Hadoop


Square Predict vise à valoriser et monétiser l'énorme quantité de données dontles assureurs disposent depuis des années.

Consortium :

Métier

StatistiqueIT

Assureur français leader mondial


Assurance Multi-Risque Habitation : Sinistralité Incendie & Dégât des Eaux

Evaluation en temps réel de la sévérité d’une catastrophe naturelle

Exemples de cas d’usages


Compréhension & audit des données:

Evaluation et déploiement:

Assurance Multi-Risque Habitation –Sinistralité Incendie & Dégât des Eaux


Compréhension & audit des données• Base sinistres d’origine climatique• Base contrats (clients)• Sites Web alertes météo• Réseaux sociaux• Flux RSS d’information

Evaluation et déploiement:

Sévérité en temps réel d’une catastrophe climatique


Agenda


• Méthodologie

• Square Predict

• Hadoop


● Qu’est ce que c’est ?● Histoire.● Architecture de référence.● Système d’exploitation de la Donnée.● le Coeur de Hadoop.

o HDFSo Map Reduce.

● Demoo Réaliser un programme MapReduce Hadoop/Java.o Usine Logicielle SF4H.

● En bref : o YARN.o Hive.o Spark.

Hadoop


● Solution Open Source Big Data fournissant un socleo Distribué

Stockage. Traitement.

o Scalable Scalabilité linéaire.

● Stockage local => Rapide et peu cher.o SAN => 2-10$ / Goo NAS => 1-5$ / Goo Local => 0.05$ / Go.

● Cluster de “commodity hardware”● Open Source pour éviter le “vendor lock-in”

HadoopQu’est ce que c’est ?


HadoopHistorique


HadoopArchitecture de référence BI


En 10 ans, son adoption ne fait plus aucun doute !

HadoopArchitecture de référence BI


HadoopSystème d’exploitation de la donnée


● Système de fichier distribué.● Scalable horizontale (ajout de noeuds)● Tolérant aux pannes (réplication)● Full Scan, Gros Fichier (--- lecture aléatoire)

Replication Factor (3)Block Sise (128 Mo)

#NameNode (SPOF, FAT, Master/Slave)

HadoopHDFS (Hadoop Distributed File System)


HadoopMapReduce

● Framework de programmationo Parallélisation automatique des jobs Hadoop.o Gestion transparente du mode distribué.o Le traitement est envoyé là où résident les données.

● MapReduce = 2 fonctions.o map()

Convertir les données en entrée en une série de paires clé/valeur.o reduce()

Appliquer un traitement à l’ensemble des valeurs regroupées par leur clé. Consolider les données issues du Mapper.

MapReduce est un Framework=> Structurant en terme de développement / conception.=> Il faut rentrer dans le paradigme.


HadoopMap Reduce


HadoopDémo (WordCount)


HadoopDémo (SF4H)


HadoopDémo (Méthode)

1 - Créons.

Créer un projet à l’aide de l’archetype.

- Développer les Fonctions Map / Reduce et le Job.

2 - Développons. 3 - Testons.

- Écrire un Test Unitaire. Simulation Cluster In Memory.

4 - Testons encore.

- Tester dans le HDP en standalone.

- Tester le projet sur la plateforme avec passage à l'échelle.

5 - Testons encore et encore..

- Mettre le projet sur le SCM.

6 - Partageons.


Hadoop Démo (Code)


Hadoop Démo (Vidéo)


HadoopEn Bref : YarnYARN (Yet-Another-Resource-Negotiator) est aussi appelé MapReduce 2.0. Ce n’est pas une refonte

mais une évolution du framework MapReduce.

Des tâches Map sont en attente alors que des slots de tâche reduce sont libres.

Valeurs codées en dur.

JT NN

TE DN TE DN TE DN

ResourceManager

AplicationMaster AM AM

TE DN TE DN TE DN

Avant Après

Problème de limite de “Scalability”

Problème d’allocation des resources


Hadoop se transforme en OS de la donnée !● Client et cluster peuvent utiliser des versions différentes.

● Des protocoles de communication standardisés et documentés.

● Évolution du framework progressive avec rétro-compatibilité sans destruction des services.

HadoopEn Bref : Yarn


HadoopEn Bref : Hive

● Requêtage SQL sur Hadoop (HiveQL)○ Permet d’accéder simplement aux données○ Ouvre Hadoop aux habitués du SQL○ Propose des drivers xDBC pour brancher des outils externes (Tableau, etc.)

● Origine :○ Facebook (90% des Jobs Hadoop de Facebook sont générés avec Hive)

● Les Requêtes HiveQL sont compilés en jobs Map Reduce○ Lenteur importante (latence des jobs Map Reduce)

● Faibles performances + ● Marché très important du BD SQL.

○ Impala○ Spark SQL○ Drill○ Elatstic Search For Hadoop.

Horton Works pousse à l'optimisation (stringer)


HadoopEn Bref : Spark

● Spark est un Moteur Map Reduce + évolué et + Rapide.

● Compatibilité Stockage, Moteur d'exécution

● +Rapide.Utilisation intensive de la mémoire

(RDD)Langage de programmation

fonctionnel orienté opération “lazyless”.

● Un EcoSystéme dédié au traitement analytique.


Philippe [email protected]

Stéphane [email protected]

[email protected]

Arrow Financial Consulting

Arrow Group Recrutement

@Arrow_Group1

MerciQuestions ?

techday arrow group: conférence big data à l'école 42

Data & Analytics

techday big

mthodologie big

processus big

spcificits dun projet

projet dinformatisation

donnes clients

analyse des donnes

lquipe projet comprhension