salon big data paris 2017 - palais des congrès · (netflix metacat) producteur de la donné hive...

Data Lake : une approche alternativeSalon Big Data Paris 2017Mélanie LANGLOIS - Directeur département Innovation SI

Data Lake : une approche alternative

Notre rêve …

09/03/2017Salon Big Data Paris 2017 - Médiamétrie

Data Scientists

… accès « no limit » à la data !!!


Découpage fonctionnel


Compute / utilisation de la donnée

Gestion de la donnée

Gestion du stockage

Dépôt des données

Ingestion

Catalogue de méta données

Stockage« Staging »

Stockage« Long terme »

Consultation des méta données

ComputeStockage Notebook

Outil Data Scientistes

Ordonnancement

Data Lake


Dépôt de données dans le Data Lake


1. Avoir un schéma technique dès le début réduit la charge cognitive

2. Enrichir le schéma de métadonnées aide à comprendre la donnée et son contexte plus rapidement

3. Le producteur de la donnée est le plus à même de savoir ce qu'il y a dedans

4. Une donnée propre dès le début est obligatoire car la qualité ne doit pas être polluée par une représentation technique non conforme


Ingestion







Ordonnancement

Data Lake

Schema on-write+Service de méta-data



Staging(Bucket S3)

« UploadProxy »

(Serveur Go)

Metadata DB(MySQL)

Schémas(DB, Tables)

Metadata Infos(Id., Statuts, Infos,

Versions, …)Produits

Médiamétrie

S

D

D

1 3

4

67

Data Lake CLI

Envoi du schéma(1 fois seulement)

Envoi des données(x fois)

5

Spécifie la source et la structure

Ajout d’information

s sur des données

importées

Spécifie le détail de la

donnée importée

Stockage temporaire de

la donnée brute

Adaptateurs

MetadataLoader

(Netflix Metacat)

Producteur de la donné

Hivemetastore

8

5

Création des tables

2

Ajout des métadonnées


Stockage (Scheduling, Workflow, Processing & Storage)

09/03/2017 6Salon Big Data Paris 2017 - Médiamétrie


Ingestion







Ordonnancement

Data Lake

Unique format de stockage technique+Environnement d’exécution tolérant aux pannes et élastique avec mesos

1. Une architecture scalable et fiable dans le Cloud AWS

2. Un coût de stockage et d’injection minimum



MetadataDB

(MySQL)

Metadata Infos(Id., Statuts, Infos,

Versions,…)

Chronos(Job Scheduler for

Mesos)

Workflow Luigi(Python Workflow

Manager)

Eremetic(Task Queue

Mesos)

Staging(Bucket S3)

D

Container Docker(Mesos)

Luigi Agent« ETL Exec »

ETL MinionsScala/Spark

9

11

12

13

14

15

Data Lake(Bucket S3)

16

19

16

Toutes les 1 minutes, Chronos vérifie si de nouvelles données

sont en attentes d’import (statut: « uploaded »)

Si des fichiers sont dans un état « uploaded », alors Chronos déclenche le lancement du

traitement d’intégration (Luigi)

Récupère des informations sur les nouveaux fichiers Pour chaque nouveau fichier,

Luigid crée une tâche dans Eremetic

Création d’une tâche « Mesos » sous la forme d’un container

Docker

Récupère les métadonnées nécessaire au traitement

Récupère les données brutes

18

Transforme les données pour les mettre dans un format de

stockage long terme

Entrepose les données dans le Bucket S3 « Stockage long

terme » du Data Lake

Mise à jour des infos et statut de la donnée importée

D

Autoscaller(Gestionnaire de

ressources en Python)

Monitore la queue Eremetic et gère les instances de ressources

en fonction des besoins

10



09/03/2017 8Salon Big Data Paris 2017 - Médiamétrie


Ingestion







Ordonnancement

Data Lake

Hive/Metacat pour accéder aux méta-données de localisation de la data dans S3

Le/la Data Scientiste doit pouvoir utiliser les bons outils, c.-à-d. les siens !


Cas d’usage du Data Lake


HiveMetastore

Data Lake(Bucket S3)

D

Serveur de calculs

(EMR)

Serveur de calculs(EMR)

Demande de la localisation des données choisies

Retour des métadatade localisation

Accès segment Data Lake

Récupération des données

1

Instancie un environnement de calculs dans AWS

3

4

Base SQL Analytique

(Redshift)

«Client SQL »

5

Metadata DB(MySQL)

Schémas(DB, Tables)

MetadataLoader(NetflixMetacat)

Consultation metadataAPI REST

2

Data Scientists

Data Scientists

Data Scientists

Data Scientists


Stack pour la gestion des ressources


HA Proxy

Host x (CentOS 7)

Docker

Mesos Agent

Host 3 (CentOS 7)

Mesos Agent

Host 2 (CentOS 7)

Mesos Agent

Host 1 (CentOS 7)

Netflix exhibitor

Zookeeper

Mesos Master

Mesos Agent

Marathon framework

Chronos framework

Docker

marathon-lb

mesos-dns

getFiles

hive-metastore

metacat

autoscaller

luigid

eremetic

Host x (CentOS 7)

Mesos Agent

Docker

upload-proxy

1

2

3

5

6

7

8

10

11

Pousse des offres 1

3

4

5

6

27

7

1

2

3

4

5

1

1


Conclusion

Mélanie LANGLOIS - Directeur département Innovation SI

www.mediametrie.frtwitter.com/Mediametrie

salon big data paris 2017 - palais des congrès · (netflix metacat) producteur de la donné hive...

Documents