cyres big data pre 769 sentation tables rondes ingensi
Post on 15-Oct-2015
21 Views
Preview:
TRANSCRIPT
-
Tables Rondes Le Big Data
2012 - 2013
1
-
Plan Introduc9on 1 - Prsenta9on Ingensi 2 - Le Big Data cest quoi ? 3 - Lhistoire 4 - Le monde du libre : Hadoop 5 - Le systme HDFS 6 - Les algorithmes distribus : Map Reduce 7 - Hbase : La base NoSQL
2012 - 2013
2
-
Ingensi, team du groupe Cyrs
Ingensi est une division du groupe Cyrs spcialise dans le traitement et lanalyse temps rel de gros volumes de donnes. Ce>e division est anime par Christophe Cerqueira (directeur de projets) et Guillaume Polaert (Responsable R&D).
Les 3 ples complmentaires du Groupe CYRES :
Architectures la demande et services hbergs dans le Cloud. Leader Franais de la messagerie CollaboraTve Exchange.
Consultants conrms et experts de la data : DBA Oracle et PostgreSQL, ETL-EAI, ODI, Business Intelligence Agence de communicaTon digitale spcialis dans les soluTons mobiles et 2.0
Quelques experTses cls
Spcialiste en intgraTon de donnes avec des ouTls EAI/ETL/ELT (ODI, Talend, etc.)
Infogrance de milliers de comptes Exchange/Sharepoint
Mise en place douTls alternaTfs de reporTng et de datavizual9on comme Tableau Soaware
3 datacenters, disponibilit garan9e 99,9%
ScurisaTon des donnes, cer9ca9on PCI-DSS Level 1 Visa & Mastercard pour NORDPAY
Partenariat DELL - Ingensi
Complmentarit : ore globale de services et de support autour de la soluTon Cloudera (Hadoop)
Acteurs Majeur de la fourniture dinfrastructures de machines Hautes Performances pour les soluTons Big Data
3
-
1- Ingensi, notre vision du Big Data
Lancement du projet Ingensi en septembre 2009, CraTon dune quipe R&D (Laurat JCEF-37 en 2011) Constat
De plus en plus de dicults traiter les donnes et canaliser les ux entrants
Sauvegarde et resTtuTon de linformaTon de plus en plus complexes
Cot des soluTons diteurs croissant (Oracle, Microsoa, etc.)
Maturit des pure-players de lInternet (Google, Yahoo, Facebook, etc.)
ObjecTfs du projet
Structurer une ore de services et de conseils autour des Big Data et de lcosystme Hadoop
Mise disposiTon dune ore SaaS pour le traitement ponctuel et/ou conomique de grands volumes de donnes
CraTon dun ple de comptences et de formaTons autour Hadoop
Sensibilisa9on des acteurs informaTques aux problmaTques Big Data et aux soluTons adaptes
RalisaTon de Proof Of Concept et de maque>e
DniTon des architectures techniques/foncTonnelles
FormaTons et support (Cloudera)
AdministraTon et opTmisaTon dun cluster Hadoop
SoluTons : Mahout (Analyse),Hive (BI),HBase (NoSQL)
La R&D, au cur de lore Partenariat avec luniversit de Tours Mise en place dune thse Volont de crer un ple franais
contributeur des soluTons Hadoop Projet Europen pour construire un Cluster de 1600 Cores
4
Ore de services Ingensi
-
Quelques chires
1,8 ze`aoctets en 2011 soit une pile de blu-ray qui ferait 7 fois le tour de la Terre 1 60% de croissance/an des volumes dinforma9ons 5% pour les budgets informa9ques 2
Un Boeing produit 20 To/heure de donnes 2
250 milliards demails envoys par jour (80 % de spam) 3
72h de vidos dposes par minute sur Youtube de linforma9on
est non-exploite 4 de linforma9on est non-structure 4
(1) IDC, 2011 - (2) Gartner, 2011 - (3) Radica7 Group, 2009 - (4) Forrester, 2011 Dbut dune nouvelle re
Les systmes actuels sont incapables de grer de telles quanTts :
80% 95%
5
2 - Big Data, solu9on au data dluge ?
-
2 - Big Data, prparer et an9ciper
Les soluTons actuelles rpondent mal (pas) aux problmaTques lies, avec un TCO lev (Exadata dOracle, Netezza dIBM, etc.) Les applicaTons doivent changer
Dimensionnes lchelle de la plante Flux de donnes complexes, mulTples et
en temps rel Agilit tous les niveaux : analyse, stockage,
resTtuTon
Pour
Trer prot de ses donnes mais galement de celles qui sont porte de main,
rpondre des besoins qui pour le moment ntaient pas adressables
et tout a en temps rel
6
-
2 - Big Data, trois V
Les soluTons mises en uvre doivent rpondre aux 3 V dans leur globalit
Volume SaturaTon des systmes actuels avec toujours plus de donnes
Vlocit Quel dlai pour prendre une dcision parTr de linformaTon collecte ?
Varit Intgrer une mulTtude de formats dirents provenant dune mulTtude de sources de donnes
BIG DATA
7
-
3 - Lhistoire : le Big Data, Google : Le systme de chier GFS
Pour stocker son Index Grandissant Quelle solu4on pour Google ? U4lisa4on dun SGBDR ?
Problme de distribu4on des donnes problme du nombre du4lisateurs problme de Vitesse du moteur de recherche
InvenTon dun nouveau systme Propritaire : GFS ( Google File Systme en 2003)
8
-
3 - Lhistoire : le Big Data, Google : Le systme de fichier GFS
-
3 - Lhistoire : le Big Data, Comment exploiter ce systme de chier ?
La no4on de Big Data est in4mement li la capacit de traitements de gros volumes Un nouvel Algorithme a t mis au point. Le premier ArTcle a t publi en 2004 : Jeffrey Dean and Sanjay Ghemawat
MapReduce : Simplied Data Processing on Large Clusters
Cest un algorithme invent par Google, Inc an de distribuer des traitements sur un ensemble de machines avec le systme GFS Google possde aujourd'hui plus de 1 000 0000 de serveurs interconnects dans le monde 10
-
3 - Lhistoire : le Big Data, Google et les autres
11
Contributeur de limplmenta9on Libre ( Dugg Kelng)
Les pures players de linternet ont choisi du9liser ces algos distribus. ( HDFS et MAPREDUCE)
-Facebook -TwiIer -LinkedIn -.
-
12
Le monde du Libre : Hadoop
-
4 - Big Data, solu9on Apache Hadoop
Hadoop Projet ini9 par les pure-players de lInternet
(Yahoo, Facebook, Twi>er) ds 2008 Inspir des travaux de Google Libre, fonda9on Apache Enrichit chaque jour par de nombreuses socits
ddies : Cloudera, Hortonworks, etc.
2 concepts cls HDFS : Stockage conomique et extensible, pour de
grandes quanTts dinformaTon bnciant dune haute tolrance aux pannes
MapReduce : Algorithme de traitements parallles et distribus des donnes.
cosystme riche Mahout : machine-learning (dataming, clustering) HBase : base de donnes temps-rel NoSQL Hive : traitement batch analyTque BI 3 diteurs (Cloudera, Hortonworks, MapR)
13
-
5 - HDFS, systme de chiers distribus
ObjecTfs et principes
Stocker de grandes quanTts dinformaTon moindre cot u9lisa9on de serveurs courants
Idalement des chiers volumineux Haute tolrance aux pannes donne rplique 3 fois
sur 3 serveurs gographiquement distants Stockage extensible volont ajout chaud de
serveurs pour augmenter les capacits de stockage et de traitement de larchitecture
Techniquement
namenode : serveur matre. Cartographie des blocs de donnes sur le cluster. Vital pour la plateforme
datanode : stocker localement les blocs de donnes. Informe le namenode de son tat via un ba>ement de cur toutes les secondes. Possibilit de dnir sa posiTon gographique (site de donnes, rack) pour que le namenode contrle au mieux les dirents emplacements des blocs de donnes
14
HDFS
-
6 - MapReduce, algorithme de traitement des donnes Principe
Traitement divis en tche lesquelles sont traites en parallle : MAP
Synthse et agrgaTon des traitements : REDUCE Les traitements sont eectus l o la donne
est stocke (sur chaque serveur)
Techniquement
Service jobtracker coordonne lexcuTon du traitement. Dcoupe et aecte chaque tche aux tasktracker.
Service tasktracker responsable de lexcuTon de la tche localement.
Si une tche choue, le jobtracker la relance sur un autre serveur.
15
-
7- HBase, base de donnes NoSQL temps rel
Pourquoi ?
Ncessit dun mode temps rel pour le systme Hadoop.
Le mode batch ne convient pas toutes les applicaTons
Concepts cls
Base de donnes NoSQL en mode colonne GesTon des transacTons simple Dploiement grande chelle sur un trs grand nombre de serveurs
ParTTonnement automaTque des tables par lajout de serveur (region server)
ModlisaTon des donnes oriente recherche
Usages
Stockage et recherche de nimporte quel type de donnes (PDF, photos, document word, etc.).
Donnes accessibles via de nombreuses API Stockage dnormalis des donnes InserTon et recherche en temps rel via une srie de mthode
Recherche trs rapide (concept in memory )
16
-
17
INGENSI Groupe Cyrs 19 - 21 rue douard Vaillant 37000 Tours Tl : 02 47 68 48 50 contact@ingensi.com
top related