![Page 1: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/1.jpg)
1
Tél : +41 21 312 94 15 www.octo.com
© OCTO 2015
Avenue du théâtre 7 CH-1005 Lausanne - SUISSE
Des small data aux big data Méthodes et technologies
![Page 2: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/2.jpg)
2
Tél : +41 21 312 94 15 www.octo.com
© OCTO 2015
Avenue du théâtre 7 CH-1005 Lausanne - SUISSE
Benoît Béraud Consultant OCTO Suisse [email protected]
Nicolas Cavallo Consultant OCTO France [email protected]
![Page 3: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/3.jpg)
3
Pourquoi les bigdata ?
De la statistique à l’apprentissage
Aperçu des technologies
Cas client
Conclusion
![Page 4: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/4.jpg)
4
Pourquoi les big data ?
![Page 5: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/5.jpg)
5
Source : Intel Free Press
![Page 6: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/6.jpg)
6
Source : Intel Free Press
![Page 7: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/7.jpg)
7
Source : Intel Free Press
![Page 8: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/8.jpg)
8
Un monde qui change
Plus de Volume Plus de Vitesse Plus de diVersité
Ceci est un constat (les 3V) mais pas une définition du bigdata
Quid de la production de valeur ?
![Page 9: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/9.jpg)
9
![Page 10: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/10.jpg)
10
Moore à la rescousse
Mais pas partout …
Vive la loi de Moore
Des disques dur plus volumineux
Des CPUs plus rapides
De la RAM de moins en moins
chère
![Page 11: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/11.jpg)
11
Tout augmente ! Sauf…
0
10
20
30
40
50
60
70
1991 1996 1998 2001 2006
Déb
it (M
B/s
) Gain : x91
64 MB/s
0,7 MB/s
Seagate Barracuda 7200.10
Seagate Barracuda ATA IV
IBM DTTA 35010
Gain : x100 000
1990 2010 Lire l’intégralité d’un disque prend aujourd’hui 100 à 1000 fois plus de temps qu’il y a 30 ans
![Page 12: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/12.jpg)
12
On a besoin de nouveaux outils pour
Adresser les limitations d’IO
Traiter des volumes
gigantesques
Réagir de plus en plus vite
![Page 13: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/13.jpg)
13
De la statistique à l’apprentissage
![Page 14: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/14.jpg)
14
« Science et techniques d'interprétation mathématique de données complexes et nombreuses» définition LeRobert
La Statistique
STATISTIQUE
Activité qui consiste à
réunir des données
Méthode de traitement et d’interprétation des
données
![Page 15: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/15.jpg)
15
De 1900 à 1950
Décrire des « grands » ensembles de données
Les sondages Les Tests
Les intervalles de confiance
Extrapoler un échantillon à une population mère
Statistique descriptive
Statistique inférentielle Statistique exploratoire
unidimensionnelles
bidimensionnelles
La méthodologie statistique n’apparait véritablement qu’en 1900. Deux grandes familles émergent alors :
![Page 16: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/16.jpg)
16
Evolution du contexte technologique
Des small Data … Au Big Data
1970 -1980 Taille : Ko Les premiers outils informatiques, l’analyse de données se développe (ACP AFC). On explore les données
1980 -1990 Taille : Mo Début de l’intelligence artificielle. Apprentissage des « réseaux de neurones »
1990 -2000 Taille : Go On stocke les données (DataWarehouse), on commence à s’en servir pour l’aide à la décision grâce à la fouille de données (Data Mining )
2000 - … Taille : To Le nombre de données explose. Le fléau de la dimension oblige la statistique à évoluer
1940 -1970 Taille : Octets <100 individus, <10 variables Modèle linéaire Test
![Page 17: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/17.jpg)
17
Les limites de la statistique inférentielle
Risque de conclure à des liens artificiels
Corrélation fallacieuse Régression fallacieuse p-value concluant
systématiquement à une significativité statistique
Limites de l’analyse statistique « classique » lorsque les données sont volumineuses
Statistique inférentielle
Conséquence : la prédiction deviendrait impossible ?
![Page 18: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/18.jpg)
18
Un autre paradigme : l’apprentissage statistique
Statistique inférentielle
Statistique exploratoire
Théorie de l’apprentissage statistique
• On n’extrapole plus à une population mère : le modèle suit les données, et non plus l’inverse
• La découverte de régularités dans les données permettent de comprendre et/ou de prédire
• L’objectif de qualité de la prédiction l’emporte sur la réalité du modèle devenu « boite noire »
• Le rééchantillonnage permet de valider les structures
![Page 19: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/19.jpg)
19
Un autre paradigme : l’apprentissage statistique
Théorie de l’apprentissage statistique
Apprentissage non supervisé
Apprentissage supervisé
![Page 20: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/20.jpg)
20
Validation croisée Objectif : on veut vérifier que notre modèle s’applique à de nouvelles données
Besoin de données pour le rééchantillonnage validation croisée
Base initiale
On crée notre modèle On le teste
L’efficacité de notre modèle est mesurée sur des nouvelles données X 10
Validation croisée
![Page 21: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/21.jpg)
21
Les méthodes ensemblistes Objectif : Prédire ! Au risque de complexifier le modèle…
Besoin de données pour le rééchantillonnage les méthodes ensemblistes
X1 X2 X3 X4 X5
Individu 1 3 1 4 0 2
Individu 2 2 2 7 0 1
Individu 3 5 5 4 1 4
Individu 4 3 4 3 1 2
Individu 5 2 6 1 0 3
Vote ou moyenne
Prédiction
Modèle 1
Modèle 2
Modèle 3
Exemple : les Random Forest Bagging : constitution de plusieurs arbres par tirages aléatoires successifs d’individus
![Page 22: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/22.jpg)
22
Besoin de données pour le rééchantillonnage les méthodes ensemblistes
X1 X2 X3 X4 X5
Individu 1 3 1 4 0 2
Individu 2 2 2 7 0 1
Individu 3 5 5 4 1 4
Individu 4 3 4 3 1 2
Individu 5 2 6 1 0 3
Vote ou
moyenne Prédiction
Modèle 1 Modèle 2 Modèle 3
Exemple : les Random Forest Feature sampling : constitution de plusieurs arbres par tirages aléatoires successifs de variables
ATTENTION Les modèles deviennent
souvent des « boites noires »
POUR EN SAVOIR PLUSData Science : fondamentaux et
études de cas livre OCTO (EYROLLES)
![Page 23: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/23.jpg)
23
𝑤↓1
𝑤↓2 𝑤↓𝑃
Le retour des réseaux de neurones
𝑋↓1
𝑋↓2 𝑋↓𝑝
…
Un neurone
Un réseau de neurones (perceptron)
Couche cachée
Couche de sortie
Couche d’entrée
y ∑ | 𝑓
∑ | 𝑓
∑ | 𝑓
∑ | 𝑓
…
𝑓
𝑓
𝑓
𝑓
𝑋↓1 𝑋↓2
𝑋↓𝑝
𝑋↓𝑗
![Page 24: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/24.jpg)
24
Layer 4Layer 3Layer 2Layer 1
Années 1980 : « à l’époque, c’était bien difficile. Nous n’avions pas de grands ensembles de données, ni d’ordinateurs rapides » (Yann Lecun)
De plus en plus utilisé : Reconnaissance vocal : Siri, Cortana, google now, Reconnaissance d’images : google maps (déchiffrer les textes dans le paysage),
Deep Face (facebook), googLeNet
L’avènement du Deep Learning
Le deep learning, un fonctionnement multi-couche
![Page 25: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/25.jpg)
25
Description d’images grâce au Deep Learning
GoogLeNET, ça c’est du Deep Learning :
A group of young people playing a game of frisbee
A yellow school bus parked in a parking lot
![Page 26: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/26.jpg)
26
Jusqu’à présent, on avait besoin d’énorme base de données supervisée
Mais en 2012, « Google Brain » découvre par lui-même le concept de chat… …. En visionnant 10 millions de captures d’écrans de Youtube… non étiquetées !
L’apprentissage non supervisé, plus proche encore de l’apprentissage humain
L’apprentissage non supervisé
On détecte les objets Avec une seule image, on les nomme
Nuage Eléphant
Etoile Chat
Apprentissage non supervisé Apprentissage supervisé
On observe notre environnement
![Page 27: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/27.jpg)
27
Pour tirer vraiment parti de la puissance de l’apprentissage statistique, il faut entrer pleinement dans l’ère des big data : plus on a de données, plus les apprentissages peuvent être fins
En conséquence, les exigences en termes de stockage et de capacité de traitement sont fortes
L’apprentissage a besoin de données
Il faut donc maitriser les technologies, et il n’est pas étonnant que les leaders actuels dans la R&D en machine learning soient aussi des leaders technologiques : Google, Facebook…
![Page 28: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/28.jpg)
28
Aperçu des technologies
![Page 29: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/29.jpg)
29
Comment faire encore plus ?
Stratégies de montée en puissance
Scale-up Scale-out
![Page 30: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/30.jpg)
30
Nouveaux problèmes
Toute solution amène de nouveaux problèmes. Loi de Murphy
Pas ACID
Atomicity Coherency Isolation Durability
Théorème CAP
Coherency Availability Partition
Nouveaux paradigmes
Drivers Tests
MapReduce
![Page 31: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/31.jpg)
31 Image from - http://mm-tom.s3.amazonaws.com/blog/MapReduce.png
3 étapes : Une étape « Map » où les données au format d’entrée sont découpées au
format clef/valeur Une étape « Shuffle » qui opère une passe de tri et regroupe les données par clef Une étape « Reduce » qui agrège les différents résultats par clef et produit le résultat
final
MapReduce
MapReduce est une façon de formaliser un traitement pour être efficace lors d’une exécution distribuée.
Ce n’est pas une technologie, ni un algorithme, ni une implémentation
![Page 32: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/32.jpg)
32
Application orientée Flux évènementiel
Application orientée Transaction
Application orientée Calculs
Application orientée Stockage
Stockage distribué
Share nothing
eXtreme Transaction Processing
Programmation parallèle
Event Stream Processing
Univers « standard » SGBDR,
Serveur d’application, ETL, ESB
Le diamant Big Data (1/2)
10 To en ligne 3.000 TPS
10 threads/core 1.000 évts/s
![Page 33: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/33.jpg)
33
Application orientée Flux évènementiel
Application orientée Transaction
Application orientée Calculs
Application orientée Stockage
Le diamant Big Data (2/2)
In Memory
Redis. Memcached, GemFire/Geode, Spark
NoSQL NewSQL
MongoDB, CouchDB, Cassandra, Hbase, Neo4j.
CEP, ESP
Spark Streaming, Storm, Flink, Samza, Heron Parrallel database
Teradata, Vertica
![Page 34: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/34.jpg)
34
Technologies vs solutions
Les technologies sont au service du métier et non l’inverse, à nous de faire le bon choix.
Chacune de ces technologies ont été pensées pour répondre à un problème métier.
![Page 35: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/35.jpg)
35
Cas client – analyse de signaux faibles
![Page 36: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/36.jpg)
36
Le web…
![Page 37: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/37.jpg)
37
![Page 38: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/38.jpg)
38
Données à prédire : prestations de mutuelle
![Page 39: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/39.jpg)
39
Traitement des données client
EXEMPLE DE COURBE DISCRETISÉE
![Page 40: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/40.jpg)
40
Modèle prédictif
Séries Google Trends
exogènes
Série à modéliser
![Page 41: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/41.jpg)
41
Modèle prédictif
RECHERCHE DE PRÉDICTEURS
Calculs de similarité
10.8
12.6
12.4
12.6
Séries Google Trends
exogènes
Série à modéliser
![Page 42: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/42.jpg)
42
Champ sémantique Client
CROISEMENT DES DONNÉES CLIENT ET EXOGÈNES Construction pour un type d’acte (Hospitalisation, Pharmacie, Optique ou Dentaire)
Caractéristiques : Noeuds : mots-clefs les plus corrélés à la série client
Liens : mots-clefs liés Force des liens : corrélations entre mots-clefs
Optique
Santé
Evénements de vie
![Page 43: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/43.jpg)
43
Modèle prédictif
APPRENTISSAGE DU MODÈLE
Le modèle de prédiction des dépenses de santé est une combinaison linéaire des séries exogènes les plus corrélées.
![Page 44: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/44.jpg)
44
Quelle capacité du modèle à prédire de nouvelles données ?
Client
![Page 45: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/45.jpg)
45
Quelle capacité du modèle à prédire de nouvelles données ?
Client
![Page 46: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/46.jpg)
46
Cette approche est universelle.
Elle s’applique à chaque série temporelle pouvant être reliée à la sphère digitale par les recherches sur les moteurs de recherche.
![Page 47: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/47.jpg)
47
Est-ce fiable ?
Quelle confiance peut-on avoir
dans ces nouveaux
systèmes ?
![Page 48: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/48.jpg)
48
![Page 49: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/49.jpg)
49
Un système complexe, nécessitant une attention particulière
Des boucles de feedback pouvant fausser le système
Un monde en constante évolution
![Page 50: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/50.jpg)
50
Un nouveau regard sur le monde
![Page 51: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/51.jpg)
51
![Page 52: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/52.jpg)
52
Jakob von Uexküll : le « savoir » d’une espèce dépend de ses capacités perceptives
Un monde de plus en plus multidimensionnel
vision de l’homme vision de la mouche vision du mollusque
La technologie accroît notre capacité de perception des phénomènes physiques, chimiques, sociaux :
accéléromètre, oxymètre, activité sur les réseaux sociaux… sont autant de moyens de perception, de moins en moins coûteux
vision grâce aux machines
![Page 53: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/53.jpg)
53
Chaque année, 2 exabytes de données sont générés dans le monde
Avec le cloud, l’accès à la donnée s’affranchit potentiellement de toute contrainte géographique
La constitution d’une mémoire collective numérique ?
Evoque la constitution d’une mémoire collective numérique ubiquitaire, qui dépasse largement nos capacités de mémorisation individuelles
![Page 54: Softshake 2015 - Des small data aux big data - Méthodes et Technologies](https://reader031.vdocument.in/reader031/viewer/2022030316/5877bfe41a28ab2c668b7749/html5/thumbnails/54.jpg)
54
Les algorithmes d’apprentissages statistiques sont de plus en plus puissants, s’appliquent à tout type de données
Grâce à la technologie, l’accès à la donnée est de plus en plus aisée et nous disposons d’une puissance de calcul incroyable
Conclusion
Les capacités d’apprentissage apportent un nouveau regard sur le monde