sql saturday paris 2015 - polybase
TRANSCRIPT
SQLSaturday Paris 2015
All in one with Polybase
SQL Server 2016,
Azure SQL DataWarehouse,
…
SQLSaturday Paris 2015
Merci à nos sponsors…
SQLSaturday Paris 2015
Speakers
Romain Casteres
Microsoft PFE Data Platform
@PulsWeb
www.PulsWeb.fr
Arnaud Voisin
Consultant BI Data Platform
@ArnaudVoisinSQL
www.arnaudvoisin.blogspot.fr
SQLSaturday Paris 2015
Agenda
Polybase
Big Picture
Apache SQOOP
Cas d’usages
Les outils & services autour de Polybase
HDInsight
Azure Blob Storage // HDFS
APS : Appliance MPP
Azure SQL DataWarehouse
Polybase dans SQL Server 2016 CTP 2.x
Démos : “ Analyse des comportements des automobilistes ”
Architecture, Installation, Configuration, Analyse
SQLSaturday Paris 2015
Les limites du DWH traditionnel
Data sources
ETL
Data warehouse
BI and analytics
Augmentation du volume de données
1
Real-time Analysis
3
Non-relational data
De nouvelles sources et types de données
2
Cloud data
4
SQLSaturday Paris 2015
Data sources Non-relational data
Le DataWarehouse moderne
SQLSaturday Paris 2015
Big Picture
SQLSaturday Paris 2015
Hybrid SQL & Hadoop solutions
(Microsoft PolyBase, Teradata
QueryGrid, IBM Big SQL etc.)
RDBMS HDFS
Les données proviennent des
deux mondes
Cheap and
scalable data
store
Cold Data
Load first,
schema later
Familiar SQL
interface
Decades of
research and
optimization
Hot Data
SQL Server
Polybase
SQL
RésultatPourquoi ?
Les réponses aux nouvelles questions
≠ Big Data
≠ Données relationnelles
SQLSaturday Paris 2015
Polybase vs SQOOP
SQOOP :
Transfert de données entre Hadoop et des SGBDR (SQL To Hadoop)
Génération de Jobs Map Reduce
Export
Import
SQLSaturday Paris 2015
Cas d’usages
SQLSaturday Paris 2015
HDInsight
SQLSaturday Paris 2015
HDInsight : Le stockage
Déconnexion des données et des Compute Nodes
Les données sont persistées même après désallocation du cluster
Plusieurs cluster Hadoop peuvent utiliser le même set de données
HDFS WASB
Système de fichier distribué et
extensible (scalable)
Le stockage est attaché à son
Datanode
SQLSaturday Paris 2015
APS : Appliance MPP
APS
0TB 6PB
APS /
HDInsight
APS /
HDInsight
APS /
HDInsight
APS /
HDInsight
APS /
HDInsight
APS /
HDInsight
SQLSaturday Paris 2015
Polybase dans APS
Permet d’accéder à un
cluster Hadoop interne ou
externe, ou à un conteneur
WASB
Importer des données d’un
système EXTERNE grâce
au CTAS
Analytics
Platform
System
Hortonworks
(Windows, Linux),
Cloudera
Windows Azure
HDInsight
PolyBase
Microsoft
HDInsight
Select…Result
set
SQLSaturday Paris 2015
SQL DataWarehouse
Base de données distribuée dans Azure
Scalable à la demande : Accroître, réduire ou interrompre les
ressources de calcul (DWU)
Traitement MPP en mode PaaS basé sur APS
Possibilité de connecter SQL DataWarehouse avec les système On-
Premise
HDINSIGHT
Stockage données
SQL Server
Exploitation &
Analyse
Azure DW
Traitement &
agrégation
SQLSaturday Paris 2015
Polybase dans SQL Server 2016E
xte
rnal Table
External Datasource
External File Format
Headnode
Azure Blob Storage (WASB)
Supportes différents format et compression :
• CSV
• ORC
• RC FILE
Azure Blob
Storage (WASB)Ressource
Manager
Compute/D
ata Node
1
Compute/D
ata Node
Compute/D
ata Node
Cluster Hadoop
2
3
Moteur SQL 16
Jobs
map/reduce
Gestion de
rejets
SQLSaturday Paris 2015
Notre scénario : « Pay-How-You-Drive »
Une assurance ajustée
selon votre utilisation !
SQLSaturday Paris 2015
Architecture 1 – Polybase & WASB
SQLSaturday Paris 2015
Installation & Configuration
Prérequis :
• 64-bit SQL Server Evaluation edition
• Microsoft .NET Framework 4.0.
• Oracle Java SE RunTime Environment (JRE)
• Minimum memory: 4GB
• Minimum hard disk space: 2GB
Dans l’onglet de configuration du serveur, le
service Polybase Engine et Polybase Data
Movement doivent s’exécuter avec le même
compte.
A noter 3 bases sont installées :
DWConfiguration, DWDiagnostics, DWQueue
Fichier de configuration : C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\MSSQL\Binn\Polybase
SQLSaturday Paris 2015
Démo Architecture WASB
SQLSaturday Paris 2015
Architecture 2 – Polybase & SQL DHW
Envoie toutes les minutes des évènements
Hadoop
Azure SQL DataWarehouse
Power BI
WASBPolyBase
Queries
SQLSaturday Paris 2015
Démo Architecture SQL DWH
SQLSaturday Paris 2015
Exemple de Rapport
SQLSaturday Paris 2015
Limites & Evolutions : CTP3, …
CTP2
CTP3
Export de données relationnelles vers Hadoop ou Wasbs à
des fins d’archivage
Architecture Scale-out : Configuration de cluster d’instance
pour attaquer une source Hadoop ou Azure Blob Storage.
De nouveaux formats pris en charge : Parquet, Avro ?
SQLSaturday Paris 2015
Merci !
SQLSaturday Paris 2015
Merci à nos volontaires…
SQLSaturday Paris 2015
…Et en plus on peut gagner des cadeaux
http://GUSS.pro/sqlsat