windows azure connecy -...

63
HDInsight Big Data, al estilo Microsoft

Upload: others

Post on 24-Sep-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

HDInsight Big Data, al estilo Microsoft

Page 2: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

• SQL/BI Team Lead [email protected] http://geeks.ms/blogs/palvarez @PabloDoval

PABLO DOVAL

Page 4: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

Categoría Metrica Mayor base de datos 100 TB Tabla mas grande 1.5 trillones de filas Mayor conjunto de datos en una sola aplicación 92 PB Mayor número de transacciones/seg. (en 1 servidor) 130,000

Subsistema de E/S más rápido (SQLIO: lecturas en serie de 64k)

18 GB/s.

Menor latencia en cubo Latencia en ms.

Carga de 1TB de datos 30 minutos Mayor cubo MOLAP 24 TB

ALGUNAS ESTADÍSTICAS DE SQL SERVER

Page 6: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

ARQUITECTURA DE REFERENCIA

•••

Diseño Hardware: • Especificación concreta de servidores,

almacenamiento y red. • Recursos Balanceados y Equilibrados • Servidores y Almacenamiento de última

generación

•••••

Page 8: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

• RDBMS distribuido, paralelo, “Shared-nothing” • Particionado de consultas y datos • Proporciona una vista única de un cluster de SQL Servers

• Appliance • Software + hardware • HP, Dell, NEC

• Optimizado para DW • Bulk loads (1.2 – 2.0 TB/hora) • Scans (700 TB en 3 horas)

• Escala de 0 Terabytes al rango de petabytes

PARALELL DATA WAREHOUSE

Page 9: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

ARQUITECTURA (I)

Computación

Dua

l Inf

inib

and

Nodos de Control (Activo / Pasivo)

Nodo de Reserva

Dua

l Fib

er C

hann

el

SQL

SQL

SQL

SQL

SQL

SQL

SQL

SQL

SQL Drivers Cliente (ODBC, OLE-

DB, ADO.NET)

Monitorización

Interfaz ETL

Solución de Backup

Page 10: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

ARQUITECTURA (II)

Compute Nodes Compute Nodes

Nodo de Computación

Query Tool

MS BI (AS, RS)

Nodo de Control

3rd Party Tools DWSQL

Landing Zone

Internet Explorer

SQL Server

DW Authentication

DW Configuration

DW Schema TempDB

SQL Server User Data

Data Movement Service

Data Movement

Service

Data Movement Service

PDW Engine

IIS

Admin Console Data Access

(OLEDB, ODBC, ADO.NET, JDBC)

Page 11: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

SISTEMA TRADICIONAL

Page 12: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

RESUMEN

Hadoop NO es lo mismo que Big Data

Big Data es: una solución para almacenar y procesar Datos NO estructurados Y Datos estructurados conjuntamente

Big Data • NO es una Base de Datos

ENORME • NO es un Data

Warehouse ENORME

Page 14: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

Open Source data management with scale-out storage & processing

APACHE HADOOP

MapReduce

• Divide las tareas entre procesadores ‘cercanos’ a los datos

• Compone los resultados

HDFS

• Almacenamiento distribuido

• Auto-reparable • Redundante • Nodo maestro

(NameNode)

Page 15: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

• Escalable – Cantidades masivas de datos (Pb) – Escalado (casi) lineal Almacenamiento Redundante – Failover entre nodos y racks

• Flexible – Cualquier tipo de datos, en cualquier formato – El esquema se aplica en lectura

• Económico – Empleo de hardware no especifico

CARACTERÍSTICAS

Page 16: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

ECOSISTEMA HADOOP

Almacenamiento Distribuido (HDFS)

Procesado Distribuido (Map Reduce)

Page 17: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

RDBMS vs HADOOP

Page 19: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

• Sistema de Ficheros distribuido • Construido sobre Hardware no específico – Ficheros replicados para soportar fallos – Deteccion y Recuperación automática • Optimizado para procesos por lotes (batch) – Lista de úbicaciones expuesta para minimizar trafico – Proporciona un ancho de banda agregado muy

elevado • Funciona en multiples OS (FS lógico)

HDFS

Page 20: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

ARQUITECTURA HDFS

Name Node

Secondary Name Node NameSpace

Block Management

Data Node Data Node Data Node Data Node

Page 21: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

• Systema de Ficheros Lógico • Metadatos

– Organización en ficheros y directorios – Permisos POSIX

• Ficheros – Divididos en bloques de tamaño uniforme (64 MB por

defecto) – Distribuidos a lo largo de todo el clúster

• Consciente de rack

ORGANIZACIÓN DE LOS DATOS

Page 22: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

Tres componentes principales: • Name Node:

– Gestiona los Data Nodes – Guarda metadatos para todos los ficheros y bloques

• Data Nodes: – Almacenan los bloques de datos – Se distribuyen por la topología de racks

• Clientes: – Hablan directamente con el Name Node, y después con los

Data Nodes necesarios.

CLUSTER HDFS

Page 23: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

ACCESO A LOS FICHEROS

NameSpace

Block Management

Data Node

Name Node JVM

Distributed FS

Client Code

FS Data Output Stream

Pig

Hive

HBase

1

2

3

4

5 6

Page 25: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

• Generalmente se hacia por lotes – Automatizado como Jobs de CRON

• No se necesita definir el schema a la hora de escribir los datos

MOVIENDO DATOS DENTRO DEL CLUSTER

Page 26: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

• SSIS • WebHDFS • FlumeNG • Sqoop

OTROS MECANISMOS

Page 28: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

• Un framework • Procesado y Analisis de ‘big data’

– Pensado para grandes conjuntos de datos

• Computacion de datos locales • Procesado paralelo • Gestiona automáticamente los fallos • Java

¿QUE ES MAP REDUCE?

Page 29: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

HBase

ARQUITECTURA DE MAPREDUCE

Input Format

Node

HDFS

Map Partitioner

Node

Sort Reduce Output Format

MapReduce

Page 30: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

MAPREDUCE

Page 31: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

.NET Integration

Page 32: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

• Dos métodos principales: – Interfaz de Streaming – .NET SDK for Hadoop

HADOOP Y WINDOWS

Page 33: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

STREAMING

Page 34: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

• Se trata de un .jar normal…

SINTAXIS

> Hadoop jar contrib/streaming/hadoop-x.x-streaming.jar -input inputfile -output outputfile -mapper myScript.py -file myScript.py -reducer c:/Windows/system32/sort.exe

Page 35: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

• API para HDInsight – API C# que hace de wrapper sobre la interfaz de

streaming

• Otras cosas finas… ;) – LINQ to Hive – WebHDFS client – WebHCat cliente

.NET SDK FOR HADOOP

Page 37: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

• Extension de Hadoop para simplificar las consultas sobre los datos

• Dos componentes principales:

– Lenguaje de procesado de datos (Pig Latin) – Compilador y runtime de scripts pig latin

PIG

Page 38: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

• Sub-proyecto de Apache Hadoop para construir Data Warehouse sobre el clúster.

• Permite: – Definir una estructura tabular sobre los datos – Consultar estos datos mediante HiveQL

HIVE

Page 39: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

• … es un RDBMS – Usa una BD para los metadatos, pero los datos reales

se almacenan en HDFS

• … está diseñado para sistemas OLTP – Olvidémonos de consultas en tiempo real – Olvidémonos de actualización de filas

HIVE NO…

Page 40: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

MICROSOFT Y HADOOP

Page 42: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

CASO DE ÉXITO

Page 43: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

• SCADA Historical Analysis and Reporting Platform

• Plataforma: – SCADA: Local, Central y Móvil – Datos Históricos: Gran volumen y gran velocidad – Reporting – Análisis

SHARP

Page 44: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

DAT

DAT

DAT

DAT

DAT

DAT

Mongo Export

Hadoop DWH

Source1

Loader

Origen 2

Loader

Source 2

Loader

Origen 4 Loader

Source 3 Loader

MAGUS

Origen 6

Loader

DAT

Source7

Loader

DAT

SHARP (ALMACENAMIENTO)

Page 45: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

DWH Microsoft

Office

Reporting Services

OLAP Tabular

OLAP Tabular

Power View

Power Pivot

Cloud?

Stre

amIn

sigh

t

Events

Production Centers Central

SHARP (ANÁLISIS Y REPORTING)

Page 46: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

APROXIMACIÓN

Prueba de Concepto

Ecosistema Microsoft

Infrastructura On-Premise

Page 47: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

PowerPivot

Power View

HERRAMIENTAS

Page 48: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

IMPLEMENTACIÓN

DWH

Hadoop

HDFS

HIVE

Map Reduc

e

SSIS

Load Service

Azure Storage

SSRS PowerView

Page 49: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

UN VISTAZO…

Page 50: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

DWH Microsoft

Office

Reporting Services

OLAP Tabular

OLAP Tabular

Power View

Power

Pivot

Cloud

Stre

amIn

sigh

t

Events

Production Centers Central

CEP

Page 51: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

Stre

amIn

sigh

t

Events

Production Centers Central

CEP

Page 52: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

LO QUE ESTA POR LLEGAR…

Page 53: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

MEJORAS A HIVE: 100X (STINGER)

Page 54: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

MEJORAS A HIVE: TEZ

Page 55: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

VARIAS GRANULARIDADES: SQL Y HADOOP

Export

Page 56: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

• Recordando Sqoop:

VARIAS GRANULARIDADES: SQL Y HADOOP

Page 57: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

• Sqoop with PDW…

VARIAS GRANULARIDADES: SQL Y HADOOP

Sqoop Map/

Reduce Job

SQL ServerSQL Server SQL Server

… SQL Server

Page 58: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

VARIAS GRANULARIDADES: SQL Y HADOOP

SQL ServerSQL Server SQL Server

… SQL Server

Hadoop Cluster

Sqoop

Page 59: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

POLYBASE

SQL HDFS

SQL Server

T-SQL Queries

Page 60: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

Improv. to HigHer Resolution Data

SQL ServerSQL Server SQL Server

… SQL Server

Hadoop Cluster

Page 61: Windows Azure Connecy - dataweb.infor.uva.esdataweb.infor.uva.es/wp-content/uploads/2013/03/HDInsight.pdf · Mayor conjunto de datos en una sola aplicación : 92 PB . Mayor número

Polybase