Big Data – La revolución de los datos
John Alexander Bulla TorresSQL Server MVP
Microsoft Azure
Big Data Insights
@johnbulla
bit.ly/johnbulla
linkedin.com/in/johnbulla
Agenda ¿Por que Big Data?
Conceptos Básicos
Microsoft y Hadoop
¿Por que Big Data?
Microsoft Azure
Tendencias Claves
Microsoft Azure
Big Data – La revolución en los datos
6
Los datos digitales crecerán40x próxima década
En 2015, servicios de nube pública tendrán 46% de crecimiento neto en gasto de ti
Microsoft Azure
Big Data analytics
Microsoft Azure
¿Qué es Big Data?
"Big data" es un término aplicado a conjuntos de datos que superan la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable.
Microsoft Azure
¿Qué es Big Data?
Big data es una colección de conjuntos de
datos tan grande y complejo que se vuelve
difícil para trabajar con el uso de
herramientas de gestión de base de datos
tradicionales. Las dificultades incluyen la
captura, almacenamiento, búsqueda,
intercambio, análisis y visualización.
Fuente: Eduardo Castro MVP – SQL Saturday #247 Bogotá
Microsoft Azure
¿Qué es Big Data?
Big Data: “ Barreras para que una
organización o equipo puedan almacenar,
procesar y acceder todos los datos que
necesitan para operar con eficiencia, tomar
decisiones, reducir riesgos, etc.”
Fuente: SolidQ
Microsoft Azure
¿Qué es Big Data?
Volumen
Velocidad
Variedad
Variabilidad
Microsoft Azure
Internet of Things
Audio / Video
Log Files
Text/Image
Social Sentiment
Data Market Feeds
eGov Feeds
Weather
Wikis / BlogsClick Stream Sensors / RFID / Devices
Spatial & GPS Coordinates
Modern WebMobile
Advertising CollaborationeCommerce
Digital Marketing
Search Marketing
Web Logs
Recommendations
ERP / CRM
Sales Pipeline
Payables
Payroll
Inventory
Contacts
Deal Tracking
Terabytes
(10e12)
Gigabytes
(10e9)
Exabytes
(10e18)
Petabytes
(10e15)
Velocidad | Variedad | Variabilidad
Vo
lum
en
ERP / CRM Modern Web Internet of Things
¿Qué es Big Data?
Microsoft Azure
(kB) 10e3
(MB) 10e6
(GB) 10e9
(TB) 10e12
(PB) 10e15
(EB) 10e18
(ZB) 10e21
(YB) 10e24
Ejemplos de Big Data
12 Tbdía
21 PbHadoop
cluster
7 Pbmes
1 Tbtweets/dia
75
Millionscores/day
14 TbHadoop
cluster
4 BillionGraph
edg/day
7 Tbdatos/dia
Microsoft Azure
Escenarios de Business Analytics
• Análisis sencillo de gran cantidad de datos no estructurados: Microsoft HDInsight
• Análisis sencillo de datos en memoria: Microsoft StreamInsight
• Análisis en profundidad: SQL Server y Self-Service BI
16Microsoft Azure
Flujo de datos de un tradicional E-Commerce
Nuevo flujo de Big Data de un E-Commerce
¿Cuántas vistas
para ciertos
productos aume
ntan cuando
nuestros
anuncios se ven
en TV?
Conceptos básicos
Microsoft Azure
Características de Big Data
¿Qué es Hadoop?
• Plataforma de almacenamiento de datos y análisis para Big Data
• Open Source
• Optimizado para manejar
• Datos masivos a través de paralelismo
• Variedad de datos (Estructurados, No-estructurados, Menos estructurados)
• Uso de hardware económico
• No para OLTP / OLAP
21
¿Qué es HDInsight?
• Proyecto Isotope
• HDInsight es la distribución de Microsoft de Apache Hadoop que se ejecuta en Windows.
• On premise: Instalación en Windows Server
• Cloud: Despliegue en la nube Microsoft Azure
22
RDBMS vs. Hadoop
Distributed Storage
(HDFS)
Query
(Hive)
Distributed Processing
(MapReduce)
OD
BC
Legend■ Core Hadoop
■ Data processing
■ Data Movement
■ Packages
Ecosistema Hadoop
Hadoop Core +
Hive, Pig, HBase
C#, F#, .NET
Azure Storage (WASB)
Office 365 Power BI
(Excel, PowerQuery,
PowerView,
BI Sites)
World's Data (Azure Data
Marketplace)
HDInsight y Hadoop
ODBCSqoop for SQL
ServerPowerShell
HDInsight y Hadoop
HDFS
Map Reduce
HivePig
Sqoop
Mahout Pegasus Flume
JDBC
Hive ODBC
Microsoft Azure & Windows Server
MicrosoftBI
Platform
Ofertas detalladas
Programando HDInsight
Hive, Pig, Mahout, Pegasus…
C#, F# Map/Reduce, Microsoft .NET management clients
PowerShell, cross-platform CLI tools
Ejemplos HiveQL
•Crear una Tabla Externa
31Microsoft Azure
CREATE EXTERNAL TABLE iislogs(sdate string, stime string, ssitename string, csmethod string, csuristem string, csuriquery string, sport int, scstatus int, scbytes int, sbytes int, timetaken int)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '
LOCATION'wasb://[email protected]/'
select sdate, stime, csmethod, scuristem, query_params['api-version'] as api_version,query_params['search_value'] as search_value
from (select *, str_to_map(csuriquery, '&', '=') as query_paramsfrom iislogs
) version_logswhere query_params['api-version'] is not null
•Ejecutar un query para retornar datos
Demo
HDInsight en Microsoft Azure
Libro Gratis de Microsoft Azure HDInsight
• Download the PDF (6.37 MB; 130 pages)http://aka.ms/IntroHDInsight/PDF
• Download the EPUB (8.46 MB)http://aka.ms/IntroHDInsight/EPUB
• Download the MOBI (12.8 MB)http://aka.ms/IntroHDInsight/MOBI
Recursos
24 Horas PASS en Español
http://bit.ly/24hopes201440
41
Big Data Insights
@johnbulla
bit.ly/johnbulla
linkedin.com/in/johnbulla