big data introducción

31
www.consultec.es Introducción a Big Data

Upload: gorka-armentia

Post on 25-May-2015

498 views

Category:

Data & Analytics


2 download

DESCRIPTION

Introducción a Big Data, qué es, para qué sirve, cómo funciona, etc ...

TRANSCRIPT

Page 1: Big Data Introducción

www.consultec.es

Introducción a Big Data

Page 2: Big Data Introducción

www.consultec.es

¿Quiénes somos?

Gorka ArmentiaDeveloper

[email protected]@joruus

MCSA: SQL Server 2012MCSD: Application Lifecycle Management

Constantin CuciureanDeveloper

[email protected]

MCSA: SQL Server 2012MCSD: Web Applications

Page 3: Big Data Introducción

Índice

1. Introducción1. ¿Qué no es Big Data?

2. Situación actual

3. ¿Y entonces qué es Big Data exactamente?

4. Las 3 Vs de Big Data

5. Retos actuales

2. Big Data llevado a la práctica1. Utilidades

2. Ejemplo real: Walmart

3. ¿Qué mueve Big Data?1. Características Técnicas

2. Software

3. Markets de Datos

4. Hadoop

5. Microsoft HDInsight

4. Demos

Page 4: Big Data Introducción

www.consultec.es

Introducción

“Big Data” es desde hace dos o tres años una de las grandes

tendencias dentro del mundo de la tecnología y del marketing, uno

de esos “buzzwords” que en un momento dado empiezan a

propagarse y aparecer por todo internet, las grandes empresas se

interesan por ello, se crea una industria alrededor y, de repente,

todo el mundo sabe lo que es Big Data. O no …

BIG DATA

Page 5: Big Data Introducción

www.consultec.es

¿Qué no es Big Data?

Antes de empezar, lo primero es desengañarnos.

• Big Data no es una base de datos enorme

• Big Data no es un data warehouse enorme

• Big Data no es una nueva forma de Business Intelligence

• Big Data no es llevar las base de datos a la nube

• …

Page 6: Big Data Introducción

www.consultec.es

Situación actual

Bases de Datos

Relacionales

Bases de Datos

Analíticas(Data

Warehouse)

Archivos (XML,

Logs, …)

ERP/CRM

Redes Sociales

Base de Datos NoSQL

APIs

Sensores

RFID

Información generada por apps móviles

Y mucho más.

Y lo que está por venir …

Big Data

GPS

Internet de las Cosas

Información generada por

máquinas

eMails

Page 7: Big Data Introducción

www.consultec.es

¿Y entonces qué es Big Data exactamente?

• Definiciones encontradas en internet

• Información que tiene un orden de magnitud más grande de lo que

estamos acostumbrados.

• Información que es muy grande, se mueve muy rápido y no se ajusta a

las estructuras de las base de datos actuales.

• Es un conjunto de datos cuyo tamaño está más allá de la capacidad de la

mayoría de los software utilizados para capturar, gestionar y procesar la

información dentro de un lapso tolerable de tiempo.

Page 8: Big Data Introducción

www.consultec.es

Las 3 Vs de Big Data

Volume: grandes volúmenes de información

• Se está pasando de hablar en Gigabytes o Terabytes a tamaños de datos de

Petabytes, Exabytes o Zettabytes. Volúmenes que se nos escapan.

Page 9: Big Data Introducción

www.consultec.es

Las 3 Vs de Big Data

Variety: información de tipos muy diversos

• Ya no solo tenemos información estructurada en Bases de Datos o Archivos.

Ahora empezamos a tener información con tipos diferentes y totalmente

desestructurada.

Page 10: Big Data Introducción

www.consultec.es

Las 3 Vs de Big Data

Velocity: velocidad con la que se genera la información

• La velocidad a la que se genera esta información hace imposible gestionarla

con sistemas de base de datos convencionales. Las empresas y las personas

ya no quieren estar al día, quieren “estar al segundo”.

Page 11: Big Data Introducción

www.consultec.es

Retos actuales

• Dar sentido al gran volumen de datos

• Necesitamos las herramientas adecuadas para dar sentido de la abrumadora

cantidad de datos generados por la disminución de los costos de hardware y de las

fuentes de datos “complejas”.

• La comprensión de una variedad cada vez mayor de datos

• Debemos poder analizar datos tanto relacionales como no relacionales. Más del 85%

de los datos capturados son desestructurados.

• Habilitación de análisis en tiempo real de los datos

• Los nuevos generadores de datos (Twitter, Facebook, Apps, …) están produciendo

volúmenes de datos sin precedentes y en tiempo real, lo que no se puede analizar

eficazmente mediante procesos por lotes normales.

Page 12: Big Data Introducción

www.consultec.es

Utilidades

Toma de decisiones

El valor del Big Data no es la información, sino la nueva forma de toma de

decisiones basada en evidencias y datos empíricos.

Tomar decisiones en base a datos empíricos y tendencias

Tomar decisiones en base a corazonadas, instinto o

experiencias pasadas

Page 13: Big Data Introducción

www.consultec.es

Utilidades

Experimentación

Una vez recopilados los datos que nos

interesan, la experimentación y la

exploración de los mismos puede

mostrarnos información que a primera vista

nunca hubiésemos encontrado o que nunca

se nos hubiese ocurrido buscar.

Page 14: Big Data Introducción

www.consultec.es

Utilidades

Transparencia

Compartir y hacer accesible grandes volúmenes de datos a las partes interesadas

y de manera oportuna puede crear un enorme valor y aumentar la eficiencia.

Page 15: Big Data Introducción

www.consultec.es

Utilidades

Innovación

Permite crear nuevos productos y servicios, mejorar los existentes e, incluso, crear

nuevos modelos de negocio.

Page 16: Big Data Introducción

www.consultec.es

Ejemplo real: Walmart

• Walmart es una multinacional de grandes almacenes

• Es la segunda mayor empresa del mundo por ingresos

Page 17: Big Data Introducción

www.consultec.es

Ejemplo real: Walmart

• Algunos datos:

• 200 millones de clientes a la semana

• 10700 tiendas

• 27 países

• 2 millones de trabajadores

• 1,5 millones de transacciones por hora

• Varios Terabytes de información generada en tiempo real

• Base de datos de 3 Petabytes

Page 18: Big Data Introducción

www.consultec.es

Ejemplo real: Walmart

Guardando todas las compras de todos los clientes se dieron cuenta que

en época de huracanes los Walmart de las zonas afectadas vendían más

cajas de Pop-Tarts que en otras épocas.

Se indicó a los gerentes de las tiendas que en esas épocas pusiesen los

Pop-Tarts en la entrada de las tiendas.

Resultado: Aumento extraordinario de las ventas

¿A quién se le hubiese ocurrido cruzar los

datos de ventas con los datos meteorológicos

o con los calendarios de huracanes?

Page 19: Big Data Introducción

www.consultec.es

Ejemplo real: Walmart

Hanna twitea:

“I love Salt!”.

En unos segundos el Tweet llega a los sistemas de Walmart, se analiza y

unos minutos más tarde le llega a una amiga suya el siguiente email:

“Buenos días!

Nos pediste que te avisásemos cuando fuese el cumpleaños

de Hanna. Pues ya está aquí y acaba de tweetear algo

bueno sobre la película “Salt” de Angelina Jolie.

¿Quieres regalarle algo relacionado con ello?

Tenemos algunas sugerencias que hacerte …”

Page 20: Big Data Introducción

www.consultec.es

Ejemplo real: Walmart

• Social Genome

Base de conocimiento que captura entidades y relaciones del mundo

social.

Obtiene información de su base de datos, de otros datos tanto públicos

como privados y de redes sociales.

A partir de ahí identifican entidades “interesantes” y las relacionan

entre sí, consiguiendo toda la información de la que son capaces.

Es un sistema vivo, en constante evolución.

Page 21: Big Data Introducción

www.consultec.es

Ejemplo real: Walmart

• Entidades: • Relaciones• Una persona interesada en un tema

• Una persona que asiste a un evento

• Un evento sobre un tema

• Una asociación entre empresa y

producto

Page 22: Big Data Introducción

www.consultec.es

Ejemplo real: Walmart

• Resumiendo

Page 23: Big Data Introducción

www.consultec.es

Características Técnicas

Arquitectura

• Alta escalabilidad

• Procesamiento paralelo

• Baja latencia

• Datos no estructurados y estructurados

• NoSQL

• By-pass de datos – Alta disponibilidad

Page 24: Big Data Introducción

www.consultec.es

Markets de Datos

Además de las fuentes de datos que tengamos en nuestra organización:

bases de datos, emails, logs, documentos, etc … Podemos acceder a

grandes volúmenes de datos (Data Sets) en los markets.

Hay gratuitos y de pago.

Page 25: Big Data Introducción

www.consultec.es

Hadoop

• Es una plataforma diseñada para almacenar y analizar grandes

volúmenes de datos de diferentes tipos. Basada en Google

Map/Reduce y Google Filesystem.

• Map/Reduce:

• Map: recoger los datos, estructurarlos, extraer la

información interesante, etc … para poder trabajar con

ellos.

Los trabajos se distribuyen en los nodos para

procesarse paralelamente.

• Reduce: combina la información generada en los Map.

• HDFS (Hadoop Distributed File System):

• Sistema de archivos distribuidos, con replicación

automática y optimizado para lectura. Cada fichero se

particiona y se distribuye en todos los servidores.

Page 26: Big Data Introducción

www.consultec.es

Hadoop

• Otros proyectos alrededor de Hadoop

• Hive: Data Warehouse sobre Hadoop con lenguaje HiveQL (“SQL”).

• Pig: Lenguaje de script para consulta y análisis de la información. Desarrollado

por Yahoo!.

• Sqoop: Framework para la integración de bases de datos relacionales con

Hadoop

• Flume: Servicio para recolectar, agregar y mover grandes volúmenes de datos

de eventos/logs y streaming.

• …

Page 27: Big Data Introducción

www.consultec.es

Microsoft HDInsight

• Servicio basado en Hadoop.

• Dos versiones:• Windows Azure HDInsight (on-demand)

• HDInsight Server (on-premise)

Page 28: Big Data Introducción

www.consultec.es

Microsoft HDInsight

• Acceso a todo tipo de usuarios, incluidos desarrolladores y

profesionales IT. Fácil instalación, administración y configuración.

• Integración con herramientas conocidas como Excel, PowerPivot,

PowerView, SQL Server Analysis Services o Reporting Services.

• .NET SDK para Hadoop (a través e NuGet):• Map/Reduce

• LINQ to Hive

• WebHDFS Client

Page 29: Big Data Introducción

www.consultec.es

Microsoft HDInsight

Page 30: Big Data Introducción

www.consultec.es

¿Dudas?

Gorka ArmentiaDeveloper

[email protected]@joruus

MCSA: SQL Server 2012MCSD: Application Lifecycle Management

Constantin CuciureanDeveloper

[email protected]

MCSA: SQL Server 2012MCSD: Web Applications

Page 31: Big Data Introducción

www.consultec.es

Gracias!