introducción a bigdata - up - 2015
TRANSCRIPT
Introducción a BigDataUniversidad de Palermo 2015
Gabriel EisbruchDeveloper | Arquitecto | Data Nerd
[email protected]@geisbruch
Que es BigData?
“
“Conjunto de herramientas destinadas a la manipulación, gestión y análisis de grandes volúmenes de datos y de tipos variados
Entonces…que son Grandes Volúmenes de Datos?
~455 PBEn todo su potencial
40000 NodosCluster mas grande 4500
113 Veces
30+ PBSon 61400 notebooks
2000+ Nodos
3.1 PBSon 100000 IPhones
180 Nodos
~ 4300 Cpu’s
Algo de Historia
Algo de Historia
Aparición de Internet1995
Algo de Historia
Aparición de Internet1995
Internet Boom1998
Algo de Historia
Aparición de Internet1995
Internet Boom1998
Google Map Reduce2004
Algo de Historia
Aparición de Internet1995
Internet Boom1998
Google Map Reduce2004
Hadoop2005
Algo de Historia
Aparición de Internet1995
Internet Boom1998
Google Map Reduce2004
Hadoop2005
Netflix Prize2009
Algo de Historia
Aparición de Internet1995
Internet Boom1998
Google Map Reduce2004
Hadoop2005
Netflix Prize2009
Nuevos paradigmas e IOT2011 -> Hoy
Cuales fueron los FACTORES que ayudaron a este crecimiento?
Cuales fueron los FACTORES que ayudaron a este crecimiento?
Incremento de Usuarios e información
Al aumentar la cantidad de usuarios de internet y la cantidad de acciones que estos realizan sobre la web, hubo una explosión de información disponible que no se estaba capitalizando
Cuales fueron los FACTORES que ayudaron a este crecimiento?
Incremento de Usuarios e información
Al aumentar la cantidad de usuarios de internet y la cantidad de acciones que estos realizan sobre la web, hubo una explosión de información disponible que no se estaba capitalizando
Disminución de costos
Los costos de la tecnología tienden usualmente a bajar, en particular la disminución de costos de almacenamiento y procesamiento impulsó a BigData
Cuales fueron los FACTORES que ayudaron a este crecimiento?
Cuales fueron los FACTORES que ayudaron a este crecimiento?
YearAverage Cost Per Gigabyte
2014 $0.03
2013 $0.05
2010 $0.09
2005 $1.24
2000 $11.00
Porque se volvio esto tan relevante para las Empresas?
Experiencia de usuario
Entender mejor al usuario ayudar a mejorar las experiencias de estos en las empresas
Porque se volvio esto tan relevante para las Empresas?
Experiencia de usuario
Entender mejor al usuario ayudar a mejorar las experiencias de estos en las empresas
Porque se volvio esto tan relevante para las Empresas?
Predicción
El aumento de los volúmenes de datos y procesamientos ayuda a las empresas a poder hacer más y mejores predicciones
Experiencia de usuario
Entender mejor al usuario ayudar a mejorar las experiencias de estos en las empresas
Porque se volvio esto tan relevante para las Empresas?
Predicción
El aumento de los volúmenes de datos y procesamientos ayuda a las empresas a poder hacer más y mejores predicciones
Nuevos Mercados
Bigdata a generado nuevas oportunidades y con esto nuevos mercados para empresas existentes o nuevas
Experiencia de usuario
Entender mejor al usuario ayudar a mejorar las experiencias de estos en las empresas
Porque se volvio esto tan relevante para las Empresas?
Predicción
El aumento de los volúmenes de datos y procesamientos ayuda a las empresas a poder hacer más y mejores predicciones
Nuevos Mercados
Bigdata a generado nuevas oportunidades y con esto nuevos mercados para empresas existentes o nuevas
Personalización
Ahora se puede lograr personalizar mucho más los productos basado en la experiencia de los clientes de una empresa
Experiencia de usuario
Entender mejor al usuario ayudar a mejorar las experiencias de estos en las empresas
Porque se volvio esto tan relevante para las Empresas?
Predicción
El aumento de los volúmenes de datos y procesamientos ayuda a las empresas a poder hacer más y mejores predicciones
Nuevos Mercados
Bigdata a generado nuevas oportunidades y con esto nuevos mercados para empresas existentes o nuevas
Personalización
Ahora se puede lograr personalizar mucho más los productos basado en la experiencia de los clientes de una empresa
Mejor comprensión del negocio
Entender el negocio de la compañía con la mayor claridad posible es una clara ventaja competitiva de las organizaciones
Experiencia de usuario
Entender mejor al usuario ayudar a mejorar las experiencias de estos en las empresas
Porque se volvio esto tan relevante para las Empresas?
Predicción
El aumento de los volúmenes de datos y procesamientos ayuda a las empresas a poder hacer más y mejores predicciones
Nuevos Mercados
Bigdata a generado nuevas oportunidades y con esto nuevos mercados para empresas existentes o nuevas
Personalización
Ahora se puede lograr personalizar mucho más los productos basado en la experiencia de los clientes de una empresa
Mejor comprensión del negocio
Entender el negocio de la compañía con la mayor claridad posible es una clara ventaja competitiva de las organizaciones
Surgimiento de “Data Lakes”
Las empresas ahora pueden guardar información que a priori no es importante para que esté disponible en futuros procesamientos
Porque se volvio esto tan relevante para las Empresas?
Porque se volvio esto tan relevante para las Empresas?
Porque se volvio esto tan relevante para las Empresas?
Porque se volvio esto tan relevante para las Empresas?
Cuál fue el cambio Tecnológico ?
Framework MapReduce
Paper publicado por google en 2004 que sentó las bases para poder generar procesamiento en paralelo de forma simple
MapReduce se basa en la estrategia de dividir y conquistar
MapReduce se basa en la estrategia de dividir y conquistar
Data
MapReduce se basa en la estrategia de dividir y conquistar
Data Map
MapReduce se basa en la estrategia de dividir y conquistar
Data Map
Candidato 1 -> 1Candidato 2 -> 1Candidato 1 -> 1Candidato 4 -> 1
Candidato 1 -> 1Candidato 4 -> 1Candidato 4 -> 1...
MapReduce se basa en la estrategia de dividir y conquistar
Candidato 1 = 100Candidato 2 = 130
Candidato 3 = 200Candidato 4 = 330
Data Map Reduce
Tecnologías de BigData a nuestra disposición
ASPECTOS A TENER EN CUENTA
ASPECTOS A TENER EN CUENTA
Procesamiento
ASPECTOS A TENER EN CUENTA
Procesamiento
Almacenamiento
ASPECTOS A TENER EN CUENTA
Procesamiento
Tiempo
Almacenamiento
Almacenamiento Distribuido
Hadoop HDFS brinda la posibilidad de almacenar archivos en forma distribuida y redundante
Almacenamiento Distribuido
Hadoop HDFS brinda la posibilidad de almacenar archivos en forma distribuida y redundante
Procesamiento Distribuido
Hadoop MapReduce implementa la teoría de mapreduce para poder dar una forma simple de procesar de forma distribuida los datos almacenados
Entorno
Sobre hadoop se han formado construido distintas herramientas que permiten explotar explotar nuevos dominios de los datos y simplificar los accesos
Almacenamiento Distribuido
Hadoop HDFS brinda la posibilidad de almacenar archivos en forma distribuida y redundante
Procesamiento Distribuido
Hadoop MapReduce implementa la teoría de mapreduce para poder dar una forma simple de procesar de forma distribuida los datos almacenados
Simple Streaming
Storm está diseñado para permitir procesar datos en streaming de forma distribuida liberando al desarrollador de las complejidades subyacentes
Simple Streaming
Storm está diseñado para permitir procesar datos en streaming de forma distribuida liberando al desarrollador de las complejidades subyacentes
Arquitecturas Lambda
El creador de storm creó el concepto conocido como arquitectura lambda, que tiene por concepto poder trabajar con datos en realtime y batch en forma combinada y veloz de forma escalable y tolerante a fallas
Integración
Storm es una capa de procesamiento muy potente diseñada para poder integrarse con diversos sub-sistemas, entre ellos sistemas de queue streaming y hadoop
Simple Streaming
Storm está diseñado para permitir procesar datos en streaming de forma distribuida liberando al desarrollador de las complejidades subyacentes
Arquitecturas Lambda
El creador de storm creó el concepto conocido como arquitectura lambda, que tiene por concepto poder trabajar con datos en realtime y batch en forma combinada y veloz de forma escalable y tolerante a fallas
Simplicidad
Spark trae con sigo un nuevo modelo de consultar la información el cual permite simplificar y acelerar los procesamientos que usualmente llevan varias etapas, haciendo esto en un lenguaje simplificado
Hadoop
Spark se integra de forma efectiva con el sistema de almacenamiento de hadoop y con el sistema YARN de distribución de tareas de hadoop
Simplicidad
Spark trae con sigo un nuevo modelo de consultar la información el cual permite simplificar y acelerar los procesamientos que usualmente llevan varias etapas, haciendo esto en un lenguaje simplificado
Streaming
Spark permite con el mismo lenguaje que se procesa información en batch procesar datos en streaming, separando para esto la información entrante en pequeños “bloques”
Hadoop
Spark se integra de forma efectiva con el sistema de almacenamiento de hadoop y con el sistema YARN de distribución de tareas de hadoop
Simplicidad
Spark trae con sigo un nuevo modelo de consultar la información el cual permite simplificar y acelerar los procesamientos que usualmente llevan varias etapas, haciendo esto en un lenguaje simplificado