sparklyr en emr - cloud object storage | store & …-+madrid... · • apache spark: historia,...

25
SPARKLYR EN EMR [email protected] - @javierluraschi

Upload: ngonga

Post on 29-Sep-2018

219 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?

SPARKLYR EN [email protected] - @javierluraschi

Page 2: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?

SPARKLYR• Introducción:

• Apache Spark: Historia, que es y cuando utilizarlo?• sparklyr : Historia, que es y cuando utilizarlo?

• Escalando sparklyr :• Clusters en Producción• Clusters en Amazon EMR

• sparklyr 0.5• Preguntas

Page 3: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?

Introducción

Page 4: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?

APACHE SPARK: HISTORIA

https://medium.com/@markobonaci/the-history-of-hadoop-68984a11704#.1mekvn5vc

2003: The Google File System (HDFS)2004: MapReduce: Simplified Data Processing on Large Clusters2006: Hadoop project at Yahoo2008: Hive project by Facebook (SQL on Hadoop)2009: Amazon EMR2010: Apache Spark (inicio)2013: Apache Spark (release)

Page 5: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?

APACHE SPARK: QUE ES?

text_file = spark.textFile("hdfs://...") text_file.flatMap(lambda line: line.split()) .map(lambda word: (word, 1)) .reduceByKey(lambda a, b: a+b)

“Fast and general engine for large-scale data processing”

Fast: Los datos están en memoria.General: Ejecución automática de código en paralelo.

Page 6: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?

APACHE SPARK: CUANDO?Big data vs Big compute?Wu Feng - Professor VirginiaTech

Big ComputeBig Data Un poco de ambos!

Page 7: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?

SPARKLYR: HISTORIA

Page 8: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?

SPARKLYR: QUÉ ES?“Una interface in R para Apache Spark”

Page 9: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?

SPARKLYR: CUANDO USARLO?- Cluster Existente

(La información no cabe en un ordenador y esta disponible en HDFS, etc.)

- Tiempo de Procesamiento (Mis modelos son (muy) lentos y necesito acelerarlos.)

* Análisis (SQL), machine learning o paquetes de Spark en sparkly 0.5, streaming y algoritmos personalizados en un futuro.

Page 10: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?

Escalandosparklyr

Page 11: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?

CLUSTERS EN PRODUCCIÓNCloud Computing Data Center

Page 12: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?

CLUSTERS EN PRODUCCIÓN

sparklyr

Page 13: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?

CLUSTERS EN AMAZON EMR

(1) Crear un Cluster en EMR con RStudio(2) Conectarse por SSH y R en consola

(3) Instalar y Configurar FoxyProxy(4) Monitoreo en Yarn, Spark y Ganglia(5) Usando RStudio en EMR

Page 14: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?

CREAR UN CLUSTER EN EMR

Page 15: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?

CREAR UN CLUSTER EN EMR

Page 16: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?

CREAR UN CLUSTER EN EMR

Page 17: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?

CREAR UN CLUSTER EN EMR

s3://awssupportdatasvcs.com/bootstrap-actions/rstudio-sparkr-emr4-proc/rstudio_sparkr_emr4.sh--rstudio --sparkr --rexamples --plyrmr --rhdfs --sparklyr --shiny

Page 18: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?

CREAR UN CLUSTER EN EMR

Page 19: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?

CONECTARSE POR SSH

Page 20: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?

INSTALAR Y CONFIGURAR FOXYPROXY

Page 21: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?

MONITOREO EN YARN, SPARK Y GANGLIA

Page 22: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?

USANDO RSTUDIO EN EMR

Page 23: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?

sparkly 0.5

Page 24: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?

SPARKLY 0.5- Certificación Cloudera- Mejores Conexiones- Nuevas Funciones:

- n_distinct- sdf_quantile- ft_tokenizer- ft_regex_tokenizer- na.action- dim, nrow and ncos

- dplyr do - Livy (experimental)

Page 25: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?

[email protected] - @javierluraschihttps://github.com/rstudio/sparklyr/issues/