sparklyr en emr - cloud object storage | store & …-+madrid... · • apache spark: historia,...
TRANSCRIPT
SPARKLYR EN [email protected] - @javierluraschi
SPARKLYR• Introducción:
• Apache Spark: Historia, que es y cuando utilizarlo?• sparklyr : Historia, que es y cuando utilizarlo?
• Escalando sparklyr :• Clusters en Producción• Clusters en Amazon EMR
• sparklyr 0.5• Preguntas
Introducción
APACHE SPARK: HISTORIA
https://medium.com/@markobonaci/the-history-of-hadoop-68984a11704#.1mekvn5vc
2003: The Google File System (HDFS)2004: MapReduce: Simplified Data Processing on Large Clusters2006: Hadoop project at Yahoo2008: Hive project by Facebook (SQL on Hadoop)2009: Amazon EMR2010: Apache Spark (inicio)2013: Apache Spark (release)
APACHE SPARK: QUE ES?
text_file = spark.textFile("hdfs://...") text_file.flatMap(lambda line: line.split()) .map(lambda word: (word, 1)) .reduceByKey(lambda a, b: a+b)
“Fast and general engine for large-scale data processing”
Fast: Los datos están en memoria.General: Ejecución automática de código en paralelo.
APACHE SPARK: CUANDO?Big data vs Big compute?Wu Feng - Professor VirginiaTech
Big ComputeBig Data Un poco de ambos!
SPARKLYR: HISTORIA
SPARKLYR: QUÉ ES?“Una interface in R para Apache Spark”
SPARKLYR: CUANDO USARLO?- Cluster Existente
(La información no cabe en un ordenador y esta disponible en HDFS, etc.)
- Tiempo de Procesamiento (Mis modelos son (muy) lentos y necesito acelerarlos.)
* Análisis (SQL), machine learning o paquetes de Spark en sparkly 0.5, streaming y algoritmos personalizados en un futuro.
Escalandosparklyr
CLUSTERS EN PRODUCCIÓNCloud Computing Data Center
CLUSTERS EN PRODUCCIÓN
sparklyr
CLUSTERS EN AMAZON EMR
(1) Crear un Cluster en EMR con RStudio(2) Conectarse por SSH y R en consola
(3) Instalar y Configurar FoxyProxy(4) Monitoreo en Yarn, Spark y Ganglia(5) Usando RStudio en EMR
CREAR UN CLUSTER EN EMR
CREAR UN CLUSTER EN EMR
CREAR UN CLUSTER EN EMR
CREAR UN CLUSTER EN EMR
s3://awssupportdatasvcs.com/bootstrap-actions/rstudio-sparkr-emr4-proc/rstudio_sparkr_emr4.sh--rstudio --sparkr --rexamples --plyrmr --rhdfs --sparklyr --shiny
CREAR UN CLUSTER EN EMR
CONECTARSE POR SSH
INSTALAR Y CONFIGURAR FOXYPROXY
MONITOREO EN YARN, SPARK Y GANGLIA
USANDO RSTUDIO EN EMR
sparkly 0.5
SPARKLY 0.5- Certificación Cloudera- Mejores Conexiones- Nuevas Funciones:
- n_distinct- sdf_quantile- ft_tokenizer- ft_regex_tokenizer- na.action- dim, nrow and ncos
- dplyr do - Livy (experimental)
[email protected] - @javierluraschihttps://github.com/rstudio/sparklyr/issues/