resilient distributed datasets: a fault-tolerant …ey204/teaching/acs/r212_2015_2016/...resilient...

Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing

Christopher Little

M. Zaharia et al. (2012)

OutlineContext

Resilient Distributed Datasets

Evaluation

Context.

Input Data

On Disk

Tuples

On Disk

Tuples

On Disk

Tuples

On Disk

Output Data

On Disk

MapReduce

Input Data

On Disk

Tuples

On Disk

Tuples

On Disk

Tuples

On Disk

Output Data

On Disk

MapReduce

Google Pregel

Distributed Shared Memory

Resilient Distributed Datasets (RDD).

Structure of RDDs

Partition 1

Partition 2

Partition 3

Structure of RDDs

Partition 1

Partition 2

Partition 3

Partition 1

Partition 2

Partition 3

Stable Storage

Structure of RDDs

Partition 1

Partition 2

Partition 3

Partition 1

Partition 2

Partition 3

map/filter

Structure of RDDs

Partition 1

Partition 2

Partition 1

Partition 2

Partition 3

groupByKey

Spark.

Spark example

lines = spark.textFile( "hdfs://..." )errors = lines.filter( _.startsWith( "ERROR" ) )

errors.persist()

// Count errors mentioning MySQL:errors.filter( _.contains( "MySQL" ) ) .count() // Nothing computed until now

// Return the time fields of errors mentioning// HDFS as an array (assuming time is field// number 3 in a tab-separated format):errors.filter( _.contains( "HDFS" ) ) .map( _.split( '\t' )( 3 ) ) .collect( )

Scheduling

Evaluation.

20xSpark claims to be up to 20x faster than Hadoop in iterative applications

Figure 8: Running times for iterations after the first in Hadoop, HadoopBinMem, and Spark. The jobs all processed 100 GB.

Figure 12(logistic regression using 100 GB

on 25 nodes)

Figure 8(logistic regression using 100 GB)

Spark promises a lot, but the evidence presented here is insufficient.(but it could live up to their claims)

resilient distributed datasets: a fault-tolerant …ey204/teaching/acs/r212_2015_2016/...resilient...

Documents

resilient distributed datasets (nsdi 2012)

spark resilient distributed datasets: a fault-tolerant...

future of computing ii€¦ · spark: key idea features:...

resilient distributed datasets a fault-tolerant abstraction...

b14 apache spark with ims and db2 data€¦ · using a...

resilient new zealand key geospatial resilience dataset...

resilient distributed datasets: a fault-tolerant...

mapreduce & spark - paris dauphine...

an energy-aware fault tolerant scheduling framework for...

resilient distributed datasets: a fault- tolerant...

resilient(distributed(datasets( - usenix · 2019-12-18 ·...

resilient distributed datasets

spark: resilient distributed datasets for in-memory...

resilient distributed datasets: a fault-tolerant ... · pdf...

resilient distributed datasets: a fault-tolerant

spark - university of nevada, las...

writing fault-tolerant applications using resilient...

mapreduce & resilient distributed datasets · resilient...

network-attack-resilient intrusion-tolerant scada for the...

resilient distributed datasetspavlo/courses/fall2013/... ·...