mapreduce - cacs.usc.educacs.usc.edu/education/cs653/mapreduce.pdf · mapreduce • parallel...

8

MapReduce Amazon Elastic Computing Cloud (EC2) or Hadoop@USC-HPC https://github.com/JackMing/Hadoop-2.6.0-on-USC-HPCC-Clusters Aiichiro Nakano Collaboratory for Advanced Computing & Simulations Department of Computer Science Department of Physics & Astronomy Department of Chemical Engineering & Materials Science Department of Biological Sciences University of Southern California Email: [email protected]

Upload: buinguyet

Post on 06-May-2018

218 views

Category:

Documents

0 download

Report

Download

Embed Size (px):

TRANSCRIPT

Page 1: MapReduce - cacs.usc.educacs.usc.edu/education/cs653/MapReduce.pdf · MapReduce • Parallel programming model for data-intensive applications on large clusters > User just implements

MapReduce

Amazon Elastic Computing Cloud (EC2)or

Hadoop@USC-HPChttps://github.com/JackMing/Hadoop-2.6.0-on-USC-HPCC-Clusters

Aiichiro NakanoCollaboratory for Advanced Computing & Simulations

Department of Computer ScienceDepartment of Physics & Astronomy

Department of Chemical Engineering & Materials ScienceDepartment of Biological SciencesUniversity of Southern California

Email: [email protected]

Page 2: MapReduce - cacs.usc.educacs.usc.edu/education/cs653/MapReduce.pdf · MapReduce • Parallel programming model for data-intensive applications on large clusters > User just implements

Cloud Computing

Page 3: MapReduce - cacs.usc.educacs.usc.edu/education/cs653/MapReduce.pdf · MapReduce • Parallel programming model for data-intensive applications on large clusters > User just implements

MapReduce

• Parallel programming model for data-intensive applications on large clusters> User just implements Map() and Reduce()

• Parallel computing framework> Libraries take care of everything else - Parallelization - Fault tolerance - Data distribution - Load balancing

• Developed at Google

Page 4: MapReduce - cacs.usc.educacs.usc.edu/education/cs653/MapReduce.pdf · MapReduce • Parallel programming model for data-intensive applications on large clusters > User just implements

Functional Abstraction

• Map and Reduce functions borrowed from functional programming languages(Common LISP example)!> !(mapcar ’1+ ’(1 2 3 4)) ⇒ (2 3 4 5)!!> !(reduce ’+ ’(1 2 3 4)) ⇒ 10

• Map()> Process a key/value pair to generate intermediate key/value pairs

• Reduce()> Merge all intermediate values associated with the same key

cf. MPI_Allreduce()

Page 5: MapReduce - cacs.usc.educacs.usc.edu/education/cs653/MapReduce.pdf · MapReduce • Parallel programming model for data-intensive applications on large clusters > User just implements

Example: Counting Words

map(String key, String value): !// key: document name !// value: document contents !for each word w in value: ! EmitIntermediate(w, “1”);!

reduce(String key, Iterator values): !// key: a word !// values: a list of counts !int result = 0; !for each v in values: ! result += ParseInt(v);!Emit(AsString(result)); !

• Map()> Input <filename, file text>> Parses file and emits <word, count> pairs - e.g. <“hello”, 1>

• Reduce()> Sums values for the same key and emits <word, TotalCount> - e.g. <“hello”, (3 5 2 7)> ⇒ <“hello”, 17>

Page 6: MapReduce - cacs.usc.educacs.usc.edu/education/cs653/MapReduce.pdf · MapReduce • Parallel programming model for data-intensive applications on large clusters > User just implements

Parallel Execution

Page 7: MapReduce - cacs.usc.educacs.usc.edu/education/cs653/MapReduce.pdf · MapReduce • Parallel programming model for data-intensive applications on large clusters > User just implements

MapReduce Resources

• Hadoop implementationhttp://hadoop.apache.org!

• MapReduce tutorialhttp://hadoop.apache.org/common/docs/current/mapred_tutorial.html!

• PaperJ. Dean and S. Ghemawat, “MapReduce: simplified data processing on large clusters,” Communications of the ACM 51(1), 107 (’08)

• Free account (Amazon Web Services) http://aws.amazon.com/free!

Page 8: MapReduce - cacs.usc.educacs.usc.edu/education/cs653/MapReduce.pdf · MapReduce • Parallel programming model for data-intensive applications on large clusters > User just implements

Cloud Supercomputing

MapReduce and Hadoop File Systemnsrit.edu.in/admin/img/cms/10096mapreduce.pdf · The Outline Introduction to MapReduce From CS Foundation to MapReduce MapReduce programming model

HDFS & MapReduce

1. Introduction to MapReduce - UPMlsd.ls.fi.upm.es/.../IntroToMapReduce.pdf · Processing of massive data: MapReduce – 1. Introduction to MapReduce MapReduce has a 'low semantic

mapreduce - The Stanford University InfoLabinfolab.stanford.edu/~ullman/mining/2009/mapreduce.pdf · MapReduce Great thing is it is naturally parallelizable. ... Distributed Grep

Big Data and Apache Hadoop's MapReduce - Hahslermichael.hahsler.net/SMU/CSE7337/slides/mapreduce.pdf · Big Data and Apache Hadoop’s MapReduce Michael Hahsler Computer Science and

MapReduce: Simplified Data Processing on Large Clusterszoo.cs.yale.edu/classes/cs722/2011/Naser-MapReduce.pdf · MapReduce: Benefits Programming model for processing/generating large

MapReduce - cacs.usc.educacs.usc.edu/education/cs653/07-1MapReduce-slide.pdf · MapReduce •Parallel programming model for data-intensive applications on large clusters >Userjust

MapReduce: Theory and Implementationuser.it.uu.se/~justin/Teaching/DS/mapreduce.pdf · reduce After the map phase is over, all the intermediate values for a given output key are combined

Cloud Computing using MapReduce, Hadoop, Sparkoxent2.ic.unicamp.br/sites/oxent2.ic.unicamp.br/files/mapreduce.pdf · MapReduce Goals • Cloud Environment: – Commodity nodes (cheap,

MapReduce - polito.itdbdmg.polito.it/.../uploads/2019/11/04-MapReduce.pdf · MapReduce •Published in 2004 by Google •J. Dean and S. Ghemawat, “MapReduce: Simplified Data Processing

MapReduce with Scalding · Java MapReduce Word count example . MapReduce Techs Scalding.io Java MapReduce Pig Hive Hadoop Cascading Others tion . The promise of Cascading Scalding.io

MapReduce - Rangerranger.uta.edu/~jrao/CSE5306/fall2016/slides/MapReduce.pdf · Tod Lipcon@Hadoop summit RAMManager Local disk Merge to disk Yes, fetch to RAM No, fetch to disk Merge

MapReduce Tutorial

Pipelined-MapReduce an Improved MapReduce

MapReduce-MPI Library Users Manualmapreduce.sandia.gov/doc/Manual.pdf · MapReduce-MPI WWW Site - MapReduce-MPI Documentation What is a MapReduce? The canonical example of a MapReduce

Reliable MapReduce computing on opportunistic resourcessynergy.cs.vt.edu/.../papers/lin-cc11-reliable-mapreduce.pdf · 2011-11-14 · Google’s MapReduce production systems use its

Introduction to MapReduce | MapReduce Architecture | MapReduce Fundamentals

article on mapreduce.pdf

MapReduce - cs.tut.fiaaltone3/kurssit/hadoop/MapReduce.pdf · MapReduce example •Find the number of unique purchasing locations for each product •Data: –Users •(user id, name,

Hadoop Mapreduce

Clustering Lecture 8: MapReduce - csce.uark.eduxintaowu/BDAM/mapreduce.pdf · Distributed Grep . Very big data . Split data Split data Split data Split data . grep grep grep grep

MapReduce vs Pig | MapReduce Pig Integration

Mapreduce introduction

Data Mining and MapReduce - postgraduates undergraduatesgprovan/CS6323/2015/L13-NaiveBayes-MapReduce.pdf · Data Mining and MapReduce Adapted from Lectures by Prabhakar Raghavan (Yahoo

Hadoop/MapReduce - 123seminarsonly.comHadoop MapReduce • MapReduce is a programming model and software framework first developed by Google (Google’s MapReduce paper submitted in

MapReduce Paradigm

MapReduce basics

MapReduce - University of Technologycse.hcmut.edu.vn/~ptvu/ppds/MapReduce.pdf · More examples: Distributed Grep, Count of URL access frequency, etc. ... master-worker paradigm to

MapReduce DesignPatterns

Google’s MapReduce

Hadoop MapReduce

MapReduce - didawikinf.di.unipi.itdidawikinf.di.unipi.it/.../magistraleinformatica/pa/mapreduce.pdf · Example continued : Word Count in Web Pages • MapReduce library gathers together

Data Management in Large-Scale Distributed Systems - MapReduce … · Introduction to MapReduce The Hadoop Eco-System HDFS Hadoop MapReduce 4. MapReduce at Google Publication The

MapReduce)and)Hadoop - Indian Statistical Institutedebapriyo/teaching/ir2015/slides/MapReduce.pdf · MapReduce)and)Hadoop) Debapriyo Majumdar Data Mining – Fall 2014 Indian Statistical

Processing with What is MapReduce? Hadoop/MapReduce