simplified data management and process scheduling in hadoop

Simplified Data and Process Scheduling in Hadoop

Upload: getindata

Post on 16-Jul-2015

1.324 views

Category:

Technology

1 download

Report

Download

Tags:

Embed Size (px):

TRANSCRIPT

Page 1: Simplified Data Management And Process Scheduling in Hadoop

Simplified Data and Process Scheduling in Hadoop

Page 2: Simplified Data Management And Process Scheduling in Hadoop

Page 3: Simplified Data Management And Process Scheduling in Hadoop

Page 4: Simplified Data Management And Process Scheduling in Hadoop

Somebody Still Investigates

Do you think we find the location and the owner of the “streams” dataset today?

Page 5: Simplified Data Management And Process Scheduling in Hadoop

STREAMS{trackId:long, userId:long, ts:timestamp, ...}

hdfs://data/core/streams

avro

etl

official=>true, frequency=>hourly

"UserId started to stream trackId at time ts"

Page 6: Simplified Data Management And Process Scheduling in Hadoop

Page 7: Simplified Data Management And Process Scheduling in Hadoop

users = LOAD 'data.user'

USING HCatLoader();

val users = hiveContext.hql(

"FROM data.user SELECT name, country"

)

users = LOAD

'/data/core/user/part-00000.

avro' USING AvroStorage();Non HCatalog way

in Pig

ID NAME COUNTRY GENDER

1 JOSH US M

2 ADAM PL M

Page 8: Simplified Data Management And Process Scheduling in Hadoop

[FALCON-790]

Page 9: Simplified Data Management And Process Scheduling in Hadoop

[FALCON-790]

Page 10: Simplified Data Management And Process Scheduling in Hadoop

HDFS

Page 11: Simplified Data Management And Process Scheduling in Hadoop

[FALCON-790]

Page 12: Simplified Data Management And Process Scheduling in Hadoop

Page 13: Simplified Data Management And Process Scheduling in Hadoop

Page 14: Simplified Data Management And Process Scheduling in Hadoop

Page 15: Simplified Data Management And Process Scheduling in Hadoop

Switching to ORC requires

reimplementing the Reader Code

in hundreds of productions jobs...

Page 16: Simplified Data Management And Process Scheduling in Hadoop

users = LOAD 'data.users' USING HCatLoader();

ORC

Page 17: Simplified Data Management And Process Scheduling in Hadoop

The picture comes from http://hortonworks.com/blog/introduction-apache-falcon-hadoop. Thanks Hortonworks!

http://hortonworks.com/blog/introduction-apache-falcon-hadoop/

Page 18: Simplified Data Management And Process Scheduling in Hadoop

Raw Data Cleansed Data

Conformed Data

Presented Data

Raw Data Presented Data

Page 19: Simplified Data Management And Process Scheduling in Hadoop

Page 20: Simplified Data Management And Process Scheduling in Hadoop

Page 21: Simplified Data Management And Process Scheduling in Hadoop

Which Elephant Is Your?

A. Elephantus Dirtus

B. Elephantus Cleanus

Page 22: Simplified Data Management And Process Scheduling in Hadoop

Page 23: Simplified Data Management And Process Scheduling in Hadoop

Backup Slides

Page 24: Simplified Data Management And Process Scheduling in Hadoop

Falcon’s Adoption

■ Top Level Project since December 2014■ 14 contributors from 3 companies■ Originated and heavily used at inMobi

● 400+ pipelines and 2000+ data feeds■ Also used at Expedia and at some undisclosed companies

Page 25: Simplified Data Management And Process Scheduling in Hadoop

Future Enhancements And Ideas

■ Improved Web UI [FALCON-790]● More extensive search box, more widgets● The “today morning” dashboard [FALCON-994]● Re-running processes

■ Automatic discovery of datasets in HDFS and Hive■ Streaming feeds and processes e.g. Storm, Spark Streaming■ Triage of data processing issues [FALCON-796]■ HDFS snapshots■ High availability of the Falcon server

Page 26: Simplified Data Management And Process Scheduling in Hadoop

[FALCON-790]

MSU College of Veterinary Medicine Simplifying Program Administration, Scheduling… · 2019-12-14 · Simplified Scheduling, Evaluation, Assessment E*Value trimmed the tedious, paper-based

Data Intensive Computing: MapReduce and Hadoop · Data Intensive Computing: MapReduce and Hadoop ... • Example: square x = x * x ... A simplified view of MapReduce: example

Apache Hadoop India Summit 2011 talk "Scheduling in MapReduce using Machine Learning Techniques" by Vasudeva Varma

Scheduling and Energy E ciency Improvement Techniques for Hadoop …nidhi/MRSchedulingAlgo... · 2012-12-02 · Techniques for Hadoop Map-reduce: State of Art and Directions for Future

Learning Scheduling Algorithms for Data Processing Clustersweb.mit.edu/decima/content/sigcomm-19-slides.pdf•Data analytics frameworks (e.g., Spark, Hadoop) •Machine learning (e.g.,

Scheduling Large Jobs by Abstraction Reﬁnement · Hadoop) that dynamically schedules large MapReduce jobs. We deployed both systems on Amazon EC2 and used them for scheduling image

Onboard services simplified · Paxia GP™ Easy-to-use galley planning, ordering, and scheduling solution Onboard services simplified Galley planning made easy As our entry-level

H-WorD: Supporting Job Scheduling in Hadoop with Workload

Hadoop Ecosystem - cedawi.orgcedawi.org/docs/...Baku-2015--Hadoop-Eco-System.pdf · ... (YARN) Framework for job scheduling ... of files, Each file ... MapReduce is a method for distributing

Simplified Irrigation Scheduling on a Smart Phone or Web … · Simplified Irrigation Scheduling on a Smart Phone or Web Browser R. Troy Peters, P.E., Ph.D. Washington State University

OCTOBER 2012 Apache Hadoop* Community Spotlight Apache ... · • Taking advantage of Hadoop YARN. Hadoop YARN is a new framework for job scheduling and cluster resource management

Cloud schedulers and Scheduling in Hadoop

BIGDATA- Survey on Scheduling Methods in Hadoop MapReduce Framework

A Disparateness-Aware Scheduling using K-Centroids Clustering and PSO Techniques in Hadoop Cluster

Adaptive Failure-Aware Scheduling for Hadoophvg.ece.concordia.ca/Publications/Thesis/Mbarka-PhD-Thesis.pdf · Adaptive Failure-Aware Scheduling for Hadoop Mbarka Soualhia, Ph.D. Concordia

Hopper: Decentralized Speculation-aware Cluster Scheduling ...users.cms.caltech.edu/~adamw/papers/hopper.pdf · Hopper inside the Hadoop and Spark schedulers. This yields job speedups

Big Data Processing Using Hadoop: Survey on Scheduling.pdf · Keywords: Big data, Hadoop, Map Reduce, Locality, Job Scheduling 1. ... All kinds of unstructured data, natural language,

An Adaptive Scheduling Algorithm for Dynamic Heterogeneous ...downd/cascon11.pdf · An Adaptive Scheduling Algorithm for Dynamic Heterogeneous Hadoop Systems Aysan Rasooli , Douglas

A Hybrid Scheduling Approach for Scalable Heterogeneous ...datasys.cs.iit.edu/events/MTAGS12/s04.pdfA Hybrid Scheduling Approach for Scalable Heterogeneous Hadoop Systems Authors:

DeltaRho - 中央氣象局全球資訊網 › ... › lectures › 108 › DeltaRho_5.pdf · Hadoop YARN: A framework for job scheduling and cluster resource management. Hadoop MapReduce:

Resource Aware Scheduling in Storm (Hadoop Summit 2016)

Simplified Irrigation Scheduling on a Smart Phone or Web ......Irrigation Scheduler Mobile is a free and open source irrigation scheduling tool that runs on any smart phone or any

"HFSP: Size-based Scheduling for Hadoop" presentation for BigData 2014

BIGDATA- Survey on Scheduling Methods in Hadoop MapReduce

Evaluating Task Scheduling in Hadoop-based Cloud Systemsprof.ict.ac.cn/bpoe2013/downloads/ppt/Evaluating Task... · 2013-10-14 · • Hadoop cluster with 5 nodes (1 NameNode,4 DataNodes)

Analytics for Object Storage Simplified - Unified File … for Object Storage Simplified - Unified File and Object for Hadoop Sandeep R Patil STSM, ... Photo From Phone Service to

Hadoop, Hadoop, Hadoop!!! Jerome Mitchell Indiana University

Table of ContentsTable of Contents Overview Scheduling in Hadoop Heterogeneity in Hadoop The LATE Scheduler(Longest Approximate Time to End)

Simplified Irrigation Scheduling on your Phone or Web Browser€¦ · Simplified Irrigation Scheduling on your Phone or Web Browser ... platform including iPhone, Android, or MS Windows

Parallel Programming with Hadoop/MapReducetyang/class/240a13w/slides/LectureMapReduce.pdfMapReduce: Runtime Environment &Hadoop Partitioning the input data. Scheduling program across

Mapreduce and Hadoop Introduce Mapreduce and Hadoop Dean, J. and Ghemawat, S. 2008. MapReduce: simplified data processing on large clusters. Communication

Accelerating Big Data Processing with Hadoop, Spark and ...€¦ · (Cluster Resource Management & Data Processing) (Cluster Resource Management & Job Scheduling) Hadoop Common/Core

Managing & Scheduling Jobs, Cluster Maintenance & Logging€¦ · Hadoop Administration Managing & Scheduling Jobs, Cluster Maintenance & Logging . MapReduce Schedulers • Scheduler

Hadoop , Hadoop , Hadoop !!!

Cogset vs. Hadoop Measurements and Analysissalsahpc.indiana.edu/CloudCom2010/slides/PDF/Cogset-vs-Hadoop-… · Hadoop bottleneck: Task scheduling – Hadoop’s task trackers communicate

simplified data management and process scheduling in hadoop

Technology

data feeds

simplified data

falcon serverfalcon

web ui falcon

today morning dashboard

hcatloaderval users

load datacoreuserpart

hive streaming feeds