hadoop in adtech

Post on 09-Jan-2017

1.109 Views

Category:

Technology

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Hadoop in adtech world

YutaImaiSolu,onsEngineer,Hortonworks

©HortonworksInc.2011–2015.AllRightsReserved

WhatisApacheHadoop?

3 ©HortonworksInc.2011–2016.AllRightsReserved runson

ETL

RDBMSImport/Export

DistributedStorage&ProcessingFramework

SecureNoSQLDB

SQLonHBase

NoSQLDB

WorkflowManagement

SQL

StreamingDataIngesFon

ClusterSystemOperaFons

SecureGateway

DistributedRegistry

ETL

Search&Indexing

EvenFasterDataProcessing

DataManagement

MachineLearning

HadoopEcosystem

4 ©HortonworksInc.2011–2016.AllRightsReserved

HortonworksDataPla:orm(HDP)

5 ©HortonworksInc.2011–2016.AllRightsReserved

1stGenHadoop:CostEffecBveBatchatScale

HADOOP1.0BuiltforWeb-ScaleBatchApps

SingleAppBATCH

HDFS

SingleAppINTERACTIVE

SingleAppBATCH

HDFS

Siloscreatedfordis,nctusecasesSingleApp

BATCH

HDFS

SingleAppONLINE

6 ©HortonworksInc.2011–2016.AllRightsReserved

HadoopBeyondBatchwithYARN

SingleUseSysztemBatchApps

Mul2UseDataPla6ormBatch,InteracFve,Online,Streaming,…

AshiHfromtheoldtothenew…

HADOOP 1

MapReduce (cluster resource management

& data processing)

Data Flow Pig

SQL Hive

Others

API, Engine,

and System

YARN (Data Operating System: resource management, etc.)

Data Flow Pig

SQL Hive

Other ISV

Apache Yarn as a Base

System

Engine

API’s

1 ° ° ° ° °

° ° ° ° ° N

HDFS (redundant, reliable storage)

1 ° ° ° ° ° ° ° ° °

° ° ° ° ° ° ° ° ° N

HDFS (redundant, reliable storage)

Batch MapReduce

Tez Tez

MapReduce as the Base HADOOP 2

7 ©HortonworksInc.2011–2016.AllRightsReserved

ArchitectureEnabledbyYARNAsinglesetofdataacrosstheen,reclusterwithmul,pleaccessmethodsusing“zones”forprocessing

1 ° ° ° ° ° ° °

° ° ° ° ° ° ° °

° ° ° ° ° ° ° n

SQLHive

Interac,veSQLQueryforAnaly,cs

PigScript-basedETL

AlgorithmexecutedinbatchtoreworkdatausedbyHiveandHBaseconsumers

• Maximize compute resources to lower TCO

• No standalone, silo’d clusters

• Simple management & operations

…all enabled by YARN

StreamProcessingStorm

Iden,fy&actonreal-,meevents

NoSQLHbase

Accumulo

Low-latencyaccessservingupawebfrontend

8 ©HortonworksInc.2011–2016.AllRightsReserved

HadoopWorkloadEvoluBon

SingleUseSystemBatchApps

Mul2UseDataPla6ormBatch,InteracFve,Online,Streaming,…

AshiHfromtheoldtothenew… Mul2UsePla6ormData&Beyond

HADOOP 1

YARN

HADOOP 2

1 ° ° ° °

° ° ° ° N

HDFS (redundant, reliable storage)

1 ° ° °

° ° ° N

HDFS

MapReduce

HADOOP.Next

YARN ‘

1 ° ° ° ° ° °

° ° ° ° ° ° N

HDFS (redundant, reliable storage)

DATA ACCESS APPS

Docker

MySQL MR2 Others (ISV Engines)

Multiple (Script, SQL, NoSQL, …)

MR2 Others (ISV Engines)

Multiple (Script, SQL, NoSQL, …)

Docker

Tomcat

Docker

Other

HadoopOperaBons&Tools

10 ©HortonworksInc.2011–2016.AllRightsReserved

How Do You Operate a Hadoop Cluster?

Apache™Ambariisapla:ormtoprovision,manageandmonitorHadoopclusters

11 ©HortonworksInc.2011–2016.AllRightsReserved

Ambari Core Features and Extensibility

Install&Configure

Operate,Manage&Administer

Develop

OpBmize&Tune

Developer

DataArchitect

AmbariprovidescoreservicesforoperaBons,developmentandextensionspointsforboth

ExtensibilityFeatures

Stacks,Blueprints&RESTAPIs

CoreFeatures

InstallWizard&Web

Web,OperatorViews,Metrics&Alerts

UserViews

UserViews

ViewsFramework&RESTAPIs

ViewsFramework

ViewsFramework

How?ClusterAdmin

12 ©HortonworksInc.2011–2016.AllRightsReserved

Newuserinterfaceenablesfast&easySQLdefini,onandexecu,on.

13 ©HortonworksInc.2011–2016.AllRightsReserved

New User Views for DevOps

CapacitySchedulerViewBrowseandmanageYARNqueues

TezViewViewinforma,onrelatedtoTezjobsthatareexecu,ngonthecluster

14 ©HortonworksInc.2011–2016.AllRightsReserved

NewUserViewsforDevelopment

PigViewAuthorandexecutePigScripts.

HiveViewAuthor,executeanddebugHive

queries.

FilesViewBrowseHDFSfilesystem.

15 ©HortonworksInc.2011–2016.AllRightsReserved

ApacheZeppelin

•  Web-basednotebookfordataengineers,dataanalystsanddatascien,sts•  Bringsinterac,vedatainges,on,data

explora,on,visualiza,on,sharingandcollabora,onfeaturestoHadoopandSpark

•  Moderndatasciencestudio•  ScalawithSpark•  PythonwithSpark•  SparkSQL•  ApacheHive,andmore.

Hadoopusecasesinadtechworld

17 ©HortonworksInc.2011–2016.AllRightsReserved

Hadoopの多くのユースケースはHive•  例えばWebサービスのアクセスレポートの作成などによく利⽤され、以下の

様なアーキテクチャが⾮常にメジャーだった。•  クエリにはそれなりに時間がかかることが多く、定期ジョブとして実⾏され

ることが多かった。

Web

Web

Web

Hadoop

log

log

log

18 ©HortonworksInc.2011–2016.AllRightsReserved

Hadoopの多くのユースケースはHive•  例えばWebサービスのアクセスレポートの作成などによく利⽤され、以下の

様なアーキテクチャが⾮常にメジャーだった。•  クエリにはそれなりに時間がかかることが多く、定期ジョブとして実⾏され

ることが多かった。

Web

Web

Web

Hadoop

log

log

log

⼤量のデータに対して⼤きな処理をするために利⽤されるのがHadoopでありMapReduceだった。

MySQLReportUI

19 ©HortonworksInc.2011–2016.AllRightsReserved

SQL on ビッグデータを⾼速化する試み

Hive(MapReduce)の速度はインタラクティブなクエリには不⼗分だった。•  Presto•  Impala•  Drill•  Shark(今のSparkSQL)

20 ©HortonworksInc.2011–2016.AllRightsReserved

Hadoopの多くのユースケースはHive

•  PrestoやMySQL(データマートとして)などと組み合わせた構成が⼀般的になってきている

Web

Web

Web

Hadoop

log

log

log

ReportUI

21 ©HortonworksInc.2011–2016.AllRightsReserved

SQL on ビッグデータ - クラウドサービスの登場

•  Amazon Redshift•  Google BigQuery

22 ©HortonworksInc.2011–2016.AllRightsReserved

Sub-secondショートクエリで

1秒以下のレスポンスを⽬指す

Ã ~Hive1.2.1– Tez– Cost Based Optimizer(CBO)– ORC File format– Vectorization

Ã Hive2.0– LLAP

Stinger InitiativeHiveを100倍以上⾼速化

Already available on HDP!

もちろんHive⾃⾝も⾼速化している

23 ©HortonworksInc.2011–2016.AllRightsReserved

Hiveの⾼速化

Web

Web

Web

Hadoop

log

log

log

ReportUI

•  Hiveで直接インタラクティブクエリを処理できるようになった

24 ©HortonworksInc.2011–2016.AllRightsReserved

今では様々なところに利⽤されるHadoopエコシステム

Web

Web

Web

HadoopHDFS

log

log

log

ReportUI

レポート

すべてのログの⻑期保存

ETLやもろもろのバッチ処理

25 ©HortonworksInc.2011–2016.AllRightsReserved

今では様々なところに利⽤されるHadoopエコシステム

Web

Web

Web

HadoopHDFS

log

log

log

ReportUI

Adsserver

配信DB

⼊札やオプティマイゼーションのモデル⽣成

26 ©HortonworksInc.2011–2016.AllRightsReserved

今では様々なところに利⽤されるHadoopエコシステム

Web

Web

Web

HadoopHDFS

log

log

log

ReportUI

Adsserver

リアルタイムなログ収集

リアルタイムトラッキング

27 ©HortonworksInc.2011–2016.AllRightsReserved

今では様々なところに利⽤されるHadoopエコシステム

Web

Web

Web

HadoopHDFS

log

log

log

ReportUI

Adsserver

配信DB

レポート

⼊札やオプティマイゼーションのモデル⽣成

リアルタイムトラッキング

すべてのログの⻑期保存

リアルタイムなログ収集

ETLやもろもろのバッチ処理

28 ©HortonworksInc.2011–2016.AllRightsReserved

今では様々なところに利⽤されるHadoopエコシステム

Web

Web

Web

HadoopHDFS

log

log

log

ReportUI

Adsserver

配信DB

レポート

⼊札やオプティマイゼーションのモデル⽣成

リアルタイムトラッキング

すべてのログの⻑期保存

リアルタイムなログ収集

ETLやもろもろのバッチ処理

Provision, Manage & Monitor

Ambari

Zookeeper

Scheduling

Oozie

Loaddataandmanageaccordingtopolicy

Providelayeredapproachto

securitythroughAuthen,ca,on,Authoriza,on,Accoun,ng,andDataProtec,on

SECURITYGOVERNANCE

Deployandeffec,velymanagetheplahorm

° ° ° ° ° ° ° ° ° ° ° ° ° ° °

Script

Pig

SQL

Hive

Java Scala

Cascadin

g

Stream

Storm

Search

Solr

NoSQL

HBase Accumulo

BATCH, INTERACTIVE & REAL-TIME DATA ACCESS

In-Memory

Spark

Others

ISV Engines

1 ° ° ° ° ° ° ° ° ° ° ° ° ° °

YARN: Data Operating System (ClusterResourceManagement)

HDFS (Hadoop Distributed File System)

Tez Slider Slider Tez Tez

OPERATIONS

Key highlightsin recent Hadoop evolution

30 ©HortonworksInc.2011–2016.AllRightsReserved

昨今のHadoopの進化

Ã  LLAP

Ã  HCatalog Stream Mutation API

Ã  Cloudbreak

31 ©HortonworksInc.2011–2016.AllRightsReserved

昨今のHadoopの進化

Ã Hive– LLAP– ACID, HCatalog Stream Mutation API

Ã Cloudbreak

32 ©HortonworksInc.2011–2016.AllRightsReserved

ApacheHive:FastFacts

MostQueriesPerHour

100,000QueriesPerHour

AnalyBcsPerformance

100Millionrows/sPerNode(withHiveLLAP)

LargestHiveWarehouse

300+PBRawStorage(Facebook)

LargestCluster

4,500+Nodes(Yahoo)

33 ©HortonworksInc.2011–2016.AllRightsReserved

SQL evolution on HadoopCa

pabi

litie

s

Batch SQL OLAP / CubeInteractive SQL

Sub-Second SQL

ACID / MERGE

Speed Feature

Hive0.x(MapReduce)

Hive1.2-(Tez, Vectorize, ORC, CBO)

Hive2.0(LLAP)

PrestoImpala

Drill

Spark SQLHAWQ

MPP

KylinDruid

CommercialKyvos Insights

AtScaleSource

34 ©HortonworksInc.2011–2016.AllRightsReserved

Hive2withLLAP:ArchitectureOverview

Deep

Storage

HDFS S3+OtherHDFSCompa,bleFilesystems

YARNCluster

LLAPDaemon

QueryExecutors

LLAPDaemon

QueryExecutors

LLAPDaemon

QueryExecutors

LLAPDaemon

QueryExecutors

QueryCoordinators

Coord-inator

Coord-inator

Coord-inator

HiveServer2(Query

Endpoint)

ODBC/JDBC SQL

Queries In-MemoryCache(SharedAcrossAllUsers)

35 ©HortonworksInc.2011–2016.AllRightsReserved

Hive2withLLAP:ArchitectureOverview

Deep

Storage

HDFS S3+OtherHDFSCompa,bleFilesystems

YARNCluster

LLAPDaemon

QueryExecutors

LLAPDaemon

QueryExecutors

LLAPDaemon

QueryExecutors

LLAPDaemon

QueryExecutors

QueryCoordinators

Coord-inator

Coord-inator

Coord-inator

HiveServer2(Query

Endpoint)

ODBC/JDBC SQL

Queries In-MemoryCache(SharedAcrossAllUsers)

MPP型に近いアーキテクチャを取りながら・・・•  キャッシュレイヤを持ったり•  YARNによるスケール機能を利⽤したり•  低いレイテンシが必要ないクエリは通常のTezコンテナで処理できたりといろいろおいしいどころどりな設計

36 ©HortonworksInc.2011–2016.AllRightsReserved

0

5

10

15

20

25

30

35

40

45

50

0

50

100

150

200

250

Speedu

p(xFactor)

Que

ryTim

e(s)(Low

erisBep

er)

Hive2withLLAPaverages26xfasterthanHive1

Hive1/TezTime(s) Hive2/LLAPTime(s) Speedup(xFactor)

Hive2withLLAP:25+xPerformanceBoost

37 ©HortonworksInc.2011–2016.AllRightsReserved

HiveACIDProducBon-ReadywithHDP2.5

Ã  Testedatmul,-TBscaleusingTPC-Hbenchmark.–  Reliablyingest400GB+perdaywithina

par,,on.–  10TB+rawdatainasinglepar,,on.–  Simultaneousingest,deleteandquery.

Ã  70+stabiliza,onimprovements.

Ã  Supported:–  SQLINSERT,UPDATE,DELETE.–  StreamingAPI.

Ã  Future:SQLMERGEunderdevelopment(HIVE-10924).

NotableImprovements

0MB

1TB

1TB

2TB

2TB

3TB

3TB

4TB

4TB

5TB

0

1000

2000

3000

4000

5000

6000

7000

8000

9000

10000

16/05/24 16/05/25 16/05/26 16/05/27 16/05/28 16/05/29 16/05/30 16/05/31 16/06/01

Time(s)

QueryTimeversusDataSize

Run,meforAllQueries(s) TotalCompressedData

0

1000

2000

3000

4000

5000

6000

7000

8000

9000

16/05/23 16/05/24 16/05/25 16/05/26 16/05/27 16/05/28 16/05/29 16/05/30 16/05/31 16/06/01

Time(s)

TimesforInsertsandDeletes

,me_insert_lineitem ,me_insert_orders ,me_delete_lineitem ,me_delete_orders

38 ©HortonworksInc.2011–2016.AllRightsReserved

HiveACIDProducBon-ReadywithHDP2.5

Ã  Testedatmul,-TBscaleusingTPC-Hbenchmark.–  Reliablyingest400GB+perdaywithina

par,,on.–  10TB+rawdatainasinglepar,,on.–  Simultaneousingest,deleteandquery.

Ã  70+stabiliza,onimprovements.

Ã  Supported:–  SQLINSERT,UPDATE,DELETE.–  StreamingAPI.

Ã  Future:SQLMERGEunderdevelopment(HIVE-10924).

NotableImprovements

0MB

1TB

1TB

2TB

2TB

3TB

3TB

4TB

4TB

5TB

0

1000

2000

3000

4000

5000

6000

7000

8000

9000

10000

16/05/24 16/05/25 16/05/26 16/05/27 16/05/28 16/05/29 16/05/30 16/05/31 16/06/01

Time(s)

QueryTimeversusDataSize

Run,meforAllQueries(s) TotalCompressedData

0

1000

2000

3000

4000

5000

6000

7000

8000

9000

16/05/23 16/05/24 16/05/25 16/05/26 16/05/27 16/05/28 16/05/29 16/05/30 16/05/31 16/06/01

Time(s)

TimesforInsertsandDeletes

,me_insert_lineitem ,me_insert_orders ,me_delete_lineitem ,me_delete_orders

分析/集計⽤DBのつらいところとして、データをバッチ処理的に投⼊してやる必要があった。ストリームインサートができるのは⼤きなメリット。

39 ©HortonworksInc.2011–2016.AllRightsReserved

HCatalog Stream Mutation API

ORCORC

ORCORC

ORCORC

HDFS

Table

Bucket

Bucket

Bucket

ORC

40 ©HortonworksInc.2011–2016.AllRightsReserved

昨今のHadoopの進化

Ã Hive– LLAP– ACID, HCatalog Stream Mutation API

Ã Cloudbreak

41 ©HortonworksInc.2011–2016.AllRightsReserved

Cloudbreak

BI/AnalyBcs(Hive)

IoTApps(Storm,HBase,Hive)

Dev/Test(allHDPservices)DataScience

(Spark)

Cloudbreak

1.  PickaBlueprint2.  ChooseaCloud3.  LaunchHDP!

ExampleAmbariBlueprints:IoTApps,BI/Analy,cs,DataScience,

Dev/Test

クラウドへのHDPデプロイの実⾏を容易に

42 ©HortonworksInc.2011–2016.AllRightsReserved

昨今のHadoopの進化:まとめると・・・

Ã Hive– LLAP– ACID, HCatalog Stream Mutation API

Ã Cloudbreak

43 ©HortonworksInc.2011–2016.AllRightsReserved

昨今のHadoopの進化: クラウドとうまく共存できる⽅向に

CacheCache

Cache

リアルタイムなデータ収集

クラ

ウド

内外

への

オン

デマ

ンド

なク

ラス

タデ

プロ

クラウドストレージを活⽤しながら低レイテンシ

なクエリ処理

top related