경제적 hadoop 스토리지,...

34
1 © Copyright 2014 EMC Corporation. All rights reserved. 안전하고 경제적 Hadoop 스토리지, Isilon 서영일 한국이엠씨컴퓨터시스템즈㈜

Upload: others

Post on 25-Apr-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

1 © Copyright 2014 EMC Corporation. All rights reserved.

안전하고 경제적 Hadoop 스토리지, Isilon

서영일 한국이엠씨컴퓨터시스템즈㈜

Page 2: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

2 © Copyright 2014 EMC Corporation. All rights reserved.

목차

• 3rd 플랫폼에서의 빅데이터

• EMC Isilon의 특징

• EMC Isilon을 통한 HDFS구현

• 고객사 Hadoop 구현 사례

• 요약

Page 3: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

3 © Copyright 2014 EMC Corporation. All rights reserved.

3rd 플랫폼에서의 빅데이터

Page 4: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

4 © Copyright 2014 EMC Corporation. All rights reserved.

The 3rd Platform

Mainframe, Mini Computer

Terminals

LAN/Internet Client/Server

PC

Mobile Cloud Big Data Social

Mobile Devices

MILLIONS OF USERS

THOUSANDS OF APPS

HUNDREDS OF MILLIONS OF USERS

TENS OF THOUSANDS OF APPS

BILLIONS OF USERS

MILLIONS OF APPS

Source: IDC

Page 5: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

5 © Copyright 2014 EMC Corporation. All rights reserved. © Copyright 2014 EMC Corporation. All rights reserved.

Total Capacity Shipped, Worldwide Unstructured Data

80%

74%

67%

71 EB 133 EB 37 EB

Source: IDC

예측 불가능한 비정형 데이터의 성장률

Page 6: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

6 © Copyright 2014 EMC Corporation. All rights reserved.

빅데이터 분석 아키텍처

Existing EDW / Datamarts

Raw “untouched” Data

In-M

em

ory

Para

llel In

gest

Data Management

(Search Engine)

Processed Data

In-Memory Services BI / A

naly

tical T

ools

Data Lake

ERP

HR

SFDC

New Data Sources/Formats

Machine

Traditional Data Sources

Business Users

ETL Processing with Hadoop HDFS MapReduce/SQL/

Pig/Hive

Analytical Data Marts/Sandboxes

Security

and C

ontro

l

Page 7: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

7 © Copyright 2014 EMC Corporation. All rights reserved.

Ethernet

Job Tracker Task Tracker

Hadoop H/W 아키텍처

R (RHIPE) Mahout Hive HBase PIG

NameNode

Data Node + Compute Node

Data Node + Compute Node

Data Node + Compute Node

Data Node + Compute Node

Data Node + Compute Node

Data Node + Compute Node

ZooKeeper

Oozie

Page 8: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

8 © Copyright 2014 EMC Corporation. All rights reserved.

3rd 플랫폼에 최적화된 스토리지 아키텍처

다수의 멀티 노드 단위로 Throughput, IOPs 혹은 대용량 처리를 위한 최적화된 성능 제공

성능

특정 노드 혹은 멀티 노드 장애 시에도 지속적인 데이터 접근성 제공

가용성

전통적인 NAS 방식에서 제공하지 못하는 PB단위의 확장성 제공

확장성

Cluster 리소스를 단일 파일 풀 View로 손쉽게 운영할 수 있는 기능 제공

운영 효율성

Enterprise @Scale

Page 9: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

9 © Copyright 2014 EMC Corporation. All rights reserved. Capacity

Perf

orm

ance

Exabytes

Good (~100mS)

Extreme (<50uS)

EMC의 HDFS 지원

Terabytes Petabytes

PERFORMANCE WORKLOADS

GENERAL PURPOSE WORKLOADS

CAPACITY WORKLOADS

Cost

(¢ / GB)

($ / GB)

Page 10: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

10 © Copyright 2014 EMC Corporation. All rights reserved.

EMC Isilon의 특징

Page 11: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

11 © Copyright 2014 EMC Corporation. All rights reserved.

Scale-Out NAS의 성능/용량 확장성

용량

성능

20 PB+

Simplicity Linear Scalability

Page 12: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

12 © Copyright 2014 EMC Corporation. All rights reserved.

EMC Isilon의 운영 효율성

EMPTY

EMPTY

EMPTY

EMPTY

FULL

FULL

FULL

BALANCED

BALANCED

BALANCED

BALANCED

60초 미만의 빠른 증설

S-Series Performance

NL-Series Active archives

X-Series Collaboration

Reduced c

ost/T

B

SAS+SSD

SATA+SSD

High Density SATA

Files Files

Auto Balance Auto Tiering

Page 13: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

13 © Copyright 2014 EMC Corporation. All rights reserved.

EMC Isilon의 가용성

FAILED

FAILED

FAILED

FAILED

N+1 보호모드 X

SMART FAILURE

N+4 보호모드

Virtual HotSpare Data Protection

Page 14: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

14 © Copyright 2014 EMC Corporation. All rights reserved.

EMC Isilon의 다양한 기능

/Desktop_01

/virtual_machines

/Desktop_02

/vm_Exchange_2010

/vm_Progress

/vm_MS_SQL_2008

/Desktop_01

/virtual_machines

/Desktop_02

/vm_Exchange_2010

/vm_Progress

/vm_MS_SQL_2008

Failover

Failback

Access Zone-1

System Zone

Access Zone-2

LDAP-1

Active Directory-2

LDAP-3 NIS

NIS

Group Database

Finance

Legal

LDAP-2

Active Directory-1

Group Database

SmartConnect Zone-1

SmartConnect Zone-2

Replication Multi-Tenancy

Page 15: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

15 © Copyright 2014 EMC Corporation. All rights reserved.

NAS

SAN CLOUD

TAPE

DAS

OBJECT

전통적인 워크로드 새로운 워크로드

Page 16: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

16 © Copyright 2014 EMC Corporation. All rights reserved.

NAS

SAN

TAPE OBJECT

CLOUD

DAS

Isilon Scale-Out Data Lake

전통적인 워크로드 새로운 워크로드

Page 17: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

17 © Copyright 2014 EMC Corporation. All rights reserved.

다양한 Multi-Protocol 지원

비정형 데이터

비정형 데이터

Page 18: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

18 © Copyright 2014 EMC Corporation. All rights reserved.

EMC Isilon을 통한 HDFS구현

Page 19: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

19 © Copyright 2014 EMC Corporation. All rights reserved.

왜 Isilon이 Hadoop에 적합한가?

Compute, Data, Name node

3x ~ 6x

HDFS only

동시 확장

수동 Failover / Failback

불가

Compute + Isilon HDFS

N+1 ~ N+4

Multi protocol NFS, CIFS, HDFS 동시 사용

분리 확장

자동 Failover / Failback

지원

Architecture

Data Protection

Protocol

Scalability

SPOF (Single Point of Failure)

Replication & DR

일반적인 Hadoop

Isilon Hadoop

Page 20: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

20 © Copyright 2014 EMC Corporation. All rights reserved.

Ethernet

Job Tracker Task Tracker

일반적인 Hadoop 아키텍처

R (RHIPE) Mahout Hive HBase PIG

NameNode

Data Node + Compute Node

Data Node + Compute Node

Data Node + Compute Node

Data Node + Compute Node

Data Node + Compute Node

Data Node + Compute Node

ZooKeeper

Oozie

SPOF

Page 21: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

21 © Copyright 2014 EMC Corporation. All rights reserved.

Ethernet

R (RHIPE)

PIG

Mahout Hive HBase

Job Tracker ZooKeeper DataNode

Compute Node Compute Node Compute Node

Compute Node Compute Node Compute Node

NameNode

Isilon을 사용한 Hadoop 아키텍처

name node

name node

name node

name node d

ata

node

NameNode

Page 22: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

22 © Copyright 2014 EMC Corporation. All rights reserved.

일반적인 Hadoop의 가용성

1x

1x

2x

2x

3x

2x

3x

3x

1x

NameNode

3x ~ 6x 미러링

Write IO 지연 발생

300%이상의 용량 오버헤드 발생

일반적인 Hadoop의 데이터 보호

Page 23: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

23 © Copyright 2014 EMC Corporation. All rights reserved.

Isilon Hadoop의 가용성

N+1 ~ N+4 보호모드

Write IO 지연 최소화

15 ~ 30%이하의 용량 오버헤드 발생

Isilon Hadoop의 데이터 보호

Page 24: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

24 © Copyright 2014 EMC Corporation. All rights reserved.

상호 종속적인 확장

Compute

Sto

rag

e

스토리지 요구용량

Hadoop Compute 노드 요구량

Compute 노드와 Data 노드의 비율이 고정

Compute 노드와 Data 노드를 동시에 확장

도입 비용 증가

상면과 전력 비용 증가

일반적인 Hadoop HDFS

Page 25: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

25 © Copyright 2014 EMC Corporation. All rights reserved.

상호 독립적인 확장

Compute

스토리지 요구용량

Hadoop Compute 노드 요구량

Compute 노드와 Data 노드를 별도 확장

도입 비용 절감

데이터 마이그레이션 불필요

상면과 전력 비용 절감

Isilon HDFS

Page 26: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

26 © Copyright 2014 EMC Corporation. All rights reserved.

Multi-Protocol 지원

Data Center Network

Data Copy Analysis In-Place Analysis

Existing Primary Storage

Hadoop on a Stick

EMC Isilon은 동일한 데이터에 대해

여러 프로토콜로 접속이 가능하므로

기존에 NFS, CIFS, FTP 등을 통해 저장된 데이터를

직접 HDFS로 사용

Data Center Network

Existing Primary Storage

Hadoop Processing Nodes

저장된 데이터를 바로 분석

Page 27: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

27 © Copyright 2014 EMC Corporation. All rights reserved.

Case Study

• Hadoop 적용 사례

Page 28: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

28 © Copyright 2014 EMC Corporation. All rights reserved.

StarHub 소개

Page 29: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

29 © Copyright 2014 EMC Corporation. All rights reserved.

StarHub 도전 과제 이미 구축된 각종 인프라에 대용량의 비정형 데이터와 정형데이터가 혼재하여 이에 대한 통합 및 분석

Mix Structure Data & Unstructured Data • 500 Million Mobile

Location Data Records

• 2 Million Mobile Subs’ Demographics

• 500K Cable TV • 450K MOL & MIF • 250K Voice

• 100K different mobile & fix devices

• 500 Million voice CDRs

• 1.3 Billion MBB Data Records

• 100 Billion FBB data • 600K Cable TV / internet and Mobile viewership data

Datasets : a mew class of economic assets

IDD Location OTT Subscriber TV, VOD Devices

SmartHub Analytic Layer

Page 30: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

30 © Copyright 2014 EMC Corporation. All rights reserved.

도입 결과 요약

신속한 데이터 처리 Multi Protocol 효율성 및 가용성

• HAWQ 솔루션을 통한 SQL 인터페이스를 이용하여 손쉬운 데이터 처리

• 원본 데이터에 대한 빠른 접근성 확보

• NFS, CIFS, FTP 동시 접근을 통한 스토리지 유연성 증가

• Isilon의 Data Protection을 이용한 높은 가용성

• 10배 이상의 용량 효율성 확인

• Green IT 구성 및 관리 비용 절감

Page 31: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

31 © Copyright 2014 EMC Corporation. All rights reserved.

빅데이터 분석용 스토리지

EMC Isilon

Page 32: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

32 © Copyright 2014 EMC Corporation. All rights reserved.

30% LIFE

SCIENCES

ISILON SOLUTIONS YOY GROWTH IN 2013

80% FINANCIAL SERVICES

46% OIL & GAS

97% VIDEO

SURVEILLANCE

31% HOME DIRECTORIES

259% ANALYTICS

35% MEDIA &

ENTERTAINMENT

78% HEALTHCARE

259% ANALYTICS

Page 33: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러

33 © Copyright 2014 EMC Corporation. All rights reserved.

빅데이터 분석을 위한 EMC Isilon

EMC Isilon

Page 34: 경제적 Hadoop 스토리지, Isilonemcweb.co.kr/2014/edm/20140710_forum_thanks/download/C03.pdf · 2017-08-23 · Hadoop on a Stick EMC Isilon은 동일한 데이터에 대해 여러