경제적 hadoop 스토리지,...
TRANSCRIPT
1 © Copyright 2014 EMC Corporation. All rights reserved.
안전하고 경제적 Hadoop 스토리지, Isilon
서영일 한국이엠씨컴퓨터시스템즈㈜
2 © Copyright 2014 EMC Corporation. All rights reserved.
목차
• 3rd 플랫폼에서의 빅데이터
• EMC Isilon의 특징
• EMC Isilon을 통한 HDFS구현
• 고객사 Hadoop 구현 사례
• 요약
3 © Copyright 2014 EMC Corporation. All rights reserved.
3rd 플랫폼에서의 빅데이터
4 © Copyright 2014 EMC Corporation. All rights reserved.
The 3rd Platform
Mainframe, Mini Computer
Terminals
LAN/Internet Client/Server
PC
Mobile Cloud Big Data Social
Mobile Devices
MILLIONS OF USERS
THOUSANDS OF APPS
HUNDREDS OF MILLIONS OF USERS
TENS OF THOUSANDS OF APPS
BILLIONS OF USERS
MILLIONS OF APPS
Source: IDC
5 © Copyright 2014 EMC Corporation. All rights reserved. © Copyright 2014 EMC Corporation. All rights reserved.
Total Capacity Shipped, Worldwide Unstructured Data
80%
74%
67%
71 EB 133 EB 37 EB
Source: IDC
예측 불가능한 비정형 데이터의 성장률
6 © Copyright 2014 EMC Corporation. All rights reserved.
빅데이터 분석 아키텍처
Existing EDW / Datamarts
Raw “untouched” Data
In-M
em
ory
Para
llel In
gest
Data Management
(Search Engine)
Processed Data
In-Memory Services BI / A
naly
tical T
ools
Data Lake
ERP
HR
SFDC
New Data Sources/Formats
Machine
Traditional Data Sources
Business Users
ETL Processing with Hadoop HDFS MapReduce/SQL/
Pig/Hive
Analytical Data Marts/Sandboxes
Security
and C
ontro
l
7 © Copyright 2014 EMC Corporation. All rights reserved.
Ethernet
Job Tracker Task Tracker
Hadoop H/W 아키텍처
R (RHIPE) Mahout Hive HBase PIG
NameNode
Data Node + Compute Node
Data Node + Compute Node
Data Node + Compute Node
Data Node + Compute Node
Data Node + Compute Node
Data Node + Compute Node
ZooKeeper
Oozie
8 © Copyright 2014 EMC Corporation. All rights reserved.
3rd 플랫폼에 최적화된 스토리지 아키텍처
다수의 멀티 노드 단위로 Throughput, IOPs 혹은 대용량 처리를 위한 최적화된 성능 제공
성능
특정 노드 혹은 멀티 노드 장애 시에도 지속적인 데이터 접근성 제공
가용성
전통적인 NAS 방식에서 제공하지 못하는 PB단위의 확장성 제공
확장성
Cluster 리소스를 단일 파일 풀 View로 손쉽게 운영할 수 있는 기능 제공
운영 효율성
Enterprise @Scale
9 © Copyright 2014 EMC Corporation. All rights reserved. Capacity
Perf
orm
ance
Exabytes
Good (~100mS)
Extreme (<50uS)
EMC의 HDFS 지원
Terabytes Petabytes
PERFORMANCE WORKLOADS
GENERAL PURPOSE WORKLOADS
CAPACITY WORKLOADS
Cost
(¢ / GB)
($ / GB)
10 © Copyright 2014 EMC Corporation. All rights reserved.
EMC Isilon의 특징
11 © Copyright 2014 EMC Corporation. All rights reserved.
Scale-Out NAS의 성능/용량 확장성
용량
성능
20 PB+
Simplicity Linear Scalability
12 © Copyright 2014 EMC Corporation. All rights reserved.
EMC Isilon의 운영 효율성
EMPTY
EMPTY
EMPTY
EMPTY
FULL
FULL
FULL
BALANCED
BALANCED
BALANCED
BALANCED
60초 미만의 빠른 증설
S-Series Performance
NL-Series Active archives
X-Series Collaboration
Reduced c
ost/T
B
SAS+SSD
SATA+SSD
High Density SATA
Files Files
Auto Balance Auto Tiering
13 © Copyright 2014 EMC Corporation. All rights reserved.
EMC Isilon의 가용성
FAILED
FAILED
FAILED
FAILED
N+1 보호모드 X
SMART FAILURE
N+4 보호모드
Virtual HotSpare Data Protection
14 © Copyright 2014 EMC Corporation. All rights reserved.
EMC Isilon의 다양한 기능
/Desktop_01
/virtual_machines
/Desktop_02
/vm_Exchange_2010
/vm_Progress
/vm_MS_SQL_2008
/Desktop_01
/virtual_machines
/Desktop_02
/vm_Exchange_2010
/vm_Progress
/vm_MS_SQL_2008
Failover
Failback
Access Zone-1
System Zone
Access Zone-2
LDAP-1
Active Directory-2
LDAP-3 NIS
NIS
Group Database
Finance
Legal
LDAP-2
Active Directory-1
Group Database
SmartConnect Zone-1
SmartConnect Zone-2
Replication Multi-Tenancy
15 © Copyright 2014 EMC Corporation. All rights reserved.
NAS
SAN CLOUD
TAPE
DAS
OBJECT
전통적인 워크로드 새로운 워크로드
16 © Copyright 2014 EMC Corporation. All rights reserved.
NAS
SAN
TAPE OBJECT
CLOUD
DAS
Isilon Scale-Out Data Lake
전통적인 워크로드 새로운 워크로드
17 © Copyright 2014 EMC Corporation. All rights reserved.
다양한 Multi-Protocol 지원
비정형 데이터
비정형 데이터
18 © Copyright 2014 EMC Corporation. All rights reserved.
EMC Isilon을 통한 HDFS구현
19 © Copyright 2014 EMC Corporation. All rights reserved.
왜 Isilon이 Hadoop에 적합한가?
Compute, Data, Name node
3x ~ 6x
HDFS only
동시 확장
수동 Failover / Failback
불가
Compute + Isilon HDFS
N+1 ~ N+4
Multi protocol NFS, CIFS, HDFS 동시 사용
분리 확장
자동 Failover / Failback
지원
Architecture
Data Protection
Protocol
Scalability
SPOF (Single Point of Failure)
Replication & DR
일반적인 Hadoop
Isilon Hadoop
20 © Copyright 2014 EMC Corporation. All rights reserved.
Ethernet
Job Tracker Task Tracker
일반적인 Hadoop 아키텍처
R (RHIPE) Mahout Hive HBase PIG
NameNode
Data Node + Compute Node
Data Node + Compute Node
Data Node + Compute Node
Data Node + Compute Node
Data Node + Compute Node
Data Node + Compute Node
ZooKeeper
Oozie
SPOF
21 © Copyright 2014 EMC Corporation. All rights reserved.
Ethernet
R (RHIPE)
PIG
Mahout Hive HBase
Job Tracker ZooKeeper DataNode
Compute Node Compute Node Compute Node
Compute Node Compute Node Compute Node
NameNode
Isilon을 사용한 Hadoop 아키텍처
name node
name node
name node
name node d
ata
node
NameNode
22 © Copyright 2014 EMC Corporation. All rights reserved.
일반적인 Hadoop의 가용성
1x
1x
2x
2x
3x
2x
3x
3x
1x
NameNode
3x ~ 6x 미러링
Write IO 지연 발생
300%이상의 용량 오버헤드 발생
일반적인 Hadoop의 데이터 보호
23 © Copyright 2014 EMC Corporation. All rights reserved.
Isilon Hadoop의 가용성
N+1 ~ N+4 보호모드
Write IO 지연 최소화
15 ~ 30%이하의 용량 오버헤드 발생
Isilon Hadoop의 데이터 보호
24 © Copyright 2014 EMC Corporation. All rights reserved.
상호 종속적인 확장
Compute
Sto
rag
e
스토리지 요구용량
Hadoop Compute 노드 요구량
Compute 노드와 Data 노드의 비율이 고정
Compute 노드와 Data 노드를 동시에 확장
도입 비용 증가
상면과 전력 비용 증가
일반적인 Hadoop HDFS
25 © Copyright 2014 EMC Corporation. All rights reserved.
상호 독립적인 확장
Compute
스토리지 요구용량
Hadoop Compute 노드 요구량
Compute 노드와 Data 노드를 별도 확장
도입 비용 절감
데이터 마이그레이션 불필요
상면과 전력 비용 절감
Isilon HDFS
26 © Copyright 2014 EMC Corporation. All rights reserved.
Multi-Protocol 지원
Data Center Network
Data Copy Analysis In-Place Analysis
Existing Primary Storage
Hadoop on a Stick
EMC Isilon은 동일한 데이터에 대해
여러 프로토콜로 접속이 가능하므로
기존에 NFS, CIFS, FTP 등을 통해 저장된 데이터를
직접 HDFS로 사용
Data Center Network
Existing Primary Storage
Hadoop Processing Nodes
저장된 데이터를 바로 분석
27 © Copyright 2014 EMC Corporation. All rights reserved.
Case Study
• Hadoop 적용 사례
28 © Copyright 2014 EMC Corporation. All rights reserved.
StarHub 소개
29 © Copyright 2014 EMC Corporation. All rights reserved.
StarHub 도전 과제 이미 구축된 각종 인프라에 대용량의 비정형 데이터와 정형데이터가 혼재하여 이에 대한 통합 및 분석
Mix Structure Data & Unstructured Data • 500 Million Mobile
Location Data Records
• 2 Million Mobile Subs’ Demographics
• 500K Cable TV • 450K MOL & MIF • 250K Voice
• 100K different mobile & fix devices
• 500 Million voice CDRs
• 1.3 Billion MBB Data Records
• 100 Billion FBB data • 600K Cable TV / internet and Mobile viewership data
Datasets : a mew class of economic assets
IDD Location OTT Subscriber TV, VOD Devices
SmartHub Analytic Layer
30 © Copyright 2014 EMC Corporation. All rights reserved.
도입 결과 요약
신속한 데이터 처리 Multi Protocol 효율성 및 가용성
• HAWQ 솔루션을 통한 SQL 인터페이스를 이용하여 손쉬운 데이터 처리
• 원본 데이터에 대한 빠른 접근성 확보
• NFS, CIFS, FTP 동시 접근을 통한 스토리지 유연성 증가
• Isilon의 Data Protection을 이용한 높은 가용성
• 10배 이상의 용량 효율성 확인
• Green IT 구성 및 관리 비용 절감
31 © Copyright 2014 EMC Corporation. All rights reserved.
빅데이터 분석용 스토리지
EMC Isilon
32 © Copyright 2014 EMC Corporation. All rights reserved.
30% LIFE
SCIENCES
ISILON SOLUTIONS YOY GROWTH IN 2013
80% FINANCIAL SERVICES
46% OIL & GAS
97% VIDEO
SURVEILLANCE
31% HOME DIRECTORIES
259% ANALYTICS
35% MEDIA &
ENTERTAINMENT
78% HEALTHCARE
259% ANALYTICS
33 © Copyright 2014 EMC Corporation. All rights reserved.
빅데이터 분석을 위한 EMC Isilon
EMC Isilon