table of contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/kmr2.0/kmr2.0白皮书.pdfhadoop 和apache...

66
1.1 1.2 1.2.1 1.2.2 1.2.3 1.2.4 1.2.5 1.3 1.3.1 1.3.2 1.3.3 1.3.4 1.3.5 1.3.6 1.3.7 1.3.8 1.3.9 1.3.10 1.3.11 1.4 1.4.1 1.4.2 Table of Contents 介绍 产品简介 产品概述 产品功能 产品优势 使用场景 快速入门 使用手册 数据导入 集群创建 作业创建 集群操作 集群模板管理 执行计划管理 SSH密钥管理 集群监控管理 产品术语表 KMR日志归集路径 应用组件和管理端口列表 购买指南 产品定价与选购 FAQ 1

Upload: others

Post on 22-Jul-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

1.1

1.2

1.2.1

1.2.2

1.2.3

1.2.4

1.2.5

1.3

1.3.1

1.3.2

1.3.3

1.3.4

1.3.5

1.3.6

1.3.7

1.3.8

1.3.9

1.3.10

1.3.11

1.4

1.4.1

1.4.2

TableofContents介绍

产品简介

产品概述

产品功能

产品优势

使用场景

快速入门

使用手册

数据导入

集群创建

作业创建

集群操作

集群模板管理

执行计划管理

SSH密钥管理

集群监控管理

产品术语表

KMR日志归集路径

应用组件和管理端口列表

购买指南

产品定价与选购

FAQ

1

Page 2: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

产品文档介绍

 本文档提供了KMR(KingsoftMapReduce)产品的相关说明和操作指南。

  KMR(KingsoftMapReduce)是一个可伸缩的通用数据计算和分析平台,它以ApacheHadoop和ApacheSpark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

帮助您快速构建分布式数据分析系统。

  本文档能够帮助您了解KMR产品的功能特点,指导您使购买使用KMR,同时,您也可以

根据本文档提供的API参考手册和SDK使用手册自行开发应用程序。

介绍

3

Page 3: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

产品简介

  本章节主要介绍KMR(KingsoftMapReduce)产品的相关概念、功能、优势和使用场

景,并帮助您快速熟悉本产品。

 产品概述部分介绍了KMR产生的背景、相关概念和组成部分。

 产品功能部分介绍了KMR的主要功能。

 产品优势部分介绍了KMR的优势和特色。

 使用场景部分介绍了KMR的主要使用场景,帮助您结合不同业务需求理解和使用本产

品。

 快速入门部分指导您快速创建一个集群,添加一个作业,并查看最终结果。

产品简介

4

Page 4: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

产品概述

  大数据是关于收集,储存,处理和展现大规模数据的技术,它可以帮助企业从这些数据

中提取知识,并且做出更好的商业决策,所有的这些工作必须在有限的时间内尽快完成。大

数据处理的一个最主要挑战就是数据分析平台的管理,包括了安装和操作管理,对于多种工

作负载动态的分配数据处理能力,以及从多个来源收集数据进行整体分析。

  KMR(KingsoftMapReduce)是一个可伸缩的通用数据计算和分析平台,它以ApacheHadoop和ApacheSpark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

帮助您快速构建分布式数据分析系统。

  KMR提供了强大的扩展能力和弹性伸缩能力,消除了Hadoop安装部署成本和管理复杂

性,可以使您不必关注基础架构管理,而更加专注数据分析处理本身,任何的开发者或者公

司只需要较低的成本就可以进行大规模的数据分析和处理工作。

  KMR集群由主节点(MasterNode)和若干核心节点(CoreNode)、任务节点(TaskNode)组成。

主节点:主要用于集群管理,运行hadoop集群中的管理进程,如namenode、resourcemanager、jobhistory等。此外,它还会跟踪每个计算作业的执行状态,监控实例的运行

状况,为您提供集群访问的入口。1个KMR集群只有1个主节点

核心节点:主要用于执行各项集群计算作业,同时也是分布式文件系统(HDFS)的数据存

储节点,对应于hadoop集群中的slave节点。一个KMR集群可以有2至多个核心节点。

任务节点:非必须节点类型,可在集群创建完成后添加或者删除,用于执行各项集群计

算作业,不作为分布式文件系统(HDFS)的数据存储节点,相对于核心节点,具有更大的

灵活性

  KMR提供了多种节点配置(请参考KMR产品定价与选购),您可根据自身需求选取,并

在需要时动态的增加或者减少节点数量。

 针对不同的数据处理场景KMR提供了2种不同的集群类型: 

临时集群:主要用于Mapreduce等批量计算型作业,它灵活、创建速度快,可以根据需

求随时启停和自动释放,基于KS3的数据存储和日志归集功能更可以使您在集群释放后仍

然可以访问计算结果和集群日志。

常驻集群:主要用于海量数据存储,在线查询和流式计算或者更为复杂的场景,它具有

多个层面的高可用设计可以保证集群不间断的对外提供服务,常驻集群提供了细粒度的

通用集群管理工具ambari,可以帮助您更加高效的进行集群监控和调优等工作。

产品概述

5

Page 5: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

产品概述

6

Page 6: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

产品功能

  KMR提供了丰富的管理功能和便捷的程序开发接口,使您可以高效自动化的进行数据处

理和分析工作,节省管理成本和使用成本:

  弹性扩展

  KMR集群具备良好的横向扩展能力,您可以根据业务需求弹性的增加或者减少节点,适

应多变的业务场景,节省集群使用成本。

  集群主节点和元数据高可用

  除了基础的服务可用性和数据可靠性保障外,KMR提供了主节点和元数据高可用功能来

进一步保证集群持久对外提供服务:

采用两个主节点作为集群管理节点,担当NameNode、ResourceManager、HbaesMaster等角色,当节点宕机时,监控系统会自动发现,由另一节点接管服务,并

自动启动新的主节点使集群恢复到稳定状态。

一些集群服务依赖RDBMS作为元数据库,当元数据丢失时,集群无法正常工作,KMR支持使用RDS实例作为元数据库,可以有效的提升元数据的可靠性和读写性能。

**注意:主节点和元数据高可用功能仅适用于常驻集群。**

  标准存储服务(KS3)访问

产品功能

7

Page 7: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

  KMR可以通过内部高速网络直接访问标准存储服务(KS3),在进行数据处理工作时,

您可以首先把原始数据汇总到KS3。KMR集群中运行的MapReduce、Hive、Pig、Spark等作

业可以直接调用KS3中存储的这些数据进行计算,并把结果写回到KS3。KS3提供了较低使用

成本和极高的数据可靠性,并保证在集群释放时仍然可以持久的存储原始数据和计算结果。

  Hadoop生态集成

  KMR除集成了基础的Hadoop组件外,同时集成了Spark,Hbase,Storm,Kafka等生态组

件,以及Ambari,Ganglia等集群监控管理工具,帮助您轻松构建复杂的大数据分析系统,满足

批量计算、流式处理、消息队列、交互式查询、NoSQL等多种业务场景的需求。

  集群模板和执行计划

  集群模板记录了创建一个集群所需的配置信息以及集群中需要运行作业的配置信息,模

板功能帮助您快速创建一个特定配置的KMR集群,或者完成一组作业,您可以新建或通过已

有集群来生成模板。

产品功能

8

Page 8: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

  集群执行计划可以帮助您自动化的完成一组计算作业,您需要指定一个集群模板来创建

执行,一次性或周期性地自动启动集群,完成计算作业,并在结束后释放集群资源。您可以

自定义执行频率、计划开始时间、结束时间,按需使用集群资源,实现自动化的大数据分

析。

**注意:集群模板和执行计划功能仅适用于临时集群。**

  集群日志归集  

  通常情况下,Hadoop集群和作业日志分散在各个节点,日志路径千奇百怪,查看十分不

方便,同时,在集群被释放后,您无法查看日志,无法定位问题和集群调优。KMR可以把集

群和作业的日志统一存放在KS3的指定目录中,便于管理和持久保存。

**注意:日志归集功能仅适用于临时集群。**

  计算作业管理

  KMR可以支持MapReduce,Spark,Pig,Hive等多种计算作业,这些作业可以在集群创建

时或者创建完成后添加到集群中,您可以很方便的管理每个集群中的作业,随时查看作业的

状态。

**注意:计算作业管理功能仅适用于临时集群。**

  集群自动释放

产品功能

9

Page 9: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

  集群自动释放功能开启时,当最后一个作业执行完毕后,KMR会自动释放集群,删除集

群节点和节点本地的数据,同时停止计费,在KS3上面的数据将会持久的保存下来。这一功能

对于临时性或者周期性的短时计算尤其有用,可以大幅节省数据处理成本。

**注意:集群自动释放功能仅适用于临时集群。**

  API&SDK

  KMR提供了用于集群操作的OpenAPI和SDK,您可以根据需要开发应用程序,实现集群创

建、释放,作业下发,集群和作业状态监控等多种自动化任务,进一步提高效率,降低成

本。

  详见《KMRAPI参考手册》《KMRJavaSdk使用手册》

产品功能

10

Page 10: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

产品优势

  快速部署,完全托管

  传统的Hadoop平台部署,通常需要经历业务评估、机器选型采购、硬件上架调试、操作

系统和平台软件安装调试等一系列复杂的工作,这些工作需要花费1-3个月的时间。KMR采用

弹性计算服务(KEC)构建集群,通常情况下只需几分钟即可自动完成部署工作,您只需关

心数据处理任务本身,无需关注硬件和底层系统的运维工作。

  全面的服务可用性保障

  KMR在服务控制端,集群主节点,元数据管理,节点反亲近策略,硬件,监控告警,

VPC网络隔离等多个层面提供了服务可用性和数据安全保障,大幅提升流式计算,Hbase数据读写,既席数据查询等场景的业务连续性。

  弹性伸缩,灵活计费

  不同于传统业务系统,数据分析系统很难做到精确的容量规划,不同的任务使用的资源

类型也不尽相同,KMR提供了多种节点配置,并且可以弹性的增加或者减少节点,针对不同

需求,集群提供以分钟为单位的计费方式和包年包月计费方式,能够减少您的使用成本,轻

松应对多变的业务需求。

  云服务产品深度整合

  金山云平台提供了多种云服务产品,KMR可与这些服务产品组合,形成端到端的数据分

析处理解决方案,KMR与KS3的深度整合,可以使您更加灵活方便的收集和管理数据,花费

更低的成本,获得更高的数据可靠性。

产品优势

11

Page 11: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

使用场景

  离线数据处理

  离线数据处理是最常见的Hadoop应用场景,您可将原始数据上传到KS3或者集群HDFS文件系统中,通过控制台或者API来执行批量的离线处理作业。

  数据查询和报表

  KMR提供了Hive和SparkSQL等类SQL查询方案,用户可使用简单直观的查询方法对海量

的数据进行分析或者使用主流的BI工具生成报表。

  流式数据处理

使用场景

12

Page 12: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

  流式数据处理逐渐成为大数据的热点,例如网站流量统计或游戏在线玩家数据,需要在

不同粒度上对不同数据进行统计,既有实时性的需求,又需要涉及到聚合、去重、连接等较

为复杂的统计需求,KMR提供了分布式消息队列Kafka,流式数据处理框架Storm以及SparkStreaming,帮助您轻松应对实时的数据处理需求。

  NoSQL数据库

  互联网应用的典型特征是数据量大,高并发,业务增长快,KMR集成的Hbase是一种非

常流行的分布式可扩展列存数据库,可以充分满足各种在线应用需求,同时又可以和其他大

数据生态组件结合,形成端到端的方案。

使用场景

13

Page 13: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

快速入门

  KMR为您提供了样例程序和样例数据,本章节将会带您快速使用KMR,创建一个KMR临时集群,并添加一个作业,最终查看计算结果。

  1.注册账号,并通过商务开通KMR服务

  2.登录金山云控制台,选择数据分析->托管Hadoop

  

  3.选择“集群管理”,点击“新建集群”按钮,进入集群创建向导

  

  4.“基本信息”模块选择“临时集群”,其他项保持默认配置,点击“下一步”

  5.“软件节点与配置”模块保持默认选项,点击“下一步”

  6.“网络设置与其他”模块保持默认选项,点击“下一步”

  7.“引导与作业设置”模块,点击“添加”按钮,选择一个示例作业

快速入门

14

Page 14: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

  

  8.保持默认的作业配置,这里会执行一个标准的MapReduce作业,计算一套英文小说的

单词数,点击“确定”关闭对话框

快速入门

15

Page 15: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

  

  9.点击“购买”进入支付页面,支付成功后,即会创建集群

  10.集群创建完成后点击集群名称进入集群详情页面

  11.在节点配置项中点击“展开/收起”可以查看集群节点的详细信息

快速入门

16

Page 16: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

  12.选择“作业列表”,可以查看刚刚创建的作业状态

  13.当作业状态变为“已完成”时,集群将会自动释放,该集群资源被回收,您已完成了

KMR的快速体验。

快速入门

17

Page 17: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

快速入门

18

Page 18: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

使用手册

  本部分将为您详细展示KMR产品的具体功能和使用方式。

  数据导入 介绍了如何将原始数据导入KS3或HDFS来进一步分析。

  集群创建 介绍了创建KMR集群的必要操作和注意事项

  作业创建 介绍了如何为KMR集群添加各种计算作业。

  集群操作 介绍了如何操作KMR集群,包括查看集群列表,集群详情和作业详情。

  集群模板管理 介绍了如何创建集群模板,查看模板列表和模板详情。

  执行计划管理 介绍了如何创建和管理集群执行计划。

  集群监控管理 介绍了如何查看KMR集群和服务的监控信息

  SSH密钥管理 介绍了如何创建和管理ssh密钥,并且通过SSH工具访问集群。

  产品术语表 介绍了本文档中使用的产品术语

  KMR日志归集路径 介绍了KMR集群主节点、核心节点的日志归集路径。

  服务和管理端口列表 介绍了KMR各类服务的默认端口。

使用手册

19

Page 19: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

数据导入

  1.数据导入到KS3

  KMR集群可以直接访问标准存储服务KS3,在开始使用KMR之前,我们建议您开通KS3服务,把计算程序和原始数据集中到KS3中便于管理和持久化保存。

  (1)进入KS3控制台,新建存储空间http://ks3.ksyun.com/console.html#/

  (2)选择“地区”(需要选择和KMR服务所在相同的地区,KMR无法跨地区访问KS3),

输入空间名称,如无需公开读写,访问控制选择“私密”即可。

数据导入

20

Page 20: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

  (3)进入空间,选择“内容管理”,可以创建目录,或者直接通过浏览器上传文件,超过

500M以上的文件可以使用SDK或者工具上传

  KS3SDK::https://github.com/ks3sdk  KS3上传工具:http://ks3.ksyun.com/doc/testtool/uptool.html

  2.数据导入到HDFS

  通常情况下,KMR需要处理的原始数据直接存放在KS3上,即可完成各种计算作业。为

了获得更好的数据处理性能,充分发挥Hadoop数据本地化的优势,我们可以把数据从KS3拷贝到KMR集群的HDFS文件系统中。

  DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。它使用

Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。金山云KMR采用特殊的技术处

理,您可以使用DistCp工具直接在HDFS和KS3间拷贝数据。

  操作步骤:

数据导入

21

Page 21: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

  1.通过SSH连接到主节点,请参考SSH密钥管理

  2.输入命令:suhadoop切换到hadoop用户

  3.执行以下格式命令:hadoopdistcp<源路径><目标路径>

  示例:

  HDFS上传到KS3

  hadoopdistcp/user/hadoop/conf/hive-site.xmlks3://testbucket/kmr/

  KS3拷贝到HDFS

  hadoopdistcpks3://testbucket/kmr/hive-site.xml/user/hadoop/conf/

  Discp的更多用法请参考DisCpGuide

数据导入

22

Page 22: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

集群创建

  KMR的某些功能依赖于KS3,在创建集群之前,请确认您已经开通KMR和KS3服务,并

已经创建AccessKey/SecretKey,参阅KS3官方文档创建密钥

  如需使用KS3存放原始数据,参阅数据导入

  KMR提供了临时集群和常驻集群两种类型,临时集群在作业执行完毕后会自动释放,适

合批量数据计算;常驻集群提供了更高的可用性,集成了更丰富的Hadoop生态组件,适合流

计算、实时数据查询或者较为复杂的数据分析场景。不同类型集群的创建步骤略有不同

创建步骤

  1.登录金山云控制台,选择数据分析->托管Hadoop

  2.选择“集群管理”,点击“新建集群”按钮,进入集群创建向导

  3.填写以下内容完成集群创建:

  基本信息

  软件与节点配置

  网络设置与其他

  引导与作业设置(仅临时集群)

  

基本信息

集群创建

23

Page 23: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

集群类型:KMR提供临时集群和常驻集群两种类型,临时集群在作业执行完毕后会自动释

放,适合批量数据计算;常驻集群提供了更高的可用性,集成了更丰富的Hadoop生态组件,

适合流计算、实时数据查询或者较为复杂的数据分析场景

集群名称:创建集群时,会根据系统时间戳生成一个默认名称。您也可以为KMR集群输入描

述性名称。长度限制为1-25个字符,支持数字、字母、特殊符号(_和-)该名称不必是唯一的

数据中心:选择KMR集群所在数据中心。(如果需要使用KS3存储数据,应确保KMR与KS3bucket处于同一区域)

计费方式:KMR计费方式根据不同的集群类型有所区别:常驻集群可选择按需计费和包年包

月两种计费方式;临时集群仅可选择按需计费方式。若用户在试用期内,创建临时集群和常

驻集群都可选择免费试用类型,详见KMR产品定价与选购

  

软件与节点配置

集群创建

24

Page 24: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

产品版本:选择创建KMR集群所用的产品版本,选择不同版本可提供不同的集群基础配置和

应用组件

应用程序:选择KMR集群中需要安装的Hadoop周边生态应用。对于常驻集群,可以将一些

特殊的应用(如Kafka)部署到独立的节点组中

用户配额:开通KMR服务时,会为每个账户分配一个资源配额,如果账户中使用的集群资源

超过了该配额,则无法创建集群。如有特殊需求,请联系您的客户经理

主节点:主要用于集群管理,并将计算程序和原始数据集分配到核心实例。此外,它还会跟

踪每个计算作业的执行状态,监控实例的运行状况。KMR主节点与Hadoop系统的主节点相对

应。临时集群集群只有一个主节点,常驻集群具有主、备两个主节点

核心节点:主要用于执行各项集群计算作业,同时作为hadoop分布式文件系统的数据节点存

储数据。KMR核心节点与Hadoop系统的slave节点相对应

任务节点:只有临时集群有任务节点,只用于执行各项集群计算作业,不作为分布式文件系统

(HDFS)的数据存储节点,一个KMR临时集群可以有0至多个任务节点

节点配置:可根据实际的业务需求选择集群节点数量和类型,详见KMR产品定价与选购

  

网络设置与其他

集群创建

25

Page 25: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

EIP绑定:EIP是绑定在集群Master节点上的公网IP地址,主要用于集群的远程管理和作业提

交,带宽为1Mbps,暂时无法调节

VPC网络:您可以使用默认VPC来创建KMR集群,也可以选择自定义VPC

VPC子网:VPC子网是VPC中用于管理云主机的网络单元,您可以使用默认VPC子网,也可

以选择自定义子网。如果使用自定义VPC,请确认VPC中已创建可用的VPC子网

EndPoint子网:EndPoint可以在您的VPC和其他金山云服务之间创建私有连接,使用KMR服务必须指定EndPoint。如果使用自定义VPC,请确认VPC中已创建可用的EndPoint

SSH密钥(可选):如果需要通过SSH访问集群,需要点击“绑定密钥”超链接为集群绑定

SSH密钥,请参阅SSH密钥管理

自定义参数(可选):您可以通过此功能来自定义各类集群应用的参数配置(如core-site,hadoop-env等),点击“配置参数”超链接,在弹出对话框中选择配置文件,并填写该配置

文件的自定义参数,(注意KMR不会对参数的正确性进行检查),自定义参数的格式

为"Key1=value1,Key2=value2",配置多个参数时用逗号分隔

元数据高可用(仅常驻集群、可选):您可以通过该选项配置常驻集群的高可用元数据库,

使用RDS实例元数据库能够提升元数据的可靠性和读写性能。通过选择同一机房的RDS实例,填写RDS实例端口、RDS用户名和RDS密码来配置

日志归集(仅临时集群):日志归集功能可以把集群和作业的日志统一存放在KS3的指定目

录中,便于管理和持久保存。该选项默认关闭,开启该选项后需要选择日志在KS3上的存放目

录,或在弹出的对话框中新建目录

集群创建

26

Page 26: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

日志路径(仅临时集群):您可以键入或浏览用于存储KMR日志的KS3存储桶

(bucket),例如ks3://myemrbucket/logs,也可以让KMR为您生成一个KS3路径。如果键

入的文件夹名称在存储桶中不存在,系统将为您创建该文件夹。

各种集群服务和作业的日志在KS3上对应的路径结构,请参考KMR日志归集路径

引导与作业设置(仅临时集群)

引导操作(可选): 自定义引导操作是一个可选的高级选项,可以在集群启动时执行软件

安装和环境准备等自定义操作,大多数情况下无需配置。如需配置,点击“设置”超链接,您可

以在弹出的对话框中添加引导操作,包括填写引导脚本(使用存储在KS3中的脚本或者直接输

入命令行),填写执行参数和勾选该脚本的执行节点。您也可以删除已添加的引导脚本

作业设置:作业是提交到集群中的一个工作单元,一个作业可能包含一个或多个分布式计算

任务,您需要为临时集群添加作业,并且对一个集群可提交多达256个作业,作业运行结束

后,集群自动释放。您可以通过“添加作业”超链接添加作业,详情请参考作业创建指南,也可

以对已添加的作业进行编辑和删除

集群创建

27

Page 27: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

作业创建指南

  KMR控制台支持CustomJar,Streaming,Hive,Pig,Spark等作业类型,您也可以使用

KMROpenAPI来为集群创建作业,详见《KMRAPI参考手册》

  1.添加CustomJAR作业

  2.添加Streaming作业

  3.添加Hive作业

  4.添加Pig作业

  5.添加Spark作业

1.添加CustomJAR作业

  您可以编写Java应用程序,生成JAR文件,然后将JAR文件上传到集群本地HDFS或者KS3中来处理数据。当执行此操作时,JAR文件必须包含适用于Map-Reduce功能的实

现。

  1.在KMR集群创建时或者创建完成后打开添加作业页面,前置步骤请参考集群创建和集

群操作中的作业详情部分

作业创建

28

Page 28: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

  2.在添加作业页面填写作业信息,点击确定提交:

字段 操作

作业类型 选择需要执行的作业类型,这里请选择CustomJar

作业名称 输入作业名称,长度最多25个字符

JAR文件地址

输入JAR包的存储路径,如使用KS3存储它们,该路径的形式为:ks3://BucketName/path/jar

MainClass 指定主程序的类名

失败后操作

当作业执行失败后,集群可以根据这里的设置自动执行一些操作继续:作业执行失败后,继续执行下一个作业。取消作业并等待:作业执行失败后,取消集群中已提交的作业,集群进入等待状态,直到提交下一个作业。销毁集群:作业运行失败后,销毁集群。该选项的结果不会受到“集群释放保护”功能影响

参数您可以为作业输入一些参数,这些参数会不做任何修改的传给MainClass中的main函数。输入参数时,只需要输入参数本身字符串即可,用空格分隔,无需参数转义和urlencode。

作业创建

29

Page 29: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

  3.如果您是在创建集群阶段添加作业,点击“下一步”,跳转到确认订单页面,提交订单

后,添加的作业会在集群创建完成后开始执行。

  4.如果您是对已创建的集群添加作业,作业提交后立即开始执行。

2.添加Streaming作业

  HadoopStreaming是Hadoop附带的一种实用功能,可让您使用非Java语言开发

MapReduce可执行文件。您可以在控制台上创建streaming作业,也可以像运行标准JAR文件一样,通过KMRAPI来运行它。

  有关hadoopstreaming,请参考

  http://hadoop.apache.org/docs/r2.6.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/HadoopStreaming.html

  1.在KMR集群创建时或者创建完成后打开添加作业页面,前置步骤请参考集群创建和集

群操作中的作业详情部分

作业创建

30

Page 30: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

  

  2.在添加作业页面填写作业信息,点击确定提交:

作业创建

31

Page 31: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

字段 操作

作业类型 选择需要执行的作业类型,这里请选择Streaming

作业名称 输入作业名称,长度最多25个字符

Mapper地址

输入Map任务可执行命令或脚本的存储路径,如使用KS3存储它们,该路径值的形式应该是:ks3://BucketName/path/MaperExecutable

Reducer地址

输入Reduce任务可执行文件或脚本的存储路径,如使用KS3存储它们,该路径值的形式应该是:ks3://BucketName/path/ReducerExecutable

输入地址指定原始数据的存放位置,这个地址必须已经存在,并且您有权限读取这个地址的文件。

输出地址指定计算结果存放位置,这个地址必须是不存在的,并且您有权限对这个地址进行写操作,否则作业运行会失败。

失败后操作

当作业执行失败后,集群可以根据这里的设置自动执行一些操作继续:作业执行失败后,继续执行下一个作业。取消作业并等待:作业执行失败后,取消集群中已提交的作业,集群进入等待状态,直到提交下一个作业。销毁集群:作业运行失败后,销毁集群。该选项的结果不会受到“集群释放保护”功能影响

参数

除了以上几个streamingprogram作业必须输入的参数外,若您还可以为作业设置其他参数,请在参数输入框中以空格为分隔符输入参数配置。输入参数时,只需要输入参数本身字符串即可,用空格分隔,无需参数转义和urlencode。

  3.如果您是在创建集群阶段添加作业,点击“下一步”,跳转到确认订单页面,提交订单

后,添加的作业会在集群创建完成后开始执行。

  4.如果您是对已创建的集群添加作业,作业提交后立即开始执行。

3.添加Hive作业

  Hive是一种开源数据仓库和分析套件,它在Hadoop的基础上运行。Hive脚本使用类似

SQL的语言,名为HiveQL(查询语言),该语言会将SQL语法映射为MapReduce编程模

型,支持典型的数据仓库查询交互。Hive可避免您以低级别的计算机语言(如Java)编写

MapReduce程序这样的复杂工作。KMR提供对Hive的支持。

  1.在KMR集群创建时或者创建完成后打开添加作业页面,前置步骤请参考集群创建和集

群操作中的作业详情部分 

作业创建

32

Page 32: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

  2.在添加作业页面填写作业信息,点击确定提交:

作业创建

33

Page 33: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

字段

操作

作业类型

选择需要执行的作业类型,这里请选择Hive

作业名称

输入作业名称,长度最多25个字符

脚本地址

输入Hive脚本的存储路径,如使用KS3存储它们,该路径值的形式应该是:ks3://BucketName/path/HiveScript。

输入地址

指定原始数据的存放位置,这个地址必须已经存在,并且您有权限读取这个地址的文件。

输出地址

指定计算结果存放位置,这个地址必须是不存在的,并且您有权限对这个地址进行写操作,否则作业运行会失败。

失败后操作

当作业执行失败后,集群可以根据这里的设置自动执行一些操作继续:作业执行失败后,继续执行下一个作业。取消作业并等待:作业执行失败后,取消集群中已提交的作业,集群进入等待状态,直到提交下一个作业。销毁集群:作业运行失败后,销毁集群。该选项的结果不会受到“集群释放保护”功能影响

参数

输入参数。只接受两种参数类型,分别是--hiveconfkey=value和--hivevarkey=value。前一种参数是用来覆盖hive执行时的配置。后一种参数是用来声明自定义的变量,可以在脚本中通过${KEY}来引用。输入参数时,只需要输入参数本身字符串即可,用空格分隔,无需参数转义和urlencode。

  3.如果您是在创建集群阶段添加作业,点击“下一步”,跳转到确认订单页面,提交订单

后,添加的作业会在集群创建完成后开始执行。

  4.如果您是对已创建的集群添加作业,作业提交后立即开始执行。

4.添加Pig作业

  Pig是一种开源Apache库,在Hadoop的顶层上运行。该库使用名为PigLatin的语言

编写的、类似SQL的命令,并将这些命令转换到MapReduce任务中。KMR支持ApachePig,此编程框架可用于分析和转换大型数据集。有关Pig的详细信息,请转到

作业创建

34

Page 34: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

http://pig.apache.org/

  1.在KMR集群创建时或者创建完成后打开添加作业页面,前置步骤请参考集群创建和集

群操作中的作业详情部分  

  2.在添加作业页面填写作业信息,点击确定提交:

作业创建

35

Page 35: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

字段

操作

作业类型

选择需要执行的作业类型,这里请选择Pig

作业名称

输入作业名称,长度最多25个字符

脚本地址

输入pig脚本的存储路径,如使用KS3存储它们,该路径值的形式应该是:ks3://BucketName/path/PigScript

输入地址

指定原始数据的存放位置,这个地址必须已经存在,并且您有权限读取这个地址的文件。

输出地址

指定计算结果存放位置,这个地址必须是不存在的,并且您有权限对这个地址进行写操作,否则作业运行会失败。

失败后操作

当作业执行失败后,集群可以根据这里的设置自动执行一些操作继续:作业执行失败后,继续执行下一个作业。取消作业并等待:作业执行失败后,取消集群中已提交的作业,集群进入等待状态,直到提交下一个作业。销毁集群:作业运行失败后,销毁集群。该选项的结果不会受到“集群释放保护”功能影响

参数

参数:输入以下指定的参数进行相关的配置:-Dkey=value指定配置,-pKEY=VALUE指定变量,也可加入自定义参数。输入参数时,只需要输入参数本身字符串即可,用空格分隔,无需参数转义和urlencode。

  3.如果您是在创建集群阶段添加作业,点击“下一步”,跳转到确认订单页面,提交订单

后,添加的作业会在集群创建完成后开始执行。

  4.如果您是对已创建的集群添加作业,作业提交后立即开始执行。

4.添加spark作业

  Spark是一种类HadoopMapReduce的通用并行框架,Spark拥有HadoopMapReduce所具有的优点,同时具有SQL查询,流式计算,集群学习等模块,得到了广泛的认可。KMR集成了最新版本的Spark,可用来构建大型的、低延迟的数据分析应用。

作业创建

36

Page 36: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

  1.在KMR集群创建时或者创建完成后打开添加作业页面,前置步骤请参考集群创建和集

群操作中的作业详情部分 

  2.在添加作业页面填写作业信息,点击确定提交:

作业创建

37

Page 37: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

字段 操作

作业类型 选择需要执行的作业类型,这里请选择Spark

作业名称 输入作业名称,长度最多25个字符

Jar文件地址

输入Spark应用程序的存储路径,如使用KS3存储它们,该路径值的形式应该是ks3://BucketName/path/SparkJar

MainClass 指定主程序的类名

Spark-submit选项

输入spark-submit选项详情请参考https://spark.apache.org/docs/1.5.2/submitting-applications.html

失败后操作

当作业执行失败后,集群可以根据这里的设置自动执行一些操作继续:作业执行失败后,继续执行下一个作业。取消作业并等待:作业执行失败后,取消集群中已提交的作业,集群进入等待状态,直到提交下一个作业。销毁集群:作业运行失败后,销毁集群。该选项的结果不会受到“集群释放保护”功能影响

参数

当对以下的参数进行多次设置时,只有最后一次设置才会生效:--name、--driver-memory、--driver-java-options、--driver-library-path、--driver-class-path、--executor-memory、--executor-cores、--queue、--num-executors、--properties-file、--jars、--files、--archives。不可以指定的参数有:--master、--deploy-mode、--py-files、--driver-cores、--total-executor-cores、--supervise、--help。  •对于不可以指定的参数,若指定也不会报错,只是是参数设置无效。  •对于CORE节点为一般通用型集群或测试体验版集群,在设置参数时,--driver-memory和--executor-memory建议设置为小于1G,否则可能会因为集群资源不足,影响作业正常运行。  •对于CORE节点为上述以外的其他类型时,--driver-memory和--executor-memory建议设置为小于2G,否则可能会因为集群资源不足,影响作业正常运行。您输入参数时,只需要输入参数本身字符串即可,用空格分隔,无需参数转义和urlencode。

  3.如果您是在创建集群阶段添加作业,点击“下一步”,跳转到确认订单页面,提交订单

后,添加的作业会在集群创建完成后开始执行。

  4.如果您是对已创建的集群添加作业,作业提交后立即开始执行。

作业创建

38

Page 38: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

集群操作

查看集群列表

集群详情

作业详情(仅临时集群)

查看集群列表

  集群创建完成后可以在集群列表中查看集群的基本信息,并对集群进行简单操作,集群

列表会根据创建时间来排序

  新建集群:您可以点击“新建集群”使用集群创建向导来创建集群,或者点击左侧导航“集群模板”项,进入集群模板管理页面,通过已有的模板来创建集群。

  释放集群:您可以通过集群列表末尾的“释放”超链接来释放集群,也可以在左侧勾选多个

集群,然后选择上方的“释放”按钮来批量释放集群

  集群筛选:默认情况下,集群列表不会显示已释放的集群,可以勾选“显示已释放的集

群”来显示所有集群,同时可以通过搜索集群名称,快速定位到所找的集群。

  刷新:刷新集群列表

集群操作

39

Page 39: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

  保存为模板(仅临时集群):您可以将已创建的临时集群直接保存为模板,方便重复利

用已有的集群配置和作业配置

  集群详情:通过点击集群名称查看集群详情

集群详情

  集群详情页面列出集群的基本信息,您可以对一些集群配置进行更改

  SSHKEY绑定:为集群绑定SSH密钥,请参考SSH密钥管理中的"使用SSH访问集群”部分

  变更配置:您可以根据需求来增加或者减少核心节点和任务节点的数量。

  注意:包年包月集群仅支持扩容,不支持缩容,在变更核心节点时,尤其是减少核心节

点的操作在某些极特殊情况下可能会导致HDFS文件系统数据不可用,请您操作前注意,或咨

询技术支持。

  释放:点击该按钮,会弹出释放集群对话框。释放集群将会删除掉所有集群节点、HDFS上存储的数据以及正在运行的作业且无法恢复,KS3上面存储的数据将会保留,请慎重操作。

释放集群之前请确认“集群释放保护”选项处于关闭状态

集群操作

40

Page 40: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

  转正(仅免费试用集群):您可以将试用集群转为正式集群,保留原集群配置和数据,

并且集群转正后立即开始计费

  续费(仅包年包月集群):您可以对当前使用的包年包月集群进行续费,点击该按钮,

会弹出集群续费对话框,您可以选择续费时长,查看该集群当前到期时间和续费到期时间。

  绑定/解绑EIP:可以通过绑定EIP来获取公网地址访问主节点,如果已绑定EIP,也可以

解绑EIP。

  释放保护:释放保护功能保障集群不会因为意外错误导致销毁,您可以点击“变更配置”超链接来更改状态。

  自定义参数:显示集群自定义参数的配置信息,点击“详情”超链接可以查看具体的参数配

置信息

  集群日志(仅临时集群):集群日志记录了集群的运行状况,点击“查看”超链接,弹出集

群日志对话框,可以下载集群的具体日志信息

  节点配置信息:列出了平台版本、已安装应用和集群节点的硬件配置信息,点击“展开”超链接,可以看到节点ID,状态,IP地址等更多信息。对于临时集群,点击“添加”超链接,可以

添加任务节点。

  管理工具:Hadoop和Spark等应用具有丰富的原生管理工具,点击各个工具链接,能够

直接进入管理界面,原生管理工具通过金山云控制台统一验证和跳转,无需配置SSHTunnel即可访问。管理工具包括Ambari控制台、Ganglia集群监控工具、YARN管理工具、HDFS管理工具、Oozie管理工具、YARNHistoryServer和SparkHistoryServer,其中监控临时集群

运行状态使用Ganglia工具,监控常驻集群使用Ambari工具,详情请参考监控指南

作业详情(仅临时集群)

  在临时集群集群集群管理页面,点击“作业列表”页签,您可以查看该集群中作业的详细信

息,并可以为集群添加新的作业,参考作业创建指南

集群操作

41

Page 41: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

集群操作

42

Page 42: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

集群模板管理

  KMR集群模板记录了创建一个集群所需的配置信息以及需要运行作业的配置信息,您可

以通过模板管理快速创建集群、完成作业,同时,也可以根据业务需求,从模板中创建集

群,也可以修改、删除模板。

注意:集群模板管理功能仅适用于临时集群。

创建模板

  创建模板的过程与创建临时集群的步骤基本一致,详情可参考集群创建

集群模板列表

集群模板详情

集群模板列表

  模板创建完成后可以在模板列表中查看模板的基本信息,并对模板进行简单操作,模板

列表会根据创建时间来排序。

  创建模板:您可以点击“创建模板”按钮来创建模板,过程与创建临时步骤基本一致,详情

可参考集群创建

  删除:您可以在左侧勾选多个集群,然后点击“删除”来批量删除模板,也可以通过集群列

表末尾的“删除”超链接删除模板

  刷新:刷新集群模板列表

集群模板管理

43

Page 43: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

  创建集群:您可以通过模板列表末尾的“创建集群”超链接来创建集群

  修改模板:您可以通过集群列表末尾的“修改”超链接来修改模板配置信息

  模板详情:点击模板名称进入模板详情页面,请参考集群模板详情

集群模板详情

  模板详情页面列出的模板的基本信息,您可以查看模板的基本信息、软件配置、节点配

置、引导操作和作业配置情况。

集群模板管理

44

Page 44: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

集群模板管理

45

Page 45: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

执行计划管理

  集群执行计划是一组作业的集合,可以一次性或周期性地应用特定集群模板执行,结束

后立即释放集群资源。执行计划依托于集群模板,因此在创建执行计划之前,必须存在已创

建的模板。

注意:执行计划管理功能仅适用于临时集群。

创建执行计划

执行计划列表

创建执行计划

  打开金山云控制台,选择“数据分析->托管Hadoop”服务,选择“执行计划”,点击“新建计

划”,进入创建计划页面

  1.填写计划基本信息

字段 操作

计划名称 您可以为执行计划输入描述性名称

计划描述 为执行计划输入描述语言

集群模板选择执行计划所依托的集群模板注意,所选的模板集群释放功能会自动开启

  2.填写计划执行策略

执行计划管理

46

Page 46: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

字段 操作

执行频率

您可以指定执行计划的执行频率,选择周期执行或者一次性执行

开始时间

选择执行计划的开始时间,您可以立即开始,也可以指定未来日期作为开始时间

结束时间

选择执行计划的结束方式,您可以选择“永不结束”,也可以指定未来日期作为结束时间

  3.设置作业信息,选择集群模板后,自动载入该模板内的作业

执行计划列表

  计划创建完成后可以在计划列表中查看计划的基本信息,并对计划进行简单操作,计划

列表会根据创建时间来排序

  新建计划:您可以创建执行计划,详情参考创建执行计划。

  刷新:您可以刷新计划列表。

执行计划管理

47

Page 47: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

  删除计划:您可以通过计划列表末尾的“删除”超链接来删除模板,也可以在左侧勾选多个

计划,然后选择“删除”来批量删除计划

  编辑计划:您可以通过计划列表末尾的“编辑”超链接来修改计划信息

  启用/停用计划:您可以通过集群列表末尾的“启用”超链接立即启用计划,也可以通过“停用”超链接立即停用计划

执行计划管理

48

Page 48: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

SSH密钥管理

  用户除了通过控制台来管理集群和作业外,也可以通过SSH来访问管理集群,而KMR集群仅支持SSH密钥认证方式,因此密钥管理模块用来管理通过SSH方式访问集群的密钥。

创建密钥

密钥列表

使用SSH访问集群

创建密钥

1.使用密钥生成工具生成SSH-2RSA密钥,保存好私钥和公钥

  windows用户可以使用PuTTYgen.exe工具

  http://www.chiark.greenend.org.uk/~sgtatham/putty/download.html

  Linux用户可以通过ssh-keygen–trsa来生成,默认生成在~/.ssh/目录下,公钥文件

是~/.ssh/id_rsa.pub,用户使用ssh-keygen时也可以自己指定公钥目录。

SSH密钥管理

49

Page 49: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

  2.打开KMR控制台,选择“集群密钥”,点击“创建密钥”按钮,进入创建密钥界面。  

字段

操作

名称

您可以为密钥输入描述性名称

描述

输入对该密钥的描述语言

公钥

把第一步生成的公钥文件内容粘贴到这里,格式形如“ssh-rsaAAAAB3NzaC1yc2EAAAABJQAAAQEAxljLUF//ygzu1Dy/sArs1hpoN……”

密钥列表

  密钥创建完成后可以在密钥列表中查看密钥的基本信息,并对密钥进行简单操作,密钥

列表会根据创建时间来排序

SSH密钥管理

50

Page 50: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

  创建密钥:您可以创建密钥,详情参考创建密钥

  加载到集群:您可以在左侧勾选一个或多个密钥,然后选择“加载到集群”将密钥加载到集

群,加载到的集群也可以选择多个,将密钥加载到集群之后,即可通过SSH访问集群

  删除:您可以在左侧勾选一个或多个计划,然后选择“删除密钥”来删除密钥

  刷新:您可以刷新密钥列表

  查看公钥:您可以查看公钥详细内容

使用SSH访问集群

  1.选择创建密钥时创建好的密钥,点击“加载到集群”按钮,把密钥加载到集群

  2.导入创建密钥时产生的私钥

SSH密钥管理

51

Page 51: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

  windows用户可以使用PuTTY.exe工具

  http://www.chiark.greenend.org.uk/~sgtatham/putty/download.html

  3.指定IP和端口连接KMR主节点,连接到集群,登陆账户名是root。

  获得IP地址:打开KMR控制台,进入要访问的集群详情页面,展开主节点的详细信息,

您可以通过公网(如果绑定EIP)IP地址访问集群,或者同一VPC内的云主机通过内网IP地址

访问集群。

SSH密钥管理

52

Page 52: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

  4.主节点和核心节点已配置了SSH互信,可以在控制台查看核心节点的IP地址,直接从主

节点登录到各个核心节点。

SSH密钥管理

53

Page 53: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

集群监控告警

  监控和告警对于维护一个集群正常运转以及对集群进行调优排错等工作至关重要,由于

KMR临时集群和常驻集群的使用需求不尽相同,我们采用不同的解决方案:

对于临时集群,KMR集成了通用的集群管理工具-Ganglia来对集群进行监控

对于常驻集群,KMR对接了金山云监控,管理员可以在云监控页面查看集群的监控图表

并对关键指标配置告警策略,同时我们集成了强大集群管理工具ambari,可以对集群实

现更加精细的监控和管理。

除此之外,hadoop生态组件提供了较为丰富的web管理功能,您也可以通过控制台直接

跳转查看

1.临时集群监控

2.常驻集群监控告警

3.Hadoop原生管理工具

临时集群监控

KMR临时集群中集成了Ganglia监控工具,用户可以通过控制台“集群详情”-“管理工

具”-“Ganglia”进入

  使用Ganglia监控集群状态

  Ganglia是UCBerkeley发起的一个开源集群监视项目,设计用于测量数以千计的集群节

点,主要用来监控系统性能,如:CPU、内存和硬盘利用率,I/O负载、网络流量情况等,

通过曲线很直观的了解到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体

性能起到重要作用。

  在KMR中,我们为您在集群中集成了Ganglia服务,您可通过“集群详情”-“管理工

具”-“Ganglia”直接进入

  Ganglia服务页面如下图所示:

集群监控管理

54

Page 54: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

常驻集群监控告警

KMR常驻集群中集成了Ambari管理工具,ApacheAmbari是一种基于Web的工具,支持

ApacheHadoop集群的供应、管理和监控。

请参考:Ambari官方文档

您可以通过控制台“集群详情”-“管理工具”-“ambari”进入

用户名:kmr

密码:kmr

注意:对于ambari的操作可能会影响集群稳定性,我们仅开放了只读权限,您可以查看集群

的监控和配置信息

  Ambari服务页面如下图所示:

Hadoop原生管理工具

集群监控管理

55

Page 55: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

  安装在KMR集群上的Hadoop和其他应用程序会将用户界面发布在主节点上托管的网

站,这些页面记录了各类集群服务的统计和监控信息,你可以直接通过“集群详情”-“管理工

具”进入各个页面查看。

  YARNResourceManager

  YARNResourceManager管理工具可以查看集群运行的详细信息,包括节点信息、应用

信息和调度信息等。

  HDFSNamenode

  HDFSNamenode用来查看HDFS的使用状况,包括NameNode和DataNode的具体信

息。

集群监控管理

56

Page 56: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

  OOZIE

  Oozie是服务于Hadoop生态系统的工作流调度工具,Oozie工作流是放置在控制依赖

DAG(有向无环图)中的一组动作,把多个Map/Reduce作业组合到一个逻辑工作单元中,来

完成更大型的任务。

  YARNHistoryServer

  JobHistory是Hadoop自带的历史服务器,可以查看已经运行完的MapReduce作业记录,

例如使用的Map数、Reduce数、作业提交时间、作业启动时间、作业完成时间等信息。

集群监控管理

57

Page 57: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

  SparkHistoryServer

  运行Spark应用程序的时候,driver会提供一个webUI显示应用程序的运行信息,但是应

用程序完成后,将关闭端口,即无法查看应用程序的历史记录。SparkHistoryServer将运行

完的应用程序信息以Web的方式提供给用户。

集群监控管理

58

Page 58: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

产品术语表

英文术语简写/缩写

中文术语

术语描述

KingsoftMapReduce KMR 金山云平台上的Hadoop托管集群,可通过Web对外

提供服务

KMRcluster Cluster KMR

集群由若干金山云主机实例组成的Hadoop集群

KMRMasterNode

Master 主节点

主要用于集群管理,并将计算程序和原始数据集分配到核心实例。此外,它还会跟踪每个计算作业的执行状态,监控实例的运行状况。KMR主节点与Hadoop系统的主节点相对应。一个KMR集群只有一个主节点。

KMRCoreNode Core 核心

节点

主要用于执行各项集群计算作业,也做为hadoop分布式文件系统的数据节点存储数据。KMR核心节点与Hadoop系统的slave节点相对应。一个KMR集群可以有2至多个核心节点

KMRJob Job 作业

一个作业是提交到集群中的一个工作单元。一个作业可能包含一个或多个Hadoop任务,或者包含安装或配置一个应用程序的指令。您可以对一个集群提交多达256个作业。

SSHKEY SSH密钥

指用户在控制台上上传的SSH公钥

Kingsoftstandardstorageservice

KS3 云存储

金山云标准存储服务

Hadoopfilesystem HDFS Hadoop分布式文件系统(HDFS)是一种分布式的、

可扩展的文件系统,供Hadoop使用。

MapReduce MR MapReduce是一种用于分布式计算的编程模型,用于大规模数据集的并行运算。

Hadoop

ApacheHadoop是一种开源Java软件框架,支持跨越一组服务器处理大量数据。它可以在一台服务器或成千上万台服务器上运行。Hadoop使用名为MapReduce的编程模型在多个服务器之间分配处理工作。此外,它还实施了一个名为HDFS的分布式文件系统,在多个服务器之间存储数据。

产品术语表

59

Page 59: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

KMR日志归集路径

  MasterNode

  1.resource_manager

  原始日志位置:/mnt/yarn/logs

  KS3归集日志位置:ks3://<日志归集路径>/<ClusterID>/resource_manager_log

  2.name_node

  原始日志位置:/mnt/log/hadoop/hadoop

  KS3归集日志位置:ks3://<日志归集路径>/<ClusterID>/namenode_log

  3.history_server

  原始日志位置:/opt/hadoop/logs/

  KS3归集日志位置:ks3://<日志归集路径>/<ClusterID>/history_server_log

  4.historyjob

  原始日志位置:/tmp/hadoop-yarn/staging/history/done

  KS3归集日志位置:ks3://<日志归集路径>/<ClusterID>/history_job_log

  CoreNode

  1.data_node

  原始日志位置:/mnt/hadoop/logs

  KS3归集日志位置:ks3://<日志归集路径>/<ClusterID>/datanode_log

  2.node_manager

  原始日志位置:/mnt/yarn/logs

  KS3归集日志位置:ks3://<日志归集路径>/<ClusterID>/node_manager_log

  3.applicationlog

  原始日志位置:/mnt/yarn/logs/userlogs

  KS3归集日志位置:ks3://<日志归集路径>/<ClusterID>/<JobID>/application_log

KMR日志归集路径

60

Page 60: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

KMR日志归集路径

61

Page 61: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

应用组件和管理端口列表

主节点:

服务名称 Http管理端口

YARNResourceManager 8088

HDFSNamenode 50070

HDFSSeconderynamenode N/A

OOZIE 11000

YARNHistoryServer 19888

SparkHistoryServer 18080

HiveServer N/A

ZooKeeperServer N/A

HbaseMaster 60010

StormNimbus N/A

核心节点:

服务名称 Http管理端口

HDFSDatanode N/A

YARNNodemanager N/A

ZooKeeperServer N/A

HbaseRegionServer N/A

KafkaBroker N/A

StormSupervisor N/A

应用组件和管理端口列表

62

Page 62: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

购买指南

  本指南描述了KMR(KingsoftMapReduce)产品的定价和常见问题。

  产品定价与选购部分详细列出了KMR的计费方式,根据所选节点配置不同,价格也有所

差异。

  FAQ(FrequentlyAskedQuestions)部分解答了KMR使用时的常见问题。

购买指南

63

Page 63: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

产品定价与选购

KMR计费方式根据不同的集群类型有所区别:

常驻集群可选择按需计费和包年包月两种计费方式

临时集群仅可选择按需计费方式

1按需计费

计费规则:

采用后付费方式,按照节点类型,节点数量和使用时长(分钟级)计算集群费用,次月

初,金山云提供上月账单,结算时以月账单为准。

群集创建完成后开始计费,群集删除后计费停止。

集群节点按分钟计算使用费用,不足1分钟部分按1分钟计算。最小收费时间30分钟。

用户可根据需求选择各类节点配置,不同节点配置收费不同。

其他相关服务如KS3,RDS,KTS等单独计费。

计费公式:费用=Σ单价×节点个数×使用时长。

到期提醒:

按需计费的正式集群没有到期时间限制

试用集群在到期前的7天、3天和1天以短信和邮件的方式向用户联系人发送到期提醒。

逾期没有转正的集群,将在集群到期的下一个自然日12:00彻底删除。

2.包年包月

计费规则:

采用预付费方式,按照节点类型、节点数量和使用时长(按月)计算集群费用。

集群节点按月计算使用费用,最小收费周期1个月。

一次性每购买10个月赠送2个月

在使用期内释放集群不退还剩余费用。

用户可根据需求选择各类节点配置,不同节点配置收费不同。

其他相关服务如KS3,RDS,KTS等单独计费。

计费公式:费用=Σ单价×节点个数×使用时长。

到期提醒:

集群在到期前的7天、3天和1天以短信和邮件的方式向用户联系人发送到期提醒。逾期

产品定价与选购

64

Page 64: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

没有续费或转正的集群,将在集群到期的下一个自然日12:00彻底删除

3.KMR节点配置

节点配置 CPU(核) 内存(GB) 硬盘(GB)

通用型 4 15 400

内存型 4 30 400

计算型 8 15 300

存储型 4 7.5 2000

通用型.2x 8 30 800

内存型.2x 8 60 800

计算型.2x 16 30 600

存储型.2x 8 15 4000

产品定价与选购

65

Page 65: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

FAQ  1.如何开通KMR服务?

  签约客户请把您的资源需求(节点配置,节点数量)和账号信息反馈给商务,我们会为

您开通相应的资源配额,您可以在配额范围内创建集群或者变更集群配置。

  2.如何使用KMR服务?

  您可以通过控制台或者openAPI来创建/删除/修改KMR集群,并为集群提交计算作业。如

果集群绑定了EIP,您也可以通过SSH连入集群主节点进行集群配置和作业提交,SSH使用详

情请参考SSH密钥管理

  3.KMR服务如何收费?

  KMR计费方式根据不同集群类型有所区别:

  常驻集群可选择按需计费和包年包月两种计费方式

  临时集群仅可选择按需计费方式

  按需计费和包年包月两种方式的具体计费信息详情请参考产品定价与选购

  4.使用KMR和通过云主机自建Hadoop集群有什么区别

KMR提供了openAPI,用户可以通过代码来实现集群资源的自动化控制

针对不同的数据处理场景,KMR提供了临时集群和常驻集群两种集群,用户可按需使用

不同类型集群,并且可通过KMR提供的管理工具对集群进行监控调优

KMR有按需计费和包年包月两种计费模式,可满足不同用户需求,并且可根据需求随时

扩容/缩容/释放集群,大幅减少数据处理成本

底层进行了多项优化和调整,配备了专家团队协助用户进行调优和排错

与对象存储服务KS3充分整合,可把KS3作为数据源,直接拉取数据进行分析,并把结果

写回到KS3,集群释放后只需少量费用就可以长期保存数据

  5.免费试用集群和正式集群的联系和区别

  用户在正式购买集群前,可以通过商务申请免费试用,提交试用申请单,由运营为用户

设定试用期和配额,一般试用期为7天,用户在试用期内可创建试用集群,计费类型选择免费

试用即可,试用集群不计费。试用到期前有到期提醒,可以将试用集群转正,逾期没有转正或

续费的集群将被删除

  试用集群与正式集群在节点配置和数量上无区别

FAQ

66

Page 66: Table of Contentskmr-bj.ks3-cn-beijing.ksyun.com/doc_pic/KMR2.0/KMR2.0白皮书.pdfHadoop 和Apache Spark两大数据计算框架为基础,通过自动调度弹性计算服务(KEC),

  6.临时集群和常驻集群的区别

  临时集群:主要用于Mapreduce等批量计算型作业,它灵活、创建速度快,可以根据需

求随时启停和自动释放,基于KS3的数据存储和日志归集功能更可以使您在集群释放后仍然可

以访问计算结果和集群日志。同时,针对临时集群的特性,有一些功能是临时集群特有的,

包括集群模板和执行计划。集群模板记录了一个临时集群所需的配置信息和作业信息,可以

将已创建的临时集群保存为模板方便重复使用;执行计划利用集群模板一次性或周期性的执

行作业。

  常驻集群:主要用于海量数据存储,在线查询和流式计算或者更为复杂的场景,它具有

多个层面的高可用设计可以保证集群不间断的对外提供服务,常驻集群提供了细粒度的通用

集群管理工具ambari,可以帮助您更加高效的进行集群监控和调优等工作。

  临时集群和常驻集群针对不同的数据处理场景,用户可根据自身业务需求灵活选择集群

类型。

FAQ

67