大数据标准化白皮书 - cesi

131
中国电子技术标准化研究院 大数据标准化白皮书 V2.0 大数据标准化白皮书 V2.0 指导单位:工业和信息化部信息化和软件服务业司 国家标准化管理委员会工业二部 编制单位:中国电子技术标准化研究院 二零一五年十二月

Upload: others

Post on 24-May-2022

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

大数据标准化白皮书 V2.0

指导单位:工业和信息化部信息化和软件服务业司

国家标准化管理委员会工业二部

编制单位:中国电子技术标准化研究院

二零一五年十二月

Page 2: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

I

版权:

©2015 年,中国电子技术标准化研究院版权所有。

使用声明:

未经中国电子技术标准化研究院事先的书面授权,不得以任何方式复制、抄

袭、影印、翻译本文档的任何部分。

Page 3: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

II

目 录

1 前言 ................................................................................................................................................. 1

1.1 研究背景 ......................................................................................................................................... 1

1.2 研究目标及意义 ............................................................................................................................. 1

2 大数据基本概念、特征与作用........................................................................................................ 3

2.1 大数据的基本概念和内涵 ............................................................................................................. 3

2.2 大数据的特征 ................................................................................................................................. 4

2.3 大数据的重要作用 ......................................................................................................................... 5

3 大数据发展现状及趋势分析 ........................................................................................................... 9

3.1 大数据生态产业链 ......................................................................................................................... 9

3.2 产业界大数据研究 ....................................................................................................................... 11

3.2.1 Oracle——高度集成化大数据系统产品组合 ...................................................................... 12

3.2.2 Intel——开源大数据平台 .................................................................................................... 13

3.2.3 Microsoft——Azure HDInsight .............................................................................................. 14

3.2.4 Google——技术与产品研发 ................................................................................................ 14

3.2.5 阿里巴巴——大数据存储与分析服务 .............................................................................. 15

3.2.6 OPEN data platform ............................................................................................................... 16

3.3 国外政府大数据计划 ................................................................................................................... 18

3.3.1 美国 ....................................................................................................................................... 18

3.3.2 英国 ....................................................................................................................................... 19

3.3.3 日本 ....................................................................................................................................... 20

3.3.4 欧盟 ....................................................................................................................................... 20

3.3.5 联合国 ................................................................................................................................... 21

3.3.6 多国联盟 ............................................................................................................................... 21

3.4 国内大数据现状 ........................................................................................................................... 21

3.4.1 地方政府和组织探索大数据应用 ....................................................................................... 22

3.4.2 国内大数据应用实践 ........................................................................................................... 34

3.5 大数据开源现状 ........................................................................................................................... 47

3.5.1 Hadoop 系列 ......................................................................................................................... 47

3.5.2 Storm ..................................................................................................................................... 48

3.5.3 Spark ...................................................................................................................................... 49

3.5.4 NoSQL 数据库系列 ............................................................................................................... 49

3.5.5 其它 ...................................................................................................................................... 50

3.6 大数据发展趋势分析 ................................................................................................................... 50

Page 4: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

III

4 大数据参考架构和关键技术 .......................................................................................................... 52

4.1 大数据参考架构 ........................................................................................................................... 52

4.2 大数据关键技术 ........................................................................................................................... 60

4.2.1 数据收集 ............................................................................................................................... 60

4.2.2 数据预处理 ........................................................................................................................... 61

4.2.3 数据存储 ............................................................................................................................... 61

4.2.4 数据处理 ............................................................................................................................... 64

4.2.5 数据分析 ............................................................................................................................... 66

4.2.6 数据可视化 .......................................................................................................................... 69

4.3 大数据安全与隐私 ...................................................................................................................... 71

4.3.1 大数据时代面临的挑战 ...................................................................................................... 71

4.3.2 针对安全和隐私的考虑 ...................................................................................................... 72

4.4 参考架构下的管理能力评估 ...................................................................................................... 76

4.5 参考架构下的开源软件 .............................................................................................................. 78

5 大数据标准化现状.......................................................................................................................... 80

5.1 ISO/IEC JTC1 SC32 大数据标准化工作情况 ................................................................................. 80

5.2 ISO/IEC JTC1 WG9 大数据工作组工作情况 ................................................................................. 82

5.3 ITU 大数据标准化工作情况 ......................................................................................................... 83

5.4 NIST 标准化工作情况 ................................................................................................................... 84

5.5 全国信标委大数据标准工作组情况 ........................................................................................... 85

6 大数据标准体系 ............................................................................................................................. 86

6.1 大数据标准体系框架 ................................................................................................................... 86

6.2 大数据标准明细表 ....................................................................................................................... 88

6.3 近期急需研制标准 ....................................................................................................................... 93

7 我国大数据工作重点建议 .............................................................................................................. 96

7.1 加强大数据需求的研究 ............................................................................................................... 96

7.2 加强元数据的研究与应用 ........................................................................................................... 96

7.3 加强大数据核心技术研究 ........................................................................................................... 96

7.4 制定完善大数据服务相应法规政策 ........................................................................................... 96

7.5 推动政府数据开放服务 ............................................................................................................... 97

7.6 促进大数据交易市场的规范化发展 ........................................................................................... 97

7.7 推动大数据标准化进程 ............................................................................................................... 97

附件 1 成功案例 ............................................................................................................................... 98

附件 2 本白皮书的参编单位及人员 ............................................................................................... 127

Page 5: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

1

1 前言

1.1 研究背景

大数据(Big Data)是一场革命,它将改变我们的生活、工作和思维方式。继移动互联网、

云计算后,大数据逐渐成为对于 ICT产业具有深远影响的技术变革。大数据技术的发展与应用,

将对社会的组织结构、国家的治理模式、企业的决策架构、商业的业务策略以及个人的生活方

式等产生深远的影响。

我国正处于工业化向信息化发展的转型时期,信息的公开、共享与服务成为时代发展的主

题。信息逐渐成为与物质和能源同等重要的资源,以开发和利用信息资源为目的的经济活动迅

速扩大,逐渐占据或超越工业活动在国民经济活动中的地位。大数据的出现是跨学科技术与应

用发展的结果。对于大数据,自然科学家强调在网络虚拟环境下对于密集型数据的研究方法,

社会科学家则看重密集型数据后面隐藏的价值与推动社会发展的模式。

党中央、国务院高度重视大数据发展。党的十八届五中全会明确提出十三五时期要“拓展

网络经济空间。实施‘互联网+’行动计划,发展物联网技术和应用,发展分享经济,促进互

联网和经济社会融合发展。实施国家大数据战略,推进数据资源开放共享。”国务院《促进大

数据发展行动纲要》(国发〔2015〕50 号)明确指出要“建立标准规范体系。推进大数据产

业标准体系建设,加快建立政府部门、事业单位等公共机构的数据标准和统计标准体系,推进

数据采集、政府数据开放、指标口径、分类目录、交换接口、访问接口、数据质量、数据交易、

技术产品、安全保密等关键共性标准的制定和实施。加快建立大数据市场交易标准体系。开展

标准验证和应用试点示范,建立标准符合性评估体系,充分发挥标准在培育服务市场、提升服

务能力、支撑行业管理等方面的作用。积极参与相关国际标准制定工作。”

1.2 研究目标及意义

本白皮书是对中国电子技术标准化研究院于 2014 年 7 月发布的《大数据标准化白皮书》

1.0 版本的修订,在 1.0版本基础上增加国内、国外主要国家在大数据发展战略、技术与应用

方面的布局与实践,国内大数据应用实践,大数据开源现状的描述以及 11 个大数据应用的成

Page 6: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

2

功案例。力图从应用、技术、产业、标准等角度,勾画出大数据发展的整体轮廓,从技术和商

业角度提出大数据产业生态链;从数据生存周期的角度提出大数据参考架构,分析大数据发展

的关键技术;同时抛开其他影响因素,从数据自身的角度提出在不断创新的应用与服务模式下

大数据标准体系及近期急需研制的标准项目。

本白皮书立足于大数据发展所处的工业社会向信息社会转型的历史时期所独具的政策、经

济与文化等特点,分析处于初期发展阶段的大数据对于经济、社会、产业的作用和影响;介绍

目前国内、国外主要国家在大数据发展战略、技术与应用方面的布局与实践。

本白皮书的发布,旨在与业界分享我们在大数据领域的研究成果和实践经验,呼吁社会各

界共同关注大数据的政策研究、技术投入、标准建设与服务应用,共同推动大数据的发展,提

升社会整体决策与服务管理能力。

Page 7: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

3

2 大数据基本概念、特征与作用

2.1 大数据的基本概念和内涵

大数据本身是一个宽泛的概念,业界尚未给出统一的定义,正如盲人摸象的寓言所揭示的

那样,不同的研究机构、公司从不同的角度诠释什么是大数据。

2011年,美国著名的咨询公司麦肯锡(Mckinsey)在研究报告《大数据的下一个前沿:

创新、竞争和生产力》中给出了大数据的定义:大数据是指大小超出了典型数据库软件工具收

集、存储、管理和分析能力的数据集。根据 Gartner 的定义,大数据是需要新处理模式才能具

有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

美国国家标准技术研究所(National Institute of Standards and Technology,NIST)

的大数据工作组在《大数据:定义和分类》中认为:大数据是指那些传统数据架构无法有效地

处理的新数据集。因此,采用新的架构来高效率完成数据处理,这些数据集特征包括:容量、

数据类型的多样性、多个领域数据的差异性、数据的动态特征(速度或流动率,可变性)。

维基百科(Wikipedia)给出的定义是:大数据,或称巨量数据、海量数据、大资料,指

的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理

成为人类所能解读的信息。百度百科给出的定义是:大数据,或称巨量资料,指的是所涉及的

资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理

成为帮助企业经营决策更积极目的的资讯。

亚马逊网络服务(AWS)、大数据科学家 John Rauser 在 2011年提到一个简单的大数据定

义:任何超过了一台计算机处理能力的庞大数据量。EMC公司给出的定义是:数据集或信息,

它的规模、发布、位置在不同的孤岛上,或它的时间线要求客户部署新的架构来捕捉、存储、

整合、管理和分析这些信息以便实现企业价值。

国内普遍的理解:具有数量巨大、来源多样、生成极快、且多变等特征并且难以用传统数

据体系结构有效处理的包含大量数据集的数据。

Page 8: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

4

因此,从以上不同的大数据定义可以看出,大数据的内涵不仅仅是数据本身,还包括大数

据技术以及大数据应用。

从数据本身角度而言,大数据是指大小、形态超出典型数据管理系统采集、储存、管理和

分析等能力的大规模数据集,而且这些数据之间存在着直接或间接的关联性,通过大数据技术

可以从中挖掘出模式与知识。大数据技术是使大数据中所蕴含的价值得以挖掘和展现的一系列

技术与方法,包括数据采集、预处理、存储、分析挖掘、可视化等。大数据应用,是对特定的

大数据集、集成应用大数据系列技术与方法,获得有价值信息的过程。大数据技术的研究与突

破,其最终目标就是从复杂的数据集中发现新的模式与知识,挖掘得到有价值的新信息。

2.2 大数据的特征

对大数据的完整理解应包含三个方面:数据特征、技术特征与应用特征。本报告主要描述

大数据的数据特征。对于大数据的数据特征,业界通常引用国际数据公司 IDC 定义的 4V 来描

述:

(1)数据类型繁多(Variety):除了结构化数据外,大数据还包括各类非结构化数据,

例如文本、音频、视频、点击流量、文件记录等,以及半结构化数据,例如电子邮件、办公处

理文档等;

(2)处理速度快(Velocity):通常具有时效性,企业只有把握好对数据流的掌控应用,

才能最大化地挖掘利用大数据所潜藏的商业价值;

(3)数据体量巨大(Volume):数据量大。虽然对各大数据量的统计和预测结果并不完

全相同,但是都一致认为数据量将急剧增长。

(4)数据价值(Value),从海量价值密度低的数据中挖掘出具有高价值的数据。这一特

性突出表现了大数据的本质是获取数据价值,关键在于商业价值,即如何有效利用好这些数据。

阿姆斯特丹大学的 Yuri Demchenko 等人提出了大数据体系架构框架的 5V 特征,如图 1 所

示,它在上述 4V 的基础上,增加了真实性(Veracity)特征,真实性特性中包括可信性、真伪

性、来源和信誉、有效性和可审计性子特性。

Page 9: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

5

速度快(Velocity)· 批处理

· 实时

· 多进程

· 数据流

数据量大(Volume)· TB级

· 记录/日志

· 事务

· 表&文件

多样性(Variety)· 结构化

· 非结构化

· 多因素

· 概率性

价值密度低(Value)· 统计学

· 事件性

· 相关性

· 假设性

真实性(Veracity)· 可信性

· 真伪性

· 来源&信誉

· 有效性

· 可审计性

大数据

5V 特征

图 1 大数据 5V特征

2.3 大数据的重要作用

据资料显示,近年来,甲骨文、IBM、微软、SAP、惠普等公司已经在数据管理和分析领域

投入超出 150亿美元。据高德纳(Gartner)最新预测,2015年大数据将为全球带来 440万个

IT 岗位,对社会各方面将产生更重要的作用。

(1)改变经济社会管理方式

大数据作为一种重要的战略资产,已经不同程度地渗透到每个行业领域和部门,其深度应

用不仅有助于企业经营活动,还有利于推动国民经济发展。在宏观层面,大数据使经济决策部

门可以更敏锐地把握经济走向,制定并实施科学的经济政策。在微观层面,大数据可以提高企

业经营决策水平和效率,推动创新,给企业、行业领域带来价值。大数据技术作为一种重要的

信息技术,对于提高安全保障能力、应急能力、优化公共事业服务、提高社会管理水平的作用

正在日益凸显;在国防、反恐、安全等领域,应用大数据技术能够对来自于多种渠道的信息快

速进行自动分类、整理、分析和反馈,有效解决情报、监视和侦察系统不足等问题,提高国家

安全保障能力。

Page 10: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

6

除此之外,大数据还将推动社会各个主体共同参与社会治理。网络社会是一个复杂、开放

的巨系统,这个巨系统打破了传统组织的层级化结构,呈现出扁平化特征。个体的身份经历了

从单位人、社会人到网络人的转变过程。政府、企业、社会组织、公民等各种主体都以更加平

等的身份参与到网络社会的互动和合作之中,这对促进城市转型升级和提高可持续发展能力、

提升社会治理能力、实现推进社会治理机制创新、促进社会治理实现管理精细化、服务智慧化、

决策科学化、品质高端化等具有重要作用。

(2)促进行业融合发展

网络环境、移动终端随影而行,网上购物、社交网站、电子邮件、微信不可或缺,社会主

体的日常活动在虚拟的环境下得到承载和体现。正如工业化时代商品和交易的快速流通催生大

规模制造业发展,信息的大量、快速流通将伴随着行业的融合发展,使经济形态发生大范围变

化。

大数据应用的关键在于分享,各行业已逐渐意识到单一的数据是没法发挥最大效能的,行

业或部门之间相互交换数据已经成为一种发展趋势。虚拟环境下,遵循类似摩尔定律原则增长

的海量数据,在技术和业务的促进下,使跨领域、跨系统、跨地域的数据共享成为可能,大数

据支持着机构业务决策和管理决策的精准性、科学性以及社会整体层面的业务协同效率提高。

(3)推动产业转型升级

信息消费作为一种以信息产品和服务为消费对象的活动,覆盖多种服务形态、多种信息产

品和多种服务模式。当围绕数据的业务在数据规模、类型和变化速度达到一定程度时,大数据

对于产业发展的影响随之显现。

在面对多维度、爆发式增长的海量数据时,ICT 产业面临着有效存储、实时分析、高性能

计算等挑战,这将对软件产业、芯片以及存储产业产生重要影响,推动一体化数据存储处理服

务器、内存计算等产品的升级创新。对数据快速处理和分析的需求,将推动商业智能、数据挖

掘等软件在企业级的信息系统中得到融合应用,成为业务创新的重要手段。

Page 11: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

7

同时,“互联网+”战略使大数据在促进网络通信技术与传统产业密切融合方面的作用更

加凸显,对于传统产业的转型发展,创造更多价值影响重大。未来,大数据发展将不仅催生软

硬件及服务等市场产生大量价值,也将对有关的传统行业转型升级产生重要影响。

(4)助力智慧城市建设

信息资源开发利用水平,在某种程度上代表着信息时代下社会的整体发展水平和运转效

率。大数据与智慧城市是信息化建设的内容与平台,两者互为推动力量。智慧城市是大数据的

源头,大数据是智慧城市的内核。

针对政府,大数据为政府管理提供强大的决策支持。在城市规划方面,通过对城市地理、

气象等自然信息和经济、社会、文化、人口等人文社会信息的挖掘,可以为城市规划提供强大

的决策支持,强化城市管理服务的科学性和前瞻性;在交通管理方面,通过对道路交通信息的

实时挖掘,能够有效缓解交通拥堵,并快速响应突发状况,为城市交通的良性运转提供科学的

决策依据;在舆情监控方面,通过网络关键词搜索及语义智能分析,能提高舆情分析的及时性、

全面性,全面掌握社情民意,提高公共服务能力,应对网络突发的公共事件,打击违法犯罪;

在安防领域,通过大数据的挖掘,可以及时发现人为或自然灾害、恐怖事件,提高应急处理能

力和安全防范能力。

针对民生,大数据将提高城市居民的生活品质。与民生密切相关的智慧应用包括智慧交通、

智慧医疗、智慧家居、智慧安防等,这些智慧化的应用将极大地拓展民众生活空间,引领大数

据时代智慧人生的到来。大数据是未来人们享受智慧生活的基础,将改变传统“简单平面”的

生活常态,通过大数据的应用服务将使信息变得更加泛在、使生活变得多维和立体。

(5)创新商业模式

大数据时代,产业发展模式和格局正在发生深刻变革。围绕着数据价值的行业创新发展将

悄然影响各行各业的主营业态。而随之带来的,则是大数据产业下的创新商业模式。

一方面围绕数据产品价值链而产生诸如数据租售模式、信息租售模式、知识租售模式等。

数据租售旨在为客户提供原始数据的租售;信息租售旨在向客户租售某种主题的相关数据集,

Page 12: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

8

是对原始数据进行整合、提炼、萃取,使数据形成价值密度更高的信息;知识租售旨在为客户

提供一体化的业务问题解决方案,是将原始数据或信息与行业知识利用相结合,通过行业专家

深入介入客户业务流程,提供业务问题解决方案。

另一方面,通过对大数据的分析处理,企业现有的商业模式、业务流程、组织架构、生产

体系、营销体系也将发生变革。以数据为中心,挖掘客户潜在需求,不仅能够提升企业运作的

效率,更可以藉由数据重新思考商业社会的需求与自身业务模式的转型,快速重构新的价值链,

建立新的行业领导能力,提升企业影响力。

(6)改变科学研究的方法论

大数据技术的兴起对传统的科学方法论带来了挑战和革命。随着计算技术和网络技术的发

展,采集、存储、传输和处理数据都已经成了容易实现的事情。面对复杂对象,我们没有必要

再做过多的还原和精简,而是可以通过大量数据甚至是海量数据来全面、完整地刻画对象,通

过处理海量数据来找到研究对象的规律或本质。当数据处理技术已经发生翻天覆地的变化时,

在大数据时代我们需要的是所有数据,即“样本=总体”,相比依赖于小数据和精确性的时代,

大数据因为更强调数据的完整性和混杂性,突出事物的关联性,为我们解决问题提供新的视角,

帮助我们进一步接近事实的真相。

Page 13: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

9

3 大数据发展现状及趋势分析

3.1 大数据生态产业链

本白皮书拟从商业和技术角度分析大数据产业链。

从商业角度上看,目前,在大数据产业链上有三类大数据公司:

——大数据(提供)者:拥有数据的公司,此类公司属于大数据产业链上的第一个环节,

属于大数据的上游,这样的公司有三类:

大数据是其业务核心,对大数据的重复利用是其发展的原动力。这种公司同时具有很

强大的大数据技术能力,多数时候大数据技术本身主要用于自身的运作,例如相关的互联网企

业等。目前这些企业已经可以通过相关数据的重复利用来进行营利,甚至同时具有三种产业链

角色:大数据提供者+技术提供者+服务提供者。

大数据是作为提高生产效率、增加业务收入或者创造新的收入的使能器,例如运营商、

银行等。运营商的主要业务是通过通信设备提供的各种网络语音和数据业务,目前运营商本身

并不通过数据的重复利用为主要手段来盈利。

数据中间商,本身不具有创造数据的能力,从各种地方搜集数据进行整合,然后再提

取有用的信息进行利用或者交易。

——大数据技术提供者:提供大数据技术供应商或者大数据分析技术的公司。此类公司属

于大数据产业链上的中游,主要进行搭建大数据平台、提供相关大数据技术支持、云存储、数

据安全、相关软硬件等,此类公司在某些垂直行业或者区域掌握大数据入口与出口,并能对一

些数据进行采集、整合和汇集。这样的企业包括传统的 IT 企业、设备商以及新兴的云服务相

关企业。

提供技术服务的专业服务商,例如,一些公司为客户提供大数据分析技术,能够高速

有效的进行大数据分析。

Page 14: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

10

提供整体解决方案的综合技术服务商,一些厂商能够提供软硬一体的大数据解决方案。

大数据在线服务商,这些厂商在大数据计算基础设施上(与云结合),从简单的文件

存储的空间租售模式,逐步扩展到提供数据聚合平台,进而扩展到为客户提供分析业务。

——服务提供者:挖掘数据价值的大数据应用公司,此类公司处于大数据产业链的下游,

它们通过发掘隐藏在大数据中的价值,不断推动大数据产业链中各个环节的发展和成熟。从某

种角度上说正是此类公司创造了大数据的真正价值。除了专门的提供大数据服务的公司以外,

还包含了一些数据拥有型企业和大数据技术提供型企业。

从整体上看,服务提供者有两种,一种是应用服务提供者,另一种是咨询服务提供者。

应用服务提供者,基于大数据技术,对外提供大数据服务。

咨询服务提供者,提供技术服务支持、技术(方法、商业等)咨询,或者为企业提供

类似数据科学家的咨询服务。

从商业角度看,大数据产业链可以用图 2示意。

互联网企业 运营商 金融企业大数据提供者

专业技术服务商

综合技术服务商

大数据云存储和云服务

大数据技术提供者

应用服务提供商

咨询服务提供商

大数据服务提供者

数据中间商

图 2 大数据产业链示意图(商业)

Page 15: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

11

而从技术的角度看,大数据产业链上主要包括以下四类企业:

——大数据采集:此类公司收集和掌握着用户的各种数据,这些数据将逐渐成为这些公司

的重要资源。

——大数据存储、管理和处理:此类公司从事着从大量数据中挑选出有用数据,并对采集

到的数据进行传输、存储和管理。

——大数据分析和挖掘:此类公司根据上游企业的需求,对相关数据进行定制化的分析。

——大数据呈现和应用:此类公司将分析得到的数据进行可视化,结合相关专业知识和商

业背景,揭示分析结果所反映的相关行业问题,并将相关数据应用于相关行业中,以开发更大

的市场。

从技术角度看,大数据产业链可用图 3示意。

大数据采集大数据存储、管理和

处理

大数据分析和挖掘

大数据呈现和应用

图 3 大数据产业链示意图(技术)

需要注意的是,大数据产业链中的各个角色并不是严格区分开的,很多情况下都是模糊或

者交叠的,例如,一些公司既是大数据的拥有者,也是大数据技术和服务的提供者,既能够采

集到数据,也能够对相应的数据进行分析,并进一步应用于相应的市场中。

3.2 产业界大数据研究

产业界针对大数据分析平台,纷纷推出自己的大数据分析工具,主流的技术和产品厂商如

下。

Page 16: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

12

3.2.1 Oracle——高度集成化大数据系统产品组合

伴随大数据而至,大数据分析和管理成为企业获得商业价值的重要手段。作为全球最大数

据库软件公司,甲骨文应时而行,推出针对大数据的众多技术产品,在满足企业需求的同时提

升自身的价值。

在甲骨文的大数据产品线中,Oracle 大数据机(见图 4)同 Oracle Exadata 数据库云服

务器、Oracle Exalytics 商务智能云服务器和 Oracle Exalogic 中间件云服务器一起组成了

Oracle 最广泛的高度集成化大数据系统产品组合,可以帮助客户获取和管理各种类型的数据,

并且与现有企业数据一起进行分析,获得新的知识和价值,从而在充分获取信息的情况下做出

最恰当的决策。

Oracle大数据机(Oracle Big Data Appliance),是一个软、硬件集成系统,在系统中融

入了 Cloudera的 Distribution Including Apache Hadoop、Cloudera Manager 和一个开源 R。

该大数据机采用 Oracle Linux 操作系统,并配备 Oracle NoSQL 数据库社区版本和 Oracle

HotSpot Java 虚拟机。

Oracle大数据机采用 18台 Oracle Sun服务器全机架配置,总共拥有 864GB 主内存、216

核 CPU、648TB 原始磁盘存储空间、在节点和其他 Oracle 集成化系统之间采用 40Gb/s 的

infiniBand 链接以及 10Gb/s 的以太网数据中心连接,同时通过 infiniBand 网络连接多个机

架进行升级扩展,使自身获取、组织和分析海量的数据。该系统针对企业大数据需求而定制化

设计,旨在简化大数据项目的实施与管理。同时,甲骨文大数据机可部署来优化企业数据仓库。

Oracle大数据机能够拥有强大优化企业数据仓库的劲头,主要源自是其配备有 Oracle Big

Connectors 软件。该软件是甲骨文最新推出的软件产品,旨在帮助客户利用 Oracle数据库 11g

便捷整合存储在 Hadoop 和 Oracle NoSQL 数据库中心的数据。Oracle 大数据机能够为数据管

理提供一个可用性强的可扩展系统、提供一个能够阻止、处理和分析 Hadoop 中大数据和使用

R分析原始数据的平台。此外,通过将软、硬件的所有组件集成到单一数据解决方案中来达到

帮助客户控制 IT成本同时优化自身数据仓库。

Page 17: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

13

图 4 Oracle大数据机

3.2.2 Intel——开源大数据平台

英特尔在大数据领域尤其是开源大数据平台方面,起步较早。曾经拥有商品化的 Hadoop

发行版,并产出很多成功的落地项目在国内的智慧城市、数字安防、金融保险以及生产制造等

行业得到应用。2014年,英特尔公司通过与 Cloudera 的战略合作,开始为整个大数据产业的

各个层级提供广泛深入的技术支持。

在基础架构层次:除了持续提升核心计算平台的能力(高速数据压缩及解压缩、加解密等)

以更好的支持大数据相关场景之外,英特尔在存储、网络、及系统等方面的关键技术和产品都

深入影响大数据系统架构,特别是高速的非易失性内存(NVM)技术、超高速以太网互联技术

等,对大数据技术演进和平台构建产生实质性的影响。近年来其所引领的分解式整机柜架构及

资源池化技术,对传统大数据系统的资源及能耗效率指标造成关键性提升。

在数据平台层次:英特尔在各开源大数据平台项目中都有关键的影响力。通过同各大数据

开源社区(Spark、Hadoop 及 Storm社区等)、产业界(Cloudera)、学术界(加州伯克利大

学等)的广泛深入合作,主导了一条从创新到开源再到产业应用的顺畅渠道,推动整个数据平

台层次的演进。同时,英特尔积极贡献了多项大数据平台性能测试基准,包括针对某类特定平

台的 micro-benchmark(如 HiBench、StormBench、SparkBench 等)以及普适性的业务级

macro-benchmark(如 BigBench)。

Page 18: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

14

在数据分析层次:英特尔持续为各种分析场景提供算法级的优化,包括针对 CPU指令集进

行优化的编译器、并行算法库、机器学习算法库等。其在图形处理引擎(GPU)、协处理引擎

(如 GPU 中的平行处理单元、Xeon Phi 协处理器等)、以及其他基于特殊硬件(如 FPGA)的

加速引擎等方面也深入研究。

3.2.3 Microsoft——Azure HDInsight

HDInsight 是微软运行在 Windows Azure 上的云服务。 Azure HDInsight 以云方式部署并设

置 Apache Hadoop 群集,从而提供旨在对大数据进行管理、分析和报告的软件框架。

Hadoop 内核提供了带 Hadoop 分布式文件系统 (HDFS) 的可靠数据存储和一个简单

的 MapReduce 编程模型,该模型用于并行处理和分析存储在此分布式系统中的数据。

HDInsight 中的 Hadoop 群集使用 Hortonworks 数据平台 (HDP) 分发版本和该分发内包含

的 Hadoop 组件套件。作为 Azure 云生态系统的一部分,HDInsight 中的 Hadoop 具有很多优

势,其中包括:最先进的 Hadoop 组件; 群集具有高可用性和可靠性; 使用 Azure Blob 存储

(一种与 Hadoop 兼容的选项),数据存储高效又经济; 与其他 Azure 服务集成,包括网

站 和 SQL 数据库; 进入成本低。

相较与其它云服务,微软在 Azure 上的大数据服务 HDInsight 可支持的技术种类很多,包

括基本的 Hadoop 分布式文件系统 HDFS,超大型表格的非关系型数据库 HBase, 类似 SQL 的查

询 Hive,分布式处理和资源管理 MapReduce 和 YARN,更简单的 MapReduce 转换脚本 Pig,还

支持负责群集设置、管理和监视的 Ambari, Microsoft .NET 环境的数据序列化的

Avro(Microsoft.NET Library for Avro),以及计算机学习技术 Mahout, 工作流管理 Oozie,

数据导入和导出 Sqoop,快速、大型数据流的实时处理 Storm,同时还支持负责协调分布式系

统中的流程 Zookeeper。

3.2.4 Google——技术与产品研发

从 MapReduce、GFS 和 Bigtable 开始,google 近年来持续投入大数据产品研发,开发了

数个有影响的技术和产品。 Percolator 在 BigTable 的基础上加入对局部更新的支持,弥

补了 MapReduce无法在计算时处理局部更新的缺陷。Pregel支持大规模分布式图分析和计算。

Page 19: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

15

Dremel 使用列存储减少磁盘 IO,可以用类 SQL 语言在秒级分析 PB 级的数据。Google Cloud

Dataflow 可以构建复杂的 pipeline,自动进行代码优化和资源调度,使得开发者的主要精力

可以放在业务逻辑本身。

Google 开发出来的技术带动了开源大数据产品的发展。Hadoop,HBase, Drill, Giraph

等都受到了相关 Google产品的巨大影响。

3.2.5 阿里巴巴——大数据存储与分析服务

阿里巴巴开发了一整套的自主可控的大数据产品。ODPS(Open Data Processing Service,

开放数据处理服务)是由阿里云研发的自主可控的海量级大数据存储和分析平台,提供针对

TB/PB 级数据的分布式处理能力,应用于离线批处理、数据分析、挖掘、商业智能等领域。通

过 ODPS,用户即可使用 SQL、MR、图计算,还可以使用流式计算及机器学习等功能,满足从用

户实时到离线,从数据仓库建设到数据挖掘多种场景的需求。ODPS具有百 PB 的存储处理能力

和每日 PB 级别的计算吞吐能力,支持多应用多实例并发计算并隔离应用数据和程序,并经过

了了阿里巴巴超大规模数据应用的实践验证。

分析数据库服务(Analytic Database Service,简称 ADS),是阿里巴巴自主研发的海

量数据实时高并发在线分析(Realtime OLAP)云计算服务,使得您可以在毫秒级针对千亿级

数据进行即时的多维分析透视和业务探索。ADS对海量数据的自由计算和极速响应能力,能让

用户在瞬息之间进行灵活的数据探索,快速发现数据价值,并可直接嵌入业务系统为终端客户

提供分析服务。

云数据库是构建在 SSD 盘上,完全兼容 MySQL,SQLServer,PostgreSQL 协议的关系型数

据库服务(Relational Database Service,简称 RDS)。采取主从双机热备架构,具有多重

安全防护措施和完善的性能监控体系,并提供专业的数据库备份、恢复及优化方案,使您能专

注于应用开发和业务发展。

开放结构化数据服务(Open Table Service, OTS)是构建在阿里云飞天分布式系统之上

的 NoSQL 数据库服务,提供海量结构化数据的存储和实时访问。OTS 以实例和表的形式组织

Page 20: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

16

数据,通过数据分片和负载均衡技术,实现规模上的无缝扩展。应用通过调用 OTS API / SDK

或者操作管理控制台来使用 OTS 服务。

开放缓存服务( Open Cache Service,简称 OCS)是在线缓存服务,为热点数据的访问提

供高速响应。

阿里云键值存储(Key-Value Store,简称 KVStore)是兼容开源 Redis 协议的 Key-Value

类型在线存储服务。KVStore 支持字符串、链表、集合、有序集合、哈希表等多种数据类型,

及事务(Transactions)、消息订阅与发布(Pub/Sub)等高级功能。通过内存+硬盘的存储方

式,KVStore在提供高速数据读写能力的同时满足数据持久化需求。

分布式关系型数据库服务(Distribute Relational Database Service,简称 DRDS)是

一种水平拆分、可平滑扩缩容、读写分离的在线分布式数据库服务。前身为淘宝 TDDL,是近

千个应用首选组件,已稳定服务了七年以上。

云道(Cloud Data Pipeline,简称 CDP)是阿里集团对外提供的稳定高效、弹性伸缩的数

据同步平台,为阿里云大数据计算引擎(包括 ODPS、ADS、OSPS)提供离线(批量)、实时(流式)

的数据进出通道。

开放存储服务(Open Storage Service,OSS),是阿里云对外提供的海量、安全和高可

靠的云存储服务。RESTFul API 的平台无关性,容量和处理能力的弹性扩展,按实际容量付费

真正使您专注于核心业务。

3.2.6 OPEN data platform

从本质上讲,Open Data Platform 是一个工业界或者说商业化的组织,并不是一个开源

社区的组织;大数据开源社区的主要项目,还是在 Apache软件基金(ASF)的框架下进行的。

(1)Apache软件基金会

Apache软件基金会(Apache Software Foundation)是 Apache基金会专门为运作一个开

源软件项目的 Apache 的团体提供支持的非盈利性组织,这个开源软件项目就

是 Apache 项目。这个组织把自己作为有着相同目标的开发者与用户的团体,而不是简单的

Page 21: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

17

共享在一个服务器上的一组项目的组织团体。在它所支持的 Apache 项目与子项目中,所发

行的软件产品都遵循 Apache 许可证(Apache License)。

Apache Licence是著名的非盈利开源组织 Apache 采用的协议。该协议和 BSD类似,同样

鼓励代码共享和尊重原作者的著作权,同样允许代码修改,再发布(作为开源或商业软件)。

需要满足的条件也和 BSD 类似:需要给代码的用户一份 Apache Licence 如果你修改了代码,

需要在被修改的文件中说明。在延伸的代码中(修改和有源代码衍生的代码中)需要带有原来

代码中的协议,商标,专利声明和其他原来作者规定需要包含的说明。如果再发布的产品中包

含一个 Notice文件,则在 Notice文件中需要带有 Apache Licence。你可以在 Notice中增加

自己的许可,但不可以表现为对 Apache Licence构成更改。Apache Licence 也是对商业应用

友好的许可。使用者也可以在需要的时候修改代码来满足需要并作为开源或商业产品发布/销

售。

Apache 软件基金会提供了一个支持知识产权和财政贡献的框架,同时他控制了针对项目

提交者的潜在法律风险。其被称为“阿帕奇方式”,超过 500 个人会员和 4500 提交者成功合

作开发免费企业级软件,造福全球数百万用户;成千的软件解决方案是在 Apache 许可证下发

布;社区积极参与 ASF 邮件列表、指导提议、ApacheCon、基金会的官方用户会议、培训以及

EXPO。

以 Hadoop 主导的一系列开源大数据项目也在 Apache 框架下运作。许多国际知名 IT 公司

都是其中大数据项目的积极参与者,比如英特尔,Cloudera,Horterworks,雅虎等。

(2)AMPLab

AMPLab 是在加州大学伯克利分校的五年合作努力,从计算机科学和数据密集型应用的广

泛的领域聚集学生,研究人员和教师,以解决大数据分析的问题。 AMP代表“算法、机器和

人”AMPLab设想一个世界里,通过云连接到设备,提高能力和成熟程度,海量数据、云计算、

通信和人力资源能够连续、灵活、动态地在一起承担难以解决的问题。

AMPLab 创始开发的大数据处理框架 Spark,Shark,Tachyon 等因其立足于内存计算,数

据处理速度比 MapReduce 或 Hive 快 100 倍等优势,一跃成长为大数据技术中异军突起的

Page 22: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

18

新 锐,正受到全球大数据领域的瞩目与热捧。现在,Spark已经成为开源大数据项目中最活

跃、发展最快的项目之一。

作为院校研究室,AMPLab 还致力于大数据分析领域的培训等工作。其在美国的培训营

AMPCamp 广受关注。而且已经英特尔合作,把这个训练营带入了中国。

3.3 国外政府大数据计划

全球已经进入大数据时代,互联网上的数据量每两年会翻一番。截止到 2013 年,全球数

量为 4.3泽字节,2020年有望达到 40泽字节。

如果将数据视为一种生产资料,大数据将是下一个创新、竞争、生产力提高的前沿,是信

息时代新的财富,价值堪比石油。大数据所能带来的巨大商业价值,被认为将引领一场足以与

20 世纪计算机革命匹敌的巨大变革。根据 IDC 预测,2015 年大数据市场规模将从 2010 年的

32 亿美元增长到 170亿美元,复合年增长率为 40%。

当前,国外各国政府和国际组织都认识到了大数据的重要作用,纷纷将开发利用大数据作

为夺取新一轮竞争制高点的重要抓手,实施大数据战略。世界工业发达国家纷纷制定相关政策,

积极推动大数据相关技术的研发与落实。

3.3.1 美国

2014 年 5 月 1 日,美国白宫发布了《美国白宫:2014 年全球“大数据”白皮书》,阐述

了大数据带来的机遇与挑战。报告认为,大数据技术为美国经济、人民的健康和教育、国家安

全、能源利用率等提供了难得的机遇,同时,报告也揭露了大数据为美国社会带来的问题,其

中最重要的是个人隐私问题。

该白皮书中列举的奥巴马政府关于公开数据的举措包括政府公开数据计划、“我的大数

据”计划等。政府公开数据计划为联邦数据管理工作提出了新的准则:在保护好隐私安全性与

机密性的同时,将数据公开化以及可读写化纳入政府的义务范围。“我的大数据”计划具体包

括“蓝纽扣”计划、“创建副本”计划、“绿纽扣”计划、“我的学生数据”计划。“蓝纽扣”

允许消费者安全地获取他们的健康信息,使得他们可以更好地管理他们的健康与经济状况,并

与信息提供者交换相关信息。“创业副本”计划将纳税人的信息数据加以共享,纳税人可以通

Page 23: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

19

过它获得他们自己最近三年的纳税记录,这使得居民进行抵押、学生贷款、商务贷款等活动与

填写纳税表更加便捷。“绿纽扣”计划为家庭与企业提供了便捷的途径来获得他们的能源使用

信息以更好地管理他们的能源消耗状况来达到节约资源的目的。“我的学生数据”计划是教育

部将助学金免费申请表与联邦助学情况的的一些信息共享,这些信息囊括了借贷、补助金、注

册与超额偿付等方面的具体事项,这使得学生与资助人能够上网下载所需信息资源。在这些计

划中,信息都是通过“注重使用者体验”、“机器可读写”、“文本信息平面化 ”的方式实

现共享的。

此外,美国政府认为目前大数据应用中最严峻的挑战是如何保护隐私,并且正在不断修改

相关法律法规以加强隐私保护,提出未来的改进重点在于:改进消费者隐私权法案、通过有关

国家数据外泄的立法、保护非美籍人士隐私、规范在校学生数据采集使用、修正电子通信隐私

法等。

3.3.2 英国

英国政府积极应对大数据时代的挑战,并且通过透明政府、智慧政府、责任政府等一系列

战略布局在获取大数据带来的商业利益的同时树立开放的政府形象。

英国政府十分重视大数据的开放。早在 2012 年 12 月,英国数据战略委员会成立了世界

上首个非营利性的开放数据协会(Open Data Institute,ODI),目的就是推动开放数据的进

程。ODI是非营利性组织,它将把人们感兴趣的所有数据融会贯通在一起,每个行业的各个领

域一面产生各种数据而另一方面又可以来利用这些数据。英国政府通过利用和挖掘公开数据的

商业潜力,为英国公共部门、学术机构等方面的创新发展提供“孵化环境”,同时为国家可持

续发展政策提供进一步的帮助。据英国教育和科技部长戴维·威利茨介绍,ODI研究所将为那

些对公众有益的商业企业活动提供数据背景支持,这将释放新的商业潜力,推动经济发展以及

个人收入增长的新形式。

英国政府还要求各公共部门在互联网(http://data.gov.uk)上开通开放数据的通道,

向全社会开放政府管理、机构运营以及各项统计数据等相管信息。

在此基础上,英国政府发布了《开放数据白皮书》,建立了一套对公共部门开放数据程度

的评价体系,对各公共部门完成开放数据任务情况进行审计,以促进英国公共服务数据的开放

性。

Page 24: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

20

3.3.3 日本

2012 年 6 月,IT 战略本部发布了电子政务开放数据战略草案,宣称政府将利用标准化技

术生产信息确保国民方便获取数据,并保证紧急情况下以较少流量向手机用户推送信息。2012

年 7 月,日本总务省发布《面向 2020 年的 ICT 综合战略》,重点开发大数据应用所需智能技

术,创新传统 IT 产业,活跃“ICT 的日本”。

2013 年 6 月,安倍政府再颁新战略“创建最尖端 IT 国家”,阐述了 2013—2020 年间以开放

公共数据和大数据为核心,在日本建成“世界最高水准、广泛运用信息产业技术社会”的目标。

“创建最尖端 IT 国家”战略的要点包括:向民间开放公共数据、促进大数据的促进个人数据的流

通与运用、实现农业的知识产业化、构筑医疗信息联结网络、活用 IT 技术对社会基础设施进

行维护管理、改革国家及地方的行政信息系统等。

日本大数据产业发展中,在个人信息保护法等法律基础设施方面落后于欧美国家,关于个

人信息、保护隐私等问题,日本政府将成立研究机制针对法律措施的必要性等展开研究,修改

和进一步完善个人信息保护法规也已经被提上日程。

3.3.4 欧盟

欧盟一直在推动大数据的发展,欧盟在大数据方面的活动主要涉及四方面内容:(1)研

究数据价值链战略因素;(2)资助“大数据”和“开放数据”领域的研究和创新活动;(3)

实施开放数据政策;(4)促进公共资助科研实验成果和数据的使用及再利用。其中数据价值

链战略计划指出:所谓的“大数据( Big Data )”,重点是通过一个以数据为核心的连贯性

欧盟生态体系,让数据价值链的不同阶段产生价值。数据价值链战略计划遵循的主要原则是:

高质量数据的广泛获得性,包括公共资助数据的免费获得;作为数字化单一市场一部分,欧盟

内数据的自由流动;寻求个人潜在隐私问题与其数据再利用潜力之间的适当平衡,同时赋予公

民以其希望形式使用自己数据的权利。

欧盟委员会在资助“大数据”和“开放数据”领域的研究和创新活动外,还启动了“连接

欧洲设施”( Connecting Europe Facility ,CEF )计划,采取权益和债务证券及补助相结

Page 25: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

21

合的形式促进数字基础设施的建设,旨在加强欧盟国家在交通、能源和电信等领域基础设施的

互联互通。

2013年,欧盟启动“欧盟 2020发展战略”。作为发展战略的主要操作工具“地平线 2020”

(Horizon 2020)重新设计了整体研发框架,简化和统一了旗下所属的各个资助板块,保留了

合理的政策,简化了难以操作或重复繁琐的项目申请、管理流程。“地平线 2020” 的提出标

志着欧盟在研发计划上进入了新纪元。

3.3.5 联合国

2014 年 5 月 14 日,联合国秘书长潘基文倡议“联合国全球脉动”发起“大数据应对气候

挑战”,推动利用大数据和分析手段采取气候行动和提出创新办法,并将其中的两个获胜项目

“提供森林实时信息的监控系统”和“为哥伦比亚农民推广气候智能型农业的工具”列入联合

国秘书长 2014年气候峰会。

2014 年 8 月,联合国开发计划署首次携手科技企业共建大数据实验室。大数据联合实验

室将利用大数据技术和联合国的全球发展经验,在环境保护、医疗与疾病预防、教育、扶贫等

诸多领域进行深入的研究分析,推动大数据解决全球问题的创新模式,促进可持续发展。

3.3.6 多国联盟

2013年,“开放政府联盟(OGP)”的八个成员国(美国、英国、法国、德国、意大利、

加拿大、日本及俄罗斯)签署《开放数据宪章》,承诺在 2013 年底前,制定开放数据行动方

案,最迟在 2015 年末向公众开放可机读的政府数据。截止到 2014 年 2 月,全球已有 63 个国

家加入“开放政府联盟”(OGP)。

3.4 国内大数据现状

运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力正成为趋势,我国相

继制定实施大数据战略性文件,大力推动大数据发展和应用。目前,我国互联网、移动互联网

用户规模居全球第一,拥有丰富的数据资源和应用市场优势,大数据部分关键技术研发取得突

破,涌现出一批互联网创新企业和创新应用,一些地方政府已启动大数据相关工作。坚持创新

Page 26: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

22

驱动发展,加快大数据部署,深化大数据应用,已成为稳增长、促改革、调结构、惠民生和推

动政府治理能力现代化的内在需要和必然选择。

3.4.1 地方政府和组织探索大数据应用

3.4.1.1 北京市

北京市政府一直积极致力于探索大数据应用研究,目前在政务数据开放和大数据交易方面

取得初步成果。

由北京市经信委牵头,北京市各政务部门共同参与建设了北京市政务数据资源网

(www.bjdata.gov.cn),于 2012 年 10 月开始运行,该网站致力于提供北京市政务部门可开

放的各类数据的下载与服务,为企业和个人开展政务信息资源的社会化开发利用提供数据支

撑,推动信息增值服务业的发展以及相关数据分析与研究工作的开展。目前,北京市已有 36

个部门公布了 300余个数据包,涵盖旅游、教育、交通、医疗等各个门类。打开网站主页可以

看到,点击量最高的是“土地用途分区”,已被下载 1310 次,由北京市国土资源局提供。旅

行社、机场班车线路、星级饭店、高校信息也是非常热门的下载资源。

北京市政务数据资源网正在面向企业及个人征集 APP(应用程序),一些社会力量开发的

APP 正在进行技术测试和审查。目前在该网站,“游北京”、“爱健康”、“上下班路况”、

“城市交通数据服务空间”、“农民乐”等 16款 APP 可以下载试用。

2014 年 12 月 10 日,北京市经信委指导建设的北京大数据交易服务平台正式上线运营,

数据产品、数据工具/技术、数据服务和数据人才等四类数据相关产品可在平台上进行交易。

目前平台已聚集涉及全国 900 万家企业的 300多款数据产品或数据资源。这一数据交易平台模

式,可以以中立、公正、开放的市场第三方方式,实现产业的资源聚集,活跃产业要素市场、

辅助产业发展、促进数据价值的最大化。

平台以标准体系建设和业务规范建设为基础,深入探索数据交易的市场机制,搭建公开透

明、安全可靠的数据交易市场,满足多样化的数据需求,促进产业链整体发展。在业务范围上,

平台涵盖商业大数据交易与服务支持和政务大数据社会化共享支撑两方面内容。在商业大数据

Page 27: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

23

方面,平台提供的服务包括:数据交易服务、数据确权与估值服务、交易担保服务、确权及交

易的备案服务、O2O供需对接服务、数据金融服务等;在政务大数据方面,平台可通过数据开

放业务规则发布、大数据开放信息发布、数据开放对接方法指引、企业需求服务支撑、社会大

数据共享支撑、政务大数据开放技术支持等服务为政务数据资源的社会化开放共享提供支撑。

3.4.1.2 上海市

上海目前正在加强对大数据领域的深化研究,2013 年 7 月,上海市发布《上海推进大数

据研究与发展三年行动计划(2013-2015 年)》,并发起成立了上海大数据产业技术创新战略联

盟。其核心内容是六大平台和六大行业应用:建立六大领域的大数据公共服务平台,包括医疗

卫生、食品安全、终身教育、智慧交通、公共安全、科技服务等,重点选取金融证券、互联网、

数字生活、公共设施、制造和电力等具有迫切需求的行业,开展大数据行业应用研发。

上海市政府于 2014 年 5 月明确上海将率先实行政府数据资源向社会开放,目前已启动政

府数据资源向社会开放试点,建成“上海政府数据服务网(一期)”,出自 28 个市级政府部

门、涵盖国内首个政府数据服务网(www.datashanghai.gov.cn)作为开放统一入口,涵盖地

理位置、道路交通、公共服务、经济统计、资格资质、行政管理等领域——从医院床位信息到

候诊人数信息,从挖路、占路、封路信息到停车场库及路侧车位信息,政府大数据“富矿”可

供全民开采。其中市商务委开放了内贸、外贸、外资、外经及综合 5类数据产品;市交通委提

供了全市搬场企业名录、全市公交枢纽站分布、中心城区公交站点分布、停车场位置分布等;

市住房保障管理局开放了保障房工程信息、房地产开发企业信息、房地产经纪企业信息等。服

务网提供数据查询、浏览、下载等功能。而且,上海将重点建设政府移动 APP 门户,将各部门

开发的各类公众服务 APP“一网打尽”,让市民通过这个门户方便地检索和下载所需 APP。

在此基础上,上海市通过印发《2014 年度上海市政府数据资源向社会开放工作计划》,

规定再开放公共安全、公共服务、交通服务、教育科技、金融服务、能源环境、健康卫生、文

化娱乐等 11 个领域,开放的市级政府部门数量是原先的 3 倍。其中,地理位置类的数据资源

将全面开放,市场监管类数据也成为开放重点,并大力推进交通数据资源开放。根据市政府总

体规划,政府数据资源开放主体未来将扩展到法律法规授权的具有管理公共事务职能的组织,

以及与人民群众利益密切相关的公共企事业单位。

Page 28: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

24

上海将参照图书资源的管理模式,力争 3 年内,完成各政府部门信息系统所承载的信息资

源分类、目录编制注册,实现全市政府数据资源目录的集中存储和统一管理,基本摸清政府数

据资源家底。此外,上海市正在研究成立大数据局,成立后将推进上海政府层面的数据公开和

信息共享,以解决政府信息资源家底不清、认识不够以及部门间数据信息共享不充分等目前上

海在数据资源管理和运用上存在的问题。

3.4.1.3 重庆市

大数据产业是重庆市近年来重点发展的战略性新兴产业之一。

2013 年 8 月,重庆市政府提出了《重庆市大数据行动计划》,规定了重庆市大数据行动

的总体目标,主要任务以及保障措施。到 2017 年,重庆要将大数据产业培育成全市经济发展

的重要增长极,具体内容包括打造 2-3个大数据产业示范园区,培育 10家核心龙头企业、500

家大数据应用和服务企业,引进和培养 1000 名大数据产业高端人才,形成 500 亿元大数据产

业规模,建成国内重要的大数据产业基地。

2015年 6月,总投资 30亿元人民币的重庆腾讯云计算数据中心项目在两江新区重庆云计

算产业园开工建设,这是腾讯继天津、上海、深圳三地之后的全国第四个大型云计算数据中心,

对壮大重庆地区的云计算、大数据产业,吸引互联网企业落户,形成产业集聚具有重要意义,

建成后将形成 10 万台服务器的计算能力,该项目首期将于 2017 年投用,力争在三年内形成

1000 家新锐“互联网+”转型升级,助力重庆本地 10000 家传统企业依托“互联网+”转型升

级,带动实现 2000亿元的综合产业规模。

经过 5年的快速发展,重庆市的大数据产业已经初具规模,日渐成熟的大数据处理中心为

重庆完善云计算、大数据产业链奠定了坚实的基础。作为重庆打造云计算大数据产业的重要载

体,在两江新区重庆云计算产业园内,已签约腾讯、浪潮、太平洋电信、中国移动、中国联通、

中国电信等数据中心项目,总投资 304.7 亿元,整体建成后将形成 81.5 万台服务器规模。以

云计算大数据互联网为核心的重庆市软件和信息技术服务业继续保持快速增长态势,1-5月,

行业企业共实现营业收入 627.9 亿元,同比增长 20.42%,其中,软件业务收入,335.51亿元,

Page 29: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

25

同比增长 24.01%。在软件业务收入中,软件产品收入 73.67 亿,同比增长 24.54%;信息技术

服务收入 179.13亿元,同比增长 19.54%;嵌入式系统软件收入 82.70亿元,同比增长 34.38%。

腾讯“互联网+”项目、浪潮重庆市政务云数据中心项目、安硕金融云服务平台项目、渝

亚全通云端项目、赛夫保安安防云平台项目、CSC科技(北京)云计算资源池项目、华创方舟

IT 云维项目、春秋航空灾备数据中心项目、彩生活西南总部项目、北京云狐时代全民运动大

数据平台及全民运动智能硬件产业基地等一批云计算、大数据重点项目已落户重庆市云计算中

心,有力的助推全市软件和信息技术服务业进一步加快完善产业链、壮大产业集群,积极培育

新业态,促进信息消费,创造新的经济增长点。

由重庆市系统间通讯和信息交换标准化技术委员会指导,重庆邮电大学与重庆云威科技有

限公司共同制定的三项地方性大数据标准已经提交审核,并积极联合重庆强大的工业企业制定

工业大数据标准。

2015 年 6 月,在重庆市大数据产业主管部门——重庆市经信委的指导下,联合重庆本地

的网络行业协会,由重庆云威科技发起开展“大数据系列公开课”,讲述重庆地区大数据创业

的相关政策支持,成功案例分享,为有志于在大数据技术创业的有志青年提供能对接行业企业

的舞台。同时,于 2015年 3月、6月分别发布了 2015 年第 1季度与第 2季度的《重庆移动电

子商务企业大数据行为分析报告》,为重庆市本地的大数据产业与创新创业带来了积极影响。

3.4.1.4 贵州省

贵州省也在积极布局大数据产业。从 2013年开始,贵州发力大数据产业布局。中国电信、

联通、移动三大电信运营商数据中心在贵州开工建设、中关村贵阳科技园成立、富士康第四代

产业园落户等等一系列大手笔,正助推贵州迈上“云端”,成为发展大数据产业的黄金宝地。

从 2013 年下半年开始,三大电信运营商在贵安新区分别建设的全国性数据中心,计划总

投资 100 多亿元,总规模将超过 10 万个机柜,服务器将超过 200 万台。数据中心建成后,将

形成超过 2500PB的裸容量存储能力,730亿 TPCC计算能力,可为大数据提供巨大存储服务和

计算服务,将为新区加快大数据及其关联产业发展奠定坚实基础。三大运营商的数据中心在贵

安新区相继建成后,将使贵阳周边特定区域快速集聚 20万—30万的机架、百万台的服务器,

Page 30: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

26

数据存储规模可达 EB 以上,随着大数据产业持续发酵,将形成一个千万服务器集群的数据中

心基地,是国内乃至全球最大的数据聚集地之一。

2013 年 3 月 1 日,贵州·北京大数据产业发展推介会在北京举行,大数据产业联盟与贵

州省政府签订合作框架协议,共同推动大数据产业的发展。其后两天,中关村贵阳科技园清镇

园招商引资推介会在京举行,16 个项目在推介会上成功签约。2013 年 9 月 8 日,“中关村贵

阳科技园”揭牌,为贵阳市发展新一代信息技术产业提供重要支撑,也为大数据产业的发展提

供强大支撑。

2013年 10月,富士康(贵州)第四代绿色产业园一期项目在贵阳市贵安新区开工。

步入 2014年,贵州在大数据产业持续发力。2014 年 3月,贵州省颁布了《关于加快大数

据产业发展及应用若干政策的意见》和《贵州省大数据产业发展应用规划纲要(2014-2020年)》,

抛出了 30 条鼓励措施,明确从今年起连续 3 年,省和贵阳市、贵安新区每年各安排不少于 1

亿元资金,用于支持大数据产业发展及应用。

2014 年 6 月底,贵州省大数据产业研究院将在贵州大学开工建设的消息在贵州省大数据

产业发展应用研究院研讨会上发布。该研究院由贵安新区管委会、泰豪集团有限公司、贵州大

学等联合建设,建设总经费 15000万元,由研发大楼、综合办公楼、产业孵化楼和公寓等组成,

实行理事会领导下的院长负责制。

2014 年 7 月 11 日,云上贵州·大数据国际年会论坛举行,论坛围绕“大数据时代的产业

变革——融合创新、绿色跨越”的主题,采取“主题演讲、高峰论坛、媒体活动、参观调研”

相结合的形式,邀请国家部级领导、专家院士、企业家代表等,共同探讨大数据产业发展面临

的机遇与挑战、趋势与未来,共同研究贵州大数据产业发展的方向和路径选择。同时,正式启

动了贵州省大数据产业联盟。

2015 年 2 月贵阳·贵安大数据产业发展集聚区创建工作获得国家工信部批准,首个国家

级大数据发展集聚区正式“落户”贵州。根据《贵阳·贵安大数据产业发展集聚区创建工作实

施方案》,集聚区创建期为 3 年,到 2017 年,建成国家级数据存储灾备基地和国家级云计算

应用基地,形成大数据产业集群,以大数据产业为主导的信息产业总规模达到 3000亿元。

Page 31: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

27

2015年 4月 15日,在政府主导下全国乃至全球首家大数据交易所——贵阳大数据交易所

正式挂牌运营。面向全国提供数据交易服务,旨在促进数据流通,规范数据交易行为,维护数

据交易市场秩序,保护数据交易各方合法权益,向社会提供完善的数据交易、结算、交付、安

全保障、数据资产管理和融资等综合配套服务。

2015年 5月 1日,贵阳全域公共免费 WiFi项目一期建成,市民用手机搜索“D-GuiYang”,

无需密码即可免费使用 WiFi。在这些区域,单个用户的网络下载速度每秒可达到 2兆到 4兆。

贵阳全域公共免费 WiFi 是贵阳发展大数据的基础支撑,通过为网内用户提供免费上网服务,

以采集块上集聚的用户上网行为数据。项目于 2015 年 2 月 10 日正式开工建设,预计 2017 年

内可实现全城覆盖。

2015 首届贵阳国际大数据产业博览会暨全球大数据时代贵阳峰会于 5 月 26 日-29 日成功

举办,《大数据贵阳宣言》的发布,让贵州贵阳走在了大数据时代的最前端。

贵阳市正基于用户行为数据、企业数据、社交平台数据和感知设备等各类数据,结合政府

开放的数据,在我市形成一个区域的块上集聚的大数据公共平台,创建出全球首个块上数据集

聚模式,并建立块上数据存储、管理、共享、开放与服务的城市大数据公共平台,支撑智慧城

市云计算应用示范。

此外,贵州政府还建立了全国第一个大数据战略重点实验室,实验室是一个跨学科、专业

性、国际化、开放型的研究平台,致力于成为中国大数据发展的战略和思想策源地,成为中国

大数据的发展风向标之一,成为有较大影响力和国际知名度的大数据高端战略智库。

目前,贵阳市正在数据安全的前提下,建立数据开放平台——主动开放公共数据,如交通、

文化、教育、旅游、医疗、食品安全、企业信用等数据,逐步关联块上形成的企业数据、社交

数据和感知设备产生的数据,通过对开放的数据进行深度开发和挖掘,鼓励企业进行各种商业

模式创新。

3.4.1.5 广东省

广东省在大数据的产业和技术开发等方面是走在前面的,在推广大数据应用上也是不遗余

力。

Page 32: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

28

在 2014 年 2 月,广东省政府率先成立了广东省大数据管理局,以研究拟订并组织实施大

数据战略、规划和政策措施、组织制定大数据收集、管理、开放、应用等标准规范为主要责任。

推动形成全社会大数据机制的建立和开发应用。

广东省经信委 2014 年 12 月公布《广东省大数据发展规划(2015-2020 年)》。到 2020

年,大数据将在国民经济和社会各领域广泛应用,推动全省信息化总体水平再上新台阶,迈入

世界先进水平。推动制定一批国家、行业和地方大数据标准,引进和培育 50 家以上大数据龙

头企业,形成 2-3个大数据产业基地,以大数据为主要内容的现代信息服务业产值将超过 1万

亿元,成为广东国民经济新兴支柱产业。

在广东省经信委、科技厅等主管部门的推动下,先后成立了众多大数据推进机构:广东省

实施大数据战略专家委员会;广东省大数据技术联盟;广东省大数据产业联盟,等。

广东省在各行政部门和组织的带领和协调下,制定出具体的措施来落实上述规划。如,将

开辟数据采集渠道,综合行政收集、网络搜取、自愿提供、有偿购买、传感收集等方式建立自

动、精准、实时的大数据采集体系。鼓励制造业企业和商业机构加强对生产经营活动中数据的

采集。

广东省在上述规划的目标下,将大力促进大数据产业向规模化、创新化和高端化发展。重

点支持与省内有条件的各园区共建大数据产业基地,发展各具特色的大数据产品和装备制造

业、大数据软件和服务业。大力培育具有国际竞争力的骨干企业,积极发展创新型中小企业。

加快大数据与云计算、物联网、移动互联网等新一代信息技术的集成应用,等。

在政府强有力的指导和推动下,广东省的大数据应用和技术研发逐步深化和升华。2014

年 8 月,广东省中小企业服务中心的广东省大数据产业情报平台正式上线。第一期选择机械行

业、电子行业、化工行业、纺织行业、建材行业、造纸行业共六大行业作为应用方向,为广东

省广大中小 企业提供包括产业动态在内的所有有价值的通用和个性化的信息服务。智慧广东

建设也有条不紊地展开。同时省内涌现出许多杰出的大数据研发企业,这些企业加大了在大数

据的技术研发方面的投入,在技术和解决方案上缩小了与国外的差距,并且大数据的应用也在

基因检测、移动伪基站的发现与清除、交通调度、以及百万维数据建模等方面解出硕果。

Page 33: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

29

3.4.1.6 陕西省

近年来,陕西省电子政务与信息化建设快速推进。一方面,加强了顶层设计和集中部署,

另一方面电子政务公共平台服务体系初步建成。陕西省各级政府及相关部门的信息化服务,不

再需要重复建设网络、机房,不再考虑存储、灾备等因素。

2012年 12月陕西省发布了“大数据产业发展战略”与“沣西大数据产业园发展规划”。

陕西省大数据产业发展分为三个阶段:2012-2013年是导入期,以建设政务公共平台为支撑,

以政务信息资源建设服务为基础,构建基于高性能计算的大数据计算处理平台和环境;

2013-2015年是建设期,也是战略机遇期,根据人口、林业、社情民意调查分析、社会管理与

服务、金融等领域对大数据处理需求,承接其他国家有关部委和央企数据中心或灾备中心落户,

形成大数据产业洼地,将全国人口信息处理与备份中心落户西咸新区作为陕西发展大数据产业

的重要机遇;2016-2017年是成长期,围绕国家基础数据的上下游流入,形成以政务大数据服

务产业为核心的高黏性信息服务产业生态。到 2017 年,建成以西咸新区为核心的国家级大数

据处理与服务产业集群,成为国家政务信息资源的汇集地、社会信息资源的集散地。

沣西大数据产业园选址位于西咸新区信息产业园内,总占地约 5平方公里,拟分三大板块

推动大数据产业发展。第一板块为数据基础层产业集聚区,第二板块为软件开发和信息服务集

聚区,第三板块为预留拓展区,作为未来信息产业持续增长的重要保障。目前中国移动、中国

电信、中国联通三大运营商以及全国人口数据处理与备份(西安)中心项目已经入区,产业集聚

初具规模。“沣西大数据产业园发展规划”以“数据沣西、智慧西咸、备份中国、物联世界”

为目标,以实现数据的“规模化集中吞吐、深层次整合分析、多领域社会应用、高效益持续增

值”为方向,大力发展数据存储、呼叫中心、IDC中心、灾备中心、数据交换共享平台等业态,

积极创新商业模式。园区建设划分为三个阶段:

第一阶段(2013—2015 年)为培育期,即基础网络和数据中心建设期。本阶段主要依托四

大运营商数据中心、基础网络层的建设,构建海量存储和高速传输网络,为大数据产业发展提

供基础和保障。同时,全力引进人口信息、自然资源和空间地理信息、法人单位数据、宏观经

济数据等国家基础、专有的数据资源存储与服务中心,数据灾备基地和国家超级计算中心落户,

Page 34: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

30

在业内举起大数据处理与信息服务产业的旗帜,到 2015 年底完成固定资产投资 100 亿元,初

步建成大数据产业发展的网络传输平台和基础信息资源集聚区。

第二阶段(2016—2017 年)为成长期,引进龙头企业,培育数据分析企业。制定政策机制,

完善园区规划,构建宽松发展环境,全力引进微软、IBM、惠普、谷歌、百度、阿里巴巴、腾

讯、世纪互联等数据存储、分析和应用企业入园,集聚一批国内外龙头企业的研发总部、技术

中心和高端制造部分,重点培育一批数据分析企业。到 2017 年底累计完成固定资产投资 200

亿元、实现产值 200亿元,形成相对完整的数据服务产业集群,建成“陕西大数据处理与服务

产业基地”,力争率先建成数据应用示范区,推动园区进入国家级信息产业基地行列,实现产

业和城市的优化升级。

第三阶段(2018—2020 年)为成熟期,整合数据资源,形成以数据为基础的信息服务产业

特色。依托“云计算”和“物联网”等着力点,进一步整合多领域数据资源,探索以数据资源

为基础的信息服务产业发展模式,研究和规范数据资源的应用、范围和权限等,为信息服务产

业大发展奠定基础,引领社会化信息服务模式的全面提升。到 2020 年底实现产值 500 亿元,

聚集各类人才 5万以上,使沣西新城成为国家级的信息产业园和大数据处理中心。

3.4.1.7 江苏省

江苏丰富的数据储备、良好的上下游产业基础、雄厚的科研实力均是发展大数据产业的优

势资源。随着“宽带中国”、“三网融合”、“智慧城市”等信息化建设在江苏的全面推进,

公众信息需求和信息消费能力不断提升,信息公共服务设施不断完善,江苏已经积累并将继续

产生庞大的数据,为产业发展提供了丰富的数据资源。

江苏良好的云计算、物联网产业基础是大数据产业发展的有效助推剂,雄厚的制造业和现

代服务业是大数据产业的庞大市场。2014年 11月,由省经信委(省中小企业局)打造的“江

苏省大数据产业情报平台”正式上线,分门别类的关键信息,为省中小企业打造了一场免费的

“情报大餐”。同时,这项为江苏企业量身打造的公益性工程,将成为该省中小企业公共服务

体系中的重要一环。 已经上线的大数据平台包含了电子信息、家电、汽车零部件、建材、纺

织等 12 个产业,每个产业根据产业链情况,又细分出了多个行业。业界关心的产业数据、行

Page 35: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

31

业研报、海关数据、招标信息等关键信息源应有尽有,可大大降低中小企业情报信息收集、分

析、应用的成本和时间。在无锡、南京、徐州、苏州等地市目前也都已经形成了相关的信息产

业聚集区。无锡市是国内第一批云计算服务创新发展试点示范城市,也是全国率先开展大数据

智慧商业实践的城市。无锡将生产商、销售商、服务商和消费者实现系统链接,构成一个庞大

的商众联盟共同体,以最大限度地实现按需供给、按需消费,达到供需平衡,形成了特色的“大

数据智慧商业”。 2014 年 9 月在宁举办了软博会“云计算&大数据技术峰会”,南京大数据

产业基地正式授牌,同时成立南京大数据产业联盟。该基地位于南京软件谷核心区域,建筑面

积近 10 万平米,是谷内规模最大的产业园区,也是省内首家以大数据发展与应用为主题的产

业基地。基地将重点推进超云中心、软件检测中心等公共技术平台建设,建成一批大数据产业

链重点项目,形成数据存储、云计算、数据处理等产业集群,未来将打造成国家级大数据产业

示范基地。预计到 2020年,南京将形成 2000亿元大数据产业规模,建成有世界影响力的大数

据城市。

此外,江苏科研实力雄厚,已有一批高校和研究院所在从事大数据的理论研究和工程技术

开发,南京大学、东南大学、南航、南理工、南邮、江南计算技术研究所等均在相关领域有所

突破。2013 年 4 月,江苏省计算机学会成立大数据专家委员会大会。2013 年 5 月,由该委员

会牵头的江苏省计算机学会大数据协同创新中心正式落户南京麒麟科技创新园。该创新中心的

成立代表着江苏以高校、科研院所为代表的创新集群逐步形成。中心以“大数据关键技术研发

—行业应用开发—支撑平台建设—信息资源建设”四位一体的发展思路,协同研究开发大数据

关键技术方法和系统,培育和发展大数据技术创新企业,将大数据研究的创新成果快速产业化。

3.4.1.8 产业联盟

中关村大数据产业联盟,在中关村管委会的直接领导和支持下,成立于 2012 年 12 月 13

日的中关村大数据产业联盟的宗旨是:把握云计算、大数据与产业革新浪潮带来的战略机遇,

聚合厂商、用户、投资机构、院校与研究机构、政府部门的力量,通过研讨交流、数据共享、

联合开发、推广应用、产业标准制定与推行、联合人才培养、业务与投资合作、促进政策支持

等工作,推进实现数据开发共享,并形成相关技术与产业的突破性创新,产业的跨越式发展,

推动培育世界领先的大数据技术、产品、产业和市场。

Page 36: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

32

该联盟的工作主要是:承接政府部门的相关大数据方面的产业课题研究项目;组织相关大

数据产业国际会议;大数据专业书籍的编著及出版,例如,由郭昕、孟晔博士共同编著《大数

据的力量》;郑毅《证析》;维克托《大数据时代》;赵国栋、糜万军《大数据时代的历史机

遇》;组织大数据培训项目开发;组织联盟成员进行政府项目申报;联盟间的合作;大数据项

目孵化及标准研究;推动联盟间的国际合作;搭建数据市场服务平台,以实现联盟内部数据共

享及交换,推动数据立法和监管,促进数据开放等等,将会为大数据的相关解决方案提供商及

大数据的拥有及使用方以及行业应用合作伙伴搭建一个无缝的共享对接平台,从而为大数据产

业探索出更多的商业模式、并尽快地推动相关项目应用落地,加强大数据上下游产业链的交互

合作,促进大数据生态环境的健康发展。

上海大数据产业技术创新战略联盟(以下简称“联盟”),2013 年 7 月由万达信息技术

股份有限公司和上海产业技术研究院等 19 家单位共同发起组建,在上海市科学技术委员会的

指导下开展工作。联盟设立了行动计划推进办公室全面负责行动计划的整体推进工作,内设秘

书处,下设任务协调组、技术支撑组和项目管理组,并设立专家委员会,提供战略咨询。联盟

现有会员单位 80 多家,涵盖数据拥有方、数据使用方、数据加工方等各个领域的企业、科研

院所和高校,并吸引了很多金融投资机构的加盟,其目标是搭建大数据技术创新及产业应用合

作交流平台,建立互利共赢、共同发展的合作关系。

“联盟”作为《上海推进大数据研究与发展三年行动计划》的主要实施机构,将围绕产业

技术创新的共性、关键和前沿技术开展合作,突破核心技术,形成产业技术标准,提升行业技

术水平和综合竞争实力;实现联盟成员的创新资源有效分工、合理衔接,形成公共技术支撑平

台;实行知识产权分享,促进国际、国内技术合作与交流,加速创新成果转化;联合培养专业

技术人才,增强产业持续创新能力。

“联盟”将聚焦四方面的工作包括:(1)成立大数据科学及理论研究、大数据产品装备

和大数据行业应用三个专家组,在联盟范围内外广泛开展调研,细化研究和产业合作的目标;

(2)依托联盟副理事长单位、共建“上海市数据科学重点实验室”,并拟筹建“大数据工程

技术研究中心”;(3)组织大数据行业沙龙和专业培训;(4)形成并提交一批大数据科研项

目建议书。2014 年,上海大数据产业技术创新战略联盟及上海市数据科学重点实验室联合策

Page 37: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

33

划了《大数据技术与应用丛书》,第一批共有 8册已由上海科学技术出版社的出版,丛书内容

包括金融大数据、城市交通大数据、智慧城市大数据、医疗大数据、大数据处理技术、大数据

测评、城市发展的数据逻辑、数据密集型技术和模型。

南京大数据产业联盟,于 2014年 9月 13日上午在南京大数据产业基地成功召开,并在江

苏省经济与信息化委员会、南京市经济与信息化委员会指导下正式成立。由中国软件谷管委会

联合南京大学、东南大学等高校以及南京大数据产业龙头与骨干企业共同发起成立的非营利性

质的产业服务平台。本次大会确定了理事长单位、专家委员会和联盟章程。联盟的正式成立,

标志着南京以大数据为核心的信息产业已经全面发展。

南京大数据产业联盟的主要内容围绕大数据采集与处理类企业、分析与应用类企业、相关

技术研发型企业和大数据领域深度关联型企业的四级产业分层,以项目建设、平台及研发机构

建设、人才建设为主要抓手,通过招商引资和自主培养,形成聚集态势,配套建设逐步完善。

联盟目标包括为:提供产业研究、技术研发和咨询服务,开展大数据领域政策、技术以及

产业研究工作,承担区域内大数据产业研究及规划;组织联盟会员申报大数据领域政府或科研

项目;促进行业交流及市场拓展,组织大数据领域内的研讨会、交流会、案例推介会、专业培

训及展览等活动;通过技术、市场、资本、人才等多种方式,促进联盟内部产业链上下游之间

的合作,帮助供需方有效对接,同时促进产学研用之间的合作,营造一个灵活高效的大数据产

业生态系统;搭建大数据交易和信息资源共享交换平台,为创新企业提供在工具、技术、商业

模式、融资、推广、数据交易、信息共享等方面的综合服务;以及把南京建设成为全国大数据

产业发展领军城市。

项目建设目标为:到 2015 年,南京市大数据产业基地产值规模达到 30 亿元,通过引进、

培育使规模企业达到 30 家,大数据载体及设施建设体量达到 20 万平方米;到 2017 年,南京

市大数据产业基地产值规模达到 100 亿元,通过引进、培育使规模企业达到 80 家,大数据载

体及设施建设体量达到 100 万平方米。平台及研发机构建设目标为:到 2018 年,集聚大数据

产业协同研发中心、创新研发中心、企业研发中心、博士后科研工作站、公共测试平台等高端

大数据产业“科研群落”60 个。人才建设目标为:到 2018年,自主培育和引进大数据产业领

Page 38: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

34

域国家“千人计划”、省“双创”计划、市“321”计划、区“千百十”计划等各类领军人才、

海外高层次创新创业人才 100 人。

农业大数据产业技术创新战略联盟,成立于 2013 年 6 月。该联盟是以山东省内从事农业

发展管理、农业研究及成果推广应用的政府、科研院所、高校及此领域相关企业等机构为理事

单位,以其他省相关院校和科研机构为联动单位,集联合性、专业性和行业性于一体的山东省

非盈利性的民间组织。

联盟成员包括山东省科技厅、教育厅、农业厅、林业厅、国土资源厅、水利厅、省畜牧局、

农机局等政府部门,中国测绘科学研究院、山东省农科院、山东农业大学、青岛农业大学等科

研单位和高校,以及龙信数据(北京)有限公司、浪潮集团、山东金正大生态工程股份有限公

司、山东登海种业股份有限公司等国内企业。

联盟以"引导产业发展、推动技术创新"为宗旨,团结、动员和依靠广大利用大数据技术进

行农业科学研究的单位和相关机构及相关工作者,发挥政、产、学、研等方面的优势,推动农

业研究理念及模式的创新,促进成员之间的信息沟通和合作,实现各成员单位数据共享、信息

互通、成果共用,为政府决策、产业发展提供更多的服务和支持,为农业和农村发展作出更大

贡献。

截止目前,该联盟已建成集数据采集、挖掘分析、监测预警和决策服务“四位一体”的“渤

海粮仓科技示范工程大数据平台”,实现了省、市、县、用户四级实时互动,为山东项目示范

区提供麦田监测预警和生产决策服务。并在利用大数据技术开展田间定位试验、融合生物信息

学的大数据应用、大数据农业病虫害防控应用等多项研究中成效显著。

3.4.2 国内大数据应用实践

3.4.2.1 公共管理

大数据的驱动力和引领作用正在给以政府为主导的公共管理领域带来革命性变化。在国家

政策引导和支持下,各级政府和组织顺应大数据与云计算融合发展的技术和应用趋势,积极探

Page 39: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

35

索公共管理领域的大数据应用实践,大数据在支撑履行政府职能、保障公共安全、实施社会治

理、支持重大决策和改进公共服务等方面发挥出越来越重要的作用。

(1)大数据有效支撑公共安全

公安行业经过“金盾工程”建设,形成了面向部门、警种的各类条线业务系统,以及面向

多部门协作和底层信息支撑的综合业务系统,建成了可以全国范围内共享的八大业务信息资源

库。公安行业积累的庞大数据,几乎和所有行业在数据层面都有密切交互。在大数据时代,走

科技强警、信息化强警的大数据之路是解决警力不足等实际问题的重要途径。

为了应对大数据、云计算时代对下一代公安信息化建设的挑战,公安部多措并举,积极推

进公安行业大数据应用实践。例如,在浙江警察学院建立了大数据应用重点实验室,2014 年

公安部交通管理科学研究所与浪潮集团进行战略合作,建立交通管理大数据挖掘研判及云计算

技术应用联合实验室。2012 年,山东省公安厅携手浪潮集团创新推出了大数据警务云计算中

心建设工程,建成了“智能化全时空大数据预警系统”、新一代超级智能化搜索引擎“警务千

度”等大数据应用,推动和引领了大数据和云计算技术融合的新一代公安行业信息化平台建设。

近年来,公安行业的大数据应用实践在提高反恐能力、预测犯罪趋势、推进案件侦破、破

解交通难题等方面取得了比较丰硕的成果。例如:北京公安 110指挥部积极探索践行大数据警

务战略,自主研发了警情热点分布图等辅助指挥技术;上海交警利用大数据系统破解大城市的

交通难题,圆满完成了 2014 年第四次亚信峰会的交通保障任务;苏州公安上线了依靠“大数

据”理念建设了犯罪预测系统。总体来看,各级公安机关的大数据应用实践有效地提升了各警

种的实战能力,大数据技术正在成为驱动和引领警务改革的关键要素。

(2)大数据改变工商管理模式

2015 年 4 月 28 日,基于大数据理念建设的国家工商总局广告数据中心正式启用,基本实

现对 31 个省(区市)332 个市所有媒体、全类广告的全覆盖、全天候监测,计划 3 年内监测

范围将进一步扩展到全国 2800 多个县。各级工商管理部门广告监管机关,可依托该系统提供

的大数据,实时掌握了解各地广告市场情况,及时派发监测发现的违法广告线索,形成证据提

供、案件交办、立案查处、结果反馈一体化的监管指挥系统,提升广告监管执法效能。

Page 40: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

36

此外,为探索大数据对提高市场主体的监管效率、规范市场秩序等方面的重要作用,国家

工商总局先后与浪潮、百度、阿里、京东、龙信、拓普、海云、腾讯等 8 家数据公司开展合作,

并选定了 10 家试点单位先行,围绕主体监管和扶持小微企业发展两方面 11 项内容展开大数据

分析应用。

目前,各试点单位积极采用大数据技术,通过内部集中工商组织数据、横向汇集其他政府

部门数据、向外扩展关联互联网收集数据,构建新型监管模型和系统性风险防控机制,取得了

显著成效。

(3)大数据帮助源监控、税收预测、风险预警

在税务行业,当前已掌握了纳税人在税务登记、税务申报、税务稽查、税收评定等各个环

节的海量数据信息,不仅如此,通过第三方数据交换渠道,税务机关还掌握了来自海关、工商、

银行、统计、工信、公安、社保、财政等部门与纳税人生产经营有关的涉税数据。

基于掌握的海量数据,税务总局进行了以下积极探索。

税源监控。通过税源分析和挖掘,实时监控税收收入进度及税源变化情况,及时开展比对

分析和检查评估,有效提升税源质量,减少税源流失,加强堵漏征收。

税收预测。通过宏观与微观数据分析相结合,加强税收政策、经济和税收关系分析,准确

判断风险税收经济之间的关系,精准预测税收形势,科学估算税收收入规模,为组织收入工作

提供依据。

风险预警。通过建立数据模型及信息综合比对,对纳税人生产经营活动中的涉税风险进行

精准监控和提醒,形成以大数据为基础的风险识别、风险排序、风险分析、风险应对、绩效评

价的完整闭环风险管理流程。

(4)大数据提供司法行业实证信息研究服务

在司法行业,人民法院以“大数据、大格局、大服务”理念为指导,运用顶层设计理念构

建“数据集中管理平台”,建立数据全生命周期治理机制,整合全国法院司法信息资源;并运

用语词提取、语义分析等现代化大数据分析技术,探索实证信息研究服务。

Page 41: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

37

当前,已汇聚了全国 5000 万案件信息和 2400 万裁判文书信息,实现数据海量存储、科学

分类、多元检索、深入分析,在第一时间提供涉众型经济犯罪、两抢一盗、强制医疗、知识产

权纠纷等社会热点类案专项深度分析,探寻新形势下审判执行工作的特点和规律,促进社会治

理创新。进一步发挥平台中枢作用,构建安全共享交换体系,提升各类数据在跨应用系统间、

跨法院层级间、跨政府部门间、跨内外网系间的传输效率和共享水平,将更多的司法信息资源

对社会公众公开,并为诉讼当事人和代理人提供司法大数据分析服务,加快构建开放、动态、

透明、便民的阳光司法机制,让人民群众在每一个司法案件中切实感受到公平正义。

3.4.2.2 制造领域

我国的生产制造领域,已经从最初的粗放型粗加工阶段,升级进入了精加工数控加工阶段,

制造企业信息化程度已经有了很大提升,但是相对于发达国家高端制造业以及先进制造水平能

力来说,我国制造企业还有很多工作要做,还有大量改进提高的空间。其中,大数据对制造领

域的价值越来越被认可,相关的一些应用已经在逐步开展起来,成为助力我国制造业产业升级

转型的一个重要推动力。大数据相关的技术应用与创新,已成为助力我国制造领域迈向高端制

造高水平制造层面的迫切需求。

生产设备实时监控数据,汇总分析辅助企业决策。在大型企业中,大量加工设备的实时运

转情况汇总到一个平台,统计信息包括年度月度的设备忙闲时、加工磨损部件更换次数、设备

出故障次数和原因等等,这些信息汇总给企业决策层,以便了解生产加工密度,合理安排加工

批次合理接单,保持设备一直运转不至于空闲,总结关键部件磨损规律以合理安排备件更换,

总结分析设备故障规律合理安排预检维修。多方面的数据长期记录累加,便于企业利用数据分

析有效因素,辅助决策大幅度提高生效率。

生产过程操作数据记录,汇总分析辅助工艺水平提升。在制造企业,对于加工过程的各类

操作进行记录,并把记录关联到最终产品的质量上,通过长时间的阶段数据汇总,统计分析操

作过程中的哪些环节会影响最终产品的质量,辅助加工企业进行工艺的调整改进,促进工艺水

平的提升。

Page 42: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

38

生产环境的监测数据,汇总分析辅助生产环境调整。对于某些加工过程中,环境因素影响

最终产品质量和效果的情况,在生产中通过传感器实时收集温度、湿度、磁场强度等等环境数

据,汇总分析关联最终产品质量的因素,并不断调整相关因素再记录,最终找到能达到产品质

量最高合格率的环境数据值,设定为最佳生产环境参数。

3.4.2.3 电力领域

电力行业大数据的发展与大数据技术的发展基本上是同步的,但是由于数据质量的问题,

大数据应用的效果还没有显现出来。电力行业已经认识到,电力大数据是能源变革中电力工业

技术革新的必然过程,而不是简单的技术范畴。电力大数据不仅仅是技术进步,更是涉及整个

电力系统在大数据时代下发展理念、管理体制和技术路线等方面的重大变革,是下一代智能化

电力系统在大数据时代下价值形态的跃升。重塑电力核心价值和转变电力发展方式是电力大数

据的两条核心主线。

大数据的核心价值之一就是个性化的商业未来,是对人的终极关怀。电力大数据通过对市

场个性化需求和企业自身良性发展的挖掘和满足,重塑中国电力工业核心价值,驱动电力企业

从“以人为本”的高度重新审视自己的核心价值,由“以电力生产为中心”向“以客户为中心”

转变,并将其最终落脚在“如何更好地服务于全社会”这一根本任务上。同时,电力大数据通

过对电力系统生产运行方式的优化、对间歇式可再生能源的消纳以及对全社会节能减排观念的

引导,能够推动中国电力工业由高耗能、高排放、低效率的粗放发展方式向低耗能、低排放、

高效率的绿色发展方式转变。

电力行业的大数据研究和实施将在这些方面开展:为中国电力工业面临着的能源枯竭和温

室气体排放这双重挑战提供解决和决策上的洞察力和智慧;电力信息通信与电力生产和企业经

营管理的深度融合将随着下一代智能化电力系统的建设而快速展开,建成的是巨大的物联网和

生产经营关系网,电力大数据将在其中发挥着独特的作用;电力生产和销售的“实时性”使得

电力大数据的流分析与处理的作用十分巨大。

中国电力行业已经在发电环节、输电环节、变电环节、以及在配电环节、用电环节和调度

环节全面规划了大数据的研究和应用实施的细节。比如在用电环节,国家电网公司已经在实施

Page 43: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

39

如下的应用研究和开发:电能表整体运行状态分析;市场开拓与业扩报装辅助分析;用户电费

回收风险分析评价;采集运维质量预控与工作效能分析;大客户价值挖掘与需求互动响应分析;

分布式电源接入对配电网电压质量分析;用户电能表档案串户分析等。具体的应用场景如下:

智能防窃电;计量设备全生命周期质量评价;基于气象要素的居民用电负荷预测;基于大数据

的负荷预测分析;关口计量装置在线检测;通信信道异常智能诊断分析;基于流数据的采集数

据处理;客户投诉预警;基于用电的房屋空置率分析,等等。

3.4.2.4 电子商务领域

大数据开启了电子商务行业的时代转型。电商和传统商家最大区别在于:电商构建的各类

型数据库能够涵盖商家信息、用户信息、行业资讯、产品使用体验、商品浏览记录、商品成交

记录、产品价格动态等海量信息。电商行业大数据背后隐藏的是电商行业的用户需求、竞争情

报,蕴藏着巨大的财富价值。借助大数据挖掘与分析技术,电商不仅可以提高营销转化为购买

行为的成功率,还能降低营销成本,使产品更契合用户的需求,全面提升企业竞争力。

当前, 我国主要的电子商务企业都在积极探索大数据应用,主要集中在以下方面:

(1)大数据助推创新性平台化策略

消费群体的需求是多样并能被延伸的。为了服务这些延伸的消费需求,电商采用平台搭建

方式,通过开放平台吸引第三方商家经营,能够提高电商平台渠道的利用效率,也丰富了电商

平台的商品品类,满足用户延伸消费的需求,赢取竞争优势。以京东、阿里巴巴为首构建的全

品类覆盖的综合性平台拉开了与其他中小型电子商务企业的差距。

(2)市场预测

基于大数据预测技术能够实现产品从开发、生产、销售到物流整个链条的智能化和快速反

应。通过对海量数据的收集、甄别与分析处理,不仅可以为终端的市场用户勾勒出消费习惯、

消费能力的“用户画像”,大数据分析还能获取产品在各区域、各时间段、各消费群的库存和

预售情况与发展趋势等,基于大数据预测技术能够实现从产品开发、生产、销售到物流等的整

个链条的智能化和快速反应。

Page 44: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

40

(3)精准营销

大数据对电商行业的影响最典型就在营销领域。对于电商来说,如何将产品定向推荐给需

要的用户,始终是电商的核心关注点。消费数据量的急剧增加为电商企业精确把握用户群体和

个体网络行为模式奠定了基础。电商企业通过大数据应用,划分细分群体与单体受众的心理层

次,进行个人化、个性化、精确化和智能化广告推送与推广服务的探索。

(4)用户体验

作为核心的服务理念,电子商务用户体验很大程度上决定了电子商务未来的成败。要让消

费者最大限度的感受消费的归属感、满足感和幸福感,需要电商企业提供更智能、人性与差异

化的服务,实现双赢的深度价值创造。在用户体验方面,各大电商包括垂直电商都形成了各具

特色的个性化服务,用以提升用户体验。如基于用户画像为客户量身定做咨询应答策略,如快

速理解用户意图、针对性商品评测或商品推荐、个性化关怀等。

(5)物流与仓储优化

电子商务与物流业的合作随着云计算、物联网和数据应用等技术的突破越来越紧密,大数

据改变了物流业的服务方向和服务内容,对于客户数据的分析也就不仅局限于电商企业单向操

作。通过对客户数据的分析企业能够更合理的选择派送方式,优选路径,提供差异化服务,提

高物流服务的质量,提升电商物流业的品牌形象。

3.4.2.5 智能交通领域

随着大数据时代的到来,智能交通迎来重大变化,智能交通产业发展也将迎来新的机遇。

交通拥堵、交通污染日益严重,交通事故频繁发生,这些都是各大城市亟待解决的问题,智能

交通成为改善城市交通的关键所在。及时、准确获取交通数据并构建交通数据处理模型是建设

智能交通的前提,而这一难题可以通过大数据技术得到解决。

大数据在智能交通应用的优势体现在:大数据技术的海量数据存储和高效需求分析能力,

能够实现交通管理系统跨区域、跨部门的集成和组合,更有效地配置交通资源。大数据的实时

性,使处于静态闲置的数据被处理和需要利用时,即可被智能化利用,使交通运行的更加合理,

Page 45: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

41

从而提升交通运行效率和服务的水平。其次,大数据技术具有较高预测能力,可降低误报和漏

报的概率,随时针对交通的动态性给予实时监控。基于对大数据的预测性分析,通过梳理影响

安全运行的各种原因,发现道路运行安全管理的内在规律,将为交通管理决策、规划、运营、

服务、以及主动安全防范带来更加有效的支持,以提高交通安全的水平,在一定程度上避免交

通事故。此外,大数据技术在减轻道路交通堵塞、降低汽车运输对环境的影响等方面有重要的

作用。通过建立区域交通排放的监测及预测模型,共享交通运行与环境数据,建立交通运行与

环境数据共享试验系统,大数据技术可有效分析交通对环境的影响。同时,分析历史数据,大

数据技术能提供降低交通延误和减少排放的交通信号智能化控制的决策依据,建立低排放交通

信号控制原型系统与车辆排放环境影响仿真系统。

面对海量的交通信息,交通大数据的开发应用需求日益突出,交通大数据时代的来临时智

能交通发展的必然趋势,这将为智能交通提供更多的发展机遇和空间。

3.4.2.6 金融领域

面对互联网金融的竞争压力,金融企业急需重构以金融大数据分析为基础的决策和服务体

系,提升自身竞争力和客户满意度。在大数据时代,银行数据量不断增加,现有以交易为核心

的数据处理系统,无法满足大数据处理的要求。金融企业更需要建设第二数据平面,以处理更

多维、更大量的数据。

金融大数据典型应用场景包括:历史交易明细查询、实时征信、实时事件营销、客户行为

分析等。大数据解决方案围绕金融大数据的采集、存储、处理、洞察和服务,为银行开发新业

务,提供业务支撑,激发金融创新活力。解决方案提供的主要功能包括:1)海量结构化/非结

构化数据的采集、存储、批处理、内存计算和实时流计算的能力;2)百万维大数据特征提取、

管理、建模的能力,帮助客户直接实现小微贷获客预测、或金融资产预测等业务;3)历史交

易明细查询、实时征信、实时事件营销等,让客户更专注大数据业务开发本身,更方便地使用

大数据能力。并具有易用性和复杂查询能力,可实现与银行现有数据库、数据仓库的无缝对接。

此外,需根据银行生产系统的规范,在大数据的可靠性、安全性、易用性方面进行了增强和适

配,如支持金融数据异地容灾等。

Page 46: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

42

3.4.2.7 科学研究领域

科学数据是人类在认识自然、发展科技的活动中产生和积累的数据,是人类长期科学活动

的知识积累,是一种重要的基础资源和战略资源。中国科学院作为中国自然科学的研究中心,

在长期的科学研究实践中,通过观测、考察、试验、计算等多种途径产生和积累了大量具有重

要科学价值和实用意义的科学数据和资料。

1983 年,中国科学院提出了“科学数据库及其信息系统”的建设项目,1986 年被国家计

委列为国家“七五”和“八五”期间的重点工程项目。自此开始,经过中国科学院的持续支持,

以及科技工作者的不懈努力,该项目取得了丰硕的成果,1997 年获中国科学院科技进步一等

奖,1998年获国家科技进步二等奖,到 2001年“科学数据库及其信息系统”已经成为国内信

息量最大,学科专业最广,服务层次最高,综合性最强的科学信息服务系统,成为了科研工作

的基础设施之一。“十一五”期间,中国科学院科学数据库的中国科学院信息化建设重要基础

设施的定位进一步加固,各方面的工作都取得了重大进展与突破:数据资源建设了 51 个数据

库,整合可共享的数据量达 148TB;服务环境基本形成了由网格运行服务总中心、学科领域网

格主节点和数据资源网格节点三层架构的科学数据网格体系;基本完成了科学数据资源建设和

服务标准体系的建设,同时研发部署了系列工具软件支撑标准规范的实施。 科学数据库已初

步形成结构合理的科学数据资源体系,并取得了数据资源整合服务的良好效果,以及社会应用

效果。

“十二五”期间,该项目作为中国科学院信息专项“科技云”的重要内容,继续融合大数

据和云计算等新技术建设“科技数据资源整合与共享工程”,截至 2014 年年底项目可共享总

数据量超 450TB,并面向融合大数据和云计算等新技术继续完善标准规范体系。同时,项目继

续延展服务科学研究和社会应用,重点支持了国家 863计划、国家 973计划、国家自然科学基

金、国家科技支撑项目、国际合作项目、中国科学院创新性项目、先导专项等若干数据密集型

的科研应用,起到了良好的示范作用,为科学研究、国家宏观决策、国民经济建设与社会发展

等做出了重要贡献,产生了良好的社会效果。

大数据时代,科学模式已经变革为“数据密集型科学”的科研第四范式阶段,部分学科领

域的科研活动已经成为了典型的大数据行为,科学家有机会利用海量的科学数据去探索世界,

Page 47: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

43

开展此前无法进行的研究,解决此前难以解决的科学问题,产生突破性进展。近年来,国际上

的一些科学研究成果充分证实了这一现实趋势,如生物领域和医学领域基于大规模 DNA序列数

据对生命现象的新认知,大型强子对撞机产生的海量实验数据帮助高能物理学家找得希格斯粒

子等等。科学领域曾是大数据的领先阵地,当前也正乘势快速发展中,未来科研大数据将是人

类科研革命和社会进步的重要支撑。

3.4.2.8 教育领域

教育大数据的主要目的是为不同利益相关者提供精准的教育服务,如学生的学习、教师的

教学、开发者的资源开发、教育管理者的决策等;其核心是精准获取学习者的需求,为学习者

提供精准教育服务;其数据主要来源于各类教育系统,包括学习管理系统 LMS(Learning

Management System)、内容管理系统 CMS(Content Management System)、电子学档系统 EPS

(e-Portfolio System)、智能培训系统 ITS(Intelligent Training System)、社会性学

习系统 SLS(Social Learning System)、实时教学系统 LTS(Live Teaching System Based on

Classroom)、学习设计系统 LDS(Learning Design System)和学生信息管理系统 SIS(Student

Information System)等。应用和分析的教育大数据技术主要为教育数据挖掘技术和学习分析

技术,当前研究热点为学习分析。学习分析是以理解和优化学习及其发生的环境为目的,对学

习者及其所处情境的数据进行的测量、收集、分析和报告,其焦点是分析学习行为相关的数据、

过程,以及呈现的方式。

国外主要机构相关标准制定与项目有美国“高级分布式学习”组织的 Experience API 标

准、IMS Caliper Analytics 学习测评框架、欧盟学习分析项目 LACE(Learning Analytics

Community Exchange,学习分析社区交流)等;国家标准组织 ISO/IEC JTC1 SC36 WG8 学习分

析互操作工作组正在制定“学习分析互操作术语与参照模型”标准(Terms and reference model

for learning analytics interoperability);而全国信息技术标准化技术委员会教育技术

分委员会成立学习分析研究工作组开展教育大数据相关标准研究。

Page 48: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

44

3.4.2.9 健康医疗领域

随着公共卫生领域的信息化建设,各地政府和公卫医疗行业都将医疗行业数据处理及共享

作为信息化建设的重点之一,而随着国内首轮公卫医疗行业信息建设浪潮而来的是庞大的医疗

信息,以及医疗系统间的信息不对称、不共享。同时,卫生数据分散在各医疗机构的信息系统

中,与中心平台数据要求存在结构不同、标准不统一的情况,传统的由医疗机构系统开发商完

成数据上报的方式存在医疗数据处理工作量大、项目开发进度缓慢、数据质量低、医疗单位协

调难、数据监管难等问题。

在这样的医疗行业需求背景下,大数据处理思想的引入,上述难题将得到有效解决。通过

对公卫大数据的获取和分析,并将数据与各级医疗平台进行实时共享,对分散医疗卫生机构的

数据进行快速、有效、可靠的采集,实现医疗卫生机构卫生数据的有效接入,已成为医疗大数

据项目建设的重点与难点,将对公卫医疗信息化建设起到至关重要的作用。

在医疗数据处理工作量方面,医疗大数据处理机制解决协同各业务系统维护人员根据平台

要求,提供数据查询脚本,进行数据采集、转换程序的编写与调试,医院端大量的业务分析工

作成为制约数据有效上报的瓶颈。在医疗项目开发进度方面,传统的平台开发商需要与多个医

疗机构明确接口内容、传输协议、联调测试,导致平台数据共享与交换部分的开发周期长、进

度慢,而独立的医疗大数据提供商独立于平台开发商与医疗机构,从独立第三方角度来汇聚来

自医疗机构的大数据,并将其进行统一的数据质量处理后上报给平台,从而在保障数据质量的

基础上,加快了项目建设周期。另一方面,传统的医疗数据监管需要靠人工方式进行汇报,无

法对问题及时发现、及时解决,很难实现对医疗系统数据的整体有效监管,在大数据背景下,

其海量数据的监管需依靠自动化、智能化的方式进行统一的集中监管,以便于及时发现、定位、

追溯、跟踪和解决问题,从而降低数据监管难度和成本。

3.4.2.10 电信领域

在投身大数据的众多玩家中,电信运营商无疑是最为特殊的。庞大的网络规模和用户基础,

提供了最全面的大数据样本;语音经营向流量经营的转型需求,以及来自互联网企业和 OTT业

务冲击下的“被边缘化”危机,也使之具有推进大数据应用的迫切动力。

Page 49: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

45

运营商的大数据可以分为三个层次,身份信息和账号等用户作为自然人个体的基础信息数

据、用户使用运营商业务产生的行为信息数据,以及其他任何企业所不具备的网管日志和信号

强度等基层网络数据。这些信息整合起来可以发现运营商所拥有的大数据具有非常典型的特性

——既有用户真实生活的数据也有虚拟社会的实时数据,这是运营商大数据与互联网企业大数

据的最大区别。在以全面性、实时性取胜的同时,运营商大数据的质量譬如关联性、可靠性也

较高,而处理的单位成本更低,由此带来了更高的应用价值和挖掘潜力。

从运营商大数据的具体应用方向来看,当前主要集中在四个方向:流量经营精细化、智能

客服中心建设、基于个性化服务的客户体验提升,以及对外数据服务等。

中国移动通信集团公司是中国规模最大的移动通信运营商,也是全球用户规模最大的移动

运营商。基于大云平台构建了海量存储处理和数据分析和挖掘等核心能力,利用现有数据,探

索大数据技术,已在河北等省试点,并尝试利用大数据技术识别异常话单。江苏移动建立的“智

慧洞察”(Smart Insights)对外数据服务平台。该平台依托大数据强大的处理能力与海量数

据,基于完全匿名和聚合后的数据,利用统计分析、数据挖掘等技术,提供标准化数据产品、

大数据分析报告、高效 Open API 服务。为社会、政府、企业以及家庭、个人客户提供经过分

析挖掘而形成的价值产品与服务,实现数据价值提升与共享。

中国联通全面启动了以数据为中心的、集中化和一体化的 IT 系统建设,未来的建设模式

转变为“平台+应用”的模式,构建全集团唯一的、集中、开放的大数据平台,并在这个平台

上构建各种各样的应用。把所有 IT 核心的数据、网元侧的数据、互联网的数据,乃至与外部

合作和关联企业或者第三方交换的数据,全部整合,形成能够反映企业全景、客户全景、所有

产品/渠道的大数据平台。这个平台采用大数据技术处理海量数据,并且能够将不同需求、不

同业务有效整合,为上层应用提供定制化的服务。

3.4.2.11 文化领域

文化产业在我国经济持续增长、人均收入不断提高的经济背景下,对文化产品和服务器的

消费需求更为强烈。大数据与文化产业的融合将激发无限创业,为文化产业转型升级提供机遇。

从数据来看,2014年全国城市影院电影观众 8.3亿人次,游戏市场用户总数约 5.17亿,数字

Page 50: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

46

音乐用户数量也达到 5亿人以上,具备巨大的潜在数据价值。通过对游戏、文学、动漫、电影、

音乐等泛娱乐文化产品的交叉融合,重塑人们的文化生活和消费方式,促进国内消费结构的转

型升级。

目前国内文化创意产业对大数据重视程度逐渐显现,淘宝电影在线业务提前预售、在线支

付、线上社区讨论、社交媒体发布预告。这些影视宣传服务的背后,是对观众行为数据的搜集,

基于预售量、用户关注度、与影片宣传的互动数量、收看宣传片的数量等,数据分析发挥威力,

形成了极具机制的院线排片建议,也有根据用户持续反馈滚动的后续排片建议。在线而非离线、

自然记录而非线下收集、应用动态反馈数据,这样利用的大数据就是价值最高的活数据。大数

据驱动的排片建议,片方追踪影院用户需求变化并进行精准营销,院线做到合理排片、提高影

院上座率,提升行业整体运营效率。让院线、片方、淘宝电影和潜在观众都获得“数据”流转

的价值,同样解决电影产业链条中存在的信息不透明现象。

针对文化行业所提供的数据服务包括:

(1)行业经营分析

在大数据和移动互联网的热潮下,借助数据平台深入挖掘消费用户数据和运营数据,基于

对用户行为大数据的利用选取合适的文化娱乐信息、活动内容和经营指标,用数据驱动行业的

透明化、规范化,使资源充分流转,促进商家经营利益提升,减少投资资源的盲目和无序。

(2)用户服务推荐

基于娱乐消费行业的大数据分析,能够越来越精准地预测用户的消费行为以及他们所处的

位置,并及时向他们推送量身定制的消费攻略。在音乐领域,通过对用户属性、搜索内容、演

唱信息等行为数据,加上音视频处理技术,支持音频、视频、图片等非结构化数据处理技术,

进行大数据推荐运算建立模型,让用户的音乐推荐从传统类型化提升为精准个性化。

Page 51: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

47

(3)娱乐热点分析

将影视、游戏、音乐等文化产业领域商共享合作打造泛娱乐数据服务,通过多个应用渠道

的用户行为分析,全面了解用户的兴趣和娱乐习惯,从中捕捉当下娱乐热点信息,特别是娱乐

方面的流行趋势,对提供娱乐服务的商家和发行方把握领域的发展方向,都能带来商业价值。

3.5 大数据开源现状

大数据的标准活动开始于 2012 年,而在此之前,一些开源项目已非常活跃并在业界和学

术界产生了巨大影响。其中包括最为著名的 Hadoop,它早在 2005 年就由 Apache 软件基金会

(ASF)由 Lucene 的子项目 Nutch的一部分引入为独立开源项目,时至今日仍在不断得到广泛

应用和改进,其开源生态圈几乎已成为大数据的事实标准。 在 ASF发布前述 Hadoop系列开源

产品后,受到了大量用户、厂商、科研院校研究机构等的欢迎和积极支持,ASF也成为了最具

影响力的大数据开源组织。

截止2015年6月,Apache项目列表(http://www.apache.org/index.html#projects-list)

表明目前 ASF 的 163 个顶级开源项目中,就有 26 个直接服务于大数据产品与应用,充分体现

了 ASF 对大数据开源的重视程度。 除了 ASF,还有很多厂商、院校也为大数据开源应用做出

积极的贡献,例如伯克利大学 Berkeley Data Analytics Stack(BDAS)中著名的 Spark、 Twitter

的 Storm等。

随着各类活跃的开源实现逐渐主导市场,降低了大数据技术门槛,它们构成了大数据标准

化展开的重要产业背景。但由于没有一个标准化体系可供参考,加上一些同质开源软件的竞争,

使得即使是同类大数据开源产品也有诸多不同,这也同时带来了大数据平台标准技术空心化以

及大数据平台产品的竞争的同质化等问题。

3.5.1 Hadoop 系列

Hadoop 是一个由 ASF 所开源的分布式系统基础架构。用户可以在不了解底层分布式细节

的情况下,基于 Hadoop 开发分布式的大数据存储与处理应用程序,并利用分布式集群进行高

速运算和海量存储。

Page 52: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

48

为了达到这一目标,Hadoop 实现了一个分布式文件系统 HDFS(Hadoop Distributed File

System)。分布式的 HDFS 有高容错性的特点,其数据节点可运行和存储在大量低廉的硬件(如

PC 服务器)上,降低系统总体拥有成本。 这一技术层面相关的标准包括 POSIX 标准(Portable

Operating System Interface,可移植操作系统接口)。POSIX 标准是 IEEE 为要在各种 UNIX

操作系统上运行的软件而定义的一系列 API标准的总称,定义了操作系统应该为应用程序提供

的接口标准,其中包括 IEEE 1003和国际标准名称 ISO/IEC 9945。 分布式环境下严格实现 POSIX

标准是非常困难和低效的,HDFS针对分析型大数据一次写入后不再修改的特点,放宽了 POSIX

的要求,实现了分布式文件系统中按流访问数据的能力。除了分布式文件系统,Apache 还在

HDFS 之上实现了分布式大表存储 HBase。

同时 Hadoop还结合 MapReduce 计算模型提供了批处理计算框架 Hadoop MapReduce,该框

架可以直接访问 HDFS 和 HBase 上的数据进行分析计算。但早期 Hadoop MapReduce v1 系列依

赖于集中的元数据,这些元数据运行和存储在名字节点上,一定程度上形成系统瓶颈,且不能

为 MapReduce之外的计算模型服务。Hadoop MapReduce v2系列对资源管理进行了改进,推出

了 YARN,为 Hadoop的再次崛起打下了基础。

此外 Apache还在 Hadoop 基础上提供了很多数据传输、数据分析处理、管理与协同等工具,

如 Avro、Hive、Pig、OoZie、ZooKeeper、Mahout、Tez 等等,使 Apache Hadoop 系列成为大

数据开源界最有影响力的产品。

很多公司在 Apache Hadoop 的基础上进一步完善、开源自己的产品,最为著名的包括

Cloudera CDH(Cloudera’s Distribution Hadoop)版本,Hortonworks HDP(Hortonworks Data

Platform)版本等。

3.5.2 Storm

Hadoop MapReduce 是批处理计算模型,其任务运行一次常常长达数小时、甚至几天或更

长的周期;即便是几十条记录的小数据,MapReduce 处理一次也需要几秒的时间。也就是说,

MapReduce 不适合分析处理实时性要求强的业务。这种情况下,可以采用流计算框架来进行改

进。

Page 53: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

49

Storm是 Twitter正式开源的一个分布式的、容错的实时流计算系统,能够逐条接收和处

理数据记录,具有很好的实时响应特性。Storm实时计算提供了一组通用原语,可被用于“流

处理”之中,实时处理消息并更新数据。借助实时的信息交互与通讯组件(如 Kafka、ZeroMQ、

Netty 等),Storm对大数据中的记录进行逐条处理,响应实时性可以达到秒级别甚至更短。

而且 Storm 能与 HDFS、YARN 有效集成,进一步拓展了其在大数据领域的适用范围。目前

Storm 已成为 ASF下的顶级项目。

3.5.3 Spark

很多大数据分析场景需要多步骤的、迭代的分析计算,每次 Map 或 Reduce 都需要大量文

件 IO、排序等处理。虽然采用固态硬盘(SSD)等硬件可以提升一部分性能,但与内存中的数

据访问与计算相比就慢了很多。

Spark是一个以 Map-Reduce 计算模型为原型实现的高效迭代计算框架,由 Berkeley计算

机系 AMPLab 实验室开发,并于 2010 年发布第一个版本。相比 Map-Reduce 计算模型,它通过

把数据放入内存(RDD,弹性数据集)和有向无环图(DAG)任务计划安排,大幅度缩减了批量

迭代计算中的 IO耗时呵和任务效率,可大幅度提升计算效率。据 http://spark.apache.org/

网站说明, Spark程序在磁盘和内存中分别比同类 Hadoop MapReduce要快 10倍和 100倍。

Spark 除了能与 HDFS、 YARN 有效集成,伯克利大学为其支持流处理能力提供了 Spark

Streaming 组件,使具有了更快的分析计算响应速度。目前 Spark也已成为 ASF 下的顶级项目,

并已经被 FaceBook、Twitter、亚马逊、百度、淘宝等多家国际化互联网公司的大数据团队所

使用, 是近年来迅速成长起来的大数据分析计算技术体系。

3.5.4 NoSQL 数据库系列

传统关系型数据库运用通常离不开SQL。 而NoSQL则是Not Only SQL的首字母缩写。 NoSQL

数据库通过降低对数据的一致性要求,相比关系数据库而言更适应分布式应用。这一特性使得

NoSQL 数据库更能适合大数据应用。

Page 54: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

50

常见 NoSQL 可以按照其数据组织与结构进一步细分为键值(Key-Value)存储数据库、列存

储数据库、文档型数据库以及图数据库等。除了前面提及的 Apache HBase,目前使用最广泛

NoSQL 数据包括:

(1)Mongo DB

Mongo DB是在 IT行业非常流行的一种文档型数据库,不支持 SQL。Mongo DB 很好的实现

了面向对象的思想, 每一条记录都是一个 Document 对象,而且性能优秀。与 HDFS、HBase 的

一次写入多次读取设计不同,通过开发人员调用其 API方法可以轻松的实现记录的高性能 CRUD

操作。

(2)Redis

Redis 是一个内存型的 key-value 数据库,也不支持 SQL。它具有优异的网络性能,可基

于内存亦可基于持久化日志组织和存储数据,并提供有多种语言的 API。由于 Redis 是由 C语

言实现,对内存中记录的 CRUD 操作具有非常卓越的性能,使其获得了非常广泛的使用。

3.5.5 其它

3.5.1-3.5.4 章节中的开源产品是目前国内外应用最多的大数据产品,它们分别提供了大数

据的分布式存储能力、大数据的分布式计算能力(包括分布式批处理计算能力和分布式流计

算)。基于这些能力可以满足一些大数据应用基础的存储和计算需求,已得到广泛应用。

为了更好从数据中挖掘识别潜在的价值,洞察数据规律,经过大量科学家和工程师的努力,

发明很多机器学习、人工智能和深度学习的算法,开发了开源软件实现。在大数据下,这些开

源程序也正逐步优化改进,以适应大数据挖掘分析的需求。

3.6 大数据发展趋势分析

中国的大数据应用处在起步阶段, 但随着政府、金融、医疗、消费、电力、制造等领域对

大数据技术的应用加强, 大数据开始走入核心业务。预计 2015年中国大数据产业的发展趋势:

(1)云计算和大数据深度融合

Page 55: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

51

云计算提供了大数据的处理需要的海量存储、计算和弹性扩展。云计算正在变成基础设施,

各平台间的技术和服务能力差距持续缩小。预计 2015 年云平台的价格战继续,数据平台和应

用能力将成为差异化的重要指标,各大云平台将在大数据研发方面加大投入。

(2)围绕数据生产、开发、服务和流通的大数据生态系统正在构建

随着大型企业和政府对大数据的重视和对亮点应用的坚持,一些在垂直领域经营多年的行

业 ISV开始向大数据平台转型,在大安全、电力、烟草等数据丰富的行业率先突破,产出一些

标杆性的行业解决方案。前期很多概念型的产品,如交易市场,会逐渐聚焦和简化,在一些垂

直行业和具体场景落地。

(3)开源技术不断进步,互联网公司助力企业市场

开源技术迭代太快,一般企业难以跟进,大数据技术和模式创新将继续由互联网公司主导。

互联网公司本身是大数据技术的发起和受益者,随着互联网+和大数据进入政府和大型企业,

互联网公司的思维、运作方式,以及其经过实战磨合的数据平台,将在企业市场对传统企业硬

软件公司带来极大冲击。

(4)数据安全和认证体系日益重要,2015年将成为各企业的必争之地。

Page 56: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

52

4 大数据参考架构和关键技术

4.1 大数据参考架构

大数据作为一种新兴技术,目前尚未形成完善、达成共识的技术标准体系。本章结合 NIST

和 JTC1/SC32的研究成果,结合我们对大数据的理解和分析,提出了大数据参考架构(见图 5)。

图 5 大数据参考架构图

大数据参考架构总体上可以概括为“一个概念体系,二个价值链维度”。“一个概念体系”

是指它为大数据参考架构中使用的概念提供了一个构件层级分类体系,即“角色—活动—功能

组件”,用于描述参考架构中的逻辑构件及其关系;“二个价值链维度”分别为“IT价值链”

Page 57: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

53

和“信息价值链”,其中“IT价值链”反映的是大数据作为一种新兴的数据应用范式对 IT技

术产生的新需求所带来的价值,“信息价值链”反映的是大数据作为一种数据科学方法论对数

据到知识的处理过程中所实现的信息流价值。这些内涵在大数据参考模型图中得到了体现。

大数据参考架构是一个通用的大数据系统概念模型。它表示了通用的、技术无关的大数据

系统的逻辑功能构件及构件之间的互操作接口,可以作为开发各种具体类型大数据应用系统架

构的通用技术参考框架。其目标是建立一个开放的大数据技术参考架构,使系统工程师、数据

科学家、软件开发人员、数据架构师和高级决策者,能够在可以互操作的大数据生态系统中制

定一个解决方案,解决由各种大数据特征融合而带来的需要使用多种方法的问题。它提供了一

个通用的大数据应用系统框架,支持各种商业环境,包括紧密集成的企业系统和松散耦合的垂

直行业,有助于理解大数据系统如何补充并有别于已有的分析、商业智能、数据库等传统的数

据应用系统。

大数据参考架构采用构件层级结构来表达大数据系统的高层概念和通用的构件分类法。

从构成上看,大数据参考架构是由一系列在不同概念层级上的逻辑构件组成的。这些逻辑构件

被划分为三个层级,从高到低依次为角色、活动和功能组件。最顶层级的逻辑构件是角色,包

括系统协调者、数据提供者、大数据应用提供者、大数据框架提供者、数据消费者、安全和隐

私、管理。第二层级的逻辑构件是每个角色执行的活动。第三层级的逻辑构件是执行每个活动

需要的功能组件。

大数据参考架构图的整体布局按照代表大数据价值链的两个维度来组织,即信息价值链

(水平轴)和 IT 价值链(垂直轴)。在信息价值链维度上,大数据的价值通过数据的收集、

预处理、分析、可视化和访问等活动来实现。在 IT 价值链维度上,大数据价值通过为大数据

应用提供存放和运行大数据的网络、基础设施、平台、应用工具以及其他 IT 服务来实现。大

数据应用提供者处在两个维的交叉点上,表明大数据分析及其实施为两个价值链上的大数据利

益相关者提供了价值。

五个主要的模型构件代表在每个大数据系统中存在的不同技术角色:系统协调者、数据提

供者、大数据应用提供者、大数据框架提供者和数据消费者。另外两个非常重要的模型构件是

Page 58: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

54

安全隐私与管理,代表能为大数据系统其他五个主要模型构件提供服务和功能的构件。这两个

关键模型构件的功能极其重要,因此也被集成在任何大数据解决方案中。

参考架构可以用于多个大数据系统组成的复杂系统(如堆叠式或链式系统),这样其中一

个系统的大数据使用者可以作为另外一个系统的大数据提供者。

参考架构逻辑构件之间的关系用箭头表示,包括三类关系:“数据”、“软件”和“服务

使用”。“数据”表明在系统主要构件之间流动的数据,可以是实际数值或引用地址。“软件”

表明在大数据处理过程中的支撑软件工具。“服务使用”代表软件程序接口。虽然此参考架构

主要用于描述大数据实时运行环境,但也可用于配置阶段。大数据系统中涉及的人工协议和人

工交互没有被包含在此参考架构中。

(1)系统协调者

系统协调者角色提供系统必须满足的整体要求,包括政策、治理、架构、资源和业务需求,

以及为确保系统符合这些需求而进行的监控和审计活动。系统协调者角色的扮演者包括业务领

导、咨询师、数据科学家、信息架构师、软件架构师、安全和隐私架构师、网络架构师等。系

统协调者定义和整合所需的数据应用活动到运行的垂直系统中。系统协调者通常会涉及到更多

具体角色,由一个或多个角色扮演者管理和协调大数据系统的运行。这些角色扮演者可以是人,

软件或二者的结合。系统协调者的功能是配置和管理大数据架构的其他组件,来执行一个或多

个工作负载。这些由系统协调者管理的工作负载,在较低层可以是把框架组件分配或调配到个

别物理或虚拟节点上,在较高层可以是提供一个图形用户界面来支持连接多个应用程序和组件

的工作流规范。系统协调者也可以通过管理角色监控工作负载和系统,以确认每个工作负载都

达到了特定的服务质量要求,还可能弹性地分配和提供额外的物理或虚拟资源,以满足由变化

/激增的数据或用户/交易数量而带来的工作负载需求。

(2)数据提供者

数据提供者角色为大数据系统提供可用的数据。数据提供者角色的扮演者包括企业、公共

代理机构、研究人员和科学家、搜索引擎、Web/FTP 和其他应用、网络运营商、终端用户等。

在一个大数据系统中,数据提供者的活动通常包括采集数据、持久化数据、对敏感信息进行转

Page 59: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

55

换和清洗、创建数据源的元数据及访问策略、访问控制、通过软件的可编程接口接口实现推或

拉式的数据访问、发布数据可用及访问方法的信息等。

数据提供者通常需要为各种数据源(原始数据或由其它系统预先转换的数据)创建一个抽

象的数据源,通过不同的接口提供发现和访问数据功能。这些接口通常包括一个注册表,使得

大数据应用程序能够找到数据提供者、确定包含感兴趣的数据、理解允许访问的类型、了解所

支持的分析类型、定位数据源、确定数据访问方法、识别数据安全要求、识别数据保密要求以

及其他相关信息。因此,该接口将提供注册数据源、查询注册表、识别注册表中包含标准数据

集等功能。

针对大数据的 4V 特性和系统设计方面的考虑,暴露和访问数据的接口需要根据变化的复

杂性采用推和拉两种软件机制。这两种软件机制包括订阅事件、监听数据馈送、查询特定数据

属性或内容,以及提交一段代码来执行数据处理功能。由于需要考虑大数据量跨网络移动的经

济性,接口还可以允许提交分析请求(例如,执行一段实现特定算法的软件代码),只把结果

返回给请求者。数据访问可能不总是自动进行,可以让人类角色登录到系统提供新数据应传送

的方式(例如,基于数据馈送建立订阅电子邮件)。

(3)大数据应用提供者

大数据应用提供者在数据的生命周期中执行一系列操作,以满足系统协调者建立的系统要

求及安全和隐私要求。大数据应用提供者通过把大数据框架中的一般性资源和服务能力相结

合,把业务逻辑和功能封装成架构组件,构造出特定的大数据应用系统。大数据应用提供者角

色的扮演者包括应用程序专家、平台专家、咨询师等。大数据应用提供者角色执行的活动包括

数据的收集、预处理、分析、可视化和访问。

大数据应用程序提供者可以是单个实例,也可以是一组更细粒度大数据应用提供者实例的

集合,集合中的每个实例执行数据生命周期中的不同活动。每个大数据应用提供者的活动可能

是由系统协调者、数据提供者或数据消费者调用的一般服务,如 Web服务器、文件服务器、一

个或多个应用程序的集合或组合。每个活动可以由多个不同实例执行,或者单个程序也可能执

行多个活动。每个活动都能够与大数据框架提供者、数据提供者以及数据消费者交互。这些活

Page 60: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

56

动可以并行执行,也可以按照任意的数字顺序执行,活动之间经常需要通过大数据框架提供者

的消息和通信框架进行通信。大数据应用提供者执行的活动和功能,特别是数据收集和数据访

问活动,需要与安全和隐私角色进行交互,执行认证/授权并记录或维护数据的出处。

收集活动用于处理与数据提供者的接口。它可以是一般服务,如由系统协调者配置的用于

接收或执行数据收集任务的文件服务器或 Web服务器;也可以是特定于应用的服务,如用来从

数据提供者拉数据或接收数据提供者推送数据的服务。收集活动执行的任务类似于 ETL的抽取

(extraction)环节。收集活动接收到的数据通常需要大数据框架提供者的处理框架来执行内

存队列缓存或其他数据持久化服务。

预处理活动执行的任务类似于 ETL的转换(transformation)环节,包括数据验证、清洗、

去除异常值、标准化、格式化或封装。预处理活动也是大数据框架提供者归档存储的数据来源,

这些数据的出处信息一般也要被验证并附加到数据存储中。预处理活动也可能聚集来自不同的

数据提供者的数据,利用元数据键来创建一个扩展的和增强的数据集。

分析活动的任务是实现从数据中提取出知识。这需要有特定的数据处理算法对数据进行处

理,以便从数据中得出能够解决技术目标的新洞察。分析活动包括对大数据系统低级别的业务

逻辑进行编码(更高级别的业务流程逻辑由系统协调者进行编码),它利用大数据框架提供者

的处理框架来实现这些关联的逻辑,通常会涉及到在批处理或流处理组件上实现分析逻辑的软

件。分析活动还可以使用大数据框架提供者的消息和通信框架在应用逻辑中传递数据和控制功

能。

可视化活动的任务是将分析活动结果以最利于沟通和理解知识的方式展现给数据消费者。

可视化的功能包括生成基于文本的报告或者以图形方式渲染分析结果。可视化的结果可以是静

态的,存储在大数据框架提供者中供以后访问。更多的情况下,可视化活动经常要与数据消费

者、大数据分析活动以及大数据提供者的处理框架和平台进行交互,这就需要基于数据消费者

设置的数据访问参数来提供交互式可视化手段。可视化活动可以完全由应用程序实现,也可以

使用大数据框架提供者提供的专门的可视化处理框架实现。

Page 61: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

57

访问活动主要集中在与数据消费者的通信和交互。与数据收集活动类似,访问活动可以是

由系统协调者配置的一般服务,如 Web服务器或应用服务器,用于接受数据消费者请求。访问

活动还可以作为可视化活动、分析活动的界面来响应数据消费者的请求,并使用大数据框架提

供者的处理框架和平台来检索数据,向数据消费者请求作出响应。此外,访问活动还要确保为

数据消费者提供描述性和管理性元数据,并把这些元数据作为数据传送给数据消费者。访问活

动与数据消费者的接口可以是同步或异步的,也可以使用拉或推软件机制进行数据传输。

(4)大数据框架提供者

大数据框架提供者角色为大数据应用提供者在创建特定的大数据应用系统时提供一般资

源和服务能力。大数据框架提供者的角色扮演者包括数据中心、云提供商、自建服务器集群等。

大数据框架提供者执行的活动和功能包括提供基础设施(物理资源、虚拟资源)、数据平台(文

件存储、索引存储)、处理框架(批处理、交互、流处理)、消息和通信框架、资源管理等。

基础设施为其他角色执行活动提供存放和运行大数据系统所需要的资源。通常情况下,这

些资源是物理资源的某种组合,用来支持相似的虚拟资源。资源一般可以分为网络、计算、存

储和环境。网络资源负责数据在基础设施组件之间的传送;计算资源包括物理处理器和内存,

负责执行和保持大数据系统其他组件的软件;存储资源为大数据系统提供数据持久化能力;环

境资源是在考虑建立大数据系统时需要的实体工厂资源,如供电、制冷等。

数据平台通过相关的应用编程接口(API)或其他方式,提供数据的逻辑组织和分发服务。

它也可能提供数据注册、元数据以及语义数据描述等服务。逻辑数据组织的范围涵盖从简单的

分隔符平面文件到完全分布式的关系存储或列存储。数据访问方式可以是文件存取 API或查询

语言(如 SQL)。通常情况下,实现的大数据系统既能支持任何基本的文件系统存储,也支持

内存存储、索引文件存储等方式。

处理框架提供必要的基础软件以支持实现的应用能够处理具有 4V 特征的大数据。处理框

架定义了数据的计算和处理是如何组织的。大数据应用依赖于各种平台和技术,以应对可扩展

的数据处理和分析的挑战。处理框架一般可以分为批处理(batch)、流处理(streaming)和

交互式(interactive)三种类型。

Page 62: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

58

消息和通信框架为可水平伸缩的集群的结点之间提供可靠队列、传输、数据接收等功能。

它通常有 2种实现模式,即点对点(point-to-point)模式和存储-转发(store-and-forward)

模式。点对点模式不考虑消息的恢复问题,数据直接从发送者传送给接收者。存储-转发模式

提供消息持久化和恢复机制,发送者把数据发送给中介代理,中介代理先存储消息然后再转发

给接收者。

资源管理活动负责解决由于大数据的数据量和速度特征而带来的对 CPU、内存、I/O 等资

源管理问题。有两种不同的资源管理方式,分别是框架内(intra-framework)资源管理和框

架间(inter-framework)资源管理。框架内资源管理负责框架自身内部各组件之间的资源分

配,由框架负载驱动,通常会为了最小化框架整体需求或降低运行成本而关闭不需要的资源。

框架间资源管理负责大数据系统多个存储框架和处理框架之间的资源调度和优化管理,通常包

括管理框架的资源请求、监控框架资源使用,以及在某些情况下对申请使用资源的应用队列进

行管理等。特别的,针对大数据系统负载多变、用户多样、规模较大的特点,应采用更加经济

有效的资源构架和管理方案。目前的大数据软件框架,其亮点在于高可扩展性,而本质诉求仍

然是如何实现并行化,即对数据进行分片、并为每一个分片分配相应的本地计算资源。因此,

对于基础架构而言,为了支持大数据软件框架,最直接的实现方式就是将一份计算资源和一份

存储资源进行绑定,构成一个资源单位(如,服务器),以获得尽可能高的本地数据访问性能。

但是,这种基础架构由于计算同存储之间紧耦合且比例固定,逐渐暴露出资源利用率低、重构

时灵活性差等问题。因此,未来应通过硬件及软件各方面的技术创新,在保证本地数据访问性

能的同时,实现计算与存储资源之间的松耦合,即:可以按需调配整个大数据系统中的资源比

例,及时适应当前业务对计算和存储的真实需要;同时,可以对系统的计算部分进行快速切换,

真正满足数据技术(DT)时代对“以数据为中心、按需投入计算”的业务要求。

(5)数据消费者

数据消费者角色接收大数据系统的输出。与数据提供者类似,数据消费者可以是终端用户

或者其它应用系统。数据消费者执行的活动通常包括搜索/检索、下载、本地分析、生成报告、

可视化等。数据消费者利用大数据应用提供者提供的界面或服务访问他感兴趣的信息,这些界

面包括数据报表、数据检索、数据渲染等。

Page 63: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

59

数据消费者角色也会通过数据访问活动与大数据应用提供者交互,执行其提供的数据分析

和可视化功能。交互可以是基于需要(demand-based)的,包括交互式可视化、创建报告,或

者利用大数据提供者提供的商务智能(BI)工具对数据进行钻取(drill-down)操作等。交互功

能也可以是基于流处理(streaming-based)或推(push-based)机制的,这种情况下消费者只

需要订阅大数据应用系统的输出即可。

(6)安全和隐私

在大数据参考架构图中,安全和隐私角色覆盖了其它五个主要角色,即系统协调者、数据

提供者、大数据框架提供者、大数据应用提供者、数据消费者,表明这五个主要角色的活动都

要受到安全和隐私角色的影响。安全和隐私角色处于管理角色之中,也意味着安全和隐私角色

与大数据参考架构中的全部活动和功能都相互关联。在安全和隐私管理模块,通过不同的技术

手段和安全措施,构筑大数据系统全方位、立体的安全防护体系,同时应提供一个合理的灾备

框架,提升灾备恢复能力,实现数据的实时异地容灾功能。

大数据安全和隐私的详细讨论见 4.3。

(7)管理

管理角色包括二个活动组:系统管理和大数据生命周期管理。系统管理活动组包括调配、

配置、软件包管理、软件管理、备份管理、能力管理、资源管理和大数据基础设施的性能管理

等活动。大数据生命周期管理涵盖了大数据生命周期中所有的处理过程,其活动和功能是验证

数据在生命周期的每个过程是否都能够被大数据系统正确地处理。

由于大数据基础设施的分布式和复杂性,系统管理依赖于两点:使用标准的协议如 SNMP

把资源状态和出错信息传送给管理组件;通过可部署的代理或管理连接子(connector)允许管

理角色监视甚至控制大数据处理框架元素。系统管理的功能是监视各种计算资源的运行状况,

应对出现的性能或故障事件,从而能够满足大数据应用提供者的服务质量(QoS)需求。在云

服务提供商提供能力管理接口时,通过管理连接子对云基础设施提供的自助服务、自我调整、

自我修复等能力进行利用和管理。大型基础设施通常包括数以千计的计算和存储节点,因此应

用程序和工具的调配应尽可能自动化。软件安装、应用配置以及补丁维护也应该以自动的方式

Page 64: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

60

推送到各结点并实现自动地跨结点复制。还可以利用虚拟化技术的虚拟映像,加快恢复进程和

提供有效的系统修补,以最大限度地减少定期维护时的停机时间。系统管理模块应能够提供统

一的运维管理,能够对包括数据中心、基础硬件、平台软件(存储、计算)和应用软件进行集

中运维、统一管理,实现安装部署、参数配置、系统监控等功能。应提供自动化运维的能力,

通过对多个数据中心的资源进行统一管理,合理的分配和调度业务所需要的资源,做到自动化

按需分配。同时提供对多个数据中心的 IT 基础设施进行集中运维的能力,自动化监控数据中

心内各种 IT 设备的事件、告警、性能,实现从业务维度来进行运维的能力。

大数据生命周期管理活动负责验证数据在生命周期中的每个过程是否都能够被大数据系

统正确地处理,它覆盖了数据从数据提供者那里被摄取到系统,一直到数据被处理或从系统中

删除的整个生命周期。由于大数据生命周期管理的任务可以分布在大数据计算环境中的不同组

织和个体,从遵循政策、法规和安全要求的视角,大数据生命周期管理包括以下活动或功能:

政策管理(数据迁移及处置策略)、元数据管理(管理数据标识、质量、访问权限等元数据信

息)、可访问管理(依据时间改变数据的可访问性)、数据恢复(灾难或系统出错时对数据进

行恢复)、保护管理(维护数据完整性)。从大数据系统要应对大数据的 4V 特征来看,大数

据生命周期管理活动和功能还包括与系统协调者、数据提供者、大数据框架提供者、大数据应

用提供者、数据消费者以及安全和隐私角色之间的交互。

4.2 大数据关键技术

4.2.1 数据收集

大数据时代,数据的来源极其广泛,数据有不同的类型和格式,同时呈现爆发性增长的态

势,这些特性对数据收集技术也提出了更高的要求。数据收集需要从不同的数据源实时的或及

时的收集不同类型的数据并发送给存储系统或数据中间件系统进行后续处理。数据收集一般可

分为设备数据收集和 Web 数据爬取两类,常常用的数据收集软件有 Splunk、Sqoop、Flume、

Logstash、Kettle 以及各种网络爬虫,如 Heritrix、Nutch 等。

Page 65: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

61

4.2.2 数据预处理

数据的质量对数据的价值大小有直接影响,低质量数据将导致低质量的分析和挖掘结果。

广义的数据质量涉及许多因素,如数据的准确性、完整性、一致性、时效性、可信性与可解释

性等。

大数据系统中的数据通常具有一个或多个数据源,这些数据源可以包括同构/异构的(大)

数据库、文件系统、服务接口等。这些数据源中的数据来源现实世界,容易受到噪声数据、数

据值缺失与数据冲突等的影响。此外数据处理、分析、可视化过程中的算法与实现技术复杂多

样,往往需要对数据的组织、数据的表达形式、数据的位置等进行一些前置处理。

数据预处理的引入,将有助于提升数据质量,并使得后继数据处理、分析、可视化过程更

加容易、有效,有利于获得更好的用户体验。数据预处理形式上包括数据清理、数据集成、数

据归约与数据转换等阶段。

数据清理技术包括数据不一致性检测技术、脏数据识别技术、数据过滤技术、数据修正技

术、数据噪声的识别与平滑技术等。

数据集成把来自多个数据源的数据进行集成,缩短数据之间的物理距离,形成一个集中统

一的(同构/异构)数据库、数据立方体、数据宽表与文件等。

数据归约技术可以在不损害挖掘结果准确性的前提下,降低数据集的规模,得到简化的数

据集。归约策略与技术包括维归约技术、数值归约技术、数据抽样技术等。

经过数据转换处理后,数据被变换或统一。数据转换不仅简化处理与分析过程、提升时效

性,也使得分析挖掘的模式更容易被理解。数据转换处理技术包括基于规则或元数据的转换技

术、基于模型和学习的转换技术等。

4.2.3 数据存储

分布式存储与访问是大数据存储的关键技术,它具有经济、高效、容错好等特点。分布式

存储技术与数据存储介质的类型和数据的组织管理形式直接相关。目前的主要数据存储介质类

Page 66: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

62

型包括内存、磁盘、磁带等;主要数据组织管理形式包括按行组织、按列组织、按键值组织和

按关系组织;主要数据组织管理层次包括按块级组织、文件级组织以及数据库级组织等。

不同的存储介质和组织管理形式对应于不同的大数据特征和应用特点。

(1)分布式文件系统

分布式文件系统是由多个网络节点组成的向上层应用提供统一的文件服务的文件系统。分

布式文件系统中的每个节点可以分布在不同的地点,通过网络进行节点间的通信和数据传输。

分布式文件系统中的文件在物理上可能被分散存储在不同的节点上,在逻辑上仍然是一个完整

的文件。使用分布式文件系统时,无需关心数据存储在哪个节点上,只需像本地文件系统一样

管理和存储文件系统的数据。

分布式文件系统的性能与成本是线性增长的关系,它能够在信息爆炸时代有的效解决数据

的存储和管理。分布式文件系统在大数据领域是最基础的,最核心的功能组件之一,如何实现

一个高扩展,高性能,高可用的分布式文件系统是大数据领域最关键的问题之一。目前常用的

分布式磁盘文件系统有 HDFS(Hadoop 分布式文件系统)、GFS(Goolge 分布式文件系统)、

KFS(Kosmos distributed file system)等;常用的分布式内存文件系统有 Tachyon 等。

(2)文档存储

文档存储支持对结构化数据的访问,不同于关系模型的是,文档存储没有强制的架构。事

实上,文档存储以封包键值对的方式进行存储。在这种情况下,应用对要检索的封包采取一些

约定,或者利用存储引擎的能力将不同的文档划分成不同的集合,以管理数据。

与关系模型不同的是,文档存储模型支持嵌套结构。例如,文档存储模型支持 XML和 JSON

文档,字段的“值”又可以嵌套存储其它文档。文档存储模型也支持数组和列值键。与键值存

储不同的是,文档存储关心文档的内部结构。这使得存储引擎可以直接支持二级索引,从而允

许对任意字段进行高效查询。支持文档嵌套存储的能力,使得查询语言具有搜索嵌套对象的能

力,XQuery 就是一个例子。主流的文档数据库有 MongoDB、CouchDB、Terrastore、RavenDB

等。

Page 67: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

63

(3)列式存储

列式存储将数据按行排序,按列存储,将相同字段的数据作为一个列族来聚合存储。当只

查询少数列族数据时,列式数据库可以减少读取数据量,减少数据装载和读入读出的时间,提

高数据处理效率。按列存储还可以承载更大的数据量,获得高效的垂直数据压缩能力,降低数

据存储开销。使用列式存储的数据库产品有传统的数据仓库产品,如 Sybase IQ、InfiniDB、

Vertica 等,也有开源的数据库产品,如 Hadoop Hbase、Infobright等。

(4)键值存储

键值存储,即 Key-Value 存储,简称 KV 存储,它是 NoSQL 存储的一种方式。它的数据按

照键值对的形式进行组织、索引和存储。KV 存储非常适合不涉及过多数据关系和业务关系的

业务数据,同时能有效减少读写磁盘的次数,比 SQL 数据库存储拥有更好的读写性能。键值存

储一般不提供事务处理机制。主流的键值数据库产品有 Redis、Apache Cassandra、Google

Bigtable 等。

(5)图形数据库

图形数据库是主要用于存储事物及事物之间的相关关系,这些事物整体上呈现复杂的网络

关系,可以简单的称之为图形数据。使用传统的关系数据库技术已经无法很好的满足超大量图

形数据的存储、查询等需求,比如上百万或上千万个节点的图形关系,而图形数据库采用不同

的技术来很好的解决图形数据的查询,遍历,求最短路径等需求。在图形数据库领域,有不同

的图模型来映射这些网络关系,比如超图模型,以及包含节点、关系及属性信息的属性图模型

等。图形数据库可用于对真实世界的各种对象进行建模,如社交图谱,以反应这些事物之间的

相互关系。主流的图形数据库有 Google Pregel、Neo4j、Infinite Graph、DEX、InfoGrid、

AllegroGraph、GraphDB、HyperGraphDB等。

(6)关系数据库

关系模型是最传统的数据存储模型,它使用记录(由元组组成)按行进行存储,记录存储

在表中,表由架构界定。表中的每个列都有名称和类型,表中的所有记录都要符合表的定义。

Page 68: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

64

SQL 是专门的查询语言,提供相应的语法查找符合条件的记录,如表联接(Join)。表联接可

以基于表之间的关系在多表之间查询记录。表中的记录可以被创建和删除,记录中的字段也可

以单独更新。关系模型数据库通常提供事务处理机制,这为涉及多条记录的自动化处理提供了

解决方案。对不同的编程语言而言,表可以被看成数组、记录列表或者结构。表可以使用 B树

和哈希表进行索引,以应对高性能访问。

传统的关系型数据库厂商结合其它技术改进关系型数据库,比如分布式集群、列式存储,

支持 XML,Json等数据的存储。

(7)内存存储

内存存储是指内存数据库(MMDB)将数据库的工作版本放在内存中,由于数据库的操作都

在内存中进行,从而磁盘 I/O 不再是性能瓶颈,内存数据库系统的设计目标是提高数据库的效

率和存储空间的利用率。内存存储的核心是内存存储管理模块,其管理策略的优劣直接关系到

内存数据库系统的性能。基于内存存储的内存数据库产品有 Oracle TimesTen、Altibase、

eXtremeDB、Redis、RaptorDB、MemCached 等产品。

4.2.4 数据处理

分布式数据处理技术一方面与分布式存储形式直接相关,另一方面也与业务数据的温度类

型(冷数据、热数据)相关。目前主要的数据处理计算模型包括 MapReduce 计算模型、DAG

计算模型、BSP 计算模型等。

(1)MapReduce分布式计算框架

MapReduce是一个高性能的批处理分布式计算框架,用于对海量数据进行并行分析和处理。

与传统数据仓库和分析技术相比,MapReduce 适合处理各种类型的数据,包括结构化、半结构

化和非结构化数据,并且可以处理数据量为 TB 和 PB 级别的超大规模数据。

MapReduce 分布式计算框架将计算任务分为大量的并行 Map 和 Reduce 两类任务,并将

Map 任务部署到分布式集群中的不同计算机节点上并发运行,然后由 Reduce 任务对所有 Map

任务的执行结果进行汇总,得到最后的分析结果。

Page 69: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

65

MapReduce分布式计算框架可动态增加或减少计算节点,具有很高的计算弹性,并且具备

很好的任务调度能力和资源分配能力,具有很好的扩展性和容错性。MapReduce 分布式计算框

架是大数据时代最为典型的,应用最广泛的分布式运行框架之一。

最流行的 MapReduce 分布式计算框架是由 Hadoop 实现的 MapReduce 框架。Hadoop

MapReduce 基于 HDFS 和 HBase 等存储技术确保数据存储的有效性,计算任务会被安排在离数

据最近的节点上运行,减少数据在网络中的传输开销,同时还能够重新运行失败的任务。Hadoop

MapReduce 已经在各个行业得到了广泛的应用,是最成熟和最流行的大数据处理技术。

(2)分布式内存计算系统

使用分布式共享内存进行计算可以有效的减少数据读写和移动的开销,极大的提高数据处

理的性能。支持基于内存的数据计算,兼容多种分布式计算框架的通用计算平台是大数据领域

所必需的重要关键技术。除了支持内存计算的商业工具(如 SAP HANA、Oracle BigData

Appliance 等),Spark 则是此种技术的开源实现代表,它是当今大数据领域最热门的基于内

存计算的分布式计算系统。相比传统的 Hadoop MapReduce 批量计算模型,Spark 使用 DAG、迭

代计算和内存计算的方式可以带来一到两个数量级的效率提升。

(3)分布式流计算系统

在大数据时代,数据的增长速度超过了存储容量的增长,在不远的将来,人们将无法存储

所有的数据,同时,数据的价值会随着时间的流逝而不断减少,此外,很多数据涉及用户的隐

私无法进行存储。对数据流进行实时处理的技术获得了人们越来越多的关注。

数据的实时处理是一个很有挑战性的工作,数据流本身具有持续达到、速度快且规模巨大

等特点,所以需要分布式的流计算技术对数据流进行实时处理。数据流的理论及技术研究已经

有十几年的历史,目前仍旧是研究热点。当前得到广泛应用的很多系统多数为支持分布式、并

行处理的流计算系统,比较代表性的商用软件包括 IBM StreamBase和 InfoSphere Streams,

开源系统则包括 Twitter Storm、Yahoo S4、Spark Streaming 等。

Page 70: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

66

4.2.5 数据分析

大数据分析技术包括已有数据信息的分布式统计分析技术,以及未知数据信息的分布式挖

掘和深度学习技术。分布式统计分析技术基本都可藉由数据处理技术直接完成,分布式挖掘和

深度学习技术则可以进一步细分为:

(1)聚类

聚类指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。它是一种重

要的人类行为。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类是将数据分类到

不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象

有很大的相异性。

聚类是数据挖掘的主要任务之一。聚类能够作为一个独立的工具获得数据的分布状况,观

察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类还可以作为其他算法(如

分类和定性归纳算法)的预处理步骤。

聚类是数据挖掘中的一个很活跃的研究领域,传统的聚类算法可以被分为五类:划分方法、

层次方法、基于密度方法、基于网格方法和基于模型方法。传统的聚类算法已经比较成功的解

决了低维数据的聚类问题。但是由于实际应用中数据的复杂性,在处理许多问题时,现有的算

法经常失效,特别是对于高维数据和大型数据的情况。数据挖掘中的聚类研究主要集中在针对

海量数据的有效和实用的聚类方法上,聚类方法的可伸缩性、高维聚类分析、分类属性数据聚

类、具有混合属性数据的聚类和非距离模糊聚类等问题是目前数据挖掘研究人员最为感兴趣的

方向。

(2)分类

分类是指在一定的有监督的学习前提下,将物体或抽象对象的集合分成多个类的过程。也

可以认为,分类是一种基于训练样本数据(这些数据已经被预先贴上了标签)区分另外的样本

数据标签的过程,即另外的样本数据应该如何贴标签。用于解决分类问题的方法非常多,常用

的分类方法主要有决策树,贝叶斯,人工神经网络,K-近邻,支持向量机,逻辑回归,随机森

林等方法。

Page 71: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

67

决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,

它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的

是找出属性和类别间的关系,用它来预测将来未知类别的记录的类别。它采用自顶向下的递归

方式,在决策树的内部节点进行属性的比较,并根据不同属性值判断从该节点向下的分支,在

决策树的叶节点得到结论。

贝叶斯(Bayes)分类算法是一类利用概率统计知识进行分类的算法,如朴素贝叶斯(Naive

Bayes)算法。这些算法主要利用 Bayes 定理来预测一个未知类别的样本属于各个类别的可能

性,选择其中可能性最大的一个类别作为该样本的最终类别。

人工神经网络(Artificial Neural Networks,ANN)是一种应用类似于大脑神经突触联

接的结构进行信息处理的数学模型。在这种模型中,大量的节点(或称“神经元”,或“单元”)

之间相互联接构成网络,即“神经网络”,以达到处理信息的目的。神经网络通常需要进行训

练,训练的过程就是网络进行学习的过程。训练改变了网络节点的连接权的值使其具有分类的

功能,经过训练的网络就可用于对象的识别。 目前,神经网络已有上百种不同的模型,常见

的有 BP 网络、径向基 RBF 网络、Hopfield 网络、随机神经网络(Boltzmann 机)、竞争神经

网络(Hamming网络,自组织映射网络)等。但是当前的神经网络仍普遍存在收敛速度慢、计

算量大、训练时间长和不可解释等缺点。

k-近邻(kNN,k-Nearest Neighbors)算法是一种基于实例的分类方法。该方法就是找出

与未知样本 x距离最近的 k 个训练样本,看这 k个样本中多数属于哪一类,就把 x归为那一类。

k-近邻方法是一种懒惰学习方法,它存放样本,直到需要分类时才进行分类,如果样本集比较

复杂,可能会导致很大的计算开销,因此无法应用到实时性很强的场合。

支持向量机(SVM,Support Vector Machine)是 Vapnik根据统计学习理论提出的一种新

的学习方法,它的最大特点是根据结构风险最小化准则,以最大化分类间隔构造最优分类超平

面来提高学习机的泛化能力,较好地解决了非线性、高维数、局部极小点等问题。对于分类问

题,支持向量机算法根据区域中的样本计算该区域的决策曲面,由此确定该区域中未知样本的

类别。

Page 72: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

68

逻辑回归是一种利用预测变量(数值型或离散型)来预测事件出现概率的模型,主要应用

于生产欺诈检测,广告质量估计,以及定位产品预测等。

(3)关联分析

关联分析是一种简单、实用的分析技术,就是发现存在于大量数据集中的关联性或相关性,

从而描述了一个事物中某些属性同时出现的规律和模式。关联分析在数据挖掘领域也称为关联

规则挖掘。

关联分析是从大量数据中发现项集之间有趣的关联和相关联系。关联分析的一个典型例子

是购物篮分析。该过程通过发现顾客放人其购物篮中的不同商品之间的联系,分析顾客的购买

习惯。通过了解哪些商品频繁地被顾客同时购买,这种关联的发现可以帮助零售商制定营销策

略。其他的应用还包括价目表设计、商品促销、商品的排放和基于购买模式的顾客划分。

关联分析的算法主要分为广度优先算法和深度优先算法两大类。应用最广泛的广度优先算

法有 Apriori,AprioriTid,AprioriHybrid,Partition,Sampling,DIC(Dynamic Itemset

Counting)等算法。主要的深度优先算法有 FP-growth, Eclat( Equivalence CLAss

Transformation),H-Mine 等算法。

Apriori算法是一种广度优先的挖掘产生布尔关联规则所需频繁项集的算法,也是最著名

的关联规则挖掘算法之一。FP-growth算法是一种深度优先的关联分析算法,于 2000年由 Han

Jiawei 等人提出,FP-growth 算法基于频繁模式树(Frequent Pattern Tree,简称为 FP-tree)

发现频繁模式。

(4)深度学习

深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的

神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。深度学习的实质,是通过

构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分

类或预测的准确性。深度学习(DL,Deep Learning)的概念由 Hinton 等人于 2006 年提出,

是一种使用深层神经网络的机器学习模型。深层神经网络是指包含很多隐层的人工神经网络,

Page 73: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

69

它具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分

类。

同机器学习方法一样,深度机器学习方法也有监督学习与无监督学习之分。不同的学习框

架下建立的学习模型很是不同。例如,卷积神经网络(Convolutional neural networks,简

称 CNNs)就是一种深度的监督学习下的机器学习模型,而深度置信网(Deep Belief Nets,

简称 DBNs)就是一种无监督学习下的机器学习模型。

当前深度学习被用于计算机视觉,语音识别,自然语言处理等领域,并取得了大量突破性

的成果。运用深度学习技术,我们能够从大数据中发掘出更多有价值的信息和知识。

4.2.6 数据可视化

数据可视化(Data Visualization)运用计算机图形学和图像处理技术,将数据换为图形

或图像在屏幕上显示出来,并进行交互处理。它涉及到计算机图形学、图像处理、计算机辅助

设计、计算机视觉及人机交互等多个技术领域。数据可视化概念首先来自科学计算可视化

(Visualization in Scientific Computing),科学家们不仅需要通过图形图像来分析由计

算机算出的数据,而且需要了解在计算过程中数据的变化。

随着计算机技术的发展,数据可视化概念已大大扩展,它不仅包括科学计算数据的可视化,

而且包括工程数据和测量数据的可视化。学术界常把这种空间数据的可视化称为体视化

(Volume Visualization)技术。近年来,随着网络技术和电子商务的发展,提出了信息可视

化(Information Visualization)的要求。通过数据可视化技术,发现大量金融、通信和商

业数据中隐含的规律信息,从而为决策提供依据。这已成为数据可视化技术中新的热点。

清晰而有效地在大数据与用户之间传递和沟通信息是数据可视化的重要目标,数据可视化

技术将数据库中每一个数据项作为单个图元元素表示,大量的数据集构成数据图像,同时将数

据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入

的观察和分析。

数据可视化的关键技术包括:

Page 74: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

70

(1)数据信息的符号表达技术。除了常规的文字符号和几何图形符号,各类坐标、图像

阵列、图像动画等符号技术都可以用来表达数据信息。特别是多样符号的综合使用,往往能让

用户获得不一样的沟通体验。各数据类型具体的符号表达技术形式包括各类报表、仪表盘、坐

标曲线、地图、谱图、图像帧等。

(2)数据渲染技术。例如各类符号到屏幕图形阵列的 2D 平面渲染技术、3D 立体渲染技

术等。渲染关键技术还和具体媒介相关,例如手机等移动终端上的渲染技术等。

(3)数据交互技术。除了各类 PC设备和移动终端上的鼠标、键盘与屏幕的交互技术形式,

可能还包括语音、指纹等交互技术。

(4)数据表达模型技术。数据可视化表达模型描述了数据展示给用户所需要的语言文字

和图形图像等符号信息,以及符号表达的逻辑信息和数据交互方式信息等。其中数据矢量从多

维信息空间到视觉符号空间的映射与转换关系,是表达模型最重要的内容。此外,除了数据值

的表达技术,数据趋势、数据对比、数据关系等表达技术都是表达模型中的重要内容。

大数据可视化与传统数据可视化不同。传统数据可视化技术和软件工具(如 BI)通常对

数据库或数据仓库中的数据进行抽取、归纳和组合,通过不同的展现方式提供给用户,用于发

现数据之间的关联信息。而大数据时代的数据可视化技术则需要结合大数据多类型、大体量、

高速率、易变化等特征,能够快速的收集、筛选、分析、归纳、展现决策者所需要的信息,支

持交互式可视化分析,并根据新增的数据进行实时更新。

数据可视化技术在当前是一个正在迅速发展的新兴领域,已经出现了众多的数据可视化软

件和工具,如 Tableau、Datawatch、Platfora、R、D3.js、Processing.js、Gephi、ECharts、

大数据魔镜等。许多商业的大数据挖掘和分析软件也包括了数据可视化功能,如 IBM SPSS、

SAS Enterprise Miner 等。

Page 75: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

71

4.3 大数据安全与隐私

4.3.1 大数据时代面临的挑战

大数据的应用会带来巨大社会价值和商业利益,受价值利益驱动,大数据系统也必然会面

临大量而且复杂的风险。举例来说,如果某一大数据系统产生的价值足以左右公司的发展,那

么它所面临的风险就可能是一个公司层面价值的角力,小至个人、大至国家也是如此。大数据

系统同时是复杂的,由传统的信息存储检索变为复杂的信息技术系统,进而可能是庞大的社会

工程,由此也带来了诸多安全及隐私方面的挑战。

大数据的安全性已上升到国家战略层面。在大数据时代,信息化已完全深入到国民经济与

国防建设的方方面面,从智能家居、智慧城市甚至到智慧地球,个人、企业、团体等的海量数

据为国家建设和决策提供了宏观的数据依据,大数据的安全问题将会越来越多地对国家战略产

生直接或间接的影响。

大数据的价值体现是一个从隐性价值到显性价值的动态过程。有两个关键性因素影响大数

据的价值体现:数据“由量变到质变”的动态演变以及相关数据处理技术的不断升级。单个的

数据记录对大数据结果并无太大影响,只有数据记录集合的数据量积累到一定程度时,数据才

有可能“被挖掘”从而体现其价值。随着数据处理技术的不断发展,当今看似“杂乱无序”的

数据,将来会变成一座“金矿”。现有的信息安全管理体系重点保护数据的显性价值,对数据

的隐形价值及动态性管理及防护不足。

大数据的信息窃取手段更加隐蔽和多元化。不法分子从大量的公开数据中通过数据关联手

段可以获取相关个体的隐性数据,从而导致个人的隐私泄露。通过分析金融交易数据、交通运

输信息包含轨迹信息,可以得知一个城市或地区的经济活动状态和趋势。

大数据独有的“数据污染”问题会造成严重的社会资源浪费。一些恶意攻击型的“数据污

染”会影响到企业、团体乃至国家政治及经济方面的决策,从而导致严重的后果。

Page 76: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

72

4.3.2 针对安全和隐私的考虑

大数据的商业价值是毋庸置疑的。通过大数据挖掘,企业所表现出控制力量远超以往。数

据开始成为企业的核心资产,甚至企业的金矿就蕴含在数据之中,而数据质量和数据治理正成

为企业掘金的重要手段和工具,是企业能否把握大数据机遇的重要抓手。

然而,数据质量的提升和数据治理的优化,又不完全取决于企业自身的努力。大数据商业

价值在于不断开发,而大数据应用作为新业态、新模式、新应用,痛点和难点不仅在于技术,

更重要的是无论是数据采集、整理和挖掘,还是数据产品的推广、应用,企业都将面临法律的

天花板,而隐私问题无疑是诸多法律问题中的重要一环。

在互联网时代人们似乎是觉得自己的隐私受到了威胁,而移动互联网与大数据时代无疑加

深了这种威胁。大数据时代,数据被奉为一切服务的起点与终点。人们似乎生活在一个 360度

无死角监控的环境里,周边仿佛有千万双眼睛在盯着你,以全景式方式洞察着你,同时又有从

四面八方涌来的信息将你完全淹没其中。

对于置身其中的用户而言,一方面渴望大数据时代,给自己带来更为贴心便捷的服务;另

一方面,又时刻担忧着自己的隐私安全遭受侵犯。这种焦虑从前年谷歌眼镜在发布过程中屡屡

受挫就能体现,即使谷歌眼镜事实上什么也没有做,还是无法阻挡人们对数据安全的担忧。

对于政府管理部门而言,一方面政府已经意识到数据保护和隐私保护方面的制度不完善,

并开始不断强调个人信息和隐私保护的重要性,另一方面政府似乎仍然没有从传统社会的治理

方式与管控思维中解脱出来,制度上的滞后带来的不仅是灰色地带,还有风险。

于大数据时代而言,这在本质上,就是一场商家与商家之间,用户与商家之间、政府与商

家之间的隐私之战。对于商家来说,谁更靠近用户的隐私,谁就占据更多的机会;于用户而言,

保护隐私,似乎从一开始就是个伪命题;于政府而言,安全与发展似乎总是难以抉择。

普林斯顿大学的计算机科学家阿尔文德•纳拉亚南(Arvind Narayanan)称,只要有合理的

商业动机来推动数据挖掘的进程,任何形式的隐私都是“算法上不可能”(algorithmically

impossible)的。我们无法回避这样的事实,即数据 绝不是中立的,它很难保持匿名。

Page 77: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

73

大数据与隐私之间的关系,如何进行平衡,如何把握尺度,这已成为各国立法、司法和

执法部门面临的共同难题,当然也是企业不得不思考的问题。

目前欧盟模式和美国模式是个人数据保护方面全球最有影响的两种模式。欧盟模式是由国

家主导的立法模式,国家通过立法确定个人数据保护的各项基本原则和具体法律规定。早在

1981 年欧盟理事会通过了《有关个人数据自动化处理的个人保护协定》,1995 年欧盟通过了

《关于与个人数据处理相关的个人数据保护及此类数据自由流动的指令》,欧盟后来又制定了

一系列个人数据保护相关的法律法规。美国是行业自律模式的倡导者,通过行业内部的行为规

则、规范、标准和行业协会的监督,实现行业内个人数据保护的自我约束。行业自律模式是在

充分保证个人数据自由流动的基础上保护个人数据,从而保护行业利益。

我国对于个人数据保护的立法起步较晚,目前还没有专门的《个人信息保护法》。目前国

内关于个人数据相关的法律法规主要是 2012年后颁布的三部:①2012年全国人大常委会发布

的《关于加强网络信息保护的决定》;②2013 年工信部发布的《信息安全技术公共及商用服

务信息系统个人信息保护指南》(这份标准不具有法律约束力);③2013年工信部发布的《电

信和互联网用户个人信息保护规定》。在立法缺位的情况下,容易出现“守法成本高、违法成

本低”的怪相。

今年国家在个人数据保护立法方面有很多新举措,国内个人数据保护的立法在逐步加强。

3月 15日生效的《网络交易管理办法》进一步规定了网络交易中个人信息保护的要求。

3 月 15 日生效的新《消费者权益保费法》授予工商部门对“侵害消费者个人信息依法得

到保护的权利”的执法权。

10月 10日最高人民法院发布的《关于审理利用信息网络侵害人身权益民事纠纷案件适用

法律若干问题的规定》明确了用户个人信息及隐私被侵犯的诉权。

10月 27国家网信办表示将出台 App应用程序发展管理办法,监管移动应用行业的各种乱

象。

Page 78: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

74

11 月 3 日全国人大常委会初次审议《中华人民共和国刑法修正案(九)(草案)》,并

向社会公开征求意见;《草案》包括出售、非法提供公民个人信息罪的修正案。

11 月 4 日工信部发布《通信短信息服务管理规定(征求意见稿)》向社会公开征求意见。

《意见稿》规定,任何组织或者个人不得将采用人工收集、在线自动收集、数字任意组合等手

段获得的他人的电话号码用于出售、共享和交换,或者向通过上述方式获得的电话号码发送短

信息。

从大数据关键技术来看,其数据的收集、存储、处理分析、可视化呈现等环节面临着不同

的风险、安全和隐私需求。

(1)数据收集

根据数据来源不同,大体可分为两类,一是社会团体对自身数据的采集,如企业自己的生

产、运营等数据;二是社会团体对他人数据的采集,如本企业对其它企业、社会公众、第三方

系统等的数据采集。对于前者,企业拥有正当地采集、处置权利,但对于后者,牵涉到他方甚

至多方,数据对企业存在潜在价值而进行采集的同时,是否会影响他方的利益应在考虑范围之

内。尤其在双方不对等的情况下,如企业对个人,被采集方应保留被告知甚至授权的权利,数

据采集行为应该接受社会公信力量(如政府、行业协会等)的监管和公示,以保证被采集方的

利益不受侵害,限制企业不收集、统计敏感信息以保护被采集方的隐私信息不受侵犯。

同时,数据收集过程中,应注意对数据来源进行甄别和验证,保证数据的真实性和有效性。

(2)数据存储

已采集并存储下来的数据,是真正的价值所在,也是大数据一切行为和价值的基础。对于

此,可以参考传统的信息安全手段,以保证数据的可用性、完整性、私密性为其目标。当前已

有的技术手段可提供相应的安全保障,可用性通过冗余设置,完整性有校验技术;对于私密性,

因大数据体量巨大的特性,传统的加密技术会牺牲大量的计算资源,可行性较差,应重点使用

访问控制技术和安全审计功能来保障安全。由于大数据通常的体量巨大,很难被完全复制,因

此可以通过可行的审计途径及时发现恶意行为来提高数据的安全性。

Page 79: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

75

(3)数据处理分析

处理分析行为直接对大数据执行读写操作,应设置完备的权限管理,进行明确地授权后才

能完成相应操作。具体到大数据分析,不同的分析策略会产生不同的结果和价值,通过策略制

定、执行过程进而获取结果,策略的有效性直接关联到结果的可用性,策略制定阶段,应考虑

通过应用不同的策略对结果进行相互验证,以保证分析结果的正确可用。同时,分析策略制定

也是一个优化的过程,通过策略的优化以提高计算性能,可以有效降低计算成本。

(4)数据可视化呈现

大数据经过分析处理,对结果进行可视化呈现。经大数据系统处理后的结果直接体现了数

据的价值,但同时也框定了仅对特定需求存在价值,数据所有者应当对计算结果进行评估,评

估其有效性、可用性,如必要,进行相应的优化调整。同时应采取必要的安全策略,如访问控

制、认证授权等对分析结果进行保护。

综合来说,大数据系统安全体系的建立是一个系统性的工程,需要国家从法律法规、行业

规范以及技术手段等多方面对个人隐私数据进行监管和保护。数据所有者在法律法规框架内拥

有数据的处置权利。对于社会公共数据收集和使用,在企业成为数据的合法拥有者之前,应需

要承担相应的社会责任作为其成本。具体而言,以个人隐私保护为例,应考虑是否授权企业对

个人隐私内容进行收集和使用;大数据的收集和使用,是否可以不包含个人隐私内容;对社会

公众行为的分析和获益,是否需要承担社会成本。

当前我国的法律对隐私权的保护虽然没有做出明确直接的保护性规定,但却间接地从其他

方面对公民的隐私权不容侵犯给予了确认。我国刑法主要是通过追究侵害隐私权行为刑事责任

来实现对隐私权的保护。国外对个人数据的隐私权保护有统一专业的法律和法规。新版欧盟数

据保护法规定在欧盟运营的企业一旦被发现不当利用所掌握的包括客户、供应商或自己员工在

内的个人信息,将面临最严厉的处罚,违反该法规的公司将面临最多相当于其全球营业额 5%的

罚款。美国除了采用网络隐私权保护法律法规外,还倾向采用行业自律手段。

Page 80: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

76

面对大数据安全方面的复杂性,2015 年美国国家标准与技术研究院(NIST)大数据工作

组下属安全与隐私小组针对大数据安全与隐私发布了第一版框架性草案。该草案从安全与隐私

的维度对大数据的几个关键特征:多样性、规模性、真实性、高速性、有效性进行了阐述。

4.4 参考架构下的管理能力评估

参考架构以“一个概念体系,二个价值链维度”,描绘了大数据的整个生态体系。参考架

构为从事大数据相关应用的每个个体组织提供了一个通用的大数据应用系统框架,而检验并不

断提升每个组织大数据应用高效运转的一个有效方式,是建立一套遵循参考架构的标准化的能

力评估体系,帮助每个组织对照评估指标和成熟阶段进行评价和不断改进,最终实现组织的大

数据价值最大化。

作为个体组织评估其大数据管理能力的水平,可以沿用参考架构的思想,借鉴 Gartner、

IBM、CMMI等企业和机构的研究成果,按照参考架构中的主要角色设定功能域,即一级评估指

标,再针对各功能域中的主要活动事项提出相应的二级评估指标,后续可以细化进一步的具体

评估指标项并设定分项权重,最终形成完整的大数据管理能力成熟度评价模型。

Page 81: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

77

<管理>

<安全与隐私>

<大数据应用提供者>

<系统协调者>

<

数据提供者>

<

数据消费者>

<大数据框架提供者>

· 虚拟化

· 云部署

· 云交付

· 云服务

· 安全保密制度 · 安全保密技术 · 安全保密工具 · 安全保密人员等

· 专业性人才分工· 决策层协调力度 · 复合型人才能力等

· 数据收集范围

· 数据处理种类

· 动态数据处理

· 数据量规模

· 数据治理体系

· 数据生命周期管理

· 数据资源规划

· 数据标准规范遵从

· 分布式数据处理

· 数据仓库与BI

· 数据可视化

· 数据可获得等

· 分布式计算

· 分布式存储

· 处理框架

· 索引存储

· 文件系统

· 资源管理

· 组织文化与领导意愿 · 组织架构 · 管理制度与流程 · 资金与人员等

图 6 参考架构下的管理能力评估

大数据管理能力评估模型是针对一个组织的大数据管理现状进行评估的框架,通过量化的

评估结果,组织可以清楚的定义大数据管理当前所处的发展阶段以及和未来发展方向之间的差

距。

大数据管理能力成熟度阶段分级参考如下图:

Page 82: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

78

图 7 大数据管理能力成熟度阶段分级参考图

4.5 参考架构下的开源软件

大数据开源技术促进了大数据生态系统的蓬勃发展,为组织或企业构建大数据系统提供了

丰富可供选择的开源软件。这些开源的大数据生态系统从某些方面提供了解决构建大数据系统

技术问题的解决方案,对大数据标准的制定具有积极影响。然而,从大数据系统架构角度来看,

这些开源软件从架构层次及功能上还缺少明晰的分类方法,给企业在构建大数据系统时选择哪

些开源软件造成了困惑。而大数据参考架构基于构件层级分类体系和二个价值链维度,提供了

一个通用的大数据系统参考架构,可以用于对现有大数据开源软件进行分类和映射。

通过研究收集大数据生命周期中各环节(提供、收集、存储、预处理、分析挖掘、可视化、

访问、消费等)的众多开源软件,结合大数据标准参考架构的构件层级分类法和价值链维度,

我们总结并制作了大数据开源软件分布图,如图 8 所示。该分布图一方面体现了这些开源软件

的分类及其对大数据参考架构的影响;另一方面,也为企业在构建遵循大数据标准的大数据应

用系统时可以方便地找到并选择适合的开源软件。

Page 83: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

79

管理

安全与隐私

<大数据应用提供者>

<系统协调者>

<数据

提供

者>

<数据

消费

者>

<大数据框架提供者>

主流开源主流开源

活跃开源活跃开源

在用开源在用开源

资源

管理

YARNYARN

MesosMesos

信息交互与通

KafkaZeroMQNettyMinaRabbitMQActiveMQ

KafkaZeroMQNettyMinaRabbitMQActiveMQ

OozieOozie

基础设施

OpenStackOpenStack EucalyptusEucalyptus CloudStackCloudStack OpenNebulaOpenNebula AbiCloudAbiCloud

数据组织与分布

NoSql数据库分布HBaseCassandraAccumuloVoldemortBerkeley DB

NoSql数据库分布HBaseCassandraAccumuloVoldemortBerkeley DB

内存分布RedisMemCached

RaptorDBRAMCloud

MemBase(CouchBase)

内存分布RedisMemCached

RaptorDBRAMCloud

MemBase(CouchBase)

文件系统分布HDFSTFSFastDFSGlusterFSMooseFSKFS

HayStack

文件系统分布HDFSTFSFastDFSGlusterFSMooseFSKFS

HayStack

文档数据库MongoDBTerrastoreOrientDBCouchDBRavenDB

文档数据库MongoDBTerrastoreOrientDBCouchDBRavenDB

图数据库GiraphGraphChiGoldenOrb

图数据库GiraphGraphChiGoldenOrb

计算与分析

收集

SqoopFlume

LogstashKettle

SqoopFlume

LogstashKettle

预处理

RERegex

RERegex

访问

Axis CXFSpringSqoopKettle

Axis CXFSpringSqoopKettle

分析

Hive ImpalaShark Pig Phoenix Drill Tajo Presto

Hive ImpalaShark Pig Phoenix Drill Tajo Presto

可视化

JasperReports BIRT PentahoR

JasperReports BIRT PentahoR

Gnuplot Octave Scilab MayaVi SciDAVis

Gri PGPLOT SciGraphica plotutils NCAR

Graphics ImLib3D Jfreechar D3 WebGL

InfoVis Axiis Protovis iCharts

Gnuplot Octave Scilab MayaVi SciDAVis

Gri PGPLOT SciGraphica plotutils NCAR

Graphics ImLib3D Jfreechar D3 WebGL

InfoVis Axiis Protovis iCharts

AxisCXF

Spring

AxisCXF

Spring

CXFAxis

HivePig

SqoopKettle

CXFAxis

HivePig

SqoopKettle

Ganglia Nagios Cacti Zabbix OpenNMSGanglia Nagios Cacti Zabbix OpenNMS

SELinux OSSIM OSSEC TCPDUMPSELinux OSSIM OSSEC TCPDUMP

LXC DockerLXC Docker

jBpmjBpm ActivitiActivitiZooKeeperZooKeeper

Hadoop MapReducev1 Hadoop YARN Storm SparkTez Dryad Jstorm S4 Samza Tigon FourInOne

Hadoop MapReducev1 Hadoop YARN Storm SparkTez Dryad Jstorm S4 Samza Tigon FourInOne

Mahout MLlibOryx MLBase Myrrix

Mahout MLlibOryx MLBase Myrrix

AvroThrift

AvroThrift

Todo:

框线待统一

图 8 参考架构下的开源软件

Page 84: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

80

5 大数据标准化现状

目前,大数据技术相关标准的研制还处于起步阶段,本部分对 ISO/IEC、ITU 等国际标准

化组织、NIST、国内全国信标委已经开展的标准化工作进行梳理,依据大数据技术体系,从基

础、技术、产品、应用等不同角度及进行分析,形成了大数据标准体系框架。对我国现有标准、

在研标准和将提出的标准计划进行分析,形成了大数据标准体系。对于目前急需研制的标准进

行了较为详细的分析,这部分将成为后续标准化工作的重点。

5.1 ISO/IEC JTC1 SC32 大数据标准化工作情况

ISO/IEC JTC1 SC32 “数据管理和交换”分技术委员会,是与大数据关系最为密切的标准

化组织。SC32 持续致力于研制信息系统环境内及之间的数据管理和交换标准,为跨行业领域

协调数据管理能力提供技术性支持,其标准化技术内容涵盖:协调现有和新生数据标准化领域

的参考模型和框架;负责数据域定义、数据类型和数据结构以及相关的语义等标准;负责用于

持久存储、并发访问、并发更新和交换数据的语言、服务和协议等标准;负责用于构造、组织

和注册元数据及共享和互操作相关的其他信息资源(电子商务等)的方法、语言服务和协议等

标准。SC32下设 4个工作组和几个研究组,主要内容如下:

WG1:电子业务

工作范围为:研制各组织使用的信息系统间全球互操作所需的开放电子数据交换方面的通

用 IT标准,包括商务和信息技术两方面的互操作标准。

WG2:元数据

工作范围为:研制开发和维护有利于规范和管理的元数据、元模型和本体的标准,此类标

准有助于理解和共享数据、信息和过程,支持互操作性,电子商务以及基于模型和基于服务的

开发,包括:建议用于规定和管理元数据、元模型和本体的框架;规定和管理元数据、元模型

和本体;规定和管理过程、服务和行为数据;开发管理元数据、元模型和本体的机制,包括注

册和存储;开发交换元数据、元模型和本体的机制,包括基于互联网、局域网等的语义。

WG3:数据库语言

Page 85: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

81

工作范围为:为动态规定、维护和描述多用户环境中的数据库结构和组件制定和维护语言

标准;通过规定事务提交、恢复和安全机制提供额外的对数据库管理系统完整性的支持;为存

储、访问和处理多并发用户使用的数据库结构中的数据制定和维护语言标准;为其他标准编程

语言提供开发接口;为描述数据类型和行为的其他标准提供访问接口或为开发用户提供数据库

组件。

WG4:SQL 多媒体和应用包

工作范围为:规定各种应用领域使用的抽象数据类型包的定义。每一个抽象数据类型包的

定义是使用数据库语言 SQL 标准中提供的用户定义类型机制来规定的,包括全文、空间、静态

图像、静态图形、动画、视频、音频、地震和音乐等数据包。为支持用户根据应用 API需求进

行数据管理,其他包使用 SQL 语言机制来定义,而不是用户定义类型。

2014年 6月 SC32在北京全会上,批准了 4项为大数据提供标准化支持的新工作项:国际

标准《SQL对多维数组的支持》、技术报告《SQL对 JSON的支持》、国际标准《数据集注册元

模型》和国际标准《数据源注册元模型》。其中《SQL 对 JSON的支持》由中国专家担任编辑。

SC32在 2014年北京全会期间举办了主题为“大数据标准化”的开放论坛,为国内外大数

据领域的专家学者和产业管理部门人员、IT 界的骨干企业提供了一个开放交流的平台。来自

于国内外大数据研究、应用及服务提供领域的专家学者做了相关主题报告,展现了当前大数据

技术与标准的发展和应用前景。

2015年 5月 SC32在英国全会上,批准了 2项为大数据提供标准化支持的新工作项:技术

报告《SQL 对多态表功能的支持》和技术报告《SQL 对多维数组的支持》。此外,本次会议上

我国提案“SQL 对 MapReduce 及与之相关的流数据处理的支持”得到 SC32 专家的高度肯定,

WG3 会议召集人将组织国际专家参与我国工作,共同完善该提案。

JTC1/SC32现有的标准制定和研究工作为大数据的发展提供了良好基础。

Page 86: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

82

5.2 ISO/IEC JTC1 WG9 大数据工作组工作情况

ISO/IEC JTC1 于 2013 年 11 月全会上新成立负责大数据国际标准化的大数据研究组

(ISO/IEC JTC1 SG2)。美国国家标准与技术研究院(NIST)专家 Wo Chang 担任召集人。

ISO/IEC JTC1 SG2的工作重点包括:调研国际标准化组织(ISO)、国际电工委员会(IEC)、

第 1联合技术委员会(ISO/IEC JTC1)等在大数据领域的关键技术、参考模型以及用例等标准

基础;确定大数据领域应用需要的术语与定义;评估分析当前大数据标准的具体需求,提出

ISO/IEC JTC1 大数据标准优先顺序;向 2014 年 ISO/IEC JTC1 全会提交大数据建议的技术报

告和其他研究成果。

ISO/IEC JTC1 SG2于 2014年召开了四次会议,前三次会议的形式为会议全程四天,前两

天为成果交流展示,后两天为具体标准工作讨论。第一次会议于 2014 年 3 月 18 日至 21 日在

美国圣地亚哥超级计算中心召开;第二次会议于 2014 年 5 月 13 日至 16 日在荷兰阿姆斯特丹

大学召开。第三次会议于 2014 年 6 月 16 日至 19 日在中国北京航空航天大学召开。第四次会

议于 2014年 9月 2日至 3 日在英国华为 Reading办公室召开。

2014 年 11 月,ISO/IEC JCT1 SG2 向 ISO/IEC JTC1 全会提交了研究组的研究报告,其中

包括建议成立独立的 JTC1 大数据工作组,需要标准化的大数据技术点。

根据 ISO/IEC JCT1 SG2 的建议,ISO/IEC JTC1 于 2014年 11月全会上新成立了负责大数

据国际标准化的大数据工作组(ISO/IEC JTC1 WG9)。美国国家标准与技术研究院(NIST)专

家 Wo Chang担任召集人。

ISO/IEC JTC1 WG9 的工作重点包括:开发大数据基础性标准,包括参考架构和术语;识

别大数据标准化需求;同大数据相关的 JTC1其他工作组保持联络关系;同 JTC1 外其他大数据

相关标准组织保持联络关系。目前,WG9 正在研制“Information technology - Big Data -

Overview and Vocabulary”、“Information technology - Big Data Reference Architecture

- Part 1: Framework and Application Process”、“Information technology - Big Data

Reference Architecture - Part 2: Use Cases and Derived Requirements”、“Information

technology - Big Data Reference Architecture - Part 3: Reference Architecture”、

Page 87: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

83

“Information technology - Big Data Reference Architecture - Part 4: Security and

Privacy Fabric”、“Information technology - Big Data Reference Architecture - Part

5: Standards Roadmap”国际标准。

ISO/IEC JTC1 WG9 于 2015 年计划召开三次会议,第一次会议于 2015 年 4 月 7 日至 9 日

在德国不莱梅雅各布大学召开;第二次会议计划于 2015 年 7 月 7 日至 9 在西班牙举行;第三

次会议计划于 2015年 12月在巴西召开;第四次会议计划于 2015年 3月以电话会议形式召开;

第五次会议计划于 2015年 7月在北京召开。

5.3 ITU 大数据标准化工作情况

ITU 在 2013 年 11 月发布了题目为《大数据:今天巨大,明天平常》的技术观察报告,这

个技术观察报告分析了大数据相关的应用实例,指出大数据的基本特征、促进大数据发展的技

术,在报告的最后部分分析了大数据面临的挑战和 ITU-T可能开展的标准化工作。在这份报告

中,特别提及了 NIST和 JTC1/SC32 正在开展的工作。

从 ITU-T的角度来看,大数据发展面临的最大挑战包括:数据保护、隐私和网络安全;法

律和法规的完善。根据 ITU-T现有的工作基础,开展的标准化工作包括:高吞吐量、低延迟、

安全、灵活和规模化的网络基础设施;汇聚数据机和匿名;网络数据分析;垂直行业平台的互

操作;多媒体分析;开放数据标准。

目前,ITU-T 的大数据标准化工作主要是在 SG13(第 13 研究组)开展,具体包括该研究

组下设的 Q2(第 2 课题组)、Q17(第 17 课题组)以及 Q18(第 18 课题组),并由 Q17 牵头

开展 ITU-T 大数据标准化路标的制定工作并负责向 TSAG(电信标准化咨询委员会)汇报。其

中,

Q2 涉及的研究课题:

Y.IoT-BigData-reqts“针对大数据的物联网具体需求和能力要求”;主要内容为描述针

对大数据在物联网数据传输、数据处理、数据存储、访问控制、数据查询和数据验证等方面的

具体需求和能力要求。目前处于标准研制阶段,标准文本已经接近完成 60%,预计 2016 年完

成标准报批。该工作主要由中国、阿尔及利亚、俄罗斯以及法国等方面的专家为主来研制。

Page 88: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

84

Q17 涉及的研究课题:

Y.BigData-reqts“基于云计算的大数据需求和能力”,主要目的为如何使用云计算途径

来解决目前大数据应用中所存的各项挑战,具体内容包括大数据定义、大数据特性、大数据功

能、大数据与云计算的关系、从电信角度看基于云计算的大数据的好处、大数据需求、能力要

求、用户案例以及应用场景等。目前该标准已经于 2015 年 8 月正式发布。该工作主要由中国、

韩国以及波兰等方面的专家为主来研制。

“Y.BigDataEX-reqts” 大数据交换需求和框架”,主要内容为描述大数据交换应用场景、

用户案例、差异分析、需求和框架。目前处于标准研制阶段,预计 2016 年完成标准报批;该

工作将主要由中国、韩国以及波兰等方面的专家为主来研制。

Q18 涉及的研究课题:

Y.BDaaS-arch“大数据即业务的功能架构”,主要目的是描述如何使用云计算来构建大数

据业务架构的方法,具体内容包括功能架构、功能部件以及部件接口(参考点)。该标准与

Y.BigData-reqts(“基于云计算的大数据需求和能力”)互为姊妹篇,也是该标准的后续阶

段。目前处于标准研制阶段,预计 2016 年完成标准报批;该工作将主要由中国、韩国以及波

兰等方面的专家为主来研制。

5.4 NIST 标准化工作情况

NIST建立的大数据公共工作组(NBD-PWG),工作范围是建立来自于产业界、学术界和政

府的公共环境,共同形成达成共识的定义、术语、安全参考体系结构和技术路线图,提出数据

分析技术应满足的互操作、可移植性、可用性和扩展性需求和安全有效地支持大数据应用的技

术基础设施,用于为大数据相关方选择最佳的方案。

NBD-PWG是一个开放工作组,欢迎来自于产业界、学术界和政府的各方面力量参与并贡献

力量。原则上,工作组每周召开一次会议。工作组下设术语和定义、用例和需求、安全和隐私、

参考体系结构和技术路线图 5个分组,目前已经完成了《大数据定义》、《大数据分类》、《大

数据用例和需求》、《大数据安全和隐私需求》、《大数据参考架构调研白皮书》、《大数据

Page 89: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

85

参考架构》和《大数据技术路线图》等输出物 V1.0 版本,并于 2015年 5月 21日前征求意见,

并同时进行 V2.0版本的工作。

5.5 全国信标委大数据标准工作组情况

大数据领域的标准化工作是支撑大数据产业发展和应用的重要基础,为了推动和规范我国

大数据产业的快速发展,建立大数据的产业链,与国际标准接轨,在工业和信息化部,国家标

准化管理委员会的领导下,社会各界朋友关心支持之下,2014年 12月 2日全国信息技术标准

化技术委员会大数据标准工作组(以下简称“工作组”)正式成立。

工作组主要负责制定和完善我国大数据领域标准体系,组织开展大数据相关技术和标准的

研究,申报国家、行业标准,承担国家、行业标准制修订计划任务,宣传、推广标准实施,组

织推动国际标准化活动。对口 ISO/IEC JTC 1/WG9 大数据工作组。

工作组组长由上海交通大学副校长梅宏院士担任。秘书处设在工业和信息化部电子工业标

准化研究院。秘书长为工业和信息化部电子工业标准化研究院高林副院长。联络员为国家标准

化管理委员会工业二部刘大山处长、工业和信息化部软件服务业司孙文龙处长和工业和信息化

部电子信息司侯建仁处长。

根据需求和实际情况,以及更好的开展相关标准化工作,2015 年 7 月工作组正式成立 7

个专题组:总体专题组、国际专题组、技术专题组、产品和平台专题组、安全专题组、工业大

数据专题组、电子商务大数据专题组,负责大数据领域不同方向的标准化工作。目前,工作组

正在研制的国家标准有 10 项,其中《信息技术 大数据 术语》国家标准进入征求意见阶段,

《信息技术 大数据 参考架构》、《信息技术 数据交易服务平台 交易数据描述》、《信息技

术 数据交易服务平台 通用功能要求》等 7 项国家标准已经完成草案。

大数据标准工作组积极研究和参与大数据领域国际标准化工作,并于 2015 年 4 月 7-9 日

参加 ISO/IEC JTC1 WG9大数据工作组第一次会议。此外,工作组还重点关注 NIST NBD-PWG大

数据公共工作组,同时,对 ITU的动态进行研究和跟踪。

Page 90: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

86

6 大数据标准体系

大数据标准体系是为实现大数据领域的标准化而形成的体系,凡是与此目的有关的大数据

领域标准之间都存在着相互依存、相互衔接、相互补充、相互制约的内在联系,最终形成科学

的有机整体。因此,要求建立的标准体系具有先进性,在应用系统科学理论和方法的基础上,

运用标准化的工作原理,着眼于寻找整套的标准内容,基于这些内容,在标准体系的内在联系

上进行统一、简化、协调和优化等处理,力求体现出系统内标准的最佳秩序,防止在标准之间

存在不配套、不协调、互相矛盾及组成不合理等问题。

6.1 大数据标准体系框架

结合国内外大数据标准化情况、国内大数据技术发展现状、大数据参考架构及标准化需求,

根据数据全周期管理,数据自身标准化特点,当前各领域推动大数据应用的初步实践,以及未

来大数据发展的趋势,我们提出了大数据标准体系框架,如图 9 所示。

大数据标准体系框架

基础

技术

产品和平台

安全

应用和服务

工具级产品

系统级产品

通用要求

隐私保护

开放数据集

领域应用数据

林业数据元素集

电子商务数据元素集

金融数据元素集

电子政务数据元素集

交通数据元素集

教育数据元素集

数据交易平台

数据开放共享平台

工业大数据

电子商务大数据

.

.

.

处理生命周期技术

收集

预处理

分析

大数据集描述与评估

质量模型

分类方法

描述模型

术语

参考架构

元数据

总则

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

可视化

.

.

.

互操作技术

.

.

.

.

.

.

访问

平台基础设施

预处理类产品

存储类产品

分布式计算工具

数据库产品

应用分析智能工具

平台管理工具类产品

.

.

.

评估

数据溯源

图 9 大数据标准体系框架

大数据标准体系由五个类别的标准组成,分别为:基础标准、技术标准、产品和平台标准、

安全标准、应用和服务标准。

Page 91: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

87

a) 基础标准

为整个标准体系提供包括总则、术语、参考模型、元数据等基础性标准。

b) 技术标准

该类标准主要针对大数据相关技术进行规范。包括大数据集描述与评估、大数据处理生命

周期技术和互操作技术三类标准。其中,大数据集描述与评估主要针对描述模型、分类方法、

质量模型、评估和数据溯源等方面进行规范。大数据处理生命周期技术主要针对数据的收集、

预处理、分析、可视化、访问等方面进行规范。

c) 产品和平台标准

该类标准主要针对大数据相关技术产品和应用平台进行规范,包括系统级产品和工具级产

品相关标准及测试规范。其中,工具级产品规范包括平台基础设施、预处理类产品、存储类产

品、分布式计算工具、数据库产品、应用分析智能工具、平台管理工具类产品的的技术、功能、

接口等进行规范。相应的测试规范针对相关产品和平台给出测试方法和要求。

d) 安全标准

数据安全作为数据标准的支撑体系,贯穿于数据整个生命周期的各个阶段。抛开传统的网

络安全和系统安全,大数据时代下的数据安全标准主要包括通用要求、隐私保护两类标准。

e) 应用和服务标准

应用和服务类标准主要是针对大数据所能提供的应用和服务从技术、功能、开发、维护和

管理等方面进行规范。主要包括开放数据集、数据交易平台、数据开放共享平台和领域应用数

据四类标准。其中开放数据集标准主要对向第三方提供的开放数据包中的内容、格式等进行规

范;数据交易平台和数据开放共享平台标准是针对大数据服务平台所提出的功能性、维护性和

管理性的标准;领域应用数据指的是各领域根据其领域特性产生的专用数据标准,包括工业、

电子商务等领域。

Page 92: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

88

6.2 大数据标准明细表

根据大数据标准体系框架,整理出已发布、已报批、已立项、已申报、在研以及拟研制的

大数据相关国家标准 93 项,大数据标准明细表如下:

一级

分类

二级分

三级分

国家标准编

号 标准名称

采用标准号及采用

程度 状态

1.

基础

总则 信息技术 大数据标准化指南 拟 研

2. 术语 20141191-T-

469 信息技术 大数据 术语 在研

3.

参考架

20141190-T-

469 信息技术 大数据 参考架构 在研

4. 信息技术 大数据参考架构 第 1 部

分 框架和应用指南

拟 研

5. 信息技术 大数据参考架构 第 2 部

分 用例和需求

拟 研

6. 信息技术 大数据参考架构 第 5 部

分 标准路线图

拟 研

7. 基于大数据参考架构下的接口框架 拟 研

8.

元数据

GB/T

18142-2000 信息技术 数据元素值格式记法

ISO/IEC 14957:

1996,IDT 已 发

9. 20101507-T-

469

信息技术 数据元素值表示--格式

记法

修 订 GB/T

18142-2000:ISO/IE

C FDIS 14957:2009

在研

10. GB/T18391.

1-2009

信息技术元数据注册系统(MDR) 第

1 部分:框架

ISO/IEC11179-1:

2004,IDT

已 发

11. GB/T18391.

2-2009

信息技术元数据注册系统(MDR) 第

2 部分:分类

ISO/IEC11179-2:

2005,IDT

已 发

12. GB/T18391.

3-2009

信息技术元数据注册系统(MDR) 第

3 部分:注册系统元模型与基本属

ISO/IEC11179-3:

2003,IDT

已 发

13. GB/T18391.

4-2009

信息技术元数据注册系统(MDR) 第

4 部分:数据定义的形成

ISO/IEC11179-4:

2004,IDT

已 发

14. GB/T18391.

5-2009

信息技术元数据注册系统(MDR) 第

5 部分:命名和标识原则

ISO/IEC11179-5:

2005,IDT

已 发

15. GB/T18391.

6-2009

信息技术元数据注册系统(MDR) 第

6 部分:注册

ISO/IEC11179-6:

2005,IDT

已 发

Page 93: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

89

16. GB/Z

21025-2007 XML 使用指南

已 发

17.

GB/T

23824.1-200

9

信息技术实现元数据注册系统内容

一致性的规程第 1 部分:数据元

ISO/IEC

TR20943-1: 2003,

IDT

已 发

18.

GB/T

23824.3-200

9

信息技术实现元数据注册系统内容

一致性的规程第 3 部分:值域

ISO/IEC

TR20943-3: 2004,

IDT

已 发

19. 20051294-T-

339

信息技术 元模型互操作性框架 第

1 部分:参考模型

已 报

20. 20051295-T-

339

信息技术 元模型互操作性框架 第

2 部分:核心模型

已 报

21. 20051296-T-

339

信息技术 元模型互操作性框架 第

3 部分:本体注册的元模型

已 报

22. 20051297-T-

339

信息技术 元模型互操作性框架 第

4 部分:模型映射的元模型

已 报

23. 20132340-T-

469

信息技术 互操作性元模型框架 第

5 部分:过程模型注册元模型 在研

24. 20132341-T-

469

信息技术 互操作性元模型框架 第

7 部分:服务模型注册元模型 在研

25. 20132342-T-

469

信息技术 互操作性元模型框架 第

8 部分:角色与目标模型注册元模

在研

26. 20132343-T-

469

信息技术 互操作性元模型框架 第

9 部分:按需模型选择 在研

27. GB/T

30881-2014

信息技术 元数据注册系统(MDR)

模块 ISO/IEC 19773:2011

已 发

28. GB/T30880-

2014

信息技术 通用逻辑(CL):基于逻

辑的语言族框架 ISO/IEC 24707:2007

已 发

29. 20080485-T-

469

跨平台的元数据检索、提取与汇交

协议

已 报

30. 2010-3325T-

SJ 信息技术元数据属性 在研

31.

技术

大数据

集描述

与评估

描述模

20141172-T-

469 多媒体数据语义描述要求 在研

32. 分类方

法 大数据分类指南

拟 研

33. 评估

20141203-T-

469 信息技术 数据质量评价指标 在研

34. 信息技术 数据质量检测 拟 研

Page 94: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

90

35. 20141184-T-

469 数据能力成熟度评价模型 在研

36. 大数据解决方案基本评估规范 拟 研

37. 数据溯

20141194-T-

469 信息技术 科学数据引用 在研

38. 20141202-T-

469 信息技术 数据溯源描述模型 在研

39.

处理生

命周期

技术

收集

20141204-T-

469 信息技术 通用数据导入接口规范 在研

40. 信息技术 通用数据导入接口测试

规范

拟 研

41.

分析

信息技术大数据分析总体技术要求 拟 研

42. 信息技术大数据分析过程模型参考

指南

拟 研

43. 可视化 大数据可视化工具通用要求 拟 研

44.

访问

GB/T

12991-2008

信息技术数据库语言 SQL 第 1 部

分:框架

ISO/IEC9075-1 :

2003,IDT

已 发

45. 20120567-T-

469

信息技术云数据存储和管理第 1 部

分:总则 在研

46. 20120568-T-

469

信息技术云数据存储和管理第 2 部

分:基于对象的云存储应用接口 在研

47. 20120569-T-

469

信息技术云数据存储和管理第 5 部

分:基于 Key-Value 的云数据管理

应用接口

在研

48.

产 品

和 平

系统级

产品

信息技术 大数据存储与处理系统

基本功能要求

拟 研

49. 信息技术 大数据存储与处理系统

功能测试规范

拟 研

50. 信息技术 大数据分析系统基本功

能要求

拟 研

51. 信息技术 大数据分析系统功能测

试规范

拟 研

52. 大数据系统运维和管理功能要求 拟 研

53. 工具级

产品

平台基

础设施

信息技术 面向大数据应用的基础

计算平台基本性能要求

拟 研

Page 95: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

91

54.

数据库

产品

GB/T

28821-1012 关系数据管理系统技术要求

已 发

55. 20080484-T-

469 关系数据库管理系统检测规范

已 报

56. 20100401-T-

469 分布式关系数据库服务接口规范

已 报

57. 20121409-T-

469 非结构化数据表示规范

已报

58. 20121410-T-

469 非结构化数据访问接口规范

已报

59. 20121411-T-

469 非结构化数据管理系统技术要求

已报

60. 20141183-T-

469 实时数据库通用接口规范 在研

61. 非结构化数据查询语言 拟 研

62.

应用分

析智能

工具

智能硬件通用大数据接口规范 拟 研

63.

大 数

据 安

通用要

GB/T

20009-2005

信息安全技术数据库管理系统安全

评估准则

已 发

64. GB/T

20273-2006

信息安全技术数据库管理系统安全

技术要求

已 发

65. GB/T

22080-2008

信息技术安全技术信息安全管理体

系要求

ISO/IEC 27001:

2005,IDT

已 发

66. GB/T

22081-2008

信息技术安全技术信息安全管理实

用规则

ISO/IEC 27002:

2005,IDT

已 发

67.

GB/T

31496-2015,

IDT

信息技术安全技术信息安全管理体

系实施指南

ISO/IEC 27003:

2010,IDT

已 发

68. 信息安全技术 大数据参考架构 第

4 部分 安全和隐私

拟 研

69. 信息安全技术 大数据安全分级指

拟 研

70. 信息安全技术大数据安全参考架构 拟 研

71. 信息安全技术 数据脱敏指南 拟 研

Page 96: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

92

72. 信息安全技术 大数据平台安全技

术要求

拟 研

73. 信息安全技术 大数据跨集群安全

技术框架

拟 研

74.

隐私保

GB/Z

28828-2012

信息安全技术公共及商用服务信息

系统个人信息保护指南

已 发

75. 20130323-T-

469

信息安全技术个人信息保护管理要

求 在研

76. 20130338-T-

469

信息安全技术移动智能终端个人信

息保护技术要求 在研

77. 信息安全技术个人信息保护指南 已 立

78. 信息安全技术 大数据中的隐私保

护框架

拟 研

79. 信息安全技术 隐私保护评估方法 拟 研

80.

应 用

和 服

开放数

据集

开放数据集基本要求 拟 研

81. 开放数据集标识管理 拟 研

82. 数据交

易平台

20141201-T-

469

信息技术 数据交易服务平台 通用

功能要求 在研

83. 20141200-T-

469

信息技术数据交易平台 交易数据

描述 在研

84.

数据开

放共享

平台

大数据开放共享 第 1 部分:总则 拟 研

85. 大数据开放共享 第 2 部分:政府数

据开放共享基本技术要求

拟 研

86. 大数据开放共享 第 3 部分:开放程

度评价

拟 研

87.

领域应

用数据

工业大

数据

工业大数据 术语 拟 研

88. 工业大数据 参考架构 拟 研

89. 工业大数据 产品核心元数据规范 拟 研

90. 工业大数据 工业订单元数据规范 拟 研

91. 电子商

务大数 电子商务大数据采集规范

拟 研

Page 97: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

93

92. 据

电子商务大数据仓库模型规范 拟 研

93. 大数据应用指标体系 第 2 部分 电

子商务大数据

拟 研

通过对现有各类标准情况进行分析可以看出:

(1)在元数据方面,我国已经研制的一些相关标准,同样适用于大数据环境,目前急需

加强这类标准的推广应用。

(2)从技术标准上来看,数据收集、预处理、分析是大数据的特点和难点,标准较为缺

乏;在数据访问方面,目前在研多项数据库、云数据存储和管理类标准,适用于大数据底层数

据接口,但是尚缺乏数据导入、导出类标准;数据质量是大数据应用和发展的基础,目前有多

项在研标准,但是均尚未发布,较为缺乏。大数据安全方面,部分现有标准适用,但是尚缺乏

针对大数据的安全框架、隐私、访问控制类标准。

(3)针对大数据产品和平台,目前在研多项数据库、非结构化数据管理产品类标准,缺

乏大数据工具级相关产品的标准;在大数据环境下,数据也已成为产品,而针对开放数据集、

数据服务平台等新兴产品和服务形态,尚缺乏相应的标准。

综上所述,针对大数据,我国在数据管理、云计算、信息安全等方面,已经发布和在研一

些标准,适用于大数据环境,提供了一定的基础,但是缺乏标准化整体规划;数据分析、数据

安全、数据质量管理等技术标准,数据处理平台、开放数据集、数据服务平台类新型产品和服

务形态的标准较为缺乏,急需研制。

6.3 近期急需研制标准

结合当前对大数据技术与产业发展需求的分析,根据开展的大数据技术、应用、产业与标

准化调研工作,提出近期急需重点研制的标准项目。如下所示:

一级

分类

二级分

三级分

国家标准编

号 标准名称

采用标准号及采用

程度 状态

1.

基础

总则 信息技术 大数据标准化指南 拟 研

2. 参考架

信息技术 大数据参考架构 第 1 部

分 框架和应用指南

拟 研

Page 98: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

94

3. 信息技术 大数据参考架构 第 2 部

分 用例和需求

拟 研

4. 信息技术 大数据参考架构 第 5 部

分 标准路线图

拟 研

5. 基于大数据参考架构下的接口框架 拟 研

6.

技术

大数据

集描述

与评估

分类方

法 大数据分类指南

拟 研

7.

评估

信息技术 数据质量检测 拟 研

8. 大数据解决方案基本评估规范 拟 研

9.

处理生

命周期

技术

收集 信息技术 通用数据导入接口测试

规范

拟 研

10.

分析

信息技术大数据分析总体技术要求 拟 研

11. 信息技术大数据分析过程模型参考

指南

拟 研

12. 可视化 大数据可视化工具通用要求 拟 研

13.

产 品

和 平

系统级

产品

信息技术 大数据存储与处理系统

基本功能要求

拟 研

14. 信息技术 大数据存储与处理系统

功能测试规范

拟 研

15. 信息技术 大数据分析系统基本功

能要求

拟 研

16. 信息技术 大数据分析系统功能测

试规范

拟 研

17. 大数据系统运维和管理功能要求 拟 研

18.

工具级

产品

平台基

础设施

信息技术 面向大数据应用的基础

计算平台基本性能要求

拟 研

19. 数据库

产品 非结构化数据查询语言

拟 研

20.

应用分

析智能

工具

智能硬件通用大数据接口规范 拟 研

21. 大 数

据 安

通用要

信息安全技术 大数据参考架构 第

4 部分 安全和隐私

拟 研

Page 99: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书 V2.0

95

22. 全

信息安全技术 大数据安全分级指

拟 研

23. 信息安全技术大数据安全参考架构 拟 研

24. 信息安全技术 数据脱敏指南 拟 研

25. 信息安全技术 大数据平台安全技

术要求

拟 研

26. 信息安全技术 大数据跨集群安全

技术框架

拟 研

27. 隐私保

信息安全技术 大数据中的隐私保

护框架

拟 研

28. 信息安全技术 隐私保护评估方法 拟 研

29.

应 用

和 服

开放数

据集

开放数据集基本要求 拟 研

30. 开放数据集标识管理 拟 研

31.

数据开

放共享

平台

大数据开放共享 第 1 部分:总则 拟 研

32. 大数据开放共享 第 2 部分:政府数

据开放共享基本技术要求

拟 研

33. 大数据开放共享 第 3 部分:开放程

度评价

拟 研

34.

领域应

用数据

工业大

数据

工业大数据 术语 拟 研

35. 工业大数据 参考架构 拟 研

36. 工业大数据 产品核心元数据规范 拟 研

37. 工业大数据 工业订单元数据规范 拟 研

38.

电子商

务大数

电子商务大数据采集规范 拟 研

39. 电子商务大数据仓库模型规范 拟 研

40. 大数据应用指标体系 第 2 部分 电

子商务大数据

拟 研

Page 100: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

96

7 我国大数据工作重点建议

7.1 加强大数据需求的研究

大数据需求是大数据发展的原始动力,当前各个领域、各个层次都提出了丰

富多样的应用需求。加强对大数据需求分析、开展对相关需求的研究,梳理整个

大数据生态体系脉络,把握未来重点发展方向,制定标准规范制度的基本出发点。

全面广泛的汇集各种大数据应用需求,深入研究合理分类不同的需求类型,以及

分析不同需求间的关系,为大数据未来工作的开展奠定基础。

7.2 加强元数据的研究与应用

在大数据时代,借助于元数据了解数据元素含义和上下文的需求越来越强

烈,缺乏统一的数据描述。加强元数据标准或元数据模型的研究与应用,健全完

善元数据标准规范及元数据模型。充分结合政府各部门现有数据资源建设情况,

针对当前政务大数据资源、工业大数据资源、电子商务大数据资源等重点领域,

研制元数据标准或统一的元数据标准模型框架,建立元数据资源库,使得大数据

向着标准化、条理化、脉络化方向发展。

7.3 加强大数据核心技术研究

近年来,大数据产业已经成为影响全球未来社会经济发展的战略新兴领域,

应用需求强烈,需要不断完善大数据核心技术体系,突破或改变现有的大数据采

集、分析、存储管理等关键技术,加强信息组织和数据仓库研究,形成自主可控

的大数据核心技术架构。为大数据获取、管理和分析提供技术保障。

7.4 制定完善大数据服务相应法规政策

加强大数据领域相关法规政策的研究,在保护国家安全、商业机密和个人隐

私的基础上,明确数据开放共享的范围和边界,明确围绕数据采集、开放、交易

等活动的权益归属,通过政府授权等方式授予可信机构开展相应数据服务。同时,

Page 101: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

97

推动国家通过科技创新资金等方式,鼓励大数据产业各环节的创新和服务,逐步

完善数据服务相应的政策法规,保障大数据服务健康有序发展。

7.5 推动政府数据开放服务

推动政府数据开放共享,促进社会事业数据融合和资源整合,将极大提升政

府整体数据分析能力,为有效处理复杂社会问题提供新的手段。如何合法、安全、

规范的开放政府组织数据为社会服务,将是数据开放至关重要的一个环节。尽快

建立数据开放标准,明确分类标准、开放目录、数据格式标准和接口标准等相关

规范,推动政府数据的整合和开放,释放政府数据和机构数据的价值,鼓励基于

开放平台和整合数据的跨界应用。

7.6 促进大数据交易市场的规范化发展

随着大数据技术的成熟和发展,大数据交易市场的建立,大数据在商业上的

应用越来越广泛,完善相应的标准及管理制度,规范大数据交易市场,推动行业

自律,打造完善、健康、有序的交易产业链条,从交易平台、交易主体、交易对

象等多个方面规范交易市场行为,对交易市场内的在线数据交易、离线数据交易、

托管数据交易等数据交易模式进行规范。有效解决数据交易中各方的困惑,理顺

市场渠道,规范数据交易行为。

7.7 推动大数据标准化进程

大数据标准化工作是支撑大数据产业发展和应用的重要基础。充分发挥产学

研用各方力量,调动一切积极因素,加强大数据标准化顶层设计,从国家层面制

定大数据标准规范,建立统一的数据标准和技术规范。强化大数据标准化意识,

完善大数据标准应用环境,推广标准的试点示范,结合重点地区、行业标准化示

范区工作,发挥各地方、各领域在大数据标准化工作中的资源优势,不断推动大

数据产业标准化和可持续发展。

Page 102: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

98

附件 1 成功案例

案例一:西航集团智能制造解决方案

应用领域:离散工业、大型装备制造行业,机床联网、智能制造

在中国,工业大数据领域的研究和应用刚刚起步,随着大数据、物联网及云

计算技术的发展,数据蕴含的价值正在飞速提高,以工业大数据为主线的技术创

新与产业发展趋势正在显现。工业大数据和传统大数据格式、应用范畴上会有些

不同,一方面是在设计制造阶段有很多技术数据,包括二维、三维图纸、工艺、

数控仿真的图形、算法等非结构化数据,另一方面还有大量的物联网数据,包括

生产现场机床采集数据、工业产品现场应用采集数据等,对生产效率和智能化,

以及产品质量检测、维护、环境保护、能源管理等方面都在初步显现影响力。

其中,北京数码大方科技股份有限公司(CAXA)聚焦离散制造业,在基于工

业大数据的智能制造解决方案上,已成功实施一批智能车间应用案例:将制造企

业中孤立的数控车间,通过智能设备组网,从而解决数据的共享与贯通问题;其

中,基于大数据存储分析等技术,CAXA 系统解决了数据的大规模并行下载问题

(目前最大的接入智能设备已达近千台,实时采集和存储高速机床运转信息)、

多服务器架构数据同步问题、服务器架构的数据集中与分散机制、接口网路传递

过程保护及告警机制、数据采集与其它应用的标准数据交换机制等。目前,CAXA

已在国内如沈飞、西安航空、航天二院、中船重工、一航、北京石油机械厂等数

百家大型制造企业成功实施了智能制造和智能车间方案。

中国一航西安航空发动机(集团)有限公司(简称“西航集团公司”)研制生产了

涡轮喷气发动机、涡轮发电装置、涡轮风扇发动机、燃气轮机等一批代表我国高

精尖制造水品的产品。通过实施以设备联网通讯和数据采集为基础、以 PLM 技术

为支撑、以数字化工单管控为核心的 CAXA 智能制造系统,实现了车间各类数控

装备的联网、通讯和设备状态数据采集,实现了图纸、工艺、3D 模型等技术文

件的数字化下发,以及生产进度、质量等信息的适时反馈,将车间单元设备柔性

Page 103: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

99

制造能力快速提升为网络化柔性制造能力,提高了企业精益生产和智能制造能

力。系统整体应用架构如下图。

智能制造部署架构图(包括多个分布式数控分厂和车间):

工业运行数据采集范围,包括数控设备开机与关机,主轴转停、执行程序名

和起止时间、故障代码等运行状态数据,并能生成或采集机床累计开机时间、主

轴累计运转时间、程序累计运行时间等数据。

Page 104: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

100

如上图,是机床实时状态监测—开关机状态、进给速度、转速、位移、刀具

等,还包括生产状态监测:加工程序起始/终止时间、实际运行时间,维修监测、

报警信息等。整体上,体现出了工业大数据的几个显著特点:强大的实时监控和

采集功能,支持多车间数千台高速机床采集和分布式存储、分析,数据的优化和

压缩技术,实时刷新性能达到毫秒级,同时可实时显示任意一台被监控设备的实

时变化数据,如坐标变化和主轴转速等,反映时间在秒以内。

在数据采集、存储基础上,可以统计分析采集设备的历史数据,将设备运行

状态、设备工作负荷等数据进行汇总分析,得到有关设备运行状态、设备运行效

率的报表,并根据设定的查询条件进行丰富多样的图文展示,例如:可以通过设

备实时监控界面,从办公室监控所有生产设备状态;通过设备利用率计算,评估

实时准确的产能,找出设备瓶颈,提升生产效率;通过全天连续的设备日志,查

找不合理的设备使用情况,提高设备与刀具使用寿命等。

通过设备日志,可以对比分析设备多日的运行情况。查看给定日期的机床实

际功率变化曲线,支持实际功率超过设定功率值时突出显示,并可以方便查看转

速、进给等的变化曲线。

按日、周、月、年等不同的设定周期查看详细的设备生产活动时间及利用效

率,按车间、班组、机床类型等方式统计分析给定的时间段内机床运行状况及利

用效率,从而分析和优化设备或车间的开机率、利用率、故障率等效率指标。

Page 105: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

101

案例二:浪潮大数据平台在山东警务云计算项目中的应用实践

应用领域:公共管理领域—公安行业

山东公安大数据警务云计算平台是一个基于“平台+数据+服务”设计理念,

利用浪潮大数据平台搭建的、面向公安行业的大数据服务和应用创新平台。从技

术架构上,采用了大数据和云计算融合技术,以云计算为大数据服务和应用提供

可扩展基础设施;从方法论上,创新提出了“上云—数据整合—应用创新”的大

数据实施方法论。完全契合了大数据标准之参考架构中 IT 价值链和信息价值链的

内涵,顺应了大数据与云计算融合发展这一重要的技术和应用趋势。

山东公安大数据警务云计算平台总体架构包括数据源层、抽取层、存储与管

理层、分析层和可视化层。数据源层包括组织数据、社会资源数据和互联网数据

等,这些数据从业务类型上又可分为交易数据、交互数据、传感数据等,从技术

形态上可分为结构化数据和非结构化数据等。抽取层针对不同类型的数据来源,

提供相应的技术手段抽取数据,进行必要的数据清洗和转换,以获得后续分析所

需的规范化数据。存储与管理层将抽取转换后的海量结构化和非结构化数据,按

照一人一档、一案一档等数据组织策略,分别存储到 NoSQL 数据存储或分布式文

件系统。分析层是大数据处理的核心,利用数据挖掘、深度学习、语义计算等复

Page 106: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

102

杂技术手段,实现从海量数据中挖掘领域知识。可视化层主要功能是将挖掘出来

的知识以形象易于理解的形式呈现给用户。

目前,山东公安大数据警务云计算平台一期工程已完成 259 个项目,攻关研

发出 28 项技术创新、9 项自主知识产权核心技术和 128 个实验室成果,开发出警

务千度、超级人像识别、智能大数据多点碰撞等应用,面向全省公安机关 10 万

民警和各警种开展大数据一体化应用服务,动态实时拓展视频、互联网等超大数

据存储,支撑百亿级数据的计算分析和关联比对,打造了资源共享、服务共享、

应用共享、数据共享的大数据警务云生态环境。

山东公安大数据警务云计算平台的成功上线运行,深化了公安大数据的实战

应用,推动和引领了全省公安工作的创新发展。在反恐维稳方面,建设了智能化

全时空大数据预警系统,运用旅店、高铁、民航、网吧、公路卡口、110 警情等

数据,开展分析研判,做到来能预警、动知轨迹、实时布控。在公共安保方面,

利用大数据即时分析预测社会治安发展趋势,通过对 6 大类、140 多种公共安全

大数据模型同步并行超强计算,实现对安全态势进行智能关联分析,预测公共安

全隐患,即时发布预警信息。在智能交通方面,通过警务大数据每天近 10 亿条

的卡口数据信息,实现对人、车、路、环境等道路交通基本要素的实时监控和动

态组织管理。在警务工作智能化方面,研发推出了新一代超级智能化搜索引擎“警

务千度”,实现了大数据条件下海量数据的自动关联、智能联想和全息数据库的

Page 107: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

103

无缝对接,以及人、车、案、事、物等各类案件要素历史与现在、网络与时空的

全方位、立体化展示, 规模化、实战化应用成效日益显著。

案例三:省间增值税专用发票流向可视化分析

应用领域:税务行业

增值税是中央财政收入的重要来源之一,研究增值税既可促进税收工作本

身,更是在反观国家宏观产业结构、验证市场体制改革成效、预测未来经济发展

动向等方面意义重大;可视化技术是大数据领域最炙手可热的技术之一。遵循大

数据技术标准,华宇软件开展“省间增值税专用发票流向可视化分析”课题研究,

将大数据分析与可视化技术应用于税收数据分析领域,以获取比传统手段更大的

价值。

利用公司自主研发的 PetaBase 数据库仓装入 2007 年至 2013 年 7 年间的全国

的增值税发票开具数据,再通过基于图形可视化理论研发的 BI@Report 对数据进

行展示,如图:

线的粗细代表了发票金额的大小,开具发票的数据线在数据点左侧显示,取

得的在右侧显示,点的大小代表了该地区内交易总量的大小。由于线太多会干扰

对关键数据的分析,为此,我们应用了图像增强技术对原始图像进行处理。如图:

Page 108: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

104

通过应用图像增强技术,我们发现三个区域内的发票交易金额密度很大,呈

明显的地理空间聚集状态。三个贸易区以北上广为龙头,对贸易区之间的交易牵

引作用明显,可视化分析的有效性得到了验证。

在贸易区分析中除了常规认知内的珠三角经济区和长三角经济区外,还存在

京津冀贸易区,我们对京津冀的重点行业之间的发票流向进行可视化分析并针对

重点行业做增强处理。如图:

通过对京津冀地区发票流向可视化分析,我们发现北京、天津和河北在矿产

品、建材及化工产品批发业、黑色金属冶炼和压延加工业之间存在较强的跨行业

贸易关系,利用大数据处理与可视化技术,极大增强了我们对税收数据的理解能

力。

Page 109: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

105

通过本次课题研究,我们还得到一些有价值的结论:比如在增值税稽查中要

特别关注发票量比较大的行业;在实施京津冀一体化战略过程中,依据分析成果,

科学合理配置产业资源,充分促进区域内经济和税收的共同发展。研究的结论也

充分反映税收数据分析对宏观政策调整和制定的促进作用。

华宇软件是国内领先的大数据服务提供商,在深入研究国内外大数据理论的

基础上,自主研发了一系列标准化的大数据治理和挖掘分析平台,同时也积累了

大量的数据服务经验。未来华宇将继续秉承“构建数据之美,服务知识发现”的理

念不断前进,为我国的大数据应用创新贡献自己的一份力量。

案例四:国家电网公司非结构化大数据管理平台建设

应用领域:国家电网公司非结构化大数据存储、管理和综合利用。

大型企业内部数据类型可划分为两个部分,一是结构化数据,二是非结构化

数据。而企业内部中 70%以上需管理的数据均是非结构化的。但由于非结构化数

据难以采用数据表的形式加以存储和管理,但却又蕴含着极为重要的业务信息,

成为大型企业信息化的管理难点和痛点。国家电网公司经过 SG186 工程以及

SG-ERP 项目建设,业务信息化已成体系,非结构化数据总量已达 PB 级。国家电

网公司非结构化数据主要分布于三个方面:一是公司内网门户数据,如通知,新

闻;二是分布于对应的业务信息系统,如 ERP 系统,基建系统等。三是从互联网

中根据一定的采集规则予以采集,如舆情数据。公司非结构化大数据具有三个重

要特点:海量、多源及异构。

为了对国家电网公司的非结构化大数据进行有效管理和综合利用,从 2010

年开始,国家电网公司率先在我国中央企业内建设非结构化大数据管理平台,经

过 5 年建设,已逐步实现了非结构化数据统一存储、非结构化数据共享与业务融

合,并在积累了海量数据的基础上,逐步开展面向非结构化数据的分析挖掘。目

前非结构化大数据管理平台已经具备了 “一套标准、五大组件、五种能力、六

Page 110: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

106

大服务”的综合能力,已实现 246 个业务系统的接入,非结构化数量超过 5 亿条、

容量超过 600TB。国家电网公司非结构化大数据平台能力分布图如下图所示。

国家电网公司大数据管理平台建设具有两个突出特点,一是在存储层实现了

海量非结构化数据存储组件国产化,打破了国外厂商在非结构化数据存储壁垒;

二是服务层提供多层次的数据分析、挖掘及可视化服务,为财务凭证电子化等业

务系统提供了可直接调用的 API,大大加快了这些业务系统的开发进度及架构遵

循度。其架构如下:

Page 111: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

107

在目前取得阶段性成果的基础上,国家电网公司非结构化大数据管理平台项

目组正在开展围绕语义进行分析挖掘的研发工作,在海量非结构化数据自动分

类、自动聚合和自动关联上取得了重要进展,建立了国家电网公司基于非结构化

大数据管理平台的语义分析框架,涉及数据采集、分析建模、语义挖掘关键链条,

旨在使对非结构化大数据的分析挖掘从数据级->内容级->语义级。

案例五:大数据平台助力京东全业务数据分析与应用

应用领域:电子商务

在网络零售市场深耕近十年之后,京东迈入了 PB 级数据管理的新时代。以

大数据平台战略为指导思想的京东数据仓库在建设的过程中,结合大数据技术相

关规范,遵照国家信息安全、网络传输等标准要求,形成了京东的大数据平台规

范,依据统一的标准规范,京东大数据平台实现了分布式架构与传统 BI 工具的有

Page 112: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

108

机融合,打造出高性能、高稳定性、高安全性的数据治理、数据分析、数据挖掘

基础平台,为京东及电子商务行业挖掘大数据价值提供全业务全过程的解决方案

及技术保证。京东大数据平台架构如下所示:

借助于京东高价值业务数据的累积与大数据技术的演进,京东大数据的应用

价值已经体现在公司业务的各个方面。如:用户消费行为深度挖掘、精准营销策

略实施、销量预测与库房自动补货、搜索推荐系统的持续优化,广告精准投放技

术等,以下仅列出部分应用:

1、用户画像

京东的数据链记录着每个用户的每一步操作:从登陆京东商城浏览、选择商

品、页面停留时间、评论阅读情况、是否关注促销到加入购物车、下订单、付款、

配送要求,最终是否有售后和返修,用户的完整数据都被记录下来。基于这些数

据结合各种分析模型勾勒出“用户画像”,京东用户画像提供统一数据服务接口

供网站其他产品调用,提高与用户间的沟通效率、提升用户体验。比如提供给推

荐搜索调用,针对不同用户属性特征、性格特点或行为习惯在他搜索或点击时展

Page 113: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

109

示符合该用户特点和偏好的商品,给用户以友好舒适的购买体验,能大幅提高用

户的购买转化率甚至重复购买,提高用户忠诚度和用户黏性。

2、供应链优化

通过大量的数据结合预测模型对销量、需求等进行预测,剔除季节的变化、

人均销售、促销因素来预测未来的消费趋势与销售量,京东能做到自动补货、自

动调拨、整体库存分析、SKU 备货等,做到在用户下单之前就将商品送到最近的

仓库;同时大数据也被应用在物流配送领域,京东会分析物流人员、仓库以及用

户之间的地理关系,建立路径优化模型,为物流人员提供最优配送路径,提高配

送速度,提升用户体验。

3、智能网站

基于大数据平台和个性化推荐算法,京东推出基于个性化推荐引擎的“千人

千面”并进行了首页改版,针对不同用户提供不同的内容展示。新首页背后有着

京东在网页版、移动端、微信手 Q 平台上的海量用户行为数据的支撑,并建立了

用户、商品和店铺之间的关联图谱,为用户提供丰富多样的商品候选集合。同时,

精细的用户全貌刻画能准确感知用户的实时和长期兴趣,降低重复品类推荐对用

户造成的困扰。

案例六:重庆市智能交通物联网大数据服务平台

应用领域:城市道路交通智能化系统

本项目将汽车上路的三个法定证照既行驶证、驾驶证、牌照电子化,构建了

基于地方立法支撑,由公安交管管理、发行、配装附属的 3 个车辆和驾驶人的电

子标识体系,已覆盖全市 250 余万机动汽车和 400 余万驾驶人。

该项目已经并将继续培育巨大的涉车、涉驾的信息服务资源体系,必将成为

重庆乃至更大地域、领域的“大数据”和“智能交通云”服务的平台,成为物联

网中最重要的领域之一。

Page 114: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

110

当代交通,道路和停车始终赶不上汽车的发展速度,车越来越难开,车位越

来越难找。汽车上路、停车一定会“被管理、要缴费、需信息”。本项目的实施,

旨在让汽车使用和出行过程中,能够在车辆使用者与管理者、服务者之间构建起

一个智能交通物联网体系,通过移动互联网实现信息的安全、有效、无障碍的交

互,让城市交通更加安全、畅通、和谐。

通过 5 年多的推进、示范应用,本项目已在多个领域得到很好的应用成果:

1、城市道路实时交通信息的采集,有效地提高了交通数据的准确性、可用

性、便捷性、经济性,而传统的交通 OD 数据主要靠人工采集和“浮动车”、“车

载导航”。

2、车辆电子标识信息为政府涉车管理、交通管理、交通违法、环保管理、

路桥征费、治安维稳、非法运输、专业运输等业务和执法提供了精准的车辆信息,

大大提高管理与执法的效率和准确性。

3、基于车辆电子标识的动态信息的分析,实时交通信息的提供,可以向公

众和出行人发布、提供精准的交通诱导信息,方便出行人。

4、基于这样的智能交通物联网体系,车辆出行的各种停车、缴费、出行消

费、涉车服务的各种商业应用将能够应运而生,大量的 O2O、O2C 服务必将带动

巨大的信息消费和电子商务。

5、基于车辆电子标识的动态信息的分析,市政部门可以更加准确地掌握道

路交通运行和停车的需求,在道路和停车场地规划、建设、改造、维护的决策中

避免误判和盲目性,减少投资的浪费或错误。

“车联网”是“物联网”的一个重要组成部分,国家在强调大力发展“物联

网”的重大战略上,十分强调“车联网”的发展。重庆的“智能交通物联网大数

据平台”是我国“车联网”发展中一个典型的重大项目。项目具有了地方立法、

政府统筹、特许经营、一个平台服务于“车联网”的公权、商权、私权三大类型

的特色,具有以下重要特性:

Page 115: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

111

资源性——项目在地方立法的支撑下,已经形成法规化的涉车、涉驾信息系

统,覆盖了全市所有机动汽车和驾驶人,构建了规模化的应用基础,形成了巨大

的智能交通基础数据资源库。

可持续性——项目的投资、建设、运营、服务已形成的“一个平台、服务社

会”和企业建设、特许经营、政府购买服务的模式具有可持续性。

牵引性——项目的应用将有效整合“智能交通物联网”的产业链,牵引相关

芯片、电子标签、读写器、视频监控、网络、大数据、数据服务、软件开发、应

用服务整个产业链的发展,并将在重庆市培育的千亿级物联网产业中成为主要的

板块。

跨域性——项目实现的“一个平台、服务社会”的模式,在服务于公安交通

管理的同时,也推进到了其他政府的涉车、涉驾管理部门和企业的商业服务领域。

同时,这样的“智能交通物联网”不仅是重庆城市交通发展的需求,全国 20 余

个省市前来重庆考察、交流这个项目,也表明了在重庆以外的其他省市推广这样

的“智能交通物联网”系统的价值和可能。

专用性——重庆市基于“智能交通物联网”的“车联网”项目,其基础数据 资

源涉及车辆、驾驶人的数据资源,其中不乏有些涉及车辆、车主的敏感或个人隐

私信息。信息安全是项目可靠、安全运行的极其重要的前提条件。因此,项目的

数据采集、传输、存储、交换、处理、发布、服务必须实施专管、专用,并建立

严密的、全过程、全系统的信息安全体系。在此基础上,面向公权、商权、私权

的三大类服务时,将根据服务对象不同的事权,建立不同的数据服务规范,从而

保障服务的合规、合法。

Page 116: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

112

案例七:华为 FusionInsight 助力招商银行构筑大数据平台向亏联网金融转型

应用领域:金融

招商银行成立于 1987 年,是中国第一家完全由企业法人持股的股份制商业

银行。长期以来,招商银行一直秉承“创新、稳健、服务”的核心价值观,连续

多年被评为全球最佳零售银行。

一、银行挑战

· 当今,依托云计算、大数据等新兴信息化技术,互联网金融服务迅速崛

起,提供更加创新的业务、更好的用户体验,强力挑战商业银行的传统金融服务

模式:

· 传统金融业缺乏以大数据分析为基础的决策和服务体系。当前,传统金

融业面对客户仍然是强势地位,银行先设计出金融产品,客户来购买,缺乏互联

网金融基于大数据的回馈和创新机制,导致产品创新不足、客户满意度低。传统

金融业急需在产品创新、预测和风险控制方面,重构以大数据分析为基础的决策

和服务体系,提升自身竞争力和客户满意度。

· 传统数据处理平台无法满足大数据时代要求。当前,银行的生产系统、

经营系统长期以来积累了很多的结构化、半/非结构化的数据(如订单、合同、

日志等),以及通过互联网获取到的相关数据,面对金融数据量不断增加的情况

下,现有的以交易为核心的第一数据平面昂贵、可扩展能力差,且仅适合处理结

Page 117: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

113

构化数据,而在大数据时代,商业银行更需要建设第二数据平面,以处理更多维、

更大量的数据。

二、解决方案

· 华为 FusionInsight 大数据解决方案针对银行生产系统的规范,专门在大

数据平台的可靠性、安全性、易用性方面进行了增强和适配,成为第一家支持金

融等保的大数据平台;在容灾方面,第一个支持超 1000+km 的异地容灾;同时,

为了增加大数据平台的易用性和复杂查询能力,创新的设计了表聚簇和多级索引

方案,实现与银行现有数据库、数据仓库的无缝对接。招商银行已在华为

FusionInsight 大数据解决方案基础上,实现了 7 年内海量交易历史明细信息的实

时查询、实时征信、实时事件营销,以及针对准确客户群的精准营销。

· 华为 FusionInsight 提供企业级大数据平台,在可靠性、安全性、易用性

方面进行了增强和优化:

安全性:支持 RBAC 用户组权限管理、消除 HDFS 明文存放隐患,成为第一

家支持金融等级保护的大数据平台;

可靠性:第一家支持超过 1000 公里的异地容灾大数据平台;第一家实现所

有组件 HA,确保数据的可靠性、一致性;

易用性:针对数据密集型行业传统数据库、数据仓库的大量关联表设计,特

有的表聚簇和多级索引实现和现有数据库、数据仓库的无缝对接,极大地降低部

署难度;增加 SQL on Hbase 能力,应用平滑迁移;全自动化在线运行维护、自定

义 Dashboard、自动化的应用开发助手,让企业可以轻松的管理大数据系统。

· 华为 FusionInsight 围绕大数据采集、存储、处理、洞察和服务的全生命

周期,为金融大数据典型的:历史交易明细查询、实时征信、实时事件营销、客

户行为分析等应用场景提供配套解决方案。其中,大数据洞察平台 FusionInsight

Miner 提供百万维大数据特征提取、管理、建模的能力,帮助客户直接实现小微

贷获客预测、或有金融资产预测等业务;大数据服务平台 FusionInsight Farmer 可

以作为历史交易明细查询平台、实时征信平台、实时事件营销平台,让客户更专

注大数据业务开发本身,更方便的使用大数据平台。

Page 118: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

114

华为 FusionInsight 团队具备强大的本地化工程服务能力,不仅可以帮助客户

定位大数据内核级问题,还可以提供咨询和服务能力,让大数据更易使用并产生

价值。

三、客户新变化

· 通过部署华为 FusionInsight 大数据解决方案,招商银行开发出丰富的创

新业务,在业务准确性、实时性,以及客户的满意度方面取得显著提升。

· 统一的大数据全生命周期解决方案:华为 FusionInsight 提供大数据采集、

存储、处理、洞察和服务的全生命周期解决方案,可以解决商业银行使用大数据

方面的需要,帮助商业银行实现数据驱动经营和决策。

· 丰富的创新业务:在华为 FusionInsight 的帮助下,招商银行快速构建了

丰富的创新金融业务:在线历史明细查询、实时征信、实时事件营销、小微贷获

客预测、或有金融资产预测、理财产品精准推荐等。

· 业务效率的提升:在线历史明细查询业务由只能查询 1 年内明细提升到 7

年内明细;小微贷获客预测,比传统方式提升 40 倍的转化率;或有金融资产预

测误差率降低一倍;只需不到原来 20%的推荐短信基本可以覆盖全部的有效购买

用户;信用卡征信时间将由 2 周左右降到 10 分钟以内。

案例八:医疗大数据采集在海南省区域医疗平台建设方案及案例

应用领域:医疗卫生行业

1、项目背景

当前,各行业信息化建设已成为行业建设不容忽视的一项工作。作为信息化

典型的医疗卫生行业,其信息化建设呈飞速发展之势。伴随医疗信息化深入发展,

在医疗信息化过程中产生了数量庞大、类型复杂、信息多元化的医疗大数据。医

疗大数据在提高卫生管理和卫生决策水平中发挥着重要的作用,同时各地卫生医

疗部门正积极的省区域卫生信息平台,目的为实现有效的采集、分析、利用医疗

大数据造福于民。但由于医疗大数据的数量庞大、类型复杂、信息多元化等特征,

Page 119: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

115

区域卫生信息平台的建设提出了数据采集的困难和挑战,主要体现在数据复杂性

和大数据采集成本高昂两个方面。

面对医疗大数据应用中存在的难题,海南省区域卫生平台建设项目过程中,

采用基于应用医疗卫生行业模板的医疗大数据采集技术,该技术是结合医疗卫生

行业业务特征能够解决大数据采集过程中数据复杂性问题,实现低耦合、可复用

的医疗数据抽取,完成低成本、高效率的数据采集,从根本解决区域内医疗大数

据的采集与利用的关键问题。

2、技术实现

医疗大数据采集技术是结合大数据采集技术涉及的数据采集、清洗与交换技

术的彼此协作,结合医疗卫生行业的业务背景及医疗行业大数据的特征构成了适

用于医疗卫生行业的大数据采集技术。医疗大数据采集技术,实现将区域内所属

的医疗卫生机构数据自动、实时、准确、安全、可靠的采集至海南省区域卫生信

息平台,解决医疗大数据采集过程中遇到的数据复杂性和采集成本高的两大核心

问题。

医疗大数据采集技术使用“行业数据模板”从海南省医疗卫生系统的异构医

疗系统中将分散的、多种复杂数据类型的医疗数据进行采集,在采集过程中整合

为满足海南省区域卫生信息平台需求的具有业务特征的数据,实现数据的模板式

采集。“行业数据模板”结合医疗行业的形成业务模板,将业务化采集规则固化

到采集规则模板中,通过模板规范异构医疗系统的数据采集过程。基于行业数据

模板的数据采集系统,如下图所示。

Page 120: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

116

本项目中自动适配已连接数据源、记录新数据源信息,实现数据源的智能化

管理。将数据源信息通过数据采集运行引擎集合数据采集策略实现数据采集,经

由数据模板和规则校验实现数据高效率、高质量的采集。使用的医疗卫生行业的

行业数据模板是通过多个业务标准分析后得到,模板具有进化功能,当前模板的

业务标准已经达到一定程度的积累,可以满足对医疗数据采集业务的有效支撑,

实现快速、高效、低成本的构建医疗卫生行业的数据采集项目。

通过本项目的建设,解决了海南省医疗卫生行业业务数据的规范化采集问

题,通过数据采集模板的业务约束实现数据的规范化采集,使得数据采集过程更

为高效和规范。行业数据模板复用在多个医疗卫生行业数据采集项目中,节约建

设成本的同时,也使得行业数据模板的业务特征得到不断的优化、丰富和补充。

基于行业数据模板的数据采集技术使得医疗卫生行业的业务数据得到稳定、高

效、低成本的采集和处理,推动了医疗卫生体系的建立和管理,为海南省区域卫

生信息化建设提供了有力的支撑。

3、总体方案

海南省区域卫生信息平台

数据源管理

规则校验

医疗大数据采集系统

卫生数据业务标准

采集运行引擎

安全保障

数据转换 数据校验

模板管理

模板调度 模板进化

数据源管理

数据源

配置信息

数据映射

缓存库

数据采集

海南省各级医疗卫生机构

数据源适配

Page 121: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

117

医疗大数据采集解决方案所使用的数据采集技术基于医疗卫生行业标准,实

现各级医疗卫生机构间的数据采集。以区域卫生信息平台为载体实现数据统一存

储,为各个医疗卫生机构间开展医疗卫生服务、实现信息协同提供支撑,为医疗

卫生监管决策部门提供监管和决策的依据,最终实现构建高标准的区域卫生信息

化指标体系。

医疗大数据采集解决方案可支撑包括各级医院、基层医疗卫生机构、公共卫

生数据的采集和上报业务。支持医疗卫生信息平台对基于其应用的实现,如医疗

卫生协同、综合管理、公共健康以及区域辅助医疗等。通过医疗卫生采集方案提

供的各项数据对平台与区域内各个医疗机构端的消息路由规则等进行统一的管

理与维护。平台端利用获取到的各项数据进行各类医疗业务综合处理,实现区域

内平台、医疗监管机构与各医疗机构端的数据协同。通过卫生信息共享来提高医

疗服务效率、医疗服务质量、医疗服务可及性和降低医疗成本。建设架构图如下

图所示。

Page 122: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

118

医疗大数据交换与共享建设架构图

医疗大数据采集方案的根本目标是解决医疗大数据采集过程中面临的数据

类型复杂多样、建设成本高等困境。基于医疗大数据采集解决方案简单、高效、

规范的实现区域卫生信息平台与各级卫生部门间的数据采集,最终实现数据统一

存储,为各医疗机构开展卫生服务活动和区域协调提供支撑,并为卫生监管、决

策支持、业务协同提供应用基础,为构建区域卫生信息行业高标准指标体系奠定

基础。

4、项目应用效果

医疗大数据采集解决方案解决了某省卫生厅海南省区域卫生信息平台项目

中遇到的数据采集困难问题,本方案的采用高效的提升了平台数据采集的效率和

质量,实现了医疗数据从医疗卫生机构到平台的高效汇集。此外,本方案帮助某

基层医疗机构

基层医疗

基层卫生

各级医院大数据

HIS LIS PACS

EMS PEIS RIS

运营管理

疾控

管理

卫生

监督

公共卫生

海南省区域卫生信息平台

基于卫生信息平台的应用

数 据

中心

服 务

组件

健康档案库 电子病历库 医疗信息共享库 管理信息库

标准

管理

安全

管理

医疗大数据交换与共享平台

平台

管理

监控

管理 医疗大数据采集系统医

规则校验 模板管理 数据采集 数据源管理

主索引 健康档案 数据标准 决策支持 …

妇幼

保健

数据交换中心

医疗卫生协同 综合管理 公共健康 区域辅助医疗

Page 123: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

119

市海南省区域卫生信息平台解决了由传统前置机方式数据采集过程中产生的数

据采集工作量巨大,医院厂商协同困难等问题,实现了高效率、低成本的数据采

集。同时,方案的平台标准统一下发机制,解决了某市海南省区域卫生信息平台

项目建设过程中,所出现的因平台标准多次升级造成的数据采集效率低、质量差

等问题,帮助平台完成建设目标,助力海南省医疗卫生领域的大数据应用与信息

化建设。

案例九:华为 FusionInsight 助力上海联通挖掘存量经营的价值

应用领域:电信

中国联合网络通信有限公司上海市分公司(简称“上海联通”)成立于 1994

年,是中国联通在上海的重要分支机构。上海联通拥有包括移动和固定通信业务

在内的全业务经营能力,在推动上海市的国民经济和社会信息化建设进程中发挥

着核心和基础的作用。

一、运营商挑战

随着大数据时代的到来,电信运营商需要处理的大数据数量、种类呈现爆炸

式增长,现有业务烟囱式的处理架构,在数据交换和共享、存储数据容量、海量

结构化/非结构化数据处理速度等方面,已无法满足要求:

Page 124: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

120

· 当前,电信运营商跨业务领域分析的需求激增,要求不同业务间数据的

交换和共享。而现有应用系统都以烟囱式建设,数据在各自应用系统数据库中独

立存储、无法共享,跨业务部门间获取数据需要层层审批,少则半个月,多则数

月之久,导致支撑业务决策的分析结果迟迟出不来。

· 现有应用系统支持存储的数据量有限,且数据量越大,分析处理速度越

慢。面对数据量不断增加的现状,现有应用系统可扩展能力差,且仅适合处理结

构化数据,分析处理速度越来越慢,急需建设大数据平台,可以快速处理更多种

类、更大量的数据。

· 缺乏有效的数据资产管理,不清楚到底有多少数据/模型/规则, 数据安

全隐患大。目前,现有应用系统各自获取数据、建立模型和规则、分析结果,一

方面导致数据安全隐患加大,另一方面导致分析出的结果不一致,业务决策数据

混乱。

二、解决方案

华为针对运营商数据使用上遇到的问题,提出了扁平化数据层,构建统一大

数据平台的解决方案。通过部署华为 FusionInsight 大数据平台,构建统一的 PB

级大数据平台,统一存储一份共享数据,供各应用系统统一调用;利用大数据平

台分布式计算能力,并发处理各种分析任务,快速得到业务决策结果;构建统一

的数据资产管理和数据安全管理能力,为应用系统提供安全的数据使用环境。同

时,大数据平台在保障数据安全性和隐私性情况下,提供数据共享访问和能力开

放的接口,可以让大数据对外提供共享服务,支撑业务创新与商业成功。

· 华为提供统一的企业级 FusionInsight 大数据平台,支持 PB 级结构化和非

结构化数据的存储和处理能力。从数据源统一采集全域业务数据,归一化存储在

大数据平台中,只存储一份共享数据,各应用系统随时可以根据业务需要获取所

需的数据。

· 华为 FusionInsight 大数据平台紧跟开源社区最新的先进技术,不仅提供

基础的 Hadoop 组件,还支持 Spark 内存迭代计算、Storm 流计算等组件,在海

量数据的情况下,可以大大提高多应用系统并行分析、处理的速度以及对实时事

Page 125: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

121

件处理的能力。

· 华为 FusionInsight 大数据平台提供统一的数据资产管理能力,满足数据

透明、数据可管理、数据质量可评估、数据质量考评的四大管理要求。数据资产

管理包括元数据管理和数据质量管理。元数据管理可以实现数据从应用层至数据

层的全面贯通,统一对元数据进行维护、监督、探查、调用和透明管理。数据质

量管理可以对数据质量全程监控,提供全面及时的数据质量报告,预防和控制错

误范围的扩大;同时建立数据质量评估和考核体系,通过评估发现数据质量潜在

的问题和规律,并通过服务接口,对应用提供支撑。

华为 FusionInsight 大数据平台提供数据的安全管理能力,支持端到端的数据

加解密管理和数据访问隔离方案,可以充分保障用户的数据安全和隐私。同时,

通过制定标准开放的数据共享访问和能力开放接口,对外将提供共享数据服务,

达到运营商数据对外变现的目的。

三、客户新变化

通过部署华为 FusionInsight 统一的大数据平台,上海联通不仅解决了目前遇

到的困难,还开发多个跨业务领域的新业务,在业务的创新性、商业价值方面取

得显著提升:

· 统一的企业级大数据平台:华为 FusionInsight 提供 PB 级海量数据的存储

和处理能力,全业务域数据统一采集,归一化存储在大数据平台,各应用系统随

时可以根据业务需要获取跨域的数据,并行快速分析和处理。新业务的推出周期

由 1.5 月缩短至 1 周,用户维挽业务的应用使 VIP 用户离网率大幅降低。

· 统一的数据资产管理和数据安全管理,对外提供共享数据服务:华为

FusionInsight 提供统一的使能建模和规则能力,供需要的应用系统统一调用,确

保各应用系统分析出的结果一致,避免业务决策数据混乱。同时,为应用系统提

供安全的数据使用环境,可以对外提供共享数据服务,达到运营商数据对外变现

的目的。

· 丰富的创新业务:在华为 FusionInsight 大数据平台基础上,上海联通开

发出:用户个性化精准营销、用户维挽、数据对外服务等创新业务,有效支撑了

Page 126: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

122

上海联通的存量经营。

案例十:星网视易跨媒体大数据的云服务产业化项目

应用领域:文化领域

一、背景

中国已然进入了移动互联网时代,许多行业都乘着移动互联网的春风,上演

着一场又一场的华丽转身。然而国内的线下音乐娱乐行业,却面临着“转身”的

瓶颈,似乎互联网并没有为其带来财富的光环。目前行业中存在诸多问题,不同

商家均为独立经营个体,难以形成规模化经营,娱乐模式单一难以吸引年轻消费

群体,且未与泛娱乐领域中的电影、游戏、文学等形成融合发展的产业链价值。

星网视易作为文化娱乐产业领先的解决方案提供商之一,经过十多年在数字

娱乐服务领域积累,并从 2012 年起在线下商家和用户中进行大数据平台的布局。

目前产品已覆盖全国 5 万个公共试听场所,已形成 5000 多家场所数据联网的规

模,每日影响的线下消费用户达到 200 多万人。通过打造以大数据分析为核心的

跨媒体大数据云服务项目,与商家、消费者、第三方合作方提供数据开放共享服

务,带动数字娱乐中小企业共同建设一个数字娱乐互利共赢联合体,促进整个娱

乐服务数据价值链的健康发展。

二、业务

星网视易跨媒体大数据云服务涵盖了数字媒体的创作、展示、营销、推荐及

传播等一体化服务。该项目所搭建大数据平台包括数据资源采集、数据内容存储、

数据价值分析挖掘和数据信息服务四个子系统共同组成,并且提供第三方服务提

供商和运营商的接口,可为公共视听场所运营商、电信音乐运营商、数字家庭用

户、手机用户等提供个性化的主动式数字媒体推荐、数据咨询、互动娱乐等服务。

Page 127: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

123

视易数字媒体内容来源主要是与包括大中小型唱片公司、版权代理公司、游

戏公司、动漫公司、视频网站、音乐 APP 等文化产业相关企业合作共享媒体资源。

同时,采用数据上传渠道采集线上和线下用户行为数据、移动应用数据、音视频

文件等。通过将结构化和非结构化数据内容进行储存,针对文字、图像、音视频

等数字媒体异构数据源聚合检索,实现数据的统一管理访问。利用主题发现、事

件分析、用户建模等数据分析方法,发现数据中所蕴含的价值,并将内容分发至

公共视听场所运营商、媒体运营商和媒体用户,为运营商和用户提供热点分析、

用户画像、音乐推荐等个性化数据服务。

三、技术

Page 128: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

124

视易跨媒体大数据平台基于 Cloudera 的 Hadoop 方案,采用 Hadoop 的 HDFS、

HBase、Flume、Solr、Sqoop、Mahout、Ambari 等组件,构建平台的数据采集、存

储、分析、挖掘和运维等服务,该平台每天需要处理逾 7 亿条的用户行为数据,

并进行存储和索引,再利用数据分析和数据挖掘完成业务需求。

1)非结构化数据管理

非结构化数据管理的需求是要高效的存储和访问这些非结构化数据,主要为

音频、图像等数据,采用技术方案是将非结构化数据文件拆解为小型数据,在将

数据块存储在结构化数据库,并为其实现 MapReduce 做数据查询处理。利用 MR

的查询优势,通过 Key 或者文件路径去访问真正的数据,从而达到管理非结构化

数据访问的目的。

2)用户服务推荐

Apache Mahout 服务提供一些机器学习领域经典算法的高效实现,包括聚类、

分类、协同过滤、关联规则等等,帮助应用开发者更搞笑的实现个性化推荐功能。

可帮助开发人员更加方便完成数据挖掘工作。读取存储于 HDFS 中的用户历史音

乐演唱行为数据, 加上用户属性、音乐属性、音频内容之间的相互关系,并运用

Mahout 提供的 FP-tree 系列关联规则推荐算法,最终用户将获得越来越精准的音

乐推荐服务。

案例十一:某股份制商业银行金融大数据项目

应用领域:金融领域

银行业务的快速增长使得传统粗放型的客户营销策略在个性化的用户需求

面前显得捉襟见肘。银行亟待充分整合客户数据,通过精准的营销设计降低客户

流失率,提高忠诚度;以用户为中心,对用户金融行为及金融状态等数据进行更

全面的数据分析;借助大数据技术对不同渠道来源的提供商、客户的交易行为进

行全面分析,实现链式反应;搭建有效的数据模型,为客户提供全方位管家式的

非金融服务,从大数据中掘金。

Page 129: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

125

大数据技术对金融行业来说,既是机遇也是挑战。借助互联网灵活的网络平

台和丰富的资源,银行可以为用户提供支付、信贷、理财等业务,同时,全新的

互联网运营思维也对银行传统业务带来了挑战。

为应对银行交易量快速增长的需求,同时响应国家对银行 IT 基础设施国产化

的要求,行方在 2013 年启动大数据项目。国内银行的传统 IT 基础设施一般都使

用 oracle 和 DB2 面对的共同的问题是:

不符合国产化、开源化和自主掌控的要求;

传统模式软硬件成本昂贵;

无法应对海量数据的要求,系统缺乏良好的扩展性,难以应对高并发的

处理的需求;

该大数据项目拟通过分布式架构,实现存储容量的可扩展化,满足数据量不

断增长的需求;通过开放的软硬件技术架构,满足低成本、自主可控的要求;通

过计算能力的并行化,满足复杂业务的计算要求,提高海量数据的实时查询响应

速度;通过数据冗余及各组件 HA 机制,提升系统可靠性。

中兴大数据平台在银行 IT 系统中的位置上图所示,项目的创新点在于:

1) 结合银行实际应用特点,定制了平台物理部署的最佳实践,包括一般应

Page 130: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

126

用与重要应用之间的隔离,在线应用与离线应用之间的隔离;实现了平台的在线

横向扩容与平滑升级。

2) 基于平台构建了组件化、可配置、高度灵活的 ETL 框架和开发体系,实

现绝大多数应用 ETL 作业的配置化流程,解决了传统 OLAP 机制 ETL 实施周期长、

开发测试工作量大、代码繁琐的问题。

3) 设计智能调度体系,通过分时控制、数据隔离、优先级调度等方式保证

了硬件集群能力的发挥、高优先级作业完成的及时率、减小并发作业的资源冲突。

4) 通过管理手段、硬件防护、软件加固三种手段联合实现了权限控制、数

据加解密、事后审计、误操作恢复的问题。

5) 拟定一系列开发规范,同时将开发规范和各组件最佳实践固化在开发插

件及样例工程中,提高开发效率的同时,保障了规范的落地。

6) 大数据平台采用自动化的监控告警、远程参数配置和运维管理工具,提

高了运维的便利性,加快问题定位和解决的进程。

Page 131: 大数据标准化白皮书 - CESI

中国电子技术标准化研究院 大数据标准化白皮书V2.0

127

附件 2 本白皮书的参编单位及人员

本白皮书的编写得到工业和信息化部信息化和软件服务业司、国家标准化管

理委员会工业二部的指导,并且也得到了业内有关产、学、研、用等单位和专家

的大力支持。

参编单位:中国电子技术标准化研究院、阿里巴巴、中兴通讯、北京亚信智

慧数据科技有限公司、浪潮软件集团有限公司、华为技术有限公司、北京京东尚

科信息技术有限公司、成都勤智数码科技股份有限公司、北京东方通科技股份有

限公司、中科院计算机网络信息中心科学数据中心、福建星网视易信息系统有限

公司、北京软件和信息服务交易所、四川久远银海软件股份有限公司、重庆云威

科技有限公司、重庆邮电大学、Intel、Microsoft、Oracle、北京数码大方科技

股份有限公司、山东省标准化研究院、北京世纪互联宽带数据中心有限公司、上

海计算机软件技术开发中心、北京华宇软件股份有限公司、北京锐易特软件技术

有限公司、大唐软件技术股份有限公司、北明软件有限公司、华东师范大学、重

庆市城投金卡信息产业股份有限公司、北京大学(排名不分先后)

参编人员:张群、黄先芝、周训波、闫安、赵大航、黄峥、杨莉莉、符海芳、

张娴、王威、周艳辉、唐坤良、齐建军、万洋、丁蔚、孙勇韬、刘振宇、陈敏刚、

逄锦山、赵晓春、高冀鹏、吴瑾南、黄鸿强、周行健、龙昭华、高冀燕、程曦、

李扬、许怡娴、李力、傅玉生、任建卫、吴永和、国丽、胡良霖、王东、王潇、

王亚沙、赵俊峰、赵菁华、卫凤林、李冰、王静(排名不分先后)