大数据时代 企业下一代商业智能 - oracle...大数据时代 企业下一代商业智能...

45
大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/[email protected] 企业架构师

Upload: others

Post on 26-May-2020

51 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

大数据时代 企业下一代商业智能

华数 Oracle技术交流日

孙少华/[email protected] 企业架构师

Page 2: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

提纲

• 大数据范畴的思考 - 是技术手段或应用模式?

• 企业大数据平台的典型案例分析

• Oracle大数据平台建设解决方案概览

Page 3: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

大数据的价值 Strategic Planning Assumption: Through 2015, organizations integrating high-value, diverse, new information

types and sources into a coherent information management infrastructure will outperform their industry peers

financially by more than 20%.

美国医疗保健

3000 亿

美元

产值逐年增长

美国零售

60%

净利润增长超过

制造

50%

开发成本、装配成本降低

全球个人位置数据

1000 亿

美元

服务提供商收入增长

欧洲公共部门管理

2500 亿

欧元

产值逐年增长

数据量增量

数据资源属性

数据价值

数据应用模式

Page 4: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

对网络运营商也是如此 – 数据的利用成为业务驱动引擎之一 通信运营商与有线运营商都在积极拥抱大数据

Telefonica基于完全匿名和聚合的移动网络数据,对

某时段某地点人流量的关键影响因素进行分析,并将洞

察结果面向政企客户提供。例如:为零售商新店设计和

选址、设计促销方式、与客户反馈等提供决策支撑;

SAS:发布解决方案,利用机顶盒数据分析,助力有线运营商

进行市场营销与内容许可谈判,了解观众收视意向与购买趋势,

降低内容成本

Guavus:利用产品搜集用户IP记录,了解用户网络行为,用户

容量规划与产品开发

Nexidia:对有线电视用户与客服人员的交谈进行处理,了解

用户的想法

Page 5: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

5

大数据如何捧红“纸牌屋”?

在美国电视行业,没有什么是确定的。也许你有找齐了金牌导演、实力演员和时下流行的题材剧本,结果依然熄了。任一门生意中,能够预见未来都是可怕的,Netflix 在纸牌屋一战中可能已经接近这个水准。

用户只要登录Netflix网站,对某一个视频的每一次点击、播放、暂停、快进、回放,看了几分钟就彻底关掉视频,或者停了一段时间又重启,都会成为一个“事件”,被记录下来并汇入后台进行分析

“Netflix或许并不能准确知道点击暂停按钮的个人原因,但是如果足够多的人在整段视频中的同一个地方做了相同的举动,那么数据就开始显露出意义了。”结果是,Netflix比观众还要清楚自己的观影喜好。

Netflix 公开电影数据供研究者研究好的推荐很预测算法,还为此办过 KDD 比赛

歌华有线大数据中心案例

Page 6: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

大数据“挖”观众 非诚勿扰vs快乐大本营

Page 7: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

全新的“微博签到”的社会化电视观看模式

• 很多观众边看电视,边发微博证明我正在看此节目,同时把观感分享给微博好友,而分享的数据则通过文本的形式保存下来。看电视的过程,变成一个动态和社会化的过程。

• 以前单一的“收视率”是不能完整的衡量一个节目的价值和影响力的。而对于节目的传播和推广,甚至制作环节,也应该采取与微博等社交网络融合的方式。

观众看电视的状态已经发生变化

Page 8: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

“大数据评价体系”的收视评估

部分电视台正拟出台一套包括收视数据、网络指数、媒体发稿在内的“大数据评价体系”,以对在播节目进行更为科学、合理、全面的评估,打破整个电视行业长期单以“收视论英雄”的局面。

大概八点二十分发

Page 9: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

新技术新方法 – 大数据的技术手段 核心思想:分布式、经济

Storage + 类OLAP + ETL Storage + 分布式实时简单数据存取

Hadoop : 分布式,大数据集,延时,离线计算 NoSQL : 分布式,小数据集,灵活,实时,快速读写

适用场景

搜索

日志处理

推荐系统

分析

视频和图像的分析处理

大数据保存

Page 10: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

光有Hadoop不够:Hadoop+Oracle关系型数据库的组合架构 Hadoop平台处理海量Web数据,不要求数据严格一致性,Oracle关系数据库处理汇总和高实时性要求数据

Web Servers

Scribe Servers

Filers

Hive on Hadoop Cluster

Warehouse

Oracle RAC Federated MySQL

世界上第二大Hadoop集群 用于处理 log 和dimension data • 2000+Hadoop节点,100+PB

数据,250+亿张照片. • 1800台MySQL服务器 Use Case • 从大量数据中产生每天和每小时的汇总 • 在历史数据中执行 Ad hoc分析 • 事实上作为一个长期的数据归档 • 简单报告 • 模型分析 • 生成索引,维度分析 • ……

来自于Web服务器与内部服务的海量日志数据通过scribe搜集到NFS服务器

大量日志复制到Hadoop集群上的HDFS实例(Map Only)

大量生产的数据从MySQL获取并复制到HDFS

使用Mapreduce 以及Hive做批量数据分析

使用Oracle RAC 发布汇总和查询结果,发布报告与摘要,提供并发的在线低延迟复杂查询与统计

http://hortonworks.com/big-data-insights/how-facebook-uses-hadoop-and-hive/#.UkEl4YYzPtE

Page 11: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

淘宝的数据分析平台 关系数据库仍然是王道

□ 有成熟稳定的商业/开源产品

□ 开发容易、效率高、运维方便

□ 数据描述性好,数据一致性强

□ SQL有较强的表达能力

• 只存储中间状态的数据

• 查询时过滤、计算、排序

• 支持各种复杂数据操作

□ 数据产品的本质 - 拉关系 做计算

Page 12: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

组合的计算模式 – 对企业客户最适合的模式

流式计算

数据库

数据仓库

在线业务系统

实时计算

大数据

分布式数据缓存

NoSQL数据库

内存数据库

Page 13: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

对大数据建设的观点

• 大数据给我们带来的真正机遇是把许多信息碎片拼起来,为我们的决策服务。

• 大数据时代最大的挑战是如何从大数据中获取“价值”。从大数据中获取最大价值,需要探索式的研究方法。大数据环境中,数据科学家职责会产生,这种科学家既要熟悉商业环境,也要有操作层面的知识。

• 在大数据出现以前,数据依附于具体业务而存在,人们更多的关注在使用数据的软件系统上。在大数据时代,数据可以作为一种独立的存在,数据的“资产”性价值越来越引起人们的重视。

Page 14: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

大数据时代的应用模式的转变

• 应用模式:应用驱动数据驱动

• 处理方式:关联分而治之

• 数据准确度:定量定性

• 数据价值:已知领域探索式、未知领域

• 关键角色:应用架构师数据科学家

• 数据安全:谁使用谁负责

• 服务形式:后向服务

• 服务级别:提供基础平台(Amazon)、提供数据服务(Taobao、App Store、路透)、提供应用(SalesForce)

Page 15: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

企业数据货架 标准化组件提供、多租户应用开发、插件式管理、与热门市场应用支撑

•大数据技术(Hadoop+NoSQL) •无模式数据,探索式应用 •补充式、趋势类数据

•RDBMS技术 •根据应用需求,组织数据结构(有模式) •核心交易、准确的数据

企业数据资产

非结构化 结构化

数据货架

应用以插入式组件

收视率分析和预测

用户内容偏好和预测

用户行为洞察

客户分析与运营

… …

Page 16: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

提纲

• 大数据范畴的思考 - 是技术手段或应用模式?

• 企业大数据平台的典型案例分析

某银行:社交媒体大数据处理平台

移动运营商:信令数据共享中心

• Oracle大数据平台建设解决方案概览

Page 17: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

Case1 -- 社交媒体大数据平台 银行需要从大量信息中发现相关讯息

把社交内容转化为可付诸行动的情报

社交媒体 大数据分析

销售代表

客服

市场部

公关部

服务投诉 消费倾向 营销 活动反馈 突发事件

互动

实时的

个性化

有价值

Page 18: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

大数据分析方案物理架构方案

采集 组织 360 ° 分析

公共API

HDFS

MapReduce

数据连接器

社交化数据 分析

MDEX

Weibo Downloader

腾讯微博

新浪微博

Big Data Appliance

切词

转换

情感

去重

客户之声

人力资源

社交分析

企业应用

第三方数据

数据库

Exalytics Exadata

Page 19: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

社交媒体数据的采集——微博开放平台 新浪微博提供Open API

Sina Weibo Open API

微博基础数据接口

微博地理位置信息接口

测试接口

获取下行数据集(timeline)接口 微博访问接口、用户接口 关注接口、话题接口 隐私设置接口、黑名单接口 用户标签接口、账号接口 收藏接口、登录/OAuth接口

地图引擎接口 POI数据搜索接口 POI数据处理接口 移动定位接口 驾车路线搜索接口 公交搜索接口 静态地图接口

http://open.weibo.com/wiki/%E5%BE%AE%E5%8D%9AAPI

Page 20: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

Hadoop大数据能力

转换

计数

过滤

切词

排序

索引

整合 序列 抽取

聚合

Social Media Machine Sensor Data

Media Web Clickstream

Mobile Apps

Call Log

文本挖掘 商务智能 定制化解决方案 数据仓库

挖掘

Page 21: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

分布式MapReduce框架计算

• Map Reduce计算

• 输入 - 微博文本/用户信息

• Mapper - 统计词频

• Reducer – 关联高词频与用户信息,忠诚客户

• 营销 – 针对该用户进行苹果附件产品营销

这个世纪……

因为乔布斯……

乔布斯座右铭……

切词分词统计

创新 2 乔布斯 1

乔布斯 1

乔布斯 1 Stay hungry 1 Stay foolish 1

汇总

乔布斯 3 创新 2 Stay hungry 1 Stay foolish 1

用户:李开复

分析

消息转发和评论数很多,影响力大

热点统计: 乔布斯 *** Stay hungry *** Stay foolish ***

用户分析: 李开复是一个高价值的微博,可以有针对性的做苹果周边产品的营销

Mapper 自编码

Reducer自编码

Reducer自编码

与RDBMS集成

NoSQL数据库……

WebLogs……

Page 22: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

基于Hadoop的社交数据计算

Sina Weibo Open API (http://open.weibo.com)

微博基础数据接口 微博地理位置信息

接口 测试接口

http://data.weibo.com/

Demo:

采集、监控和分析过去一

段时间新浪微博的公共消

•特定用户360洞察

–A.基础数据,热词

– B.兴趣爱好,行为特征

–C.社交图谱

–D.移动轨迹

– E.社交影响力

•重要微博的传播范围和影响力

分析

•实时事件窗口监测, 与CRM集

成或告警

•对内提供数据服务

Page 23: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

房产垂直门户新闻 房产垂直论坛 房产基本信息页 新浪微博内容抓取

元数据抽取标题 发布时间 正文 所属媒体 楼盘名

城市名 区块名 评论 楼盘基本属性统计信息

快速更新

慢速更新

API

文章正文及属性 评论

微博账号属性 账号历史文章

数据存储Hadoop

文本处理NLP

URL-原始文本 URL-文章元信息 微博元信息

入库

内容去重

数据清理

建立索引

数据存取

文本处理回填

中文分词

分类与聚类

优化语料库

情感分析

关键词提取

特征提取

统计报告 结果数据库 数据接口数据关联统计

分析结果

第三方数据

API

人群行为Panel

电视节目统计数据

IP库

广告监测数据

数据可视化Endeca

社交化数据应用处理分析框架

其他数据 结构化数据

爬虫服务器(CAS)

解析服务器

Hadoop服务器集群(BDA)

自然语义处理集群(BDA)

业务模型数据库(Oracle)

Page 24: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

数据挖掘应用

Debt<10% of Income Debt=0%

Good Credit Risks

Bad Credit Risks

Good Credit Risks

Yes

Yes Yes

NO

NO NO

Income>$40K

Q

Q

Q

Q

I I

1 2

3 4

5 6

factor 1 factor 2 factor n

神经网络 Neural Networks 聚类分析 Clustering

Open Accn’t

Add New Product

Decrease Usage

???

Time

序列分析 Sequence Analysis 决策树 Decision Trees

• 倾向性分析

• 客户保留 • 客户生命周期管理 • 目标市场 • 价格弹性分析

• 客户细分 • 市场细分

• 倾向性分析 • 客户保留 • 目标市场 • 欺诈检测

关联分析 Association

• 市场组合分析 • 套装产品分析 • 目录设计 • 交叉销售

数据挖掘提供更好信息、更有价值的

洞察和预测

Page 25: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

房产垂直门户新闻 房产垂直论坛 房产基本信息页 新浪微博内容抓取

元数据抽取标题 发布时间 正文 所属媒体 楼盘名

城市名 区块名 评论 楼盘基本属性统计信息

快速更新

慢速更新

API

文章正文及属性 评论

微博账号属性 账号历史文章

数据存储Hadoop

文本处理NLP

URL-原始文本 URL-文章元信息 微博元信息

入库

内容去重

数据清理

建立索引

数据存取

文本处理回填

中文分词

分类与聚类

优化语料库

情感分析

关键词提取

特征提取

统计报告 结果数据库 数据接口数据关联统计

分析结果

第三方数据

API

人群行为Panel

电视节目统计数据

IP库

广告监测数据

数据可视化Endeca

社交化数据应用处理分析框架

其他数据 结构化数据

爬虫服务器(CAS)

解析服务器

Hadoop服务器集群(BDA)

自然语义处理集群(BDA)

业务模型数据库(Oracle)

展现服务器(Endeca)

Page 26: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

大数据探索

指导业务人员基于多样的和变化的数据作出决策的数据探索平台

Quickly explore all relevant data

Advanced search

Faceted navigation

Analytics

Structured

Semi-structured

Unstructured

Even messy data is ok

Beyond the data warehouse

Relationships undefined or

unknown

No pre-defined model required

Rapid, iterative change

数据探索过程不再是“extract, transform, and load”,而是“load, expose, refine”

Page 27: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

深度探索必须能够分析非结构化的社交数据

更容易更简单的整合更多数据源

无需编程的在广袤数据中进行自

由探索

交互式可视化的揭示数据隐藏的业务模式

Core Discovery Capabilities

+ 集成和丰富非结构化数据和半结构化数据

+ 高级搜索 关联分析

上下文联动 语义分析 情感分析

+ 找到数据和文本里蕴藏的数据关联和模式

+ Unstructured Discovery Capabilities

增加新的数据

提出新的问题

发现新的模式

Page 28: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

微博数据分析 - 数据源描述

绝大部分来自于新浪微博,少量来自于腾讯微博

从2013.09.02到2013.10.16采集新浪微博3000多万条,根据“xx银行”、“x行”、“x银”、“ABC”关键字过滤选取跟xx银行相关的微博6000+条;根据“招商银行”、“招行”、关键字过滤选取跟招商银行相关的微博2900+条;根据“建设银行”、“建行”关键字过滤选取跟建设银行相关的微博4000+条;根据“中国工商银行” 、“工行”关键字过滤选取跟中国工商银行相关的微博6800+条;

XX行提供的60000+关键字新浪微博

@中国银行 @中国银行电子银行 及@中国银行信用卡 @中国银行客户服务中心 官方帐号收到的私信4000+条

X行提供的220多万条微博和评论。

从2013.09.26到2013.10.14采集腾讯微博2万多条

微博明细数据

Page 29: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

微博分析总体概览

分析关于中行的微博内容,提取被微博用户频

繁提到的热词

总微博数:3230万 中行相关:17.2万 招行相关:1300+ 建行相关:2500+

广告类微博数量最多,其次是网银、客服、ATM、网点、信用

卡、借记卡和服务

Page 30: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

我行微博运行管理现状—投诉分析

典型场景4 – 中行与同业网点服务对比

进一步挖掘,发现… 央视新闻在新浪微博发布了关于工行”改密码须本人 75岁病重大爷被担架抬

进银行”的消息

央视主播张泉灵在新浪微博发布了对这条新闻的看法,赞扬了中行的服务,并引发了一轮转发评论的热

潮,影响极大

Page 31: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

重要微博内容分析—批评案例

按情感值为“差”来选择影响力排名靠前的用户,并选择排名靠前的差评微博,分析客户不满意的深层次原因, 以及其他竞争对手的做法,有什么改进的方法和手段

Page 32: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

微博内容分析—客户画像分析

微博评论中行最多的微博ID

社交

兴趣爱好

基础信息

消费特征

生活习惯

郭瑞GraceKuo 性别:女 居住地:北京 新浪认证:中国教师报编辑部副主任

粉丝数:4199 微博: 4076 关注: 434 活跃度:高

旅行 哲学 古董 美食

使用iPhone手机 喜爱西餐 喜爱奢侈品

微博使用习惯:中午/晚上 活跃地点:北京朝阳区 移动轨迹:经常出差

Page 33: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

营销活动分析——传播路径分析 寻找关键转发点

大部分(98%)转发层级为2,主要是通过@财经猫眼网和@中

国银行信用卡 转发。

北京、广东、江苏、内蒙古、河南等省参与本次活动用户较多

在3068次转发中,有2951次是通过@财经猫眼

网 转发的,少量通过@中国银行信用卡 自己转发。也就是说,在本次营销活动中,帐号@财经猫眼网 起到了很大的作用。在今后的营销活动中,可以多借助这类微

博用户的力量扩大影响力。

北京、广东、江苏、内蒙古、河南等省参与本次活动用户较多

活动虽然是10月17日开始,但在10月21日和22日达到高峰

Page 34: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

Case2 -- 移动运营商信令数据共享平台项目背景

34

智能管道、流量经营

Page 35: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

信令分析平台架构设计思路

35

分层设计 数据共享

应用复制 量化评估 实现应用的准入、退出机制,并实现快速复制,类似于APP Store 的功能

按照功能聚类划分,分层设计,各层间实现松耦合,实现有效的系统集成

为了解决目前存在的问题,从快速支撑信令应用的角度出发,借鉴业界、xx移动相关系统的

建设经验,信令分析平台架构设计遵循以下的思路:

根据应用的复制和使用情况,对厂商进行量化评估,便于后期选择合适的厂商参与建设

统一编解码,为所有实时应用提供实时数据;建设数据共享层,统一为分析型应用提供数据

Page 36: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 36

数据共享子层支持的“百花齐放、应用共享”模式

场景三:佛山应用变为全省应用

发布

佛山

省中心

佛山应用

孵化区

应用开发、使用

应用发

布申请

应 用 发

布批准

应用发布

全省应用发布

应用查看、评论

应用复制发布

应用复制申请

应用发布评审

应用复制申请审核

应用全省复制评审

佛山应用

发布区

深圳应用

孵化区

深圳应用

发布区

广州应用

孵化区

广州应用

发布区

深圳 广州

应用复制申请

应用复制发布

全省应用发布

1

2

3

4

5

场景一:佛山自主开发应用

并发布使用。

场景二:佛山应用复制到

需要的其它地市。

1 应用查看、评论 1

2

2

3

4

4

1

2

实行“谁开发,谁负责”制度,即对于已发布应用,其它市公司有更新需求,将统一汇总到应用的原开发公司处,由其负责版本升级,最后由省公司进行应用同步。

Page 37: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

信令分析平台总体设计架构

采集层

编解码子层

共 享 层

应 用 层

信令应用

CS域原始信令采集

信令原数据处理 实时 编解

码 合成

预统计

CS域编解码系统 信令原数据处理 实

时 编解码

合成 预统计

PS域编解码系统

企业服务总线(ESB)

各地市个性化分析应用 全省公共分析应用

数据提供接口 应用服务接口

1个省级数据仓库

全省汇总数据

实时应用

统一数据加载(ETL)

企业服务总线(ESB)

PS域原始信令采集

全省聚合数据

运营管理 应用容器 应用分析 应用订购 应用评估

数据共享层

数据关联 数据聚合 数据计算 数据汇总

广州集市 深圳集市 湛江集市 …

21个数据集市

数据仓库(21+1模式建设)

•应用层:提供统一的门户、开发环境、服务组件,实现应用标准化。

•共享层:采用1+21模式,分为信令编解码子层和数据共享子层。信令编解码子层用于原始信令的编解码、关联、处理、存储

。数据共享子层用于XDR的存储、统一的数据模型提供及API接口,对外提供信令数据,实现信令处理及共享功能。

•采集层:实现核心网和无线网的统一采集。核心网采用全采部分监控的方式。无线网Abis接口实现重点区域采集和动态采集的方式。

• 基于“信令灵活采集、数据统一共享、应用快速复制”原则,规划技术部与网维中心共

同设计提出了信令分析平台的总体架构,此架构得到了公司领导认可。

Page 38: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

数据共享层业务框架(21+1方案)

数据存储按照支持应用的不同分为两部分: 1、应用孵化数据存储区:支持各地市的应用的个性化开发。 数据存储机制:存放“试点”地市的明细数据、汇总数据和聚合数据,其中明细数据存放7天; 2、应用发布数据存储区:支持各地市和全省发布的应用。 “21+1” 数据存储机制:按21地市存放各自的明细数据、汇总数据和聚合数据; 按全省存放全部地市的汇总数据和聚合数据; 其中明细数据存放30天;

提供三种业务能力: 1、数据库视图:以可见的数据图表的形式对外提供数据,例如JDBC/ODBC 2、应用服务共享:封装成SOA形式对外提供服务,例如WebService 3、数据文件共享:以文件传输的方式对外提供数据,例如SFTP/FTP 数据共享子层对外进行明细数据提供的原则是:只提供历史的CDR数据,实时的CDR数据提供由编码子层提供。

Page 39: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

分布式库外数据处理集群

采用Exadata作为省中心数据

仓库 (汇总数据)

应用层 应用 应用 应用 应用 应用 应用

库外处理结果文件

Infiniband

A

B C

D

E

A地市 B地市 C地市

Exadata

view

模型

报表

聚合区 汇总区

xx xx xx

存储

资源池

文件服务器存放XDR文件

XDR文件

分布式ETL处理集群

XDR文件

清洗后的XDR文件

WebService服务器集群

分布式存储集群

(明细数据)

数据共享层运行环境:Exadata高性能数据库云服务平台

Page 40: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

提纲

• 大数据范畴的思考 - 是技术手段或应用模式?

• 企业大数据平台的典型案例分析

• Oracle大数据平台建设解决方案概览

Page 41: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

Oracle云计算数据基础设施

Oracle 企业大数据中心基础设施

海量管理能力 多结构 高可用 水平扩展 按需服务

并 行 架 构

企业应用

应用中间件云平台

ORACLE ExaLogic

(应用网格)

SOA 云服务支撑平台

集成SOA

流程管理BPM

安全性Identity

用户交互 Web

JAVA 开源

应用中间件

核心业务数据

大数据

海量,多结构 变化快,低密度 PB+ 级

多结构 非关系模型

结构化 关系模型

C-level

实时BI

OLTP 百TB+级

价值 数据 提练 上移

热点 数据 上移

•ODI For Hadoop •Oracle Hadoop Loader •Oracle NoSQL •Hadoop MapReduce

•混合列压缩 •智能扫描 •Flash Cache •RAC •Advanced Analytics

内存数据库 内存列压缩 Essbase in Memory OBIEE Foundation

Page 42: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

Oracle Exadata/Database

Oracle Exalytics

Oracle大数据平台解决方案

Oracle 大数据机

Oracle 大数据连接器

针对 分析和内存中负载进行了优化

“记录系统” 针对 DW/OLTP 进行了优化

针对 Hadoop、 R 和 NoSQL 处理而优化

Oracle 企业绩效管理

Oracle 商务智能管理软件

Oracle 商务智能工具

Oracle Endeca 信息发现

Hadoop

开源 R

应用程序

Oracle NoSQL 数据库

Oracle 大数据连接器

Oracle Data Integrator

数据仓库

Oracle 高级分析

Oracle 数据库

源 获取 组织 分析 决策

Page 43: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

Hadoop 与 Oracle 数据库集成

Oracle Hadoop装载器(Oracle Loader for Hadoop):将数据从Hadoop高效装载到关系型Oracle数据库;

Oracle HDFS直接连接器(Oracle Direct Connector HDFS):从关系型Oracle数据库利用SQL直接访问Hadoop HDFS上保存的数据;

Oracle数据集成Hadoop应用适配器(Oracle Data Integrator Application

Adapter for Hadoop):适配Hadoop数据源的ETL工具,提供易于使用的界面,简化了Hadoop应用与Oracle数据库的数据集成。

Oracle R Hadoop连接器(Oracle R Connector for Hadoop):在R中直接访问Hadoop/HDFS的文件,利用Hadoop 集群运行R格式的MapReduce脚本;

Oracle大数据连接器(Oracle Big Data Connectors)

Page 44: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲

• 数据驱动

• 模型,但不只是模型

• 业务数据科学家

• 强大稳定的技术团队

• 成熟稳定有商业化支持的产品

大数据实施关键点

简单模型加海量数据比精巧模型加上较少的数据更有效。

----- Google研发总监Norvig <<数据不可解释,不合理有效性>>

Page 45: 大数据时代 企业下一代商业智能 - Oracle...大数据时代 企业下一代商业智能 华数 Oracle技术交流日 孙少华/shaohua.sun@oracle.com 企业架构师 提纲