数据中心运维管理 - oracle · •追求更低的tco和高roi...

61
Industry specific cover image 数据中心运维管理 王锐 甲骨文大中国区资深技术咨询顾问

Upload: others

Post on 09-Nov-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

Industry specific cover image

数据中心运维管理

王锐

甲骨文大中国区资深技术咨询顾问

Page 2: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

议程

•数据中心运维管理面临的问题与挑战

•数据中心运维管理探讨

–数据中心运维管理的能力框架及建设演进

–业务驱动IT管理

–完整的平台管理

–全生命周期管理

•总结

2

Page 3: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

IT越来越复杂,带来的典型IT运营问题

架构复杂 整体性能难保证

整体可用性难保证 运维管理复杂

• 复杂,多厂商 • 难扩展 • 需要多领域专家 • 消除I/O瓶颈很复杂 • 多厂商集成方案成本高、耗时

• 异构的数据库、Java层、消息层和Web层很难整体调优 • 尤其在通常虚拟环境中,整体性能不高、不可预测 •

• 异构环境可用性管理复杂 •在通常的虚拟环境中,应用可用性更难管理 • 不同厂商产品的可用性可以大大影响整体可用性

• 异构环境增加运维复杂度,职责不好界定 • 问题诊断、解决过程复杂 • 不同厂商产品的升级、补丁过程复杂

Page 4: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

4

“稳定”和“安全”是IT运营的基本目标

日常监控 服务响应 工作调度 数据备份

系统变更执行 事故报告 灾备操作 机房管理 访问授权 健康检查

应用系统

开发 测试 生产 灾备

中间件

数据库

服务器与存储

问题 管理

变更 管理

事件 管理

配置 管理

版本 管理

可用性 管理

容量 管理

网络

运维人员在多个环境里进行手工配置和操作,难以避免人为操作风险

变更影响分析通常凭经验,也难以充分测试,怎样控制和验证?

怎样确定问题的根源?可以从业务影响发现问题吗?怎样避免问题的再次发生?

真的了解运行状态吗?预警和主动监控能做到什么程度?健康检查是否有效?

如何快速定位和恢复故障?应急演练是否有效?备份的数据真的可用吗?

怎样判断架构的高可用性?当前的性能容量能否支撑下阶段业务发展?

Page 5: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

基础架构和运维的驱动

•性能提升 –资源利用率提升

•弹性扩展 –弹性/可靠性/性价比

•快速应用部署 –压缩环境准备和应用安装部署时间

–提高工作效率

•节能减排 –机房空间效率

–电力供应

–平均CPU/存储利用率

•追求更低的TCO和高ROI –降低软件、硬件、服务成本

–简化运维工作,降低维护成本

数据中心 不能成为问题中心

• 集中管控 – 监控预警,实现主动管理

– 故障诊断和性能优化

– 可视化管理,面向服务质量

• 风险控制 – 降低操作风险

– 系统安全提升

5

Page 6: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

6

来自业务的挑战

CIO办公室

对最终用户体验缺乏可见性

业务要求IT可靠和透明

业务经理要求以业务的语言来描述IT服务水平

客户对服务中断和性能问题毫无耐心

IT性能指标与业务毫不相干

不能有效控制服务中断和性能下降

•缺乏通用语言 •基础关注点

•不一致

“像业务一样经营IT”是CIO共同目标,

目的是保障服务质量,提高IT对业务的贡献。

IT运营

Page 7: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

IT服务管理最佳实践的新要求

7

ITIL v3

帮助用户从业务角度完成整体设计、实施和持续优化IT服务管理,并通过IT服务管理将企业的业务需求和IT管理实现量化对接

ISO 20000:2011 供应商和客户之间的实质关系将影响服务管理过程如何实施

业务战略指导落地,业务需求量化考核

Page 8: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

问题与挑战的总结思考

8

来自业务的挑战 •灵活的支持业务发展;

•对业务量持续以及爆发性增长的需求;

•对于最终用户体验具备可见性;

•业务需求和IT管理实现量化对接

运维的驱动 •具有面对服务需求峰值而不需要额外投入的能力;

•可提供7×24小时高水平服务等级的能力;

•需要具有丰富经验的资源;

• 80%的企业软件费用花费在安装与维护;

•服务器对管理员的比例还维持在20-30:1的水平;

•部署新的应用时间太长。

IT基础架构与基础设施的驱动 •数据中心空间优化与地点的选择;

•不断增长的数据中心基础架构的复杂度;

•服务器的利用率介于10%~15%;

•数据中心往往需要耗费上千万的资金去建设,而且不能在现有设施上去扩展。

日常监控 服务响应 工作调度 数据备份

系统变更执行 事故报告 灾备操作 机房管理 访问授权 健康检查

应用系统

开发 测试 生产 灾备

中间件

数据库

服务器与存储

问题 管理

变更 管理

事件 管理

配置 管理

版本 管理

可用性 管理

容量 管理

网络

保障稳定和安全 •业务连续性和高可用性建设;

•潜在问题的分析和规避;

•主动的客户体验监控;

•问题快速定位和解决。

IT的变革与创新 • IT基础架构集中与标准化;

•虚拟化、网格计算;

•自动化与持续可用;

•云计算/绿色IT。

Page 9: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

议程

•数据中心运维管理面临的问题与挑战

•数据中心运维管理探讨

–数据中心运维管理的能力框架及建设演进

–业务驱动IT管理

–完整的平台管理

–全生命周期管理

•总结

9

Page 10: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

通过架构整合和简化、提升运营管理能力来解决面临的IT运营问题与挑战

10

构建完整平台管理,完善运营基础管理能力,同时帮助用户从业务角度优化IT服务管理,将企业的业务需求和IT管理实现量化对接

提升运营管理能力 架构整合和简化

软硬件资源池、横向整合和纵向整合结合的一体化整合方式、和云计算等架构优化手段驱动了运营水平的提高

Page 11: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

Oracle IT运营能力框架模型

11

ITIL v3.0

COBIT

USMBOK

ISO 20000

TOGAF

Oracle Unified Method

SAS 70 Type I and II

运营规划 运营设计 运营管理

服务规划 服务识别 用户体验 财务目标

服务水平管理 组合设计、SLA实施、SLA趋

势分析

服务台 事件管理、知识管理、SLA

报告

配置与变更管理 配置规划、配置执行、变更

管理、跟踪与报告

性能与可用性管理 基线、测量、分析、解决

架构规划 平台架构 可用性架构 性能架构

发布管理 规划、协调、确认

利用率管理 基线、虚拟化/集群、压缩

安全管理 政策、审计与报告、访问和

识别管理 服务开通与补丁管理 政策、初始化资源、补丁升

级 信息全生命周期管理 规划、灾难恢复、归档

业务

IT

Page 12: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

提升IT运营能力:技术成熟度模型

12

有感知的

标准化程度低

架构与运维无法共享

只对关键资产使用状况有了解

>6周部署

普遍的单点故障

基本的监控

技术现代化

阶段 1 认可的

关键的硬件/软件标准化

对于75%资产的使用状况了解

25%已经整合 <2周部署 N+1设计 基本的管理

集中与整合

阶段 2 主动的

硬件/软件标准化 共享的架构与运维 75%整合、部分虚拟化

100%了解资产使用状况

数天内部署 关键系统可靠性设计

运维管理工具集

虚拟化

阶段 3

集成的架构

75%虚拟化

运维资产

数小时分配资源

持续的可用性

IT服务工具

服务型的

自动化

阶段 4 业务合作伙伴

高扩展、弹性的架构

新技术使用 90%虚拟化 整体的架构与运维 动态资源分配 灾难下的持续可用性

业务服务工具 云计算

阶段 5 我们在哪里?

Page 13: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

提升IT运营能力:人员成熟度模型

13

有感知的

人员按技术分类

离散的

个人主义

较低的客户信心

非正式的审查

个人型

阶段 1 认可的

分级支持 角色按流程定义 正式的职业发展规划

培训 员工KPI

组织型

阶段 2 主动的

以流程为中心 与HR的流程相结合 能力中心 预防模式 趋势分析

以流程为中心

阶段 3

服务为中心

新的角色

信任的服务供应商

技能管理

以服务质量为目标

参照行业最佳实践

服务型的

以服务为中心

阶段 4 业务合作伙伴

成为业务部门 虚拟团队 注重业务 高效的外包技能 业务与IT轮岗 创建行业最佳实践

以业务为中心

阶段 5 我们在哪里?

Page 14: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

提升IT运营能力:流程成熟度模型

14

有感知的

救火队模式

工具定义流程

备件备份

以工具作为标准

没有流程文档

工具使用

阶段 1 认可的

事件管理 变更与问题管理 标准化 灾备管理 项目管理 较少的流程集成

运维流程

阶段 2 主动的

分析趋势 阀值设置 应用可用性监控 自动化 大部分ITIL流程已成熟

服务交付流程

阶段 3

IT作为服务供应商

服务分类与定价

保证的SLA

服务可用性监控

集成的流程

容量管理

服务型的

服务与客户管理

阶段 4 业务合作伙伴

IT作为战略业务伙伴

IT与业务KPI关联 提升业务流程协作 实时架构 业务变革

以业务为中心

阶段 5

我们在哪里? 我们在哪里?

Page 15: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

数据中心运维管理的能力建设演进

完善运营管理基础能力 •主动端到端监控 •快速定位问题 •集中配置管理 •有效控制变更和发布 •自动化生命周期管理 •有效的应急和安全措施

实现业务驱动 •用户体验 •业务监控 •业务指标

云管理 •全生命周期管理

15

Page 16: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

用户体验管理

业 务 服 务 管 理

业 务 交 易 管 理

网络门户 产品目录 订单管理

...其它 业务服务

客户与业务用户

业务驱动IT管理

完整的平台管理 全生命周期云管理

业务驱动IT管理

– 以业务视角管理IT资源

– 创建应用感知云,能够理解和适应实际业务需求

完整的平台管理

– 应用、中间件、数据库、硬件

– 一体机 (Exalogic,Exadata)

全生命周期云管理

– 建立敏捷的IT管理以适应不断变化的业务需求

– 使用同一软件进行统一的云服务全生命周期管理

应用

中间件

数据库

OS, VM, Servers

存储,网络

Oracle 支持服务

云服务 Apps, PaaS, DBaaS, IaaS..

数据中心运维管理解决方案

16

Page 17: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

议程

•数据中心运维管理面临的问题与挑战

•数据中心运维管理探讨

–数据中心运维管理的能力框架及建设演进

–业务驱动IT管理

–完整的平台管理

–全生命周期管理

•总结

17

Page 18: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

业务驱动型应用管理与能力框架的映射

运营规划 运营设计 运营

服务规划 服务水平管理 服务台

配置与变更管理 性能与可用性管理

架构规划

发布管理 利用率管理

安全管理 供应与补丁管理

信息全生命周期管理

虚拟机

服务器

存储

网络与基础设施

用户体验管理

业 务 服 务 管 理

业 务 交 易 管 理

网络门户 产品目录 订单管理

...其它 业务服务

客户与业务用户

业务驱动型应用管理

完整的云平台管理 全生命周期云管理

应用

中间件

数据库 OS, VM, Servers

存储,网络

Oracle 支持服务

云服务 Apps, PaaS, DBaaS, IaaS..

Page 19: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

真实用户体验管理

业务交易管理

JVM 和DB诊断

用户满意度怎么样?

他的录入快速吗?

下单情况怎么样?

下单为什么卡住? 为什么慢? 怎么老超时?

根本原因是什么? 是核心的问题还是

ECIF问题?

19

业务驱动的端到端应用管理

Page 20: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

用户体验管理 实时监测用户的“真实的”活动,优化业务响应率和转化率

Executive dashboard

Business Reporting Transaction Performance

SLA管理与行政驾驶舱

实时错误报告与分析

KPI实时监控与报警 定制业务服务实时监控

实时交易漏斗监控 整体页面浏览性能

-绿色 = 满意

-橙色 = 容忍

-蓝色 = 失望

用户满意度实时趋势分析

实时用户体验跟踪 用户出错页面重放 实时系统性能分析

Page 21: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

• 持续监控关键事务, 通过一系列的事务/操作序列来定义”业务交易”

• 典型“业务交易”问题

–业务上定义的逻辑错误, 比如”信用额度不足”, “库存少于10件”, “审批周期超时”, “定单金额超过预定义金额”

–失控流程(Stalled processes), 不正常跳转, 非正常中断的交易流程等

–失控结果, 定义范围以外的结果

–技术层面的问题, 比如延时

–和EM其他模块互动,告警并解决问题

Rejected Order

Alert

WebLogic Service Bus

Appliance DBMS

Web

Partner and Cloud

业务交易管理

Page 22: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

22

Service Level Objective (SLO)

For Platinum customers:

• Ave. Response time per hour < 6 sec

• Warning threshold <= 4 sec

- Action: alerts

1

利用率跟踪和分类 – 譬如:白金卡,金卡,银卡等

2

3 服务水平协议 面向目标的性能监控

5

为白金客户提供稳定的响应时间

在白金客户违规错误发生之前自动告警

4

Gold

面向客户可定制业务驱动的服务质量(QoS)交付

Page 23: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

议程

•数据中心运维管理面临的问题与挑战

•数据中心运维管理探讨

–数据中心运维管理的能力框架及建设演进

–业务驱动IT管理

–完整的平台管理

–全生命周期管理

•总结

23

Page 24: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

完整平台管理与能力框架的映射

运营规划 运营设计 运营

服务规划 服务水平管理 服务台

配置与变更管理 性能与可用性管理

架构规划

发布管理 利用率管理

安全管理 供应与补丁管理

信息全生命周期管理

虚拟机

服务器

存储

网络与基础设施

用户体验管理

业 务 服 务 管 理

业 务 交 易 管 理

网络门户 产品目录 订单管理

...其它 业务服务

客户与业务用户

业务驱动型应用管理

完整的云平台管理 全生命周期云管理

应用

中间件

数据库 OS, VM, Servers

存储,网络

Oracle 支持服务

云服务 Apps, PaaS, DBaaS, IaaS..

Page 25: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

•服务器与存储告警

•服务器故障管理

•物理层与虚拟基础设施层的依赖关系分析

•完整的、深度数据库监控

•数据库自服务管理 (ADDM, AWR, ASH)

•自动化SQL优化

•监控 Weblogic, SOA, Coherence

•JVM诊断

•服务拓扑与依赖关系分析

•用户体验管理

•业务交易管理

•EBS,Siebel,People Soft建模与监控

为云提供业务驱动型应用监控

完整的、从应用到磁盘的资源监控

25

Page 26: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

部署/运行维护 。。。

系统间接口 连接/超时

DB 系统间

客户端

系统内 资源使用冲突

连接

内存

CPU

类型(根本原因) Root Cause (事故多发区)

线

问题现象/当前系统数据

系统内 复杂逻辑处理

报文处理

日志 复杂交易

错误处理

针对交易线上每个环节,分析系统间接口、系统内资源使用、应用的复杂逻辑处理、以及部署、维护环节的实现机制与参数配置,可以深入分析问题的原因所在。

一体化的优化考虑、一站式的问题“会诊”

26

Page 27: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

用户体验监控

• 通过综合检测比对服务实际运行响应水平和预定义SLA的要求

• 采用模型驱动的方法对应用进行基于上下文的下钻.

• 支持Servlet/JSP, EJB, JDBC 下钻

• Java 代码级的诊断

• 跨层追踪至Oracle 数据库

• 内存泄漏分析

复合应用管理 JVM 诊断 数据库管理

• 监控和优化数据库

• 提供关于数据库问题的建议

全面覆盖用户级/应用级/系统级等问题

27

Page 28: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

数据库管理

事件 策略

管理数据

配置变更管理

集中管理 数据遮蔽

集中监控

ORACLE

性能诊断与优化

业务服务与SLA管理

Page 29: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

集中的数据库监控管理

Page 30: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

自动性能诊断 通过数据库自管理获得最佳性能

•通过数据库自管理保持最佳性能

•使用自动负载信息库快照进行自上而下的分析

•使用自动数据库诊断监视器进行实时性能分析

•通过深入的根源分析加速解决性能问题

•基于性能调优经验的分类树

•性能专家

提高管理员的工作效率

消除性能瓶颈

降低 IT 管理成本

提高服务质量 自动负载

信息库快照

性能与管理

顾问程序

高负载

SQL

RAC

问题

IO / CPU

问题

自诊断引擎

Page 31: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

应用程序调优 自动 SQL 调优

•自动 SQL 调优 •捕获高负载 SQL •使用 SQL 配置文件调优 SQL •实施极大改进的 SQL 计划(可选)

•提供的建议带来的性能改进 •通过 SQL Profiling 无需更改 SQL 代码即可调优执行计划 •对打包的应用程序启用透明调优

应用程序

高负载

打包的应用程序 + SQL 配置文件

可定制的应用程序 + SQL 建议

可定制的应用程序 + 索引和 MV + 分区

已调优的 SQL

自动调整优化程序

Page 32: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

•自动监视长时间运行的 SQL •即取即用且不影响性能 •监视每个 SQL 执行 •展示监视统计信息

–全局执行级别 –计划运行级别 –并行执行级别

•指导调优工作 •作为活动报告 •增强以监视 PL/SQL

实时 SQL 监视 深入了解 SQL 执行情况

Page 33: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

• 针对 RAC/HA 设置的配置级汇总视图(内含图表)

• 对 MAA 实施提供建议

• 单实例最小停机时间自动化实现 MAA

• 显示全部配置中与可用性有关的事件

• 管理基于角色的备用数据库,如将物理备用数据库转为Active Data Guard

高可用性

Page 34: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

管理整体设计的系统

• 集成的硬件和软件管理

– 硬件示意图和警报

– 集成和深入的软件管理

– 硬件和软件拓扑、配置管理

• 主动式支持

– “呼叫总部”

– 健康检查

– 补丁和最佳实践顾问程序

数据库云服务器 (Exadata)

和中间件云服务器

(Exalogic)

Page 35: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

怎样做到数据保护的深度防御?

如何做到:

• 敏感数据“看不见”

• 核心数据“拿不走”

• 运维操作“能审计”

加密和屏蔽

访问控制

审计和监视

阻止和记录

Page 36: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

数据安全架构

HR

Rebates

数据库审计

HR

Rebates

备份加密 数据加密 传输加密 数据伪装

审计

鉴权

认证

敏感

机密

公开 应用 服务器

网络SQL监控和阻止

多因素鉴权和认证

整合DB安全

非法DBA行为

Page 37: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

构建实时业务数据中心

数据中心

数据中心 数据库

… 数据库1 数据库2 数据库N

实时、高性能:从日志中实时获取最新变化数据,由于不直接访问数据库本身、对生产数据库附加压力很小

日志 日志 日志

高安全性:非侵入式方式,无需业务数据的用户密码,确保业务数据的安全性

数据实时集中 Oracle GoldenGate

高可靠性:支持断点续传

高兼容性:支持在各种类型数据库之间交换数据

•招商证券 安信证券

•齐鲁证券 平安证券

•红塔证券

Oracle GoldenGate案例

Page 38: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

• 一技多用

• 保证业务不间断和实时报表/BI 兼得。

•高扩展性

•快速部署

•更低总拥有成本(TCO),更高投资回报率(ROI)

满足整个数据中心的实时数据需求

基于Log的实时变化数据捕获(CDC)

异构源系统

企业数据仓库(EDW) ODS

EDW

容灾, 数据保护

零停机迁移或升级

业务报表

实时 BI

备用库 (处于打开 & 活动状态)

报表库

OGG

ETL

ETL

分担查询负载

数据分发

Page 39: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

议程

•数据中心运维管理面临的问题与挑战

•数据中心运维管理探讨

–数据中心运维管理的能力框架及建设演进

–业务驱动IT管理

–完整的平台管理

–全生命周期管理

•总结

39

Page 40: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

全生命周期管理与能力框架的映射

运营规划 运营设计 运营

服务规划 服务水平管理 服务台

配置与变更管理 性能与可用性管理

架构规划

发布管理 利用率管理

安全管理 供应与补丁管理

信息全生命周期管理

虚拟机

服务器

存储

网络与基础设施

用户体验管理

业 务 服 务 管 理

业 务 交 易 管 理

网络门户 产品目录 订单管理

...其它 业务服务

客户与业务用户

业务驱动型应用管理

完整的云平台管理 全生命周期云管理

应用

中间件

数据库 OS, VM, Servers

存储,网络

Oracle 支持服务

云服务 Apps, PaaS, DBaaS, IaaS..

Page 41: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

应用程序和业务服务

平台即服务

基础架构即服务

规划

预配

构建

测试

部署

监视

管理

计量和 计费

优化

DBaaS MWaaS

全面的生命周期管理

41

Page 42: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

• 利用IP扫描技术发现资源

• 选中被找到的主机后,可将代理部署以及对象发现等工作集成实现

• 将目标状态从“未管理”标记为“已管理”

• 可识别已被管理的资产

自动发现资源

Page 43: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

规划整合

•规划整合消除了 – 资源过剩或不足导致的对资源的低效使用

– 高使用成本

•管理维护费用

•能源与机房空间的开销

•数据中心的扩展产生的安保开销

• Enterprise Manager 提供了多样化的选择: – 将数据中心里的物理服务器进行整合 (P2P)

– 从物理主机迁移到虚拟主机上 (P2V)

– 迁移到 Exadata (P2E)

Page 44: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

打包多层企业应用程序

捕获完整的 应用程序拓扑

打包成一个组件 部署自助服务

元数据

OVM

HTTP

OVM

HTTP

OVM

WLS

OVM

数据库

Ora

cle

En

terp

ris

e M

an

ag

er

Oracle Virtual Assembly Builder

上载到软件库

Page 45: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

端到端的应用程序测试 实现应用程序、中间件和数据库自动化测试

测试应用程序更改

测试基础架构更改

测试数据和实验室管理

Oracle Functional

Testing

Oracle Load

Testing

Oracle Test

Manager

SQL Performance

Analyzer 应用程序重放

数据发现和建模 创建数据子集

数据库重放

数据屏蔽

生产负载 合成负载 测试数据管理

Page 46: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

部署安全的测试系统 Oracle Data Masking

• 通过屏蔽敏感数据部署安全的测试系统

• 敏感数据永不离开数据库

• 用于自动化的可扩展模板库和策略

• 高级屏蔽:基于条件的屏蔽、混合屏蔽、确定性屏蔽

• 集成的屏蔽和克隆

• 针对常见数据类型利用屏蔽模板

• 利用Gateways实现异构数据库的数据遮蔽

• 数据屏蔽操作支持命令行 (EMCLI)

生产 测试

LAST_NAME SSN SALARY

SMITH 111—23-1111 60,000

MILLER 222-34-1345 40,000

LAST_NAME SSN SALARY

AGUILAR 203-33-3234 40,000

BENSON 323-22-2943 60,000

Page 47: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

• 测试并预测系统更改对 SQL 查询性能的影响

• 分析性能更改(提高或降低)情况

• 全面的性能分析和报告

• 在测试环境中重新执行 SQL 查询

• 端到端的解决方案:STS、SQL Plan Baselines、SQL Tuning Advisor

Oracle Real Application Testing SQL Performance Analyzer

SQL 负载

STS

SQL 计划 + 统计

更改前的试验

SQL 计划 + 统计

更改后的试验

分析报告 比较 SQL 性能

Page 48: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

•降低数据库更改的成本和风险

•完全自动化的工作流

•提供对以下的更改保证

–数据库和 O/S 升级,如迁移到 Exadata

–配置更改,如从单个实例到 RAC 的转换

–存储更改

–O/S 迁移,如从 Windows 到 Linux

•支持从 Oracle 9iR2 升级到 10gR2 和 11g!

测试

捕获 处理 重放 分析与报告

生产 重放驱动程序 客户端

存储 存储

Oracle Real Application Testing 数据库重放

Page 49: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

自助式访问

•基础架构即服务 (IaaS)

– x86 和 SPARC

•平台即服务 (PaaS)

–数据库 (DBaaS)、Java,……

–物理和虚拟环境支持

•现成的门户和 API

自由、专业的自助式控制

Page 50: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

监视和管理运营

•跟踪资源流动、承租方、策略违规等

•监视请求和故障

•管理资源和容量利用率

•自动、策略驱动的灵活性

Page 51: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

服务的计量、计费和优化

• 从应用程序到磁盘的资源计量

• 计费

• Oracle Billing and Revenue Management (BRM) 集成

• 优化性能、容量、QoS、成本……

Page 52: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

了解现状

资产发现

自动化的库存

硬件/软件配置

•操作系统

•硬件

•数据库

•打包的应用程序

配置搜索

关系

实时监视

实时检测

•什么人于什么时间做了哪些更改

合规性框架

•SOX、PCI、CoBIT……

更改调节

•授权的或未授权的

规范配置 配置合规性

偏差分析

配置比较

•跨整个系统

•跨整个生命周期

•基准和黄金标准

•一对一、一对多

偏差调节

主动检查

策略管理

现成的策略

用户自定义策略

用户自定义组

合规性信息板

检测配置更改

集中式配置与变更管理

52

Page 53: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

自动配置收集

• 自动收集主机、操作系统、数据库、中间件、应用的指定信息

• 允许用户自定义配置收集项 –图形化设置界面和开箱即用的语法

–可以修改已定义的所有配置收集项

• 拓扑视图,显示相互关系 –从系统层面管理

–依存分析

–影响分析

–定制化视图和关系

Page 54: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

•根据目标或者与目标相关的对象的配置属性设定灵活的检索条件

•可以将常用的搜索条件保存为预定义的搜索

配置检索 快速回答复杂的问题

Page 55: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

资产跟踪 详细的报告和趋势分析

• 显示以下属性: –操作系统

–数据库

–中间件

–应用

• 趋势报告 •资产增长

•指出可能的趋势

•支持升级和移植

Population Trend

Configuration Details

Version Distribution

Page 56: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

•参考配置和软件库中克隆,保证一致性和标准型,减少搭建环境时间并将出错降到最少

•克隆操作包括执行代码及域配置信息

•克隆相关组件到新硬件,扩展操作系统平台支持

•从菜单访问直接选择需要被克隆的域

自动化操作克隆

56

Page 57: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

补丁的批量部署

• 使用部署流程管理中间件补丁

– 下载Oracle推荐的补丁程序

– ‘补丁计划’能够收集多个补丁,并能够检查其有效性及可能存在的冲突

– 补丁冲突解决方案:主动查找可用的复合补丁,否则记录SR

– ‘分析’模式将检查集权的健康状态,从而避免不可预见的问题

• 无人值守式补丁管理

57

Page 58: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

议程

•IT运营面临的问题与挑战

•IT运营能力建设探讨

–IT运营管理的能力框架及建设演进

–业务驱动IT管理

–完整的平台管理

–全生命周期管理

•总结

58

Page 59: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心
Page 60: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

完整的生命周期管理 集成的一体化管理 业务驱动的IT管理

自助式 IT | 简单、自动 | 业务驱动

应用程序和业务服务

平台即服务

基础架构即服务

规划

预配

构建

测试

部署

监视

管理

计费

优化

DBaaS MWaaS

60

总结 通过业务驱动的端到端一体化管理实现全面掌控IT,提升运营管理能力

Page 61: 数据中心运维管理 - Oracle · •追求更低的tco和高roi –降低软件、硬件、服务成本 –简化运维工作,降低维护成本 数据中心 不能成为问题中心

61