数据中心运维管理方案
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Appliance
Web
WebLogic
Service Bus
• • 典型“业务交易”问题
• – 业务上定义的逻辑错误, 比如” 信用额度不足”, “
库存少于10 件”, “审批周期超时”, “定 单金额超过
DBMS
预定义金额”
• – 失控流程(Stalled processes), 不正常跳转, 非正 常中断的交易 流程等
实时用户体验跟踪
用户满意度实时趋势分析
整体页面浏览性能 -绿色 = 满意 -橙色 = 容忍 -蓝色 = 失望
用户出错页面重放
实时错误报告与分析
Business Reporting
实时系统性能分析
业务交易管理
• • 持续监控关键事务, 通过一系列 的
Rejected Order Alert
• 事务/操作序列来定义”业务交易 ”
IT的变革与创新
• IT基础架构集中与标准化; • 虚拟化、网格计算; • 自动化与持续可用; • 云计算/绿色IT。
来自业务的挑战
• 灵活的支持业务发展; • 对业务量持续以及爆发性增长的
需求;
• 对于最终用户体验具备可见性; • 业务需求和IT管理实现量化对接
运维的驱动
• 具有面对服务需求峰值而不需要
本高、耗时
• 异构的数据库、 Java层、消息层和Web 层很难整体调优 • 尤其在通常虚拟环 境中,整体性能不高、 不可预测
•
整体可用性难保证
• 异构环境可用性管理复杂 •在通常的虚拟环境中,应 用可用性更难管理 • 不同厂商产品的可用性可 以大大影响整体可用性
运维管理复杂
• 异构环境增加运维 复杂度,职责不好界 定 • 问题诊断、解决过 程复杂 • 不同厂商产品的升 级、补丁过程复杂
数据中心运维管理方案
议程
•数据中心运维管理面临的问题与挑战 • •数据中心运维管理探讨
• –数据中心运维管理的能力框架及建设演进 • –业务驱动IT管理 • –完整的平台管理 • –全生命周期管理
• •总结
2
架构I复T杂越来越复杂,带来的典型IT运整体营性问能难题保证
• 复杂,多厂商 • 难扩展 • 需要多领域专家 • 消除I/O瓶颈很复杂 • 多厂商集成方案成
25%已经整合 <2周部署 N+1设计 基本的管理
阶段 3
服务型的
主动的
集成的架构
硬件/软件标准化 共享的架构与运维
75%整合、部分虚
拟化
100%了解资产使用
状况
数天内部署
关键系统可靠性设
75%虚拟化 运维资产
数小时分配 资源 持续的可用 性
IT服务工具
组合设计、SLA实施、SLA 趋 势分析
配置与变更管理
配置规划、配置执行、变 更 管理、跟踪与报告
服务台
事件管理、知识管理、 SLA 报告
性能与可用性管理
基线、测量、分析、解决
发布管理
利用率管理
规划、协调、确认
安全管理
基线、虚拟化/集群、压缩
服务开通与补丁管理
政策、审计与报告、访问
和 识别管理
信息全生命周期管理 政策、初始化资源、补丁升
技能管理 以服务质量
为目标
参照行业最 佳实践
以服务为中心
以流程为中心
阶段 5 业务合作伙伴 成为业务部门 虚拟团队 注重业务 高效的外包技能 业务与IT轮岗 创建行业最佳实践
以业务为中心
个人型
1 4
提升IT运营能力:流程成熟度模型
我们在哪里?
阶段 4
阶段 5 业务合作伙伴
– 一体机 (Exalogic,Exadata)
全生命周期云管理
– 建立敏捷的IT管理以适应 不断变化的业务需求
– 使用同一软件进行统一的 云服务全生命周期管理
1 7
议程
•数据中心运维管理面临的问题与挑战
• •数据中心运维管理探讨
• –数据中心运维管理的能力框架及建设演进 • –业务驱动IT管理 • –完整的平台管理 • –全生命周期管理
怎样判断架构的高可 用性?当前的性能容 量能否支撑下阶段业 务发展?
基础架•性构能和提运升 维的驱动
–资源利用率提升
• 弹性扩展
–弹性/可靠性/性价比
• 快速应用部署
–压缩环境准备和应用安装部署时间 –提高工作效率
• 节能减排
–机房空间效率 –电力供应 –平均CPU/存储利用率
• 追求更低的TCO和高ROI
规划、灾难恢复、归档
级
IT
1 2
提升IT运营能力:技术成熟度模型
我们在哪里?
阶段 4
阶段 1
有感知的
标准化程度低 架构与运维无法
共享 只对关键资产使
用状况有了解 >6周部署 普遍的单点故障 基本的监控
阶段 2
认可的
关键的硬件/软件 标准化
对于75%资产的使 用状况了解
–降低软件、硬件、服务成本 –简化运维工作,降低维护成本
• 集中管控
– 监控预警,实现主动管理 – 故障诊断和性能优化 – 可视化管理,面向服务质量
• 风险控制
– 降低操作风险 – 系统安全提升
数据中心 不 能成为问题中心
6
来自业务的挑战 业务要求IT可靠和透明
业务经理要求以业务的语 言来描述IT服务水平
客户对服务中断和性能 问题毫无耐心
缺乏通用语言
CIO办公室
基础关注点 不一致
对最终用户体验缺乏可 见性
IT性能指标与业务毫不 相干
不能有效控制服务中断 和性能下降
IT运营
“像业务一样经营IT”是CIO共同目标, 目的是保障服务质量,提高IT对业务的贡献。
7
IT服务I管TIL理v3最佳实践的新要求
帮助用户从业务角度完成整体设计、实施和 持续优化IT服务管理,并通过IT服务管理将 企业的业务需求和IT管理实现量化对接
• •总结
业务驱动型应用管理与能力框架的映射
运营规划
客户与业务用户
服务规划
用户体验管理
业务交易管理
网络门户
产品目录
订单管理
...其它 业务服务
业务驱动型应用管理
业务服务管理
架构规划
云服务 Apps, PaaS, DBaaS, IaaS..
全生命周期云管理
应用
中间件
数据库 OS, VM, Servers 存 储,网络
计 运维管理工具集
自动化
虚拟化
集中与整合
技术现代化
阶段 5
业务合作伙伴
高扩展、弹性的架 构
新技术使用 90%虚拟化 整体的架构与运维 动态资源分配 灾难下的持续可用
性 业务服务工具
云计算
1 3
提升IT运营能力:人员成熟度模型
阶段 2
阶段 1
认可的
有感知的
人员按技术分 类
ISO 20000:2011
供应商和客户之间的实质关系 将影响服务管理过程如何实施
业务战略指导落地,业务需求量化考核
问题与挑战的总结思考
开发
测试
生产
灾备
保障稳定和安全
应用系统 中间件 数据库 服务器与存储
日常监控 服 务响应 工作 调度 数据备 份 系统变更 执行 事故报 告 灾备操作 机房管理 访 问授权 健康
Oracle 支持服务
完整的云平台管理
运营设计
运营
服务水平管理 配置与变更管理
服务台 性能与可用性管理
发布管理
利用率管理
安全管理
供应与补丁管理
信息全生命周期管理
虚拟机 服务器
存储 网络与基础设施
业务驱动的端到端应用管理
用户满意度怎么样? 他的录入快速吗? 下单情况怎么样?
下单为什么卡住? 为什么慢? 怎么 老超时?
基础能力
•主动端到端监控 •快速定位问题 •集中配置管理 •有效控制变更和 发布 •自动化生命周期 管理 •有效的应急和安 全措施
实现业务驱动
•用户体验 •业务监控 •业务指标
云管理
•全生命周期管理
数据中心运维管理解决方案
客户与业务用户
用户体验管理
业务交易管理
网络门户
产品目录
订单管理
业务服务管
...其它 业务服务
Oracle IT运营能力框架模型
ITIL v3.0 COBIT
运营规划
服务规划
服务识别
USMBOK ISO 20000
TOGAF
用户体验 财务目标
架构规划
Oracle Unified Method SAS 70 Type I and II
平台架构 可用性架构 性能架构
业务
运营设计
运营管理
服务水平管理
根本原因是什么? 是核心的问题还是
ECIF问题?
真实用户体验管理
业务交易管理
JVM 和DB诊断
19
实时监测用户的“真实的”活动,优化业务响应率和转化率
用户体验管理 SLAEx管ecu理tiv与e d行ash政boa驾rd 驶舱
KPI实时监控与报警
定制业务服务实时监控
实时交易漏斗监控
Transaction Performance
检查
• 业务连续性和高可用性建设; • 潜在问题的分析和规避;
网络
• 主动的客户体验监控;
• 问题快速定位和解决。
IT基础架构与基础设施的驱动
• 数据中心空间优化与地点的选择; • 不断增长的数据中心基础架构的复杂度;
• 服务器的利用率介于10%~15%;
• 数据中心往往需要耗费上千万的资金去
建设,而且不能在现有设施上去扩展。
4
“稳定”和“安全”是IT运营的基本目标
怎样确定问题 的根源?可以 从业务影响发 现问题吗?怎 样避免问题的 再次发生?
运维人员在多个环境里进行手工配 置和操作,难以避免人为操作风
险
开发
测试
生产
灾备
日常监控
应用系统 中间件 数据库 服务器与存储
服务响应 工作调度 数据备份 系统变更执行 事故报告 灾备操作 机房管理
理
业务驱动IT管理
云服务
Apps, PaaS, DBaaS, IaaS..
全生命周期云管理
应用 中间件 数据库 OS, VM, Servers 存储,网络
Oracle 支持服务
完整的平台管理
业务驱动IT管理
– 以业务视角管理IT资源 – 创建应用感知云,能够理
解和适应实际业务需求
完整的平台管理
– 应用、中间件、数据库、 硬件
阶段 2
阶段 1
认可的
有感知的
救火队模式 工具定义流程 备件备份 以工具作为标
准 没有流程文档
事件管理 变更与问题管理 标准化 灾备管理 项目管理 较少的流程集成
阶段 3
服务型的
主动的
IT作为服务
分析趋势
供应商
阀值设置
服务分类与
应用可用性监控 定价
真的了解运行 状态吗?预警 和主动监控能 做到什么程度? 健康检查是否 有效?
网络
访问授权 健康检查
问题 变更 事件 配置 版本 可用性 容量 管理 管理 管理 管理 管理 管理 管理
变更影响分析通常凭 经验,也难以充分测 试,怎样控制和验证?
如何快速定位和恢复故 障?应急演练是否有效? 备份的数据真的可用吗?
离散的 个人主义 较低的客户信
心 非正式的审查
分级支持 角色按流程定义 正式的职业发展
规划Baidu Nhomakorabea 培训 员工KPI
组织型
我们在哪里?
阶段 4
阶段 3
服务型的
主动的
服务为中心
以流程为中心 与HR的流程相结合
能力中心
新的角色 信任的服务 供应商
预防模式 趋势分析
< 6 sec • Warning threshold <= 4 sec
- Action: alerts
3 面向目标的 性能监控
• •总结
1 0
通过架构整合和简化、提升运营管理能力来解
决面临的IT运营问题与挑战
架构整合和简化
提升运营管理能力
软硬件资源池、横向整合和 纵向整合结合的一体化整合 方式、和云计算等架构优化 手段驱动了运营水平的提高
构建完整平台管理,完善运 营基础管理能力,同时帮助 用户从业务角度优化IT服务 管理,将企业的业务需求和 IT管理实现量化对接
Partner and Cloud
• – 失控结果, 定义范围以外的结果 • – 技术层面的问题, 比如延时
• – 和EM其他模块互动,告警并解决
• 问题
面向客户可定制业务驱动的服务质量(QoS)交付
1 服务水平协议
Service Level Objective (SLO) For Platinum customers: • Ave. Response time per hour
额外投入的能力;
• 可提供7×24小时高水平服务等
级的能力;
• 需要具有丰富经验的资源; • 80%的企业软件费用花费在安装
与维护;
• 服务器对管理员的比例还维持在
20-30:1的水平;
• 部署新的应用时间太长。
9
议程
•数据中心运维管理面临的问题与挑战
• •数据中心运维管理探讨
• –数据中心运维管理的能力框架及建设演进 • –业务驱动IT管理 • –完整的平台管理 • –全生命周期管理
自动化
保证的SLA
大部分ITIL流程已 服务可用性
成熟
监控
IT作为战略业务伙 伴
IT与业务KPI关联 提升业务流程协作 实时架构 业务变革
集成的流程 容量管理
以业务为中心
服务与客户管理
服务交付流程
运维流程
工具使用
数据中心运维管理的能力建设演进
完善运营管理