迈向智能运维时代-AIOps如何服务应用运维-GOPS 全球运维大会v7-脱敏版

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

运维数据源
• 一次性接入不现实 • 使用中提升质量 数据模型
GOP S 全球运维大会 2019· 上海
智能运维场景设计1——可用性故障发现(1)
• 背景
• 与SRE的核心目标一致 • 固定阈值误报漏报多,人工维护成本高
故障发现要及时 无漏报少误报
• 数据
• 可用性指标,成功率、响应率、交易量、响应时间等
质量保障
展示层 统一展示渠道
多种通知线路
可视化平台
移动OA
智能运维平台 运维数据治理 体系化运维数据模型 定制智能运维算法 强劲的计算能力 开源可控的技术实现
数据加工 数据存储 数据治理
效率提升
邮件
工单
服务接口 运维数据模型
智能运维算法库
成本优化
短信
自动化运维系统
实时计算 离线计算 数据接入
成本中心实现需求 Cost Center
单体应用 – 老核心
紧跟业务战略发展 Business Follower
SOA架构 – “新”核心项目
200x年
GOP S 全球运维大会 2019· 上海
2012年
分布式与微服务化 业务与应用架构革新
Now
小 微




心 系 统
新 零 售



企系



服 务 平 台
GOP S 全球运维大会 2019· 上海
目录
1 应用运维的挑战 2 关于智能运维的思

3wk.baidu.com民生银行的探索与实践
GOP S 全球运维大会 2019· 上海
数据驱动运维
数据中心形成数据思维,靠数据说话、靠数据决策的氛围 智能运维是数据驱动运维理念中,完成自动化知识加工的重要一环
数据
描述 原始 分散
提升人的效率 解放人的精力
适合的 定制的
GOP S 全球运维大会 2019· 上海
智能运 维:单 点时代
智能算法
运维流程
信息完备的 海量的
目录
1 应用运维的挑战 2 关于智能运维的思

3 民生银行的探索与实践
GOP S 全球运维大会 2019· 上海
智能运维的架构设计
应用场景层 贴近需求,针对痛点
• 工具:精 专 • 团队配合:信息不对称
GOP S 全球运维大会 2019· 上海
——来自Garnter Report
智能运维场景分类
GOP S 全球运维大会 2019· 上海
——摘自《企业级AIOps实施建议白皮书》
智能运维落地的局限与挑战
AI天生的局限 数据挑战
技术挑战
人才和组织挑战
现代统计学 关联与因果
智能运维是下一代运维技术的必然选择
传统运维
架构日 益复杂
• 基础架构:云化 • 应用架构:微服务化 • 双态:传统和互联网化并存
系统关 系复杂
• 应用系统:系统间调用网化
• 海量数据 • 复杂关系 • 经验依赖 • 跨条线沟

智能运维
• 数据驱动 • 算法驱动 • 智能决策 • 给出解决
方案
问题处 理复杂
远 程 银 行
3. 0
民生应用运维的定位
上线准 入及实

变更评 审和实

业务连 续性管

系统及 流程优 化分析
系统问 题处理 和服务
请求
运维工 具体系 建设
开发部门
上线交付
运维其他 部门
系统运行
业务部门
优化反馈
职能定位
组织定位
应用 运维
角色定位
运维部门“对外”窗口
运维内部组织协调主要维度(流 程+项目+系统)
数据源层 运维数据全量接入
机房监控 网络监控 主机监控 交易监控 应用监控 存储监控 日志采集
流程管理
运维工具
运维对象层 双态架构
GOP S 全球运维大会 2019· 上海
运维数据基础
数据摸底
数据标准
配置数据采集自 动化
数据模型
反馈优化
• 收集所有数据
• 格式,类型,字段 • 主机、中间件、数 • 28个数据模型 据库、网络、存储
迈向智能运维时代,AIOps服务应用运维
——民生银行的探索与实践
目录
1 应用运维的挑战 2 关于智能运维的思

3 民生银行的探索与实践
GOP S 全球运维大会 2019· 上海
民生银行科技发展趋势
✓ 业务、架构与技术的跨越式发展 ✓ 信息科技角色的巨大转变
金融科技协同业务创新 FinTech Enabler
缺少标准,种类繁多,结 构 多样 经验难以数据化
数据完备性
场景复杂,非单一 数据倾斜 非典型算法
中心化组织 运维+AI人才匮乏
智能运维是 万能的?
不,智能运 维需要准确
定位
GOP S 全球运维大会 2019· 上海
民生智能运维的目标与定位
灵魂拷问:智能运维究竟有什么用?
学习人的经验
从痛点出发: 难,慢,重
GOP S 全球运维大会 2019· 上海
智能运维场景设计1——可用性故障发现(2)
• 挑战
• 简单算法(如3sigma,LOF,孤立森林等)只能在特定数据下奏效
• 指标情况各异,难以设计适应所有场景的算法
• 节假日、尖峰、剧变等场景
成功率
GOP S 全球运维大会 2019· 上海
智能运维场景设计1——可用性故障发现(3)
应急处理第一责任
GOP S 全球运维大会 2019· 上海
民生应用运维的原则:基于SRE理念
对服务质量 以发现问题 琐事与工具
负责
为荣

问题跟踪
优先恢复服 应急管理 务(双十)
服务分级
服务依赖 驱动运维其
他部门
鼓励推动业 务流程优化
鼓励发现系 统隐患
鼓励建立问 题工单
好工具不是 规划出来的
工具和琐事 的跷跷板效

详细事件报 告
根因分析
规避总结
角色定位明 确
应急预案规 范
以恢复生产 服务为第一
要务
十分钟定位 问题,十分 钟解决问题
GOP S 全球运维大会 2019· 上海
运维新挑战
业务 创新
• 产品推陈出新 • 流程优化改进 • 注重客户体验 • 要求快速响应
直销银行 新零售信贷 小微3.0 远程银行
技术演 进
运维支撑
分布式核心 微服务与服务治理 • 新架构 容器云平台 • 新技术 大数据|人工智能|
区块链|生物识别
• 虚拟化 • 云平台
• 服务治理
软硬件数量激增 应用和架构复杂化 频繁的变更操作 调用链显著加长 运维数据井喷
故障处理困难加大 运维数据亟待挖掘 运维价值难以体现
数据采集
机器M的CPU使用率达到60%
联系
信息
加工
告警 一眼请
A类S系统的数据库模块M机器发生主要告警,CPU 使用率超过50%
知识
经验 规律 可预测
人工 智能运维
GOP S 全球运维大会 2019· 上海
正在数据清理操作,CPU升高为正常现象,只要 CPU不超过80%都没有问题,数据清理时应关注数 据库归档日志,超过50%需要手工触发归档
相关文档
最新文档