大数据云平台智能运营解决方案

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

应用层:端口、进程监控
系统层:资源使用率(CPU、内存)监控
网络层、服务器层:网络设备硬件监控
01
智能故障根因分析——可视化视图
• 异常辅助排查页面
• • 展示:异常告警事件,部署上线事件 发现告警之间的关联,便于确定故障根因
01
智能故障根因分析
调用链信息不完备
01

智能监控概述
• 关键指标的智能监控 • 智能告警合并 • 智能根因分析
• 智能故障自愈
• 智能故障预警
智能故障自愈
• 故障自愈的策略

• •
出现故障先不告警,自动执行预定义的一系列处理步骤,尝试自动处理故障
如果故障自愈成功,那么无需发送告警 如果故障自愈失败,按照预定义的方式发告警

在合适的时间,将近期故障自愈的执行结果汇总后通知用户
01
统计判别方法——3-sigema
大数据云平台智能运营解决方案
• 智能监控概述
• 关键指标的智能监控
• 智能告警合并 • 智能根因分析 • 智能故障自愈
• 智能故障预警

智能监控概述
• 关键指标的智能监控
• 智能告警合并
• 智能根因分析
• 智能故障自愈 • 智能故障预警
监控系统演进的几个阶段
• 监控自动化
• 监控系统可用、好用
• 历史同期流量统计特征 历史特征:
• 历史同期流量变化趋势
• 移动平均特征
01
流量预测的效果
• 根据历史数据预测明天的数据
01
异常检测
异常时流量一定有反常的波动 异常发生频率较低 统计判别结合无监督算法解决样本初始无标记问题
构建合适的对比样本库,提取特征用于对比
对比样本库
• 当日前n分钟流量数据 • 昨日同时刻前后n分钟流量数据
解释性好
计算开销小 更适用于正态分布,无法处理复杂情况
正态分布
01
统计判别方法——Tukey’s test
不受异常值的影响 能够准确稳定地描绘出数据的离散分布情况 过于敏感,不够智能
Tukey’s test
01
无监督算法——Isolation Forest
使用集成方法的无监督算法 计算开销小,训练速度快 异常点更加靠近树的根部,而正常数据多 处于树中更深的节点
01
无监督算法–——One Class SVM
利用支持向量域描述的思想,寻找分离超 平面;
适用于连续数据的异常检测
适用于筛选一定比例的样本
01
流量预测
整体规律性较强
流量数据特点:
流量趋势可预测 移动平均吸收短期波动 设计对应的历史特征提取规则
短期小幅波动较多
工作日,周末,假期影响较大
负样本 训练样本库 正样本 分类器
标记Top N
有标记样本库
Isolation Forest
One Class SVM
01
智能故障根因分析
基于告警信息提取
告警信息按层合并,异常发生时由上至下逐层获取告警信息,提取根因;
监控分层
(页面、接口)
业务层
优点:解释性好,结果可靠 缺点:非常依赖监控的完备性
• 基于数据异常程度将异常分为:普通异常、严重异常、陡变异常
01
异常分级——普通异常
• 普通异常:数据与预期有一些短期的小的偏差,可能是与少量的用户突发访问或爬虫抓取引起的


能发现短暂的流量异常,比较灵敏,通过连续n次异常才告警的策略过滤掉毛刺
识别算法:机器学习算法判别
01
异常分级——严重异常


智能对故障根因进行分析,给出最可能的原因,辅助人做决策
可以根据故障原因选择合适的故障自愈策略并执行,自动解决故障
01

智能监控概述
• 关键指标的智能监控
• 智能告警合并 • 智能根因分析 • 智能故障自愈 • 智能故障预警
关键指标的智能预测和异常检测
• 背景
• 整体规律性较强、短期小幅波动较多的关键指标,不适合使用静态阈值
• 智能监控
• 监控指标侧重业务整体运行情况 • 对周期性波动变化的指标做预测和异常检测 • 对信息做有效的区分和整合 • 做故障根因的分析,揭示问题的本质 • 根据故障根因,智能决定如何处理并执行 • 在故障出现前发出预警
01
智能监控总体规划
• 监控业务全流程覆盖

• •
故障前可以发出故障预警
能对周期性变化指标进行预测和异常检测 支持按照合适的维度对告警进行合并
• 适用场景
• • 网络出口或业务的进出流量 集群和域名的访问量
• 需求
• • 按天对流量的提前预测 对实时流量的异常检测
• 技术方案
• •
01
使用回归模型按天预测流量变化趋势 使用分类模型对实时流量做异常检测
如何使用机器学习的方法
我们要解决什么样的问题 流量预测/异常检测 历史时刻对应的流量
明确问题:
• 监控立体化
• 监控覆盖面更全,采集到各维度更全面、更完整的数据
• 监控平台化
• 监控系统与其他运维自动化系统打通和联动
• 监控产品化
• 监控产品更贴近人的使用习惯,用户体验更好
• 监控智能化

01
让监控系统拥有更强的智能
传统监控与智能监控的差别
• 传统的监控
• 监控指标侧重单机运行状态 • 做固定阈值的异常判断 • 发出基本的告警,数量较大 • 做故障现象的告警,需要大量的人工分析 • 发现问题而不处理,由人决定如何处理 • 发出告警时已经出现故障
• 严重异常:数据长时间出现了较大的偏离,需要排查数据变化的原因 • 可能是由于网络故障、系统故障或流量推广活动等引起较大的数据变化 • 识别算法:机器学习算法+历史同期数据统计判别
• 上周同时刻前后n分钟流量数据
对比样本库统计特征: 均值 中位数 标准差 最大值 最小值 偏度 峰度
样本对比特征: 差值 比值 同比 环比
01
有监督算法——LightGBM
基于梯度提升树(GBDT)原理 采用直方图算法,训练速度快,准确率高, 可处理大规模数据 支持类别特征
01
异常检测的效果
解决问题可能需要哪些数据 我们可以获取哪些数据 数据清洗
处理数据:
特征工程
清洗接口异常数据 统计判别结合无监督学习标记数据
数据标记
选择模型
训练模型:
训练模型
验证模型 线上加载 定期修正
离线训练模型
交叉验证模型表现
使用模型:
01
BadCase分析 修正模型
流量预测及异常检测的技术框架
回归模型 预测流量
离线模块
有标记 样本库
原始数据
特征工程
分类模型
输出模型
在线模块
实时数据
01
Leabharlann Baidu
特征工程
加载分类模型
输出标记
训练集样本的标记
标记Top N为异常
原始数据
统计方法及 无监督算法
有标记样本库
有监督分类模型
无监督分类模型
3-sigema Tukey’s test
投票 >2 投票 =0
分类模型 实时判断异常
人工修正 确认告警和异常
相关文档
最新文档