百度大规模时序指标自动异常检测实战

211196483_基于时序预测与异常检测的烟草违法销售预警

第４１卷第３期２０２３年５月贵州师范大学学报（自然科学版）ＪｏｕｒｎａｌｏｆＧｕｉｚｈｏｕＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ（ＮａｔｕｒａｌＳｃｉｅｎｃｅｓ）Ｖｏｌ．４１．Ｎｏ．３Ｍａｙ．２０２３引用格式：肖霄，冯鹏程，刘露霓，等．基于时序预测与异常检测的烟草违法销售预警［Ｊ］．贵州师范大学学报（自然科学版），２０２３，４１（３）：１１９１２４．［ＸＩＡＯＸ，ＦＥＮＧＰＣ，ＬＩＵＬＮ，ｅｔａｌ．Ｅａｒｌｙｗａｒｎｉｎｇｏｆｉｌｌｅｇａｌｓａｌｅｓｏｆｔｏｂａｃｃｏｂａｓｅｄｏｎｔｉｍｅｓｅｒｉｅｓｐｒｅｄｉｃｔｉｏｎａｎｄａｎｏｒｍａｌｙｄｅｔｅｃｔｉｏｎ［Ｊ］．ＪｏｕｒｎａｌｏｆＧｕｉｚｈｏｕＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ（ＮａｔｕｒａｌＳｃｉｅｎｃｅｓ），２０２３，４１（３）：１１９１２４．］基于时序预测与异常检测的烟草违法销售预警肖　霄１，冯鹏程２，刘露霓１，张高豪１，江晶晶１，谢　刚２，游子毅３，冷继兵２（１．贵州省烟草公司贵阳分公司专卖管理监督科，贵州贵阳　５５０００２；２．贵州师范大学大数据与计算机科学学院，贵州贵阳　５５００２５；３．贵州师范大学物理与电子科学学院，贵州贵阳　５５００２５）摘要：为提升烟草市场监管水平，通过某烟草专卖局的协作调研和历史销售数据，构建基于深度自回归网络（Ｄｅｅｐａｕｔｏｒｅｇｒｅｓｓｉｏｎｎｅｔｗｏｒｋ，ＤＡＲＮ）和季节性自回归差分移动平均模型（Ｓｅａｓｏｎａｌａｕｔｏｒｅｇｒｅｓｓｉｏｎｉｎｔｅｇｒａｔｅｄｍｏｖｉｎｇａｖｅｒａｇｅ，ＳＡＲＩＭＡ）的混合预测模型。

然后以预测销量为基础进行异常检测，设计了烟草商户违法销售预警模型。

实验表明混合预测模型较单个模型预测误差均有改善。

预警模型在测试集上达到５０％查实率，满足市场监管预警基本要求。

关键词：时序预测；异常检测；烟草行业；销售预警中图分类号：ＴＳ４－０６文献标识码：Ａ文章编号：１００４—５５７０（２０２３）０３－０１１９－０６ＤＯＩ：１０．１６６１４／ｊ．ｇｚｎｕｊ．ｚｒｂ．２０２３．０３．０１６ＥａｒｌｙｗａｒｎｉｎｇｏｆｉｌｌｅｇａｌｓａｌｅｓｏｆｔｏｂａｃｃｏｂａｓｅｄｏｎｔｉｍｅｓｅｒｉｅｓｐｒｅｄｉｃｔｉｏｎａｎｄａｎｏｒｍａｌｙｄｅｔｅｃｔｉｏｎＸＩＡＯＸｉａｏ１，ＦＥＮＧＰｅｎｇｃｈｅｎｇ２，ＬＩＵＬｕｎｉ１，ＺＨＡＮＧＧａｏｈａｏ１，ＪＩＡＮＧＪｉｎｇｊｉｎｇ１，ＸＩＥＧａｎｇ２，ＹＯＵＺｉｙｉ３，ＬＥＮＧＪｉｂｉｎｇ２（１．ＭｏｎｏｐｏｌｙＭａｎａｇｅｍｅｎｔａｎｄＳｕｐｅｒｖｉｓｉｏｎＤｅｐａｒｔｍｅｎｔｏｆＧｕｉｚｈｏｕＴｏｂａｃｃｏＣｏｍｐａｎｙＧｕｉｙａｎｇＢｒａｎｃｈ，Ｇｕｉｙａｎｇ，Ｇｕｉｚｈｏｕ５５０００２，Ｃｈｉｎａ；２．ＳｃｈｏｏｌｏｆＢｉｇＤａｔａａｎｄＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，ＧｕｉｚｈｏｕＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ｇｕｉｙａｎｇ，Ｇｕｉｚｈｏｕ５５００２５，Ｃｈｉｎａ；３．ＳｃｈｏｏｌｏｆＰｈｙｓｉｃｓａｎｄＥｌｅｃｔｒｏｎｉｃＳｃｉｅｎｃｅ，ＧｕｉｚｈｏｕＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ｇｕｉｙａｎｇ，Ｇｕｉｚｈｏｕ５５００２５，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｉｎｏｒｄｅｒｔｏｉｍｐｒｏｖｅｔｈｅｌｅｖｅｌｏｆｔｏｂａｃｃｏｍａｒｋｅｔｒｅｇｕｌａｔｉｏｎ，ｗｉｔｈｔｈｅｃｏｌｌａｂｏｒａｔｉｖｅｒｅｓｅａｒｃｈａｎｄｈｉｓｔｏｒｉｃａｌｓａｌｅｓｄａｔａｏｆａｍｕｎｉｃｉｐａｌＴｏｂａｃｃｏＭｏｎｏｐｏｌｙＡｄｍｉｎｉｓｔｒａｔｉｏｎ，ａｍｉｘｅｄｐｒｅｄｉｃｔｉｏｎｍｏｄｅｌｂａｓｅｄｏｎｔｈｅｄｅｅｐａｕｔｏｒｅｇｒｅｓｓｉｏｎｎｅｔｗｏｒｋ（ＤＡＲＮ）ａｎｄｔｈｅｓｅａｓｏｎａｌａｕｔｏｒｅｇｒｅｓｓｉｏｎＩｎｔｅｇｒａｔｅｄＭｏｖｉｎｇＡｖｅｒａｇｅ（ＳＡＲＩＭＡ）ｍｏｄｅｌｓａｒｅｃｏｎｓｔｒｕｃｔｅｄ．Ｔｈｅｎ，ｂａｓｅｄｏｎｔｈｅｆｏｒｅｃａｓｔｓａｌｅｓｖｏｌｕｍｅ，ａｂｎｏｒｍａｌｄｅｔｅｃｔｉｏｎｉｓｃａｒｒｉｅｄｏｕｔｔｏｄｅｓｉｇｎａｐｒｅｗａｒｎｉｎｇｍｏｄｅｌｆｏｒｉｌｌｅｇａｌｓａｌｅｓｂｅｈａｖｉｏｒｓｏｆｔｏｂａｃｃｏｍｅｒｃｈａｎｔｓ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｐｒｅｄｉｃｔｉｏｎｅｒｒｏｒｏｆｔｈｅｍｉｘｅｄｍｏｄｅｌｉｓｂｅｔｔｅｒｔｈａｎｔｈａｔｏｆｔｈｅｓｉｎｇｌｅｍｏｄｅｌ．Ｔｈｅｅａｒｌｙｗａｒｎｉｎｇｍｏｄｅｌａｃｈｉｅｖｅｓ５０％ｖｅｒｉｆｉｃａｔｉｏｎｒａｔｅｉｎｔｈｅｔｅｓｔｓｅｔ，ｗｈｉｃｈｍｅｅｔｓｔｈｅｂａｓｉｃｒｅｑｕｉｒｅｍｅｎｔｓｏｆｅａｒｌｙｗａｒｎｉｎｇｉｎｍａｒｋｅｔｓｕｐｅｒｖｉｓｉｏｎ．Ｋｅｙｗｏｒｄｓ：ｓｅｑｕｅｎｔｉａｌｐｒｅｄｉｃｔ；ａｂｎｏｒｍａｌｄｅｔｅｃｔｉｏｎ；ｔｈｅｔｏｂａｃｃｏｉｎｄｕｓｔｒｙ；ｓａｌｅｓｅａｒｌｙｗａｒｎｉｎｇ收稿日期：２０２２－０５－２３基金项目：贵州省烟草公司贵阳市公司科技项目（黔烟筑科［２０２０］３号）通讯作者：谢　刚（１９８０－），男，博士，教授，研究方向：数据挖掘，Ｅｍａｉｌ：４８２６３０９１＠ｑｑ．ｃｏｍ．０　引言烟草行业一直是我国税收的重要来源。

织云Metis时间序列异常检测全方位解析

训练、提取、伪装、构造、分类、
七天前后三小时 + 昨天前后三小时 + 今天前三小时
七适R传e天用统pl前于时ica后连序to数三续监r N小数控e据时据的ura的问存+l N异题昨e储常与天tw检新前or测思k后路三小时统+ 今计天前输算三出法小时疑&无似监异督常算法
样本库（人工标注）
特征工程（离线计算）
辅助工具：样本库管理
• 传统时序监控的问题与新思路 • 检测算法原理与应用 • 特征工程与打标工程 • 样本库建设与管理
• Metis概述（智能运维应用实践）
渐进式的AIOps能力
决策
场景
学件
分层
明细
算法
数据
织云Metis
腾讯织云
AIOp s应用实践
学件库
时间序列异常检测集群智能负载均衡容量分析与预测
• 使用统计判别和无监督算法过滤掉大量正样本
• 人工标注正负样本 • 有监督算法提升精准度
解决方案
（无监督+有监督）
技术框架
3sigma算法与控制图算法的优缺点
算法和机器学习的新思路是否可应用？
数据层：根据样本量选择存储；
离线模块使用神经网络的误差来进行异常判断
Replicator Neural Network
常见的机器学习算法
回归
基于实例
正则化
贝叶斯
聚类
基于核
关联规则
决策树
深度学习
从大量输入中总结出准确预测的规律（模型）
数值型预测 0/1型预测概率型预测等
技术路线演进
• 基于正态分布的假设 • 基于弱平稳性的假设 • 基于趋势性，周期性

大数据分析中的数据异常检测与修复方法介绍

大数据分析已经成为当今社会发展的重要工具，通过对海量数据的分析，可以为企业和政府提供重要的决策依据。

然而，大数据中常常存在数据异常的问题，这些异常数据会对分析结果产生严重的影响。

因此，数据异常的检测与修复成为了大数据分析中的一个重要课题。

一、数据异常的类型数据异常可以分为两种类型：点异常和分布异常。

1. 点异常：指的是某个特定数据点与其他数据明显不符合的情况，比如一个销售额异常高或异常低的数据点。

2. 分布异常：指的是整体数据的分布与正常情况不符，比如在某个时间段内销售额出现异常波动。

二、数据异常检测方法针对不同类型的数据异常，可以采用不同的检测方法。

以下介绍几种常用的数据异常检测方法：1. 统计方法：通过统计学方法，如均值、方差、偏度、峰度等指标来检测数据的异常。

如果某个指标远离正常范围，就可以判断该数据存在异常。

2. 时序方法：对于时间序列数据，可以采用时序方法来检测异常，比如通过移动平均、指数平滑等方法来发现异常的趋势。

3. 机器学习方法：利用机器学习算法来训练模型，通过对数据的学习来识别异常。

常用的机器学习算法包括SVM、随机森林、神经网络等。

4. 深度学习方法：近年来，深度学习在数据异常检测中也取得了较好的效果，通过构建深度神经网络模型来识别异常数据。

三、数据异常修复方法一旦发现了数据异常，就需要对异常数据进行修复，以保证后续的分析结果准确性。

以下是几种常用的数据异常修复方法：1. 删除异常数据：最简单的方法就是直接删除异常数据，然后用合理的值填充。

但是这种方法可能会导致数据的丢失，对于重要的数据不适用。

2. 插值法：对于时间序列数据，可以采用插值法来填补异常值，常用的插值方法包括线性插值、多项式插值、样条插值等。

3. 均值填充：对于某个特定指标的异常值，可以用该指标的均值或中位数来填充异常值。

4. 预测模型：对于缺失的数据，可以构建预测模型来预测缺失值，进而修复异常数据。

四、案例分析以下以某电商企业的销售数据为例，介绍数据异常检测与修复的实际应用。

lstm异常检测原理

lstm异常检测原理
LSTM（长短期记忆）是一种特殊的循环神经网络（RNN），其异常检测原理主要基于对时序数据的处理。

LSTM通过添加遗忘门、输入门和输出门来解决RNN中出现的梯度消失或梯度爆炸问题，从而能够更好地处理长期依赖问题。

在LSTM中，遗忘门决定了从Cell状态中丢弃什么信息，输入门决定让多
少新的信息加入Cell状态，输出门则确定输出值，该输出值基于Cell状态。

LSTM异常检测一般用于处理时序数据，通过回归的方法对时序数据的分布进行预测。

具体来说，首先选取一段时间正常数据作为训练数据训练LSTM模型，用训练好的模型预测下一时刻值。

当下一时刻测量值偏离预测值时，则判断为异常。

这种基于LSTM的异常检测方法能够有效地检测出时间序列数据中的异常情况。

以上内容仅供参考，如需更全面准确的信息，建议查阅机器学习领域相关的专业书籍或咨询该领域的专家。

gan时序数据异常检测代码

gan时序数据异常检测代码1.引言1.1 概述时序数据异常检测是一项重要的任务，该任务的目标是检测数据序列中的异常点或异常模式，以便准确识别和预测潜在问题。

这在各个领域中都具有广泛的应用，例如金融、物流、智能制造等。

传统的异常检测方法通常基于统计学和时间序列分析技术，例如ARIMA、孤立森林、离群点检测等。

然而，这些方法通常假设数据点之间是独立同分布的，难以捕捉到动态变化的异常模式或隐含的上下文关系。

同时，高维度、大规模时序数据带来的挑战也使得传统方法的实施变得更加困难。

近年来，随着深度学习的兴起，基于神经网络的异常检测方法得到了广泛关注。

其中，生成对抗网络（GAN）作为一种强大的生成模型，被成功应用于时序数据异常检测。

GAN能够通过训练生成模型和判别模型之间的博弈来产生逼真的数据样本，并通过判别模型来辨别真实样本和生成样本之间的差异。

这种能力使得GAN在时序数据异常检测中具有很大的潜力。

本文针对时序数据异常检测问题，提出了一种基于GAN的新方法。

通过设计合适的生成网络与判别网络结构，我们能够利用GAN架构来学习和捕捉时序数据中的特征，并通过比较生成数据与真实数据之间的差异来确定异常点或异常模式。

相比传统方法，我们的方法能够更好地适应动态变化的时序数据，并且能够有效处理高维度、大规模的数据集。

本文接下来的结构如下：在第2节中，我们将详细介绍我们的方法及其实现细节；在第3节中，我们将通过实验证明我们的方法的有效性和性能优势；最后，在第4节中我们将总结全文并展望未来可能的研究方向。

通过本文的阅读，读者将能够全面了解基于GAN的时序数据异常检测方法及其应用前景。

1.2 文章结构本文按照以下结构来组织和阐述GAN时序数据异常检测代码的相关内容：1. 引言1.1 概述：本部分将介绍GAN（生成对抗网络）在时序数据异常检测领域的应用背景和意义。

同时说明时序数据异常检测的重要性以及现有方法的一些局限性。

1.2 文章结构（本部分）：本节将列举本文的具体章节内容和主要的研究方向，以帮助读者更好地理解本文的整体结构。

kpi异常检测主要流程

kpi异常检测主要流程
KPI（关键绩效指标）异常检测主要流程涉及以下几个步骤：
1. 数据收集和预处理，首先，需要收集KPI数据，这可能涉及从各种数据源中提取数据，如数据库、日志文件、传感器等。

然后对数据进行预处理，包括数据清洗、缺失值处理、异常值处理等，以确保数据的质量和准确性。

2. 特征提取，在进行异常检测之前，需要对KPI数据进行特征提取。

这可能涉及计算统计特征，如平均值、标准差、最大最小值等，或者使用更复杂的特征提取技术，如小波变换、时序特征提取等，以捕获数据中的关键信息。

3. 模型选择和训练，选择合适的异常检测模型是关键的一步。

常用的异常检测算法包括基于统计的方法（如均值-方差方法、Z分数方法）、基于机器学习的方法（如孤立森林、One-class SVM）以及基于深度学习的方法（如自动编码器）。

选择合适的模型后，需要使用历史数据对模型进行训练。

4. 异常检测，在模型训练完成后，可以将模型应用于实时KPI
数据流，以侦测异常。

这可能涉及设置阈值或者利用模型输出的概率来判断是否为异常。

一旦检测到异常，通常需要触发警报或者其他应急响应机制。

5. 模型评估与优化，最后，对异常检测模型进行评估和优化是很重要的。

这可能包括使用混淆矩阵、精确率、召回率等指标来评估模型性能，并根据评估结果对模型进行调整和优化，以提高异常检测的准确性和效率。

总的来说，KPI异常检测主要流程包括数据收集和预处理、特征提取、模型选择和训练、异常检测以及模型评估与优化。

通过这些步骤，可以有效地监测KPI数据中的异常情况，帮助组织及时发现和解决问题，提高业务的稳定性和可靠性。

使用计算机视觉技术进行异常检测的步骤与技巧

使用计算机视觉技术进行异常检测的步骤与技巧随着计算机视觉技术的发展，异常检测在许多领域中变得越来越重要。

异常检测可以帮助我们发现和解决一些潜在的问题，提高系统的稳定性和效率。

本文将介绍使用计算机视觉技术进行异常检测的一般步骤与一些技巧。

步骤一：数据收集和预处理进行异常检测的第一步是收集数据。

数据可以来自各种来源，例如图像、视频、传感器等。

在收集数据之后，我们需要对数据进行预处理，以便更好地进行异常检测。

预处理的过程通常包括对数据进行去噪、归一化、分割和特征提取等操作。

去噪是数据预处理中的一个重要环节，它可以去除数据中的无用信息和噪声，以减少对异常检测结果的干扰。

常用的去噪方法有中值滤波、高斯滤波等。

归一化是将数据缩放到一定的范围内，以便更好地进行比较和分析。

分割是将图像或视频分成小的块或帧，以便于对局部进行异常检测。

特征提取是从数据中提取有用的特征，用于描述和区分正常和异常数据。

步骤二：构建模型构建合适的模型是进行异常检测的关键步骤。

常用的计算机视觉技术包括传统的机器学习方法和深度学习方法。

传统的机器学习方法如支持向量机（SVM）、随机森林（Random Forest）等可以用于对手动提取的特征进行分类和异常检测。

而深度学习方法如卷积神经网络（CNN）、循环神经网络（RNN）等则可以通过自动学习图像或视频的特征，并进行异常检测。

在构建模型之前，需要根据具体的任务需求选择适当的模型架构和算法，以及相应的训练数据集和测试数据集。

模型的选择是根据实际需求来的，例如对于静态图像的异常检测，可以使用基于图像上下文信息的方法；对于视频中的异常检测，可以引入时序信息来提高检测性能。

步骤三：训练和优化模型在构建模型之后，需要使用标注好的数据集进行模型的训练。

训练数据集通常包含正常数据和异常数据。

正常数据用于训练模型，使其学习正常数据的特征分布，而异常数据被用于评估和调整模型的性能。

在训练过程中，我们可以使用交叉验证技术来评估模型的性能，并根据具体的指标进行模型的优化。

百度AIOps实践——哈晶晶

s实践
Ø 故障预防实践 Ø，减少成本，提高运维效率
质量
• 种类繁多，规模庞大，架构复杂 • 业务迭代速度快 • 服务稳定性要求高
书同文：统一运维“语言”
应用、服务、机房、集群、镜像、机器 ...
运维操作抽象层（OPAL）
车同轨：统一运维“方法”
统一接口
适配不同平台的“驱动”
PAAS1
Noah
PAAS2
PAAS3
.
PAAS4
.
.
运维机器人（Guardian ）
行同伦：统一运维“模式”
SOP/Runbook as Code
...
业务．．．
策略框架
感知
外网监控
内网监控
系统监控
业务监控
运维知识库
异常检测算法
止损操作编排算法
流量调度算法
决
外网止损决策器
策
执
行
DNS流量调度
运维开发框架
状态管理
内网止损决策器
负载均衡流量调度
弹性伸缩【降级】
主备切换
执行框架
工具链
运维元数据异常事件时序指标容量数据
2016年11月某公司某机房运营商误操作网络异常
2017年1月某业务天津机房故障，服务数小时无法提供服务
2017年6月北京某处机房掉电，多家互联网公司受影响
……
解决方案和效果
• 覆盖90%核心产品线 • 止损效率：2min-5min • 较人工止损效率提升60%以上
案例： • 2017/06/17 北京某处机房掉电，受影响业务
Will Cappelli (Research VP) | 26 August 2016