时空异常值检测的研究

合集下载

利用时间序列数据进行异常检测技术研究

利用时间序列数据进行异常检测技术研究

利用时间序列数据进行异常检测技术研究随着大数据时代的到来,数据的量已经达到了我们无法想象的程度。

在海量数据中,异常数据的检测变得非常关键,因为异常数据可能会引起一系列问题,如系统崩溃、生产线错误、网络攻击等。

因此,利用时间序列数据进行异常检测技术的研究变得越来越重要。

时间序列数据是按照时间顺序排列的一系列数据集合,通常是连续取样的。

例如:气象数据、金融数据、传感器数据等。

时间序列数据中通常存在异常点或离群点,而找到这些异常点是异常检测技术的核心目标。

但由于时间序列数据本身的高维、噪声、量级不同等特征,使得其异常检测任务变得很困难。

因此,本篇文章将从以下几个方面,探讨如何利用时间序列数据进行异常检测技术的研究。

一、时间序列异常检测技术方法(1)基于统计学方法基于统计学方法的异常检测技术是最常用的一种方法,尤其是对于简单的时间序列异常检测问题,效果良好。

其基本思想是建立数据模型并对其进行分析。

目前最常用的方法是Box-Jenkins建模方法、时间序列分解、自回归滑动平均模型等,可以适应大部分应用场景。

(2)基于机器学习方法机器学习方法是近年来应用非常广泛的一种异常检测技术。

其基本思想是通过训练一个分类模型,将数据从正常和异常两方面区分出来。

目前比较流行的技术有:支持向量机、决策树、人工神经网络、随机森林等。

相比传统的统计学方法,机器学习方法能够自适应性较强,但其受训练集本身的限制较大,即训练集越多,准确率越高。

(3)基于深度学习方法深度学习方法是近年来应用最广泛的一种异常检测技术,它能够处理大规模待处理的时间序列数据,精度较高。

其基本思想是采用多层神经网络模型来处理数据。

形如:循环神经网络、卷积神经网络、自编码器等。

相比机器学习模型,深度学习模型通常需要大量的训练样本,并且训练过程较为耗时,但其识别精度较高。

二、时间序列异常检测算法应用场景不同的时间序列异常检测算法适用于不同的场景。

例如,基于统计学方法的算法适用于周期性较强的数据(如每季度销售额),非周期性的纯随机序列建模难度较大。

时间序列异常检测方法的效果评估研究论文素材

时间序列异常检测方法的效果评估研究论文素材

时间序列异常检测方法的效果评估研究论文素材一、引言随着大数据时代的到来,时间序列数据成为各行业中的重要组成部分。

在金融、交通、能源等领域,时间序列数据的分析和预测对于提高效率、降低风险具有重要意义。

然而,时间序列数据的异常值往往会影响分析结果的准确性和可靠性,因此异常检测方法成为时间序列分析领域的一个热门课题。

本文旨在探讨时间序列异常检测方法的效果评估研究,并为相关研究提供素材。

二、常用的时间序列异常检测方法1. 基于统计方法的异常检测基于统计方法的异常检测通常基于时间序列数据的均值、方差、标准差等统计量来确定异常点。

其中,Z-score方法、箱型图方法和图像法是常用的统计方法。

2. 基于机器学习的异常检测基于机器学习的异常检测方法利用训练数据集构建模型,并通过判断新数据与模型的匹配度来确定异常点。

常用的机器学习方法包括支持向量机(SVM)、神经网络(NN)和决策树(DT)等。

3. 基于时间序列模型的异常检测基于时间序列模型的异常检测方法是利用ARIMA、VAR、SSA等模型建立时间序列的预测模型,并通过比较实际观测值与预测值的差异来确定异常点。

三、时间序列异常检测方法的效果评估指标1. 准确率准确率是评估异常检测方法的重要指标。

在二分类情况下,准确率指的是正确判断异常点和非异常点的比例。

对于多分类情况,可以使用混淆矩阵来计算准确率。

2. 召回率召回率是指被正确判断为异常点的数量与总异常点数量之比,反映了异常点检测的敏感度。

较高的召回率意味着异常点更容易被检测出来。

3. 精确率精确率是指被正确判断为异常点的数量与总异常点与非异常点之和的比例,衡量了异常检测的准确性。

较高的精确率表示异常检测结果更可靠。

4. F1得分F1得分综合考量了召回率和精确率,是一个综合评估指标。

F1得分越高,表示异常检测方法的效果越好。

四、时间序列异常检测方法的效果评估研究针对时间序列异常检测方法的效果评估,研究者们进行了大量的实证研究。

一套实用的时间序列数据异常检测算法

一套实用的时间序列数据异常检测算法

一套实用的时间序列数据异常检测算

时间序列数据异常检测是数据挖掘中的一个重要问题,其目的是发现时间序列数据中的异常值或异常模式。

下面介绍一种实用的时间序列数据异常检测算法:
1. 季节性 LOESS(Locally Weighted Scatterplot Smoothing)拟合:首先,对时间序列数据进行季节性 LOESS 拟合。

LOESS 是一种局部回归技术,它可以平滑时间序列数据并捕捉季节性趋势。

通过拟合,可以得到一个平滑的曲线,代表了正常的数据模式。

2. 计算残差:计算每个时间点的实际数据与拟合曲线之间的残差。

残差可以反映数据与正常模式的偏差程度。

3. 异常点检测:根据残差的分布情况,确定异常点的阈值。

可以使用统计方法,如计算残差的平均值和标准差,然后将超过一定倍数标准差的残差视为异常点。

4. 异常点标记:根据确定的阈值,将时间序列数据中的异常点标记出来。

5. 结果可视化:将正常数据、异常数据以及拟合曲线进行可视化展示,以便更好地理解时间序列数据的模式和异常情况。

这种异常检测算法基于季节性 LOESS 拟合和残差分析,能够有效地检测时间序列数据中的异常值。

它可以应用于各种领域,如金融、工业、环境监测等,帮助用户及时发现异常情况并采取相应的措施。

需要注意的是,在实际应用中,需要根据具体问题和数据特点进行适当的调整和改进,以提高算法的准确性和实用性。

异常检测中的异常时间点检测与时间序列分析

异常检测中的异常时间点检测与时间序列分析

异常检测中的异常时间点检测与时间序列分析第一章异常检测概述1.1 异常检测的定义与目的异常检测是指在一组数据中发现与预期模式不符的数据点的过程。

它在众多领域中都有着重要的应用,如金融风险管理、网络安全监控、工业生产质量控制等。

异常检测的目的是了解数据中的异常现象并采取相应的措施来应对这些异常情况。

1.2 异常时间点检测与时间序列分析的关系异常时间点检测是一种常见的异常检测方法,它通常是通过比较数据点与预设阈值的差异来判断是否存在异常。

而时间序列分析则是一种通过分析数据点在时间上的变化趋势来挖掘数据中的模式与规律的方法。

异常时间点检测与时间序列分析相辅相成,通过结合这两种方法可以更准确地识别出异常时间点。

第二章异常时间点检测方法2.1 基于统计方法的异常时间点检测基于统计方法的异常时间点检测是一种常见的方法,它通过计算数据点与均值之间的偏差来判断是否存在异常。

常用的统计方法包括标准差法、箱线图法等。

这些方法适用于数据分布符合正态分布或近似正态分布的情况。

2.2 基于聚类方法的异常时间点检测基于聚类方法的异常时间点检测是一种通过将数据点分成不同的簇来判断异常的方法。

在聚类过程中,如果某个数据点无法归类到任何一个簇中,就可以认为该数据点是异常点。

常用的聚类方法包括K-means 算法、DBSCAN算法等。

第三章时间序列分析方法3.1 平稳性检验与差分法平稳性是时间序列分析的前提条件,只有在时间序列数据是平稳的情况下才能进行进一步的分析。

平稳性检验通常使用单位根检验等方法来判断数据是否平稳。

如果数据不平稳,可以使用差分法来进行处理,通过对数据进行一阶或高阶差分来使数据平稳化。

3.2 自相关与偏自相关分析自相关与偏自相关分析是一种通过计算数据点与其滞后值之间的相关性来探索时间序列数据的方法。

自相关函数(ACF)和偏自相关函数(PACF)可以反映数据点在不同滞后阶数下的相关性。

通过分析这些函数的图像,可以得到数据的周期性和趋势性信息。

时空数据异常探测方法_李光强

时空数据异常探测方法_李光强
若存在观测结果集 X = {x1, x2 ,", xn} ,“kσ”准则判别公
式可表达为
xi − x > kσ
(1)
n
∑x i
其中,x = i=1 为观测结果的平均值;σ = n
n
∑ (xi

x)2
i=1
为观
n −1
测结果的标准差。当观测结果 x0 满足式(1)时,x0 为异常数据。 图 1 是“kσ ”准则判断示意图,其中,“¯”的数值超出了 [ x-kσ , x + kσ ]的范围,被判定为异常数据。
(2)
式(2)即为时空数据库中检测时空异常数据的核心算式,
表示当且仅当某时刻的监测数据既为空间异常又为时序异常
时,该时空数据方为时空异常(Spatio-Temporal Outliers, STO)
数据。
3.2 算法描述
DDSTOD 算法包含 3 个步骤:
(1)依据空间邻近关系计算空间邻近域;
(2)对每个时刻的空间要素进行空间局部异常检测;
时空综合法是在探测过程中,综合考虑时间、空间、属 性 3 个方面来探测时空异常数据。这 2 种时空异常探测方法 均将传统异常探测方法进行扩展和转换,并应用于时空数据 领域。
本文在总结前人研究成果的基础上,提出一种基于专题 属 性 双 重 偏 离 的 时 空 异 常 探 测 方 法 (Dual Deviation-based Spatio-Temporal Outlier Detection, DDSTOD)。
{ if F[SNx(t)]=True
{
//获取 x 在 t 时刻的窗口半径为 d 的时序邻近域
TNx(t)=GetTimeNeighbor(x,t,d); if F[TNx(t)]=True { OST= OST ∪{x(t)}; //把 x(t)存入 OST

空间数据的异常检测方法研究

空间数据的异常检测方法研究

空间数据的异常检测方法研究一、引言随着空间数据的不断增加和应用场景的扩展,空间数据异常检测愈发重要。

空间数据异常检测是数据挖掘领域中的一个热门问题,旨在找到那些与预期行为不符或者“不正常”的数据。

对于空间数据来说,在数据中发现异常情况有利于解决许多空间问题。

例如,对于地理信息系统(GIS)应用,能够快速、准确地发现异常数据点,辅助决策制定,提高地理信息应用的数字水平,也可以对环境、卫生、气象监测等领域提供支持。

二、空间数据异常检测方法概述1. 传统空间数据异常检测方法传统的空间数据异常检测方法主要包括基于统计学方法、基于距离方法、基于密度方法和基于分类方法等。

这些方法主要面对的问题是数据分布的偏斜性、数据纬度的增加,以及针对一定数据量所需要的计算复杂度较高等问题。

2. 基于机器学习的空间数据异常检测方法机器学习方法利用算法学习已有数据的规律性,可以避免传统方法所遇到的困难,能够有效地提高空间数据异常检测的精度和效率。

其中,深度学习模型和集成学习方法已经成为目前研究的热点,取得了不错的效果。

三、基于机器学习的空间数据异常检测方法1. 基于深度学习模型的空间数据异常检测方法深度学习模型是一种自动学习数据特征的方法,可以动态地选择特征信息,帮助分类算法提取更具代表性的特征信息。

因此,深度学习模型很适合空间数据异常检测。

常见的深度学习模型有卷积神经网络(CNN)、循环神经网络(RNN)和自编码器(AE)等。

在实际应用中,一种基于深度学习模型的空间数据异常检测方法包括以下步骤:(1)数据预处理:清洗和预处理原始数据。

(2)特征提取:利用深度学习模型学习数据特征。

(3)异常检测:使用统计学方法或者阈值法对每个数据点进行分类。

(4)可视化:呈现检测结果和评估检测效果。

2. 基于集成学习方法的空间数据异常检测方法集成学习方法是通过将不同基学习器的预测结果结合在一起,从而得到更好的分类结果的一种方法。

集成学习方法简单易行,可以用于大规模、高维度和数据不平衡的空间数据异常检测。

基于时间序列的异常检测技术研究

基于时间序列的异常检测技术研究

基于时间序列的异常检测技术研究随着科技的不断进步,我们的生活越来越离不开数据,尤其是时间序列数据,例如实时监测的气象数据、股票交易数据、物流运输数据等。

这些数据的准确性和可靠性对于我们的生产生活意义重大。

因此,如何快速、准确的检测出这些数据中存在的异常事件,成为了一个值得研究的课题。

时间序列数据分析是一个重要的研究领域,异常检测技术是其中的一个重要分支,其目的是识别出时间序列数据中的不寻常或异常事件。

异常检测技术能够发现那些在常规数据分析中无法被发现的有价值的信息,从而有助于降低生产过程中的风险,提高工业与商业的效率以及精确度。

目前,基于时间序列的异常检测技术主要分为三类:模型驱动、数据驱动和混合方法。

1. 模型驱动方法模型驱动的方法是通过建立一个模型来描述正常的数据模式,这个模型通常是基于一些先验知识构建的,例如ARIMA、指数平滑等。

通过将模型拟合到时间序列中,我们可以预测时间序列的下一步,并根据实际的观测值进行比较。

当实际观测值与预测值存在差异时,我们就可以判定为异常事件。

这种方法的优点是可以消除数据中的噪音和随机性,缺点是需要假设数据的分布和结构,并使用大量的数据来建立模型。

2. 数据驱动方法数据驱动的方法则是不需要假设数据分布和结构,通常是基于距离、密度、聚类等统计量对样本数据进行建模,直接抓取数据本身的特征来进行异常检测。

常见的数据驱动方法有LOF(局部异常因子)、KNN异常检测、DBSCAN等,这种方法可以使得算法快速匹配大量数据,优点是适用范围广,但是在分类上难以延伸到新的数据。

3. 混合方法混合方法则是将以上两种方法结合起来,使得检测结果更加准确。

在这种方法中,我们可以首先使用数据驱动的方法粗略地筛选出异常数据,然后再利用模型驱动的方法来判定,从而实现混合检测。

目前,一些基于深度学习的方法,例如基于神经网络的LSTM(Long Short-Term Memory)模型、卷积神经网络(CNN)等,因为模型的能力有限,其成为检测及诊断的研究重点。

基于时空数据的异常检测技术研究

基于时空数据的异常检测技术研究

基于时空数据的异常检测技术研究一、时空数据异常检测技术概述时空数据是指包含空间和时间信息的数据,如交通流量、气象数据、移动设备定位数据等。

在现代信息社会中,大量的时空数据被采集、传输和存储,这些数据在人类生产生活中起到越来越重要的作用。

然而,由于数据量大、复杂度高、噪声干扰等几个方面的问题,管理时空数据的复杂性和挑战性不断增加。

因此,时空数据异常检测技术成为了解决这些问题的一种重要手段。

时空数据异常检测技术是指通过对时空数据的分析和挖掘,发现其中不同于其他数据的异常点,以便进一步深入了解其背后的原因。

该技术可以应用于许多领域,例如交通管理、环境保护、公共安全和商业智能等领域。

常见的时空数据异常检测方法包括基于统计学、机器学习、数据挖掘和深度学习等技术。

二、基于统计学的时空数据异常检测技术基于统计学的时空数据异常检测技术是一种传统的方法,它通过对数据的概率分布进行分析,将不同于正常数据的数据点视为异常点。

常用的统计学方法包括Z-score法、Grubbs检验法和均值-方差法等。

Z-score法是指将数据点与样本均值之间的距离除以样本标准差,得到的值称为Z分数,如果Z分数超出了预设的阈值,则该数据点被认为是异常值。

Grubbs检验法则是基于极值理论的一种方法,它通过计算数据点与样本均值之间的距离,识别离群值并计算其概率。

均值-方差法则是通过计算数据点与均值之间的距离,利用高斯分布的特性来识别异常值。

这些方法在处理时空数据异常检测中都有其适用性,但是由于时空数据的高维度和复杂度,这些方法存在一些限制,如难以处理大量的数据、无法有效地捕捉数据的时空特征等。

三、基于机器学习的时空数据异常检测技术基于机器学习的时空数据异常检测技术是一种比较先进的方法,它可以捕捉到数据的时空特征,基于这些特征通过机器学习算法进行异常检测。

该方法通过先训练模型,再将新的数据输入到已训练的模型中进行异常检测。

常用的机器学习算法包括支持向量机、决策树、随机森林、神经网络和深度学习等。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2016年软 件2016, V ol. 37, No. 12作者简介: 何奇峰(1991-),男,硕士研究生,主要研究方向:数据挖掘时空异常值检测的研究何奇峰(北京邮电大学经济管理学院,北京 海淀 100876)摘 要: 异常值检测是数据挖掘研究领域的一个相当重要的分支,异常值检测的目的是寻找与其他大多数对象不同的个体,又常被称为离群检测或者是例外挖掘。

许多文献已经对空间异常值检测和时间序列异常值的检测进行了研究,然而同时对时间维度和空间维度进行异常值侦测的还不多;本文将分别从时间和空间这两个维度出发对异常值的检测进行研究,然后再将这两个维度结合起来,提出一种全新的时空异常值的检测方法,为未来时空异常值的检测奠定基础。

关键词: 异常值检测;数据挖掘;voronoi 图;k-means 聚类中图分类号: TP311 文献标识码: A DOI :10.3969/j.issn.1003-6970.2016.12.034 本文著录格式:何奇峰. 时空异常值检测的研究[J]. 软件,2016,37(12):162-165Research on The Spatio-temporal Outlier DetectionHE Qi-feng(School of Economics and Management, Beijing University of Post and Telecommunication, Beijing )【Abstract 】: Outlier detection is a very important branch of data mining, the purpose of outliers detection is to find out the individuals that are different from most other objects, it is often called outlier detection or exception mining. Many literatures have studied the detection of spatial outliers and detection of temporal outliers, but there are not too many methods to connect temporal outliers and spatial outliers. This paper will research temporal outliers and spatial outliers individually, and then combine these two dimensions to propose a new detection method of spatiotemporal anomalies, which will lay a foundation for the future detection of Spatio-temporal anomalies. 【Key words 】: Outlier detection; Data mining; V oronoi graph; K-means clustering0 引言异常值检测是数据挖掘研究领域的一个相当重要的分支,异常值检测的目的是寻找与其他大多数对象不同的个体,又常被称为离群检测或者是例外挖掘。

异常值检测在诸如金融欺诈、入侵检测、公众健康与生态环境监测预报等多个领域都取得了相当不错的应用。

随着大数据时代的到来,越来越容易取得像温度,用户流量使用等时空数据,检测这类数据异常值的重要性也日益凸显。

空间异常值是指那些非时空值与周围相邻的个体显著不同的值。

这表明具有空间异常值的个体是与它相邻的个体显著不同的,然而他并非与总体有显著的不同。

从空间异常值可以延伸出时空异常值的概念,即时空个体具有与周围时间相邻和空间相邻个体显著不同的非时空值。

时空异常值的检测主要有三种方法:第一种是直接判定该个体是否与他时空相邻的个体的非时空值有明显的差异,第二种是时空异常值体的检测,这种时空异常值体是跨越时间的,并不像时空异常值仅仅是某一时刻的值,第三种是对时空异常值轨迹的探索。

Birant 和Kut [1]提出了一个基于密度的时空异常值检测机制。

他们使用了DBSCAN (具有噪声的基于密度的聚类方法)聚类算法用于对空间维度进行聚类从而识别空间异常值。

DBSCAN 能划分任意形状的类并且对高效的处理大数据集,然而DBSCAN 并没有考虑时间维度,当不同类别密度不同时,它也不能判别出某些异常值。

因此他们使用了改进的DBSCAN ,具体有两点改进:一直为了支持时间维度,通过遍历一棵树找出任一个个体在一定半径范围内的时间邻居和空间邻居,二是当何奇峰:时空异常值检测的研究163《软件》杂志欢迎推荐投稿:cosoft@类别具有不同的密度时,会给每一个类分配一个密度因子,然后将新生成类的值与平均值进行比较从而发现异常值。

Cheng 和Li 提出了一个四步法,用以处理语义和动态属性的地理现象的时空异常值检测。

这四步分别是发现语义个体,聚合,对比,验证。

Adam (2004)[3]研究了基于距离的时空异常值检测,根据微类的空间和语义相似性融合成巨类。

运用雅各比系数和轮廓系数来计算微类的空间相似性。

在巨类中任一与其他点不同数据将被标记为时空异常值。

许多文献已经对空间异常值检测和时间序列异常值的检测进行了研究,然而同时对时间维度和空间维度进行异常值侦测的还不多,有一些研究也是单纯的把时空分割开,即分别检测出时间异常值和空间异常值,最后结合这两部分来判定时空异常值。

然而时间维度和空间维度是相互关联的,所以同时结合时空两个维度进行异常值的检测是很有必要的。

1 时空异常值简介1.1 时间维度异常值检测时空数据多以面板数据的形式存在,面板数据是在时间序列上取多个截面,在这些截面上同选取样本观测值所构成的样本数据,也就是把截面和时间序列数据融合在一起的数据集。

面板数据集显示个体之间存在差异,而单独的时间序列或横截面不能有效反映这种差异,如果只是简单使用时间序列或横截面分析就可能获得有偏结果。

同时面板数据能够提供更多信息、更多变化性、更少共线性、更多自由度和更高效率。

图1 滑动窗口图时空数据通常具有数据流的特点,数据流是指连续产生的、没有边界的大量数据元素所组成的序列。

为了能更好的处理数据流,本文将使用滑动窗口模型,随着新数据的到来。

滑动窗口以基本窗口为单位不断更新。

每进入一个新的基本窗口,最旧的一个基本窗口被删除,滑动窗口随之更新一次。

因此,滑动窗口中包含的数据不断变化和更新。

1.2 空间维度异常值检测空间离群点是与其空间邻域中其它空间对象的非空间属性值存在明显差异的空间对象。

空间离群点挖掘是空间数据挖掘的一个重要分支,在交通控制、遥感图像分析、气象预报和人口统计数据分析等应用中可揭示重要现象。

随着传感器设备技术的发展,数据采集设备的数量越来越多,精度越来越高,采集的项目也越来越多,因此数据量越来越大,维数越来越高。

然而现有的空间离群点挖掘算法主要是针对单维或中低维的中小规模数据量的挖掘,难以适应高维大数据量的挖掘,并且现有算法没有充分考虑空间数据的特点,挖掘的不是真正意义上的空间离群点,而是全局离群点。

算法存在用户依赖性大,检测精度低,挖掘效率低等局限。

考虑空间这一维度,需要对整个空间的点进行区域划分,对此本文将研究Voronoi 图等能保持区域拓扑结构的模型。

Voronoi 图是计算几何中一种几何结构,也是一种空间分割的方法[6]。

Voronoi 图可以作为表示各种元素之间关系的一个结构,通过这个结构可以提取出重要信息。

这样的实例多见于用 Voronoi 图研究自然界物质结构的性质。

把Voronoi 图作为一个辅助数据结构,通过这个数据结构可以完成许多物体形态或邻近关系的计算任务。

把Vor-onoi 图作为提高某些几何算法运算速度的重要手段.一般来说,二维的Voronoi 图可以在O(nlogn)时间内获得,三维的Voronoi 图可以在O(n2)时间内获得.Voronoi 图的性质决定了它与许多其它几何结构具有内在关系,通过Voronoi 图,许多几何算法可以得到快速运算。

2 时空异常值检测的结合在空间维度上运用Voronoi 图对空间位置进行划分,重新定义了各个位置之间的距离以及相邻关系,利用重新的定义的距离对非时空值从空间维度进行限制;在时间维度上,由于时空数据多以面板数据的形式存在,面板数据是在时间序列上取多个第37卷 第12期 软 件164《软件》杂志欢迎推荐投稿:cosoft@截面,在这些截面上同选取样本观测值所构成的样本数据,也就是把截面和时间序列数据融合在一起 的数据集。

面板数据集显示个体之间存在差异,而单独的时间序列或横截面不能有效反映这种差异,如果只是简单使用时间序列或横截面分析就可能获得有偏结果。

同时面板数据能够提供更多信息、更多变化性、更少共线性、更多自由度和更高效率。

时空数据通常具有数据流的特点,数据流是指连续产生的、没有边界的大量数据元素所组成的序列。

为了能更好的处理数据流,本文将使用滑动窗口模型,随着新数据的到来。

滑动窗口以基本窗口为单位不断更新。

每进入一个新的基本窗口,最旧的一个基本窗口被删除,滑动窗口随之更新一次。

因此,滑动窗口中包含的数据不断变化和更新。

对当前的滑动窗口的非时空值使用k -means 聚类[8],得到时间维度的各个分类;通过Voronoi 图重新定义的相邻关系对这个聚类结果再加以细分从而得到了时空相结合的聚类结果,根据聚类的结果将数据样本很少的类别判定为异常值,由此得到了一个滑动窗口下的异常值判定;接下来使用三次指数平滑算法进行迭代。

三次指数平滑算法可以对同时含有趋势和季节性的时间序列进行预测,该算法是基于一次指数平滑和二次指数平滑算法的。

[9]一次指数平滑算法基于以下的递推关系: s i =αx i +(1-α)s i-1(1)其中α是平滑参数,s i 是之前i 个数据的平滑值,取值为[0,1],α越接近1,平滑后的值越接近当前时间的数据值,数据越不平滑,α越接近0,平滑后的值越接近前i 个数据的平滑值,数据越平滑,α的值通常可以多尝试几次以达到最佳效果。

一次指数平滑算法进行预测的公式为:x i +h=s i ,其中i 为当前最后的一个数据记录的坐标,亦即预测的时间序列为一条直线,不能反映时间序列的趋势和季节性。

二次指数平滑保留了趋势的信息,使得预测的时间序列可以包含之前数据的趋势。

相关文档
最新文档