数据流上概念漂移的检测和分类
(修)多重选择决策树算法挖掘概念漂移数据流

多重选择决策树算法挖掘概念漂移数据流叶爱玲刘锋安徽大学计算机科学与技术学院,安徽省合肥市邮政编码230039摘要:本文重点研究了数据流分类挖掘中存在的概念漂移问题,并在CVFDT算法的基础上进行改进,提出一种多重选择决策树算法mCVFDT。
该算法将多重属性的选择机制加入到节点结构中来,克服了CVFDT 无法自动检测概念漂移的缺陷,同时避免了对决策树的重复遍历,提高了算法的分类精度和效率。
实验结果证明该算法随着样本数目的增加在分类精度上比CVFDT算法有更好的表现。
关键词:数据流挖掘;多重选择;CVFDT;mCVFDT中图法分类号:TP311文献标识码: AMultiple-options decision tree mining concept-drifting datastreamsYE Ai-ling, LIU FengDept. of Computer Science and Technology, Anhui University, Hefei Anhui Province 230039, ChinaAbstract:This paper focuses on the concept-drifting data streams mining, and based on the CVFDT algorithm improvements we proposed a multiple-choice decision-tree algorithm mCVFDT. In this algorithm multi-attribute selection mechanism is added to the node structure in an effort to overcome the CVFDT not automatically detect defects in the concept-drifting, while avoiding duplication of tree traversal algorithm to improve the classification accuracy and efficiency. Experimental results show that the algorithm increases with the number of examples in the classification accuracy than CVFDT algorithm has better performance.Keywords: Data Streams Mining; Multiple-options; CVFDT; mCVFDT1引言近年来,随着网络技术的普及和计算机技术的发展,越来越多的领域面临着源源不断的数据,如传感器网络、Web服务器、银行ATM终端、电子商务网站、股票交易、零售业终端数据等等。
概念漂移 分布外检测

概念漂移分布外检测概念漂移分布外检测是一种数据分析领域的技术,其主要聚焦于检测未知分布中的异常点。
本文将从理论概念、应用场景以及未来发展三个方面分别分析该项技术。
首先我们来介绍概念漂移的理论概念。
概念漂移是指随着时间的推移,数据集的分布发生了变化。
而分布外检测则是在数据的分布未知的情况下,通过各种方法确定异常点所在位置的过程。
因此,概念漂移分布外检测被定义为在分布随时间漂移的数据集中,检测出不符合分布特征的异常点的过程。
这一领域的主要挑战是如何实现高效地检测出异常点,同时避免误检的情况。
其次,我们来谈谈概念漂移分布外检测的应用场景。
在现实生活中,概念漂移分布外检测技术被广泛应用于金融欺诈检测、网络安全监控、风险控制以及医疗健康等领域。
例如,在金融欺诈检测领域,通过对交易信息进行实时监控,该技术可以快速地检测出存在欺诈嫌疑的交易,从而及时防范和遏制金融欺诈风险。
最后,我们来展望一下该技术未来的发展方向。
由于目前概念漂移分布外检测技术存在高误检率和低检测率的问题,因此未来的发展方向可以从以下三个方面入手:一是研究更加精准的分布外检测算法,提高检测精度和准确性;二是将深度学习算法引入概念漂移分布外检测中,进一步提高检测效率;三是研究更加高效的计算模型,提高概念漂移分布外检测的实时性和可操作性。
相信在不久的将来,这一技术将在各个领域展现出更加广泛的应用和发展空间。
总之,概念漂移分布外检测是一项具有重要应用价值的技术。
其基于概念漂移和分布外检测理论,通过对数据进行多方面分析,可以实现在复杂变化的数据分布条件下,检测出异常点的目的。
在未来的发展之路上,我们期待该技术能够在更多领域得到应用,并进一步创新和发展。
基于频度的概念漂移检测算法

摘
娟, 武 以敏
要: 数据 流中概念 漂移 的存在 , 影响 了数据流的分类性能。文章 主要研 究基 于频度 的概 念漂移的检测算 法 F C D, 以便
利用基于频度的概念漂移 中概念重复 出现的特性 , 提 高分类 的性 能。 关键词 : 分 类算法; 概念漂移 ; 频度检测
1 基 于频度 的概 念漂移 1 . 1 数据 流 中概念 的频度
测, 并用已有分类模 型对新训练的分类 模型进行
进行 检测判 断是 否是 已有 概念 的重 现 。当检 测 到
概念漂移则根据 概念转移矩 阵迅速 产生分 类模
型, 这对 于基 于频度 的概 念 漂移 来 说 , 分 类 的 时间 性 能和分 类精 度得 到 了提高 。
频度 , 频度 小于 一定 阈值 的概 念可 视 为低 频 概 念 , 反之则 为 高 频 概 念 。对 于天 气 情 况 : “ 阴天 ” 、 “ 晴
个模型要省时。而基于频度 的概念漂移的特点
是 部分 已有 概 念 的 重 现 , 可 利 用 此 特 点 对 概 念 漂 移 进行 检测 , 再 利 用 概 念 变 换 的规 律 来 提 高 分 类 的时 间性 能 和分 类 的 精 度 。Re P r o算 法 , 在 分 类
天” 可 当作高频概念 ; “ 六月雪” 、 “ 太 阳雨” 等则可
当作 是低 频概念 。
1 . 2 适 用 于隐含概 念 漂移 的数据 流分 类算 法
的过程 中采用滑动窗 口来检测触发器 , 每 遇到概
念 漂移 , 都要 检 验训 练 的概 念 是 否是 已有 概 念 的
重现 。该算法对于基于频度 的概念漂移来说 , 较 为适用。这样可 以充分训练概念转移矩 阵, 更好 的发现概念漂 移的规律 , 用以预测将要出现 的概
概念漂移检测算法

概念漂移检测算法(Concept Drift Detection Algorithm)是一种用于监督学习中的技术,用于检测数据分布发生变化的情况。
在实际应用中,由于数据的动态性和不确定性,数据分布可能会随时间变化或外部因素的影响而发生漂移,这就需要及时检测并适应这种变化,以维持模型的准确性和稳定性。
本文将从概念漂移的定义、影响、检测方法等方面进行详细探讨,并介绍几种常见的概念漂移检测算法。
1. 概念漂移的定义和影响概念漂移指的是监督学习中训练模型时所依赖的数据分布发生变化的情况。
这种变化可能由多种因素引起,例如环境变化、用户行为变化、系统故障等。
对于一个建立在静态数据分布上的模型来说,一旦数据分布发生变化,模型的准确性就会受到影响,导致预测性能下降。
因此,及时检测和适应概念漂移对于保持模型的有效性至关重要。
概念漂移会对模型的性能产生多方面的影响,包括但不限于:- 预测准确性下降:数据分布的变化可能导致原有模型无法准确地预测新数据的标签或输出。
- 模型偏差增加:数据分布的变化可能导致模型在新数据上产生更大的预测误差,表现为模型的偏差增加。
- 训练数据效果下降:数据分布变化可能使得过去的训练数据不再代表当前的真实情况,从而影响模型的泛化能力。
在面对这些影响时,概念漂移检测算法可以帮助我们及时发现数据分布的变化,从而采取相应的措施来应对概念漂移。
2. 概念漂移检测算法的方法概念漂移检测算法的主要目标是在不需要标记的数据的情况下,发现数据分布的变化。
以下是几种常见的概念漂移检测算法:2.1 基于统计的方法基于统计的方法是最简单直接的概念漂移检测算法之一,它利用数据的统计特性来检测数据分布的变化。
其中一种经典的方法是使用卡方检验或KS检验来比较两个时间段的数据分布是否一致。
如果检验结果拒绝了原假设,就可以认为数据分布发生了变化。
2.2 基于距离的方法基于距离的方法通过计算数据点之间的距离来度量数据分布的相似性,进而判断是否发生了概念漂移。
概念漂移数据流分类研究综述

关键词 : 大数据 ; 概念 漂移 ; 增量学 习; 适 应学习 ; 数据 流 ; 机器学 习 中图分类号 : T P 3 9 1 . 4 文献标志码 : A 文章编号 : 1 6 7 3 47 8 5 ( 2 0 1 2 ) 0 2 - 0 0 9 5 — 1 0
A s u r v e y o f t he c l a s s i ic f a t i o n o f d a t a s t r e a ms wi t h c o n c e p t d r i f t
第 8卷 第 2期
2 0 1 3年 4月
智
能
系Байду номын сангаас
统
学
报
Vo 1 . 8 No. 2 Ap r . 2 01 3
CAM Tr a n s a c t i o ns o n I n t e l l i g e n t S y s t e ms
D O I : 1 0 . 3 9 6 9 / j . i s s n . 1 6 7 3 - 4 7 8 5 . 2 0 1 2 0 8 0 1 2
e n s u r e t h e g e n e r a l i z a t i o n a b i l i t y b a s e d o n s t a t i c l e a r ni n g e n v i r o n me nt ,t h e c l a s s i ic f a t i o n d a t a s t r e a ms wi t h c o n c e p t d r i t f h a s b r o u g h t s e v e r e c h a l l e n g e s t o ma c hi n e l e a r n i n g .I n o r d e r t o a d d r e s s t he s e c o n c e ns r ,a s u r v e y wa s d e v e l o p e d c o n s i s t i n g o f f o u r a s p e c t s:t h e i nt r o d u c t i o n t o d a t a s t r e a ms a nd c o n c e pt d r i t,t f h e d e v e l o p me n t p r o c e s s a n d f ut ur e t r e n ds ,t he ma i n r e s e a r c h ie f l d s,a n d t he n e w d e v e l o pme n t s i n t h e s t u d y ie f l d o f t h e c l a s s i ic f a t i o n d a t a s t r e a ms wi t h c o nc e p t d r i t.The f e x i s t i n g pr o b l e ms r e l a t i n g t o c l a s s i ic f a t i o n d a t a s t r e a ms wi t h c o n c e pt d r i t f we r e d i s c u s s e d a t l a s t . Ke y wor ds: b i g d a t a;c o n c e p t d r i t ;i f n c r e me n t a l l e a r n i n g;a da p t i v e l e a r n i n g;d a t a s t r e a m; ma c h i n e l e a r n i n g
数据流中概念漂移检测的集成分类器设计

数据流中概念漂移检测的集成分类器设计
孙岳;毛国君;刘旭
【期刊名称】《计算机应用研究》
【年(卷),期】2008(025)001
【摘要】提出了一种称为ICEA(incremental classification ensemble algorithm)的数据流挖掘算法.它利用集成分类器综合技术,实现了数据流中概念漂移的增量式检测和挖掘.实验结果表明,ICEA在处理数据流的快速概念漂移上表现出很高的精确度和较好的时间效率.
【总页数】4页(P164-167)
【作者】孙岳;毛国君;刘旭
【作者单位】北京工业大学,计算机学院,北京市多媒体与智能软件重点实验室,北京,100022;北京工业大学,计算机学院,北京市多媒体与智能软件重点实验室,北京,100022;北京工业大学,计算机学院,北京市多媒体与智能软件重点实验室,北京,100022
【正文语种】中文
【中图分类】TP311
【相关文献】
1.隐含概念漂移的不确定数据流集成分类算法 [J], 张盼盼;尹绍宏
2.一种基于混合集成方法的数据流概念漂移检测方法 [J], 桂林;张玉红;胡学钢
3.基于概念漂移检测的数据流集成分类 [J], 张宝菊;陈一迪;薛磊
4.概念漂移数据流集成分类算法综述 [J], 杜诗语; 韩萌; 申明尧; 张春砚; 孙蕊
5.基于自适应集成分类器的数据流概念漂移算法 [J], 姜爱克;赵峰;张杰
因版权原因,仅展示原文概要,查看原文内容请购买。
基于概念漂移检测的自适应流量分类方法

基于概念漂移检测的自适应流量分类方法JIANG Zhendong;WANG Jianming;PAN Wubin【摘要】针对网络流特征会随网络环境变化而发生改变,从而导致基于流特征的机器学习分类方法精度明显降低的问题.提出一种基于概念漂移检测的自适应流量分类方法,该方法借助Kolmogorov-Smirnov检验对出现的流量进行概念漂移检测,然后通过多视图协同学习策略引入新流量样本修正概念漂移导致的模型变化,使分类器得到有效更新.实验结果表明该方法可以有效检测概念漂移并更新分类器,表现出较好的分类性能和泛化能力.【期刊名称】《计算机工程与应用》【年(卷),期】2019(055)003【总页数】8页(P68-75)【关键词】概念漂移;Kolmogorov-Smirnov检验;协同学习;流量分类【作者】JIANG Zhendong;WANG Jianming;PAN Wubin【作者单位】【正文语种】中文【中图分类】TP3931 引言近几年互联网高速发展,网络直播、网约车、网络订餐和社交网络等新应用不断出现,用户隐私保护和网络安全意识的不断提高,同时加密协议良好的兼容性和可扩展性,使得加密流量爆炸式增长,加密流量识别已成为当前网络管理的巨大挑战。
鉴于DPI(深度包检测)分类方法无能为力,只能借助DFI分类方法[1-3]。
但基于流特征的机器学习分类方法会因为不同客户端(例如PC、手机和平板电脑)的流特征差异,以及不同地域应用分布不同会引起网络流概念漂移[4-5],根据之前抓取的流量建立机器学习模型,由于样本的局限性以及泛化能力差,使得机器学习模型识别同一网络空间的流量准确率高,不同网络空间的样本识别精度急剧下降[6]。
如果能够及时发现因时间或网络环境变化导致的概念漂移现象,就可以准确地更新分类器,而不是根据经验或定期更新分类器。
当前流量分类研究主要有以下缺点:(1)训练样本只根据新流量会丢失之前的知识,且建立大规模有标记样本耗费大量人力物力。
数据科学中的异常概念漂移检测技术综述

数据科学中的异常概念漂移检测技术综述引言:数据科学是当今社会中的热门领域之一,它涵盖了数据收集、处理、分析和应用等多个方面。
在数据科学的研究和实践中,异常概念漂移检测技术是一个重要的主题。
异常概念漂移是指数据分布中的异常模式随时间发生变化的现象。
在本文中,我们将综述数据科学中的异常概念漂移检测技术,包括其定义、应用场景、常用方法等。
一、异常概念漂移的定义异常概念漂移是指在数据集中出现的异常模式随时间发生变化的现象。
这种变化可能是由于外部环境的变化、数据采集设备的故障或者数据本身的演化等原因引起的。
异常概念漂移的检测可以帮助我们及时发现数据分布的变化,从而更好地理解和应对数据中的异常情况。
二、异常概念漂移检测的应用场景异常概念漂移检测技术在许多领域都有广泛的应用。
例如,在金融领域,异常概念漂移检测可以用于监测交易数据中的异常模式,从而及时发现潜在的欺诈行为。
在工业生产中,异常概念漂移检测可以用于监测设备传感器数据中的异常模式,从而预测设备故障并采取相应的维修措施。
在医疗领域,异常概念漂移检测可以用于监测患者的生理参数,从而及时发现潜在的健康问题。
三、常用的异常概念漂移检测方法在数据科学中,有许多方法可以用于检测异常概念漂移。
下面我们将介绍几种常用的方法。
1. 基于统计的方法基于统计的方法是最常用的异常概念漂移检测方法之一。
这种方法通过计算数据的统计特征,如均值、方差等,来判断数据是否发生了漂移。
当数据的统计特征与之前的数据分布相比发生显著变化时,就可以判定发生了异常概念漂移。
2. 基于机器学习的方法基于机器学习的方法利用机器学习算法来构建模型,从而检测异常概念漂移。
这种方法通常需要训练一个模型来表示正常数据的分布,然后使用该模型来判断新的数据是否属于正常分布。
如果新的数据与模型预测的分布有显著差异,则可以判定发生了异常概念漂移。
3. 基于时间序列的方法基于时间序列的方法是一种特殊的异常概念漂移检测方法,它利用时间序列数据的特性来检测异常概念漂移。