数据流中概念漂移检测的集成分类器设计

合集下载

数据流中概念漂移检测的集成分类器设计

数据流中概念漂移检测的集成分类器设计

念以适应数据流中的概念变化 。下面分别给出具体的整体决
策过程和更新维护过程 。
ICEA 的决策过程 :
D ec ision
(
{
_
x
,
y}
,
E,β)
输入 :

{ x,
y} : 数据样本
E: E = { E1 , E2 , …, Ei , …, Em } , Ei 保存对应构建的概念 β:衰减因子 ,控制分类器对训练样本数据不匹配时的衰减幅
1996年 ,W idmer等人提出了概念漂移的问题 [2 ] ,并且之 后的学者利用机器学习等研究方法进行了广泛的讨论 [3~6 ] 。 1997年 , Salganicoff等人提出了 PECS[8 ]算法 。 PECS算法是一 种可以根据上下文进行选择的懒惰学习算法 。 1998 年 , Har2 ries等人给出了 SPL ICE[5 ]算法 。 SPL ICE算法通过上下文聚类 技术实现稳定的隐藏信息的识别和局部概念的生成 。 2001 年 , Dom ingos等人对决策树算法进行了改进并且给出了一种 适应概念漂移的决策树学习算法 VFDT[7 ] 。VFDT是一个典型 的基于 Hoeffding边界的可以处理数据流的单分类树决策算 法 。随后 , Gama等人对 VFDT树作了进一步的改进 ,扩展了 VFDT树的功能 [8~10 ] 。2001 年 , Street等人提出了一个集成分 类器算法 SEA ,同时 ,也把它应用到数据流的概念漂移的检测 中 ,并给出 SEA concep t[11 ] 。2003年 ,W ang等人对集成分类器 中的权值变化和裁减问题进行了讨论 ,并且提出了根据分类器 分类错误率动态改变权值的技术 [12 ] 。2004年 , Rushing等人提 出 CBEA[13 ] ,集中讨论了一种基于聚类算法的集成分类器裁

一种能够适应概念漂移变化的数据流分类方法

一种能够适应概念漂移变化的数据流分类方法

一种能够适应概念漂移变化的数据流分类方法
富春岩;葛茂松
【期刊名称】《智能系统学报》
【年(卷),期】2007(2)4
【摘要】目前多数的数据流分类方法都是基于数据稳定分布这一假设,忽略了真实数据在一段时间内会发生潜在概念性的变化,这可能会降低分类模型的预测精度.针对数据流的特性,提出一种能够识别并适应概念漂移发生的在线分类算法,实验表明它能根据目前概念漂移的状况,自动地调整训练窗口和模型重建期间新样本的个数.【总页数】6页(P86-91)
【作者】富春岩;葛茂松
【作者单位】佳木斯大学,公共计算机教研部,黑龙江,佳木斯,154007;佳木斯大学,公共计算机教研部,黑龙江,佳木斯,154007
【正文语种】中文
【中图分类】TP311.13
【相关文献】
1.一种自适应局部概念漂移的数据流分类算法 [J], 尹志武;黄上腾
2.一种抗噪的概念漂移数据流分类方法 [J], 张玉红;胡学钢;李培培
3.基于自适应微簇的任意形状概念漂移数据流聚类 [J], 韦洁华
4.一种面向不完全标记的文本数据流自适应分类方法 [J], 张玉红;陈伟;胡学钢
5.基于自适应集成分类器的数据流概念漂移算法 [J], 姜爱克;赵峰;张杰
因版权原因,仅展示原文概要,查看原文内容请购买。

基于概念漂移检测算法的数据流分类模型

基于概念漂移检测算法的数据流分类模型

Ab s t r a c t :To o v e r c o me t h e e f f e c t o f t h e d a t a s t r e a m c o n c e p t d r i f t p h e n o me n o n f o r d a t a s t r e a m c l a s s i f i c a t i o n ,i mp r o v e t h e a c c u r a — c y o f c l a s s i f i c a t i o n,a c o n c e p t d r i f t d e t e c t i o n me t h o d b a s e d d a t a s t r e a m c l a s s i f i c a t i o n mo d e l i s p r e s e n t e d .Fi r s t l y ,t h e r e l a t e d i n — f o r ma t i o n o f c o n c e p t d r i f t i s i n t r o d u c e d .F o r d i f f e r e n t c o n c e p t d r i f t t y p e s ,t h e r e a r e d i f f e r e n t k i n d s o f c o n c e p t d r i f t d e t e c t i o n
中图法分类号 :T P 1 8 1 文献标识号 :A 文章编号 :1 0 0 0 — 7 0 2 4( 2 0 1 3 )0 9 — 3 1 4 1 — 0 5

Co n c e p t d r i f t d e t e c t i o n me t h o d b a s e d d a t a s t r e a m c l a s s i f i c a t i月

面向分布式漂移数据流的集成分类模型

面向分布式漂移数据流的集成分类模型
在集成学习中,基分类器的训练数据一般是由原始数据 集 bootstrap(有放回)抽样所得,或者是将原始数据集划分成 n 个子集,用子集训练不同的基分类器,这样可以保持基分类器
的多样性。基分类器的组合策略有多种,最主流的是选择多 数分类器给出的预测结果作为整个集成分类器的分类结果。 现有的研究表明,集成学习比单一的分类器预测准确率更高, 并且具有很好的鲁棒性。在数据流分类算法中,集成方法可 以分为两种:基于块和在线学习方法。基于块的方法是将到 达的实例分为固定大小的数据块,对每个数据块进行分类器的 训练,这种方法对时间和内存的要求比较高;在线学习方法是 对到来的训练实例进行增量学习,学习出一个从一组属性值到 一个类标的映射函数[18],可以满足时效和内存的限制,但是在 分类准确率上稍逊于基于块的方法。基于块的方法中最经典 的是数据流集成算法(Stream Ensemble Algorithm,SEA)[19],该 算法一直从新的数据块中学习新的分类器,并将分类器加入 到集成模型中,当基分类器的数量达到上限,新创建的分类器 就会替代过时分类器(分类性能比新分类器差),由于基分类 器是根据不同的数据块创建的,因此该算法能够保持基分类 器的多样性,避免过拟合的情况发生。在线学习方法最经典 的是动态加权多数投票(Dynamic Weighted Majority,DWM) 算法[20],该算法中的基分类器的权重是动态更新的,当基分类 预测错误,它的权重会相应减小。当集成模型对训练实例错 误分类,则会创建新的分类器重新学习新的概念,权重太小的 分类器会被淘汰,每次删除和添加分类器,权重会进行归一化 操作,避免新的分类器权重过大,对整个集成分类结果起主导 作 用 。 在 线 学 习 的 思 想 在 漂 移 检 测 中 也 经 常 用 到 ,如 文 献 [21]提出的基于在线性能测试的漂移检测方法,该方法在每 个子训练集上进行在线学习,检测出真实漂移位点,可以区分 真实漂移和由噪声导致的伪概念漂移。

一种挖掘概念漂移数据流的选择性集成算法

一种挖掘概念漂移数据流的选择性集成算法

一种挖掘概念漂移数据流的选择性集成算法
关菁华;刘大有
【期刊名称】《计算机科学》
【年(卷),期】2010(037)001
【摘要】提出一种挖掘概念漂移数据流的选择性集成学习算法.该算法根据各基分类器在验证集上的输出结果向量方向与参考向量方向之间的偏离程度,选择参与集成的基分类器.分别在具有突发性和渐进性概念漂移的人造数据集SEA和Hyperplane上进行实验分析.实验结果表明,这种基分类器选择方法大幅度提高了集成算法在处理概念漂移数据流时的分类准确性.使用error-ambiguity分解对算法构建的naive Bayes集成在解决分类问题时的性能进行了分析.实验结果表明,算法成功的主要原因是它能显著降低平均泛化误差.
【总页数】4页(P204-207)
【作者】关菁华;刘大有
【作者单位】吉林大学符号计算与知识工程教育部重点实验室,长春,130012;吉林大学计算机科学与技术学院,长春,130012
【正文语种】中文
【中图分类】TP181
【相关文献】
1.大数据背景下引入多重选择机制分类挖掘带概念漂移的高速数据流优化算法 [J], 郭锋锋
2.数据流概念漂移分类和挖掘研究综述 [J], 赵峰
3.数据流挖掘抑制概念漂移不良影响研究 [J], 卞舒逸
4.大数据背景下引入多重选择机制分类挖掘带概念漂移的高速数据流优化算法 [J], 郭锋锋
5.概念漂移数据流挖掘算法综述 [J], 丁剑;韩萌;李娟
因版权原因,仅展示原文概要,查看原文内容请购买。

数据流上概念漂移的检测和分类

数据流上概念漂移的检测和分类

数据流上概念漂移的检测和分类
在机器学习和数据挖掘中,数据流上概念漂移是指在经过一段时间后,数据流中的分布和属性发生变化,这可能是由于外部环境、过程变化或用户行为的改变引起的。

漂移通常会导致预测模型失效或准确率下降,因此检测和分类漂移变得尤为重要。

漂移检测通过比较实时收集的新数据和历史数据来判断是否存在漂移,其基本思想是维护一个用于观察数据分布的数据源,并将新样本与该源样本进行比较。

常用的检测方法包括位置检测、距离检测和密度检测等。

位置检测是一种简单直接的方法,通过比较新数据与历史数据的平均值来检测漂移。

距离检测则比较两个数据点之间的相似度,如欧氏距离、曼哈顿距离等。

密度检测则可以找出新数据点是否来自于新类别。

另一个重要的问题是如何分类漂移,即在检测到漂移后,如何维护模型准确率不受影响。

一种常见的方法是在线学习,其中预测模型基于数据流,按时间顺序处理一个样本。

此外,集成方法也被广泛应用,其中多个预测算法被组合在一起以提高准确性和鲁棒性。

最后,需要指出的是,漂移检测和分类并不总是能够完美地解决所有问题。

在实际应用中,因为漂移的本质是不确定的,而且数据流本身就是不断变化的,因此检测和分类漂移需要不断完善和改进。

数据流中概念漂移检测的集成分类器设计

数据流中概念漂移检测的集成分类器设计

数据流中概念漂移检测的集成分类器设计
孙岳;毛国君;刘旭
【期刊名称】《计算机应用研究》
【年(卷),期】2008(025)001
【摘要】提出了一种称为ICEA(incremental classification ensemble algorithm)的数据流挖掘算法.它利用集成分类器综合技术,实现了数据流中概念漂移的增量式检测和挖掘.实验结果表明,ICEA在处理数据流的快速概念漂移上表现出很高的精确度和较好的时间效率.
【总页数】4页(P164-167)
【作者】孙岳;毛国君;刘旭
【作者单位】北京工业大学,计算机学院,北京市多媒体与智能软件重点实验室,北京,100022;北京工业大学,计算机学院,北京市多媒体与智能软件重点实验室,北京,100022;北京工业大学,计算机学院,北京市多媒体与智能软件重点实验室,北京,100022
【正文语种】中文
【中图分类】TP311
【相关文献】
1.隐含概念漂移的不确定数据流集成分类算法 [J], 张盼盼;尹绍宏
2.一种基于混合集成方法的数据流概念漂移检测方法 [J], 桂林;张玉红;胡学钢
3.基于概念漂移检测的数据流集成分类 [J], 张宝菊;陈一迪;薛磊
4.概念漂移数据流集成分类算法综述 [J], 杜诗语; 韩萌; 申明尧; 张春砚; 孙蕊
5.基于自适应集成分类器的数据流概念漂移算法 [J], 姜爱克;赵峰;张杰
因版权原因,仅展示原文概要,查看原文内容请购买。

基于概念漂移检测的自适应流量分类方法

基于概念漂移检测的自适应流量分类方法

基于概念漂移检测的自适应流量分类方法JIANG Zhendong;WANG Jianming;PAN Wubin【摘要】针对网络流特征会随网络环境变化而发生改变,从而导致基于流特征的机器学习分类方法精度明显降低的问题.提出一种基于概念漂移检测的自适应流量分类方法,该方法借助Kolmogorov-Smirnov检验对出现的流量进行概念漂移检测,然后通过多视图协同学习策略引入新流量样本修正概念漂移导致的模型变化,使分类器得到有效更新.实验结果表明该方法可以有效检测概念漂移并更新分类器,表现出较好的分类性能和泛化能力.【期刊名称】《计算机工程与应用》【年(卷),期】2019(055)003【总页数】8页(P68-75)【关键词】概念漂移;Kolmogorov-Smirnov检验;协同学习;流量分类【作者】JIANG Zhendong;WANG Jianming;PAN Wubin【作者单位】【正文语种】中文【中图分类】TP3931 引言近几年互联网高速发展,网络直播、网约车、网络订餐和社交网络等新应用不断出现,用户隐私保护和网络安全意识的不断提高,同时加密协议良好的兼容性和可扩展性,使得加密流量爆炸式增长,加密流量识别已成为当前网络管理的巨大挑战。

鉴于DPI(深度包检测)分类方法无能为力,只能借助DFI分类方法[1-3]。

但基于流特征的机器学习分类方法会因为不同客户端(例如PC、手机和平板电脑)的流特征差异,以及不同地域应用分布不同会引起网络流概念漂移[4-5],根据之前抓取的流量建立机器学习模型,由于样本的局限性以及泛化能力差,使得机器学习模型识别同一网络空间的流量准确率高,不同网络空间的样本识别精度急剧下降[6]。

如果能够及时发现因时间或网络环境变化导致的概念漂移现象,就可以准确地更新分类器,而不是根据经验或定期更新分类器。

当前流量分类研究主要有以下缺点:(1)训练样本只根据新流量会丢失之前的知识,且建立大规模有标记样本耗费大量人力物力。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据流中概念漂移检测的集成分类器设计数据流中的概念漂移是指随着时间推移,数据流中的模式或概念发生
变化的现象。

集成分类器是一种利用多个基分类器进行决策的机器学习方法。

在数据流中进行概念漂移检测时,集成分类器可以提高分类准确性和
稳定性。

本文将介绍数据流中概念漂移检测的集成分类器的设计方法。

一、数据流中概念漂移的概述
数据流中的概念漂移是指数据分布的变化,导致在不同时间段或位置
上的数据样本有不同的属性分布。

概念漂移对于数据流中的类别预测任务
具有挑战性,因为单个分类器可能无法适应数据的变化。

因此,需要使用
集成分类器来进行概念漂移的检测和管理。

集成分类器通过组合多个基分类器的决策来进行分类。

在数据流中进
行概念漂移检测时,可以通过以下步骤设计集成分类器:
1.基分类器选择:选择不同的基分类器作为集成分类器的组成部分,
可以增加分类器的多样性,提高分类准确性和鲁棒性。

常见的基分类器包
括决策树、支持向量机、人工神经网络等。

2.集成方法选择:根据具体问题选择合适的集成方法。

常见的集成方
法包括投票法、加权法、堆叠法等。

投票法是指通过多数表决的方式进行
分类决策;加权法是给不同基分类器分配不同权重来进行分类决策;堆叠
法是通过训练一个次级分类器来结合多个基分类器的结果。

3.集成策略选择:根据数据流中的概念漂移特征选择合适的集成策略。

常见的集成策略包括动态集成、增量集成和滑动窗口集成。

动态集成是在
数据流中的概念漂移发生时,动态调整集成模型的组成部分;增量集成是
通过逐步增加基分类器,动态更新集成模型;滑动窗口集成是将数据流分
成固定大小的窗口,每个窗口训练一个集成分类器,并通过滑动窗口的方
式进行分类。

4.漂移检测方法选择:在设计集成分类器时,还需要选择适合的漂移
检测方法。

常见的漂移检测方法包括基于错误率的方法、基于统计的方法
和基于一致性的方法。

基于错误率的方法是通过监测分类器的错误率变化
来检测漂移;基于统计的方法是通过统计数据分布的变化来检测漂移;基
于一致性的方法是通过比较不同分类器的预测结果的一致性来检测漂移。

三、集成分类器的应用
集成分类器在数据流中概念漂移的检测和管理任务中具有广泛的应用。

例如,在在线广告推荐系统中,可以使用集成分类器来识别用户的行为模
式的变化,并及时调整推荐策略。

在金融欺诈检测中,可以使用集成分类
器来检测账户的异常交易行为,并预测潜在的欺诈风险。

总结:
本文介绍了数据流中概念漂移检测的集成分类器的设计方法。

通过选
择合适的基分类器、集成方法、集成策略和漂移检测方法,可以设计出在
数据流中高效准确的概念漂移检测器。

集成分类器的应用不仅可以提高分
类准确性和稳定性,还可以适应随着时间推移数据分布变化的情况,从而
实现更加灵活和智能的预测和决策。

相关文档
最新文档