基于子空间集成的概念漂移数据流分类算法

合集下载

一种自适应局部概念漂移的数据流分类算法

一种自适应局部概念漂移的数据流分类算法

计算机科学2008V ol 35 2一种自适应局部概念漂移的数据流分类算法尹志武 黄上腾(上海交通大学计算机科学与工程系 上海200240)摘 要 本文基于DB2算法提出一个能实时检测局部概念漂移,并随之自适应调整的数据流分类算法Incr eDB2。

该算法动态增量维护一个层次分类树。

当局部概念漂移出现时,IncreDB2不是重新构造一个全新的分类树,而是仅更新漂移所影响到的局部结点,具有较高的时间效率。

实验结果表明了该算法的正确性和有效性。

关键词 数据流挖掘,多分类,局部概念漂移Adaptive Method for Handling Local Concept Drift of Data Streams ClassificationY IN Zhi Wu H U A NG Shang T eng(Department of C om puter Science and Engineering,S han ghai Jiaotong U nivers ity,Sh angh ai200240)Abstract Based o n the DB2method,an adaptiv e met ho d called Incr eD B2is pr oposed to detect and adapt to local co n cept dr ift continuously in data str eam classificatio n.T his metho d dynamically maintains a hierar chica l classificat ion tree.W hen local co ncept dr ift is detect ed,Incr eDB2only updates the nodes that affected by this drift rat her than re builds a new classificatio n tr ee f rom scratch,w hich means that it has better t ime eff iciency.Ex per imenta l results dem o nstr ated the validity and efficiency of t his metho d.Keywords Data str eam mining,M ulti classif ication,L o cal concept drif t1 引言作为一种新的数据形式,数据流[1~3]在入侵检测、传感器网络、股票分析等许多领域有着广泛的应用。

一种基于数据不确定性的概念漂移数据流分类算法

一种基于数据不确定性的概念漂移数据流分类算法

一种基于数据不确定性的概念漂移数据流分类算法吕艳霞;王翠容;王聪;苑迎【期刊名称】《应用科学学报》【年(卷),期】2017(035)005【摘要】隐私保护、数据丢失、网络错误等原因导致网络中大量数据存在不确定性.数据流系统中数据连续不断到达系统,故不能一次性获得全部数据,此外数据的概念特征经常发生变化.针对这种情况,构建了一个增量式分类模型来处理数据具有不确定性的隐含概念漂移的数据流分类问题.该模型采用非常快速决策树算法,在学习阶段使用霍夫丁边界理论迅速构建能处理数据不确定性的决策树模型;在分类阶段将加权贝叶斯分类器应用于决策树的叶子节点,以提高不确定数据分类的准确率;采用滑动窗口技术和替换树来处理数据流中的概念漂移现象.实验表明,无论对人工数据还是实际数据,该算法均有较高的分类准确率和执行效率.【总页数】11页(P559-569)【作者】吕艳霞;王翠容;王聪;苑迎【作者单位】东北大学计算机科学与工程学院,沈阳110819;东北大学秦皇岛分校计算机与通信工程学院,河北秦皇岛066004;东北大学计算机科学与工程学院,沈阳110819;东北大学秦皇岛分校计算机与通信工程学院,河北秦皇岛066004;东北大学秦皇岛分校计算机与通信工程学院,河北秦皇岛066004;东北大学秦皇岛分校计算机与通信工程学院,河北秦皇岛066004【正文语种】中文【中图分类】TP311【相关文献】1.一种基于混合集成方法的数据流概念漂移检测方法 [J], 桂林;张玉红;胡学钢2.一种自适应局部概念漂移的数据流分类算法 [J], 尹志武;黄上腾3.基于子空间集成的概念漂移数据流分类算法 [J], 李南;郭躬德4.一种基于混合模型的数据流概念漂移检测算法 [J], 郭躬德;李南;陈黎飞5.基于McDiarmid界的概念漂移数据流分类算法 [J], 梁斌;李光辉因版权原因,仅展示原文概要,查看原文内容请购买。

基于子空间聚类的模式识别算法研究

基于子空间聚类的模式识别算法研究

基于子空间聚类的模式识别算法研究1.背景介绍随着数据量的不断增大,数据处理问题已经成为了人们普遍关注的问题,其中模式识别算法就是一种常见的数据处理技术。

在实际应用场景中,模式识别算法能够帮助我们分析数据特征,找到不同类别之间的关联性,从而支持后续的决策和行动。

2.传统的模式识别算法传统的模式识别算法包括SVM、k-means等。

其中SVM可以用于二分类和多分类问题,但是由于其模型的复杂度较高,在处理大规模数据时需要较大的计算资源,并且需要人工进行特征工程。

k-means算法可以很好的完成数据聚类的任务,但在对高维度数据的处理中,其性能较差,容易陷入局部最优解。

3.子空间聚类算法子空间聚类算法是一种基于子空间分析技术的模式识别算法,其主要思想是将特征空间划分成多个子空间,每个子空间都对应一种特征,然后在每个子空间中对数据进行聚类。

与传统的聚类算法相比,子空间聚类算法适用于高维度数据,因为它能够有效地适应多个子空间的存在,并在每个子空间中对数据进行分析。

4.子空间聚类算法的算法流程子空间聚类算法的流程如下:(1) 预处理阶段:对数据进行预处理,包括数据清洗、特征提取等。

(2) 子空间构建阶段:将数据特征空间划分成多个子空间,并对每个子空间进行特征分析。

(3) 子空间聚类阶段:在每个子空间中,对数据进行聚类分析。

(4) 结果整合阶段:将每个子空间中的聚类结果整合成最终的聚类结果。

5.子空间聚类算法中的常见问题在使用子空间聚类算法时,可能会出现一些问题,需要进行针对性的解决。

其中主要有以下问题:(1) 数据量较大时,计算资源需求较高;(2) 处理不同子空间中的聚类结果,需要进行整合,可能存在决策冲突;(3) 子空间划分的方式对算法结果会产生较大的影响。

6.应用案例子空间聚类算法在实际应用中具有广泛的应用价值,以下是该算法的一些应用案例:(1) 图像分割:将图像划分成多个子空间,对每个子空间进行聚类,可以实现图像分割任务。

概念漂移数据流分类研究综述

概念漂移数据流分类研究综述
Ab s t r ac t: Be c a us e t h e c u r r e n t ma c h i n e l e a r n i n g a l g o r i t h ms a l l a r e e s s e n t i a l l y a n o p t i mi z a t i o n p r o c e d u r e t ha t a i ms t o
关键词 : 大数据 ; 概念 漂移 ; 增量学 习; 适 应学习 ; 数据 流 ; 机器学 习 中图分类号 : T P 3 9 1 . 4 文献标志码 : A 文章编号 : 1 6 7 3 47 8 5 ( 2 0 1 2 ) 0 2 - 0 0 9 5 — 1 0
A s u r v e y o f t he c l a s s i ic f a t i o n o f d a t a s t r e a ms wi t h c o n c e p t d r i f t
第 8卷 第 2期
2 0 1 3年 4月


系Байду номын сангаас



Vo 1 . 8 No. 2 Ap r . 2 01 3
CAM Tr a n s a c t i o ns o n I n t e l l i g e n t S y s t e ms
D O I : 1 0 . 3 9 6 9 / j . i s s n . 1 6 7 3 - 4 7 8 5 . 2 0 1 2 0 8 0 1 2
e n s u r e t h e g e n e r a l i z a t i o n a b i l i t y b a s e d o n s t a t i c l e a r ni n g e n v i r o n me nt ,t h e c l a s s i ic f a t i o n d a t a s t r e a ms wi t h c o n c e p t d r i t f h a s b r o u g h t s e v e r e c h a l l e n g e s t o ma c hi n e l e a r n i n g .I n o r d e r t o a d d r e s s t he s e c o n c e ns r ,a s u r v e y wa s d e v e l o p e d c o n s i s t i n g o f f o u r a s p e c t s:t h e i nt r o d u c t i o n t o d a t a s t r e a ms a nd c o n c e pt d r i t,t f h e d e v e l o p me n t p r o c e s s a n d f ut ur e t r e n ds ,t he ma i n r e s e a r c h ie f l d s,a n d t he n e w d e v e l o pme n t s i n t h e s t u d y ie f l d o f t h e c l a s s i ic f a t i o n d a t a s t r e a ms wi t h c o nc e p t d r i t.The f e x i s t i n g pr o b l e ms r e l a t i n g t o c l a s s i ic f a t i o n d a t a s t r e a ms wi t h c o n c e pt d r i t f we r e d i s c u s s e d a t l a s t . Ke y wor ds: b i g d a t a;c o n c e p t d r i t ;i f n c r e me n t a l l e a r n i n g;a da p t i v e l e a r n i n g;d a t a s t r e a m; ma c h i n e l e a r n i n g

面向分布式漂移数据流的集成分类模型

面向分布式漂移数据流的集成分类模型
在集成学习中,基分类器的训练数据一般是由原始数据 集 bootstrap(有放回)抽样所得,或者是将原始数据集划分成 n 个子集,用子集训练不同的基分类器,这样可以保持基分类器
的多样性。基分类器的组合策略有多种,最主流的是选择多 数分类器给出的预测结果作为整个集成分类器的分类结果。 现有的研究表明,集成学习比单一的分类器预测准确率更高, 并且具有很好的鲁棒性。在数据流分类算法中,集成方法可 以分为两种:基于块和在线学习方法。基于块的方法是将到 达的实例分为固定大小的数据块,对每个数据块进行分类器的 训练,这种方法对时间和内存的要求比较高;在线学习方法是 对到来的训练实例进行增量学习,学习出一个从一组属性值到 一个类标的映射函数[18],可以满足时效和内存的限制,但是在 分类准确率上稍逊于基于块的方法。基于块的方法中最经典 的是数据流集成算法(Stream Ensemble Algorithm,SEA)[19],该 算法一直从新的数据块中学习新的分类器,并将分类器加入 到集成模型中,当基分类器的数量达到上限,新创建的分类器 就会替代过时分类器(分类性能比新分类器差),由于基分类 器是根据不同的数据块创建的,因此该算法能够保持基分类 器的多样性,避免过拟合的情况发生。在线学习方法最经典 的是动态加权多数投票(Dynamic Weighted Majority,DWM) 算法[20],该算法中的基分类器的权重是动态更新的,当基分类 预测错误,它的权重会相应减小。当集成模型对训练实例错 误分类,则会创建新的分类器重新学习新的概念,权重太小的 分类器会被淘汰,每次删除和添加分类器,权重会进行归一化 操作,避免新的分类器权重过大,对整个集成分类结果起主导 作 用 。 在 线 学 习 的 思 想 在 漂 移 检 测 中 也 经 常 用 到 ,如 文 献 [21]提出的基于在线性能测试的漂移检测方法,该方法在每 个子训练集上进行在线学习,检测出真实漂移位点,可以区分 真实漂移和由噪声导致的伪概念漂移。

一种基于混合集成方法的数据流概念漂移检测方法

一种基于混合集成方法的数据流概念漂移检测方法

一种基于混合集成方法的数据流概念漂移检测方法桂林;张玉红;胡学钢【期刊名称】《计算机科学》【年(卷),期】2012(39)1【摘要】Mining with data stream concept drift is a hot topic in data mining. Existing classification approaches consist of ensemble method based on single base classifiers and ensemble method based on hybrid base classifiers, which depend on the stationary assumption and learnable assumption. However, the former probably causes the larger classification deviation and the performance on accuracy is impacted in the noisy data streams, while the latter performs worse on the classification accuracy or the time consumption. Motivated by this, an ensembling classification method WE-DTB was proposed, based on hybrid based models with decision trees and Naive Bayes. It is an extended framework of WE model. Meanwhile, we utilized the popular concept drift detection mechanisms based on Hoeffding Bounds and μ test to implement the detection on concept drifts. Extensive experiments demonstrate that our proposed method WE-DTB can detect concept drift effectively while maintaining the good performance on classification accuracy and consumptions on time and space.%近年来,数据流分类问题研究受到了普遍关注,而漂移检测是其中一个重要的研究问题.已有的分类模型有单一集成模型和混合模型,其漂移检测机制多基于理想的分布假设.单一模型集成可能导致分类误差扩大,噪音环境下分类效果受到了一定影响,而混合集成模型多存在分类精度和时间性能难以两者兼顾的问题.为此,基于简单的WE集成框架,构建了基于决策树和bayes混合模型的集成分类方法WE-DTB,并利用典型的概念漂移检测机制Hoeffding Bounds和μ检验来进行数据流环境下概念漂移的检测和分类.大量实验表明,WE-DTB能够有效检测概念漂移且具有较好的分类精度及时空性能.【总页数】5页(P152-155,181)【作者】桂林;张玉红;胡学钢【作者单位】合肥工业大学计算机与信息学院合肥230009;合肥工业大学计算机与信息学院合肥230009;合肥工业大学计算机与信息学院合肥230009【正文语种】中文【中图分类】TP181【相关文献】1.一种基于数据不确定性的概念漂移数据流分类算法 [J], 吕艳霞;王翠容;王聪;苑迎2.基于贝叶斯混合集成的概念漂移数据流分类 [J], 杨彬彬3.一种基于混合模型的数据流概念漂移检测算法 [J], 郭躬德;李南;陈黎飞4.一种能够适应概念漂移变化的数据流分类方法 [J], 富春岩;葛茂松5.一种抗噪的概念漂移数据流分类方法 [J], 张玉红;胡学钢;李培培因版权原因,仅展示原文概要,查看原文内容请购买。

面向概念漂移集成分类的三支决策优化方法

面向概念漂移集成分类的三支决策优化方法

㊀第53卷第1期郑州大学学报(理学版)Vol.53No.1㊀2021年3月J.Zhengzhou Univ.(Nat.Sci.Ed.)Mar.2021收稿日期:2020-07-08基金项目:国家自然科学基金项目(61763031)㊂作者简介:徐健锋(1973 ),男,教授,主要从事粒计算㊁粗糙集及机器学习研究,E-mail:jiangfeng _x @;通信作者:薛国泽(1994 ),男,硕士研究生,主要从事机器学习研究,E-mail:xueguoze@㊂面向概念漂移集成分类的三支决策优化方法徐健锋1,2,3,㊀辛㊀朋1,㊀薛国泽2,㊀杨迎方2(1.南昌大学信息工程学院㊀江西南昌330031;2.南昌大学软件学院㊀江西南昌330047;3.同济大学电子与信息工程学院㊀上海201804)摘要:提出一种面向概念漂移集成分类的基分类器三支过滤方法㊂首先基于信息熵理论计算出基分类器的不确定性值,并融合其准确性作为基分类器的质量度量,然后通过预设阈值α㊁β对基分类器进行三支过滤㊂其过滤策略为:删除质量权值小于等于阈值β的基分类器;保留质量权值大于等于阈值α的基分类器;对于质量权值大于β小于α的基分类器,将延迟后进一步决策㊂添加对应数量的基分类器,重新计算基分类器的质量权值,再次实施三支过滤直至没有基分类器被删除或达到指定迭代次数㊂在真实数据集和人工数据集上与几种经典算法进行对比实验,结果表明,所提出的算法能够有效地提升分类效果㊂关键词:三支决策;集成分类;概念漂移;不确定性评估;信息熵中图分类号:TP311㊀㊀㊀㊀㊀文献标志码:A㊀㊀㊀㊀㊀文章编号:1671-6841(2021)01-0022-07DOI :10.13705/j.issn.1671-6841.20202160㊀引言随着互联网的快速发展,许多行业领域每时每刻都会产生海量的数据,它们通常以数据流[1]的形式产生和到达㊂随着数据流的高速产生,其数据分布会发生改变,将这种数据分布随着时间推移而发生变化的现象称为 概念漂移 [2]㊂如何在快速变化的数据流中有效地处理概念漂移问题,已经成为许多国内外学者研究的重要课题[3-4]㊂目前有关抵抗概念漂移技术的研究主要集中在三个方向:自适应基学习器[5]㊁单分类器设计模式[6]和多分类器集成技术[7-10]㊂自适应基学习器通过对传统机器学习算法加以改进,使其在复杂多变的数据流环境中具有较好的适应性㊂单分类器设计模式通常采用的方法有滑动窗口技术和样本加权,以此对数据集进行重新构造以获得良好的实时表现㊂多分类器集成技术被认为是处理概念漂移问题更为有效的方法,其主要思想是在不同时期的数据块上构造多个基分类器,并利用相应结合策略产生最终的分类结果㊂在多分类器集成过程中,基分类器应是准确且多样的[11-12],多样性通常体现在成员间的差异性方面㊂基分类器差异性是指不同的基分类器对相同的实例进行分类而得到不同的类别,差异性可以通过不确定性进行度量㊂提升多样性的目的在于当少数分类器分类错误时,其他分类器也会在集成整合过程中纠正这个问题,从而使集成模型在复杂的数据环境中可以保持稳定的分类性能㊂尤其在不断发生概念变化的数据流环境中,考虑基分类器间的多样性可避免陷入局部最优解,提升集成模型的准确性和泛化性㊂而当前分类集成方法研究[13-14]主要把准确性作为基分类器唯一的质量衡量依据,对基分类器多样性问题却鲜有研究㊂如果能够设计出一种在准确性前提下考虑基分类器多样性指标的质量评价方法,并根据该评价方法对基分类器的选择制定合理的优化策略,将会提升集成模型的分类效果㊂为此,本文提出一种基于信息熵的基分类器不确定性度量方法,作为基分类器的多样性度量指标;将其与经典的准确性度量方法进行融合,作为基分类器的质量评价策略;结合三支决策思想[15],提出了一种改进的基于质量度量的基分类器三支过滤算法㊂㊀第1期徐健锋,等:面向概念漂移集成分类的三支决策优化方法1㊀相关技术研究1.1㊀基于数据块的集成分类模型集成技术被认为是处理概念漂移问题较为有效的方法,其中最常用的是把数据流分块[16]㊂为便于对算法进行描述,对问题进行符号化定义㊂数据流D ={d 1,d 2, ,d t , },其中d t =(x t ,y t )表示t 时刻到达的一个实例㊂按照实例的到达顺序,将实例划分为大小相同的数据块S ={S 1,S 2, ,S i , ,S n },其中S n 为最新数据块㊂C i 表示基于数据块S i 训练的基分类器,采用不同的评价方式给C i 赋相应的权重值并对基分类器进行筛选,然后采用加权投票等方式组合成集成分类器Π,最后对未知实例d t 进行预测㊂1.2㊀三支决策基本理论三支决策是在粗糙集基础上提出的一种求解不确定问题的理论,它在二支决策基础上增加了延迟决策,当信息不足以支撑接受,也不足以支撑拒绝,采用延迟决策避免二支决策所引起的不必要代价㊂其初始目的是为粗糙集理论中的三个分类区域,即正域㊁负域和边界域,提供合理的决策语义解释㊂三支决策通过引入一对阈值(α,β),0ɤβ<αɤ1,在评价函数λ(x )下将集合Π中的元素x 划分入三个不相交的区域:接受域POS (α,β)(Π)㊁延迟域BND (α,β)(Π)和拒绝域NEG (α,β)(Π)㊂当λ(x )ȡα时,元素x 被划分入接受域,记作x 属于POS (α,β)(Π);当β<λ(x )<α时,元素x 被划分入延迟域,记作x 属于BND (α,β)(Π);当λ(x )ɤβ时,元素x 被划分入拒绝域,记作x 属于NEG (α,β)(Π)㊂2㊀基分类器质量权重设定2.1㊀基分类器准确性度量方法当系统获取到最新数据块S n ,计算集合Π中的基分类器在S n 上的准确性㊂基分类器C i 在数据块S n 上的均方误差为MSE i =ð(x ,y )ɪS n(1-f i y (x ))2/S n ,(1)式中:f i y (x )表示基分类器C i 将实例x 分类到标签y 的概率㊂利用MSE r 表示在数据块S n 上进行随机预测的均方误差,用来作为当前数据类分布的参考,其计算公式为MSE r =ðyp (y )(1-p (y ))2,(2)式中:p (y )表示在数据块S n 中各个标签所占比例㊂对于集合Π中的基分类器,其准确性度量权重Acc _ωi 的计算过程有如下定义㊂定义1㊀对于任意基分类器C i ɪΠ,其准确性度量权重计算公式为Acc _ωi =1/(MSE i +MSE r +ε),(3)式中:ε是一个无穷小的正常数㊂在最新数据块S n 上建立的基分类器C n ,其准确性度量权重计算公式为Acc _ωn =1/(MSE r +ε)㊂(4)㊀㊀由于C n 是基于最新数据块建立的基分类器,它能够代表当前以及未来一段时间数据类分布信息,因此被赋予了最高的准确性度量权重㊂2.2㊀基分类器不确定性度量方法在信息论中,信息熵的提出是用来度量随机变量的不确定程度㊂在得到基分类器的不确定性度量之前,基于信息熵理论计算出基分类器之间的不确定性值㊂对于集合Π中任意两个基分类器C i 和C j ,它们在最新数据块S n 上的分类事件有四种组合结果:①N 11表示基分类器C i 和C j 对其正确分类的样例数目;②N 00表示基分类器C i 和C j 对其错误分类的样例数目;③N 10表示C i 对其正确分类且C j 对其错误分类的样例数目;④N 01表示C i 对其错误分类且C j 对其正确分类的样例数目㊂通过概率的基本运算可以得到上述四种组合结果出现的概率p 11(C i ,C j )㊁p 00(C i ,C j )㊁p 10(C i ,C j )及p 01(C i ,C j )㊂根据上述信息,可计算两个基分类器C i 和C j 之间的不确定性值,有如下定义㊂32郑州大学学报(理学版)第53卷定义2㊀对于任意两个基分类器C i ,C j ɪΠ,它们的不确定性度量H (C i ,C j )的计算公式为H (C i ,C j )=-ðk ɪ{11,10,01,00}p k (C i ,C j )log 2p k (C i ,C j ),(5)式中:p k(C i ,C j )表示C i 和C j 对最新数据块S n 分类情况的概率㊂但是,得到C i 和C j 之间的不确定性度量值仍不足以衡量某一个基分类器的不确定性度量,C i 的不确定性度量是相对于集合Π而言的㊂因此,在定义2的基础上,计算基分类器C i 与集合Π中其他基分类器的不确定性值后再取平均值,作为其不确定性度量值,有如下定义㊂定义3㊀对于任意基分类器C i ɪΠ,其相对于集合Π的平均值H (C i )为基分类器C i 的不确定性度量指标,计算公式为H (C i )=ðj ɪ(0,i )ɣ(i ,L ]H (C i ,C j )/(L -1),(6)式中:L 表示集合Π中包含的基分类器数量㊂通过上述过程得到所有基分类器相对于集合Π的不确定性度量H (C i ),也是每个基分类器的不确定性度量㊂同时也要为最新数据块S n 上建立的基分类器C n 分配相应的不确定性度量值,计算公式为H (C n )=H (max),(7)式中:H (max)为定义3中计算得到的平均值中的最大值㊂由于在最新数据块上建立的基分类器C n 在集成过程中有较好的推广性,因此将不确定性度量的最大值赋给C n ㊂为了能直观展示上述计算过程,下面给出一个实例㊂假设在一个数据流实例S 中,S ={S 1,S 2,S 3,S 4},S 4为实例中的最新数据块㊂C 1㊁C 2和C 3分别是在数据块S 1㊁S 2和S 3上建立的基分类器,它们在最新数据块S 4上的分类情况如表1所示㊂其中第2列表示的是t i 时刻到达的一个实例的属性,第3列表示的是每个实例属性所对应的标签值㊂根据基分类器对分类组合情况,整理表1中基分类器的分类结果,统计所有基分类器对分类组合结果的实例数目,可以得到表2㊂根据表2中实例数目的统计结果,通过计算得到各个基分类器对组合结果的概率分布情况为(C 1,C 2):p 11(C 1,C 2)=4/8;p 10(C 1,C 2)=1/8;p 01(C 1,C 2)=2/8;p 00(C 1,C 2)=1/8;(C 1,C 3):p 11(C 1,C 3)=2/8;p 10(C 1,C 3)=3/8;p 01(C 1,C 3)=1/8;p 00(C 1,C 3)=2/8;(C 2,C 3):p 11(C 2,C 3)=1/8;p 10(C 2,C 3)=5/8;p 01(C 2,C 3)=2/8;p 00(C 2,C 3)=0㊂表1㊀各基分类器的分类情况Table 1㊀Classification of each base classifiert 时刻S 4属性S 4标签值C 1预测值C 2预测值C 3预测值t 1A 1110t 2B 1101t 3C 1010t 4D 0110t 5C 1010t 6A 1110t 7E 1110t 8F表2㊀各基分类器对的分类情况Table 2㊀Classification of a pair of base classifiersN (C 1,C 2)(C 1,C 3)(C 2,C 3)N 11421N 10135N 01212N 0012㊀㊀由以上过程得到了所有基分类器对的概率分布信息,根据定义2中的不确定性度量公式计算弱分类对(C i ,C j )的不确定性值H (C i ,C j ),H (C 1,C 2)=-(48log 248+18log 218+28log 228+18log 218)=-(-0.5-0.375-0.5-0.375)=1.750;H (C 1,C 3)=-(28log 228+38log 238+18log 218+28log 228)=-(-0.5-0.531-0.375-0.5)=1.906;42㊀第1期徐健锋,等:面向概念漂移集成分类的三支决策优化方法H (C 2,C 3)=-(18log 218+58log 258+28log 228+0)=-(-0.375-0.424-0.5)=1.299㊂㊀㊀之后根据定义3的公式计算每个基分类器相对于所有基分类器的不确定性度量值,可得H (C 1)=(1.750+1.906)/2=1.828,H (C 2)=(1.750+1.299)/2=1.524,H (C 3)=(1.906+1.299)/2=1.602㊂由式(7),设置H (C 4)=H (max)=1.828㊂至此,通过计算得到了各个基分类器相对于集合的不确定性度量指标㊂此值越大,代表不确定性越大㊂2.3㊀基分类器质量评估为便于两项度量指标进行后续的权重融合过程,需要消除指标之间的量纲影响,即对定义1中的Acc _ωi和定义3中的H (C i )进行数据标准化处理㊂对于准确性度量值Acc _ωi ,其标准化过程为Acc _ω∗i=(Acc _ωi -Acc _ω(min))/(Acc _ω(max)-Acc _ω(min)),(8)式中:Acc _ω(max)和Acc _ω(min)分别为定义1准确性度量指标计算中得到的最大值和最小值㊂同理,基分类器C i 相对于集合Π的不确定性度量值H (C i )的标准化过程为H ∗(C i )=(H (C i )-H (min))/(H (max)-H (min)),(9)式中:H (max)和H (min)分别为定义3计算得到的平均值中的最大值和最小值㊂经过上述计算已经得到集合Π中任意基分类器C i 的准确性度量值Acc _ω∗i 和不确定性度量值H ∗(C i ),将两项度量指标进行权重融合得到用于度量基分类器质量的指标ωi ,有如下定义㊂定义4㊀对于任意基分类器C i ɪΠ,其质量度量指标ωi 的计算公式为ωi =γAcc _ω∗i+(1-γ)H ∗(C i ),(10)式中:γ为权重因子,取值为[0,1]㊂3㊀基分类器三支过滤3.1㊀池机制更新过程在进行基分类器过滤前,设置了一种缓冲池与选择池机制,选择池与缓冲池用来存放一定数量的基分类器㊂在集成过程中,优先从选择池中选取加入集成阶段的基分类器,当满足集成条件的基分类器数量不足时,再从缓冲池中调取所需数量的基分类器加入选择池,继续进行过滤过程㊂设置池机制的优势在于缓冲池中保留了从选择池中移除的基分类器,即保存了暂时表现不好的基分类器,它可能在之后重新变得有用,将来也可能加入集成过程㊂选择池的存在维持了优先选择高权重基分类器的过程,并且给予了新加入基分类器一定的容错性㊂池机制更新算法如算法1所示㊂算法1㊀池机制更新算法输入:数据块S ={S 1,S 2, ,S t , },最新数据块S n ,选择池容量K ,缓冲池容量M ㊂输出:选择池集合E ,缓冲池集合B ㊂Step 1每次新到数据块S n ,给S n 建立新的基分类器C n ;Step 2对基分类器C i 和C n 分别根据式(3)和式(4)进行准确性加权;Step 3对基分类器C i 和C n 分别根据式(5)~(7)进行不确定性加权;Step 4根据Step 2㊁Step 3和式(8)~(10)求得所有基分类器的质量权值;Step 5如果选择池容量没满,即E<K ,则把C n 添加到选择池中;Step 6否则将选择池中最低质量权值的基分类器C min 移至缓冲池;Step 7若缓冲池容量已满,则先移除缓冲池中权值最低的基分类器C ∗min ,并将C min 移至缓冲池;Step 8得到选择池集合E 和缓冲池集合B ㊂3.2㊀三支决策过滤方法三支决策在信息不足或者获取足够信息的代价较高时能够兼顾决策代价与正确性㊂基于基分类器质量5262郑州大学学报(理学版)第53卷度量方法及设置的池机制,提出一种三支决策基分类器过滤(3WQE)算法,如算法2所示㊂算法2㊀基于三支决策的分类器质量优化算法输入:由算法1得到的选择池集合E,缓冲池集合B,迭代次数Q,阈值α,β(0ɤβ<αɤ1)㊂输出:集成分类器Π∗㊂Step1将选择池E中的基分类器加入集合Π;Step2对于E中基分类器C i,根据式(3)~(10)求得所有基分类器的质量权值ωi;Step3如果C i质量权值ωiȡα,将基分类器C i划分到POS(α,β)(Π)域;Step4如果C i质量权值β<ωi<α,将基分类器C i划分到BND(α,β)(Π)域;Step5如果C i质量权值ωiɤβ,将基分类器C i划分到NEG(α,β)(Π)域;Step6删除NEG(α,β)(Π)中所有基分类器,更新集合Π=Π-NEG(α,β)(Π);Step7在缓冲池B中选取NEG(α,β)(Π)个基分类器加入集合Π;Step8返回Step1;Step9直到NEG(α,β)(Π)=0或到达指定迭代次数跳出循环;Step10得到最优的基分类器集合Π∗㊂4㊀实验与分析4.1㊀实验数据集数据集通常分为人工数据集与真实数据集㊂本文采用2个人工数据集与2个真实数据集进行实验,各数据集的参数设置如表3所示㊂人工数据集由数据流分析框架MOA[17]平台下的数据流生成器所生成,分别为SEA和LED数据集㊂真实数据集为CoverType和Electricity数据集㊂SEA数据集包含3个属性值和2个标签值,属性取值为0~10,标签值与其中两个属性相关,还有一个属性是随机取值的噪声属性㊂在SEA 生成器上创建了SEA GD数据集,其中包含了4个渐变漂移㊂LED数据集由24个二进制属性组成,用于预测7段二极管上显示的数字㊂在LED生成器上创建了LED M数据集,其中既包含渐变漂移也包含突变漂移㊂CoverType数据集的任务是预测某个区域的森林覆盖类型,包含581012个实例㊁53个属性和7个类标签㊂Electricity数据集来自澳大利亚新南威尔士州的电力提供商获得的电力数据,电价受供求关系的影响而变化,包括45312个样本,每个样本由7个属性组成,用于预测电价是上涨还是下跌㊂表3㊀各数据集的参数设置Table3㊀Parameter setting of each dataset数据集实例数属性数类值数漂移数类型SEA GD1ˑ106324Gradual LED M1ˑ1062423Mixture CoverType581012537Electricity45312724.2㊀实验设置与结果4.2.1㊀数据块大小对算法性能影响评估㊀对于不断到来的数据,将其划分为多个大小相同的数据块,用于基分类器的训练和集成分类器的评估,数据块的大小直接影响算法性能㊂如果数据块过大,集成分类器将不能有效地检测到短暂的概念漂移;如果数据块过小,则会降低集成分类器在数据平稳期的分类精度㊂为验证数据块大小对算法性能的影响,采用3WQE算法进行了多次实验,不同数据块大小的准确率对比结果如图1所示㊂由图1可以看出,随着数据块的增大,算法的准确率在整体上得到了提升,这是由于数据块内提供了较多的样本使得基分类器得到了充分训练㊂但是随着数据块的继续增大,算法准确率呈现出逐渐下降的趋势,这是由于数据块内所提供的样本过多,使得集成分类器对概念漂移的识别能力降低,从而导致模型泛化能力的降低,影响了算法准确率㊂各数据集在数据块大小为500~1000时,准确率达到了峰值㊂4.2.2㊀算法准确率评估㊀所提出的3WQE算法利用阈值(α,β)将基分类器划分为三支区域,设置合理的阈值将会有效提升算法效率㊂经过多次实验发现,当阈值设置为αɪ[0.6,0.8],βɪ[0.2,0.4],算法分类㊀第1期徐健锋,等:面向概念漂移集成分类的三支决策优化方法图1㊀不同数据块大小的准确率对比Figure 1㊀Accuracy comparison ofdifferent chunk sizes准确性有相对较好的表现㊂面对不同的数据集时,需要通过多次调整确定最佳阈值以达到算法的最佳性能㊂为验证3WQE 算法的有效性,选取经典算法AWE(accuracy weightedensemble)㊁AUE2(accuracy updated ensemble2)㊁ARF (adap-tive random forest)㊁DWM(dynamic weighted majority)[18]作为对比算法,对3WQE 算法的相关性能进行评估㊂设置选择池容量K 为14,数据块大小为500,α取值为0.7,β取值为0.3,权重因子γ取值为0.4,表4给出了这些算法在不同数据集上的平均分类准确率㊂可以看出,所提出的3WQE 算法在这4种数据集的分类准确率上平均排名最高㊂在SEA GD 数据集中,AUE2和ARF 算法的分类效果大体相当,3WQE 算法效果略优于二者㊂3WQE 算法在LED M 和CoverType 数据集中也维持了高效的最佳分类效果㊂而在Electricity 数据集中,ARF 算法的分类效果最佳,3WQE 算法次之㊂多组对比实验结果表明,3WQE 算法表现出高效的分类性能,能很好地处理渐变漂移和突变漂移问题㊂说明基于三支决策的思想,依据质量评价策略对基分类器进行三支过滤,3WQE 算法可以在保持较高分类准确率的同时提升集成模型的泛化性㊂表4㊀不同算法的平均分类准确率Table 4㊀Average classification accuracy of different algorithms单位:%数据集AWE AUE2ARFDWM 3WQE SEA GD 86.8287.9287.9386.7488.14LED M 72.9772.7872.9472.8373.12CoverType 82.9289.8393.0485.2193.34Electricity71.8878.5488.7578.3182.275㊀结论本文提出一种面向概念漂移集成分类的基分类器三支过滤方法㊂该方法基于信息熵理论构造了一种基分类器的不确定性度量策略,在此基础上融合经典的准确性度量方法作为基分类器的质量度量指标㊂结合三支决策方法对基分类器进行三支过滤,从而得到一组在当前概念漂移数据环境中有较好性能的基分类器㊂通过一系列实验验证和对比,证明该算法可有效提升概念漂移集成分类的准确性和泛化能力㊂参考文献:[1]㊀GAMA J.Knowledge discovery from data streams[M].New York:Chapman and Hall /CRC Press,2010.[2]㊀GAMA J.A survey on learning from data streams:current and future trends [J].Progress in artificial intelligence,2012,1(1):45-55.[3]㊀KHAMASSI I,SAYED-MOUCHAWEH M,HAMMAMI M,et al.Discussion and review on evolving data streams and conceptdrift adapting[J].Evolving systems,2018,9(1):1-23.[4]㊀DITZLER G,ROVERI M,ALIPPI C,et al.Learning in nonstationary environments:a survey[J].IEEE computational intelli-gence magazine,2015,10(4):12-25.[5]㊀GAMA J,ŽLIOBAITE ㊃I,BIFET A,et al.A survey on concept drift adaptation[J].ACM computing surveys,2014,46(4):1-37.[6]㊀ALIPPI C,BORACCHI G,ROVERI M.Just in time classifiers:managing the slow drift case[C]ʊInternational Joint Confer-ence on Neural Networks.Atlanta,2009:114-120.[7]㊀KRAWCZYK B,MINKU L L,GAMA J,et al.Ensemble learning for data stream analysis:a survey[J].Information fusion,2017,37:132-156.[8]㊀GOMES H M,BARDDAL J P,ENEMBRECK F,et al.A survey on ensemble learning for data stream classification[J].ACM7282郑州大学学报(理学版)第53卷computing surveys,2017,50(2):1-36.[9]㊀SUN Y G,WANG Z,LI H,et al.A novel ensemble classification for data streams with class imbalance and concept drift[J].International journal of performability engineering,2017,13(6):945-955.[10]REN S Q,LIAO B,ZHU W,et al.Knowledge-maximized ensemble algorithm for different types of concept drift[J].Informa-tion sciences,2018,430:261-281.[11]LI Y,XU L,WANG Y G,et al.A new diversity measure for classifier fusion[J].Communications in computer and informa-tionence,2012,346:396-403.[12]MINKU L L,YAO X.DDD:a new ensemble approach for dealing with concept drift[J].IEEE transactions on knowledge anddata engineering,2012,24(4):619-633.[13]BRZEZINSKI D,STEFANOWSKI J.Reacting to different types of concept drift:the accuracy updated ensemble algorithm[J].IEEE transactions on neural networks and learning systems,2014,25(1):81-94.[14]DHALIWAL P,KUMAR A,CHAUDHARY P.An approach for concept drifting streams:early dynamic weighted majority[J].Procedia computer science,2020,167:2653-2661.[15]YAO Y Y.Three-way decisions and cognitive computing[J].Cognitive computation,2016,8(4):543-554.[16]BRZEZINSKI D,STEFANOWSKI bining block-based and online methods in learning ensembles from concept driftingdata streams[J].Information sciences,2014,265(5):50-67.[17]BIFET A,HOLMES G,KIRKBY R,et al.MOA:massive online analysis[J].Journal of machine learning research,2010,11(2):1601-1604.[18]LU J,LIU A J,DONG F,et al.Learning under concept drift:a review[J].IEEE transactions on knowledge and data engi-neering,2019,31(12):2346-2363.Three-way Decision Optimization Method for Concept DriftEnsemble ClassificationXU Jianfeng1,2,3,XIN Peng1,XUE Guoze2,YANG Yingfang2(1.School of Information Engineering,Nanchang University,Nanchang330031,China;2.School of Software,Nanchang University,Nanchang330047,China;3.School of Electronics and Information Engineering,Tongji University,Shanghai201804,China) Abstract:The three-way filtering method of the basic classifier for concept drift ensemble classification was proposed.The uncertainty of the base classifier was firstly calculated based on the information entro-py theory.And its accuracy was fused as a quality measure of the base classifier.Then the base classifier was three-way filtered by presetting the thresholdsα,β.The three-way filtering strategy was:base classi-fiers with quality weight less than or equal to thresholdβwere removed;base classifiers with quality weight greater than or equal to thresholdαwere retained;and base classifiers with quality weight greater thanβless thanαwould be delayed for further decisions.A corresponding number of base classifiers were added,the quality weight of the base classifiers was recalculated,and the three-way filtering was applied again until no base classifiers were removed or the specified number of iterations was reached. Compared with several classical algorithms on real datasets and synthetic datasets,the results showed that the proposed algorithm could effectively improve the classification performance.Key words:three-way decision;ensemble classification;concept drift;uncertainty evaluation;informa-tion entropy(责任编辑:孔㊀薇㊀王浩毅)。

基于多分类器的数据流中的概念漂移挖掘(精)

基于多分类器的数据流中的概念漂移挖掘(精)

1
Abstract Mining concept drifts from data streams is one of the most important fields in data mining. In this paper, a new mine algorithm called M ID4 is proposed, which aims at quickly detecting drifted concepts from a large volume of data stream by using a small training data set. M ID4 uses ensemble multiclassifiers to mine concept changes from the data streams, and its every classifier in the ensemble is an improved ID4 algorithm with an incremental way. The experimental results show that M ID4 algorithm is of higher accuracy and better adaptability to quick drifted concepts than the popular algorithms. Key words Data mining, data stream, concept drift
µ≤ log log(1 −
Wt2 Wt1 1−β n
ωm+1 = 1; m = m + 1; END FOR each Ei ∈ E BEGIN cj = Ei 对 x 的分类结果; IF (cj = y ) wi ← β × ωi ; //假如决策不正确就衰减 σcj = σcj + ωi ; //σcj 在主程序中初始化为零
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
情况 。
关键词 :概念漂移 ;数据流 :予空间:分类 ;集成
Cl s i c to g rt m o nc p ・ itngDa a S r a s d o bs a eI e r to a sf a i n Al o ih f rCo e tDr fi t t e m Ba e n Su p c nt g a i n i
计 算 机 系 统 应 用
ht:w . Sa r. t / wwc -. gc p/ - o n
21 0 1年 第 2 卷 第 1 0 2期
基于子空间集成的概念漂移数据流分类算
李 南 ,郭躬德
f 建师范大学 数学与计算机科学学院,福 州 3 0 0 ) 福 50 7
摘 要 :具有概念漂 移的复杂结构数据流分类 问题 已成为数据挖 掘领域研 究的热点之 一。提 出了一种新颖 的子 空 间分类算法 ,并采 用层次结构将其构成集成分类器用于解 决带概念漂 移的数据流 的分类 问题 。在将数据 流划 分为数据块后 ,在每个数据块上利用子空间分类算法建立 若干个 底层分类器,然后 由这几个底层分类 器组成集 成分类模型 的基分类器 。同时 ,引入数理 统计 中的参数估计方法检测概念漂移,动态调整模型 。实验 结果表 明: 该子 空间集成算法不但能够提高分类模型对 复杂类 别结构数据流 的分类精度 ,而且还能够快速适应概念漂移的
r s lss o t tt e p o os d m eh d do sn to l i nfc n l m p o e t e ca sfc t n p ro ma c n d ts t e ut h w ha h r p e t o e o ny sg i a ty i r v ls i a i ef r n e o a es i h i o a
wi o lx c t g r tu tr s b t lo q ikl d p st h i ai n o o c p rf. t c mp e ae o sr cu e , u s uc y a a t ot est to f n e t i h y a u c d t Ke r : o c p rf; aasr a s b p c ; ls i c to ;itg a in ywo ds c n e t i d t te m; u s a e c a sf a in n e r t d t i o
Ab t a t Thec a sfc to fc n e td i ig d t te mswihc mplx c tg r tucu e a e e tybe o so e sr c: ls i ai no o c p - rf n aasr a t o i t e ae o y sr tr sh sr c n l c me n o e mo tp p lrt p c n d a mi i g ft s o u a o is i a n n .Th sp p rp o o e ov ls b p c lsi c t n meh d, n s s i t h t i a e r p s s an e u s a e ca sf a i Байду номын сангаасo a d u e t o i o f r a n e l ls i e n ahir r h c ls u t r rc n e td i i g d t te msca sfc to . te i d n o m n e s mb ec a sf ri e a c ia t cu e f o c p - rf n a sr a ls i ai n Af rdvii g a i r o t a i gv n d t te m no s v r l a o ks i u e u s c l s iia in me o o tan s meb to c a sfe so ie a s a it e e a t blc ,t s st s b pa eca sfc o t dt i o o t m ls i r n a r da he t h r i e c aabl k a d t e s ste eb t m lsi e st r a eca sfe . eba eca sfr eu e ob idt e a h d t oc , n h n u e s o t ca sf r o f m ab s l siir Th s ls ie sa s d t u l h h o i o r e s mbl ls i e .M e n ie ti to u e h a a t re tmai t o o d tc o c p rf.Ex e i n a ne e ca sf r i a wh l,i n r d c s te p r mee si t on meh d t ee tc n e td i t p rme t l
LINa , n GU O n - Go g De
(c o l f te t s n o p t cec, ui r l i ri, uh u3 0 0 , hn ) Sh o Ma mai dC m ue Sine Fj n o h ca r a NomaUnv sy F z o 50 7C ia e t
随着 社会 的发展,在网络安全、 电子商务等众多
应用领域 每天都产生大量的数据流 ,这些数据流蕴含
取得较好的效果。Sr t 4 t e 等【 e 】 提出一个可用于数据流的概
相关文档
最新文档