一种挖掘概念漂移数据流的选择性集成算法
基于可信多数投票的快速概念漂移检测

龙源期刊网 基于可信多数投票的快速概念漂移检测作者:文益民,王耀南,张莹来源:《湖南大学学报·自然科学版》2010年第06期摘要: 数据流因具有数据持续到达,概念漂移产生时刻无法预测、概念的数量不确定等特征,使得滑动窗口的大小很难事先确定,滑动窗口包含概念的数量对概念漂移检测存在影响。
本文提出了基于可信多数投票的快速概念漂移检测算法(CMV_SEA),该算法使用SEA算法中的基分类器淘汰方法,使用可信多数投票实现滑动窗口中基分类器的集成。
仿真实验表明:相比于SEA 算法,CMV_SEA算法提高了泛化能力;能在新概念产生的第一时间内检测到概念漂移;对概念漂移的检测能力和新概念的学习能力不受滑动窗口大小的影响。
关键字:学习系统;数据流;概念漂移Fast Detecting Concept Drifts Based on Confident Majority VotingYi-Min Wen1,2†, Yao-Nan Wang1, Ying-Zhang3(1.College of Electrical and Information Engineering, Hunan Univ, Changsha, Hunan 410082, China2.Hunan Industry Polytechnic, Changsha, Hunan 410208, China3.College of Information Engineering, Xiangtan Univ, Xiangtan, Hunan 411105, China)Abstract: Data stream has the characteristics of data comes continuously, the time of concept drift and the number of concept in it cannot be predicted exactly, so the size of window is difficultly to be set exactly and the number of concept in one window will affect the detecting of concept drift. The paper proposed an algorithm to fast detect concept drifts in data streams by taking a confident majority voting strategy(CMV-SEA), the algorithm replaces base classifiers in a window like SEA does and uses majority voting strategy to ensemble all base classifiers in the window. The experimental results illustrated that CMV_SEA can promote predictive accuracy, detect concept drifts as soon as a new concept comes, and its ability to detect and learn a new concept don’t be influenced by the size of window.Key words: learning systems; data stream; concept drift在社会实践中,有一类问题是数据所包含的概念随时间而变化,也就是概念产生漂移。
基于知识整合的数据流分类算法(小)

基于知识整合的数据流分类算法邢长征,李文龙(辽宁工程技术大学电子与信息工程学院,辽宁省葫芦岛市 125105)摘 要:数据流中概念漂移的产生不仅仅会引起分类结果的变化而且会引起分类器模型的变化。
本文针对这一问题提出了一种基于决策树知识整合的处理方法KIDDT (Knowledge Integration Dynamic Decision Tree )。
该方法考虑在数据流中截取适当的数据块儿来构造部分决策树知识模式,然后对这些部分知识模式进行知识整合,整合过程中调整分类模型以适应数据流中存在的概念漂移。
最终的分类模型不仅具有统一的知识结构并且具有较高的分类精度。
关键词:数据流分类;知识整合;概念漂移;决策树The Research on Data Stream Classification AlgorithmBased on Knowledge IntegrationXing ChangZheng,Li WenLong(Department of Electronics and Information Engineering of Liaoning technicaluniversity ,Liaoning Huludao 125105)【Abstract 】Not only the result of classification will be changed for the generated concept drift , butalso the model of knowledge in data stream. In this paper, an algorithm(Knowledge Integration Dynamic Decision Tree, KIDDT) based decision tree knowledge Integration is proposed to deal with the problem. The data block will be captured properly to construct the Incomplete model of decision tree, and then integrated these parts of the sub-knowledge model. The classification model will be adjusted for the concept drift. The final classification model not only has a unified structure of knowledge,but also much higher accuracy.【Key words 】Data Stream Classification ;Knowledge Integration ;Concept Drift ;Decision Tree1 数据流中的概念漂移数据流中目标概念的稳定变化称为概念漂移。
基于频度的概念漂移检测算法

摘
娟, 武 以敏
要: 数据 流中概念 漂移 的存在 , 影响 了数据流的分类性能。文章 主要研 究基 于频度 的概 念漂移的检测算 法 F C D, 以便
利用基于频度的概念漂移 中概念重复 出现的特性 , 提 高分类 的性 能。 关键词 : 分 类算法; 概念漂移 ; 频度检测
1 基 于频度 的概 念漂移 1 . 1 数据 流 中概念 的频度
测, 并用已有分类模 型对新训练的分类 模型进行
进行 检测判 断是 否是 已有 概念 的重 现 。当检 测 到
概念漂移则根据 概念转移矩 阵迅速 产生分 类模
型, 这对 于基 于频度 的概 念 漂移 来 说 , 分 类 的 时间 性 能和分 类精 度得 到 了提高 。
频度 , 频度 小于 一定 阈值 的概 念可 视 为低 频 概 念 , 反之则 为 高 频 概 念 。对 于天 气 情 况 : “ 阴天 ” 、 “ 晴
个模型要省时。而基于频度 的概念漂移的特点
是 部分 已有 概 念 的 重 现 , 可 利 用 此 特 点 对 概 念 漂 移 进行 检测 , 再 利 用 概 念 变 换 的规 律 来 提 高 分 类 的时 间性 能 和分 类 的 精 度 。Re P r o算 法 , 在 分 类
天” 可 当作高频概念 ; “ 六月雪” 、 “ 太 阳雨” 等则可
当作 是低 频概念 。
1 . 2 适 用 于隐含概 念 漂移 的数据 流分 类算 法
的过程 中采用滑动窗 口来检测触发器 , 每 遇到概
念 漂移 , 都要 检 验训 练 的概 念 是 否是 已有 概 念 的
重现 。该算法对于基于频度 的概念漂移来说 , 较 为适用。这样可 以充分训练概念转移矩 阵, 更好 的发现概念漂 移的规律 , 用以预测将要出现 的概
基于概念漂移检测算法的数据流分类模型

Ab s t r a c t :To o v e r c o me t h e e f f e c t o f t h e d a t a s t r e a m c o n c e p t d r i f t p h e n o me n o n f o r d a t a s t r e a m c l a s s i f i c a t i o n ,i mp r o v e t h e a c c u r a — c y o f c l a s s i f i c a t i o n,a c o n c e p t d r i f t d e t e c t i o n me t h o d b a s e d d a t a s t r e a m c l a s s i f i c a t i o n mo d e l i s p r e s e n t e d .Fi r s t l y ,t h e r e l a t e d i n — f o r ma t i o n o f c o n c e p t d r i f t i s i n t r o d u c e d .F o r d i f f e r e n t c o n c e p t d r i f t t y p e s ,t h e r e a r e d i f f e r e n t k i n d s o f c o n c e p t d r i f t d e t e c t i o n
中图法分类号 :T P 1 8 1 文献标识号 :A 文章编号 :1 0 0 0 — 7 0 2 4( 2 0 1 3 )0 9 — 3 1 4 1 — 0 5
・
Co n c e p t d r i f t d e t e c t i o n me t h o d b a s e d d a t a s t r e a m c l a s s i f i c a t i月
基于余弦相似度的概念漂移数据流分类方法研究

基于余弦相似度的概念漂移数据流分类方法研究Research on the classification of data stream with concept driftbased on cosine similarityAbstractWith the demand of data mining technology deepening,such as real-time monitoring, network intrusion detection,spam processing,intelligent information pushing,data mining technology was gradually developed from the initial analysis of static and finite data to today's analysis of dynamic and infinite data.The data stream classification has become a research hotspot in data mining.The data stream is the dynamic data arriving in real time in the form of stream,which has the characteristics of large amount of data,fast arrival,and continuous real time arrival. As the concept drift occurs in the data stream,the performance of the classifier is degraded. Therefore,the concept drift detection of the data stream is carried out,and an effective detection concept drift method is proposed in this thesis,based on the analysis of the characteristics of the data stream.Then the data after the detection is classified,and a data stream selection ensemble classification method is proposed to improve the classification performance of data stream.The specific contents of this thesis are as follows:(1)A concept drift detection algorithm based on cosine similarity is proposed for the problem of concept drift in data stream.The proposed algorithm first uses the sliding window principle to treat the data stream as continuous data blocks with the same size,and the centroids of data blocks in the various types are calculated.And then the cosine similarity of the adjacent two kinds of centroids is calculated.The larger the cosine similarity is,the smaller the angle of the centroids of the two data blocks is,the smaller the possibility of the drift of the adjacent two data blocks is.On the other hand,the larger the angle between the adjacent two blocks is,the greater the likelihood that the adjacent two data blocks will drift. Finally,the minimum confidence interval of the cosine similarity is obtained according to the method of parameter estimation.If the subsequent data block is not within the confidence interval,the cosine similarity of the previous data block is considered to be concept drift in the current block.Experiments show that the concept drift detection algorithm based on cosine similarity can effectively detect the concept drift on the data stream,thus improving the accuracy of data stream classification.(2)A classification algorithm based on differential evolution is proposed to solve the classification problem of data stream.First,the data stream is divided into consecutive data blocks of equal size,and the current data block is used to train a number of base classifiers. Then the differential evolution method is used to assign different weights to each baseII辽宁师范大学硕士学位论文classifier.The higher the weight of the base classifier is,the better the performance is in the classification.Finally,the several base classifiers with the highest weights are selected to perform weighted voting integration,and the ensemble classification model is used to classify the data blocks.The experimental results that the selective ensemble classification method based on differential evolution has the advantages of stability,strong generalization and high classification accuracy.Key words:Data stream;Concept drift;Cosine similarity;Differential evolution;Ensemble classificationIII基于余弦相似度的概念漂移数据流分类方法研究目录摘要 (I)Abstract (II)1绪论 (1)1.1研究目的及意义 (1)1.2国内外研究现状 (1)1.2.1国外研究现状 (2)1.2.2国内研究现状 (3)1.3本文的研究工作 (4)1.4文本结构框架 (4)2相关工作 (6)2.1极限学习机 (6)2.1.1ELM基础 (6)2.1.2ELM的模型建立及求解 (7)2.2差分进化算法 (9)2.2.1DE的研究现状 (9)2.2.2DE的过程描述 (9)2.3余弦相似度 (10)3基于余弦相似度的概念漂移数据流分类算法 (11)3.1引言 (11)3.2算法设计与描述 (12)3.2.1参数单侧置信区间估计 (12)3.2.2余弦相似度检测概念漂移 (13)3.2.3算法描述 (14)3.3实验分析与讨论 (16)3.3.1实验数据 (16)3.3.2相关概念漂移检测算法介绍 (17)3.3.3概念漂移检测分析 (17)3.3.4概念漂移数据流分类性能比较 (20)3.4小结 (24)4基于差分进化的极限学习机选择集成分类 (26)4.1引言 (26)IV4.2算法设计与描述 (26)4.3实验分析与讨论 (27)4.3.1静态数据实验 (27)4.3.2动态数据实验 (31)4.4小结 (34)5结论与展望 (35)参考文献 (36)攻读硕士学位期间发表学术论文情况 (40)致谢 (41)V1绪论1.1研究目的及意义随着互联网时代的到来,访问网络时所产生的数据爆炸式增长,数据挖掘要做的工作就是将有价值的、有意义的潜在信息从杂乱无章的海量数据中萃取出来,从而进一步进行市场趋势预测、人脸识别、疾病诊断、事件关联度分析等相关工作。
一种自适应局部概念漂移的数据流分类算法

一种自适应局部概念漂移的数据流分类算法
尹志武;黄上腾
【期刊名称】《计算机科学》
【年(卷),期】2008(035)002
【摘要】本文基于DB2算法提出一个能实时检测局部概念漂移,并随之自适应调整的数据流分类算法IncreDB2.该算法动态增量维护一个层次分类树.当局部概念漂移出现时,IncreDB2不是重新构造一个全新的分类树,而是仅更新漂移所影响到的局部结点,具有较高的时间效率.实验结果表明了该算法的正确性和有效性.【总页数】3页(P138-139,143)
【作者】尹志武;黄上腾
【作者单位】上海交通大学计算机科学与工程系,上海,200240;上海交通大学计算机科学与工程系,上海,200240
【正文语种】中文
【中图分类】TP3
【相关文献】
1.一种基于数据不确定性的概念漂移数据流分类算法 [J], 吕艳霞;王翠容;王聪;苑迎
2.隐含概念漂移的不确定数据流集成分类算法 [J], 张盼盼;尹绍宏
3.概念漂移不平衡数据流随机平衡采样分类算法 [J], 袁磊;季梦遥
4.概念漂移数据流集成分类算法综述 [J], 杜诗语; 韩萌; 申明尧; 张春砚; 孙蕊
5.基于McDiarmid界的概念漂移数据流分类算法 [J], 梁斌;李光辉
因版权原因,仅展示原文概要,查看原文内容请购买。
数据挖掘的10大算法
数据挖掘的10大算法数据挖掘的10大算法1.线性回归算法线性回归算法是一种基本的数据挖掘算法,它通过建立一个线性模型来预测因变量和自变量之间的关系。
该算法的目标是找到最佳拟合直线,使得预测误差最小化。
2.逻辑回归算法逻辑回归算法是一种分类算法,主要用于二分类问题。
它通过建立一个逻辑模型来预测一个变量的可能取值。
逻辑回归将线性回归的结果通过一个sigmoid函数映射到0,1之间,从而得到分类的概率。
3.决策树算法决策树算法是一种通过分支结构来对数据进行分类或回归的算法。
它通过一系列的判断条件将数据划分为不同的子集,直到达到预定的终止条件。
决策树算法易于理解和解释,但容易产生过拟合问题。
4.随机森林算法随机森林算法是一种集成学习算法,通过组合多个决策树来进行分类或回归。
它在每棵树的建立过程中随机选择特征子集,并根据投票或平均法来进行最终的预测。
随机森林算法不易过拟合,且具有较好的泛化能力。
5.支持向量机算法支持向量机算法是一种通过在高维空间中找到一个最优超平面来进行分类或回归的算法。
它通过最大化间隔来寻找最优超平面,从而使得不同类别的样本能够被很好地分开。
支持向量机算法适用于线性和非线性分类问题。
6.K近邻算法K近邻算法是一种基于相似度度量的算法,它通过选择与待分类样本最相似的K个样本来进行分类。
该算法不需要明确的模型假设,但对数据规模和特征选择比较敏感。
7.朴素贝叶斯算法朴素贝叶斯算法是一种基于贝叶斯定理和特征条件独立性假设的算法,主要用于分类问题。
它通过计算特征在给定类别下的条件概率来进行分类。
朴素贝叶斯算法简单快速,但对特征之间的相关性比较敏感。
8.主成分分析算法主成分分析算法是一种降维算法,它通过线性变换将原始数据映射到一个更低维的空间。
主成分分析算法能够最大程度地保留原始数据的方差,从而提取出最重要的特征。
9.聚类算法聚类算法是一种无监督学习算法,它通过将相似的样本归为同一类别来进行数据的分组。
基于概念漂移检测算法的数据流分类模型
基于概念漂移检测算法的数据流分类模型
孙娜
【期刊名称】《计算机工程与设计》
【年(卷),期】2013(034)009
【摘要】为了克服数据流概念漂移现象对分类模型的影响,提高数据流分类准确率,提出了一种基于概念漂移检测算法的数据流分类模型.针对不同概念漂移类型使用不同的方法进行检测,该模型通过对概念漂移进行监控,从而有效控制分类模型的更新频率,做到有的放矢地更新分类器模型,提高分类模型的分类性能.通过使用两种不同的数据集进行实验,并与传统分类模型进行比较,验证了该模型的有效性和正确性.【总页数】6页(P3141-3145,3297)
【作者】孙娜
【作者单位】辽宁工业大学电子与信息工程学院,辽宁锦州121001
【正文语种】中文
【中图分类】TP181
【相关文献】
1.一种基于数据不确定性的概念漂移数据流分类算法 [J], 吕艳霞;王翠容;王聪;苑迎
2.基于在线迁移学习的重现概念漂移数据流分类 [J], 益民;唐诗淇;冯超;高凯
3.一种基于混合模型的数据流概念漂移检测算法 [J], 郭躬德;李南;陈黎飞
4.基于概念漂移检测的网络数据流分类 [J], 章恒;鞠时光
5.基于McDiarmid界的概念漂移数据流分类算法 [J], 梁斌;李光辉
因版权原因,仅展示原文概要,查看原文内容请购买。
基于蚁群优化的选择性集成数据流分类方法
长江大学学报(自科版)2017年第14卷第5期Journal of Yangtze University (Nat Sci Edit) 2017,Vol.14 No. 5[引著格式]王军,刘三民,刘涛.基于蚁群优化的选择性集成数据流分类方法[J].长江大学学报(自科版),2017, 14 (5): 37〜43基于蚁群优化的选择性集成数据流分类方法王军,刘三民,刘涛(安黴工程大学计算机与信息学院,安黴芜湖241000)[摘要]基于集成学习的数据流分类问题已成为当前研究热点之一,而集成学习存在集成规模大、训练时间长、时空复杂度高等不足,为此提出了一种基于蚁群优化的选择性集成数据流分类方法,用蚁群优化算法挑选出优秀的基分类器来构建集成分类模型。
该方法首先对所有基分类器采用交叉验证计算分类精度,同时采用G ow er相似系数求出基分类器之间的差异性,然后把分类精度和分类器差异性作为分类器挑选标准,从全部基分类器中选出一部分来构建集成模型,最终挑选的基分类器不仅具有良好的分类精度,同时保持一定差异性。
在标准仿真数据集上对构建的集成分类模型进行仿真试验,结果表明,该方法与传统集成方法相比在准确率和稳定性方面均有显著提高。
[关键词]数据流分类;概念漂移;选择性集成;蚁群优化算法;差异性[中图分类号]T P391 [文献标志码]A[文章编号]1673 1409 (2017) 05 0037 07随着信息化技术的发展和应用需求不断深人,数据流已广泛存在于各行各业,如网络数据、天气预 测数据、无线传感数据、金融和电网数据等[1]。
如何挖掘出这些数据流中有价值的信息,已成为当前研 究的热点问题。
而数据流隐含噪声同时具有时序特性和概念漂移现象,导致传统分类模型难以适应数据 流的分类问题。
目前,国内外关于数据流分类已取得较多研究成果,以集成学习作为数据流分类模型已成为主流。
把集成学习引人到数据流分类中,不仅提高了算法学习精度,增强了学习能力,同时还强化了算法在复 杂环境中的学习效果。
数据分析知识:数据挖掘中的朴素集成算法
数据分析知识:数据挖掘中的朴素集成算法数据挖掘是一种通过使用算法和技术来挖掘隐藏在大数据中潜在信息的过程。
朴素集成算法是机器学习的方法之一,旨在通过将多个模型的预测结果结合起来,以提高预测的准确性和稳定性。
本文将介绍朴素集成算法,包括其概念、应用和优缺点,并介绍一些流行的朴素集成算法。
什么是朴素集成算法?朴素集成算法是一种将多个模型的预测结果组合起来以提高准确性的技术。
这种方法是基于集合智慧和启发式算法的想法,它利用多个独立模型的差异性和互补性来提高准确度和鲁棒性。
朴素集成算法主要分为两类,一类是基于平均值的加权平均法,另一类是基于信息增益的投票法。
加权平均法将多个模型的预测结果进行加权平均,以获得最终结果。
而投票法则是将多个模型的预测结果简单地进行多数表决,以获得最终结果。
这两种方法各有优缺点,选择方法取决于具体的数据和问题需求。
例如,在分类问题中,多个模型可以预测同一样本的类别,并进行多数表决来输出最终结果。
在回归问题中,多个模型预测同一样本的数值,并进行平均值的加权平均,以得到最终结果。
朴素集成算法的应用朴素集成算法在各种领域中都得到了广泛应用,包括数据挖掘、机器学习、人工智能、金融等。
其中,应用最广泛和最成功的是随机森林算法和神经网络模型。
随机森林是一种基于决策树的集成算法,它在决策树上随机选择特征,以便得到更好的分类效果。
随机森林算法在许多应用中表现良好,包括分类、聚类和回归等任务。
神经网络是一种复杂的函数模型,它由多个神经元组成,每个神经元都包含有多个输入和一个输出。
数据通过神经网络进行传递,以获得最终的输出结果。
神经网络在深度学习和图像识别等领域中得到了广泛应用。
优缺点朴素集成算法在机器学习和数据挖掘领域中表现良好。
它有以下几个优点:1.准确度高:由于朴素集成算法结合了多个模型的预测结果,因此可以获得更准确的预测结果。
2.鲁棒性高:朴素集成算法可以通过利用多个模型的互补性来提高鲁棒性,从而减少模型的过拟合和欠拟合。