对基于数据流CluStream聚类算法的改进

一种改进的模糊数据流聚类算法

一种改进的模糊数据流聚类算法廖江陵;管有庆【摘要】提出了一种基于TEDA(典型与偏心数据分析,Typicality and Eccentricity Data Analysis)模型的模糊数据流聚类算法.TEDA模型常用于离群数据样本的检测,以此来获得更好的聚类效果.为能够适应在线模糊数据流聚类、满足实时响应要求,该算法沿用了TEDA算法中离心率与典型性的概念及相关公式,用以判断指定数据样本是否属于特定数据簇或特定数据簇群,以此进行整个簇群的更新.同时对TEDA算法在处理高维度数据流时的不足进行补充.该算法具有完全的自主性,能够自动地创建、更新及合并数据簇,并且无需提前定义参数.不同于传统聚类算法,该算法无需存储已扫描数据样本,内存利用率高,计算成本低,并且利用递归使其更适用于在线实时应用.实验结果表明,该算法可以很好地对实际数据进行聚类分析,相对于传统算法具有一定优势.%A new method of fuzzy data steam clustering,which is based on TEDA,is proposed. TEDA is often used in the detection of outlier data samples for obtainment of better clustering results. In order to adapt to online fuzzy data clustering and meet the requirements of real-time response,the proposed algorithm follows the concept of eccentricity and typicality as well as the related formulas in TEDA, and judges whether a certain data sample belongs to a certain data cluster or several data clusters for updating of the entire cluster. At the same time,it also adds the part when TEDA dealt with the high-dimensional data flow. The proposed algorithm can automatically create, update and merge data clusters with complete autonomy,and not need to define parameters in advance. Different from the traditional clus-teringalgorithm,it does not need to store the scanned data samples,with high memory utilization and low computational cost,and uses re-cursive methods,which make it more suitable for online real-time applications. Experimental results show that the proposed algorithm can carry out clustering analysis of the real data better and has certain advantages over traditional algorithms.【期刊名称】《计算机技术与发展》【年(卷),期】2017(027)011【总页数】5页(P96-100)【关键词】典型与偏心数据分析;离心率;典型性;聚类【作者】廖江陵;管有庆【作者单位】南京邮电大学物联网学院,江苏南京 210003;南京邮电大学物联网学院,江苏南京 210003【正文语种】中文【中图分类】TP301数据流聚类技术[1]已广泛地应用于许多不同的领域，如模式识别[2]、图像处理[3]、数据挖掘[4]等。

基于数据流的BIRCH改进聚类算法

ａｄＡｐｆａｉｎ，０７４（）１６１８ｎｐｃｔｓ２０，３５：６－６．ｉｏ
ＡｂｔａｔＡｓａｅｒｂｅｄｔｔｅｍｎｇｍｅｔｈｓｂｅｏｕｅｎｂｏｆｓｈｌｒ．ｔｌｓｅｎｓａｌｉｏｔｎｓｒｃ：ｎｗｐｏｌｍ，ａａｓｒａｍａａｅｎａｅｎｆｃｓｄｏｙａｌｔｏｃｏａｓＤａａｃｕｔｒｇｉｌｍｐｒｔｉａｉｄｆｉＢｓｄｎＩＨｃｕｔｒｌｏｔｍ，ｈｓａｅｐｐｓｓｎｗａｇｒｈｆｌｏｔａｅｏＢＲＣｅ．ｌｓａｇｒｈｔｉｐｐｒｒｏｅａｅｅｉｏｌｏｔｍＭ－ＩｉＢＲＣＨ．ｃｎｖｒｏｔｅｐｂｅＩａｏｅｃｍｅｈｒｌｍｏｔｏｆ
ｌ引言
当今世界正以一种惊人的速度堆积数据．种现象为数据这挖掘带来了新的机遇和挑战。发现数据中的变化模式及过程．
能够快速地对动态数据进行聚类操作，其准确性较差，别但特是对于非球形聚类效果较差。过对ＢＲＨ算法进行优化，通ＩＣ提
忻凌，志伟，倪黄玲
ＸＩｉｇＮＩＺｉｗｉＨＵＮＬｎ，ｈ— ｅ，ＡＮＧＬｎｇｉ
合肥工业大学管理学院．肥２００合３０９
ＨｅｅｎｖｆＴｃ．Ｈｅｅ３０９，ｈｎｆｉＵｉ．ｏｅｈ，ｆｉ２００ＣｉａＥ— ｉ：ｔｍｉ２２ｍａｌｏｍａｌＨｉｏ２２＠ｇｉｃｍ．

基于动态可调衰减滑动窗口的变速数据流聚类算法

基于动态可调衰减滑动窗口的变速数据流聚类算法
周华平;陈顺生
【期刊名称】《计算机应用与软件》
【年(卷),期】2015(032)011
【摘要】在数据流聚类算法中,滑动窗口技术可以及时淘汰历史元组、只关注近期元组,从而改善数据流的聚类效果.如果同时数据流流速无规律地随时间动态变化,原来单纯的滑动窗口技术在解决这类问题时存在缺陷,所以,在充分考虑了滑动窗口大小和数据流流速之间关系的前提下,提出了基于动态可调衰减滑动窗口的变速数据流聚类算法.该算法对历史元组和近期元组分别赋予一定的权重进行处理,然后依据数据流流速的不同函数改变窗口的大小,从而实现数据流的聚类.提出了该数据流聚类算法的数据结构——变异数据流聚类的数据结构.通过真实数据和模拟数据来构造动态变速数据流从而作为验证算法的原始数据.实验结果表明,与CluStream聚类算法相比,该方法具有较高的聚类质量、较小的内存开销和较少的聚类处理时间.【总页数】7页(P255-260,300)
【作者】周华平;陈顺生
【作者单位】安徽理工大学计算机科学与工程学院安徽淮南232001;安徽理工大学计算机科学与工程学院安徽淮南232001
【正文语种】中文
【中图分类】TP3
【相关文献】
1.基于动态滑动窗口的改进数据流聚类算法 [J], 许颖梅
2.基于衰减滑动窗口数据流聚类算法研究 [J], 朱琳;刘晓东;朱参世
3.一种基于滑动窗口的一趟数据流聚类算法 [J], 程军锋;王治和;刘佳;潘丽娜
4.滑动窗口内动态数据流聚类算法研究 [J], 许颖梅
5.基于滑动窗口的动态数据流聚类算法研究 [J], 许颖梅
因版权原因，仅展示原文概要，查看原文内容请购买。

一种改进的CLTree算法

一种改进的CLTree算法李卓航【摘要】针对聚类算法CLTree精度低、算法效率低的问题,提出了CLTree-R算法,之后将其应用于UCI数据集进行聚类分析.基于Spark平台的特性对数据进行并行处理,加快了算法运行效率.实验结果也表明,使用该算法对官方数据集进行聚类分析时,可以得到较为合理的顾客划分.【期刊名称】《电信科学》【年(卷),期】2016(032)008【总页数】4页(P124-127)【关键词】聚类;Spark;数据挖掘;并行化【作者】李卓航【作者单位】浙江大学信息与电子工程学院,浙江杭州310058【正文语种】中文【中图分类】TP399聚类算法是数据挖掘十大算法之一［1］，聚类定义为将物理或抽象对象的集合分成由类似对象组成的多个类的过程。

聚类需要达成的目标是类间的差别尽量大，而类内的差别尽量小，通常被用于探索性分析。

数据挖掘的精髓在于从海量价值密度低的数据中发现高价值的结论，聚类可以应用于数据分析、图像分割及文件恢复等领域。

本文提出了一种改进的决策树归纳聚类CLTree算法［2］，原算法的基本思想是把聚类问题转化为分类问题，在进行决策树生长时采取信息增益的标准生成树的分支，即Quinlan J R［3］提出的著名ID3算法中的度量标准，而之后的C4.5算法论证了采用信息增益比率这一度量标准比信息增益的效果好［4］，本文使用改进的算法构造完CLTree之后，再利用预剪枝策略实现聚类分析。

最后基于Spark平台实现并行化处理，提高了算法效率，可以解决GB级以上数据的处理问题。

首先，CLTree算法是一种基于网格划分的典型聚类算法，网格划分有由底向上和自顶向下两种，CLTree算法采用了自顶向下的划分方法，其优点在于无需指定划分参数、适用于高维数据、对噪音不敏感，其划分过程如下所示。

步骤1 将数据空间分成m个区域。

步骤2 对每个区域进行划分。

步骤3 如满足划分停止规则转步骤2，否则转步骤4。

一种基于滑动窗口的流数据聚类算法

⼀种基于滑动窗⼝的流数据聚类算法第⼀个以流数据为分析对象的聚类算法是由Sudipto Guha 等提出的STREAM 算法。

这种算法根据分治原理，使⽤⼀个不断迭代的过程实现有限空间对数据流进⾏K-means聚类，但该算法⽆法处理演化的数据流。

Aggarwal 在总结上述⽅法本质缺陷的基础上提出了⼀个数据流聚类框架Clustream[5]，其核⼼思想是将聚类过程分为在线和离线两个阶段。

在线部分的任务是存储数据流的汇总结果，⽣成⼀种称为微聚类的信息存储结构，并按⾦字塔式时间结构将中间结果进⾏保存。

离线部分既是根据⽤户指定的观察时段及聚类数量，快速⽣成聚类结果的过程。

CluStream 不⾜之处在于需要⽤户指定聚类簇数k，要求强⾏输⼊固定的聚类簇数必然影响真实的聚类形态分布。

同时，算法是以K-means 算法为基础，对⾮凸形状聚类效果不好，⽆法发现任意形状的聚类，且当噪声数据增多时，聚类质量急骤下降。

Aggarwal 等后续提出了专门针对⾼维连续属性数据流的HPStream 算法，该算法引⼊了⼦空间聚类，并提出了具有遗忘特性的聚类结构，使⽤⾼维投影技术和衰减结构来处理⾼维数据流，HPStream 算法对⾼维数据流具有很好的健壮性。

但算法中需要⽤户来指定平均聚类维数，⽤户⼀般并不具备这种领域知识，成为该算法的瓶颈。

Cao 等⼈提出了基于密度的两阶段聚类⽅法,即DenStream 算法，该算法仍然沿⽤CluStream 算法中的双层结构，创造性的引⼊了潜在微聚类簇和孤⽴点微聚类簇结构，具备对孤⽴点的分析能⼒，即随着数据流不断进化，算法可以识别在某⼀时间段有可能演变成聚类簇的孤⽴点或“潜在聚类”，从⽽更加准确的捕获真实的聚类形态。

但由于算法中采⽤全局⼀致的绝对密度作为参数，使得聚类结果对参数⼗分敏感，⽽且它不⽀持指定的时间窗⼝内实时数据流的演化分析。

受到⼴泛关注的3 类⽅法是基于⽹格的数据流聚类技术[6-9]、⼦空间聚类技术[7-9]、混合属性数据流聚类[10]，代表了当前数据流聚类研究的主流⽅向。

一种改进的K_means聚类方法

一种改进的K_means聚类方法胡伟【期刊名称】《计算机与现代化》【年(卷),期】2012(000)001【摘要】针对传统K_means聚类方法采用随机选择初始聚类中心而导致的收敛速度慢的问题,本文结合空间中的距离度量提出一种改进的K_means聚类算法.该方法通过给出有效的启发式信息,选择较好的聚类中心,减少聚类达到稳定状态所需要的迭代步骤,加速算法的执行.标准数据集上的实验结果表明,与传统的K_means 聚类方法相比,本文提出的改进的聚类方法收敛速度快,从而在较少的迭代后得到良好的聚类效果.%This paper presents an improved clustering model based on distance measurement, in order to solve the problem of slow convergence rate of traditional K_means clustering method by selecting initial cluster centers randomly. By using effective heuristic information, this method selects better clustering centers and reduces the iteration steps of attaining stable clustering state. Then the speed of algorithm is accelerated. Simulation results on UCI datasets demonstrate that comparing with traditional K_ means clustering means, the improved K_means has fast convergence rate and the better clustering results are obtained by this model after less iterations.【总页数】4页(P22-24,56)【作者】胡伟【作者单位】山西财经大学实验教学中心,山西太原030006【正文语种】中文【中图分类】TP18【相关文献】1.一种改进的K_means算法在旅游客户细分中的应用 [J], 汪永旗2.一种改进型TF-IDF文本聚类方法 [J], 张蕾;姜宇;孙莉3.一种基于改进自编码器的二进制协议聚类方法 [J], 彭博一;张钊;蒋鸿宇4.一种优化的改进k_means算法 [J], 张淑清;黄震坤;冯铭5.一种基于SOM改进的PCM聚类方法 [J], 兰雁宁;郑陈达因版权原因，仅展示原文概要，查看原文内容请购买。

分布式实时流数据聚类算法及其基于Storm的实现

分布式实时流数据聚类算法及其基于Storm的实现马可;李玲娟【期刊名称】《南京邮电大学学报（自然科学版）》【年(卷),期】2016(036)002【摘要】为了提高流数据聚类效率,文中基于经典流聚类算法CluStream的思想和Storm的计算架构,设计了一种分布式实时流聚类算法(distributed real time clustering algorithm for stream data,DRCluStream).该算法运用滑动时间窗口机制实现多粒度的数据存储;将流数据的在线微聚类部分拆分成局部和全局两个部分做分布式计算,第一部分由多个线程并行进行微簇的局部增量更新,第二部分合并微簇的局部增量结果来更新全局微簇.还设计了DRCluStream算法基于Storm的实现方案,通过使用消息中间件Kafka和合理部署Storm的拓扑对DRCluStream 算法进行实现.性能分析及实验结果表明:DRCluStream算法的聚类精度与K-Means相近,且随着local节点(local bolt线程)的增加聚类精度保持稳定,而计算效率呈近线性提升.【总页数】7页(P104-110)【作者】马可;李玲娟【作者单位】南京邮电大学计算机学院,江苏南京210023;南京邮电大学计算机学院,江苏南京210023【正文语种】中文【中图分类】TP391【相关文献】1.分布式实时日志密度数据流聚类算法及其基于Storm的实现 [J], 张辉;王成龙;王伟2.基于Storm的流数据KNN分类算法的研究与实现 [J], 周志阳;冯百明;杨朋霖;温向慧3.基于Storm的分布式实时信号处理系统 [J], 周明阳;闫超;郭良浩;徐鹏;任岁玲4.分布式数据流聚类算法及其基于Storm的实现 [J], 万新贵;李玲娟;马可5.基于Storm的分布式实时数据流密度聚类算法 [J], 牛丽媛;张桂芸因版权原因，仅展示原文概要，查看原文内容请购买。

聚类方面的改进点

聚类方面的改进点
聚类方法的改进
1. k-means方法的优缺点
优点：非常快，O(KNt)；很多时候局部最优也够用了。

缺点：
=局部最优；
=受异常值点和噪声影响大；
=受到初始值设定的影响，结果不稳定；
=当类内分布差异较大时聚类结果不佳。

2. k值的选取
其实选k的方法就是选取不停地k进行尝试之后选择类内离差平方和最小的k。

主要有碎石图法和gap statistic方法，思想类似。

碎石图法找损失函数最小的k；
gap statistic方法找和期望相差最大的k。

G a p ( K ) = E ( l o g D k ) − l o g D k Gap(K)=E(logD_k)-logD_k
Gap(K)=E(logD
k
)−logD
k
核函数法，低维映射到高维，增加线性可分的可能性。

3.初始值的选择方法改进
k-means ++
k-means的初始值是随机选取的，不好；
改进方法是k-means++方法。

k-means++方法中，第一个种子随机选取，之后的每一个种子，都选择与前面的种子距离比较大的那些。

isodata
k-means聚类过程中k不变化，不好；如果能够动态变化就好了。

isodata就是这个思想。

如果某类过大（方差超过阈值），则将其拆分；
如果某两类距离过近（重心距离小于阈值），则将其合并；
如果某类拆分后的子类过小（内部元素个数小于阈值），则不拆。