基于数据挖掘的聚类分析算法研究

IT大视野

数码世界 P.44

基于数据挖掘的聚类分析算法研究

刘卫华广东司法警官职业学院史婷婷仲恺农业工程学院信息科学与技术学院

摘要：本文在数据挖掘和研究的基础上，对数据挖掘的聚类分析算法进行研究，并且对比较完善的聚类分析算法进行介绍，同时还对比较有发展前景的数据挖掘的聚类算法进行阐述。

关键词：数据挖掘相关研究聚类分析算法

前言

在互联网科技飞速发展的背景下，尤其是大数据技术的不断发展和数据量的快速增加，其技术的使用率和使用效果以及数据挖掘能力都显著提升。只有在大量的数据中得到有利信息，找出发展的趋势，研究数据海洋中存在的规则和规律，才能找到存在数据内的知识和特点。因此，数据挖掘(Data Mining,DM)新技术诞生。

一、主要聚类分析算法介绍

（一）分层聚类方法

分层聚类算法是利用完善系统图形的方式实施分类的,在不同的叶结点中都有相符的样本，不同的树结点也会对应不同的分类，聚类算法依据使用者的需求在不同环节进行分析。在分层聚类算法中包含了凝聚算法与分裂算法。凝聚算法和分裂算法的区别就在于一个是自底向上，而另一个是自顶向下。凝聚算法是把样本视为一个整体，之后依据有关条件把附样本进行融合变成全新的一类，按照这种规律进行，一直循环到全部样本融合变成一个整体类为止；若是想使用分裂算法就有很大不同，首要进行的是把全部样本视为一个整体类，之后在其中选取距离比较远的样本实施分裂，一直开展到全部中只有一个样本的时候为止。（二）分割聚类算法

在聚类算法中，分割聚类算法(PartitionalClustering,PC)是当前使用最为广泛的一种算法,在一般情况下使用数据样本进行板块的划分,之后在针对不同的评价指标对板块数据实施掌控,对于不符合板块中的数据分类到其他板块中，使用不间断聚类方法完成过程。比较常见的方法有K-Medoids以及K-Means等。其中K-Means是利用随机和数据收集的方式进行板块分割的，分割完成后的板块是K块，根据类中不同的权均值，来分别表示此类特点，并且计算其中的距离，把集中的数据分别调至附近的类中，针对M实施重新计算，计算完后和之前计算结果进行对比，最终完成聚类过程。K-Medoids在整个算法中属于类的代表项，在样本选取之后，把样本附近的子集融合变成一个类，目标函数指的是样本附近的距离有着相似性。

（三）大规模聚类方案

BIRCH是利用分支因子调控来设置B与门槛值T,在根点出发不断对数据和节点进行分析，依据符合门槛值数据的状况来完成吸收与构造修正，得出CF数值而且通过有关聚类算法对有关数据进行聚类分析。这种算法只具备一次的扫描数据，在时间算法方面有着比较复杂的性质，所以在数据量比较的情况下得到了比较广泛的应用。CURE算法基本使用的都是数据抽样的方式，对相关数据进行样本分析，把不同的类和附近距离较短的类型联合起来，建立一个较大的heap。如果类的数值在大于k的情况下，要使用较小的类进行融合使用，一直到满足需求条件为止。CURE算法使用的基本上都是抽样技术，所以时间的难度是O(K2)，其中K是抽样中的样本数量。

（四）模糊聚类

模糊聚类是使用点和类的数值来完成衡量的，点在类中属于一种程度的表达，该表达对于类界限不清楚具有非常良好的应用效果。在这种算法中，比较常见的类型有PCM和FCM(Fuzzy c-means) 等。其中PCM算法是对每个数据点进行计算与比较，只要是数值在满足条件的基础上,还要在产生隶属度的过程中符合基本公式,在这种基础上就没有归一化的约束条件了。利用这种方式形成了每个类之间有了相互独立的特点。FCM算法是利用迭代计算聚类来完成目标函数不断变化的,在新函数和函数之间出现了不一样的情况时，当新的目标函数与上一次目标函数值之差小于或迭代次数大于T,若是没有发生上述情况就要对矩阵运算进行修正。

（五）基于栅格的聚类

在栅格聚类算法的基础上对拓扑构造进行继承，把点的处理变成空间方面的处理，利用空间划分来实现聚类的效果，其中最大的优势就在于数据排序方面和敏感程度，能对属性不同的数据进行处理和挖掘。STING算法主要针对的是区域查询，利用数据构造和信息存放，将每个节点划分到分层数中。对STING算法不断完善与改进，得到STING+算法，两者在分层构造上有着很多相似之处，主要应该在动态变化和数据挖掘方面。在信号处理部分使用Wave Cluste算法比较便捷，其对数据和数字的结构识别方面有着较强的分辨率，突出的优势有：（1）可以对高维空间数据进行处理；（2）具有较强的抗干扰性；（3）聚类效果非常好。栅格的分层构造可以通过Fractal Clustering算法，此计算方法的优势在于：（1）可以找出不规则的类；（2）使用的处理方式符合在线处理要求。

二、新发展的聚类算法

在当今时代中，机器学习和人工智能等技术都不断涌现，因此，聚类算法变成了数据挖掘方面的热门算法。要想不断提升数据处理的范围和能力，部分研究人员对聚类开展了更加深入的分析，从而产生了很多新的聚类计算方式。其中使用较为广泛的有：聚类集成算法、核聚类算法、不确定聚类算法、基于熵的聚类算法、包括模糊聚类、粗糙聚类、谱聚类算法、球壳聚类算法、基于粒度的聚类算法以及量子聚类算法等。为了得到大量的聚类数据，马文萍等人在这种背景下，把差分免疫克隆聚类中的硬聚类变成模糊聚类。为了实现非规则程序的不断划分，李远成等人研究出一种模糊聚类形式的划分方法。由于在时间方面有着很多限制，为了使其在时间算法方面具有简单性质，刘解放等针对此问题，在贝叶斯模糊聚类中引入加权机制，提出了加权贝叶斯模糊聚类算法，提升了此方法的有效性。

三、结论

聚类算法在完善与创新过程中，不断融合机器学习、数据挖掘、程序识别等方面的知识。在未来的发展中，智能聚类会与支持向量机、模糊逻辑以及神经网络等先进技术融合的更加紧密，把聚类分析和群智能两者实施更好融合将是未来研究的重点。

参考文献

[1]张超群,孟海东.数据挖掘中聚类分析算法及应用研究[J].山东工业技术, 2017(11):159-159.

[2]胡宗海,曹立勇,姚程宽.数据挖掘聚类分析方法研究[J].科技广场, 2017(3):6-9.

[3]杨佳润.数据挖掘之聚类分析算法综述[J].通讯世界, 2017(16):291-291.

[4]丁宇.基于数据挖掘的城市交通事故驾驶员特征研究[D].沈阳大学, 2018.

[5]冯晨.基于数据挖掘的景区个性化推荐技术研究[D].山东理工大学, 2018.

[6]陈婉,朱世杰.基于数据挖掘的社交网络信息推荐与预测方法研究[J]. 内蒙古师范大学学报(自然科学汉文版), 2018(2).

[7]甘璐.基于数据挖掘技术的档案馆信息快速分析算法研究[J].现代电子技术(07):32-34.

[8]朱东升,李天阳,徐石明.基于数据挖掘技术的电能表故障分析研究[J].自动化与仪表, 2018, v.33；No.242(05):19-23.

[9]姜艳梅.基于数据挖掘的超市商品销量预测[D].青岛大学, 2018.

[10]何涛,李华忠,覃国蓉, et al.基于数据挖掘的船舶航迹点生成算法[J].舰船科学技术, 2018(12).

[11]倪东.基于数据挖掘的关联规则研究[J].太原学院学报(自然科学版), 2018, 36(03):41-44.

课题号

教育部科技发展中心产学研创新基金-新一代信息技术创新项目“大数据技术在高校实验室管理中的应用研究”(2018A02027)。

作者简介

第一作者刘卫华，1978年9月，男，籍贯:河南省汝南，学位:硕士，职称:讲师，研究方向:计算机网络、大数据、数据挖掘等，单位：广东司法警官职业学院，广东，广州，510520。通讯作者：史婷婷（1982.3），女，安徽省芜湖市，硕士研究生，讲师，研究方向：智能图像处理、机器学习、大数据分析与挖掘，单位：仲恺农业工程学院信息科学与技术学院，广东，广州，510225。