基于数据挖掘的聚类分析算法研究

IT大视野

数码世界 P.44

基于数据挖掘的聚类分析算法研究

刘卫华 广东司法警官职业学院 史婷婷 仲恺农业工程学院 信息科学与技术学院

摘要:本文在数据挖掘和研究的基础上,对数据挖掘的聚类分析算法进行研究,并且对比较完善的聚类分析算法进行介绍,同时还对比较有发展前景的数据挖掘的聚类算法进行阐述。

关键词:数据挖掘 相关研究 聚类分析算法

前言

在互联网科技飞速发展的背景下,尤其是大数据技术的不断发展和数据量的快速增加,其技术的使用率和使用效果以及数据挖掘能力都显著提升。只有在大量的数据中得到有利信息,找出发展的趋势,研究数据海洋中存在的规则和规律,才能找到存在数据内的知识和特点。因此,数据挖掘(Data Mining,DM)新技术诞生。

一、主要聚类分析算法介绍

(一)分层聚类方法

分层聚类算法是利用完善系统图形的方式实施分类的,在不同的叶结点中都有相符的样本,不同的树结点也会对应不同的分类,聚类算法依据使用者的需求在不同环节进行分析。在分层聚类算法中包含了凝聚算法与分裂算法。凝聚算法和分裂算法的区别就在于一个是自底向上,而另一个是自顶向下。凝聚算法是把样本视为一个整体,之后依据有关条件把附样本进行融合变成全新的一类,按照这种规律进行,一直循环到全部样本融合变成一个整体类为止;若是想使用分裂算法就有很大不同,首要进行的是把全部样本视为一个整体类,之后在其中选取距离比较远的样本实施分裂,一直开展到全部中只有一个样本的时候为止。(二)分割聚类算法

在聚类算法中,分割聚类算法(PartitionalClustering,PC)是当前使用最为广泛的一种算法,在一般情况下使用数据样本进行板块的划分,之后在针对不同的评价指标对板块数据实施掌控,对于不符合板块中的数据分类到其他板块中,使用不间断聚类方法完成过程。比较常见的方法有K-Medoids以及K-Means等。其中K-Means是利用随机和数据收集的方式进行板块分割的,分割完成后的板块是K块,根据类中不同的权均值,来分别表示此类特点,并且计算其中的距离,把集中的数据分别调至附近的类中,针对M实施重新计算,计算完后和之前计算结果进行对比,最终完成聚类过程。K-Medoids在整个算法中属于类的代表项,在样本选取之后,把样本附近的子集融合变成一个类,目标函数指的是样本附近的距离有着相似性。

(三)大规模聚类方案

BIRCH是利用分支因子调控来设置B与门槛值T,在根点出发不断对数据和节点进行分析,依据符合门槛值数据的状况来完成吸收与构造修正,得出CF数值而且通过有关聚类算法对有关数据进行聚类分析。这种算法只具备一次的扫描数据,在时间算法方面有着比较复杂的性质,所以在数据量比较的情况下得到了比较广泛的应用。CURE算法基本使用的都是数据抽样的方式,对相关数据进行样本分析,把不同的类和附近距离较短的类型联合起来,建立一个较大的heap。如果类的数值在大于k的情况下,要使用较小的类进行融合使用,一直到满足需求条件为止。CURE算法使用的基本上都是抽样技术,所以时间的难度是O(K2),其中K是抽样中的样本数量。

(四)模糊聚类

模糊聚类是使用点和类的数值来完成衡量的,点在类中属于一种程度的表达,该表达对于类界限不清楚具有非常良好的应用效果。在这种算法中,比较常见的类型有PCM和FCM(Fuzzy c-means) 等。其中PCM算法是对每个数据点进行计算与比较,只要是数值在满足条件的基础上,还要在产生隶属度的过程中符合基本公式,在这种基础上就没有归一化的约束条件了。利用这种方式形成了每个类之间有了相互独立的特点。FCM算法是利用迭代计算聚类来完成目标函数不断变化的,在新函数和函数之间出现了不一样的情况时,当新的目标函数与上一次目标函数值之差小于或迭代次数大于T,若是没有发生上述情况就要对矩阵运算进行修正。

(五)基于栅格的聚类

在栅格聚类算法的基础上对拓扑构造进行继承,把点的处理变成空间方面的处理,利用空间划分来实现聚类的效果,其中最大的优势就在于数据排序方面和敏感程度,能对属性不同的数据进行处理和挖掘。STING算法主要针对的是区域查询,利用数据构造和信息存放,将每个节点划分到分层数中。对STING算法不断完善与改进,得到STING+算法,两者在分层构造上有着很多相似之处,主要应该在动态变化和数据挖掘方面。在信号处理部分使用Wave Cluste算法比较便捷,其对数据和数字的结构识别方面有着较强的分辨率,突出的优势有:(1)可以对高维空间数据进行处理;(2)具有较强的抗干扰性;(3)聚类效果非常好。栅格的分层构造可以通过Fractal Clustering算法,此计算方法的优势在于:(1)可以找出不规则的类;(2)使用的处理方式符合在线处理要求。

二、新发展的聚类算法

在当今时代中,机器学习和人工智能等技术都不断涌现,因此,聚类算法变成了数据挖掘方面的热门算法。要想不断提升数据处理的范围和能力,部分研究人员对聚类开展了更加深入的分析,从而产生了很多新的聚类计算方式。其中使用较为广泛的有:聚类集成算法、核聚类算法、不确定聚类算法、基于熵的聚类算法、包括模糊聚类、粗糙聚类、谱聚类算法、球壳聚类算法、基于粒度的聚类算法以及量子聚类算法等。为了得到大量的聚类数据,马文萍等人在这种背景下,把差分免疫克隆聚类中的硬聚类变成模糊聚类。为了实现非规则程序的不断划分,李远成等人研究出一种模糊聚类形式的划分方法。由于在时间方面有着很多限制,为了使其在时间算法方面具有简单性质,刘解放等针对此问题,在贝叶斯模糊聚类中引入加权机制,提出了加权贝叶斯模糊聚类算法,提升了此方法的有效性。

三、结论

聚类算法在完善与创新过程中,不断融合机器学习、数据挖掘、程序识别等方面的知识。在未来的发展中,智能聚类会与支持向量机、模糊逻辑以及神经网络等先进技术融合的更加紧密,把聚类分析和群智能两者实施更好融合将是未来研究的重点。

参考文献

[1]张超群,孟海东.数据挖掘中聚类分析算法及应用研究[J].山东工业技术, 2017(11):159-159.

[2]胡宗海,曹立勇,姚程宽.数据挖掘聚类分析方法研究[J].科技广场, 2017(3):6-9.

[3]杨佳润.数据挖掘之聚类分析算法综述[J].通讯世界, 2017(16):291-291.

[4]丁宇.基于数据挖掘的城市交通事故驾驶员特征研究[D].沈阳大学, 2018.

[5]冯晨.基于数据挖掘的景区个性化推荐技术研究[D].山东理工大学, 2018.

[6]陈婉,朱世杰.基于数据挖掘的社交网络信息推荐与预测方法研究[J]. 内蒙古师范大学学报(自然科学汉文版), 2018(2).

[7]甘璐.基于数据挖掘技术的档案馆信息快速分析算法研究[J].现代电子技术(07):32-34.

[8]朱东升,李天阳,徐石明.基于数据挖掘技术的电能表故障分析研究[J].自动化与仪表, 2018, v.33;No.242(05):19-23.

[9]姜艳梅.基于数据挖掘的超市商品销量预测[D].青岛大学, 2018.

[10]何涛,李华忠,覃国蓉, et al.基于数据挖掘的船舶航迹点生成算法[J].舰船科学技术, 2018(12).

[11]倪东.基于数据挖掘的关联规则研究[J].太原学院学报(自然科学版), 2018, 36(03):41-44.

课题号

教育部科技发展中心产学研创新基金-新一代信息技术创新项目“大数据技术在高校实验室管理中的应用研究”(2018A02027)。

作者简介

第一作者刘卫华,1978年9月,男,籍贯:河南省汝南,学位:硕士,职称:讲师,研究方向:计算机网络、大数据、数据挖掘等,单位:广东司法警官职业学院,广东,广州,510520。通讯作者:史婷婷(1982.3),女,安徽省芜湖市,硕士研究生,讲师,研究方向:智能图像处理、机器学习、大数据分析与挖掘,单位:仲恺农业工程学院 信息科学与技术学院,广东,广州,510225。

相关文档
最新文档