经典聚类算法研究综述

QU

经典聚类算法研究综述

邓林培

摘要文章通过介绍4种经典的聚类算法以加强人们对聚类算法泊了解,同时对每一种算法的适用情况和优势劣势进行阐述.聚焦于聚类算法发展所呈现的趋势和应用情景中涉及的领域,感知聚类算法在机器学习甚至人工智能领域

妁强大生命力。

关键词人工智能;机器学习;聚类;K-means

中图分类号TP2文献标识码A文章编号1674-6708(2019)230-0108-03

从1956年的达特茅斯会议到如今,不过短短60多年的时间,人工智能发展之迅速令人惊叹。人工智能领域十分广泛,神经网络、自然语言处理、遗传算法、深度学习,甚至哲学问题和未来趋势等都是这一大学科中的一部分。对机器来说,所谓智能,实质是由人对它输入算法和数据,机器本身运用算法从数据中进行学习,并由此处理新的实际问题。不光算法,像自然语言处理,哲学问题都可以与机器学习结合。

机器学习中有许多算法。其中聚类算法是一个大的分支。针对不同数据类型,聚类算法中有各种不用运行理念、不同基准的算法可将不同类型的样本数据收聚到较好的结果。聚类算法中经典的算法如K-means算法、均值漂移算法、DBSCAN算法和层次聚类算法在当下仍经久不衰。同时,聚类算法在信息技术和人工智能浪潮的推涌之下,呈现出融合的新态势。

1经典聚类算法研究

1.1K—means

K-means算法是一种应用极为广泛的聚类算法它的核心思想是用户指定k个初始的质心(随机数)作为聚类的类别,并重复迭代直至算法收敛。

首先,计算所有数据点到这k个初始质心的距离,并以这个计算出的距离作为下一步分类标准,也就是说,各数据点到哪个质心距离最近,便决定它在此次类别的分取中属于哪一类别。那么,初始定义的k个质心就会在迭代中将所有数据分为k个类别也就是k个簇。待对每个样本点进行了距离计算并类别归属之后,再重新计算k个簇中每一个簇对应的质心,即更新质心。每个簇数据明朗,质心实际可求,于是,对所得的每一个簇的所有数据点求新质心,再以此质心替换随机数质心做为新的距离计算标准,重复距离近便成一簇的过程。之后继续重复质心更新和数据分簇过程,直至质心更新时,每簇的质心不再变化或仅有微小变化时,算法停止。最后所得的k个最终质心及它们所在簇包含的样本点,即所期望的聚类结果。

K-means算法中k值也就是聚类的类别数是需要用户自己定义的,当遇到一个复杂的数据结构,可能需要多次尝试才能选取到一个较好的k值,使这个样本数据聚成如此多个类才是最优的。

我们可以发现,因在最初的算法迭代中选取的初始质心为随机定义而来,会致使聚类效果不好,迭代次数增多,可能仅得到局部最优结果。局部最优是K-means算法乃至机器学习算法存在的普遍问题。同时,K-means算法仅适用于数据聚类,并且在噪音数据出现时,由于其算法的原理,以距离平方和为准则,会使一些不合理的极端数据影响聚类结果。

针对它的这些缺陷,K-means算法衍生出的变种k-modes算法和K-prototype算法在一定程度上弥补了K-means算法的不足。

K-modes算法适用于离散型非数值型的集合,如时间、文本、颜色、大小等。它是以属性来度量两样本的相关性D。比较两样本所有属性,若属性不同就给D加1,相同就加0。也就是说,D值越大,两样本就越不相关。这不相关程度越大就相当于k-means中的距离越远。接着以每一簇中出现频率最大的属性值来代表那一簇的属性,不断更新簇,更新代表属性,重复迭代。

K-prototype算法是对K-means算法和K-modes 算法的结合,它适用于样本记录里面既有离散型数据又有数值型数据的集合。它结合K-means得到数值属性和结合K-modes得到分类属性,最终通过权重来得出样本混合属性。其更新也是两者结合,并

作者简介:邓林培,邵阳市武冈市第二中学.《科技传播》迹国108

相关文档
最新文档