经典聚类算法研究综述

邓林培

摘要文章通过介绍4种经典的聚类算法以加强人们对聚类算法泊了解，同时对每一种算法的适用情况和优势劣势进行阐述.聚焦于聚类算法发展所呈现的趋势和应用情景中涉及的领域，感知聚类算法在机器学习甚至人工智能领域

妁强大生命力。

关键词人工智能；机器学习；聚类；K-means

中图分类号TP2文献标识码A文章编号1674-6708(2019)230-0108-03

从1956年的达特茅斯会议到如今，不过短短60多年的时间，人工智能发展之迅速令人惊叹。人工智能领域十分广泛，神经网络、自然语言处理、遗传算法、深度学习，甚至哲学问题和未来趋势等都是这一大学科中的一部分。对机器来说，所谓智能，实质是由人对它输入算法和数据，机器本身运用算法从数据中进行学习，并由此处理新的实际问题。不光算法，像自然语言处理，哲学问题都可以与机器学习结合。

机器学习中有许多算法。其中聚类算法是一个大的分支。针对不同数据类型，聚类算法中有各种不用运行理念、不同基准的算法可将不同类型的样本数据收聚到较好的结果。聚类算法中经典的算法如K-means算法、均值漂移算法、DBSCAN算法和层次聚类算法在当下仍经久不衰。同时，聚类算法在信息技术和人工智能浪潮的推涌之下，呈现出融合的新态势。

1经典聚类算法研究

1.1K—means

K-means算法是一种应用极为广泛的聚类算法它的核心思想是用户指定k个初始的质心(随机数)作为聚类的类别，并重复迭代直至算法收敛。

首先，计算所有数据点到这k个初始质心的距离，并以这个计算出的距离作为下一步分类标准，也就是说，各数据点到哪个质心距离最近，便决定它在此次类别的分取中属于哪一类别。那么，初始定义的k个质心就会在迭代中将所有数据分为k个类别也就是k个簇。待对每个样本点进行了距离计算并类别归属之后，再重新计算k个簇中每一个簇对应的质心，即更新质心。每个簇数据明朗，质心实际可求，于是，对所得的每一个簇的所有数据点求新质心，再以此质心替换随机数质心做为新的距离计算标准，重复距离近便成一簇的过程。之后继续重复质心更新和数据分簇过程，直至质心更新时，每簇的质心不再变化或仅有微小变化时，算法停止。最后所得的k个最终质心及它们所在簇包含的样本点，即所期望的聚类结果。

K-means算法中k值也就是聚类的类别数是需要用户自己定义的，当遇到一个复杂的数据结构，可能需要多次尝试才能选取到一个较好的k值，使这个样本数据聚成如此多个类才是最优的。

我们可以发现，因在最初的算法迭代中选取的初始质心为随机定义而来，会致使聚类效果不好，迭代次数增多，可能仅得到局部最优结果。局部最优是K-means算法乃至机器学习算法存在的普遍问题。同时，K-means算法仅适用于数据聚类，并且在噪音数据出现时，由于其算法的原理，以距离平方和为准则，会使一些不合理的极端数据影响聚类结果。

针对它的这些缺陷，K-means算法衍生出的变种k-modes算法和K-prototype算法在一定程度上弥补了K-means算法的不足。

K-modes算法适用于离散型非数值型的集合,如时间、文本、颜色、大小等。它是以属性来度量两样本的相关性D。比较两样本所有属性，若属性不同就给D加1,相同就加0。也就是说,D值越大，两样本就越不相关。这不相关程度越大就相当于k-means中的距离越远。接着以每一簇中出现频率最大的属性值来代表那一簇的属性，不断更新簇，更新代表属性，重复迭代。

K-prototype算法是对K-means算法和K-modes 算法的结合，它适用于样本记录里面既有离散型数据又有数值型数据的集合。它结合K-means得到数值属性和结合K-modes得到分类属性，最终通过权重来得出样本混合属性。其更新也是两者结合，并

作者简介：邓林培，邵阳市武冈市第二中学.《科技传播》迹国108