K均值优化算法综述
k means gap法

k means gap法
K均值(K-means)是一种常见的聚类算法,它将数据点分成K 个不同的簇,使得每个数据点都属于距其最近的簇中心。
这种算法通常用于无监督学习,即在没有预先定义类别的情况下对数据进行分组。
而“gap统计量”(gap statistic)是一种用于确定数据集中最佳聚类数K的方法。
它通过比较实际数据分布和随机数据分布的差异来评估聚类的有效性。
具体而言,gap统计量通过计算不同聚类数K下的误差平方和(Within-Cluster Sum of Squares,WSS)与该聚类数下的随机参考分布的WSS之差来确定最佳的K值。
在实际应用中,通常会计算一系列不同K值下的gap统计量,然后选择使得gap统计量达到峰值的K值作为最佳的聚类数。
K均值算法结合了距离度量和迭代优化,它的时间复杂度是
O(nkid),其中n是数据点的数量,k是簇的数量,i是迭代次数,d 是数据点的维度。
而gap统计量则可以帮助我们在使用K均值算法时选择最合适的聚类数K,从而提高聚类的准确性和有效性。
总的来说,K均值算法和gap统计量在聚类分析中都扮演着重
要的角色,它们能够帮助我们理解和处理数据集中的内在结构,并为后续的数据分析和应用提供有力支持。
有关k-均值聚类算法的理解

有关k-均值聚类算法的理解1.K-均值聚类算法的历史:聚类分析作为一种非监督学习方法,是机器学习领域中的一个重要的研究方向,同时,聚类技术也是数据挖掘中进行数据处理的重要分析工具和方法。
1967 年MacQueen 首次提出了K 均值聚类算法(K-means算法)。
到目前为止用于科学和工业应用的诸多聚类算法中一种极有影响的技术。
它是聚类方法中一个基本的划分方法,常常采用误差平方和准则函数作为聚类准则函数迄今为止,很多聚类任务都选择该经典算法,K-means算法虽然有能对大型数据集进行高效分类的优点,但K-means算法必须事先确定类的数目k,而实际应用过程中,k 值是很难确定的,并且初始聚类中心选择得不恰当会使算法迭代次数增加,并在获得一个局部最优值时终止,因此在实际应用中有一定的局限性。
半监督学习是近年来机器学习领域的一个研究热点,已经出现了很多半监督学习算法,在很多实际应用中,获取大量的无标号样本非常容易,而获取有标签的样本通常需要出较大的代价。
因而,相对大量的无标签样本,有标签的样本通常会很少。
传统的监督学习只能利用少量的有标签样本学习,而无监督学习只利用无标签样本学习。
半监督学习的优越性则体现在能同时利用有标签样本和无标签样本学习。
针对这种情况,引入半监督学习的思想,对部分已知分类样本运用图论知识迭代确定K-means 算法的K值和初始聚类中心,然后在全体样本集上进行K-均值聚类算法。
2. K-算法在遥感多光谱分类中的应用基于K-均值聚类的多光谱分类算法近年来对高光谱与多光谱进行分类去混的研究方法很多,K-均值聚类算法与光谱相似度计算算法都属于成熟的分类算法.这类算法的聚类原则是以数据的均值作为对象集的聚类中心。
均值体现的是数据集的整体特征,而掩盖了数据本身的特性。
无论是对高光谱还是对多光谱进行分类的方法很多,K-均值算法属于聚类方法中一种成熟的方法。
使用ENVI将多光谱图像合成一幅伪彩色图像见图1,图中可以看出它由标有数字1 的背景与标有数字2 和3的两种不同的气泡及标有数字4的两个气泡重叠处构成。
K-MEANS算法(K均值算法)

k-means 算法一.算法简介k -means 算法,也被称为k -平均或k -均值,是一种得到最广泛使用的聚类算法。
它是将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的准则函数达到最优,从而使生成的每个聚类内紧凑,类间独立。
这一算法不适合处理离散型属性,但是对于连续型具有较好的聚类效果。
二.划分聚类方法对数据集进行聚类时包括如下三个要点:(1)选定某种距离作为数据样本间的相似性度量k-means 聚类算法不适合处理离散型属性,对连续型属性比较适合。
因此在计算数据样本之间的距离时,可以根据实际需要选择欧式距离、曼哈顿距离或者明考斯距离中的一种来作为算法的相似性度量,其中最常用的是欧式距离。
下面我给大家具体介绍一下欧式距离。
假设给定的数据集 ,X 中的样本用d 个描述属性A 1,A 2…A d 来表示,并且d 个描述属性都是连续型属性。
数据样本x i =(x i1,x i2,…x id ), x j =(x j1,x j2,…x jd )其中,x i1,x i2,…x id 和x j1,x j2,…x jd 分别是样本x i 和x j 对应d 个描述属性A 1,A 2,…A d 的具体取值。
样本xi 和xj 之间的相似度通常用它们之间的距离d(x i ,x j )来表示,距离越小,样本x i 和x j 越相似,差异度越小;距离越大,样本x i 和x j 越不相似,差异度越大。
欧式距离公式如下:(2)选择评价聚类性能的准则函数k-means 聚类算法使用误差平方和准则函数来评价聚类性能。
给定数据集X ,其中只包含描述属性,不包含类别属性。
假设X 包含k 个聚类子集X 1,X 2,…X K ;{}|1,2,...,m X x m total ==(),i j d x x =各个聚类子集中的样本数量分别为n 1,n 2,…,n k ;各个聚类子集的均值代表点(也称聚类中心)分别为m 1,m 2,…,m k 。
K均值算法的优缺点及使用注意事项(四)

K均值算法是一种常见的聚类算法,它主要用于将数据集划分成不同的簇。
这种算法的应用非常广泛,涉及到数据挖掘、图像处理、自然语言处理等多个领域。
在本文中,我们将探讨K均值算法的优缺点以及使用注意事项。
K均值算法的优点:1. 简单易实现。
K均值算法的原理和实现都相对简单,不需要过多的数学基础,因此容易上手。
2. 高效。
K均值算法的时间复杂度相对较低,适合处理大规模数据集。
3. 灵活性强。
K均值算法对于大部分数据分布都能取得较好的聚类效果,对于不同的数据结构都有较好的适应性。
K均值算法的缺点:1. 对初始值敏感。
K均值算法的结果会受到初始值的影响,对于不同的初始值可能会得到不同的聚类结果。
2. 对异常值敏感。
K均值算法对异常值比较敏感,可能会导致聚类结果的偏移。
3. 难以处理不规则形状的簇。
K均值算法假定簇是凸的,对于不规则形状的簇可能无法很好地划分。
使用K均值算法需要注意的事项:1. 选择合适的K值。
K均值算法需要事先确定簇的个数K,因此需要对数据集有一定的了解,选择合适的K值能够影响聚类结果。
2. 处理缺失值。
在进行聚类之前,需要对数据集进行预处理,包括处理缺失值、标准化等操作。
3. 处理异常值。
对于异常值需要进行处理,可以通过删除、替换等方式进行处理。
4. 多次运行算法。
由于K均值算法对初始值敏感,可以多次运行算法,选择结果最好的一次作为最终聚类结果。
5. 评估聚类结果。
需要对聚类结果进行评估,可以使用轮廓系数、Davies-Bouldin指数等指标进行评估,选择最优的聚类结果。
总的来说,K均值算法作为一种简单而高效的聚类算法,在实际应用中有着广泛的应用前景。
但是在使用过程中需要注意选择合适的K值、处理异常值和评估聚类结果等问题,才能够得到较好的聚类效果。
希望本文所述的K均值算法的优缺点及使用注意事项能够对读者有所帮助。
k均值聚类算法 理想簇数

k均值聚类算法理想簇数
摘要:
1.算法简介
2.理想簇数的定义
3.确定理想簇数的方法
4.簇数对聚类结果的影响
5.总结
正文:
k均值聚类算法是一种将一组数据分成k个簇的无监督学习算法。
在实际应用中,确定k值是一个重要的问题,因为不同的k值可能会导致不同的聚类结果。
理想簇数是指在聚类过程中,能够最好地代表数据的簇的数量。
确定理想簇数的方法有很多种,其中一种常见的方法是通过绘制聚类结果的轮廓系数来确定。
轮廓系数是一个用于度量聚类结果的指标,它越接近1,表示聚类结果越好。
通常,当轮廓系数达到最大值时,对应的簇数就是理想簇数。
簇数对聚类结果的影响非常大。
如果簇数太少,可能会导致数据被分成不准确的簇,从而影响聚类的准确性。
如果簇数太多,可能会导致簇之间的差异变小,从而降低聚类的效率。
因此,确定合适的簇数是非常重要的。
在实际应用中,我们通常需要通过多次试验不同的k值来确定理想簇数。
可以使用交叉验证等方法来评估不同的聚类结果,并选择最佳的簇数。
k均值聚类算法的理想簇数是一个重要的问题,需要通过绘制聚类结果的轮
廓系数等方法来确定。
K均值优化算法综述

K均值优化算法综述K均值算法是一种经典的聚类算法,它是一种基于距离的聚类算法,利用数据点之间的距离来进行聚类分析。
K均值算法一般用于将数据点分成K个簇,其中K是一个预先指定的参数。
K均值算法在数据挖掘、模式识别、图像处理等领域都有着广泛的应用。
本文将对K均值算法进行综述,重点介绍K均值算法的优化方法及其应用。
一、K均值算法原理K均值算法的原理比较简单,主要包括初始化、簇分配、更新簇中心三个步骤。
1. 初始化:首先需要确定簇的个数K,然后随机选择K个样本点作为初始的簇中心。
2. 簇分配:将每个数据点分配到距离其最近的簇中心所在的簇。
3. 更新簇中心:计算每个簇中所有数据点的均值,将均值作为新的簇中心。
重复进行簇分配和更新簇中心的步骤,直到簇中心的位置不再发生变化,算法收敛。
二、K均值算法优化方法虽然K均值算法具有简单、易实现等优点,但也存在一些缺点,比如初始簇中心的选择会对聚类结果产生影响;算法对噪声和异常值较为敏感;收敛到局部最优解等问题。
为了提高K均值算法的聚类效果,研究者们提出了许多的算法优化方法。
1. 优化初始簇中心的选择初始簇中心的选择对K均值算法的聚类效果有很大的影响,一种常用的方法是在样本中随机选择K个点作为初始的簇中心。
还有一些更加有效的初始簇中心选择方法,比如K 均值++算法、K均值||算法等。
2. 对异常值和噪声的处理K均值算法对噪声和异常值较为敏感,这些异常值会对最终的聚类结果产生较大的影响。
为了提高算法的鲁棒性,可以采用一些方法来处理异常值,比如在进行簇分配时,距离大于某个阈值的点可以认为是异常值,可以将这些点剔除再进行聚类。
3. 收敛到全局最优解K均值算法由于初始点的选取不同,可能会收敛到不同的局部最优解,而不是全局最优解。
研究者们提出了一些启发式的方法来解决这个问题,比如多次运行K均值算法,选择最优的聚类结果;或者使用一些局部搜索策略,如模拟退火算法、遗传算法等方法。
1. 数据挖掘在数据挖掘领域,K均值算法常用于对大量的数据进行分类和分析。
K均值算法在智能交通管理中的应用技巧(Ⅰ)

在当代社会,随着城市化进程的加快和人口数量的增加,智能交通管理成为了一个备受关注的领域。
如何通过有效的技术手段来提高交通效率,减少交通事故,成为了交通管理部门和科研人员所思考的重要问题。
K均值算法作为一种常用的聚类算法,在智能交通管理中也有着广泛的应用。
本文将从K均值算法的原理、优势和应用技巧等方面进行论述。
K均值算法,又称为K-means算法,是一种常用的聚类算法。
它通过不断迭代的方式,将数据集划分为K个簇,使得簇内的数据点相互之间的距离尽可能小,而簇间的距离尽可能大。
K均值算法的原理简单易懂,计算效率高,因此在智能交通管理中得到了广泛的应用。
首先,K均值算法在智能交通管理中的应用之一是交通流量预测。
通过对历史交通数据的分析,可以利用K均值算法将城市道路划分为不同的簇,从而对不同的路段的交通流量进行预测。
这有助于交通管理部门合理安排交通信号灯,减少路口拥堵,提高交通效率。
其次,K均值算法在智能交通管理中还可以用于交通事故预测。
通过对历史交通事故数据的分析,可以利用K均值算法将城市道路划分为不同的簇,进而对不同路段的交通事故风险进行预测。
这有助于交通管理部门采取针对性的交通安全措施,减少交通事故的发生。
另外,K均值算法还可以用于交通拥堵检测。
通过对实时交通数据的分析,可以利用K均值算法将城市道路划分为不同的簇,进而检测出交通拥堵的路段。
这有助于交通管理部门实时调整交通信号灯,疏导交通拥堵,减少交通事故的发生。
除了上述应用之外,K均值算法在智能交通管理中还有着许多其他的应用。
例如,它可以用于交通信号灯优化、道路规划优化、交通路况实时监测等方面。
通过对交通数据的分析和处理,结合K均值算法的应用,有助于提高城市交通的智能化水平,减少交通拥堵,提高交通效率。
当然,K均值算法在智能交通管理中的应用也存在一些技巧和注意事项。
首先,对于大规模城市交通数据的处理,需要考虑算法的计算效率和精度。
其次,在进行数据聚类之前,需要对原始数据进行预处理和特征选择,以提高算法的准确度。
【数据挖掘 作业】K均值算法及其改进思路

K均值算法及其改进思路
➢聚类的简要介绍 ➢聚类分析的意义 ➢K均值算法 ➢K均值算法缺点 ➢K均值算法改进思路
❖聚类(Clustering),是根据“物以类聚”的道理,对大量样本数 据进行归类的一种多元统计分析方法。聚类作为一种无监督学习方 法,在没有任何先验信息条件下,对现有无标记的数据进行归类。
❖聚类分析的过程主要分为两部分:首先要根据相似性度量方法测 度出数据间的相似程度,将相似的数据划分到同一个簇类中;然后 采用准则函数评价聚类划分的结果。因此,相似性度量和准则函数 是聚类分析中的重要衡量指标。
聚类分析的意义
聚类分析是数据挖掘的预处理步骤,更是知识 发现的关键环节。聚类分析的结层 次的数据分析与知识发现提供了可靠的依据。
K均值算法
K均值算法是聚类分析中基于划分的常用的算 法。它是一种无监督学习方式,即针对事先不带 有类别标签的数据,采用欧几里德距离作为相似 性度量方法划分簇类,采用采用最小误差平方和 作为目标函数,使得同一个簇类内的数据之间具 有较高相似度,不同簇类的数据之间具有较高相 异度。
1.需要预先定义聚类数目即K值; 2.依赖于初始中心点,易陷入局部最优解; 3.易受噪音点和孤立点影响; 4.无法发现球形形状以外的其他形状的数据。
因k均值算法对初始化中心敏感,且需要人为设定聚类个数。
通过查阅相关文献,可以对该算法做以下改进:
(1)针对对初始化中心敏感问题,可以通过层次初始聚类方法, 通过对数据层层抽样并聚类,以较小的时间代价得到较好的初始聚 类中心。
(2)针对需要人为设定聚类个数问题,提出一种自动确定聚类个 数的方法。该方法以DBI(Davies Bouldin index)作为确定聚类个数的 评估指标,能够较好体现聚类质量。
谢谢!
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
K均值优化算法综述作者:邓滨玥来源:《软件》2020年第02期摘 ;要: k-means算法源于信号处理中的一种向量量化方法,现在则更多地作为一种聚类分析方法流行于数据挖掘领域。
在数据挖掘技术中常常使用聚类方法,而k-means算法作为最典型、最常见、实用度最广的一种聚类算法,具有简单易操作等优点。
但此算法需要人工设定聚类中心的数量,初始聚类中心,容易陷入局部最优,使得算法的时间复杂度变得较大,得到的聚类结果易受到k值与设定的初始聚类中心的影响,针对这些问题,本文介绍了k-means算法的改进方法,分析其优缺点并提出了优化算法的下一步研究方向。
关键词:;k-means算法;聚类算法;聚类中心;误差平方和;无监督学习中图分类号: TP391;;;;文献标识码:;A;;;;DOI:10.3969/j.issn.1003-6970.2020.02.041【Abstract】: K-means algorithm originated from a vector quantization method in signal processing and is now more popular in the field of data mining as a clustering analysis method. Clustering method is often used in data mining technology, and k-means algorithm, as the most typical, the most common and the most practical clustering algorithm, has the advantages of simple and easy operation. But this algorithm need to manually set the number of cluster centers, the initial clustering center, easy to fall into local optimum, makes the time complexity of the algorithm is larger, the clustering results are susceptible to k value and setting of the influence of the initial clustering center, to solve these problems, this paper introduces the improvement methods of k - means algorithm, analyzes the advantages and disadvantages and puts forward the optimization algorithm of the next research direction.【Key words】:;K-means; Clustering algorithm; Cluster center; SSE; Unsupervised learning0;;引言在這个数据库技飞速发展的大数据时代,指数型增长的数据对数据的处理分析技术的要求越来越高,人们希望能通过计算机自动智能地在大型数据中,发现有用的信息并预测未来的样本观测结果。
随着不断地探索研究,数据挖掘技术在处理数据方面发展已经较为成熟,它在常规数据分析方法的基础上配合复杂算法来处理大规模的数据,已在各个领域的应用中取得了丰硕的成果。
聚类分析将数据划分为有效可使用的组(簇),使得每一个簇内的数据点特征相似。
与预测模型不同,聚类中没有明显的目标变量作为数据的属性存在。
聚类分析在理解数据与数据预处理领域中都发挥了很大的作用,也是数据挖掘中常为应用的一种算法。
k均值聚类算法(k- means clustering algorithm)是聚类分析方法中常被使用的一种迭代求解的无监督学习算法,它对数据挖掘应用与大量的模式向量十分重要。
因为其步骤简单快速,对大数据效率较高、可伸缩性强,K-means算法被大量运用在数据挖掘的任务中。
但K-means 的弊端也十分明显,算法常会陷入局部最优,初始质心以及K值都需要人为设定,其选择对最后结果影响较大,针对此问题,许多学者对K-means算法进行了提升与优化。
本文将介绍K-means算法的基本思想和传统K-means优化的算法,以及现在学者针对K-means主要问题的改进。
2.2 ;二分k-means为了减少初始划分情况对聚类结果的影响,以及改进k-means算法收敛于局部的问题,提出了二分k-means算法,此算法为分层聚类中自顶向下进行分裂的一种方法。
算法的主要思想为:将所有数据点作为一个簇堆,并将其一分为二,计算所有簇堆的误差平方和,并反复选择误差平方和偏大的簇,使用k-means算法将其划分,直到簇的数量等于用户所给定的k值。
步骤图解如图2所示。
而由于二分K-means算法需要多次采用多次K-means方法聚类,增加了其复杂度,刘广聪等[2]提出了用层次聚类与Chameleon算法对二分算法进行改进,随机抽取初始聚类中心,寻找离质心最近与最远的两个数据点作为新的聚类中心重新聚类,并通过计算簇间的相似度,建立相似度矩阵来进行优化,提高算法的效率。
2.3;;K-medoids由于K-means算法取质点时计算的为当前簇中所有数据点的平均值,K-means算法对异常值十分敏感,在此问题上,K-medoids算法对其做出了改进。
在K-medoids中,选取当前簇中到同一簇其他数据点距离之和最小的点作为质心,并使用绝对差值和(Sum of Absolute Differences,SAD)代替SSE作为衡量聚类结果的标准。
SAD的计算公式如下:文献[6]针对快速K-medoids初始聚类中心可能位于同一类簇及传统K-medoids算法的缺陷,提出基于粒计算的K-medoids聚类算法,利用等价关系产生粒子,并根据粒子包含的样本个数定义粒子密度,从而选择密度较大的K个例子作为初始聚类中心,使得此算法聚类结果更加稳定,并可适用于大规模的数据集。
郝占刚[7]等提出一种基于遗传算法和K-medoids算法的聚类新算法,此算法采用遗传算法中的锦标赛选择法随机选择一定数目的样本,并结合k-medoids对选择出的个体进行优化,代替原有个体,不断进化直到结果符合要求,这种算法可以很好地解决k-medoids算法局部最优与孤立点的问题,并加快了遗传算法的收敛速度。
3 ;k-means算法改进3.1 ;基于k值选择在K-means算法中,由于初始质心点数k需要使用者指定,不同k值选择所得出的聚类结果也不一样,如何确定最优k值或让算法自动获取k值成为学者改进k-means算法的一个目标。
之后有学者提出使用“手肘法”选择肘点作为最优的K值,此方法简单直观但可能会出现不明显的“肘点”或是特殊情况使得K值的选择出现偏差,文献[11]ET-SSE算法对此进行了k值选择的优化,引入偏执项调节变量改进总误差平方和,通过对权重的调节得出最终k值。
3.2 ;基于局部最优问题由于K-means算法对初始点以及噪点十分敏感,常常会收敛到局部最小值而引起聚类结果的偏差,通过算法对噪点的处理以及迭代过程中划分规则的改变可以解决此问题以达到全局最优。
陈慧萍等[12]采用模拟退火思想提出了一种全局寻优的K-means方法,设定目标函数及控制参数,不断迭代调整控制参数t(各聚类中心的值)直到得出当前近似最优解,得以得到最优解。
PBK-means算法[13]提出基于距离与密度,计算数据集的平均样本距离,根据数据点之间的距离计算数据权重,从而选取最大权重数据作为第一个中心点,将数据集进行分类,并建立满二叉树,合并叶子结点得到k个初始聚类中心,快速处理中小型规模的数据集。
3.3;;初始中心选择K-means一般采取随机选择的方式确定初始质心,而这样不仅会使得算法的时间复杂度增大,并且可能会选取到离群点导致结果差异很大,现代学者更偏向通过与其他算法相结合的方式获得较准确初始质心。
Redmond[14]等人最早提出通过kd-tree从带划分的数据集中筛选密度大又相互分离的数据作为初始中心,而由于此方法在估计数据密度方面存在缺陷,基于此方法,后代学者提出了对应的改进。
文献[15]提出基于最小支撑树,选中密度大且足够分离的数据稠密区中的点作为初始聚类中心,使得算法可以在选出处在不同类的数据作为初始中心。
文献[16]提出一种利用关系矩阵和度数中心度的分析方法来选取初始中心点,减少聚类过程的迭代次数得到更稳定的聚类结果,但此方法在处理大规模数据问题上还存在局限性。
3.4;;其他改进方法Dan Pelleg[17]等在2000年提出一种x-means的聚类方法,运用统计学标准将样本的似然函数最大化,通过计算BIC score来决定是否将簇二分,算法的主要步骤图如下:此方法不用预先指定k的个数,只需要给出k值范围,很好地解决了k-means算法k值难以确定的问题,对大规模的数据也具有很好的效率,但是不适用于高维数据中。
此外,还有很多学者分别提出了基于Spark框架[18]、MapReduce框架[19]、Hadoop[20]框架等常见数据计算平台来改进K-means算法,通过并行计算提高聚类提速。
在d维空间中找到k-均值聚类问题的最优解的计算复杂度:NP-hard:一般欧式空间中,即使目标聚类数仅为2NP困难:平面中,不对聚类数目k作限制如果k和d都是固定的,时间复杂度为,其中n为待聚类的观测点数目4;;结束语作为聚类算法中较为经典的K-means算法,因为计算快速方便被广泛应用在数据挖掘等大数据处理方面,由于其缺点也十分明显,在提出后便不断有学者针对这些问题进行优化与改进,但在对算法进行改进时将会牺牲其他各方面的指标。
所以在优化k-means算法三个主要问题的同时,如何有效地缩短算法的复杂度、使算法能够适用于多维度问题以及大规模数据问题等将成为学者们的下一步的研究方向,尤其是在机器学习技术的日益丰富的背景下,各种聚类算法与机器学习相结合,各种优化方案等更是以后的攻坚工程。
参考文献:Agarwal M, Jaiswal R, Pal A. k-means++ under Approximation Stability[C]//International Conference on Theory and Applications of Models of Computation. Springer, Berlin,Heidelberg, 2015.刘广聪,黄婷婷,陈海南. 改进的二分K均值聚类算法[J]. 计算机应用与软件, 2015(2): 261-263.曹丹阳,杨炳儒,李广原,等. 一种基于CF树的k-medoids聚类算法[J]. 计算机应用研究, 2011(9): 66-69.PARK H S, JUN C H.;A simple and fast algorithm for K-medoids clustering[J]. Expert Systems with Applications, 2009, 36(2): 3336-3341.谢娟英,高瑞. Num-近邻方差优化的K-medoids聚类算;;法[J]. 计算机应用研究, 2015,32(1).马箐,谢娟英. 基于粒计算的K-medoids聚类算法[J]. 计算机应用, 2012, 32(7):1973-1977.郝占刚,王正欧, HaoZhangang,;等. 基于遗传算法和k-medoids算法的聚类新算法[J]. 现代图书情报技术, 2006(5).Rezaee M R, Lelieveldt B B F, Reiber J H C. A new cluster validity index for the fuzzy c-mean[M]. Elsevier Science Inc. 1998.张忠平,王爱杰,柴旭光. 简单有效的确定聚类数目算法[J]. 计算机工程与应用, 2009,45(15): 166-168.徐克圣,王澜, XUKe-sheng,等. 一种自动获得k值的聚类算法[J]. 大连交通大学学报,2007(4).王建仁,马鑫,段刚龙. 改进的K-means聚类k值选择算法[J]. 计算机工程与应用,2019, 55(8): 33-39.陈慧萍,贺会景,陈岚峰,;等. 基于模拟退火思想的优化k-means算法[J]. 河海大学常州分校学报(4): 33-36+44.魏文浩,唐泽坤,刘刚. 基于距离和密度的PBK-means算法[J/OL]. 计算机工程: 1-9[2019-11-17].Redmond S J, Heneghan C. A method for initializing the K-means clustering algorithm using kd-trees[J]. Patten Recognition Letter, 2007, 28: 965-973.李春生,王耀南. 聚类中心初始化的新方法[J]. 控制理论与应用, 2010, 27(10):1435-1440郁启麟. K-means算法初始聚类中心选择的优化[J]. 计算机系统应用, 2017(5).Pat Langley. Proceedings of the Seventeenth International Conference on MachineLearning[C]//2000.宋董飛,徐华. 基于Spark的K-means改进算法的并行化实现[J]. 计算机系统应用.毛典辉,北京工商大学计算机与信息工程学院,北京, . 基于MapReduce的Canopy-Kmeans改进算法[J]. 计算机工程与应用, 2012, 48(27): 22-26.卢胜宇,王静宇,张晓琳,等. 基于Hadoop平台的K-means聚类算法优化研究[J]. 内蒙古科技大学学报, 2016, 35(03): 264-268.。