最优聚类个数和初始聚类中心点选取算法研究

合集下载

《聚类与孤立点检测算法的研究和实现》

《聚类与孤立点检测算法的研究和实现》一、引言在大数据时代，如何有效地处理和分析海量数据成为了研究的热点。

聚类与孤立点检测是数据挖掘和机器学习领域的重要技术，它们在许多领域如金融、医疗、安全等领域有着广泛的应用。

聚类是将数据集分成由类似的对象组成的多个组或簇的过程，而孤立点检测则是识别那些与其他数据显著不同的点或模式的过程。

本文将对这两种算法进行研究，并介绍其实现过程。

二、聚类算法研究1. K-means聚类算法K-means是一种常用的聚类算法，其基本思想是将n个对象划分为k个簇，以使每个簇的内部差异尽可能小，而簇间的差异尽可能大。

该算法的步骤包括初始化聚类中心、计算每个点到各聚类中心的距离并分配到最近的聚类中心、重新计算各聚类中心的坐标、重复2. 重复上述步骤直到满足停止条件。

停止条件通常为达到预设的迭代次数，或者聚类中心不再发生显著变化。

三、孤立点检测算法研究孤立点检测，也称为离群点检测，其主要目的是找出那些与数据集中其他大部分数据显著不同的点。

这些点可能代表重要的异常情况或者错误数据。

1. 基于统计的孤立点检测基于统计的方法通过计算数据点的统计特性，如均值、标准差等，来判断其是否为孤立点。

具体而言，如果某个数据点的某些统计属性与其他数据点的差异超过一定的阈值，则该点被视为孤立点。

2. 基于密度的孤立点检测基于密度的方法则通过计算数据点的密度来检测孤立点。

通常，数据的密度可以用邻域内的数据点数量或者平均距离来表示。

如果一个数据点的密度明显低于其邻域内的其他数据点，则该点被视为孤立点。

四、算法实现无论是聚类算法还是孤立点检测算法，其实现过程通常包括以下几个步骤：1. 数据预处理：包括数据清洗、转换和标准化等步骤，以使数据适合于后续的算法处理。

2. 特征提取：从原始数据中提取出用于聚类或孤立点检测的特征。

3. 算法选择与参数设置：根据具体的问题和需求选择合适的聚类或孤立点检测算法，并设置适当的参数。

聚类分析算法概述及其适用性比较

聚类分析算法概述及其适用性比较作者：印晓天湛高峰来源：《科技资讯》2018年第33期摘要：聚类算法作为大数据与人工智能领域重要的分析工具，受到了学术界的高度关注与广泛研究。

本文从算法设计思想的角度对现今主要的聚类算法进行了归纳总结。

具体来讲，针对中心聚类法、层次聚类法、密度聚类法、谱聚类法以及一些其他聚类算法分析了各自算法及其思想的优缺点与适用性，对算法的实际应用建立指导性作用。

关键词：聚类分析算法适用性中图分类号：TP311 文献标识码：A 文章编号：1672-3791（2018）11（c）-0230-03聚类分析作为机器学习的重要分析手段，是当前大数据时代下的热点研究领域之一。

在过去数十年间，产生了大量的聚类分析算法。

本文对目前主流的聚类算法进行归纳总结，并对各自的优缺点和适用性进行比较分析。

通俗来讲，聚类算法的目标是将具有共性的样本归为同一类型，而将没有或者少有共性的样本归为不同类型。

数学上对于共性的度量常用样本之间的距离来衡量，而如何定义距离则需要根据实际情况具体分析。

因此，聚类算法的目标是得到一系列内部联系相对紧密、外部联系相对稀疏的样本集合（又称为类簇）。

聚类算法按实现方式，主要可以分为中心聚类、层次聚类、密度聚类、谱聚类等。

下面就以上各类型聚类算法逐一介绍。

由于本文着重分类介绍算法的思想，旨在分析各类算法的优缺点及其适用性，所以在介绍的时候不会拘泥于参数细节，而强调执行过程是如何体现算法思想的。

具体的算法实现过程可参考相应文献。

1 中心聚类法中心聚类法是一类极为常见聚类算法。

它以找各类簇的中心为基本任务，将离某中心最近那些点归为该中心所代表的类簇。

中心聚类的代表性算法是K-means[1-2]。

K-means算法的执行是一个迭代的过程，以正整数K作为超参数，在每轮次更新K个类簇的中心。

具体来说，给定空间中样本点集合作为输入，初始时算法以某种方式选定K个空间中的点作为K个类簇的初始中心点，这种选取方式可以是随机的，也可以是根据输入样本的特征先验选取。

聚类算法：K-Means和DBSCAN的比较

聚类算法：K-Means和DBSCAN的比较聚类是一种无监督学习的方法，它将数据分组成具有相似特征的集合，称为簇(cluster)。

簇分析是统计学、计算机科学、机器学习和数据挖掘等领域中的常用技术之一。

目前，聚类算法已广泛应用于用户行为分析、市场营销、图像处理、生物信息学、搜索引擎、社交网络等领域。

在聚类算法中，K-Means和DBSCAN是两种具有代表性的算法。

本文将从算法原理、优缺点、适用场景等方面对它们进行比较分析。

一、K-Means算法K-Means算法是一种基于距离的聚类算法。

它的基本思想是从数据集中选取k个初始聚类中心，不断迭代，把每个数据点归为距离最近的聚类中心所在的簇。

K-Means算法的优点是计算简单、速度快、可并行计算，适用于处理大规模数据集。

但是K-Means算法的聚类结果受初始聚类中心的影响较大，算法的性能对于簇的形状、大小和分布较为敏感。

算法流程：1.选择k个聚类中心2.对于每个数据点，计算距离最近的聚类中心，将其划分到相应的簇中3.对于每个簇，重新计算该簇的聚类中心4.重复步骤2和步骤3，直到聚类中心不再变化或达到最大迭代次数二、DBSCAN算法DBSCAN算法是一种基于密度的聚类算法。

它的基本思想是将密度高于某一阈值的数据点定义为核心点(Core Points)，将与核心点距离不超过一定距离的数据点归为同一个簇(Cluster)，将距离较远的数据点称为噪声点(Noise)。

DBSCAN算法的优点是可以自动识别任意形状的簇，对初始聚类中心不敏感，适用于处理稠密数据集。

但是DBSCAN算法的聚类结果对于数据点密度分布的敏感度较高，平均时间复杂度较高。

算法流程：1.对于每个数据点，计算其邻域(Neighborhood)内的数据点个数，如果邻域内的数据点个数大于等于密度阈值，则该点为核心点，否则该点为噪声点2.将所有核心点加入到一个簇中，对每个核心点进行扩展，将邻域内的数据点加入到该簇中，直到不能再扩展3.继续处理下一个未被归类的核心点，直到所有核心点都在某个簇中或被标记为噪声点三、K-Means和DBSCAN的比较1.聚类精度K-Means算法适用于簇形状较为规则且大小相似的数据集，但对于不规则形状、大小差异较大的数据集，其聚类效果并不理想。

数学建模里的聚类分析

聚类分析聚类，或称分集，即所谓“物以类聚”，它是按某种相似规则对给定样本集、指标簇进行某种性质的划分，使之成为不同的类．将数据抽象化为样本矩阵()ij n m X X ⨯=，ij X 表示第i 个样本的第j 个变量的值．聚类目的，就是从数据出发，将样本或变量分成类．其方法大致有如下几个．（1）聚类法．即谱系聚类法．将n 个样本看成n 类，将性质最接近的两类并为一新类，得1-n 类；再从1-n 类中找出最接近的两类加以合并，得2-n 类；继之，最后所有样本都成一类，得一聚类谱系，从谱系中可确定划分多少类，每类含有哪些样本．（2）分解法．它是系统聚类的逆过程，将所有样本视为一类，按某种最优准则将它分成两类，继之，每一类都分到只含一个样本为止．（3）动态聚类．即快速聚类法．将n 个样本粗糙地分成若干类，然后用某种最优准则进行调整，直至不能调整为止．（4）有序样本聚类．按时间顺序，聚在一类的样本必须是次序相邻的样本．（5）模糊聚类．它是将模糊数学用于样本聚类．（6）运筹学聚类．它是将聚类问题化为线性规划、动态规划、整数规划模型的聚类．（7）神经网络聚类．它是将样本按自组织特征映射的方法进行，也是我们要加以叙述的一个重点．（8）预测中聚类．它是聚类在预测中的应用，以弥补非稳定信号回归的预测与分析．这里主要介绍谱系聚类法和快速聚类法．一、距离定义样本矩阵()ij n m X x ⨯=，是m 维空间中n 个点，以距离度量样本之间的贴近度，就是距离聚类方法．最常用的第i 个与第j个样本的Minkowski 距离为p mk p jk ik ijx x d /11)||(∑=-=式中p 为一正整数．当2=p , ij d 就是欧几里德距离；当1=p ，ij d 就是绝对距离，或称“布洛克（cityblock ）”距离．而切比雪夫距离为||max 1jk ik mk ij x x d -=≤≤设m m C ⨯是变量的协方差矩阵，i x ,j x 为第i 行与第j 行m 个变量构成的向量，则马哈兰罗比斯距离定义为1()()T ij i j i j d x x C x x -=-- 根据距离的定义，就获得距离矩阵⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=nn n n n n d d d d d d d d d d 212222111211 由距离性质可知，d 为实对称矩阵，ij d 越小，两样本就越相似，其中01211====nn d d d ，根据)(j i d ij ≠的n 个点分类，依聚类准则分为不同的类．对d 常用的系统聚类准则有： 1、类间距离定义（1）最短距离；,min p qpq ij i Gj GD d ∈∈= （2）最长距离；,maxpqpq ij i G j GD d ∈∈=（3）质心距离；(,)pq p q D d x x = （4）平均距离；1p qpq iji G j G p qD d n n ∈∈=∑∑（5）平方距离：2()()p q T pqp q p q p qn n D x x x x n n =--+2．类间距离的递推公式（1）最短距离：min{,}rk pk qk D D D = （2）最长距离：max{,}rk pk qk D D D = （3）类平均距离：p q rk pk qk rrn n D D D n n =+（4）重心距离：2222pqp q rkpkqkpq r r r rn n n n D D D D n n n n =+-⋅（5）离差平方和距离：2222p k q k krkpk qk pq r kr kr kn n n n n D D D D n n n n n n ++=+-+++二、谱系聚类法例: 假如抽取5个样本，每个样本只测一个指标，即数据为x =[1，0；2，0；4.5，0；6，0；8，0] 试以最短距离准则进行距离聚类说明．解这时，样本间的绝对距离、欧几里德距离或切比雪夫距离均一致，见表3.1．以最短距离准则聚类．根据定义，当令p Ω与q Ω中分别有pn 与q n 个样本，则最短距离为：},|min{),(q p ij nearj i d q p Ω∈Ω∈=δ于是，对于某步，假定具有样本为p n 的第p 集合与样本为q n 的第q 集合，聚成为具有样本为q p s n n n +=的第s 集合，则第k 集合与第s 集合的最短距离，可写为)},(),,(min{),(q k p k s k near near nearδδδ=(1)表1 绝对距离数据表中数据1、2、4.5、6、8视为二叉树叶子，编号为1、2、3、4、5．当每一个样本看成一类时，则式子(1)变为ij neard j i =),(δ，最小距离为1，即1与2合聚于6号，得表2．表中5.2)5.2,5.3min()}2,3(),1,3(min{)6,3(===δδδnear near near表2 一次合聚表2中最小距离为1.5，即4.5与6合聚于7，得表3．表中(6,7)min{(6,4.5),(6,6)}min(2.5,4) 2.5near nearnearδδδ===．表3 二次合聚表3中最小距离为2，即{4.5，6}元素（为7号）与8（为5号）合聚于8号，得表4．表中5.2)6,4,5.2min()}8,6(),6,6(),5.4,6(min{)8,6(===δδδδnear near near near表4 三次合聚最后集合{1，2}与{4.5，6，8}聚成一集丛．此例的Matlab 程序如下：x =[1，0；2，0；4.5，0；6，0；8，0])();'sin ',();'',(z dendrogram gle y linkage z CityBlock x pdist y ==绘得最短距离聚类谱系如图1所示，由图看出分两类比较合适．1号、2号数据合聚于6号，最小聚距为1；3号、4号数据合聚于7号，最小聚距为1.5；7号于5号数据合聚于8号，最小聚距为2；最后6号和8号合聚，最小聚距为2.5。

K-means聚类算法ppt课件

K-means聚类算法
ppt课件.
1
K-means算法是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。
该算法认为类是由距离靠近的对象组成的，因此把得到紧凑且独立的类作为最终目标。
ppt课件.
2
假设数据集合为(x1, x2, …, xn)，并且每个xi为d维的向量，K-means聚类的目的是，在给定分类组数k（k ≤ n）值的条件下，将原始数据分成k类：
ppt课件.
4
数学表达式：
n：样本数。 k：样本分为k类。 rnk：第n个样本点是否属于第k类，属于则
rnk=1，不属于则rnk=0。 μK：第k个中心点。
ppt课件.
5
k-means 要做的就是最小化
这个函数。
迭代的方法： 1、固定μK，得到rnk。 2、固定rnk，求出最优的μK。
ppt课件.
ppt课件.
12
K- medoids算法流程如下： 1、任意选取K个对象作为初始中心点（O1,O2,…Oi…Ok）。 2、将余下的对象分到各个类中去（根据与中心点最相近的原则）； 3、对于每个类（Oi）中，顺序选取一个Or，计算用Or代替Oi后的消耗—E（Or）。选择 E最小的那个Or来代替Oi。这样K个中心点就改变了。
。不过，加上归一化规定，一个数据点的隶属度的和总等于1：
ppt课件.
21
把n个元素xi（i=1,2,…,n）分为c个模糊组，目标函数：
其中，m是大于1的实数，加权实数。uij 是xi属于类别j隶属度，cj是类j的聚类中心。
ppt课件.
22
算法步骤： 1、用值在0，1间的随机数初始化隶属矩阵U，

k-medoids算法

k-medoids算法k-medoids算法是一种用于聚类分析的算法。

它与k-means算法相似，但有一些不同之处。

在k-means算法中，每个聚类的中心点是所属聚类中的所有样本的均值。

而在k-medoids算法中，每个聚类的中心点是聚类中的一个实际样本点，也称为medoid。

1. 随机选择k个样本作为初始medoids。

2. 对于每个样本，计算其与每个medoid的距离，并将其分配到距离最近的medoid所属的聚类中。

3. 对于每个聚类，计算其中所有样本与其medoid的总距离。

选取总距离最小的样本作为新的medoid。

4. 重复步骤2和步骤3，直到medoid不再改变或达到最大迭代次数。

5.得到最终的聚类结果。

1. 对于离群点更加鲁棒：由于medoid是聚类中的实际样本点，而不是均值点，因此k-medoids算法对于存在离群点的数据集更加鲁棒。

2. 可以应用于非欧几里德距离度量：k-means算法基于欧几里德距离，而k-medoids算法可以灵活地使用非欧几里德距离度量，例如曼哈顿距离或闵可夫斯基距离。

3. 可解释性更强：由于medoid是具体的样本点，而不是均值点，这意味着聚类结果更容易理解和解释。

k-medoids算法的应用广泛。

例如，在医学领域，它可以用于将患者分为不同的疾病类别，从而有助于疾病的诊断和治疗。

在市场营销中，它可以用于消费者分组，以便制定个性化的推广策略。

在图像处理领域，它可以用于图像分割，将相似的像素聚类在一起。

然而，k-medoids算法也存在一些局限性。

首先，由于需要计算样本之间的距离，如果数据集非常大，计算成本会很高。

其次，k-medoids算法对于数据集中选择medoids的敏感度较高，不同的初始medoids可能会导致不同的聚类结果。

此外，k-medoids算法无法直接处理高维数据，需要使用降维方法来减少维度。

为了克服这些局限性，研究人员提出了一些改进的k-medoids算法，如PAM算法和CLARA算法。

基于密度和距离积的聚类中心选取方法

《测控技术）２０１３年第３２卷第ｌＯ期
基于密度和距离积的聚类中心选取方法
樊晓光，路钊，王久崇，李国栋，谢朝政
７１００３８；２．中国人民解放军９３８６８部队宁夏银川
，
（１・空军工程大学航空航天工程学院，陕西西安
开始网格密度统计样本点领域密度统计取相距最远的西样本点为初始聚类中心以最小距离原则进行一次聚类取到各聚类中心距离积最大样本点xi为下一个聚类中心以最小距离原则聚类计算聚类中心噪声点的去除及类的合并图2改良后的k一均值聚类流程实质上k一均值聚类算法的改进是基于样本密度统计和最大样本聚类距离积的
・
ｌ５２・
ｃａｔｅｓｇｒｉｄｓｗｈｉｃｈｃｏｖｅｒｔｈｅｍｏｓｔｓａｍｐｌｅｓｉｎｔｈｅｌｏｃａｌａｒｅａｂｙｐａｒｔｉｔｉｏｎｉｎｇｄａｔａｓｐａｃｅｉｎｔｏｄａｎｄｃｏｍｐｕｔｅ８
ｆｒｏｍｅａｃｈｓａｍｐｌｅｔｏｅｖｅｒｙｃｌｕｓｔｅｉｎｇｒｃｅｎｔｅｒｉｓｃａｌｃｕｌａｔｅｄｔｏｃｈｏｏｓｅｔｈｅｍａｘｉｍｕｍｏｎｅａｓｔｈｅｎｅｘｔｃｌｕｓｔｅｒｉｎｇ
．．Βιβλιοθήκη ａｓｅ— ｌｅｃｔｉｏｎｍｅｔｈｏｄｏｆｃｌｕｓｔｅｒｉｎｇｃｅｎｔｅｒｂａｓｅｄｏｎｄｅｎｓｉｔｙｓｔａｔｉｓｔｉｃｓａｎｄｍａｘｉｍａｌｄｉｓｔａｎｃｅｐｒｏｄｕｃｔｉｓｐｒｏｐｏｓｅｄＩｔ１ｏ —

各种聚类算法介绍及对比

一、层次聚类1、层次聚类的原理及分类1层次法Hierarchical methods先计算样本之间的距离;每次将距离最近的点合并到同一个类;然后,再计算类与类之间的距离,将距离最近的类合并为一个大类;不停的合并,直到合成了一个类;其中类与类的距离的计算方法有：最短距离法,最长距离法,中间距离法,类平均法等;比如最短距离法,将类与类的距离定义为类与类之间样本的最短距离;层次聚类算法根据层次分解的顺序分为：自下底向上和自上向下,即凝聚的层次聚类算法和分裂的层次聚类算法agglomerative和divisive,也可以理解为自下而上法bottom-up和自上而下法top-down;自下而上法就是一开始每个个体object都是一个类,然后根据linkage寻找同类,最后形成一个“类”;自上而下法就是反过来,一开始所有个体都属于一个“类”,然后根据linkage排除异己,最后每个个体都成为一个“类”;这两种路方法没有孰优孰劣之分,只是在实际应用的时候要根据数据特点以及你想要的“类”的个数,来考虑是自上而下更快还是自下而上更快;至于根据Linkage判断“类”的方法就是最短距离法、最长距离法、中间距离法、类平均法等等其中类平均法往往被认为是最常用也最好用的方法,一方面因为其良好的单调性,另一方面因为其空间扩张/浓缩的程度适中;为弥补分解与合并的不足,层次合并经常要与其它聚类方法相结合,如循环定位;2Hierarchical methods中比较新的算法有BIRCHBalanced Iterative Reducing and Clustering Using Hierarchies利用层次方法的平衡迭代规约和聚类主要是在数据量很大的时候使用,而且数据类型是numerical;首先利用树的结构对对象集进行划分,然后再利用其它聚类方法对这些聚类进行优化；ROCKA Hierarchical Clustering Algorithm for Categorical Attributes主要用在categorical 的数据类型上；ChameleonA Hierarchical Clustering Algorithm Using Dynamic Modeling里用到的linkage是kNNk-nearest-neighbor算法,并以此构建一个graph,Chameleon的聚类效果被认为非常强大,比BIRCH好用,但运算复杂度很高,On^2;2、层次聚类的流程凝聚型层次聚类的策略是先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有对象都在一个簇中,或者某个终结条件被满足;绝大多数层次聚类属于凝聚型层次聚类,它们只是在簇间相似度的定义上有所不同;这里给出采用最小距离的凝聚层次聚类算法流程：1 将每个对象看作一类,计算两两之间的最小距离；2 将距离最小的两个类合并成一个新类；3 重新计算新类与所有类之间的距离；4 重复2、3,直到所有类最后合并成一类;聚类的效果如下图,黑色是噪音点：另外我们可以看出凝聚的层次聚类并没有类似基本K均值的全局目标函数,没有局部极小问题或是很难选择初始点的问题;合并的操作往往是最终的,一旦合并两个簇之后就不会撤销;当然其计算存储的代价是昂贵的;3、层次聚类的优缺点优点：1,距离和规则的相似度容易定义,限制少；2,不需要预先制定聚类数；3,可以发现类的层次关系；4,可以聚类成其它形状缺点：1,计算复杂度太高；2,奇异值也能产生很大影响；3,算法很可能聚类成链状r语言中使用hclustd, method = "complete", members=NULL：进行层次聚类;d为距离矩阵；method 表示类的合并方法,single最短距离法,complete最长距离法,median中间距离法,mcquitty相似法,average类平均法,centroid重心法,ward离差平方和法；members为NULL或d长度的矢量;二、划分聚类法k-means基于划分的方法Partition-based methods：其原理简单来说就是,想象你有一堆散点需要聚类,想要的聚类效果就是“类内的点都足够近,类间的点都足够远”;首先你要确定这堆散点最后聚成几类,然后挑选几个点作为初始中心点,再然后依据预先定好的启发式算法heuristic algorithms给数据点做迭代重置iterative relocation,直到最后到达“类内的点都足够近,类间的点都足够远”的目标效果;Partition-based methods聚类多适用于中等体量的数据集,但我们也不知道“中等”到底有多“中”,所以不妨理解成,数据集越大,越有可能陷入局部最小;1、Kmeans算法的原理k-means算法以k为参数,把n个对象分成k个簇,使簇内具有较高的相似度,而簇间的相似度较低;k-means算法的处理过程如下：首先,随机地选择k个对象,每个对象初始地代表了一个簇的平均值或中心,即选择K个初始质心;对剩余的每个对象,根据其与各簇中心的距离,将它赋给最近的簇;然后重新计算每个簇的平均值; 这个过程不断重复,直到准则函数收敛,直到质心不发生明显的变化;通常,采用平方误差准则,误差的平方和SSE作为全局的目标函数,即最小化每个点到最近质心的欧几里得距离的平方和;此时,簇的质心就是该簇内所有数据点的平均值;选择K个点作为初始质心repeat将每个点指派到最近的质心,形成K个簇重新计算每个簇的质心until簇不发生变化或达到最大迭代次数时间复杂度：OtKmn,其中,t为迭代次数,K为簇的数目,m为记录数,n为维数空间复杂度：Om+Kn,其中,K为簇的数目,m为记录数,n为维数K-Means 算法的详细过程从上图中,我们可以看到,A, B, C, D, E 是五个在图中点;而灰色的点是我们的种子点,也就是我们用来找点群的点;有两个种子点,所以K=2;然后,K-Means的算法如下：①随机在图中取K这里K=2个种子点;②然后对图中的所有点求到这K个种子点的距离,假如点Pi离种子点Si最近,那么Pi属于Si点群;我们可以看到A,B属于上面的种子点,C,D,E属于下面中部的种子点③接下来,我们要移动种子点到属于他的“点群”的中心;见图上的第三步④然后重复第2和第3步,直到,种子点没有移动我们可以看到图中的第四步上面的种子点聚合了A,B,C,下面的种子点聚合了D,E;聚类的效果如下图,折线是历次循环时3个簇的质心的更新轨迹,黑点是初始质心：我们查看基本K均值算法实现步骤及上面的聚类效果可以发现,该聚类算法将所有数据点都进行了指派,不识别噪音点;另外选择适当的初试质心是基本K均值过程的关键;2、k均值的优缺点及分类优点：1,简单,易于理解和实现；2,时间复杂度低缺点：1kmeans要手工输入类数目,对初始值的设置很敏感；所以有了k-means++、intelligent k-means、genetic k-means；2k-means对噪声和离群值非常敏感,所以有了k-medoids和k-medians；3k-means只用于numerical类型数据,不适用于categorical类型数据,所以k-modes；4k-means不能解决非凸non-convex数据,所以有了kernel k-means;5k-means主要发现圆形或者球形簇,不能识别非球形的簇;3、k-means与DBSCAN的区别k-means聚类算法的初始点选择不稳定,是随机选取的,这就引起聚类结果的不稳定;k-means属于动态聚类,往往聚出来的类有点圆形或者椭圆形;kmeans对于圆形区域聚类效果较好,dbscan基于密度,对于集中区域效果较好;对于不规则形状,kmeans完全无法用,dbscan可以起到很好的效果;4、k-means注意问题1K如何确定kmenas算法首先选择K个初始质心,其中K是用户指定的参数,即所期望的簇的个数;这样做的前提是我们已经知道数据集中包含多少个簇,但很多情况下,我们并不知道数据的分布情况,实际上聚类就是我们发现数据分布的一种手段;如何有效的确定K值,这里大致提供几种方法：①与层次聚类结合2经常会产生较好的聚类结果的一个有趣策略是,首先采用层次凝聚算法决定结果粗的数目,并找到一个初始聚类,然后用迭代重定位来改进该聚类;②稳定性方法3稳定性方法对一个数据集进行2次重采样产生2个数据子集,再用相同的聚类算法对2个数据子集进行聚类,产生2个具有k个聚类的聚类结果,计算2个聚类结果的相似度的分布情况;2个聚类结果具有高的相似度说明k个聚类反映了稳定的聚类结构,其相似度可以用来估计聚类个数;采用次方法试探多个k,找到合适的k值;③系统演化方法3系统演化方法将一个数据集视为伪热力学系统,当数据集被划分为K个聚类时称系统处于状态K;系统由初始状态K=1出发,经过分裂过程和合并过程,系统将演化到它的稳定平衡状态Ki,所对应的聚类结构决定了最优类数Ki;系统演化方法能提供关于所有聚类之间的相对边界距离或可分程度,适用于明显分离的聚类结构和轻微重叠的聚类结构;④使用canopy算法进行初始划分4基于Canopy Method的聚类算法将聚类过程分为两个阶段Stage1、聚类最耗费计算的地方是计算对象相似性的时候,Canopy Method在第一阶段选择简单、计算代价较低的方法计算对象相似性,将相似的对象放在一个子集中,这个子集被叫做Canopy ,通过一系列计算得到若干Canopy,Canopy之间可以是重叠的,但不会存在某个对象不属于任何Canopy的情况,可以把这一阶段看做数据预处理；Stage2、在各个Canopy 内使用传统的聚类方法如K-means,不属于同一Canopy 的对象之间不进行相似性计算;从这个方法起码可以看出两点好处：首先,Canopy 不要太大且Canopy 之间重叠的不要太多的话会大大减少后续需要计算相似性的对象的个数；其次,类似于K-means这样的聚类方法是需要人为指出K 的值的,通过Stage1得到的Canopy 个数完全可以作为这个K值,一定程度上减少了选择K的盲目性;其他方法如贝叶斯信息准则方法BIC可参看文献5;2初始质心的选取选择适当的初始质心是基本kmeans算法的关键步骤;常见的方法是随机的选取初始质心,但是这样簇的质量常常很差;处理选取初始质心问题的一种常用技术是：多次运行,每次使用一组不同的随机初始质心,然后选取具有最小SSE误差的平方和的簇集;这种策略简单,但是效果可能不好,这取决于数据集和寻找的簇的个数;第二种有效的方法是,取一个样本,并使用层次聚类技术对它聚类;从层次聚类中提取K个簇,并用这些簇的质心作为初始质心;该方法通常很有效,但仅对下列情况有效：1样本相对较小,例如数百到数千层次聚类开销较大；2K相对于样本大小较小第三种选择初始质心的方法,随机地选择第一个点,或取所有点的质心作为第一个点;然后,对于每个后继初始质心,选择离已经选取过的初始质心最远的点;使用这种方法,确保了选择的初始质心不仅是随机的,而且是散开的;但是,这种方法可能选中离群点;此外,求离当前初始质心集最远的点开销也非常大;为了克服这个问题,通常该方法用于点样本;由于离群点很少多了就不是离群点了,它们多半不会在随机样本中出现;计算量也大幅减少;第四种方法就是上面提到的canopy算法;3距离的度量常用的距离度量方法包括：欧几里得距离和余弦相似度;两者都是评定个体间差异的大小的;欧几里得距离度量会受指标不同单位刻度的影响,所以一般需要先进行标准化,同时距离越大,个体间差异越大；空间向量余弦夹角的相似度度量不会受指标刻度的影响,余弦值落于区间-1,1,值越大,差异越小;但是针对具体应用,什么情况下使用欧氏距离,什么情况下使用余弦相似度从几何意义上来说,n维向量空间的一条线段作为底边和原点组成的三角形,其顶角大小是不确定的;也就是说对于两条空间向量,即使两点距离一定,他们的夹角余弦值也可以随意变化;感性的认识,当两用户评分趋势一致时,但是评分值差距很大,余弦相似度倾向给出更优解;举个极端的例子,两用户只对两件商品评分,向量分别为3,3和5,5,这两位用户的认知其实是一样的,但是欧式距离给出的解显然没有余弦值合理;4质心的计算对于距离度量不管是采用欧式距离还是采用余弦相似度,簇的质心都是其均值,即向量各维取平均即可;5算法停止条件一般是目标函数达到最优或者达到最大的迭代次数即可终止;对于不同的距离度量,目标函数往往不同;当采用欧式距离时,目标函数一般为最小化对象到其簇质心的距离的平方和;当采用余弦相似度时,目标函数一般为最大化对象到其簇质心的余弦相似度和;6空聚类的处理如果所有的点在指派步骤都未分配到某个簇,就会得到空簇;如果这种情况发生,则需要某种策略来选择一个替补质心,否则的话,平方误差将会偏大;一种方法是选择一个距离当前任何质心最远的点;这将消除当前对总平方误差影响最大的点;另一种方法是从具有最大SSE的簇中选择一个替补的质心;这将分裂簇并降低聚类的总SSE;如果有多个空簇,则该过程重复多次;另外,编程实现时,要注意空簇可能导致的程序bug;三、基于密度的聚类基于密度的方法Density-based methods：k-means解决不了不规则形状的聚类;于是就有了Density-based methods来系统解决这个问题;该方法同时也对噪声数据的处理比较好;基于密度聚类的思想：思路就是定一个距离半径,最少有多少个点,然后把可以到达的点都连起来,判定为同类;其原理简单说画圈儿,其中要定义两个参数,一个是圈儿的最大半径,一个是一个圈儿里最少应容纳几个点;最后在一个圈里的,就是一个类;DBSCAN Density-Based Spatial Clustering of Applications with Noise就是其中的典型,可惜参数设置也是个问题,对这两个参数的设置非常敏感;DBSCAN的扩展叫OPTICSOrdering Points To Identify Clustering Structure通过优先对高密度high density进行搜索,然后根据高密度的特点设置参数,改善了DBSCAN的不足;1、DBSCAN的概念dbscan基于密度,对于集中区域效果较好,为了发现任意形状的簇,这类方法将簇看做是数据空间中被低密度区域分割开的稠密对象区域；一种基于高密度连通区域的基于密度的聚类方法,该算法将具有足够高密度的区域划分为簇,并在具有噪声的空间数据中发现任意形状的簇;DBSCAN中的几个定义：Ε邻域：给定对象半径为Ε内的区域称为该对象的Ε邻域；核心对象：如果给定对象Ε领域内的样本点数大于等于MinPts,则称该对象为核心对象；直接密度可达：对于样本集合D,如果样本点q在p的Ε领域内,并且p为核心对象,那么对象q从对象p直接密度可达;密度可达：对于样本集合D,给定一串样本点p1,p2….pn,p= p1,q= pn,假如对象pi从pi-1直接密度可达,那么对象q从对象p密度可达;注意：密度可达是单向的,密度可达即可容纳同一类;密度相连：存在样本集合D中的一点o,如果对象o到对象p和对象q都是密度可达的,那么p和q密度相联;密度可达是直接密度可达的传递闭包,并且这种关系是非对称的;密度相连是对称关系;DBSCAN目的是找到密度相连对象的最大集合;有了以上的概念接下来就是算法描述了：DBSCAN通过检查数据库中每点的r邻域来搜索簇;如果点p 的r邻域包含的点多于MinPts个,则创建一个以p为核心对象的新簇;然后,DBSCAN迭代的聚集从这些核心对象直接密度可达的对象,这个过程可能涉及一些密度可达簇的合并;当没有新的点可以添加到任何簇时,该过程结束;例如：Eg: 假设半径Ε=3,MinPts=3,点p的E领域中有点{m,p,p1,p2,o}, 点m的E领域中有点{m,q,p,m1,m2},点q的E领域中有点{q,m},点o的E领域中有点{o,p,s},点s的E领域中有点{o,s,s1}.那么核心对象有p,m,o,sq不是核心对象,因为它对应的E领域中点数量等于2,小于MinPts=3；点m从点p直接密度可达,因为m在p的E领域内,并且p为核心对象；点q从点p密度可达,因为点q从点m直接密度可达,并且点m从点p直接密度可达；点q到点s密度相连,因为点q从点p密度可达,并且s从点p密度可达;2、簇的生成原理及过程1DBSCAN聚类算法原理的基本要点：确定半径eps的值①DBSCAN算法需要选择一种距离度量,对于待聚类的数据集中,任意两个点之间的距离,反映了点之间的密度,说明了点与点是否能够聚到同一类中;由于DBSCAN算法对高维数据定义密度很困难,所以对于二维空间中的点,可以使用欧几里德距离来进行度量;②DBSCAN算法需要用户输入2个参数：一个参数是半径Eps,表示以给定点P为中心的圆形邻域的范围；另一个参数是以点P为中心的邻域内最少点的数量MinPts;如果满足：以点P为中心、半径为Eps 的邻域内的点的个数不少于MinPts,则称点P为核心点;③DBSCAN聚类使用到一个k-距离的概念,k-距离是指：给定数据集P={pi; i=0,1,…n},对于任意点Pi,计算点Pi到集合D的子集S={p1, p2, …, pi-1, pi+1, …, pn}中所有点之间的距离,距离按照从小到大的顺序排序,假设排序后的距离集合为D={d1, d2, …, dk-1, dk, dk+1, …,dn},则dk就被称为k-距离;也就是说,k-距离是点pi到所有点除了pi点之间距离第k近的距离;对待聚类集合中每个点pi都计算k-距离,最后得到所有点的k-距离集合E={e1, e2, …, en};④根据经验计算半径Eps：根据得到的所有点的k-距离集合E,对集合E进行升序排序后得到k-距离集合E’,需要拟合一条排序后的E’集合中k-距离的变化曲线图,然后绘出曲线,通过观察,将急剧发生变化的位置所对应的k-距离的值,确定为半径Eps的值;⑤根据经验计算最少点的数量MinPts：确定MinPts的大小,实际上也是确定k-距离中k的值,DBSCAN 算法取k=4,则MinPts=4;⑥另外,如果觉得经验值聚类的结果不满意,可以适当调整Eps和MinPts的值,经过多次迭代计算对比,选择最合适的参数值;可以看出,如果MinPts不变,Eps取得值过大,会导致大多数点都聚到同一个簇中,Eps过小,会导致一个簇的分裂；如果Eps不变,MinPts的值取得过大,会导致同一个簇中点被标记为噪声点,MinPts过小,会导致发现大量的核心点;我们需要知道的是,DBSCAN算法,需要输入2个参数,这两个参数的计算都来自经验知识;半径Eps的计算依赖于计算k-距离,DBSCAN取k=4,也就是设置MinPts=4,然后需要根据k-距离曲线,根据经验观察找到合适的半径Eps的值;2连通核心点生成簇核心点能够连通有些书籍中称为：“密度可达”,它们构成的以Eps长度为半径的圆形邻域相互连接或重叠,这些连通的核心点及其所处的邻域内的全部点构成一个簇;假设MinPts=4,则连通的核心点示例,如下图所示：计算连通的核心点的思路是,基于广度遍历与深度遍历集合的方式：从核心点集合S中取出一个点p,计算点p与S集合中每个点除了p点是否连通,可能会得到一个连通核心点的集合C1,然后从集合S中删除点p和C1集合中的点,得到核心点集合S1；再从S1中取出一个点p1,计算p1与核心点集合S1集中每个点除了p1点是否连通,可能得到一个连通核心点集合C2,再从集合S1中删除点p1和C2集合中所有点,得到核心点集合S2,……最后得到p、p1、p2、……,以及C1、C2、……就构成一个簇的核心点;最终将核心点集合S中的点都遍历完成,得到所有的簇;参数eps的设置,如果eps设置过大,则所有的点都会归为一个簇,如果设置过小,那么簇的数目会过多;如果MinPts设置过大的话,很多点将被视为噪声点;3、根据数据点的密度分为三类点：1核心点：该点在邻域内的密度超过给定的阀值MinPs;2边界点：该点不是核心点,但是其邻域内包含至少一个核心点;3噪音点：不是核心点,也不是边界点;有了以上对数据点的划分,聚合可以这样进行：各个核心点与其邻域内的所有核心点放在同一个簇中,把边界点跟其邻域内的某个核心点放在同一个簇中;聚类的效果如下图,黑色是噪音点：初识聚类算法:因为DBSCAN使用簇的基于密度的定义,因此它是相对抗噪音的,并且能处理任意形状和大小的簇;但是如果簇的密度变化很大,例如ABCD四个簇,AB的密度大大大于CD,而且AB附近噪音的密度与簇CD 的密度相当,这是当MinPs较大时,无法识别簇CD,簇CD和AB附近的噪音都被认为是噪音；当MinPs 较小时,能识别簇CD,但AB跟其周围的噪音被识别为一个簇;这个问题可以基于共享最近邻SNN的聚类结局;4、DBSCAN的优缺点：优点：1. 与K-means方法相比,DBSCAN不需要事先知道要形成的簇类的数量;2. 与K-means方法相比,DBSCAN可以发现任意形状的簇类;3. 同时,DBSCAN能够识别出噪声点;对于数据库中样本的顺序不敏感,即Pattern的输入顺序对结果的影响不大;但是,对于处于簇类之间边界样本,可能会根据哪个簇类优先被探测到而其归属有所摆动;缺点：1. DBScan不能很好反映高尺寸数据;2. DBScan不能很好反映数据集变化的密度;3.对于高维数据,点之间极为稀疏,密度就很难定义了;。

聚类算法

层次聚类算法优缺点及改进算法
• 优点：适用于任意形状和任意属性的数据集，灵活控制不同层次的聚类粒度，强聚类能力。 • 缺点：大大延长了算法的执行时间，不能回溯处理。
层次聚类方法尽管简单，但经常会遇到合并或分裂点的选择的困难。改进层次方法的聚类质量的一个有希望的方向是将层次聚类和其他聚类技术进行集成，形成多阶段聚类。下面介绍两个改进的层次聚类方法BIRTH 和CURE 。
层次聚类
当采用划分聚类方法（如k-means）K值选取十分困难时，我们不妨考虑可以考虑层次聚类。层次聚类是另一种主要的聚类方法，它具有一些十分必要的特性使得它成为广泛应用的聚类方法。它生成一系列嵌套的聚类树来完成聚类。单点聚类处在树的最底层，在树的顶层有一个根节点聚类。根节点聚类覆盖了全部的所有数据点。可根据其聚类方式划分为：凝聚（自下而上）聚类和分裂（自上而下）聚类。层次凝聚的代表是AGNES算法。层次分裂的代表是DIANA算法。
BIRCH算法试图利用可用的资源来生成最好的聚类结果。通过一次扫描就可以进行较好的聚类，故该算法的计算复杂度是O(n)，n是对象的数目。
CURE聚类算法
很多聚类算法只擅长处理球形或相似大小的聚类，另外有些聚类算法对孤立点比较敏感。CURE算法解决了上述两方面的问题，选择基于质心和基于代表对象方法之间的中间策略，即选择空间中固定数目的具有代表性的点，而不是用单个中心或对象来代表一个簇。该算法首先把每个数据点看成一簇，然后再以一个特定的收缩因子向簇中心“收缩”它们，即合并两个距离最近的代表点的簇。
同分类不同，对于一个分类器，通常需要你告诉它 “这个东西被分为某某类”这样一些例子，理想情况下，一个分类器会从它得到的训练集中进行“学习”，从而具备对未知数据进行分类的能力，这种提供训练数据的过程通常叫做监督学习。而在聚类的时候，我们并不关心某一类是什么，我们需要实现的目标只是把相似的东西聚到一起，一个聚类算法通常只需要知道如何计算相似度就可以开始工作了，因此，聚类通常并不需要使用训练数据进行学习，这在机器学习中被称作无监督学习。

mean-shift算法matlab代码

一、介绍Mean-shift算法Mean-shift算法是一种基于密度估计的非参数聚类算法，它可以根据数据点的密度分布自动寻找最优的聚类中心。

该算法最早由Dorin Comaniciu和Peter Meer在1999年提出，并被广泛应用于图像分割、目标跟踪等领域。

其原理是通过不断地将数据点向局部密度最大的方向移动，直到达到局部密度的最大值点，即收敛到聚类中心。

二、 Mean-shift算法的优势1. 无需事先确定聚类数量：Mean-shift算法不需要事先确定聚类数量，能够根据数据点的密度自动确定聚类数量。

2. 对初始值不敏感：Mean-shift算法对初始值不敏感，能够自动找到全局最优的聚类中心。

3. 适用于高维数据：Mean-shift算法在高维数据中仍然能够有效地进行聚类。

三、 Mean-shift算法的实现步骤1. 初始化：选择每个数据点作为初始的聚类中心。

2. 计算密度：对于每个数据点，计算其密度，并将其向密度增加的方向移动。

3. 更新聚类中心：不断重复步骤2，直至收敛到局部密度的最大值点，得到最终的聚类中心。

四、 Mean-shift算法的Matlab代码实现以下是一个简单的Matlab代码实现Mean-shift算法的示例：```matlab数据初始化X = randn(500, 2); 生成500个二维随机数据点Mean-shift算法bandwidth = 1; 设置带宽参数ms = MeanShift(X, bandwidth); 初始化Mean-shift对象[clustCent, memberships] = ms.cluster(); 执行聚类聚类结果可视化figure;scatter(X(:,1), X(:,2), 10, memberships, 'filled');hold on;plot(clustCent(:,1), clustCent(:,2), 'kx', 'MarkerSize',15,'LineWidth',3);title('Mean-shift聚类结果');```在代码中，我们首先初始化500个二维随机数据点X，然后设置带宽参数并初始化Mean-shift对象。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第３４卷第６期　２０１７年６月　计算机应用研究　Ａｐｐｌｉｃａｔｉｏｎ　Ｒｅｓｅａｒｃｈ　ｏｆ　Ｃｏｍｐｕｔｅｒｓ　Ｖｏ１．３４　Ｎｏ．６　

Ｊｕｎ．２０１７　

最优聚类个数和初始聚类中心点选取算法研究　张素洁　，赵怀慈　’　（１．中国科学院沈阳自动化研究所，沈阳１１００１６；２．中国科学院大学，北京１０００４９；３．中国科学院光电信息　处理重点实验室，沈阳１１００１６；４．辽宁省图像理解与视觉计算重点实验室，沈阳１１００１６）　

摘要：传统Ｋ．ｍｅａｎｓ算法的聚类数ｋ值事先无法确定，而且算法是随机性地选取初始聚类中心点，这样容易　造成聚类结果不稳定且准确率较低。基于ＳＳＥ来选取聚类个数ｋ值，基于聚类中心点所在的周围区域相对比较　密集、聚类中心点之间距离相对较远的选取原则来选取初始聚类中心点，避免初始聚类中心点集中在一个小的　范围，防止陷入局部最优。实验证明，该算法能选取最优的ｋ值，通过用标准的ＵＣＩ数据库进行实验，采用的算　法能选择出唯一的初始中心点，聚类准确率较高、误差平方和较小。　关键词：Ｋ．ｍｅａｎｓ算法；聚类中心；准确率；误差平方和　中图分类号：ＴＰ３０１．６　文献标志码：Ａ　文章编号：１００１—３６９５（２０１７）０６－１６１７－０４　ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１—３６９５．２０１７．０６．００４　

Ａｌｇｏｒｉｔｈｍ　ｒｅｓｅａｒｃｈ　ｏｆ　ｏｐｔｉｍａｌ　ｃｌｕｓｔｅｒ　ｎｕｍｂｅｒ　ａｎｄ　ｉｎｉｔｉａｌ　ｃｌｕｓｔｅｒ　ｃｅｎｔｅｒ　Ｚｈａｎｇ　Ｓｕｊｉｅ　，　，　．Ｚｈａ０　Ｈｕａｉｃｉ　，　，　（１．Ｓｈｅｎｙａｎｇ　Ｉｎｓｔｉｔｕｔｅ　ｏｆＡｕｔｏｍａｔｉｏｎ，Ｃｈｉｎｅｓｅ　Ａｃａｄｅｍｙ　ｏｆＳｃｉｅｎｃｅｓ，Ｓｈｅｎｙａｎｇ　１１００１６，Ｃｈｉｎａ；２．Ｕｎｉｖｅｍｉｔｙ　ｏｆＣｈｉｎｅｓｅ　Ａｃａｄｅｍｙ　ｏｆＳｃｉｅｎｃｅｓ，　Ｂｅｉｊｉｎｇ　１０００４９，Ｃｈｉｎａ；３．Ｋｅｙ　Ｌａｂｏｒａｔｏｒｙ　ｏｆ　Ｏｐｔｏ—Ｅｌｅｃｔｒｏｎｉｃ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｐｒｏｃｅｓｓｉｎｇ，Ｃｈｉｎｅｓｅ　Ａｃａｄｅｍｙ　ｏｆ　Ｓｃｉｅｎｃｅ，Ｓｈｅｎｙａｎｇ　１　１００１６，Ｃｈｉ—　ｎａ；４．Ｌｉａｏｎｉｎｇ　Ｐｒｏｖｉｎｃｅ　Ｋｅｙ　Ｌａｂｏｒａｔｏｒｙ　ｏｆＩｍａｇｅ　Ｕｎｄｅｍｔａｎｄｉｎｇ＆Ｃｏｍｐｕｔｅｒ　Ｖｉｓｉｏｎ，Ｓｈｅｎｙａｎｇ　１１００１６，Ｃｈｉｎａ）　

Ａｂｓｔｒａｃｔ：Ｔｈｅ　ｃｌｕｓｔｅｒ　ｋ　ｏｆ　ｔｒａｄｉｔｉｏｎａｌ　Ｋ．ｍｅａｎｓ　ａｌｇｏｒｉｔｈｍ　ｃｏｕｌｄ　ｎｏｔ　ｄｅｔｅｒｍｉｎｅ　ｂｅｆｏｒｅｈａｎｄ　ａｎｄ　ｔｈｅ　ｉｎｉｔｉａｌ　ｃｌｕｓｔｅｒｉｎｇ　ｃｅｎｔｅｒｓ　ｏｆ　Ｋ—ｍｅａｎｓ　ａｌｇｏｒｉｔｈｍ　ｗｅｒｅ　ｒａｎｄｏｍｌｙ　ｓｅｌｅｃｔｅｄ，ｗｈｉｃｈ　ｍｉｇｈｔ　ｒｅｓｕｈ　ｉｎ　ｌｏｗ　ａｃｃｕｒａｒｙ　ａｎｄ　ｕｎｓｔａｂｌｅ　ｃｌｕｓｔｅｒｉｎｇ．Ｔｈｉｓ　ｐａｐｅｒ　ｂａｓｅｄ　ｏｎ　ｔｈｅ　ＳＳＥ　ｆｏｒ　ｓｅｌｅｃｔｉｎｇ　ｔｈｅ　ｎｕｍｂｅｒ　ｏｆ　ｃｌｕｓｔｅｒｓ　ｋ，ｂａｓｅｄ　ｏｎ　ｔｈｅ　ｐｒｉｎｃｉｐｌｅ　ｔｈａｔ　ｔｈｅ　ｃｌｕｓｔｅｒｉｎｇ　ｃｅｎｔｅｒ　ｏｆ　ｔｈｅ　ｓｕｒｒｏｕｎｄｉｎｇ　ａｒｅａ　ｗａｓ　ｒｅｌａｔｉｖｅ—　ｌｙ　ｄｅｎｓｅ，ａｎｄ　ｂｅｔｗｅｅｎ　ｔｈｅ　ｃｌｕｓｔｅｒｉｎｇ　ｃｅｎｔｅｒ　ｄｉｓｔａｎｃｅ　ｗａｓ　ｒｅｌａｔｉｖｅｌｙ　ｆａｒ，ｓｅｌｅｃｔｅｄ　ｔｈｅ　ｉｎｉｔｉａｌ　ｃｌｕｓｔｅｒｉｎｇ　ｃｅｎｔｅｒ　ｔｏ　ａｖｏｉｄ　ｔｈｅ　ｉｎｉｔｉａｌ　ｃｌｕｓｔｅｒｉｎｇ　ｃｅｎｔｅｒ　ｆｏｃｕｓｅｄ　ｏｎ　ａ　ｓｍａｌｌ　ｒａｎｇｅ，ｐｒｅｖｅｎｔｅｄ　ｆａｌｌ　ｉｎｔｏ　ｌｏｃａｌ　ｏｐｔｉｍｕｍ．Ｉｎ　ｔｈｅ　ｃａｓｅ　ｏｆ　ｔｈｅ　ｎｕｍｂｅｒ　ｏｆ　ｃａｔｅｇｏｒｉｅｓ　ｋ　ｗａｓ　ｇｉｖ—　ｅｎ．Ｔｈｉｓ　ｐａｐｅｒ　ｕｓｅｄ　ｔｈｅ　ｓｔａｎｄａｒｄ　ＵＣＩ　ｄａｔａ　ｓｅｔｓ　ｆｏｒ　ｔｅｓｔ．Ｔｅｓｔｓ　ｓｈｏｗ　ｔｈａｔ，ｔｈｉｓ　ｍｅｔｈｏｄ　ｃａｎ　ｓｅｌｅｃｔ　ｔｈｅ　ｏｐｔｉｍａｌ　ｖａｌｕｅ　ｏｆ　ｋ，ｉｔ　ｃａｌｌ　ｃｈｏｏｓｅ　ｔｈｅ　ｏｎｌｙ　ｃｅｎｔｅｒ　ｏｆ　ｉｎｉｔｉａｌ　ｃｌｕｓｔｅｒｉｎｇ　ａｎｄ　ｈａｖｅ　ｔｈｅ　ｈｉｇｈｅｒ　ａｃｃｕｒａｃｙ　ａｎｄ　ｔｈｅ　ｍｉｎｉｍｕｍ　ｅｒｒｏｒｓ．　Ｋｅｙ　ｗｏｒｄｓ：Ｋ—ｍｅａｎｓ　ａｌｇｏｒｉｔｈｍ；ｃｌｕｓｔｅｒ　ｃｅｎｔｅｒｓ；ａｃｃｕｒａｃｙ；ｓｑｕａｒｅｄ　ｅｒｒｏｒ　

０　引言　聚类与分类不同，它是在无监督条件下依据数据自身的特　征将数据自动地分为多个簇或类，好的聚类结果的评价指标是　不同的簇中数据样本之问的差别越大、越明显越好，而同一簇　中数据之间要越相似、差距越小越好　。通过动态地聚类可　以发掘数据间各个类别数据的分布规律和各属性之间的关联　关系，对同一分类中的相似数据进行分析，可减少数据的时间　和空间规模。Ｋ－ｍｅａｎｓ是一种基于划分的聚类算法，它以误差　平方和（ｓｕｍ　ｏｆ　ｔｈｅ　ｓｑｕａｒｅｄ　ｅｒｒｏｒ，ＳＳＥ）作为聚类准则函数来衡　量聚类结果的优劣。Ｋ－ｍｅａｎｓ算法是一种经典的聚类算法　，　思想简便、容易理解、效率高并且可适用于大的数据集，因此该　算法有着较广泛的应用，与此同时它也存在着一些不可避免的　问题：ａ）在执行算法之前，并不知道要对数据聚成几类，即ｋ值　是未知的；ｂ）传统的聚类算法是从要聚类的样本中任意挑选　指定各样本作为初始聚类中心点，这样每次执行聚类算法结果　可能会出现不一样的情况，致使结果不稳定。为了获取相对较　

好的聚类结果，在聚类之前如何获取准确的　值和正确地挑选　合适的初始中心点的研究具有非常重要的价值　。　初始聚类中心点选取得恰当与否直接影响最终聚类效果　的好坏，且每次结果的差异较大，结果上下浮动不稳定。正确　地选取初始聚类中心点会得到较高的聚类准确率，且每一类别　的迭代循环次数会降低，大大缩短算法的时间；相反，中心点选　取不当会出现错误的聚类结果，后续对错误的结果进行分析会　得出错误的结论。已有的一系列这部分研究包括：文献［４］基　于最小生成树原则，经过剪枝生成初始聚类中心；文献［５］对　数据样本生成ｋ－ｄｉｓｔ差值图，初始聚类中心点从ｋ－ｄｉｓｔ较小值　中对应的数据点选取；文献［６］利用贪心算法构建数据集合，　计算集合中数据的平均值作为初始聚类中心；文献［７］提出最　大距离积法，选取到所有已初始化聚类中心距离积最大的高密　度点作为当前聚类中心。实际中使算法最高效、最恰当的聚类　中心点的密集度要高于其余的数据样本点　Ｊ，并且聚类中心　分布相对比较疏散，不会集中在某一小范围区域内。本文根据　密度和最远距离的原则对原有算法进行改进，挑选出指定个数　的初始聚类中心点，并用这些点进行聚类分析。　

收稿日期：２０１６－０４－２４；修回日期：２０１６－０６—０６　作者简介：张素洁（１９９１一），女，河南开封人，硕士，主要研究方向为数据分析与挖掘等（ｚｈａｎｇｓｕｊｉｅ＠ｓｉａ．ｃｎ）；赵怀慈（１９７４一），男，山东潍坊人，　研究员，博导，博士，主要研究方向为复杂系统建模与仿真、指挥、控制、通信与信息处理技术以及图像处理等．　・１６ｌ８・　计算机应用研究　第３４卷　１　传统Ｋ．ｍｅａｎｓ算法　传统Ｋ—ｍｅａｎｓ算法　的基本思想是：执行算法之前要先从　所有数据点中任意挑选出ｋ个点作为初始聚类中心点，而剩余　的其他要分配类别的样本点，则根据它们与这些中心点的相似　度，基于数据间欧氏距离越小相似度越高的原则，分别将其分　配给与其最相似的聚类；等到每个数据点都分配到一个类别后　再次计算得到每个类别新的聚类中心，并对剩余数据点进行再　次指定新的类别。对这个过程进行循环迭代直到达到给定的　次数或聚类准则函数开始收敛为止。　１．１　几个相关的基本概念　待聚类的数集Ｄ＝　Ｒ　，　１，２，…，ｌ／，｝，Ｐ是维数。　定义１样本之间的欧氏距离。　ｄ（　，Ｘｊ）＝￣／（　一　，）　（　一ｘｊ）　（１）　定义２所有数据样本的平均距离。　ｄ＝　１　莹　§ｍ　，ｘｊ）　（２）　

其中：ｎ为要聚类的所有数据样本点的个数，Ｃ：是ｎ个样本点　中随机选取两个点的所有可选的组合数，ｄ（　，　）是数据　到　数据　，的距离。　定义３聚类准则函数。　

Ｅ＝∑∑Ｉｘ　一ｃ　ｌ　（３）　ｉ　ｌ　Ｅ　ｃ　。　

其中：ｃ　，Ｃ　，…，Ｃ　为ｋ个聚类中心。　

１＿２　ｋ值的选取　在进行聚类之前，要先指定聚类个数ｋ值。但聚类算法是　一种无监督的学习算法，一般情况下，拿到数据的时候并不知　道要聚为几类，聚类个数太少，有些不相似的数据会被分到同　

一个类别中，聚类个数太多会导致每一簇中数据过少，相似的　数据不能分到同一个类中。由此可见，聚类个数过多和过少，　都不能得到正确的聚类结果。选择适当的分类个数的一个普　通方法是遍历得到某一范围分类数的平方误差（ＳＳＥ）。ＳＳＥ　定义为集群的每个成员和聚类中心之间的平方距离的总和，因　此，它可以被看做是一个全局的误差。在一般情况下，随着簇　数量的增加，根据定义可知，每一簇的数据会变少，误差平方和　应该降低。绘制不同簇数量的ＳＳＥ可以提供一个有用的图形　化的方式来选择一个合适的聚类个数。一般情况下，聚类个数　最少为２，最多为　，其中ｎ为聚类样本数目。所以依次求出　聚类个数为２～√ｎ所对应的误差平方和，最优的聚类个数为误　差平方和显著减少时所对应的ｋ值。但是在许多情况下，找不　到一个误差平方和明显下降的点。本文通过对原始输入数据　产生２５０个随机化版本数据，并计算每一个随机化数据所对应　的ＳＳＥ。对原始数据产生随机版本的原因是为了测试对于给　定的聚类簇，实际的数据相对于随机数据是否有明显的改善。　聚类分析的目标是选择一个集群解决方案，代表了有意义的结　构数据，评估聚类数的方法之一是确定的数据最不同于随机产　生的数据。　随机的数据是按列随机产生的，所以每个变量将具有相同　的平均值和标准偏差。如果数据有最恰当的聚类数，当聚类数　目上升的时候，实际数据的ＳＳＥ下降速度应比随机产生的数　据下降得快。最优的聚类个数可以被定义为实际数据的ＳＳＥ　

最不同于随机平均数据的ＳＳＥ所对应的ｋ值。因此，可以得到　真实数据和随机数据的ＳＳＥ差值的均值和方差，取差值的均　值最大时所对应的ｋ值为最终要聚类的个数。　

２　Ｋ．ｍｅａｎｓ初始聚类中心改进算法　由传统的Ｋ．ｍｅａｎｓ算法的原理可知，随机性地挑取初始聚　类中心点会使最终结果具有不确定性和随机性，初始聚类中心　点选择得恰当与否对最后聚类效果的影响至关重要，要想得到　最正确合理的聚类效果，在聚类之前选取合适的聚类中心点是　非常必须的。因此，要选取合适的点作为初始聚类中心点，否　则一旦聚类中心选取不合适，最终会产生一个不正确的聚类效　果。本文针对算法自身的这一缺点，根据数据样本点的密度和　最远距离的原则，提出了一种新的改进算法。　聚类中心点的选取原则是：首先点所在的周围点相对比较　密集，其次聚类中心点之间距离相对较远，即具有很好的分步　性，防止陷入局部最优解。本文针对这两个原则在原算法的基　础上找出一种新的寻找初始中心点的方法。对于密集点，本文　定义如果点　邻域ａｖｇＤｉｓｔ内包含点的样本数据个数大于ｍｉｎ—　Ｐｏｉｎｔｓ，则　为密集点，ｍｉｎＰｏｉｎｔｓ为最低样本个数阈值。如图１　所示