一种优化的K-Means聚类算法

合集下载

k-means算法

k-means算法k-means算法是无监督学习领域最为经典的算法之一。

接触聚类算法，首先需要了解k-means算法的实现原理和步骤。

本文将对k-means算法的基本原理和实现实例进行分析。

希望对喜欢机器学习的童鞋们，有一定的帮助和启发。

首先看看wiki上对k-means算法的基本阐述。

k-means clustering is a method of vectorquantization, originally from signalprocessing, that is popular for clusteranalysis in data mining. k-means clusteringaims to partition n observations into kclusters in which each observation belongs tothe cluster with the nearest mean, serving asa prototype of the cluster.可以看出，k-means算法就是将 n 个数据点进行聚类分析，得到 k 个聚类，使得每个数据点到聚类中心的距离最小。

而实际上，这个问题往往是NP-hard的，以此有许多启发式的方法求解，从而避开局部最小值。

值得注意的是，k-means算法往往容易和k-nearest neighbor classifier（k-NN）算法混淆。

后者是有监督学习的分类（回归）算法，主要是用来判定数据点属于哪个类别中心的。

A simple example for k-means clusteringk-means算法有很多应用：•图像分割（Image Segmentation）•基因分割数据聚类分析（Clustering GeneSegementation Data）•新闻聚类分析（News Article Clustering）•语言聚类分析（Clustering Languages）•物种分析（Species Clustering）•异常检测（Anomaly Detection）•\cdots数学描述给定数据集 X=\{x^{(1)},x^{(2)},\cdots,x^{(n)}\} ，其中每个数据样本 x^{(i)}\in \mathbb{R}^d . k-mean算法旨在将 n 个数据点划分为 k(k\leq n) 个聚类集合\bm{S}=\{S_1,S_2,\cdots,S_k\} ，使得每个聚类集合中的样本点与聚类中心的距离平方和最小（WCSS, within-cluster sum of squares），i.e. 方差最小。

k-means算法步骤及原理

k-means算法是一种基础的聚类算法，其原理和步骤如下：
原理：
k-means算法的主要目标是将n个数据点划分为k个簇，并使每个数据点与所属簇的中心点（即质心）的距离最小化。

其基本思路为先随机选择k个质心，然后迭代地执行以下两个步骤：
1. 簇分配：对于每个数据点，计算其与k个质心的距离，将其分配到距离最近的簇；
2. 更新质心：对于每个簇，计算其中所有数据点的均值，将其作为新的质心。

重复执行以上两个步骤，直到簇不再发生变化或达到最大迭代次数。

最终的簇划分结果即为算法的输出。

步骤：
1. 选择簇数k和数据集；
2. 初始化k个质心，可以随机选择或手动指定；
3. 对于每个数据点，计算其与k个质心的距离，将其分配到距离最近的簇；
4. 对于每个簇，重新计算质心，即将所有数据点的坐标求平均值；
5. 重复执行第3和第4步，直到簇不再发生变化或达到最大迭代次数；
6. 输出簇划分结果。

需要注意的是，k-means算法的结果可能会受到初始质心的影响。

因此，为了得到更好的结果，可以多次运行算法并选择最佳的簇划分结果。

同时，k-means算法要求数据点之间的距离可计算，因此对于某些非欧式距离的情况，需要进行适当的转换或修改算法。

各种聚类算法的优缺点

各种聚类算法的优缺点在机器学习领域中，聚类(cluster)是最基本的无监督学习问题之一。

聚类算法是指把具有相似性质的数据对象分组的算法，被广泛应用于数据挖掘、模式识别等领域。

本文将介绍几种常见的聚类算法、它们的优缺点，并与之间做出比较。

一、K-Means聚类算法K-Means算法又称为K均值算法，是最为普及的一种聚类算法。

该算法通过将 n 个对象分到 k 个类的方法来使每个数据对象都与所属类的均值最为接近。

K-Means聚类算法有以下优缺点：优点：1.简单、易于实现。

2.计算速度快。

缺点：1.需要预先设定数据类别数量，且对初始化比较敏感。

2.数据集分布不均匀或聚类类别的数量差别较大时，聚类效果较差。

二、层次聚类算法层次聚类算法是一种基于树形结构的聚类方法，可以得到不同类别的层次结构。

该算法的核心思想就是通过计算每个数据对象间的距离并逐步将他们聚合成层次结构。

层次聚类算法的优缺点如下：优点：1.可以帮助我们发现数据对象之间的内部关系和层次结构。

2.不需要预先设定聚类类别数量。

缺点：1.计算复杂度较高，不适合大规模数据集。

2.聚类的结果可能会很大，难以在可视化方面得到较好的展示效果。

三、DBSCAN聚类算法DBSCAN是基于密度的聚类算法。

该算法将具有密度连接的数据点视为一组，并且可以在其它密度较低的区域中选择单个数据点。

DBSCAN聚类算法的优缺点如下：优点：1.不需要预设聚类类别数量。

2.能够发现任意形态的聚类。

缺点：1.初始化比较敏感，对参数设置等因素较为敏感。

2.难以解决密度分布不均一、噪音点分布不规律的问题。

四、BIRCH聚类算法BIRCH算法是基于描述的聚类方法，是聚类中的层次算法。

BIRCH的全称是Balanced Iterative Reducing and Clustering using Hierarchies，它采用一种合并聚类方式，通过类的层次结构来简化聚类过程。

BIRCH聚类算法的优缺点如下：优点：1.该算法能够处理海量数据。

一种新的k-means聚类中心选取算法

ｃｕｔｒｎｃｎｅｓｒｆｕｄＡｎａｎｗｋｍｅｎｃｕｔｒｎｅｔｒｌｏｔｍｉｒｐｓｄＴｅｘｅｍｅｔｌｅｕｔｐｏｅｔｅｌｓｅｇｅｔｒａｅｏｎ．ｄｅｉ－ａｓｌｓｅｇｃｎｅａｇｒｈｉｉｓｐｏｏｅ．ｈｅｐｒｉｎａｒｓｌｒｖｓｈｉｒｖｄａｇｒｍａｅｉｈｒａｃｒｃ．ｍｐｏｅｌｏｉｈｔｃｎｇｔｈｇｅｃｕａｙ
２ＣｏｌｇｆＣｍｐｔｒＳｉｎｅＣｈｎｑｎｉｅｓｔ，ｏｇｉｇ４０４Ｃｈｎ．ｌｅｏｏｕｅｃｅｃ，ｏｇｉｇＵｎｖｒｉＣｈｎｑｎ００４，ｉａｅｙ
ＨＵＡＮＧｉＨＥＭｎ，ＺｈｎｓｉＸＩｏｇｈ，ＮＧＸｉｌｉｅａ．ｗｋｍｅｎｓｌｓｅｉｇｅｔｒｓｌｃａｇｒｔｍ．ｍｐｔｒｎａ，ｔ１Ｎｅ－ａｃｕｔｒｎｃｎｅｅｅｔｌｏｉｈＣｏｕｅＥｎｉｅｒｎｇｎｅｉｇ
１．重庆工贸职业技术学院信息工程系，重庆４８００３０２．重庆大学计算机学院，重庆４０４００４
１ＤｅａｔｎｆＩｆｒｔｎＥｇｎｅｎＣｈｎｑｎｎｕｔｙ＆ＴａｅＰｌｔｃｎｃ，ｏｇｉｇ４８０Ｃｈｎ．ｐｒｍｅｔｏｎｏｍａｉｎｉｅｒｇ，ｏｇｉｇＩｄｓｒｏｉｒｄｏｙｅｈｉＣｈｎｑｎ０３０，ｉａ

K-means算法的改进

K-means算法的改进J.B.MacQueen 在1967 年提出的K-means算法到目前为止用于科学和工业应用的诸多聚类算法中一种极有影响的技术。

它是聚类方法中一个基本的划分方法，常常采用误差平方和准则函数作为聚类准则函数。

K-means 算法是一种基于划分的聚类算法，在对所给数据集进行聚类时，必须知道k值的大小，即聚类的数目。

它的思想是：首先从所给定的包含n 个数据对象的数据集中随机选取k 个数据对象作为初始聚类中心点，然后计算其余的数据对象到各个聚类中心点的距离，根据距离最近原则，把数据对象分配给离它最近的聚类中心所代表的簇中；再重新计算各个簇的聚类中心，根据选定的聚类准则函数，采用迭代的方法，不断重复以上过程直到聚类准则函数收敛或者是相邻两次的聚类中心没有变化为止。

每一次迭代，都增加了簇内紧凑性，降低了簇间相似性。

当所有数据对象被正确划分后，下一次迭代聚类中心将不会再发生变化，这时聚类结果已达到最优，算法结束。

K-means 算法的具体过程描述如下：(1) 从给定样本数据集中随机选取k 个数据点作为初始聚类中心；(2) 计算数据集中每个数据到这k 个聚类中心的距离并将每个数据点分配给离它最近的中心点所代表的簇；(3) 计算每个簇中所有数据点的平均值作为每个簇的新的中心；(4) 判断聚类准则函数是否收敛或聚类中心点和上次是否完全相同，若收敛或中心点无变化，则算法结束，输出聚类结果，否则转到步骤(2)。

下面给出一个K-means 算法的例子，以更好的说明该算法的聚类过程。

已知一个数据对象集合X =，各数据对象的值如表所示。

现在要求将数据对象集X 划分为两类，即k=2。

首先随机选择两个点作为初始聚类中心，在这里我们选择和，分别作为和两个簇的初始聚类中心。

然后计算到和的欧式距离，通过公式来计算，如下所示：根据计算可知，距离比距离更近，所以应将划分到所表示的簇中，同理将划分到簇中，将划分到簇中。

K-均值聚类算法

3.确定中心: 用各个聚类的中心向量作为新的中心；
4.重复分组和确定中心的步骤，直至算法收敛；
2.算法实现
输入：簇的数目k和包含n个对象的数据库。输出：k个簇，使平方误差准则最小。
算法步骤：
1.为每个聚类确定一个初始聚类中心，这样就有K 个初始聚类中心。
2.将样本集中的样本按照最小距离原则分配到最邻近聚类
给定数据集X，其中只包含描述属性，不包含类别属性。假设X包含k个聚类子集X1,X2,„XK；各个聚类子集中的样本数量分别为n1，n2,„,nk;各个聚类子集的均值代表点（也称聚类中心）分别为m1， m2,„,mk。
3.算法实例
则误差平方和准则函数公式为：
k
2
E p mi
i 1 pX i
单个方差分别为
E1 0 2.52 2 22 2.5 52 2 22 12.5 E2 13.15
总体平均误差是： E E1 E2 12.5 13.15 25.65 由上可以看出，第一次迭代后，总体平均误差值52.25~25.65，显著减小。由于在两次迭代中，簇中心不变，所以停止迭代过程，算法停止。
示为三维向量（分别对应JPEG图像中的红色、绿色和蓝色通道）； 3. 将图片分割为合适的背景区域（三个）和前景区域（小狗）； 4. 使用K-means算法对图像进行分割。
2 015/8/8
Hale Waihona Puke 分割后的效果注：最大迭代次数为20次，需运行多次才有可能得到较好的效果。
2 015/8/8
例2：
2 015/8/8
Ox y 102 200 3 1.5 0 450 552
数据对象集合S见表1，作为一个聚类分析的二维样本，要求的簇的数量k=2。

kmeans聚类使用条件

kmeans聚类使用条件K-Means 聚类是一种常用的聚类算法，通常用于将数据集划分成K 个不相交的簇。

以下是一些使用K-Means 聚类算法的条件和注意事项：1. 数据类型：K-Means 聚类算法通常适用于数值型数据。

如果数据是分类数据或文本数据，可能需要进行预处理，例如将分类数据转换为数值型表示或使用其他适合的聚类方法。

2. 数据量：K-Means 聚类算法对大规模数据集的处理可能会遇到一些限制。

在处理大规模数据时，可能需要使用一些优化技术，如数据的抽样、初始化方法的选择或使用分布式计算框架。

3. 数据标准化：由于K-Means 算法是基于距离度量来进行聚类的，因此在使用之前通常需要对数据进行标准化或归一化处理，以避免由于数据量纲不同导致的聚类结果偏差。

4. 选择合适的K 值：确定合适的聚类数量K 是K-Means 算法的一个关键步骤。

K 值的选择需要根据实际问题和数据的特点进行考虑，可以通过肘部法则、轮廓系数等方法来辅助选择K 值。

5. 初始化中心：K-Means 算法的性能在很大程度上依赖于初始中心的选择。

选择合适的初始化中心可以改善算法的收敛速度和聚类结果的质量。

常见的初始化方法包括随机选择初始中心、K 均值初始化、K 中值初始化等。

6. 迭代次数：K-Means 算法通过迭代来更新簇中心和分配样本到不同的簇。

通常需要设置一个合适的迭代次数或停止条件，以确保算法收敛或达到满意的聚类效果。

7. 异常值处理：K-Means 算法对异常值比较敏感，异常值可能会对聚类结果产生较大的影响。

在实际应用中，可以考虑对异常值进行预处理或使用其他更适合处理异常值的聚类算法。

8. 可扩展性：K-Means 算法在处理高维数据时可能会遇到可扩展性问题。

在高维数据中，距离度量可能会变得稀疏，导致算法的性能下降。

可以尝试使用一些降维技术或其他适用于高维数据的聚类方法。

kmeans聚类算法评价指标

kmeans聚类算法评价指标Kmeans聚类算法是一种经典的聚类算法，它将数据点分成K个簇，使得每个簇内的数据点相似度较高，不同簇之间的数据点相似度较低。

在Kmeans聚类算法中，评价聚类质量的指标是非常重要的，下面介绍几种常用的Kmeans聚类算法评价指标。

1. SSE（Sum of Squared Errors）：SSE是Kmeans聚类算法中最常用的评价指标，它计算的是所有数据点到其所属簇中心的距离的平方和。

SSE值越小，表示簇内数据点的相似度越高，聚类效果越好。

2. 轮廓系数（Silhouette Coefficient）：轮廓系数是一个综合评价指标，它考虑了簇内数据点之间的相似度和簇间数据点的相似度。

对于一个数据点i，它的轮廓系数为s(i)=(b(i)-a(i))/max(a(i),b(i))，其中a(i)表示数据点i与同簇其他数据点的平均距离，b(i)表示数据点i到其他簇中所有数据点的平均距离，s(i)的取值范围为[-1,1]，值越接近1，表示数据点i的聚类效果越好。

3. CH指标（Calinski-Harabasz Index）：CH指标是一个聚类质量的综合评价指标，它基于簇内的离散度和簇间的相似度，计算公式为CH=(B/(k-1))/(W/(n-k))，其中B表示簇间的离散度，W表示簇内的离散度，k表示簇的个数，n表示数据点的个数，CH指标的值越大，表示聚类效果越好。

4. DB指数（Davies-Bouldin Index）：DB指数是一种基于簇内的离散度和簇间的相似度的聚类质量评价指标，它计算的是簇间距离与簇内距离之比的平均值，公式为DB= (1/k) *sum(max(R(i,j)+R(j,i))/D(i,j))，其中R(i,j)表示簇i和簇j之间的距离，D(i,j)表示簇i和簇j内所有数据点之间的平均距离，DB 指数的值越小，表示聚类效果越好。

以上是Kmeans聚类算法常用的一些评价指标，根据不同的应用场景，选择合适的评价指标来评估Kmeans聚类算法的聚类效果，可以更加准确地评估聚类算法的性能。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

１２Ｏ　一种优化的Ｋ—Ｍｅａｎｓ聚类算法　一种优化的Ｋ—Ｍｅａｎｓ聚类算法　Ａｎ　Ｏｐｔｉｍｉｚｅｄ　Ｋ－Ｍｅａｎｓ　Ｃｌｕｓｔｅｒｉｎｇ　Ａｌｇｏｒｉｔｈｍ　姚　奥　张　宇　（浙江理工大学信息学院，浙江杭州３１００１８）　摘要：聚类在数据挖掘领域应用广泛，但是传统的Ｋ—Ｍｅａｎｓ聚类算法存在对初始聚类中心点敏感以及需要人工设定　聚类个数Ｋ等问题。针对这些问题，在进行评论文本特征词聚类的过程中，提出了一种改进的Ｋ—Ｍｅａｎｓ聚类算法，综合利　用距离和密度来选择初始聚类中心点，并利用评测标准来确定聚类的个数Ｋ。此外，在聚类过程中，提出了利用基于知网的　相似度计算修正相似度矩阵，以及利用成对约束规则来提高聚类的准确度。实验证明，提出的方法是切实有效的。　关键词：距离，密度，初始聚类中心点　Ａｂｓｔｒａｃｔ：Ｔｈｉｓ　ｐａｐｅｒ　ｐｒｅｓｅｎｔｓ　ａｎ　ｉｍｐｒｏｖｅｄ　Ｋ－Ｍｅａｎｓ　ｃｌｕｓｔｅｒｉｎｇ　ａｌｇｏｒｉｔｈｍ，ｔｈｅ　ｃｏｍｐｒｅｈｅｎｓｉｖｅ　ｕｔｉｌｉｚａｔｉｏｎ　ｏｆ　ｄｉｓｔａｎｃｅ　ａｎｄ　ｄｅｎｓｉｔｙ　ｔｏ　ｓｅｌｅｃｔ　ｔｈｅ　ｉｎｉｔｉａｌ　ｃｌｕｓｔｅｒ　ｃｅｎｔｅｒｓ，ａｎｄ　ｕｓｅ　ｍｅｔｒｉｃｓ　ｔｏ　ｄｅｔｅｒｍｉｎｅ　ｔｈｅ　ｐｏｌｙ　ｔｈｅ　ｎｕｍｂｅｒ　ｏｆ　ｃｌａｓｓｅｓ．Ｉｎ　ａｄｄｉｔｉｏｎ，ｔｈｅ　ＣｌＵＳ—　ｔｅｒｉｎｇ　ｐｒｏｃｅｓｓ．Ｔｈｅ　ｐａｐｅｒ　ａｌｓｏ　ｐｒｏｐｏｓｅｓ　ｔｈｅ　ｕｓｅ　ｏｆ　ｔｈｅ　ｃａｌｃｕｌａｔｉｏｎ　ｏｆ　ｃｏｒｒｅｃｔｉｏｎ　ｂａｓｅｄ　ｏｎ　ｓｉｍｉｌａｒｉｔｙ　ＨｏｗＮｅｔ　ｓｉｍｉｌａｒｉｔｙ　ｍａｔｒｉｘ，　ａｎｄ　ｔｈｅ　ｕｓｅ　ｏｆ　ｐａｉｒ　ｗｉｓｅ　ｃｏｎｓｔｒａｉｎｔ　ｒｕｌｅｓ　ｔｏ　ｉｍｐｒｏｖｅ　ｔｈｅ　ａｃｃｕｒａｃｙ　ｏｆ　ｃｌｕｓｔｅｒｉｎｇ．　Ｋｅｙｗｏｒｄｓ：ｄｉｓｔａｎｃｅ，ｄｅｎｓｉｔｙ，ｉｎｉｔｉａｌ　ｃｌｕｓｔｅｒ　ｃｅｎｔｅｒｓ　

聚类分析是数据挖掘技术中一项重要的研究课题，在很多领　域都有具有广泛的应用，如模式识别、数据分析等。聚类分析的目　的是将数据对象分成若干个类或簇，使得在同一个簇中的对象之　间具有较高的相似度，而不同簇中的对象之间相似度较低＿１］。通过　聚类分析，人们能够识别出数据分布密集和稀疏的区域，发现全　局的分布模式以及数据属性之间一些意想不到的相互关系。　１　Ｋ—Ｍｅａｎｓ算法的改进　１．１初始聚类中心点选择　传统的Ｋ—Ｍｅａｎｓ聚类算法对选择的初始聚类中心点敏感，　选择不同的初始聚类中心点可能导致聚类结果的不同，从而导致　获得非全局最优解。如何选取一组最能反映数据对象的分布特征　的初始聚类中心点，最大程度的提高聚类算法的效率，本文针对　这个问题对传统的Ｋ—Ｍｅａｎｓ聚类算法进行了相应的改进。　在用欧氏距离作为相似度度量的Ｋ—Ｍｅａｎｓ聚类算法中，我　们希望选取的初始聚类中心点之间尽量的分散，相比较而言，相距　距离最远的Ｋ个数据对象更加具有代表性。但是在实际的应用　中，数据集中往往存在噪声点，这类边缘点、孤立点往往会被选取　作为聚类初始中心点，从而影响聚类的效果。而单纯的基于密度的　方法选择初始聚类中心点，则需要指定领域半径以及密度阈值，而　且忽略了距离因素。因此，本文综合考虑距离因素以及密度因素，　对Ｋ—Ｍｅａｎｓ聚类算法的初始聚类中心点选择进行了改进。　算法的基本思想是：　Ｓｔｅｐ１：根据距离公式计算数据对象之间的距离，选取相距　最远的两个数据对象；　Ｓｔｅｐ２：根据给定的半径ｄ与密度阈值ｍ，判断所选择的两　个点是否符合要求，若不符合，跳到Ｓｔｅｐ３；否则，跳到Ｓｔｅｐ４；　Ｓｔｅｐ３：舍弃选中的两个点并标记其距离值，重新选择除标　记过的距离值以外的相距最远的两个点，并返回Ｓｔｅｐ２；　Ｓｔｅｐ４：将最终符合条件的两个点以及它们的临近点作为两　个类的初始聚类，并计算其初始聚类中心；　Ｓｔｅｐ５：在选取第Ｋ个初始聚类中心点时，计算其余的数据　对象到前Ｋ一１聚类中心的距离，选择距离已知分类最远的点；　Ｓｔｅｐ６：根据给定的领域半径ｄ与密度阈值ｍ，判断所选的　点是否符合要求，若不是，舍弃该点并标记其距离值，重新选择　除了标记距离值以外与已知分类相距最远的点，不但重复　Ｓｔｅｐ６直到满足条件；　Ｓｔｅｐ７：将满足条件的点与其临近点作为第Ｋ个初始分类，　并得到分类的初始聚类中心；　Ｓｔｅｐ８：重复Ｓｔｅｐ５到Ｓｔｅｐ７，直到Ｋ不满足ＤＢＩ评估条件　为止。　在计算剩余数据对象与已知分类的距离时，我们采用如下　距离公式：　

＝ｍｉｎ（ｄ（ｘ，Ｘ，），ｄ（ｘ，ｘ２），…，ｄ（ｘ。．）（Ｊ））　换言之，数据对象到其他分类的距离是其到各个分类中心　点的距离的最小值。　１．２聚类个数的确定　传统的Ｋ—Ｍｅａｎｓ聚类算法中，聚类个数Ｋ是由用户预先　给定的。而对于非领域专家而言，聚类个数Ｋ是一个模糊的概　念。因此，我们需要一个评估指标，来确定何时的个数已达到最　佳。我们采用Ｄａｖｉｅｓ—Ｂｏｕｌｄｉｎ指数（ＤＢＩ）　来对聚类个数Ｋ进　行评估。　ＤＢＩ指标是一种评估聚类分散程度的度量标准，这是一种　内部评测方案，用分类内数据对象的紧密程度来对聚类结果进　行评测。Ｄａｖｉｅｓ—Ｂｏｕｌｄｉｎ指数实际上计算的是类内距离之和与　类间距离之和的比值［３］。　ＤＢＩ首先定义了一个分散度的值Ｓ，表示第ｉ个分类内部数　据对象的分散程度，计算公式如下：　三　一　Ｓ『＝÷　ｌｌ　ｘｊ—　ｌＩ　

其中，Ｔ表示第ｉ个分类内数据对象的个数，Ｘｉ表示第１个分　类内的数据对象，　表示第｛个分类的质心。　其次，ＤＢＩ定义了一个距离值Ｍ，表示第ｉ个分类的质心和　第ｊ个分类的质心之间的欧氏距离，计算公式如下：　

＝ＩＪ．）（『一　ｌｌ　此外，ＤＢＩ定义了相似度值Ｒ，用来表示两个分类ｉ，ｊ之间　的相似度，计算公式如下：　

＝　最后，通过计算每个分类与其他分类的最大相似度值，并得　《工业控制计算机｝２０１６年第２９卷第１　１期　１２１　到所有分类的最大相似度值的均值，得到的便是ＤＢＩ值，计算公　式如下：　

ＤＢ｛＝　Ｔ，ｍ　ａｘ｜￣　

在确定聚类个数Ｋ时，每当找到一个新的聚类中心点，便计　算当前的ＤＢＩ值，并与之前的ＤＢＩ值做比较，若新的ＤＢＩ参数　大于旧的ＤＢＩ，则接受当前形成的新的分类，否则，拒绝形成新　的分类，并停止聚类中心点的查找。　１．３知网相似度修正　由于共现分析的局限性，存在不合理性。例如：拿“手机的性　价比很高。”与“手机的分辨率很高。”这两句话看，“性价比”以及　“分辨率”的共现空间会十分的相似，因此这两个词的相似度会　非常高。然而“性价比”与“分辨率”在实际意义上却并不会有如　此之高的相似度。　在数据对象的相似度计算上，我们通过基于知网的词汇语　义相似度计算　］，来改进原本单纯基于共现分析的相似度计算　结果。但是，由于网络评论文本的自由性与网络新兴词汇的流　通，知网的语义知识词典中不包含许多网络新词；再者很多词汇　的相似性具有领域相关性，比如“宝贝”和“手机”，语义上并不相　似，但是在评论中往往指的值同一个属性。因此，本文在计算数　据对象的相似度时，结合了共现分析得到的相似度与基于知网　的词汇语义相似度计算的结果，并以此来进行数据对象的聚类　分析。　１．４　ｍｕｓｔ—ｌｉｎｋ与ｃａｎｎｏｔ—ｌｉｎｋ成对约束　利用《知网》的词汇语义相似度计算修正相似度计算结果，　并不能完全解决基于共现分析的噪声问题。一方面是由于知网　的语义知识词典不能包罗所有的数据对象；另一方面是由于基　于《知网》的词汇语义相似度计算利用的是Ｈｏｗｎｅｔ中“义原”的　树状层次结构　］，更多的是词语类别上的相似性。　因此，我们提出来利用ｃａｎｎ￣－Ｉｉｎｋ、ｍｕｓｔ—ｌｉｎｋ两项约束规　则加以辅助，以优化聚类结果。ｍｕｓｔ—ｌｉｎｋ约束规定：如果两个样　本属于ｍｕｓｔ—ｌｉｎｋ约束，那么这两个样本在聚类时必须被分配　到同一个聚类中。ｃａｎｎ￣一ｌｉｎｋ约束则相应地规定：如果两个样　本属于ｃａｎｎ￣一ｌｉｎｋ约束，那么这两个样本在聚类时必须被分配　到不同聚类之中［７］。　本文首先采用自然语言的知识来自动识别出部分ｍｕｓｔ—　ｌｉｎｋ约束对，如果两个词语共享一个或几个字，例如“机子”和　“机器”，这两个词语共享“机”这个字，那么就认为这两个词语存　在ｍｕｓｔ—ｌｉｎｋ约束　］。然后人工筛选出部分合适的ｍｕｓｔ—ｌｉｎｋ约　束对，以及人工指定部分ｃａｎｎ￣一ｌｉｎｋ约束对。最终形成的约束　对之间存在着传递性和对称性，例如“物流一快递”是一个　ｍｕｓｔ—ｌｉｎｋ约束对，那么“快递一物流”也一定是一个ｍｕｓｔ—ｌｉｎｋ　约束对，这就是ｍｕｓｔ—ｌｉｎｋ约束对的对称性，同理，ｃａｎｎｏｔ—ｌｉｎｋ　约束对也存在对称性；而若“物流一邮递”又是一个ｍｕｓｔ—ｌｉｎｋ约　束对，则“邮递一快递”也一定是一个ｍｕｓｔ—ｌｉｎｋ约束对，这就是　ｍｕｓｔ－ｌｉｎｋ约束的传递性；而若“物流一客服”是一个ｃａｎｎｏｔ—ｌｉｎｋ　约束对，那么“快递一客服”、“邮递一客服”也都是ｃａｎｎｏｔ—ｌｉｎｋ约　束对，这就是ｃａｎｎｏｔ—ｌｉｎｋ约束的传递性。　２试验与分析　２．１数据集及实验基础　实验所用数据集为淘宝评论集，包含共９８７７０条评论数　据。在针对在线评论文本的评价目标词的聚类工作中筛选出手　机分类的评价目标词以及其对应的特征向量，称手机分类的评　价目标词为手机类属性词，并对这些手机类属性词进行细粒度　的聚类分析。　２＿２试验结果与分析　首先利用结合　密度、距离选择初始　聚类中心点以及通过　ＤＢＩ参数控制Ｋ值　的改进的Ｋ—Ｍｅａｎｓ　聚类算法，分别利用　属性词一属性词共现　矩阵和属性词一情感　词共现矩阵两个共　现矩阵来对手机类　的属性词进行相似　表１　属性词一属性词共现矩阵细粒度聚类结果　初始聚类　聚类结果　手机东西机子货电池机器宝贝机　东西宝贝东东　电话通话东东手机壳屏保　待机散热　待机散热　收音机　拍照照相收音机手电筒　质量屏幕价格功能性价比声音系　统软件配件外观运行耳机信号手　感反应后盖像素字性能充电器价　声音音质　音质按键充电内存卡成色操作开　机外壳铃声字体键分辨率键盘款　式电板数据线音量设计ＧＰＳ天线　度计算，并以此实现对手机类属性词的细粒度聚类。结果分别如　表１、表２所示。　通过表１、表　２所展示的聚类　结果我们可以看　到，利用不同的矩　阵进行聚类分析　时，Ｋ的数值会有　所不同，并且选择　的初始聚类簇也　会有差异。但是利　用不同的共现矩　阵对手机类属性　表２属性词一情藤词共现矩阵细粒度聚类结果　初始聚类　聚类结果　性价比分辨率　性价比像素分辨率　屏幕声音字　屏幕声音字按键铃声字体键盘音　按键字体键盘　量天线　音量　反应开机　运行反应操作开机ＧＰＳ　手机东西机子货电池质量机器宝　贝机价格功能系统软件配件外观　耳机信号手感电话后盖通话待机　手电简　性能充电器东东价音质充电内存　卡成色外壳拍照照相键款式电板　数据线收音机手机壳设计手电筒屏　保散热　词进行细粒度分类时，都存在分类不够细致的问题，即Ｋ的数值　偏小。在此基础上，我们在计算数据对象的相似度时添加知网相　似度的修正。然而，发现并不是每个共现矩阵都对知网的相似度　修正敏感。通过实验，发现除了属性词一属性词共现矩阵以外，其　另一个矩阵都对知网的相似度修正不敏感，即对聚类的结果几　乎没有影响。而属性　词一属性词共现矩阵　则对知网相似度修正　非常敏感，利用知网　相似度修正和ｍｕｓｔ—　ｌｉｎｋ和ｃａｎｎｏｔ—ｌｉｎｋ　两类约束规则后其聚　类结果如表３所示。　通过知网的相似度修　正和规则之后，聚类　的个数Ｋ明显增加　了，分类更加细致。　３结束语　表３添加规则处理细粒度聚类结果　初始聚类　聚类结果　功能后盖像素　质量功能外观信号后盖像素性能　性能操作电板　操作铃声键电板ＣＰＳ　电池价格性价　货电池屏幕机价格性价比系统软　比配件手感　件配件耳机手感充电器价按键　价按键内存卡　充电内存卡成色外壳款式数据线　外壳款式设计　设计天线　收音机手电筒　拍照照相收音机手电倚　分辨率　字字体分辨率键盘　机子机器　手机东西机子机器宝贝电话通话　东东　待机　待机散热　手机壳　手机壳屏保　声音音量　声音音质音量　运行反应开机　运行反应开机　实验表明，该方法是有效率的，能获得较好的细粒度分类结　果，在细粒度特征聚类上具有一定的探索价值。　参考文献　［１］伍育红．聚类算法综述［Ｊ］．计算机科学，２０１５，４２（Ｓ１）：４９１—４９９，　５２４　［２］Ｄａｖｉｅｓ　Ｄ　Ｌ．Ｂｏｕｌｄｉｎ　Ｄ　Ｗ，Ａ　Ｃｌｕｓｔｅｒ　Ｓｅｐａｒａｔｉｏｎ　Ｍｅａｓｕｒｅ［Ｊ］．　ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｐａｔｔｅｒｎ　Ａｎａｌｙｓｉｓ　ａｎｄ　Ｍａｃｈｉｎｅ　ｌｎｔｅｌｌｉ—　ｇｅｎｃｅ，１　９７９（２）：２２４—２２７　（下转１２４页）