一种基于成对约束的谱聚类算法

合集下载

基于AP聚类的多特征融合方法

基于AP聚类的多特征融合方法

基于AP聚类的多特征融合方法郭蕾蕾;俞璐;段国仑;陶性留【摘要】经典的聚类方法通常只适用于单一特征数据,对于多特征数据,特征融合显得尤为重要.传统的多特征融合方式易造成维数灾难、尺度较小的特征被忽视等问题.对于\"视图(特征)不平衡\"数据,上述问题显得尤为突出.为此,提出了一种基于成对约束的多特征融合AP聚类算法.该算法用\"差特征\"数据聚类得到约束信息,利用\"好特征\"数据得到基础相似度矩阵,再利用成对约束来调整基础相似度矩阵,在新得到的相似度矩阵上进行AP聚类.该特征融合方法中,\"好特征\"占据主导,\"差特征\"只是以约束的形式发挥作用,克服了现有特征融合方法中效果差距很大的特征平起平坐的缺点.实验结果表明,相较于单视图聚类、多视图数据直接拼接后再聚类、多视图谱聚类等方法,多特征融合AP聚类算法取得了较好的性能,有效地解决了\"视图(特征)不平衡\"问题.【期刊名称】《计算机技术与发展》【年(卷),期】2019(029)008【总页数】6页(P47-52)【关键词】AP聚类;多特征融合;视图(特征)不平衡;成对约束;相似度矩阵【作者】郭蕾蕾;俞璐;段国仑;陶性留【作者单位】陆军工程大学通信工程学院,江苏南京 210007;陆军工程大学通信工程学院,江苏南京 210007;陆军工程大学指挥控制工程学院,江苏南京 210007;陆军工程大学通信工程学院,江苏南京 210007【正文语种】中文【中图分类】TP3910 引言随着互联网技术的快速普及与发展,Web数据量急剧增长,这些海量的数据包含着丰富的信息,如何对其进行有效的挖掘已经成为当前互联网应用的关键问题之一。

聚类分析作为一项十分有效的数据挖掘技术,需要的驱动条件少[1],而且适应能力强,适合处理多种类型数据。

数据通常可以从不同领域的不同来源收集或从不同视图观察得到,即多数据包含多种类型的特征。

谱聚类算法

谱聚类算法
1 1 2 2 1 2
其中: assoc(A k , V )
i
Ak ,j V
w ij
Melia 指出Ncut 和MNcut 的差异之处仅在于所使用的 谱映射不同, 并且当k= 2 时, MNcut 与Ncut 等价。多路规 范割集准则在实际应用中合理有效, 但其优化问题通常难以 解决。
相似矩阵、度矩阵及Laplacian 矩阵
cut(A ,B )
i ,
w ij Aj B
通过最小化上述剪切值来划分图G, 这一划分准则被称 为最小割集准则。他们用这个准则对一些图像进行分割, 并 产生了较好的效果, 同时他们也注意到, 该准则容易出现歪 斜( 即偏向小区域) 分割。规范割集准则及比例割集准则均 可避免这种情况的发生。
谱聚类算法
根据不同的准则函数及谱映射方法, 谱聚类算法发展了很多
不同的具体实现方法, 但是都可以归纳为下面三个主要步骤 :
构建表示样本集的矩阵Z; 通过计算Z 的前k 个特征值与特征向量, 构建特征向量空间; 利用k-means 或其它经典聚类算法对特征向量空间中的特征向 量进行聚类。 上述步骤是谱聚类算法的一个框架, 在具体实现过程中,不同 的算法在数据集矩阵Z 的表示上存在着不同。例如根据2 way cut 的目标函数, Z= W; 根据随机游动关系, 则Z=D- 1W 等。划分准则一 般分为2 way 和k way, 本文根据所使用的划分准则, 将算法分为迭 代谱和多路谱两类, 并分别讨论了各类中典型的谱聚类算法。
可以看出Avcut 和Ncut 函数都表示无向图G 中边界损
失与分割区域相关性的比值之和, 因此最小化Avcut 与Ncut 目标函数都能产生较准确的划分。其共同缺点是倾向于欠 分割且易分割出只包含几个顶点的较小子图。文献通过实 验发现, 当把Normalized cut 和Average cut 准则分别用于同

数据分析知识:数据挖掘中的谱聚类算法

数据分析知识:数据挖掘中的谱聚类算法

数据分析知识:数据挖掘中的谱聚类算法数据挖掘是从海量数据中提取有用的信息的一种技术,谱聚类算法是其中的一种经典算法。

本文将从以下几个方面介绍谱聚类算法:算法原理、流程步骤、应用场景、优缺点以及发展趋势。

一、算法原理谱聚类算法是一种基于图论的无监督聚类算法,其基本思想是将数据集看成是图的节点集合,通过图上的边连接不同的节点,将节点划分成不同的子集,从而实现聚类。

谱聚类算法的核心在于矩阵的特征值和特征向量。

假设有N个数据点集成一个矩阵X,每个数据点有m个特征,组成了一个m*N的矩阵。

首先,定义相似度矩阵W,其元素W(i,j)表示第i个数据点和第j个数据点的相似度。

W的计算可以采取欧式距离、余弦相似度、高斯核等方式。

其次,通过对相似度矩阵进行正则化处理,可以得到一个拉普拉斯矩阵L。

拉普拉斯矩阵L是一个对称半正定的矩阵,其用途是度量每个数据点与其他数据点之间的关联度。

接下来,求解拉普拉斯矩阵L的m个最小的非零特征值及其对应的特征向量u1,u2,...,um,并将其组成一个m*N的矩阵U。

特征向量的个数m是谱聚类算法的超参数,通常根据具体情况进行调整。

最后,对特征向量矩阵U进行聚类,将其划分为k个子集,即可完成谱聚类算法。

二、流程步骤谱聚类算法的流程可以归纳为以下几个步骤:1.构建相似度矩阵W2.对相似度矩阵进行正则化处理,得到拉普拉斯矩阵L3.求解拉普拉斯矩阵L的特征值和特征向量4.将特征向量矩阵U进行聚类5.输出聚类结果三、应用场景谱聚类算法广泛应用于社交网络分析、图像分割、文本聚类、机器学习等多个领域。

例如,在社交网络分析中,谱聚类可以将社交网络中的用户划分成不同的群体,从而便于研究用户间的关系;在图像分割中,谱聚类可以将图像像素点划分成不同的区域,从而得到清晰的图像轮廓。

四、优缺点优点:1.对数据分布没有先验要求2.可以有效地解决高维数据聚类问题3.对噪声数据有一定的容忍度4.支持并行化计算,适合于大规模数据集的处理缺点:1.超参数的选取比较困难2.对于纹理复杂、噪声较大、数据量较小的数据集,聚类效果可能不佳3.对于非凸形状的数据集,聚类效果可能不佳五、发展趋势随着数据量的不断增大和数据种类的不断增多,聚类算法的应用也越来越广泛。

基于成对约束的半监督聚类集成算法研究

基于成对约束的半监督聚类集成算法研究

基于成对约束的半监督聚类集成算法研究基于成对约束的半监督聚类集成算法研究近年来,聚类算法在数据挖掘领域中得到广泛的应用。

然而,传统的聚类算法通常通过无监督学习的方式对数据进行划分,其聚类结果可能会受到初始值、噪音数据和维度灾难等问题的影响。

为了解决这些问题,研究者们提出了各种改进的聚类算法,其中半监督聚类算法是一种利用少量的已知标记信息来引导聚类的方法。

在半监督聚类算法中,基于成对约束的方法被广泛应用。

成对约束是通过给定一些样本对的先验知识,如“这两个样本属于同一类”或“这两个样本属于不同的类”,来指导聚类过程。

成对约束可以帮助聚类算法避免错误的划分,提高聚类结果的准确性。

但是,成对约束只能提供有限的信息,无法解决所有的聚类问题。

为了进一步提高聚类算法的性能,研究人员提出了基于成对约束的半监督聚类集成算法。

聚类集成是一种将多个聚类算法进行组合的技术,通过集成多个聚类结果来得到一个更好的聚类结果。

在基于成对约束的半监督聚类集成算法中,多个聚类算法将根据成对约束的准确性和一致性进行加权集成,权重的分配可以采用一些启发式的方法,如基于约束传递性的方法。

基于成对约束的半监督聚类集成算法的主要步骤包括:1. 数据预处理:对原始数据进行预处理,包括数据清洗、特征选择、归一化等步骤,以提高聚类算法的性能。

2. 聚类算法生成:运行多个聚类算法,得到多个初始聚类结果。

3. 成对约束制定:根据已知的成对约束设计算法,构建成对约束矩阵或成对约束图。

4. 集成算法:将多个聚类算法的结果进行加权集成,计算每个样本属于每个类别的概率,并根据概率进行聚类结果的投票。

5. 聚类结果评估:对集成聚类结果进行评估,可以使用一些聚类评估指标,如Adjusted Rand Index (ARI)、Normalized Mutual Information (NMI)等,来评价聚类结果的准确性和一致性。

基于成对约束的半监督聚类集成算法的优势在于可以充分利用有限的标记信息,通过集成多个聚类算法来提高聚类结果的质量。

基于成对约束的半监督聚类方法

基于成对约束的半监督聚类方法

基于成对约束的半监督聚类方法陶性留; 俞璐; 王晓莹【期刊名称】《《微型机与应用》》【年(卷),期】2019(038)011【总页数】7页(P54-59,66)【关键词】成对约束; 半监督聚类; FCM-NMF聚类; 非负矩阵分解; 交替迭代公式【作者】陶性留; 俞璐; 王晓莹【作者单位】陆军工程大学通信工程学院江苏南京210007; 陆军工程大学指挥控制工程学院江苏南京210007【正文语种】中文【中图分类】TP370 引言现实社会中,面临的数据越来越多,越来越宽泛,越来越复杂,同样数据特征的维度也越来越高。

如何去挖掘有价值的信息一直是广受关注的热点。

聚类是数据挖掘和模式识别的重要工具,它是将数据样本划分为不同的簇,使同一簇的数据样本具有较高的相似性,常见的方法有K-means[1-2]、FCM[3-4]等。

而半监督聚类[5]作为半监督学习的一个重要分支,它以无监督的聚类算法为基础,通过利用少量的监督信息来提高聚类的性能。

目前,半监督聚类中常见的先验知识表现为部分样本的类标签信息或是反映两样本是否归于同一簇的成对约束信息。

所谓成对约束关系具体分为两种:(1)两个样本同属于一个簇团(必须链接集Must-link,ML);(2)两个样本属于不同簇团(不能链接集Cannot-link,CL)。

很显然,这是一种相对较弱的指导信息,因为判断两个样本是否属于同一簇团要比判断它们分属于哪个簇团更加容易。

通常可以通过生活经验或者常识来判断。

基于成对约束的半监督聚类方法的基本思想是利用先验监督信息来调整样本数据之间的作用力,根据少量被正确划分的样本数据,促使其近邻能被正确地划分,进而实现整个数据集的划分。

该聚类算法通常在经典的算法框架下,合理设计出目标函数再进行一定程度的优化之后得到更加符合实际,更加令人满意的聚类算法。

本文考虑在之前研究的FCM-NMF[6]算法上添加成对约束条件,以使聚类性能得到进一步的提高。

谱聚类算法综述

谱聚类算法综述

谱聚类算法综述一、本文概述谱聚类算法是一种基于图理论的机器学习技术,它在数据分析和模式识别中发挥着重要作用。

本文旨在对谱聚类算法进行全面的综述,从理论基础、算法流程、应用领域以及最新进展等多个方面进行深入的探讨。

我们将简要介绍谱聚类算法的基本概念和原理,包括图论基础、拉普拉斯矩阵、特征值分解等关键知识点。

然后,我们将详细阐述谱聚类算法的基本流程和主要步骤,包括数据预处理、构建相似度矩阵、计算拉普拉斯矩阵、求解特征向量和聚类等。

接下来,我们将重点分析谱聚类算法在不同领域中的应用,如图像处理、社交网络分析、机器学习等,并探讨其在这些领域中取得的成果和优势。

我们还将对谱聚类算法的性能进行评估,包括其时间复杂度、空间复杂度以及聚类效果等方面。

我们将对谱聚类算法的最新研究进展进行综述,包括新的算法模型、优化方法以及应用领域的拓展等方面。

通过对这些最新进展的梳理和总结,我们可以更好地了解谱聚类算法的发展趋势和未来研究方向。

本文旨在对谱聚类算法进行全面的综述和分析,为读者提供一个清晰、系统的认识框架,同时也为该领域的研究者提供有价值的参考和启示。

二、谱聚类算法的基本原理谱聚类算法是一种基于图理论的聚类方法,它通过将数据点视为图中的节点,数据点之间的相似性视为节点之间的边的权重,从而构建出一个加权无向图。

谱聚类的基本原理在于利用图的拉普拉斯矩阵(Laplacian Matrix)的特征向量来进行聚类。

构建相似度矩阵:需要计算数据点之间的相似度,这通常通过核函数(如高斯核函数)来实现,从而构建出一个相似度矩阵。

构建图的拉普拉斯矩阵:根据相似度矩阵,可以构建出图的度矩阵和邻接矩阵,进而得到图的拉普拉斯矩阵。

拉普拉斯矩阵是相似度矩阵和度矩阵之差,它反映了数据点之间的局部结构信息。

求解拉普拉斯矩阵的特征向量:对拉普拉斯矩阵进行特征分解,得到其特征向量。

这些特征向量构成了一个新的低维空间,在这个空间中,相似的数据点更接近,不相似的数据点更远。

谱聚类算法研究综述

Survey of Spectral Clustering Algorithms BAI Lu1,2,3, ZHAO Xin1,2,3, KONG Yuting1,2,3, ZHANG Zhenghang1,2,3, SHAO Jinxin1,2,3, QIAN Yurong1,2,3
1.College of Software, Xinjiang University, Urumqi 830046, China 2.Key Laboratory of Software Engineering, Xinjiang University, Urumqi 830046, China 3.Key Laboratory of Signal Detection and Processing in Xinjiang Uygur Autonomous Region, Urumqi 830046, China
变化而改变,因此 σ 需要经过多次取值实验才能确定[23]。
度矩阵是记为 D 的对角矩阵,度值为对角元素。
计算方式如公式(2)所示:
∑ Dij = Wij j
(2)
规范相似矩阵一般形式定义为:
W nor
=
-
D
12WD-
1 2
Wnor(i,j) =
W (i,j) D(i.j) D(i,j)
(3) (4)
1 谱聚类算法概述
谱聚类算法的思想起源于谱图划分理论[18],谱聚类 通过样本相似度生成无向加权图,样本点可看作图的顶 点,样本点间的相似度为两点间边的权重,而对无向加 权图进行谱图划分就是将图划分为若干个子图,该过程 与聚类算法的聚类过程对应。图论的最优划分准则[14] 与聚类最优准则在思想上具有一致性,为聚类问题转化 为图划分问题提供思路与理论支撑。对于谱图划分而 言,图划分准则的选取将直接影响划分结果,常用的图 划分准则有规范割集、最小割集、平均割集、比例割集等 准则[19]。与谱图划分相比,谱聚类算法考虑问题连续放 松 形 式 ,将 图 分 割 问 题 转 换 为 求 相 似 矩 阵 的 谱 分 解 问 题[20]。谱聚类算法依据划分准则的不同,总体分为迭代 谱聚算法与多路谱聚类算法。目前多路谱聚类算法因 其简单易于理解特性应用更为广泛,NJW 算法是经典 多路谱聚类算法。多路谱聚算法实现细节略有差异,但 核心思想基本一致,其主要思想如下:

谱聚类算法

虽然根据不同的准则函数及谱映射方法,谱聚类算法有着不同的具体实现方法,但是这些实现方法都可以归 纳为下面三个主要步骤:
1)构建表示对象集的相似度矩阵W; 2)通过计算相似度矩阵或拉普拉斯矩阵的前k个特征值与特征向量,构建特征向量空间; 3)利用K-means或其它经典聚类算法对特征向量空间中的特征向量进行聚类。
谱聚类算法
计算机领域术语
01 算法步骤
03 典型的算法 05 面临的问题
目录
02 划分准则 04 算法的新进展
基本信息
谱聚类算法建立在谱图理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛 于全局最优解的优点。
该算法首先根据给定的样本数据集定义一个描述成对数据点相似度的亲合矩阵,并且计算矩阵的特征值和特征 向量,然后选择合适的特征向量聚类不同的数据点。谱聚类算法最初用于计算机视觉、VLS I设计等领域,最近 才开始用于机器学习中,并迅速成为国际上机器学习领域的研究热点。
Ncut是一个很好的聚类目标函数。它的求解是一个NP难问题。传统的方法是宽松的谱松散方法。Xing与 Jordan[分析了对Ncut的半正定规划(SDP)模型。根据该模型,对Ncut提出了一个比谱松散更紧的下限。同时指 出了Ncut本身不能得到最优的聚类,但它可以通过不同的松散方法获得合理的聚类。
谱聚类方法不仅用于无监督学习中,也用于有约束的半监督学习中。Kamvar等人将PageRank的随机游动模 型运用到相似度矩阵中,根据已知样本的类别修正相似度矩阵。然后根据谱聚类算法获得聚类结果。
Cu等人分析了核k-means的方法,发现最小化核k-means的目标函数等同于一个由数据向量组成的Gram矩阵 的迹最大化问题。同时,迹最大化问题的松散解可以通过Gram矩阵的部分特征分解获得,首次用谱松散的方法获 得核k-means的目标函数的全局最优解。Dhillon在此基础上,又研究了加权核k-means的目标函数,将其与Ncut 目标函数建立,提出了一个可以单调递减Ncut值的新颖的加权核k-means算法。

一种基于成对约束的半监督最大间隔聚类算法

一种基于成对约束的半监督最大间隔聚类算法半监督最大间隔聚类(Semi-Supervised Maximum Margin Clustering,SSMMC)是一种基于成对约束的聚类算法。

相对于传统的无监督聚类,SSMMC算法中加入了一定数量的标签数据,以增强聚类效果。

SSMMC算法旨在通过最小化聚类模糊性,同时最大化不同类别的样本之间的距离,来实现聚类任务。

该算法通过成对约束(相似约束和不相似约束)来使用标记数据,进而得到高质量、高效的聚类结果。

下面我们将详细介绍SSMMC算法的四个基本步骤。

第一步:数据集分析。

在这一步,我们首先定义相似约束(positive constraint)和不相似约束(negative constraint)。

对于数据集中的两个样本, 如果两个样本属于同一类,则称它们具有相似约束;反之,如果两个样本属于不同类,则它们具有不相似约束。

然后,我们将这些约束组合成一个大小为N*N的对称矩阵W,其中每个元素W(i,j)表示从样本i到样本j的约束强度。

第二步:SVM模型训练。

在这一步,我们使用SVM模型来学习数据集。

SVM模型在SSMMC算法中起到至关重要的作用,它可以帮助我们找到一个最大间隔聚类超平面。

首先,我们将训练数据划分为有标签的和无标签的数据。

我们使用有标签数据来训练SVM模型,从而得到一个有利于聚类的超平面。

假设训练集中有m个标记样本,它们的标签为[yl1,yl2,……,ylm], 样本特征向量为[x1, x2,……,xm]。

则,我们可以通过以下公式得到SVM的目标优化函数:min 1/2 ∑ li(w^T * xi) ^ 2 ∑ lila(w^T * xi) - ∑lk || w^T * xi||/ √w^T * W * w其中,li和la分别表示相似约束和不相似约束的约束强度,√wTWw表示最大间隔距离。

第三步:聚类执行。

在训练好SVM模型后,我们可以使用SVM模型的参数来聚类所有数据点。

基于成对约束的半监督凝聚层次聚类算法

基于成对约束的半监督凝聚层次聚类算法盛俊杰;谢丽聪【期刊名称】《微型机与应用》【年(卷),期】2012(031)024【摘要】半监督聚类就是利用样本的监督信息来帮助提升无监督学习的性能。

在半监督聚类中,成对约束(must—link约束和cannot—link约束)作为样本的先验知识被广泛地使用。

凝聚层次聚类(AHC)也叫合成聚类,是层次聚类法的一种。

提出了一种基于成对约束的半监督凝聚层次聚类算法(PS-AHC),该算法利用成对约束来改变聚类簇之间的距离,使聚类簇之间的距离更真实。

在UCI数据集上的实验表明,PS—AHC能有效地提高聚类的准确率,是一种有前景的半监督聚类算法。

%Semi-supervised clustering uses the samples' supervised information to aid unsupervised learning. In the semi-su- pervised clustering, pairwise constraints information (must-link constraints and cannot-link constraints) are widely used as samples' prior knowledge. Agglomerative hierarchical clustering (AHC) is one kind of hierarchical clustering .This paper presents a semi-supervised agglomerative hierarchical clustering algorithm based on pairwise constraints (PS-AHC). The algorithm uses pairwise constraints to change distances of clusters. It makes distances of clusters closer to the truth. The results of experiments on the UCI data sets confirm that PS-AHC algorithm can improve the accuracy of clustering effectively and that it is a promising semi-supervised clustering algorithm.【总页数】3页(P67-69)【作者】盛俊杰;谢丽聪【作者单位】福州大学数学与计算机学院,福建福州350108;福州大学数学与计算机学院,福建福州350108【正文语种】中文【中图分类】TP18【相关文献】1.基于成对约束的半监督凝聚层次聚类算法 [J], 魏曰海2.基于成对约束的交叉熵半监督聚类算法 [J], 李晁铭;徐圣兵;郝志峰3.一种基于Seeds集和成对约束的主动半监督聚类算法 [J], 陈志雨;王慧君;胡明;刘钢4.基于功效散度和成对约束的半监督聚类算法 [J], 向思源;金应华;徐圣兵5.基于闭包准则和成对约束的半监督聚类算法 [J], 向力宏;金应华;徐圣兵因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1 基 于 成 对约 束 的 半监 督谱 聚类 算 法
1 1 谱聚类 算法 . 谱 聚类 算法本质 上是 利用 亲合 矩 阵的特征 向量进行 聚类 。 存谱 聚类算 法 中 , 合矩 阵的 定义为 : 一 亲 W
e p 一 ( ) 2 。, 中 dC ) x( z, / a ) 其 , c 一般取 z一 ! , 事先确 定 的参数 。 目前 , { 为 。 已经 提 出许多谱 聚类 算法, 它们的 主要区别 在于ቤተ መጻሕፍቲ ባይዱ: 如何选择 特征 向量 以及 如何利 用特 征 向量进 行聚类 。
根 据使 用先验 信息方 法 的不 同 , 半监 督聚类 被分 成 3类1 : 一 是 基于 限制 的方 法 ; _ 一类 4 1 】 一类 是基 于距 离测 度
的方法 ; 还有 一类是 集成 上述 2 思想 的聚类方 法 。 种 在实 际应用 中 , 成对 限制先验 信息可 以很容 易地获 得 。但是 , 利用成 对限制 先验信 息对 于提 高 聚类 仅
通 讯联 系 人 : 丁世 飞(9 3一 , , 1 6 )男 山东 青 岛 人 . 中国 矿 业 大学 教授 . 士 . 导 。E m i dn s@c mte u c 博 博 — al ig f u .d .n :
第 2 8卷
第 4期
广西 师范大学 学报 : 自然科 学版
J u n l f a g i o ma Unv r i : a u a S i c dt n o r a o n x N r l i s y N tr l c n eE i o Gu e t e i
V0 . 8 No 4 I2 .
算法 的性 能是 远不够 的 , 而且 当用 户提供 信息含 量少的 限制时 , 于 聚类搜 索反而 起误 导的作用 。 对 因此 , 王
玲等 人L提 出了一种 密度敏感 的半监 督谱 聚类 , 算法通 过密度 敏感 的相似性 度 量获 得相似性 系 , 5 该 同时 反映 了限制 信息 和空 间一致性 先验 信 息对相似性 关 系 的影响 , 使得 最终得 到 的相似 性矩 阵更加接 近 于理 想矩阵 。该 矩 阵经过特 征分解 后将更 加有助 于在映射 空 间的后续 聚类划 分 。此 文 中的成对 限制信 息是 由 用 户任意 提供 的 , 但这 样提供的 限制 信息对于聚 类算 法不 ~定 会起到 积极 的指 导作 用。 一 王娜 等 人l提 出的 _ 6 j 主 动学 习的半监 督谱 聚类 克服 了核参数 敏感 的问题 , 且可 以主动提 供信 息含量 丰富 的成对 限制 。但是 , 并
作为 一 有效 的数据 分析方 法 , 类算 法 已被 广泛应 用 于计 算机 视觉 、 息检 索 、 据 挖掘等 领域 。 种 聚 信 数
传统 的聚类算 法 如 K— a s算法 、 M 算法 等 , men E 都是 建 立在 凸样 本空 间分布 的基础 上 , 但是 当样本 空间 不
为 凸时 , 算法 会陷 入“ 局部 ” 最优 。为了解决 这一 问题 , 学者 们提 出 _ 『谱聚类算 法口 ] 。

要 : 类通 常被 认 为 是 ~ 种无 监 督 的数 据 分 析 方 法 , 聚类 搜 索 过 程 中 充 分 利 用 先 验 信 息 会 显 著 提 高 聚 聚 在
类 算 法 的 性 能 。本 文 通 过 成 对 约 束来 凋整 点 与 点 之 间 的 相似 矩 阵 , 后对 其优 化 , 结 合 谱聚 类 算 法 . 到 一 然 并 得 种 很 有 效 的 聚类 算 法 一 一基 于 成对 约 束的 半 监 督谱 聚类 算 法 (S A) S C 。实 验 表 明 . 算 法 有 很 好 的 聚类 效 果 。 该 关 键 词 : 聚 类 ; 验 信 息 ; 对 约 束 ; 监 督 聚 类 谱 先 成 半 中图 分 类号 : P 0 . T 3 16 文献标识码 : A 文 章 编 号 :0 1G 0 (0 0 0—0 80 10 ~6 0 2 1 )40 3 4
与 监督学 习相 比, 类过 程缺少用 户或分 类器 ( 聚 如类标 号信 息) 的指 导 , 因此 会不 能产生 理想 的簇 。使
用某种弱 监督形 式 , 例如 逐对约 束 ( 成对对象 标 明属 于相 同或者 不同 的簇 ) 可以显 著地改进 无监督 聚类 即 ,
的质量 。这 种基 于用户 反馈或指 导约束 的聚类过 程 称{ 半监 督聚类 (e —u evsdc seig,S )3 乍 smi p ri l tr s e u n S C l。 _ J
如何 在较 少 的监 督信 息下 利用 更少 的监 督信 息进行 聚 类 以及 Mu tl k和 C n o —n s— n i a n t ik对距 离性 能的 影 l
响还需 进一步 研究 。
本 文将监 督 信息的 信息 含量应 用到谱 聚类 算法 中, 整点 与点之 间的相 似矩 阵 , 调 然后 对其 优 化 , 使类 内各 点紧密分 布 , 间距离 尽量拉大 , 类 形成一 种半监 督谱聚 类算法 , 以提 高聚 类性 能 。
谱 聚类算法 建 立在谱 图理 论基础 上。 一个 很好 的求解方 法是 考虑 问题的连 续放 松形式 , 样便 可将原 这
收 稿 日期 :0 0 0 — 5 2 1—72 基 金 项 目 : 家 自然 科学 基 金 资 助 项 目( 0 7 0 9 ; 国 6953) 省 基础 研 究 计 划资 助 项 目 ( K2 0 0 3 B 099)
De . 10 c 20
21 0 0年 l 2月

种 基于 成 对约 束 的谱 聚 类算 法
张 力文 丁世飞 。 , , 。许新 征i朱 , 红 徐 . 丽
(. 国 矿 业大 学 计算 机 科 学 与技 术 学 院 , 苏 徐 州 2 1 1 ;. 1中 江 2 1 6 2 中国 科 学 院 计算 技 术 研 究 所 智 能 信 息 处 理重 点 实 验 室 , 京 1 08 ) 北 00 0
相关文档
最新文档