谱聚类算法 算法简介
谱聚类方法

谱聚类方法一、谱聚类的基本原理谱聚类(Spectral Clustering)是一种基于图论的聚类方法,通过研究样本数据的图形结构来进行聚类。
谱聚类方法的基本原理是将高维数据转换为低维数据,然后在低维空间中进行聚类。
它利用样本之间的相似性或距离信息,构建一个图模型(通常是相似度图或距离图),然后对图模型进行谱分解,得到一系列特征向量,最后在特征向量空间中进行聚类。
谱聚类的核心步骤是构建图模型和进行谱分解。
在构建图模型时,通常采用相似度矩阵或距离矩阵来表示样本之间的联系。
在谱分解时,通过对图模型的拉普拉斯矩阵进行特征分解,得到一系列特征向量,这些特征向量表示了样本数据的低维空间结构。
通过对特征向量空间进行聚类,可以将高维数据分为若干个类别。
二、谱聚类的优缺点1.优点(1)适用于高维数据:谱聚类方法能够有效地处理高维数据,因为它的核心步骤是将高维数据转换为低维数据,然后在低维空间中进行聚类。
这有助于克服高维数据带来的挑战。
(2)对噪声和异常值具有较强的鲁棒性:谱聚类方法在构建图模型时,会考虑到样本之间的相似性和距离信息,从而在一定程度上抑制了噪声和异常值的影响。
(3)适用于任意形状的聚类:谱聚类方法可以适用于任意形状的聚类,因为它的聚类结果是基于特征向量空间的,而特征向量空间可以捕捉到样本数据的全局结构。
2.缺点(1)计算复杂度高:谱聚类的计算复杂度相对较高。
构建图模型和进行谱分解都需要大量的计算。
在大规模数据集上,谱聚类的计算效率可能会成为问题。
(2)对相似度矩阵或距离矩阵的敏感性:谱聚类的结果会受到相似度矩阵或距离矩阵的影响。
如果相似度矩阵或距离矩阵不合理或不准确,可能会导致聚类结果不理想。
(3)对参数的敏感性:谱聚类的结果会受到参数的影响,如相似度度量方式、距离度量方式、图模型的构建方式等。
如果参数选择不当,可能会导致聚类效果不佳。
三、谱聚类的应用场景1.图像分割:谱聚类方法可以应用于图像分割,将图像中的像素点分为若干个类别,从而实现对图像的分割。
常见的六大聚类算法

常见的六大聚类算法六大常见的聚类算法包括K-means聚类算法、层次聚类算法、DBSCAN 算法、OPTICS算法、谱聚类算法和高斯混合模型聚类算法。
1. K-means聚类算法:K-means聚类算法是一种基于距离的聚类算法,它通过最小化数据点与聚类中心之间的欧氏距离来划分数据点。
算法的步骤如下:a.随机选择K个聚类中心。
b.将每个数据点分配到距离最近的聚类中心。
c.更新聚类中心为选定聚类的平均值。
d.重复步骤b和c直到聚类中心不再改变或达到最大迭代次数。
2.层次聚类算法:层次聚类算法是一种自底向上或自顶向下递归地将数据划分成不同的聚类的方法。
它通过计算数据点之间的距离或相似度来判断它们是否应该被合并到同一个聚类中。
算法的步骤如下:a.初始化每个数据点为一个单独的聚类。
b.计算两个最近的聚类之间的距离或相似度。
c.合并两个最近的聚类,形成一个新的聚类。
d.重复步骤b和c直到所有数据点都被合并到一个聚类中。
3.DBSCAN算法:DBSCAN(Density-Based Spatial Clustering of Applicationswith Noise)算法是一种基于密度的聚类算法,它通过寻找具有足够密度的数据点来划分聚类。
算法的步骤如下:a.随机选择一个未被访问的数据点。
b.如果该数据点的密度达到预设的阈值,则将其归为一个聚类,同时将其相邻且密度达到阈值的数据点添加到聚类中。
c.重复步骤a和b直到所有数据点都被访问。
4.OPTICS算法:OPTICS(Ordering Points To Identify the Clustering Structure)算法是一种基于密度的聚类算法,它通过将数据点按照密度排序来划分聚类。
算法的步骤如下:a.计算每个数据点的可达距离和局部可达密度。
b.根据可达距离和局部可达密度排序所有数据点。
c.根据可达距离和阈值划分聚类。
d.重复步骤b和c直到所有数据点都被访问。
谱聚类算法——精选推荐

谱聚类算法转载⾃:1、问题描述 谱聚类(Spectral Clustering, SC)是⼀种基于图论的聚类⽅法——将带权⽆向图划分为两个或两个以上的最优⼦图(sub-Graph),使⼦图内部尽量相似,⽽⼦图间距离尽量距离较远,以达到常见的聚类的⽬的。
对于图的相关定义如下:对于⽆向图G = (V,E),V表⽰顶点集合,即样本集合,即⼀个顶点为⼀个样本;E表⽰边集合。
设样本数为n,即顶点数为n。
权重矩阵:W,为n*n的矩阵,其值w i,j为各边的权值,表⽰顶点 i,j(样本)之间的相似性。
对于任意w i,j = w j,i ,w i,i=0,即对⾓线上元素为0。
通常情况下,相似性⼩于某⼀阈值的两个顶点不相连,否则连接两顶点的边的权值为两个样本的相似性度量函数的值。
定义n*n的矩阵:D,其第 i ⾏,第 i 列的元素(对⾓线上)元素为W第 i ⾏所有元素的和,即 i 顶点与其他所有顶点的相似性之和。
将图G分割为⼦图G1,G2,所要断开的边的权重之和为损失函数:如下图给出⼀个六个样本所对应的图:此例中对应的损失函数为 w1,5 + w3,4 = 0.3。
谱聚类的⽬的就是找到⼀个较好的划分准则,将整个样本空间形成的图分成为各个⼦图(sub-Graph),⼀个⼦图即为⼀个类别。
根据分割⼦图的准则,可以将其分为不同的谱聚类(Minimum Cut、Ratio Cut and Normalized Cut等)。
讲具体算法之前,回顾⼀些线性代数有关的结论,不清楚的可以查阅相关资料:Ax = λx ,则λ为A的特征值,x为对应λ的特征向量。
对于实对称矩阵A,其特征向量正交。
即当i ≠ j时, <x i T,x j> = 0(<,>表⽰内积)。
对于正定矩阵,其所有特征值都⼤于0;对于半正定矩阵,其所有特征值都⼤于等于02、问题转化 ⾸先看看这个损失函数,对其进⾏如下变换:1、定义q i如下:当顶点 i 属于⼦图G1中时,q i = c1。
谱聚类算法

其中: assoc(A k , V )
i
Ak ,j V
w ij
Melia 指出Ncut 和MNcut 的差异之处仅在于所使用的 谱映射不同, 并且当k= 2 时, MNcut 与Ncut 等价。多路规 范割集准则在实际应用中合理有效, 但其优化问题通常难以 解决。
相似矩阵、度矩阵及Laplacian 矩阵
cut(A ,B )
i ,
w ij Aj B
通过最小化上述剪切值来划分图G, 这一划分准则被称 为最小割集准则。他们用这个准则对一些图像进行分割, 并 产生了较好的效果, 同时他们也注意到, 该准则容易出现歪 斜( 即偏向小区域) 分割。规范割集准则及比例割集准则均 可避免这种情况的发生。
谱聚类算法
根据不同的准则函数及谱映射方法, 谱聚类算法发展了很多
不同的具体实现方法, 但是都可以归纳为下面三个主要步骤 :
构建表示样本集的矩阵Z; 通过计算Z 的前k 个特征值与特征向量, 构建特征向量空间; 利用k-means 或其它经典聚类算法对特征向量空间中的特征向 量进行聚类。 上述步骤是谱聚类算法的一个框架, 在具体实现过程中,不同 的算法在数据集矩阵Z 的表示上存在着不同。例如根据2 way cut 的目标函数, Z= W; 根据随机游动关系, 则Z=D- 1W 等。划分准则一 般分为2 way 和k way, 本文根据所使用的划分准则, 将算法分为迭 代谱和多路谱两类, 并分别讨论了各类中典型的谱聚类算法。
可以看出Avcut 和Ncut 函数都表示无向图G 中边界损
失与分割区域相关性的比值之和, 因此最小化Avcut 与Ncut 目标函数都能产生较准确的划分。其共同缺点是倾向于欠 分割且易分割出只包含几个顶点的较小子图。文献通过实 验发现, 当把Normalized cut 和Average cut 准则分别用于同
数据分析知识:数据挖掘中的谱聚类算法

数据分析知识:数据挖掘中的谱聚类算法数据挖掘是从海量数据中提取有用的信息的一种技术,谱聚类算法是其中的一种经典算法。
本文将从以下几个方面介绍谱聚类算法:算法原理、流程步骤、应用场景、优缺点以及发展趋势。
一、算法原理谱聚类算法是一种基于图论的无监督聚类算法,其基本思想是将数据集看成是图的节点集合,通过图上的边连接不同的节点,将节点划分成不同的子集,从而实现聚类。
谱聚类算法的核心在于矩阵的特征值和特征向量。
假设有N个数据点集成一个矩阵X,每个数据点有m个特征,组成了一个m*N的矩阵。
首先,定义相似度矩阵W,其元素W(i,j)表示第i个数据点和第j个数据点的相似度。
W的计算可以采取欧式距离、余弦相似度、高斯核等方式。
其次,通过对相似度矩阵进行正则化处理,可以得到一个拉普拉斯矩阵L。
拉普拉斯矩阵L是一个对称半正定的矩阵,其用途是度量每个数据点与其他数据点之间的关联度。
接下来,求解拉普拉斯矩阵L的m个最小的非零特征值及其对应的特征向量u1,u2,...,um,并将其组成一个m*N的矩阵U。
特征向量的个数m是谱聚类算法的超参数,通常根据具体情况进行调整。
最后,对特征向量矩阵U进行聚类,将其划分为k个子集,即可完成谱聚类算法。
二、流程步骤谱聚类算法的流程可以归纳为以下几个步骤:1.构建相似度矩阵W2.对相似度矩阵进行正则化处理,得到拉普拉斯矩阵L3.求解拉普拉斯矩阵L的特征值和特征向量4.将特征向量矩阵U进行聚类5.输出聚类结果三、应用场景谱聚类算法广泛应用于社交网络分析、图像分割、文本聚类、机器学习等多个领域。
例如,在社交网络分析中,谱聚类可以将社交网络中的用户划分成不同的群体,从而便于研究用户间的关系;在图像分割中,谱聚类可以将图像像素点划分成不同的区域,从而得到清晰的图像轮廓。
四、优缺点优点:1.对数据分布没有先验要求2.可以有效地解决高维数据聚类问题3.对噪声数据有一定的容忍度4.支持并行化计算,适合于大规模数据集的处理缺点:1.超参数的选取比较困难2.对于纹理复杂、噪声较大、数据量较小的数据集,聚类效果可能不佳3.对于非凸形状的数据集,聚类效果可能不佳五、发展趋势随着数据量的不断增大和数据种类的不断增多,聚类算法的应用也越来越广泛。
谱聚类算法综述

谱聚类算法综述一、本文概述谱聚类算法是一种基于图理论的机器学习技术,它在数据分析和模式识别中发挥着重要作用。
本文旨在对谱聚类算法进行全面的综述,从理论基础、算法流程、应用领域以及最新进展等多个方面进行深入的探讨。
我们将简要介绍谱聚类算法的基本概念和原理,包括图论基础、拉普拉斯矩阵、特征值分解等关键知识点。
然后,我们将详细阐述谱聚类算法的基本流程和主要步骤,包括数据预处理、构建相似度矩阵、计算拉普拉斯矩阵、求解特征向量和聚类等。
接下来,我们将重点分析谱聚类算法在不同领域中的应用,如图像处理、社交网络分析、机器学习等,并探讨其在这些领域中取得的成果和优势。
我们还将对谱聚类算法的性能进行评估,包括其时间复杂度、空间复杂度以及聚类效果等方面。
我们将对谱聚类算法的最新研究进展进行综述,包括新的算法模型、优化方法以及应用领域的拓展等方面。
通过对这些最新进展的梳理和总结,我们可以更好地了解谱聚类算法的发展趋势和未来研究方向。
本文旨在对谱聚类算法进行全面的综述和分析,为读者提供一个清晰、系统的认识框架,同时也为该领域的研究者提供有价值的参考和启示。
二、谱聚类算法的基本原理谱聚类算法是一种基于图理论的聚类方法,它通过将数据点视为图中的节点,数据点之间的相似性视为节点之间的边的权重,从而构建出一个加权无向图。
谱聚类的基本原理在于利用图的拉普拉斯矩阵(Laplacian Matrix)的特征向量来进行聚类。
构建相似度矩阵:需要计算数据点之间的相似度,这通常通过核函数(如高斯核函数)来实现,从而构建出一个相似度矩阵。
构建图的拉普拉斯矩阵:根据相似度矩阵,可以构建出图的度矩阵和邻接矩阵,进而得到图的拉普拉斯矩阵。
拉普拉斯矩阵是相似度矩阵和度矩阵之差,它反映了数据点之间的局部结构信息。
求解拉普拉斯矩阵的特征向量:对拉普拉斯矩阵进行特征分解,得到其特征向量。
这些特征向量构成了一个新的低维空间,在这个空间中,相似的数据点更接近,不相似的数据点更远。
新聚类算法

新聚类算法引言聚类是一种无监督学习方法,用于将数据样本划分为相似的组或簇。
传统的聚类算法如K均值算法和层次聚类算法已经被广泛应用于各个领域。
然而,这些传统算法在处理大规模数据集和高维数据时面临挑战。
为了克服这些问题,研究人员不断提出新的聚类算法。
本文将介绍一些新的聚类算法,包括谱聚类、DBSCAN、OPTICS和MeanShift等。
这些算法通过引入新的思想和技术来改进传统的聚类方法。
1. 谱聚类谱聚类是一种基于图论的聚类方法,它通过构建数据样本之间的相似度矩阵,并对其进行特征分解来实现聚类。
谱聚类具有以下几个关键步骤:1.构建相似度矩阵:根据数据样本之间的相似度计算方法(如欧氏距离、余弦相似度等),构建一个N*N大小的相似度矩阵。
2.归一化相似度矩阵:对相似度矩阵进行归一化,使得每行之和为1。
3.特征分解:对归一化的相似度矩阵进行特征分解,得到特征向量和特征值。
4.K均值聚类:根据特征向量的前K个最大特征值对应的特征向量,将数据样本划分为K个簇。
谱聚类具有较好的性能和可扩展性,在处理高维数据和图像分割等领域取得了显著的成果。
2. DBSCANDBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法,它通过寻找数据样本周围密度较高的区域来实现聚类。
DBSCAN具有以下几个关键概念:1.核心对象:在给定半径ε内至少包含MinPts个样本点的样本被称为核心对象。
2.直接密度可达(Directly Density-Reachable):如果样本p在样本q的ε邻域内,并且q是一个核心对象,则p被认为是直接密度可达于q。
3.密度可达(Density-Reachable):如果存在一系列样本p1, p2, …, pn,其中pi+1是pi关于ε和MinPts直接密度可达的,则pn被认为是密度可达于p。
4.密度相连(Density-Connected):如果存在一个样本o,使得样本p和q都是关于ε和MinPts密度可达于o,则p和q被认为是密度相连的。
谱聚类算法

1)构建表示对象集的相似度矩阵W; 2)通过计算相似度矩阵或拉普拉斯矩阵的前k个特征值与特征向量,构建特征向量空间; 3)利用K-means或其它经典聚类算法对特征向量空间中的特征向量进行聚类。
谱聚类算法
计算机领域术语
01 算法步骤
03 典型的算法 05 面临的问题
目录
02 划分准则 04 算法的新进展
基本信息
谱聚类算法建立在谱图理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛 于全局最优解的优点。
该算法首先根据给定的样本数据集定义一个描述成对数据点相似度的亲合矩阵,并且计算矩阵的特征值和特征 向量,然后选择合适的特征向量聚类不同的数据点。谱聚类算法最初用于计算机视觉、VLS I设计等领域,最近 才开始用于机器学习中,并迅速成为国际上机器学习领域的研究热点。
Ncut是一个很好的聚类目标函数。它的求解是一个NP难问题。传统的方法是宽松的谱松散方法。Xing与 Jordan[分析了对Ncut的半正定规划(SDP)模型。根据该模型,对Ncut提出了一个比谱松散更紧的下限。同时指 出了Ncut本身不能得到最优的聚类,但它可以通过不同的松散方法获得合理的聚类。
谱聚类方法不仅用于无监督学习中,也用于有约束的半监督学习中。Kamvar等人将PageRank的随机游动模 型运用到相似度矩阵中,根据已知样本的类别修正相似度矩阵。然后根据谱聚类算法获得聚类结果。
Cu等人分析了核k-means的方法,发现最小化核k-means的目标函数等同于一个由数据向量组成的Gram矩阵 的迹最大化问题。同时,迹最大化问题的松散解可以通过Gram矩阵的部分特征分解获得,首次用谱松散的方法获 得核k-means的目标函数的全局最优解。Dhillon在此基础上,又研究了加权核k-means的目标函数,将其与Ncut 目标函数建立,提出了一个可以单调递减Ncut值的新颖的加权核k-means算法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
谱聚类算法算法简介 谱聚类算法建立在谱图理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。
该算法首先根据给定的样本数据集定义一个描述成对数据点相似度的亲合矩阵,并且计算矩阵的特征值和特征向量,然后选择合适的特征向量聚类不同的数据点。
谱聚类算法最初用于计算机视觉、VLS I 设计等领域,最近才开始用于机器学习中,并迅速成为国际上机器学习领域的研究热点。
谱聚类算法建立在图论中的谱图理论基础上,其本质是将聚类问题转化为图的最优划分问题,是一种点对聚类算法,对数据聚类具有很好的应用前景。
算法步骤 谱聚类算法将数据集中的每个对象看作是图的顶点V,将顶点间的相似度量化作为相应顶点连接边E的权值,这样就得到一个基于相似度的无向加权图G(V, E),于是聚类问题就可以转化为图的划分问题。
基于图论的最优划分准则就是使划分成的子图内部相似度最大,子图之间的相似度最小。
虽然根据不同的准则函数及谱映射方法,谱聚类算法有着不同的具体实现方法,但是这些实现方法都可以归纳为下面三个主要步骤: 1) 构建表示对象集的相似度矩阵W; 2) 通过计算相似度矩阵或拉普拉斯矩阵的前k个特征值与特征向量,构建特征向量空间; 3) 利用K-means或其它经典聚类算法对特征向量空间中的特征向量进行聚类。
上面的步骤只是谱聚类算法的一个总体框架,由于划分准则、相似度矩阵计算方法等因素的差别,具体的算法实现同样会有所差别,但其本质依然是图划分问题的连续放松形式。
划分准则 谱聚类算法将聚类问题就可以转化为图的划分问题之后,基于图论的划分准则的优劣直接影响到聚类结果的好坏。
常见的划分准则有Mini cut,Average cut,Normalized cut,Min-max cut,Ratio cut,MNcut等。
最小割集准则 在对图像分割中产生了较好的效果,但是该准则容易产生分割出只包含几个顶点的较小子图的歪斜分割现象。
规范割集准则 在2000年Shi和Malik根据谱图理论建立了2-way划分的规范割目标函数,此方法通过计算分割之后的连接边损失值在各个子图与所有顶点之间的连接边权重总值中所占比例之和来衡量划分的优劣。
比例割集准则 对于超大规模集成电路设计中的电路层次设计和分支划分问题,最大流最小割算法能够发现其中的类结构(clustering structure),但是在实际中该算法通常会产生规模非常不一致的电路分支;Kemighan-Lin算法采用固定参数的方式可以得到规模具有一定可比性的分支划分,由于电路中的分支倾向于自然结合的形成,所以通过预先设定分支规模进行划分的方法存在明显的局限。
针对以上的现象Wei和Cheng提出了比例割集准则。
平均割集准则 在计算机视觉中,图像原始像素条理有序地分组可以通过寻找场景结构图(Scene Structure Graph)中松散耦合的结点来完成,于是原始像素的聚合问题就转化为场景结构图的分割。
Sarkar和Soundararajan[62]提出了一种最小化两两分割之间相似度的计算方法并把它命名为平均割集准则。
最小最大割集准则 Mini cut准则容易出现分割出只包含几个顶点的较小子图的歪斜分割现象,Ratio cut和Normalized cut等在一定程度上可以避免这种现象,但是当类间重叠严重时歪斜分割现象仍旧会发生。
Chris Ding等人提出的基于Min-max cut的图划分方法充分体现了“子图内部相似度最大,子图之间的相似度最小”原则,能够产生比较平衡划分。
上述五种划分都是不断地将图划分为2个子图的反复迭代运算过程,当划分函数的最小值满足一定的条件时迭代过程便会终止,相应的函数可以称为2-way 划分函数。
多路规范割集准则 Meilă和Xu[64]认为可以同时把图划分为k个子图并于2004年提出了一种k-way规范割目标函数,而且对于参数k的选取问题也作了分析说明。
我们可以发现当k=2时,MNcut与Ncut两者是等价的。
典型的算法 根据谱聚类算法所使用的划分准则,可以把算法分为二路谱聚类算法和多路谱聚类算法,前者使用2-way划分准则而后者使用k-way划分准则。
二路谱聚类算法 PF算法。
Perona和Freeman提出用相似度矩阵W最大特征值所对应的特征向量进行聚类指出对于块对角相似矩阵,特征向量中非零值对应的点属于同一类,零值对应的点属于另外一类。
SM算法。
Meliă指出Ncut和MNcut的差异之处仅在于所使用的谱映射不同。
多路规范割集准则在实际应用中合理有效,但其优化问题通常难以解决。
Shi和Malik 认为第二小特征值对应的特征向量,即Fiedler向量包含了图的划分信息,根据启发式规则在此向量中寻找划分点i使在该点上得到的Ncut(A,B)值最小,最后把向量中的值与Ncut准则函数的最小值进行比较,大于等于该值的点划分为一类,小于该值的点则划分到另外一类。
SLH算法。
SLH重定位算法计算相似度矩阵W的前k个特征向量,参数k需要事先指定。
KVV算法。
根据启发式规则在Fiedler向量中寻找划分点i使在该点上得到的Rcut(A,B)值最小的划分点,与SM算法相似;不同之处仅在于SM算法是寻找使Ncut(A,B)值最小的划分点。
虽然在实际问题中KVV 算法存在运行速度相对较慢的缺陷,但是算法减少了过分割的可能性。
Mcut算法。
Ding根据谱图理论将最小最大割集准则函数的最优化问题转化为下式的第二小特征值的求解。
多路谱聚类算法 NJW算法。
Ng,Jordan等人选取拉普拉斯矩阵的前k个最大特征值对应的特征向量构造新的向量空间R,在这个新的空间内建起与原始数据的对应关系,然后进行聚类。
田铮和李小斌等人利用矩阵的扰动理论逐步分析了理想情形、分块情形和一般情形下权矩阵的谱和特征向量与聚类之间的关系[69]:顶点集合V的类内离散程度充分小而类间离散程度充分大时,V 中所有顶点可以划分成的数目与相似度矩阵W特征值中大于1的特征值的数目相等。
同时特征值的大小可以在一定程度上反映每一类所包含顶点的个数。
相似度矩阵W的前k个单位正交特征向量组成的矩阵X 的行向量之间的夹角可以用来计算两个顶点是否属于同一类,如果属于同一类,那么这对应的行向量接近于相互平行;反之对应的行向量接近于相互正交。
理想情况中,V中两个顶点属于同一类时,相应的行向量相互平行;属于不同的类,相应的行向量相互正交。
MS算法[70]。
Meilă把基于马尔可夫链随机游动过程的概率转移矩阵运用到相似度矩阵的构造中,研究了这种随机游动的概率转移矩阵的特征值和特征向量,在随机游动的框架下了对Ncut进行了概率解释。
该算法是用随机游动矩阵P的前k个非零特征值对应的特征向量构造矩阵,然后将矩阵中的行看成R空间中的点进行聚类,步骤与NJW算法相似。
MS算法在实际的图像分割中取得了良好的效果,但是度矩阵D中对角线元素值之间存在较大的差别时就会导致较差的聚类效果。
算法的新进展 Zha和Dhillon等人研究了基于二分图G=<X, Y, W>上的谱聚类,发现最小化目标函数可以等同于与二分图相关联的边权重矩阵的奇异值分解。
Meila和Shi将相似性解释为Markov链中的随机游动,分析了这种随机游动的概率转移矩阵P=DW的特征向量(W为相似度矩阵),并且利用随机游动对Ncut进行了概率的解释,提出了基于随机游动的新的算法。
同时,在这个解释框架下提出了多个特征相似矩阵组合下的谱聚类方法,在图像分割中取得了很不错的效果。
Cu等人分析了核k-means的方法,发现最小化核k-means的目标函数等同于一个由数据向量组成的Gram矩阵的迹最大化问题。
同时,迹最大化问题的松散解可以通过Gram矩阵的部分特征分解获得,首次用谱松散的方法获得核k-means的目标函数的全局最优解。
Dhillon[29]在此基础上,又研究了加权核k-means的目标函数,将其与Ncut目标函数建立联系,提出了一个可以单调递减Ncut值的新颖的加权核k-means算法。
Ncut是一个很好的聚类目标函数。
它的求解是一个NP难问题。
传统的方法是宽松的谱松散方法。
Xing与Jordan[分析了对Ncut的半正定规划(SDP)模型。
根据该模型,对Ncut提出了一个比谱松散更紧的下限。
同时指出了Ncut本身不能得到最优的聚类,但它可以通过不同的松散方法获得合理的聚类。
谱聚类方法不仅用于无监督学习中,也用于有约束的半监督学习中。
Kamvar等人将PageRank[32]的随机游动模型运用到相似度矩阵中,根据已知样本的类别修正相似度矩阵。
然后根据谱聚类算法获得聚类结果。
Bach与Jordan则是根据一个基于已知划分与Ncut谱松散结果的误差,提出了新的目标函数,通过最小化新的目标函数推出新的谱聚类算法。
王玲,薄列峰,焦李成认为在聚类搜索过程中充分利用先验信息会显著提高聚类算法的性能,并分析了在聚类过程中仅利用成对限制信息存在的不足,提出利用数据集本身固有空间一致性先验信息的具体方法。
在经典的谱聚类算法中同时引入两类先验信息的基础上提出一种密度敏感的半监督谱聚类算法,两类先验信息在指导聚类搜索的过程中能够起到相辅相成的作用,使得算法相对于仅利用成对限制信息的聚类算法在聚类性能上有了显著的提高。
王娜,李霞提出了一种基于监督信息特性的主动学习策略,找出同一类中距离相对较远的数据对象对和不同类中距离相对较近的数据对象对组成监督信息并将其引入谱聚类算法,构建新颖的主动半监督谱聚类算法,结果优于采用随机选取监督信息的谱聚类性能。
面临的问题 尽管谱聚类具有坚实的理论基础,相对于其它聚类方法具有许多优势,在实践中的应用领域在不断扩展,取得了不错的效果[38],但是它仍然需要改进,尤其在下述几个方面:如何构造相似度矩阵 如何创建相似度矩阵W,使其更加真实地反映数据点之间的近似关系,使得相近点之间的相似度更高,相异点之间的相似度更低,是谱聚类算法必须要解决的一个问题。
高斯相似函数是经典谱聚类算法中计算两点间相似度的常用方法,虽然该函数使原始的谱聚类算法取得了一些成功,但尺度参数σ的选取问题使该函数具有明显的局限性。
NJW算法[7]通过预先指定几个尺度参数σ的值,分别执行谱聚类,最后选取使聚类结果最好的σ作为参数,这种做法消除了尺度参数σ选取的人为因素,却增加了运算时间。
近年来,为了避免参数的选择问题,有学者提出在计算相似度时不使用高斯核函数。
如Gong 等人[41]借鉴Wang Fei和Zhang Changshui[42]在半监督中使用的方法,将每个点的k 近邻对该点进行线性近似表示时所占的权重作为两点间的相似度。