采用不确定性度量的粗糙模糊C均值聚类参数获取方法
模糊C均值聚类算法的C实现代码

模糊C均值聚类算法的实现研究背景聚类分析是多元统计分析的一种,也是无监督模式识别的一个重要分支,在模式分类图像处置和模糊规那么处置等众多领域中取得最普遍的应用。
它把一个没有类别标记的样本依照某种准那么划分为假设干子集,使相似的样本尽可能归于一类,而把不相似的样本划分到不同的类中。
硬聚类把每一个待识别的对象严格的划分某类中,具有非此即彼的性质,而模糊聚类成立了样本对类别的不确信描述,更能客观的反映客观世界,从而成为聚类分析的主流。
模糊聚类算法是一种基于函数最优方式的聚类算法,利用微积分计算技术求最优代价函数,在基于概率算法的聚类方式中将利用概率密度函数,为此要假定适合的模型,模糊聚类算法的向量能够同时属于多个聚类,从而摆脱上述问题。
模糊聚类分析算法大致可分为三类1)分类数不定,依照不同要求对事物进行动态聚类,此类方式是基于模糊等价矩阵聚类的,称为模糊等价矩阵动态聚类分析法。
2)分类数给定,寻觅出对事物的最正确分析方案,此类方式是基于目标函数聚类的,称为模糊C均值聚类。
3)在摄动成心义的情形下,依照模糊相似矩阵聚类,此类方式称为基于摄动的模糊聚类分析法我所学习的是模糊C均值聚类算法,要学习模糊C均值聚类算法要先了解虑属度的含义,隶属度函数是表示一个对象x隶属于集合A的程度的函数,通常记做μA(x),其自变量范围是所有可能属于集合A的对象(即集合A所在空间中的所有点),取值范围是[0,1],即0<=μA (x)<=1。
μA(x)=1表示x完全隶属于集合A,相当于传统集合概念上的x∈A。
一个概念在空间X={x}上的隶属度函数就概念了一个模糊集合A,或叫概念在论域X={x}上的模糊子集~A。
关于有限个对象x 1,x2,……,xn模糊集合~A能够表示为:}|)),({(~XxxxAiiiA∈=μ (6.1) 有了模糊集合的概念,一个元素隶属于模糊集合就不是硬性的了,在聚类的问题中,能够把聚类生成的簇看成模糊集合,因此,每一个样本点隶属于簇的隶属度确实是[0,1]区间里面的值。
模糊c均值算法

模糊c均值算法模糊c均值算法概述模糊c均值算法(FCM)是一种聚类分析方法,用于将一组数据分成多个类别。
该算法通过最小化数据点与其所属的聚类中心之间的平方误差来实现聚类。
与传统的k均值算法相比,FCM可以处理更加复杂的数据集,因为它允许每个数据点属于多个聚类。
原理FCM的核心思想是将每个数据点表示为一个向量,并将这些向量分配到多个聚类中心。
这些聚类中心由算法自动确定,并且通常是随机初始化的。
在每次迭代中,FCM计算每个数据点与所有聚类中心之间的距离,并将其分配到最近的聚类中心。
然后,它重新计算每个聚类中心作为其所有成员向量的平均值,并使用这些新的聚类中心再次计算距离和分配。
这个过程重复进行直到满足某些收敛准则,例如固定数量的迭代或达到一定程度上的稳定性。
然而,在传统k均值算法中,一个数据点只能属于一个簇,但在FCM 中,一个数据点可以属于多个簇。
这是通过将每个数据点与每个聚类中心之间的距离表示为一个模糊值来实现的。
这个模糊值称为隶属度,它表示了数据点属于每个聚类中心的程度。
具体而言,对于一个数据点i和聚类中心j,隶属度u_ij表示数据点i属于聚类中心j的程度。
隶属度必须满足以下条件:1. $0 \leq u_{ij} \leq 1$ 对于所有的i和j2. $\sum_{j=1}^{c} u_{ij} = 1$ 对于所有的i在每次迭代中,FCM计算每个数据点与所有聚类中心之间的距离,并使用这些距离计算新的隶属度。
然后,它重新计算每个聚类中心作为其所有成员向量加权平均值,并使用这些新的聚类中心再次计算距离和分配。
优缺点优点:1. FCM可以处理多维数据,并且可以应用于各种各样的应用程序。
2. FCM允许数据点属于多个簇,因此更加灵活。
3. FCM不需要指定簇数量,因此更加自适应。
缺点:1. FCM对初始值敏感。
2. FCM的计算成本很高,特别是对于大型数据集。
3. FCM需要指定一些参数,例如模糊程度和收敛准则。
基于模糊C-均值的空间不确定数据聚类

基于模糊C-均值的空间不确定数据聚类肖宇鹏;何云斌;万静;李松【摘要】针对现实世界中样本对象的不确定性及样本对象间界限划分的模糊性,提出基于模糊C-均值的空间不确定数据聚类算法UFCM.但由于UFCM算法在聚类过程中涉及大量期望距离的复杂积分计算,导致UFCM算法性能不理想,进而给出改进算法Ⅰ_UFCM,将空间不确定对象聚类问题转化为传统的确定对象聚类问题,采用相似度计算公式减少期望距离的计算量,提高聚类结果的质量.实验结果表明,与UFCM和UK-Means算法相比,I_UFCM算法在空间不确定数据集上具有更好的聚类性能,CUP耗时降低了90%以上.【期刊名称】《计算机工程》【年(卷),期】2015(041)010【总页数】6页(P47-52)【关键词】模糊C-均值;不确定数据;概率密度函数;期望距离;质心【作者】肖宇鹏;何云斌;万静;李松【作者单位】哈尔滨理工大学计算机科学与技术学院,哈尔滨150080;哈尔滨理工大学计算机科学与技术学院,哈尔滨150080;哈尔滨理工大学计算机科学与技术学院,哈尔滨150080;哈尔滨理工大学计算机科学与技术学院,哈尔滨150080【正文语种】中文【中图分类】TP18DO I:10.3969/j.issn.1000-3428.2015.10.010近年来,随着聚类分析研究的不断深入,以及数据不确定性在实际应用中普遍存在,不确定数据受到越来越多的关注,因此分析和挖掘不确定数据成为当前研究的热点[1-3]。
目前,国内外学者多采用概率密度函数对不确定数据进行建模,并在此基础上扩展现有聚类算法实现对不确定数据的聚类分析,例如基于K-M eans算法的UK-Means算法[4]、基于DBSCAN算法的FDBSCAN算法[5]等。
但上述算法在衡量样本间相似度时计算量大。
针对该问题,文献[6]提出一种基于Voronoi图和R-tree的剪枝策略,但该策略在构造Voronoi图和R-tree时会产生较大的时间开销。
模糊C均值(FuzzyC-Means)聚类论文:模糊C均值(FuzzyC-Means)聚类支..

模糊C均值(Fuzzy C-Means)聚类论文:模糊C均值(Fuzzy C-Means)聚类支持向量机(SVM) Laws纹理测同质性模型 Gabor滤波器【中文摘要】图像分割是图像处理的一个重要工具,一个有效的、前端的、复杂的算法。
它能够简化对图像的后续处理,并在视频和计算机视觉方面都有应用,如目标定位或识别、数据压缩、跟踪、图像检索等等。
虽然大量的图像分割算法已被广大研究者提出并改进,但是没有人提出一种完美的,适合于任何一种图像的分割算法,现有的方法都多少存在着方法或算法上的不足。
因此到目前为止,图像分割作为一个重要工具的同时,仍然是图像处理领域的一个具有挑战性的难题。
当前,对基于像素级、多特征、多种分割算法相结合的分割方法的研究,已经成为图像分割领域的热点。
通过认真总结,本文对模糊聚类算法和优于传统机器学习的支持向量机方法,从理论和实验结果等方面都进行了全面系统的比较和分析。
通过像素颜色,纹理等特征来描述图像的具体信息,并结合模糊C均值聚类(FCM,Fuzzy C-Means)算法和支持向量机(SVM)的方法展开实验,主要任务如下:1.本文对模糊聚类算法特别是模糊C均值聚类(FCM,Fuzzy C-Means)分割算法进行细致深入的研究探讨,并认真研究了模糊聚类图像分割算法中初始聚类类别数确定、初始聚类中心和隶属度函数的选择。
2.以模糊C均值聚类(FCM,Fuzzy C-Means)理论为基础,提出了一种结合laws纹理测度与自适应阈值的FCM聚类算法对图像进行分割。
通过大量实验对比表明,该算法与人的视觉感知系统一致性好,对噪声有良好的抑制效果,节省实验过程中程序运行的时间,提高图像分割速度。
3.通过核函数类型、核参数、惩罚因子等因素,对采用支持向量机(SVM)进行图像分割的方法的可行性进行了分析、研究,提出了一种基于无监督的支持向量机分类算法,为使用支持向量机方法(SVM)进行图像分割提供了依据。
模糊c均值算法

模糊c均值算法
算法的具体步骤如下:
1.初始化聚类中心。
从数据集中随机选择c个数据点作为聚类中心。
2.计算每个数据点属于每个聚类的隶属度。
对于每个数据点,计算其到每个聚类中心的距离,并根据距离计算其属于每个聚类的隶属度。
可以使用欧氏距离或其他距离度量方法。
3.更新聚类中心。
基于隶属度,计算新的聚类中心。
对于每个聚类,计算每个数据点的隶属度加权平均值,并将其作为新的聚类中心。
4.重复步骤2和3,直到满足停止准则。
停止准则可以是达到最大迭代次数或聚类中心的变化小于给定阈值。
然而,模糊c均值算法也存在一些限制和挑战。
首先,需要事先确定聚类数量c,并且无法自动确定最优的聚类数量。
其次,算法对初始聚类中心的选择非常敏感,不同的初始值可能会导致不同的聚类结果。
此外,算法的计算复杂度较高,尤其是在处理大规模数据时。
为了解决这些问题,一些改进的模糊c均值算法被提出,例如基于遗传算法的模糊c均值算法和基于密度的模糊c均值算法。
这些改进算法在聚类性能和效率上有一定的提升。
总结起来,模糊c均值算法是一种处理模糊性数据的聚类算法。
它通过计算每个数据点属于每个聚类的隶属度,并更新聚类中心来迭代地进行聚类。
尽管存在一些限制和挑战,但模糊c均值算法在一些领域仍然具有重要的应用价值。
模糊聚类算法的原理和实现方法

模糊聚类算法的原理和实现方法模糊聚类算法是一种数据分类和聚类方法,它在实际问题中有着广泛的应用。
本文将介绍模糊聚类算法的原理和实现方法,包括模糊C均值(FCM)算法和模糊神经网络(FNN)算法。
一、模糊聚类算法的原理模糊聚类算法是基于模糊理论的一种聚类方法,它的原理是通过对数据进行模糊分割,将每个数据点对应到多个聚类中心上,从而得到每个数据点属于各个聚类的置信度。
模糊聚类算法的原理可以用数学公式进行描述。
设有n个数据样本点X={x1, x2, ..., xn},以及m个聚类中心V={v1, v2, ..., vm}。
对于每个数据样本点xi,令uij为其属于第j个聚类中心的置信度,其中j=1,2,..., m,满足0≤uij≤1,且∑uij=1。
根据模糊理论,uij的取值表示了xi属于第j个聚类中心的隶属度。
为了达到聚类的目的,我们需要对聚类中心进行调整,使得目标函数最小化。
目标函数的定义如下:J = ∑∑(uij)^m * d(xi,vj)^2其中,m为模糊度参数,d(xi,vj)为数据点xi与聚类中心vj之间的距离,常用的距离度量方法有欧氏距离和曼哈顿距离。
通过不断调整聚类中心的位置,最小化目标函数J,即可得到模糊聚类的结果。
二、模糊C均值(FCM)算法的实现方法模糊C均值算法是模糊聚类算法中最经典的一种方法。
其具体实现过程如下:1. 初始化聚类中心:随机选取m个数据点作为初始聚类中心。
2. 计算隶属度矩阵:根据当前聚类中心,计算每个数据点属于各个聚类中心的隶属度。
3. 更新聚类中心:根据隶属度矩阵,更新聚类中心的位置。
4. 判断是否收敛:判断聚类中心的变化是否小于设定的阈值,如果是则停止迭代,否则返回第2步。
5. 输出聚类结果:将每个数据点分配到最终确定的聚类中心,得到最终的聚类结果。
三、模糊神经网络(FNN)算法的实现方法模糊神经网络算法是一种基于模糊理论和神经网络的聚类方法。
其实现过程和传统的神经网络类似,主要包括以下几个步骤:1. 网络结构设计:确定模糊神经网络的层数和每层神经元的个数。
《基于强化学习的改进模糊C均值聚类算法研究及应用》
《基于强化学习的改进模糊C均值聚类算法研究及应用》一、引言随着大数据时代的到来,数据挖掘和机器学习技术得到了广泛的应用。
聚类分析作为数据挖掘领域的一种重要技术,能够根据数据之间的相似性将数据集划分为若干个类别。
模糊C均值聚类算法(FCM)是一种常见的聚类算法,但在处理复杂、动态数据时仍存在一定局限性。
针对这些问题,本文提出了一种基于强化学习的改进模糊C均值聚类算法,旨在提高聚类的准确性和效率。
二、相关技术背景2.1 模糊C均值聚类算法模糊C均值聚类算法是一种基于划分的聚类方法,通过优化目标函数将数据划分为C个模糊类别。
该算法可以处理具有不确定性和模糊性的数据,但当数据集较大或具有复杂结构时,其计算复杂度和聚类效果有待提高。
2.2 强化学习强化学习是一种机器学习方法,通过试错学习的方式使智能体在环境中进行决策,以实现长期收益的最大化。
强化学习在处理复杂、动态问题时具有较好的效果,可以用于优化模糊C均值聚类算法的参数和策略。
三、基于强化学习的改进模糊C均值聚类算法3.1 算法思路本文提出的算法基于强化学习的思想,通过动态调整模糊C 均值聚类算法的参数和策略,提高聚类的准确性和效率。
具体思路如下:(1)定义智能体和环境:将模糊C均值聚类算法的参数和策略作为智能体的状态和动作空间,将数据集作为环境。
(2)构建奖励函数:根据聚类效果和计算复杂度等因素,构建奖励函数,用于评估智能体的决策。
(3)试错学习:智能体在环境中进行试错学习,通过执行动作调整参数和策略,以最大化长期收益。
(4)更新策略:根据智能体的决策和环境的反馈,更新策略,以优化聚类效果。
3.2 算法实现具体实现过程包括以下步骤:(1)初始化智能体和环境:设置初始的模糊C均值聚类算法参数和策略,以及数据集。
(2)定义奖励函数:根据聚类效果和计算复杂度等因素,定义奖励函数。
(3)试错学习:智能体在环境中进行试错学习,通过执行动作调整参数和策略。
动作包括调整聚类中心、调整隶属度矩阵等。
模糊c均值聚类算法的概念
模糊c均值聚类算法的概念
模糊C均值聚类算法(Fuzzy C-means clustering algorithm,简
称FCM)是一种基于模糊理论的聚类算法,用于将数据集划
分为若干个模糊的子集,每个子集代表一个聚类。
FCM算法的目标是最小化数据点与聚类中心之间的模糊距离。
模糊距离所描述的是一个数据点属于每个聚类的可能性,而不仅仅是属于一个特定聚类的二进制标识。
FCM算法的步骤如下:
1. 初始化聚类中心,可以随机选择数据点作为初始中心。
2. 根据初始聚类中心,计算每个数据点对于每个聚类中心的成员关系度(即属于每个聚类的可能性)。
3. 根据成员关系度更新聚类中心,计算每个聚类中心的坐标。
4. 重复步骤2和3,直到聚类中心不再发生变化或达到最大迭
代次数。
在每次迭代中,FCM算法根据每个数据点到聚类中心的距离
计算其模糊隶属度,按照隶属度对数据点进行聚类。
每个数据点隶属于每个聚类的可能性是在0到1之间连续变化的,表示了数据点与每个聚类之间的相似程度。
相比于传统的硬聚类算法,模糊C均值聚类算法允许数据点
属于多个聚类,更好地处理了数据点的模糊性,适用于数据集中存在重叠样本或不确定性较高的场景。
模式识别大作业 模糊C均值算法实现
}
//根据隶属度矩阵计算聚类中心
p=MatrixMul(u,k,row,data,row,col); for(i=0;i<150;i++) { double si=0; for(j=0;j<4;j++) { si+=u[i][j]; } for(t=0;t<4;t++) { center[i][t]=p[i][t]/si; } }
I i { j | xi m (js ) 0, j 1, 2, , K }
② 计算 xi 的新隶属度。 如果 Ii 为空集, 则按式(8-63)计算隶属度; 否则, 并取 j (xi ) 1 j 1 (s) (s+1) (5) 选取一个适当的矩阵范数, 如果‖U -U ‖<ε, 则停止迭代, 否 则 s=s+1, 返回(3)。 当模糊 C 均值算法收敛时, 就得到了各类的聚类中心和各个样本属于各类 的隶属度, 也就完成了模糊聚类。 进一步, 可以将模糊聚类结果去模糊化, 把 模糊聚类变为确定性分类。
xi m l
2 1 ( b 1)
( i 1, 2, , N;
j 1, 2, , C)
模糊 C 均值算法采用迭代方法求解式(8-62)和式(8-63), 其步骤如下: (1) 设定聚类数目 C、 参数 b 和一个适当的小数ε>0, 通常取 1<b≤5。 (0) (2) 设置初始模糊分类矩阵 U , 令 s=0。 (s) (s) (3) 根据式(8-62)计算 U 的聚类中心{m j, j=1, 2, …, C}。 (s) (s+1) (4) 按下面的方法更新 U 为 U : ① 计算 Ii 和 I i ,其中
基于模糊逻辑的不确定数据聚类
基于模糊逻辑的不确定数据聚类一、模糊逻辑在聚类分析中的应用概述模糊逻辑是一种处理不确定性信息的数学工具,它允许我们处理那些不完全确定或不精确的数据。
在数据聚类领域,模糊逻辑因其能够处理数据中的模糊性和不确定性,而被广泛应用于聚类分析中。
本文将探讨模糊逻辑在不确定数据聚类中的应用,分析其重要性、挑战以及实现途径。
1.1 模糊逻辑的核心概念模糊逻辑的核心概念包括模糊集合、模糊规则和模糊推理。
模糊集合允许我们用模糊值来描述数据,而不是传统的二元值(0或1)。
模糊规则定义了输入和输出之间的模糊关系,而模糊推理则利用这些规则来对不确定数据进行推理和决策。
1.2 模糊逻辑在聚类分析中的作用模糊逻辑在聚类分析中的作用主要体现在以下几个方面:- 处理数据的不确定性:模糊逻辑能够处理那些由于测量误差、数据不完整或主观判断导致的不确定性数据。
- 提高聚类的质量:通过模糊聚类,可以更准确地划分数据,提高聚类结果的质量和可解释性。
- 增强聚类的灵活性:模糊聚类允许一个数据点属于多个聚类,这增加了聚类的灵活性和适应性。
二、基于模糊逻辑的聚类方法基于模糊逻辑的聚类方法是一种将模糊逻辑应用于数据聚类的技术。
这些方法利用模糊集合理论来定义数据点之间的相似度,并据此进行聚类。
以下是几种常见的基于模糊逻辑的聚类方法。
2.1 模糊C均值聚类(FCM)模糊C均值聚类是一种经典的模糊聚类方法,它通过最小化目标函数来确定数据点与聚类中心之间的隶属度。
FCM 允许数据点以不同的程度属于多个聚类,从而提高了聚类的灵活性。
2.2 模糊K均值聚类模糊K均值聚类是K均值聚类的模糊版本,它使用模糊逻辑来定义数据点与聚类中心之间的相似度,而不是传统的硬分配。
这种方法可以处理数据点的模糊边界,提高聚类的鲁棒性。
2.3 基于模糊规则的聚类基于模糊规则的聚类方法通过定义一系列模糊规则来指导聚类过程。
这些规则可以基于领域知识或从数据中学习得到,它们定义了数据点如何根据其特征被分配到不同的聚类中。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第47卷第6期 2013年6月 西 安 交 通 大 学 学 报
JOURNAL OF XI’AN JIAOTONG UNIVERSITY Vo1.47 NO.6
Jun.2013
DOI:10.7652/xjtuxb201306010 采用不确定性度量的粗糙模糊C均值 聚类参数获取方法
王学恩 ,韩德强 。,韩崇昭 。 (1.西安交通大学智能网络与网络安全教育部重点实验室,710049,西安 2.西安交通大学电子与信息工程学院,710049,西安)
摘要:针对粗糙模糊c均值聚类的阈值、权重选取问题,提出了一种基于不确定性度量的参数自 适应获取方法。该方法将阈值选取归结为一个最优划分寻找问题,给出一种基于方差的划分优劣 评价方法;利用信息熵来度量样本归属的模糊性,基于该模糊性度量和类簇的粗糙度,提出了一种 权重参数自适应计算方法。将所提方法应用于粗糙模糊C均值聚类,并将分别基于所提方法与典 型参数选取方法的粗糙模糊C均值聚类算法在人工数据集和真实数据集上进行实验比较。结果 表明,基于所提参数确定方法的粗糙模糊C均值聚类能获得更好的聚类有效性和准确性。 关键词:聚类;粗糙模糊C均值;熵;粗糙度 中图分类号:TP18 文献标志码:A 文章编号:253-987X(2013)06-0055—06
Selection Method for Parameters of Rough Fuzzy C-Means Clustering Based on Uncertainty Measurement
WANG Xue’en ,HAN Deqiang ,HAN Chongzhao ' (1.Ministry of Education Key Lab for Intelligent Networks and Network Security,Xi’an Jiaotong University,Xi’an 710049 China;2.School of Electronics and Information Engineering,Xi’an Jiaotong University,Xi’an 710049,China)
Abstract:A selection method for parameters of the rough fuzzy C-means clustering based on uncertainty measurement is proposed.The selection of parameter threshold is converted into an optimal partition problem,and partitions are evaluated based on variances.The information entropy is employed to measure the fuzziness of the sample membership tO clusters,then an adaptive method tO calculate weights is presented based on the roughness of clusters and the fuzziness of samples.The adaptive parameter selection method is employed in rough fuzzy C-meaning algorithm.Experiments and comparisons with some existing typica1 parameters selection methods for rough fuzzy C—means clustering algorithm are performed on synthetic and real—world data sets,and the results show that the proposed algorithm achieves higher accuracy, and iS effective. Keywords:clustering;rough fuzzy C—means;entropy;roughness
聚类方法广泛应用于机器学习、数据挖掘等领 域,它与分类方法不同,是一种无监督的模式识别方 法。聚类的主要任务是根据某种相似性将样本集划
分成若干个类或簇,使得同一个类中的样本之间具
收稿日期:2012—08—06。 作者简介:王学恩(1982一),男,博士生;韩德强(通信作者),男,副教授。 基金项目:国家自然科 学基金群体创新基金资助项目(60921003);国家自然科学基金资助项目(61074176,61104214)。 网络出版时间:2013—03—07 网络出版地址:http://WWW.cnki.net/kcms/detail/61.1069.T.20130307.0827.002.html 西安交通大学学报 第47卷 有较高的相似性,不属于同一个类的样本之间具有 较高的差异性。现有的聚类方法有基于模型的方 法、基于密度的方法、划分型方法、层次型方法等,其 中K均值(KM)聚类方法是一种常用的方法_】]。 KM聚类方法是一种硬划分的方法,数据空间 被划分成K个互不重叠的区域,它对应的每个类都 是精确的。现实中不同类别之间大多是有重合的, 划分的边界并不是那么清晰。目前,一些软聚类方 法能够应对这样的问题,其中最为流行的是模糊C 均值(FCM)聚类方法,此外还有基于粗糙集的聚类 方法_2_3_,其中粗糙C均值(RCM)聚类方法 是对 KM方法的一种扩展。对于聚类之间的重叠区域, RCM借用粗糙集中的上近似与下近似之间的边界 区域来刻画,这样孤立点一般不会被分配到某个类 的下近似中,而是分配到边界区域,从而降低了孤立 点对聚类结果的影响。粗糙集与模糊集是两种不同 的处理不确定信息的数学工具,它们之间有一定的 互补性,很多研究将两者结合用于聚类分析中,其中 包括粗糙模糊C均值(RFCM)聚类方法_4 ]。与 FCM聚类相比,RFCM能够更好地处理孤立点并 减少聚类结果受噪声的影响;与RCM聚类相比较, RFCM将模糊隶属度引入进来能够对边界区域和 下近似区域进行更好的刻画,从而获得更优的聚类 结果。 基于粗糙集的聚类方法目前已应用于图像分 割、文本分类等领域_6],然而在应用中首先需要解决 参数(包括阈值和权重)的选择问题。文献[7]根据 参数在聚类迭代前期和后期所起作用的变化趋势, 给出一种阈值和权重随着迭代次数增加而自适应调 整的方法;文献[8]给出利用遗传算法对初始参数进 行优化的方法;文献E9]给出一种基于近似集合中的 高斯距离比例的权重自适应选取方法;文献[1o]给 出一种基于阴影集的阈值选取方法[1 。本文认为, 聚类中对于不同的数据集以及不同的类簇应该设定 不一样的参数,文献E7]中方法没有考虑数据集的差 异,文献[8]对所有的类簇使用相同的参数,文献[9— 10]分别只研究了权重或阈值的获取方法。 考虑数据集和类簇的差异性,本文提出了一种 基于不确定性度量的阈值和权重的自适应获取方 法。首先将阈值选取问题归结为一个最优划分寻找 问题,并给出一种基于方差的划分有效性评价函数, 利用该评价函数为每一个类簇寻找对应的最优阈 值;然后,基于每个样本点隶属于所有类的模糊性和 聚类的粗糙度,给出了权值的自适应计算方法。最 终,在人工数据集和UCI(University of California Irvine)数据集口1]上进行聚类效果验证,结果表明所 提方法能获得更好的有效性和准确性。
1粗糙模糊C均值聚类方法 在RFCM聚类中使用上近似、下近似两个集合 来描述一个聚类。令 表示一个数据点(i一1,…, N),样本集记为X一{z “, },C 表示第k个类 簇,C 和C 分别表示类簇k的上、下近似集合,C 一 一c 表示边界集合,即上近似中不被下近似所包 含的区域。"Ok表示类簇 的中心,d 一lI五一"Ok ll 表示样本z 与 之间的距离。 目前,主要有两种RFCM聚类方法,分别是由 Mitra和Maji提出的_4 ],其区别在于聚类中心的计 算方法上。本文将Mitra等给出的粗糙模糊C均值 聚类方法记为RFCM I,在聚类中每个类簇对应有
一个模糊下近似区域和一个模糊边界区域,其类簇 中心计算方法如下_4] rA , if C 一 ^C ≠ FC…一 B , if c ≠ ^C 一
lA +W B , if c ≠ ^ ≠ (1) A 一∑赡r /∑“z (2) t B 一∑略z /∑“嚣 (3)
z ∈C z ∈c 式中:W。+ 一1八Wl>Wb;隶属度U 与模糊C均
值聚类中使用的隶属度一致。Maji等提出位于下 近似中的对象应该与其他类簇无关,并且它们对本 类簇具有同等的贡献,此时类簇拥有一个清晰的下 近似区域以及一个模糊边界区域,该方法记为RF— CM lI,其类簇中心计算方法如下
。, if ci'一 A Ck≠ Fc MII一 B , if c ≠ ^C 一 lA。+WbB , if c ≠ ^c ≠ (4) A。一 z /l C l (5) z 从式(1)~式(5)中可以看出,当C = 八C ≠
(V k)时,ARFCM I会退化成一个FCM聚类,而 RFCMⅡ则退化成KM聚类,当C ≠ ^C 一 (V愚)时,ARFCM工和RFCM 11均退化成FCM 聚类方法。与RCM在确定上、下近似区域时使用
http://WWW.jdxb.cn http://zkxb.xjtu.edu.cn