复杂经济系统FCM划分最佳聚类数的确定

合集下载

fcm聚类算法python实现

FCM 聚类算法python 实现一、介绍在机器学习和数据挖掘领域，聚类是一种常用的数据分析技术，它将相似的数据点归类到同一个簇中。

FCM （Fuzzy C-Means ）聚类算法是一种经典的模糊聚类算法，它基于模糊理论，允许数据点属于多个簇的程度不同。

本文将介绍FCM 聚类算法的原理，并使用Python 实现。

二、FCM 聚类算法原理FCM 聚类算法是一种迭代的聚类算法，它基于模糊理论，通过最小化目标函数来找到最优的聚类结果。

算法的基本思想是：对于每个数据点，计算其属于每个簇的隶属度，然后根据隶属度更新簇的中心，迭代直到收敛。

2.1 目标函数FCM 聚类算法的目标函数是一个关于隶属度和簇中心的函数，可以表示为：J m =∑∑u ijm cj=1n i=1||x i −v j ||2 其中，J m 是目标函数值，n 是数据点的个数，c 是簇的个数，u ij 是第i 个数据点属于第j 个簇的隶属度，m 是模糊参数，x i 是第i 个数据点，v j 是第j 个簇的中心。

2.2 隶属度更新在FCM 聚类算法中，隶属度表示数据点属于每个簇的程度。

隶属度的计算公式如下：u ij =1∑(||x i −v j ||||x i −v k ||)2m−1c k=1 其中，u ij 是第i 个数据点属于第j 个簇的隶属度，x i 是第i 个数据点，v j 是第j 个簇的中心，c 是簇的个数，m 是模糊参数。

2.3 簇中心更新在FCM 聚类算法中，簇中心表示每个簇的中心点。

簇中心的计算公式如下：v j =∑u ij m n i=1x i ∑u ijm n i=1其中，v j是第j个簇的中心，u ij是第i个数据点属于第j个簇的隶属度，x i是第i个数据点，n是数据点的个数，m是模糊参数。

三、Python实现接下来，我们将使用Python实现FCM聚类算法，并使用一个示例数据集进行演示。

3.1 导入库首先，我们需要导入一些常用的Python库，包括numpy和sklearn。

关于模糊c均值聚类算法

FCM模糊c均值1、原理详解模糊c-均值聚类算法fuzzy c-means algorithm (FCMA)或称（FCM）。

在众多模糊聚类算法中，模糊C-均值（FCM）算法应用最广泛且较成功，它通过优化目标函数得到每个样本点对所有类中心的隶属度，从而决定样本点的类属以达到自动对样本数据进行分类的目的。

聚类的经典例子然后通过机器学习中提到的相关的距离开始进行相关的聚类操作经过一定的处理之后可以得到相关的cluster，而cluster之间的元素或者是矩阵之间的距离相对较小，从而可以知晓其相关性质与参数较为接近C-Means Clustering：固定数量的集群。

每个群集一个质心。

每个数据点属于最接近质心对应的簇。

1.1关于FCM的流程解说其经典状态下的流程图如下所示集群是模糊集合。

一个点的隶属度可以是0到1之间的任何数字。

一个点的所有度数之和必须加起来为1。

1.2关于k均值与模糊c均值的区别k均值聚类：一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则，进行相关的必要调整优先进行优化看是经典的欧拉距离，同样可以理解成通过对于cluster的类的内部的误差求解误差的平方和来决定是否完成相关的聚类操作；模糊的c均值聚类算法：一种模糊聚类算法，是k均值聚类算法的推广形式，隶属度取值为[0 1]区间内的任何数，提出的基本根据是“类内加权误差平方和最小化”准则；这两个方法都是迭代求取最终的聚类划分，即聚类中心与隶属度值。

两者都不能保证找到问题的最优解，都有可能收敛到局部极值，模糊c均值甚至可能是鞍点。

1.2.1关于kmeans详解K-means算法是硬聚类算法，是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。

K-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最优分类，使得评价指标J最小。

fcm模糊聚类算法中加权指数

fcm模糊聚类算法中加权指数FCM模糊聚类算法是一种常用的聚类算法，其在处理模糊数据时表现出色。

在FCM中，加权指数是一个至关重要的参数，它可以对不同特征的重要性进行加权，并影响聚类结果的准确性和稳定性。

加权指数的选择对于FCM算法的性能起着至关重要的作用，因此对加权指数的研究和优化显得尤为重要。

在实际应用中，加权指数的选择通常需要根据具体的数据特征和实验要求来确定。

一般来说，加权指数的取值范围是0到1之间，通常情况下设为0.5，表示对各特征的权重是相同的。

然而，在某些情况下，不同特征可能具有不同的重要性，此时就需要对加权指数进行调整，以便更好地反映数据的特征。

在实际案例中，研究人员可以通过对不同加权指数的测试和比较来确定最佳的加权指数取值。

通过比较聚类结果的准确性和稳定性，可以找到最适合具体数据集的加权指数值，从而提高FCM算法的聚类效果。

除了在实际应用中进行参数调优外，研究人员还可以通过理论分析和数学推导来探讨加权指数对FCM算法的影响。

例如，可以通过增加一些惩罚项或者正则化项来对加权指数进行约束，从而更好地控制聚类结果的质量。

此外，研究人员还可以结合其他算法和技术，如机器学习、数据挖掘等方法，来进一步优化加权指数的取值。

通过引入更多的信息和特征，可以更准确地对不同特征的重要性进行评估，并进一步提高聚类结果的准确性和稳定性。

梳理一下本文的重点，我们可以发现，加权指数在FCM模糊聚类算法中起着至关重要的作用。

通过对加权指数的研究和优化，可以提高FCM算法的聚类效果，为实际应用提供更好的支持与帮助。

希望未来能有更多的研究工作能够深入探讨加权指数在FCM算法中的作用，为模糊聚类算法的发展贡献更多的智慧和力量。

聚类有效性——最佳聚类数

聚类有效性——最佳聚类数其中，n表⽰聚类的数⽬ ,k 表⽰当前的类, trB(k)表⽰类间离差矩阵的迹, trW(k) 表⽰类内离差矩阵的迹。

有关公式更详细的解释可参考论⽂“ A dendrite method for cluster analysis ”。

可以得出 CH越⼤代表着类⾃⾝越紧密，类与类之间越分散，即更优的聚类结果。

（2） DB指标DB指标通过描述样本的类内散度与各聚类中⼼的间距，定义为其中，K是聚类数⽬，Wi表⽰类Ci中的所有样本到其聚类中⼼的平均距离，Wj表⽰类Ci中的所有样本到类Cj中⼼的平均距离，Cij表⽰类Ci和Cj中⼼之间的距离。

可以看出，DB越⼩表⽰类与类之间的相似度越低，从⽽对应越佳的聚类结果。

最佳聚类数的确定过程⼀般是这样的：给定K 的范围[Kmin,Kmax]，对数据集使⽤不同的聚类数K运⾏同⼀聚类算法，得到⼀系列聚类结果，对每个结果计算其有效性指标的值，最后⽐较各个指标值，对应最佳指标值的聚类数即为最佳聚类数。

⼆实验结果在Matlab中，函数evalclusters提供了四种⽅法进⾏聚类效果的评估，包括’CalinskiHarabasz’ 、 ‘DaviesBouldin’ 、’gap’ 、‘silhouette’。

选取⼀组数据，进⾏聚类效果评估。

这⾥分别选⽤’CalinskiHarabasz’ 、 ‘DaviesBouldin’指标，聚类算法选择k-means.（1） CH指标给定K值范围1~3，计算每个聚类结果的CH 指标，最⼤指标值对应的K 值为最优值。

（2） DB指标给定K值范围1~3，计算每个聚类结果的DB 指标，最⼤指标值对应的K 值为最优值。

备注：出现NAN是因为这两种⽅法均不适⽤与聚类数为1的情况。

Matlab代码cluster = zeros(size(data,1),3);for i=1:3cluster(:,i) = kmeans(data,i,'replicate',5); %%%保存每次聚类结果endeva = evalclusters(data,cluster,'DaviesBouldin');subplot(1,3,1);plot(data(cluster(:,1)==1,1),data(cluster(:,1)==1,2),'r*');hold onsubplot(1,3,2);plot(data(cluster(:,2)==1,1),data(cluster(:,2)==1,2),'r*');hold onplot(data(cluster(:,2)==2,1),data(cluster(:,2)==2,2),'b*');hold onsubplot(1,3,3);data=[c1 r1];[idx,ctrs] = kmeans(data,3);plot(data(cluster(:,3)==1,1),data(cluster(:,3)==1,2),'r*');hold onplot(data(cluster(:,3)==2,1),data(cluster(:,3)==2,2),'b*');hold onplot(data(cluster(:,3)==3,1),data(cluster(:,3)==3,2),'k*');hold on。

基于模糊C均值的聚类分析

数的建立
• U = initfcm(cluster_n, data_n); %初始化模糊分割矩阵
%以下为主循环： • for i = 1:max_iter, • [U, center, obj_fcn(i)] =
stepfcm(data, U, cluster_n, expo); • if display, • fprintf('Iteration count = %d, obj.
基于模糊C均值的聚类分析
1 模糊c均值聚类(FCM)方法
模糊C均值聚类(FCM)方法是一种在已知聚类数的情况下，利用隶属度函数和迭代算法将有限的数据集分别聚类的方法。其目标函数为：
式中，为样本数；为聚类数；为第个样本相对于第个聚类中心的隶属度；为
第个类别的聚类中心；为样本到聚类中心的欧式距离。聚类的结果使目标函数最小，因此，构造如下新的目标函数：
（2）
这里， =1，⋯ ，n，是等式的n个约束式的拉格朗日乘子。对所有输入参量求导，使式(1)达到最小的必要条件为：
（3）
（4）
由上述两个必要条件，模糊c均值聚类算法是一个简单的迭代过程。在批处理方式运行时，FCM采用下列步骤确定聚类中心和隶属矩阵 U：
步骤1 用值在0，1间的随机数初始化隶属矩阵U，使其满足式(2)中的约束条件。
1735.33; 2421.83; 2196.22; 535.62; 584.32; 2772.9; 2226.49; 1202.69;
2949.16 1692.62 1680.67 2802.88 172.78 2063.54 1449.58 1651.52 341.59 291.02
3244.44 1867.5 1575.78 3017.11 3084.49 3199.76 1641.58 1713.28 3076.62 3095.68

模糊c均值聚类算法

模糊c均值聚类算法
模糊c均值聚类算法（Fuzzy C-Means Algorithm，简称FCM）是一种基于模糊集理论的聚类分析算法，它是由Dubes 和Jain于1973年提出的，也是用于聚类数据最常用的算法之
一。

fcm算法假设数据点属于某个聚类的程度是一个模糊
的值而不是一个确定的值。

模糊C均值聚类算法的基本原理是：将数据划分为k个
类别，每个类别有c个聚类中心，每个类别的聚类中心的模糊程度由模糊矩阵描述。

模糊矩阵是每个样本点与每个聚类中心的距离的倒数，它描述了每个样本点属于每个聚类中心的程度。

模糊C均值聚类算法的步骤如下：
1、初始化模糊矩阵U，其中每一行表示一个样本点，每
一列表示一个聚类中心，每一行的每一列的值表示该样本点属于该聚类中心的程度，U的每一行的和为
1.
2、计算聚类中心。

对每一个聚类中心，根据模糊矩阵U
计算它的坐标，即每一维特征值的均值。

3、更新模糊矩阵U。

根据每一个样本点与该聚类中心的距离，计算每一行的每一列的值，其中值越大，说明该样本点属于该聚类中心的程度就越大。

4、重复步骤2和步骤
3，直到模糊矩阵U不再变化，即收敛为最优解。

模糊C均值聚类算法的优点在于它可以在每一个样本点属于每一类的程度上，提供详细的信息，并且能够处理噪声数据，因此在聚类分析中应用十分广泛。

然而，其缺点在于计算量较大，而且它对初始聚类中心的选取非常敏感。

基于PSO自动确定聚类数目的FCM算法

基于PSO自动确定聚类数目的FCM算法
肖剑文;周亦敏
【期刊名称】《软件导刊》
【年(卷),期】2018(017)012
【摘要】模糊C均值聚类是聚类分析中应用最广泛的算法之一,但是聚类数目需要人为预先设定,在实际应用中有极大的局限性.提出一种自动确定聚类数目的基于粒子群的模糊C均值聚类算法,通过对不同聚类数目进行试验,利用添加粒子阈值向量自动确定最佳的聚类数目.在预设的最大聚类数目内随机分割数据集,利用重构准则重新构建初始值,以此克服需要事先设置聚类数目的模糊C均值缺点.利用有效性函数评估算法性能,试验结果表明,该算法能自动找到最优聚类数目,聚类效果很好.【总页数】4页(P104-107)
【作者】肖剑文;周亦敏
【作者单位】上海理工大学光电信息与计算机工程学院 ,上海200093;上海理工大学光电信息与计算机工程学院 ,上海200093
【正文语种】中文
【中图分类】TP312
【相关文献】
1.一个自动确定聚类数目的微粒群算法 [J], 林志庆
2.图像分割中模糊聚类数目的确定 [J], 王备;王继成
3.基于PSO自动确定聚类数目的FCM算法 [J], 肖剑文[1];周亦敏[1]
4.基于PSO和GA混合优化的FCM算法 [J], 吕冰垚;姜志翱;宁春玉
5.一种确定聚类数目的自组织特征映射网络 [J], 朱牧;孟凡荣;周勇
因版权原因，仅展示原文概要，查看原文内容请购买。

确定 FCM 聚类中心的自动谱聚类社团发现算法

确定 FCM 聚类中心的自动谱聚类社团发现算法周继超;刘建生【摘要】The number of the large scale complex network is usually unknown. To the disadvantage of Kmeans spectral clustering, can ’t automatically determine the number of community and the low clustering accuracy of Kmeans, an automatic spectral clustering community detection algorithm based eigengap and FCM called FCMASC is presented.This algorithm determines the number of community based on the max eigengap of eigervalues, determines the initial clustering centers of FCM based on the linear correlation of eigenvectors matrix, uses the FCM algorithm clusters the eigenvectors matrix. Experiment tests show that FCMASC improves the clustering accuracy of K-means spectral clustering.%通常大规模复杂网络中社团数量是未知的，针对K-means 谱聚类社团发现算法无法自动确定社团数量和聚类精度不高的缺点，提出了基于本征间隙和模糊c均值算法的自动谱聚类算法发现算法（FCMASC）。

改进的FCM聚类算法的实现和有效性研究

改进的ＦＣＭ聚类算法的实现和有效性研究作者：张李军来源：《硅谷》2009年第10期[摘要]模糊c-均值（FCM）聚类算法是非监督的模式识别方法，在模式识别等领域中有着广泛的应用，但是该方法仍然存在着不少的问题，针对FCM算法中加权系数m对聚类效果的影响讨论基于模糊决策确定m的方法，并由此出发，通过求解最优m确定最佳聚类数c。

[关键词]FCM聚类最佳加权系数最佳聚类数自动确定参数中图分类号：G42文献标识码：A文章编号：1671－7597（2009）0520041－01一、经典的FCM聚类算法经典FCM聚类算法是基于目标函数寻优的聚类方法，它最早由是Bezkek于1981年提出的，它是目前广泛采用的一种聚类算法。

具体步骤这里不再详述。

二、加权系数对聚类的影响使用模糊c均值算法时，如何选取加权系数m一直是个悬而未决的问题。

部分文献根据实验结果建议最佳的权重指数可能位于区间[1.1，2.5]，研究表明这一经验结果并不必要，而且在这个范围内有时候是无法得到好的聚类结果的。

在基于目标函数聚类准则中，FCM采用的目标函数为：由式（2-1）得，即Jm是随着m的增而单调递减的，显然对不同的m将有不同的最佳模糊c划分。

对于聚类效果检验的平均模糊熵函数：由于模糊熵越小，划分就越分明，反之则越模糊，所以我们总希望（2-2）越小越好，而m值的确定又必然对（2-2）式产生影响。

三、FCM聚类算法的改进（一）基于模糊多约束决策的m自整定方案因为FCM聚类中，要求目标函数Jm（U，P）尽量小，同时为了保证划分结果清晰，能够正确的得出每个样本的类属关系，要求Hm（U，c）应尽量接近零[4]。

根据模糊决策理论，最佳加权系数m*可以通过求解带约束的模糊决策来获得，这样就得到了决策中的目标G和约束C分别为：由此得出，决策D=G∩C[3]，这样我们就可以通过构造Jm（U，P）和Hm（U，c）关于m的隶属度函数ug（m）和uc （m）来用模糊决策方式确定m。

k-means聚类和fcm聚类的原理概念

k-means聚类和fcm聚类的原理概念k-means聚类是一种基于距离的聚类算法，其思想是将数据样本划分为k个簇，使得簇内的样本相似度较高，簇间的样本相似度较低。

算法的步骤如下：1. 随机选择k个中心点作为初始聚类中心。

2. 根据每个样本到各个聚类中心的距离，将样本分配到距离最近的聚类中心所属的簇。

3. 更新每个簇的聚类中心，即取簇内样本的平均值。

4. 重复步骤2和步骤3，直到簇的分配不再改变或达到预定迭代次数。

FCM（模糊C均值聚类）是一种基于模糊理论的聚类算法，其思想是不仅将样本分配到某个簇中，还在0到1之间给出每个样本属于每个簇的隶属度。

算法的步骤如下：1. 随机初始化每个样本到每个簇的隶属度，满足隶属度的和为1。

2. 根据当前隶属度和欧氏距离计算每个样本到每个簇中心的距离。

3. 根据距离重新估计每个样本属于每个簇的隶属度，满足隶属度的和为1。

4. 重复步骤2和步骤3，直到隶属度的改变小于预定阈值或达到预定迭代次数。

不同点：1. k-means是硬聚类算法，每个样本只能属于一个簇，而FCM 是软聚类算法，每个样本属于每个簇的隶属度为概率值。

2. k-means通过计算距离来确定样本所属簇，而FCM则通过计算样本到簇中心的距离和隶属度的关系来确定样本所属簇。

3. k-means对异常值敏感，因为它是基于欧氏距离的，而FCM 相对较为鲁棒，因为它引入了隶属度的概念。

相同点：1. k-means和FCM都是迭代的聚类算法，需要根据指定的迭代次数或收敛条件来进行停止。

2. k-means和FCM都需要预先指定簇的个数。

3. k-means和FCM都是无监督学习方法，不需要事先标注样本的类别信息。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第２８卷第５期　２０１１年５月　计算机应用研究　

Ａｐｐｌｉｃａｔｉｏｎ　Ｒｅｓｅａｒｃｈ　ｏｆ　Ｃｏｍｐｕｔｅｒｓ　Ｖｏ】．２８　Ｎｏ．５　

Ｍａｖ　２０１１　

复杂经济系统ＦＣＭ划分最佳聚类数的确定　贺　勇　（广东工业大学管理学院，广州５１０５２０）　

摘　要：提出了一种复杂系统最佳聚类数的确定方法，首先检验系统的可聚性，然后给定合理的聚类数区间，最　后在聚类数区间中搜寻得到最佳聚类数，其中搜寻依据为尽可能满足经典的聚类有效性指标。对Ｘ３０及Ｂｅｎ—　ｓａｉｄ数据检验及全国３１个地区按科技水平分类的研究，表明了该方法的可行性和有效性。　关键词：模糊ｃ一均值；科技进步；复杂经济系统；最佳聚类数；聚类有效性函数　中图分类号：ＴＰ３９１　文献标志码：Ａ　文章编号：１００１—３６９５（２０１１）０５—１６６８—０３　ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１－３６９５．２０１　１．０５．０２０　

Ｄｅｔｅｒｍｉｎａｔｉｏｎ　ｏｆ　ｏｐｔｉｍａｌ　ｃｌｕｓｔｅｒ　ｎｕｍｂｅｒ　ｂｙ　ＦＣＭ　ｉｎ　ｃｏｍｐｌｅｘ　ｅｃｏｎｏｍｉｃ　ｓｙｓｔｅｍｓ　ＨＥ　Ｙｏｎｇ　（Ｓｃｈｏｏｌ　ｏｆＭａｎａｇｅｍｅｎｔ，Ｇｕａｎｇｄｏｎｇ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆＴｅｃｈｎｏｌｏｇｙ，Ｇｕａｎｇｚｈｏｕ　５１０５２０，Ｃｈｉｎａ）　

Ａｂｓｔｒａｃｔ：Ｔｈｉｓ　ｐａｐｅｒ　ｐｒｏｐｏｓｅｄ　ａ　ｍｅｔｈｏｄ　ｔｏ　ｇｅｔ　ｔｈｅ　ｏｐｔｉｍａｌ　ｃｌｕｓｔｅｒ　ｎｕｍｂｅｒ　ｏｆ　ＦＣＭ　ｉｎ　ｒｅａｌ　ｓｙｓｔｅｍｓ．Ｐｒｅｓｅｔ　ｓｏｍｅ　ｒｅａｓｏｎａｂｌｅ　ｃｌｕｓｔｅｒ　ｎｕｍｂｅｒｓ，ａｎｄ　ｔｈｅｎ　ｃｈｏｓｅ　ａ　ｃｌｕｓｔｅｒ　ｎｕｍｂｅｒ　ａｓ　ｔｈｅ　ｏｐｔｉｍａｌ　ｃｌｕｓｔｅｒ　ｎｕｍｂｅｒ　ｂｙ　ｓｏｍｅ　ｒｅｐｒｅｓｅｎｔａｔｉｖｅ　ｖａｌｉｄｉｔｙ　ｆｕｎｃｔｉｏｎｓ．Ｔｅｓ－　ｒｉｎｇ　ｏｎ　ｔｈｅ　Ｘ３０　ａｎｄ　Ｂｅｎｓａｉｄ　ｄａｔａ　ｓｅｔｓ　ｄｅｍｏｎｓｔｒａｔｅｓ　ｔｈｅ　ｅｆｆｅｃｔｉｖｅｎｅｓｓ　ａｎｄ　ｒｅｌｉａｂｉｌｉｔｙ　ｏｆ　ｔｈｅ　ｐｒｏｐｏｓｅｄ　ｍｅｔｈｏｄ．Ａｎｄ　ｆｉｎａｌｌｙ　ｇａｖｅ　ａｎ　ｅｘｐｅｒｉｍｅｎｔ　ｏｎ　Ｃｈｉｎａ’ｓ　３　１　ｒｅｇｉｏｎｓ　ａｃｃｏｒｄｉｎｇ　ｔｏ　ｔｈｅ　ｌｅｖｅｌ　ｏｆ　ｓｃｉｅｎｃｅ　ａｎｄ　ｔｅｃｈｎｏｌｏｇｙ（Ｓ＆Ｔ）ｐｒｏｇｒｅｓｓ．　Ｋｅｙ　ｗｏｒｄｓ：ｆｕｚｚｙ　Ｃ—ｍｅａｎｓ；Ｓ＆Ｔ　ｐｒｏｇｒｅｓｓ；ｃｏｍｐｌｅｘ　ｅｃｏｌｌｏｍｉｃ　ｓｙｓｔｅｍｓ；ｏｐｔｉｍａｌ　ｎｕｍｂｅｒ　ｏｆ　ｃｌｕｓｔｅｒ；ｃｌｕｓｔｅｒ　ｖａｌｉｄｉｔｙ　ｆｕｎｃｔｉｏｎ　

模糊ｃ．均值（ＦＣＭ）聚类算法　０　是无监督数据分类和分　析的一个重要基本工具，在模式识别、数据挖掘及系统建模等　领域得到了广泛的应用。聚类有效性函数可用来确定最佳聚　类数和最佳模糊划分，众多的学者多次展开了研究，主要可分　为两类　ｊ：ａ）基于模糊划分的方法，认为好的聚类对应于数据　集是较分明、较明晰的，代表函数如Ｂｅｚｄｅｋ提出的分割系数　（ｐａｒｔｉｔｉｏｎ　ｃｏｅｆｆｉｃｉｅｎｔ，　Ｐｃ）１４　３和分割熵（ｐａｒｔｉｔｉｏｎ　ｅｎｔｒｏｐｙ，　

ＰＥ）　；ｂ）基于几何结构的方法，认为每个子类应当是紧致的，　子类与子类相互间尽可能分离，代表函数有Ｘｉｅ等人的　。。　，　Ｆｕｋｕｙａｍａ等人的　”　、Ｋｗｏｎ的　等。然而，对于ＵＣＩ上的　标准数据集，没有一个有效性函数能保证都得到正确的分类　数。这样，在现实的复杂经济系统中，将目标系统采用ＦＣＭ划　分为若干个子系统时，应当选取哪个有效性函数没有任何根　据，其最佳聚类数难以确定。　在现实目标系统中，一个好的聚类应该满足两个条件：ａ）　其聚类数应该是合理的，是符合实际情况的；ｂ）聚类结果应尽　可能地满足经典的聚类有效性函数。基于以上考虑，提出了一　种ＦＣＭ划分最佳聚类数的确定方法。首先检验数据集是否具　有可聚性，按照实际情况或研究问题的需要给定合理的聚类数　区间，最后采用经典的聚类有效性函数集对待选聚类数进行遴　选，最大限度地满足有效性函数集的聚类数即为最佳聚类数。　对Ｘ３０及Ｂｅｎｓａｉｄ数据的测试证明了方法的有效性，并对我国　３１个地区科技进步水平进行了模糊软划分。　

１　ＦＣＭ算法及评价函数　

给定Ｘ＝｛　，　，…，Ｘ　｝ｃＲ　，Ｒ　表示实数ｎ维向量空　Ｉ司。对于Ｖ　（１≤　≤Ⅳ），Ｘｋ＝（　ｌ，　，…，　ｈ）　∈Ｒ　，其中，　（　＝１，２，…，ｎ）是样本Ｘｋ（ｋ＝１，２，…，Ｎ）的第　个属性值。记　ｖＴ＝（Ｖ１，　，…，　）（Ｖｉ∈Ｒ　，ｉ＝１，２，…，ｃ）为聚类中心向量，Ｘ　

ｍｉｎ　（　，ｃ）＝。　

ｃ　Ｎ　

＝　耋　ｌＪ　—　

ｒ　ｋ　≤　≤Ⅳ　ｓ＿　｛：　薹　Ⅳ：　：　≤　≤Ⅳ　（２）　

其中：《＝ｆｆ　一ｖｊ　ｆＩ。＝（　～　）　（　一　）。　迭代自组织分析技术（ｉｔｅｒａｔｉｖｅ　ｓｅｒｆ－ｏｒｇａｎｉｚｉｎｇ　ｄａｔａ　ａｎａｌｙｓｉｓ　ｔｅｃｈｎｉｑｕｅ　ａｌｇｏｒｉｔｈｍ，ＩＳＯＤＡＴＡ）　就是在初始化矩阵　：　（　）　后，对　

；。（　）　和　＝（　耋（妾）　）　（４）　

进行迭代运算。可以证明当ｈ＞１，该算法是收敛的　。　

收稿日期：２０１０—１０—２４；修回日期：２０１０—１２—２２　基金项目：国家自然科学基金资助项目（７０５７３１０１）；广东省哲学社科规划资助项目　（０９０—０６）；广东工业大学博士启动基金资助项目（１０３０１２）　作者简介：贺勇（１９８２・），男，湖北天门人，博士，主要研究方向为经济系统分析、管理系统工程的研究（ｊｉａｂｅｉｓｈｅｎｇ＠ｓｉｎａ．ｃｏｍ）．　第５期　贺　勇：复杂经济系统ＦＣＭ划分最佳聚类数的确定　・ｌ６６９・　问题，而且能有效地指导聚类算法得到更符合实际的分类，但　不存在使所有数据集都达到正确分类的有效性函数。本文通　过聚类有效性函数比较ＦＣＭ算法在不同聚类个数情况下得到　的结果，从中选择较优的聚类作为最终的结果，而最终结果对　应的聚类个数被确定为最佳的聚类ｃ值。对聚类有效性函数　的研究可分为两类：ａ）以Ｂｅｚｄｅｋ的　和　为代表的基于数　据集模糊划分的观点．ｂ）基于数据集的几何结构，以Ｘｉｅ等人　的　、Ｆｕｋｕｙａｍａ等人的＇ＵＦＳ及Ｋｗｏｎ的　为代表。上面提到的　五个有效性函数定义和性质如表１所示。在评价聚类结果时，　这五个有效性函数并不一定同时达到最优，通常认为：多个有　效性函数取得最优值的聚类结果为较优的结果，该结果对应的　聚类个数Ｃ为最佳的聚类数。　表１聚类有效性函数　２对Ｘ３０及Ｂｅｎｓａｉｄ数据的检验　Ｘ３０数据集和Ｂｅｎｓａｉｄ数据为ＵＣＩ上的标准数据集，均分　为三类，其中Ｘ３０包含３０个样本点，Ｂｅｎｓａｉｄ数据包含４９个　样本点，分别如图１、２所示，均具有明显的聚类趋势。　一．　。　・　：４Ｉ　．　。　２０　４０　６０　８０　ｌＯ０　图２　Ｂｅｎｓａｉｄ数据　对于Ｘ３０数据集，聚类数区间选定为Ｃ＝｛２，３，４，５　，对于　每一个有效性函数，其目标值如表２所示。可见五个有效性函　数中，有三个有效性函数评判为三类，与正确分类数相符。对　于Ｂｅｎｓａｉｄ数据集，聚类数区间为Ｃ＝｛２，３，４，５，６，７｝Ｉ，对于每　一个有效性函数，其目标值如表３所示。可见五个有效性函数　中，有三个有效性函数评判为三类，与正确分类数相符。　３按科技进步对经济系统的软分类　若实际产出为Ｙ，有ｎ个投入要素，则生产函数的一般形　式为　Ｙ＝Ｆ（　１，　２，…，　；ｔ）　（５）　式（５）代表产出与投入要素之间的某种依存关系。为了　实现对我国３１个省、市的科技进步水平的软分类，著名的Ｃ—Ｄ　（Ｃｏｂｂ—Ｄｏｕｇｌａｓ）函数为如下形式　“　：　

Ｙ＝，（　１，　２，…，　；ｔ）＝Ａ　Ａ７　（６）　其中　、，，是常数，并假设　＋卢　＝１（即产出的规模效益不　变）。这里，　、Ｌ、Ⅳ分别代表资本投入、劳动投入、土地（包括　环境资源）投入，Ａ代表技术进步水平。从式（６）容易得到：　Ａ＝ＹＫ，　，．　一Ｎ　一　（７）　式（７）表示一个地区的技术进步与该地区的产出、资本投　入、劳动投入、土地（包括环境资源）投入具有一定的依存关　系。由于土地是一个相对不变的要素，这里主要考虑人均产　出、固定资产投入和人力资本。基于这种依存关系，根据　１９９９ｍ２００３年的数据来对三维向量集｛（　，Ｋ　，Ｌ　）｝进行模糊　分类，具体数据集如表４所示。　表２　Ｘ３０不同类别的有效性函数值　

表４　３１个地区科技水平数据　誊霖　ｃ一　｝　人力资本　喜霖　ｃｏｒ　｝　人力资本　北京　１　７９９　８　４　９７５　６　１　４２８　湖北０　６９４　２　１　１７２　１　ｌ　０Ｏ０　天津　１　６０１　３　３　３２０　６　１　４１７　湖南０　５４６　７　０　７６９　３　０　７９５　河北０　７３４　４　１　３９５　０　１　０２２　ｒ东　Ｉ　１９２　８　２　１５６　９　Ｉ　１７４　山西０　５０４　７　０　８４１　２　０　８２８　广西０　４４１　４　０　６８３　０　０　６１０　内蒙古０　５７３　２　０　８８６　２　０　９５５　海南０　６３６　７　１　４２２　３　０　９４９　辽宁　１　０５９　９　１　５８９　ｌ　０　９１７　重庆０　５０８　８　０　７８９　０　０　７３８　吉林０　６６１　９　１　０８０　３　０　６７４　四ＪＩ『０　４６３　３　０　８４８　４　０　６７５　黑龙　ｌ　０　８３８　４　ｌ　１７０　１　０　８０５　贵卅ｆ　０　２６１　８　０　４９５　７　０　３６５　上海　２　７５５　９　７　１０９　６　１　６６４　云南０　４５２　８　０　８４７　３　０　５５３　江苏　ｌ　１３３　７　１　９２４　８　１　２５３　两藏０　４３８１　１　１５７　９　０．５３４　浙江　１　２７３　８　２　６Ｏ６　８　１　２１５　陕两０　４４３　４　０　８６９　９　０．６５ｌ　安徽０　４８７　８　０　６７７　２　０　７５０　甘肃０　３７７　３　０　７３０　０　０　５０３　福建　１　１１０　３　１　７２５　０　１　３００　青海０　４９９　７　１　３５７　７　０　５６６　江西０　４７２　１　０　６２０　５　０．８１６　宁夏０　４６９　３　１　２７７　６　０　５９２　山东０　９１８　２　１　３７３　８　１　１８６　新疆０　７０３　５　１　６５８　５　０　７８７　河南０　５２７　６　０　７７５　８　０　８１４　数据来源：中国统计年鉴２０００－－２０（１４年版　从图３中可看到３１个地区科技水平数据散点图，可看出　待分析的数据是存在聚类趋势的，具有可聚性　ｊ。由散点图　及实际研究问题的需要，将聚类数区间定为ｃ＝｛３，４，５，６，７，　８｝。在不同类别下的五个有效性函数值都在ｃ＝３时达到最