基于MATLAB采用遗传算法确定最佳聚类数

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
! &)
+
[# ( 0 +0
% &)
$/ ) 1 - & $ $/ ) 1 - 0 $
) ]
1 . 10
10
其中, 通常 . ? 1 。 > > 步骤 / : 对于预先给定的小整数 ! ( 如 0A C 1 , 0A C ! , …) , 如果 ,.< [ D (! 则 (! &) C ( &) D ]E ! , &) 及相应 得到的 - & 即是所求结果, 否则再返回到步骤 8 。 其中 ! 越小, 结果越精确。 > > 步骤 F : 选择下面的式子作为适应度函数, 分 别计算各个个体的适应度值 2 + 0
第 0 期> > > > > > > > > > 郭海湘, 等:基于 KUVWUX 采用遗传算法确定最佳聚类数
0!
全局优化算法, 用遗传算法对多个个体组成的群 体进行操作, 通过遗传算子可以使个体间的信息 得以交换, 这样的群体中的个体一代一代地得以 优化, 并逐步逼近最优解。遗传算法的 ! 个主要 算子 是 选 择 ( "#$#%&’() ) 、 交叉 ( %*(""(+#* ) 、 突变 ( ,-&.&’()) 。遗传算法包含如下 / 个要素: (0) 参数编码: 规定种群个体的数据结构。 (1) 生 成 初 始 种 群: 规定种群的个体数目 ( 2(2"’3#) 以及种群中每一个个体的长度 ( "&*’)45 $#)4&6) , 每一个个体的生成是随机的。 (!) 适应度值的计算: 计算种群中每一个个 , 作为选择的依据。 体的适应度值 ( 7’&)#"") (8) 选择 ( "#$#%&’()) : 选择操作是从当前个体 中选出优良的个体, 它们有机会作为父代为下一 代繁殖。个体的适应度值越大, 其选择的机会就 越大。 (9 ) 交叉 ( %*(""(+#*) : 在种群中随机选择个体 作为相互交叉的对象, 随机选择交叉点, 交换信 息。 (:) 变异 ( ,-&.&’() ) : 变异操作是按 ;’& 进行 的, 在种群中随机选择个体和变异点, 然后把该点 的内容进行变异。 (/) 终止条件: 在遗传算法中, 起终止条件往 往是 人 为 给 定 的, 可以规定遗传最大迭代数 ( ,.<4#)) 或者使适应度值达到事先所规定的精 度。
[ $] 法无法比拟的优越性 。基于遗传算法的这一
步骤 " : 对 "+ # 计算类中心 * #
’ + ( $ #% ) ,% # % ($ ’ + ( $ #% ) # % ($
*# (
其中, , % 为原始样本的数据, 用向量来表达。 步骤 - : 由 * # 和下面式子, 计算新的软分类矩 [ $! 阵" S #% ]
% ($
析方法, 只要根据研究对象的具体情况确定预分 类数 ! 及收敛精度就可以实现对样本的最优划 分。然而, 由于系统的高度复杂性和指标的模糊 性, 常常是事先无法确定预分类数。即使对系统 有一些了解, 事先给定预分数, 而实际上是对算法 的一种人工干预, 很可能伤害了分类的科学性。 近年来, 模仿生物进化机理发展起来的基因 遗传算法是一种全局寻优算法, 为解决上述问题 ( M4C 算法的缺点) 提供了广阔的前景。特别是 在数量大、 分类要求比较高, 需要并行计算环境的 场合, 遗传算法的思想和方法更显示出了 M4C 算
&
&’ 引’ 言
模糊聚类分析是在不确定性系统中进行软计 算的常用的方法。 H@IJK?K 聚类算法是由美国
[ $] 科学家 O;2Qwk.baidu.com;R 提出的一种效果理想的聚类分
! ! ( " )# $ #% ( $ , 即对一个样品而言, 它对各
# ($
类的隶属度之和为 $ ;

! ! ( - )# $ #% ) + , 即保证每类都不空。
A > > 步骤 8 : 依次对 %( 1, …, 2(2"’3# ) , 随机 & & ? 0,
生成软分类矩阵 ’A [ ( &) ] * 是样本的个数。 & ? % B *, 这个矩阵满足下面三个条件: > > (0) ( &) " [A, 0] ;
%
> > ( 1 )# ( &) + A , 即对一个样品而言, 它对各
% * 1 "&) $-& # # & +0 ) +0
!" 最佳聚类数 ! 的确定步骤及应用
! = #" 具体步骤
[ !] > > 步骤 0 : 参数编码 。
1 /) $1 3
0 1 ! $-! # & 1 -( $ %# ( +0 & + (
%
%
其中, * 为样本数;- & , - ) 为步骤 / 的计算结果; /) !0 !1 !2(2"’3# ( " !0 ) ( " !1 ) % ( " !2(2"’3# ) 为原始样本数据; " &) 为步骤 / 中的计算结果 ( ! &) 。 > > 步 骤 G: 选 择。 采 用 旋 转 轮 盘 法 ( H(-$#&&# I6##$ J#$#%&’() K#&6(L") 。代码如下: 7-)%&’() %6*(, ? "#$#%& ( ($LM(2, "&*’)4$#)4&6, 2(25 "’3#) &(&.$N’& ? "-, ( ($LM(2 (: , "&*’)4$#)4&6 O 1 ) ) ; 2*(; ? ($LM(2 (: , "&*’)4$#)4&6 O 1 ) P &(&.$N’&; 2*(; ? %-,"-, ( 2*(;) ; *)" ? "(*& ( *.)L ( 2(2"’3#, 0) ) ; L(, )-,;#*" Q J#$#%& ’)L’+’L-.$" 7*(, &6# ($LM(2 &( &6# )#S 7’&T) ? 0 ; )#ST) ? 0 ; S6’$# )#ST) E ? 2(2"’3# ’7 *)" ( )#ST))E 2*(; ( 7’&T)) Q R#)#*.&# *.)5
!
$
! #%
(
[ #(
& - ($ #%
$, % . * # $ $, % . * - $
) ]
" + .$
.$
其中, 通常 + S " 。 步骤 , : 对于预先给定的小整数 ! ( 如 $+ U " , $+ U - , …) , 如果 V2W [ X $! 则 $! #% U $ #% X ]Y ! , #% 及相应 否则再返回到步骤 " 。 得到的 * ! # 即是所求结果,
! 第 "# 卷! 第 $ 期! ! ! ! ! ! ! ! ! 长 春 工 业 大 学 学 报 ( 自然科学版) ! ! ! ! ! ! ! ! ! %&’( "#! )&* $! ( )2=/02’ @79;17; AB9=9&1) ! ! C20( "++, ! ! "++, 年 - 月! ! .&/012’ &3 4521675/1 819:;0<9=> &3 ?;75&1&’&6>
;’).*@"&*’)41 %6*(, ? % ;’).*@"&*’)42(2"’3#
;’).*@"&*’)40
;’).*@"&*’)42(2"’3# 代表 实 数 ! 所 对 应 其中: 的二 进 制; ! 2(2"’3# 代 表 二 进 制 所 对 应 的 实 数; ( " ! 2(2"’3# ) 代表实数 ! 所对应的适应度值。 > > 步骤 1 : 生成初始种群。给出种群的个体数: 2(2"’3#, #A ? ( #A #A …, #A #A 。根据聚 0, 1, 2(2"’3#50 , 2(2"’3# ) 类数 $ 的取值范围, 规定每一个个体的二进制长 度: "&*’)4$#)4&6, 即每一个体代表一个分类数 % & 。 > > 步骤 ! : 计算种群各个个体所对应的实数 (整 数), %A ? ( %A %A …, %A 。 0, 1, 2(2"’3# )
& +0
类的隶属度之和为 0 ;
*
> > ( ! )# ( &) , A , 即保证每类都不空。
) +0
> > 步骤 9 : 对 ’A & 计算类中心 - &
* . ( ( &) ) /) # ) +0 * . ( ( &) ) # ) +0
-& +
其中, / ) 为原始样本的数据, 用向量来表达。 > > 步骤 : : 由 - & 和下面式子计算新的软分类矩 阵 ’! ? [ (! &) ] (
+ #
很明显, 当样本数量 ’ 比较小, 利用穷举法可 以得到最佳分类数; 但当 ’ 很大时, 穷举几乎是不 可能的。
/’ 遗传算法
遗传算法是一种基于自然选择和自然遗传的
!
收稿日期: "++-E$+E$# 基金项目:国家自然科学基金资助项目 ( G+"G-+,, ) 作者简介:郭海湘 ( $FGZ U ) , 男, 湖南湘乡人, 中国地质大学硕士研究生, 主要从事信息管理与信息系统方向研 究*
! ! 文章编号:$++DE"F-F ( "++, ) +$E++$"E+,
!
基于 !"#$"% 采用遗传算法确定最佳聚类数
郭海湘, ! 诸克军, ! 刘! 涛
( 中国地质大学 研究生院,湖北 武汉! ,-++G, )
摘! 要:将迭代自组织分析技术 ( H@IJK?K) 和遗传算法 ( LK ) 嵌套构成遗传E迭代自组织分析技术 ( LKEH@IE JK?K) , 共同形成模糊 4E均值的优化算法, 不仅能够在给定预分类数的前提下实现最佳分类, 而且在完全不 ( M4C) 中最佳分类数。完善和发展了模糊 4E均值算法。 需要人工干预的环境下直接得到模糊 4E均值 关键词:模糊软划分;最佳分类数;遗传算法;CK?NKO;H@IJK?K;M4C 中图分类号:?P-F$! ! ! 文献标识码:K
[ "] 其中 ! 越小, 结果越精确 。
特点, 文中提出了基于 CK?NKO 采用 M4C, H@IE JK?K 和遗传算法来进行模糊聚类的最佳聚类数 的确定, 最后以一个实例对这一方法作了说明。
(’ )*+,"#" 与 -.! 算法
步骤 $ : 预先给定聚类数 ! , 随机生成软分类 矩阵 " S [ $ #% ] ’ 是样本的个数。这个矩阵满 & T ’, 足下面三个条件: ($) $ #% " [+, $] ;
3G
长春工业大学学报 ( 自然科学版) 6 6 6 6 6 6 6 6 6 6 6 6 6 6 第 AH 卷
!"#$% ( &’()&, : ) * $+,-$. ( /01)&, : ) ; &’()& * &’()& 2 3 ; ’+4’ /01)& * /01)& 2 3 ; ’&, ’&, #’15#& 6 6 步骤 37 : 交叉。采用单点交叉法 ( 40&8+’.$0&1 %’1"$,) 。代码如下: /5&!10$& !"#$% * !#$44$9’# ( !"#$%, .!, .$.40:’, 41#0&; 8+’&81") ; /+<8 * 3 ; < * #$5&, ( #<&,! ( .$.40:’ = 3 )2 3 ) .<#’&1 @ * #$5&, ( #<&, ! ( .$.40:’ = 3 )2 3 ) <&$1"’# .<#’&1 .<#’&13 * !"#$% ( <, : ) ; .<#’&1A * !"#$% ( @, : ) ; 0/ ( #<&, B .!) !.$0&1 * #$5&, ( #<&,! ( 41#0&8+’&81" = A )2 3 ) ; .<#’&17 * .<#’&13 ; .<#’&13 *[ .<#’&13 (: , 3: !.$0&1 ).<#’&1A (: , !.$0&1 2 3 : 41#0&8+’&81" ) 2 3: 41#0&8+’&81" 2 A ) ] ; .<#’&1A *[ .<#’&1A (: , 3: !.$0&1 ).<#’&17 (: , !.$0&1 2 3 : 41#0&8+’&81" ) 2 3: 41#0&8+’&81" 2 A ) ] ; ’&, !"#$% ( <, : )* .<#’&13 ; !"#$% ( @, : )* .<#’&1A ; #’15#& 6 6 步骤 33 : 变异。代码如下: /5&!10$& !"#$% * %51<10$&( !"#$%,.%,41#0&8; +’&81") ; 0/( #<&, B .%) %.$0&1 * #$5&, ( #<&, ! ( 41#0&8+’&81" = A )2 3) ; !"#$% (3, %.$0&1 )* <@4 ( !"#$% ( 3, %.$0&1 )= 3) ; ’&, #’15#& 6 6 步骤 3A : 返回步骤 C , 直至达到最大的迭代步 数 ( %<D8’& ) 。 ! E "# 程序框架图 .<#’&1A (: , 41#0&8+’&81" .<#’&13 (: , 41#0&8+’&81" > -0!? > -0!? <
相关文档
最新文档