改进遗传算法的K_均值聚类算法研究

合集下载

一种改进的遗传K-均值聚类算法

一种改进的遗传K-均值聚类算法

他数 据挖 掘算 法 ( 特征 和 分 类 等 ) 预 处 理 。聚 如 的
类分 析 已成为 数据 挖掘 主要 的研 究领 域 , 目前 已被 广泛 应用 于金 融 数 据 分 类 、 间数 据 处 理 、 星 图 空 卫 像分 析 和医学 图像 的 自动 检测 中。K一 值 算 法 是 均
Cls m b r TP】 a sNu e 8
1 引 言
聚类 分析 是一个 无 指导 的学 习过 程 , 是指 按 照 对象 的某 些属 性 将 物 理或 抽 象 对 象 的集 合 分 组 成
聚类 分析 中 的一 种 基 本 的 划 分方 法 。因 其算 法 简 单 、 论可靠 、 理 收敛速 度快 、 能有 效 处理 较 大数 据而 被广 泛应 用 , 传 统 的 K一 值 算 法 对 初 始 聚类 中 但 均
mo o s a dt e n -tpK- a s p r a hi u e s h tt no e ain a d onco s e e ai a e t t eet n. s me , n ese me n p o c s da e h o a s t muai p r t , n i r s n r t n l l i lci o o j g o is s o
g r h me t n d a o e i e e i p r t :t e c o s v ro e a o sd s n d t x h n ec u t rc n e e we n t h o o i m n i e b v n g n tco e a e h r s o e p r t ri e i e o e c a g l s e e t r b t e wo c r — t o g
( c o lo o S h o fC mp t r u e ,Ch n ie st fGe s in e ,W u a 4 0 7 ) i a Un v r iy o o ce c s hn 3 0 4

有关k-均值聚类算法的理解

有关k-均值聚类算法的理解

有关k-均值聚类算法的理解1.K-均值聚类算法的历史:聚类分析作为一种非监督学习方法,是机器学习领域中的一个重要的研究方向,同时,聚类技术也是数据挖掘中进行数据处理的重要分析工具和方法。

1967 年MacQueen 首次提出了K 均值聚类算法(K-means算法)。

到目前为止用于科学和工业应用的诸多聚类算法中一种极有影响的技术。

它是聚类方法中一个基本的划分方法,常常采用误差平方和准则函数作为聚类准则函数迄今为止,很多聚类任务都选择该经典算法,K-means算法虽然有能对大型数据集进行高效分类的优点,但K-means算法必须事先确定类的数目k,而实际应用过程中,k 值是很难确定的,并且初始聚类中心选择得不恰当会使算法迭代次数增加,并在获得一个局部最优值时终止,因此在实际应用中有一定的局限性。

半监督学习是近年来机器学习领域的一个研究热点,已经出现了很多半监督学习算法,在很多实际应用中,获取大量的无标号样本非常容易,而获取有标签的样本通常需要出较大的代价。

因而,相对大量的无标签样本,有标签的样本通常会很少。

传统的监督学习只能利用少量的有标签样本学习,而无监督学习只利用无标签样本学习。

半监督学习的优越性则体现在能同时利用有标签样本和无标签样本学习。

针对这种情况,引入半监督学习的思想,对部分已知分类样本运用图论知识迭代确定K-means 算法的K值和初始聚类中心,然后在全体样本集上进行K-均值聚类算法。

2. K-算法在遥感多光谱分类中的应用基于K-均值聚类的多光谱分类算法近年来对高光谱与多光谱进行分类去混的研究方法很多,K-均值聚类算法与光谱相似度计算算法都属于成熟的分类算法.这类算法的聚类原则是以数据的均值作为对象集的聚类中心。

均值体现的是数据集的整体特征,而掩盖了数据本身的特性。

无论是对高光谱还是对多光谱进行分类的方法很多,K-均值算法属于聚类方法中一种成熟的方法。

使用ENVI将多光谱图像合成一幅伪彩色图像见图1,图中可以看出它由标有数字1 的背景与标有数字2 和3的两种不同的气泡及标有数字4的两个气泡重叠处构成。

K-均值聚类

K-均值聚类

一种改进的K-均值聚类算法摘要:在K-均值聚类算法中,K值需事先确定且在整个聚类过程中不能改变其大小,而按照经验K值划分所得的最终聚类结果一般并非最佳结果。

本文将最大最小距离算法与K-均值算法结合,通过最大最小距离算法估算出K值,再用K-均值算法改进聚类精度。

1. 概述聚类(cluster)做为数据挖掘技术的主要研究领域之一,近年来被广泛应用于各行各业。

聚类分析方法做为一种无监督的学习方法,采用“物以类聚”的思想,将数据对象按某些属性分组成为多个类或簇,并且使得同类或簇中数据对象相似度尽可能大,而不同类或簇之间的差异尽可能大。

K- 均值聚类算法是聚类分析中一种基本的划分方法,因其思想可靠,算法简洁,而且能有效的应用于大数据集而被广泛使用。

但是传统的K 均值聚类算法往往受初始中心点选取的影响并且常常终止于局部最优。

因此初始中心点的选择在K-均值聚类算法中非常重要,通常希望找到散布较大的点作为初始中心点。

但是在传统的K-均值聚类算法中初始中心点选择的随机性较强,导致聚类结果的随机性。

而且在传统的K-均值聚类算法中K的值需要给定,如果K值给定的不合理也将影响聚类的效果。

针对以上缺点本文将最大最小距离聚类算法和传统的K-均值聚类算法结合。

形成一种初始中心点的距离最大,中心点数自动调整的K-均值算法。

以达到更高的聚类精度。

2.K-均值聚类算法基本思想K 均值聚类算法是一种基于划分方法的经典聚类算法之一,该算法的核心思想如下:首先从所给n 个数据对象中随机选取k 个对象作为初始聚类中心点,然后对于所剩下的其它对象,则根据它们与所选k 个中心点的相似度(距离)分别分配给与其最相似的聚类,然后在重新计算所获聚类的聚类中心(该聚类中所有对象的均值),不断重复这一过程直到标准测度函数开始收敛为止,其基本算法流程如下:1) 从n个数据对象中任意选择k个对象作为初始聚类中心。

2) 根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离并根据最小距离对相应对象进行划分。

改进的模糊C-均值聚类方法

改进的模糊C-均值聚类方法

Ab t a t A t o ff z y c u t r g b s d o e e i l o i m si p o o e i p p r T i me o sr c me h d o z l se i a e n g n t a g rt u n c h s r p s d i t s a e  ̄ h s nh t d h
h s t e l i t n o o v r i g t l o a n i i s a o t n u t O 。 o e i t re a e e e h i u a l i t i f c n e g n o t e l c l f t i l i 。i o r me l d s m er lt d k y t c n q e 1 m a o 1 i n e m p n 1 n p o lms s c n o i g me o , e ei p r t r , e ti t o d t n f n s n t n f rt e t d t n l e e i r b e , u h a e c d t d g n t o e a o s r sr n i o , t e s u ci o r i o a n tc s n h c c c i i f o h a i g ag r h . ef r e f r e . p r e t e u t s o t a 1 t o a e c l b l p i u p  ̄l O t a l o i m a t rr o m d Ex e i n s l h w 1 t l me h d C s a h g o a t m a y S 1t t r u h e m r s l te n r o m l 纺 ecu t r gr s l eb a r纺a 纺o eo n y u i g纺 eF ls i ut a e e n en e sr s f l s o n CM Ke wo d y r s

自适应遗传算法在聚类分析中的应用

自适应遗传算法在聚类分析中的应用

yi me o sbsd o dpiegn t grh (G )i pee t .T ecntun lm ns o eei agrh n t gn rls p o sl s td ae n a at eei a oi m A AC s rsne s h v cl t d h os t te et fgnt oi m a d i eea t s t o e ie e cl t s e v
p o l ms ha e d mo sr td t h s a g o o c u in u i g t i c u trn a ay i t o o cu t r n mb r r b e v e n t e .I a o d c n l so sn h s l se g n l ss me h d t l se u e . a i Ke wo d : Ad p i e g n t ag rt m;c u trn ay i ;K— a s i s f n t n y rs a t e ei l o h v c i l se i g a l ss n me n ;f ne s u ci t o
得 了较 好 的 聚 类 结果 。
关键词 : 适应遗传算法 ; 自 聚类分析 ;一 k 均值 ; 适应度 函数
Ab ta t h rdt n lk men cu trn to i o sn iv o h nta lseig c ne.T v ro hs rbe sr c :T e ta io a - a lseig meh d s o e st e t te ii l cu trn e tr o o ecme t i i t i i po lm a cuse n n l l tr g a a— i

ห้องสมุดไป่ตู้朱 永 宽

k-means算法

k-means算法

目录1.算法简介 (1)2.算法原理及实现 (1)2.1聚类算法的要点 (1)2.2 k-means算法描述 (2)2.3 k-means算法流程 (3)3.算法性能分析 (3)3.1k-means算法优缺点分析 (3)3.1.1 k-means算法优点 (3)3.1.2 k-means算法缺点 (4)3.1.3 ISODATA算法 (5)4.k-means算法的改进算法 (7)4.1k-mode算法 (7)4.2 k-prototype算法 (7)4.3 k-中心点算法 (8)5.实验结果 (8)6.总结 (12)1.算法简介k-means算法,也被称为k-平均或k-均值,是一种得到最广泛使用的聚类算法。

它是将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的准则函数达到最优,从而使生成的每个聚类内紧凑,类间独立。

这一算法不适合处理离散型属性,但是对于连续型具有较好的聚类效果。

2.算法原理及实现2.1聚类算法的要点(1)选定某种距离作为数据样本间的相似性度量k-means聚类算法不适合处理离散型属性,对连续型属性比较适合。

因此在计算数据样本之间的距离时,可以根据实际需要选择欧式距离、曼哈顿距离或者明考斯距离中的一种来作为算法的相似性度量,其中最常用的是欧式距离。

下面我给大家具体介绍一下欧式距离。

假设给定的数据集,X中的样本用d 个描述属性来表示,并且d个描述属性都是连续型属性。

数据样本, 其中,和分别是样本和对应d个描述属性的具体取值。

样本和之间的相似度通常用它们之间的距离来表示,距离越小,样本和越相似,差异度越小;距离越大,样本和越不相似,差异度越大。

欧式距离公式如下:。

(2)选择评价聚类性能的准则函数k-means聚类算法使用误差平方和准则函数来评价聚类性能。

给定数据集X,其中只包含描述属性,不包含类别属性。

假设X包含k 个聚类子集;各个聚类子集中的样本数量分别为;各个聚类子集的均值代表点(也称聚类中心)分别为。

初始化种群的改进方法

初始化种群的改进方法

初始化种群的改进方法初始化种群是遗传算法中的关键环节,它直接影响到算法的搜索效率和最终收敛结果。

在传统的遗传算法中,通常使用随机初始化的方式来生成种群,但这种方法容易导致种群中出现大量的重复个体或者不够多样化的情况,从而降低了算法的收敛速度和搜索能力。

对于初始化种群的改进方法成为了遗传算法研究中的一个热点问题。

一种常见的初始化种群的改进方法是基于启发式的方法来生成初始种群。

启发式方法是一种利用问题的特点或者经验知识来指导搜索过程的方法。

通过对问题空间的分析和理解,可以设计出更加合理的初始化种群方法,从而提高算法的搜索效率。

对于优化问题中的种群初始化,可以利用问题的特点来设计一些启发式规则,如基于局部搜索结果、基于问题的约束条件、基于问题的特征等,来生成更加合适的初始种群。

另一种常见的改进方法是基于聚类分析的初始化方法。

通过对问题空间中的个体进行聚类分析,可以将个体分成不同的群体,从而保证初始种群的多样性和覆盖性。

聚类分析可以根据个体之间的相似性来进行,可以利用聚类算法如K均值算法、层次聚类算法等来实现。

通过聚类分析,可以确保初始化种群的覆盖性,避免种群中出现大量的相似个体,从而提高算法的搜索能力。

还可以考虑使用自适应的初始化方法来改进种群初始化。

自适应的初始化方法是指根据当前问题的搜索状态和算法的搜索进度来动态调整初始化策略。

在算法的早期阶段可以使用更加随机的初始化方法来保证种群的多样性,而在搜索进展到一定阶段后可以逐渐转向更加精细的初始化方法,以提高算法的收敛速度。

这种方法可以根据问题的特点和算法的搜索状态来设计启发式规则,从而使得初始化种群更加贴合当前的搜索需求。

除了上述方法,还可以结合其他启发式算法、模型优化算法等方法来进行种群初始化的改进。

可以借鉴蚁群算法、粒子群优化算法等其他优化算法的思想,来设计更加有效的初始化方法。

结合深度学习等方法,也可以从数据驱动的角度来设计种群初始化的方法,以提高算法的搜索能力和鲁棒性。

一种K—均值聚类的改进算法

一种K—均值聚类的改进算法

一种K—均值聚类的改进算法【摘要】聚类分析是一种无监督的学习方法,是数据挖掘领域进行数据处理的重要分析工具和方法。

K-均值聚类算法是一种典型的基于划分的方法,该方法的主要优点是,算法思想简单易行、快速而高效;但是该方法也存在其固有的缺陷:要求预先给定聚类个数;容易陷入局部极小值而得不到全局最优解等。

针对以上问题,利用分类领域中的特征选择及特征加权方法,提出了一种改进的特征加权K-均值聚类算法。

实验结果证明,所提出的算法能产生质量较高的聚类结果。

【关键词】聚类分析;K-均值算法;特征加权K-均值聚类算法因结构简单、快速高效且适用于处理大数据集,在众多科研领域得到广泛应用。

但它同时存在一些缺陷和不足,要求预先给定聚类个数;容易陷入局部极小值而得不到全局最优解等。

针对以上问题研究人员提出了各种各样的有效改进措施。

文献[1]的作者通过DBI 聚类指标和最大最小距离方法来自动确定最佳聚类数目,较好地解决了K-均值聚类算法中聚类数目K 值的确定问题。

文献[2]提出一种有效的混合聚类算法,在一定程度上克服了K-均值聚类算法和层次聚类算法各自的缺陷。

文献[3]提出一种基于变长编码的改进遗传算法,有效地解决了K-均值聚类算法对初始中心选取敏感的问题。

文献[4]提出了一种基于密度及最近邻相似度的初始聚类中心选取方法,大大提高聚类结果的稳定性。

文献[5]提出了一种基于数据对象在空间分布规律的新的初始聚类中心选取方法,有效解决由于初始中心选取的随机性而导致的聚类结果不稳定的问题。

本文利用分类领域中的特征选择及特征加权方法,提出了一种改进的特征加权K-均值聚类算法。

实验结果证明,所提出的算法能产生质量较高的聚类结果。

2.K-均值算法的改进3.实验结果为了验证本文所提出算法的有效性和可行性,选用UCI 提供的机器学习公共数据库中的5 个数据集对本文改进的聚类算法的聚类性能进行聚类实验。

(见表1)从表 2 中不难看出,随机选取初始聚类中心的传统K-均值算法得到的聚类结果准确率低且不稳定,而且对于有大值属性存在的Wine数据集,错分数大大增加;而使用本文所设计的改进聚类算法所得到的聚类结果不仅准确率高,而且相对稳定。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第31卷第4期2010年4月微 计 算 机 应 用M I C ROCOM P UTER APPL I C AT I O NSV ol 31N o 4Apr 2010改进遗传算法的K-均值聚类算法研究*徐家宁2 张立文1 徐素莉1 李 进3(1河南科技大学 电子信息工程学院 洛阳 4710032河南科技大学 校团委 洛阳 4710033太原科技大学 计算机科学与技术学院 太原 030024)摘要:传统的k-均值算法对初始聚类中心的敏感很大,极易陷入局部最优值;利用遗传算法或免疫规划算法解决初始聚类中心是较好的方法,但后期容易出现收敛速度缓慢。

为了克服上述缺点,文章将免疫原理的选择操作机制引入遗传算法中,使个体浓度和适应度同时对个体的选择施加影响,以此提出基于改进遗传算法的K-均值聚类算法,该方法利用K-均值算法的高效性和改进遗传算法的全局优化搜索能力,较好地解决了聚类中心优化问题。

试验结果表明,本算法能够有效改善聚类质量,并且具有较好的收敛速度。

关键词:聚类分析 遗传算法 免疫机制 K-均值 个体浓度Research on K-m eans C lusteri ng A lgorith m Based onImproved G enetic A l gorith mXU Jianing2,Z HANG L i w en1,XU Suli1,LI Ji n3(1Institute o f E l ec tron i c and Infor m ati on,H enan U n i versity o f Sc i ence and T echnology,Luoyang H enan,471003,China 2Enro ll m ent and Em pl oym ent Consu ltati on Section,H enan U n i ve rsity o f Sc ience and T echno l ogy,Luoyang H enan,471003,Ch i na 3Schoo l of Co m puter Science and T echno l ogy,T aiyuan U n i versity o f Sc i ence and T echno logy,T a i yuan Shanx,i030024,Chi na)Abstrac t:The traditiona lK-m eans algor i th m has t he shortco m i ng t hat p l unges i nto a l oca l op ti m u m pre m aturely because o f sensiti ve se l ection o f the i nitial c l uster center U sing the geneti c or i m mune a l gor ith m i n t o K-m eans a l gor it hm to opti m i ze c l uster center i s much better than us i ng o t her a l go rith m s,but there appeares the l oca l early phenom enon easily In o rder to overcom e t he sho rtcom i ngs m en-ti oned above,a K-m eans cluster i ng a l gor it hm based on i m proved G enetic A l go rith m is proposed,w hich usei ng the advantag es o f i m-mune i dea and i ntroducing the i dea o f se l ection opreati on o f i m mune pri nc i p l e i nto G eneti c A l gor it hm,i n w hich the se lecti on o f i ndiv i du-a l was i m pacted by its density and fitness T he a l gor it hm can so l ve t he proble m o f opti m izi ng cluster cen ter by co m bi n i ng the h i gh eff-i ciency of K-m eans algorith m w ith the ab ility of g loba l opti m izati on of i m poved G enetic A l gor it hm The experi m ental resu lts show t hat ne w a l go rith m has i m proved the c l uste ri ng qua lity effecti ve l y,and greater g l obal searchi ng capabilityK eywords:c l usteri ng analysis,genetic algorith m,i m mune pr i nciple,K-m eans a l go rith m,ind i v i dua l dens i ty聚类分析[1]是模式识别和数据压缩领域中一种重要的非监督学习过程,其目的是将若干特征相似的特征模式划分到一个集合,每个集合的特征模式之间按照某种度量来衡量相似程度,使得同一个集合内的数据对象具有较高的相似度,而不同集合中的数据对象间的相似度尽可能小,数据对象间特性差异的大小通常是借助于某一距离空间中的距离概念来刻划的。

在现有的聚类算法中,K-均值算法以其简单和高效占有本文于2009-09-25收到。

*基金项目:河南省科技攻关计划项目(082102210064);河南省教育厅科研项目资助(2008A510007)。

微 计 算 机 应 用 2010年重要地位[2]。

但因K-均值算法在寻找聚类中心的过程中采用了启发式方法,使得该算法对初始聚类中心的选择较为敏感,易于陷入局部最优解。

尤其在大矢量空间中,这种算法的性能会变得更差[3,4]。

美国H o-lland 教授于1975年提出了一种全局优化自适应概率搜索算法 遗传算法(GA )[5,6]。

该算法是模拟生物在自然环境中的遗传和进化过程而形成的一种自适应全局优化搜索算法,具有较强的鲁棒性和全局寻优的能力,但基于遗传的K 均值算法(GA -K 均值算法)存在前期过早收敛而后期收敛慢的缺点[7]。

本文借助免疫机制的优点[8],将免疫原理的选择操作机制引入遗传算法中,提出基于改进遗传算法的K -均值聚类算法。

该算法结合K -均值算法的高效性和局部搜索能力,以及改进遗传算法的全局优化能力,达到了较好的聚类效果。

1 基于改进遗传算法的K -均值聚类算法遗传算法在解决实际问题时,目标函数和约束条件作为抗原输入,随机产生初始抗体群,并通过一系列遗传操作及个体浓度的计算,在保持抗体多样性的情况下找出针对该抗原的抗体。

本研究借助免疫机制来调整选择概率,以优化初始聚类中心,同时,在种群进化过程中,自适应动态调节交叉概率和变异概率,避免了早熟现象的发生。

具体步骤如下:1 1 染色体编码及种群初始化染色体编码有很多方式,聚类分析中常用的是基于聚类中心的浮点数编码和基于聚类划分的整数编码。

根据聚类样本的高维性和数量大的特点,本文采用浮点数编码。

初始种群的产生采用随机生成,方法为:假设随机从样本空间中选K 个样本作为聚类中心,其它样本随机分到这K 个聚类中,并计算各个聚类的聚类中心作为初始个体的染色体编码,最后增加一位该个体所对应的适应度,即1条染色体可以用长度为(K +1)个基因位组成的浮点码串S =Z 1Z 2 Z k f 表示,重复进行p siz e 次(p siz e 为种群大小),得到初始种群。

1 2 染色体适应度的选取根据染色体的构成,采用的适应度函数为f =1k E 1E k D k 上式中:k 为聚类类别数;是簇内距离;是簇间距离。

,计算公式分别为E k = k j=1x i I j x i -c j 2上式中:x i 表示类簇I j 中的样本;c j 表示类簇j 的中心。

这样定义考虑了簇内聚类最小的原则。

D k =m a x k i ,j=1 c i -c j上式中:c i ,c j 分别为簇i ,j 的中心。

这样定义考虑了簇间距离最大的原则。

适应度函数受3个因素影响,即1/k ,E 1/E k 及。

第一个因素减少的时候,另外两个因素随着k 的增加而增加,所以这个适应度函数表达的内涵是在所分类别数尽可能小的情况下提高聚类的紧凑度和分离程度。

1 3 选择操作针对基于遗传算法的聚类算法在算法开始前期收敛速度快,而后期由于各条染色体的个体差异变小使收敛速度变得很慢,本研究采用一种基于免疫原理[6]的选择操作和比例适应度分配方法相结合的混合选择算子计算个体被选中的概率以克服上述缺点。

定义1 个体浓度:d =群体中相同个体的数目(m )群体大小(p size )找出群体中个体浓度最大的m 个个体,设为1,2, ,m,则这m 个个体的个体浓度概率为p d =1-d p size ,其余的个体浓度概率为,所有个体的浓度概率之和为1。

124期徐家宁等:改进遗传算法的K-均值聚类算法研究设某一个个体的适应度为f i,该个体被选中的概率为p fi,则p fi =f ip dp s izej=1f i式中:i=1,2, ,p size。

此种选择策略有两个优点:一是个体适应度越大,则选中的概率越大,加速了算法的收敛;二是个体浓度越大则被选择的概率越小,起到抑制作用,保证了进化群体中个体的多样性,避免过早收敛。

1 4 交叉操作标准遗传算法由于在进化过程中采用固定的交叉概率和变异概率,已经被证明无法收敛到问题的全局最优解,容易出现早熟现象,后期还会因为个体差异的减小出现收敛速度缓慢的现象。

鉴于此,本研究按照一定的交叉概率采用最邻近法则进行交叉操作。

首先对交叉概率和变异概率做出如下约定:当群体适应度比较集中时,使得交叉概率P c和变异概率P m增大;当群体适应度比较分散时,使得交叉概率P c和变异概率P m适当减小。

这样约定能使算法在迭代过程中根据个体的适应度来改变其交叉概率P c和变异概率P m,从而在能保护最优个体的同时加速较差个体的淘汰速度,增强了算法的全局搜索能力。

相关文档
最新文档