基于遗传算法的特征选择方法
基于遗传算法的特征选择方法

图%
基于遗传算法的自适应特征选择过程
#
遗传特征选择的关键技术
应用遗传算法解决任何问题的关键是给出一个适合于遗
传操作的个体编码表示及定义一个较佳的适应度函数。
#$%
遗传个体表示
编码问题的关键就是要使编码能够代表所给特征集的所
有可能子集的解空间。 最简单的方法就是用一个二进制基因位 表示所选特征子集中的一个特征, 这样, 每一个遗传个体就是 由定长的二进制串构成, 它表示一个可能的最优特征子集。 据此, 一 个 长 度 为 ! 的 个 体 对 应 于 一 个 ! 维 的 二 进 制 特 它的每一位就表示包括或排除一个相应的特征。 征矢量 " , #$?% 表示第 $ 个特征项包含于所选特征子集中, 否则 #$%" 。例如: 有 〈#%#!#’###&〉 , 一个形如 〈%%"%" 〉 的个体 & 个特征的特征 集 表 示 为 就表示所选特征子集为 @#%, #!, ##A。 如果用穷尽搜索方法求解最优特征子集, 对于一个包含 & 个特征的集合, 将有 !& 种可能的子集组合, 如此庞大的搜索空 间, 势必是不可行的 =B>。 而用遗传算法求解, 既可保证全局最优, 又避免了巨大的搜索代价。
! 问题描述和相关工作 !$% 问题描述
因为代表问题空间的每一个特征都会增加分类系统的代 价和运行时间, 为提高搜索效率, 首先应对特征空间进行压缩, 删去多余、 对分类贡献小及对正确分类有影响的特征, 找出能 代表问题空间的最优特征子集。 该文用基于遗传算法的特征选 择作为识别系统的 “前 端 ” , 以降低识别系统的搜索空间, 同时 保证所选出的特征子集尽可能不丢失原问题空间含有的信息,
基于遗传算法的特征选择在文本分类中的应用研究

基于遗传算法的特征选择在文本分类中的应用研究在文本分类中,特征选择是一项重要的任务,它可以在保证分类准确率的前提下,尽可能减少特征的数量,从而提高分类效率。
传统的特征选择方法有卡方检验、信息增益等,而近年来,基于遗传算法的特征选择方法也得到了广泛的研究和应用。
一、遗传算法简介遗传算法是模拟自然界遗传进化过程而设计的一种优化算法。
它通过个体之间的基因交换、突变等操作,模拟自然选择和遗传机制,使得每一代个体具有更好的适应性。
在使用遗传算法时,需要定义适应性函数,即评估一个个体在解决问题时的优劣程度的函数。
在特征选择中,适应性函数即分类准确率。
每一组特征都可以看作是一个个体,通过遗传算法对这些个体进行进化,得到最优特征子集,从而实现对文本的分类。
二、基于遗传算法的特征选择方法基于遗传算法的特征选择方法可以分为二进制编码和实数编码两种。
其中,二进制编码的思想类似于遗传学中的基因型,将每个特征作为一个 bit 位进行编码,从而形成一个二进制串。
而实数编码则将每个特征的权重作为个体中的一个基因,即每个个体由一组实数表示。
1. 二进制遗传算法二进制遗传算法在特征选择中的应用主要分为两部分:个体的编码和遗传操作。
个体的编码:将每个特征作为一个 bit 位,可以用 0 或 1 表示该特征是否被选择。
例如当特征集合为 {a,b,c},其中 b 特征被选择时,可以将 b 对应的位设置为 1,其他位设置为 0,从而得到一个二进制串 010。
遗传操作:遗传操作包括选择、交叉和变异。
选择操作通过适应度函数和轮盘赌选择算法确定个体的生存概率,将生存概率高的个体复制到下一代。
交叉操作将两个个体的基因进行交换,得到新的个体。
变异操作用于保持种群的多样性,通过随机改变某个基因的值,从而得到新的个体。
2. 实数遗传算法实数遗传算法的主要思想是将每个特征的权值作为个体中的一个基因,即每个个体由一组实数表示。
基因的值可以在一个预定义的区间内变化,例如 [0,1]。
基于遗传算法的特征选择

基于遗传算法的特征选择遗传算法是一种模拟生物进化过程的优化算法,已被广泛应用于特征选择问题。
特征选择是从原始特征集中选择出最具代表性和有区分度的特征子集,以提高机器学习算法的性能和效率。
遗传算法特征选择方法的基本原理是将每个特征看作一个基因,形成一个特征基因组,通过模拟自然界的进化过程来逐步优化选择最佳的特征子集。
具体来说,遗传算法通过以下步骤来进行特征选择:1.初始化:随机生成初始特征子集,可以是全特征集的一个子集或一个空集。
2.评估:使用其中一种评估指标来评估特征子集的质量,如分类准确率、回归误差等。
3.选择:根据评估结果,选择一部分优秀的特征子集,作为下一代的父代。
4.交叉:通过交叉操作,将父代特征子集的一些特征基因组合形成新的特征子集。
5.变异:对新生成的特征子集进行变异操作,改变一些特征基因的取值或位置。
6.替换:用新生成的特征子集替代上一代中质量较差的特征子集。
7.终止条件:重复以上步骤直到达到终止条件,如达到最大迭代次数、收敛到最优解等。
8.输出最佳解:输出最终得到的最佳特征子集,作为特征选择的结果。
遗传算法特征选择方法的优点包括:1.全局能力:遗传算法能够通过不断迭代和演化找到最佳的特征子集,有效避免了落入局部最优的问题。
2.并行计算能力:由于每一次迭代中都可以并行地对多个特征子集进行操作,因此遗传算法能够充分利用并行计算的优势,提高算法的效率和速度。
3.自适应性:遗传算法能够自适应地对特征子集进行调整和改进,根据问题的特点和要求来适应不同的数据集和应用场景。
遗传算法特征选择方法的应用场景非常广泛,包括模式识别、数据挖掘、生物信息学等领域。
在实际应用中,结合遗传算法特征选择方法可以帮助我们发现数据中最重要的特征,减少特征空间的维度,提高机器学习算法的性能和可解释性。
然而,遗传算法特征选择方法也存在一些不足之处。
首先,算法的效率会受到数据集规模和维度的限制。
当数据集较大或特征维度较高时,算法的计算复杂度会显著增加。
基于遗传算法的特征选择方法

基于遗传算法的特征选择方法
赵云;刘惟一
【期刊名称】《计算机工程与应用》
【年(卷),期】2004(040)015
【摘要】特征提取广泛应用于模式识别、知识发现、机器学习等诸多领域,并受到了越来越多的关注[1].对于一个给定的待分类模式,特征提取要求人们从大量的特征中选取一个最优特征子集,以代表被分类的模式.该文对特征提取这一组合优化及多目标优化问题提出了基于遗传算法的解决方法,把遗传算法作为识别或分类系统的"前端",找出代表问题空间的最优特征子集,以大大降低分类系统的搜索空间,从而提高搜索效率.
【总页数】3页(P52-54)
【作者】赵云;刘惟一
【作者单位】云南大学信息学院计算机科学系,昆明,650091;云南大学信息学院计算机科学系,昆明,650091
【正文语种】中文
【中图分类】TP301
【相关文献】
1.一种基于遗传算法优化的大数据特征选择方法 [J], 张文杰; 蒋烈辉
2.基于改进遗传算法的区间光谱特征波长变量选择方法 [J], 刘鑫; 冒智康; 张小鸣; 李绍稳; 金秀
3.基于自适应遗传算法的混合特征选择方法 [J], 裴作飞;李兆玉;王云锋;姚立霜
4.基于遗传算法的多评价标准退化特征选择方法 [J], 陈志刚;肖红
5.基于改进的遗传算法的特征选择方法在冠心病检测中的应用 [J], 李勇;秦彩杰因版权原因,仅展示原文概要,查看原文内容请购买。
基于遗传算法的特征选择技术研究

基于遗传算法的特征选择技术研究随着数据科学领域的发展,越来越多的人们开始认识到特征选择技术在机器学习和数据挖掘中的重要性。
特征选择技术可以帮助我们从海量数据中筛选出最具价值的特征,减少计算负担,提高算法效率,同时也可以帮助我们更好地理解数据领域的本质规律。
然而,特征选择技术面临的一个核心问题就是如何找到最佳的特征子集。
传统的特征选择方法往往依赖于专家经验或者基于统计学方法,这种方法在实际应用中存在一定的局限性。
基于遗传算法的特征选择技术在解决这一问题上有很大的潜力。
遗传算法是一种基于自然选择和遗传进化的搜索算法,在解决优化问题上展现出了很强的优越性。
它可以模拟自然界的演化过程,通过基因交叉、突变等操作产生新的群体,借助适应度函数评估个体的优劣,从而不断优化最终结果。
基于遗传算法的特征选择技术就是利用这种演化搜索算法来寻找最佳特征子集,通过不断地迭代找到对应的特征权重,最终得到一个最佳特征子集的过程。
基于遗传算法的特征选择技术具有很多的优点。
首先,它可以有效地减少特征数目,提高算法的效率。
其次,它可以优化特征子集的结构,提高数据的泛化能力和预测准确度。
最后,它不需要依赖于任何的先验知识,可以自动地找到最佳特征子集。
因此,在特征选择领域,基于遗传算法的特征选择技术成为了一种很有前景的研究方向。
在具体实现上,基于遗传算法的特征选择技术可以分为两大类:Wrapper 方法和 Filter 方法。
Wrapper 方法在特征筛选中应用遗传算法,将特征子集的选择问题转化为优化问题,通常需要运用预测模型的评估效果来进行适应度函数的设计。
Filter 方法是讲特征选择分为两步,首先使用某种特征评测标准对每个特征进行筛选,然后使用遗传算法对筛选后的特征子集进行寻优。
必要性是在特征选择前分析出特征质量以便于以后的遗传操作,遗传操作后,再根据得到的适应度对具体禁忌进行处理。
两种算法的最大区别在于适应度函数的设计,wrapper 方法需要建立模型并根据模型的预测精度来评估特征子集的好坏,而 Filter 方法则是直接根据某种特征评测标准来进行适应度函数的设计。
使用遗传算法进行特征选择的实践方法

使用遗传算法进行特征选择的实践方法在机器学习和数据挖掘领域,特征选择是一个重要的任务,它可以帮助我们从大量的特征中选择出最具有代表性和预测能力的特征子集。
而遗传算法作为一种优化算法,在特征选择中得到了广泛的应用。
本文将介绍使用遗传算法进行特征选择的实践方法。
遗传算法是一种模拟自然界进化过程的优化算法,它通过模拟自然选择、交叉和变异等操作,逐步优化解的适应度。
在特征选择中,我们可以将每个特征看作是一个基因,整个特征集合看作是一个染色体。
遗传算法通过不断迭代,逐步优化染色体的适应度,从而选择出最优的特征子集。
首先,我们需要定义适应度函数。
适应度函数用于评估染色体的好坏程度,它可以根据具体的问题而定。
例如,在分类问题中,我们可以使用分类准确率作为适应度函数。
在回归问题中,可以使用均方误差或相关系数等作为适应度函数。
适应度函数的选择应该与具体问题密切相关,以确保选出的特征子集具有较好的预测能力。
其次,我们需要定义遗传算法的基本操作。
遗传算法包括选择、交叉和变异等操作。
选择操作用于选择适应度较高的染色体,使其有更高的概率被选择为父代。
交叉操作用于生成新的染色体,通过将两个父代染色体的基因进行交叉,产生新的子代染色体。
变异操作用于引入新的基因,通过对染色体中的基因进行随机变异,增加染色体的多样性。
接下来,我们需要确定遗传算法的参数。
遗传算法的性能很大程度上取决于参数的选择。
常见的参数包括种群大小、迭代次数、选择概率、交叉概率和变异概率等。
种群大小决定了搜索空间的大小,一般来说,种群大小越大,搜索的空间越广,但计算时间也会增加。
迭代次数决定了算法的收敛性,一般来说,迭代次数越多,算法的性能越好,但计算时间也会增加。
选择概率、交叉概率和变异概率决定了遗传算法的探索能力和开发能力,它们的选择应该根据具体问题而定。
最后,我们可以开始实施遗传算法进行特征选择。
首先,我们需要初始化种群,即随机生成一组初始的染色体。
然后,通过计算适应度函数,评估每个染色体的适应度。
一种基于遗传算法的特征选择和权重确定方法

一种基于遗传算法的特征选择和权重确定方法张栋冰【摘要】在模式识别中,特征选择是其中非常重要的步骤,特征集的选择直接影响分类器的精度.该文提出了一种基于遗传算法的特征权重确定方法,首先使用传统遗传算法进行特征的初步选择,得到一个粗选的特征集;然后使用实数编码的遗传算法在第一步的基础上进一步精选特征,并确定每个入选特征的权重.通过实验和一些传统特征选择方法进行对比,结果显示,该文提出的算法取得了较好的效果.【期刊名称】怀化学院学报【年(卷),期】2015(000)005【总页数】4【关键词】特征选择;特征权重;遗传算法特征选择,是从一个初始特征集中挑选出一些特征组成最优特征子集,依据这些子集构建的分类器能够使某种评估标准达到最优,具有较高的预测精度.特征选择可以提高构建的分类或回归模型的泛化能力,降低特征维度的同时还提高了计算效率,所以特征选择方法的研究成为目前模式识别研究领域中的一个热点问题.本文首先讨论了目前常用的一些特征选择方法,分析了这些方法存在的一些问题,随后针对这些问题,本文提出了一种新的基于遗传算法的特征权重确定方法.最后我们通过实验验证了所提算法的效果.1 特征选择的相关工作特征选择可以看作是一个搜索寻优的过程.1997年,M.Dash提出了特征选择的一般框架,清楚的描述了这个过程,如图1所示[1].从图1中可以看到,特征选择过程由四步组成:子集产生、子集评价、终止和验证方法.第一步为产生子集,即由一部分特征组成的集合,接着对这个特征集进行评估,直到停止的条件满足,选择的过程才结束.如果没有条件未满足,则重复前面的工作,直到完成.目前学者们的研究集中于搜索策略和评价标准两方面.特征选择的任务,实际上是将特征的维数从M压缩至对于描述类别是最有效的m维,这样,所有的可能的特征集的组合数为(1)选择哪些特征组成最优特征子集需要一个标准进行评价.这些标准可以分为以下五类:信息相关的度量、距离相关的度量、依赖性相关的度量、一致性相关的度量和分类错误相关的度量等[1].前四类方法根据数据内在的特性来对所选择的特征子集进行评价,独立于特定的算法,常用于过滤模式(filter method)的方法中;分类错误率度量标准则经常与特定的学习算法联系,常用于封装模式(wrapper method)的方法中[2].不同的评价标准会得到不同的特征子集.另外,使用穷举法,对所有的可能的特征组合进行评估,计算量会非常大,也是不实际的.所以,寻找一种理想的搜索算法变得非常必要.根据能否搜索到最优组合,搜索算法可以分为最优搜索算法、次优搜索算法.到目前为止,唯一可以得到最优结果的搜索方法就是分支界定法[3].虽然分支界定法在效率上比穷举法高,但是对于高维度特征空间,计算量还是太大而难以实现.单独最优特征组合是最简单的搜索算法,但是,即使各特征统计独立,组合起来不一定最优.后来出现的搜索算法有顺序前进法(Sequential Forward Selection,SFS)[4]和顺序后退法(Sequential Backward Selection,SBS)[5].SFS没有考虑入选特征之间的相关性,而且不能剔除已入选而品质变低劣的特征.而SBS则无法入选已被剔除而品质变优良的特征,且由于其是一种自上而下的方法,在高维空间运算,计算量比SFS大.由于特征选择实际上是一个组合优化问题,因此也可以使用解决优化问题的方法来解决特征选择问题,比如基于启发式搜索策略的禁忌搜索(Tabu Search,TS)算法[6],基于随机搜索策略的粒子群算法(Particle Swarm Optimization,PSO)[7]、模拟退火算法(Simulated Annealing)[6]和遗传算法(genetic algorithm,GA)[8]等.这些方法都是近似方法,在求解时间和质量上都较为理想,被广泛应用.根据分类器与评价函数的关系,特征选择的模式目前可以分为过滤式、封装式以及混合(Hybird)模式[2].基于过滤式的方法独立于分类器,其方法是使用一定的函数,对于候选的部分特征进行分类能力的评估,同时用某种策略从中选择最好的一些特征.这种方法实现简单,效率高,但是由于独立于分类器,容易和分类器产生偏差.基于封装式的方法则将分类器封装于其中,直接以分类的正确率作为特征选择的目标,分类正确率最高的那一部分特征将被作为最后的特征集被选中.在这种方法中,分类学习算法就封装在特征选择过程里面,分类算法的识别正确率直接成为了特征子集的评价准则,所以其精度一般较过滤模式方法高,但是每次对特征子集的评价都要计算分类器的精度,所以其效率不高.目前一些学者结合这两类方法的优点,把两者结合起来形成了一类混合模式的方法,也取得了较好的效果[9].遗传算法由生物进化的过程启发而产生.生物从最简单的低等生物发展出复杂的高级生物,期间经历了漫长的进化,通过遗传和变异等,按照“物竞天择,适者生存”的规则演变而来.遗传算法对求解问题的模型,没有特别的要求,是一种非数值优化方法,所以适应性比较广泛.其次,在搜索时,遗传算法采用群体搜索策略,从一个群体进化到另外一个群体,提高了效率,且不易陷入局部最优.这些优点,让遗传算法被广泛应用于特征选择中.2 基于遗传算法的特征选择和权重确定方法遗传算法是一种基于封装模式的特征选择方法.这种方法把分类器封装于其中,直接以分类器的精度作为评价特征子集的选择标准.由于每次需要计算分类器精度,所以效率不是很高.另外,也没有考虑到特征的权重,事实上每个特征对于分类的贡献不是同等的.所以,我们提出了一种基于遗传算法的特征选择和权重确定方法.这种方法的过程如下图2所示.这种方法主要分为以下两步进行.第一步:由传统的GA算法初选出候选特征集.这一步主要是从原始特征集中选出比较好的一些初始特征集,用于后续的精选和权重确定.使用二进制位编码的方法创建一个二进制位串代表一个染色体C.一个特征fi使用一个二进制位,也就是一个基因位gi来表示,则有下面一个关于fi和gi函数关系:(2)从式2中,我们可以看到基因位和特征一一对应,有多少特征就需要有多少基因位来表示.当基因取值为1时,表明特征被选中,反之则反.第一步流程图如图3所示.第二步:由可以确定权重的GA算法在第一阶段初选出候选特征集的基础上,继续精简特征集,同时也求得最终入选的特征对应的权重.可以确定特征权重的GA与传统GA方法的流程大致相同,我们介绍与GA中不同的几个地方,主要是个体编码方式、解码方式和交叉遗传操作.(1)个体编码方式如表1所示,在GA中,我们用x位二进制位表示一个特征的权重,这样,如果由第一阶段GA选出来的候选特征集的位数为n位,则特征权重位的位数为nx,即整个染色体的长度.(2)染色体解码因为确定权重GA算法中染色体的编码与传统GA中不同,相应的解码方式也不同,先将每一个特征fi对应的二进制基因位串转化为一个十进制整数qi,然后,就可以求得每个特征的权重:(3)(3)交叉遗传操作由于在第二步的GA中,基因的编码方式与传统GA不同,我们使用了x位表示一个权重位,为了在进行交叉操作后,尽量不会因为交叉使得一个特征的权重被严重改变,我们在进行交叉操作时,交叉点选择为n的整数位处,也是随机选择,但是不处于这一点时就重新再选择,直到满足这个条件位置为止,这与在GA中采用的传统的方法那样完全随机选择交叉点不同.通过上述的两个步骤,我们就可以得到一个精选的特征子集及其对应的权重.3 实验及结果为了验证所提算法的效果,开展了以下一系列的实验.3.1 数据来源和实验方案实验的数据来源于南佛罗里达大学(University of South Florida)的DDSM(Digital Database for Screening Mammography,DDSM)[10].我们构建了一个基于钼靶乳腺X线摄片和多特征最近邻算法[11]的乳腺肿块计算机辅助诊断系统.在训练阶段,先建立一个大规模参考库,主要由含有正常组织的感兴趣区域(Region of Interest,ROI)和含有肿块的ROI两类区域组成.随后使用分割算法对参考库中的所有ROI进行可疑肿块轮廓提取.当分割完成后,在分割结果上应用特征提取和计算方法计算所有ROI的特征集.这样就得到了参考ROI特征数据库.在整个特征数据库上,使用特征选择、权重确定算法及分类决策算法,并引入已经确诊的金标准(Truth File)对上述结果进行判定.分割算法我们使用的是一种基于动态规划法的方法[11].在诊断阶段,使用基于图像内容检索(Computer Aided Diagnose using Content-based Image Retrieval,CBIR CAD)方法,针对放射科医师任意感兴趣的区域去进行检测,CAD系统除了返回待查询的区域和肿块的相似度分数和/或肿块是良性还是恶性的分类分数,还有最相似的K幅参考感兴趣区域图像.3.2 参数设置(1)种群规模和个体初始化时阈值种群的大小用来控制种群的规模.显然,种群规模越大,相当于增大了搜索的群体以及种群多样性,找到理想解的可能性就越大,但是计算量肯定会增大.本文中种群大小设置为40.(2)进化代数进化代数用来控制遗传算法的结束时间.一般来说,代数越多,越可能找到理想解,但搜索时间会增加.在本文中,这个值设置为300.(3)交叉概率交叉概率用于控制参与交叉的个体数量,这个值不宜过小,也不宜过大.过小的话,则会使得算法收敛速度过快而陷入局部最优,过大则会使大量优秀个体遭到破坏,而使算法不收敛.在本文中设置为0.7.(4)变异概率变异概率用来控制参与变异的个体数量.它的影响主要是在进化的后期,和交叉概率的作用类似.在本文中,设置为0.001.3.3 实验结果为了测试和评估所提出的新特征和新的特征选择方法的效果,我们对7种方法进行了实验.这些方法中,有使用所有特征且权重都为1的AF-KNN方法和GA-KNN方法以及本文方法.实验结果如表2所示,表中K值为KNN算法所选出的与待测ROI最相似的参考ROI的数目.在本文实验中,是在遗传算法的染色体中设定相应的基因位,一起训练出来的.95%置信区间是本文实验结果要求达到的95%可信度所跨度的范围.受试者操作特性曲线(Receiver Operating Characteristic Curve,ROC曲线)[12]是广泛采用的评价CAD系统性能的工具,有别于单阈值分析的方法,通过设置很多阈值进行决策,可以获取到含有多对灵敏度和假阳性率值组成相应的二元有序点对集合,再分别以假阳性率、灵敏度值为横、纵坐标,既可以通过二维坐标系,在二维空间中描述这些点,连接这些点而成的曲线就是ROC曲线.Az为ROC曲线下包络的面积,是描述受试者操作特性曲线最重要的指标,该值越大,表明系统性能越好.从表2中可以发现由传统的GA方法选出了34个特征作为候选特征子集,对63维特征进行了初步降维,然后本文方法在这个基础上最终选出了24个特征,并确定了特征相应的权重.在临床中,一般认为Az值:0.5~0.7之间时诊断价值较低,在0.7~0.9之间时诊断价值中等,而在0.9以上时诊断价值较高.本文的方法,全特征法以及GA特征选择方法得到的Az下的面积分别为:0.8782±0.0078,0.8632±0.0081和0.8478±0.0088,从数据上看,进行GA 特征选择后,入选特征为34个,特征维数明显降低,而CAD性能也明显提高,说明特征选择对分类器性能的提高有很重要的作用.而且用本文所提出的方法特征数进一步降为24个,CAD的性能却比前面的两种方法有更大的提升,说明本文所提方法行之有效.4 结论特征选择是模式识别中非常关键的一步,挑选出最优特征子集的同时还能降低特征维度,提高计算效率.很多算法在进行特征选择的时候没有考虑到特征的权重,简单的将特征的分类效力同等对待,这是不合理的.本文提出了一种两步选择特征的方案,先用遗传算法初选出一个特征子集,在此基础上再用能够确定特征的遗传算法进一步精选特征,并确定特征的权重.实验结果显示,我们的算法取得了较好效果.参考文献:[1]Dash M,Liu H.Feature selection for classification[J].Intelligent data analysis,1997,1(3):131-156.[2]郑雅敏.基于遗传算法的特征选择方法的改进研究[D].重庆:重庆大学通信工程学院,2008.[3]刘亦韬,胡维华.一种处理Top-k逆向查询的分支界定算法[J].杭州电子科技大学学报,2014(6):76-79.[4]Liu B,Li S,Wang Y,et al.Predicting the protein SUMO modification sites based on Properties Sequential Forward Selection(PSFS)[J].Biochemicaland biophysical research communications,2007,358(1):136-139.[5]Xue B,Zhang M,Browne W N.Particle swarm optimisation for feature selection in classification:Novel initialisation and updating mechanisms[J].Applied Soft Computing,2014(18):261-276.[6]许鹏飞,苗启广,李伟生.基于函数复杂度的自适应模拟退火和禁忌搜索新算法[J].电子学报,2012,40(6):1218-1222.[7]张丹,韩胜菊,李建,等.基于改进粒子群算法的BP算法的研究[J].计算机仿真,2011,28(2):147-150.[8]Handbook of genetic algorithms[M].New York:Van Nostrand Reinhold,1991:20-65.[9]Fischer U,Hermann K,Baum F.Digital mammography:current state and future aspects[J].European radiology,2006,16(1):38-44.[10]Keller J M,Gray M R,Givens J A.A fuzzy k-nearest neighbor algorithm[J].IEEE Transactions on Systems,Man and Cybernetics,1985(4):580-585.[11]Song E,Xu S,Xu X,et al.Hybrid segmentation of mass in mammograms using template matching and dynamic programming[J].Academic radiology,2010,17(11):1414-1424.[12]Eltonsy N H,Tourassi G D,Elmaghraby A S.A concentric morphology model for the detection of masses in mammography[J].IEEE Transactions on Medical Imaging,2007,26(6):880-889.基金项目:安徽省高等学校自然科学研究项目“基于视觉主题模型的视觉场景认知理解方法研究”(KJ2014B23).。
基于遗传算法的特征选择方法研究

基于遗传算法的特征选择方法研究引言数据中的特征选择一直以来都是机器学习和数据挖掘领域的关键问题之一。
特征选择是从大量的特征中选择出最具有代表性和对目标任务最有用的特征。
在实际应用中,选择合适的特征可以提高机器学习算法的准确性、降低计算复杂度并减少存储需求。
在本文中,我们将介绍基于遗传算法的特征选择方法,并分析其在各个领域的应用及优势。
一、遗传算法简介遗传算法是一种模拟自然生物进化过程的优化算法,通过模拟自然界生物种群的演化,以寻找最佳解。
遗传算法主要包括选择、交叉、变异等基本操作。
通过对种群中个体的适应度评估和选择,以及基因的交叉和变异,可以不断优化求解问题的适应度值,并逐渐逼近最优解。
二、特征选择的方法特征选择方法可以分为三大类:过滤式方法、包装式方法和嵌入式方法。
过滤式方法通过计算特征的相关性或者信息熵等指标,独立于具体的学习算法,从而选择出最具有代表性的特征。
包装式方法则将特征选择问题视为一个优化问题,利用机器学习算法的性能评估指标作为目标函数,通过搜索算法选择出最优的特征子集。
嵌入式方法则将特征选择融入到学习算法中,通过学习算法自身的优化过程选择出最优的特征子集。
三、基于遗传算法的特征选择方法基于遗传算法的特征选择方法是一种包装式方法,它通过自动优化特征子集的选择,提高机器学习算法的性能。
其基本思想是将特征子集表示为二进制编码的染色体,并使用遗传算法进行进化优化。
具体而言,基于遗传算法的特征选择方法包括以下步骤:1. 初始化种群:随机生成一定数量的个体作为种群。
2. 适应度评估:根据染色体表示的特征子集,使用机器学习算法训练模型,并根据模型的性能评估指标计算每个个体的适应度。
3. 选择操作:根据个体的适应度值,使用选择算子选择出一部分优秀的个体作为父代。
4. 交叉操作:从父代中选择两个个体,通过交叉算子生成下一代的染色体。
5. 变异操作:对新生成的染色体应用变异算子进行变异操作,引入新的基因。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
%
引言
随着信息的日益膨胀及复杂性的不断加剧, 我们所要解决
且能获得较高的识别率。
!$!
相关工作
特征选择策略主要有两类: 第一类是独立于分类性能的特征选择, 这种方法通过 (% )
问题的特征空间变得越来越庞大。因此, 从大量候选特征中找 出代表问题空间的最优特征子集是十分必要的, 这将很大程度 上减少分类系统的代价和运行时间。 最优特征子集的选择是一 个组合优化问题, 同时也是一个多目标优化问题, 所以选用遗 已证明, 该问题 传算法解决该问题是一个可行及理想的方法 ’!(。 因此, 寻找一个较好的近似算法具有现实 是 一 个 )* 问 题 ’+(, 意义。 第 ! 部分描述了我们所要解决的问 文章第 % 部分为引言, 题以及相关工作, 第 + 部分讨论了用遗传算法进行特征提取的 可行性和优势所在, 第 # 部分给出了基于遗传算法解决该问题 的关键技术, 最后为实验及结论部分。
(# ) !*
$ % % $
+
: 所选特征子集在待分类的模式中的比重;
题的关键。遗传算法在进化搜索中基本不利用外部信息, 仅以 适应度函数为依据, 对问题的解空间不断进行校正, 以使其进 化到包含最优解或近似最优解的领域。 因此适应度函数的选取 至关重要,直接影响到遗传算法的收敛速度以及能否找到最 优解。 对于该问题, 可直接用目标函数作为适应度函数。我们的
(
始种群开始的, 种群由若干遗传个体组成, 每个个体就是一个 可能解。这里采用随机方法来选取初始群体, 每个个体的每一 个体的大小可据实际而定。 位基因位按等概率在 @" , %A 中选 择 , 初始种群的大小一般在 &"C%"" 之间。
#$’
适应度函数定义
选择一个适当的适应度函数是遗传算法能否成功解决问
一些已知的领域知识或统计信息对特征空间进行裁剪。 此类方法执行效率高, 但无法保证裁剪后的特征空间不丢 失原始特征集包含的所有信息, 而且因为是独立于分类性能来 进行选择, 所以不能保证获得高的识别率。 第二类方法是在不会显著降低分类系统的性能的条件 (!) (!# 下, 从可能的 ! 个特征中依据某个评价标准选出 " 个特征 。 例如贪心法’#(, ") ,-.-/012 3 45612758’&(, )1.92:.1 3 ,/5/21;1’<( 等等提出的方法。 此类方法首先必须为其定义一个适当的评价函数, 每个可 能特征都据此计算出权值, 然后选择出权值最高的前 " 个特征 组成 “最优” 特征子集。但其由于忽略了特征间的相互关联, 因 此无法真正达到最优。 以上两类方法提到的有关技术存在如下不足: 上述技术包含如下假设: 关于数据集的一些信息是事 (% ) 先可知的, 但实际上这些信息一般很难获取; 当特征空间非常庞大时, 这些技术难以承受相当高的 (! ) 计算复杂性; 以上方法均未考虑各特征项间的相互关联。 (+ )
! 问题描述和相关工作 !$% 问题描述
因为代表问题空间的每一个特征都会增加分类系统的代 价和运行时间, 为提高搜索效率, 首先应对特征空间进行压缩, 删去多余、 对分类贡献小及对正确分类有影响的特征, 找出能 代表问题空间的最优特征子集。 该文用基于遗传算法的特征选 择作为识别系统的 “前 端 ” , 以降低识别系统的搜索空间, 同时 保证所选出的特征子集尽可能不丢失原问题空间含有的信息,
3:#+%$&+: 4969D0A2; 1 790 -J J910/.97 PQADQ A7 -I0A@16 J-. 1 ;AN92 0175 A7 1 I.-R69@ PQADQ I6187 12 A@I-.0120 .-69 A2 1 PA:9 N1.A908 -J D-209207 A2D6/:A2; I1009.2 .9D-;2A0A-2, 52-P69:;9 :A7D-N9.8 , 12: @1DQA29 691.2A2;$GQ979 I.-R69@7 .9S/A.9 7969D0A-2 -J 1 7/R790 -J 100.AR/097 -. J910/.97 (J.-@ 1 @/DQ 61.;9. 790) 0- .9I.97920 0Q9 I1009.27 0- R9 D6177AJA9:$ GQA7 I1I9. I.979207 12 1II.-1DQ 0- 0Q9 D-@RA210A-2 -I0A@AT10A-2 12: @/60A ?D.A09.A1 -I0A@AT10A-2 I.-R69@ -J J910/.9 7969D0A-2 /7A2; ;9290AD 16;-.A0Q@7$GQ9 1II.-1DQ :97D.AR9: Q9.9 A2N-6N97 0Q9 /79 -J ;9290AD 16;-.A0Q@7 17 1 UJ.-20 92:U 0- 1 D6177AJAD10A-2 -. .9D-;2A0A-2 78709@ A2 -.:9. 0- JA2: 0Q9 R970 7/R790 -J J910/.97 12: .9:/D9 0Q9 2/@R9. -J J910/.97 /79: 0- .9I.97920 0Q9 I.-R69@ 7I1D97$ ;"9<(%=#: V9290AD F6;-.A0Q@7, J910/.9 7969D0A-2 , 0Q9 R970 7/R790 -J J910/.97
(# ) !*
$ % % $
( (#% , ’ "$ ) %’ #! , $$$ , #( ) ?)
+
(/10,C/10& ) D
(
#$!
初始种群的选择
遗传算法总是从代表问题可能潜在解集的一个种群, 即初
!#
$ % %
$
代表一个遗传个体, 即一个可能特征子集; " $: 代表一个特征项, 为 % 表示该特征项被选入所求特征子 #$ : 集, 否则为 " ; 个体的大小, 即每个个体包含的二进制串的位数; (:
基金项目: 国家自然科学基金 (编号: ; 云南省自然科学基金 (编号: ; 科学院智能信息处理开放实验室基金 (编号: <"!<+""<) !""!,""<+W) XX*!""!—!) 作者简介: 赵云, 硕士研究生, 主要研究方向为人工智能、 智能信息处理等。刘惟一, 教授, 博士生导师, 主要研究方向为数据库、 智能信息处理等。
(
图%
基于遗传算法的自适应特征选择过程
#
遗传特征选择的关键技术
应用遗传算法解决任何问题的关键是给出一个适合于遗
传操作的个体编码表示及定义一个较佳的适应度函数。
#$%
遗传个体表示
编码问题的关键就是要使编码能够代表所给特征集的所
有可能子集的解空间。 最简单的方法就是用一个二进制基因位 表示所选特征子集中的一个特征, 这样, 每一个遗传个体就是 由定长的二进制串构成, 它表示一个可能的最优特征子集。 据此, 一 个 长 度 为 ! 的 个 体 对 应 于 一 个 ! 维 的 二 进 制 特 它的每一位就表示包括或排除一个相应的特征。 征矢量 " , #$?% 表示第 $ 个特征项包含于所选特征子集中, 否则 #$%" 。例如: 有 〈#%#!#’###&〉 , 一个形如 〈%%"%" 〉 的个体 & 个特征的特征 集 表 示 为 就表示所选特征子集为 @#%, #!, ##A。 如果用穷尽搜索方法求解最优特征子集, 对于一个包含 & 个特征的集合, 将有 !& 种可能的子集组合, 如此庞大的搜索空 间, 势必是不可行的 =B>。 而用遗传算法求解, 既可保证全局最优, 又避免了巨大的搜索代价。
基于遗传算法的特征选择方法
赵 云 刘惟一 (云南大学信息学院计算机科学系, 昆明 <&""=% )
>?@1A6: 8B12:B@C7A21$D-@
摘 要 特征提取广泛应用于模式识别、 知识发现、 机器学习等诸多领域, 并受到了越来越多的关注 ’%(。对于一个给定的
待分类模式, 特征提取要求人们从大量的特征中选取一个最优特征子集, 以代表被分类的模式。该文对特征提取这一组 合优化及多目标优化问题提出了基于遗传算法的解决方法, 把遗传算法作为识别或分类系统的 “前端” , 找出代表问题空 间的最优特征子集, 以大大降低分类系统的搜索空间, 从而提高搜索效率。 关键词 遗传算法 特征提取 最优特征子集 文献标识码 F 中图分类号 G*+"%
(!""# ) 文章编号 %""!?E++%? %&?""&!?"+
!"#"$%&’ () *"$+,%" -"."&+/() 0#/)1 2")"+/& 3.1(%/+’4#
5’$( 6,) 7/, 8"/9/ (H9I1.0@920 -J K-@I/09. 4DA92D9 , L/2212 M2AN9.7A08, O/2@A2; <&""=%)
!""#$%&
&’
被正确识别的数目。初始时, 待分类的模式 (记为问题空间 ! )
%
选择抽取的特征项个数分别为 & 、 实验结果如表 % 。 %" 、 !" , 从实验数据可看出, 该文方法的准确率比贪心法有明显提 高,特别当抽取的特征项数目增加时, ’( 方法准确率下降较明 显, 这是因为所使用方法没有利用语义信息, 当词数增多时, 对 文本内容的依赖程度也同时增大, 然而基于遗传算法的方法受 此限制不明显。