%ad代Lasso的肿瘤分类信息基因选择方法研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀∗国家自然科学基金项目(No.61273292)㊁安徽省自然科学基金项目(No.1208085QF122)㊁中央高校基本科研业务费专项资金项目(No.2011HGBZ1329,2011HGQC1013)资助作者简介㊀张靖(通讯作者),女,1987年生,博士研究生,主要研究方向为数据挖掘.E-mail:hfzjwjl@.胡学钢,男,1961年生,教授,博士生导师,主要研究方向为数据挖掘㊁人工智能.李培培,女,1983年生,博士研究生,主要研究方向为数据挖掘.张玉红,女,1979年生,博士,讲师,主要研究方向为数据挖掘.基于迭代Lasso 的肿瘤分类信息基因选择方法研究∗张㊀靖㊀㊀胡学钢㊀㊀李培培㊀㊀张玉红(合肥工业大学计算机与信息学院㊀合肥230009)摘㊀要㊀近年来,基于基因表达谱的肿瘤分类问题引起了广泛关注,为癌症的精确诊断及分型提供了极大的便利.然而,由于基因表达谱数据存在样本数量小㊁维数高㊁噪声大及冗余度高等特点,给深入准确地挖掘基因表达谱中所蕴含的生物医学知识和肿瘤信息基因选择带来了极大困难.文中提出一种基于迭代Lasso 的信息基因选择方法,以获得基因数量少且分类能力较强的信息基因子集.该方法分为两层:第一层采用信噪比指标衡量基因的重要性,以过滤无关基因;第二层采用改进的Lasso 方法进行冗余基因的剔除.实验采用5个公开的肿瘤基因表达谱数据集验证了本文方法的可行性和有效性,与已有的信息基因选择方法相比具有更好的分类性能.关键词㊀基因表达谱,肿瘤分类,迭代Lasso,基因选择中图法分类号㊀TP 391Informative Gene Selection for Tumor Classification Based on Iterative LassoZHANG Jing,HU Xue-Gang,LI Pei-Pei,ZHANG Yu-Hong(School of Computer and Information ,Hefei University of Technology ,Hefei 230009)ABSTRACTTumor classification based on gene expression profiles,which is of tremendous convenience forcancer accurate diagnosis and subtype recognition,has drawn a great attention in recent years.Due to the characteristics of small samples,high dimensionality,much noise and data redundancy for geneexpression profiles,it is difficult to mine biological knowledge from gene expression profiles profoundlyand accurately,and it also brings enormous difficulty to informative gene selection in the tumor classification.Therefore,an iterative Lasso-based approach for gene selection,called Gene Selection Based on Iterative Lasso(GSIL),is proposed to select an informative gene subset with fewer genes and better classification ability.The proposed algorithm mainly involves two steps.In the first step,a gene ranking algorithm,Signal Noise Ratio,is applied to select top-ranked genes as the candidate gene subset,which aims to eliminate irrelevant genes.In the second step,an improved method based on Lasso,Iterative Lasso,is employed to eliminate the redundant genes.The experimental results on 5public datasets validate the feasibility and effectiveness of the proposed algorithm and demonstrate that ithas better classification ability in comparison with other gene selection methods.第27卷㊀第1期㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀模式识别与人工智能㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀Vol.27㊀No.1㊀2014年1月㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀PR &AI㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀Jan.㊀2014Key Words㊀Gene Expression Profile,Tumor Classification,Iterative Lasso,Gene Selection1㊀引㊀言肿瘤目前是威胁人类生命的主要病因之一,预防和治疗肿瘤是全球科学家关注的焦点.随着分子生物科学与信息科学的发展,DNA微阵列(基因芯片)技术因其高通量㊁微型化等特点被广泛应用于疾病诊断㊁临床检验等方面,从而产生大量的基因表达谱数据.DNA微阵列技术不仅有助于对肿瘤进行诊断和分类,而且也为在基因表达水平上研究肿瘤的发生发展机制提供重要依据.自1999年Golub等[1]发表基于基因表达谱分类急性白血病亚型的文章开始,越来越多的研究人员致力于肿瘤分类问题的研究并成功将机器学习模型用于解决该问题[2-5],使其成为DNA微阵列技术应用广㊁发展快的方向之一.然而,肿瘤基因表达谱数据本身通常具有小样本㊁高维数㊁高冗余的特点,从而导致 维数灾难 (Curse of Dimensionality)问题和 过拟合 (Over-fitting)现象[6],使得肿瘤分类问题成为一件有挑战性的工作.为解决上述问题,维数约简(Dimensionality Reduction)方法受到广泛关注,它通过特征抽取(Feature Extraction)或特征选择(Feature Selection)来降低原始空间的维数,两者区别在于,特征抽取指的是对原始特征空间进行某种操作使其投影到一个新的低维特征空间,得到的特征可更好的描述数据,典型的特征抽取方法包括主成分分析㊁线性判别分析等;而特征选择是指从原始特征空间中选取一个最优特征子集以达到降维的目的,通过剔除无关特征和冗余特征,选择的特征子集与分类目标存在高相关性,在其基础上能建立更精确㊁更易理解的模型[7].另一方面,肿瘤基因表达谱数据集中仅有少量基因与疾病密切相关,称为信息基因(Informative Genes)[8],因而可见特征选择比特征抽取具有优势,更适用于肿瘤分类问题研究.信息基因选择(即特征选择)已逐步成为肿瘤分类问题的核心研究内容.信息基因选择方法中最简单常用的一类方法是排序法,这类方法通常采用某种指标对所有基因 打分 (分数反映了各个基因对分类目标的重要性程度),然后根据分数高低对基因排序,最后选择Top K个基因作为信息基因(K一般取50~200)[9].目前常用的排序法包括信噪比指标(Signal Noise Ratio,SNR)[1],t-检验(t-statistic)[9],信息增益(Information Gain,IG)[9]等,其中,信噪比指标是应用最为广泛的.排序法不依赖于具体的分类算法,通过该方法得到的信息基因子集可有效避免 过拟合 现象,同时由于该方法具有实现简单和时间复杂度低等优点,因而较适用于高维的基因表达谱数据.一般情况下,基因排序法选择的基因通常是高相关的[10].这种相关性主要是由于如果一个基因排名较高,排序法极有可能选择与之高相关的其它基因作为信息基因,从而导致冗余.过多的冗余基因将使得到的基因子集规模变大,而判别能力下降;同时,特征冗余作为额外的计算负担,会使结果倾斜易导致错误分类.为有效去除冗余基因,学者们提出一些解决方法.Tan等[11]首先使用不同的基因排序方法构造候选基因子集,然后结合遗传算法与支持向量机分类器来去除冗余;李颖新等[12]采用两两冗余分析及基于支持向量机分类模型的灵敏度分析法进行冗余基因的剔除;王树林等[13]提出一种以支持向量机分类性能为评估准则的寻找信息基因的启发式宽度优先搜索算法来剔除冗余基因;Chuang等[14]结合二进制粒子群优化算法和遗传算法,使用K近邻分类器来减少冗余基因.上述方法在一定程度上解决了冗余基因带来的负面影响,但由于在基因选择过程直接利用学习算法来评估基因子集,分类模型与基因选择之间相互依赖,存在较高风险的过拟合㊁泛化性能差等问题,同时无法保证得到稀疏解,且构建分类模型需大量的计算开销.因此,设计鲁棒高效的信息基因选择算法是肿瘤分类领域的研究重点. Lasso方法因其高效的性能在特征选择领域引起广泛关注[15-16].Lasso方法是一种基于线性回归模型的降维方法,它克服传统方法在选择模型上的不足,通过l1范式约束可使模型得到稀疏解[17],在基因表达谱分析中被广泛应用.但考虑若基因之间相关性较强,且互为冗余,Lasso方法极有可能将这组基因误认为是信息基因;同时由于Lasso具有凸优化的性质,使其在构建线性回归模型时过于严格,要求样本数据与模型完全拟合,会出现过拟合问题.因此本文在Lasso方法上进行改进,提出迭代Lasso (Iterative Lasso,ILasso)方法来去除冗余基因,解决 过拟合 问题.鉴于肿瘤基因表达谱数据本身的特点,本文研究目标是采用尽可能少的信息基因以获得尽可能高05模式识别与人工智能㊀㊀㊀27卷的样本分类准确率.本文提出一种新的肿瘤分类信息基因选择方法,即基于ILasso的信息基因选择方法(Gene Selection Based on Iterative Lasso,GSIL).该方法分为两层:第一层采用信噪比指标衡量基因的重要性,以过滤无关基因;第二层采用改进的Las-so方法进行冗余基因的剔除.实验采用5个公开的肿瘤基因表达谱数据集作为具体的研究对象,利用本文方法得到基因数量少且分类能力较强的信息基因子集,并与已有的信息基因选择方法进行分析比较以验证所设计方法的可行性和有效性.2㊀GSIL方法系统框架针对肿瘤基因表达谱的信息基因选取,我们提出基于ILasso的信息基因选择方法GSIL,该方法基于信噪比指标和改进的Lasso方法,能有效过滤无关基因并剔除冗余基因.图1给出基于ILasso的信息基因选择方法GSIL的系统框架.GSIL特征选择方法分为两层:第一层采用信噪比方法SNR过滤不相关基因;第二层使用改进的Lasso方法剔除冗余基因.假设数据(X,Y)包含n个样本,m个基因,GSIL 方法的具体步骤如下:step1㊀信噪比方法过滤不相关基因,从m个基因中选择得分较高的mᶄ个基因;step2㊀改进Lasso方法剔除冗余基因,对mᶄ个基因进行特征选择,得到mᵡ个信息基因; step3㊀建立分类模型并评价.图1㊀基于ILasso的信息基因选择方法的系统框架Fig.1㊀Framework of GSIL for informative gene selectionstep1和step2的具体实现将在第3节和第4节中详细阐述.step3中为公平评价基因子集的分类性能,实验采用多种不同的学习算法来验证,并采用留一交叉验证(Leave-One-Out Cross Validation, LOOCV)方法作为评估标准.LOOCV方法是交叉验证方法的一个特例,它每次选择一个样本作为测试样本,再用样本集中的剩余样本建立分类模型,当所有样本都被测试一遍后,记录分类精度(Accuracy).因此,经过基因选择步骤后,本文使用下列4种分类器来评价本文提出的信息基因选择算法GSIL的有效性:支持向量机(SVM)㊁K近邻(KNN)㊁决策树C4.5和随机森林Random Forest,并采用LOOCV作为分类精度的评价方法.3㊀基于信噪比指标过滤无关基因鉴于肿瘤基因数据高维小样本的特点,在分类前需采用各种方法对基因表达谱数据进行降维和剔除冗余基因等处理,从而最大限度的提高肿瘤样本的分类性能.一般而言,基因表达谱数据的维数为几千㊁甚至上万,而在如此高维的数据中,与某一疾病相关的基因数目大多为几十个,基本不会超过一百个,因此基因表达谱数据中存在大量的无关基因,这些基因在不同组织样本中的表达值差异度很小,对于分类无法提供有用的信息,还会导致特征空间的增大,为信息基因选择带来极大困难.基因排序法是过滤无关基因的一类常用方法,其过程通常采用某种指标对所有基因 打分 ,然后根据分数高低将排名靠后的基因删除,选择分数高的若干基因作为信息基因.由于排序法独立于具体的分类算法,因此适用于信息基因的初步选择,生成候选基因子集.信噪比评价指标在排序法中是最为简单常用的一种方法.在进行基因选择过程中,首先采用简单高效的信噪比指标在原始特征空间过滤无关基因,选择出与类别属性相关性较高的基因.针对每个基因,通过㊀㊀㊀SNR(g i)=μ+(g i)-μ-(g i)σ+(g i)+σ-(g i).(1)来衡量其重要性,信噪比值越大,基因的重要性越高.其中,μ+(g i)和μ-(g i)分别表示第i个基因g i在正类和负类中的平均表达值,而σ+(g i)和σ-(g i)分别为第i个基因g i在两类中的标准差.为直观表示,以实验部分的结肠癌Colon数据集为例,该数据集包括62个样本,2000个基因.图2给出该数据集全部基因的信噪比值大小及其相应的区间分布.由图2可知,大部分基因的信噪比值在该数据集上都较小,如有1000多个基因的信噪比值均低于0.2,表明这些基因难以区分类别,可作为无关基因处理,只有为数不多的基因才与分类目标密切相关.151期㊀㊀㊀㊀张㊀靖㊀等:基于迭代Lasso的肿瘤分类信息基因选择方法研究图2㊀Colon数据集的信噪比值和区间分布图Fig.2㊀Signal-noise ratio and distribution of Colon dataset 过滤无关基因的具体方法是首先以式(1)为m个基因分别计算其信噪比值,然后按照信噪比值的大小对全部基因进行降序排列,并选择前mᶄ个基因作为候选基因子集,通常mᶄ<<m.然而,这些选定的mᶄ个基因之间往往是高相关的,从而导致冗余.这是由于基因在细胞中存在共表达现象,即如果一个基因排名较高,排序方法极有可能选择与之高相关的其它基因作为信息基因,过多的冗余基因将使得到的候选基因子集规模变大,而判别能力下降[18];同时,特征冗余作为额外的计算负担,会使结果倾斜从而导致错误分类,不利于从生物学角度理解基因表达数据,因此,本文采用改进的Lasso方法进一步剔除冗余基因,从mᶄ个基因中得到mᵡ个信息基因,以获得最优信息基因子集.4㊀基于Lasso方法剔除冗余基因Lasso方法因其高效的性能在特征选择领域引起广泛关注.Lasso方法是一种基于线性回归模型的降维方法,克服了传统方法在选择模型上的不足,通过l1范式约束可使模型得到稀疏解,在基因表达谱分析中被广泛应用.但经过信噪比指标过滤无关基因后所得到的信息基因之间通常是高相关的,如果一组基因之间相关性较强且互为冗余,直接使用Lasso方法处理极有可能将这组基因都误认为是信息基因;同时,由于Lasso具有凸优化的性质,使其在构建线性回归模型时过于严格,要求样本数据与模型完全拟合,会出现 过拟合 问题.张靖等[19]提出一种基于Lasso的信息基因选择算法 K-split Lasso,其基本思想是将训练集随机均分为K份,使用Lasso方法对每份子集进行特征选择,并将选择出来的所有基因子集合并,重新进行特征选择,最终得到一个基因子集.K-split Lasso方法可减少计算开销,提高模型的分类精度,在一定程度上解决 过拟合 问题.然而,K-split Lasso方法具有以下两个缺陷.首先,K-split Lasso方法在设计过程中是随机划分基因集合为K份,并将划分后的K 个基因子集作为独立的个体处理,没有考虑各个子集内部基因的关联性,易将冗余基因作为信息基因保留下来,同时随机划分也增加运行结果不稳定性的风险.其次,K-split Lasso方法在选择信息基因之前未考虑无关基因和噪声基因对基因选择的负面影响,从而增加算法的负担,无法有效剔除冗余基因.因此,为有效剔除候选基因子集中的冗余基因,解决K-split Lasso方法的缺陷,本文采取序列前向搜索策略,并结合迭代优化的思想,提出一种改进的Lasso方法,称之为ILasso方法.最小绝对收缩和选择算子(Least Absolute Shrinkage and Selection Operator,Lasso)[20]是一种收缩估计方法.通过构造一个惩罚函数得到较为简练的模型,收缩变量的系数.一些相关度较低的变量系数被压缩为0,同时达到变量选择及参数估计的目的,保留子集收缩的优点是一种有效处理具有复共线性数据的有偏估计.张靖等[19]对Lasso方法做了详细介绍,并且介绍一种快速近似求解Lasso凸优化问题的算法,最小角回归算法(Least Angle Regression,LARS)[21].本文与文献[19]类似,在实验过程中采用LARS算法选择信息基因,文献[19]中2.1节给出LARS算法的具体实现流程.通过采取序列前向搜索策略,并结合迭代优化的思想,采用ILasso方法剔除冗余基因.算法的主要思想是通过划分候选基因子集降低每次处理的基因维数,弱化基因之间的相关性,迭代使用LARS算法将选择的信息基因添加到当前已选的信息基因子集中.迭代的好处是在每次使用LARS算法选择信息基因的过程中都选择出与分类任务最为相关的基因,减少冗余基因的干扰,可较大程度剔除冗余基因.具体步骤见算法1.在算法1的描述中,假设ILasso算法的输入为过滤无关基因后的候选训练集合(X,Y),包含n个样本,mᶄ个基因{G1,G2, ,G mᶄ},X(G1,G2, ,G mᶄ)是mᶄ个n维的自变量,Y=(Y1,Y2, ,Y n)T是n维响应变量,参数K为划分的基因子集份数.输出是mᵡ个信息基因,即最优信息基因子集S best.首先设最优信息基因子集S best为空集,将经过信噪比排序后的基因列表G list平均划分为K个基因25模式识别与人工智能㊀㊀㊀27卷子集,设G list(i)是将基因集划分为K份后的第i (1ɤiɤK)份基因子集;然后对第1份基因子集G list(1)利用LARS算法进行变量系数压缩的计算,选择系数不为0的基因加入到S best中,并将S best与第2份基因子集G list(2)合并作为当前的基因子集,重新采用LARS算法进行基因选择,删除系数压缩为0的基因,更新当前的信息基因子集S best,依次迭代到第K份G list(K),最终得到的信息基因子集即为最优信息基因子集S best.算法1 ILasso算法输入㊀(X,Y)//过滤无关基因后的候选训练集合G list={G1,G2, ,G mᶄ}//基因列表K//划分的子集个数输出㊀S best//最优信息基因子集Begin㊀X进行标准化处理(均值为0,方差为1);Y进行中心化处理(均值为0);For i=1to mᶄ㊀对G list中每个基因G i计算其与类别Y的信噪比值; End根据信噪比值的大小对G list中的基因进行升序排序;S best=NULL;㊀㊀//初始化最优信息基因子集S best为空For i=1to K㊀G list(i)={G(i-1)mᶄ/K+1, ,G i mᶄ/K};㊀//G list(i)是第i份基因列表EndFor i=1to K㊀G list(i)=S bestɣG list(i);//将当前信息基因子集S best添加到G list(i)中㊀X i=X(G list(i));//X i为G list(i)基因列表对应的数据子集㊀S best=LARS(X i,Y);//利用LARS算法更新信息基因子集S best,最终S best=mᵡEndEnd这里需要说明的是,在使用信噪比指标过滤无关基因的步骤中所得到的候选信息基因是按照得分由高到低进行排序,即重要性越高的基因排名越靠前;而在采用ILasso方法剔除冗余基因的步骤中,将候选信息基因反向排序(为便于算法描述,在算法1中重新计算每个基因与类别Y的信噪比值,并根据值的大小对基因进行升序排序),然后划分基因集合,即首先选取重要性较低的基因采用LARS算法进行基因选择.这样做的目的是考虑到信噪比指标得分高的基因更能反映类别特征,其重要性程度也越高,升序排序在剔除冗余基因的过程中更利于保留与分类任务高相关的基因,最大程度地剔除冗余基因并减少误删信息基因的可能性.图3㊀ILasso算法流程Fig.3㊀Flowchart of ILasso algorithm图3给出ILasso方法的具体实现流程.(X,Y)是过滤无关基因后的候选训练集合,将基因列表G list的基因按照信噪比值由小到大进行排序,并依次生成K个基因子集,记为G list(i)(1ɤiɤK),目标是得到最优信息基因子集S best.ILasso算法首先初始化S best为空集,然后依次将当前的信息基因子集S best添加到G list(i)中作为新的基因子集,基于更新后的G list(i)基因列表得到其对应的数据子集X i,迭代采用LARS算法剔除冗余基因,保留信息基因,最后经过K次迭代后得到的信息基因集合就是最优信息基因子集S best.从理论上讲,Lasso方法本就是一种较好的特征选择方法,它能将与类标签强关联的变量选择出来, ILasso方法是在其基础上引入迭代优化的思想,通过调整参数K的取值进一步剔除冗余特征,解决 过拟合 问题,同时保留与类标签强相关的变量.针对本文的肿瘤基因表达谱数据集,假设G i㊁G j均是与分类任务强相关的信息基因,且G i(G j)为G j(G i)的冗余基因,若直接采用其它基因选择方法处理,G i㊁G j有可能均作为信息基因被保留下来,而使用GSIL 方法,假设在第一层过滤无关基因的过程中G i和G j 都作为信息基因被选择,然而在第二层使用ILasso 方法进行二次选择时,因为算法采用的是迭代策略,同一基因可能会被多次选择,所以不论G i㊁G j原先是否被划分到同一基因子集中,都将对新一轮选择出的基因迭代进行基因选择,在多次选择之后,冗余基因可被有效剔除.由上可知,ILasso方法不仅适用于高维小样本数据的基因选择,能有效剔除冗余基因,同时由于Lasso方法本身具有得到稀疏解的性能,也使得选择出的信息基因个数较少.因此,ILasso方法是一种有效的基因选择方法.351期㊀㊀㊀㊀张㊀靖㊀等:基于迭代Lasso的肿瘤分类信息基因选择方法研究5㊀实验与结果分析5.1㊀实验数据和实验环境本文的分析对象为5个公开的基因表达谱数据集,包括Colon㊁Prostate㊁Lymphoma㊁Leukemia和Lung,这些数据集均可从BRB-ArrayTools[22]主页下载(/~brb/DataArchive_ New.html).BRB-ArrayTools是一款为DNA基因芯片数据分析而设计的集成软件包,由Dr.Richard Simon所领导的生物识别小组所开发.具体数据集描述见表1.表1㊀实验数据集描述Table1㊀Description for experimental datasets数据集序号数据集名称基因数量样本数量(正类/负类)类别数1Colon200062(40/22)22Prostate12600102(52/50)23Lymphoma712977(58/19)24Leukemia712972(25/47)25Lung12533181(31/150)2 1)结肠癌数据集Colon[23].该数据集共包含62例样本,其中40例为结肠癌(Colon Cancer,CC)组织样本㊁22例为正常(Normal,N)组织样本,每例样本由2000个基因表达谱组成.2)前列腺癌数据集Prostate[24].该数据集共有102例样本,包括52例前列腺癌(Prostate Cancer, PC)组织样本和50例正常(Normal,N)组织样本,每例样本由12600个基因表达谱组成.3)淋巴癌数据集Lymphoma[25].该数据集共包含77例样本,其中58例为弥漫性大B细胞淋巴瘤(Diffuse Large B-Cell Lymphoma,DLBCL)样本㊁19例为滤泡性淋巴瘤(Follicular Lymphoma,FL)样本,每例样本由7129个基因表达谱组成.4)急性白血病数据集Leukemia[1].该数据集共含72例样本,包括25例急性髓细胞白血病(AML)样本和47例急性淋巴细胞白血病(ALL)样本,每例样本由7129个基因表达谱组成.5)肺癌数据集Lung[26].该数据集共含有181例样本,包括31例恶性胸膜间皮瘤(Malignant Pleu-ral Mesothelioma,MPM)样本和150例恶性胸腺癌(ADeno CArcinoma,ADCA)样本,每例样本由12533个基因表达谱组成.需要说明的是通过观察数据发现,Prostate和Lung这两个数据集中部分基因列的值全为零,这些值全为零的基因列不仅对基因选择任务没有任何帮助,还有可能影响基因选择的结果,因此剔除了Prostate中的394列噪音基因数据和Lung中的121列噪音基因数据,得到的Prostate数据集的基因数量由原始的12600降为12206,Lung数据集的基因数量由原始的12533降为12412.本文采用的实验环境配置:Intel Xeon5110双核处理器,2GB内存的PC机,Windows XP的操作系统,Weka3.7.3+Matlab7.0的开发环境.使用We-ka[27]工具进行分类模型构建和LOOCV性能评价,在实验部分使用的4种分类器,即SVM㊁KNN㊁决策树C4.5和随机森林Random Forest,都集成在Weka 软件中.实验过程中对各算法的重要参数设置如下: SVM的核函数kernel设置为多项式核函数(Polyno-mial Kernel Function),KNN的邻居个数K设置为10,C4.5的用于修剪的置信因子(confidenceFactor)设置为0.25,Random Forest的生成树的个数(numTrees)设置为10.5.2㊀实验结果分析本文设计的算法GSIL分为两层:第一层按照信噪比值的大小对全部m个基因进行降序排列,并选择前mᶄ个基因作为候选基因子集,通常mᶄ<<m,从而有效降低基因维数,去除无关基因;第二层在候选基因子集的基础上采用ILasso方法进一步剔除冗余基因,从mᶄ个基因中得到mᵡ个信息基因,以获得最优信息基因子集.首先,本文对第一层的实验结果分析.通常情况下,信噪比方法根据基因得分的高低选择Top50~ 200个基因.本文初步选择Top100(mᶄ=100)个基因作为候选基因子集,为检验候选基因子集的性能,本文以5个实验数据集通过信噪比方法选出的Top 100个基因作为样本的信息基因,采用4种不同的分类器分别构建模型,取分类精度平均值作为最终的分类精度.表2比较原始数据集和经过信噪比方法选择后的候选基因子集的基因个数和分类性能,表格中的粗体值表示当前方法的分类准确率最高.由表2可知,经过信噪比方法过滤后的候选基因子集的分类精度明显高于原始基因集合的分类精度,例如Lung数据集的分类精度达到98.62%,这说明本实验保留的都是与分类任务较为关联的特征,过滤的大多基因都是无关基因.通过去除大量的无关基因,利用选出的Top100个基因即可实现对原始样本集较为精确的分类,包含了原始样本集的完整分类信息.45模式识别与人工智能㊀㊀㊀27卷。

相关文档
最新文档