基于GA_SVM方法的结肠癌基因表达谱数据分析

合集下载

基于SAM和GA/SVM的肿瘤基因表达谱分类算法

基于SAM和GA/SVM的肿瘤基因表达谱分类算法

关 键 词 : 因 表 达 谱 ; 类 ; 因表 达 差 异 显 著 性分 析方 法 ( AM) 遗传 算 法 ( A) 支 持 向量 机 ( V ) 基 分 基 s ; G ; sM
中图分类号 : P 8T 31 T I ; P 9 文献标志码 : A
肿瘤 的发生 发展是 多基 因 、 阶段 的过 程. 统 的研 究方 法往往 采用 以一个 或几 个基 因为 目标 来查 找 多 传 肿瘤 相关基 因 , 随着基 因芯片技 术 的问世 , 为这一 问题 提供 了有 效 的解 决 方法 , 因芯 片技 术 在 肿瘤 的研 基 究和 临床工 作 中显示 出广 阔 的前 景. e h等人 _ 研究 了 3 0例儿 童急 性淋 巴细胞 白血病 ( L 样本 的基 Yo 1 ] 6 AL ) 因表达谱 , 识别 出包 括 T— L, 2 P X1 B R AB TE — AL E A— B , C — L, L AML , 重 排 和超 二 倍体 且 7 5 1 MI I 2 0等 6 > 个 主要 的 白血 病亚 型 , 并通 过机器 学 习算 法建立 分类 预测 模型 , 对每种 白血 病亚 型进行 区分和 预示 复发 的 分类 , 确率达 到或接 近 1 0 准 0 %. 基 因芯片技 术能一 次 同时检测 成千上 万个基 因 的表 达值 , 是其 独特 的优 势 , 同时也给后 期 的数据处 理 带来 很 大的 困难 . 由于 每个样 本包含 了所有 基 因的表达值 , 而 , 然 只有其 中少数 基 因与肿瘤 的分类 相关 , 因 此 , 何有效 地在 数 以万 计的基 因中挑 选 出少 量 的特征基 因 , 如 降低样 本 的基 因维 数 , 高预测 的精 确度 , 提 对 于建 立肿瘤 分类预 测 模 型 , 现 肿 瘤 分 类 与 分 型 的 基 因 标 记 物 以 及 药 物 治疗 潜 在 靶 点 等 , 是 非 常重 发 都

基于癌症基因组图谱数据分析筛选结肠癌预后相关长链非编码RNA

基于癌症基因组图谱数据分析筛选结肠癌预后相关长链非编码RNA

基于癌症基因组图谱数据分析筛选结肠癌预后相关长链非编码RNA闫军浩1,郭魁元1,吴万庆1,罗昭峰1,杨战锋1,王冬阳2,王 争2Analysisandscreeningoflongnon-codingRNAsassociatedwithcoloncancerprogno sisutilizingTCGAdataYanJunhao1,GuoKuiyuan1,WuWanqing1,LuoZhaofeng1,YangZhanfeng1,WangDongyang2,WangZheng21DepartmentofGastrointestinalandThyroidSurgery,theFifthAffiliatedHospitalofZhengzhouUniversity,HenanZhengzhou450052,China;2DepartmentofGastrointestinalSurgery,RenjiHospital,ShanghaiJiaotongUniversitySchoolofMedicine,Shanghai200001,China.【Abstract】 Objective:Toscreenlongnon-codingRNAs(lncRNAs)associatedwithcoloncancerprognosisandtoidentifynovellncRNAsascoloncancerbiomarkersbyanalyzingthetranscriptomesequencingdatainTheCancerGenomeAtlas(TCGA)database.Methods:ThetranscriptomesequencingdataandpatientclinicalmaterialsofcoloncancerweredownloadedfromTCGAdatabaseandanalyzedbyRlanguage.DifferentiallyexpressedlncRNAsbetweencoloncancertissuesandadjacentnormaltissueswerescreenedusingedgeRpackageandsurvivalanalysisoftheselncRNAswasperformedbyunivariateCoxregressionmodel.Thecodinggenesco-expressedwiththeprognosticlncRNAswereidentifiedandextracted,andsubjectedtoKyotoEncyclopediaofGenesandGenomes(KEGG)analy sis.Results:Thedifferentialexpressionanalysisscreenedout227lncRNAsthatwereaberrantlyexpressedacrossallTNMstagesofcoloncancer.AmongtheselncRNAs,169lncRNAswereupregulatedand58lncRNAsweredownregu lated.Survivalanalysisidentified15differentiallyexpressedlncRNAsthatweresignificantlyassociatedwithpatientsurvival(P<0.05).AmongtheprognosticlncRNAs,2lncRNAswerecorrelatedwithfavorableprognosisand13lncRNAswerecorrelatedwithpoorprognosis.KEGGanalysisfoundthatthecodinggenesco-expressedwiththeprognosticlncRNAsweremainlyenrichedinribosomebiogenesis,mRNAsurveillancepathway,etc.Conclusion:AgroupofaberrantlyexpressedlncRNAswithprognosticsignificancewereidentifiedbyminingthecoloncancerdatasetinTCGAdatabase,whichlaidthefoundationforfurtherexploringtheirfunctioninthefuture.TheselncRNAswereex pectedtobenoveldiagnosticortherapeuticbiomarkersforcoloncancer.【Keywords】coloncancer,lncRNA,survival,prognosisModernOncology2020,28(17):3004-3008【摘要】 目的:通过分析癌症基因组图谱(TCGA)数据库中有关结肠癌的转录组测序数据,筛选结肠癌预后相关长链非编码RNA(lncRNA),寻找新的lncRNA结肠癌分子标志物。

基于遗传算法的结肠癌基因选择与样本分类

基于遗传算法的结肠癌基因选择与样本分类

Co u e gn e i g a d Ap l a o s 2 0 4 1 ) 2 2 4 . mp tr En ie rn n pi t n ,0 7,3( 8 : 4 -2 5 ci
Ab ta t W e d s r e o e p ra h f r g n s lc in a d c n e l s i c t n o c o ra aa, i h c mb n s u p  ̄ sr c : e c i a n v l a p o c o e e e e t n a c r c a sf ai f mi r ar y d t wh c o i e S p o b o i o
使用gasvm选择分类基因41支持向量机支持向量机是在统计学习理论基础上发展起来的一种针对有限样本情况的新型机器学习算法较适合处理基因表达谱这种样本数少维数高的数据集的分类和特征选取问题89数据是线性可分的svm计算一个最大化训练样本和类别边界的间隔的超平面
维普资讯
p o ls rfe i

要 : 出 了一 种 基 于 两轮 遗传 算 法 的用 于 结肠 癌微 阵列 数 据基 因选择 与样 本 分类 的 新 方 法 。该 方 法 先根 据 基 因的B a ah ry 提 h t ca a t y
距 离指标 过 滤 大部 分 与分 类 不相 关的 基 因. 而后 使 用结 合 了遗传 算 法和 C S C r ltn b sd F a r Slc o ) G /F F (o ea o— ae et e eet n 的 AC S方 法选 i u i 择 优 秀基 因子 集 , 存 档记 录这 些 子 集 。根 据 存 档子 集 中基 因被 选择 的 频 率 选择 进 一 步搜 索 的候 选 子 集, 并 最后 以 结合 了遗 传 算 法和

基于改进GA-SVM的智能推荐诊断挂号算法

基于改进GA-SVM的智能推荐诊断挂号算法

基于改进GA-SVM的智能推荐诊断挂号算法陈俊梅;周晋阳;张慧英【摘要】An intelligent-recommendation diagnosis registration algorithm was designed to improve the efficiency of medical treatment. The intelligent medical system performs training and machine learning for a large number of historical medical record texts,and classifies and recommends the appropriate medical departments for patients according to the patient characteristics. The genetic algorithm(GA)is combined with support vector machine to extract the characteristic value and optimize the parame-ter. The kernel function parameters and text characteristic values are taken as the chromosomes of the genetic algorithm to exe-cute the selection,crossover and mutation operations. To improve the efficiency of GA,and avoid trapping in local optimum, the mechanism combining weighted depth-first search with roulette is used in the group initialization stage with GA to guarantee the population diversity,and performs with adaptive optimization to the crossover probability and mutation probability,which can realize the global search while reserving the useful genetic information. The experiment results show that the algorithm can improve the classification accuracy while reducing the quantity of characteristic values.%为提高患者就医效率设计了一套智能推荐诊断挂号算法,对大量的历史病案文本进行训练和机器学习,以患者特征为依据进行分类并推荐相应的科室.使用遗传算法与支持向量机结合进行特征值提取和参数优化,以核函数参数和文本特征值作为遗传算法的染色体执行选择、交叉和变异操作,为提高遗传算法效率并避免陷入局部最优值,在遗传算法初始化群体阶段使用加权深度优先搜索和轮盘赌结合的机制以保证种群多样性,并对交叉概率和变异概率进行自适应优化,在保留有用遗传信息的同时实现全局搜索.实验结果表明,该算法在有效降低特征值数目的同时提高了分类精度.【期刊名称】《现代电子技术》【年(卷),期】2017(040)011【总页数】4页(P115-118)【关键词】改进遗传算法;支持向量机;智能医疗系统;智能推荐诊断挂号算法【作者】陈俊梅;周晋阳;张慧英【作者单位】长治医学院生物医学工程系,山西长治 046000;长治医学院生物医学工程系,山西长治 046000;长治医学院基础医学部,山西长治 046000【正文语种】中文【中图分类】TN911-34现代医学分工精细化为门诊患者自助挂号带来了一定的困扰,患者及其家人因缺乏专业基础知识而且选择主观性大,易出现挂号时因科室较多难于选择而费时低效,甚至存在挂错科室的现象,给患者和医院都带来了不便,这是医疗办提高自助挂号准确率的主要原因。

智能医疗系统中GA_SVM特征选择和参数优化

智能医疗系统中GA_SVM特征选择和参数优化

智能医疗系统中GA_SVM特征选择和参数优化
徐旭东;王群;孔令韬
【期刊名称】《计算机系统应用》
【年(卷),期】2015(024)003
【摘要】挂号是医疗过程最基本的单元,通常患者不知道自己病情,挂错科室的情况十分普遍,智能医疗系统的挂号功能很好地解决了这一难题,智能医疗系统利用医疗部门积累的海量病案文本进行训练和机器学习,对患者的病例特征进行分析将其分类到正确的病种,得出应挂的科室然后推荐给患者.而影响传统的支持向量机(SVM)文本分类的效率和准确率主要是特征值的提取和核函数参数的优化问题,由此提出了一种遗传算法(GA)和SVM相结合的文本分类方法,即把文本特征值和核函数的参数看作遗传算法中的一个染色体(一个个体),并进行二进制编码,对每一个个体进行选择、交叉、变异的遗传操作,得到最优的个体,最后通过支持向量机利用最优特征和最优参数进行文本分类.实验表明,该模型提高了患者智能诊断挂号的正确率,是一种较好的智能推荐诊断挂号算法.
【总页数】5页(P226-230)
【作者】徐旭东;王群;孔令韬
【作者单位】北京工业大学计算机学院,北京100124;北京工业大学计算机学院,北京100124;北京工业大学计算机学院,北京100124
【正文语种】中文
【相关文献】
1.入侵检测中基于IBQGSA的特征选择及SVM参数优化 [J], 李丛;闫仁武;丁勇;王云
2.刍议移动医疗系统中智能手机的融入 [J], 黄毅健;
3.智能医疗系统中数据库技术的应用 [J], LV Jia-lu
4.群体智能在入侵检测特征选择中的应用综述 [J], 梁本来
5.智能医疗系统中数据库技术的应用 [J], 吕佳潞[1]
因版权原因,仅展示原文概要,查看原文内容请购买。

基因组学研究中的表达谱数据分析方法解析

基因组学研究中的表达谱数据分析方法解析

基因组学研究中的表达谱数据分析方法解析概述:基因组学研究是研究生物体基因组的编码和非编码序列的科学。

在基因组学研究中,表达谱数据是一种重要的数据类型,由于其高维度和复杂性,需要采用一系列的分析方法和技术来解析。

本文将介绍基因组表达谱数据的分析方法,包括数据预处理、差异表达分析、聚类分析、富集分析以及网络分析。

一、数据预处理:数据预处理是基因组表达谱数据分析的第一步,目的是清除原始数据中的噪声、去除非生物学的变异以及纠正技术上的偏见。

常用的数据预处理步骤包括数据质量控制、归一化和基因过滤。

1. 数据质量控制:首先需要对原始数据进行质量控制,该步骤可通过查看测序质量分数和测序错误率来评估。

常用的工具有FastQC和Trimmomatic等。

该步骤的目的是排除测序引入的噪声。

2. 归一化:由于不同样本之间的表达量存在显著的差异,我们需要对数据进行归一化处理,以消除样本间的偏差。

常用的归一化方法有TPM、FPKM和RPKM等。

归一化后的数据便于后续的比较和统计分析。

3. 基因过滤:在分析表达谱数据时,一些基因的表达量非常低,对分析结果产生较小的影响并增加运算复杂性。

因此,我们通常会对表达量低于一定阈值的基因进行过滤处理,从而提高分析效率。

常用的过滤标准包括表达量百分位数和表达量阈值。

二、差异表达分析:差异表达分析是基因表达谱数据分析的核心内容之一,旨在发现不同条件下存在差异表达的基因。

通常,差异表达分析包括基于假设检验的方法和机器学习方法。

1. 基于假设检验的方法:这类方法通常基于统计学原理,将样本分组,通过计算差异表达的显著性水平来判断基因是否差异表达。

常用的方法包括Student's t-test、Wilcoxon秩和检验和Fisher's确切检验等。

这些方法基于不同的假设,在数据有明确的分布前提下,可以得到比较可靠的差异表达结果。

2. 机器学习方法:机器学习方法对差异表达分析具有较高的灵活性和预测能力。

SVM在基因表达数据分类中的研究和应用

SVM在基因表达数据分类中的研究和应用
smped tp o c fg e e p es n v co s p ln milv rino h o rd c, n a ilh ssfn t n C i l o rdu to e x rsi etr , oy o a eso fte d tpo u t a d ar da i u ci omp rd t h t e n o a o ae o teo h r S VM i lrt t c .h a i a i fn to VM p e r r vd u e o efr n ei e tfigs t fg e t O' lD smi i ymer s t erda bss u cin S a i l a pa st p ies p r rp ro ma c ni n i n eso e swihaC lr n o o i d y n nx fn t n s g e peso aa I d io S u ci u i x rs ind t.na dt n.VM ro m ei cm V  ̄ t o rsa d r c iela nn lo tms S o n i e p fm nc s o a ofu tn a dma hn r igag r h . VM sh v n e i a ema y
论基础是统计学习理论, 它不仅结构简单, 而且技术性能高, 泛化能力强 , 在基因表达式 分类中表现出有很多列 ; 基因表达式; 支向量机 ; 函数 ; 核 模式分类 中图分类号 :P 8 T 13 文献标识码 : A 文章编号:05 7 12 0 )3 0 0 — 3 10 —35 (060 — 17 0
S VM 在 基 因表 达 数 据分 类 中的研 究 和应 用
詹 超 , 江洪 胡
( 武汉理工大学 计算机科学与技术学院, 湖北 武汉 4 0 7 ) 30 0

基于统计方法的结肠癌基因信息提取研究

基于统计方法的结肠癌基因信息提取研究

基于统计方法的结肠癌基因信息提取研究内蒙古财经学院王立勇、张志红、李慧燕摘要本文主要采用了修正的信噪比、基于密度的祛噪声方法以及统计检验相结合的方法提取基因图谱信息。

通过对治疗结肠癌新途径中基因疗法中的致病基因提取做研究分析,利用统计学的相关知识更加精确有效地提取致病基因。

旨在对于提取基因图谱信息方法的改进,找到可以能够对样本分类信息量进行更有效估计的方法采用基于密度的祛噪声方法进行噪声祛除,并使用噪声云图对祛噪前后的效果进行了直观描述,表明可以有效祛除噪声。

并利用聚类分析和判别分析统计的方法,最终确定了与结肠癌有关的8个信息基因。

关键词:修正的信噪比;祛噪声;统计检验。

目录一、引言 (3)(1)研究背景和选题意义 (3)(2)国内外研究现状 (3)(3)研究思路 (5)二、基因图谱信息提取的实证研究 (5)2.1问题分析 (5)2.2数据的正态性研究 (6)2.3基因序列的初步提取 (9)2.4统计检验 (11)2.5噪声处理 (12)2.6肿瘤基因的确定 (16)三、结论及分析 (17)参考文献 (19)一、引言(1)研究背景和选题意义结肠癌是胃肠道常见的恶性肿瘤,仅次于胃癌、食管癌。

癌肿部位最常发生于直肠和乙状结肠,约占77.8%,其次为盲肠及升结肠,再次为降结肠、肝曲及脾曲。

结肠癌生长较慢,转移较晚。

手术切除仍然是目前结肠癌治疗的主要治疗方法,并可辅以化疗,免疫治疗、中药以及其它支持治疗。

结肠恶变是常见的恶性恶变之一,以40岁~50岁年龄组发病率最高。

据世界流行病学调查,发现结肠恶变在北美、西欧、澳大利亚、新西兰等地的发病率最高,居内脏种瘤前二位,但在亚、非、拉美等地发病率则很低。

我国的发病率与死亡率低于胃恶变,食管恶变、肺恶变等常见恶性恶变。

随着人民生活水平的提高,饮食结构的改变,其发病率呈逐年上各趋势。

中国和日本人的大肠恶变发病率明显低于美国,但移民到美国的第一代即可见到大肠恶变发病率上升,第二代基本接近美国人的发病率。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于 GA-SVM 方法的结肠癌基因表达谱数据分析
于 彬a,张 岩b
(青岛科技大学 a.数理学院;b.机电工程学院,山东 青岛 266061)
摘 要:对结肠癌的基因表达 谱 数 据 进 行 分 析,提 出 选 取 其 特 征 基 因 的 新 方 法。 首 先 考 虑到基因表达谱数据 高 维 数、小 样 本 的 特 点,采 用 Bhattacharyya距 离 对 数 据 进 行 降 维, 运用遗传算法生成特征基因子集,以支持 向量 机 作 为 分 类 器,建 立 了 基 于 GA-SVM 的 结 肠癌两类别分类模型。实验结果表明,仅需提取10个特征 基因 就可 获得 95.62% 分 类 准 确率。 关 键 词 :基 因 表 达 谱 ;肿 瘤 分 类 ;特 征 基 因 ;遗 传 算 法 ;支 持 向 量 机 中 图 分 类 号 :Q 811.4 文 献 标 志 码 :A
Alon等 对 [2] 结肠癌的基因表 达 谱 作 了 聚 类 分 析, 使用 T-检验方法进行相关基因选取,得到 一 些 表 达谱与肿瘤的对应关系。与模式分类方法类似,
肿瘤样本分类常采用无监督和有监督两种分类方 法。无监督的 分 类 方 法 主 要 有:聚 类 分 析[3-4]、自 组织映 射 (SOM)[5-6]、非 负 矩 阵 分 解[7-8]、主 成 分 分析[9]、独 立 分 量 分 析 等 [10] ,其 优 点 是 可 能 发 现
Analysis of Colon Cancer Gene Expression Profiles Based on GA-SVM Method
YU Bina,ZHANG Yanb
(a.College of Mathematics and Physics;b.College of Electromechanicol Engineering, Qingdao University of Science and Technology,Qingdao 266061,China)
考虑到该数据具有高维数和小样本的特点, 需要先对其进行过滤和降维。测量数千个基因的 表达水平有的差 异 很 大,只 有 少 部 分 基 因 与 样 本 的类别有很强相 关 性,而 大 部 分 基 因 与 样 本 的 类 别 不 相 关 ,对 分 类 没 有 什 么 贡 献 ,这 些 基 因 应 该 从
准差。
距离值越 大 说 明 基 因 对 结 肠 癌 的 关 联 性 越
强。计算 Bhattacharyya距 离,并 将 其 降 序 排 列,
数值小的基 因 数 量 多,数 值 大 的 基 因 数 量 少。 为
可靠 起 见,取 降 序 排 列 的 前 600 个 基 因 样 本 用 于
下 一 步 基 因 子 集 选 择 分 析,这 样 就 降 低 了 数 据
本研究对 结 肠 癌 的 基 因 表 达 谱 数 据 进 行 分 析,研究其分 类 特 征 基 因 的 选 取 问 题。 首 先 考 虑 到基因表达谱数 据 维 数 过 高、噪 音 很 大 以 及 样 本 很小等 特 点,利 用 Bhattacharyya 距 离 对 [17] 数 据 进 行 降 维 ,运 用 遗 传 算 法 生 成 特 征 子 集 ,以 支 持 向 量机作为 分 类 器,建 立 了 基 于 GA-SVM 的 结 肠 癌两类别分类模型。
B(i)=
1 4
(μ+ (i)-μ- (σ2+ (i)+σ2-
(i))2 (i))+
( ) 12ln
σ2+ (i)+σ2- (i) 2σ+ (i)σ- (i)
(1)
其中μ+ (i),σ+ (i)分 别 为 基 因i在 结 肠 癌 样
本(正样本)中的均值和标准差;μ- (i),σ- (i)分别
为 基 因i在 正 常 组 织 样 本 (负 样 本 )中 的 均 值 和 标
等 于 期 望 值 ,则 搜 索 结 束 。 如 果 情 况 并 非 如 此 ,新
的一代将重复他 们 父 母 所 进 行 的 繁 衍 过 程,一 代
一 代 演 化 下 去 ,直 到 满 足 终 止 条 件 。
对于遗传算法 中 的 参 数,本 研 究 选 用 的 是 动
态参数,参数 的 变 化 与 进 化 代 数 相 关。 在 种 群 早
第6期
于 彬等:基于 GA-SVM 方法的结肠癌基因表达谱数据分析
589
间变化;Pm 值的范围在0~0.062 5之间变化。 支持向量 机 (SVM)是 Vapnik 等 根 [20] 据 统
计学习理论提出 的 一 种 新 的 机 器 学 习 方 法,其 最
大特点是根据 Vapnik 提 出 的 结 构 风 险 最 小 化 原
期,高 交 叉 率,低 变 异 率;在 种 群 后 期,低 交 叉 率,
高变异率。用这种方法减少种群早熟的可能性。
经过多次试验发现,参数交叉概率 Pc 和变异概率 Pm 为
烄Pc=1-NNG ×g 8
烅 Pm
烆。
(2)
NG 值表示总 的 进 化 代 数,数 值 为 10,Ng 表 示当前世代数,因 此 Pc 值 的 范 围 在 0.875~1 之
由于基因芯片 的 成 本 及 其 它 方 面 的 原 因,所 得到的数据集中样 本 个 数 远 远 小 于 基 因 个 数 (即 样 本 的 维 数 ),这 使 得 用 机 器 学 习 方 法 来 对 肿 瘤 进 行分类变得比较困难。并且在众多的基因当中含 有大量噪声基因,它 们 的 存 在 也 会 降 低 分 类 准 确 率。因此,如何能 够 有 效 地 在 数 以 万 计 的 基 因 中 挑选出少量特征 基 因,从 而 有 效 地 降 低 样 本 维 数 成为建立肿瘤分类预测模型中非常关键的一步。
数据中滤 除。 第i 个 基 因 采 用 Bhattacharyya 距
离作为两类别的可分性判据,称 为 Bhattacharyya
特征计分 准 则 (BFSC)。 第i 个 基 因 在 结 肠 癌 样
本与 正 常 组 织 样 本 间 的 Bhattacharyya 距 离 定 义 为 [17-18]
收 稿 日 期 :2012-03-15 基金项目:国家自然科学基金项目(30871341);山东省教育厅科研基金项目(J10LA57);山东省优秀 中 青 年 科 学 家 科 研 奖 励 基 金 项
目(BS2012DX009). 作 者 简 介 :于 彬 (1977— ),男 ,讲 师 .
588
们对环境适应度 施 加 一 定 操 作,从 而 实 现 优 胜 劣
汰的进化过程。带有较高适应度值的那些染色体
更可能产生 后 代。 后 代 是 父 母 的 产 物,他 们 由 来
自 父 母 的 基 因 结 合 而 成 ,这 个 过 程 被 称 为 “杂 交 ”。
如果新的一代包 含 的 解,能 产 生 一 个 充 分 接 近 或
1 数据与方法
1.1 数 据 来 源 本研究实验数据 来 自 Alon 公 布 的 结 肠 癌 基
因表达谱数 据 集 。 [2] 与 其 它 基 因 芯 片 数 据 相 比, 该 数 据 是 一 个 较 难 分 析 的 数 据 集 ,包 含 40 个 结 肠 癌 组 织 样 本 和 22 个 正 常 组 织 样 本 ,每 个 样 本 包 含 2 000个 基 因 表 达 数 据。 数 据 可 从 网 址 http:// www.molbio.princeton.edu/colondata 获 得 。 将 正常样本和肿瘤样 本 按 接 近 2∶1 分 配 到 训 练 集 和测试集中。 训 练 集 有 40 个 样 本,其 中 包 括 26 个 结 肠 癌 组 织 样 本 和 14 个 正 常 组 织 样 本 ,测 试 集 有22个样本其中包括14个结 肠 癌 组 织 样 本 和 8 个正常组织样本。 1.2 处 理 方 法 1.2.1 数 据 预 处 理
SVM was established.The results showed that the accuracy could reach 95.62% by on- ly 10informative genes. Key words:gene expression profiles;tumor classification;informative genes;genetic al- gorithm;support vector machine
在分析肿瘤 基 因 表 达 谱 的 基 础 上,建 立 肿 瘤 分类预测模型对肿瘤进行预测成为近年来生物信 息学研究的热点。目前人们对肿瘤亚型识别与特 征基因选取问题已进行了一定程度上的探索。自 Golub等 于 [1] 1999 年 开 创 基 于 基 因 表 达 谱 肿 瘤 分类领域的先河 以 来,大 量 研 究 人 员 已 陆 续 提 出 很多基于基因 表达 谱 的 肿 瘤 分 类 方 法。同 年,
维数。
1.2.2 遗 传 算 法 和 支 持 向 量 机
遗传算法是由 美 国 密 歇 根 州 大 学 的 Holland
教授首先提出一种随机自适应的全局搜索算
法 。 [19] 通过随 机 的 方 法 产 生 一 组 字 串 形 成 初 始
种群,遗传操作的 任 务 就 是 对 群 体 的 个 体 按 照 它
青 岛 科 技 大 学 学 报(自然科学版)
第 33 卷
新 的 肿 瘤 亚 型 ,为 生 物 医 学 专 家 提 供 研 究 的 方 向 , 但其缺点恰好是没有利用已有的样本类别信息; 有监督分 类 方 法 主 要 有:k-近 邻 (k-NN)[11-12]、支 持向量机(SVM)[13-14]、粗 糙 集 (RS)[15]、人 工 神 经 网络(ANN)[16]、多 层 感 知 机 (MLP)[6]等 经 典 通 用的分类方法,其 优 点 是 能 够 根 据 已 知 的 样 本 类 别 信 息 进 行 学 习 ,提 取 样 本 分 类 知 识 ,这 些 方 法 都 已经成功地应用于肿瘤分类领域。
相关文档
最新文档