生物信息学医学数据

合集下载

生物信息学技术在医疗领域中的应用与发展

生物信息学技术在医疗领域中的应用与发展一、引言生物信息学技术是研究生物领域中大规模数据的获取、整合、分析和挖掘的一门交叉学科。

随着生物学研究的深入以及计算机技术的快速发展，生物信息学技术得到了迅速的发展和广泛的应用。

本文将探讨生物信息学技术在医疗领域中的应用与发展。

二、基因组学1. 基因诊断基因诊断是基因组学在临床医学中的一个应用。

基因诊断可通过基因组学的技术，在患者身体内检测到与疾病相关的基因，从而为医生提供了准确的诊断依据。

这项技术尤其在遗传性疾病的诊断中应用广泛。

2. 个性化医疗基因组学也为个性化医疗提供了新的途径。

基因组学技术可以通过搜集患者基因组信息，分析患者的病情以及对药物反应的影响。

基于这些个性化信息，医生能够制定针对性的治疗方案，从而提高治疗的效果。

三、蛋白质组学1. 蛋白质组学的应用蛋白质组学是研究蛋白质组的一个学科。

蛋白质组是指在一个组织或个体中，存在的所有蛋白质的总和。

蛋白质组学的应用可以使得医生能够较为准确地诊断疾病，更好地制定治疗方案。

2. 蛋白质标记物的发现通过蛋白质组学技术，医生们能够借助蛋白质标记物，对某些疾病的诊断进行了更加准确和便捷的处理。

例如，通过发现某些疾病的蛋白质标记物，可以充分发掘其促进或加重疾病的作用机制，并制定更针对性的治疗方案。

四、生物计算学1. 生物计算学的应用生物计算学是研究生物信息处理的一个领域。

它能够分析、整合和存储大量生物科学和医学数据。

生物计算学在临床诊断、基因组学以及蛋白质组学等方面发挥着重要的作用。

2. 药物设计通过生物计算学技术，医生们可以通过计算机辅助药物设计，根据患者基因组信息，制定基于患者个体的药物治疗方案。

这项技术使得患者能够获得更好、更安全和更个性化的药物治疗。

五、结论随着生物技术和计算机技术的迅猛发展，生物信息学技术成为了化疗、靶向治疗、免疫治疗等多种治疗手段中的重要组成部分。

然而，生物信息学技术与现有技术的融合并不是一件容易的事情。

生物信息学及其在医学中的应用

生物信息学及其在医学中的应用随着科学技术的不断进步和发展，生物信息学成为了一个热门话题。

作为一个具有潜在影响力的学科，生物信息学获得了越来越多的关注。

生物信息学是指将计算机科学和信息技术与生物学相结合的一门学科。

生物信息学的研究范围很广，涉及到从基因组学到蛋白质组学、代谢组学等整个生物科学领域。

生物信息学的技术可以应用于生物学中的各种领域，其中医学领域是其应用的一个重要方向，因为生物信息学技术进一步加强了医学的研究。

生物信息学在医学中的应用生物信息学可以应用于医学研究的多个方面，如基因测序、基因组重组、蛋白质分析、疾病研究等。

在疾病研究方面，生物信息学已经成为全球医学研究的一大趋势。

以基因测序为例，生物信息学已经成为了DNA测序时代中一项很重要的工具。

因为DNA测序产生的海量数据，需要生物信息学精确分析，这样我们才能了解细胞癌变是如何进行的，了解人类健康和疾病风险因素的千差万别的因素。

生物信息学的发展历程生物信息学的发展历程相对较短，但仍然引人注目。

生物信息学始于1970年，基因序列分析技术的发展使其成为可能。

1990年代，基因组计划的启动推进了生物信息学的发展，许多公司及机构为基因测序提供技术支持。

随着计算机技术的飞速发展，生物信息学得以更好的发展。

作为一门交叉学科，生物信息学将计算机科学、工程技术和生物学融合在了一起。

这门技术的发展使得能够更好的了解人类和其它生命体的诸多方面的科学知识。

生物信息学技术在医学中的应用生物信息学技术在医学中的应用可以分为许多方面，其中包括：基因测序技术、基因芯片技术、蛋白质分析技术、疾病研究技术等。

在基因测序技术方面，现在已经能够对人类基因组进行整批测序，这一技术的出现，在一定程度上改变了医学诊断和治疗的完全局面。

基因测序技术可以帮助我们更好的了解疾病的发生机制，从而指导疾病的预防和治疗。

基因芯片技术又被称作microarray技术，这种技术可以同时检测几千个基因的表达量变化。

生物信息学在医学上的应用

生物信息学在医学上的应用随着科学技术的发展，人类在医学领域也得到了很大的进步。

而生物信息学作为一门新兴的学科，对医学的发展也起到了很大的推进作用。

那么，生物信息学究竟是什么？它在医学上有什么应用呢？一、什么是生物信息学？生物信息学是应用数学、计算机科学和统计学等多个学科方法，对生物学信息进行的综合性的研究领域。

它是以生物信息为研究对象，通过对基因、蛋白质、代谢物、细胞和组织等生物信息进行收集、存储、分析和解释，研究生命科学的一个新兴领域。

二、1. 疾病的诊断和治疗生物信息学能够分析大量的、复杂的生物数据信息，从而发现各种疾病的诊断和治疗方法。

例如，目前很多癌症患者都采用靶向治疗，这就是生物信息学在帮助医生选择合适的药物和治疗方案上的成功应用。

2. 基因的研究生物信息学在基因组学和转录组学研究方面具有潜在的应用。

例如，可以通过整合基因组、蛋白质组和代谢组中的信息，发现基因的功能和调控机制，为基因的治疗提供新思路。

3. 蛋白质的研究生物信息学在蛋白质组学和结构生物学研究方面也处于领先地位。

它能够确定蛋白质的结构和功能，进而研究它们如何转化为药物和如何影响疾病的发生和发展。

4. 新药的筛选和发现基于生物信息学技术，可以运用高通量筛选技术对新药进行快速筛选。

这样可以节省时间和成本，并且可以更快地增加新药的发现率。

5. 健康管理基于生物信息学技术，可以对个体的基因、代谢和疾病风险进行个性化诊断和治疗。

这样可以为人们提供更有效的个体化的健康管理。

三、结论总之，生物信息学这门新兴的学科，无疑是在医学领域上具有非常广泛的应用前景。

它在疾病的诊断和治疗、基因和蛋白质的研究、新药的筛选和发现以及健康管理等方面，都具备重要的应用意义。

未来，随着生物信息学技术的不断发展和完善，相信它在医学领域上的应用价值将会越来越大。

临床数据分析的生物信息学方法

临床数据分析的生物信息学方法生物信息学是一门综合性的学科，通过运用统计学、数学、计算机科学等方法，研究生物学中的数据，并为生物学研究提供支持。

在临床医学中，生物信息学方法为临床数据分析提供了有力的工具，帮助医生和研究人员更好地理解和处理临床数据信息。

本文将重点介绍在临床数据分析中常用的生物信息学方法。

一、基因组测序分析随着高通量测序技术的不断发展，基因组测序数据在临床研究中得到了广泛应用。

基因组测序分析是利用生物信息学工具分析不同个体基因组的差异和变异情况，从而揭示与疾病相关的基因变异。

常用的基因组测序分析方法包括基因变异检测、突变序列鉴定、拼接序列重建等，通过对临床数据进行测序分析，可以发现疾病相关的突变，为疾病的诊断和治疗提供依据。

二、表观遗传学分析表观遗传学是研究基因组外的遗传变异，如DNA甲基化和染色质修饰等遗传机制的调控。

表观遗传学分析在临床数据中的应用越来越广泛，可以帮助诊断和治疗复杂疾病。

通过生物信息学方法，可以分析临床样本中的DNA甲基化模式和染色质修饰情况，进而揭示与疾病发生发展相关的表观遗传变异。

三、转录组学分析转录组学是研究基因组转录过程的学科，通过分析基因的表达水平和组织特异性，揭示疾病发生发展过程中的分子机制。

生物信息学方法在转录组学分析中扮演着重要的角色，可以对临床数据中的转录组进行定量和差异表达分析，从而识别与疾病相关的基因和信号通路，并为临床诊断和治疗提供新的靶标和策略。

四、蛋白质组学分析蛋白质组学是研究蛋白质组中所有蛋白质的表达、定量和功能的学科。

通过生物信息学方法，可以对临床样本中的蛋白质组进行系统分析，发现疾病相关的蛋白质标志物，并研究其在疾病发生发展过程中的功能和调控机制。

蛋白质组学分析在临床研究中有着重要的应用价值，可以帮助医生更好地认识疾病的发生机制，提供精准诊断和个体化治疗的依据。

五、系统生物学分析系统生物学是一种研究生物系统的整体性和复杂性的学科，通过综合分析生物系统的多个层次的数据，揭示生物过程的整体性和动态性。

生物信息学在医学研究中的应用

生物信息学在医学研究中的应用近年来，随着生物科学和计算机技术的快速发展，生物信息学作为一个新兴的交叉学科，渐渐引起了人们的重视。

生物信息学是将计算机科学和信息技术应用于生物学领域，通过对生物数据的收集、分析和解释，为生物学研究提供了全新的途径和手段。

在医学研究中，生物信息学的应用已经取得了许多令人瞩目的成果，推动了医学诊断、治疗和药物研发的进步。

1. 基因组学和转录组学分析生物信息学在医学研究中的一大应用领域是基因组学和转录组学分析。

基因组学研究借助于生物信息学的工具和方法，可以对整个基因组的序列进行测序和分析，从而帮助科学家们理解人类基因组在健康和疾病中的重要作用。

例如，通过对基因组中的突变位点进行分析，可以发现与遗传疾病相关的致病基因，从而为临床诊断和治疗提供依据。

另外，转录组学研究是研究细胞内转录过程的科学，它可以通过大规模测序和数据分析，研究细胞在不同生理状态下基因的表达水平和转录变化情况。

通过生物信息学的手段，科学家们可以对转录组数据进行挖掘和解读，发现常见疾病或肿瘤的发生机制，并探索新的治疗策略。

这些基因组学和转录组学分析的结果，为医学研究提供了重要的基础数据，为疾病的早期预测、风险评估和治疗设计提供了新的思路。

2. 蛋白质组学和代谢组学研究生物信息学在医学研究中的另一个重要应用领域是蛋白质组学和代谢组学研究。

蛋白质组学研究是对生物体内所有蛋白质的表达水平和功能进行高通量测定和分析，通过生物信息学的工具和方法，可以对蛋白质组数据进行分析和解读，揭示蛋白质与疾病发生、发展相关的机制。

代谢组学研究则是通过对生物体内代谢产物的测定和分析，揭示生物体内代谢网络的变化，从而了解疾病发生的代谢特征和机制。

生物信息学在蛋白质组学和代谢组学研究中的应用，可以促进对疾病的早期诊断和个体化治疗的实现。

3. 基于生物信息学的靶向治疗和药物研发生物信息学在医学研究中的另一个重要应用是基于生物信息学的靶向治疗和药物研发。

医学生物信息学基础

数据类型：包括序列数据、结构数据、功能数据、病理数据等
应用领域：包括基因组学、蛋白质组学、代谢组学、药物研发、疾病诊断等
跨学科性：结合医学、生物信息学和计算机科学等领域的知识
应用广泛性：应用于疾病诊断、药物研发、个性化医疗等多个领域
计算密集型：需要使用高性能计算和算法来处理和分析数据
数据密集型：处理大量生物医学数据，如基因、蛋白质、疾病等
研究内容：包括基因组学、蛋白质组学、代谢组学等
研究领域：涉及医学、生物学、计算机科学等多个领域
研究方法：采用生物信息学、统计学、计算机科学等方法
研究目的：提高疾病诊断和治疗水平，促进医学发展
生物信息学基础知识
基因组：生物体全部遗传信息的总和
基因组编辑：利用基因工程技术对基因组进行修改和编辑
基因组比较：比较不同物种的基因组，了解生物进化关系和功能差异
个性化医疗的技术和方法：基因测序、生物信息学分析等
个性化医疗的未来发展趋势和挑战
汇报人：XX
感谢您的观看
精准医学：通过基因测序、生物信息学分析等技术，实现疾病的精准诊断和治疗
流行病学研究的定义和目的
流行病学研究的方法和技术
生物信息学在流行病学研究中的应用
生物信息学在流行病学研究中的挑战和前景
生物信息学技术与方法
数据来源：基因测序、蛋白质结构分析、细胞生物学实验等
数据类型：序列数据、结构数据、功能数据等
数据收集方法：高通量测序、基因芯片、蛋白质组学等
数据存储与管理：数据库、数据仓库、云计算等
数据分析方法：统计分析、机器学习、深度学习等
数据来源：基因、蛋白质、代谢物等
数据类型：序列、结构、功能、网络等
数据挖掘技术：关联规则、聚类分析、分类预测等

生物信息学在医学领域中的应用

生物信息学在医学领域中的应用生物信息学是一门与计算机科学、数学和统计学紧密相关的跨学科科学，其主要研究内容是关于生物信息的存储、分析和解释。

生物信息学的发展给医学领域带来了革命性的变化，它利用生物大数据和先进的计算技术，可以帮助医学研究人员更好地了解疾病的发病机制、诊断疾病以及个体化治疗方案的制定。

以下是生物信息学在医学领域中的几个重要应用。

1. 基因组学和转录组学基因组学和转录组学是生物信息学在医学领域中最为广泛应用的两个领域。

通过对人类基因组和转录组的测序和分析，可以发现与疾病相关的遗传变异和基因表达异常。

传统的基因研究方法很难全面而准确地获取这些信息，而生物信息学可以通过分析大规模的基因组和转录组数据，发现新的致病基因和相关的生物学路径，为疾病的诊断和治疗提供重要依据。

2. 蛋白质组学蛋白质是生物体内功能最为重要的分子之一，生物信息学在蛋白质组学领域的应用有助于我们理解疾病的分子机制。

通过蛋白质组学技术，我们可以对生物体内的蛋白质进行全面鉴定和定量分析，了解蛋白质的功能、互作网络以及相关的代谢途径。

这些信息对于疾病的诊断和治疗非常重要，可以帮助医学研究人员发现新的治疗靶点或生物标志物。

3. 药物研发和药物个体化治疗生物信息学在药物研发和药物个体化治疗方面的应用也显得尤为重要。

通过分析大规模的生物数据和药物数据库，可以帮助研究人员更好地了解药物与生物体之间的相互作用，预测药物的效果和副作用。

同时，生物信息学也可以用于研发新的药物靶点、筛选药物分子和优化药物设计。

个体化治疗是指根据患者个体的基因组信息和药物代谢能力，制定个性化的治疗方案。

生物信息学在此领域的应用可以帮助医生根据患者的基因信息和药物效果预测，为患者提供更加精准的治疗方案。

4. 疾病预测和诊断生物信息学在疾病预测和诊断方面的应用为医学领域带来了巨大的突破。

通过分析人群的基因组、转录组和蛋白质组数据，可以发现与疾病相关的生物标志物，从而实现疾病早期筛查和风险评估。

生物信息学技术及其在医学研究中的应用

生物信息学技术及其在医学研究中的应用随着生物学研究的不断深入，生物信息学技术也愈发重要。

生物信息学技术就是指运用计算机科学、数学、统计学等技术，对生物学的各个方面进行分析和研究的方法和工具。

在医药领域，生物信息学技术的使用具有很大的潜力和优势，可以在药物研发、疾病筛查、医学诊断等多个方面产生重要影响。

一、生物信息学技术简介生物信息学技术是一种交叉学科，涉及到计算机科学、数学、统计学、生物学等多个学科领域。

包括了基因组学、转录组学、代谢组学、蛋白质组学等方面，是研究生物信息及其生命过程中的规律和模式的一门科学。

生物信息学技术的主要目的是收集、存储、分析和管理生物信息的海量数据，如基因测序数据、蛋白质序列和结构数据、代谢物浓度数据等。

生物信息学技术不仅可以改善基础科学研究的效率，还可以促进药物研发、疾病诊断等方面的进步，使医学研究更加深入和精确。

二、生物信息学技术在药物研发中的应用随着药物研发中对药效、药理学问题的深入认识，基于药物代谢途径和药物作用机制的研究工作越来越受到关注。

利用生物信息学技术，我们可以筛选出对于特定疾病有作用的基因以及调控这些基因的信号通路。

针对这些基因或通路，我们可以进一步研究潜在药物分子，这将有助于新药的发现与开发。

药物研发还涉及到药物安全问题，在新药研制的早期阶段，药物分子的毒性与非特异性通常是无法确定的。

利用生物信息学技术，我们可以对药物分子与人类基因组的相互作用进行预测，这有助于在药物研发的早期阶段排除有潜在毒性或非特异性的候选药物，加快药物研发的进程。

三、生物信息学技术在疾病诊断中的应用生物信息学技术在疾病诊断中的应用主要是基于分子表达模式和分子标记的疾病生物标志物的鉴定。

通过分析正常和疾病状态下的基因表达及其调控通路，可以确定疾病早期信号通路的变化，并从中鉴定出具有潜在诊断价值的分子标志物。

例如，在肿瘤治疗中，我们可以利用生物信息学技术分析肿瘤组织与正常组织基因表达的差异，以此筛选出具有潜在诊断价值的肿瘤标志物。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

生物信息学在医学数据分析中的应用1.前言随着信息技术的飞速发展，医疗数据以爆炸般的速度积累增长，特别是临床医疗数据的大量积累，但是如何有效的整合和利用这些数据进行科学研究，这就对有效数据的管理和挖掘提出了更高的要求。

近年来，数据挖掘得到迅速发展，并逐渐应用到现实生活中，在分类分析方面表现相当出色，因此，已有专家将数据挖掘技术与基因表达数据分类问题相结合，发掘基因之间的关联联系，基因表达正常与非正常的活动范围，由此来理解基因表达的内在规律[1]，给疾病的诊断和预测、新特药的设计提供新的思路和方法。

但目前医学数据的整合还存在以下问题：一是医院临床数据通常是分散存在的。

分布于医院信息系统、检验信息系统、检查信息系统、电子病历系统等医院建立的各种信息系统当中，有的甚至存在于医生手写的随访记录本当中，这样分散存在的数据不利于收集、整合与分析。

二是以往的临床科学研究都是以手工的方式去收集和整合数据，数据的可靠性和准确性得不到保证，而且容易产生数据丢失。

与此同时，人工收集数据工作量大，数据采集速度慢、试验周期长的状况，这对临床科研数据的统计和分析结果的准确性提出来质疑。

三是在对手工搜集到的分散的数据资源进行统计分析和查询的过程中，效率滞后，容易影响科研进度。

针对上述几个问题，为确保收集数据的准确性、有效性和完整性，以便进行统计分析，基于临床科研的数据管理系统应运而生。

2. 支持向量机在医疗数据中的应用在疾病检测中，单一的生理信息不足以反映人体的健康状况，因此对多种生理信息综合分析是十分有必要的。

在心脏病的诊断中就涉及诸如年龄、血压、心跳等几种，甚至几十种理化指标。

医生综合这些检测的数据，根据自己的经验、知觉和见解等对人体的健康状况做出某种诊断。

显然，这种诊断是主观性的，对同一个人，有时不同的医生甚至会做出截然相反的判别。

多生理信息融合( Information Fusing)技术可以直接从原始样本数据出发建立某种规则模型，并将这种模型在计算机上实现，利用这一模型可以帮助医生对待测人体做出更客观、准确和及时的诊断[2]。

用于建立模型的方法很多，其中支持向量机是近年来发展迅速的一种理论统计方法。

支持向量机是在该情况下产生的一种新的、非常有力的机器学习新方法，是贝尔实验室研究人员Vapnik等人在统计学习理论三十多年的研究基础之上发展起来的一种全新的机器学习算法，也使统计学习理论第一次对实际应用产生了重大影响[3,4]。

支持向量机是基于统计学习理论的结构风险最小化原则的，它将最大分界面分类器思想和基于核的方法结合在一起，在模式识别、信号处理、函数逼近等领域得到了应用[5,6]，表现出了很好的泛化能力。

目前，支持向量机作为小样本学习的最佳理论，越来越多的应用于智能医学数据分析领域，成为当前智能医疗诊断研究的热点。

其基本原理如下：支持向量机通过对待分类数据进行用核函数定义的非线性特征影射¢(x)：R n→Z，将其映射到某一更高维特征空间Z中，从而能够线性可分，然后在新的特征空间Z中构造最优分类超平面，形成样本分类的决策规则（图1）。

最优分类平面不仅要保证将两类样本错分个数最少，还要求分类间隔最大。

错分个数最少保证了经验风险最小，从而使真实风险最小。

但在一般情况下，这种低维向高维的变换，可能会比较复杂，不容易实现。

考虑最优分类函数只涉及样本之间的内积运算，这样在高维空间也只需内积运算：而这种高维运算是可以用原空间中的函数实现的，我们甚至没有必要知道变换的形式。

根据泛函的有关理论，只要一种核函数K(x，y)满足Mercer条件[7]，它就对应某一变换空间中的内积。

因此在最优分类面中采用适当的核函数就可以实现某非线性变换后的线性分类，而计算的复杂度却没有增加。

图1 支持向量机原理[7]应用支持向量机进行分类研究克服了传统分类方法中存在的过学习、维数灾难、产生局部极小点及高维特征等问题，而且在小样本条件下仍然具有良好的推广能力，因而成为智能技术研究的新的热点[9]。

SVM在模式识别、回归分析、和概率密度估计等机器学习方面获得了较好的效果，并且已经应用于文本识别、非线性回归建模、生物信息学领域等实际问题中[10,11,12]。

2.1支持向量机在心脏病中的应用利用SVM等对多生理样本信息进行融合处理，从而形成一种判断模型，根据模型可以对新加的数据做出某种判别。

这种判别的能力好坏不仅取决于原始样本数据数量、完整性等，还和建立模型的工具方法有直接的关系。

SVM具有良好的泛化性能、结构简单，因此是建立医疗诊断模型的有效方法。

如今SVM 广泛应用于癌症、高血压、心脏病等诸多的医疗诊断领域。

可以相信以SVM建立的医疗模型将会成为辅助医疗诊断的重要工具，应当引起相关领域研究人员的高度重视。

但在诊断中由于病人存在个体的差异和诊断数据本身的噪声和非线性等，所以要准确的诊断是困难的。

而改进的支持向量机，能够去除噪声和孤立点，提高了分类的准确率，其优良特性表明本算法在医疗诊断中具有很大的应用潜力。

在对心脏病数据进行分类时，支持向量机算法相对于其他算法的优势主要表现在以下两个方面：（1）支持向量机分类器通过求解一个凸二次规划得到，二次规划所得的解是唯一的且为全局最优解，这样不存在局部极值问题；（2）支持向量机分类器只由少数支持向量确定，且将非线性问题的求解转化为计算确定的核函数。

徐义田[13]等通过运用结构风险最小化原理和聚类原理，将支持向量机中有监督的分类算法与统计中无监督的聚类算法有机结合起来，对线性可分与线性不可分两种情况分别建立了无监督的分类模型。

模型的求解转化为一个二次规划问题，同时此模型也适合于多分类情况。

在应用到心脏病的医疗诊断中，准确率为88.5%，明显优于其他诊断方法。

有文献[14]报道，利用心电图特征，如各个波形的问期、幅值等信息作为分类依据，采用支持向量机和高阶统计量的方法对心律异常的心拍进行分类。

苏枫[15]等通过采用支持向量机SVM 和Adaboost 分类算法，设计高精度的分类模型和分期模型，发现结合Adaboost 和SVM 两种机器学习模型，能为心力衰竭的诊断及分期提供较准确的模型。

费胜巍[16]针对SVM 参数选取困难的难题，提出基于PSO的SVM参数优化方法，提出了基于PSO-SVM的心律失常诊断方法，通过PSO优化的SVM分类器具有较高的分类精度，并通过诊断实例证明了其可行性和正确性。

本研究通过检测80例先天性心脏病患者与80例健康对照者的cTnI、hs-CRP、BNP、Lp(a)水平，结果表明病例组的cTnI、hs-CRP、BNP、Lp(a)水平显著高于对照组，差异具有统计学意义。

以cTnI、hs-CRP、BNP、Lp(a)四个血清指标建立的支持向量机先天性心脏病诊断模型，经测试结果准确率为85%，同徐义田[13]等报道研究一致。

2.2 支持向量机在结直肠癌中的应用针对当前医疗领域数据挖掘中分类方法效率低以及分类准确率低等问题，以特征基因选择为主要研究内容，以有效提高基因表达谱分类方法准确性为目标，研究基因表达数据的数据挖掘方法，为肿瘤识别及基因表达数据特征分类提供技术支持，对致病基因与癌症关系的正确理解、肿瘤特征基因的选择和分类，具有重要的理论意义和临床应用价值。

大肠癌是发病率最高的恶性肿瘤之一，早期大肠癌手术后的5年存活率超过90%，晚期癌手术后则低于10%，建立有效的大肠癌筛查与早期诊断方法，以实现早期治疗成为提高患者生存率的关键[17]。

Furey等[18]以结肠癌为研究对象，通过计算信噪比提取特征基因，应用支持向量机的方法分析特征基因表达数据，建立肿瘤预测模型。

对结肠癌数据提取了2000个特征基因，在62个样本中预测模型正确分类了56个样本，分类的正确率为90.3%。

Ramaswamy等[18]分析了涵盖14种肿瘤的144个样本的基因表达数据，使用支持向量机方法提取特征基因，并用此方法建立肿瘤预测模型。

Zhang等[20]在统一处理中把基因选择和癌的分类、获取高准确率同时实现。

采用的算法为SCAD SVM（smoothly clipped absolute deviation）。

在国外，从20世纪90年代末开始，包括Science在内的国际著名期刊陆续发表的论文中公布了许多有价值的研究成果。

支持向量机针对基因表达数据的研究，各方面涉及较多，如基因分类、基因功能分类及特征提取等，表明支持向量机技术在信息学中的应用日趋成熟。

K-ras基因野生型大肠癌患者的抗表皮生长因子受体对结直肠癌(epidermal grow th factor receptor,EGFR) 治疗效果好，因此K-ras 基因检测有利于筛选出抗EGFR药物治疗有效的大肠癌患者，从而实现大肠癌患者的个体化治疗,延长患者的生存期,并大大降低治疗的毒性和不必要的费用[21]，因此建立了一种基于最小二乘支持向量机数学模型的大肠癌K-ras基因突变预测方法就显得至关重要。

将LS-SVM应用大肠癌K-ras基因突变的预测，模型针对训练集的预测正确率达到100%，说明模型的内推能力很强，对检验集的预测正确率达到79.40%, 虽没有测试集的效果好，但是其方差较小，说明模型的稳定性还是很高的。

造成测试集效果没有训练集高的原因可能是模型的参数选取和样本K-ras突变量较少，应用LS-SVM 预测模型预测大肠癌K-ras基因突变是可行的，如果再与测序的结果相印证,就大大提高对突变能检测的信度[22]。

目前，已有的血清肿瘤标志物对结直肠癌诊断过程中大都特异性低、灵敏性差，但非特异性的血清肿瘤标记物对结直肠癌早期癌诊断以及预后监测仍具有一定的临床价值【23】。

在统计学中，用来作为衡量某特征特异性的方法有很多，目前用的最多的是距离度量。

距离度量也可称作“离散度准则”、“类别可分离判据”。

距离作为统计模式识别中的一个重要概念，主要包括巴氏距离、欧氏距离和马氏距离，而巴氏距离往往用于基因表达谱特征的分析，不管是维数高还是维数低的数据都较为适用，其应用范围较广。

本研究结果表明，当采用12个指标联合建立SVM模型时，模型分类的准确度为73.33%，不够理想。

联合CEA、NSE、CYFRA21-І、AFP、CA724等7项指标建立SVM模型，判别准确率可达86.67%。

这表明，选用过多的指标联合鉴别结直肠肿瘤的良恶性，可能会由于指标冗余而干扰其中有用指标判别的效果，造成判别准确率的降低。

本研究采用巴氏距离判别法可以有效筛选出特异性较高的指标，联合特异性较高的指标可以建立准确率较高的SVM诊断模型。

当采用巴氏距离最高的4个指标：CEA、NSE、CA724、AFP建立SVM模型时，模型的判别准确度为80%，反低于联合7个指标建立的模型准确度。