生物信息学医学数据

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

生物信息学在医学数据分析中的应用

1.前言

随着信息技术的飞速发展,医疗数据以爆炸般的速度积累增长,特别是临床医疗数据的大量积累,但是如何有效的整合和利用这些数据进行科学研究,这就对有效数据的管理和挖掘提出了更高的要求。

近年来,数据挖掘得到迅速发展,并逐渐应用到现实生活中,在分类分析方面表现相当出色,因此,已有专家将数据挖掘技术与基因表达数据分类问题相结合,发掘基因之间的关联联系,基因表达正常与非正常的活动范围,由此来理解基因表达的内在规律[1],给疾病的诊断和预测、新特药的设计提供新的思路和方法。但目前医学数据的整合还存在以下问题:

一是医院临床数据通常是分散存在的。分布于医院信息系统、检验信息系统、检查信息系统、电子病历系统等医院建立的各种信息系统当中,有的甚至存在于医生手写的随访记录本当中,这样分散存在的数据不利于收集、整合与分析。

二是以往的临床科学研究都是以手工的方式去收集和整合数据,数据的可靠性和准确性得不到保证,而且容易产生数据丢失。与此同时,人工收集数据工作量大,数据采集速度慢、试验周期长的状况,这对临床科研数据的统计和分析结果的准确性提出来质疑。

三是在对手工搜集到的分散的数据资源进行统计分析和查询的过程中,效率滞后,容易影响科研进度。

针对上述几个问题,为确保收集数据的准确性、有效性和完整性,以便进行统计分析,基于临床科研的数据管理系统应运而生。

2. 支持向量机在医疗数据中的应用

在疾病检测中,单一的生理信息不足以反映人体的健康状况,因此对多种生理信息综合分析是十分有必要的。在心脏病的诊断中就涉及诸如年龄、血压、心跳等几种,甚至几十种理化指标。医生综合这些检测的数据,根据自己的经验、知觉和见解等对人体的健康状况做出某种诊断。显然,这种诊断是主观性的,对同一个人,有时不同的医生甚至会做出截然相反的判别。多生理信息融合( Information Fusing)技术可以直接从原始样本数据出发建立某种规则模型,并将这种模型在计算机上实现,利用这一模型可以帮助医生对待测人体做出更客

观、准确和及时的诊断[2]。用于建立模型的方法很多,其中支持向量机是近年来发展迅速的一种理论统计方法。

支持向量机是在该情况下产生的一种新的、非常有力的机器学习新方法,是贝尔实验室研究人员Vapnik等人在统计学习理论三十多年的研究基础之上发展起来的一种全新的机器学习算法,也使统计学习理论第一次对实际应用产生了重大影响[3,4]。支持向量机是基于统计学习理论的结构风险最小化原则的,它将最大分界面分类器思想和基于核的方法结合在一起,在模式识别、信号处理、函数逼近等领域得到了应用[5,6],表现出了很好的泛化能力。目前,支持向量机作为小样本学习的最佳理论,越来越多的应用于智能医学数据分析领域,成为当前智能医疗诊断研究的热点。其基本原理如下:

支持向量机通过对待分类数据进行用核函数定义的非线性特征影射¢(x):R n→Z,将其映射到某一更高维特征空间Z中,从而能够线性可分,然后在新的特征空间Z中构造最优分类超平面,形成样本分类的决策规则(图1)。最优分类平面不仅要保证将两类样本错分个数最少,还要求分类间隔最大。错分个数最少保证了经验风险最小,从而使真实风险最小。但在一般情况下,这种低维向高维的变换,可能会比较复杂,不容易实现。考虑最优分类函数只涉及样本之间的内积运算,这样在高维空间也只需内积运算:而这种高维运算是可以用原空间中的函数实现的,我们甚至没有必要知道变换的形式。根据泛函的有关理论,只要一种核函数K(x,y)满足Mercer条件[7],它就对应某一变换空间中的内积。因此在最优分类面中采用适当的核函数就可以实现某非线性变换后的线性分类,而计算的复杂度却没有增加。

图1 支持向量机原理[7]

应用支持向量机进行分类研究克服了传统分类方法中存在的过学习、维数灾难、产生局部极小点及高维特征等问题,而且在小样本条件下仍然具有良好的推广能力,因而成为智能技术研究的新的热点[9]。SVM在模式识别、回归分析、和概率密度估计等机器学习方面获得了较好的效果,并且已经应用于文本识别、非线性回归建模、生物信息学领域等实际问题中[10,11,12]。

2.1支持向量机在心脏病中的应用

利用SVM等对多生理样本信息进行融合处理,从而形成一种判断模型,根据模型可以对新加的数据做出某种判别。这种判别的能力好坏不仅取决于原始样本数据数量、完整性等,还和建立模型的工具方法有直接的关系。SVM具有良好的泛化性能、结构简单,因此是建立医疗诊断模型的有效方法。如今SVM 广泛应用于癌症、高血压、心脏病等诸多的医疗诊断领域。可以相信以SVM建立的医疗模型将会成为辅助医疗诊断的重要工具,应当引起相关领域研究人员的高度重视。但在诊断中由于病人存在个体的差异和诊断数据本身的噪声和非线性等,所以要准确的诊断是困难的。而改进的支持向量机,能够去除噪声和孤立点,提高了分类的准确率,其优良特性表明本算法在医疗诊断中具有很大的应用潜力。

在对心脏病数据进行分类时,支持向量机算法相对于其他算法的优势主要表现在以下两个方面:

(1)支持向量机分类器通过求解一个凸二次规划得到,二次规划所得的解

是唯一的且为全局最优解,这样不存在局部极值问题;

(2)支持向量机分类器只由少数支持向量确定,且将非线性问题的求解转化为计算确定的核函数。

徐义田[13]等通过运用结构风险最小化原理和聚类原理,将支持向量机中有监督的分类算法与统计中无监督的聚类算法有机结合起来,对线性可分与线性不可分两种情况分别建立了无监督的分类模型。模型的求解转化为一个二次规划问题,同时此模型也适合于多分类情况。在应用到心脏病的医疗诊断中,准确率为88.5%,明显优于其他诊断方法。有文献[14]报道,利用心电图特征,如各个波形的问期、幅值等信息作为分类依据,采用支持向量机和高阶统计量的方法对心律异常的心拍进行分类。苏枫[15]等通过采用支持向量机SVM 和Adaboost 分类算法,设计高精度的分类模型和分期模型,发现结合Adaboost 和SVM 两种机器学习模型,能为心力衰竭的诊断及分期提供较准确的模型。费胜巍[16]针对SVM 参数选取困难的难题,提出基于PSO的SVM参数优化方法,提出了基于PSO-SVM的心律失常诊断方法,通过PSO优化的SVM分类器具有较高的分类精度,并通过诊断实例证明了其可行性和正确性。

本研究通过检测80例先天性心脏病患者与80例健康对照者的cTnI、hs-CRP、BNP、Lp(a)水平,结果表明病例组的cTnI、hs-CRP、BNP、Lp(a)水平显著高于对照组,差异具有统计学意义。以cTnI、hs-CRP、BNP、Lp(a)四个血清指标建立的支持向量机先天性心脏病诊断模型,经测试结果准确率为85%,同徐义田[13]等报道研究一致。

2.2 支持向量机在结直肠癌中的应用

针对当前医疗领域数据挖掘中分类方法效率低以及分类准确率低等问题,以特征基因选择为主要研究内容,以有效提高基因表达谱分类方法准确性为目标,研究基因表达数据的数据挖掘方法,为肿瘤识别及基因表达数据特征分类提供技术支持,对致病基因与癌症关系的正确理解、肿瘤特征基因的选择和分类,具有重要的理论意义和临床应用价值。

大肠癌是发病率最高的恶性肿瘤之一,早期大肠癌手术后的5年存活率超过90%,晚期癌手术后则低于10%,建立有效的大肠癌筛查与早期诊断方法,以实现早期治疗成为提高患者生存率的关键[17]。Furey等[18]以结肠癌为研究对象,通

相关文档
最新文档