19398-数学建模-DNA序列分类模型
DNA序列的分类模型

20
数 学 的 实 践 与 认 识
31 卷
对于这样的一个复杂的分类问题, 需要考虑的因素很多, 也是就说, 可供我们使用的分 类特征有许多. 如何从众多的因素中提取分类的主要因素, 是我们处理这个问题的困难之 处 . 上面的第一个条件是我们的分类方法所必须满足的, 可以看作是个限制条件; 而第二个 条件是我们在设计分类方法时必须考虑到的, 可以看作是对分类方法优劣的一种衡量, 是 某种意义下的目标函数.
3 分类的标准及评价
首先, 我们提取的特征应该满足以下两个条件: ( 1) 所取特征必须可以标志 A 组和 B 组 . 也就是说, 我们利用这些特征应该可以很好 的区分已经标示分类的 20 个序列. 这是比较显然的一个理由 . ( 2) 所取特征必须是有一定的实际意义的 . 这一点是决不能被忽视的 . 比如, 如果不考 虑模型的实际意义, 我们就可以以序列的开头字母为分类标准: 已知在 B 类中的十个序列 都是以 g t 开始的, 而已知在 A 类中 10 个序列没有以 g t 开始的, 甚至以 g 开始的都没有. 显然这是满足上面的第一个条件的. 如果仅因此就认为这种特征是主要的, 并简单的利用 这个特征将所有待分类的序列分成两类, 显然是不甚合理的 .
10 10
为归一化后的向量. 为此, 我们计算内积和 ∑C A i 与∑C
i= 1 i= 1
B i , 其中内积定义为欧氏度
量引导出的内积 ( c1 , c2 , c3 , c4 ). ( a 1 , a 2 , a 3 , a 4 ) = c1 a 1 + c2 a 2 + c3 a 3 + c4 a 4. 即 ( P A , P G , P T , P C ) A ( P A , P G , P T , P C ) 未知 内积 = A 未知 内积小的两个序列, 我们可以认为它们的相关性小, 而内积大的序列, 我们就认为其相
DNA序列的分类模型

11.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatt tatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatattt att 12.gtttaattactttatcatttaatttaggttttaattttaaatttaatttaggt aagatgaatttggttttttttaaggtagttatttaattatcgttaaggaaagtt aaa 13.gtattacaggcagaccttatttaggttattattattatttggatttttttttt ttttttttttaagttaaccgaattattttctttaaagacgttacttaatgtcaat gc 14.gttagtcttttttagattaaattattagattatgcagtttttttacataaga aaatttttttttcggagttcatattctaatctgtctttattaaatcttagagata tta 15.gtattatatttttttatttttattattttagaatataatttgaggtatgtgttt aaaaaaaatttttttttttttttttttttttttttttttaaaatttataaatttaa
16.gttatttttaaatttaattttaattttaaaatacaaaatttttactttctaaaatt ggtctctggatcgataatgtaaacttattgaatctatagaattacattattgat 17.gtatgtctatttcacggaagaatgcaccactatatgatttgaaattatcta tggctaaaaaccctcagtaaaatcaatccctaaacccttaaaaaacggcg gcctatccc 18.gttaattatttattccttacgggcaattaattatttattacggttttatttaca attttttttttttgtcctatagagaaattacttacaaaacgttattttacatactt 19.gttacattatttattattatccgttatcgataattttttacctcttttttcgctga gtttttattcttactttttttcttctttatataggatctcatttaatatcttaa 20.gtatttaactctctttactttttttttcactctctacattttcatcttctaaaact gtttgatttaaacttttgtttctttaaggattttttttacttatcctctgttat
2000年全国大学生数学建模大赛A题各类优秀论文简介

DNA序列的分类模型汤诗杰,周亮,王晓玲,孙广中本文针对 DNA序列分类这个实际问题 ,提出了相应的数学模型 .为了很好的体现 DNA序列的局部性和全局性的特征 ,我们给出了衡量分类方法优劣的标准 ,即在满足一定限制条件的情况下 ,是否能充分反映序列的各方面特性 .依据我们提出的判别标准 ,单一标准的分类是无法满足要求的 .我们的方法是侧重点不同的三种方法的综合集成 .这三种方法分别体现了序列中元素出现的概率 ,序列中元素出现的周期性 ,序列所带有的信息含量 .利用这个方法 ,完成了对未知类型的人工序列及自然序列的分类工作 .最后 ,对分类模型的优缺点进行了分析 ,并就模型的推广作了讨论DNA序列的分类模型.pdf (230.27 KB)关于DNA序列分类问题的模型冯涛,康喆雯,韩小军,贺明峰本文提出了一种将人工神经元网络用于 DNA分类的方法 .作者首先应用概率统计的方法对 2 0个已知类别的人工 DNA序列进行特征提取 ,形成 DNA序列的特征向量 ,并将之作为样本输入 BP神经网络进行学习 .作者应用了 MATLAB软件包中的 Neural Network Toolbox(神经网络工具箱 )中的反向传播( Backpropagation BP)算法来训练神经网络 .在本文中 ,作者构造了两个三层BP神经网络 ,将提取的 DNA特征向量集作为样本分别输入这两个网络进行学习 .通过训练后 ,将 2 0个未分类的人工序列样本和 1 82个自然序列样本提取特征形成特征向量并输入两个网络进行分类 .结果表明 :本文中提出的分类方法能够以很高的正确率和精度对 DNA序列进行分类 ,将人工神经元网络用于DNA序列分类是完全可行的关于DNA序列分类问题的模型.pdf (359.1 KB)DNA分类模型杨健,王驰,杨勇,王鸣本模型充分利用了所给数据的特点 ,运用统计、最优化等数学方法 ,从已知样本序列中提炼出能较好代表两类特征的关键字符串 ,据此提出量化的分类标准 ,能较好的对任给 DNA序列进行分类 .首先 ,从已知样本序列中用广度优先法选出所有重复出现的字符串 ,并计算其标准化频率及分散度 .然后 ,利用样本数据结合最小二乘法确定两类字符串各自的优先级函数 ,并且逐步优化其参数使之达到稳定 ,提高了可信度 .最后 ,根据优先级函数找出关键词 ,然后确定权数 ,用层次分析法对未知样本进行分类 ,并定出显著水平 ,从而得到了一个比较通用的分类方法 .经过检验 ,此方法对 2 1— 4 0号待测样本进行了很好的分类 ,对后面的1 82个 DNA序列进行同样的操作 ,也有较好的效果DNA分类模型.pdf (382.26 KB)DNA序列的分类韩轶平,余杭,刘威,杨启帆本文对 A题中给出的 DNA序列分类问题进行了讨论 .从“不同序列中碱基含量不同”入手建立了欧氏距离判别模型 ,马氏距离判别模型以及 Fisher准则判定模型 ;又从“不同序列中碱基位置不同”入手建立了利用序列相关知识的相关度分类判别算法 ,并进一步研究了带反馈的相关度分类判别算法 .对于题中所给的待分类的人工序列和自然序列 ,本文都一一作了分类 .接着 ,本文又对其它各种常见的分类算法进行了讨论 ,并着重从分类算法的稳定性上对几种方法作了比较 .DNA序列的分类.pdf (219.79 KB)DNA序列分类的数学模型吕金翅,马小龙,曹芳,陶大程本文从三个不同的角度分别论述了如何对 DNA序列进行分类的问题 ,依据这三个角度分别建立了三类模型 .首先 ,从生物学背景和几何对称观点出发 ,建立了 DNA序列的三维空间曲线的表达形式 .建立了初步数学模型 -积分模型 ,并且通过模型函数计算得到了 1到 2 0号 DNA序列的分类结果 ,发现与题目所给分类结果相同 ,然后我们又对后 2 0个 DNA序列进行了分类 .然后 ,从人工神经网络的角度出发 ,得到了第二类数学模型 -人工神经网络模型 .并且选择了三种适用于模式分类的基本网络 ,即感知机模型 ,多层感知机 ( BP网络 )模型以及 LVQ矢量量化学习器 ,同时就本问题提出了对 BP网络的改进 (改进型多层感知机 ) ,最后采用多种训练方案 ,均得到了较理想的分类结果 .同时也发现了通过人工神经网络的方法得到的分类结果与积分模型得到的分类结果是相同的 (前四十个 ) .最后 ,我们对碱基赋予几何意义 :A.C.G.T分别表示右 .下 .左 .上 .用 DNA序列控制平面上点的移动 ,每个序列得到一个游动曲线 ,提取游动方向趋势作为特征 ,建立起了模型函数 ,同时也得到了后二十个 DNA 序列的分类结果 ...DNA序列分类的数学模型.pdf (387.46 KB)DNA序列中的结构与简化模型孟大志本文简述 2 0 0 0年全国大学生数学建模竞赛 A题的科学研究背景 ,以及题目的立意和设计 .进而对解答 A题的大学生们的出色方法进行介绍与评述DNA序列中的结构与简化模型.pdf (211.8 KB)。
DNA序列的分类模型

2000年论文选附2001年全国大学生数学建模竞赛题目(本科组)全部题目(包括数据)可以从以下网址下载:/mcm 网易教育频道A题血管的三维重建·断面可用于了解生物组织、器官等的形态。
例如,将样本染色后切成厚约如m的切片,在显微镜下观察该横断面的组织形态结构。
如果用切片机连续不断地将样本切成数十、成百的平行切片,可依次逐片观察。
根据拍照并采样得到的平行切片数字图象,运用计算机可重建组织、器官等准确的三维形态。
假设某些血管可视为一类特殊的管道,该管道的表面是由球心沿着某一曲线(称为中轴线)的球滚动包络而成。
例如圆柱就是这样一种管道,其中轴线为直线,由半径固定的球滚动包络形成。
现有某管道的相继100张平行切片图象,记录了管道与切片的交。
图象文件名依次为0.bmp、1.bmp、…、99.bmp,格式均为BMP,宽、高均为512个象素(pixel)。
为简化起见,假设:管道中轴线与每张切片有且只有一个交点;球半径固定;切片间距及图象象素的尺寸均为1。
取坐标系的Z轴垂直于切片,第1张切片为平面Z=0,第100张切片为平面Z=99。
Z=Z 切片图象中象素的坐标依它们在文件中出现的前后次序为(—256,—256,Z),(—256,—255,Z),…(—256,255,Z)(—255,—256,Z),(—255,—255,Z),…(—255,255,Z)……(255,—256,Z),(255,—255,Z),…(255,255,Z)。
试计算管道的中轴线与半径,给出具体的算法,并绘制中轴线在XY、YZ、ZX平面的投影图。
下面是100张平行切片图象中的6张,全部图象请从网上下载。
关于BMP图象格式可参考:1.《VisualC+ +数字图象处理》第12页2.3.1节。
何斌等编著,人民邮电出版社,2001年4月。
2.http:///home/mxr/gfx/2d/BMP.txtB题公交车调度公共交通是城市交通的重要组成部分,作好公交车的调度对于完善城市交通环境、改进市民出行状况、提高公交公司的经济和社会效益,都具有重要意义。
DNA序列研究数学建模问题

题目 DNA 序列摘要本文主要研究DNA 序列的结构问题,通过建立相应的数学模型,对DNA 序列中所隐藏的规律进行研究和分析,给出了解决问题的最优方案,并且对模型进行了评价和推广。
对于问题一,为了挖掘DNA 序列的特征将其分为A 类和B 类,以20种基本氨基酸为目标,利用Matlab 软件编程得出每一行每一种氨基酸出现的概率;再运用主成分分析法进行降维,利用SPSS 软件进行数据处理得到矩阵;然后再将模糊聚类问题转化为如下优化问题:2111min (,)(())..1(1,2,6)01n cq ik ik k i cik i ik J U V u d s t u k u ======≤≤∑∑∑用模糊聚类分析方法来获取样本与聚类中心的加权距离最小的最佳分类,使其分题一相同的方法进行分类,分类结果见问题二的求解。
总的来说,本模型在未知数据特征的情况下很好的将数据进行分类,成功地解决了此次数学建模的DNA 序列问题,是聚类分析问题的一个有效而且具有较强实用性的方法。
关键词:主成分分析 模糊聚类分析 Matlab 软件 Spss 软件一、问题重述1.1背景分析随着DNA测序时代的到来,越来越多生物的全基因组序列正逐渐展现于人们的眼前。
如何从中挖掘有用的信息成为对当今生物学乃至整个科学领域的一个挑战。
本文主要致力于对DNA序列结构以及序列中所隐藏规律的研究。
1.2问题重述2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。
这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。
破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。
在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。
DNA序列问题模型详解

2015年芜湖三校数学建模竞赛题目 DNA序列问题模型摘要DNA 序列是由A,T,G,C 四个表示4 种碱基的字符组成的序列。
本文研究DNA 序列的结构找出序列间的差异和对八个物种的DNA序列进行分类。
对于问题一首先对数据运用数理统计方法对数据进行计算,得到八个物种的DNA序列的碱基的丰度、碱基的重复出现情况、碱基之间的相邻情况、不同碱基的丰度之比的四个特征,通过对这四个特征作出相应的散点图比较得出八个物种的DNA序列间的差异:Human 、Opossum、 Lemur 、Rat等4种DNA序列的长度相同,其他四种DNA序列的长度各不相同,每种DNA序列四种碱基的的重复情况也各不相同;G碱基的丰度相对于本序列的其他碱基的丰度都要高,碱基A的丰度在各个序列中丰度差不多,其他三种碱基在序列中波动性较大,差异性较大;8种DNA序列中GG、GT的相邻的状况比较明显;各个DNA序列中碱基丰度比f、GT f、CT f含量差不多且都含量比较高;其中,DNA序列中TA f、CA f、GCf含量差不多且都含量比较低。
GA对于问题二我们首先通过对问题一散点图的分析选取以碱基的丰度和碱基间的丰度之比为分类的指标,构建为分类的特征向量,但这些特征向量之间存在着一定的相关性,我们运用R型聚类选择出相关性程度差的特征向量为Q型聚类的指标。
通过Q型聚类我们将这8种DNA序列分为3种分类方式,通过利用means方法,检验各类别在所有变量上的差异,再利用单因素方差分析最终确定将8种DNA序列分为四类。
分类结果如下:第一类:Human 、Mouse;第二类:Goat、Rabbit;第三类:Opossum、 Lemur 、Rat ;第四类:Gallus。
关键词:数理统计;R型聚类;Q型聚类;means法;单因素方差分析法1 问题重述DNA 序列是由A,T,G,C 四个表示4 种碱基的字符组成的序列。
研究DNA 序列的结构及序列中隐藏的规律,成为生物信息学的重要研究课题。
DNA序列分类问答的数学模型
2010高教社杯全国大学生数学建模竞赛承诺书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。
如有违反竞赛规则的行为,我们将受到严肃处理。
我们参赛选择的题号是(从A/B/C/D中选择一项填写):我们的参赛报名号为(如果赛区设置报名号的话):所属学校(请填写完整的全名):许昌学院参赛队员(打印并签名) :1. 李淮周2. 赵媛媛3. 王会琪指导教师或指导教师组负责人(打印并签名):日期:年月日赛区评阅编号(由赛区组委会评阅前进行编号):2010高教社杯全国大学生数学建模竞赛编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):DNA序列分类问题的数学模型摘要本文首先把问题中的A,B两类DNA系列转换成氨基酸序列,运用系统聚类法,选出由20个不同的DNA序列转换成代表其信息的氨基酸序列。
然后,针对该序列进行特征提取和选择,从而把研究DNA序列的结构转换为分析氨基酸的频率问题。
以20种氨基酸、一个终止符、碱基A与B的含量和频率,作为22个初始特征,利用欧氏距离度量法,借助于计算机和最优法搜索确定出最有效的8个特征。
再采用Fisher判别法,对202个序列进行分类,其中对21~40号人工序列的分类如下:A类:22, 23, 25, 27, 29, 34, 35, 36, 37, 39;B类:21, 24, 26, 28, 33, 38, 40;不能分类的有30, 31, 32。
DNA序列分类
DNA序列分类摘要本文以题目的有关数据为资料,对如何对DNA序列分类进行研究,针对各个问题,我们分别建立了欧氏距离分类模型、马氏距离分类模型、Fisher分类模型多个数学模型,经过严密的理论论证,精确的计算,很好的解决了DNA序列归类的问题。
针对问题一,我们首先根据的相关知识/理论,建立了欧式距离模型模型。
为了解决DNA序列分类,我们运用统计、最优化、特征值提取等数学方法,从已知样本序列中提炼出能较好代表两类特征的关键字符串,我们可以得到量化的分类标准,对所给的DNA序列进行分类。
在问题二中,我们同样采用了问题一中的三种模型,进行检验。
在求解的过程中,我们在数据的处理上不可避免的存在不少误差,我们通过探讨研究,给出了误差分析,分析了其中的误差产生的来源,尽量避免由于误差所造成求解的错误,进而得出了一个较好的方案。
我们还对模型进行改进,通过多个模型的比较,使得模型更加合理,更加切合实际。
从而较好的解决了对各种DNA序列的分类。
关键词:序列分类;特征分析;分类模型;最优分类一、问题的重述㈠背景知识1、DNA序列的概况从2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。
2、DNA序列排列原理DNA序列是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,在DNA全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。
又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。
此外,利用统计的方法还发现序列的某些片段之间具有相关性。
㈡问题作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:1)下面有20个已知类别的人工制造的序列(见下页),其中序列标号1—10 为A类,11-20为B类。
DNA序列分类模型
DNA序列分类模型
刘丽
【期刊名称】《重庆通信学院学报》
【年(卷),期】2005(32)3
【摘要】本文对2000年全国大学生数学建模竞赛A题DNA序列分类给出了高达92.73%的分类方法,方法简明有效,可作为这一问题的经典解法.
【总页数】4页(P393-396)
【作者】刘丽
【作者单位】合肥工业大学理学院
【正文语种】中文
【中图分类】O29
【相关文献】
1.DNA序列判别分类模型 [J], 王显金;阳军
2.DNA序列判别分类模型 [J], 王显金;阳军
3.基于隐马尔科夫模型的DNA序列分类方法 [J], 郭彦明;陈黎飞;郭躬德
4.基于模糊聚类算法的DNA序列分类模型 [J], 韦相
5.应用LDA模型的DNA序列分类方法 [J], 冯超
因版权原因,仅展示原文概要,查看原文内容请购买。
DNA序列分类的数学模型
第31卷第1期2001年1月数学的实践与认识M AT HEM A TICS IN PRACTICE A ND T HEORYV ol.31 N o.1 Jan.2001 DNA序列分类的数学模型吕金翅, 马小龙, 曹 芳指导老师: 陶大程(中国科学技术大学,合肥 230026)编者按: 本文能从生物学背景提出不同的三种判别模型.建模的分析和文字叙述条理清楚,模型一对21—40和182样本均进行了分类,分类正确率较高.摘要: 本文从三个不同的角度分别论述了如何对DNA序列进行分类的问题,依据这三个角度分别建立了三类模型.首先,从生物学背景和几何对称观点出发,建立了DNA序列的三维空间曲线的表达形式.建立了初步数学模型-积分模型,并且通过模型函数计算得到了1到20号DNA序列的分类结果,发现与题目所给分类结果相同,然后我们又对后20个DNA序列进行了分类.然后,从人工神经网络的角度出发,得到了第二类数学模型-人工神经网络模型.并且选择了三种适用于模式分类的基本网络,即感知机模型,多层感知机(BP网络)模型以及LVQ矢量量化学习器,同时就本问题提出了对BP网络的改进(改进型多层感知机),最后采用多种训练方案,均得到了较理想的分类结果.同时也发现了通过人工神经网络的方法得到的分类结果与积分模型得到的分类结果是相同的(前四十个).最后,我们对碱基赋予几何意义:A.C.G.T分别表示右.下.左.上.用DNA序列控制平面上点的移动,每个序列得到一个游动曲线,提取游动方向趋势作为特征,建立起了模型函数,同时也得到了后二十个DNA序列的分类结果,而且发现结果与上述两个模型所得到的分类结果几乎相同(其中有一个不同,在本模型中表示为不可分的).此模型保留的信息量更多,而且稳定性更强.1 问题的重述(略)2 基本假设及模型建立:第一类数学模型:积分模型DNA序列是一种用4种字母符号(A、T、G、C)表达的一维链.在这条链上不仅包含有制造人类全部蛋白质的信息(也就是基因),还有按照特定的时空模式把这些蛋白质装配成生物体的四维调控信息(三维空间和一维时间),找到这些信息的编码方式和调节规律是人类基因组研究的首要科学问题.下面我们首先将着手从几何学的角度来分析DNA序列.鉴于自然界对称这一朴素原理,我们的模型始于对4种碱基对称性的考察.图1.1(略)从纯化学的角度,我们可以将碱基进行两类划分:(1)按双环或单环结构,可分为:嘌呤碱基R(A 或G)与嘧啶碱基Y(C或T)(2)按环中对应位置上是否存在氨基或酮基,可分为:氨基碱基M(A或C)与酮基碱基K(G或T)从生物学的角度,在双螺旋结构中,按碱基对形成氢键的数目或强弱,碱基又可分:强氢键碱基S(G或C)与弱氢键碱基W(A或T),这一种划分既包含了化学的也包含了DNA双螺旋的结构信息在内.参照基本粒子理论中的做法,我们利用三维Euclid空间中的对称几何图形——立方体G来表示碱基的上述三种对称性.如图1.2所示,以G的中心为坐标原点建立三维直角坐标系,使G 的三组对面分别与三条坐标轴相垂直.分别与X ,Y ,Z 轴相交的G 的三组对面称为嘧啶/嘌呤面,酮基/氨基面,弱氢键/强氢键面.在G 的六个面中各引一条对角线,使相对面的对角线两两相互垂直,如图1.2所示.在嘌呤面对角线的两端分别标上A 和G ;在嘧啶面对角线的两端分别标上C 和T ,如图1.2所示.显然,此时上述碱基的三种对称关系全部自动成立.而且,六条对角线刚好是正四面体ACGT 的六条棱.图1.2 用立方体表示碱基的三种对称性现在考察一个长为L 的单链DNA 序列,阅读方向不限.从第一个碱基开始,依次考察此序列,每次只考察一个碱基.当考察到第n 个碱基时(n =1,2,…,L ),统计一下从1到n 这个子序列中四种碱基各自出现的次数,并以A n 、C n 、G n 、T n 分别表示4种碱基A 、C 、G 、T 出现的次数,如图1.3所示.显然它们都是非负整数.根据正四面体的对称性我们可以证明,正四面体内存在唯一的一个点P n 与这四个非负整数一一对应.在图1.3所示建立的坐标系之下,点P n 的坐标可用四个非负整数来表达. X n =2(A n +G n )-n ,Y n =2(A n +C n )-n ,Z n =2(A n +Tn )-n ,X n ,Y n ,Z n ∈[-n ,n ],n =1,2,…,L ;其中X n ,Y n 和Z n 为点P n 的三个坐标分量.当n 从1到L 时,我们依次得到P 1,P 2,…,P L 共L 个点.将相邻两点用适当的曲线连接所得到的整条曲线,就成为表示此DNA 序列的P -曲线.可以证明,P -曲线与所表示的DNA 序列是一一对应的,也就是说,给定一定DNA 序列,存在唯一的一条P -曲线与之对应;反之,给定一条P -曲线,可以找到唯一的一个DNA 序列与之对应.换言之,P -曲线很大程度上包含了DNA 序列的内蕴信息.P -曲线471期吕金翅等:DN A 序列分类的数学模型48数 学 的 实 践 与 认 识31卷图1.3 D NA序列示意图是与符号DNA序列等价的另一种几何表现形式.我们的核心想法就是通过对P-曲线的研究来挖掘DNA序列的内蕴信息.P-曲线的三个分量都具有明确的生物学意义:X n表示嘌呤/嘧啶碱基沿序列的分布.当从1到n这个子序列中嘌呤碱基多于嘧啶碱基时,X n>0;否则X n<0;当两者相等时X n =0.同样,Y n表示氨基/酮基碱基沿序列的分布.当在子序列中氨基碱基多于酮基碱基时, Y n>0;否则,Y n<0;当两者相等时Y n=0.Z n表示强/弱氢键碱基沿序列的分布.当弱氢键碱基多于强氢键碱基时,Z n>0;否则,Z n<0;当两者相等时Z n=0.由概率论中的结论:如果任何一种分布均不能由其他两种分布的线性叠加表示出来,则这三种分布是相互独立的.给定的DNA序列唯一的决定了这三种分布;这三种分布唯一的描述了DNA序列.我们对P n的三个坐标分量分别积分,发现Y n、Z n两个方向上并没有什么区别,而在X n 方向上,A组均大于零,B组均小于零.f(t)=∫L0X n(t)d t这表明在整个序列上不同结构的碱基对所占的成分,即A组嘌呤的含量较大,B组嘧啶的含量较大.以“X方向分量大于/小于零”为标准对给出的序列21~40进行分类,得到如下结果: A类:2,3,5,7,9,14,15,17,19;B类:1,4,6,8,10,11,12,13,16,18,20第二类数学模型:神经网络模型由于神经网络具有运用已知认识新信息,解决新问题,学习新方法,预见新趋势,创造新思维的能力,所以我们将神经网络处理问题的方法介入进来,处理模式分类的问题.在本题中,采用如下几种方案:1.单层感知机; 2.双层感知机; 3.改进型双层感知机.4.LVQ矢量量化学习对于每种算法我们又采用了三种统计方案,即:1.统计a c g t在DNA序列中出现的次数(共有4种)2.统计a c g t的两两组合在DNA序列中出现的次数(共有42种不同的组合)3.统计a c g t的三三组合在DNA序列中出现的次数(共有43种不同的组合)所以总共可以得到12种模式分类模型.下面给出详细讨论,但只列出12种方案中的四种,因为剩下八种只是在统计方案上有所不同,其训练实质和学习实质以及最后的模拟实质是相同的,所以不需要一一罗列.第一方案(单层感知机)1.综述:单层感知机是一个具有单层计算神经元的神经网络,并由线形域值单元组成.原始的Perceptron 算法只有一个输出节点,它相当于单个神经元.当它用于两类模式的分类时,相当于在高维样本空间中,用一个超平面将两类样本分开. F.Rosenblatt 也已证明,如果两类模式是线形可分的(指存在一个超平面将它们分开),则算法一定收敛.感知器特别适用于简单的模式分类问题,也可用于基于模式分类的学习控制和多模态控制中.2.修正方案:首先分析问题实质,即采用一个单一神经元解决简单分类问题:将n 个输入矢量分为两类,其中一部分为1,另一部分为0.最后确定网络结构(图1.4):图1.43.训练算法:(采用单层感知机的经典算法,这里略去)判定网络收敛的标准有两种:一是平均平方误差,二是误差平方和.这里采用第二种.学习结束后的网络将学习样本模式以连接权的形式分布记忆下来.当给网络提供一输入模式时,网络将按上式计算出输出值y k ,并可根据y k 为1或0判断出这一输入模式属于记忆中的哪一种模式.4.训练和模拟结果:a)从20个已知结果的DNA 序列中随机选取不同的4个序列(向量)进行训练,再对20个序列(向量)进行重新模拟,其正确率为90%,发现出错的原因在于,第4个和第17个序列在这几种统计方式下具有相似性.b)每次从20个已知结果的DNA 序列中随机选取不同的4个序列(向量)进行训练,共进行两次,再对20个序列(向量)进行重新模拟,其正确率为95%,依然发现出错的原因在于,第4个和第17个序列在这几种统计方式下具有相似性.c)每次从20个已知结果的DNA 序列中随机选取不同的4个序列(向量)进行训练,共进行三次,再对20个序列(向量)进行重新模拟,其正确率为95%,依然发现出错的原因在于,第4个和第17个序列在这几种统计方式下具有相似性.5.结论:数据为线性不可分的,所以单层网络不能实现完全识别.6.优缺点分析:以上采用的是单个神经元的网络进行分类,其优点是运算速度快,但模式分类正确率较低.第二方案(双层感知机,即BP 网络)1.综述:BP 神经网络,由于含有隐藏层,所以可实现非线性分类.BP 算法属于 算法,491期吕金翅等:DN A 序列分类的数学模型是一种监督式的学习算法.2.算法推导:(略)3.网络结构(图1.5):图1.54.训练算法:由于其训练过程与学习过程相似,所以这里不再赘述.5.训练和模拟结果:与第一方案相似,只是分类正确率有所提高.7.结论:本题所给数据是线性不可分的,而且通过简单的模式分类也很难行得通,所以即使用多(双)层网络也难以实现完全识别.8.优缺点分析:以上采用的是多个神经元的带有一个隐藏层的网络进行分类,其优点是运算速度较快,且模式分类正确率较高,但依然存在不可完全识别的问题.第三方案(改进型双层感知机)1.综述:为了改进上述算法的不可完全识别的缺点,现在对网络进行改进,其目的是使网络可以对所有向量进行正确的分类.2.改进的方案:以提取更多的1分类信息为原网络结构与BP 神经网络相似,但随机感知机层的响应函数采用sigmo id 函数.3.训练算法:采用与BP 网络相同的训练算法.4.训练和模拟结果:(分类正确率有所提高,这里略去)5.结论:数据是线性不可分的,而且通过简单的模式分类也很难行的通,所以只是简单改进网络结构,是很难实现完全识别的.所以下面将采用其它方法(LVQ 矢量量化学习)进行模式识别.6.优缺点分析:以上采用的是改进型多个神经元的带有一个隐藏层的网络(也就是改进型BP 神经网络)进行分类,其优点是运算速度较快,且模式分类正确率较高,但依然存在不可完全识别的问题.第四方案(LVQ 学习向量量化)1.综述:学习向量量化(LVQ)是在监督状态下对竞争层进行训练的一种学习算法.竞争层将自动学习对输入向量进行分类,这种分类的结果仅仅依赖于输入向量之间的距离.如果两个输入向量之间特别相近,竞争层就把他们分在同一类.50数 学 的 实 践 与 认 识31卷2.训练算法:(采用经典算法这里略去)3.训练和模拟结果:(分类正确率有所提高,这里略去)4.要想从网络角度和学习算法上调整,使得对已有的数据进行正确分类,必须进行大规模学习,但是如果对所有的样本进行训练再检策网络分类能力,其可信服程度就大大降低了.所以最后将采用改进网络输入的办法,即结合生物学结论.5.优缺点分析:可靠性较高,但算法复杂度较大.第五方案:仅从神经网络结构上的角度考虑,我们发现很难找到一个很好的网络,所以将结合生物学重建神经网络.引用生物学的结论,我们将输入模式变为100*4,其中4表示从20个已知样本中随机抽取4个样本.100表示(A +G )含量的输入序列.采用BP 神经网络结构.训练方案采用方案二中的误差逆传播算法.训练和模拟结果:a)从20个已知结果的DNA 序列中随机选取不同的4个向量进行训练,再对20个向量进行重新模拟,其正确率为95%(较单层感知机有所改进,但与BP 网络和LVQ 向量量化学习是相同的),发现出错的原因是由于学习不充分造成的.其本质是第4组数据和第17组数据可分性不好,所以反应到网络上其可学习性又较大;但如果学习不足,则会导制误判,所以应加大学习力度.b )每次从20个已知结果的DNA 序列中随机选取不同的4个向量进行训练,共进行两次,在对20个向量进行重新模拟,其正确率为100%.这次的结果充分说明了上述问题.结论:目前的方法已很好的解决了分类的问题,所以如果加大训练力度可以对其它数据进行正确率更高的分类.我们对网络进行了100次随机抽取,每次抽取的结果均进行训练,最后对40个数据进行模拟,发现前20个数的输出完全正确,而且发现误差曲线也是十分好的,所以有理由认为这个结论的正确性.模拟结果序列21~40为:A 类:22,23,25,27,29,34,35,37,39;B 类:21,24,26,28,30,31,32,33,36,38,40第三类数学模型:二维随机游动模型以四种碱基分别代表复平面上四个不同的方向,顺序读取DN A 序列,得到一条由原点出发的每次向相应方向移动单位长度的轨迹.发现曲线明显地向两个相反的方向收敛(图1.6)(略).我们依此建立如下的数学模型:设DNA 序列长为L ,记A n ,G n ,C n ,T n 为1到n 这个子序列中碱基A ,G ,C ,T 所出现的次数,令P n 为复平面上的点,且P n =A n +G n i -T n -C n =(A n -T n )+i (G n -C n )=r n e i n ,其中r n =(A n -T n )2+(G n -C n )2, n =A rgP n , =1L ∑Lk =1 K 假设n =0时,A n =G n =C n =T n =0,当n 从0到L 时,在复平面上便得到了L +1个点,并且得到了从原点出发的一条游动轨迹.鉴于幅角信息的突出重要地位,我们依此对DNA 序列进行分类,为了避免那种螺旋轨511期吕金翅等:DN A 序列分类的数学模型迹我们假设DNA 序列可分类,当且仅当 p ∈N ,s.t.当n >p 时∑n i =1i 保持定号.模型一:对20个参数已知的DNA 序列,分别求出其相应的游动方程P n =(A n -T n )+i (G n -C n ),设 ij ,k 为第i 类第j 个DNA 序列的Arg P K i j=1L ∑L k =1 i j ,k ,j =1,2,…,10,i =1,2.在每一类中求出 i min =m in 1≤j ≤10 i j , i max =m ax 1≤j ≤10i j ,从而得到每个类的辐角特征区间[ i min , i max ].如果[ 1min , 1max ]∩[ 2min , 2max ]= ,则对任意DNA 序列,若可分类,则满足 ∈[ i min , i max ]的属于第i 类;否则,不可分类.显然,这时存在着不可分类的情形,这主要是由于我们从DNA 序列样本中提取了两类游动在辐角上的趋势信息并将作为我们进行分类的标准.这一点,在模型二中得到了改进.而实际上L 总有限,前面关于可分类的假设是基于对游动辐角变化总体趋势的一种控制,对于有限而言,对此也有刻画即 p ∈N s.t.当n >p ,辐角保持后续信息.模型二、上面模型一提取了DNA 序列的最本质的辅角特征,这里我们假设各类的DNA 序列的 在如下变换后满足正态分布.首先辐角值可以与复平面中的圆周上的点建立自然的对应关系,并且圆周挖去一点之后同胚于实直线,为方便起见,投影后的点仍用原来的字母表示,从{ i j ∶1≤j ≤10}可得均值 i 和方差 i 及在第i 类的概率密度函数为p i ( )=12ie -( - i )2.任给一个DNA 序列, 它属于第i 类的概率:P i ( )=lim →0+∫ + - p i ( )d ∫+ - [p 1( )+p 2( )]d =p i ( )p 1( )+p 2( )以概率0.5为阀值,如p i ( )〉0.5,则属于第i 类.下面再用区间估计法给出结果在统计意义上的可信度,设n 个相互独立的样本X i ~N (a , 2),i =1,2,…,n ,令Z =(X 1+X 2+…+X n )/n ,则Y =(Z -a )/( 2/n )1/2~N (0,1),但 2未知,必须先把它估计出来,用Sn 2=[(X 1-Z )2+(X 2-Z )2+…+(X n -Z )2]/(n -1)代替 2,(Z -a )/(Sn 2/n )1/2=(Z -a )( 2/n )-1/2/(Sn 2/ 2)1/2=Y /(S n 2/ 2)1/2,因Y ~N (0,1),(S n 2/ 2)1/2={[(X 1-Z )/ ]2+[(X 2-Z )/ ]2+…+[(X n -Z )/ ]2}/(n -1)~ 2(n -1),因而t =(Z -a )/(S n 2/n )1/2~t (n -1),这里要求Y 与(Sn 2/ 2)1/2相互独立.于是给定 后,查表t (n -1)可得t *,使得P r ( t ≤t *)=1- ,即P r ( Z -a /(S n 2/n )1/2≤t *)=1-,从而我们便得到了a 的1- 水平上的置信区间为[Z -t *S n /n 1/2,Z +t *S n /n 1/2].现在共有10个已知样本点X 1,X 2,…,X 10,为了保证Y 与(Sn 2/ 2)1/2相互独立,现将这10个样本点等分成两组这样便得到Z =(X 1+X 2+…+X 5)/5,Z ′=(X 6+X 7+…+X 10)/5,Y =(Z -a )/( 2/5)1/2,S 52=[(X 6-Z ′)2+(X 7-Z ′)2+…+(X 10-Z ′)2]/(5-1),t =(Z -a )/(S 52/5)1/2,依前所述给定 ,我们可得a 的1- 水平上的置信区间为[Z -t *S 5/51/2,Z +t *S 5/51/2].由该模型可以看出曲线的趋向正代表着序列中所含对应元素的整体含量和分布.当基因序列中所含的非特征随机信息较多时,会导致游动曲线螺旋摇摆情形,从而导致前进距离52数 学 的 实 践 与 认 识31卷变短,但是由随机信号在各方向上的平均性,总体前进方向并未受到影响,故我们只提取方向而忽略距离作为特征信息.我们从不同角度,提取序列整体上和局部之间的特征,建立了以上三种数学模型.三种模型各有优劣,但他们在特征提取,模式识别和分类上的都具有一定的普适性和优越性.参考文献:[1] 郝柏林,刘寄星.理论物理与生命科学.上海科学技术出版社.[2] 金冬燕,金 奇,侯云德.核酸和蛋白质的化学合成与序列分析.科学出版社.The Mathematical Models on the Classificationof The DNA SequencesLU Jin-chi, M A Xiao-long , CA O Fang(T he U niver sity o f Science and T echnolog y o f China ,Hefei 230026)Abstract : T his paper deals w it h the pr oblem of ho w to classify t he D NA sequences fro m thr ee different ang les and acco rdingly est ablishes three kinds of mo dels.F irstly ,on t he point of bio lo gical backg ro und and g eomet rical symmetr y ,we established adescr iptiv e model o f 3-dimensional space cur ve on the DN A sequence ,by w hich we g ot a r udimentar y mathematical m odel-Calculus mo del.T hr oug h the integr ation o f the model funct ion,w e have acquir ed the classificatio n r esults o f t he DN A sequences fr om 1t o 20,and fo und t hem identical to the classificatio n results g iv en by the pro blem .T hen we classified t he latter 20DN A sequences.T hen,on the v iew of the ar tificial neur al netw o rks,a second model -T he A r tificial neur alnetw or ks model wa s est ablished.We cho sen t hr ee kinds o f basic netw or ks,w hich w ell fit into the classificatio n at last .And by the same tim e ,w e pro posed the impr o vement of the BP net wo rk ,and finally pro cur ed co mparatively ideal classificat ion r esults by va rio us training pro g rammes.also ,w e fo und the result s identical to what we hav e go t by Calculus mo del.By the end,we endow ed A ,C ,G ,T w ith g eomet rical m eaning :A indicates r ig ht,while C asdow n ,G as up ,T as left .We g o t a mo bile cur ve fr om each sequence w it h the po ints o f the plain mo ving acco rding t o the contr olling of the DN A sequence.By fo llow ing the feat ur e of the mov ing direction,t he m odel funct ion w as established.By the w ay w e acquir ed the classificatio n r esults o f the latter 20DN A sequences and fo und them pr actically identical to the r esults o f the two abov e mo dels (One of results differ ent ly sho wed in this mo del is r egar ded as indiv isible ).T his model contains mo re info rma tio n,and is mo re stable.531期吕金翅等:DN A 序列分类的数学模型。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
DNA序列分类模型陈荣生张海军张旭东指导教师:数模组海军航空工程学院摘要本文讨论了在给定A类和B类各10个DNA序列的情况下,如何找出判断DNA 序列类型的方法,并具体分析了DNA序列的局部特征,最后将总体特征与局部特征综合考虑。
文中我们先根据给出的已知类型的20组DNA序列,考虑了四个碱基及其组合形式出现的频率,以此为研究对象进行深入研究,并建立了两个数学模型,即信息熵模型和Z曲线模型,最后还给出了模型的改进方向。
本文采取的用Z曲线来研究DNA序列的方法很有意义。
一、问题的重述2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,DNA全序列是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号。
人们发现了DNA序列中的一些规律性和结构。
例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。
又例如,在不用于编码蛋白质的序列片段中,A 和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。
此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。
这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。
目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。
这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。
作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:1)下面有20个已知类别的人工制造的序列,其中序列标号1—10 为A类,11-20为B 类。
请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。
然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入):A类; B类。
请详细描述你的方法,给出计算程序。
如果你部分地使用了现成的分类方法,也要将方法名称准确注明。
2),用你的分类方法对182个自然DNA序列进行分类,像1)一样地给出分类结果。
二、问题的分析为了找出分类方法,我们可以省略细节,突出特征,以某种碱基出现的频率或以两种甚至三种碱基的组合出现的频率,或者以几种碱基出现的频率之和为依据来考虑。
现分别就A、B两组DNA序列针对以下20个方面做一些简单分析:1)A出现的频率;2)C出现的频率;3)G出现的频率;4)T出现的频率;5)AC组合出现的个数;6)AG组合出现的个数;7)AT组合出现的个数;图18)CA组合出现的个数;9)CG组合出现的个数;10)CT组合出现的个数;11)TA组合出现的个数;12)TC组合出现的个数;13)TG组合出现的个数;14)GA组合出现的个数;15)GC组合出现的个数;16)GT组合出现的个数;17)A和G出现的频率之和;18)AT组合和TA组合出现的个数之和;19)CG组合和GA组合出现的个数之和;20)T出现的频率与G出现的频率之比。
作出图象(其中,横坐标表示第几条DNA序列),找出差异。
在这20个图象当中,一部分能够看出A、B两组的显著差异;另一部分则很难辨别。
由于篇幅所限,我们不能把20个我们选取其中几个有代表性的图象如图所示图2(红色圆圈表示A组的有关情况,蓝色方框表示B组的有关情况):其中,图1是针对情况1)所做出的,效果不显著;图2是针对17)A和G出现的频率之和,图3是针对20)T出现的频率与G出现的频率之比所做出的,效果这种方法相对较直观,但是粗糙,这里就不详细讨论了。
下面我们从更深层次的角度去考虑显然问题要求我们分析DNA序列的特征,研究DNA序列的结构。
从而找出DNA序列的规律,判断出其类别。
我们的任务就是构造一个较好的分类函数,根据它能够将任意给定的DNA序列分类。
初步分析A,B类DNA序列图3分类。
初步分析A,B类DNA序列便可得出A,T,C,G四个碱基在DNA序列中的出现频率是不一样的,在A类中G碱基的出现频率明显要多于B类,而在B类中T碱基的出现频率明显多于A类,但是A碱基的出现频率却相差不大。
因此我们便从四个碱基的出现频率分布入手考虑。
三、模型的假设1:假设问题所给的已知A,B类人工DNA序列含有足够的特征信息相互区别,我们可据此对待测序列进行分类。
2:我们认为对于任意的一个DNA 序列,有可能不能按照A ,B 进行分类,即可能存在我们未知的类别。
3:同一类型的DNA 序列可以有不同的长度。
(即碱基的数目是不同的)4:一个DNA 序列可能包括显A 性的DNA 片段,也可能包括显B 性的DNA 片段。
四 符号的假设S :表示四个碱基在DNA 序列中出现频率的信息熵;)4,3,2,1(=i p i :单个碱基在DNA 序列中出现的频率;A S :表示A 类DNA 序列所含的信息熵;B S :表示B 类DNA 序列所含的信息熵;C S :表示C 类DNA 序列所含的信息熵;μ ,σ:分别表示正态分布的均值与均方差;∧μ,∧σ:分别表示由极大似然估计法求得的均值估计量与方差估计量;i ω:表示A 类中某一DNA 序列的信息熵的分布概率;n f i / : 表示事件A S 出现的频率;05.0z :表示正态分布的一个上α=0.05分位点;)(205.0n χ:表示)(2n χ分布的一个上α=0.05分位点; n A 、n C 、n G 、n T :分别表示a 、c 、g 、t 碱基在长为n 的DNA 序列中出现的次数; L :DNA 序列的长度,即所含碱基个数;),,(n n n n z y x P :正四面体中与DNA 序列唯一对应的点,n n n z y x ,, 为n P 点的三个分量。
Z 曲线:由),,(n n n n z y x P 与DNA 序列一一对应而构造的经过三次曲线拟和形成的连续曲线,它是二阶可微的;z y x ,, :分别对应于n n n z y x ,,的拟合曲线;s :Z 曲线中的横坐标,它表示DNA 序列的长度。
五、模型的建立1:模型一题目要求我们将任意给定的DNA 序列分类,而从信息论的角度考虑,假如能够将一些DNA 序列分成A ,B 类,则说明同类的DNA 序列应具有相同或相似特征和规律,也就是应具有相同或相似的信息特征,即信息量总和相差无几。
如果将四个碱基在DNA 序列中的出现频率作为信息特征,显然单个碱基在DNA 序列中的概率(将出现频率近似于概率)分布是独立的。
下面定义信息熵:i i i p p S 241log ∑=-=其中)4,3,2,1(=i p i 代表四种碱基在序列中出现的频率。
我们先求出在A 类和B 类的DNA 序列中的各个碱基的出现频率,然后便将其频率代入信息量函数,便可求出每一DNA 序列的信息总量。
通过编程计算得A 类的信息总量为A S =[ 8756.1 8770.1 7576.1 8347.1 8529.18129.1 8458.1 9247.1 8787.1 8739.1](程序一)下面我们用分布拟合检验法证明信息总量近似服从正态分布。
0H :假设信息总量近似服从正态分布;1H :假设信息总量服不从正态分布;令A S 的概率密度为222)(21)(σμσπ--=x e x f ∞<<∞-x 由极大似然估计得8534.1^=μ,=^σ057.0若0H 为真,则按上式查标准正态分布函数表可得概率i ω∴ ∑=-1012/)(i i i i n n f ωω=07.5因为 07.5592.12)1210(205.0>=--χ所以接受假设,在显著性水平为05.0下接受总体服从正态分布(参考文献[1])。
我们用正态总体均值区间估计的办法求出任意DNA 序列属于A 类或B 类的信息总量区间。
置信度为0.95的置信区间为)(025.0z n σμ±则A S 的置信区间为8119.1(,)8858.1(置信度为95.0)。
同样可得到B 类的信息熵B S 的置信区间为9223.1(,)9678.1。
这样我们可以根据上面两个置信区间来分类。
我们将4021-序列看成C 组,分类结果如下:C S =9711.18169.18628.19349.19457.19560.19283.18822.19555.19433.1[9566.1 ]9408.19632.18970.19306.19539.19260.18983.19622.19530.1 A 类:232829 B 类:2122242526273132333536373940用此模型区分201-序列得:A 类1 24567910B 类1113141517181920显然模型一是比较粗糙的,其分类的准确率较低,这是因为模型一的信息量函数没有考虑两个或三个碱基组合的信息特征,然而由于单个碱基在DNA 序列中的出现的频率与两个或三个碱基的组合形式出现频率并不是独立的,如A 碱基的出现频率与A T,ATT 碱基组合的出现频率就不是独立的,故用信息量函数难以描述出DNA 序列的全部信息特征。
2:模型二我们不妨将DNA 序列化为几何形式表示。
我们先观察4种碱基的对称性(如图4)。
按照双环或单环的结构划分,碱基可分为两类,即嘌呤与嘧啶。
可表示为碱基⎩⎨⎧==T C Y GA R 或嘧啶或嘌呤 同样,按环中对应位置上是否存在氨基或酮基来划分,碱基又可分为碱基⎩⎨⎧==T G K CA M 或酮基或氨基进而,在双螺旋结构中按碱基对形成氢键的数目或强弱,碱基还可分为碱基⎩⎨⎧==T A W CG S 或弱氢键或强氢参照基本粒子理论中的做法,我们利用某种对称的几何图形来表示碱基的上述对称性。
我们首先想到了正多面体。
现在考虑一正六面体,它的六个面按z y x ,,三个方向可划分为前后,左右和上下三对。
不失一般性地,将左右面分别称为嘧啶与嘌呤面;前后面分别称为酮基与氨基面;上下面分别为弱氢键与强氢键面(如图5)。
在此表示形式中嘌呤与嘧啶;氨基与酮基;强氢键与弱氢键两两相对。
在六面体中各引一条对角线,使相对面的对角线两两互相垂直(如图6),在任意一相对面的 图5 用正六面体表示碱基的对称性两条对角线的四个端点上,分别标上符合该面的碱基符号。
例如,在嘌呤面对角线的两端分别标上A 和G ;在嘧啶面的两端分别标上C 和T (如图6)。
此时前述全部碱基对称关系全部自动成立。
如上下面分别出现AT 和GC ,前后面分别出现GT 和AC,而六条对角线恰好构成正四面体ACGT 的六条棱。
现将这种序列表示法简述如下:考察一个长为L 的单股DNA 序列,方向不限。