基因组组装数学建模
2000年全国大学生数学建模竞赛A题 DNA序列分类

2000年全国大学生数学建模竞赛A题DNA序列分类2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。
这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。
破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。
在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。
虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。
例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。
又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。
此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。
这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。
目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。
这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。
作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:1)下面有20个已知类别的人工制造的序列(见下页),其中序列标号1—10 为A类,1 1-20为B类。
请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。
然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—4 0)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入):A类__________ ;B类_______________ 。
基因组组装问题 (新)

目录摘要 (2)一、问题的重述 (3)二、问题的分析 (3)三、模型假设 (4)四、符号说明 (4)五、模型的建立与问题的求解 (5)5.1问题一的解答 (5)5.1.1模型的建立 (5)5.1.2模型的求解 (5)5.2问题二的解答 (5)六、模型的评价 (6)6.1模型的优点 (6)6.2模型的缺点 (6)七、模型的改进与推广 (6)7.1模型的改进 (6)7.2模型的推广 (6)八、参考文献 (6)附录 (7)基因组组装问题摘要基因组测序是生物信息学的核心,有着极其重要的应用价值。
新的测序技术大量涌现,产生的reads长度更短,数量更多,覆盖率更大,能直接读取的碱基对序列长度远小于基因组长度。
所以测序之前DNA分子要经过复制若干份、随机打断成短片段。
要获取整个DNA片段,需要把这些片段利用重合部分信息组织连接。
如何在保证组装序列的连续性、完整性和准确性的同时设计耗时短、内存小的组装算法是本题的关键。
本文主要研究在测序策略已知前提下,基于所获读长(reads)序列信息,如何组装出相对合理的目标基因组。
本文通过对问题进行分解,预处理相关读长(reads)数据,将问题明确为尽可能使组装序列总长度最大,从而设计了基因组组装优化算法,并根据既有数据对模型进行检验与修正。
针对问题一,首先我们查阅相关文献资料,在理解De Bruijn图核心思想的基础之上,然后根据碱基数目尽可能大及组装序列的总长度的比例尽可能大要求,确定k-mer长度为4,然后将这些k-mer片段存入de bruijn图中,让图中有边连接的k-mer 顶点之间相互错开4位或者更多的位数,将reads里面的读长序列进行两两比较并进行匹配,从而还原基因组。
针对问题二,根据对全长约为120,000个碱基对的细菌人工染色体(BAC)进行测序得出的序列,首先我们对数据进行预处理,然后采用问题一设计的算法与程序,得出拼接后完整的基因组,由于数据非常庞大,具体结果请见附录二。
基因组的组装及质量评估技术

基因组的组装及质量评估技术基因组是生物学领域内一个非常重要而又复杂的研究对象,是由DNA分子组成的,包含了一个生物整个遗传信息的全集。
这个遗传信息会影响到生物的特征、生物学过程、生物交互作用以及适应性。
因此,了解基因组的组装及质量评估技术对于生物学研究者或者生物工程学家来说都十分重要和关键。
下面,我们将讨论基因组组装和质量评估技术的相关内容。
1. 基因组组装技术当基因组被破解并测序后,就需要进行组装。
组装是指将测序数据按照一定的方式进行拼接,最终得到基因组DNA序列的过程。
但这个过程是十分复杂而且需要一定的计算资源的。
目前,常见的组装方法包括重叠、图形和罚函数等。
在组装过程中,首先需要完成将所有测序数据进行排序,以便于找出共有的序列,即所谓reads。
重叠就是利用reads之间的共同区域进行对齐和匹配,然后拼接生成较长的序列。
图形是利用计算机的图形处理技术,先建立一个图形和可以用来序列化的节点,然后根据节点之间的基因片段来构建图形结构,再对比节点之间的共同区域来将图形连接起来,获得更长的序列。
罚函数是将所有序列视为一个图,利用染色体片段之间的交错特征来拼接。
组装完成后,可以使用一系列工具和技术检查结果的准确性。
这些挑战包括测序数据小RNA定量、同源重复选择和组装错误。
其中,最主要的误差来自数据本身产生的错误,工具可以检测这些错误并将它们分离出来。
其他的挑战包括提高基因组组装的连续性和正确性,以及处理基因组中嵌入的复杂重复区域。
2. 基因组质量评估技术随着高通量基因序列技术的提高和普及,越来越多的基因组数据获得了高水平的测序技术,但数据的可靠性和准确性却变得不可避免地面临了严峻的挑战。
因此,为了准确评估基因组数据的质量和可靠性,需要重点关注基因组质量评估技术。
在基因组质量评估技术中,最重要的一项是数据的评估工具。
不同的评估工具适用于不同类型的数据。
例如,可以使用QUAST来生成全基因组组装萃取基本特征的-基因组中的contig、N50、L50、NGX、ED50、N珂朵妮数、各种Gap大小等等参数。
数学建模在生物和医学科学中的应用

数学建模在生物和医学科学中的应用数学建模是一种利用数学知识和技巧对实际问题进行分析、探索、研究和预测的方法。
它在生物和医学科学中的应用越来越广泛,尤其是在分子生物学、药理学、生态学等领域。
数学建模技术可以使我们更深刻地理解生物和医学现象背后的机理和规律,为疾病的治疗和预防、新药开发以及环境保护等方面提供重要的支持和指导。
1. 数学建模在基因组学中的应用基因组学是研究基因组结构和功能及其与生物体行为和表型的关系的学科。
基因组学整合了多种生物学和计算机学科,利用数学建模技术可以帮助我们更好地理解基因组中复杂的相互作用和调控机制。
例如,利用网络分析技术可以模拟基因调控网络的结构和特征,预测基因表达和基因调控的动态变化,进而探索生物体疾病和生长发育等过程中的异常现象和机理。
2. 数学建模在药理学中的应用药理学是研究药物在生物体内的作用、代谢和副作用的学科。
药物的作用机理和效果受多种因素影响,其中包括药物分子与受体之间的相互作用、细胞信号传递的调控机制以及整个生物体的代谢水平等。
利用数学建模技术可以帮助我们预测不同药物在不同剂量下对生物体的影响,并且了解剂量与疗效之间的关系,指导药物的合理使用和剂量的调节。
3. 数学建模在生态学中的应用生态学是研究生物与环境相互作用的学科。
生态系统复杂多样,受多种因素影响,包括物种的数量和密度、生境和环境条件、种间依存关系等。
利用数学建模技术可以帮助我们预测不同环境因素对生态系统的影响,研究物种数量和相互作用的变化趋势,了解生态系统的稳定性和耐受性,以及探索环境保护和管理的策略和措施。
总之,数学建模在生物和医学科学中的应用不断深入,为我们深化对生物和医学现象的认识提供了重要的工具和方法,同时也为生物和医学研究带来新的思路和挑战。
我们期待数学建模在生物和医学科学中的广泛应用,为我们提供更多的理论支持和实践指导。
11544-数学建模-2000年A题《DNA序列的分类》题目、论文、点评

2000年A题《DNA序列的分类》题目、论文、点评DNA序列的分类模型汤诗杰,周亮,王晓玲,孙广中本文针对 DNA序列分类这个实际问题 ,提出了相应的数学模型 .为了很好的体现 DNA序列的局部性和全局性的特征 ,我们给出了衡量分类方法优劣的标准 ,即在满足一定限制条件的情况下 ,是否能充分反映序列的各方面特性 .依据我们提出的判别标准 ,单一标准的分类是无法满足要求的 .我们的方法是侧重点不同的三种方法的综合集成 .这三种方法分别体现了序列中元素出现的概率 ,序列中元素出现的周期性 ,序列所带有的信息含量 .利用这个方法 ,完成了对未知类型的人工序列及自然序列的分类工作 .最后 ,对分类模型的优缺点进行了分析 ,并就模型的推广作了讨论DNA序列的分类模型.pdf (230.27 KB)关于DNA序列分类问题的模型冯涛,康喆雯,韩小军,贺明峰本文提出了一种将人工神经元网络用于 DNA分类的方法 .作者首先应用概率统计的方法对 2 0个已知类别的人工 DNA序列进行特征提取 ,形成 DNA序列的特征向量 ,并将之作为样本输入 BP神经网络进行学习 .作者应用了 MATLAB软件包中的Neural Network Toolbox(神经网络工具箱)中的反向传播( Backpropagation BP)算法来训练神经网络 .在本文中 ,作者构造了两个三层BP神经网络 ,将提取的 DNA特征向量集作为样本分别输入这两个网络进行学习 .通过训练后 ,将 2 0个未分类的人工序列样本和 1 82个自然序列样本提取特征形成特征向量并输入两个网络进行分类 .结果表明 :本文中提出的分类方法能够以很高的正确率和精度对 DNA序列进行分类 ,将人工神经元网络用于DNA序列分类是完全可行的关于DNA序列分类问题的模型.pdf (359.1 KB)DNA分类模型杨健,王驰,杨勇,王鸣本模型充分利用了所给数据的特点 ,运用统计、最优化等数学方法 ,从已知样本序列中提炼出能较好代表两类特征的关键字符串 ,据此提出量化的分类标准 ,能较好的对任给 DNA序列进行分类 .首先 ,从已知样本序列中用广度优先法选出所有重复出现的字符串 ,并计算其标准化频率及分散度 .然后 ,利用样本数据结合最小二乘法确定两类字符串各自的优先级函数 ,并且逐步优化其参数使之达到稳定 ,提高了可信度 .最后 ,根据优先级函数找出关键词 ,然后确定权数 ,用层次分析法对未知样本进行分类 ,并定出显著水平 ,从而得到了一个比较通用的分类方法 .经过检验 ,此方法对 2 1— 4 0号待测样本进行了很好的分类 ,对后面的1 82个 DNA序列进行同样的操作 ,也有较好的效果DNA分类模型.pdf (382.26 KB)DNA序列的分类韩轶平,余杭,刘威,杨启帆本文对 A题中给出的 DNA序列分类问题进行了讨论 .从“不同序列中碱基含量不同”入手建立了欧氏距离判别模型 ,马氏距离判别模型以及 Fisher准则判定模型 ;又从“不同序列中碱基位置不同”入手建立了利用序列相关知识的相关度分类判别算法 ,并进一步研究了带反馈的相关度分类判别算法 .对于题中所给的待分类的人工序列和自然序列 ,本文都一一作了分类 .接着 ,本文又对其它各种常见的分类算法进行了讨论 ,并着重从分类算法的稳定性上对几种方法作了比较 .DNA序列的分类.pdf (219.79 KB)DNA序列分类的数学模型吕金翅,马小龙,曹芳,陶大程本文从三个不同的角度分别论述了如何对 DNA序列进行分类的问题 ,依据这三个角度分别建立了三类模型 .首先 ,从生物学背景和几何对称观点出发 ,建立了 DNA序列的三维空间曲线的表达形式 .建立了初步数学模型 -积分模型 ,并且通过模型函数计算得到了 1到 2 0号 DNA序列的分类结果 ,发现与题目所给分类结果相同 ,然后我们又对后 2 0个 DNA序列进行了分类 .然后 ,从人工神经网络的角度出发 ,得到了第二类数学模型 -人工神经网络模型 .并且选择了三种适用于模式分类的基本网络 ,即感知机模型 ,多层感知机 ( BP网络 )模型以及 LVQ矢量量化学习器 ,同时就本问题提出了对 BP网络的改进 (改进型多层感知机 ) ,最后采用多种训练方案 ,均得到了较理想的分类结果 .同时也发现了通过人工神经网络的方法得到的分类结果与积分模型得到的分类结果是相同的 (前四十个 ) .最后 ,我们对碱基赋予几何意义 :A.C.G.T分别表示右 .下 .左 .上 .用 DNA序列控制平面上点的移动 ,每个序列得到一个游动曲线 ,提取游动方向趋势作为特征 ,建立起了模型函数 ,同时也得到了后二十个 DNA 序列的分类结果 ...DNA序列分类的数学模型.pdf (387.46 KB)DNA序列中的结构与简化模型孟大志本文简述 2 0 0 0年全国大学生数学建模竞赛 A题的科学研究背景 ,以及题目的立意和设计 .进而对解答 A题的大学生们的出色方法进行介绍与评述DNA序列中的结构与简化模型.pdf (211.8 KB)。
DNA序列研究数学建模问题

题目 DNA 序列摘要本文主要研究DNA 序列的结构问题,通过建立相应的数学模型,对DNA 序列中所隐藏的规律进行研究和分析,给出了解决问题的最优方案,并且对模型进行了评价和推广。
对于问题一,为了挖掘DNA 序列的特征将其分为A 类和B 类,以20种基本氨基酸为目标,利用Matlab 软件编程得出每一行每一种氨基酸出现的概率;再运用主成分分析法进行降维,利用SPSS 软件进行数据处理得到矩阵;然后再将模糊聚类问题转化为如下优化问题:2111min (,)(())..1(1,2,6)01n cq ik ik k i cik i ik J U V u d s t u k u ======≤≤∑∑∑用模糊聚类分析方法来获取样本与聚类中心的加权距离最小的最佳分类,使其分题一相同的方法进行分类,分类结果见问题二的求解。
总的来说,本模型在未知数据特征的情况下很好的将数据进行分类,成功地解决了此次数学建模的DNA 序列问题,是聚类分析问题的一个有效而且具有较强实用性的方法。
关键词:主成分分析 模糊聚类分析 Matlab 软件 Spss 软件一、问题重述1.1背景分析随着DNA测序时代的到来,越来越多生物的全基因组序列正逐渐展现于人们的眼前。
如何从中挖掘有用的信息成为对当今生物学乃至整个科学领域的一个挑战。
本文主要致力于对DNA序列结构以及序列中所隐藏规律的研究。
1.2问题重述2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。
这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。
破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。
在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。
生物学中的数学建模

第18卷第6期工 科 数 学V o l.18,№.6 2002年12月JOU RNAL O F M A TH E M A T I CS FO R T ECHNOLO GY D ec.2002生物学中的数学建模赵邦杰1, 张志让1, 赵 晟2(1.成都信息工程学院计算机科学系,成都610041;2.中国科学院上海生命科学院生物化学细胞研究所国家分子生物学重点实验室,上海200031) [摘 要]生物学与其它学科的交叉是近年来学术界讨论的一个重要话题.系统科学这一类横断科学从其产生之初就具有其鲜明的一般性和普适性,尤其适合对生命这一开放的、有序的、复杂的系统进行研究和探讨.近年来,这方面的发展非常迅速,生物学研究的新思路、新方法层出不穷,这无疑为广大研究人员带来崭新的研究工具和更优化的解决方案.本文从生物建模的角度对这方面最新的研究进展进行总结、归纳,以求集思广益、触类旁通.[关键词]生物建模;系统科学;非线性过程[中图分类号]Q120;O29 [文献标识码]B [文章编号]100724120(2002)0620001208生物体中的遗传分子——DNA蕴涵着生命现象的庞大信息数据和复杂机制,从其最简单的数字特性出发,我们不难发现DNA具有数学上四进制的特点(由A、T、G、C四种脱氧核苷酸残基组成的线性分子).数论中的基本理论让我们很容易联想到与四进制最接近的二进制.后者恰好是信息科学中表示最小信息——“位”的最著名的计数法,同时也是当代IT业的宠儿——计算机的思维语言.而当研究人员在生物学的海量数据中艰难地前进时,他们又自然而然地选择了计算机作为他们新一代的研究工具,以帮助他们建立更强大的计算方法和数学模型.且不论DNA的四进制结构和计算机的二进制之间是否真的可以建立起某种必然联系,生命科学和包括信息科学在内的系统科学之间的交叉融合却是不容质疑的.随着一些原核,真核基因组的大规模测序的完成,研究人员从大量的生物学实验中发掘积累了越来越丰富的数据,数据之间又以极其复杂的方式相互联系着,进而形成错综复杂的网络结构.解释这些原始数据一大困难在于这些基因、生化网络的基本数据过于庞杂,因此,解决这一难题有赖于更先进的计算方法.传统的生物学数据分析方法已越来越不足以用来充分理解这些海量数据中所蕴函的复杂信息.而系统科学历来就是在对各种各样的数据分析的过程中不断发展完善起来的,其已有的大量成果恰好为生物学的海量数据分析提供了多方面,多角度的解决方案,从而使生命科学在定理、模拟、仿生、预测等方面有了长足的进步.从早期的人口控制论到当今的基因组、后基因组计划,生命科学的信息化过程已历经了从简单到复杂,宏观到微观,粗放到精细,零散到系统的过程,其间不论生物学本身还是系统科学都随着其自身的飞速发展更紧密地结合到一起,相互促进,相互影响着.1 上下求索——生物建模的历史回顾系统论大概是最早被引入生物学的系统科学.一般系统论的创始人贝塔朗菲本身就是一位生物学家,他成功地将微积分引入生物学中,创立了理论生物学和一般系统论[1].一般系统论旨在成为非物理领域科学走向精确理论的一种主要方法论,强调把有机体当作一个整体或系统来看待,它认为各种不同 [收稿日期]20022032082工 科 数 学 第18卷的学科有着通过交叉渗透走向综合的趋势.将微分方程引入生物学正体现了早期的生物建模尝试.著名的指数定律就被用于描述某些细菌和动物的个体生长,动植物群体的无约束生长,马耳萨斯人口定律.稍微考虑精细一点,将一阶微分方程按泰勒级数展开并再保留第二项便能得到一S形曲线的方程——经典的酶催化反应曲线.这种建模方法看似简单,但其应用一直非常广泛而且经久不衰.2000年著名的英国“自然”杂志中的一篇论文就采用了类似的方法描述了一个遗传性神经衰退中细胞死亡的“一次打击”模型[2].文章中先使用一阶微分方程描述外层核层(ONL)厚度或细胞数随细胞年龄t变化的关系:dONL(t)=-Λ(t)×ONL(t),(1)d tΛ(t)=Λ0e-A(t-delay),(2)Λ(t)=Λ0e A(t-delay),(3)Λ(t)=Λ0,(4)其中Λ(t)表示年龄t的细胞的死亡风险,delay表示神经细胞死亡开始发生前的时间.作者对其提出三种可能性:指数递减的(2),指数递增的(3),或恒定的(4)风险.对来自患者的数据进行非线性回归分析后发现这些疾病引起的神经细胞死亡风险符合指数递减或恒定的规律.从而提示单个神经元的死亡时间是随机的.指数递减和恒定的死亡风险的差别在于前者的死亡还和活细胞的数目成负相关,而后者却无关.基于这一点,研究者提出了“一次打击”模型:个体神经元的死亡在时间上是由单个很少见的灾难性事件随机触发的.分子计算生物学作为大量应用了各种生物建模方法的出色代表,经过近一个半世纪的发展,它已成为当今生命科学研究中不可或缺的研究工具.M iescher于1869年发现DNA,二十多年后他提出遗传信息可能存在于化学符号组成的线性序列中,“正如所有语言的单词和概念可以用二十四到三十个阿拉伯字母表达出来一样”.1949年,Chargaff等人发现DNA中A=T,G=C的数字规律,又是二十年后, DNA和蛋白质之间的数字谜底——三联体密码子被揭开[3].随着越来越多的基因序列被确定, Zuckerkand1和Pau ling于1962年首次将序列的变化和进化关系联系到一起,从而开创了一个新的领域:分子进化[4].1972年,Gatlin首次将信息论引入序列分析,他引入了等或然率中的序列分歧D1和相邻碱基间的独立性分歧D2的对数测量,从而第一次用定量的方法证明了这些自然界的序列的高非随机性[5].同年,D ayhoff建成了第一个蛋白序列数据库[6],紧接着,E rdm ann建立了核酸数据库[7].而P i p as,M c M ahon,Studn icka等人则开始对RNA二级结构进行计算机预测[8,9].八十年代后,随着大规模测序技术的革新,分子生物学进入了基因组时代.1980年,第一篇关于计算分子生物学的综述发表在著名的“科学”杂志上[10],标志着生物信息学早期探索阶段的结束和新纪元的到来.到目前为止,已有了若干种专门关于生物学的杂志,大量的生物学模型和计算工具已被设计和开发出来,大型的各类生物数据库,如GenB ank,P I R,S W ISS2PRO T等,也已建成并通过互联网供全世界的科学家研究共享.“正如新的生物化学工具常预示着新的发现一样,新的计算工具并不仅仅意味着带给生物学家们更轻松的生活,而是以提供对我们自身和我们在这个星球上所共享的有机体的真正的新的理解和发现.”[11]2 系统科学——生物建模的基石如图1所示,生物界向来被认为是一种开放的,有序的,复杂的系统,传统的研究方法多采用还原论的方法将其简化为有序的简单的系统来处理,或以定性的描述为主,定量的计算为辅.这在一定的范围内的确解决了大量的问题,也为生物学的发展积累了大量的数据资料,提供了线索,总结了经验,但这并不足以揭示生命运动的本质.系统科学的产生和蓬勃发展恰巧为此提供了一系列行之有效的解决途径,使人们可以从不同侧面,不同深度去分析,理解生命科学中的某些普遍规律,把人类的认识从以实物为中心的水平提高到以系统为中心的水平.系统科学内容广泛,主要包含一些非线性学科,如著名的系统论(System T heo ry)、控制论(Cybernetics)、信息论(Info rm atics)、协同论(Synergetics)、超循环论(H yp ercycle )、灾变论(Catastrop he T heo ry )、耗散结构论(D issi p ative Structu re T heo ry )、混沌论(Chao s T heo ry )、分形论(F ractal T heo ry )等,它们既相互关联渗透,又各具特点,侧重不同[1].图1 系统论的世界观. 象限,复杂有序的系统,如生物系统;象限,复杂无序的系统,如混沌,分形的系统; 象限,简单无序的系统,如统计学,分子物理学研究的系统;象限,简单有序的系统,如经典力学,机械运动系统.生物化学系统论(B ST )是分析生物化学反应网络的方法学框架的数学基础,并已发展成一种可有效分析相当大的系统的较成熟的方法.Eberhard 等人最近提供了一个基于B ST 的酵母糖代谢模型,用于分析和解释酵母热休克中的糖代谢基因表达模式[12].他们采用了B ST 中的一种特别高效的模型—S 系统(一种协同的,可饱和系统)进行优化,计算的结果描述了一个热休克状态下高度协同的系统,既提高了生产速度又控制了中间产物并减小了花费.在此之前,S 系统还曾被成功地应用在对三羧酸循环[13],柠檬酸[14],血红细胞[15,16]和尿素代谢[17,18]的分析中,它们都是由数十个变量组成的复杂生化网络.S 系统还被用于在基因网络和代谢途径中推导定性关系.最近,A ku tsu 等人在有噪音的布耳网络模型的基础上增添了一个定性网络模型,其中细胞的调节规则被表示为定性规则和嵌入网络结构,也提出一些算法用以从时间序列数据推导出定性关系.然后,使用一个用于从时间序列数据推导S 系统的算法,从而优化了单一的布耳网络[19].控制论是研究可控系统的科学,它专门考察系统与环境诸多联系中的控制和通讯方面的联系,其主要的方法有功能模拟方法,黑箱方法和反馈方法.对大脑皮层海马区的导航能力的功能模拟使得模拟大鼠在一含有障碍的连续环境中的导航过程成为可能[20].该模型把海马区看作一“感知图”,即一对学习访问过的地方的暂时顺序和储存环境进行拓扑再现的异性偶联的神经网络.模型不需要复杂的图像搜索算法,而且允许在探索中“潜在的学习”,即空间再现的建立不需要任何加强.功能模拟的侧重点在于系统在功能行为上的等效性,以期从中找出这些具有相似功能的各种不同系统的统一机制.上述导航模型将生物学中海马神经元的导航功能用两种不同的异性偶联的神经网络进行模拟,三者均能成功地完成相似的导航功能,从而揭示其共同本质在于它们都是基于“感知图”这一抽象概念的.黑箱方法则通过考察系统的输入、输出及其动态过程来定量或定性的认识系统的功能特性、行为方式、以及内部结构和机理.前面所述的关于遗传性神经衰退中细胞死亡的“一次打击”模型是一个很好的例子[2].反馈是控制论的核心概念,即指系统中输出对输入和再输出的影响过程,反馈控制也是控制论中的基本控制方式.此外,在多步反应中还有前馈的概念.生物学中的诸多过程,如代谢途径、信号传导网络,神经调控等,都蕴涵着反馈这种控制机制.去心脏纤颤的新进展通过引入一个新的性能评估参数rho 作为衡量时间和能量的相对重要性来到达更优化的反馈控制,优化了的去心脏纤颤模型将能量消耗和所需去心脏纤颤3第6期 赵邦杰等:生物学中的数学建模时间能同时优化到最小[21].反馈也是一种基因网络中普遍存在的控制机制.正反馈或自催化很早就被认为是双稳态系统或二元系统的基础.这里,生物学的研究又同时涉足到信息论、协同论的领域里来.在双稳态系统里,两种稳定状态间的转换可以由系统的输入参数的变化引发.如爪蟾卵母细胞两种成熟态之间的转换是由孕酮诱导的,对孕酮不同浓度级别的响应转换成二元的细胞命运开关揭示了卵母细胞中有丝分裂激活蛋白激酶(M A PK )级联反应中的正反馈机制[22].最近,A ttila B ecskei 等的工作则巧妙地将生物化学实验设计和数学模型有机地结合到一起[23].他们首先使用常规的分子生物学手段在酵母中构建了一个基于正反馈的真核基因表达开关,如图2.该系统由一系列体外构建的含报告基因,与报告基因融合在一起的转录激活子基因,激活子调控元件的表达质粒组成.当把激活子调控元件和激活子基因构建到同一质粒中或共同整合到染色体上时,一个自催化正反馈的“基因电路”就被构建出来.他们通过调节四环素响应转录激活子(rtTA )的基因拷贝数或控制其诱导剂—强力霉素(Doxycycline )的浓度来得到可人工调整的激活水平——“基因电路”的输入.“基因电路”成功的将其中的模拟信息:激活的水平——一连续的一维梯度参数空间——转换为二元数字信息:“0”和“1”分别代表报告基因表达的低和高的稳定态.图2 基因电路.rtTA ,转录激活蛋白;GFP ,报告基因;tetreg ,转录激活蛋白(rtTA )的DNA 结合位点.科学研究中不同学科之间的交叉渗透已是司空见惯的现象.在信息技术方面,随着芯片技术的高速发展,超大规模集成电路已快达到100纳米的水平,这已接近半导体制造工艺的极限.为了克服这一问题,科学家们正试图从其它的方面跨越这一障碍,其中一个很活跃的领域就是生物计算机的研制.1994年,第一篇关于DNA 计算的文章发表在美国“科学“杂志上,文章利用DNA 解决了一道关于在给定的有向图中寻找是否存在哈密尔敦路径的算法[27].哈密尔敦路径是指在给定的有向图中从给定顶点出发沿图中给定的边遍历所有顶点一次,最终到达给定终点的路径.文章中巧妙地将每个顶点用一段特异的含20个碱基的DNA 序列表示.任意一条有向边也用一条DNA 序列表示,这条序列由该边起始顶点的3′端的10个碱基和终止顶点的5′端的10个碱基组成(从而具有方向性).将这些DNA 序列放在一起进行DNA 连接反应.由于DNA 连接反应的特点,只有末端互补的DNA 才能发生反应并连接到一起.最终,反应的产物将包含所有可能的顶点之间的路径.通过PCR 的方法,以给定起点和终点所对应的DNA 序列作引物,扩增后得到所有只由给定顶点出发,到给定顶点终止的路径.对这些DNA 再进行电泳分析可以得到只含有顶点数减一个边的路径集.然后将这些DNA 序列变性后依此通过分别连接有各顶点对应的单链DNA 序列的亲和柱,从最后一个亲和柱上洗脱得到的DNA 序列就是哈密尔敦路径的所有解,对DNA 测序分析后即可得到结果.所有已知的其它算法都具有在最坏的情况下呈指数型增长的复杂度,当顶点数和边数较大时,即便是每秒万亿次的超级计算机要解决这一问题也需要数年乃至天文时间.而由于DNA 连接反应可以以皮、微摩尔级(1011,1017)的水平进行并行性的运算,用现在的生物实验技术在一个月的时间内便能完成,这台“DNA 分子计算机”在解决这种并行性的非线性问题上远4工 科 数 学 第18卷远超过了基于串行方式执行运算的任何计算机.两年后,同样在“科学”杂志上,另一篇关于如何让DNA 进行“加法”运算的算法也被设计出来[28].最近,科学家们还利用RNA 解决了棋类问题中的“骑士问题”[29];利用抗体、抗原的特异识别(类似DNA 分子中互补粘性末端的特异识别),人们还提出了基于蛋白质的生物计算机[30].诺贝尔化学奖得主E igen 从分子演化的角度来考察生物体内发生的快速化学反应,最终于1971年正式建立了超循环论.该理论最早被大量地应用在讨论生命起源的问题上,并由此提出了进化的化学进化,分子自组织进化和生物学进化三个阶段.生物学中许多现象都可以用该理论来进行定量化的探讨和分析.超循环的形成提示了从无生命到活的化学所经历的重要的一步,大量数目的超循环蕴含在生命系统的复制网络之中.共生现象就是一种典型的超循环结构.类似的结构也能在分子水平上存在,两个或更多的自复制式样的集合通过一循环催化网络内连起来.自催化复制之上的交叉催化作用的重叠将超循环的各成员整合成一个单独的系统,后者通过一个非线性自催化的二级(或更高的)形式再生.两个不同的,相互竞争的自复制多肽以共生的方式催化着彼此的生成,这个系统就是一个清晰的最小限度的超循环网络的例子[31].理论生物学家们还使用这一理论描述了一套病毒增殖的动态方程,提出植物病毒增殖现象和转基因植物抗病机制的定理解释[32].二十世纪五、六十年代开始出现的灾变论是一门新兴的数学分支,它主要研究连续发展过程中出现突然变化的现象,以及这些现象与连续变化因素之间的关系.在药物作用机理方面的研究中,研究人员通过使用三(氮)唑核苷作为突变剂以及脊髓灰质炎病毒作为模型RNA 病毒描述了一个误差灾变的生物学直接证据[33].系统科学不仅仅在对生命现象的建模中起着广泛的指导作用,从更高的层面来说,系统科学所蕴涵的新颖的思维方法在生物学自身的研究领域中的应用也使传统生物学逐渐从还原论的缚束中摆脱出来.灾变论中所关心的平衡点之间突然的相互转换问题在对微管动态稳定性的研究中同样被生物学家们所重视.酵母中中期微管组装的对称模型就提示微管的动态解聚和组装之间是一个微管末端同步灾变的过程[34],对来自爪蟾卵细胞质抽提物中微管组装的实验发现生理条件下的微管组装是一个二维过程并得到了一个灾变的频率和微管末端结构状态直接相关的模型[35].还有一些研究小组则发现一种中性微管偶联蛋白——tau 蛋白的一个结构域的重复数目,其磷酸化水平的差异也是影响微管解聚和灾变的重要因素[36].另一个例子是分裂酵母中DNA 复制控制问题.真核生物细胞周期中的中心事件就是决定DNA 复制(S 期)的开始.严格的控制使细胞周期正常地运作,能防止在不发生有丝分裂时DNA 复制的重复发生(“内复制”)或DNA 完全复制好之前起始有丝分裂(“有丝分裂灾变”).这些控制中涉及的一些基因水平上的相互作用在酵母中已被证实.根据这一证据,N ovak 等利用生物化学的动力学原理,结合对分裂酵母一些突变株的行为观察,提出了一个酵母中“开始点”控制的分子模型[37].由此我们看到,在生物学家们试图使用现代生物技术揭示生命这些复杂系统的物质基础时,他们也逐渐自觉地以系统科学的思维方式和认知角度来观察和解释实验结果.耗散结构论、混沌理论和分形理论都是非线性科学研究领域中所取得的重要成果,三者之间相互补充,密切联系.耗散结构理论侧重从热力学观点出发研究在开放系统和远离平衡条件下自发形成的自组织;混沌理论则从动力学角度研究不可积系统轨道的不稳定性;而分形理论是从几何学角度研究不可积系统几何图形的自相似性,是定量描述耗散结构和混沌现象的有力工具.生命体就是一个开放的,远离平衡态的,自发形成的有序的自组织系统,即一耗散结构,其有序性的形成和维持都要赖以外界能量的消耗和供给.混沌是非线性耗散系统中存在的一种普遍现象,可以把它看作一种确定的随机性.确定性由其内在的原因而不是外来的噪声或干扰所产生,即过程是严格确定的;而随机性是指其不规则的不可预测的行为.混沌、分形现象宏观上多表现出无序而复杂,而在微观上其各个部分却是有序的.肿瘤的发生过程中涉及大量的染色体和分子水平上的基因失常的发生,并表现出混乱随机的形式,但这一发生过程却有着严格的确定性,即所谓的“基因学上的混沌”[38].研究人员通过比较两种相关的前列腺癌细胞系的细胞内的微小运动显示了这一系统中的混沌,这些微小运动导致了它们在活动性和转移能力上较大的差别[39].基于混沌理论的非隔离模型已被用于计算药物在肿瘤区的分形维数(一肿瘤异质性的参数),以评估药物对转移恶性黑素瘤的治疗中的吸收情况[40].动、植物体内的气管、血管、神经网络、根系5第6期 赵邦杰等:生物学中的数学建模6工 科 数 学 第18卷等结构都具有分形的结构.肿瘤入侵过程中的免疫反应实际体现了自组织系统中的竞争关系,研究显示分形维数的研究可以先于病理的征兆揭示细胞动力学的趋势[41,42].O p risan等人还建立了一个肿瘤发生学的计算模型,它如同体内肿瘤一样能产生类似的模式,它们具有相同的分形维数频谱[41,42]. O p risan等人还建立了一个肿瘤发生学的计算模型,它能如同体内肿瘤一样能产生类似的模式,它们具有相同的分形维数频谱[43].数字的模拟可以揭示肿瘤在一些早期免疫——系统——肿瘤作用过程中逃避免疫防御系统监控的过程.该计算模型也能模拟免疫的、外科的、化学的和放射疗法的治疗,以及它们的效果.3 生命——信息的源泉随着生命科学和信息科学日新月异的发展,二者的密切结合逐渐向着规模化、系统化的方向发展,广泛涉及着诸多领域的交叉与合作,其中最直接而重要的环节就是对生命科学进行模型构建,用信息学的方法理解生命现象.当前紧锣密鼓进行着的人类基因组计划的基本目标就是从DNA水平识别,提取生命的静态信息.预计到2005年,人类将拥有人、小鼠、大鼠、一些鱼类,以及更多的脊椎、非脊椎动物基因组的全序列,这与信息技术的飞速发展和计算能力的提高是分不开的,即便在两年前,在如此短的时间内得到如此庞大的数据也是不可能的.对庞大基因组序列的比较也随之面临着更大的挑战,W ebb M iller在最近一篇综述中对此提出了五点急需解决的问题:(1)需要有改进的软件以便能排列对齐两个基因组的庞大序列,其自身必须具有严格的统计学基础;(2)需要一个工业化的基因预测系统以便有效地将基因组序列比较,序列的内在特性和从蛋白序列和EST数据库搜索的结果结合起来;(3)排列对齐更多基因组序列的可靠而自动化的软件;(4)更好地显示和浏览基因组序列对齐方式的方法;(5)改进了的评估基因组对齐软件的正确性和性能的数据集和方法[44].从中我们可以看到这些关键问题的解决都主要依赖于先进算法和模型的提出和改进以及更高性能的计算机的出现.基因组计划之后的主要挑战之一是如何正确分析生命的基本组成物质——DNA RNA、蛋白质、脂、糖、金属离子、有机小分子之间相互作用及其调控的动态过程,这些过程通过细胞的生物学功能得以表现出来[45].生物学研究的重点已从生物体的物质结构特点转移到生物功能上.生物活性分子之间的运动规律,生命事件的信号传导网络是当前生命科学中的核心内容.借助人类在结构生物学上已取得的丰硕成果,功能性生物学家们正广泛地使用着包括基因预测,序列相似性搜索,功能基因组学等多种生物信息学手段[46].另一方面,科学家们还尝试着直接从更高的层次上对生命现象进行信息化.这样,各种功能性模型便孕育而生了,前面关于系统科学在生命科学中建模的大量例子正是这一趋势的体现.生命系统是复杂而有序的系统,其复杂性不仅仅在于其物质基础本身的复杂度和多样化,还表现在这些物质基础之间网络化的相互动态关系和运动方式上.前者是生命系统“静态”的复杂性,而后者则反映了生命“活”的特征.生物学的研究用信息论的语言来说就是在对这些生命信息进行识别,提取之后研究其传递、处理、再生、调节和组织原理从而达到认知的目的.致谢:上海生物化学细胞研究所宋建国研究员对本文提出了宝贵的意见,特此感谢.[参 考 文 献][1] 魏宏森等.开创复杂性研究的新科学——系统科学纵览[M].成都:四川教育出版社,1991.[2] C larke G,et al.A one2h it model of cell death in inherited neu ronal degenerati on s[J].N atu re,2000,406:195.[3] T rifonov E N.Earliest pages of b i o info rm atics[J].B i o info rm atics,2000,16:5.[4] Zuckerkandl E,et al.M o lecu lar disease,evo lu ti on,and gen ic heterogeneity[A].In Kasha,M.and Pu ll m an,B.(eds)[C].N ew Yo rk:Ho rizon s in B i ochem istry A cadem ic P ress,1962.189-225.[5] Gatlin L rm ati on T heo ry and the L iving System[M].N ew Yo rk:Co lum b ia U n iversity P ress,1972.。
数学建模在实际问题中的应用和拓展

数学建模在实际问题中的应用和拓展一、引言数学建模是一种将实际问题转化为数学问题,并通过数学方法解决实际问题的过程。
自从20世纪初数学建模诞生以来,它已经在物理学、生物学、经济学、金融学、计算机科学等众多领域得到了成功的应用。
本文将就数学建模在实际问题中的应用和拓展进行讨论。
二、数学建模的应用2.1 物理学中的应用在物理学中,经典物理学理论不能完全解释某些现象,量子力学的出现解决了这些问题。
对于原子核外壳中的电子,量子力学能够预测它们的运动轨迹,并给出较高的精确度。
数学建模也可以应用于预测环境的变化情况,例如气象预测、地震预测等。
在这个领域里,数学建模最基础的应用是拟合数据,预测未来的数据走势。
2.2 生物学中的应用在生物学中,数学建模用于解释分子、细胞、组织、器官和生态系统中的物理化学现象或生物过程。
例如,数学建模可以用来研究癌细胞的生长速率,评估药物的疗效。
另一个重要的生物学应用是DNA序列分析,该应用涉及到序列比对、序列匹配和DNA组装等问题,直接导致了人类基因组计划的启动。
2.3 金融学中的应用在金融学中,数学建模主要用于预测未来的经济走势、资产价格和证券价格,以便决策者制定有效的投资策略。
例如,通过随机过程和风险管理模型,数学建模可以用来预测股票价格的波动和趋势,并制定有效的投资决策。
三、数学建模的拓展3.1 数据科学的浪潮随着“大数据”技术的快速发展,数据科学已经成为了数学建模领域的主要热点。
数据科学主要涉及到数据清洗、数据挖掘、建模和可视化等领域,其目的是从数据中发现隐藏的规律和知识,为决策者提供参考。
数据科学可以应用于各个领域,例如金融科技、物流、医疗健康等。
3.2 人工智能的快速发展人工智能是指让机器具备类似于人类智能的能力,能够通过自学习、知识表示、推理、自然语言处理等方式来实现人类智能。
随着计算能力的不断提升,机器学习、计算机视觉、自然语言处理等具有代表性的人工智能技术也在不断发展。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基因组组装摘要基因组测序是生物信息学的核心,有着极其重要的应用价值。
新的测序技术大量涌现,产生的reads长度更短,数量更多,覆盖率更大,能直接读取的碱基对序列长度远小于基因组长度。
所以测序之前DNA分子要经过复制若干份、随机打断成短片段。
要获取整个DNA片段,需要把这些片段利用重合部分信息组织连接。
如何在保证组装序列的连续性、完整性和准确性的同时设计耗时短、内存小的组装算法是本题的关键。
本文建立改进后OLC算法模型。
该模型首先使用了特定的编码规定,通过C++程序对庞大的数据先后进行十进制和二进制的处理,不改变数据准确性的前提下尽可能减小内存和缩短计算机操作时间,并引入解决碱基识别错误问题的一般思路消除初始reads中的碱基错误。
然后通过深度优先算法,设定适当的阈值,找出具有重叠关系的碱基片段并形成一有向赋权图,其中点是碱基片段,边代表具有重叠关系,权值代表片段重叠的多少,将问题转化为图论中寻找最大赋权通路的问题,从而对OLC算法进行改进,采用图论的方法更直观和更具操作性的解决DNA的拼接问题,从而对OLC算法进行改进。
最后再根据OLC算法对Hamilton 路劲进行拼接,生成共有序列,通过多序列比对等方法,获得最终的基因组序列。
关键词:基因组测序 OLC算法深度优先算法Hamilton路径一问题的重述1.1 问题背景快速和准确地获取生物体的遗传信息对于生命科学研究具有重要的意义。
对每个生物体来说,基因组包含了整个生物体的遗传信息,这些信息通常由组成基因组的DNA或RNA分子中碱基对的排列顺序所决定。
获得目标生物基因组的序列信息,进而比较全面地揭示基因组的复杂性和多样性,成为生命科学领域的重要研究内容。
1.2 问题提出确定基因组碱基对序列的过程称为测序。
目前能直接读取的碱基对序列长度远小于基因组序列长度,因此需要利用一定的方法将测序得到的短片段序列组装成更长的序列。
通常的做法是,将基因组复制若干份,无规律地分断成短片段后进行测序,然后寻找测得的不同短片段序列之间的重合部分,并利用这些信息进行组装。
例如,若有两个短片段序列分别为ATACCTT GCTAGCGTGCTAGCGT AGGTCTGA则有可能基因组序列中包含有ATACCTT GCTAGCGT AGGTCTGA这一段。
由于技术的限制和实际情况的复杂性,最终组装得到的序列与真实基因组序列之间仍可能存在差异,甚至只能得到若干条无法进一步连接起来的序列。
对组装效果的评价主要依据组装序列的连续性、完整性和准确性。
连续性要求组装得到的(多条)序列长度尽可能长;完整性要求组装序列的总长度占基因组序列长度的比例尽可能大;准确性要求组装序列与真实序列尽可能符合。
利用现有的测序技术,可按一定的测序策略获得长度约为50–100个碱基对的序列,称为读长(reads)。
基因组复制份数约为50–100。
基因组组装软件可根据得到的所有读长组装成基因组,这些软件的核心是某个组装算法。
一个好的算法应具备组装效果好、时间短、内存小等特点。
新一代测序技术在高通量、低成本的同时也带来了错误率略有增加、读长较短等缺点,现有算法的性能还有较大的改善空间。
具体解决问题如下:(1)建立数学模型,设计算法并编制程序,将读长序列组装成基因组。
你的算法和程序应能较好地解决测序中可能出现的个别碱基对识别错误、基因组中存在重复片段等复杂情况。
(2)现有一个全长约为120,000个碱基对的细菌人工染色体,采用Hiseq2000测序仪进行测序,测序策略以及数据格式的简要说明见附录一和附录二,测得的读长数据见附录三,测序深度约为70×,即基因组每个位置平均被测到约70次。
试利用你的算法和程序进行组装,并使之具有良好的组装效果。
二问题分析2.1 问题一分析鉴于现代测序技术的不完备性,各种基因组测序技术还有待改进和发展的空间,本文尝试性的建立数学模型,一方面对经典的OLC(overlap-layout-consensus)算法进行改进和发展,另一方面对现代测序技术提供参考和见解。
对于基因组测序问题,本文采用图论的方法更直观和更具操作性的解决DNA的拼接问题。
为了较好地解决测序中可能出现的个别碱基对识别错误,本文首先引入解决碱基识别错误问题的一般思路。
鉴于OLC技术需要对碱基片段进行两两配对寻找重叠的碱基片段所造成的时间度复杂问题。
本模型使用了特定的编码规定,通过C++程序对庞大的数据先后进行十进制和二进制的处理,使得不改变数据准确性的前提下大大降低了内存和缩短计算机操作时间。
本模型首先通过深度优先算法,设定适当的阈值,找出具有重叠关系的碱基片段并形成一有向赋权图。
其中点是碱基片段,边代表具有重叠关系,权值代表片段重叠的多少。
这样问题将转化为图论中寻找最大赋权通路的问题。
2.2 问题二分析基于问题一建立的模型,代入数据进行验算。
三模型假设(1)假设测序过程中没有其他因素的干扰;(2)假设题目所给定的序列相对位置的碱基全部遵循GU-AC法则;(3)假设题目中所有的序列都是正常可判别的序列,没有出现序列的基因突变等情况;(4)假设一个完整基因组,打断成500bp的片段是随机的;(5)假设基因组每个位置被测到的几率是等可能的;(6)所有片段上的碱基都已经被识别出来,不存在未知碱基。
四符号说明符号意义reads 利用现有的测序技术,可按一定的测序策略获得长度约为50–100个碱基对的序列,称为读长contig由reads经过一定算法拼接产生3kb~10Mb以内的一些基因组片段k-mer长度为k的一段DNA片段quality 每一个reads都含有一个质量值,该值能反映该reads的正确率。
质量值越高,reads的正确率越高五模型建立及求解5.1 数据预处理5.1.1 数据简化处理由于基因组进行编码的时候信息量非常的巨大,而且本文采用的数学模型需要对待定的所有reads进行两两的配对,以此确定无向图。
若采用字符串的存储方式,显然会造成内存空间的大量消耗,甚至内存耗尽。
为此,必须寻找其他的的存储方式,以达到降低内存空间消耗的目的。
算法采用一套编码规则,将字符 A 编码为 00,字符 T 编码为 11,字符 G 编码为 01,字符 C 编码为 10。
为便于研究,将二进制数转再化为对应的十进制数,这样就能大大的减少数据庞大给计算机运行和计算带来的难度,如图1图1 编码规则5.1.2 消除初始reads中的碱基错误(1)收集的大量资料表明,测序数据中会有许多全A或者基本上全是A的reads,这些数据很可能是Solexa测序过程中的人工数据,需要去除。
方法为:设定A的含量阈值为0.9,过滤掉含量大于等于0.9的reads。
(2)测序数据中含有一些未知的碱基,通常用“N”或“.”表示,其对拼接有不利的影响,因此含有未知碱基的read需要过滤掉。
5.1.3 序列片段中错误碱基的修正本模型建立在传统测序技术中的OLC(overlap-layout-consensus)算法的改进上,由于现代测序技术并不完美,在测序前要通过 PCR 手段对待测片段进行扩增,从而增加了测序的错误率。
在测序模型建立之前,为了降低PCR手段扩增带来的错误。
有必要对 reads 数据进行预处理,修正 reads 中测序错误的碱基从而提高 DNA 序列拼接的效果。
以下将引用常用的一种修正序列片段中错误碱基的方法。
由于基因组中每个位置进行测序的次数可能不止一次,每个位置的碱基在测序得到的序列片段集合中出现的期望次数为序列片段集合的覆盖率,因此在序列片段集合中可能存在多条在某一区域重叠的序列片段,如图 2 所示。
图2 序列片段集合中可能存在多条在某一区域重叠的序列片段基于这个事实,当某个公共序列 U 达到一定的长度,并且序列片段集合中包含该公共序列的序列片段达到一定的数目时,我们可以认为该公共序列 U 是从基因组 G 的某一个区域测序得到的,并且序列片段集合中所有包含该公共序列 U 的序列片段都是从该区域附近的某一个位置开始测序得到的。
我们可以对紧跟在满足上述条件的公共序列后面的序列进行多序列比对,以此来修正序列片段中的错误碱基。
图 3 是修正序列片段中错误碱基的一个简单、直观的例子,我们可以看到,通过这种方法第二条序列片段的倒数第四个碱基 C 被改为 G,最后一条序列片段第 19 个位置缺失的碱基 G 也被补上了。
图3 修正序列片段中错误碱基过程5.2 基于OLC策略及改进的深度优先算法对问题一模型的建立针对 Sanger 测序技术产生的长度较长、错误率较低的序列片段,人们进行了广泛的研究,其中大部分技术都是采用基于 Hamilton 路径的算法实现的。
本文基于哈密顿路径问题建立数学模型,使得传统的OLC测序算法达到更优。
以全部待拼接的reads为节点,给定一个适当的阈值λ,则用节点间的连线代表reads点之间有重叠部分,且这个重叠部分大于阈值λ。
那么就把DNA测序问题转化为一般图论问题。
对于可定图)EVG=,V,E和W分别代表图的顶点、边和边上的权的集(W,,合。
其中,W表示重叠部分)W,以待定reads为始点,寻找一条通路,使得有≥(λi且只有一次经过尽可能多的点并使得权值最大,即哈密顿通路。
此时DNA测序问题将转化为图论中对于给定图求赋权值最大的所有哈密顿通路问题。
其中哈密度通路的条数为contig条数,权值最大的哈密顿通路为最长contig。
如图4所示:图4 重叠关系图该算法的核心是构建重叠关系图对于处理 Sanger 数据或者 454、Ion Torrent 数据具有优势。
主要包括 2个步骤:(1)处理本模型首先需要对待定的所有reads进行两两的配对,当两对reads的重叠部分超过某个设定的阈值的时候,说明这一对reads有联系。
针对该问题,我们采用改进的深度优先算法把有联系的reads点连接起来,从而得到一个复杂的有向赋权图G。
首先介绍改进的深度优先算法的基本思路:1)把一个具体的问题抽象成了一个图论的模型有向图状态对应着结点,状态之间的关系(或者说决策方案)对应着边;2)从当前的某个节点开始历遍所有的点,去掉所有低于阈值的路,构成一个新的有向赋权图;3)在各个阶段尝试方案时,采取的是穷举的思想。
根据该算法,我们定义每两条reads重叠部分的碱基数量为权,两个reads之间重叠越多则两个节点之间的权越大。
(2)拼接该步骤是将第一步中全局比对得到的覆盖信息组装并构建一张重叠关系图。
根据节点处数的大小,可以判断该链接是否为可靠链接。
计算机根据全图的节点,计算 Hamiltonian通路。
所有通路上的reads串联就构成了一条完整的链。
1)首先取任一条reads为contig,接着寻找与该reads的两端含有重叠区域的reads,则可能存在无数条这种reads,那么我们需要先设定一个阈,当重叠区域的碱基数量超过阈值时才能将其视为满足条件;2)排列reads,确定reads之间的相对位置,建立overlap图,然后分析overlap,获得历遍整个图的最佳近似路径,找到Hamilton 路径;3)生成共有序列,通过多序列比对等方法,获得最终的基因组序列。