DNA序列比对数目的算法研究

合集下载

生物信息学中的DNA序列比对技术

生物信息学中的DNA序列比对技术

生物信息学中的DNA序列比对技术DNA序列比对技术在生物信息学中是至关重要的一环。

这种技术可以帮助我们理解不同生物之间的遗传关系、基因变异和进化过程等。

DNA序列比对技术可以通过计算机程序把两个DNA序列进行比较,找出其中的相同和不同之处,也可以用于推测未知的DNA序列序列。

下文将对DNA序列比对技术进行详细的介绍和分析。

1. DNA序列比对技术的原理DNA序列比对技术是指在两个或多个DNA序列中对其进行对比,找出相似和不同之处。

这种技术可以通过不同的算法和工具实现。

其中,最常见的比对方法是比较两个序列中每个碱基的位置,找出相同的碱基,不同的碱基也会进行分析和归类。

在进行比对之前,我们需要确定一个参考序列,然后将待分析的序列与该序列进行比对。

DNA序列比对技术常用的算法包括“动态规划算法”、“串编辑距离算法”、“比特位算法”等。

不同的算法有不同的优缺点。

例如,“动态规划算法”适用于较小的序列的比对,而“串编辑距离算法”可以处理较长的序列,但需要消耗更多的时间和计算资源。

2. DNA序列比对技术在生物信息学中的应用DNA序列比对技术在生物信息学中的应用领域非常广泛。

以下是一些常见的应用:(1)物种遗传关系分析:该技术可以通过比对不同物种间的DNA序列,分析它们之间的遗传关系,进一步了解它们之间的进化过程、亲缘关系等。

(2)基因变异分析:通过比对同一物种不同个体的DNA序列,可以找出基因变异的位置和类型,在基因诊断、分子生物学研究等领域有重要的应用。

(3)药物研发:通过比对疾病相关基因序列和药物作用的靶标序列,可以找到相同的序列匹配,进而推断新的药物候选者。

(4)人类进化研究:通过比对不同人类种群间的DNA序列,可以了解人类进化的历史和演变。

3. DNA序列比对技术的挑战和发展方向DNA序列比对技术在生物信息学中有着广泛的应用,但也存在一些挑战。

例如,序列差异较大的比对难度较大,目前的算法对于大规模数据的处理也有优化的空间。

生物信息研究中的序列对齐与比对算法研究

生物信息研究中的序列对齐与比对算法研究

生物信息研究中的序列对齐与比对算法研究序列对齐与比对算法在生物信息研究中扮演着至关重要的角色。

生物信息学是一门研究生物大分子之间的相似性和差异性的学科,它涉及到生命科学、计算机科学和统计学等多个领域的交叉。

序列对齐是生物信息学中的一项基础工作,旨在寻找和比较两个或多个生物序列(如DNA、RNA或蛋白质序列)之间的相似性和差异性。

本文将介绍序列对齐的基本原理、常用算法以及其在生物信息研究中的应用。

首先,我们来解释一下序列对齐的基本概念。

在生物学中,序列是指基因组中的碱基序列或蛋白质中的氨基酸序列。

序列对齐是将两个或多个序列进行比对,并找到它们之间的相似性和差异性的过程。

序列对齐通常分为全局对齐和局部对齐两种类型。

全局对齐旨在比较整个序列,而局部对齐则重点关注序列中的一部分区域。

序列对齐可以揭示生物分子的进化关系、功能预测以及寻找序列中的共同特征。

序列对齐的方法有多种,其中最常用的算法是Smith-Waterman算法和Needleman-Wunsch算法。

Smith-Waterman算法是一种局部序列比对算法,它通过构建一个得分矩阵,并根据得分矩阵找到两个序列中最佳的相似区域。

Needleman-Wunsch算法是一种全局序列比对算法,它通过动态规划的方法,建立一个得分矩阵,并找到两个序列中的最佳匹配。

这些算法都是基于动态规划的思想,通过寻找最优的对齐方案来确定序列的相似性。

除了Smith-Waterman和Needleman-Wunsch算法,还有一些其他的序列比对算法,如BLAST算法和FASTA算法。

BLAST算法是一种常用的快速比对算法,它通过将查询序列与数据库中的序列进行比对,找到最相似的序列。

FASTA算法也是一种常用的快速比对算法,它通过构建一个特殊的索引,加速序列的比对过程。

这些比对算法的不同之处在于其运行速度、准确性和适用范围。

序列对齐和比对算法在生物信息研究中有着广泛的应用。

首先,它们可以用来研究物种的进化关系。

基因组学研究中的序列比对

基因组学研究中的序列比对

基因组学研究中的序列比对在基因组学研究中,序列比对是至关重要的技术之一。

它可以将已知基因组中的DNA序列与未知的DNA序列进行比较,从而揭示基因组之间的相似性和差异性,为基因功能研究和遗传变异分析提供基础信息。

1. 序列比对的基本原理序列比对的基本原理是将两个或多个DNA序列进行对齐,找出它们之间的相同和不同之处。

这个过程可以通过计算两个序列之间的编辑距离来完成,即计算出将一个序列转化为另一个序列所需的最小操作数,包括插入、删除和替换。

通过比较所有可能的序列对齐方案,可以找到最优的序列比对结果。

2. 序列比对的算法及应用目前,常用的序列比对算法主要包括Smith-Waterman和Needleman-Wunsch算法。

其中,Smith-Waterman算法是一种局部比对算法,适用于寻找两个序列之间的部分相似性。

而Needleman-Wunsch算法是一种全局比对算法,适用于寻找两个序列的整体相似性。

在基因组学研究中,这些算法经常被用于比较不同物种之间的基因组序列,鉴定功能作用未知的基因,以及寻找基因的保守区域和变异区域。

3. 序列比对的挑战和未来发展尽管序列比对技术在基因组学研究中起着至关重要的作用,但它面临着许多挑战和限制。

首先,随着大规模测序技术的不断发展,产生的序列数量不断增加,这给序列比对带来了巨大的计算压力。

其次,由于基因组间存在复杂的结构和变异,序列比对常常受到基序重复、插入缺失和剪接事件等多种因素的影响,导致结果不够准确和完整。

因此,未来需要通过不断改进比对算法和开发更高效的计算平台来应对这些挑战,并不断提高序列比对的准确性和可靠性。

4. 结语综上所述,序列比对技术是基因组学研究中的重要工具之一,它可以提供基因组序列的相似性和差异性信息,帮助我们深入了解物种之间的遗传关系和变异机制。

随着测序技术和计算平台的不断发展,序列比对技术也将不断完善,为基因组学和生命科学研究打下更加坚实的基础。

基因测序数据分析中的比对方法研究

基因测序数据分析中的比对方法研究

基因测序数据分析中的比对方法研究基因测序是现代生物学研究中的重要技术手段之一,它可以揭示生物的遗传信息,帮助科学家了解基因的结构、功能和相互关系。

在基因测序过程中,测序仪会生成大量的DNA片段序列,这些序列需要进行比对分析,以确定其原始基因组的位置。

本文将介绍基因测序数据分析中的比对方法的研究进展和应用。

比对方法是将已知基因组序列与测序数据进行相互比较的过程。

其中,基因组参考序列是已知的基因组序列,而测序数据则是通过测序仪生成的DNA片段序列。

比对的目标是确定测序数据片段在基因组序列上的位置,从而获得准确的基因组信息。

随着测序技术的进步,测序数据的规模和复杂度不断增加,因此需要高效、准确和可靠的比对方法。

目前,常用的比对方法包括散列比对、索引比对和重叠比对。

散列比对是将测序数据片段分割成小的特征序列(散列),然后将其与参考基因组序列的散列进行比对。

散列比对的优势在于速度快和内存占用小。

然而,散列比对在处理重复区域时可能会失去准确性,因为散列的冲突会导致误比对。

索引比对是将测序数据片段与已建立的参考基因组序列索引进行对比。

索引比对方法通常包括Burrows-Wheeler Transform(BWT)和FM索引。

索引比对方法具有高效、准确和可靠的特点,尤其适用于处理大规模测序数据。

然而,索引比对方法在内存消耗方面可能会有一些挑战。

重叠比对是将测序数据片段与参考基因组序列进行逐个对比,寻找序列片段之间的重叠区域。

这种方法可以处理重复区域,并提供准确的结果。

然而,重叠比对方法在处理大规模测序数据时的效率可能较低。

除了以上三种常见的比对方法外,还有一些新的方法正在被研究和开发,以提供更准确和高效的基因测序数据分析。

例如,基于图的比对方法,利用图的结构和算法来处理测序数据。

这种方法在处理重复区域和长读长(长于测序仪可读取的片段长度)时具有优势。

此外,在基因测序数据分析中,还可以结合一些质量控制和错误纠正的方法来提高比对结果的准确性。

基因组学中的基因组序列比对算法研究与效果评估

基因组学中的基因组序列比对算法研究与效果评估

基因组学中的基因组序列比对算法研究与效果评估概述基因组序列比对是基因组学研究中的一个重要步骤,它通过将一个或多个序列与一个参考序列进行比对,以寻找相似性和差异性。

基因组序列比对算法的发展和效果评估对于基因组学研究具有重要的意义。

本文将重点介绍基因组序列比对算法的研究进展和效果评估的方法。

算法研究进展基因组序列比对算法的研究始于20世纪末,随着DNA测序技术的快速发展和计算机性能的提升,研究者们提出了多种不同的基因组序列比对算法。

常见的基因组序列比对算法包括Smith-Waterman算法、Needleman-Wunsch算法和BLAST算法等。

Smith-Waterman算法是最早提出的序列比对算法之一,它通过动态规划的方法找到最佳比对。

该算法具有较高的准确度,但在处理大规模数据时速度较慢。

Needleman-Wunsch算法是另一种常用的序列比对算法,它与Smith-Waterman算法类似,但在计算过程中引入了空位罚分的概念,以考虑序列间的间隔。

该算法适用于全局序列比对,但对于大规模数据处理仍存在一定的局限性。

BLAST(Basic Local Alignment Search Tool)算法是一种基于近似比对的快速搜索算法,它通过预处理步骤和特定的搜索策略,在快速比对大规模数据时具有较好的效果。

BLAST算法在基因组学研究中得到了广泛的应用。

此外,随着测序技术的发展,短读序列比对算法也成为基因组研究中的热点。

常见的短读序列比对算法包括Burrows-Wheeler变换(BWT)和后缀树等。

这些算法通过优化存储和搜索策略,提高了短读序列比对的速度和准确度。

效果评估方法基因组序列比对算法的效果评估是对算法性能进行客观评价的重要手段。

以下是常用的效果评估方法:1. 准确度评估:准确度是衡量比对算法性能的重要指标。

通过对已知的比对结果进行验证,可以计算出比对算法的准确率、召回率和F1分数等指标。

同时,可以通过比对重复的基因组区域和比对退化的区域来评估算法的敏感性和特异性。

生物信息学中的序列比对算法分析

生物信息学中的序列比对算法分析

生物信息学中的序列比对算法分析在现代分子生物学中,序列比对是一项非常重要的任务。

生物学家通过比对不同物种间的DNA或蛋白质序列,能够更深入地理解生物界的进化和生物学功能。

序列比对经常被用于比较蛋白质序列,以揭示它们的相同区域和变异区域,从而推测功能、拼图蛋白质结构或阐明进化关系。

在生物信息学领域,一些高质量的序列比对算法被广泛采用,但其具体方法和适用范围是如何的呢?序列比对算法大致可分为全局比对和局部比对两种。

全局比对将整条序列进行对齐,相当于将两个序列定位到横坐标和纵坐标的原点上。

与之相对应的是局部比对,它只对序列中某一区域进行对齐。

全局比对通常用于比较两个具有高度相似性的序列,例如不同物种DNA序列的比对。

而局部比对则常用于比较代表同一蛋白质家族的蛋白质序列。

除了这两种基本的比对模式,还有一些更具特殊化应用的比对方法,比如开环比对、半开放比对等等。

全局比对的经典算法是Needleman-Wunsch算法,其基本思想是动态规划。

以两条DNA序列为例,算法可以计算处所有可能的匹配方式,并选择其中总分最高的一种。

该算法忽略了序列中的重复片段,不适用于两个序列有部分区域高度一致,而其他区域则存在较大差异的情况。

如果两条序列的长度非常不同,可能会出现计算过程时间复杂度增大并产生鲁棒性的问题。

相比之下,局部比对通常采用Smith-Waterman算法,用动态规划的方式找到两条序列中的片段匹配,其过程是在确定了一个匹配片段的前提下,向两侧扩展寻找更长的匹配片段。

Smith-Waterman算法的可变步长(gap)能力使其更新得比经典全局比对算法更好。

但由于算法计算量较大,因此无法执行大规模任务。

最发达的比对算法是BLAST(基础局部对齐搜索工具),它将参考序列和数据库中的查询序列分别分割成短段,只比对那些相似性较高的片段。

从而快速访问数据库并比对大量不同序列。

该算法大大降低了序列比对的计算时间,使比对过程能够在合理的范围内进行。

基于动态规划的序列比对算法分析与研究

基于动态规划的序列比对算法分析与研究序列比对算法是生物信息学中最基本的问题之一,可以对两个DNA、RNA或蛋白质序列进行比较,并找到它们之间的相似性。

其中最重要的算法之一就是动态规划。

本文将探讨基于动态规划的序列比对算法的原理、应用和发展。

一、动态规划的原理动态规划是一种解决多阶段决策问题的算法。

在计算机科学中,其主要思想是将问题划分为子问题,通过最优化子问题的解来优化整个问题的解。

在序列比对中,动态规划被应用于全局比对和局部比对两种情况。

全局比对就是将两个序列的每个字符都进行比较,比对整个序列,常常用于解决两个序列的相似度问题。

其中最常用的算法是Needleman-Wunsch算法。

该算法首先构建两个序列的比对矩阵,然后通过递推来计算矩阵中每个元素的比对得分。

最后,通过回溯算法来找到最佳比对方案。

该算法的时间复杂度为O(nm),n和m分别代表两个序列的长度。

局部比对允许对序列中的任意子序列进行比较,对于序列相似的区域进行比较更为方便,例如,用于发现两个序列间的相同结构区域。

最常用的算法是Smith-Waterman算法,其基本思想与Needleman-Wunsch算法相同,只不过在矩阵计算时将负得分归零,以避免算法中的“打分漂移”问题。

该算法的时间复杂度为O(nm)。

二、动态规划的应用动态规划在生物信息学中广泛应用于序列比对、基因本体分析、蛋白质结构预测等领域。

序列比对是其中最基本的应用之一。

序列比对不仅可以确定序列间的相似度,而且可以从已知序列中预测有关其功能、结构和进化的信息。

此外,序列比对技术还有助于辨别先前未知的基因、预测基因家族的成员和研究进化树。

另外,动态规划还可应用称作“变体跑龙套”的方式。

应用“变体跑龙套”技术,可以将序列比对问题转换为多重序列比对问题,即比对多个序列的模式。

这种技术通常用于新的基因或蛋白质家族的发现中,通过比较新家族的成员与已知的家族成员进行相似性分析。

三、动态规划的发展随着计算机技术的不断发展,动态规划算法的高效性得以提高。

dna比对原理

dna比对原理DNA比对原理。

DNA比对是一种通过计算机算法来比较两个或多个DNA序列的方法,以确定它们之间的相似性和差异性。

DNA比对在生物信息学领域中起着至关重要的作用,它可以帮助科学家们理解基因组结构、功能和进化,也可以帮助医学工作者诊断疾病、预测基因突变和进行个性化治疗。

本文将介绍DNA比对的基本原理和常用的比对算法。

DNA比对的基本原理是将两条或多条DNA序列进行比较,找出它们之间的相同和不同之处。

DNA序列是由四种碱基(腺嘌呤A、胸腺嘧啶T、鸟嘌呤G和胞嘧啶C)组成的,它们之间的排列顺序决定了DNA的信息。

在进行比对时,需要考虑到碱基的匹配、错配、缺失和插入等情况。

为了进行DNA比对,科学家们开发了许多不同的比对算法。

其中,最常用的算法包括Smith-Waterman算法、Needleman-Wunsch算法和BLAST算法。

Smith-Waterman算法是一种局部比对算法,它可以找出两条DNA序列之间的最佳局部相似性区域。

Needleman-Wunsch算法是一种全局比对算法,它可以找出两条DNA序列之间的最佳全局相似性区域。

BLAST算法是一种快速比对算法,它可以在大规模DNA数据库中快速搜索相似的序列。

DNA比对的过程通常包括序列预处理、比对算法选择、比对结果解读和结果可视化等步骤。

在序列预处理阶段,需要对原始DNA序列进行质量控制、序列去除、序列拼接和序列修复等操作,以确保比对的准确性和可靠性。

在比对算法选择阶段,需要根据比对的目的和数据规模选择合适的比对算法,以提高比对的效率和精度。

在比对结果解读阶段,需要对比对结果进行统计分析、功能注释和进化分析等操作,以揭示序列之间的生物学意义。

在结果可视化阶段,需要将比对结果以图表、热图和树状图等形式展示出来,以便研究人员和决策者进行直观理解和决策。

总之,DNA比对是一种重要的生物信息学方法,它可以帮助科学家们理解基因组结构、功能和进化,也可以帮助医学工作者诊断疾病、预测基因突变和进行个性化治疗。

生物信息学中的DNA序列分析与基因组比对算法优化研究

生物信息学中的DNA序列分析与基因组比对算法优化研究DNA序列分析与基因组比对是生物信息学中重要的研究方向之一,目的在于揭示基因功能、基因变异以及物种关系等方面的信息。

随着生物学实验技术的快速发展,大量的DNA序列数据被快速积累,这使得如何高效准确地进行DNA序列分析和基因组比对成为当前生物信息学研究的重要挑战之一。

在DNA序列分析中,常见的任务包括基因预测、蛋白质编码区的识别、DNA序列重复片段的识别,以及序列相似性比对等。

从基因预测角度看,DNA序列通常起源于测序实验,其中包含了许多嵌合的片段。

这就要求我们通过序列比对的方法来重新构建DNA片段的完整序列,以确定基因的位置和结构。

此外,DNA序列中可能存在大量的重复序列,这对进行基因组组装和基因预测造成了一定的困扰。

为了解决这一问题,研究人员开发了一系列的算法和工具,如BLAST、Exonerate 等,它们通过比对DNA序列与已知序列数据库中的序列进行相似性搜索,进而识别出基因序列和重复序列。

基因组比对是生物信息学中的另一个重要任务,其目的是找出两个或多个基因组间的相似性和差异性。

基因组比对可以揭示物种的进化关系、功能保守性以及基因组结构的变化等重要信息。

基因组比对的核心任务是找到最佳的匹配路径,即通过合理的算法和方法,使得匹配的基因组序列的长度最长且错配最少。

为了实现这一目标,研究人员开发了一系列的比对算法,如Smith-Waterman算法、BLAST算法、Needleman-Wunsch算法等,它们通过构建基因组序列间的匹配打分矩阵,然后利用动态规划或启发式的方法来寻找最优的比对路径。

然而,随着DNA序列数据量的快速增加,传统的DNA序列分析和基因组比对算法面临着一系列的挑战和限制。

首先,大规模的DNA序列数据加大了算法的计算复杂度和空间需求,使得传统算法的效率受到了限制。

其次,DNA序列的特定结构,如重复序列和嵌合片段,给算法的正确性和准确性带来了很大的挑战。

生物信息学中的基因定序与序列比对算法研究

生物信息学中的基因定序与序列比对算法研究生物信息学是一门利用计算机和数学工具来解决生物学问题的学科,它在研究生物系统的进化、序列分析、基因组学、蛋白质学等方面发挥着重要作用。

基因定序和序列比对是生物信息学领域中最基础、重要的研究方向之一。

本文将重点介绍基因定序技术和序列比对算法的研究现状和应用。

一、基因定序技术基因定序是指将一个生物体的基因组DNA序列或者RNA序列读取出来的过程。

基因定序技术的发展经历了多个阶段,从最早的Sanger测序到目前广泛使用的高通量测序技术。

在Sanger测序中,使用dideoxynucleotides (ddNTPs) 停止DNA合成的扩增反应,从而得到含有不同长度碱基的DNA片段,再通过电泳分离获得序列信息。

这一技术在20世纪80年代被广泛使用,但是其低通量、高成本和测序长度受限等问题限制了其应用。

为了克服这些问题,研究人员发展出了高通量测序技术,其中最重要的是Illumina公司的测序平台。

高通量测序通过同时测序多个DNA分子,使得测序速度大幅提高,并且大幅降低了测序成本。

另外,还有其他技术如Ion Torrent、Pacific Biosciences、Oxford Nanopore等也取得了重要的突破。

二、序列比对算法序列比对是将待比对的DNA或RNA序列与已知的参考序列进行对比,找出它们之间的相似性和差异性。

序列比对在生物信息学中有着广泛的应用,例如基因组装、蛋白质结构预测、区域变异检测等。

序列比对算法的研究旨在提高比对的精确性、速度和可扩展性。

在序列比对中,最简单的算法是精确匹配算法,即逐个比较待比对序列和参考序列的每一个碱基,找出相同和不同的碱基,计算相似性得分。

虽然该算法简单,但是在处理大规模的序列数据时,效率较低。

因此,研究人员提出了一系列优化算法,如Burrows-Wheeler Transform (BWT) 算法和Smith-Waterman 算法。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第24卷第1期 2008年2月 

大 学 数 学 

C()I I EGE MATHEMATICS Vo1.24,№.1 

Feb.2008 

DNA序列比对数目的算法研究 徐琛梅 , 刘晓杰 (1.河南大学数学与信息科学学院,开封475001;2.南开大学组合数学中心,天津300071) 

[摘 要]生物序列比对是生物信息学中非常重要的内容.文[1]中作者用差分方程理论给出了求两 DNA序列间比对数目的一个计算公式,然而解法较为繁琐.本文将借助于组合数学中母函数这一计数_T具给 出另一简单、优美的算法,并在此基础上剔除非生物比对,得到进一步的计算公式,这一结果缩小了需要考查 的比对范围. [关键词]DNA序列;序列比对;母函数;非生物比对 [中图分类号]TP301 [文献标识码]A [文章编号]1672—1454(2008)01—0100—04 

1 序列比对 生物信息学是由生物学、数学和计算机科学交叉形成的一个新兴学科.面对人类基因组计划产生的 庞大的分子生物学信息,生物信息学的重要性将越来越突出.由于数学和计算机科学的强大功能的合理 应用,这一学科的发展将为生命科学的研究带来革命性变革.DNA、RNA以及蛋白质序列比对 (Alignment)是生物信息学的重要研究内容之一.例如,可以通过对比不同物种序列的相似性判断它们 之间的同源性(Homologous),同源性较高的序列可能具有相似的三维结构和生物学功能,因此序列比 对的结果具有重要的生物学意义. 目前关于两DNA序列比对算法,较流行的有动态规划比对算法和数据库搜索算法.文[1]中作者 用差分方程方法给出了求两DNA序列比对数目的一个计算公式,然而算法较为繁琐.本文借助于组合 数学中的母函数方法,给出了一个简洁算法.并在此基础上,剔除非生物比对,得到了更简洁的计算公 式.这一结果缩小了需要考查的比对范围. 一个DNA序列的元素由A,C,G,T四种核苷酸组成.假定: X一(xl,z2,…, ),l,一(Yl,Yz,‘・‘, ) 分别表示长度为 和m的两个DNA序列,其中 , ,(i一1,2,…, ;J一1,2,…,m)均取四个核苷酸 A,C,G,T中的一个. 现在,我们要对比这两个序列的相似性,并确定它们残基间的对应.为了比较两序列对应位置上的 核苷酸,需要首先安排这些对应,任何一个保持序列中残基顺序的对应的安排就是一个序列比对,这种 安排允许 ’(gap)出现,但不允许一个序列中的‘。’直接与另一个序列中的 ’对应,这一规定保证了可 能出现的比对数目是有限的.例如:给定两个DNA序列z—TCGTACG和Y—TCACTGC,则下表是序 列z, 间的一个比对. 表1 序列z=TCGTACG和 =TCACTGC的一个比对 I T C G T A C G l T C A C T G C 

表中l-’表示插入和删除. [收稿日期]2006—02—07 [基金项目]新世纪高等教育教学改革工程本科教育教学改革立项项目(编号1283B01071) 

维普资讯 http://www.cqvip.com 第1期 徐琛梅,等:DNA序列比对数目的算法研究 1O1 两DNA序列X和y间可能出现的比对数目f(”, )满足如下的递推关系式[2]: 厂(”, )一厂(”一1, )+厂(”,m一1)+厂(”一1, 一1) (1) 及初始条件: -厂(0, )一厂(”,0)一1”, ∈{0,1,2,…}. (2) 上述递推方程有唯一确定的解,文献[1]应用差分方程理论给出了它的精确表达式: 

一 2 ( ), ㈦ 

然而,其求解过程较为繁琐,且不易推广.那么我们自然要问:是否有更简便的算法?这种算法能推广到 一般情况吗? 

2母函数解法 下面我们借助于母函数这一重要计数工具给出方程(1)和(2)的另一解法. 定义 设(n。,a ,n ,…,a,,…)是一序列事件的符号表示或者是一个数列,称函数 F( )一a0 o( )+al l( )+a2 2( )+…+Ⅱ ,(z)+… 为序列(n。,a ,a ,…,a,,…)的普母函数,简称母函数l3]. 其中 。( ), ( ),…, ,(z),…是一序列 的函数,称为指标函数.指标函数的选择应保证任意两 个不同的序列所生成的母函数亦不同,这里不妨取 的幂为指标函数(即:,ur( )一 ).由于 只是一个 形式变量,故毋须考虑级数的收敛性. 对每一”≥0,设序列(厂(”,0),厂(”,1),厂(”,2),…,厂(”, ),・・・)的普母函数为 F ( )一厂(”,0)+厂(”,1) +厂(”,2) +…+厂(”, ) +…, (4) 由方程(1)中的递推关系式,有 

H口 F ( )一_,’(”,0)一F 一】( )一f(”一1,0)+xF, ( )+xF 一l( ). 又由方程(2)中初始条件知:f(n,0)一厂(”~1,0)一1,从而上式可化为 

F ( )一 F ( ). (5) 由此可得 ( )一( )” 1. 显然,f(n, )就是F ( )幂级数表达式中z 项的系数.由 胁 一、 l +xI 1 ”c …l一奎

l=0 k =0( ) 

知 一 ( .㈣ 这样就得到了f(n, )的另一精确表达式. 显然,与文[1]方法相比较,上述解法是简单和优美的,并且对于更一般的带双指标的常系数线性递 推关系式(如:f(n, )一af(n一1, )+bf(n, 一1)+cf(n一1, 一1)+ 其中Ⅱ,b,f,d为常数)的求 解也是适用的. 

3进一步研究 由于递推方程(1)和(2)有唯一确定的解,因此首先说明f(n, )的表达式(6)和(3)是等价的.对 

z — m 一 聍 厂 ∑一 + 卅 — m 厂 一∑一 + m 一 厂 ∑一 ll m 厂 一∑一 维普资讯 http://www.cqvip.com 102 大 学 数 学 第24卷 F, ( )进行重新考查,由于 一( l+x)” 1一( + ) 1一[奎k=O 2 ( )( ) ][ 『] 

一[ +薹塞2 (是n,、[k+志一r- ) ][妻l=0 ], 从而 … i=l『- k=l

( 二 )]=mi 2 ( ). 

这样就得到了f(n,m)的精确表达式(3),也就是说,表达式(6)和(3)同是F ( )幂级数表达式中 项 的系数,因此两者等价,并且还可以看出:f(n,m)一f(m, ). 其次,上面的讨论中包含了序列问没有任何两个残基对准的比对,这样的比对是不具有生物意义 的,应当将其从比对数目中剔除,以便进一步缩小需要考查的比对数目的范围.以下将这类比对称之为 非牛物比对. 例如:给定两个DNA序列 —CGT和 —GACT,则下表就是这两个序列间的一个非生物比对. 表2 z—CGT和 —GACT的一个非生物比对 I — C G T 『 G A C T 

易见,两DNA序列X和y间的非生物比对数目g( ,m)满足如下递推关系式 g(n,m)一g(n。m一1)+g(n一1。m) 及初始条件 g(O,m)一g(n,0)一1, ,m∈{0,1,2,…}, 同样应用上述母函数解法可得 I +m、 g(n,m)一l 1. 

显然,g(n,m)一g(m, ).值得指出的是,这一结果亦可由排列组合方法获得. 最后,将非生物比对剔除,可以得到比对数目的进一步计算公式: 

… --g 一 ’( k). 4 结 论 (7) (8) (9) (10) 

在本文中,我们用母函数方法重新求解方程(1)和(2),得到了与文I-1-1不同的表达结果,并在此基础 上排除了非生物比对,缩小了需要考查的比对范围,得到了DNA序列比对数目计算公式,更精确地描 述了随着序列长度 和m的增加,可能出现的比对数目厂( ,m)的增长情况. 我们希望还可以进一步减小要考查的比对数目,例如,根据生物信息学的研究实际,增加对序列比 对的限制性条件,进而得到更加有效的比对范围,从而为设计序列比对算法和进行相应的算法复杂性分 析提供可靠的依据.这种算法可以和搜索算法结合,以缩短搜索过程. 

[参 考 文 献] Eli Torres A,Cabada A,Nieto J J.An exact formula for the number of alignments between tWO DNA sequences[J] DNA Sequence,2003,14(6):427—430. [2]Lange K.Mathematical and Statistical Methods for Genetic Analysis[M].New York:Springer-Verlag,2002. [3]Liu C I .Introduction tO Combinatorial Mathematics[M].魏万迪译.成都:四川大学出版社,1987. 

维普资讯 http://www.cqvip.com 第1期 徐琛梅,等:DNA序列比对数目的算法研究 1O3 Further Study about the Exact Formula for the Number of Alignments between Two DNA Sequences 

XU Chen—mei , L U Xiao-jie。 (1.Math,Dep,Henan University,Kaifeng 475001,China; 2.Center for Combinatorics and LPMC,Nankai University,Tianjin 30007 1,China) 

Abstract:Alignment is an improtant part of Bioinformatics.In the paper[1],the authors give an exact formu1a for 

the number of possible alignments using the theory of difference equations,However,its solution is complicated.In this 

short communication,we give another simple and graceful deduced means using a counting tool called generating function in combinatorial mathematics, and attain a farther exact formula for the number of alignments by weeding out the no—biological ones SO as to shorten the number, Key words:DNA sequence;Alignment;Generating function;No-biological alignment 

相关文档
最新文档