生物序列比对算法研究现状与展望

合集下载

生物信息学中的序列比对算法优化研究

生物信息学中的序列比对算法优化研究近年来，生物信息学领域在人们的日常生活中变得越来越重要。

特别是在基因领域，采集的数据量越来越大，需要使用更高效的技术来处理和分析数据。

作为生物信息学领域的一个重要部分，序列比对算法被广泛应用在基因序列分析、药物研发、疾病诊断和生态学研究等领域。

序列比对算法是一个将序列与一个参考序列进行比对的过程，通过比较两个序列的相似性，确定它们之间的关系。

序列比对的结果对于基因点突变分析和功能注释等重要应用非常关键。

随着测序技术不断发展，人们采集到的基因数据量不断增加，传统的序列比对算法逐渐无法满足需求，需要不断地进行优化。

在生物信息学中，序列比对算法的优化研究目的是提高算法的准确性和效率。

序列比对算法的准确性是指算法能够精准地找到两个序列之间的相似性。

而效率则是指尽可能地缩短序列比对的时间，降低计算成本。

因此，如何平衡准确性和效率成为序列比对算法优化的核心问题。

针对传统序列比对算法的问题，研究人员提出了许多优化算法和技术。

下面我们将分别从多序列比对算法、局部比对算法和并行优化算法这三个方面来介绍这些发展趋势。

多序列比对算法多序列比对算法是指将多个序列进行比对的过程。

与两个序列比对相比，多序列比对需要考虑更加复杂的情况，即如何在多个序列中找到最大的相似性。

传统的多序列比对算法主要有PileUp、ClustalW和T-Coffee等算法，但这些算法方法的时间复杂度很高，计算成本较大。

近年来，一些基于后缀树、哈希表和BWT(FM index)这些方法的多序列比对算法逐渐被提出。

局部比对算法局部比对算法是指在两个序列中找到最大相似区间的过程。

与全局比对相比，局部比对可以更快地找到序列中的匹配部分，因为其中一部分比较无用的部分没有比对。

BLAST（基于字典树和哈希表的找出完全匹配的序列）和Smith-Waterman算法（比对任意长度的相似性子序列）是常用的局部序列比对算法。

并行优化算法随着计算机硬件配置的不断升级，许多科学家和研究人员倾向于将计算任务分配给并行计算机或者集群计算机体系结构来提高算法的速度。

生物信息学中基因组序列比对算法的研究

生物信息学中基因组序列比对算法的研究随着人类基因组计划和生物科学的迅猛发展，越来越多的基因组数据被测序和存储。

而基因组序列比对作为生物信息学中的重要一环，对于分析基因功能、比较基因组进化和疾病诊断等都有着重要作用。

本文将深入探讨基因组序列比对算法的研究，包括算法原理、分类、优缺点等方面。

一、算法原理基因组序列比对算法是将一条读取序列（query）与参考基因组序列进行比对，并找出两者之间的差异，并尽力寻找最优匹配。

比对算法往往采用动态规划、哈希表匹配等算法，如常用的Smith-Waterman和Needleman-Wunsch算法。

其中，Smith-Waterman算法是基于动态规划算法，通过填表法寻找匹配最高分数的序列片段，而Needleman-Wunsch算法则是通过计算不同基本核苷酸的得分来计算序列之间的距离。

除了以上两种算法之外，在寻找最优匹配的过程中，还可以考虑到基因组序列中存在的一些特殊性质来加快比对速度。

例如，在基因组序列中存在着“大量重复和间隔分布”的规律，因此可以通过在匹配过程中跳过这些重复片段来优化算法。

一些算法，如BLAST等，就是基于将这些重复片段进行算法优化，使得比对速度更快。

二、分类基因组序列比对算法可以根据不同的特点进行分类。

1. 全局比对和局部比对全局比对法是将两个序列进行全局匹配，在全部匹配的过程中进行得分和比对。

相较之下，局部比对法则是选择两个序列中的相似片段进行匹配，并为这些片段打分。

两类方法各有优劣，全局比对法精度比较高，但计算速度比较慢，如Blastn、BLAT等。

局部比对法速度较快，但对于跨度较大的序列比对精度会降低。

2. 碱基精确匹配和近似匹配在基因组序列比对的过程中，会发生一些碱基替换、插入、删除等现象，因此需要区分碱基精确匹配和近似匹配。

精确匹配是指基因序列两端的碱基相同的情况，而近似匹配则是指碱基存在替换、插入、删除等情况。

针对这之间的区别，比对算法会采用不同的得分方式进行计算，如Blastn、BLASTp等。

生物信息学中的多序列比对算法研究

生物信息学中的多序列比对算法研究一、引言生物信息学是利用计算机及统计学方法来研究生物学问题的新兴领域。

在生物大数据时代，生物信息学的发展进入了一个快速发展的阶段。

在生物序列比对中，多序列比对（Multiple sequence alignment，MSA）是一个非常重要的问题。

多序列比对的研究及其算法的不断完善，对于研究生物学问题有着重要的意义。

二、多序列比对的定义多序列比对是指在多个序列之间查找相似性并对齐的过程。

在多种生物学研究中，多个同源或各异的序列的比对是相当常见和有意义的。

三、多序列比对的应用多序列比对在生物信息学中有着重要的应用，它可以用于以下几个方面：1. 生物系统学：由于多序列比对可以获得序列进化模型，因此多序列比对是解决生物系统学问题的重要工具。

2. 同源性分析：通过分析多序列比对结果，可以推断不同物种中相似序列的同源性，即是否来自于共同的祖先。

3. 结构预测：多序列比对可以用来预测蛋白质结构。

4. 动物分类学：由于时空因素影响，不同物种中的同源序列经过不同速率的进化，因此多序列比对的结果可以用于物种分类。

四、多序列比对的挑战多序列比对过程面临各种挑战，如序列长度、序列间差异、计算时间等。

序列长度：随着序列长度的增加，多序列比对算法的计算时间和空间开销也随之增加。

因此，序列长度的增加往往会给计算带来极大的压力。

序列间差异：多序列比对要求不同序列间具有相同或相似的部分，但同时要处理序列间差异性的问题，这增加了多序列比对的复杂度。

计算时间：多序列比对是一个复杂的计算问题，需要大量的计算时间和计算资源。

因此，如何降低计算时间和计算资源的开销也是多序列比对需要解决的问题。

五、多序列比对算法1. 基于局部比对的算法：局部比对算法是一种快速的多序列比对算法，该算法从每个序列的局部匹配开始，并在此基础上扩展。

其中，CLUSTALW算法就是一种基于局部比对的算法。

2. 基于全局比对的算法：全局比对算法是一种精确的多序列比对算法。

生物信息学中序列比对问题研究的开题报告

生物信息学中序列比对问题研究的开题报告【摘要】生物信息学中，序列比对是一项非常重要的工作。

序列比对能够帮助研究者分析与确认DNA或者RNA序列之间的相似性和差异性。

目前已经有各种不同的序列比对方法，但是这些方法还有不少问题需要解决。

本文旨在深入研究序列比对方法中的问题，并提出改进的方法。

【关键词】生物信息学；序列比对；相似性；差异性；方法改进。

【正文】1. 研究背景与意义随着基因组学、转录组学和蛋白质组学的迅速发展，生物信息学成为研究生物学的重要手段之一。

对于DNA或RNA序列的比对是生物信息学中非常重要的一部分，它能够帮助研究者寻找序列之间的相似性和差异性。

比对的结果可以用于进化分析、RNA翻译后修饰的预测、SNP定位、药物靶点预测等等。

因此，研究序列比对方法的问题，对生物信息学领域进一步的研究有着重要的意义。

2. 目前序列比对方法存在的问题目前，序列比对方法有全局比对和局部比对两种。

全局比对适用于相似性较高的序列，它比较耗时，但能找到最优解。

局部比对适用于较长序列之间的比对，它比较快，但不能找到最优解。

在实际应用过程中，常常会出现以下问题：（1）长序列的比对困难当比对的两个序列长度较长时，计算复杂度会非常高，耗费时间和资源较多。

如何加速比对过程，提高比对效率，是目前需要解决的问题之一。

（2）低质量序列的影响当一个序列的质量不高时，即存在非特异性碱基的干扰、复杂的多态性等问题，会严重影响序列比对的质量和准确性。

如何改善质量差的序列对比对结果的影响，是需要探索的问题。

（3）序列编辑对比对的影响序列编辑是指原本是一条序列被改成了两条序列。

这种情况很常见，如在基因重组技术中，一段DNA序列被切成了两段后重新连接。

在这种情况下，常常会出现多种不同的比对结果。

如何在序列编辑的情况下得到正确的比对结果，也是需要研究的问题。

3. 计划研究内容本文的研究内容包括以下方面：（1）算法改进针对长序列比对困难的问题，将研究现有的比对算法，并尝试提出更加高效的算法，以缩短比对时间、降低计算复杂度。

生物信息学中的DNA序列比对算法研究

生物信息学中的DNA序列比对算法研究DNA序列比对是生物信息学领域的重要研究内容之一。

利用DNA序列比对算法，我们可以比较两个DNA序列的相似性以及其之间的差异。

这对于研究基因组的结构和功能具有重要意义，同时也为疾病诊断和治疗等领域提供了基础。

DNA序列比对算法的研究主要包括全局比对和局部比对两类。

全局比对算法是指将两个DNA序列的整个长度进行比较，寻找两个序列之间的最佳匹配。

全局比对主要应用于已知比较相似的序列之间的比较，如物种的亲缘关系研究和基因组结构比较等。

最经典的全局比对算法是Needleman-Wunsch算法。

该算法采用动态规划的思想，将两个序列的比对问题划分为子问题，通过计算每个子问题的得分，最终得到两个序列之间的最佳匹配结果。

局部比对算法是指将两个DNA序列的一部分进行比较，寻找局部相似性区域。

局部比对主要用于未知比较相似的序列之间的比较，如寻找两个基因组中的同源序列和进行基因家族分析等。

其中最常用的局部比对算法是Smith-Waterman算法，也是基于动态规划的思想，但相对于全局比对，它允许出现负分数，进一步提高了比对的准确性。

此外，还有一类常用的DNA序列比对算法是快速比对算法，它的目标是在保证一定的准确性的同时，尽可能降低比对的时间复杂度。

BLAST（Basic Local Alignment Search Tool）是其中应用最广泛的快速比对算法之一。

BLAST算法利用了序列的局部相似性特征，通过预先构建数据库，将待比对序列与数据库中的序列进行比较，从而快速找到相似性较高的序列片段。

除了以上所提到的算法，还有一些较新的DNA序列比对算法也在不断被提出和探索。

例如，近年来，深度学习技术的发展为DNA序列比对带来了新的思路。

通过将神经网络用于DNA序列比对，可以在不同层次上学习序列之间的特征，并进行相似性比较。

此外，还有一些基于哈希技术的比对算法，如BLAT（BLAST-Like Alignment Tool），它通过对序列进行预先哈希处理，从而实现快速的比对。

生物信息学中的序列比对算法和软件研究

生物信息学中的序列比对算法和软件研究生物信息学是应用计算机技术和数据处理技术研究生命科学和医学领域的学科，是计算学、生命科学及其他交叉学科的结合体。

序列比对是生物信息学中最基础和最常用的技术之一，对于基因、蛋白质序列分析、新物种发现、基因家族分析等都有着不可替代的应用价值。

序列比对算法和软件的研究一直是生物信息学领域的研究热点之一，本文将以生物信息学中的序列比对算法和软件研究为核心，探讨其相关性，研究现状及未来趋势。

一、序列比对算法的相关性序列比对算法的研究涉及了多个学科，如数学、计算机科学、生物学等，其中对于计算机的数学算法要求较高。

序列比对算法实质是解决两个或多个序列之间的相似性比较，它们在生物学和医学等领域中的应用是非常广泛的。

序列比对不仅仅可以用来识别相似的DNA序列或RNA序列，而且还可以用来比对蛋白质序列。

序列比对算法包括全局比对和局部比对两种类型，全局比对是指将整个序列进行比对，对于长序列非常适用；局部比对是指比对序列的一部分，一般用来找出序列之间的局部相似性。

根据当前的应用情况，大部分生物信息学研究者更倾向于局部比对方法。

二、常用的序列比对算法和软件常用的序列比对算法有 Needleman-Wunsch算法、Smith-Waterman算法、BLAST算法和FASTA算法。

其中，Needleman-Wunsch算法和Smith-Waterman算法都属于动态规划算法，BLAST算法和FASTA算法则属于启发式搜索算法。

动态规划算法是用于全局比对的主要算法；而启发式算法则适用于局部比对。

序列比对软件的发展也非常迅速，目前主要的比对软件有BLAST、CLUSTAL、MAFFT、MUSCLE、T-Coffee和Geneious 等，这些软件在序列比对中的准确性、速度和易用性上都有着各自的特点。

三、序列比对算法和软件的研究现状在当前的序列比对研究中，需要解决的主要问题包括以下几个方面：1.算法的准确性序列比对算法最重要的指标就是准确性。

生物信息学中的基因组序列比对算法研究

生物信息学中的基因组序列比对算法研究基因组序列比对是生物信息学中一个重要的研究领域，通过比对不同个体的基因组序列可以帮助我们理解基因组的结构和功能，并揭示物种的进化历程、地理分布等信息。

基因组序列比对算法是在两个或多个序列之间找出相似性的方法，包括全局比对和局部比对两种类型。

下面是对基因组序列比对算法的研究的详细介绍。

1. 全局比对算法：全局比对算法是将两个序列的所有区域进行比对，以寻找最佳的匹配。

最著名的全局比对算法是Needleman-Wunsch算法，它基于动态规划的思想，通过构建一个二维矩阵来计算两个序列之间的相似度。

Needleman-Wunsch算法首先创建了一个矩阵，为每个序列中的每个字符分配一个得分。

之后，根据匹配、替代和缺失等操作，计算出两个序列的最佳比对结果。

算法将所有可能的比对路径都列出来，并计算每条路径的得分。

最终，选择得分最高的路径作为最佳比对结果。

2. 局部比对算法：局部比对算法是仅比对两个序列中的一部分区域，以找到相似区域的方法。

在基因组序列比对中，局部比对一般用于比对两个不同物种的基因组序列。

一种常用的局部比对算法是Smith-Waterman算法。

该算法基于动态规划的思想，通过构建一个得分矩阵来找出两个序列之间的最佳比对结果。

得分矩阵中的每个元素表示对应位置的比对得分。

算法首先为矩阵的第一行和第一列设定初始得分，然后通过计算匹配、替代和缺失等操作的得分，更新矩阵中的元素。

Smith-Waterman算法比较灵活，可以用于比对不同长度的序列，并找出最佳的局部相似性。

然而，由于计算复杂性的原因，该算法在处理大规模基因组序列时可能会变得非常耗时。

3. 近似比对算法：近似比对算法是用于处理基因组中的突变、插入或删除等变异情况的方法。

比对基因组序列时，常常会遇到比对不完全的情况，即序列在某些位置发生了变异。

近似比对算法可以通过允许一定数量的突变来找到最佳比对结果。

其中一种近似比对算法是BLAST算法（Basic Local Alignment Search Tool）。

生物信息学中多序列比对算法的研究与改进

生物信息学中多序列比对算法的研究与改进生物信息学是研究生物学领域中的大规模生物数据的收集、存储、处理和分析的一门学科。

其中，多序列比对是生物信息学中一个重要的任务，可以帮助我们理解生物序列的相似性和差异性，从而揭示生物进化、功能和结构的信息。

本文将介绍多序列比对算法的基本原理、常用的方法和一些改进策略。

多序列比对的基本原理是将多个生物序列在一定的比对模型下进行比对，找到它们之间的共有特征和差异。

而这种比对过程是通过构建一个比对矩阵来完成的，该矩阵记录了每对序列之间的相似性得分。

常用的比对模型包括全局比对、局部比对和连续比对。

全局比对是将所有序列从头至尾进行比对，适合于序列相似性较高且较短的情况。

常用的算法有Needleman-Wunsch算法和Smith-Waterman算法。

Needleman-Wunsch算法使用了动态规划的思想，通过计算不同序列位置之间的得分矩阵，找到最优的比对方案。

Smith-Waterman算法是对Needleman-Wunsch算法的改进，它引入了负得分以处理局部比对的情况。

局部比对是将序列的某个片段与其他序列进行比对。

这种比对方法适用于序列相似性低或存在插入/缺失的情况。

常用的算法有BLAST、FASTA和PSI-BLAST。

BLAST算法使用了快速查找的技术，先找到一些高度相似的序列片段，再进行进一步的比对。

FASTA算法也是通过生成比对矩阵来找到相似片段，但它比BLAST更加灵敏。

PSI-BLAST算法将多次比对与序列数据库的搜索相结合，用于找到蛋白质序列中的保守和演化区域。

连续比对是将序列中的一个或多个连续子序列与其他序列进行比对。

这种比对方法可用于寻找序列中的结构域和功能区域。

常用的算法有HMMER和COBALT。

HMMER算法使用了隐马尔可夫模型和HMM-profile来比对序列中的结构域，具有较好的准确性和灵敏性。

COBALT算法是一种基于Conserved Domain Database (CDD) 的比对方法，通过利用数据库中的结构域信息来找到序列中的结构域。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

生物序列比对算法研究现状与展望张　敏1,2(1.大连理工大学计算机科学与工程系,辽宁大连116024;2.大连大学信息工程学院,辽宁大连116622)Ξ摘　要:序列比对是生物信息学研究的一个基本方法,寻求更快更灵敏的序列比对算法一直是生物信息学研究的热点.本文给出了生物序列比对问题的定义,综述了目前常用的各类比对算法,并对每一类算法的优缺点以及应用范围进行了分析,最后指出序列比对算法目前存在的问题以及未来的发展方向.关　键　词:生物信息学;两序列比对;多序列比对;算法中图分类号:TP301 文献标识码:A 文章编号:100822395(2004)0420075205Current and prospect of bio 2sequence alignment algorithmZH ANG Min 1,2(1.Department of C om puter Science and Engineering ,Dalian University of T echnology ,Dalian 116024,China ;2.C ollege of In formationEngineering ,Dalian University ,Dalian 116622,China )Abstract :Sequence alignment is a basic and important tool in bioin formatics.The research of fast and sensitive biologysequence alignment alg orithm is a current hot topic of bioin formatics.This paper introduces a definition of sequence align 2ment ;as wellas the research advance of alignment alg orithms at present ,and describes the advantage and limit of the al 2g orithms and applicable stly ,the problems and development directions are pointed out.K ey w ords :bioin formatics ;pair 2wise alignment ;multiple alignment ;alg orithm随着人类基因组计划的实施,DNA 和蛋白质序列数据库的规模已呈指数增长,单纯依靠实验手段研究、理解这些生物大分子的生物意义已远远不能满足目前分子生物学发展的要求.生物信息学(Bioin for 2matics )作为一门综合运用分子生物学、数学和计算机等学科的理论和方法的交叉学科为阐明和理解这些海量数据所包含的生物意义提供了可能.序列比对是生物信息学研究的重要方法之一,它通过对DNA 和蛋白质序列进行相似性比较,指明序列间的保守区域和不同之处,为进一步研究它们在结构、功能以及进化上的联系提供了重要的参考依据.本文给出了生物序列比对问题的定义,综述了目前常用的各类比对算法,分析了每一类算法的应用范围,最后指出了序列比对目前存在的问题以及未来发展方向.1　序列比对问题的定义与分类定义:序列比对问题可以表示为一个五元组MSA =(∑’,S ,A ,F ),其中:(1)∑’=∑∪{-}为序列比对的符号集;“-”表示空位(gap );∑表示基本字符集,对于DNA 序列,∑={a ,c ,g ,t}代表4个碱基;对于蛋白质序列,∑由20个字符组成,每个字符代表一种氨基酸残Ξ收稿日期:2003207215基金项目:大连市科技计划项目(2002年)作者简介:张　敏(1966-),女,副教授,博士生.第25卷　第4期2004年8月大连大学学报J OURNA L OF DA LI AN UNI VERSITY Vol.25　No.4Aug.　2004基;(2)S ={S 1,S 2,…,S N }为序列集,其中S i =(c i 1,c i ,2,…,c iL i)T ,c ij ∈∑,L i 为第i 个序列的长度;(3)矩阵A =(a ij )N ×M ,(M ≥max{L 1,L 2,…,L N },a ij ∈∑′是序列集S 的一个比对结果,其中:矩阵的第i 行是参与比对的第i 个序列的扩张序列(即插入空位的序列,如果移去所有的“-”将得到原来的序列);矩阵中的每一列不允许同时为“-”;(4)F 是比对A 的相似性度量函数,用来表示比对A 中各扩张序列的相似度;(5)序列比对问题MSA 就是通过适当的空位插入,构建一个使得相似性度量函数F (A )达到最大的比对A.序列比对问题实质上是个组合优化问题,为了容易处理,目标函数通常选用WSP (Weighted sum 2of 2pairs )度量F (A )=∑N i =1∑Nj =1w i jS (S i ,S j ),其中:w ij 是第i ,j 两个序列间的权重,S (S i ,S j )是两个序列比对的相似分值.由上述定义可知:序列比对问题就是通过适当的空位插入来模拟生物分子进化过程中的突变现象,寻找保守区域,以反映它们间的进化关系,为两个或多个序列的残基之间的相互关系提供了一个非常明确的关系图谱(图1). 1C LFAYKI ADSC VSCG A --C ASECPVNAIS QG DSIFVI DADT CI DCG ------NC ANVCPVG APVQE -- 1FC AAY VI NE ACISCG A --CEPECPVDAIS QGG SRY VI DADT CI DCG ------AC AG VCPVDAPVQA -- 1BLUA LMIT DECI NC DV --CEPECPNG AIS QG DETY VIEPS LCTEC VGY HYETS QC VE VCPVDCIIK DPS FER -BACSCAY VITEPCIG TK DASC VE VCPVDCIHEGE DQYYI DPDVCI DCG ------ACE AVCPVS AIY HE DF FER -BUT ME AYKIT DECI ACG S --C ADQCPVE AISEG -SIYEI DE A LCT DCG ------AC ADQCPVE AI VPE D -图1　多序列比对序列比对类型可以从两个不同角度来划分:一是从序列个数,序列比对可分为两序列比对和多序列比对;另一个是从比对范围,可分为从头到尾全程比较的全局比对,和只考虑部分区域相似性的局域比对.2　两序列比对(pair 2wise alignment )算法2.1　两序列比对的动态规划算法到目前为止,两序列比对问题已基本解决,标准方法是采用可以保证得到一个数学优化的比对结果的动态规划比对算法[1].两序列的动态规划比对算法是多序列比对的重要理论基础.动态规划比对算法具体如下:对于长度分别为n ,m 的序列A (a 1,a 2,…a n )和B (b 1,b 2,…b m ),其比对过程可用一个以序列A 为列,B 为行的(n +1)3(m +1)二维矩阵来表示(图2).每个单元的评价值可由(1)式递归计算,其中g (k )=u +kv 是连续k 个gap 的空位罚分,s (a i ,b j )是两个残基的相似度.D i ,j =max{max k {D i ,j -k -g (k )},max l{D i -l ,j -g (l )},D i -1,j -1+s (a i ,b j )}(1)图2　两个序列A ,B 的动态规划比对算法其中,u =0,v =1,若a i =b j ,则s (a i ,b j )=2,否则s (a i ,b j )=-1.　76　大连大学学报第25卷从右下单元到左上单元回溯最佳路径(由箭头表示),路径中每个单元的评价值是根据前面各单元的评价值决定的.最后,根据最佳路径从左上到右下给出两序列的比对结果.若箭头为对角线,则在比对后的序列中,两个残基相对应.若箭头为水平方向,则在A 序列的相应位置插入一个“-”.若箭头为垂直方向,则在B 序列的相应位置插入一个“-”.比对结果可能不唯一,如图2中,序列A ,B 有三个最优比对结果,每个比对结果有三个保守残基被对齐(大写字符).和全局比对算法不同,序列局域比对所要寻找的是两条序列中相似性最大的子序列.寻求局域比对可能会发现若干重要的保守区域.Smith 2Waterman 算法[2]是一个局域比对算法,它规定矩阵单元值为负者一律取0,加入这一项是为了确保计算中丢弃得分为负值的子序列的比较,因为分值为负的比对丧失了比对的生物学意义.在计算完矩阵后,找出矩阵的最大分值.通过回溯法,从最大分值单元开始回溯到分值为0的单元为止,确定局域比对路径,构建局部最优比对.2.2　两序列比对的数据库相似性搜索两序列比对的一个主要目的是进行数据库相似性搜索,FAST A 和BLAST 是最常用的数据库搜索程序,均采用局域比对方法.FAST A [3]是第一个广泛使用的数据库相似性搜索程序.这是一种启发式算法,其基本思想是:一个能够揭示出真实的序列关系的比对至少包含一个两个序列都拥有的字(由连续字符组成的子序列),把查询序列中的所有字编成索引,然后在数据库中查询这些索引字.FAST A 程序并不研究每一个选中的字,而是寻找包含若干个相邻的选中片段,将这些片段组合起来予以评价;然后,那些最有可能的匹配序列将会通过局域比对而被进一步评分,并对每一个检索到的比对提供一个统计学显著性的评估.BLAST [4]是目前使用最广泛的数据库搜索算法,其基本思想是:通过产生数量较少,但质量更好的匹配片段来提高搜索速度,并把数据库搜索建立在严格的统计学基础之上.其算法描述如下:首先是在数据库中找出与查询序列相同的匹配字串(hit ),且这一局部字串中不含空位;一个匹配字串选中后,以此作为内核向两端延伸,以找出尽可能长的相似序列片段,也即高分片段对HSP (high sequence pairs );设定一个统计显著性阀值E ,统计显著性大于E 的HSP 将被舍弃,剩下的HSP 即为高质量的匹配片段对,由此在数据库中搜索出具有一定可信度的同源序列.3　多序列比对(multiple alignment)算法从理论上来说,两序列的动态规划比对算法可以推广到多序列比对中去,但现已经证明:基于SP 度量的多序列比对是一个NP 问题[5].实际上,除了个数较少,序列较短的比对问题外,多序列比对基本上都是采用启发式算法.本文重点介绍目前国际上最具代表性的两类算法:渐进比对和迭代比对算法.3.1　渐进比对(Progressive alignment)算法渐进比对是最常用的多序列比对方法,其基本思想是:要比对的序列是进化相关的,因此可以按着序列的进化顺序,由近至远将序列或子比对结果按双重比对(pair 2wise alignment )算法逐步进行比对,重复这一过程直到所有序列都加入为止.这类算法的主要优点是:简单、快速;缺点是:在比对初期引进的空位插入错误无法在比对后期因加入其它序列而改正,易于陷入局部最优解.Clustral W 是一个使用最广的渐进比对程序[6],其具体算法为:①对所有序列进行两两比对,并由此计算出距离矩阵;②基于距离矩阵,利用N J 方法构建指导树;③依据指导树的分支顺序,由关系最近的两个序列开始进行比对,出现在比对中的空位保持固定不变;由近至远,逐步添加序列,直到所有序列全部加入为止.Clustal W 对于亲缘关系较近的序列比对效果较好,但是对于分歧较大的序列,比对的准确率明显降低.T 2C offee 是另一个有代表性的渐进比对算法[7],它的主要特点是将序列的两两局域及全局比对结果收集在一起,做成一个扩展比对信息库.再利用扩展比对信息库中提取的信息取代替代矩阵进行渐近比对,使得在每一步渐近比对过程中用到的是所有序列之间的关系信息,而不只是仅考虑当前要比对的序列信息,从而在一定程度上提高了比对准确率,尤其是对于存在大量空位插入的情况,效果更为明显.　第4期张　敏:生物序列比对算法研究现状与展望77　DI A LIG N算法[8]是基于片断-片断的局域多序列比对算法,它首先找出无空位的保守片段对(相当于点矩阵中的对角线);然后为每一保守片段对赋予一个权重W用以评价其生物意义,并找出具有最大加权总和的相容片断对搜集(consistent collection of diag onals),这些片段对满足相容性准则,即这些片段对可以被排序,而不会相互重叠;利用贪婪法将对角线依据分值高低逐步联配(assemble)成多序列比对;在序列中加入空位直到所有对角线相关的残基都被适当安置.DI A LIG N算法一改以往比对算法中残基-残基的比较方式,而是采用基于片断-片断的比较方法,即在相对保守的片断基础上再进行多序列比对.由于以保守片断作为考虑问题的出发点,自然形成比对的空位位数及空位位置,从而避免了序列比对中的一个最为困扰的问题:空位罚分的设定.3.2　迭代比对(Iterative alignment)算法迭代比对是另一类有效的多序列比对策略,它基于一个能产生比对的算法,并通过迭代方式精细(re2 fine)多序列比对,直到比对结果不再改进为止.这类算法不能提供获得优化比对结果的保证,但却具有鲁棒性和对比对序列个数不敏感等特性.基于遗传算法的多序列比对S AG A算法[9]将序列集中不等长的序列以两端加空位方式补齐,构造初始群体中的个体;共设有交叉,加空位,移动空位等22个遗传算子,并根据上一代算子所起的作用,给其以一定的权值,根据权值的大小动态决定这一代是否使用该算子;选用WSP度量作为适应度函数.该算法的优点是:可以对任意多个序列同时比对,而不会受到限制.主要缺点是速度慢,易于陷入局域优化解.Prrp这是一个著名的迭代比对算法[10],其基本思想是:将一个序列集随机地分为两组,然后用双重动态规划比对算法再将这两组序列合并起来(图3).对于不同的随机分组重复这种两组比对过程,直到满足终止条件为止.具体算法为:从一个多序列比对开始(这一比对可以由任意简单方法而得到,并做为这个算法的种子),以该比对中任意两个序列的距离构造一棵系统发育树,并计算所有序列的的权重;以WSP分值优化两组比对;再以该比对作为种子重复进行上述过程,直到权重W收敛为止.图3　两组序列的动态规划比对算法图4　Muscle算法的三个组成部分 Muscle算法[11]以系统发育树作为分组依据,使得分组迭代更为合理,该算法主要由三部分组成(图4):首先初步、快速地利用渐进比对算法构建一个多序列比对结果MS A1;然后以这个比对为基础,计算两两序列的距离,重新用渐进比对算法构建多序列比对MS A2;最后根据指导树的分支点,将序列分为两组(profile),通过重新比对这两个profile,构建一个新的多序列比对MS A3,若该比对的SP分值有改善则保留,否则删除该比对结果;重复执行第三部分,直到满足事先规定的结束条件为止.由于有导向的分组,使得Muscle算法的准确率高于Prrp.4　目前存在的问题及未来的发展方向序列比对是生物信息学的一个基础而又重要的问题,也是生物信息学中的一大难题.虽然人们已提出大量的比对方法,但是对于分歧较大的序列,比对的准确率以及算法的时间复杂度都有待于提高.目前,序列比对中存在的主要问题在于:如何给出一个合理的优化的相似性度量准则以及如何提高分歧多序列比对的准确率.序列比对问题未来的发展方向是基因组比较.当前,人类、果蝇、拟南芥等基(下转第82页)是否能很好地反映心脏的功能状态和体质水平,还有待于进一步的研究.本实验通过心电向量揭示了运动训练对心脏的某些影响,作为反映心血管功能的灵敏指标,在运动医学中具有广泛的应用价值.但目前还需要大样本人群的测试数据来建立正常值和有关运动员选拔、运动员训练状态的检测指标,以充分发挥心电向量在运动医学和运动生理学中的作用.参考文献:[1]黄宛.临床心电图学,第5版[M].北京:人民卫生出版社,1998;5512555.[2]尹炳生.常规临床心电图学与头胸导联[J].中国循环杂志,1991;6(1):75278.[3]Lu Weixue and X iaLing,C omputer S imulation of E picardial P otentials Using A Heart T ors o M odel With Realistic G eometry[J].IEEET ransaction on BME,1996;43(1):227.[4]Wis on.On distribution of the potential differences producted by the heart beat within the body and at its surface[J].Am.Heart J,1930;5(3):5992602.[5]藏益民,朱妙章,牛国保,等.临床心血管生理学及其进展[M].北京:世界图书出版公司,1993;2812285. (上接第78页)因组的全序列已被测定,还有许多生物的基因组测序工作正在进行之中,分子进化研究将不再局限于某些序列片段的比较,而将在基因组水平进行比较.而如何科学地进行基因组的比较将是一个更为巨大的挑战.参考文献:[1]NEE D LE M AN S B,W UNSCH,C D.A G eneral method applicable to the search for similarities in the amino acid sequence of tw o pro2teins[J].J.M ol.Biol.1970,48:4432453.[2]S MITH T F,W ATERM AN M S.Identification of comm on m olecular sequences[J].J.M ol.Biol.1981,147:1952197.[3]LIP M AN D J,Pears on W R.Rapid and sensitive protein similarity searches[J].Science..1985,227:143521441.[4]A LTSCH U L S F,GISH W MI LLER W,MYERS E W,LIP M AN D J.Basic local alignment search tool[J].J M ol Biol.1990,215:4032410.[5]W ANGL,J I ANG T.On the complexity of multiple sequence alignment[J].J.C omput.Biol.1994,1(4):3372348.[6]TH OMPOS ON J D,GI BS ON T J,HIGGI NS D.C LUST A L W:improving the sensitivity of progressive multiple sequence alignmentthrough sequence weighting position2specific gap penalties and weight matrix choice[J].Nucleic Acids Res.1994,22:467324680. [7]NOTRE DAM A C,HIGGI NS D G,HERI NG A J.T2C OFFEE:a novel method for fast and accurate multiple sequence alignment[J].J.M ol.Biol.2000,302:2052217.[8]M OTRE DAM A B.DI A LIG N2:improvement of the segement2to2segment approach to multiple sequence alignment[J].Bioin formatics.1999,15(3):2112218.[9]NOTRE DAM A C,DES MI ND G.Higgins.S AG A:sequence alignment by genetic alg orithm[J].Nucleic Acids Research.1996,24(8):151521524.[10]G OH OT O.S ignificant improvement in accuracy of multiple protein sequence alignment by iterative refinement as assessed by referenceto structural alignment[J].J.M ol.Biol.1996,264:8232838.[11]E DG AR R C.Muscle:multiple sequence alignment with high accuracy and high throughput[J].Nucleic Acids Res.,2004,32:179221797.。