生物信息学中的序列比对算法

合集下载

生物信息学中的序列比对算法原理与实践

生物信息学中的序列比对算法原理与实践序列比对是生物信息学中常用的基本技术之一，用于在生物学研究中比较两个或多个生物序列的相似性和差异性。

在分子生物学和基因组学等领域中，序列比对被广泛应用于基因分析、蛋白质结构预测、物种分类、进化分析以及新基因和功能区域的发现等重要任务。

本文将介绍序列比对算法的基本原理和常用实践技术。

序列比对算法的基本原理序列比对的目标是找到两个序列之间的匹配部分，并根据匹配的相似性和差异性进行评分。

序列比对算法的基本原理主要有两种方法：全局比对和局部比对。

全局比对算法（例如Needleman-Wunsch 算法）是一种通过将匹配、不匹配和间隙等操作分配给两个序列的每个字符来寻找最佳比对的方法。

它能够比较整个序列的相似性，但对于较长的序列来说，计算量较大，因此对于较短的序列和相似度较高的序列，全局比对更为合适。

局部比对算法（例如 Smith-Waterman 算法）则通过寻找两个序列中的最佳子序列来找到最佳比对。

该算法适用于较长的序列和不太相似的序列，因为它只关注相似的区域。

局部比对算法能够发现序列中的重复结构和片段，对于在序列之间插入或缺失元素的情况下非常有用。

序列比对算法的实践技术在实践应用中，为了处理大规模的序列数据并提高比对效率，还发展出了一些改进和优化的序列比对算法和技术。

1. 基于哈希表的算法：这种方法通过构建哈希表来加速相似性搜索。

算法将序列切分成较小的片段，并将每个片段哈希为独特的数字，然后根据相似性检索相关的哈希数字。

这种方法能够快速找到相似的序列片段，并进行比对和匹配。

2. 快速比对算法：这些算法通过减少比对的搜索空间或采用启发式的策略，来降低比对的计算复杂度。

例如，BLAST（Basic Local Alignment Search Tool）算法通过提取关键特征，如k-mer或频繁子序列，将序列比对问题转化为查找数据库中相似序列的问题。

3. 并行比对算法：随着计算机科学的发展，利用并行计算技术可以大幅提高比对效率。

生物信息学中的序列比对算法及其性能分析

生物信息学中的序列比对算法及其性能分析序列比对是生物信息学中一项重要的任务，用于比较两个或多个生物序列之间的相似性和差异性。

序列比对算法是根据一定的准则和规则，找出序列之间相同的部分，从而揭示它们的结构和功能关联。

在生物信息学研究中，序列比对算法的准确性和效率对于生物学研究具有重要意义。

在生物信息学中，序列比对算法的应用非常广泛，涵盖了DNA、RNA和蛋白质序列的比对。

序列比对算法主要分为全局比对和局部比对两种类型。

全局比对算法会比较整个序列的完全匹配，局部比对则只比较序列片段的部分匹配。

常见的全局比对算法有Smith-Waterman算法，而局部比对算法中最著名的是BLAST算法。

Smith-Waterman算法是一种经典的全局比对算法，通过动态规划方法来寻找两个序列之间的最佳匹配。

该算法将序列比对问题转化为一个图论问题，通过构建匹配得分矩阵和回溯路径，找到最佳的序列比对结果。

Smith-Waterman算法的核心思想是通过逐个比较序列的每个字符来计算得分矩阵，并根据得分矩阵来确定最佳的序列比对结果。

尽管Smith-Waterman算法非常准确，但由于计算复杂度较高，在处理大规模序列时效率较低。

局部比对算法中，BLAST算法是最常用的一种。

BLAST算法使用快速比对技术，通过构建预处理的索引库和查询序列进行快速匹配。

该算法首先构建查询序列和数据库序列的索引，然后利用快速匹配方法，在索引库中寻找匹配候选序列，最后通过精细比对来确定最佳的序列匹配结果。

BLAST算法的高效性得益于其索引库的构建和匹配算法的优化，使得它在处理大规模生物序列时具有较高的速度和准确性。

序列比对算法的性能分析是评估算法优劣的重要手段。

性能分析包括比对准确性、比对速度和存储空间消耗等指标的评估。

比对准确性是判断算法结果是否与实际序列相符的关键指标，一般通过比对得分来评估。

比对速度则是评估算法处理速度的指标，通常以每秒比对的序列数来衡量。

生物信息学中的序列比对算法分析与优化

生物信息学中的序列比对算法分析与优化序列比对是生物信息学中一项重要的技术与方法，用于研究生物序列之间的相似性和差异性。

比对的准确性和效率直接影响到后续的功能注释、进化分析和结构预测等生物学研究。

本文将对生物信息学中的序列比对算法进行分析与优化，探讨不同算法的原理、优缺点以及改进方法。

一、序列比对算法的原理序列比对算法的基本原理是通过寻找序列之间的共同特征来衡量它们之间的相似性。

常用的序列比对算法包括全局比对、局部比对和多序列比对，采用的算法包括动态规划、贪心算法和快速搜索算法等。

1. 全局比对全局比对算法用于比较两个序列的整个长度，并给出最佳的匹配结果。

最常用的算法是Needleman-Wunsch算法，其基本思想是通过动态规划的方法，计算出一个最优的比对方案。

全局比对适用于两个序列相似度较高的情况，但计算复杂度较高，对大规模序列比对不太适用。

2. 局部比对局部比对算法用于比较两个序列的一部分，并给出最佳的局部匹配结果。

最常用的算法是Smith-Waterman算法，其基本思想是通过动态规划的方法，计算出所有可能的局部比对方案，并选择得分最高的方案作为最佳匹配结果。

局部比对适用于两个序列相似度较低的情况，可以发现较短的共同片段。

3. 多序列比对多序列比对算法用于比较多个序列之间的相似性，常用于进化分析和亲缘关系推断等研究。

最常用的算法是CLUSTALW算法，其基本思想是通过多次的全局比对和局部比对，逐步构建多个序列的比对结果。

二、序列比对算法的优缺点不同的序列比对算法在准确性、效率和适用范围等方面有不同的优缺点。

1. 全局比对的优缺点全局比对算法可以找到两个序列的所有匹配段，准确度高；但计算复杂度高，对于大规模序列比对的时间和空间开销较大。

2. 局部比对的优缺点局部比对算法可以找到两个序列的相似片段，准确度高；但由于需要计算所有可能的局部比对，计算复杂度较高，对于大规模序列比对的时间和空间开销较大。

生物信息学中的序列比对算法及评估指标比较

生物信息学中的序列比对算法及评估指标比较序列比对是生物信息学中非常重要的工具之一，用于分析和比较生物序列的相似性和差异。

序列比对是理解生物进化和功能注释的关键步骤，在基因组学、蛋白质学和遗传学等领域都有广泛应用。

本文将介绍序列比对的算法原理和常用的评估指标，并对几种常见的序列比对算法进行比较。

一、序列比对算法1.全局比对算法全局比对算法用于比较整个序列的相似性，常见的算法有Needleman-Wunsch 算法和Smith-Waterman算法。

这两种算法都是动态规划算法，其中Needleman-Wunsch算法用于比较两个序列的相似性，而Smith-Waterman算法用于寻找局部相似的片段。

这些算法考虑了序列的整体结构，但在处理大规模序列时计算量较大。

2.局部比对算法局部比对算法用于找出两个序列中最相似的片段，常见的算法有BLAST （Basic Local Alignment Search Tool）算法和FASTA（Fast All）算法。

这些算法以快速速度和高敏感性著称，它们将序列切割成小的段落进行比对，并使用统计模型和启发式搜索来快速找到最佳匹配。

3.多序列比对算法多序列比对算法用于比较多个序列的相似性，常见的算法有ClustalW和MAFFT（Multiple Alignment using Fast Fourier Transform）算法。

这些算法通过多次序列比对来找到共有的特征和区域，并生成多序列的一致性描述。

二、评估指标1.一致性分数（Consistency Score）一致性分数是衡量序列比对结果一致性的指标，它反映了序列比对的精确性和准确性。

一致性分数越高，表示比对结果越可靠。

常用的一致性分数有百分比一致性（Percentage Identity）和序列相似度（Sequence Similarity）。

2.延伸性（Extension）延伸性是衡量序列比对结果的长度的指标。

生物信息学中的基因组序列比对算法

生物信息学中的基因组序列比对算法生物信息学是一门研究生物数据的组织、分析和解释的学科，而基因组序列比对是生物信息学中的一项重要工作。

随着测序技术的飞速发展，已经可以获得大规模的基因组序列数据。

对这些海量数据进行比对，可以帮助科研人员更好地理解基因组的结构和功能，寻找与遗传疾病相关的基因变异，以及探索物种演化的关键基因。

基因组序列比对是指将已知的基因组序列与未知的基因组序列进行比较，找出相似的部分并进行对应的分析。

这个过程旨在寻找两个序列之间的共有特征，甚至找出它们之间的差异。

为了实现这个目标，生物信息学中发展了许多基因组序列比对算法。

本文将介绍几种常用的基因组序列比对算法和它们的特点。

1. Smith-Waterman算法：Smith-Waterman算法是最常用且最经典的基因组序列比对算法之一。

该算法的主要思想是通过动态规划的方式，找出两个序列之间的最优匹配。

它考虑了每个位置的匹配得分、插入得分和删除得分，并计算出匹配的最大得分。

然后，根据得分矩阵的反向路径，将匹配的结果进行回溯和确认。

Smith-Waterman算法的优点在于它能够找到最优的匹配结果，但缺点是计算复杂度较高，对于长序列的比对可能需要很长时间。

2. BLAST算法：BLAST（Basic Local Alignment Search Tool）算法是基因组序列比对中最常用的算法之一。

与Smith-Waterman算法相比，BLAST算法采用了一种快速比对的策略，以减少计算的时间复杂度。

BLAST算法首先将序列按照k-mer（由k个连续核苷酸组成的子串）进行分割，并将其转化为哈希表格式存储。

然后，在查询阶段，BLAST算法将查询序列的k-mer与目标序列的k-mer进行比较，从而找到相似的片段。

最后，根据相似片段的得分和位置信息，生成比对结果。

BLAST算法的优点是比较快速，但可能会因为基于k-mer的比对策略而丧失一些准确性。

生物信息学中的基因组序列比对算法

生物信息学中的基因组序列比对算法1. 引言生物信息学是研究生物学信息的存储、分析和应用的学科，其中基因组序列比对算法是重要的研究方向之一。

基因组序列比对是将一个序列与一个或多个目标序列进行比较，以寻找相似性和差异性的过程。

本文将介绍生物信息学中常用的基因组序列比对算法，包括Smith-Waterman算法、Needleman-Wunsch算法和BLAST算法。

2. Smith-Waterman算法Smith-Waterman算法是一种动态规划算法，可以用于比对两个序列之间的相似性。

它的基本思想是通过构建一个得分矩阵，计算两条序列中各个位置之间的得分，然后根据得分确定最佳比对。

具体步骤如下：(1) 构建一个得分矩阵，矩阵的行和列分别表示两条序列的每个字符。

(2) 初始化得分矩阵，将第一行和第一列的得分设为0。

(3) 根据特定的得分规则，计算得分矩阵中每个位置的得分。

得分规则可以根据具体情况进行调整，常见的得分规则包括替换得分、插入得分和删除得分。

(4) 从得分矩阵中找出最高得分的位置，得到最佳比对的结束位置。

(5) 追溯最佳比对的路径，得到最佳比对的开始位置。

Smith-Waterman算法的优点是可以寻找到最佳比对的局部相似性，适用于比对包含插入或删除的序列。

3. Needleman-Wunsch算法Needleman-Wunsch算法是一种全局序列比对算法，通过构建一个得分矩阵和得分规则，计算两个序列的全局相似性。

具体步骤如下：(1) 构建一个得分矩阵，矩阵的行和列分别表示两条序列的每个字符。

(2) 初始化得分矩阵，将第一行和第一列的得分设为特定值。

(3) 根据特定的得分规则，计算得分矩阵中每个位置的得分。

(4) 从得分矩阵中找出最高得分的位置，得到最佳比对的结束位置。

(5) 追溯最佳比对的路径，得到最佳比对的开始位置。

Needleman-Wunsch算法的优点是可以寻找到全局最佳比对，适用于比对两个序列之间的整体相似性。

生物信息学中的基因组序列比对算法研究

生物信息学中的基因组序列比对算法研究基因组序列比对是生物信息学中一个重要的研究领域，通过比对不同个体的基因组序列可以帮助我们理解基因组的结构和功能，并揭示物种的进化历程、地理分布等信息。

基因组序列比对算法是在两个或多个序列之间找出相似性的方法，包括全局比对和局部比对两种类型。

下面是对基因组序列比对算法的研究的详细介绍。

1. 全局比对算法：全局比对算法是将两个序列的所有区域进行比对，以寻找最佳的匹配。

最著名的全局比对算法是Needleman-Wunsch算法，它基于动态规划的思想，通过构建一个二维矩阵来计算两个序列之间的相似度。

Needleman-Wunsch算法首先创建了一个矩阵，为每个序列中的每个字符分配一个得分。

之后，根据匹配、替代和缺失等操作，计算出两个序列的最佳比对结果。

算法将所有可能的比对路径都列出来，并计算每条路径的得分。

最终，选择得分最高的路径作为最佳比对结果。

2. 局部比对算法：局部比对算法是仅比对两个序列中的一部分区域，以找到相似区域的方法。

在基因组序列比对中，局部比对一般用于比对两个不同物种的基因组序列。

一种常用的局部比对算法是Smith-Waterman算法。

该算法基于动态规划的思想，通过构建一个得分矩阵来找出两个序列之间的最佳比对结果。

得分矩阵中的每个元素表示对应位置的比对得分。

算法首先为矩阵的第一行和第一列设定初始得分，然后通过计算匹配、替代和缺失等操作的得分，更新矩阵中的元素。

Smith-Waterman算法比较灵活，可以用于比对不同长度的序列，并找出最佳的局部相似性。

然而，由于计算复杂性的原因，该算法在处理大规模基因组序列时可能会变得非常耗时。

3. 近似比对算法：近似比对算法是用于处理基因组中的突变、插入或删除等变异情况的方法。

比对基因组序列时，常常会遇到比对不完全的情况，即序列在某些位置发生了变异。

近似比对算法可以通过允许一定数量的突变来找到最佳比对结果。

其中一种近似比对算法是BLAST算法（Basic Local Alignment Search Tool）。

生物信息学中的序列比对算法综述

生物信息学中的序列比对算法综述序列比对是生物信息学领域中的一个重要问题，指的是比较两个生物序列（DNA，RNA或蛋白质序列）之间的相似性和差异性。

序列比对是许多研究任务中的第一步，如基因识别、物种分类、进化关系的推断等等。

在本文中，我们将介绍序列比对算法的基本概念、方法和软件，包括全局比对、局部比对、多序列比对等方面。

一、序列比对的基本概念序列比对的目的是找出两个序列之间的相似性和差异性，根据相似性分析序列的结构、功能以及进化关系。

相似性可以被表示成一个比对得分，即正数表示相似性，负数表示差异性。

比对得分的计算取决于匹配分、替换分和缺失分。

匹配分是指在比对中找到相同的位置并且相等的分数。

替换分是指找到不同的位置并且不相等的分数。

缺失分是指在任意序列中找不到匹配的分数。

计算得分的方法有很多种，其中最流行的方法是 Needleman-Wunsch 算法和 Smith-Waterman 算法。

二、全局比对算法全局比对算法是一种比较两个序列的整个长度的算法，使得它们之间的相似性或差异性能够被准确地测量。

全局比对算法通常用于比较高度相似的序列或同一物种中相似的序列。

Needleman-Wunsch 算法与 Smith-Waterman 算法是全局比对中最为经典的算法。

Needleman-Wunsch 算法： Needleman-Wunsch 算法是最经典的全局比对算法之一。

该算法通过构建一个二维矩阵，其中每个元素代表在比对过程中两个序列的一个指定位置。

该算法通过分配一个比对得分并使用动态规划来计算所有可能的比对方式。

通过比对得分的计算，算法确定序列之间的最佳比对方式，使比对得分最大化。

该算法常用于比较高度相似的序列，或者已知序列的情况下以寻找相同物种中潜在基因组之间的相似性信息。

Smith-Waterman 算法： Smith-Waterman 算法是一种类似Needleman-Wunsch 算法的全局比对算法。

生物信息学中的序列比对方法

生物信息学中的序列比对方法序列比对是生物信息学中一项非常重要的工具，其主要目的是将两个或更多的DNA、RNA或蛋白质序列进行比较，以找到它们之间的相似性和差异性。

这样的比对可以用来识别基因、预测蛋白质结构、推断进化关系和研究生物系统的复杂性等。

随着DNA测序技术的快速发展，越来越多的生物学家和生物信息学家开始研究序列比对方法。

序列比对是一项复杂而耗时的任务，需要对大量的序列进行计算和分析。

因此，发展高效的序列比对方法对于生物信息学的发展至关重要。

当前，生物信息学界广泛应用的序列比对方法主要包括全局比对、局部比对和多序列比对等。

一、全局比对全局比对是指将整个序列与另一个相似序列进行比对。

它的应用场景通常是在两个相对较短的序列中查找相似片段，以便在进一步的研究中进行详细的分析。

全局比对方法最常用的是Needleman-Wunsch算法和Smith-Waterman算法。

Needleman-Wunsch（NW）算法是第一个被开发出来的全局比对算法。

该算法基于动态编程的思想，通过将整个序列进行比对，计算出最佳匹配的得分和路径。

然而，这种方法的时间复杂度非常高，随着序列长度的增加，其计算成本也会呈指数级增长。

Smith-Waterman（SW）算法是一种优化的全局比对算法，其核心思想与NW算法类似。

不同之处在于SW算法将匹配的得分设置为正数，而将多余的间隔和未匹配的子序列得分设置为负数。

通过这种方式，SW算法可以得到一个全局最佳的比对结果。

然而，该算法的计算成本也比较高，因此其应用场景受到一定的限制。

二、局部比对局部比对是指在比对序列的过程中，只对部分区域进行比对。

与全局比对不同，局部比对更适用于两个序列之间只有一些片段相似的情况。

常用的局部比对方法主要包括BLAST算法和FASTA算法等。

BLAST算法是一种聚集序列算法，它将大量的搜索序列放入一个空间中，通过加速计算找到最匹配的序列。

通过BLAST算法，可以快速搜索数据库中的所有序列，并找到与目标序列相似的匹配。

生物信息学中的序列比对方法

生物信息学中的序列比对方法序列比对是生物信息学中的核心问题之一。

它是指将两个或多个序列进行比较，以寻找相似性或同源性。

序列比对方法的应用范围非常广泛，包括基因组学、蛋白质组学、微生物学、疫苗设计等领域。

序列比对的重要性自不必言，只有准确的序列比对才能够进行准确的结构预测、功能预测、演化分析等。

序列比对方法可以分为全局比对和局部比对。

全局比对是指将整个序列进行比对，而局部比对则只比对两个序列中的一部分。

全局比对一般用于比较相似的序列，而局部比对则用于比较不同长度和结构的序列。

根据序列比对的算法不同，序列比对方法又可分为动态规划法、启发式算法、图像算法等。

动态规划法是最常见的序列比对算法之一。

它是一种优秀的全局比对算法，在序列相似度计算和演化分析中经常使用。

使用动态规划法进行序列比对的过程非常复杂，需要处理大量的计算和数据。

它的基本思路是将整个序列划分为若干个子序列，然后计算每个子序列的得分，最后将所有子序列的得分相加。

在计算子序列得分的时候，需要考虑序列匹配、序列替换和序列插入删除等操作，通常采用得分矩阵来表示这些操作的得分。

得分矩阵通常由两个序列中的每个位置组成，其中每个位置有一定的得分，表示在这个位置进行匹配、替换、插入或删除操作的得分。

动态规划法的主要优点是它能够得到最优的序列比对结果。

但是，它的计算复杂度非常高，时间和空间占用也非常大，所以在大规模的序列比对中不太适用。

为了解决这个问题，启发式算法应运而生。

启发式算法是一种较快的局部比对算法。

它不断地比较序列中的一部分，直到找到最好的匹配。

由于启发式算法不需要计算整个序列，因此它的计算速度很快。

但是，启发式算法的缺点是它不能保证得到最佳的序列比对结果，可能会漏掉某些相似的序列区域。

图像算法是另一种常用的局部比对算法。

它将序列看作是一幅图像，然后将比对问题转化为图像匹配问题。

图像算法的主要优点是它可以处理大规模的序列比对，同时还可以对序列进行可视化展示。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

生物信息学中的序列比对算法张永１，王瑞２（１．南昌航空大学计算机学院，江西南昌３３００６３；２．江西大宇职业技术学院，江西南昌３３００３８）摘要：生物信息学是以计算机为工具对生物信息进行储存、检索和分析的科学。

序列比对是生物信息学中的一个基本问题，设计快速而有效的序列比对算法是生物信息学研究的一个重要内容，通过序列比较可以发现生物序列中的功能、结构和进化的信息，序列比较的基本操作是比对。

本文介绍了序列比对算法的发展现状，描述了常用的各类序列比对算法，并分析了它们的优劣。

关键词：生物信息学；双序列比对；多序列比对中图分类号：ＴＰ３０１文献标识码：Ａ文章编号：１００９－３０４４（２００８）０３－１０１８１－０４ＳｅｑｕｅｎｃｅＡｌｉｇｎｍｅｎｔＡｌｇｏｒｉｔｈｍｓｉｎＢｉｏｉｎｆｏｒｍａｔｉｃｓＺＨＡＮＧＹｏｎｇ１，ＷＡＮＧＲｕｉ２（１．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｉｎｇ，ＮａｎｃｈａｎｇＨａｎｇｋｏｎｇＵｎｉｖｅｒｓｉｔｙ，Ｎａｎｃｈａｎｇ３３００６３，Ｃｈｉｎａ；２．ＪｉａｎｇｘｉＤａｙｕＶｏｃａｔｉｏｎａｌＩｎｓｔｉｔｕｔｅ，Ｎａｎｃｈａｎｇ３３００３８，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｂｉｏｉｎｆｏｒｍａｔｉｃｓｉｓｔｈｅｓｕｂｊｅｃｔｏｆｕｓｉｎｇｃｏｍｐｕｔｅｒｔｏｓｔｏｒｅ，ｒｅｔｒｉｅｖｅａｎｄａｎａｌｙｚｅｂｉｏｌｏｇｉｃａｌｉｎｆｏｒｍａｔｉｏｎ．Ｓｅｑｕｅｎｃｅａｌｉｇｎｍｅｎｔｉｓａｂａ－ｓｉｃｐｒｏｂｌｅｍｉｎＢｉｏｉｎｆｏｒｍａｔｉｃｓ，ａｎｄｉｔｓｍａｉｎｒｅｓｅａｒｃｈｗｏｒｋｉｓｔｏｄｅｖｅｌｏｐｒａｐｉｄａｎｄｅｆｆｅｃｔｉｖｅｓｅｑｕｅｎｃｅａｌｉｇｎｍｅｎｔａｌｇｏｒｉｔｈｍｓ．Ｗｅｍａｙｄｉｓｃｏｖ－ｅｒｆｕｎｃｔｉｏｎａｌ，ｓｔｒｕｃｔｕｒａｌａｎｄｅｖｏｌｕｔｉｏｎａｒｙｉｎｆｏｒｍａｔｉｏｎｉｎｂｉｏｌｏｇｉｃａｌｓｅｑｕｅｎｃｅｓｂｙｓｅｑｕｅｎｃｅｃｏｍｐａｒｉｎｇ．Ｔｈｉｓｐａｐｅｒｉｎｔｒｏｄｕｃｅｓｔｈｅｄｅｖｅｌｏｐ－ｍｅｎｔａｃｔｕａｌｉｔｙｏｆｓｅｑｕｅｎｃｅａｌｉｇｎｍｅｎｔａｌｇｏｒｉｔｈｍｓ，ｄｅｓｃｒｉｂｅｓｖａｒｉｅｔｙｏｆｓｅｑｕｅｎｃｅａｌｉｇｎｍｅｎｔａｌｇｏｒｉｔｈｍａｎｄａｎａｌｙｓｅｓｔｈｅａｄｖａｎｔａｇｅｓａｎｄｄｉｓａｄ－ｖａｎｔａｇｅｓｏｆｔｈｅｍ．Ｋｅｙｗｏｒｄｓ：Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ；ＰａｉｒｗｉｓｅＳｅｑｕｅｎｃｅＡｌｉｇｎｍｅｎｔ；ＭｕｌｔｉｐｌｅＳｅｑｕｅｎｃｅＡｌｉｇｎｍｅｎｔ１引言生物信息学是８０年代末随着人类基因组计划的启动而兴起的一门新的交叉学科，最初常被称为基因组信息学。

生物信息学是在生命科学的研究中，以计算机为工具对生物信息进行储存、检索和分析的科学。

它是当今生命科学和自然科学的重大前沿领域之一，同时也将是２１世纪自然科学的核心领域之一。

其研究重点主要体现在基因组学和蛋白组学两方面，具体说，是从核酸和蛋白质序列出发，分析序列中表达结构与功能的生物信息。

生物信息学的研究重点主要体现在基因组学和蛋白质学两方面，具体地说就是从核酸和蛋白质序列出发，分析序列中表达结构和功能的生物信息。

生物信息学的基本任务是对各种生物分析序列进行分析，也就是研究新的计算机方法，从大量的序列信息中获取基因结构、功能和进化等知识。

在从事分子生物学研究的几乎所有实验室中，对所获得的生物序列进行生物信息学分析已经成为下一步实验之前的一个标准操作。

而在序列分析中，将未知序列同已知序列进行相似性比较是一种强有力的研究手段，从序列的片段测定，拼接，基因的表达分析，到ＲＮＡ和蛋白质的结构功能预测，物种亲缘树的构建都需要进行生物分子序列的相似性比较。

例如，有关病毒癌基因与细胞癌基因关系的研究，免疫分子相互识别与作用机制的研究，就大量采用了这类比较分析方法。

这种相似性比较分析方法就称为系列比对（ＳｅｑｕｅｎｃｅＡｌｉｇｎｍｅｎｔ）。

目前，国际互联网上提供了众多的序列比对分析软件。

然而，不同的分析软件会得到不同的结果，同时所使用的参数在很大程度上影响到分析的结果。

有时常常会由于采用了不合适的参数而丢失了弱的但却具有统计学显著性意义的主要信息，导致随后的实验研究走弯路。

因此，生物信息学中的序列比对算法的研究具有非常重要的理论与实践意义。

序列比对问题根据同时进行比对的序列数目分为双序列比对和多序列比对。

双序列比对有比较成熟的动态规划算法，而多序列比对目前还没有快速而又十分有效的方法。

一般来说，评价生物序列比对算法的标准有两个：一为算法的运算速度，二为获得最佳比对结果的敏感性或准确性。

人们虽已提出众多的多序列比对算法，但由于问题自身的计算复杂性，它还尚未得到彻底解决，是收稿日期：２００７－１１－２５基金资助：南昌航空大学校自选（ＥＣ２００７０６０８６）作者简介：张永（１９７７－），男，硕士，辽宁铁岭人，南昌航空大学计算机学院讲师，研究方向：生物信息学、信息处理；王瑞（１９７７－），男，江西大宇职业技术学院外语系助教。

生物信息学中一个非常重要且具有挑战性的研究课题。

２序列比对比较是科学研究中最常见的方法，通过将研究对象相互比较来寻找对象可能具备的特性。

在生物信息学研究中，比对是最常用的研究手段。

最常见的比对是蛋白质序列之间或核酸序列之间的两两比对，通过比较两个序列之间的相似区域和保守性位点，寻找二者可能的分子进化关系。

进一步的比对是将多个蛋白质或核酸同时进行比较，寻找这些有进化关系的序列之间共同的保守区域、位点和ｐｒｏｆｉｌｅ，从而探索导致它们产生共同功能的序列模式。

此外，还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架；把蛋白质序列与具有三维结构信息的蛋白质相比较，从而获得蛋白质折叠类型的信息。

序列比对的理论基础是进化学说，如果两个序列之间具有足够的相似性，就推测二者可能有共同的进化祖先，经过序列内残基的替换、残基或序列片段的缺失、以及序列重组等遗传变异过程分别演化而来。

早期的序列比对是全局的序列比较，但由于蛋白质具有的模块性质，可能由于外显子的交换而产生新蛋白质，因此局部比对会更加合理。

通常用打分矩阵描述序列两两比对，两条序列分别作为矩阵的两维，矩阵点记录两个维上对应的两个残基的相似性分数，分数越高则说明两个残基越相似。

因此，序列比对问题变成在矩阵里寻找最佳比对路径，目前最有效的方法是Ｎｅｅｄｌｅｍａｎ－Ｗｕｎｓｃｈ动态规划算法，在此基础上又改良产生了Ｓｍｉｔｈ－Ｗａｔｅｒｍａｎ算法。

在进行序列两两比对时，有两方面问题直接影响相似性分值：取代矩阵和空位罚分。

粗糙的比对方法仅仅用相同／不同来描述两个残基的关系，显然这种方法无法描述残基取代对结构和功能的不同影响效果。

用一个取代矩阵来描述氨基酸残基两两取代的分值会大大提高比对的敏感性和生物学意义。

虽然针对不同的研究目标和对象应该构建适宜的替换矩阵，但国际上常用的替换矩阵有ＰＡＭ和ＢＬＯＳＵＭ等。

它们来源于不同的构建方法和不同的参数选择。

对于不同的对象可以采用不同的替换矩阵以获得更多信息。

多序列比对就是把两条以上可能有系统进化关系的序列进行比对的方法。

目前对多序列比对的研究还在不断前进中，现有的大多数算法都基于渐进的比对思想，在两两比对的基础上逐步得到多序列比对的结果。

多序列比对算法是生物信息学中的最基本算法，是生物体的进化分析、蛋白质的分析和预测等生物体研究的基础，具有重要的理论意义和使用价值。

３序列同源性与序列相似性序列相似和序列同源是不同的概念，序列之间的相似程度是可以量化的参数，而序列是否同源需要有进化事实的验证。

序列同源（ｈｏｍｏｌｏｇｙ）指的是序列来自相同的祖先，意味着这些序列具有相同的进化历史，而序列的相似性（ｓｉｍｉｌａｒｉｔｙ）指的是两序列在某参数条件下的相像，它可以用相同残基的百分比或是其他的方法来表示。

序列之间的相似度是可以量化的参数，而序列是否同源需要有进化事实的验证，显著的相似性通常意味着同源。

序列比对是运用某种特定的数学模型或算法，找出两个或多个序列之间的最大匹配碱基或残基数，比对算法的结果在很大程度上反映了序列之间的相似性程度以及它们的生物学特征。

序列比对根据同时进行比对的序列数目多少可分为双序列比对（ｐａｉｒ－ｗｉｓｅｓｅｑｕｅｎｃｅａｌｉｇｎｍｅｎｔ）和多序列比对（ｍｕｌｔｉｐｌｅｓｅｑｕｅｎｃｅａｌｉｎｍｅｎｔ）。

序列比对从比对范围考虑也可分为全局比对（ｇｌｏｂａｌａｌｉｇｎｍｅｎｔ）和局部比对（ｌｏｃａｌａｌｉｇｎｍｅｎｔ），全局比对考虑序列的全局相似性，局部比对考虑序列片断之间的相似性。

如下所示。

全局比对：ＬＧＰＳＳＫＱＴＧＫＧＳ－ＳＲＩＷＤＮＬＮ－ＩＴＫＳＡＧＫＧＡＩＭＲＬＧＤＡ局部比对：－－－－－－－－－－－ＴＧＫＧ－－－－－－－－－－－－－－－－－－－－－－－ＡＧＫＧ－－－－－－－－－－－－在实际应用中，用全局比对方法企图找出只有局部相似性的两个序列之间的关系显然是徒劳的；而用局部比对得到的局部相似性结果则同样不能说明这两个序列的三维结构或折叠方式是否相同。

４序列比对算法在生物分子信息处理过程中，将生物分子序列抽象为字符串，其中的字符取自特定的字母表。

字母表是一组符号或字符，字母表中的元素组成序列。

如ＤＮＡ序列由四种核苷酸组成，用“Ａ”，“Ｔ”，“Ｃ”，“Ｇ”代表四种碱基，其复杂度为４，“ＣＣＡＴＧＣＴＡＧＡＴ”可代表一个简单的ＤＮＡ序列。

蛋白质序列由２０中氨基酸组成，由｛ＡＢＣＤＥＦＧＨＩＫＬＭＮＰＱＲＳＴＶＷＸＹＺ｝代表不同的残基。

“Ｘ”表示某个不确定的残基。

“Ｂ”表示天冬胺或天冬胺酸，用三个字符表示“Ａｓｘ”。

“Ｚ”表示谷氨酰胺或谷氨酸，用三个字符表示为“Ｇｌｘ”，其复杂度为２３，“ＢＥＧＳＳＴＴＮＭＡＢＮＮＭＡ”可代表一个简单的蛋白质序列。

因此生物序列比对可以看作字符串的比对。

对字符串的编辑操作有—用另一个字符替代某个字以下三种：插入———在序列中删除一个或多个字符；替换———在序列中插入一个或多个字符；删除——符。

４．１序列比对基本定义定义１序列是有限长度的字符串，序列中的字符由某个有限字符集合Ω确定。

对于ＤＮＡ，Ω＝｛Ａ，Ｃ，Ｔ，Ｇ｝。

对于蛋白质，Ω由２０种代表氨基酸的字符组成。

定义２对于序列Ｓ，｜Ｓ｜表示Ｓ中字符个数。

Ｓ［ｉ］表示序列的第ｉ个字符。

Ｓ［１…ｉ］表示序列的前ｉ个字符组成的子序列。

定义３我们用“－”来表示插入和删除所产生的空位，则：（１）（ａ，ａ）表示匹配（从序列Ｓ到序列Ｔ没有发生变化）；（２）（ａ，－）表示从Ｓ中删除字符ａ，或是在Ｔ中插入空位；（３）（ａ，ｂ）表示用Ｔ中的字符ｂ替代Ｓ中的ａ，（ａ≠ｂ）；（４）（－，ｂ）表示在Ｓ中插入空位，是从Ｔ中删除字符ｂ。