基于前缀计算的序列比对研究

合集下载

《2024年基于前缀序列树的数据流序列模式算法研究》范文

《基于前缀序列树的数据流序列模式算法研究》篇一一、引言随着互联网技术和物联网技术的不断发展，大数据流的产生和处理成为研究的热点问题。

其中，数据流序列模式挖掘是一种重要技术，它能够从数据流中提取出有价值的序列模式，为数据分析和预测提供重要依据。

前缀序列树作为一种有效的数据结构，在序列模式挖掘中发挥着重要作用。

本文旨在研究基于前缀序列树的数据流序列模式算法，以提高数据流处理的效率和准确性。

二、前缀序列树的基本原理前缀序列树是一种特殊的数据结构，用于存储序列数据中的模式信息。

它的基本原理是将序列数据中的每个元素按照出现顺序和频次信息存储在树形结构中，从而形成一种层次化的模式表示。

在前缀序列树中，每个节点代表一个元素或一个子序列，节点的频次信息表示该元素或子序列在序列中出现的次数。

通过遍历前缀序列树，可以获取到序列中的各种模式信息。

三、基于前缀序列树的数据流序列模式算法基于前缀序列树的数据流序列模式算法主要包括以下几个步骤：1. 构建前缀序列树：将数据流中的元素按照出现顺序和频次信息构建成前缀序列树。

2. 更新前缀序列树：当新的元素到达时，需要更新前缀序列树，包括插入新元素、更新频次信息等操作。

3. 挖掘序列模式：通过遍历前缀序列树，挖掘出有价值的序列模式。

这一步需要设计合适的算法和策略，以尽可能地发现更多的模式信息。

4. 评估和输出模式：对挖掘出的模式进行评估，包括计算支持度、置信度等指标，然后输出有价值的模式信息。

四、算法优化与改进为了提高算法的效率和准确性，可以对基于前缀序列树的数据流序列模式算法进行优化和改进。

具体包括以下几个方面：1. 剪枝策略：通过设计合适的剪枝策略，减少无谓的遍历和计算，提高算法的效率。

2. 动态更新策略：针对数据流的动态特性，设计动态更新策略，使得算法能够快速适应新的数据变化。

3. 多线程并行处理：利用多线程技术，实现算法的并行处理，进一步提高算法的处理速度。

4. 模式评估与选择：对挖掘出的模式进行评估和选择，只输出有价值的模式信息，减少冗余和噪声。

生物信息学中的DNA序列比对与分析方法研究

生物信息学中的DNA序列比对与分析方法研究DNA序列比对与分析是生物信息学中的一个重要研究领域，通过比对和分析DNA序列，可以揭示基因组的结构和功能，探索物种间的遗传关系，发现突变和遗传变异，并为相关领域的研究提供基础支持。

本文将介绍常用的DNA序列比对和分析方法，包括全局比对、局部比对和基因注释等。

全局比对是通过将两个或多个DNA序列进行整体比对，找出它们之间最大的相似度。

目前常用的全局比对方法包括BLAST和Smith-Waterman算法。

BLAST（Basic Local Alignment Search Tool）是一种快速搜索算法，通过寻找目标序列中的局部匹配，根据相似度进行比对和排序。

该方法适用于在数据库中搜索相似序列的应用。

Smith-Waterman算法是一种动态规划算法，通过构建一个二维矩阵，比对两个序列的每个碱基，并计算得分，找出最佳匹配。

该算法适用于需要精确比对的情况，但计算量较大。

局部比对是指对DNA序列进行部分区域的比对和分析，可以用于寻找序列片段的异同和演化分析。

常用的局部比对方法有BLAT和Blastn。

BLAT（BLAST-Like Alignment Tool）是一种高速局部比对算法，能够在几秒钟内比对上千个长度短于45bp的序列。

该算法在基因组大规模比对和EST数据库比对中得到广泛应用。

Blastn是BLAST软件中的一种常用程序，用于比对DNA序列。

它根据局部匹配寻找最相似的序列片段，可以在较长的序列中寻找短的比对区域。

除了比对外，基因注释也是DNA序列分析中的重要环节。

基因注释是指将序列与已知的功能基因和数据库进行比对和分析，以确定序列的功能和意义。

常用的基因注释方法包括基于比对的注释和基于特征的注释。

基于比对的注释是通过比对DNA序列和已知的功能基因的引物/序列，确定序列的编码蛋白质和基因功能。

基于特征的注释是通过比对DNA序列和已知的功能基因的结构和特征，从而推断序列的功能。

生物信息研究中的序列对齐与比对算法研究

生物信息研究中的序列对齐与比对算法研究序列对齐与比对算法在生物信息研究中扮演着至关重要的角色。

生物信息学是一门研究生物大分子之间的相似性和差异性的学科，它涉及到生命科学、计算机科学和统计学等多个领域的交叉。

序列对齐是生物信息学中的一项基础工作，旨在寻找和比较两个或多个生物序列（如DNA、RNA或蛋白质序列）之间的相似性和差异性。

本文将介绍序列对齐的基本原理、常用算法以及其在生物信息研究中的应用。

首先，我们来解释一下序列对齐的基本概念。

在生物学中，序列是指基因组中的碱基序列或蛋白质中的氨基酸序列。

序列对齐是将两个或多个序列进行比对，并找到它们之间的相似性和差异性的过程。

序列对齐通常分为全局对齐和局部对齐两种类型。

全局对齐旨在比较整个序列，而局部对齐则重点关注序列中的一部分区域。

序列对齐可以揭示生物分子的进化关系、功能预测以及寻找序列中的共同特征。

序列对齐的方法有多种，其中最常用的算法是Smith-Waterman算法和Needleman-Wunsch算法。

Smith-Waterman算法是一种局部序列比对算法，它通过构建一个得分矩阵，并根据得分矩阵找到两个序列中最佳的相似区域。

Needleman-Wunsch算法是一种全局序列比对算法，它通过动态规划的方法，建立一个得分矩阵，并找到两个序列中的最佳匹配。

这些算法都是基于动态规划的思想，通过寻找最优的对齐方案来确定序列的相似性。

除了Smith-Waterman和Needleman-Wunsch算法，还有一些其他的序列比对算法，如BLAST算法和FASTA算法。

BLAST算法是一种常用的快速比对算法，它通过将查询序列与数据库中的序列进行比对，找到最相似的序列。

FASTA算法也是一种常用的快速比对算法，它通过构建一个特殊的索引，加速序列的比对过程。

这些比对算法的不同之处在于其运行速度、准确性和适用范围。

序列对齐和比对算法在生物信息研究中有着广泛的应用。

首先，它们可以用来研究物种的进化关系。

基于前缀计算的序列比对研究

Ｗａｅｍａｌｏｉｈ，ｈｎｔｉｌｒｔｍｓｐｒｌｅｉｅｓｎｅＭＰＴｈｅｔｏｌｉｃｒｓｓｏｓｔａｈｅｆｒｔｒｎａｇｒｔｍｔｅｈｓａｇｏｉｈｉａａｌｌｚｄｕｉｇＯｐｎ．ｅｔｓｎｍｕｔ—ｏｅｈｗｈｔｔｅｐｒｏ —
并行算法的引入，效的降低了双序列比对的计算时有
间，更符合超长生物序列的特点。Ｏｐｎ￣是一个为在共享存储的多处理机上编写并ｅＭＰ６】
行程序而设计的应用编程接口，由一个小型的编译器命令集组成，括一套编译制导语句和一个用来支持它的包
ＺＨＡＮＧＹＷＡＮＧＪ－ｏｕ，ｉｄｎｇ（ｃｏｌｆ￣ｅｆｓｎｆｒｔｎＳｉｎｅＮｏｔｗｅｔｒａｉｅｓｙＬｚｏ３００ＣｈｎＳｈｏｏＭａｍａｃｄＩｏｍａｉｃｅｃ，ｒｉａｎｏｈｓｍｌｖｒｉ，ａ＿ｕ７０７ｉａ）ＮｏＵｎｔｎｈ
１引言
序列相似性是生物信息学处理中最基本的问题。如何获得结果更准确，间、空间效率更高的序列相似时
性比较算法是生物信息学研究中的一个重要课题。在寻找基因序列最佳相似比对的算法中，ｅｌｅｓ等人… Ｆｅｄｒ介绍动态规划方法进行精确查找两个序列的最优局部
计算机应用
ＣｏｍｐｕｅｒＡｐｐｉａｔｓｔｌｉｃｏｎ
自动化技术与应用２０１０年第２９卷第２期

基因组学中的序列比对与变异分析研究

基因组学中的序列比对与变异分析研究序列比对是基因组学和生物信息学中非常重要的步骤，它用于确认DNA、RNA或蛋白质序列与参考序列是否具有相似性以及检测可能的变异。

在基因组学研究中，序列比对可帮助我们理解生命的进化、了解遗传变异以及识别与疾病相关的基因突变。

本文将介绍序列比对的基本原理和常用的比对算法，以及变异分析的研究方法。

在进行序列比对之前，需要先获取待比对的序列。

DNA或RNA序列通常由测序技术获得，而蛋白质序列则可以通过质谱法或基因预测等方法获得。

确定参考序列是序列比对的关键步骤。

经典的比对方法是采用基于动态规划的算法，例如双序列最大相似性算法(Smith-Waterman算法)和全局对齐算法(Needleman-Wunsch算法)。

这些算法可以准确地找到两个序列之间的最佳匹配。

然而，随着高通量测序技术的发展，研究人员通常需要比对数百万或数十亿个序列，这种情况下传统的比对算法变得很慢且不实用。

因此，出现了一系列快速的比对算法，例如曼哈顿方向映射(MaQ)和Bowtie等。

这些算法利用了索引和哈希表等数据结构来加快比对速度，使得大规模序列比对成为可能。

序列比对的结果通常以比对得分和比对的位置信息表示。

比对得分反映了序列的相似性程度，得分越高表示序列越相似。

比对位置信息可用于识别突变或结构变化，例如插入和缺失等。

通过分析比对的结果，可以鉴定SNP(Single Nucleotide Polymorphism)、Indel(Insertion and Deletion)以及结构变化等遗传变异。

这些变异可以是导致疾病发生的原因，因此变异分析对于研究疾病的遗传基础和个体差异具有重要意义。

变异分析的研究方法非常多样化，其中包括了串联重复序列分析、等位基因频率计算、结构变异的检测和功能预测等。

串联重复序列是基因组中常见的结构变异类型，其在个体间数量和长度的差异通常与疾病的发生有关。

通过序列比对，我们可以对串联重复序列进行定量和定性分析，进而研究其与疾病或遗传特征的关联。

生物信息学中的序列比对与序列分析研究

生物信息学中的序列比对与序列分析研究序列比对与序列分析是生物信息学领域中非常重要的研究内容之一。

在基因组学和蛋白质组学的快速发展下，对生物序列的比对和分析需求不断增长。

本文将介绍序列比对和序列分析的概念、方法和应用，并探讨其在生物学研究中的重要性。

一、序列比对的概念与方法：1. 序列比对的概念：序列比对是将两个或多个生物序列进行对比，确定它们之间的相似性和差异性的过程。

在生物信息学中，序列通常是DNA、RNA或蛋白质的一连串碱基或氨基酸。

序列比对可以用来寻找相似性，例如发现新的基因家族、识别保守的结构域或区分不同的物种。

2. 序列比对的方法：序列比对的方法可以分为两大类：全局比对和局部比对。

全局比对将整个序列进行比对，用于高度相似的序列。

而局部比对则将两个序列的某个片段进行比对，用于相对较低的相似性。

最常用的序列比对算法是Smith-Waterman算法和Needleman-Wunsch算法。

Smith-Waterman算法是一种动态规划算法，它在考虑不同区域的匹配得分时，考虑到了负分数，适用于寻找局部相似性。

而Needleman-Wunsch算法是一种全局比对算法，通过动态规划计算最佳匹配得分和最佳比对方式。

二、序列比对在生物学研究中的应用：1. 基因组比对：序列比对在基因组学中具有广泛的应用。

它可以帮助研究人员对特定基因进行鉴定，发现重要的调控元件以及揭示物种间的基因结构和功能差异。

此外，基因组比对还可以用于揭示突变引起的遗传疾病和肿瘤等疾病的发病机制。

2. 蛋白质结构预测：序列比对在蛋白质结构预测中也起着重要的作用。

通过将待预测蛋白质序列与已知结构的蛋白质序列进行比对，可以预测其二级和三级结构以及可能的功能区域。

这些预测结果对于理解蛋白质的功能和相互作用至关重要。

3. 分子进化分析：序列比对在分子进化研究中也扮演着重要的角色。

通过将源自不同物种的基因或蛋白质序列进行比对，可以构建进化树，研究物种的亲缘关系和演化历史。

生物信息学中序列比对算法研究

生物信息学中序列比对算法研究一、前言生物学是现代科学中发展最为迅速的领域之一，而生物信息学则是其中最为重要的分支之一。

生物信息学是应用计算机科学技术来研究生物学问题的新兴领域。

其研究的核心问题之一是序列比对算法，即如何在生物序列中找出相似的部分。

本文就生物信息学中序列比对算法进行阐述和探究。

二、什么是序列比对算法？序列比对算法是生物信息学中的一种重要算法，其主要作用是判断两个序列（DNA序列或蛋白质序列）是否相似。

此外，序列比对算法还可以用于比较多个序列之间的相似性，并发现相似区域中的片段以及不同片段之间的特异性点。

三、序列比对算法的分类序列比对算法主要分为全局比对和局部比对两类。

全局比对是指将整个序列进行比对，通常用于比较较长序列之间的相似性，以及亲缘关系较近的不同物种或同一物种的亚种之间的比对。

常用的全局比对算法包括Needleman-Wunsch算法和Smith-Waterman算法。

局部比对则是指仅从相似片段开始比对，这种比对方式通常用于比较较短序列或者在长序列中寻找特定片段的相似性，例如寻找蛋白质家族结构中的保守区域。

常用的局部比对算法包括FASTA算法和BLAST算法。

四、常用的序列比对算法1. Needleman-Wunsch算法Needleman-Wunsch算法是一种广泛应用的序列比对算法，它的主要思想是将两个序列对应的字符分别进行两两比较，得到它们之间的匹配程度。

这种算法的缺点是时间复杂度较高，但是可以保证全局最优解。

2. Smith-Waterman算法Smith-Waterman算法是局部比对算法中的经典算法。

它的主要思想是将两个序列对应的字符分别进行两两比较，并将匹配程度与前一位置的匹配程度和字符插入/删除情况进行比较，从而得到当前位置的最优解。

这种算法可以保证局部最优解，但也存在时间复杂度较高的缺点。

3. FASTA算法FASTA算法是进行局部比对的一种快速算法，其主要思想是利用m-tuple匹配和随机性比对来提高匹配速度，使用类似于Smith-Waterman算法的方式，找到序列中的局部最优段。

生物信息学中的序列比对算法研究

生物信息学中的序列比对算法研究序列比对是生物信息学中的一项重要任务，它可以帮助科学家们准确地对已知的DNA、RNA、蛋白质序列进行比对，从而发现它们之间的相似性和差异性，判断它们的结构和功能。

序列比对还可以对基因进化、物种演化、疾病诊断和药物设计等领域的研究发挥重要作用。

在生物信息学领域，序列比对算法是最为基础和关键的研究问题之一，因此，研究优化和改进序列比对算法，一直是生物信息学研究的热点之一。

序列比对算法的基本思路序列比对的基本思路是将两个或者多个序列之间的相似性进行比对分析，从而找出相同和不同的地方。

序列比对可以分成全局比对和局部比对，常用的比对算法有全局比对算法Needleman-Wunsch算法和Smith-Waterman算法，以及局部比对算法BLAST 和FASTA算法等。

其中，全局比对算法Needleman-Wunsch算法和Smith-Waterman算法是最为经典的序列比对算法之一。

Needleman-Wunsch算法是一种计算两个序列间全局比对的动态规划算法。

该算法的基本思路是将两条序列进行相似性比较，找到它们之间的最佳匹配序列，同时计算匹配序列的得分。

Smith-Waterman算法则是一种计算两个序列局部比对的动态规划算法。

该算法的基本思路是将两条序列进行局部比较，找到它们之间的最佳匹配序列，同时计算匹配序列的得分。

BLAST和FASTA算法则是基于序列比对的统计分析算法。

它们基于快速搜寻和匹配数据库序列的方法，使得查找速度较快，且精度较高，因此被广泛应用于序列分析领域。

序列比对算法的优化和提高序列比对算法一直是生物信息学领域的热点问题之一，研究人员们通过不断地优化和提高序列比对算法，以期望能够更加准确地进行序列比对分析。

首先，研究人员们通过改变比对算法的参数设置和优化算法的计算模型等方式，提高算法的灵敏度和特异性，从而减少比对错误率。

例如，在Needleman-Wunsch算法和Smith-Waterman算法中，可以通过调整不同的得分矩阵，改变匹配的获得分值和惩罚的扣分值，以达到最佳的比对匹配结果。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

ｉ－Ｉ－算机应用ＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓ《自动化技术与应用》２０１０年第２９卷第２期基于前缀计算的序列比对研究张瑜，王继东（西北师范大学数学与信息科学学院，甘肃兰州７３００７０）摘要：为了提高Ｓｍｉｔｈ—Ｗａｔｅｒｍａｎ算法处理速度，同时不改变原算法的准确性，本文利用前缀计算方法修改Ｓｍｉｔｈ—Ｗａｔｅｒｍａｎ算法，并进行ＯｐｅｎＭＰ并行化。

在多核机上测试表明，前缀计算的共享并行化使得该局部比对算法的速度得到很大的提高。

关键词：并行编程；ｓｍｉｔｈｗａｔｅｒｍａｎ算法；前缀计算中图分类号：ＴＰ３１１文献标识码：Ａ文章编号：１００３７２４１（２０１０）０２—００３５０４ＲｅｓｅａｒｃｈｏｎＡｌｉｇｎｍｅｎｔＢａｓｅｄｏｎＰｒｅｆｉｘＣｏｍｐｕｔａｔｉｏｎＺＨＡＮＧＹｕ，ＷＡＮＧＪｉ－ｄｏｎｇ（ＳｃｈｏｏｌｏｆＭａｔｈｅｍａｔｉｃｓａｎｄＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅ，ＮｏｒｔｈｗｅｓｔＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ｌａｎｚｈｏｕ７３００７０Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：ＩｎｏｒｄｅｒｔｏｓｐｅｅｄｕｐＳｍｉｔｈ—Ｗａｔｅｒｍａｎａｌｇｏｒｉｔｈｍｓａｎｄｋｅｅｐｉｔｓｈｉｇｈｐｒｅｃｉｓｉｏｎ，ｐｒｅｆｉｘｃｏｍｐｕｔａｔｉｏｎｉｓｕｓｅｄｔｏｃｈａｎｇｅＳｍｉｔｈ—Ｗａｔｅｒｍａｎａｌｇｏｒｉｔｈｍ，ｔｈｅｎｔｈｉｓａｌｇｏｒｉｔｈｍｉｓｐａｒａｌｌｅｌｉｚｅｄｕｓｉｎｇＯｐｅｎＭＲＴｈｅｔｅｓｔｏｎｍｕｌｔｉ—ｃｏｒｅｓｓｈｏｗｓｔｈａｔｔｈｅｐｅｒｆｏｒ—ｍａｎｃｅｉｓｉｍｐｒｏｖｅｄｍｕｃｈｍｏｒｅｔｈａｎｔｈｅｏｒｉｇｉｎａｌｓｅｑｕｅｎｔｉａｌｐｒｏｇｒａｍ．Ｋｅｙｗｏｒｄｓ：ｐａｒａｌｌｅｌｐｒｏｇｒａｍｍｉｎｇ；Ｓｍｉｔｈ—Ｗａｔｅｒｍａｎａｌｇｏｒｉｔｈｍ；ｐｒｅｆｉｘｃｏｍｐｕｔａｔｉｏｎ１引言序列相似性是生物信息学处理中最基本的问题。

如何获得结果更准确，时间、空间效率更高的序列相似性比较算法是生物信息学研究中的一个重要课题。

在寻找基因序列最佳相似比对的算法中，Ｆｅｅｌｄｅｒｓ等人…１介绍动态规划方法进行精确查找两个序列的最优局部比对，但因其代价太大，对超长生物序列直接应用这种技术是不可行的。

ＳｔｊｅｐａｎＲａｊｋｏ［２】利用可分负载原理将双序列比对并行化，并对罚分函数进行改进，将时间和空间复杂度分别降低到Ｄ（ｍｎ／ｐ）和ｏ（ｍ＋ｎ／ｐ）。

Ｋａｔｏｈ［３】对算法的优化包括对算法时间和空间复杂度的优化，还考虑结果的精确度，提出了基于ＦＦＴ分析序列的算法，该算法能对同源区快速识别，它的ＣＰＵ时间降低到ＮｌｏｇＮ。

同时它还提出了一个简单的分数系统来降低时间复杂度和提高精确度。

但Ｓｍｉｔｈ—Ｗａｔｅｒｍａｎ［４】算法可以产生最优结果，但是运算速度慢。

于是人们提出了很多并行化Ｓｍｉｔｈ－Ｗａｔｅｒｍａｎ算法的方法。

ＳｒｉｎｉｖａｓＡｌｕｒｕ［５１中运用计算前缀的方法，使用（ｎ／ｌｏｇｎ）处理器，设计了一个时间复杂度为（ｍｌｏｇｎ）的双序列比对并行算法。

收稿日期：２００９—０９—０９并行算法的引入，有效的降低了双序列比对的计算时间，更符合超长生物序列的特点。

ＯｐｅｎＭＰ［６］是一个为在共享存储的多处理机上编写并行程序而设计的应用编程接口，由一个小型的编译器命令集组成，包括一套编译制导语句和一个用来支持它的函数库。

ＯｐｅｎＭＰ是通过与标准的Ｆｏｒｔｒａｎ和Ｃ＼Ｃ＋＋结合进行工作的…８｜，对于同步共享变量、合理分配负载等任务，都提供了有效的支持，具有简单通用、开发快速的特点。

ＯｐｅｎＭＰ是可移植多线程应用程序开发的行业标准，在细粒度循环级别与粗粒度函数级别线程技术上具有很高的效率。

对于将串行应用程序转换成并行应用程序，ＯｐｅｎＭＰ指令是一种容易使用且作用强大的工具，它具有使应用程序因为在对称多处理器或多核系统上并行执行而获得大幅性能提升的潜力。

ＯｐｅｎＭＰ自动将循环线程化，提高多处理器系统上的应用程序性能。

用户不必处理迭代划分、数据共享、线程调度及同步等低级别的细节。

本文利用ＯｐｅｎＭＰ实现基于前缀计算的Ｓｍｉｔｈ－Ｗａｔｅｒｍａｎ算法并行化，修改后的算法在不改变原算法精确性的基础上，并获得了很好的加速比。

《自动化技术与应用》２０１０年第２９卷第２期计算机应用旦Ｑ受巳竺！皇！垒望巳！！旦璺！！Ｑ翼曼２Ｓｍ．１ｈ—Ｗａｔｅｒｍａｎ串行算法２．１描述序列比对的基本术语∑代表字母表，在ＤＮＡ中∑＝｛Ａ，Ｃ，Ｇ，Ｔ｝；“”代表空位，用于表示由于突变引起的插入与删除。

分数函数ｆ：∑ｕ｛一＇｝ｘＥｕ｛一，）ｊ吼描述比对中任何一个位置中没有空位时的分数。

这种分数函数阵对替换，通用的记分方法是采用替换矩阵，即给不同字符之间发生替换提供一个分值。

这种记分方式可以描述为矩阵的形式，矩阵上的每一格都表示它对应的行和列所表示的字符之间发生替换时的得分。

在生物学中通常使用的替换矩阵有ＰＡＭ和ＢＬＯＳＵＭ等矩阵。

仿射罚分方式：生物体在进化过程中会不断地产生突变，空位代表了突变引起的插入和删除，插入和删除比较通行的记分方法是采用空位罚分，即给予每个空位一定的罚分值，当出现空位时，则使得总分值减少。

仿射罚分方式就是其中的一种空位罚分方式，比如连续的ｋ个空位的罚分就是ｈ＋ｇｋ。

起始的空位罚分为ｈ＋ｇ，ｇ为延伸空位罚分。

２．２Ｓｍｉｔｈ．Ｗａｔｅｒｍａｎ算法Ｓｍｉｔｈ—Ｗａｔｅｒｍａｎ算法被认为是生物信息学中最基础的算法，它由两部分组成：（１）根据动态规划算法，计算两个序列的最佳比对分数，并记录相应的分数；（２）根据分数矩阵的值，通过回溯的方法识别出最佳的比对序列。

由于第一部分的计算比较重要，因此本文只考虑计算最优值。

假定两个比对序列的长度为ｍ、ｎ，并使用仿射罚分策略，使用的动态规划算法方程如下：ｆ啡－ｌ’，一１］］Ｔｌ¨】＿ｆ（ａｌ，ｂｊ）＋ｍａｘ｛Ｔ２［ｆ一１，Ｊ一１］｝【Ｔ３［ｆ＿１＇Ｊ—ｌ“Ｔ１【ｉ，ｊ－１］一（ｇ＋＾）１Ｔ２［ｆ，Ｊ】＿ｍａｘ｛Ｔ２［ｉ，』－１］一ｇ｝ｌＴ３【ｉ，Ｊ一１］一（ｇ＋＾）１Ｔｌ卜ｉ１，Ｊ卜（ｇ＋＾）１Ｔ３［ｆ，州＝ｉｎａｘ｛Ｔ２【ｆ＿ｉ１，ｊ］－（ｇ＋＾）｝【Ｔ３卜ｌ，Ｊ卜ｇＪ该算法使用三个表Ｔ，，Ｔ，，Ｔ，，它们的大小为（ｍ＋１）×０＋１）。

表中的每一个数组［ｉ，ｊ】代表相应的序列吼％…，ｑ与ｂｌ，ｂ２，…ｂｊ的最优比对值。

但是在如下的条件中：在Ｔｌ中ａｉ必须和ｂｉ匹配；在Ｔ，中“一”和ｂｊ匹配；在Ｔ，中ａｊ和“”匹配。

表Ｔ，，Ｔ，，Ｌ使用上述的方程计算。

３Ｓｍｉｔｈ—Ｗａｔｅｒｍａｎ算法ＯｐｅｎＭＰ并彳亍化本文在使用前缀方法的基础上对Ｓｍｉｔｈ—Ｗａｔｅｒｍａｎ算法进行ＯｐｅｎＭＰ并行化。

下面首先介绍使用前缀方法，让每个线程可以并行处理一列，实现多线程并行化。

然后介绍在此基础上划分成块进行０ｐｅｎＭＰ并行化过程。

本文中Ｓｍｉｔｈ—Ｗａｔｅｒｍａｎ算法是用Ｃ语言实现的，因此下文都是以ＯｐｅｎＭＰ＋Ｃ方式介绍并行化过程的。

３．１前缀并行计算方法基于动态规划算法实现的ＳｍｉｔｈＷａｔｅｒｍａｎ算法中，各元素之间存在着严重的依赖关系。

本文借鉴ＳｒｉｎｉｖａｓＡｌｕｒｕ等人提出的前缀计算并行化生物序列的方法，实现ＳＭＰ机上的ＯｐｅｎＭＰ并行化。

图１线程任务分配下面使用一个简单的例子说明如何使用并行前缀的方法按照列流水的方式计算表中的各个元素值。

假定在计算Ｔ，，Ｔ，，Ｔ；的第ｉ行时，它们的第ｉｌ行值已经计算完毕。

那么，表Ｔ，，Ｔ，可以直接计算，因为它们仅依赖于第ｉ１行。

通过计算它们后，表Ｔ，值的计算还需要知道本行中它前一个元素的值，即Ｔ，［ｉ一１］的值。

Ｔ，值的计算就使用并行前缀来计算。

具体的方法如下：定义：山】＿ｍａｘ㈨Ｔｔ［ｉ，ｊ川－１］Ｊ＿【－（ｇ刚＋ｈ））｝那么，咖】＿ｍ。

删【』２【ｉ，，让，一ｃ，，＝正卜，，一・，＋，ｓ＝ｍａｘ｛乏苫？ｚ；＋。

，计算机应用ＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓ《自动化技术与应用》２０１０年第２９卷第２期其中对于所有的ｊ都是知道ｗ［ｊ］＋ｊｇ的，ｘ［ｊ］可以通过前一个ｘ［ｊ—ｌ】来计算，然后Ｔ２可以通过Ｔ２【ｔｉ，ｊ】：，Ｍ—Ｊｇ计算。

这样就可以按照列流水的方式进行并行化计算。

假如有ｎｔｈｒｅａｄ个线程，那么就可以让它们并行处理多列。

第ｉ个线程处理完一列可以继续处理第ｎｔｈｒｅａｄ＋ｉ列，具体的方法如图ｌ所示。

３．２分块并行计算上节中描述了基于前缀的并行化处理ＳｍｉｔｈＷａｔｅｒｍａｎ算法，但是直接按照这种方法计算序列中的每一个元素，会由于线程间通信次数太多，造成通信开销太大。

因此本文考虑将其中的元素计算按照块的方式进行并行化处理。

将整个矩阵分成Ｒｕｍ｝ｎｕｍ个块（其中ｎｕｍ为线程数目），然后继续按照前缀计算的方式计算，每个线程处理对应的列中的块。

３．３区分变量属性由于ＳｍｉｔｈＷａｔｅｒｍａｎ算法中并行化操作主要针对的是ｆＯｒ循环，因此区分好循环体中的变量属性至关重要。

并行区域里有若干个属性分类，如ｓｈａｒｅｄ，ｐｒｉｖａｔｅ，ｌａｓｔｐｒｉｖａｔｅ，ｆｉｒｓｔｐｒｉｖａｔｅ，ｄｅｆａｕｌｔ等。

所有处理器可以直接存取共享变量，每个处理器对私有变量进行各自的拷贝。

通过分析，算法循环结构中的共享变量和私有变量，使用编译制导语句表示如下：＃ｐｒａｇｍａｐａｒａＨｅｌｆｏｒｐｒｉｖａｔｅ（１ｉｎｅ）ｓｈａｒｅｄ（Ｔ，，Ｔ，，Ｔ，，ｗ，Ｘ）其中，ｐｒｉｖａｔｅ指定的为私有变量，即每个线程都私有，我们按照列进行并行化，其中的循环计数器为ｌｉｎｅ，ｌｉｎｅ代表列值。

ｓｈａｒｅｄ指定的为共享变量，所有线程共享这些变量。

通常未指定时，循环计数器值默认为私有变量，循环内的其它变量默认为共享变量，因此ｐｒｉｖａｔｅ也可以省略。

３．４ｎｏｗａｉｔ从旬为了最小化同步造成的开销，ＯｐｅｎＭＰ制导语句支持可选项ｎｏｗａｉｔ从句。

使用ｎｏｗａｉｔ从句时，每个线程在每个特殊的并行结构的结尾不用等待其他的线程。

Ｓｍｉｔｈ—Ｗａｔｅｒｍａｎ算法循环体中，按照列进行计算，仅在开始时需要等待前一列的Ｘ值，后面并行计算，线程之间不需要同步。

为了提高计算速度，每一个线程在计算完本列之后，开始计算第ｎｔｈｒｅａｄ＋１列。

ｎｏｗａｉｔ从句的编译制导语句如下：＃ｐｒａｇｍａｐａｒａＨｅｌｆｏｒｐｒｉｖａｔｅ（１ｉｎｅ）ｓｈａｒｅｄ（Ｔ，，Ｔ，，Ｔ，，ｗ，ｘ）ｎｏｗａｉｔ３．５任务调度ＳＣｈｅｄｕｌｅ子句指定如何调度ｆｏｒ循环迭代。

０ｐｅｎＭＰ的三种任务调度策略，静态调度、动态调度、引导调度。

动态调度是只要线程完成任务，需要任务就可以获得下一个迭代块，对于负载均衡的任务，动态调度系统开销比较大。

引导调度是一种混合策略，每个线程在第一次获得一个较大的块，以后运行中分配逐渐缩减块的大小，直到缩减至ｃｈｕｎｋＳｉｚｅ制定的限制值，块的大小按需要动态计算，这与块大小逐渐减少的动态调度类似。