生物信息学第四章双序列比对

合集下载

(生物信息学)lecture04双序列比对

GATK软件具有准确度高、可扩展性强和易于使用等特点，广泛应用于全基因组关联分析、突变检测和基因组组装等领域。
SAMtools软件
1
SAMtools是一个用于处理和分析序列对齐映射（SAM）格式数据的生物信息学软件工具。
2
SAMtools软件提供了多种用于双序列比对的工具，如SAMtools sort、SAMtools index和 SAMtools view等。
BLAST软件具有高效、准确和灵活的特点，广泛应用于生物信息学领域的序列比对和相似性搜索。
GATK软件
GATK（Genome Analysis Toolkit）是一个用于分析高通量测序数据的生物信息学软件工具集。
GATK软件提供了多种用于双序列比对的工具，如Smith-Waterman算法和Burrows-Wheeler变换等。
药物作用机制研究
通过比对药物作用前后的基因或蛋白质序列，分析药物对生物分子的影响和作用机制，有助于深入理解药物的作用原理和潜在副作用。
05
双序列比对的挑战与未来发展
数据规模与计算复杂度
数据规模
随着测序技术的快速发展，产生的序列数据量呈指数级增长，给双序列比对带来了巨大的挑战。
计算复杂度
双序列比对的算法复杂度较高，尤其是在处理大规模数据时，需要消耗大量的计算资源和时间。
通过比对患者与健康人的基因序列，寻找与疾病相关的基因变异位点，有助于定位和阐明疾病发生的分子机制。
药物靶点发现
通过比对不同物种的基因或蛋白质序列，寻找与药物分布、活化等相关的靶点，有助于发现新的药物候选分子。
药物发现与设计
药物靶点筛选
通过比对已知药物靶点序列与数据库中的序列，筛选出潜在的药物靶点，有助于发现新的药物作用机制和候选药物。

生物信息学中的序列比对算法及评估指标比较

生物信息学中的序列比对算法及评估指标比较序列比对是生物信息学中非常重要的工具之一，用于分析和比较生物序列的相似性和差异。

序列比对是理解生物进化和功能注释的关键步骤，在基因组学、蛋白质学和遗传学等领域都有广泛应用。

本文将介绍序列比对的算法原理和常用的评估指标，并对几种常见的序列比对算法进行比较。

一、序列比对算法1.全局比对算法全局比对算法用于比较整个序列的相似性，常见的算法有Needleman-Wunsch 算法和Smith-Waterman算法。

这两种算法都是动态规划算法，其中Needleman-Wunsch算法用于比较两个序列的相似性，而Smith-Waterman算法用于寻找局部相似的片段。

这些算法考虑了序列的整体结构，但在处理大规模序列时计算量较大。

2.局部比对算法局部比对算法用于找出两个序列中最相似的片段，常见的算法有BLAST （Basic Local Alignment Search Tool）算法和FASTA（Fast All）算法。

这些算法以快速速度和高敏感性著称，它们将序列切割成小的段落进行比对，并使用统计模型和启发式搜索来快速找到最佳匹配。

3.多序列比对算法多序列比对算法用于比较多个序列的相似性，常见的算法有ClustalW和MAFFT（Multiple Alignment using Fast Fourier Transform）算法。

这些算法通过多次序列比对来找到共有的特征和区域，并生成多序列的一致性描述。

二、评估指标1.一致性分数（Consistency Score）一致性分数是衡量序列比对结果一致性的指标，它反映了序列比对的精确性和准确性。

一致性分数越高，表示比对结果越可靠。

常用的一致性分数有百分比一致性（Percentage Identity）和序列相似度（Sequence Similarity）。

2.延伸性（Extension）延伸性是衡量序列比对结果的长度的指标。

两序列比对算法

两序列比对算法摘要：序列比对是生物信息学研究的一个基本方法，对于发现生物序列中的功能、结构和进化信息具有重要的意义。

两序列比对中，典型的全局比对算法是Needleman—Wunsch算法；局部比对算法的基础是Smitll—Waterm an 算法，本文对典型的双序列比对算法进行描述。

关键词：生物信息学；两序列比对；算法引言：为了满足基因组中获得更多更有价值的信息，生物信息学迅速发展起来，生物信息学是一门多门科学交叉的学科，将数学、计算机科学应用于生物大分子信息的获取、加工、存储、分类、检索和分析等，以达到阐明和理解大量数据所蕴含的生物学意义的目的。

通过对DNA和蛋白质序列进行相似性比较，指明序列间的保守区域和不同之处，为进一步研究它们在结构、功能以及进化上的联系提供了重要的参考依据。

而序列比对就是运用某种特定的数学模型或算法，找出两个或多个序列之间的最大匹配碱基或残基数，比对的结果反映了算法在多大程度上反映了序列之间的相似性关系以及它们的生物学特征。

双序列比对算法双序列比对分为全局比对和局部比对，全局比对是考察两个序列之间的全局相似性，局部比对则比较序列片段之间的相似性。

Needleman—Wunsch算法是典型的全局比对算法，适用于全局水平上相似性程度较高的两个序列；Smitll—Waterman 算法适用于寻找局部相似序列对，该算法是目前被使用最广泛的序列相似性比较算法之一，由所熟悉的Needleman—Wunsch算法演变而来。

Needleman-Wunsch 算法使用迭代方法计算出两个序列的相似分值，存于一个得分矩阵中，然后根据这个得分矩阵，通过动态规划的方法回溯寻找最优的比对序列。

具有很高的灵敏度使用二维表格，一个序列沿顶部展开，一个序列沿左侧展开。

而且也能通过以下三个途径到达每个单元格：1.来自上面的单元格，代表将左侧的字符与空格比对。

2.来自左侧的单元格，代表将上面的字符与空格比对。

05_双序列比对

简单的序列比对
• 将两条序列左端对齐，放在两行中。 • 如果某列中两条序列的字符相同，则用竖线（|）将
它们连起来。 • 这是最佳比对结果吗?
是否有更好的比对结果？
• 如果我们仅仅将它们相对移动两个位置，就可得到更好的比对结果：
结论
• We can not simply put both sequences one alongside the other, but we must compare them in all possible shiftings looking for the best alignment.
双序列比对多序列比对序列比对dna序列比对蛋白质序列比对序列比对软件氨基酸序列比对序列全局比对图片比对照片比对
复习
1. 数据库检索和数据库搜索的概念 2. Entrez数据库检索系统 3. SRS 数据库检索系统
双序列比对（Pairwise Sequence Alignment）
1. 为什么要进行序列比对？ 2. 序列比对相关术语 3. 最佳比对 4. 利用计算机进行序列比对 5. 序列的点阵作图比对 6. 双序列比对工具
potential similarities
30-40
30 Longer, weaker local alignments
< 30
4.1.3 PAM 和 BLOSUM 的差别
• PAM 矩阵是从蛋白质序列的全局比对结果推导出来的;
• BLOSUM 矩阵则是从蛋白质序列局部比对推导出来的。
Rat versus mouse RBP
“午夜区”（ midnight zone ）
• 当相似性低于10%时，就进入了“午夜区”（ midnight zone ），这时无法检测结构的相似性。

双序列比对算法

双序列比对算法
/// 双序列比对用于研究两个序列定义的DNA有多少相似之处，或者蛋白质序列有多少相似之处。

/// 这种比较在DNA鉴定和遗传暗示步骤中是非常重要的，在生物信息学应用中，两个序列之间比较也特别重要，特别是在研究顺序的进化关系和鉴定功能。

///
/// 双序列比对算法主要用于非完全比对，因为完全比对可以利用穷举法，把序列中的元素两两比对，以期发现所需的最近分数最高的所需的比对对。

/// 双序列比对算法可以利用动态规划算法，其中首先定义一个矩阵，表示序列i和序列j的最佳比对，在这个矩阵中，每个条目用于表示以矩阵中元素为末尾的两个序列段的相似度/距离，元素i和元素j越来越相似，这个度量值越大，距离越小。

///
/// 动态规划法大概有两个步骤：第一个步骤是填充一个矩阵，第二个步骤是从矩阵中搜索出最有可能产生最高得分的比对对。

双序列比对的具体步骤

双序列比对的具体步骤双序列比对，这个名字听起来挺复杂，其实就像在一场舞会上找搭档。

想象一下，一对舞者在舞池里翩翩起舞，他们的动作得协调，节奏得一致，才能让人眼前一亮。

双序列比对就是在生物信息学中的“舞会”，我们要把两条DNA、RNA或者蛋白质序列“比对”起来，看它们之间的相似性和差异性。

今天就来聊聊这个过程，有点轻松有点幽默，希望大家能跟着我的节奏走。

你得有两条序列，像是两个舞者。

可能一条是来自于某种植物，另一条是来自于一只可爱的海豚。

哦，别小看这些序列，它们的长度可能就像一条大长河，从头到尾可真不少。

你得准备好工具，比如生物信息学里的软件工具。

这个工具就像是舞会的DJ，帮你调节音乐，确保舞者在合适的节拍下起舞。

比如BLAST、Clustal Omega、MAFFT之类的，你选一个就行。

别担心，它们都很“给力”，能帮你快速找到相似部分。

接下来就是预处理。

这一步就像是给舞者穿上合适的舞鞋，得把序列中那些多余的空格、特殊字符都处理掉。

想象一下，鞋子磨脚，舞者可跳不好呀。

这时，你还可以考虑一下序列的质量。

如果有些序列质量差，像是舞步不稳的舞者，建议把它们剔除掉，留下那些稳稳的“舞者”。

然后，真正的比对开始了！你将这两条序列输入工具，就像把舞者推入舞池。

软件开始工作了，开始寻找匹配的部分。

这个过程就像在找节拍，找到相似的地方，打出“合拍”的舞步。

如果两个序列在某些位置上有相同的碱基或者氨基酸，哇塞，那就是完美的配合！你会看到一条条的对齐线，心里不禁暗暗叫好。

不过，双序列比对可不是只有完美的配合，有时也会出现差异。

就像舞会上的舞者，可能有些人跳得慢，有些人快，动作也各有不同。

有的地方可能有缺失，有的地方则是多了几步。

这时候，你得好好分析这些差异，看看它们背后的意义。

是因为物种间的进化差异，还是因为某些环境因素造成的？哎呀，真是个好奇的事儿，像是在追溯舞者的历史。

你得把比对的结果给整理出来。

这个结果就是你的“舞会记录”，记录了舞者们的精彩表演。

生物信息学第四章序列比对与算法

W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11
CKH-VFCRVCI CKKC-FC-KCV
Score with PAM 250 and gap penalty -10
CKHVFCRVCI CKKCFC-KCV
36 + 5 + 0 – 2 + 9 – 2 + 5 – 10 = 41
CKHVFCRVCI CKKCFCK-CV
36 + 5 + 0 – 2 + 9 + 5 + 4 – 10 = 47
矩阵的元素表示由原来的氨基酸(上行，蓝色)替换为另一个氨
基酸(左列，绿色)的概率
例
Score with PAM 250 and gap penalty -10
CKHVFCRVCI CKKCFCKCV
计算如下比对
CKHVFCRVCI CKKCFC-KCV
CKHVFCRVCI CKKCFCK-CV
C-KHVFCRVCI CKKC-FC-CKV
训练集用于建立模型，测试集用于评估模型。随机选出一些数据作为模型（训练集），发现其规律，然后把剩下的数据作为一
个类似模型（就叫测试集），计算检测这个模型的规律与训练集的误差等，从而确定这个规律是否正确（机器学习方法）。 PAM (“Point-Accepted mutations”)由Dayhoff等(1978)根据相近的序列进行全局比对(global Alignment)产生的。其中PAM1是从差别不大于1%的序列比对产生，其他的PAM矩阵都由PAM1外推得到，如PAM0、PAM10、 PAM250、PAM2000、… BLOSUM (blocks substitution matrix)由序列进行局部比对(local Alignment)产生，BLOSUM62是从差别不小于62%的序列比对产生，其余类推，如BLOSUM30、BLOSUM80、…

生物信息学两两序列比对改

• Two sequences can be compared in a matrix along x- and y-axes.
• If they are identical, a path along a diagonal can be drawn • Find the optimal subpaths, and add them up to achieve the best score. This involves --adding gaps when needed --allowing for conservative substitutions --choosing a scoring system (simple or complicated) • N-W is guaranteed to find optimal alignment(s)
Page 76
Three steps to global alignment with the Needleman-Wunsch algorithm
[1] set up a matrix
[2] score the matrix
[3] identify the optimal alignment(s)
N-W is guaranteed to find optimal alignments, although the algorithm does not search all possible alignments. It is an example of a dynamic programming algorithm: an optimal path (alignment) is identified by incrementally extending optimal subpaths. Thus, a series of decisions is made at each step of the alignment to find the pair of residues with the best score.

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

中可以利用计算机程序实现上述序列比对的基本算法。然而，序列比对不仅需要考虑子序列之间的匹配，而且需要对整个序列进行比较。也就是说，必须考虑两个序列中所有残基的匹配。这就意味着，不可能使所有残基都能严格匹配。在这种情况下，比对过程中确定空位的过程变得十分复杂。最简单的办法使通过不加限制地插入空位的办法获得相同残基的最大匹配数。我们知道，空位的引入，意味着两个序列之间残基的插入或删除。如果对引入空位不加限制，所得比对结果即使分值较高，也缺乏生物学依据。因此，必须有一种机制，对空位的引入加以限制。常用的方法就是空位罚分，即每插入一空位就在总分值中罚去一定分值，即加上一负分值，包括起始空位罚分和延伸空位罚分。所谓起始空位，是指序列比对时，在一个序列中插入一个空位，使两个序列之间有更好的匹配；所谓延伸空位，是指在引入一个或几个空位后，继续引入下一个连续的空位，使两个序列之间有更好的匹配。延伸空位罚分值可以与起始空位罚分值相同，也可以比起始空位罚分值小。因此，序列比对最终结果的分数值是两个序列之间匹配残基的总分值与空位罚分的总和。上述序列比对过程中，只考虑了残基的同一性，即两个序列之间完全相同的匹配残基数目。可以把这种只考虑残基同一性的矩阵理解为一个分数值为 1 和 0 的分数矩阵（见表 6.1），即相同残基的分数值为 1，不同残基的分数值为 0。这种矩阵通常称为稀疏矩阵，因为矩阵大多数单元的值为 0。显然，这种单一的相似性分数矩阵具有很大局限性。改进分数矩阵的表征性能，找出那些潜在的具有生物学意义的最佳匹配，提高数据库搜索的灵敏度，而又不至于降低信噪比，是序列比对算法的核心。相似性分数矩阵就是为解决上述问题而产生的。相似性分数矩阵的构建，是基于远距离进化过程中观察到的残基替换率，并用不同的分数值表征不同残基之间相似性程度。恰当选择相似性分数矩阵，可以提高序列比对的敏感度，特别是两个序列之间完全相同的残基数比较少的情况下。必须说明，相似性分数矩阵有其固有的噪声，因为它们在对两个具有一定相似性的不同残基赋予某个相似性分值时的同时，也引进了比对过程的噪声。这就意味着随着微弱信号的增强，随机匹配的可能性也会增大。本书不准备深入讨论有关相似性分数矩阵的问题，而只对两个常用的相似性分数矩阵作简单介绍，即突变数据矩阵和残基片段替换矩阵。 4.7.1 突变数据矩阵突变数据矩阵（Mutation Data Matrix，简称 MD，Dayhoff 等，1978）是基于单点可接受突变的概念，即 Point Accepted Mutation，简称 PAM。1 个 PAM 的进化距离表示在 100 个残基中发生一个可以接受的残基突变的概率。对应于一个更大进化距离间隔的突变概率矩阵，可以通过对原始矩阵进行一定的数学处理获得。例如，PAM250 相似性分数矩阵相当于在两个序列之间具有 20%的残基匹配。在序列比对中，通常希望使用能够反映一个氨基酸发生改变的概率与两个氨基酸随机
M -5 -2 -1 -2 -1 -3 -2 -3 -2 -1 -20
I
-2 -1 0 -2 -1 -3 -2 -2 -2 4
L -6 -3 -2 -3 -2 -4 -3 -4 -3 -2 -2 -3 -34 V -2 -1 0 -1 0 -1 -2 -2 -2 -2 -2 -2 -2 2
或蛋白质家族的完整性（completeness）进行预测。例如，假定某个基因家族的 10 个成员在鼠中已知，而在人中只找到 7 个，那么很有可能还有 3 个成员在人的基因组中有待发现。这些分析结果还可用于药理学和分子生物学研究，用来解释某些受体对某种药物的特殊反应，尽管这些受体的序列在人基因组中还没有测得。它可以为分子生物学家以鼠的序列数据为模板克隆人的该基因的受体提供可能性。为了能够更有效地分析数据库搜索结果，有必要对序列比对的基本原理和数据库搜索的常用算法和有一个比较详细的介绍。 4.3 字母表和复杂度核酸和蛋白质序列可以看成是由字母表中选出的字母组成的。一个字母表的复杂度定义为它所包含的不同字母的数目。例如英语字母表的复杂度是 26；DNA 序列的字母表复杂度是 4。假定序列中含有不确定的碱基 N（例如表达序列标签 EST），则其复杂度为 5。蛋白质序列由 20 种氨基酸残基组成，其复杂度为 20。若某个残基未定，则用 X 表示。有时用 B 表示天冬酰胺或天冬氨酸，若用三字符表示，则写成 Asx；用 Z 表示谷氨酰胺或谷氨酸，若用三字符表示，则写成 Glx。有些序列比对程序对这些特殊残基进行预处理。本章中将不涉及这些特殊残基，只讨论由 20 中普通氨基酸组成的蛋白质序列。 4.4 算法和程序在开始介绍序列比对的基本原理前，有必要分清算法和程序之间的区别。所谓算法，是指按照一定的方式描述计算过程或处理某个问题的一系列步骤，而程序则是算法的具体实现，也就是用某种计算机语言编写的实现某个算法的一在组指令集合。一个算法可能会有多种实现的方法。如果算法的描述或定义明确，那么这些不同的实现方法，即不同的程序应给出同样的结果。然而，对某个算法可能有不同的理解，在具体实现时，可能会有一定的区别。 4.5 双序列比对简例首先，我们用一个简单的例子说明序列比对的基本原理。图 6.1 所示是对两个蛋白质序列片段进行比对的一般方法，基本思想是将两个序列上下排列，若上下对应的残基相同，则用竖线表示。可以通过插入空位（gap）使上下两个序列具有最好的匹配，即两个序列之间
出现的概率的比值的矩阵。这些比值可以用相关几率（relatedness odds）矩阵表示。在序列比对过程中，两个序列从头到尾逐个残基进行比对，所得几率值的乘积就是整个比对的分值。在实际使用时，通常取几率值的对数以简化运算。因此，常用的突变数据矩阵 PAM250 实际上是几率值的对数矩阵（表 6.2）。矩阵中值大于 0 的元素所对应的两个残基之间发生突变的可能性较大，值小于 0 的元素所对应的两个残基之间发生突变的可能性较小。表 6.2 突变数据相似性分数矩阵 PAM250 C 12 S 0 2 3 0 1 6 1 2 5 0 1 0 2 2 1 4 3 2 1 4 2 1 4 3 6 2 0 6 3 5 0 6
T -2 1 P A -3 1 -2 1
G -3 1 N D E -4 1 -5 0 -5 0
0 -1 1 0 -1 0 0 -1 0 0 -1 0
Q -5 -1 -1 0 H R K
0 -1 1
-3 -1 -1 0 -1 -2 2
-4 0 -1 0 -2 -3 0 -1 -1 1 -5 0 0 -1 -1 -2 1 0 0 1
第四章
4.1 引言
双序列比对
本章介绍序列比对时常用的几个概念，包括同一性（identity）、相似性（similarity）同源性（homology）等。这些概念，在蛋白质和核酸序列比对时经常使用。双序列比对（pairwise alignement）是指通过一定的算法对两个 DNA 或蛋白质序列进行比对分析，从而找出两者之间最大相似性匹配。双序列比对是序列分析常用方法之一，是多序列比对和数据库搜索的基础。双序列比对基于一定的算法，而这些算法是基于序列本身的属性而不是关于该序列的注释信息。双序列比对基本上可以分为两类，一类是基于序列的局部相似性，而另一类则基于序列的全局相似性。两者之间无论是生物学基础，还是所用的算法，都有很大区别。 4.2 数据库检索和数据库搜索数据库检索（database query）和数据库搜索（database search）是分子生物信息学中两个不同的概念，有时常被混淆，有必要把这两个术语作简单说明。所谓数据库检索，是指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。例如，对核酸或蛋白质数据库输入关键词“human adrenergic recptors”（人的肾上腺素受体），即可找出数据库中所有和人的肾上腺素受体有关的序列条目。数据库查询有时也称数据库检索，它和因特网上通过搜索引擎查找需要的信息是一个概念。而数据库搜索是指通过特定的序列相似性比对算
下一步，则可以计算相同残基个数，并用分数给出定量指标。如图 6.1 中未经比对以前的得分为 6，而比对后的得分为 9。显然，从这个例子中可以看出，匹配对准的相同残基数越多，两个序列之间相似性比对的得分就越高。当然，这只是一个用来说明比对原理的简单例子，序列很短，只有 10 来个残基，而大多数蛋白质序列的长度为 200 到 500 个残基，甚至更长。其次，这两个序列的长度几乎相等，而在实际情况下代查序列和目标序列的长度往往差别很大。此外，这两个序列的大部分残基相同，没有其它可选择的匹配方式。另一方面，序列比对结果也可以根据引入空位的数目和非匹配残基的数目来度量。由此而引出距离矩阵的概念，即可以用距离矩阵的方式表示两个序列之间的相似性距离。序列比对所用的距离矩阵可能不止一个，同一算法的不同实现所用的距离矩阵可能会有所不同。 4.6 子序列为了进一步说明序列比对的基本原理，下面我们用一对比较接近实际的序列。假定序列 A 有 400 个残基，序列 B 有 650 个残基。如果序列 A 与序列 B 的一部分相同，则可以认为 A 是 B 的子序列。此时，只要在适当部位插入空位，就可以使序列 A 和序列 B 完全匹配。假定序列 A 中有两个片段分别与序列 B 中的两个片段相同。通过序列比对，可以找出这些相同片段，并在序列 A 中插入空位，使序列 A 与序列 B 有最大的匹配，如图 6.2（b）所示。此时，可以找出序列 A 与序列 B 之间具有最好匹配的子序列。利用简单的渐进算法，可以直接实现上述比对，因为两个序列之间的相似片段比较明显。 4.7 同一性和相似性上述序列比对实例只是简要说明了如何找出两个序列之间完全相同的片段。实际操作
法，找出核酸或蛋白质序列数据库中与代查序列（query sequence）具有一定程度相似性的
序列。例如，给定人的肾上腺素受体序列，通过数据库搜索，在核酸或蛋白质序列数据库中找出与该代查序列具有一定相似性的序列。显然，数据库检索和数据库搜索是在生物信息学中是两个完全不同的概念，它们所要解决的问题、所采用的方法和得到的结果均不相同。基于文字注释信息的数据库检索是核酸和蛋白质序列分析的一个重要组成部分，这一点不应予以忽略。然而，在生物信息学应用研究中，我们经常面临的问题是已经测得一个核酸序列片段，或一个由核酸序列翻译得到的蛋白质序列片段，而尚无注释信息。此时，数据库搜索就成了确定对该序列进一步分析研究的有效方法。本章将重点介绍序列比对的基本概