第三章序列比对

合集下载

生物信息学中的序列比对技术分析

生物信息学中的序列比对技术分析随着生物技术的不断进步，自动化测序技术的快速发展，大量生物学数据呈爆炸式增长。

同时，对生物信息学分析的需求日益增大，序列比对则成为生物信息学最常见的分析手段之一。

序列比对技术可以对已知序列与未知序列进行匹配、比对，以找出其中的异同点，分析其功能和演化关系，是生物科学、基因组学等分支的核心技术之一。

1. 序列比对的基本概念序列比对是指将两个或多个序列进行对比，找出它们的相似和不同之处的过程。

从基本原理上讲，序列比对是将一条DNA或RNA序列与另一条同源序列进行匹配的过程，而通过比较相同和不同之处来推断它们可能存在的共同祖先。

所谓同源序列，指的是两个或多个序列具有较高的序列相似度，可能来自相同种属的生物体或同一基因家族中的不同基因成员。

同源序列对于了解分子进化、基因结构与功能以及物种关系具有重要的意义。

2. 序列比对的类型在生物信息学领域，基本可以将序列比对分为全局比对和局部比对两种。

（1）全局比对全局比对是指将整个序列与另一条序列进行比对，寻找全长匹配区域。

全局比对适用于已知的高度同源性序列分析。

最常用的全局比对算法包括 Needleman-Wunsch 和 Smith-Waterman 算法。

其中，Needleman-Wunsch 算法较为严谨，适用于匹配全长序列；而 Smith-Waterman 算法则更为灵活，可以匹配任意长度的序列片段，并且可以找到更为相似的匹配序列。

（2）局部比对局部比对是指只比对序列中一部分序列，而不需要考虑整个序列，寻找相似或同源的序列区间。

相较于全局比对，局部比对更适合用于寻找序列中比较短且高度相似的区域。

常用的局部比对算法有 BLAST (Basic Local Alignment Search Tool) 和 FASTA (Fast Alignment Search Tool) 算法。

这些算法适用于较长的未知序列与基因或蛋白质序列数据库进行比对。

序列比对名词解释

序列比对名词解释序列比对，又被称为序列比对分析，是一种分析生物序列相似性的算法，能够比较并对比不同物种之间的 DNA蛋白质序列，以及用于识别和研究共同特征等。

这是一种运用统计学原理的分析方法，能够发现和比较生物物种的进化关系，从而对比其基因组的序列和结构的相似性。

序列比对的原理是，两个序列通过字符匹配单元来评估两个序列的相似性。

两个序列都会被分解成许多小段，这些小段中的字符将会被比较。

这个过程被称为“匹配盒”，他们使得比较更加精确。

这个算法也使用一种叫做全局算法的系统，用于将两个序列中所有的字符串串连接起来，比较它们之间的相似性。

要使用序列比对，需要使用一种特定的算法，这个算法可以计算出两个序列的相似性。

这个算法可以使用非常复杂的方法，也可以使用经典的比较算法，比如Smith-Waterman算法、Needleman-Wunsch算法、BLAST算法等。

序列比对常常被用来进行基因组学分析，可以用来分析DNA序列、蛋白质序列，也可以用来分析特定基因的变异性。

序列比对可以帮助研究者发现某些基因的Protein的特定变体，这也可以帮助研究者更进一步地了解这些基因的功能。

序列比对还可以被用于进化分析，可以比较和分析某些物种的基因组，寻找它们在进化过程中的变化。

序列比对也可以用来研究生物物种之间的相似性，可以用来了解它们的系统进化关系。

序列比对也可以用于识别特定的DNA结构，如DNA序列中出现的特定序列，可以帮助研究者识别出重要的基因序列。

此外，序列比对还可以帮助研究者发现特定序列中引入的错误，这对研究者分析基因组序列特征非常关键。

综上所述，序列比对是一种非常重要的算法，可以应用于基因组学、进化学和生物物种比较研究等领域。

它可以帮助研究者比较不同物种的序列或比较一个物种序列的变异性，并根据得出的结果来了解它们的进化关系和进化机制。

也可以用来发现基因组中的特征和错误，这极大地丰富了基因组学的发展。

第三章序列比对

第三章序列比对1 序列比对的概念序列比对的定义是：根据特定的计分规则，两个或多个符号序列按位置比较后排列，尽可能反映序列间的相似性，这一过程称为序列比对。

2 序列比对的意义生物信息学形成早期的主要研究内容就是序列比对，而当时序列比对研究的课题主要是生物大分子的进化。

核酸序列与蛋白质序列的突变是经实验证明的生物学现象，而现代生物学认为正是这种生物大分子序列的不断变化形成了生物进化的分子基础。

即在地质年代早期的地球生物中的核酸、蛋白质等序列经过几十亿年的演变后，成为了现今极其多样化的生物大分子序列。

我们并不知道这些分子序列祖先演化的实际过程，但可以找到现存序列的相似性，根据相似性去推导演化的过程。

正是通过序列比对找出序列之间的相似性。

序列比对找到的是相似性，可用这相似性去进行同源性分析。

后文所讲到的分子系统发育分析，就是通过序列比对，再进行聚类分析，然后依据所得结果确定被测分子序列的亲缘关系，构建进化树。

序列比对的一个用途就是用于搜索相似序列。

当你获得一段DNA序列或氨基酸序列后，发现对它一无所知时，可以在核酸序列数据库中搜索关于这一序列的信息，一个有效的方法是采用比对算法在数据库中找到一系列与该序列有相似性的序列，并按相似程度由高到低排列。

现在应用的多个序列搜索软件的本质差异基本上是比对算法的差异，随着数据库规模的扩大，对快速搜索的要求越来越高，而优化比对算法是解决问题的方案之一。

在基因组测序中，序列比对更是有重要作用。

基因组测序一般要将若干个拷贝的长核酸序列打断成有重叠区域的许多小片断，测序仪对小片断进行测序，然后把已知碱基排列顺序的小片断用比对算法找到有重叠区的另外的片断，把它们边接起来还原成原来的长核酸序列，得到长核酸序列的碱基排列顺序。

序列比对还可以寻找序列中的特定位点。

当一个基因的某一位点发生突变时，它与原基因进行比对时就能发现这个位点，这在寻找致病基因时尤为重要。

同时，通过比对，可找出不同序列间一些保守性的区域，它们可能行使重要的功能。

第三章序列相似性比较

序列比对问题
基因在进化中存在插入/缺失突变，序列比对时应该将这些考虑这些突变，以便获得到更好的对齐结果。
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC | | | | | | | | | | | | | || | | | | | | | | | | || | | | | | | | | | | | CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
等价矩阵 BLAST矩阵转移矩阵 7 31 6
t= ACACACTGA Alignment-2 s= ACACAC-CA |||||| | t= ACACACTGA
7 31 2
氨基酸计分矩阵
氨基酸计分矩阵 —— 等价矩阵 —— 遗传密码矩阵 —— 疏水矩阵 —— PAM矩阵 —— BLOSUM矩阵
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC | | | || | | | | | | | | | | | CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC | | | | | | | | | | | | | || | | | | | | | | | | || | | | | | | | | | | | CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT

3-2,序列比对

Mii反映了氨基酸i的保守性 Mii = 1 – ΣMij PAM1矩阵： Mii = 1 – λΣMij = ~ 99%
PAM1矩阵，乘以10000
PAM2矩阵
基本假设：每个氨基酸的突变的概率独立于前次突变。因此，PAM2=PAM1*PAM1
PAM250矩阵
PAM250: 每100个氨基酸残基发生250次突变；蛋白质序列仍然有15-30%左右的相似性；
BLOSUM62矩阵构建步骤：
1. 提取Prosite数据库中504个家族的2万多蛋白质序列（含1961个Blocks），合并其中相似性≥62%的序列； 2. 统计各BLOCK的氨基酸对数量f； 3. 计算氨基酸对的出现频率q； 4. 计算每种氨基酸的期望频率p； 5. 计算氨基酸对出现的期望频率e； 6. 计算BLOSUM62矩阵分量rij
Step 1: 统计氨基酸的替代
1. 对于同一个group内的蛋白质序列，统计氨基酸出现的频率，以及替换的个数；
fFY = 6 fFH = 1 fYF = 9
对20种氨基酸做类似统计
fij不一定等于fji
Step2: 计算i->j的相对突变率
Pi = Fi / F : 氨基酸i出现的概率； fij = ij替代的总数; fi = 氨基酸i变为任一氨基酸的总数 = Σfij f = Σfi 氨基酸j的相对突变率： mj= fj / Fj
/CBBresearch/Schaff er/msa.html /general/software/packages/m sa/manual/manual.php
MSA：打分方式
多序列比对：方法改进
PAM矩阵
71个蛋白质家族的1572种变化；序列相似性 > 85%；功能同源的蛋白质通过中性进化，引入可接受的点突变；进化模型：

第三章序列比对

生物软件网： /
• 当然，DNAStar、DNAMan等软件也可以进行比对。
• 载入的序列必须是fasta格式，存储在记事本（.txt）中。
参数可以选择，或者默认。
Clustal比对后的结果
3.3 多条序列比对方法
3.3.1 序列对数据库的比对检索分析 3.3.2 多重序列的本地化软件对齐 3.3.3 Clustal比对结果的编辑
Clustal的工作原理
Clustal输入多个序列
快速的序列两两比对，计算序列间的距离，获得一个距离矩阵。
采用邻接法（NJ）构建一个树（引导树）
根据引导树，渐进比对多个序列。
Clustal的输入输出格式
• 输入序列的格式比较灵活，可以是前面介绍过的FASTA格式，还可以是PIR、 SWISS-PROT、GDE、Clustal、 GCG/MSF、RSF等格式。
相似性（similarity）
• 相似性是指序列比对过程中用来描述检测序列和目标序列之间相同 DNA碱基或氨基酸残基顺序所占比例的高低。
• 相似性本身的含义，并不要求与进化起源是否同一，与亲缘关系的远近、甚至于结构与功能有什么联系。
• 当相似程度高于50%时，比较容易推测检测序列和目标序列可能是同源序列；而当相似性程度低于20%时，就难以确定或者根本无法确定其是否具有同源性。
• “Bl2Seq”是NCBI上Blast程序的一部分，允许两条序列之行局部双序列比对，使用这个程序执行蛋白质（或DNA序列）的双序列比对非常容易。
• 网络服务如NCBI的“bl2seq”程序，地址： /Blast.cgi
点！
特殊BLAST
10
20
30
40
50

生物信息学中的序列比对算法综述

生物信息学中的序列比对算法综述序列比对是生物信息学领域中的一个重要问题，指的是比较两个生物序列（DNA，RNA或蛋白质序列）之间的相似性和差异性。

序列比对是许多研究任务中的第一步，如基因识别、物种分类、进化关系的推断等等。

在本文中，我们将介绍序列比对算法的基本概念、方法和软件，包括全局比对、局部比对、多序列比对等方面。

一、序列比对的基本概念序列比对的目的是找出两个序列之间的相似性和差异性，根据相似性分析序列的结构、功能以及进化关系。

相似性可以被表示成一个比对得分，即正数表示相似性，负数表示差异性。

比对得分的计算取决于匹配分、替换分和缺失分。

匹配分是指在比对中找到相同的位置并且相等的分数。

替换分是指找到不同的位置并且不相等的分数。

缺失分是指在任意序列中找不到匹配的分数。

计算得分的方法有很多种，其中最流行的方法是 Needleman-Wunsch 算法和 Smith-Waterman 算法。

二、全局比对算法全局比对算法是一种比较两个序列的整个长度的算法，使得它们之间的相似性或差异性能够被准确地测量。

全局比对算法通常用于比较高度相似的序列或同一物种中相似的序列。

Needleman-Wunsch 算法与 Smith-Waterman 算法是全局比对中最为经典的算法。

Needleman-Wunsch 算法： Needleman-Wunsch 算法是最经典的全局比对算法之一。

该算法通过构建一个二维矩阵，其中每个元素代表在比对过程中两个序列的一个指定位置。

该算法通过分配一个比对得分并使用动态规划来计算所有可能的比对方式。

通过比对得分的计算，算法确定序列之间的最佳比对方式，使比对得分最大化。

该算法常用于比较高度相似的序列，或者已知序列的情况下以寻找相同物种中潜在基因组之间的相似性信息。

Smith-Waterman 算法： Smith-Waterman 算法是一种类似Needleman-Wunsch 算法的全局比对算法。

第三章序列两两比对

4
序
言
识别序列的进化关系能帮助我们描绘未知序列的功能。当一组序列的比对显示出了显著的相似性，我们就认为它们属于同一个家族。如果这个家族中一个成员的结构或功能已知，那么它的这些信息就可以推广到家族中其它没有通过实验验证的序列。所以序列比对可以用于预测未知结构和功能的序列的结构和功能。序列比对可以用来推断两条序列是否是相关的。如果两条序列显著相似，那么这种相似性是随机产生的可能性非常小，也就是说这两条序列有共同的进化起源。当一个序列比对被正确的做出来，它就反应了两条序列的进化关系：相同位置出现不同残基的区域代表残基替换；一条序列的残基对应另一条序列的空位的区域代表在进化的过程中一条序列出现过残基插入或删除。有一种情况也是可能的，那就是来源于同一祖先的两条序列在某种程度上分离以至于它们有共同祖先的关系已经不能从序列的水平上识别了。如果那样的话，它们的进化距离就必须通过其它的方法识别了。
7
序
言
序列相似（similarity）与序列一致（identity）
序列比对中用到的另一对相关术语是序列相似与序列一致。这两个概念对于核苷酸序列是同义的。而对于蛋白质序列，这两个概念是非常不同的。在蛋白质序列比对中，序列一致是指待比对的两条序列中相同残基匹配的比例；序列相似是指待比对的两条序列中很容易彼此替换具有相似理化性质残基匹配的比例。有两种方法计算序列相似/一致度。一种方法是用两条序列的全部长度，而另一种是利用较短的序列进行标准化。第一种方法用如下公式计算序列相似度： S=[(Ls*2)/(La+Lb)]*100 其中S是序列相似的百分比，Ls是相似的残基数目，La和Lb分别是两条序列的长度。
8
序
言
序列相似（similarity）与序列一致（identity）

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

英文名
Glycine Alanine
缩写简称
Gly Ala G A
中文名
苏氨酸半胱氨酸
英文名
Threonine Cystine
缩写简称
Thr Cys T C
缬氨酸
亮氨酸异亮氨酸脯氨酸苯丙氨酸酪氨酸色氨酸
Valine
Leucine Isoleucine Proline Phenylalanine Tyrosine Tryptophan

并系同源(paralogy)基因是指同一基因组(或同系物种的基因组)中，由于始祖基因的加倍而横向(horizontal)产生的几个同源基因

直系与并系的共性是同源，都源于各自的始祖基因。区别在于：

在进化起源上，直系同源是强调在不同基因组中的垂直传递，并系同源则是在同一基因组中的横向加倍；

PAM矩阵的制作步骤：

构建序列相似（99％）的比对计算氨基酸 j 的相对突变率mj（j被其它氨基酸替换的次数）针对每个氨基酸对 i 和 j , 计算 j 被 i 替换次数替换次数除以相对突变率（mj）利用每个氨基酸出现的频度对j 进行标准化取常用对数，得到PAM-1(i, j) 将PAM-1自乘N次，可以得到PAM-N
3 0 1 0 0 0 0 -1 -1 -1 0 -1 0 -2 0 -3 -3 -5 T
6 1 -1 -1 -1 -1 0 0 0 -1 -2 -2 -3 -1 -5 -5 -6 P 2 1 0 0 0 0 -1 -2 -1 -1 -1 -2 0 -4 -3 -6 A 5 0 1 0 -1 -2 -3 -2 -3 -3 -4 -1 -5 -7 -7 G 2 2 1 1 2 0 1 -2 -2 -3 -2 -2 -2 -4 N

一个嘌呤基与一个嘧啶基通过氢键联结成一个碱基对 DNA分子的方向性

5'→3'

DNA的双螺旋结构
碱基对之间的互补能力

DNA的复制

在DNA解旋酶的作用下两条链分离开，分别作为一个模板，在聚合酶的作用下合成一条新链
突变（mutation）

进化过程中由于不正确的复制，使DNA内容发生局部的改变。突变的种类主要有以下三种：
相似性本身的含义，并不要求与进化起源是否同一，与亲缘关系的远近、甚至与结构与功能有什么联系

同源性(homology)：如果两序列有一个共同的进化祖先，那么称其为同源的。当两序列同源时，它们的氨基酸/核苷酸序列通常有显著的一致性（identity）。
Biblioteka 当相似程度高于50%时，易推测检测序列和目标序列可能是同源序列；而当相似性程度低于20%时，就难以确定二者是否具有同源性两序列或者同源，或者不同源，所谓“具有50%同源性”，或 “这些序列高度同源”等说法，都是不确切的
PAM 250 对数概率矩阵
C S T P A G N D E Q H R K M I L V F Y W
12 0 -2 -3 -2 -3 -4 -5 -5 -5 -3 -4 -5 -5 -2 -6 -2 -4 0 -8 C
2 1 1 1 1 1 0 0 -1 -1 0 0 -2 -1 -3 -1 -3 -3 -2 S

差异生物个体可以是同种但含有不同的遗传信息的生物个体，也可以是远缘的，甚至没有亲缘关系的生物个体。单个细胞内部细胞器主要指的是叶绿体、线粒体及细胞核

水平基因转移是相对于垂直基因转移（亲代传递给子代）而提出的，它打破了亲缘关系的界限，使基因流动变得更为复杂
人类基因组测序工作的完成证实了水平基因转移的普遍性和远缘性。在人类基因组上已发现了223个来源于细菌的基因，这些基因无疑是通过水平基因转移机制获得的
基酸突变情况而构建最有名的氨基酸替换矩阵是PAM，于1979年完成

PAM矩阵（Point Accepted Mutation）

是第一个被广泛使用的得分矩阵，建立在进化的可接受点突变基础上，通过统计相似序列比对中各种氨基酸替换发生率得到先收集序列一致性(sequence identity)达到 99%的序列来计算矩阵，所得的矩阵称为PAM 1 矩阵（即1% 发生了突变），再由该矩阵推到其它 PAM 矩阵 PAM-1自乘n次，得PAM-n 该矩阵缺点：一旦 PAM 1 矩阵有小的误差，那么自乘 250 次后所得的 PAM 250 矩阵误差将会变得非常大
Val
Leu Ile Pro Phe Tyr Trp
V
L I P F Y W
蛋氨酸
天冬酰胺谷氨酰胺天冬氨酸谷氨酸赖氨酸精氨酸
Methionine
Asparagine Glutarnine Asparticacid Glutamicacid Lysine Arginine
Met
Asn Gln Asp Glu Lys Arg

用来评估比对的计分系统用来找到最佳比对的运算法则不同的比对方式
生物序列之间的关系

序列的相似性度量

编辑距离（distance）

两个序列间的距离：从一个序列变化到另一个序列所需的变化的量变化包括：插入（insert）、删除（delete）、替换（substitution）序列间的距离越大，差异就越大如：“AATTGGCG”与“AATCGGC”可以看作替换第四个字母，删除最后一个字母，故两序列距离为 2

体内20种氨基酸按理化性质可分为

非极性、疏水性氨基酸：甘氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、苯丙氨酸和脯氨酸极性、中性氨基酸：色氨酸、丝氨酸、酪氨酸、半胱氨酸、蛋氨酸、天冬酰胺、谷氨酰胺和苏氨酸酸性氨基酸：天冬氨酸和谷氨酸碱性氨基酸：赖氨酸、精氨酸和组氨酸
中文名
甘氨酸丙氨酸
在功能上，直系同源要求功能高度相似，而并系同源在定义上对功能上没有严格要求，可能相似，但也可能并不相似(尽管结构上具一定程度的相似)，甚至于没有功能(如基因家族中的假基因)；并系同源中，由于复制所得的基因经历了各自的进化途径,从而使新物种通过变异而产生，进化上可能获得另一功能。

异同源(xenolog)；指由一个水平基因转移事件而得到的同源序列水平基因转移(horizontal gene transfer, HGT) ，指在差异生物个体间，或单个细胞内部细胞器间所进行的遗传物质交流
M
N Q D E K R
丝氨酸
Serine
Ser
S
组氨酸
Histidine
His
H

蛋白质计分矩阵种类

等价矩阵

最简单的计分矩阵，所有匹配和错匹均得相同的分该矩阵未考虑蛋白质结构和进化，实际中很少使用也称最少突变矩阵，通过计算氨基酸密码子间进行突变所需的碱基变化数目得到，矩阵中对角线值均为0，最大值为3

大规模DNA测序中序列片段的组装与拼接

序列搜索

保守序列搜索

序列比对种类

局部比对（Local Alignment）：寻找序列中相似度最高的子序列区域全局比对（Global Alignment）：将两条完整序列从头到尾进行比较，试图使尽可能多的字符出现在同一列

序列比对中涉及的关键问题
4 3 2 1 -1 0 -3 -2 -4 -2 -6 -4 -7 D

如果两个序列之间相似性较高，则可以推测二
者在进化上可能具有相同的祖先，即二者可能
同源

序列比对可以发现隐含在生物序列中的功能、
结构以及进化方面的信息

相似性与同源性

相似性(Similarity)：指序列比对中用来描述检测序列和目标序列间具有相同DNA碱基/氨基酸残基顺序所占比例的高低

同源有两种不同的情况即垂直方向(orthology)与水平方向(paralogy)

直系同源(orthology)：是比较基因组学中最重要的定义

在进化上起源于一个始祖基因并垂直传递(verticaldescent)的同源基因；分布于两种或两种以上物种的基因组；功能高度保守乃至于近乎相同，甚至在近缘物种可以相互替换；结构相似；组织特异性与亚细胞分布相似

遗传密码矩阵

疏水矩阵

依据氨基酸疏水特性构造疏水性”是每种氨基酸所固有的特性，即氨基酸远离周围水分子，将自己包埋进蛋白质核心的相对趋势蛋白质结构的特征是疏水/亲水间的平衡，其结构的稳定在很大程度上有赖于分子内的疏水作用疏水矩阵中，得分越高的替换越保守

氨基酸替换矩阵

根据各种氨基酸替换的先验概率以及在进化过程中氨
第三章序列比对
回顾：DNA

DNA的分子组成

核甘(nucleotides)

磷酸根(phosphate) 糖(sugar) 四种碱基

腺嘌呤(Adenine) 鸟嘌呤(Guanine) 胞嘧啶(Cytosine) 胸腺嘧啶(Thymine)

碱基的配对原则

A(腺嘌呤)—T(胸腺嘧啶) G(鸟嘌呤)—C (胞嘧啶)

序列比对：是在两条或多条序列中寻找按照相同次序排布的一连串的单个字符或字符模块的过程序列比对是生物信息学中最基本、最重要的操作，通过序列比对可发现生物序列中的功能、结构和进化方面的信息序列比对的特点

第三章 序列比对

生物信息学中的序列比对技术分析

序列比对名词解释

第三章 序列比对

第三章 序列相似性比较

3-2,序列比对

第三章序列比对

生物信息学中的序列比对算法综述

第三章 序列两两比对

第三章序列比对

第三章序列比对

第三章序列相似性比较

第三章序列两两比对