第三章 序列比对
生物信息学中的序列比对技术分析

生物信息学中的序列比对技术分析随着生物技术的不断进步,自动化测序技术的快速发展,大量生物学数据呈爆炸式增长。
同时,对生物信息学分析的需求日益增大,序列比对则成为生物信息学最常见的分析手段之一。
序列比对技术可以对已知序列与未知序列进行匹配、比对,以找出其中的异同点,分析其功能和演化关系,是生物科学、基因组学等分支的核心技术之一。
1. 序列比对的基本概念序列比对是指将两个或多个序列进行对比,找出它们的相似和不同之处的过程。
从基本原理上讲,序列比对是将一条DNA或RNA序列与另一条同源序列进行匹配的过程,而通过比较相同和不同之处来推断它们可能存在的共同祖先。
所谓同源序列,指的是两个或多个序列具有较高的序列相似度,可能来自相同种属的生物体或同一基因家族中的不同基因成员。
同源序列对于了解分子进化、基因结构与功能以及物种关系具有重要的意义。
2. 序列比对的类型在生物信息学领域,基本可以将序列比对分为全局比对和局部比对两种。
(1)全局比对全局比对是指将整个序列与另一条序列进行比对,寻找全长匹配区域。
全局比对适用于已知的高度同源性序列分析。
最常用的全局比对算法包括 Needleman-Wunsch 和 Smith-Waterman 算法。
其中,Needleman-Wunsch 算法较为严谨,适用于匹配全长序列;而 Smith-Waterman 算法则更为灵活,可以匹配任意长度的序列片段,并且可以找到更为相似的匹配序列。
(2)局部比对局部比对是指只比对序列中一部分序列,而不需要考虑整个序列,寻找相似或同源的序列区间。
相较于全局比对,局部比对更适合用于寻找序列中比较短且高度相似的区域。
常用的局部比对算法有 BLAST (Basic Local Alignment Search Tool) 和 FASTA (Fast Alignment Search Tool) 算法。
这些算法适用于较长的未知序列与基因或蛋白质序列数据库进行比对。
序列比对名词解释

序列比对名词解释序列比对,又被称为序列比对分析,是一种分析生物序列相似性的算法,能够比较并对比不同物种之间的 DNA蛋白质序列,以及用于识别和研究共同特征等。
这是一种运用统计学原理的分析方法,能够发现和比较生物物种的进化关系,从而对比其基因组的序列和结构的相似性。
序列比对的原理是,两个序列通过字符匹配单元来评估两个序列的相似性。
两个序列都会被分解成许多小段,这些小段中的字符将会被比较。
这个过程被称为“匹配盒”,他们使得比较更加精确。
这个算法也使用一种叫做全局算法的系统,用于将两个序列中所有的字符串串连接起来,比较它们之间的相似性。
要使用序列比对,需要使用一种特定的算法,这个算法可以计算出两个序列的相似性。
这个算法可以使用非常复杂的方法,也可以使用经典的比较算法,比如Smith-Waterman算法、Needleman-Wunsch算法、BLAST算法等。
序列比对常常被用来进行基因组学分析,可以用来分析DNA序列、蛋白质序列,也可以用来分析特定基因的变异性。
序列比对可以帮助研究者发现某些基因的Protein的特定变体,这也可以帮助研究者更进一步地了解这些基因的功能。
序列比对还可以被用于进化分析,可以比较和分析某些物种的基因组,寻找它们在进化过程中的变化。
序列比对也可以用来研究生物物种之间的相似性,可以用来了解它们的系统进化关系。
序列比对也可以用于识别特定的DNA结构,如DNA序列中出现的特定序列,可以帮助研究者识别出重要的基因序列。
此外,序列比对还可以帮助研究者发现特定序列中引入的错误,这对研究者分析基因组序列特征非常关键。
综上所述,序列比对是一种非常重要的算法,可以应用于基因组学、进化学和生物物种比较研究等领域。
它可以帮助研究者比较不同物种的序列或比较一个物种序列的变异性,并根据得出的结果来了解它们的进化关系和进化机制。
也可以用来发现基因组中的特征和错误,这极大地丰富了基因组学的发展。
第三章 序列比对

第三章序列比对1 序列比对的概念序列比对的定义是:根据特定的计分规则,两个或多个符号序列按位置比较后排列,尽可能反映序列间的相似性,这一过程称为序列比对。
2 序列比对的意义生物信息学形成早期的主要研究内容就是序列比对,而当时序列比对研究的课题主要是生物大分子的进化。
核酸序列与蛋白质序列的突变是经实验证明的生物学现象,而现代生物学认为正是这种生物大分子序列的不断变化形成了生物进化的分子基础。
即在地质年代早期的地球生物中的核酸、蛋白质等序列经过几十亿年的演变后,成为了现今极其多样化的生物大分子序列。
我们并不知道这些分子序列祖先演化的实际过程,但可以找到现存序列的相似性,根据相似性去推导演化的过程。
正是通过序列比对找出序列之间的相似性。
序列比对找到的是相似性,可用这相似性去进行同源性分析。
后文所讲到的分子系统发育分析,就是通过序列比对,再进行聚类分析,然后依据所得结果确定被测分子序列的亲缘关系,构建进化树。
序列比对的一个用途就是用于搜索相似序列。
当你获得一段DNA序列或氨基酸序列后,发现对它一无所知时,可以在核酸序列数据库中搜索关于这一序列的信息,一个有效的方法是采用比对算法在数据库中找到一系列与该序列有相似性的序列,并按相似程度由高到低排列。
现在应用的多个序列搜索软件的本质差异基本上是比对算法的差异,随着数据库规模的扩大,对快速搜索的要求越来越高,而优化比对算法是解决问题的方案之一。
在基因组测序中,序列比对更是有重要作用。
基因组测序一般要将若干个拷贝的长核酸序列打断成有重叠区域的许多小片断,测序仪对小片断进行测序,然后把已知碱基排列顺序的小片断用比对算法找到有重叠区的另外的片断,把它们边接起来还原成原来的长核酸序列,得到长核酸序列的碱基排列顺序。
序列比对还可以寻找序列中的特定位点。
当一个基因的某一位点发生突变时,它与原基因进行比对时就能发现这个位点,这在寻找致病基因时尤为重要。
同时,通过比对,可找出不同序列间一些保守性的区域,它们可能行使重要的功能。
第三章 序列相似性比较

序列比对问题
基因在进化中存在插入/缺失突变,序列比对时应该 将这些考虑这些突变,以便获得到更好的对齐结果。
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC | | | | | | | | | | | | | || | | | | | | | | | | || | | | | | | | | | | | CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
等价矩阵 BLAST矩阵 转移矩阵 7 31 6
t= ACACACTGA Alignment-2 s= ACACAC-CA |||||| | t= ACACACTGA
7 31 2
氨基酸计分矩阵
氨基酸计分矩阵 —— 等价矩阵 —— 遗传密码矩阵 —— 疏水矩阵 —— PAM矩阵 —— BLOSUM矩阵
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC | | | || | | | | | | | | | | | CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC | | | | | | | | | | | | | || | | | | | | | | | | || | | | | | | | | | | | CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
3-2,序列比对

Mii反映了氨基酸i的保守性 Mii = 1 – ΣMij PAM1矩阵: Mii = 1 – λΣMij = ~ 99%
PAM1矩阵,乘以10000
PAM2矩阵
基本假设:每个氨基酸的突变的概率独立于 前次突变。因此,PAM2=PAM1*PAM1
PAM250矩阵
PAM250: 每100个氨基酸残基发生250次突 变; 蛋白质序列仍然有15-30%左右的相似性;
BLOSUM62矩阵构建步骤:
1. 提取Prosite数据库中504个家族的2万多蛋 白质序列(含1961个Blocks),合并其中 相似性≥62%的序列; 2. 统计各BLOCK的氨基酸对数量f; 3. 计算氨基酸对的出现频率q; 4. 计算每种氨基酸的期望频率p; 5. 计算氨基酸对出现的期望频率e; 6. 计算BLOSUM62矩阵分量rij
Step 1: 统计氨基酸的替代
1. 对于同一个group内的蛋白质序列,统 计氨基酸出现的频率,以及替换的个数;
fFY = 6 fFH = 1 fYF = 9
对20种氨基酸做类似统计
fij不一定等于fji
Step2: 计算i->j的相对突变率
Pi = Fi / F : 氨基酸i出现的概率; fij = ij替代的总数; fi = 氨基酸i变为任一氨基酸的总数 = Σfij f = Σfi 氨基酸j的相对突变率: mj= fj / Fj
/CBBresearch/Schaff er/msa.html /general/software/packages/m sa/manual/manual.php
MSA: 打分方式
多序列比对:方法改进
PAM矩阵
71个蛋白质家族的1572种变化; 序列相似性 > 85%; 功能同源的蛋白质 通过中性进化,引入 可接受的点突变; 进化模型:
第三章序列比对

生物软件网: /
• 当然,DNAStar、DNAMan等软件也 可以进行比对。
• 载入的序列必须是fasta格式, 存储在记事本(.txt)中。
参数可以选择,或者默 认。
Clustal比对后的结果
3.3 多条序列比对方法
3.3.1 序列对数据库的比对检索分析 3.3.2 多重序列的本地化软件对齐 3.3.3 Clustal比对结果的编辑
Clustal的工作原理
Clustal输入多个序列
快速的序列两两比对,计算序列间的 距离,获得一个距离矩阵。
采用邻接法(NJ)构建一个树(引导树)
根据引导树,渐进比对多个序列。
Clustal的输入输出格式
• 输入序列的格式比较灵活,可以是前面介 绍过的FASTA格式,还可以是PIR、 SWISS-PROT、GDE、Clustal、 GCG/MSF、RSF等格式。
相似性 (similarity)
• 相似性是指序列比对过程中用来描述检测序列和目标序列之间相同 DNA碱基或氨基酸残基顺序所占比例的高低。
• 相似性本身的含义,并不要求与进化起源是否同一,与亲缘关系的 远近、甚至于结构与功能有什么联系。
• 当相似程度高于50%时,比较容易推测检测序列和目标序列可能是 同源序列;而当相似性程度低于20%时,就难以确定或者根本无法 确定其是否具有同源性。
• “Bl2Seq”是NCBI上Blast程序的一部分, 允许两条序列之行局部双序列比对,使 用这个程序执行蛋白质(或DNA序列) 的双序列比对非常容易。
• 网络服务如NCBI的“bl2seq”程序,地址: /Blast.cgi
点!
特殊BLAST
10
20
30
40
50
生物信息学中的序列比对算法综述

生物信息学中的序列比对算法综述序列比对是生物信息学领域中的一个重要问题,指的是比较两个生物序列(DNA,RNA或蛋白质序列)之间的相似性和差异性。
序列比对是许多研究任务中的第一步,如基因识别、物种分类、进化关系的推断等等。
在本文中,我们将介绍序列比对算法的基本概念、方法和软件,包括全局比对、局部比对、多序列比对等方面。
一、序列比对的基本概念序列比对的目的是找出两个序列之间的相似性和差异性,根据相似性分析序列的结构、功能以及进化关系。
相似性可以被表示成一个比对得分,即正数表示相似性,负数表示差异性。
比对得分的计算取决于匹配分、替换分和缺失分。
匹配分是指在比对中找到相同的位置并且相等的分数。
替换分是指找到不同的位置并且不相等的分数。
缺失分是指在任意序列中找不到匹配的分数。
计算得分的方法有很多种,其中最流行的方法是 Needleman-Wunsch 算法和 Smith-Waterman 算法。
二、全局比对算法全局比对算法是一种比较两个序列的整个长度的算法,使得它们之间的相似性或差异性能够被准确地测量。
全局比对算法通常用于比较高度相似的序列或同一物种中相似的序列。
Needleman-Wunsch 算法与 Smith-Waterman 算法是全局比对中最为经典的算法。
Needleman-Wunsch 算法: Needleman-Wunsch 算法是最经典的全局比对算法之一。
该算法通过构建一个二维矩阵,其中每个元素代表在比对过程中两个序列的一个指定位置。
该算法通过分配一个比对得分并使用动态规划来计算所有可能的比对方式。
通过比对得分的计算,算法确定序列之间的最佳比对方式,使比对得分最大化。
该算法常用于比较高度相似的序列,或者已知序列的情况下以寻找相同物种中潜在基因组之间的相似性信息。
Smith-Waterman 算法: Smith-Waterman 算法是一种类似Needleman-Wunsch 算法的全局比对算法。
第三章 序列两两比对

4
序
言
识别序列的进化关系能帮助我们描绘未知序列的功能。当一组序列 的比对显示出了显著的相似性,我们就认为它们属于同一个家族。如果 这个家族中一个成员的结构或功能已知,那么它的这些信息就可以推广 到家族中其它没有通过实验验证的序列。所以序列比对可以用于预测未 知结构和功能的序列的结构和功能。 序列比对可以用来推断两条序列是否是相关的。如果两条序列显著 相似,那么这种相似性是随机产生的可能性非常小,也就是说这两条序 列有共同的进化起源。当一个序列比对被正确的做出来,它就反应了两 条序列的进化关系:相同位置出现不同残基的区域代表残基替换;一条 序列的残基对应另一条序列的空位的区域代表在进化的过程中一条序列 出现过残基插入或删除。有一种情况也是可能的,那就是来源于同一祖 先的两条序列在某种程度上分离以至于它们有共同祖先的关系已经不能 从序列的水平上识别了。如果那样的话,它们的进化距离就必须通过其 它的方法识别了。
7
序
言
序列相似(similarity)与序列一致(identity)
序列比对中用到的另一对相关术语是序列相似与序列一致。这两个 概念对于核苷酸序列是同义的。而对于蛋白质序列,这两个概念是非常 不同的。在蛋白质序列比对中,序列一致是指待比对的两条序列中相同 残基匹配的比例;序列相似是指待比对的两条序列中很容易彼此替换具 有相似理化性质残基匹配的比例。有两种方法计算序列相似/一致度。 一种方法是用两条序列的全部长度,而另一种是利用较短的序列进 行标准化。第一种方法用如下公式计算序列相似度: S=[(Ls*2)/(La+Lb)]*100 其中S是序列相似的百分比,Ls是相似的残基数目,La和Lb分别是两条 序列的长度。
8
序
言
序列相似(similarity)与序列一致(identity)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
>gi|224983683|pdb|3GBN|B Chain B, Crystal Structure Of Fab Cr6261 In Complex With The 1918 H1n1 Influenza Virus Hemagglutinin GLFGAIAGFIEGGWTGMIDGWYGYHHQNEQGSGYAADQKSTQNAIDGITNKVNSVIEKMNTQFTAVG KEFNNLERRIENLNKKVDDGFLDIWTYNAELLVLLENERTLDFHDSNVRNLYEKVKSQLKNNAKEIGN GCFEFYHKCDDACMESVRNGTYDYPKYSEESKLNREEIDGVSGR
3 3 3 3 5 5 7 7 7 7 8 8 8 8 9 9 9 10 10 10 9 9 8
Y
2 2 3 3 4 4 6 6 6 6 7 7 7 7 8 8 9 9 9 9 10 10 8
F
1 1 2 2 4 4 6 6 6 6 7 7 7 7 8 8 8 8 9 9 10 10 9
W
0 0 1 1 3 3 4 4 4 5 5 5 5 5 5 7 7 7 8 8 8 9 10
同源性(homology)
• 如果两个序列有一个共同的进化祖先,那么它们 是同源的。这里不存在同源性的程度问题。这两 条序列之间要么是同源的,要么是不同源的
相似性 (similarity)
• 相似性是指序列比对过程中用来描述检测序列和目标
序列之间相同DNA碱基或氨基酸残基顺序所占比例的 高低。 • 当相似程度高于50%时,比较容易推测检测序列和目 标序列可能是同源序列;而当相似性程度低于20%时,
BLAST结果综述
BLAST结果表述
Bl2Seq双序列比对举例
特殊BLAST
蛋白质序列比对用blastp,DNA序列比对用blastn
例:拟南芥和菠菜的抗坏血酸过氧化物酶基因的两两比对
粘贴 sequence1
粘贴 sequence2
竖线:一致性 (identities) 缺口(gap):不同之处
P
3 3 4 4 6 6 7 8 8 8 8 8 9 9 9 10 10 10 9 9 9 8 7
V
3 3 4 4 5 5 7 7 7 8 8 8 8 8 9 10 10 10 10 10 9 8 7
L
3 3 3 3 5 5 7 7 7 7 8 8 8 8 9 9 9 10 10 10 9 9 8
I
PAM矩阵与BLOSUM矩阵的选择
第四节 序列比对的算法
双序列比对的三种算法: • 点阵分析法 • 动态规划法:Needleman-Wunsch、Smith-Waterman • 词或K串法(BLAST or FASTA中应用,后面会提到)
全局比对
• 对序列从头到尾进行比较,试图使尽可 能多的字符在同一列中匹配。 • 适用于相似度较高且长度相近的序列 • 如:Needleman-Wunsch算法
选择“进行完全比对”,输出的文件路径自动与原始 的序列文件的路径一致。
Clustal比对结果
星号:完全一致
峰:表示一致程度高 谷:表示一致程度低
Cluster可进行双序列比对
第七节 全基因组比对
1) UCSC genome browser 2) Ensembl genome browser
The end
• 遗传密码矩阵 遗传密码矩阵通过计算一个氨基酸变成另一 个氨基酸所需的密码子变化的数目而得到。 通常为1 或 2,只有Met到Tyr为 3。
• 遗传密码矩阵 GCM矩阵
疏水矩阵
R
R K D E B Z S N Q G X T H A C M P V L I Y F W 10 10 9 9 8 8 6 6 6 5 5 5 5 5 4 3 3 3 3 3 2 1 0
第五节 双序列比对的常用工具
数据库搜索:在分子生物学研究中,对于新测定的 碱基序列或由此翻译得到的氨基酸序列,往往需要 通过数据库搜索,找出具有一定相似性的同源序列, 以推测该未知序列可能属于哪个基因家族,具有哪 些生物学功能。 数据库搜索的基础是序列的相似性比对,即双序列 比对,因此,数据库搜索是双序列比对的特例 BLAST, FASTA等常用的数据库搜索程序均采用局部相 似性比对的方法,具有较快的运行速度
BLAST: basic local alignment search tool
BLAST子程序说明
程序名 Blastp 查询序列 蛋白质 数据库类型 蛋白质 方法 用检测序列蛋白质 搜索蛋白质序列数 据库 用检测序列核酸搜 索核酸序列数据库 将核酸序列按6条链 翻译成蛋白质序列 后搜索蛋白质序列 数据库
Blastn
核酸
核酸
Blastx
核酸
蛋白质
Tblastn
蛋白质
核酸
用检测序列蛋白质 搜索由核酸序列数 据库按6条链翻译成 的蛋白质序列数据 库
将核酸序列按6条链 翻译成蛋白质序列 后搜索由核酸序列 数据库按6条链翻译 成的蛋白质序列数 据库
Tblastx
核酸
核酸
多结构域蛋白 (H1N1) 的BLAST检索
编辑距离(edit distance)
相似性得分
打分规则就是后面的打分矩阵
第三节 打分矩阵(替换记分矩阵)
• 插入和缺失突变:序列比对采用空格(Gap)来处理 • 替换突变:替换计分矩阵即打分矩阵
• (1)核酸打分矩阵设DNA序列所用的字母表为 = { A,C,G,T }
a. 等价矩阵 (unitary matrix) b. BLAST矩阵 c. 转换-颠换矩阵(transition-transversion matrix) (嘌呤:腺嘌呤A,鸟嘌呤G;嘧啶:胞嘧啶C,胸腺嘧啶T)
• 寻找序列中相似度最高的区域,也就是 匹配密度最高的部分。 局部比对 • 适用于在某些部分相似度较高,而其他 部位差异较大的序列。 • 如:Smith-Waterman算法
多序列比对的算法: 1)动态规划算法 2)渐进多序列比对 3)迭代法
多序列比对基于双序列比对,存在两种比对方式:
1)局部比对 (local alignment) 2)整体比对(global alignment)
PAM & BLOSOM
• 这类矩阵列出同源蛋白质在进化过程中氨基酸变 化的可能性(统计学inference)是基于进化原理 的依据,更科学
PAM矩阵( point accepted mutaion)
• 基于氨基酸进化的点换,那么这对氨基酸替换得 分就高
一般选择局部比对和蛋白质序列比对 1)蛋白质功能位点往往是由较短的序列片段组成的,尽 管在序列的其它部位可能有插入、删除等突变,但这些 关键的功能部位的序列往往具有相当大的保守性。而局 部比对往往比整体比对对这些功能区段具有更高的灵敏 度,因此其结果更具生物学意义。 2)蛋白质比对通常比DNA比对具有更丰富的信息 i) DNA序列的许多改变(特别是密码子的第三位)不会 改变对应的氨基酸 ii)许多氨基酸具有相似的生物化学性质(亲疏水,酸 碱等),在打分系统中会认为是相似的(positive), 而不是不同
第六节 多序列比对的常用工具
Cluster家族(ClusterW)
以多个物种的抗坏血酸过氧化物酶的的蛋 白质序列进行比对为例
• 将要比对的多个序列以 Fasta格式保存
• 载入多个序列后,选择输出选项,选择输出格式。或 者在比对完成之后,在“文件”中选择“序列另存 为”,同样可以选择合适的输出格式。
H
5 5 5 5 7 7 9 9 9 9 10 10 10 10 9 9 9 8 8 8 7 7 5
A
5 5 5 5 7 7 9 9 9 9 10 10 10 10 9 9 9 8 8 8 7 7 5
C
4 4 5 5 6 6 8 8 8 8 9 9 9 9 10 10 9 9 9 9 8 8 6
M
3 3 4 4 6 6 8 8 8 8 9 9 9 9 10 10 10 10 9 9 8 8 7
Z
8 8 8 8 10 10 8 8 8 8 7 7 7 7 6 6 6 5 5 5 4 4 3
S
6 6 7 7 8 8 10 10 10 10 9 9 9 9 8 8 7 7 7 7 6 6 4
N
6 6 6 6 8 8 10 10 10 10 9 9 9 9 8 8 8 7 7 7 6 6 4
Q
6 6 6 6 8 8 10 10 10 10 9 9 9 9 8 8 8 7 7 7 6 6 4
表3.1 等价矩阵表 A A 1 T 0 C 0 G 0 A 表3.2 BLAST矩阵 A 5 -4 -4 T -4 -4 -4 C G A -4 -4 表3.3 转移矩阵 A 1 -5 -1 T -5 -1 -5 C G -5 -1
T
C G
0
0 0
1
0 0
0
1 0
0
0 1
T
C G
-4 5
-4 -4
5 -4 -4 5
T
C G
-5 1
-1 -5
1 -5 -5 1
(2)蛋白质打分矩阵
• (i)等价矩阵
1 i j Rij 0 i j
其中Rij代表打分矩阵元素 i、j分别代表字母表第i和第j个字符。
• • • •
(ii) 遗传密码矩阵(genetic code matrix,GCM ) (iii)疏水性矩阵 (hydrophobic matrix) (iv)PAM矩阵(point accepted matrix,PAM) (v) BLOSUM矩阵 (BLOck SUbstitution Matrix,BLOSUM)
K
10 10 9 9 8 8 6 6 6 5 5 5 5 5 4 3 3 3 3 3 2 1 0