第三章序列比对共46页
课件第3讲 序列比对与数据库搜索

两序列比对位置上的元素(核酸或氨基酸)大部分相同 两序列比对位置上的元素(氨基酸)相似 两序列来自一个共同的祖先序列
序列同源性
序列比较
• Dot matrix 分析 (intuitive) • 序列比对计算DP algorithm (exact) • Word or k-tuple (FASTA, BLAST) (heuristic)
words.
The main assumption in a word-based method assumes that related sequences are more likely to share several common Increasing the word size, enables searches to be performed faster, but reduces the sensitivity
矩阵名中的数字代表产生矩阵所用序列集的相似度
BLOSUM62 (lower part)
PAM矩阵和BLOSUM矩阵的比较
PAM矩阵的突变率来自一个明确的进化模型,该模型中氨基 酸的替换可从近亲蛋白质的系统发生树分支得知,而远亲蛋 白质的关系则可用外推过程建立模型,但BLOSUNM矩阵 却是通过直接观测保守区域中氨基酸的替换几率建立的 PAM矩阵基于序列全局比对观测到的突变,包括了保守区域 和可变区域,而BLOSUM矩阵仅基于高度保守的序列,不允 许有空位的出现 一般情况下PAM120矩阵和BLOSUM62矩阵是最好的选择
FASTA
找出高相似短序列
打分,精细匹配
拼接,去除不可能区段
第三章 序列比对

第三章序列比对1 序列比对的概念序列比对的定义是:根据特定的计分规则,两个或多个符号序列按位置比较后排列,尽可能反映序列间的相似性,这一过程称为序列比对。
2 序列比对的意义生物信息学形成早期的主要研究内容就是序列比对,而当时序列比对研究的课题主要是生物大分子的进化。
核酸序列与蛋白质序列的突变是经实验证明的生物学现象,而现代生物学认为正是这种生物大分子序列的不断变化形成了生物进化的分子基础。
即在地质年代早期的地球生物中的核酸、蛋白质等序列经过几十亿年的演变后,成为了现今极其多样化的生物大分子序列。
我们并不知道这些分子序列祖先演化的实际过程,但可以找到现存序列的相似性,根据相似性去推导演化的过程。
正是通过序列比对找出序列之间的相似性。
序列比对找到的是相似性,可用这相似性去进行同源性分析。
后文所讲到的分子系统发育分析,就是通过序列比对,再进行聚类分析,然后依据所得结果确定被测分子序列的亲缘关系,构建进化树。
序列比对的一个用途就是用于搜索相似序列。
当你获得一段DNA序列或氨基酸序列后,发现对它一无所知时,可以在核酸序列数据库中搜索关于这一序列的信息,一个有效的方法是采用比对算法在数据库中找到一系列与该序列有相似性的序列,并按相似程度由高到低排列。
现在应用的多个序列搜索软件的本质差异基本上是比对算法的差异,随着数据库规模的扩大,对快速搜索的要求越来越高,而优化比对算法是解决问题的方案之一。
在基因组测序中,序列比对更是有重要作用。
基因组测序一般要将若干个拷贝的长核酸序列打断成有重叠区域的许多小片断,测序仪对小片断进行测序,然后把已知碱基排列顺序的小片断用比对算法找到有重叠区的另外的片断,把它们边接起来还原成原来的长核酸序列,得到长核酸序列的碱基排列顺序。
序列比对还可以寻找序列中的特定位点。
当一个基因的某一位点发生突变时,它与原基因进行比对时就能发现这个位点,这在寻找致病基因时尤为重要。
同时,通过比对,可找出不同序列间一些保守性的区域,它们可能行使重要的功能。
第三章 序列两两比对

4
序
言
识别序列的进化关系能帮助我们描绘未知序列的功能。当一组序列 的比对显示出了显著的相似性,我们就认为它们属于同一个家族。如果 这个家族中一个成员的结构或功能已知,那么它的这些信息就可以推广 到家族中其它没有通过实验验证的序列。所以序列比对可以用于预测未 知结构和功能的序列的结构和功能。 序列比对可以用来推断两条序列是否是相关的。如果两条序列显著 相似,那么这种相似性是随机产生的可能性非常小,也就是说这两条序 列有共同的进化起源。当一个序列比对被正确的做出来,它就反应了两 条序列的进化关系:相同位置出现不同残基的区域代表残基替换;一条 序列的残基对应另一条序列的空位的区域代表在进化的过程中一条序列 出现过残基插入或删除。有一种情况也是可能的,那就是来源于同一祖 先的两条序列在某种程度上分离以至于它们有共同祖先的关系已经不能 从序列的水平上识别了。如果那样的话,它们的进化距离就必须通过其 它的方法识别了。
7
序
言
序列相似(similarity)与序列一致(identity)
序列比对中用到的另一对相关术语是序列相似与序列一致。这两个 概念对于核苷酸序列是同义的。而对于蛋白质序列,这两个概念是非常 不同的。在蛋白质序列比对中,序列一致是指待比对的两条序列中相同 残基匹配的比例;序列相似是指待比对的两条序列中很容易彼此替换具 有相似理化性质残基匹配的比例。有两种方法计算序列相似/一致度。 一种方法是用两条序列的全部长度,而另一种是利用较短的序列进 行标准化。第一种方法用如下公式计算序列相似度: S=[(Ls*2)/(La+Lb)]*100 其中S是序列相似的百分比,Ls是相似的残基数目,La和Lb分别是两条 序列的长度。
8
序
言
序列相似(similarity)与序列一致(identity)
3序列比对原理

100个残基发生一次替换的Dayhoff’s PAM-1矩阵
针对不同的进化距离采用PAM 矩阵
序列相似度 = 40% | 打分矩阵 = PAM120
50% | PAM80
60% | PAM 60
PAM250
→ 14% - 27%
第三节 序列比对算法 Dotplot算法
评估两条序列相似度最简单的方法之一是利用点阵图。
• 假设两条序列:CACGA和CGA,使用统一的空位和 失配罚分 • 则:1、给第一条序列加一个空位
2、给第二条序列加一个空位 3、两条序列都不加空位
如果知道了ACGA与GA最佳比对的得分,就可以立即计算出表中第一行的 得分。同样地,如果知道了表中第二、第三行剩余序列的最佳比对的得 分,就可以计算出起始位点的不同的三种比对得分。
(a)Leabharlann (b)(a)对人类(Homo sapiens)与黑猩猩(Pongo pygmaeus)的β球蛋 白基因序列进行比较的完整点阵图。(b)利用滑动窗口对以上的两种球 蛋白基因序列进行比较的点阵图,其中窗口大小为10个核苷酸,相似度阈 值为8。
常用对比软件:BLAST(bl2seq)
动态规划: Needleman 和 Wunsch 算法
第三章 序列 比对原理
Principles of Sequence Alignment
• Biology
- What is the biological question or problem?
• Data
-What is the input data? -What other supportive data can be used ?
• 考虑这样的两条核苷酸序列: AATCTATA和AAGATA 仅有三种比对方式
生物信息学 第三章:序列比对原理

blastx Search protein database using a translated nucleotide query tblastn Search translated nucleotide database using a protein query
tblastx
Search translated nucleotide database using a translated nucleotide query
一、序列比对打分
序列分析的目的是揭示核苷酸或氨基酸序列编码的 高级结构或功能信息目的。
二、打分矩阵
稀疏矩阵、相似性打分矩阵
(一)DNA打分矩阵
即两个序列中相应的核苷酸相同,计1分;否则计0分。 如果考虑颠换和置换,可采用以下打分矩阵
(二) 氨基酸序列打分矩阵
1.PAM矩阵(Dayhoff突变数据矩阵)
(二)直系同源、旁系同源
直系同源基因(orthologous gene)是指在不同物种 中有相同功能的同源基因,它是在物种形成过程中 形成的。
旁系同源基因(paralogous gene)是指一个物种内 的同源基因。
直系同源基因和旁系同源基因统称为同源基因 (homolog)。
第二节 序列比对打分方法
ClustalX的比对步骤: 1.加载要比对的序列文件 序列格式可以支持NBRF/PIR、EMBL/Swiss-Ppot、 FASTA、GDE、Clustal、MSF、RSF等。
2.多序列比对
3.比对结果输出
(二)T-Coffee工具 (三)MultAlin工具 (四)MAFFT工具
比对结果
(二)高级BLAST工具 1、PSI-BLAST(position specific interated BLAST)
生物信息学2016-9-序列比对

然后点击W按钮或通过菜单栏Alignment >> Alignment by ClustalW
出现参数页面,可以调整参数,一般都使用默认参数,点击OK进行序 列比对
Bioinformatics
Liaoning University
Bioinformatics
Liaoning University
Bioinformatics
Liaoning University
序列比对软件使用方法介绍
Bioinformatics
Liaoning University
内容回顾
• • 一致性:一致性指两个序列相同的程度。 保守性:某一氨基酸残基或序列的改变(突变)保持 了原始氨基酸残基的物理化学特征,那么这个突变就 是保守的。 相似性:相似性表示序列之间相关联的程度。与一致 性比较相似性进一步考虑了发生保守突变的氨基酸的 数目,即考虑了相似氨基酸的数目。 同源性:如果两个序列是来源于一个共同的祖先,那 么他们是同源的。
序列分别为人的载脂蛋 白D,人视黄醇结合蛋白 4,孕激素相关子宫内膜 蛋白,补体8(γ肽), lipocalin1,人气味结合 蛋白2A, α-1微球蛋白, 嗜中性明胶酶相关蛋白, 前列腺素D2合成酶 通过多序列比对可以发 现人这些旁系同源物序 列高度趋异,互相之间 的相似度并不高。 但都存在一个保守的模 体:GXW,即甘氨酸-任 意氨基酸-色氨酸。
第3讲-序列比对

0
0
0
0
0
BLOSUM45
PAM30
PAM120
PAM180
PAM240
高相似度
低相似度
小鼠和大鼠RBP
小鼠和细菌的lipocalin
相似度越低的序列,在比对的时候,采用PAM矩阵时,后面的数字越大, 采用BLOSUM矩阵时,后面的数字越小。
30/ 77
3,空位罚分体系
• 一般有两种罚分方法:
• 1,线性罚分
22
12/ 77
• 记分矩阵(scoring matrix),即记分规则。 • Raw Score和Bit score:比对得分。
A T CG A1 0 0 0 0 T0 1 0 0 0 C0 0 1 0 0 G0 0 0 1 0 - 0 0 0 0╳
• 记分矩阵不同,可能得到不同的结果。
13/ 77
• 全局比对:序列全长进行比对,寻找一个最佳的配对。 • 局部比对:子序列比对,只需要寻找局部的最佳匹配。 • 比对的统计显著性E值。 • Algorithm算法。
AATCTATA AAGATA
14/ 77
序列比对的关键问题: 记分矩阵 算法
15/ 77
3、序列比对的意义
• 序列比对(alignment)是序列分析的基础,其他一切都建立在序列比对 的基础上。
的一段序列,包括0长度和全长的序列。 • 随机序列:每个位置出现ATGC中任何一个字符的概率都是1/4。也就
没有什么生物学方面的意义。非随机序列也就是有生物学意义的序列。 • 距离:两序列之间差异程度的一个量化数字,如两个序列完全相同则
距离为0。
9/ 77
• 序列比对(alignment),是根据特定的计分规则,将两个或 多个符号序列按位置比较排列后,得到最具相似性的排列 的过程。
序列的比对分析PPT课件

.
47
原始数据多 序列比对结果
对序列中每个 位置重复抽样, 基于原比对结果 生成多个样本
.
48
树上的数字为Bootstrap 校验值,表示该分支通过 Bootstrap校验的次数占 总次数的百分比,该数值 越大,即表示构建进化树 的可信度越高;大于70的 Bootstrap值较为可信。
由核酸酶蛋白序列构建的系统进 化树基本反映了这些物种的亲缘 关系;在人和黑猩猩等亲缘关系 较近的物种中胰腺核酸酶基因只 有一个拷贝。而叶猴胰腺核酸酶 有两个拷贝紧密聚类在一起,推 测是由于种内基因重复产生; leaf monkey 2树枝长度远大于 leaf monkey1,表明该拷贝蛋白 质序列发生了快速变化。
输入“more db”-〉回车察看db文件内容
.
12
输入“formatdb -i db -p T”-〉回车 对db数据库进行格式化
.
13
输入“dir”-〉回车 察看bin文件夹下内容
格式化以后产生的文件
.
14
输入“blastall -p blastx -i in -d db -o out -e 2e-5 -m 9” -〉回车 运行blastx程序
.
35
.
36
.
37
.
38
.
39
.
40
.
41
构建系统进化树
• MEGA5 工具栏中的Phylogeny提供5种常用系统进化 树的构建方法:
• Maximum Likelihood, ML最大似然法
• Neighbor-Joining,NJ 临位连接法
• Minimum-Evolution,ME 最小进化法
双击安装到C盘 产生三个文件夹 •bin •data •doc
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多序列的目的:用于比较基因组研究
1) 用于描述一组序列(基因家族)之间的 相似性关系, 以便了解一个基因家族的基本 特征,寻找motif,保守区域等。 2) 可构建HMM模型,搜索更多的同源序列, Pfam,prints,prosite,interPro等 3) 分析结构用于构建进化树
第二节 序列比对的基本概念
9
9
8
8
7
P
3
3
4
4
6
6
7
8
8
8
8
8
9
9
9 10 10 10
9
9
9
8
7
V
3
3
4
4
5
5
7
7
7
8
8
8
8
8
9 10 10 10 10 10
9
8
7
L
3
3
3
3
5
5
7
7
7
7
8
8
8
8
9
9
9 10 10 10
9
9
8
I
3
3
3
3
5
5
7
7
7
7
8
8
8
8
9
9
9 10 10 10
9
9
8
Y
2
2
3
3
4
4
6
6
6
6
7
7
7
7
8
8
9
9
9
9 10 10
(BLOck SUbstitution Matrix,BLOSUM)
• 遗传密码矩阵
遗传密码矩阵通过计算一个氨基酸变成另 一个氨基酸所需的密码子变化的数目而得 到。通常为1 或 2,只有Met到Tyr为 3。
• 遗传密码矩阵 GCM矩阵
疏水矩阵
R
K
D
E
B
Z
S
N
Q
G
X
T
H
A
C
MP
V
L
I
Y
F
W
R 10 10
•利用每个氨基酸出现的频度对j 进行标准化 •取常用对数,得到PAM-1(i, j) •将PAM-1自乘N次,可以得到PAM-n
第一节 引言
序列比对的分类:双序列比对,多序列比对
双序列比对的目的:
同源物鉴定,功能预测
基本假设:
1)所有的生物都起源于同一个祖先 (物种间序列存在同 源关系,同源序列功能往往是相似的) 2)序列不是随机产生,而是在进化上不断发生着演变 (同源的序列存在高度相似性) 3)序列的相似性可以判断 序列的同源性,进而可以利用 同源物功能的相似性 来进行推断
1 i j Rij 0 i j
其中Rij代表打分矩阵元素 i、j分别代表字母表第i和第j个字符。
• (ii) 遗传密码矩阵(genetic code matrix,GCM ) • (iii)疏水性矩阵 (hydrophobic matrix) • (iv)PAM矩阵(point accepted matrix,PAM) • (v) BLOSUM矩阵
• 基于氨基酸进化的点突变模型
如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得 分就高
PAM矩阵的制作步骤 •构建序列相似(大于85%)的比对 •计算氨基酸 j 的相对突变率mj(j被其他氨基酸替换的次数) •针对每个氨基酸对 i 和 j , 计算 j 被 i 替换次数 •替换次数除以相对突变率(mj)
7
7
6
6
6
5
5
5
4
4
3
S
6
6
7
7
8
8 10 10 10 10
9
9
9
9
8
8
7
7
7
7
6
6
4
N
6
6
6
6
8
8 10 10 10 10
9
9
9
9
8
8
8
7
7
7
6
6
4
Q
6
6
6
6
8
8 10 10 10 10
9
9
9
9
8
8
8
7
7
7
6
6
4
G
ห้องสมุดไป่ตู้
5
5
6
6
8
8 10 10 10 10
9
9
9
9
8
8
8
8
7
7
6
6
5
X
5
5
5
5
7
7
9
9
9
9 10 10 10 10
9
9
8
8
6
6
6
5
5
5
5
5
4
3
3
3
3
3
2
1
0
K 10 10
9
9
8
8
6
6
6
5
5
5
5
5
4
3
3
3
3
3
2
1
0
D
9
9 10 10
8
8
7
6
6
6
5
5
5
5
5
4
4
4
3
3
3
2
1
E
9
9 10 10
8
8
7
6
6
6
5
5
5
5
5
4
4
4
3
3
3
2
1
B
8
8
8
8 10 10
8
8
8
8
7
7
7
7
6
6
6
5
5
5
4
4
3
Z
8
8
8
8 10 10
8
8
8
8
7
7
8
F
1
1
2
2
4
4
6
6
6
6
7
7
7
7
8
8
8
8
9
9 10 10
9
W
0
0
1
1
3
3
4
4
4
5
5
5
5
5
6
7
7
7
8
8
8
9 10
PAM & BLOSOM
• 这类矩阵列出同源蛋白质在进化过程中氨基酸变 化的可能性(统计学inference)是基于进化原理 的依据,更科学
PAM矩阵( point accepted mutaion)
a. 等价矩阵 (unitary matrix) b. BLAST矩阵 c. 转换-颠换矩阵(transition-transversion matrix)
(嘌呤:腺嘌呤A,鸟嘌呤G;嘧啶:胞嘧啶C,胸腺嘧啶T)
表3.1 等价矩阵表 AT CG
A10 0 0 T01 0 0 C0 0 1 0 G0 0 0 1
表3.2 BLAST矩阵 AT CG
A 5 -4 -4 -4 T -4 5 -4 -4 C -4 -4 5 -4 G -4 -4 -4 5
表3.3 转移矩阵 AT CG
A 1 -5 -5 -1 T -5 1 -1 -5 C -5 -1 1 -5 G -1 -5 -5 1
(2)蛋白质打分矩阵
• (i)等价矩阵
同源性(homology)
• 如果两个序列有一个共同的进化祖先,那么它们 是同源的。这里不存在同源性的程度问题。这两 条序列之间要么是同源的,要么是不同源的
相似性 (similarity)
• 相似性是指序列比对过程中用来描述检测序列和目标 序列之间相同DNA碱基或氨基酸残基顺序所占比例的 高低。
• 当相似程度高于50%时,比较容易推测检测序列和目 标序列可能是同源序列;而当相似性程度低于20%时, 就难以确定是否具有同源性。
直系同源和旁系同源
直系同源(orthology)是指不同物种内的同源序列, 它们来源于物种形成时的共同祖先基因。
旁系同源(paralogy)是指同一物种中,由于基因的 复制而产生的几个同源基因。
直系同源和旁系同源的图示:
相似性分数的计算
1)编辑距离:两条序列对应位置上不同字符的个数 2)相似性得分:两条序列对应位置上相同字符的个数
相似分数越高,序列越相似,编辑距离越小,序列越相似 两条序列长度不一致时:空格(Gap)
编辑距离(edit distance)
相似性得分
打分规则就是后面的打分矩阵
第三节 打分矩阵(替换记分矩阵)
• 插入和缺失突变:序列比对采用空格(Gap)来处理 • 替换突变:替换计分矩阵即打分矩阵
• (1)核酸打分矩阵设DNA序列所用的字母表为 = { A,C,G,T }
9
9
8
8
8
8
7
7
5
T
5
5
5
5
7
7
9
9
9
9 10 10 10 10
9
9
8
8
8
8
7
7
5
H
5