序列比对基础与BLAST入门(打分矩阵)

合集下载

NCBI中Blast序列比对小总结

NCBI中Blast序列比对小总结

NCBI中Blast可以用来进行序列比对、检验引物特异性Blast导航主页面主体包括三部分BLAST Assembled Genomes选择你要对比的物种,点击物种之后即可进入对比页面BasicBLAST包含5个常用的Blast,每一个都附有简单介绍SpecializedBLAST是一些特殊目的的Blast,如Primer-BLAST、IgBLAST根据需要做出选择本学期学习了最基本的核苷酸序列的比对点击BasicBLAST部分的nucleotide链接到一个新的页面,打开后的页面特征:大体上包括三个部分EnterQuerySequence部分可以让我们输入序列,其中的JobTitle部分可以为本次工作命一个名字ChooseSearchSet部分可以选择要与目的序列比对的物种或序列种类。

其中的EntrezQuery可以对比对结果进行适当的限制。

ProgramSelection部分可以选择本次对比的精确度,种内种间等等。

其次Blast按钮下面有一个“Algorithmparameters”算法参数,可设置参数。

点击Blast后,出现的页面大体上包括四个部分一."所询问和比对序列的简单信息1."询问序列的简单信息——名称、描述、分子类型、序列长度2."所比对数据库的名称、描述和所用程序二."GraphicSummary——blast结果图形显示相似度颜色图(黑、蓝、绿、粉红、红,相似度由低到高)三."Descriptions——blast结果描述区1."到其他数据库的链接2."描述以表格的形式呈现(以匹配分值从大到小排序)(1)Accession下程序比对的序列名称,点击相应的可以进入更为详细的mapviewer(2)Descriptions下是对所比对序列的简单描述接下来是5个结果数值:(3)Max score匹配分值,点击可进入第四部分相应序列的blast的详细比对结果(4)Total score总体分值(5)Query coverage覆盖率(6)E value——E(Expect)值,表示随机匹配的可能性。

如何运用BLAST进行序列比对、检验引物特异性

如何运用BLAST进行序列比对、检验引物特异性

如何运用BLAST进行序列比对、检验引物特异性序列比对,绝大多数战友都会想到BLAST,但BLAST的使用确实又是一个很大的难题,因为他的功能比较强悍,里面涉及到的知识比较多,而且比对结束后输出的结果参数(指标)又很多。

如果把BLAST的使用详细的都讲出来,我想我发帖发到明天也发不完,更何况我自己也不是完全懂得BLAST的使用。

所以我在这里也就“画龙点睛”——以比对核酸序列为例来给大家介绍一下BLAST的使用,也算是BLAST 的入门课程吧。

请看帖的战友好好体会,如果你用心看,在看帖完毕之后BLAST的基本使用(包括其他序列的比对)应该没有问题了。

一、打开BLAST页面,打开后如图所示:(缩略图,点击图片链接看原图)对上面这个页面进行一下必要的介绍:BLAST的这个页面主体部分(左面)包括了三部分:BLAST Assembled Genomes、Basic BLAST、Specialized BLAST。

相信大家可以看懂这三个短语的意思,我就不多说了;我要说的是,可以认为这是三种序列比对的方法,或者说是BLAST的三条途径。

第一部分BLAST Assembled Genomes就是让你选择你要比对的物种,点击相应物种之后即可进入比对页面。

第二部分Basic BLAST包含了5个常用的BLAST,每一个都附有简短的介绍。

第三部分Specialized BLAST是一些特殊目的的BLAST,如IgBLAST、SNP等等,这个时候你就需要在Specialized BLAST部分做出适当的选择了。

总之,这是一个导航页面,它的目的是让你根据自己的比对目的选择相应的BLAST 途径。

下面以最基本的核酸序列比对来谈一下BLAST的使用,期间我也会含沙射影的说一下其他序列比对的方法。

二、点击Basic BLAST部分的nucleotide blast链接到一个新的页面。

打开后如图所示:=" width=640 height=462 title="Click to iew full 2.JPG (849 X 613)" border=0 align=absmiddle> 介绍一下上述页面:Enter Query Sequence部分是让我们输入序列的,你可以直接把序列粘贴进去,也可以上传序列,还可以选择你要比对的序列的范围(留空就代表要比对你要输入的整个序列)。

序列比对基础与BLAST入门打分矩阵

序列比对基础与BLAST入门打分矩阵

LAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPE
|
|.
| : |||| | :
ALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD
1.极性中性氨基酸 (亲水,含羟基)
2.碱性氨基酸
alanine valine leucine isoleucine phenylalanine proline methionine
一个算法可能会有多种实现的方法。如果算法 的描述或定义明确,那么这些不同的实现方法, 即不同的程序应给出同样的结果。
二、打分矩阵( Scoring Matrix )简介
要对两个序列进行比对,必须首先打出其相似 性的定量分值,于是需要一个打分矩阵。
矩阵( Matrix ) :是由m×n个数组成的一个m行 n列的矩形表格。
1、Dayhoff’s 可接受点突变数目(×10)
表示在所研究的同源 蛋白中,天冬氨酸被 谷氨酸替换,发生了 8310次
Dayhoff (1978)
2、氨基酸出现频率
Gly 8.9% Ala 8.7% Leu 8.5% Lys 8.1% Ser 7.0% Val 6.5% Thr 5.8% Pro 5.1% Glu 5.0% Asp 4.7%
甘氨酸 色氨酸 丝氨酸 酪氨酸 半胱氨酸 天冬酰氨 谷氨酰胺 苏氨酸
天冬氨酸 谷氨酸
精氨酸 组氨酸 赖氨酸
氨基酸分类
Ala Val Leu Ile Phe Pro Met
Gly Trp Ser Tyr Cys Asn Gln Thr
Asp Glu
Arg His Lys
A
V
L I
非极性疏水性
F

生物信息学中的序列比对算法使用方法解析

生物信息学中的序列比对算法使用方法解析

生物信息学中的序列比对算法使用方法解析序列比对在生物信息学中是一项重要的技术,用于寻找DNA、RNA或蛋白质序列之间的相似性和差异性。

它是理解生物学结构和功能的基石之一。

在本文中,我们将解析生物信息学中常用的序列比对算法的使用方法。

序列比对算法主要分为全局比对和局部比对。

全局比对用于比较完整的序列,而局部比对则更适用于在序列中查找相似区域。

在这两个主要类别中,有几种经典的序列比对算法,包括Pairwise Sequence Alignment、BLAST、Smith-Waterman算法和Needleman-Wunsch算法等。

首先,我们来看Pairwise Sequence Alignment(两两序列比对)算法。

这个算法是基本的序列比对方法,通过比较两个序列中的每一个碱基、氨基酸或核苷酸,并根据其相似性和差异性对它们进行排列。

Pairwise Sequence Alignment算法使用动态规划的思想,通过计算匹配、替代和插入/删除的分数,来确定两个序列的最佳匹配方案。

在生物信息学中,常用的实现包括Needleman-Wunsch算法和Smith-Waterman算法。

Needleman-Wunsch算法是一种全局比对算法,用于比较两个序列的整个长度。

它是通过填充一个二维矩阵来计算最佳匹配路径的。

算法的核心思想是,通过评估每个格子的分数,根据路径选择的最佳分数进行全局比对。

这个算法不仅可以计算序列的相似性,还可以计算每个位置的分数,从而获得两个序列的对应二面的对应关系。

Smith-Waterman算法是一种局部比对算法,用于寻找两个序列中的最佳匹配片段(子序列)。

它与Needleman-Wunsch算法的计算思路相同,但不同之处在于允许负分数,这使得算法能够确定具有高分数的局部匹配片段。

通过动态规划计算,Smith-Waterman算法可以寻找到两个序列中的相似片段,并生成比对的结果。

另一种常用的序列比对算法是基本本地搜索工具(BLAST)。

blast原理及过程

blast原理及过程
-9 2 13 24
-10 -13
-12 -15 -1 10 21 -4 7 18
T -12 -14 -3
T -15 -11 -6
G -18 -7 A -21 -10
-9
1
2
-1
13
10
11
8
21
18
32
29
29
27
Global Alignment vs. Local Alignment

全局比对

Blast:Basic Local Alignment Search Tool 主要过程:

Seeding Extending
Seeding:划分查询序列

去掉Query Sequence的低复杂度或重复区域

将Query Sequence划分成K-letter words
Word Size: Protein : 3 DNA : 11
0 0 0 0 0 0 0 8 5 2 0 0 8 5 5 3 0 0 0 5 3
G 0
2 0 0 0 0 2 0
A 0
0 0 0 8 8 5 2
T 0
0 8 8 5 5 3
C A T 0 0 0
8 5 5 3 2 5 3 2 2 13 11
T
T A A C T
13 10 11 8 7 18
The best score
G
0 -3
A
-6
A
-9
T
C
T
G
C
Match:8 Mismatch:-5 Gap:-3
-12 -15 -18 -21 -24
C A A
-3

如何运用BLAST进行序列比对、检验引物特异性

如何运用BLAST进行序列比对、检验引物特异性

序列比对,绝大多数战友都会想到BLAST,但BLAST的使用确实又是一个很大的难题,因为他的功能比较强悍,里面涉及到的知识比较多,而且比对结束后输出的结果参数(指标)又很多。

如果把BLAST的使用详细的都讲出来,我想我发帖发到明天也发不完,更何况我自己也不是完全懂得BLAST的使用。

所以我在这里也就“画龙点睛”——以比对核酸序列为例来给大家介绍一下BLAST的使用,也算是BLAST的入门课程吧。

请看帖的战友好好体会,如果你用心看,在看帖完毕之后BLAST的基本使用(包括其他序列的比对)应该没有问题了。

一、打开BLAST页面,http://www.ncbi.nlm.nih.go/BLAST/ 打开后如图所示:(缩略图,点击图片链接看原图)对上面这个页面进行一下必要的介绍:BLAST的这个页面主体部分(左面)包括了三部分:BLAST Assembled Genomes、Basic BLAST、Specialized BLAST。

相信大家可以看懂这三个短语的意思,我就不多说了;我要说的是,可以认为这是三种序列比对的方法,或者说是BLAST的三条途径。

第一部分BLAST Assembled Genomes就是让你选择你要比对的物种,点击相应物种之后即可进入比对页面。

第二部分Basic BLAST包含了5个常用的BLAST,每一个都附有简短的介绍。

第三部分Specialized BLAST是一些特殊目的的BLAST,如IgBLAST、SNP等等,这个时候你就需要在Specialized BLAST部分做出适当的选择了。

总之,这是一个导航页面,它的目的是让你根据自己的比对目的选择相应的BLAST途径。

下面以最基本的核酸序列比对来谈一下BLAST的使用,期间我也会含沙射影的说一下其他序列比对的方法。

二、点击Basic BLAST部分的nucleotide blast链接到一个新的页面。

打开后如图所示:screen.width-333)this.width=screen.width-333" width=640 height=462 title="Click to iew full 2.JPG (849 X 613)" border=0 align=absmiddle> 介绍一下上述页面:Enter Query Sequence部分是让我们输入序列的,你可以直接把序列粘贴进去,也可以上传序列,还可以选择你要比对的序列的范围(留空就代表要比对你要输入的整个序列)。

如何运用BLAST进行序列比对、检验引物特异性

如何运用BLAST进行序列比对、检验引物特异性

序列比对,绝大多数战友都会想到BLAST,但BLAST的使用确实又是一个很大的难题,因为他的功能比较强悍,里面涉及到的知识比较多,而且比对结束后输出的结果参数(指标)又很多。

如果把BLAST的使用详细的都讲出来,我想我发帖发到明天也发不完,更何况我自己也不是完全懂得BLAST的使用。

所以我在这里也就“画龙点睛”——以比对核酸序列为例来给大家介绍一下BLAST的使用,也算是BLAST的入门课程吧。

请看帖的战友好好体会,如果你用心看,在看帖完毕之后BLAST的基本使用(包括其他序列的比对)应该没有问题了。

一、打开BLAST页面,http://www.ncbi.nlm.nih.go/BLAST/ 打开后如图所示:(缩略图,点击图片链接看原图)对上面这个页面进行一下必要的介绍:BLAST的这个页面主体部分(左面)包括了三部分:BLAST Assembled Genomes、Basic BLAST、Specialized BLAST。

相信大家可以看懂这三个短语的意思,我就不多说了;我要说的是,可以认为这是三种序列比对的方法,或者说是BLAST的三条途径。

第一部分BLAST Assembled Genomes就是让你选择你要比对的物种,点击相应物种之后即可进入比对页面。

第二部分Basic BLAST包含了5个常用的BLAST,每一个都附有简短的介绍。

第三部分Specialized BLAST是一些特殊目的的BLAST,如IgBLAST、SNP等等,这个时候你就需要在Specialized BLAST部分做出适当的选择了。

总之,这是一个导航页面,它的目的是让你根据自己的比对目的选择相应的BLAST途径。

下面以最基本的核酸序列比对来谈一下BLAST的使用,期间我也会含沙射影的说一下其他序列比对的方法。

二、点击Basic BLAST部分的nucleotide blast链接到一个新的页面。

打开后如图所示:screen.width-333)this.width=screen.width-333" width=640 height=462 title="Click to iew full 2.JPG (849 X 613)" border=0 align=absmiddle> 介绍一下上述页面:Enter Query Sequence部分是让我们输入序列的,你可以直接把序列粘贴进去,也可以上传序列,还可以选择你要比对的序列的范围(留空就代表要比对你要输入的整个序列)。

NCBIblast使用教程[1]

NCBIblast使用教程[1]

E值范围
3.设置结果输出显示格式
选择需要显示的选项 以及显示的文件格式
显示数目
Alignment的显
筛选结果
示方式
点击开始搜索
其他一些显示格式参数
NCBIblast使用教程[1]
提交任务
返回查询号(request id) 修改完显示格式后点 击进入结果界面
可以修改显示结果格式
NCBIblast使用教程[1]
NCBIblast使用教程[1]
Blast程序评价序列相似性的两个数据
Score:使用打分矩阵对匹配的片段进行打分,这是
对各对氨基酸残基(或碱基)打分求和的结果,一般来 说,匹配片段越长、 相似性越高则Score值越大。
E value:在相同长度的情况下,两个氨基酸残基(或
碱基)随机排列的序列进行打分,得到上述Score值的 概率的大小。E值越小表示随机情况下得到该Score值的 可能性越低。
分析过程(一)
1.登陆ncbi的blast主页
2.选择程序,因为 查询序列是蛋白序 列可以选择blastp,
点击进入
也可以选择tblastn
作为演示, 我们这里选blastp
NCBIblast使用教程[1]
分析过程(二)
3.填入序列(copy+pa索整个序列,不填
w 其他问题:实际使用时选择哪种方式(网 络,本地化),参数的选择,结果的解 释…
NCBIblast使用教程[1]
Blast资源
1.NCBI主站点:
/BLAST/(网络版) ftp:///blast/ (单机版)
5.选择搜索数据库,这里我们 选nr(非冗余的蛋白序列库)。
是否搜索保守区域数据库 (cdd),蛋白序列搜索才有。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Margaret Dayhoff 等研究了34种蛋白质超家族 (85%以上一致性的序列),通过这些同源蛋 白序列的比对,总结出一个氨基酸被另一个氨 基酸替换的概率,从而构建出PAM矩阵。
谁说女子不如男!
PAM(accepted point mutation)
可接受点突变
同源蛋白质在进化过程中会出现一个氨 基酸被另一个氨基酸替换的现象,若此种突 变通过自然选择被种群接受,并可见于后代 的基因组中,便称为可接受点突变。
LAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPE
|
|.
| : |||| | :
ALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD
1.极性中性氨基酸 (亲水,含羟基)
2.碱性氨基酸
alanine valine leucine isoleucine phenylalanine proline methionine
E 266 0
94 831 0
422
G 579 10 156 162 10 30 112
H 21 103 226 43 10 243 23 10
Dayhoff (1978)
2、氨基酸出现频率
Gly 8.9% Ala 8.7% Leu 8.5% Lys 8.1% Ser 7.0% Val 6.5% Thr 5.8% Pro 5.1% Glu 5.0% Asp 4.7%
glycine tryptophan serine tyrosine cysteine asparagine glutarmine threonine
aspartic acid glutarmic acid
arginine histidine lysine
丙氨酸 缬氨酸 亮氨酸 异亮氨酸 苯丙氨酸 脯氨酸 甲硫氨酸
为了研究方便,在数学中常把表中的说明去掉, 将上表简化为如下的矩形数表:
300 250 220 180 320 230 200 200 310 280 210 220
由3×4个数组成的一个3行4列的矩形表格。此表 在数学上称为矩阵(纵横排列的二维数据表格)。
----AT--GCAT--GCATGC--ATGCATATATATATAT----ATATAT----GCATGCATGCATGCATGC
GAAKAVGKVI PALNGKLTGM AFRVPTPNVS VVDLTVRLGK GASYDEIKAK GAAKAVGKVI PELNGKLTGM AFRVPTANVS VVDLTCRLEK PAKYDDIKKV GAAKAVGKVL PELNGKLTGM AFRVPTSNVS VVDLTCRLEK GASYEDVKAA GAAKAVGKVL PELNGKLTGM AFRVPTPNVS VVDLTVRLEK AATYEQIKAA GAAKAVGKVL PELQGKLTGM AFRVPTVDVS VVDLTVKLNK ETTYDEIKKV GAAQAATEVL PELEGKLDGM AIRVPVPNGS ITEFVVDLDD DVTESDVNAA
KVINDNFEIV EGLMTTVHAT TATQKTVDGP SGKLWRDGRG AAQNIIPAST KVIHDNFGIV EGLMTTVHAI TATQKTVDGP SGKLWRDGRG ALQNIIPAST KVVHEEFGIL EGLMTTVHAT TATQKTVDGP SMKDWRGGRG ASQNIIPSST KVINDNFGII EGLMTTVHAT TATQKTVDGP SHKDWRGGRG ASQNIIPSST KVINDAFGIE EGLMTTVHSL TATQKTVDGP SHKDWRGGRT ASGNIIPSST KVLDEEFGIN AGQLTTVHAY TGSQNLMDGP NGKP.RRRRA AAENIIPTST
果蝇 人类 植物 细菌 酵母 古细
果蝇 人类 植物 细菌 酵母 古细
果蝇 人类 植物 细菌 酵母 古细
不同物种3磷酸甘油醛脱氢酶多序列比对
GAKKVIISAP SAD.APM..F VCGVNLDAYK PDMKVVSNAS CTTNCLAPLA GAKRVIISAP SAD.APM..F VMGVNHEKYD NSLKIISNAS CTTNCLAPLA GAKKVIISAP SAD.APM..F VVGVNEHTYQ PNMDIVSNAS CTTNCLAPLA GAKKVVMTGP SKDNTPM..F VKGANFDKY. AGQDIVSNAS CTTNCLAPLA GAKKVVITAP SS.TAPM..F VMGVNEEKYT SDLKIVSNAS CTTNCLAPLA GAKKVLISAP PKGDEPVKQL VYGVNHDEYD GE.DVVSNAS CTTNSITPVA
序列比对基础与BLAST入门
提出比对要考虑的问题 专业
算法(构建打分矩阵) 数学
程序
计算机
打分
搜索数据库
计算机
给出比对结果(比对分数、显著性检验)
算法是指按照一定的方式描述计算过程或处理 某个问题的一系列步骤。
程序则是算法的具体实现,也就是用某种计算 机语言编写的实现某个算法的一组指令集合。
GAKKVIISAP SAD.APM..F VCGVNLDAYK PDMKVVSNAS CTTNCLAPLA GAKRVIISAP SAD.APM..F VMGVNHEKYD NSLKIISNAS CTTNCLAPLA GAKKVIISAP SAD.APM..F VVGVNEHTYQ PNMDIVSNAS CTTNCLAPLA GAKKVVMTGP SKDNTPM..F VKGANFDKY. AGQDIVSNAS CTTNCLAPLA GAKKVVITAP SS.TAPM..F VMGVNEEKYT SDLKIVSNAS CTTNCLAPLA GAKKVLISAP PKGDEPVKQL VYGVNHDEYD GE.DVVSNAS CTTNSITPVA
KVINDNFEIV EGLMTTVHAT TATQKTVDGP SGKLWRDGRG AAQNIIPAST KVIHDNFGIV EGLMTTVHAI TATQKTVDGP SGKLWRDGRG ALQNIIPAST KVVHEEFGIL EGLMTTVHAT TATQKTVDGP SMKDWRGGRG ASQNIIPSST KVINDNFGII EGLMTTVHAT TATQKTVDGP SHKDWRGGRG ASQNIIPSST KVINDAFGIE EGLMTTVHSL TATQKTVDGP SHKDWRGGRT ASGNIIPSST KVLDEEFGIN AGQLTTVHAY TGSQNLMDGP NGKP.RRRRA AAENIIPTST
M (芳香族氨基酸
G F、W、Y )
W
S
Y C
极性中性氨基酸
N
Q
(含硫氨基酸
T
C、M )
D E
酸性氨基酸
R
H
碱性氨基酸
K
王镜岩编《生物化学》(第三版)第127页
果蝇 人类 植物 细菌 酵母 古细
果蝇 人类 植物 细菌 酵母 古细
果蝇 人类 植物 细菌 酵母 古细
不同物种3磷酸甘油醛脱氢酶多序列比对
1、Dayhoff’s 可接受点突变数目(×10)
A R NDC QE G
Ala Arg Asn Asp Cys Gln Glu Gly
A R 30 N 109 17 D 154 0 C 33 10
532
0

表示在所研究的同源 蛋白中,天冬氨酸被 谷氨酸替换,发生了 8310次
Q 93 120 50 76 0
可以把这种只考虑碱基同一性的矩阵理解为一个 分数值为1和0的分数矩阵,即相同残基的分数值 为1,不同残基的分数值为0。
ACGT A1000 C0100 G0 0 1 0 T0001
单一打分矩阵
ACGT A 5 -4 -4 -4 C -4 5 -4 -4 G -4 -4 5 -4 T -4 -4 -4 5
GAAKAVGKVI PALNGKLTGM AFRVPTPNVS VVDLTVRLGK GASYDEIKAK GAAKAVGKVI PELNGKLTGM AFRVPTANVS VVDLTCRLEK PAKYDDIKKV GAAKAVGKVL PELNGKLTGM AFRVPTSNVS VVDLTCRLEK GASYEDVKAA GAAKAVGKVL PELNGKLTGM AFRVPTPNVS VVDLTVRLEK AATYEQIKAA GAAKAVGKVL PELQGKLTGM AFRVPTVDVS VVDLTVKLNK ETTYDEIKKV GAAQAATEVL PELEGKLDGM AIRVPVPNGS ITEFVVDLDD DVTESDVNAA
GXW模体
我们想要衡量氨基酸配对的相似性程度,这就 需要有氨基酸相似性的定量标准。
单一打分矩阵满足不了此种需求。
相似性打分矩阵,是基于远距离进化过程中观 察到的残基替换率,并用不同的分数值表征不 同残基之间的相似性程度。恰当选择相似性分 数矩阵,可以提高序列比对的敏感度。
PAM矩阵和BLOSUM矩阵。
一个算法可能会有多种实现的方法。如果算法 的描述或定义明确,那么这些不同的实现方法, 即不同的程序应给出同样的结果。
某公司生产四种产品A、B、C、D,第一季度的 销量分别如下表所示:
产品销量(件)
月份 A B C D
一月 300 250 220 180
二月 320 230 200 200
三月 310 280 210 220
甘氨酸 色氨酸 丝氨酸 酪氨酸 半胱氨酸 天冬酰氨 谷氨酰胺 苏氨酸
天冬氨酸 谷氨酸
精氨酸 组氨酸 赖氨酸
氨基酸分类
Ala Val Leu Ile Phe Pro Met
相关文档
最新文档