Blast使用技巧PPT课件
Blast使用方法文库

简介Blast,全称Basic Local Alignment Search Tool,即"基于局部比对算法的搜索工具",由Altschul等人于1990年发布。
Blast能够实现比较两段核酸或者蛋白序列之间的同源性的功能,它能够快速的找到两段序列之间的同源序列并对比对区域进行打分以确定同源性的高低。
Blast的运行方式是先用目标序列建数据库(这种数据库称为database,里面的每一条序列称为subject),然后用待查的序列(称为query)在database中搜索,每一条query与database 中的每一条subject都要进行双序列比对,从而得出全部比对结果。
Blast是一个集成的程序包,通过调用不同的比对模块,blast实现了五种可能的序列比对方式:blastp:蛋白序列与蛋白库做比对,直接比对蛋白序列的同源性。
blastx:核酸序列对蛋白库的比对,先将核酸序列翻译成蛋白序列(根据相位可以翻译为6种可能的蛋白序列),然后再与蛋白库做比对。
blastn:核酸序列对核酸库的比对,直接比较核酸序列的同源性。
tblastn:蛋白序列对核酸库的比对,将库中的核酸翻译成蛋白序列,然后进行比对。
tblastx:核酸序列对核酸库在蛋白级别的比对,将库和待查序列都翻译成蛋白序列,然后对蛋白序列进行比对。
Blast提供了核酸和蛋白序列之间所有可能的比对方式,同时具有较快的比对速度和较高的比对精度,因此在常规双序列比对分析中应用最为广泛。
可以毫不夸张的说,blast是做比较基因组学乃至整个生物信息学研究所必须掌握的一种比对工具。
下载NCBI提供免费下载,网址:ftp:///blast/executables/release/,可根据自己得机器选择相应操作系统的版本。
安装直接解压缩包即可。
解压缩命令:zcat *.tar.gz | tar xvf -使用Blast的运行分为两个步骤:第一,建立目标序列的数据库;第二,做blast比对。
NCBI_blast_使用教程.pptx

Blast任务提交表单(二)
2.设置各种参数部分
设置搜索的范围,entrez关键词, 或者选择特定物种
一些过滤选项,包括简 单重复序列,人类基因
组中的重复序列等
E值上限
窗口大小 如果你对blast的命令行选项熟悉的话,可以在这里加入更多的参数
20
Blast任务提交表单(三)
E值范围
ቤተ መጻሕፍቲ ባይዱ
3.设置结果输出显示格式
蛋白质序列和核酸数据库中的核酸序列6 框翻译后的蛋白质序列逐一比对。
核酸序列6框翻译成蛋白质序列,再和核 酸数据库中的核酸序列6框翻译成的蛋 白质序列逐一进行比对。
10
Blast相关的问题
怎么获得blast服务,怎么使用的问题?
为什么使用blast,可以获得什么样的信息?
其他问题:实际使用时选择哪种方式(网 络,本地化),参数的选择,结果的解 释…
15
本地WEB版的Blast
16
Blast程序评价序列相似性的两个数据
Score:使用打分矩阵对匹配的片段进行打分,这是
对各对氨基酸残基(或碱基)打分求和的结果,一般来 说,匹配片段越长、 相似性越高则Score值越大。
E value:在相同长度的情况下,两个氨基酸残基(或
碱基)随机排列的序列进行打分,得到上述Score值的 概率的大小。E值越小表示随机情况下得到该Score值的 可能性越低。
2.Blast介绍 Blast资源和相关问题
3.Blast的应用 网络版,单机版
4.深入了解Blast(改进程序,算法基础) 5.其他的序列相似性搜索工具(fasta)
3
生物序列的相似性
相似性(similarity): 是指一种很直接的数量关系,比如部
NCBI_BLAST使用

NCBI的BLast最好生物核酸的数据库NCBI是在NIH的国立医学图书馆(NLM)的一个分支。
NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的,而且这可以建立一个内部的关于计算分子生物学的研究计划。
NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。
BLAST是一个NCBI开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段。
BLAST能够在小于15秒的时间内对整个DNA数据库执行序列搜索。
NCBI提供的附加的软件工具有:开放阅读框寻觅器(ORF Finder),电子PCR,和序列提交工具,Sequin和BankIt。
所有的NCBI数据库和软件工具可以从WWW或FTP来获得。
NCBI还有E-mail服务器,提供用文本搜索或序列相似搜索访问数据库一种可选方法。
NCBI的BLast种类介绍? Gapped BLAST (2.0)—一种BLAST版本,允许在它产生的对齐(alignments)中存在缺口。
统计有效性的评估是基於使用随机序列的优先模拟。
在不久的将来,所有对Gapped BLAST的访问都要通过QBLAST。
? QBLAST —一种新的系统,允许用户以他们方便的方式检索Gapped BLAST结果,并且可以用各种格式选项多次格式化他们的结果。
这个系统也使NCBI更有效的使用计算资源,更好的为大家服务。
到1999年秋季,QBLAST系统用於所有的BLAST搜索。
? PSI-BLAST —位点特异迭代BLAST —用蛋白查询来搜索蛋白资料库的一个程式。
所有被BLAST发现的统计有效的对齐被总和起来形成一个多次对齐,从这个对齐,一个位置特异的分值矩阵建立起来。
这个矩阵被用来搜索资料库,以找到额外的显著对齐,这个过程可能被反复迭代一直到没有新的对齐可以被发现。
? PHI-BLAST —模式发现迭代BLAST —用蛋白查询来搜索蛋白资料库的一个程式。
[PPT]BLAST介绍
![[PPT]BLAST介绍](https://img.taocdn.com/s3/m/426d26eef705cc17552709c8.png)
子为中心向两边开始延伸,延伸的终 止点就是这个序列的累积得分开始变 小,也就是说出现了负数的匹配得分。
8.必须首先引入一个以经验为主的值S,这 个值称之为切断分(cutoff score),顾名 思义,就是一个给HSPs的阀值,凡低于这 个S的HSPs将无法进入我们的下一步的工作。 相反,我们将所有及格的HSPs列举出来。
3.Method
4.Gapped
9.当我们得到了这些需要的HSPs片段后, 并不能直接将这些所谓的HSPs所在的序列 就这么输出给程序的使用者,因为太多了, 所以必须进一步筛选那些含有HSPs的序列。 为此我们需要引入耿贝尔极值分布的概念 (gumbel extreme distribution):
这个极值分布式给出了一个所谓的概率p, 指cutoff score 不小于x这个预期值的概率。 应用这个p值(因为着重是为了引出下面E 值的概念,所以并不对这个艰难的数学知 识做过多的解释),我们可以引入expect value—E。它的数学表述如下:
动态规划算法
BLAST应用了动态规划的基本思想,引入 启发式算法的思想,节省了时间。启发式的动 态规划算法在精确性上不如纯粹动态规划(如 needle算法)但在速度上却是其的50倍左右。 这一点保证了BLAST比对大规模数据库的可行 性。 动态规划简单的讲就是如果一个问题能够 有最优化的子结构,那么它就能很好的被递归 的方法解决。
6. 对那些筛选出来的高分字符串拿到数 据库中去和包含其中的随机序列去进行覆 盖比对。这个时候只要w-letters里的一个字 符串与目标序列的一个区域发生了一个准 确配对,那么就称bingo(hit),并以此为 启发点(或者种子,seed)进行下一步工 作。
[整理]如何做序列的blast分析幻灯片
![[整理]如何做序列的blast分析幻灯片](https://img.taocdn.com/s3/m/7a8537100c22590103029d5c.png)
[药理作用]
• 1.对中枢神经系统的作用 • (1)镇静 • (2)保护脑神经细胞 • 2.降压 • 3.抑制血小板聚集和抗血栓形成 • 4.降低心脏兴奋性(抑制)
(1)镇静
• 作用:抑制动物自发活动;对抗咖啡因的 中枢兴奋作用;部分阳性条件反射消失; 大脑皮层兴奋性降低。
• 作用机理:调节不同脑区单胺类递质, (降低NE、增加5-HT的释放)。
High scores low e values
18
具体步骤
➢Blast输出结果
➢Score
• 使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱 基)打分求和的结果,一般来说,匹配片段越长、 相似性越高则Score值 越大。
➢E value
• 在相同长度的情况下,两个氨基酸残基(或碱基)随机排列的序列进 行打分,得到上述Score值的概率的大小。E值越小表示随机情况下得到 该Score值的可能性越低。
如何做序列的blast分 析
Blast简介
➢ BLAST 是NCBI中用来将一个蛋白质或DNA序列和各种数据库中 的其他序列进行比对的主要工具。 BLAST搜索是研究一个蛋白质 和基因的最基本的方法之一。
➢ Blast具有非常广泛的运用
➢ 确定特定的蛋白质或核酸序列有哪些已知的直系同源或旁系同源序列 ➢ 确定哪些蛋白质和基因在特定的物种中出现 ➢ 确定一个DNA或蛋白质序列身份 ➢ 发现新基因 ➢ 确定一个特定基因或蛋白质有哪些已经发现了的变种 ➢ 研究可能存在多种剪切方式的表达序列标签 ➢ 寻找对于一个蛋白质的功能和/或结构起关键作用的氨基酸残基
➢ 调整可选参数
3. Expect threshold:期望值E是得分大于或等于某个分值S的不同的比对 的数目在随机的数据库搜索中发生的可能性。
图解NCBIBlast

图解NCBIBlast
生物信息的入门史诗级工具NCBI是我们日常接触最多的生物信息综合数据库,基础而不简单,关于它的使用可真是让笔者又爱又恨。
爱其功能强大,恨其复杂。
关于NCBI,笔者也写过其他的短文介绍其使用。
感兴趣的伙伴们自取了不起的NCBI Blast
从NCBI下载基因组数据的N种方式比较
今天又有小伙伴咨询NCBI Blast的使用方法。
借之前的一个ppt 内容,多图详细梳理NCBI blast在线工具的使用方法,希望对大家的工作用所帮助~
(注:以上部分截图内容来自于网络)
微信号:
Mypathogen
微微悦明
科学的乐趣是获得新知识的喜悦
高通量测序、大数据
病原微生物检测和监测
健康大数据行业资讯记录与分享
每一天获得一点微小的收获和进步。
小确幸的科研也很好。
与君共勉!。
Blast使用入门

在过去的十年中,Altschul博士在发展评估序列相似 性更有效的统计方法方面起到了重要作用,无论是提高
搜索速度,还是加大相似序列间的敏感性上,这些贡献 对 于 BLAST 的 发 展 是 至 关 重 要 的 , 随 着 1997 年 PSIBLAST的采用,Altschul博士和他的合作伙伴再一次展示 了聪明地使用统计学是如何使得序列搜索变成了一个真 实地、令人生畏的科学工具。
Smith-Waterman算法 局部比对
Fasta算法
Blast算法
建立评分矩阵
Pam250 blosum62
执行比对
Needleman-Wunsch
(动态规划算法) Smith-Waterman
确定最佳途径
当面向数据之海的时候,该怎么办?
生物信息学:努力在数据的海洋里畅游
BLAST (Basic Local Alignment Search Tool) is a set of similarity search programs that explore all of the available sequence databases for protein or DNA.
在速度上比完全只使用动态规划大约快上50倍左右
引用次数:36501 引用次数:35799
BLAST

BLAST
核苷酸比对点击这 蛋白质比对点击这
核苷酸 BLAST
点击这里
核苷酸 BLAST
在此处输入核 苷酸序列
核苷酸 BLAST
还是刚刚的页面,有一些相关选项可以选择(我就保持默认),然后点击最后 的BLAST即可。
结果
核苷酸 BLAST 结果
结果保存三张图片,再加上原来使用的序列即可。
蛋白质 BLAST
点击 protein blast,输入蛋白质序列,blast即可,同样保 持三张图片和蛋白质序列。
作业2
本次作业如下: 至少用2条核苷酸序列和1条蛋白质序列进行BLAST相似性 搜索,结果可视化图像和相关序列拷贝作为作业。
BLAST
1,进入BLAST页面,选择Basic BLAST之下的 nucleotide blast或protein blast。 2,输入相关序列,然后BLAST, 3,保存结果,图片或文本形式。
BLAST
进入/ 在页面最后选择BLAST即可
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
16
结果页面(一)
图形示意结果
17
结果页面(二)
目标序列描述部分
带有genbank的链接,点击可以进入 相应的genbank序列
匹配情况,分值,e值
18
结果页面(三)
详细的比对上的序列的排列情况
查询序列和目标序列之间的字母表示两个氨基Байду номын сангаас相同,加号+表示两个氨基酸相似。 空白表示既不相同也不相似。
7
程序名 Blastn Blastp
查询序列 核酸 蛋白质
Blastx
核酸
Tblastn 蛋白质
TBlastx
核酸
数据库
搜索方法
核酸 核酸序列搜索逐一核酸数据库中的序列
蛋白质 蛋白质 核酸 核酸
蛋白质序列搜索逐一蛋白质数据库中的序 列
核酸序列翻译成蛋白质序列后和蛋白质数 据库中的序列逐一搜索。
蛋白质序列和核酸数据库中的核酸序列翻 译后的蛋白质序列逐一比对。
19
一个具体的例子(blastp)
假设以下为一未知蛋白序列
>query_seq
MSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTASWFT ALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDGKMKELSPRWY FYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATVLQLPQG TTLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPGSSRGNSPARMASGGGETALAL LLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFG RRGPEQTQGNFGDQDLIRQGTDYKHWPQIAQFAPSASAFFGMSRIGMEVTPSGTW LTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDKKKKTDEAQPLPQRQ KKQPTVTLLPAADMDDFSRQLQNSMSGASADST QA
36
DNA
tblastx将查询DNA以及数据库中的DNA都翻译成6种可能的蛋白质, 然后进行36次蛋白质-蛋白质数据库搜索
9
10
Blast程序评价序列相似性的两个数据
Score:使用打分矩阵对匹配的片段进行打分,这是
对各对氨基酸残基(或碱基)打分求和的结果,一般来 说,匹配片段越长、 相似性越高则Score值越大。
核酸序列翻译成蛋白质序列,再和核酸数 据库中的核酸序列翻译成的蛋白质序 列逐一进行比对。
8
Program Input
blastn
DNA
1
Database
DNA
blastn将一个DNA查询序列的两条链与一个DNA数据库进行比较
blastp
protein
1
protein
blastp将一个蛋白质查询序列与一个蛋白质数据库进行比较
生物序列的相似性搜索
-blast简介及其应用
生物序列的相似性
相似性(similarity): 是指一种很直接的数量关系,比如部
分相同或相似的百分比或其它一些合适 的度量。比如说,A序列和B序列的相似 性是80%,或者4/5。这是个量化的关 系。当然可进行自身局部比较。
2
生物序列的同源性
同源性(homology): 指从一些数据中推断出的两个基因或蛋
组中的重复序列等
E值上限
窗口大小 如果你对blast的命令行选项熟悉的话,可以在这里加入更多的参数
14
Blast任务提交表单(三)
E值范围
3.设置结果输出显示格式
选择需要显示的选项 以及显示的文件格式
显示数目
Alignment的显
筛选结果
示方式
点击开始搜索
其他一些显示格式参数
15
提交任务
返回查询号(request id) 修改完显示格式后点 击进入结果界面
键作用的氨基酸残基。
5
Blast简介(一)
BLAST 是由美国国立生物技术信息 中心(NCBI) 开发的一个基于序列相似性的数据库搜 索程序。
BLAST是“局部相似性基本查询工 具”(Basic Local Alignment Search Tool)的 缩写。
6
Blast简介(二)
Blast 是一个序列相似性搜索的程序包, 其中包含了很多个独立的程序,这些程序 是根据查询的对象和数据库的不同来定义 的。比如说查询的序列为核酸,查询数据 库亦为核酸序列数据库,那么就应该选择 blastn程序。 下表列出了主要的blast程序。
正因为存在这样的关系,很多时候对序列的 相似性和同源性就没有做很明显的区分,造成经 常等价混用两个名词。所以有出现A序列和B序 列的同源性为80%一说。
4
数据库搜索目的
确定特定的蛋白质或核酸序列有哪些已 知的直系同源或旁系同源序列。
确定哪些蛋白质和基因在特定的物种中 出现。
确定一个DNA或蛋白质序列身份。 发现新基因。 寻找对于一个蛋白质的功能或结构起关
白质序列具而共同祖先的结论,属于质的 判断。就是说A和B的关系上,只有是同 源序列,或者非同源序列两种关系。而说 A和B的同源性为80%都是不科学的。
3
相似性和同源性关系
序列的相似性和序列的同源性有一定的关系,一 般来说序列间的相似性越高的话,它们是同源序 列的可能性就更高,所以经常可以通过序列的相 似性来推测序列是否同源。
6
blastx
DNA
protein
blastx将一个DNA序列用所有可能的阅读框翻译成6个蛋白质, 然后将它们逐一与一个蛋白质数据库进行比较
tblastn protein
6
DNA
tblastn将一个DNA数据库中的每一条序列翻译成6种可能的蛋白质,然后将 要查询的蛋白序列与翻译的蛋白质逐一进行比较
tblastx DNA
12
Blast任务提交表单(一)
序列范围 (默认全部)
1.序列信息部分
填入查询(query)的序列 选择搜索数据库 如果接受其他参数默认 设置,点击开始搜索
13
Blast任务提交表单(二)
2.设置各种参数部分
设置搜索的范围,entrez关键词, 或者选择特定物种
一些过滤选项,包括简 单重复序列,人类基因
E value:在相同长度的情况下,两个氨基酸残基(或
碱基)随机排列的序列进行打分,得到上述Score值的 概率的大小。E值越小表示随机情况下得到该Score值的 可能性越低。
11
NCBI提供的Blast服务
登陆ncbi的 blast主页
核酸序列
蛋白序列
翻译序列
底下有其他一些针对 特殊数据库的和查看 以往的比对结果等