本地blast的详细用法∷柳城
NCBIblast使用教程

Blast简介(一)
BLAST 是由美国国立生物技术信息 中心(NCBI)
开发的一个基于序列相似性的数据库搜 索程序。 BLAST是“局部相似性基本查询工 具”(Basic Local Alignment Search Tool)的 缩写。
8
Blast简介(二)
Blast 是一个序列相似性搜索的程序包, 其中包含了很多个独立的程序,这些程序 是根据查询的对象和数据库的不同来定义 的。比如说查询的序列为核酸,查询数据 库亦为核酸序列数据库,那么就应该选择 blastn程序。
2.其他站点:
/blast/ /ncbi_blast.html /blast/(果蝇)
…
12
Blast结果给出的信息
Blast结果会列出跟查询序列相似性比较 高,符合限定要求的序列结果,根据这些 结果可以获取以下一些信息。 1.查询序列可能具有某种功能 2.查询序列可能是来源于某个物种 3.查询序列可能是某种功能基因的同源基因 … 这些信息都可以应用到后续分析中。
1.基本概念 相似性,同源性 2.Blast介绍 Blast资源和相关问题 3.Blast的应用 网络版,单机版 4.深入了解Blast(改进程序,算法基础) 5.其他的序列相似性搜索工具(fasta)
3
生物序列的相似性
相似性(similarity): 是指一种很直接的数量关系,比如部 分相同或相似的百分比或其它一些合适 的度量。比如说,A序列和B序列的相似 性是80%,或者4/5。这是个量化的关 系。当然可进行自身局部比较。
19
Blast任务提交表单(二)
2.设置各种参数部分
设置搜索的范围,entrez关键词, 或者选择特定物种
一些过滤选项,包括简 单重复序列,人类基因 组中的重复序列等
如何运用BLAST进行序列比对、检验引物特异性

如何运用BLAST进行序列比对、检验引物特异性序列比对,绝大多数战友都会想到BLAST,但BLAST的使用确实又是一个很大的难题,因为他的功能比较强悍,里面涉及到的知识比较多,而且比对结束后输出的结果参数(指标)又很多。
如果把BLAST的使用详细的都讲出来,我想我发帖发到明天也发不完,更何况我自己也不是完全懂得BLAST的使用。
所以我在这里也就“画龙点睛”——以比对核酸序列为例来给大家介绍一下BLAST的使用,也算是BLAST 的入门课程吧。
请看帖的战友好好体会,如果你用心看,在看帖完毕之后BLAST的基本使用(包括其他序列的比对)应该没有问题了。
一、打开BLAST页面,打开后如图所示:(缩略图,点击图片链接看原图)对上面这个页面进行一下必要的介绍:BLAST的这个页面主体部分(左面)包括了三部分:BLAST Assembled Genomes、Basic BLAST、Specialized BLAST。
相信大家可以看懂这三个短语的意思,我就不多说了;我要说的是,可以认为这是三种序列比对的方法,或者说是BLAST的三条途径。
第一部分BLAST Assembled Genomes就是让你选择你要比对的物种,点击相应物种之后即可进入比对页面。
第二部分Basic BLAST包含了5个常用的BLAST,每一个都附有简短的介绍。
第三部分Specialized BLAST是一些特殊目的的BLAST,如IgBLAST、SNP等等,这个时候你就需要在Specialized BLAST部分做出适当的选择了。
总之,这是一个导航页面,它的目的是让你根据自己的比对目的选择相应的BLAST 途径。
下面以最基本的核酸序列比对来谈一下BLAST的使用,期间我也会含沙射影的说一下其他序列比对的方法。
二、点击Basic BLAST部分的nucleotide blast链接到一个新的页面。
打开后如图所示:=" width=640 height=462 title="Click to iew full 2.JPG (849 X 613)" border=0 align=absmiddle> 介绍一下上述页面:Enter Query Sequence部分是让我们输入序列的,你可以直接把序列粘贴进去,也可以上传序列,还可以选择你要比对的序列的范围(留空就代表要比对你要输入的整个序列)。
上机实习四:BLAST序列相似性搜索工具的使用

Assessing whether proteins are homologous
RBP4 and PAEP: Low bit score, E value 0.49, 24% identity (“twilight zone”). But they are indeed homologous. Try a BLAST search with PAEP as a query, and find many other lipocalins.
cut-off parameters
BLAST search strategies
General concepts How to evaluate the significance of your results
How to handle too many results
How to handle too few results
Step 3: choose the database
nr = non-redundant (most general database) dbest = database of expressed sequence tags dbsts = database of sequence tag sites gss = genomic survey sequences htgs = high throughput genomic sequence
Sometimes a real match has an E value > 1
…try a reciprocal BLAST to confirm
Sometimes a similar E value occurs for a short exact match and long less exact match
Blast使用方法攻略

Blast使⽤⽅法攻略结果12列Query id,Subject id,% identity,alignment length,mismatches,gap openings,q. start,q. end,s. start,s. end,e-value,bit scoreBlast,全称Basic Local Alignment Search Tool,即"基于局部⽐对算法的搜索⼯具",由Altschul等⼈于1990年发布。
Blast能够实现⽐较两段核酸或者蛋⽩序列之间的同源性的功能,它能够快速的找到两段序列之间的同源序列并对⽐对区域进⾏打分以确定同源性的⾼低。
Blast的运⾏⽅式是先⽤⽬标序列建数据库(这种数据库称为database,⾥⾯的每⼀条序列称为subject),然后⽤待查的序列(称为 query)在database中搜索,每⼀条query与database中的每⼀条subject都要进⾏双序列⽐对,从⽽得出全部⽐对结果。
Blast是⼀个集成的程序包,通过调⽤不同的⽐对模块,blast实现了五种可能的序列⽐对⽅式:blastp:蛋⽩序列与蛋⽩库做⽐对,直接⽐对蛋⽩序列的同源性。
blastx:核酸序列对蛋⽩库的⽐对,先将核酸序列翻译成蛋⽩序列(根据相位可以翻译为6种可能的蛋⽩序列),然后再与蛋⽩库做⽐对。
blastn:核酸序列对核酸库的⽐对,直接⽐较核酸序列的同源性。
tblastn:蛋⽩序列对核酸库的⽐对,将库中的核酸翻译成蛋⽩序列,然后进⾏⽐对。
tblastx:核酸序列对核酸库在蛋⽩级别的⽐对,将库和待查序列都翻译成蛋⽩序列,然后对蛋⽩序列进⾏⽐对。
Blast提供了核酸和蛋⽩序列之间所有可能的⽐对⽅式,同时具有较快的⽐对速度和较⾼的⽐对精度,因此在常规双序列⽐对分析中应⽤最为⼴泛。
可以毫不夸张的说,blast是做⽐较基因组学乃⾄整个⽣物信息学研究所必须掌握的⼀种⽐对⼯具。
Blast本地化安装图解

Blast本地化:window平台下blast软件的安装boyun发表于 2009-07-09 17:08 | 阅读 1 views1.对于windows 2000/xp 用户,下载blast-2.2.18-ia32-win32.exe安装文件ftp:///blast/executables/LATEST/blast-2.2.18-ia32-win32.exe2.创建一个新目录,例如C:\blast,将下载的文件blast-2.2.18-ia32-win32.exe复制到该目录,双击这个文件,自解压产生bin、data、doc 三个目录,bin是程序目录,data是程序使用数据的目录,doc是文档目录。
表:bin目录中的程序程序说明bl2seq.exe进行两条序列比对blastall.exe做普通的blast比对blastclust.exeblastpgp.execopymat.exefastacmd.exe通过gi号,接收号等,在数据库中检索序列formatdb.exe格式化数据库formatrpsdb.exeimpala.exemakemat.exemegablast.exe megablast程序rpsblast.exeseedtop.exe3.用文本编辑器创建一个ncbi.ini文件,文件包含下面内容:[NCBI]Data="C:\blast\data\"将ncbi.ini文件存放到系统的Windows 或者 WINNT目录。
4.将”C:\blast\bin”目录添加路径中(该步骤非必须,但会给以后的操作带来方便),方法:1)右击我的电脑选择属性,选择高级,点击环境变量,设置环境变量2)系统变量中,选择Path,点击“编辑”,在变量值的后面添加“; C:\blast\bin”,点击确定将安装路径添加到path5.测试,打开dos窗口(点击开始,选择运行,打开的输入框中输入“cmd”,确定),键入“blastall”,回车,如果安装正确,将显示blastall的所有参数说明。
BLAST种类及使用方法

BLAST种类及使用方法BLAST(Basic Local Alignment Search Tool)是一种常用的生物信息学工具,用于在数据库中和比对生物序列。
BLAST工具有多种不同的变体,每种都有不同的用途和适用范围。
下面将介绍几种常见的BLAST工具及其使用方法。
1.BLASTN:BLASTN用于比对核酸序列(DNA或RNA)。
它可以识别相似的核酸序列,并计算相似度和比对长度。
通过对两个序列之间的匹配和错配进行比较,BLASTN可以找到最佳的比对结果。
BLASTN对于找到相似的基因和寻找保守序列非常有用。
使用方法:a.输入待比对的核酸序列。
b.选择合适的数据库(如NCBI的NR数据库)。
c.选择期望的输出格式。
d.运行BLASTN比对。
e.分析比对结果,并根据需要进行相关的进一步分析。
2.BLASTP:BLASTP用于比对蛋白质序列。
它可以找到相似的蛋白质序列,并计算相似度和比对长度。
BLASTP通过比较两个蛋白质序列之间的氨基酸匹配和错配来找到最佳的比对结果。
BLASTP对于找到相似的蛋白质序列、预测蛋白质结构和功能非常有用。
使用方法:a.输入待比对的蛋白质序列。
b. 选择合适的数据库(如NCBI的RefSeq数据库)。
c.选择期望的输出格式。
d.运行BLASTP比对。
e.分析比对结果,并根据需要进行相关的进一步分析。
3.BLASTX:使用方法:a.输入待比对的核酸序列。
b. 选择合适的数据库(如NCBI的RefSeq数据库)。
c.选择期望的输出格式。
d.运行BLASTX比对。
e.分析比对结果,并根据需要进行相关的进一步分析。
4. BLAST2Seq:使用方法:a.输入两个待比对的生物序列。
b.选择合适的数据库(如NCBI的NR数据库)。
c.选择期望的输出格式。
d. 运行BLAST2Seq比对。
e.分析比对结果,并根据需要进行相关的进一步分析。
5.tBLASTn:tBLASTn用于比对核酸序列,并将其翻译成六个阅读框的蛋白质序列,然后与蛋白质序列进行比对。
本地版BLAST程序及常用参数

值1 y -M: 所使用的打分矩阵,缺省值BLOSUM62
本地版Blast 参数(4)
y -W: 字长(Word size), 默认为0(0表示核酸为 11, 蛋白质为3)
y -S:在数据库中搜索时所使用的核酸链(strand) ,只对blastn、blastx和tblastx有效;
y 1表示top, y 2表示bottom, y 3表示both;缺省值3
本地版Blast 参数(3)
y -q: 一个核酸碱基的错配(mismatch)的罚分(只对 blastn有效),缺省值-3
y -r: 一个核酸碱基的正确匹配(match)的奖分(只对 blastn有效),缺省值1
y -b:显示的比对结果的最大数目,缺省值250 y -a: 运行BLAST程序所使用的处理器的数目,缺省
准备Database
(([swissprot-ID:HB?_*] | [swissprot-ID:HBA?_*]) | [swissprot-ID:HBB?_*])
准备查询序列
利用本地BLAST搜索黑猩猩血红蛋白
y Formatdb -i 773HB.FAS y Blastall -p blastx –d 773HB.FAS –i CHIMP.FAS –o
1. BLAST种类
本地版BLAST程序及常用参数
Formatdb
y 建库命令:formatdb y 功能:创建三个主要的文件——库索引(indices),
序列(sequences)和头(headers)文件 y 生成的文件的扩展名分别是:
y .pin、.psq、.phr(对蛋白质序列) y .nin、.nsq、.nhr(对核酸序列)
Formatdb 常用参数
BLAST使用方法

BLAST使用方法一、BLAST的安装和准备工作2.获取待比对的序列文件,可以是FASTA格式的DNA或蛋白质序列。
二、BLAST的常用参数和选项1. Program:指定使用哪种BLAST程序(如BLASTn、BLASTp等)。
2. Database:指定使用哪个数据库进行比对。
3. Query:指定待比对的序列文件。
4. E-value:期望值。
一种描述比对结果误差率的指标,值越小表示结果越可信。
通常情况下,E-value小于0.01被认为是显著结果。
5. Word size:BLAST在比对时使用的核心词的长度。
长度越大表示查全率(sensitivity)越高,但速度会减慢。
6. Gap open:允许在比对过程中插入空位(如插入一个碱基)。
Gap open参数定义了开放一个空位的惩罚分数。
7. Gap extension:允许空位的延伸。
Gap extension参数定义了延伸一个空位的惩罚分数。
三、使用BLAST进行比对1.命令行方式:-打开命令行界面,并定位到BLAST软件的安装目录。
- 输入命令,指定BLAST程序、数据库、查询文件和其他参数。
例如:blastn -db nt -query query.fasta -out output.txt -evalue 0.01-运行命令,BLAST将开始进行比对并生成结果文件。
2.网页方式(以NCBIBLAST为例):- 打开NCBI网站的BLAST页面()。
-选择需要使用的BLAST程序(如BLASTn、BLASTp等)。
-上传待比对的序列文件,或者粘贴序列文本到输入框中。
-选择适当的数据库和其他参数。
-点击“BLAST”按钮,等待比对完成。
四、解读BLAST结果1. E-value:表示在随机比对中获得与查询序列相似度更高的结果的期望概率。
E-value越小表示比对结果越显著。
2. Bitscore:用于表示比对结果的质量。
Bitscore越高表示比对结果越可信。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
本地blast的详细用法Posted on 03 四月 2009 by 柳城,阅读 9,626本地blast的详细使用方法blast all -p blastn -i myRNA.fasta -d humanRNA.fasta -o myresult.blastout -a 2 -F F -T T -e 1e-10解释如下:blastall: 这是本地化/命令行执行blast时的程序名字!(Tips:blastall直接回车就会给出你所有的参数帮助,但是英文的)-p: p 是program的简写,program在计算机领域中是程序的意思。
此参数是指定要使用何种子程序,所谓子程序,就是针对不同的需要,如核酸序列和核酸序列进行比对、蛋白质序列和蛋白质序列进行比对、假设翻译后核酸序列于蛋白质序列进行比对,选择相应的子程序: blastn 是用于核酸对核酸 blastp 是蛋白质对蛋白质序列等等,一共5个自程序。
-i: i 是input的简写,意思是输入文件,就是你自己的要进行比对的序列文件(fasta格式)-d: d是database的简写,意思是要比对的目标数据库,在例子中就是humanRNA.fasta (别忘了要formatdb)-o: o是output的简写,意思是结果文件名字,这个根据你自己的习惯起名字,可以带路径,(上边两个参数-i -d 也都可以带路径)*注意以上4个参数是必须的,缺一不可,下面的参数是为了得到更好的结果自己可调的参数,如果你不加也没有关系,blastall程序本身会给一个默认值!-a: 是指计算时要用的CPU个数,我的机器有两个CPU,所以用-a 2,这样可以并行化进行计算,提高速度,当然你的计算机就一个CPU,可以不用这个参数,系统默认值为1,就是一个CPU-F: 是filter的简写,blastall程序中有对简单的重复序列和低复杂度的一些repeats过滤调,默认是T (注意以后的有几种参数就两个选项,T/F T就是ture,真,你可以理解为打开该功能; F就是false,假,理解为关闭该功能)-T: 是HTML的简写,是指blast结果文件是否用HTML格式,默认是F!如果你想用IE看,我建议用-T T-e: 是Expectation value,期望值,默认是10,我用的10-10!BLASTALL 用法a.格式化序列数据库格式化序列数据库— —formatdbformatdb简单介绍:formatdb处理的都是格式为 ASN.1和FASTA,而且不论是核苷酸序列数据库,还是蛋白质序列数据库;不论是使用Blastall ,还是Blastpgp,Mega Blast应用程序,这一步都是不可少的。
formatdb命令行参数:formatdb - 得到formatdb 所有的参数显示(见附录二)和介绍,主要参数的说明:-i输入需要格式化的源数据库名称O p t i o n a l-p文件类型,是核苷酸序列数据库,还是蛋白质序列数据库T–p r o t e i n F-n u c l e o t i d e[T/F]O p t i o n a l d e f a u l t=T-a输入数据库的格式是A S N.1(否则是F A S T A)T-T r u e,F-F a l s e.[T/F]O p t i o n a l d e f a u l t=F-o解析选项T-T r u e:解析序列标识并且建立目录F-F a l s e:与上相反[T/F]O p t i o n a l d e f a u l t=F命令示例:f o r m a t d b-i e c o l i.n t-p F-o T运行此命令就会在当前目录下产生用于BLAST搜索的7个文件,一旦如上的formatdb命令执行完毕,就不再需要ecoli.nt,可以移除。
此时,blastall可以直接使用。
b.Blastall常用参数简析-p Program Name [String]所用程序名称[String],用户可以根据需要从blastn,blastp,blastx,tblastn,tblastx中任选一程序。
-d Database [String] default = nr所用序列数据库的名称 [String],默认为:nr-i Query File [File In] default = stdin所用查询序列文件[File In],默认为:stdin,本文例为 test.txt-e Expectation value (E) [Real] default = 10.0期望值[Real] 默认为10.0 描述搜索某一特定数据库时,随机出现的匹配序列数目。
-m alignment view options: 比对显示选项,其具体的说明可以用以下的比对实例说明0 = pairwise,显示具体匹配信息(缺省)1 = query-anchored showing identities,查询-比上区域,显示一致性2 = query-anchored no identities,查询-比上区域,不显示一致性3 = flat query-anchored, show identities,查询-比上区域的屏文形式,显示一致性4 = flat query-anchored, no identities,查询-比上区域的屏文形式,不显示一致性5 = query-anchored no identities and blunt ends,查询-比上区域,不显示一致性,无突然的结束6 = flat query-anchored, no identities and blunt ends,查询-比上区域的屏文形式,不显示一致性7 = XML Blast output,XML格式的输出8 = tabular,TAB格式的输出9 =tabular with comment lines,带注释行的TAB格式的输出10 =ASN, text,文本方式的ASN格式输出11 =ASN, binary [Integer] default = 0,二进制方式的ASN格式输出-m 8 用法举例说明如下:A_query B_Sbjct 97.61 585 3 3 309 886 94498 95078 0.0 1017A_query B_Sbjct 100.00 303 0 0 913 1215 95092 95394 2e-172 601A_query B_Sbjct 100.00 209 0 0 1 209 94196 94404 3e-116 414A_query B_Sbjct 100.00 123 0 0 1234 1356 95413 95535 6e-65 244A_query B_Sbjct 100.00 41 0 0 210 250 94096 94136 5e-16 81.8A_query B_Sbjct 100.00 35 0 0 251 285 94440 94474 2e-12 69.9A_query B_Sbjct 100.00 29 0 0 885 913 95747 95775 7e-09 58.0A_query A_query 97.61 585 3 3 309 886 403 983 0.0 1017A_query A_query 100.00 303 0 0 913 1215 997 1299 2e-172 601A_query A_query 100.00 209 0 0 1 209 101 309 3e-116 414A_query A_query 100.00 123 0 0 1234 1356 1318 1440 6e-65 244A_query A_query 100.00 41 0 0 210 250 1 41 5e-16 81.8A_query A_query 100.00 35 0 0 251 285 345 379 2e-12 69.9A_query A_query 100.00 29 0 0 885 913 1652 1680 7e-09 58.0结果12列Query id,Subject id,% identity,alignment length,mismatches,gap openings,q. start,q. end,s. start,s. end,e-value,bit score--------------------------------------------------------------------------------------------------------------o BLAST report Output File [File Out] Optional default = stdout,BLAST报告的输出文件[File Out] 默认为:stdout-F Filter query sequence (DUST with blastn, SEG with others) [String] default = T查询序列过滤,将那些给出影响比对结果的低复杂度区域过滤掉。
用blastn进行查询的序列用DUST程序过滤,其他的用SEG过滤。
对DUST和SEG的详细情况,用户可以自己查询资料。
-G Cost to open a gap (zero invokes default behavior) [Integer] default = 0空位开放罚分[Integer] (设为0则调用默认行为) 默认为0分-E Cost to extend a gap (zero invokes default behavior) [Integer] default = 0空位扩展罚分[Integer] (设为0则调用默认行为) 默认为0分-T Produce HTML output [T/F] default = F以网页形式打印-X X dropoff value for gapped alignment (in bits) (zero invokes default behavior)blastn 30, megablast 20, tblastx 0, all others 15 [Integer],default = 0-I Show GI's in deflines [T/F] default = F提示行显示GI number 默认不显示-q Penalty for a nucleotide mismatch (blastn only) [Integer] default = -3核酸序列基对不匹配所罚分数(blastn only) [Integer] 默认罚3分-r Reward for a nucleotide match (blastn only) [Integer] default = 1核苷酸序列基对匹配所加分数(blastn only) [Integer] 默认加1分-g Perfom gapped alignment (not available with tblastx) [T/F] default = T是否执行带缺口的比对(not available with tblastx) 默认为是 -a Number of processors to use [Integer] default = 1使用处理器的数目[Integer] 默认为单机-B Number of concatenated queries, for blastn and tblastn [Integer] Optional default = 0需要联配查询的序列数目 for blastn and tblastn [Integer] 默认为单序列-M Matrix [String],default = BLOSUM62 打分矩阵,默认BLOSUM62-W Word size, default if zero (blastn 11, megablast 28, all others 3) [Integer] default = 0所开窗口-w Frame shift penalty (OOF algorithm for blastx) [Integer] default = 0窗口罚分。