Blast软件及常用数据库介绍
NCBI在线BLAST使用方法与结果详解

NCBI在线BLAST使用方法与结果详解BLAST(Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。
BLAST程序能迅速与公开数据库进行相似性序列比较。
BLAST结果中的得分是对一种对相似性的统计说明。
BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。
Blast中常用的程序介绍:1、BLASTP是蛋白序列到蛋白库中的一种查询。
库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。
2、BLASTX是核酸序列到蛋白库中的一种查询。
先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。
3、BLASTN是核酸序列到核酸库中的一种查询。
库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。
4、TBLASTN是蛋白序列到核酸库中的一种查询。
与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。
5、TBLASTX是核酸序列到核酸库中的一种查询。
此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。
下面是具体操作方法1,进入在线BLAST界面,可以选择blast特定的物种(如人,小鼠,水稻等),也可以选择blast所有的核酸或蛋白序列。
不同的blast程序上面已经有了介绍。
这里以常用的核酸库作为例子。
2,粘贴fasta格式的序列。
选择一个要比对的数据库。
关于数据库的说明请看NCBI在线blast数据库的简要说明。
一般的话参数默认。
3,blast参数的设置。
注意显示的最大的结果数跟E值,E值是比较重要的。
筛选的标准。
最后会说明一下。
4,注意一下你输入的序列长度。
注意一下比对的数据库的说明。
5,blast结果的图形显示。
没啥好说的。
6,blast结果的描述区域。
BLAST使用方法

BLAST使用方法BLAST(Basic Local Alignment Search Tool)是一种用于比较生物学序列的工具,可以在数据库中查找类似序列,并计算它们之间的相似度。
BLAST可用于寻找相似的基因、蛋白质序列、DNA序列等,以及用于确定序列的功能和进化关系。
本文将介绍BLAST的使用方法。
2. 准备序列:在使用BLAST之前,你需要准备你想要比较的序列。
可以是DNA序列、蛋白质序列或其他生物学序列。
可以从公共数据库如NCBI的GenBank中获取序列,也可以使用你自己的实验数据。
3.选择数据库:BLAST使用数据库来存储和检索序列。
常见的数据库包括NCBI的NT数据库(核苷酸数据库),NR数据库(非冗余蛋白质数据库)等。
根据你的研究需要,选择适合你的数据库。
你也可以建立自己的数据库,将实验室内部的数据添加到其中。
4.运行BLAST:使用BLAST的命令行接口或网页界面,输入你的序列和数据库信息,运行BLAST。
下面是使用命令行接口运行BLAST的示例:`$ blastn -query sequence.fasta -db nt -out result.txt`在这个命令中,`blastn`是BLAST程序的名称,`sequence.fasta`是包含你的序列的FASTA文件,`nt`是数据库的名称,`result.txt`是结果输出的文件。
如果使用网页版BLAST,你只需将序列和数据库信息输入网页表单,点击运行即可。
5.解析结果:BLAST运行完成后,会生成一个结果文件,其中包含比对结果和相似度分数。
你可以使用BLAST提供的工具来解析和可视化这些结果,以便进一步分析。
结果中通常包括比对的相似度分数、比对的位点、比对的长度、匹配的碱基或氨基酸序列等。
通过分析结果,你可以确定序列的功能和进化关系,或者寻找可能的同源序列。
6.参数调整:BLAST提供了许多参数用于调整比对过程和结果的特性。
NCBI中Blast种类及使用简介

NCBI中Blast种类及使用简介NCBI中Blast种类简介1. Blast Assembled Genomes在一个选择的物种基因组序列中去搜索。
2.Basic Blast2.1 nucleotide blast--- 用核酸序列到核酸数据库中进行搜索,包括3个程序2.1.1 Blastn----核酸序列(n)到核酸序列数据库中搜索,是一种标准的搜索。
2.1.2 megablast----该程序使用“模糊算法”加快了比较速度,可以用于快速比较两大系列序列。
可以用来搜索一匹ESTs序列和大的cDNA或基因组序列, 适用于由于测序或者其他原因形成的轻微的差别的序列之间的比较2.1.3 discontiguous megablast----与megablast不同的是主要用来比较来自不同物种之间的相似性较低的分歧序列。
2.2 Protein Blast2.2.1 Blastp ---蛋白质序列到蛋白质序列数据库中搜索,是一种标准的搜索。
2.2.2 psi-blast---位点特异迭代BLAST —用蛋白查询来搜索蛋白资料库的一个程式。
所有被BLAST发现的统计有效的对齐被总和起来形成一个多次对齐,从这个对齐,一个位置特异的分值矩阵建立起来。
这个矩阵被用来搜索资料库,以找到额外的显著对齐,这个过程可能被反复迭代一直到没有新的对齐可以被发现。
2.2.3 PHI-BLAST---以常规的表达模型为特别位置进行PSI - BLAST检索,找出和待查询序列具有一样的表达模型且具有同源性的蛋白质序列。
2.3 Translating BLAST2.3.1 blastx----先将待查询的核酸序列按6 种读框翻译成蛋白质序列,然后将翻译出的蛋白质序列与NCBI 蛋白质序列数据库比较。
2.3.2 tblastn-----先将核酸序列数据库中的核酸序列按6 种读框翻译成蛋白质序列,然后将待查询的蛋白质序列与翻译结果进行比较。
本地版BLAST程序及常用参数

值1 y -M: 所使用的打分矩阵,缺省值BLOSUM62
本地版Blast 参数(4)
y -W: 字长(Word size), 默认为0(0表示核酸为 11, 蛋白质为3)
y -S:在数据库中搜索时所使用的核酸链(strand) ,只对blastn、blastx和tblastx有效;
y 1表示top, y 2表示bottom, y 3表示both;缺省值3
本地版Blast 参数(3)
y -q: 一个核酸碱基的错配(mismatch)的罚分(只对 blastn有效),缺省值-3
y -r: 一个核酸碱基的正确匹配(match)的奖分(只对 blastn有效),缺省值1
y -b:显示的比对结果的最大数目,缺省值250 y -a: 运行BLAST程序所使用的处理器的数目,缺省
准备Database
(([swissprot-ID:HB?_*] | [swissprot-ID:HBA?_*]) | [swissprot-ID:HBB?_*])
准备查询序列
利用本地BLAST搜索黑猩猩血红蛋白
y Formatdb -i 773HB.FAS y Blastall -p blastx –d 773HB.FAS –i CHIMP.FAS –o
1. BLAST种类
本地版BLAST程序及常用参数
Formatdb
y 建库命令:formatdb y 功能:创建三个主要的文件——库索引(indices),
序列(sequences)和头(headers)文件 y 生成的文件的扩展名分别是:
y .pin、.psq、.phr(对蛋白质序列) y .nin、.nsq、.nhr(对核酸序列)
Formatdb 常用参数
NCBI_BLAST使用

NCBI的BLast最好生物核酸的数据库NCBI是在NIH的国立医学图书馆(NLM)的一个分支。
NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的,而且这可以建立一个内部的关于计算分子生物学的研究计划。
NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。
BLAST是一个NCBI开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段。
BLAST能够在小于15秒的时间内对整个DNA数据库执行序列搜索。
NCBI提供的附加的软件工具有:开放阅读框寻觅器(ORF Finder),电子PCR,和序列提交工具,Sequin和BankIt。
所有的NCBI数据库和软件工具可以从WWW或FTP来获得。
NCBI还有E-mail服务器,提供用文本搜索或序列相似搜索访问数据库一种可选方法。
NCBI的BLast种类介绍? Gapped BLAST (2.0)—一种BLAST版本,允许在它产生的对齐(alignments)中存在缺口。
统计有效性的评估是基於使用随机序列的优先模拟。
在不久的将来,所有对Gapped BLAST的访问都要通过QBLAST。
? QBLAST —一种新的系统,允许用户以他们方便的方式检索Gapped BLAST结果,并且可以用各种格式选项多次格式化他们的结果。
这个系统也使NCBI更有效的使用计算资源,更好的为大家服务。
到1999年秋季,QBLAST系统用於所有的BLAST搜索。
? PSI-BLAST —位点特异迭代BLAST —用蛋白查询来搜索蛋白资料库的一个程式。
所有被BLAST发现的统计有效的对齐被总和起来形成一个多次对齐,从这个对齐,一个位置特异的分值矩阵建立起来。
这个矩阵被用来搜索资料库,以找到额外的显著对齐,这个过程可能被反复迭代一直到没有新的对齐可以被发现。
? PHI-BLAST —模式发现迭代BLAST —用蛋白查询来搜索蛋白资料库的一个程式。
生命科学中常用的软件及其应用

生命科学中常用的软件及其应用生命科学是一个涉及多个学科交叉的领域,其中运用到的软件非常丰富。
这些软件可以帮助生命科学研究人员完成从基因组测序到蛋白质结构分析的各种复杂任务。
在这篇文章中,我们将介绍一些生命科学中常用的软件及其应用,帮助读者更好地了解这个领域。
1. BLASTBLAST(基本局部序列比对工具)是基因组测序领域中最常用的软件之一。
它可以在数据库中进行序列比对,并根据相似性评分进行排序和过滤。
BLAST的应用非常广泛,包括在基因组测序和蛋白质结构分析中用于序列比对,DNA和蛋白质序列注释,以及进化分析等。
2. CLC Genomics WorkbenchCLC Genomics Workbench是一个功能强大的基因组分析软件,可以用于基因组测序和生物信息学分析。
它可以处理各种不同类型的数据,包括RNA测序数据、DNA测序数据和蛋白质序列数据。
使用该软件,科学家可以进行基因组组装、基因表达分析、SNP检测、CNV分析等多种复杂的分析任务。
3. PyMOLPyMOL是一个用于分子可视化和分析的软件。
它可以用于可视化蛋白质、DNA和RNA结构,以及与其他分子的相互作用。
在生物学研究中,PyMOL被广泛用于研究蛋白质结构和功能。
化学公式、分子等多种形式,都能够被轻松制作出来。
4. RR是一个免费的数据分析软件,主要用于统计分析、数据可视化和预测模型的建立。
在生命科学中,R被广泛用于基因表达分析、蛋白质结构预测、生存分析等多个领域。
它是生命科学研究者进行大规模数据分析的首选工具之一。
5. CytoscapeCytoscape是一款网络分析软件,用于研究生物分子间的相互作用,例如蛋白质-蛋白质相互作用,基因调控网络等。
Cytoscape具有丰富的图形界面,可以使用各种插件来进行网络建模、可视化和分析。
6. HMMERHMMER是用于进行隐马尔可夫模型(HMM)建模和分析的工具软件。
在生命科学领域,HMMER被用于进行蛋白质序列比对和蛋白质家族分类。
轻松学用生物软件学用BLAST程序进行数据分析主要内容1基本

轻松学用生物软件(1)学用BLAST程序进行数据分析主要内容1.基本概念2.常用BLAST程序介绍3. BLAST算法简介4. BLAST常用参数设置5.本地BLAST的安装步骤6.本地BLAST的使用1、基本概念相似性(Similarity)是指序列比对过程中用来描述检测序列和目标序列之间相同或相似碱基或氨基酸残基占全部比对碱基或氨基酸残基的比例的高低,属于量的判断。
同源性(Homology)是指从某一共同祖先经趋异进化而形成的不同序列。
只有当两个蛋白质在进化关系上具有共同的祖先时,才可称它们为同源的,属于质的判断。
相似性和同源性的关系当相似程度高于50%时,比较容易推测检测序列和目标序列可能是同源序列;而当相似性程度低于20%时,就难以确定或者根本无法确定其是否具有同源性。
总之不能把相似性和同源性混为一谈。
所谓“具有50%同源性”,或“这些序列高度同源”等说法,都是不确切的,应避免使用。
序列相似性比较和同源性分析序列相似性分析:就是用来计算待研究序列与某序列之间的相似性程度,常用的软件包有BLAST、FASTA等;序列同源性分析:是将待研究与来自不同物种的序列中进行进化分析,以确定该序列与其它序列间的亲源关系。
常用的程序包有Phylip 及Mega等进化分析软件;全局比对与局部比对全局比对寻找序列在全长范围内最佳比对。
常用算法如:Needleman-Wunsch algorithm(Needle)在线程序如: Needle局部比对寻找序列在局部区域的最高比对打分。
常用算法如:Smith-Waterman algorithm, blast,fasta等在线程序如: WaterNeedle及Water的在线程序http://bioweb2.pasteur.fr/alignment/intro-en.html也可以本地安装Emboss执行以上程序局部相似性比对的生物学基础蛋白质功能位点往往是由较短的序列片段组成的,尽管在序列的其它部位可能有插入、删除等突变,但这些关键的功能部位的序列往往具有相当大的保守性。
Blast软件及常用数据库介绍

blastall:通用检索命令 -p(program name):为需要使用的程序名 blastn:为核酸序列对比搜索程序 -d(database name):指定所使用的数据库 的名称 -i (input file):待搜索的序列文件 -o(output file):指定保存结果的文件
2011-12-22
对比对结果分析比对结果登入ncbi主页点击进入对核酸进行blast点击进入直接输入fasta格式的未知核酸序或者本地上传一个fasta格式的核酸序列文件选择一个合适的数据库进行比对点击运行图形结果匹配序列列表输入的序列在库里比对到的序列genebank库包含了所有已知的核酸序列和蛋白质序列以及与它们相关的文献著作和生物学注释它是由美国国立生物技术信息中心ncbi建立和维护的
12
2011-12-22
blast软件及常用数据库介绍
如何在windows操作系统下安装使用本 操作系统下安装使用本 如何在 软件? 地BLAST软件? 软件
STEP3
执行Blast比对
2011-12-22
blast软件及常用数据库介绍
13
具体步骤 1.将所需比对的序列转化为fasta格式
2.执行比对命令
BLAST软件及常用数据库介绍 软件及常用数据库介绍
制作人:faneds
BLAST的概述:
Blast,全称Basic Local Alignment Search Tool, 即“基于局部比对算法的搜索工具” ,能够实现 比较两段核酸或者蛋白序列之间的同源性的功能, 具有较快的比对速度和较高的比对精度,适用于 多种序列比对的情况,在常规双序列比对分析中 应用最为广泛。
3.对比对结果分析
2011-12-22
blast软件及常用数据库介绍
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
具体步骤 1.将所需比对的序列转化为fasta格式
2.执行比对命令
3.对比对结果分析
2011-12-22
blast软件及常用数据库介绍
19
比对结果
2011-12-22
blast软件及常用数据库介绍
20
2011-12-22
blast软件及常用数据库介绍
STEP2
用Blast程序包提供的 formatdb工具格式化序列 数据成数据库
2011-12-22
blast软件及常用数据库介绍
9
为什么要进行格式化?
因为构建的fasta格式的数据库文件必须被formatdb格式 formatdb.exe是所用的程序名 化后,才能被BLAST中的blastall、blastpgp、 -i (input file)参数用于指定需要格式化的数据库 MegaBLAST等程序使用。 month.nt是一个blast格式的数据库名
2011-12-22
blast软件及常用数据库介绍
24
图形结果
匹配序列列表
2011-12-22 blast软件及常用数据库介绍 25
输入的序列
Blast 结 果 的 详 细 比 对 结 果
在库里比对到的序列
2011-12-22
blast软件及常用数据库介绍
26
2011-12-22
blast软件及常用数据库介绍
3.对比对结果分析
2011-12-22
blast软件及常用数据库介绍
14
序列的fasta格式是最经常看到的格式之一。 Fasta格式开始于一个标识符:“>”,然后是一行描述,下面是 一行行的序列。每行最好不要超过80个字母。 新建一个名为 “text”的文本文档 打开,输入序列,如
>Text AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTG TGGATTAAAAAAAGAGTGTCTGATAGCAGC TTCTGAACTGGTTACCTGCCGTGAGTAAATTAAAATTTTAT TGACTTAGGTCACTAAATACTTTAACCAA TATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTAC ACAACATCCATGAAACGCATTAGCACCACC ATTACCACCACCATCACCATTACCACAGGTAACGGTGCG GGCTGACGCGTACAGGAAACACAGAAAAAAG CCCGCACCTGACAGTGCGGGCTTTTTTTTTCGACCAAAG GTAACGAGGTAACAACCATGCGAGTGTTGAA GTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCT GCGTGTTGCCGATATTCTGGAAAGCAATGCC AGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCCCG CCAAAATCACCAACCACCTGGTGGCGATGATTG AAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAG CGATGCCGAACGTATTTTTGCCGAACTTTT
3
BLAST资源
NCBI主站点: /BLAST/ ftp:///blast/ 其他站点: /blast/ /ncbi_blast.html /blast/ …… (网络版) (单机版)
2011-12-22
blast软件及常用数据库介绍
4
如何在windows操作系统下安装使用单 操作系统下安装使用单 如何在 机版BLAST软件? 软件? 机版 软件
下载BL-22
blast软件及常用数据库介绍
5
Blast程序的下载地址: ftp:///blast/executables/release/2.2. 9/blast-2.2.9-ia32-win32.exe
2011-12-22
blast软件及常用数据库介绍
2
BLAST的种类
Blast是一个集成的程序 是一个集成的程序 包,通过调用不同的比 对程序,blast实现了五 对程序, 实现了五 种可能的序列比对方式
白库做比对。 白库做比对。 Blastn:核酸序列对核酸库的比对,直接比较核酸序列的同源性。 核酸序列对核酸库的比对 直接比较核酸序列的同源性。 的比对, Tblastn:蛋白序列对核酸库的比对,将库中的核酸序列翻译成蛋白序列, 蛋白序列对核酸库的比对 将库中的核酸序列翻译成蛋白序列, 的比对, 比对蛋白序列的同源性。 比对蛋白序列的同源性。 Tblastx:核酸序列对核酸库在蛋白级别的比对,将库和待查序列都翻译成 核酸序列对核酸库在蛋白级别的比对 在蛋白级别的比对, 蛋白序列,然后对蛋白序。 蛋白序列,然后对蛋白序。
blast软件及常用数据库介绍
17
blast常用的一些参数
-p: 执行的程序名称 -d: 检索的数据库名称 -i : 要查询的序列文件名 -o :查询结果输出文件名 -m: 比对结果显示格式选项,缺省值为0 ,即pairwise格式。另 外还可以根据不同的需要选择1~6等不同的格式。 -I :在描述行中显示gi号[T/F],缺省值F -v :单行描述(one-line description)的最大数目,缺省值500 -b :显示的比对结果的最大数目,缺省值250 -a:运行BLAST程序所使用的处理器的数目,缺省值1 -T: 产生HTML格式的输出[T/F],缺省值F -n: 使用MegaBlast搜索[T/F],缺省值F -G: 打开一个gap的罚分(0表示使用缺省设置值),默认0 -E: 扩展一个gap的罚分(0表示使用缺省设置值),默认0 -q: 一个核酸碱基的错配(mismatch)的罚分(只对blastn有效), 缺省值-3 -r : 一个核酸碱基的正确匹配(match)的奖分(只对blastn有效), 缺省值1 -M: 所使用的打分矩阵,缺省值BLOSUM62
2011-12-22
blast软件及常用数据库介绍
10
原数据库文件
formatdb格式化数据库后,创建三个主要的文 库索引(indices),序列 序列(sequences)和 件——库索引 库索引 序列 头(headers)文件。生成的文件的扩展名分别 是:.pin、.psq、.phr(对蛋白质序列) 或.nin、.nsq、.nhr(对核酸序列)。
2011-12-22
blast软件及常用数据库介绍
11
Formatdb 命 令 的 参 数 说 明 表
一个单独的blast数据库最大只能为4G,如果格式的数据库大 于4G,在“-v ”参数未设置的情况下,farmatdb程序会自动对 数 据库分卷 ,每卷最大为4G。也可以使用“-v ”参数设置卷 的大小,比如下面命令将卷的大小设置为2G : formatdb –i month.nt –p F –v 2000000000
保存在程序 目录下
2011-12-22 blast软件及常用数据库介绍 15
具体步骤 1.将所需比对的序列转化为fasta格式
2.执行比对命令
3.对比对结果分析
2011-12-22
blast软件及常用数据库介绍
16
在DOS窗口中,执行 blastall –p blastn –d month.nt –i text.txt –o out.txt
blastall:通用检索命令 -p(program name):为需要使用的程序名 blastn:为核酸序列对比搜索程序 -d(database name):指定所使用的数据库 的名称 -i (input file):待搜索的序列文件 -o(output file):指定保存结果的文件
2011-12-22
-p (type of file)参数用于指定文件类型,T为蛋白 质,F为核酸,默认为T 格式化的步骤: -o (parse options)参数用于指定是否解析序列ID并 1.打开MS-DOS (开始→附件→命令提示符) 创建索引,T为创建,F为不创建,默认为F 2.进入数据库所在的硬盘 3.输入formatdb.exe -i month.nt -p F -o T 再回车
27
2011-12-22
blast软件及常用数据库介绍
28
GeneBank库包含了所有已知的核酸序列和蛋白质序列,以 库包含了所有已知的核酸序列和蛋白质序列,
及与它们相关的文献著作和生物学注释 ,它是由美国国立生物技 它是由美国国立生物技 术信息中心(NCBI)建立和维护的。它的数据直接来源于测序工 建立和维护的。 术信息中心 建立和维护的 作者提交的序列 。Genbank每天都会与欧洲分子生物学实验室 每天都会与欧洲分子生物学实验室 (EMBL)的数据库,和日本的 的数据库, 数据库(DDBJ)交换数据,使这 交换数据, 的数据库 和日本的DNA数据库 数据库 交换数据 三个数据库的数据同步。 的数据可以从NCBI的FTP服 三个数据库的数据同步。Genbank的数据可以从 的数据可以从 的 服 务器上免费下载完整的库,或下载积累的新数据。 务器上免费下载完整的库,或下载积累的新数据。NCBI还提供 还提供 广泛的数据查询、序列相似性搜索以及其它分析服务, 广泛的数据查询、序列相似性搜索以及其它分析服务,用户可以 从NCBI的主页上找到这些服务 。 的主页上找到这些服务
blast软件及常用数据库介绍
7
获 取 数
点击
据 库
nr.gz为非冗余数据库 nt.gz为核酸数据库
BLAST数据库
Month.nt.gz为最近一个月 的核酸数据库
右击需要下载的数据库,点击另
存为
2011-12-22
blast软件及常用数据库介绍
8
如何在windows操作系统下安装使用本 操作系统下安装使用本 如何在 软件? 地BLAST软件? 软件