NCBI在线Blast的图文说明

合集下载

NCBIblast使用教程

7
Blast简介（一）
BLAST 是由美国国立生物技术信息中心（NCBI）
开发的一个基于序列相似性的数据库搜索程序。 BLAST是“局部相似性基本查询工具”(Basic Local Alignment Search Tool)的缩写。
8
Blast简介（二）
Blast 是一个序列相似性搜索的程序包，其中包含了很多个独立的程序，这些程序是根据查询的对象和数据库的不同来定义的。比如说查询的序列为核酸，查询数据库亦为核酸序列数据库，那么就应该选择 blastn程序。
2.其他站点：
/blast/ /ncbi_blast.html /blast/（果蝇）
…
12
Blast结果给出的信息
Blast结果会列出跟查询序列相似性比较高，符合限定要求的序列结果，根据这些结果可以获取以下一些信息。 1.查询序列可能具有某种功能 2.查询序列可能是来源于某个物种 3.查询序列可能是某种功能基因的同源基因 … 这些信息都可以应用到后续分析中。
1.基本概念相似性，同源性 2.Blast介绍 Blast资源和相关问题 3.Blast的应用网络版，单机版 4.深入了解Blast(改进程序，算法基础) 5.其他的序列相似性搜索工具（fasta）
3
生物序列的相似性
相似性(similarity)：是指一种很直接的数量关系，比如部分相同或相似的百分比或其它一些合适的度量。比如说，A序列和B序列的相似性是80％，或者4/5。这是个量化的关系。当然可进行自身局部比较。
19
Blast任务提交表单（二）
2.设置各种参数部分
设置搜索的范围，entrez关键词，或者选择特定物种
一些过滤选项，包括简单重复序列，人类基因组中的重复序列等

NCBI在线BLAST使用方法与结果详解

NCBI在线BLAST使用方法与结果详解BLAST（Basic Local Alignment Search Tool）是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。

BLAST程序能迅速与公开数据库进行相似性序列比较。

BLAST结果中的得分是对一种对相似性的统计说明。

BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。

Blast中常用的程序介绍：1、BLASTP是蛋白序列到蛋白库中的一种查询。

库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。

2、BLASTX是核酸序列到蛋白库中的一种查询。

先将核酸序列翻译成蛋白序列（一条核酸序列会被翻译成可能的六条蛋白），再对每一条作一对一的蛋白序列比对。

3、BLASTN是核酸序列到核酸库中的一种查询。

库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。

4、TBLASTN是蛋白序列到核酸库中的一种查询。

与BLASTX相反，它是将库中的核酸序列翻译成蛋白序列，再同所查序列作蛋白与蛋白的比对。

5、TBLASTX是核酸序列到核酸库中的一种查询。

此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白（每条核酸序列会产生6条可能的蛋白序列），这样每次比对会产生36种比对阵列。

下面是具体操作方法1，进入在线BLAST界面，可以选择blast特定的物种（如人，小鼠，水稻等），也可以选择blast所有的核酸或蛋白序列。

不同的blast程序上面已经有了介绍。

这里以常用的核酸库作为例子。

2，粘贴fasta格式的序列。

选择一个要比对的数据库。

关于数据库的说明请看NCBI在线blast数据库的简要说明。

一般的话参数默认。

3，blast参数的设置。

注意显示的最大的结果数跟E值，E值是比较重要的。

筛选的标准。

最后会说明一下。

4，注意一下你输入的序列长度。

注意一下比对的数据库的说明。

5，blast结果的图形显示。

没啥好说的。

6，blast结果的描述区域。

图解blast验证引物教程1

图解blast 验证引物教程——以文献报道的人类的ABCG2的引物为例1、进入网页：/BLAST/2、点击Basic BLAST 中的nucleotide blast 选项3、完成2操作后就进入了Basic Local Alignment Search Tool 界面（1）在Enter Query Sequence 栏中输入引物序列：注：文献报道ABCG2的引物为5’-CTGAGATCCTGAGCCTTTGG-3’;5’-TGCCCATCACAACATCATCT-3’简便的做法是同时输入上下游引物。

输入上下游引物系列都从5’— 3’。

输入上游引物后，加上≥20个字母n ，再输入下游引物，如下图：生物秀（2）在Choose Search Set 栏中：Database 根据预操作基因的种属定了，本引物可选Human genomic + transcript或Others (nr etc.)。

本人倾向于选后者，觉得此库信息更多。

如下图：（3）在Program Selection 中：选择Somewhat similar sequences (blastn)项，如下图：（4）在此界面最下面：如下图生物秀-专心做生物w w w .b b i o o .c o mShow results in a new window 项是显示界面的形式，可选可不选，在此我们选上了。

关键要点击Algorithm parameters 参数设置，进入参数设置界面。

4. 参数设置：（1）在General Parameters 中：Expect thresshold 期望阈值须改为1000，大于1000也可以；在Word size 的下拉框将数字改为7。

如下图：（2）Scoring Parameters 无须修改（3）Filters and Masking 中，一般来说也没有必要改5．点击最下面一栏的BLAST 按钮，如图：6.点击BLAST 按钮后，跳转出现如下界面：7. 等待若干秒之后，自动跳转出现显示BLAST 结果的网页。

NCBI_blast_使用教程.pptx

19
Blast任务提交表单（二）
2.设置各种参数部分
设置搜索的范围，entrez关键词，或者选择特定物种
一些过滤选项，包括简单重复序列，人类基因
组中的重复序列等
E值上限
窗口大小如果你对blast的命令行选项熟悉的话，可以在这里加入更多的参数
20
Blast任务提交表单（三）
E值范围
ቤተ መጻሕፍቲ ባይዱ
3.设置结果输出显示格式
蛋白质序列和核酸数据库中的核酸序列6 框翻译后的蛋白质序列逐一比对。
核酸序列6框翻译成蛋白质序列，再和核酸数据库中的核酸序列6框翻译成的蛋白质序列逐一进行比对。
10
Blast相关的问题
怎么获得blast服务,怎么使用的问题？
为什么使用blast，可以获得什么样的信息？
其他问题：实际使用时选择哪种方式（网络，本地化），参数的选择，结果的解释…
15
本地WEB版的Blast
16
Blast程序评价序列相似性的两个数据
Score：使用打分矩阵对匹配的片段进行打分，这是
对各对氨基酸残基（或碱基）打分求和的结果，一般来说，匹配片段越长、相似性越高则Score值越大。
E value:在相同长度的情况下，两个氨基酸残基（或
碱基）随机排列的序列进行打分，得到上述Score值的概率的大小。E值越小表示随机情况下得到该Score值的可能性越低。
2.Blast介绍 Blast资源和相关问题
3.Blast的应用网络版，单机版
4.深入了解Blast(改进程序，算法基础) 5.其他的序列相似性搜索工具（fasta）
3
生物序列的相似性
相似性(similarity)：是指一种很直接的数量关系，比如部

NCBI网站BLAST使用方法介绍完整版

息学方法
BLAST
宿主菌
细胞转化
几周的时间蛋白质分离纯化及性质测定
Gene family Or
Protein Family
几分钟的时间
Function annotation

BLAST
Web Access
Text
Wang LS, Gao PJ, cellulase,et al.
? RPS BLAST
– searches a database of PSSMs – tool for conserved domain searches
Basic Local Alignment Search Tool
? Widely used similarity search tool
? Heuristic approach based on
ACATGGACCCT ...
Protein Words
Query : GTQITVEDLFYNIATRRKALKN
WGoTrdQsize = 3 (default)
TQI
Word size can only be 2 or 3
Make a lookup table of words
QIT ITV
Basic Local Alignment Search Tool
?Why use sequence similarity? ?BLAST algorithm ?BLAST statistics ?BLAST output ?Examples
Why Do We Need Sequence Similarity Searching?
11-mer
GTACTGGACAT
WORD SIZE

NCBI在线BLAST使用方法与结果详解

NCBI在线BLAST使用方法与结果详解BLAST（Basic Local Alignment Search Tool）是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。

BLAST程序能迅速与公开数据库进行相似性序列比较。

BLAST结果中的得分是对一种对相似性的统计说明。

BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。

Blast中常用的程序介绍：1、BLASTP是蛋白序列到蛋白库中的一种查询。

库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。

2、BLASTX是核酸序列到蛋白库中的一种查询。

先将核酸序列翻译成蛋白序列（一条核酸序列会被翻译成可能的六条蛋白），再对每一条作一对一的蛋白序列比对。

3、BLASTN是核酸序列到核酸库中的一种查询。

库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。

4、TBLASTN是蛋白序列到核酸库中的一种查询。

与BLASTX相反，它是将库中的核酸序列翻译成蛋白序列，再同所查序列作蛋白与蛋白的比对。

5、TBLASTX是核酸序列到核酸库中的一种查询。

此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白（每条核酸序列会产生6条可能的蛋白序列），这样每次比对会产生36种比对阵列。

下面是具体操作方法1，进入在线BLAST界面，可以选择blast特定的物种（如人，小鼠，水稻等），也可以选择blast所有的核酸或蛋白序列。

不同的blast程序上面已经有了介绍。

这里以常用的核酸库作为例子。

2，粘贴fasta格式的序列。

选择一个要比对的数据库。

关于数据库的说明请看NCBI在线blast数据库的简要说明。

一般的话参数默认。

3，blast参数的设置。

注意显示的最大的结果数跟E值，E值是比较重要的。

筛选的标准。

最后会说明一下。

4，注意一下你输入的序列长度。

注意一下比对的数据库的说明。

5，blast结果的图形显示。

没啥好说的。

6，blast结果的描述区域。

NCBIblast使用教程[1]

E值范围
3.设置结果输出显示格式
选择需要显示的选项以及显示的文件格式
显示数目
Alignment的显
筛选结果
示方式
点击开始搜索
其他一些显示格式参数
NCBIblast使用教程[1]
提交任务
返回查询号（request id）修改完显示格式后点击进入结果界面
可以修改显示结果格式
NCBIblast使用教程[1]
NCBIblast使用教程[1]
Blast程序评价序列相似性的两个数据
Score：使用打分矩阵对匹配的片段进行打分，这是
对各对氨基酸残基（或碱基）打分求和的结果，一般来说，匹配片段越长、相似性越高则Score值越大。
E value:在相同长度的情况下，两个氨基酸残基（或
碱基）随机排列的序列进行打分，得到上述Score值的概率的大小。E值越小表示随机情况下得到该Score值的可能性越低。
分析过程（一）
1.登陆ncbi的blast主页
2.选择程序，因为查询序列是蛋白序列可以选择blastp，
点击进入
也可以选择tblastn
作为演示，我们这里选blastp
NCBIblast使用教程[1]
分析过程（二）
3.填入序列（copy＋pa索整个序列，不填
w 其他问题：实际使用时选择哪种方式（网络，本地化），参数的选择，结果的解释…
NCBIblast使用教程[1]
Blast资源
1.NCBI主站点：
/BLAST/(网络版) ftp:///blast/ (单机版)
5.选择搜索数据库，这里我们选nr(非冗余的蛋白序列库)。
是否搜索保守区域数据库（cdd），蛋白序列搜索才有。

新手上路，一文秒懂Blast结果图（附序列比对网址）

新手上路，一文秒懂Blast结果图（附序列比对网址）转载请注明：解螺旋·临床医生科研成长平台众所周知，同源性是预测基因和蛋白质功能的主要线索，而序列同源性的判断则离不开两个或多个序列之间相似性的检测。

一般来说，序列间的相似度越高，它们是同源序列的可能性就越高。

其中，序列比对无疑是评估序列相似性的最简单方法。

显然，Blast就是序列比对检测的中坚力量。

Blast自1990年首次亮相以来，凭借从各大数据库（EST、PDB数据库等）获取信息的能力，迅速成为序列比对界的领头羊。

老实说，Blast的界面非常友好，点击相应模块后，大家只需在序列框中丢上自己的靶序列，勾选好物种基因组，点击搜索即可！可看着结果界面涌现出的几十个、数百个甚至数千个候选匹配序列，不少选择困难症的童鞋表示头疼不已：结果辣么多，究竟哪个才是最优解？本文以NM_001206932为例，分解BLAST结果页面，让大家迅速摆脱Blast新手身份。

Blast结果解析首先会看到一个表头，即本次比对的基本信息，如比对类型、序列长度、所选的数据库等等。

如果所选的数据库不合适，请及时迷途知返哦。

接下来就是Blast的结果显示图（Graphic Summary）：颜色比例尺，其中相似度从高到低排列分别为：红、紫、绿、蓝、黑，红色区域越多则表示有较好的比对结果。

而在Blast结果的描述区域，两个衡量标准最为重要：Max Score 和E值（E value），前者匹配片段越长，相似性越高则Score值越大；后者是得到上述Score值的概率的大小。

E值越小表示随机情况下得到该Score值的可能性越低。

而点击相应注释名称，又或者在结果显示图（Graphic Summary）中点击对应的线条，均可以查看比对结果的详细信息。

其中，Expect(E值)、Identities（一致性）、Gaps（缺失或插入）三项是评价blast结果的标准。

E值接近零或者为零时，具体上就是完全匹配了；一致性：匹配上的碱基数占总序列长的百分数。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

NCBI在线Blast的图文说明
Posted on 14 五月 2009 by 柳城，阅读 4,824 简洁版
Blast（Basic Local Alignment Search Tool）是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。

BLAST程序能迅速与公开数据库进行相似性序列比较。

BLAST 结果中的得分是对一种对相似性的统计说明。

BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。

Blast中常用的程序介绍：
1、BLASTP是蛋白序列到蛋白库中的一种查询。

库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。

2、BLASTX是核酸序列到蛋白库中的一种查询。

先将核酸序列翻译成蛋白序列（一条核酸序列会被翻译成可能的六条蛋白），再对每一条作一对一的蛋白序列比对。

3、BLASTN是核酸序列到核酸库中的一种查询。

库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。

4、TBLASTN是蛋白序列到核酸库中的一种查询。

与BLASTX 相反，它是将库中的核酸序列翻译成蛋白序列，再同所查序列作蛋白与蛋白的比对。

5、TBLASTX是核酸序列到核酸库中的一种查询。

此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白（每条核酸序列会产生6条可能的蛋白序列），这样每次比对会产生36种比对阵列。

6，blast结果的描述区域。

注意分值与E值。

分值越大越靠前了，E值越小也是这样。

7，blast结果的详细比对结果。

注意比对到的序列长度。

评价一个blast结果的标准主要有三项，E值（Expect)，一致性(Identities)，缺失或插入（Gaps）。

加上长度的话，就有四个标准了。

如图中显示，比对到的序列长度为1405，看Identities这一值，才匹配到1344bp,而输入的序列长度也是为1344bp（看上面的图），就说明比对到的序列要长一点。

由Qurey（起始1）和Sbjct(起始35)的起始位置可知，5'端是是多了一段的。

有时也要注意3'端的。

附：
E值（Expect)：表示随机匹配的可能性，E值越大，随机匹配的可能性也越大。

E值接近零或为零时，具本上就是完全
匹配了。

一致性(Identities)：或相似性。

匹配上的碱基数占总序列长的百分数。

缺失或插入（Gaps）：插入或缺失。

用"—"来表示。

本文详细出处参考：/475/
Peptide Sequence Databases蛋白序列的数据库
nr
All non-redundant GenBank CDS translations + RefSeq Proteins + PDB + SwissProt + PIR + PRF
所有非冗余的的GenBank CDS区的翻译序列 + 参考序列的蛋白 + PDB数据库 + SwissProt蛋白数据库 + PRF蛋白数据
库
refseq
RefSeq protein sequences from NCBI's Reference Sequence Project.
所有NCBI的参考序列
swissprot
Last major release of the SWISS-PROT protein sequence database (no updates).
swissprot的蛋白数据库
pat
Proteins from the Patent division of GenPept.
专利的蛋白数据库
pdb
Sequences derived from the 3-dimensional structure from Brookhaven Protein Data Bank.
PDB数据库
month
All new or revised GenBank CDS
translation+PDB+SwissProt+PIR+PRF released in the last 30 days.
一个月内新增加的蛋白序列
env_nr
Protein sequences from environmental samples.
来自environmental samples的蛋白序列
Nucleotide Sequence Databases核酸数据库
nr
All GenBank + RefSeq Nucleotides + EMBL + DDBJ + PDB sequences (excluding HTGS0,1,2, EST, GSS, STS, PAT, WGS). No longer "non-redundant".
所有GenBank的核酸序列 + 参考序列中的核酸序列+ EMBL +DDBJ +PDB核酸序列（但不包括HTG，EST，GSS等序列）
refseq_rna
RNA entries from NCBI's Reference Sequence project
NCBI参考序列中的核酸序列
refseq_genomic
Genomic entries from NCBI's Reference Sequence
project
NCBI参考序列中的基因组序列
est
Database of GenBank + EMBL + DDBJ sequences from EST Divisions
来自GenBank + EMBL + DDBJ 的EST序列
est_human
Human subset of est.
人的EST序列
est_mouse
Mouse subset.
小鼠的EST序列
est_others
Non-Mouse, non-Human subset of est.、
除了人与小鼠之外的EST序列
gss
Genome Survey Sequence, includes single-pass genomic data, exon-trapped sequences, and Alu PCR sequences.
htgs
Unfinished High Throughput Genomic Sequences: phases 0, 1 and 2 (finished, phase 3 HTG sequences are in nr)
未发布的高通量的基因组测序
pat
Nucleotides from the Patent division of GenBank.
专利的核酸序列
pdb
Sequences derived from the 3-dimensional structure from Brookhaven Protein Data Bank
PDB核酸序列
month
All new or revised GenBank + EMBL + DDBJ + PDB sequences released in the last 30 days.
一个月内新增的核酸序列
dbsts
Database of GenBank+EMBL+DDBJ sequences from STS Divisions .
STS数据库
chromosome
A database with complete genomes and chromosomes from the NCBI Reference Sequence project..
NCBI参考序列计划中所有的完整基因组和染色体序列
wgs
A database for whole genome shotgun sequence entries. 基因组鸟枪法测序得到的序列
env_nt
Nucleotide sequences from environmental samples, including those from Sargasso Sea and Mine Drainage projects.
来自environmental samples的核酸序列。

本文详细出处参考：/476/。