生物信息学 实验三 数据库搜索-BLAST

合集下载

blast应用实例

blast应用实例

blast应用实例Blast是一种常用的生物信息学工具,用于比对和分析生物序列。

它可以将一个或多个查询序列与数据库中的目标序列进行比对,通过比对结果提供有关序列相似性、保守区域和功能注释的信息。

以下是Blast应用的一些实例:1.从NCBI数据库搜索相似序列:Blast可以用于从NCBI的数据库中搜索与给定序列相似的序列。

例如,如果我们有一个未知的蛋白质序列,我们可以使用Blast将其比对到NCBI的非冗余蛋白质数据库上,以找到与之相似的蛋白质序列。

这对于鉴定新的蛋白质家族、推断功能等非常有用。

2.基因注释:Blast可以用于对新的基因序列进行功能注释。

例如,通过比对一个未知的DNA序列到已知的基因组序列数据库,我们可以获得对应的基因区域、编码蛋白质以及可能的功能信息。

这对于基因组学研究和药物研发很重要。

3.遗传多样性分析:Blast也可以用于研究不同物种或个体之间的遗传差异。

通过比对DNA或RNA序列,可以鉴定不同物种或个体之间的变异位点。

这对于研究进化、种群遗传学和物种鉴定具有重要意义。

4.病原体识别:Blast可以用于快速识别和鉴定病原体。

通过比对未知的病原体序列到已知的病原体数据库,可以确定其种类和亚型。

这对于疾病的诊断和流行病学研究非常有帮助。

5.系统发育分析:Blast在系统发育学中也被广泛应用。

通过比对多个物种的DNA或蛋白质序列,可以构建物种间的进化关系树。

这对于研究生物的进化历史和亲缘关系具有重要意义。

6.基因工程:Blast可以用于在已知的基因库中寻找与目标序列相似的基因。

这对于基因工程和生物治疗的设计和优化非常有用。

通过比对获取相关蛋白质、启动子、调控序列等信息,可以进行目标基因的定向改造和调节。

7.基因家族研究:Blast可以用于鉴定和研究特定基因家族。

通过比对已知基因家族的代表性成员,可以找到其他类似的基因序列。

这对于研究基因家族的进化、功能和调控具有重要意义。

8.转录因子结合位点预测:Blast可以用于识别和预测转录因子结合位点。

3.BLAST及序列的提交

3.BLAST及序列的提交
一些过滤选项,包括简 单重复序列,人类基因 组中的重复序列等
E值上限 种子长度 如果你对blast的命令行选项熟悉的话,可以在这里加入更多的参数
BLAST结果(1)
1)查询序列的描述
2)显示比对区域的 框图 3)被搜索到的序列 信息 4)比对结果 5)统计信息与算法 过程的参数
BLAST结果(1-1)
BLAST搜索发现序列的生物意义(2)

Pyrococcus abyssi GTTCC AATAA GACTA AAA repeat sequence 随机出现的序列?VS 具有生物学意义的序 列?

BLAST搜索发现序列的生物意义(3)
Pyrococcus abyssi 环状DNA的全长为1765118 bp repeat sequence GTTCC AATAA GACTA AAA 为随机序列的概率。 出现一次的概率: (1765118-17)*4-18 = 2.57*10-5
HSP片段2:
att c
(-3+1+1+1=0)
(1+1-3+1+1+1=2)
HSP片段3: ac att c
则删除HSP2,保留HSP1和HSP3
BLAST基本原理—Step 6

统计各HSP片段的分值(Score)和E值
分值(Score): 是衡量查询序列同命中序列间 相似性的测度。分值越高,命中序列与查 询序列越相似。
BLAST的基本算法原理
BLAST
BLAST 是由美国国立生物技术信息 中心(NCBI)开发的一个基于序列 相似性的数据库搜索程序。 BLAST是“局部相似性基本查询工 具”(Basic Local Alignment Search Tool)的 缩写。

BLAST

BLAST

samtools- 序列比对/Map (SAM) format生物信息学工具概要:samtools view -bt ref_list.txt -o aln.bam aln.sam.gz序列提取,相当于ncbi上的Query subrangesamtools sort aln.bam aln.sorted排序samtools index aln.sorted.bam索引文件samtools idxstats aln.sorted.bam在索引文件中检索和打印。

输出是每个参考序列组成的序列名称,序列的长度;# mapped reads and # unmapped reads.samtools view aln.sorted.bam chr2:20,100,000-20,200,000 提取序列samtools merge out.bam in1.bam in2.bam in3.bam合并多个分类队列samtools faidx ref.fasta创建序列索引文件samtools pileup -vcf ref.fasta aln.sorted.bamsamtools mpileup -C50 -gf ref.fasta -r chr3:1,000-2,000 in1.bam in2.bamsamtools tview aln.sorted.bam ref.fasta描述Samtools是一个工具集,操纵的BAM矩阵格式。

(序列比对/Map)输入和输出都是SAM格式,并排序,合并和创建索引,并允许检索迅速读取任何地区;Samtools的设计工作流。

它以一个输入文件' - '为标准输入(stdin)和一个输出文件' -为标准,输出(stdout)。

因此,可以多个命令结合Unix管道。

Samtools总是输出警告和错误信息到标准错误输出(标准错误)。

bfastWork flowThe basic work flow has five steps as seen in Figure 2.1.1. The first step is to create a reference genome. This reference genome contains all thesequence to which we wish to align. The command bfast fasta2brg performs this task (see section 3.2).2. The second step is to create indexes of the reference genome, which was created in thefirst step. The number and layout of these indexes is determined both by the user’s speed and accuracy requirements. The command bfast index performs this task (see section 3.3).3. The third step is to find candidate alignment locations (CALs) for each read. The expected number of CALs returned is a function of the number of indexes and the layouts chosen in the second step as well as the number offsets. The binary bfast match performs this task (see section 3.4).4. The fourth step is to fully align each CAL for each read. This uses a standard local alignment algorithm (Smith and Waterman (1981)) or a custom tool for ABI SOLiD 2.3. WORK FLOW 5data (Homer et al. (2009b)). The binary bfast localalign performs this task (see section 3.5).5. The fifth and final step is to prioritize the final alignments. The user specifies criteriato select the correct alignment for each read. The criteria can be based on many factors,including uniqueness, score, or other factors. The binary bfast postprocess performs this task (see section 3.6).bwabwa - Burrows-Wheeler Alignment Tool.SH SYNOPSIS.PPbwa index -a bwtsw database.fasta.PPbwa aln database.fasta short_read.fastq > aln_sa.sai.PPbwa samse database.fasta aln_sa.sai short_read.fastq > aln.sam.PPbwa sampe database.fasta aln_sa1.sai aln_sa2.sai read1.fq read2.fq > aln.sam.PPbwa dbwtsw database.fasta long_read.fastq > aln.sam流程图:。

化学实验知识:BLAST算法在生物信息学中的应用实验研究

化学实验知识:BLAST算法在生物信息学中的应用实验研究

化学实验知识:“BLAST算法在生物信息学中的应用实验研究”随着生物学、计算机科学和统计学的发展,生物信息学已成为研究生物学和医学的重要工具之一。

生物信息学是一个跨学科的领域,它结合了分子生物学、计算机科学、统计学、化学、物理学等多个学科,并重点关注生物数据的获取、处理和分析。

在生物信息学中,BLAST算法是一个重要的工具。

BLAST是“基本局部序列比对工具”的缩写,在生物学中常用来进行DNA、RNA和蛋白质序列查询。

BLAST算法是一种算法,可以快速从已知的蛋白质、DNA,RNA数据库中找到与之匹配的序列。

BLAST算法有许多优点。

首先,它非常快速。

BLAST算法可以快速比对大量的序列,尤其适用于大规模的生物信息学研究。

其次,BLAST算法具有高灵敏度和高特异性。

即使在具有相似序列的情况下,BLAST算法仍然可以找到最好的匹配。

最后,BLAST算法易于使用。

BLAST算法的用户界面简单明了,方便使用者快速操作。

然而,BLAST算法也有一些限制。

首先,BLAST算法只能找到与查询序列非常相似的序列。

因此,BLAST算法并不适用于寻找较为远缘的同源序列。

其次,BLAST算法的结果需要人工解读。

由于BLAST算法找到的序列数量通常非常之多,结果需要经过专家的解读和筛选,才能得出有价值的结论。

目前,BLAST算法已经广泛应用于生物信息学的各个领域。

例如,在基因组学领域,BLAST算法被用来鉴定基因和分析遗传变异。

在蛋白质学领域,BLAST算法被用来预测蛋白资质和进行结构预测。

此外,BLAST算法还被用于药物发现和疫苗设计。

总之,BLAST算法是生物信息学研究的重要工具之一。

它具有快速、高效和易于使用等优点。

同时,BLAST算法也面临一些挑战,例如远程同源序列的识别和结果解读。

随着生物信息学的发展,BLAST算法还将不断优化和改进,为生物学和医学的研究工作提供更强大的支持。

BLAST相似序列的数据库搜索

BLAST相似序列的数据库搜索

实习 4 :BLAST相似序列的数据库搜索学号20090**** 姓名****** 专业年级生命生技****实验时间2012.6.19 提交报告时间2012.6.20实验目的:学习使用BLAST在数据库中搜索相似序列实验内容:使用NCBI上面的BLAST程序进行相似性序列搜索:1.把核酸序列利用BLASTN搜索相似核酸序列;2.把蛋白质序列对应的蛋白质利用BLASTP搜索相似蛋白质序列;3.把核酸序列利用BLAST搜索相似蛋白质序列并与BLASTP比较,体会差异:4.把蛋白质序列利用TBLASTN搜索相似核酸序列并与BLASTN比较,体会差异:5.把核酸序列利用TBLASTX搜索相似核酸序列并与BLASTN比较,体会差异。

作业:1. 找一条你感兴趣的核酸序列(可以是前面搜索到的同源核酸序列中任意一条),通过BLASTN搜索NR数据库,说明你的参数如何设置,分析搜索结果包含哪些信息。

答:使用的序列为:智人胰岛素(INS)>gi|297374822|ref|NM_001185098.1| Homo sapiens insulin (INS), transcript variant 3, mRNA。

Algorithm parameters设置如下:参数:Enter Query Sequence——NM_001185098Choose Search Set——Database: Nucleoctide collection(nr); Exclude: √Models(XM/XP),√Uncultured/environmental ample sequencesProgram Selection——Optimize fot: Highly similar sequences展开“Algorithm parameters”,依次设置:General Parameters——Max target sequence:100; Short queries:√; Expect threshold:10;Word size:28; Max matches in a query range:0Scoring Parameters——Matrix/Mismatch Scores:1,-2; Gap Costs: LinearFilters and Masking——Filter: √Low complexity regions; √Mask: mask for lookup table only搜索结果分析:使用智人胰岛素(INS)>gi|297374822|ref|NM_001185098.1| Homo sapiens insulin (INS), transcript variant 3, mRNA搜索NR数据库,搜索出100条符合条件的序列,序列来自的物种包括了Homo sapiens,Pan troglodytes,Gorilla gorilla,Pongo abelii,Pongo pygmaeus,Mus musculus等,其中根据得分高低排列,前7条序列如下所示:NM_001185098.1 Homo sapiens insulin (INS), transcript variant 3, mRNANM_001185097.1 Homo sapiens insulin (INS), transcript variant 2, mRNANM_000207.2 Homo sapiens insulin (INS), transcript variant 1, mRNANG_007114.1 Homo sapiens insulin (INS), RefSeqGene on chromosomeAC132217.15 Homo sapiens chromosome 11, clone RP11-889I17, complete sequenceBC005255.1 Homo sapiens insulin, mRNAJ00265.1 Human insulin gene, complete cds上述序列的“Max ident”均为100%或99%,且E-Value值很低,可见搜索出来的序列与QUERY序列匹配的相似度很高。

BLAST(序列相似性快速搜索工具)

BLAST(序列相似性快速搜索工具)

BLAST(序列相似性快速搜索工具)
1. 什么是BLAST?
•BLAST的全称是Basic Local Alignment Search T ool(基本的局部比对搜索工具),基于一种局部最优的比对策略。

•BLAST是生命科学研究中常用的一套在核苷酸数据库或蛋白质数据库中进行序列相似性比对的一套分析工具
•BLAST算法是启发式算法。

首先将query序列打断成子片段,称之为seed words,然后将seed与预先索引好的序列进行比对,选择seed连续打分较高的位置采用动态规划算法进行延伸,延伸过程也会进行打分,当打分低于某一限度这一延伸过程就会被终止抛弃,最后产生了一系列的高得分序列。

最后还要使用E-value对其显著性进行评估,选出比对结果最好的序列。

•BLAST分为在线BLAST和本地化BLAST
IMAGE.png
2. BLAST程序类型
BLAST实际上是综合在一起的一组工具
的统称,它不仅可用于直接对蛋白质数据库和
核酸数据库进行搜索,而且可以将待搜索的核
酸序列翻译成蛋白质序列后再进行搜索,或者
反之,以提高搜索效率。

因此BLAST可以分
为 BLASTp、 BLASTn、 BLASTx、 tBLASTn、
tBLASTx。

IMAGE.jpg
IMAGE.png
3.BLAST 比对结果解读
实际应用中主要看E-value(E值越小越好),同时要求Score大于一定值。

图片来自MOOC。

NCBI网站BLAST使用方法介绍完整版


息学方法
BLAST
宿主菌
细胞转化
几周的时间 蛋白质分离纯化及性质测定
Gene family Or
Protein Family
几分钟的时间
Function annotation

BLAST
Web Access
Text
Wang LS, Gao PJ, cellulase,et al.
? RPS BLAST
– searches a database of PSSMs – tool for conserved domain searches
Basic Local Alignment Search Tool
? Widely used similarity search tool
? Heuristic approach based on
ACATGGACCCT ...
Protein Words
Query : GTQITVEDLFYNIATRRKALKN
WGoTrdQsize = 3 (default)
TQI
Word size can only be 2 or 3
Make a lookup table of words
QIT ITV
Basic Local Alignment Search Tool
?Why use sequence similarity? ?BLAST algorithm ?BLAST statistics ?BLAST output ?Examples
Why Do We Need Sequence Similarity Searching?
11-mer
GTACTGGACAT
WORD SIZE

湖南大学生物信息学实验报告-W8

实验1 DNA Blast(利用DNA数据库上提供的Blast功能)1基本信息:姓名:程瑶学号:201378020205班级:医学1301 实验日期:2016-04-192实验目的和要求:1)掌握BLAST的原理;2)了解如何利用Genbank数据库中提供的Blast功能完成同源性检索3实验仪器、设备与材料:计算机(联网)4实验原理:BLAST是一个NCBI开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段。

BLAST能够在小于15秒的时间内对整个DNA数据库执行序列搜索。

BLAST(Basic local alignment search tool),中文意思为基本的基于局部对准的搜索工具,是一种快速查找与靶序列具有连续相同片段的序列的技术。

5实验步骤:1)进入NCBI主页(/),点击BLAST按钮,进入了BLAST HOME界面。

A、选择blastn,在Enter Query Sequence 输入FASTA格式的序列,以枯草芽孢杆菌的葡萄糖-1-脱氢酶为例。

在choose search set栏中的Database中选择“others”,注意此处的program selection选择Highly similar sequences (megablast),再点击“BLAST”按钮,需要一定的反应时间,结果可以看到有很多非常相似的序列,打开匹配度较高的序列,查看来源、功能等。

改变下面几个参数(每次只能变化一个参数),看输出结果中打分最高的10条序列是否会发生变;B:进入blastp,在Enter Query Sequence 输入FASTA格式的序列。

在choose search set栏中的Database中选择“others”,注意此处的program selection选择Highlysimilar sequences (megablast),再点击“BLAST”按钮,需要一定的反应时间,结果可以看到有很多非常相似的序列,打开匹配度较高的序列,查看来源、功能等。

blast和clustal的原理

blast和clustal的原理一、引言Blast和Clustal是生物信息学领域中常用的两种序列比对工具。

Blast 主要用于快速查找数据库中与给定序列相似的序列,而Clustal则用于多个序列之间的比对。

本文将分别介绍Blast和Clustal的原理。

二、Blast原理1. 基本概念Blast全称为Basic Local Alignment Search Tool,是一种常用的序列比对工具。

其基本思想是通过寻找两条序列之间最长的局部匹配来确定它们之间的相似性程度。

2. 搜索算法Blast搜索算法主要分为两步:预处理和搜索。

预处理阶段,将数据库中所有序列进行预处理,生成索引文件。

这个过程称为建立BLAST数据库。

这个过程通常耗时较长,但只需要执行一次。

搜索阶段,将查询序列与索引文件进行比对,并找出最佳匹配结果。

这个过程通常很快,可以在几秒钟内完成。

3. 基本流程Blast基本流程如下:(1)将查询序列切成多个长度相等的片段;(2)将每个片段与数据库中所有序列进行比对,并计算得分;(3)根据得分排序,并选择最高得分的前N条结果返回。

4. 常用算法Blast有多种算法,其中最常用的是BLASTP、BLASTN、BLASTX、TBLASTN和TBLASTX。

(1)BLASTP:用于比对蛋白质序列与蛋白质数据库中的序列;(2)BLASTN:用于比对核酸序列与核酸数据库中的序列;(3)BLASTX:用于比对核酸序列的翻译产物与蛋白质数据库中的序列;(4)TBLASTN:用于比对蛋白质序列与核酸数据库中的翻译产物;(5)TBLASTX:用于比对核酸序列与核酸数据库中的翻译产物。

三、Clustal原理1. 基本概念Clustal全称为Cluster Analysis,是一种常用的多序列比对工具。

其基本思想是通过寻找多条序列之间最长的共同片段来确定它们之间的相似性程度。

2. 比对算法Clustal比对算法主要分为两步:预处理和多重比对。

生物信息学 chapter05_blast(tingke)


步骤3:粘贴或上传序列
步骤4:选择数据库
nr = non-redundant (most general database) dbest = database of expressed sequence tags dbsts = database of sequence tag sites gss = genomic survey sequences htgs = high throughput genomic sequence
表 BLAST 子程序及其搜索功能简表
程序
查询序列
数据库类型 返回序列
ห้องสมุดไป่ตู้
搜索功能
blastn
核酸
核酸
核酸
用核酸查询序列与核酸数据库中的序列进 行比对
blastp
蛋白质
蛋白质
蛋白质
用蛋白质查询序列与蛋白质数据库中的序 列进行比对
blastx 核酸(翻译)
蛋白质
蛋白质
核酸查询序列先 6 框翻译成蛋白质序列后再 逐一与蛋白质数据库中的序列进行比对
Program Input blastn DNA blastp protein blastx DNA tblastn protein tblastx DNA
Database 1
DNA 1
protein 6
protein 6
DNA 36
DNA
Fig. 4.3
page 91
每种工具各自的特点:
blastn是用核酸序列来搜索核酸序列数据库, 最后返回相似度高的核酸序列。 blastp是用蛋白质序列来搜索蛋白质序列数据 库,最后返回相似度高的蛋白序列。 blastx能够在提交核酸序列后,自动根据可能 的阅读框架将其翻译成6种蛋白质序列,然后 逐一搜索蛋白质序列数据库,最后返回相似度 高的蛋白序列。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

实验三数据库搜索—BLAST
1. Nucleotide BLAST
在Nucleotide中输入登录号搜索人类MAPK9(NM_139069.2)基因,send to 为coding sequences,作为Query 序列,或者下载complete sequences,在Blastn 中限制序列搜索范围为272-1420(编码区)。

分别用megablast, discontiguous megablast 和 blastn 进行搜索。

这三个搜索的参数不同之处,主要体现在单词单位,megablast的单词单位默认为28,可选范围从16-256, discontiguous megablast的单词单位默认为11,可选为11和12, blastn单词单位默认为11,可选范围为7,11和15。

Megablast 可以快速搜索到与query 高度相似的序列;discontiguous megablast用于寻找与 query 高度相似的序列; blastn则用于寻找与 query 有一定相似度的序列。

单词单位越小,敏感度越高,也就是说,Megablast敏感度最差,discontiguous megablast 居中,blastn 最高。

Megablast的搜索速度最快,discontiguous megablast居中,blastn最差。

三个搜索所搜索到的相似序列的数量,相似性范围和分值范围都有很大差异,具
Methods Number Identity(%)Max score Megablast154172-10073.1-2122 discontiguous megablast652763-10044.6-2073 blastn116676310044.6-2073
截取30bp的片段进行blastn搜索,默认参数设置如下图:
搜索后,实际参数如下图,主要对word size, expect value进行了调整,这是因为我们了选中automatically adjust parameters for short input sequences,在所搜索的片段长度比较小时,数据库中随机情况下找到高度相似甚至相同的局部比对(HSPs)的可能性非常高,系统自动将 word size 调小,
提高敏感度,而将 E-value 调大,确保有搜索结果出现。

2. Protein BLAST
2.1第一个例子:
以人的 retinol binding protein 4 (NP_006735)作为 query搜索蛋白库,database选择RefSeq-protein数据库,organism选择细菌(Bacteria (taxid:2)),Blastp得到549条相似序列。

分别用 BLASTP, PSI-BLAST,
Methods Number Identity(%)Max score
blastp54922-3935.7-54.1
PSI-BLAST
PHI-BLAST
DELTA-BLAST
2.2第二个例子
a 以人的血红蛋白 beta 链(NP_000509)作为 query, 使用默认参数搜索数据库(nr)搜索,共得到1443条序列,max score分值范围50.4-301,identity 范围41-100%。

b数据库更换为 RefSeq-Protein,organism设置为plants (taxid:3193),搜索结果为No significant similarity found. For reasons why,click here,表明没有搜索到同源序列。

c 仅将wor
d size调为从6调为2,提高搜索敏感度,搜索到分值在32.3-37.4的56条序列,idetity范围31-38%。

仅将评分矩阵从默认的 BLOSUM62 换成BLOSUM45,搜索到分值在31.8-33.9的9条序列,idetity范围23-37%。

从两个参数调整的搜索结果看,word size更好的提高了搜索敏感度。

d若是使用PSI-BLAST,第一轮搜索到51条序列,选择 leghemoglobin构建矩阵,进行第二轮搜索,第二轮搜索到260条序列,且max score明显升高,范围47.4-149,第三轮266条,经7轮搜索,共得到268条序列,分值范,45.5-275,
identity范围13-22%。

使用敏感度更高的搜索算法DELTA-BLAST,第一轮得到265条序列,去掉非同源序列,进行第二轮搜索,得到267条,第三轮就得到268条,分值范围44-275,identity范围12-22%。

从四种提高搜索敏感度的方法所得到的结果可以看出,DELTA-BLAST和PSI-BLAST敏感度较高,都搜索到268条序列,而DELTA-BLAST在第一轮搜到几乎所有的同源序列,PSI-BLAST经过6轮迭代搜索,才得到所有序列。

减小word size和更换小的BLOSUM矩阵,分别搜索到56和9条序列,与迭代搜索敏感度相差甚远。

2.3分别以MAPK9(NM_139069.2)及其编码的蛋白序列(NP_620708.1)为query,搜索核酸和蛋白数据库,数据库分别限定为refseq-rna和refseq-protein,organism分别限定为Bacillus sp. 10405 (taxid:1423)和Bacillus sp. 2479 (taxid:1396)。

以MAPK9(NM_139069.2)为query,搜索到303条序列,主要是分布在Bacillus cereus中。

而以其编码的蛋白序列(NP_620708.1)为query,搜索到313条序列,主要是分布在Bacillus cereus中,蛋白序列搜索的敏感性要高于核酸序列搜索的敏感性。

通过调整搜索参数,可以提高搜索的敏感性,当单词单位调为2时,可以搜索到319条序列,也是分布在Bacillus,Bacillus cereus中。

当矩阵从默认的BLOSUM62 换成 BLOSUM45,相似序列也是分布在Bacillus,Bacillus cereus 中,但是搜索到序列条数有所下降,仅313条。

使用敏感性更高的方法,PSI-BLAST经过7轮迭代搜索不再出现新序列,共得到573条序列,分别在Bacillus,Bacillus cereus和Bacillus cereus group 中,DELTA-BLAST经4轮迭代搜索得到573条序列,分别在Bacillus,Bacillus cereus和Bacillus cereus group中。

PSI-BLAST搜索,第一轮会出现假阳性,经过筛选,以后每轮的假阳性会越来越少。

而DELTA-BLAST搜索第一轮出现假阳性的几率已经非常小。

2.4 在进行搜索时,发现QuickBLASTP速度确实比blastp 搜索速度快,用QuickBLASTP搜索nr 蛋白质数据库的MAPK9(NP_620708.1)在芽孢杆菌中的相似序列时,结果没有搜索到序列,而blastp搜索到413条序列。

说明blastp 搜索到搜索到的序列与目标序列的相似性均在50%以下。

3. Translated BLAST
以MAPK9(NM_139069.2)及其编码的蛋白序列(NP_620708.1)为query,分别用blastn,blastp,blastx, tblastx和 tblastn 搜索核酸和蛋白数据库,
数据库分别限定为refseq-rna和refseq-protein,organism限定为Bacillus。

相关文档
最新文档