生物信息学工具BLAST的使用简介_吕军

生物信息学工具BLAST的使用简介_吕军
生物信息学工具BLAST的使用简介_吕军

2003年3月内蒙古大学学报(自然科学版)M ar.2003第34卷第2期Acta Scientiarum Naturalium Univ ersitatis NeiM ongol Vol.34No.2

文章编号:1000-1638(2003)02-0179-09

生物信息学工具BL AS T的使用简介

吕 军1,3,张 颖3,冯立芹2,李 宏1

(1.内蒙古大学理论物理与理论生物物理研究室,内蒙古呼和浩特010021;

2.内蒙古民族大学物理系,内蒙古通辽028043;

3.内蒙古工业大学物理教研室,内蒙古呼和浩特010062)

摘要:从网上在线服务、电子邮件服务和本地运行三个方面介绍BL AS T的使用方法,目的是

使大家尽快掌握它,使其成为理论生物学研究的有力工具.

关键词:BL AS T;数据库;搜索

中图分类号:Q617 文献标识码:A

引 言

随着人类基因组计划(HGP)的进展,生物数据量迅速膨胀,海量的生物数据摆在生物信息学的工作者面前.生物信息学计算的核心是序列的比较,从而,比较基因组学、比较蛋白质组学成为后基因组时代的主要研究方向之一.比较的内容从序列的组分变化、寻找特殊的字段,到序列间字母的对应.比较的主要目的在于阐明序列间的同源(isogeny)关系,以及从已知序列去预测新序列的结构和功能.

两个或多个符号序列按字母比较,尽可能确切地反映他们之间的相似和相异,称为序列的联配(a lig nment).核酸和蛋白质序列的联配的前提是,假定两个序列来自同一个祖先序列(“同源”),它们在演化的过程中由于变异的积累而成为不同的序列.

近年来,进行序列联配分析的工具软件发展了很多,其中,尤以BLAST和FAST A使用最为频繁,一般认为,BLAS T运行速度快,对蛋白质序列的搜寻更为有效,FASTA速度较慢,对核酸序列更为敏感.BLAST是“基本局域联配搜索工具”(Basic Local Alig nment Search Tool)的字头缩写,是最常用的比较核酸和蛋白质同源性的比较工具.现在,利用BLAST对数据库进行搜索已成为生物信息学工作者的经常.因为BLAST和FAS TA的功能相近,所以,本文以BLAS T为例从三个方面来分别介绍BLAST的使用方法.关于BLAST的算法描述可见文献〔1〕和〔2〕.

1 网上在线服务

BLAST是运行速度甚快的数据库搜索程序,许多生物信息中心都有专门运行BLAST的服务器.主要的BLAST服务器网址如下:

http://w w w.ncbi.nlm.nih.g ov/blast/(运行BLASTR2.0,美国,维护GenBank)

http://w w https://www.360docs.net/doc/9611661439.html,(运行W U-BLAST2,欧洲,维护EM BL数据库)

http://w w w.blast.geno me.ad.jp/(运行BLAST2.0,日本)

https://www.360docs.net/doc/9611661439.html,(运行BLASTR2.0,中国,有ncbi和ebi的镜像)

收稿日期:2002-05-17

基金项目:国家自然科学基金(10147204)资助项目,内蒙古自然科学基金(2001301)资助项目

作者简介:吕军(1973~),男,内蒙古乌拉特前旗人,讲师,硕士.

各服务器的BLAS T 搜索界面大同小异,下面我们以CBI(北京大学生物信息中心)的BLAS T 服务器为例,分步骤来介绍BLAST 的在线搜索方法.

第一步:首先以http ://https://www.360docs.net/doc/9611661439.html, 登录CBI 的BLAS T 服务器,其界面如图1,这时可以选择所要进行的搜索方式.主要的搜索方式列在表1中.

其中,BLAST 2Sequences 只针对两条序列的比对.从表1中可以看出,在BLAST 前面加T 表示要求进行翻译,后面加N 、P 分别表示核酸和蛋白质库.X 则表示某种交叉比较

.

图1 CBI 的BL A ST 程序选择界面Fig.1 H o me Pag e of Pro g ram o f BL A ST o f CBI

表1 BLAST 程序Table 1 Programs of BLAST Prog ra ms Query Sequences Sea rch Data Bases BL A ST N Nucleotide N ucleotide BL AS T P Pro tein Pro tein BL A STX Nucleotide Pro tein T BL A ST N Pro tein N ucleotide T BL AST X Nucleotide

N ucleotide

BL A ST 2Sequences

第二步:根据需要选择一种搜索方式后,进入下一层界面,如图2(以BLASTN 为例).这就是

BLAS T 的主界面,下面我们逐一介绍一下BLAS T 的主界面中的各选项

.

图2 BL A STN 查询主界面Fig .2 Quer y Hom e Pag e o f BL A ST N

A.首先是选择数据库

核酸序列数据库和蛋白质序列主要数据库分别列在表2中.对数据库的选择可根据查询的具体要求做出相应的选择.缺省数据库为nr.

180

内蒙古大学学报(自然科学版)2003年

表2 蛋白和核酸数据库

Table 2 Pept ide and Nucleotide Sequence Databases

Peptide Sequence Databases

nr All no n-redundant GenBa nk CD S t ransla tions +PDB +SwissPr ot +PI R

month

All new or revised GenBa nk CD S tra nsla tio n +PDB +Sw iss Pro t +PIR released in the last 30

days .Swisspro t The last major release of the SW I SS-PRO T pro tein sequence database (no upda tes)y ea st Yeast (Saccharo myces cerevisiae )pro tein sequences.E .co li E .co li geno mic CDS tra nslatio ns

Pdb

Sequences deriv ed fr om the 3-dimensional structur e Br oo khav en Pro tein Da ta Ba nk

Pat Pro tein sequences deriv ed fro m the Pa tent divisio n o f G enBank N ucleo tide Sequence Da ta ba ses

nr All N on -redunda nt GenBa nk +EM BL +DDB J +PDB sequences (but no EST ,ST S ,G SS ,or HT GS sequences)

est N o n-redundant Database of GenBank +EM BL+DDBJ EST Div isions

sts N o n -redundant Database of GenBank +EM BL +DDBJ ST S Div isions h tg s H ig h Thro ughput Genomic Sequences

gss

Geno me Surv ey Sequence ,includes sing le -pass g eno mic data ,ex o n -tr apped sequences ,a nd Alu PCR sequences.

B .输入FAST A 格式的要查询序列

需要查询的序列可以通过“查询序列输入文本框”提交,也可以将要查询的序列做成FAST A 格式的文件通过“查询序列文件载入文本框”提交.这里允许同时提交多个序列.要求需要查询的序列必须以FAS TA 格式录入.FASTA 格式以“>”开头,每行不超过80个字符(包括说明行).最好每行低于60个字符.FAST A 格式支持的核酸符号和氨基酸符号分别列在表3中.

表3 FASTA 格式所支持的核酸符号和氨基酸符号

Table 3 The nucleic acid codes and amino acid codes supported by FASTA

The nucleic acid codes suppo r ted a re A adeno sine M A C (a mino )U uridine D G A T C cytidine S G C (stro ng )R G A (purine )H A C T G guanine

W

A T (weak)Y T C (pyrimidine)V G C A T thymidine

B G T C

K

G T (keto )

N

A G C T (a ny )

*

ga p o f indetermina te leng th

The amino acid co des suppo rted ar e A a la nine G g lycine N a spar agine U selenocy steine B a spar tate o r asparag ine H histidine P pro line V v aline C cystine I isoleucine Q glutamine W

tr yptophan

D a spar tate K lysine R a rginine Y tyr osine

E g lutama te L leucine

S serine Z g lutama te or glutamine F phe ny lalanine M me thionine

T

th reo nine

X

any

*

tr anslatio n stop

-

ga p o f inde termina te

C.过滤程序的选择

缺省为低复杂度,过滤程序可以滤掉序列中的一些“低复杂度”区域,否则象Poly (A)、Poly (T)这样的片段会导致高分联配,漏掉真正的编码区.一般选取缺省值即可.BLASTN 只能选用或不用DU ST 过滤程序,其他可选用过滤程序为SEG 、XN U 或其组合.对于这些过滤程序的描述可参见〔3〕等文献.

D.期望值E 的选择

181

第2期

吕军等 生物信息学工具BLAS T 的使用简介

期望值E是一个统计显著性指标,是假定所提交的序列和库中的全部序列都是随机序列,所期望的符合数目.只有搜索到比期望值小的符合序列,才作为结果返回.缺省为10.

E.联配矩阵的选择

连配打分矩阵的选择的一般原则见表 4.

F.交叉搜索时遗传密码表的选择和移框的选择(仅对BLASTX)

G.高级选项

高级选项的参数及其缺省值得设置见表5.高级选项的使用可以增加查询的灵活性,建议大家在对BLAST比较熟悉时,一定去使用这些选项.

表4 打分矩阵的选择原则

Table4 C hoice principle of substitut ion matrix

Q ue ry leng th Substitutio n matrix <35P AM-30

35-50P AM-70

50-85BL O SU M-80

>85BL O SU M-62

表5 BLASTN和BLASTP、BLASTX、TBLASTN高级选项

Table5 Advanced Options of BLASTN,BLASTP,BLASTX and TBLASTN BL A ST N Adv anced O ptio ns

-G Cost to o pen a ga p[Intege r]default=5

-E Cost to ex tend a g ap[Integ er]default=2

-q Penalty for a mismatch in the bla st po rtion of run default=-3

-r Rew ar d fo r a ma tch in th e blast por tio n o f r un defa ult=1

-e Ex pecta tio n va lue(E)[Real]defa ult=10.0

-W W ord size,default is11for blastn,3fo r o th er pro g rams.

-v N umbe r o f o ne-line descriptio ns(V)[Integ er]defa ult=100

-b N umbe r o f a lig nments to show(B)[Integ er]default=100

BL A ST P,BL AST X,TBL A ST N Adv anced O ptio ns

-G Cost to o pen a ga p[Intege r]default=11

-E Cost to ex tend a g ap[Integ er]default=1

-e Ex pecta tio n va lue(E)[Real]defa ult=10.0

-W W ord size,default is11for blastn,3fo r o th er pro g rams.

-v N umbe r o f o ne-line descriptio ns(V)[Integ er]defa ult=100

-b N umbe r o f a lig nments to show(B)[Integ er]default=100

H.返回结果的浏览形式

I.返回符合序列简短说明的行数.缺省为100和50

J.返回联配结果的颜色方案.共7种方案,缺省为无颜色方案

K.清除查询序列和确定搜索

第三步:分析返回结果.单击搜索按钮后,稍作等待便可有返回结果.返回结果主要包括以下四个部分,表10给出一个详细例子.

A.标题(Header)

A.1本次查询所使用的程序和其版本.

A.2本程序的作者以及参考文献.

A.3本次查询所搜索的数据库,搜索的序列数及字符数.

A.4所提交的查询序列的信息.

B.摘要(Summa ry)

满足查询条件的有意义的联配结果的摘要信息.

C.主要部分(Main)

满足查询条件的有意义的联配结果详细信息.

D.最后部分(finality)

182内蒙古大学学报(自然科学版)2003年

列出本次查询所使用的参数,以及一些计算出的参数.

2 电子邮件查询服务

在线查询不方便时,比如受到上网机时的限制或所要提交的序列较长,可以通过电子邮件的方式进行BLAS T 搜索服务.因为是用电子邮件提交查询序列,故而没有上网费用的限制,所以最好提交国外网站(比如NCBI ),因为那里的数据库是最新最全的.下面我们就以NCBI 的电子邮件BLAS T 服务为例来演示如何通过电子邮件提交查询序列.我们发往N CBI 这样一封信:

From :lujun8210@https://www.360docs.net/doc/9611661439.html, Date :5Apr 200200:10:02(可选) To :blast @https://www.360docs.net/doc/9611661439.html, Subject :

PRO GRAM blastn DATALIB nr EX PEC T 0.75(可选) BEGIN >gi |6226515|ref |NC 001224.1|Saccharomy ces cerevisiae mitocho ndrion ,

complete g eno me

T TCAT AAT TAAT T TT TT ATAT AT ATAT TA TAT TAT AAT ATT AATT T A ……

其余参数均使用缺省值.返回结果与CBI 在线服务的返回结果基本相同,具体可参见表10.这里不再重复.

3 本地运行

除在线BLAS T 搜索和E -M AIL 提交外,还可以将BLAST 下载到本地计算机上运行.下面我们

分步骤来介绍如何在本地计算机上使用BLAS T 进行序列的比对.这对于我们的工作是十分有帮助的.

第一步:下载一个单机用的DOS 版的BLAST 程序.可以到NCBI 下载(ftp ://ncbi .nlm .nih .g ov /blast /),也可以到谈杰的生物软件网下载(h ttp ://w w w.bio-so https://www.360docs.net/doc/9611661439.html,).文件名为blastz.ex e,这是一个2.2版的BLAS T 程序,程序大小为7.3Mb.第二步:安装BLAST

将blastz .ex e 拷贝到一指定目录(比如C :\Blast ,后面的演示均以此目录为准)后,运行blastz .ex e ,此时,在这一目录中生成12个应用程序、6个说明文件和一个data 文件夹.

第三步:创建ncbi.ini 文件.

在你的操作系统安装目录(如c :\w indow s)下创建一个名为ncbi.ini 的配置文件,在这个文件中写入下面两行代码,如果此文件存在,则修改其内容为下面两行代码:

[NCBI]

Data="path \data \" 比如,本例中在c :\window s \ncbi .ini 文件中写入下面两行代码: [NCBI ]

Data=c :\blast\data

因为在data 目录下存放有搜索必需的矩阵、密码表、参数表以及一些C 语言的脚本程序等重要信息,所以在搜索前要指定这些文件的存放路径.这一步做完之后,接下来要完成重要的一步,就是格式化数据库.

第四步:格式化数据库.

183

第2期

吕军等 生物信息学工具BLAS T 的使用简介

184内蒙古大学学报(自然科学版)2003年

首先要创建FASTA格式的数据库文件,然后用fo rm atdb程序将所创建的数据库文件格式化.下面我们详细介绍数据库的创建和格式化过程.

A.创建数据库

将所操作数据库以FAST A格式保存,可以自己创建,也可以到N CBI去下载,地址为:ftp:// https://www.360docs.net/doc/9611661439.html,/blast/db/.具体形式为:

>gi|6319248|ref|N P009331.1|Yal069w p

M IVNN T H V L TLPLYT TT TCHT HPHLY TDFTY AHGCYSIY HLKLTLL……

....................................

这里“>"是必需的,“>"之后是一些说明信息(说明可以省略),比如gi是NCBI数据库中序列的统一编号形式,gi后面跟“|”,“|”后面就是这个基因或蛋白的在NCBI的标识代码.具体标识代码含义见表6.包括说明在内,每行不超过80个字符,这是一个默认值.每个基因或蛋白均以“>”开头.将这个数据库文件以一定的文件名保存.比如创建一个核酸数据库以nt这个文件保存在“c:\blast\ database\nt\"下.

表6 数据库名称与标识码

Table6 Database Name and Identif ier Syntax

Data base N ame Identifier Sy ntax

G enBank g b|accession|locus

EM BL Data Libra ry emb|accessio n|locus

D DBJ,DN A Database o f J apan dbj|accessio n|locus

N BRF PIR pir||entr y

Pro tein Research Foundation pr f||na me

SW ISS-PRO T sp|accessio n|entry na me

Bro okhav en Pro tein Data Bank pdb|entr y|chain

Pa tents pa t|countr y|number

G enInfo Backbone Id bbs|number

G ener al database identifier g nl|da taba se|identifie r

N CBI Reference Sequence ref|a ccessio n|lo cus

B.将所建好的数据库格式化

启动DO S窗口,将路径指向BLAST应用程序所在目录,使用fo rmatdb命令对nt这个数据库进行格式化.fo rmatdb命令的语法格式为:

fo rm atdb-i dtatbase-p F-o T

本例中,可以如此应用fo rmatdb命令:

c:\blast>fo rmatdb-i dtatbase\nt\nt-p F-o T

其中一些主要参数的含义见表7.

表7 f ormatdb命令的参数

Table7 Parameters of f ormatdb command

Para meters sig nifica tio n

-t Title for da ta ba se file[String]Optio na l

-i Input file for for matting(this pa ramete r must be set)

-l Log file name:O ptio nal defa ult=fo rma tdb.log

-p T ype of file T-pr ot ein F-nucleo tide default=T

-o Pa rse o ptions

T-Tr ue:Pa rse SeqId and cr ea te index es.

F-False:Do not par se SeqId.Do no t cr ea te index es.

[T/F]Optio na l default=F

执行完fo rm atdb命令后,在“c:\blast\database\nt\”下生成一系列文件,这些文件是进行数据库

查询所必需的.

第五步:进行序列比对和序列查询.

完成以上步骤后就可以使用BLAST 进行序列的比对和查询了.A.两个序列之间的比对——bl2seq

有时我们只需要对两个序列进行比对,此时就可以使用bl2seq 命令,使用bl2seq 命令不须要创建数据库,直接给定两条序列就可实现比对.具体语法格式为:

bl2seq-i seq1-j seq2-p blast Pro gram-o out.File

bl2seq 命令还有很多参数,但最一般的是上面所列参数,根据所讨论问题的要求可具体选择不同的参数.查询参数的办法为,在提示符下直接键入bl 2seq ,不带任何参数即可,表8列出bl 2seq 命令的一些主要参数,注意参数的大小写.

表8 bl 2seq 命令的参数

Table 8

 Parameters of bl 2seq command Pa ramete rs

sig nificatio n

-i Fir st sequence [File In ]

-j Second sequence [File In ]-p Prog r am na me :bla stp,blastn,blastx.For blastx 1st a rg ume nt sho uld be nucleo tide [String ];default =bla stp

-o alig nm ent o utput file [File O ut ];default =stdout

-M M a trix [String ];defa ult =BL O SUM 62

-q Penalty for a nucleotide misma tch (blastn o nly );default =-3-r Rew ar d fo r a nucleo tide match (blastn o nly );default =1-e Ex pecta tio n va lue (E)[Real ];default =10.0

-F

Filter query sequence (DU ST w ith blastn,SEG w ith o ther s)[St ring ]default =T

举一个具体的例子,我们在“c :\blast da tabase \”目录下创建两个FASTA 格式的序列文件seq 1和seq 2,为了简单起见,我们把这两个文件内容作的相同.seq1:

>gi |4001550|dbj |AB001390.1|AB001390Hepatitis C virus g ene for E2pro tein,hyperva riable re-gio n,pa rtial cds,clo ne :A

CACACCC TCG TGAC AGGGGGGG

seq2:>gi |4001550|dbj |AB 001390.1|AB 001390Hepatitis C virus g ene for E 2pro tein ,hyperva riable re-gio n ,pa rtial cds ,clo ne :A

CACACCC TCG TGAC AGGGGGGG

文件创建好之后,在DO S 窗口下输入以下命令行,输出文件名我们定义为seq12.c :\blast>bl2seq-i database\seq1-j da tabase\seq2-p bla stn -o da tabase\seq12-e 0.01命令执行后,我们察看输出文件seq12,如果-o 参数缺省,则查询结果在屏幕输出.seq12:

Query :1cacaccctcg tg aca 15

|||||||||||||||Sbjct :1cacaccctcg tgaca 15 ............

我们发现上面只比对了序列中的1-15个碱基,而16-22这7个碱基被滤掉了,因为这是连续7个G 的简单重复序列,如果不想滤掉它们,只须在bl2seq 的语句中加入参数-F,并且赋值F(假)即可,因缺省时-F 的值为T(真).即:

185

第2期

吕军等 生物信息学工具BLAS T 的使用简介

c:\blast>bl2seq-i database\seq1-j da tabase\seq2-p bla stn-o da tabase\seq12-e0.01-F F seq12:

..................

Query:1cacaccctcg tgacaggg gg gg22

||||||||||||||||||||||

Sbjct:1cacaccctcg tgacaggg gg gg22

..................

B.序列查询——blastall

进行序列查询前,必须要有创建并格式化数据库的过程.前面的工作做好后,就可以利用blastall 命令进行序列的查询.具体语法格式为:

blastall-p blastProg ram-d database-i Query File-o out.Query File

blastall命令的部分参数列在表9中.寻求帮助时,直接键入blastall,不带参数就可以获得blastall命令的所有参数说明.注意参数的大小写区别.

表9 blastall命令的参数

Table9 Parameters of blastall command

Para meters sig nifica tio n

-p Prog r am N ame[String]Input sho uld be one of"bla stp","blastn","blastx","tbla stn",o r"tblastx".

-d Da ta base[String]default=nr

-i Q uery File[File In]default=stdin

-e Ex pecta tio n va lue(E)[Real]defa ult=10.0

-o BL A ST repor t O utput File[File Out]Optio na l default=stdo ut

-F Filter query sequence(DU ST w ith blastn,SEG w ith o ther s)[St ring]default=T

-S Q uery stra nds to sear ch ag ainst da taba se(fo r blast[nx],a nd tblastx).3is bo th,1is to p,2is bo tto m [Integ er]default=3

-T Produce HT M L output[T/F]default=F

-l Rest rict sear ch o f da ta ba se to list of GI's[St ring]O ptio nal

-U Use low er case filtering o f FA ST A sequence[T/F]O ptio nal defa ult=F

举一个例子.比如我们要在前面格式化好的数据库"c:\blast\da tabast\nt\nt"中搜索上例中的seq1这个序列.我们可以这样做:

c:\blast>blastall-p blastn-d database\nt\nt-i database\seq1-o database\out.seq1-e0. 01-F F

输出文件为o ut.seq1,如果-o参数缺省,则查询结果在屏幕输出,具体结果见表10.

表10 BLAST结果

Table10 BLAST result

BL A ST N2.2.2[Dec-14-2001]

Header Ref erence:Altschul,Stephe n F.,Thoma s L.M adden,Alejandro A.Schaffer,Jingh ui Zhang,Zheng Zhang,W ebb Miller,and Dav id J.Lipman(1997),"Gapped BL A ST and PSI-BL A ST:a new g eneration of pr otein database search

pro g rams",N ucleic Acids Res.25:3389-3402.

Query=gi|4001550|dbj|AB001390.1|A B001390H epatitis C v irus gene fo r

E2pr o tein,hyperv ariable regio n,pa rtia l cds,clo ne:A(22letter s)

Da taba se:da ta ba se\nt\nt

1386sequences;2,070,001to tal let ters

186内蒙古大学学报(自然科学版)2003年

续表10

Sco r e

E Sequences pro ducing sig nifica nt a lig nments :

(bit s)

V alue Summa ry

dbj |AB001409.1|AB001409Hepatitis C v irus g ene fo r E2pr otein,h (4)

1e-006

........................

>dbj |AB001409.1|AB001409Hepa titis C virus g ene fo r E2pro tein,hy perv ariable regio n,

pa rtia l cds ,clo ne 18A

L eng th =81

Sco r e =44.1bits (22),Ex pect =1e -006

Identities =22/22(100%)M ain

Strand =Plus /Plus

Q uery:1cacaccctcg tg acagg gg g gg 22 ||||||||||||||||||||||Sbjct:1cacaccc tcg tg aca gg gg gg g 22 ........................

La mbda K H fina lity

1.37

0.711

1.31

Gapped

.....................

上面简单描述了BLAST 的三个方面的使用方法,当然其中还有很多细节的东西本文没有涉及到,这些细节还需读者在应用BLAST 的过程中慢慢捉摸和体会,同时读者可以参见文献〔4,5,6〕.本文能起到抛砖引玉的作用也就达到了文章的目的.有了本文的介绍,再借助一些帮助文件,相信大家一定能够很快熟悉并掌握BLAS T 的用法,使之成为我们科研工作中方便的工具.

参考文献:

[1] Altschul S F ,Gish W ,M iller W ,et al .Ba sic loca l alig nm ent sea rch too l [J ].J .Mol .Biol .,1990,215:403~412.[2] Altschul S F ,M adden T L ,Schaffer A A ,et al .Gapped BL A ST and P SI BL AS T :a new ge ner atio n of pro tein

database search pro g rams [J].N ucl .Acids Res .,1997,25:3389~3402.

[3] W o ot to n J C,Federhen S.Statistics of local complex ity in amino acid sequences and sequence databas es [J].Com-puters &Chemistry ,1993,17:149

~163.[4] 郝柏林,张淑誉.生物信息学手册[M ].上海:上海科学技术出版社,2000.10,184~210.[5] 赵南明,周海梦.生物物理学[M ].北京:高等教育出版社,2000.7,209~228.

[6] 贺林.解码生命—人类基因组计划和后基因组计划[M ].北京:科学出版社,2000.4,421~426.

A Brief Introduction of th e Bioinfo rmatics Tool Blast

LU Jun 1,3,ZHANG Ying 3,FEN G Li -qing 2,LI Hong

1

(https://www.360docs.net/doc/9611661439.html,boratory of The oretical Physics and B iology ,NeiMongol University ,Hohhot 010021,P RC ;

2.Department of Physics ,NeiMongol National University ,Tongliao 028043,P RC ;

3.Teac hing and Researc h Section of Physics ,

N eiMongol Polytechnic University ,Hohhot 010062,P RC )

Abstract :The usag e o f Blast is introduced by o n -line service ,E -mail service and local running respectiv ely ,in o rder to make ev erybo dy master it as soo n as possible,and to make it become a va luable tool in studying theo retical biolog y.

Key words :BLAST ;database ;search

187第2期

吕军等 生物信息学工具BLAS T 的使用简介

生物信息学软件及使用概述

生物信息学软件及使 刘吉平 liujiping@https://www.360docs.net/doc/9611661439.html, 用概述 生 物秀-专心做生物! w w w .b b i o o .c o m

生物信息学是一门新兴的交叉学生物信息学的概念: 科,它将数学和计算机知识应用于生物学,以获取、加工、存储、分类、检索与分析生物大分子的信息,从而理解这些信息的生物学意义。 生 物秀-专心做生物! w w w .b b i o o .c o m

分析和处理实验数据和公共数据,生物信息学软件主要功能 1.2.提示、指导、替代实验操作,利用对实验数据的分析所得的结论设计下一阶段的实验 3.实验数据的自动化管理 4.寻找、预测新基因及其结构、功能 5.蛋白质高级结构及功能预测(三维建模,目前研究的焦点和难点) 生 物秀-专心做生物! w w w .b b i o o .c o m

功能1. 分析和处理实验数据和公共数据,加快研究进度,缩短科研时间 ?核酸:序列同源性比较,分子进化树构建,结构信息分析,包括基元(Motif)、酶切点、重复片断、碱基组成和分布、开放阅读框(ORF ),蛋白编码区(CDS )及外显子预测、RNA 二级结构预测、DNA 片段的拼接; ?蛋白:序列同源性比较,结构信息分析(包括Motif ,限制酶切点,内部重复序列的查找,氨基酸残基组成及其亲水性及疏水性分析),等电点及二级结构预测等等; ?本地序列与公共序列的联接,成果扩大。 生 物秀-专心做生物! w w w .b b i o o .c o m

Antheprot 5.0 Dot Plot 点阵图 Dot plot 点阵图能够揭示多个局部相似性的复杂关系 生 物秀-专心做生物! w w w .b b i o o .c o m

NCBI在线BLAST使用方法与结果详解

N C B I在线B L A S T使用方法与结果详解 IMB standardization office【IMB 5AB- IMBK 08- IMB 2C】

N C B I在线B L A S T使用方法与结果详解 BLAST(BasicLocalAlignmentSearchTool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的统计说明。 BLAST采用一种局部的算法获得两个序列中具有相似性的序列。 Blast中常用的程序介绍: 1、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。 2、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。 3、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。 4、TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。 5、TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。 NCBI的在线BLAST: 下面是具体操作方法 1,进入在线BLAST界面,可以选择blast特定的物种(如人,小鼠,水稻等),也可以选择blast所有的核酸或蛋白序列。不同的blast程序上面已经有了介绍。这里以常用的核酸库作为例子。 2,粘贴fasta格式的序列。选择一个要比对的数据库。关于数据库的说明请看NCBI在线blast数据库的简要说明。一般的话参数默认。 3,blast参数的设置。注意显示的最大的结果数跟E值,E值是比较重要的。筛选的标准。最后会说明一下。 4,注意一下你输入的序列长度。注意一下比对的数据库的说明。 5,blast结果的图形显示。没啥好说的。 6,blast结果的描述区域。注意分值与E值。分值越大越靠前了,E值越小也是这样。7,blast结果的详细比对结果。注意比对到的序列长度。评价一个blast结果的标准主要有三项,E值(Expect),一致性(Identities),缺失或插入(Gaps)。加上长度的话,就有四个标准了。如图中显示,比对到的序列长度为1405,看Identities这一值,才匹配到1344bp,而输入的序列长度也是为1344bp(看上面的图),就说明比对到的序列要长一

生物信息学名词解释

1.计算生物信息学(Computational Bioinformatics)是生命科学与计算机科学、数理科学、化学等领域相互交叉而形成的一门新兴学科,以生物数据作为研究对象,研究理论模型和计算方法,开发分析工具,进而达到揭示这些数据蕴含的生物学意义的目的。 2.油包水PCR (Emulsion PCR) : 1) DNA片段和捕获磁珠混合; 2) 矿物油和水相的剧烈震荡产生油包水环境; 3) DNA片段在油包水环境中扩增;4) 破油并富集有效扩增磁珠。 3.双碱基编码技术:在测序过程中对每个碱基判读两遍,从而减少原始数据错误,提供内在的校对功能。代表测序方法:solid 测序。 4.焦磷酸测序法:焦磷酸测序技术是由4种酶催化的同一反应体系中的酶级联化学发光反应,适于对已知的短序列的测序分析,其可重复性和精确性能与SangerDNA测序法相媲美,而速度却大大的提高。焦磷酸测序技术不需要凝胶电泳,也不需要对DNA样品进行任何特殊形式的标记和染色,具备同时对大量样品进行测序分析的能力。在单核苷酸多态性、病原微生物快速鉴定、病因学和法医鉴定研究等方面有着越来越广泛的应用。例如:454测序仪 :用蛋白质序列查找核苷酸序列。 :STS是序列标记位点(sequence-tagged site)的缩写,是指染色体上位置已定的、核苷酸序列已知的、且在基因组中只有一份拷贝的DNA短片断,一般长200bp -500bp。它可用PCR方法加以验证。将不同的STS依照它们在染色体上的位置依次排列构建的图为STS图。在基因组作图和测序研究时,当各个实验室发表其DNA测序数据或构建成的物理图时,可用STS来加以鉴定和验证,并确定这些测序的DNA片段在染色体上的位置;还有利于汇集分析各实验室发表的数据和资料,保证作图和测序的准确性。 :表达序列标签技术(EST,Expressed Sequence Tags)EST技术直接起源于人类基因组计划。 :生物信息学数据库。UniGene试图通过计算机程序对GeneBank中的序列数据进行适当处理,剔除冗余部分,将同一基因的序列,包括EST序列片段搜集到一起,以便研究基因的转录图谱。UniGene除了包括人的基因外,也包括小鼠、大鼠等其它模式生物的基因。 :开放阅读框(ORF,open reading frame )是基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能被终止子打断。编码一个蛋白质的外显子连接成为一个连续的ORF。 10.分子钟检验:只有分子钟的,没听过分子钟检验。一种关于分子进化的假说,认为两个物种的同源基因之间的差异程度与它们的共同祖先的存在时间(即两者的分歧时间)有一定的数量关系

启动子生物信息学分析软件

https://www.360docs.net/doc/9611661439.html,/seq_tools/promoter.html 2. PlantCARE(plant cis-acting regulatory elements), a database of plant cis-acting regulatory elements http://bioinformatics.psb.ugent.be/webtoo ls/plantcare/html/ 3. promoter 2.0 prediction server http://www.cbs.dtu.dk/services/Promoter/ 4. 启动子分析网址: 1 https://www.360docs.net/doc/9611661439.html,/seq_tools/promoter.html 2 http://alggen.lsi.upc.es/recerca/menu_recerca.html 3 http://www.cbs.dtu.dk/services/Promoter/ 4 https://www.360docs.net/doc/9611661439.html,/~molb470/ ... s/solorz/index.html 5 https://www.360docs.net/doc/9611661439.html,/molbio/proscan/ http://bip.weizmann.ac.il/toolbo ... ters.html#databases https://www.360docs.net/doc/9611661439.html,/seq_tools/promoter.html https://www.360docs.net/doc/9611661439.html,.sg/promoter/CGrich1_0/CGRICH.htm https://www.360docs.net/doc/9611661439.html,/pub/programs.html#pmatch https://www.360docs.net/doc/9611661439.html,.hk/~b400559/arraysoft_pathway.html#Promoter http://www.dna.affrc.go.jp/PLACE/signalup.html http://intra.psb.ugent.be:8080/PlantCARE/ http://www.cbs.dtu.dk/services/Promoter/ https://www.360docs.net/doc/9611661439.html,/molbio/proscan/ https://www.360docs.net/doc/9611661439.html,/molbio/signal/ https://www.360docs.net/doc/9611661439.html,/thread-41571-1-1.htm 常用启动子分析网址: http://bip.weizmann.ac.il/toolbox/seq_analysis/promoters.html#databas es

NCBI中Blast种类及使用简介

NCBI中Blast种类及使用简介 NCBI中Blast种类简介 1. Blast Assembled Genomes 在一个选择的物种基因组序列中去搜索。 2.Basic Blast 2.1 nucleotide blast--- 用核酸序列到核酸数据库中进行搜索,包括3个程序 2.1.1 Blastn----核酸序列(n)到核酸序列数据库中搜索,是一种标准的搜索。 2.1.2 megablast----该程序使用“模糊算法”加快了比较速度,可以用于快速比较两大系列序列。可以用来搜索一匹ESTs序列和大的cDNA或基因组序列, 适用于由于测序或者其他原因形成的轻微的差别的序列之间的比较 2.1.3 discontiguous megablast----与megablast不同的是主要用来比较来自不同物种之间的相似性较低的分歧序列。 2.2 Protein Blast 2.2.1 Blastp ---蛋白质序列到蛋白质序列数据库中搜索,是一种标准的搜索。 2.2.2 psi-blast---位点特异迭代BLAST —用蛋白查询来搜索蛋白资料库的一个程式。所有被BLAST发现的统计有效的对齐被总和起来形成一个多次对齐,从这个对齐,一个位置特异的分值矩阵建立起来。这个矩阵被用来搜索资料库,以找到额外的显著对齐,这个过程可能被反复迭代一直到没有新的对齐可以被发现。 2.2.3 PHI-BLAST---以常规的表达模型为特别位置进行PSI - BLAST检索,找出和待查询序列具有一样的表达模型且具有同源性的蛋白质序列。 2.3 Translating BLAST 2.3.1 blastx----先将待查询的核酸序列按6 种读框翻译成蛋白质序列,然后将翻译出的蛋白质序列与NCBI 蛋白质序列数据库比较。 2.3.2 tblastn-----先将核酸序列数据库中的核酸序列按6 种读框翻译成

生物信息学常用工具

常用DNA和蛋白质序列数据分析工具: ●序列比对工具: a)BLAST: ●网络比对,包括基础的Blast比对、参数、特殊Blast如PSI-Blast、Blast2 等; ●本地比对,包括程序下载、安装、数据库的下载及格式化、Blast程序的 运行等。 b)多序列比对ClustalX(Windows系统) 包括程序下载、安装、及程序的运行、结果的输入输出等。 ●真核生物基因结构的预测: a)基因可读框的识别: Genescan; CpG岛、转录终止信号和启动子区域预测; CpGPlot; POLYAH; PromoterScan; b)基因密码子偏好性: CodonW; c)采用mRNA序列预测基因: Spidey; d)ASTD数据库 ●分子进化遗传分析工具 ●MEGA;

●Phylip; ●蛋白质结构和功能预测 a)一级结构 ProtParam蛋白质序列理化参数检索; ProtScale蛋白质疏水性分析; COILS卷曲螺旋预测; b)二级结构 PredictProtein蛋白质结构预测; PSIPRED不同蛋白质结构预测方法; c)InterProScan: 模式和序列谱研究 Prosite:蛋白质结构域、家族和功能为点数据库; Pfam:蛋白质家族比对和HMM数据库; BLOCK:模块搜索数据库; SMART:简单模块架构搜索工具; TMHMM:跨膜结构预测工具; d)三级结构 Swiss-Model Workspace: 同源建模的网络综合服务器; Phyre:线串法预测蛋白质折叠; HMMSTR/Rosetta:从头预测蛋白质结构; Swiss-PdbViewer:分子建模和可视化工具; 序列模体的识别和解析; MEME程序包; ●蛋白质谱数据分析

常用生物信息学软件

常用生物信息学软件 一、基因芯片 1、基因芯片综合分析软件。 ArrayVision 7.0 一种功能强大的商业版基因芯片分析软件,不仅可以进行图像分析,还可以进行数据处理,方便protocol的管理功能强大,商业版正式版:6900美元。 Arraypro 4.0 Media Cybernetics公司的产品,该公司的gelpro, imagepro一直以精确成为同类产品中的佼佼者,相信arraypro也不会差。 phoretix? Array Nonlinear Dynamics公司的基因片综合分析软件。 J-express 挪威Bergen大学编写,是一个用JA V A语言写的应用程序,界面清晰漂亮,用来分析微矩阵(microarray)实验获得的基因表达数据,需要下载安装JA V A运行环境JRE1.2后(5.1M)后,才能运行。 2、基因芯片阅读图像分析软件 ScanAlyze 2.44 ,斯坦福的基因芯片基因芯片阅读软件,进行微矩阵荧光图像分析,包括半自动定义格栅与像素点分析。输出为分隔的文本格式,可很容易地转化为任何数据库。 3、基因芯片数据分析软件 Cluster 斯坦福的对大量微矩阵数据组进行各种簇(Cluster)分析与其它各种处理的软件。 SAM Significance Analysis of Microarrays 的缩写,微矩阵显著性分析软件,EXCEL软件的插件,由Stanford大学编制。 4.基因芯片聚类图形显示 TreeView 1.5 斯坦福开发的用来显示Cluster软件分析的图形化结果。现已和Cluster成为了基因芯片处理的标准软件。 FreeView 是基于JA V A语言的系统树生成软件,接收Cluster生成的数据,比Treeview 增强了某些功能。 5.基因芯片引物设计 Array Designer 2.00 DNA微矩阵(microarray)软件,批量设计DNA和寡核苷酸引物工具 三、序列综合分析 V ector NTI Suite 8.0 不喜欢装备各种专业性强的软件,而希望用一个综合性的软件代替的同志可以选择本软件。本阶段的大部分功能它都有。该软件具体特有良好的数据库管理(增加、修改、查找),对要操作的数据放在一个界面相同的数据库中统一管理。软件中的大部分分析可以通过在数据库中进行选定(数据)->分析->结果(显示、保存和入库)三步完成。在分析主界面,软件可以对核酸蛋白分子进行限制酶分析、结构域查找等多种分析和操作,生成重组分子策略和实验方法,进行限制酶片段的虚拟电泳,新建输入各种格式的分子数据、

生物信息学工具BLAST的使用简介_吕军

2003年3月内蒙古大学学报(自然科学版)M ar.2003第34卷第2期Acta Scientiarum Naturalium Univ ersitatis NeiM ongol Vol.34No.2 文章编号:1000-1638(2003)02-0179-09 生物信息学工具BL AS T的使用简介 吕 军1,3,张 颖3,冯立芹2,李 宏1 (1.内蒙古大学理论物理与理论生物物理研究室,内蒙古呼和浩特010021; 2.内蒙古民族大学物理系,内蒙古通辽028043; 3.内蒙古工业大学物理教研室,内蒙古呼和浩特010062) 摘要:从网上在线服务、电子邮件服务和本地运行三个方面介绍BL AS T的使用方法,目的是 使大家尽快掌握它,使其成为理论生物学研究的有力工具. 关键词:BL AS T;数据库;搜索 中图分类号:Q617 文献标识码:A 引 言 随着人类基因组计划(HGP)的进展,生物数据量迅速膨胀,海量的生物数据摆在生物信息学的工作者面前.生物信息学计算的核心是序列的比较,从而,比较基因组学、比较蛋白质组学成为后基因组时代的主要研究方向之一.比较的内容从序列的组分变化、寻找特殊的字段,到序列间字母的对应.比较的主要目的在于阐明序列间的同源(isogeny)关系,以及从已知序列去预测新序列的结构和功能. 两个或多个符号序列按字母比较,尽可能确切地反映他们之间的相似和相异,称为序列的联配(a lig nment).核酸和蛋白质序列的联配的前提是,假定两个序列来自同一个祖先序列(“同源”),它们在演化的过程中由于变异的积累而成为不同的序列. 近年来,进行序列联配分析的工具软件发展了很多,其中,尤以BLAST和FAST A使用最为频繁,一般认为,BLAS T运行速度快,对蛋白质序列的搜寻更为有效,FASTA速度较慢,对核酸序列更为敏感.BLAST是“基本局域联配搜索工具”(Basic Local Alig nment Search Tool)的字头缩写,是最常用的比较核酸和蛋白质同源性的比较工具.现在,利用BLAST对数据库进行搜索已成为生物信息学工作者的经常.因为BLAST和FAS TA的功能相近,所以,本文以BLAS T为例从三个方面来分别介绍BLAST的使用方法.关于BLAST的算法描述可见文献〔1〕和〔2〕. 1 网上在线服务 BLAST是运行速度甚快的数据库搜索程序,许多生物信息中心都有专门运行BLAST的服务器.主要的BLAST服务器网址如下: http://w w w.ncbi.nlm.nih.g ov/blast/(运行BLASTR2.0,美国,维护GenBank) http://w w https://www.360docs.net/doc/9611661439.html,(运行W U-BLAST2,欧洲,维护EM BL数据库) http://w w w.blast.geno me.ad.jp/(运行BLAST2.0,日本) https://www.360docs.net/doc/9611661439.html,(运行BLASTR2.0,中国,有ncbi和ebi的镜像) 收稿日期:2002-05-17 基金项目:国家自然科学基金(10147204)资助项目,内蒙古自然科学基金(2001301)资助项目 作者简介:吕军(1973~),男,内蒙古乌拉特前旗人,讲师,硕士.

常用生物信息学软件介绍

常用生物学软件简介 1. Oligo 6是目前使用最为广泛的一款引物设计软件,除了可以简单快捷地完成各种引物和探针的设计与分析外,还具有很多其他同类软件所不具有的高级功能: a) 已知一个PCR引物的序列,搜寻和设计另一个引物的序列。b) 按照不同的物种对MM子的偏好性设计简并引物。 c) 对环型DNA片段,设计反向PCR引物。d) 设计多重PCR引物。e) 为LCR反应设计探针,以检测某个突变是否出现。f) 分析和评价用其他途径设计的引物是否合理。 g) 同源序列查找,并根据同源区设计引物。 h) 增强了的引物/探针搜寻手段。设计引物过程中,可以“Lock”每个参数,如Tm 值范围和引物3’端的稳定性等。 i) 以多种形式存储结果;支持多用户,每个用 户可保存自己的特殊设置。 网址: https://www.360docs.net/doc/9611661439.html,/ 2. Vector NTI Suite是一套功能最全,而且界面最美观,最友好的分子生物学应用软件包。主要包括四个大型软件,它们分别可以对DNA、RNA、蛋白质分子进行各种分析和操作。Vector⑴ NTI:作为Vector NTI Suite的核心组成部分,它可以在生物研究的全过程中提供数据组织和序列编辑的软件支持。Vector NTI 是以一种窗口形式,且支持项目组织的数据库来完成这一功能的;通过这个数据库,可以保存和组织大部分的实验数据,比如:基因结构、载体、序列片断、引物、蛋白质、多肽、电泳Markers和限制性内切酶等。实际上,该数据库还支持对Vector NTI Suite 中各种小型的绘图和结果展示工具的管理。Vector NTI 可以按照用户要求设计克隆策略。用户只需提供克隆载体,外源片断序列,明确载体克隆的大致位置或酶切位点,其它工作由软件完成。设计结果以图文形式输出到屏幕;最后根据客户定制的条件进行模拟电泳。Vector NTI 还具有强大的设计和评估PCR引物、测序引物和杂交探针功能。BioPlot⑵:BioPlot是一个对蛋白质和核酸序列进行各种理化特性分析的综合性工具,它是一种方便的桌面程序。和其他程序不同的是,BioPlot可以绘制50种以上预定制的蛋白质特征图谱,如疏水性和抗原性;并将序列与特征图谱和活性序列区域一一对应。BioPlot还可以对核酸序列进行8种不同类型的分析,如:退火温度、自由能和GC含量等。AlignX⑶:AlignX可以对多个蛋白质或核酸序列进行同源比较,以寻找不同序列之间的同源区域或相似性很高序列中的不同碱基,并绘制进化树;为下一步设计PCR引物、探针及研究系统发育提供基础。AlignX 可以识别所有标准TXT格式,如FASTA、GeneBank、EMBL、SWISS-PROT、GenPept 和ASCII Text。ContigExpress⑷:Contig Express是用来对多个小核酸片段进行拼接而形成连续的长序列。这些小片段可以是Text序列,也可以是直

Blast软件的详细使用方法

Blast软件的详细使用方法 blastall -p blastn -i myRNA.fasta -d humanRNA.fasta -o myresult.blastout -a 2 -F F -T T -e 1e-10 解释如下: blastall: 这是本地化/命令行执行blast时的程序名字!(Tips:blastall直接回车就会给出你所有的参数帮助,但是英文的) -p: p 是program的简写,program在计算机领域中是程序的意思。此参数是指定要使用何种子程序,所谓子程序,就是针对不同的需要,如核酸序列和核酸序列进行比对、蛋白质序列和蛋白质序列进行比对、假设翻译后核酸序列于蛋白质序列进行比对,选择相应的子程序: blastn 是用于核酸对核酸blastp 是蛋白质对蛋白质序列等等,一共5个自程序。 -i: i 是input的简写,意思是输入文件,就是你自己的要进行比对的序列文件(fasta格式)-d: d是database的简写,意思是要比对的目标数据库,在例子中就是humanRNA.fasta (别忘了要formatdb) -o: o是output的简写,意思是结果文件名字,这个根据你自己的习惯起名字,可以带路径,(上边两个参数-i -d 也都可以带路径) *注意以上4个参数是必须的,缺一不可,下面的参数是为了得到更好的结果自己可调的参数,如果你不加也没有关系,blastall程序本身会给一个默认值! -a: 是指计算时要用的CPU个数,我的机器有两个CPU,所以用-a 2,这样可以并行化进行计算,提高速度,当然你的计算机就一个CPU,可以不用这个参数,系统默认值为1,就是一个CPU -F: 是filter的简写,blastall程序中有对简单的重复序列和低复杂度的一些repeats过滤调,默认是T (注意以后的有几种参数就两个选项,T/F T就是ture,真,你可以理解为打开该功能; F就是false,假,理解为关闭该功能) -T: 是HTML的简写,是指blast结果文件是否用HTML格式,默认是F!如果你想用IE看,我建议用-T T -e: 是Expectation value,期望值,默认是10,我用的10-10! BLASTALL 用法 a.格式化序列数据库 格式化序列数据库——formatdb formatdb简单介绍: formatdb处理的都是格式为ASN.1和FASTA,而且不论是核苷酸序列数据库,还是蛋白质序列数据库;不论是使用Blastall ,还是Blastpgp,Mega Blast应用程序,这一步都是不可少的。 formatdb命令行参数: formatdb - 得到formatdb 所有的参数显示(见附录二)和介绍, 主要参数的说明: -i 输入需要格式化的源数据库名称Optional -p 文件类型,是核苷酸序列数据库,还是蛋白质序列数据库 T – protein F - nucleotide [T/F] Optional default = T -a 输入数据库的格式是ASN.1(否则是FASTA) T - True, F - False. [T/F] Optional default = F

生物信息学常用工具,作用及操作流程

用于分析DNA、RNA以及蛋白质一级结构 1、VecScreen用于分析未知序列的长度、载体序列的区域、判断可能使用的克隆载体。 操作过程:NCBI→Resource List (A-Z)→V→VecScreen→输入序列→Run VecScreen→获得结果 2、RepeatMasker用于分析未知序列的重复序列情况,输出重复序列的区域、包含的所有重复序列的类型、重复序列的总长度及Masked Sequence。 操作流程: RepeatMasker Home Page→RepeatMasking→输入文本→选择参数→submit sequence→Results→选择所需结果 3、使用CpGPlot工具,分析未知序列的CpG岛的长度、区域、GC数量及Obs/Exp 值。 EMBL→service→Search “cpg”→EMBOSS cpgplot→输入序列→选择参数→submit→得到结果 4、Neural Network Promoter Prediction和Splice Site Prediction用于预测未知序列的启动子,获得可能的启动子序列及相应的位置。 Neural Network Promoter Prediction BDGP: Home→Analysis Tools→Promoter Prediction→输入序列→选择参数→submit →得到结果 Splice Site Prediction Splice Site Prediction→输入序列→选择参数(物种)→submit→得到结果 这两个都是bdgp里边的,sp这个直接能进去操作。 5、ORF finder用于分析未知序列开放阅读框的预测,寻找潜在的蛋白质编码片段,并进行六框翻译(概念性翻译)。 操作流程 NCBI→Resource List (A-Z)→ORF finder→输入序列→选择参数→submit→获得结果→选择符合要求的形式的结果 6、GENSCAN,用于未知序列综合分析,预测来自各种生物的基因组序列中基因的位置和外显子结构,并对其进行概念性翻译。同时可以获得未知序列的长度以及C+G含量。(首先确定给定序列的物种来源) 操作流程: GENSCAN→输入序列→选择参数→Run GENSCAN→得到结果 7、REBASE是限制性内切酶数据库,用于分析限制性核酸内酶的Recognition Sequence和Type(识别序列和酶切类型)。 Official REBASE Homepage→输入酶的名字→GO→得到结果

生物信息学工具介绍

生物信息学工具介绍 1、FASTA[10](https://www.360docs.net/doc/9611661439.html,/fasta33/)和BLAST[11](http://www.nc https://www.360docs.net/doc/9611661439.html,/BLAST/)是目前运用较为广泛的相似性搜索工具。比较和确定某一数据库中的序列与某一给定序列的相似性是生物信息学中最频繁使用和最有价值的操作。本质上这与两条序列的比较没有什么两样,只是要重复成千上万次。但是要严格地进行一次比较必定需要一定的耗时,所以必需考虑在一个合理的时间内完成搜索比较操作。FASTA使用的是Wilbur-Lipman 算法的改进算法,进行整体联配,重点查找那些可能达到匹配显著的联配。虽然FASTA不会错过那些匹配极好的序列,但有时会漏过一些匹配程度不高但达显著水平的序列。使用FASTA和BLAST,进行数据库搜索,找到与查询序列有一定相似性的序列。一般认为,如果蛋白的序列一致性为25-30%,则可认为序列同源。BLAST(Basic Loc al Alignment Search Tool,基本局部联配搜索工具)是基于匹配短序列片段,用一种强有力的统计模型来确定未知序列与数据库序列的最佳局部联配。BLAST 是现在应用最广泛的序列相似性搜索工具,相比FASTA 有更多改进,速度更快,并建立在严格的统计学基础之上。这两个工具都采用局部比对的方法,选择计分矩阵对序列计分,通过分值的大小和统计学显著性分析确定有意义的局部比对。BLAST根据搜索序列和数据库的不同类型分为5种:1、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。 2、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。 3、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。 4、TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。 5、TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。另外PSI-BLAST通过迭代搜索,可以搜索到与查询序列相似性较低的序列。其中BLASTN、BLASTP在实践中最为常用,TBLASTN在搜索相似序列

生物信息学期末复习知识点总结

生物信息学:利用数学、物理、化学的理论、技术和方法,以计算机为工具,对生命现象加以研究,得到深层次的生物学知识。 研究任务:收集与管理生物分子数据,对数据进行处理分析,为其它生物学研究提供服务 四大“模式生物”:酵母、线虫、果蝇、小鼠 糖的生物功能,作为燃料(是生命活动所需的能源),重要的中间代谢物,参与生物大分子组成,作为信号分子 脂类的生物功能,构成生物膜的骨架,储存能量(效率是糖的2倍左右),构成生物表面的保护层、保温层,重要的生物学活性物质蛋白质的生物功能,是遗传信息转化成生物结构和功能的表达者;参与基因表达的调节,以及细胞中氧化还原反应、电子传递、神经传递、学习记忆等重要生命过程;酶(一类重要的蛋白质)在细胞和生物体内各种生化反应中起催化作用; 蛋白质的空间结构 一级结构(primary structure)多肽链中氨基酸数目、种类和线性排列顺序 二级结构(secondary structure)氢键形成?-螺旋(? -helix)链间形成?-折叠(?-sheet) 三级结构(tertiary structure)肽链进一步沿多方向盘绕成紧密的近似球状结构 四级结构(quaternary structure)具有特定构象的肽链进一步结合,并在空间相互作用检索方法:1)追溯法:通过已知文献后附有的参考文献中提供的线索来查找文献。(2)常用法:利用各种检索工具来查找文献。(3)循环法:是将常用法和追溯法交替使用的一种综合文献检索方法。 (4)浏览法:是从本专业期刊或其它类型的原始文献中直接查阅文献资料。 检索途径:着者途径:分类途径:主题途径:其它途径; 检索过程:(1)分析研究课题(2)制定检索策略(3)查找文献线索(4)获得原始文献大规模基因组DNA测序: 鸟枪法( Shot-gun sequencing)方法:借助物理或化学的手段将整个基因组随机打断成一定大小的片段进行测序,再根据序列间的重叠关系进行计算机排序与组装,确定它们在基因组中的位置。 适用范围:主要用于重复序列少、相对简单的原核生物基因组的测序工作。不适用于分析较大的、更复杂的基因组。优点:速度快、简单易行、成本低 克隆重叠群法(clone contig sequencing)方法:先将染色体打成比较大的片段(几十-几百Kb),利用分子标记将这些大片段排成重叠的克隆群,分别测序后拼装。需要绘制物理图谱,以鸟枪法为基础。适用范围:较大的、更复杂的基因组 蛋白质结构解析:X射线晶体衍射;核磁共振波谱学 其他方法:扫描隧道电子显微镜–圆二色谱一级数据库:直接来源于实验获得的原始数据,只经过简单的归类、整理和注释。 二级数据库:在一级数据库、实验数据和理论分析的基础上,针对不同的研究内容和需要,对生物学知识和信息的进一步整理得到的数据库。 序列比较的根本任务是:通过比较生物分子序列,发现他们之间的 相似性,找出序列之间共同的区域,同时辨别序列之间的差异。 同源性:是指序列们是由共同祖先进化而来,讲两条序列的同源关系,只有两种情况:同源、不同源。相似性:指序列间的差别,是一个度量。 同源与相似的关系:一般认为序列相似性达到一定程度,即可认为是同源,但不绝对。序列比对算法实现:点阵分析:寻找序列间可能的性状对位排列;寻找蛋白质、DNA序列中正向或反向重复;预测RNA中自补区域;直观,整体水平;动态规划算法:精确而全面,非常耗费资源;启发式算法 滑动窗口技术:使用滑动窗口代替一次一个位点的比较是解决这个问题的有效方法。 动态规划算法计算过程:1计算过程从d 0 ,

NCBI在线BLAST使用方法与结果详解

NCBI在线BLAST使用方法与结果详解 BLAST(Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA 数据库中进行相似性比较的分析工具。BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的统计说明。 BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。 Blast中常用的程序介绍: 1、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。 2、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。 3、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。 4、TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。 5、TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。 NCBI的在线BLAST:https://www.360docs.net/doc/9611661439.html,/Blast.cgi 下面是具体操作方法 1,进入在线BLAST界面,可以选择blast特定的物种(如人,小鼠,水稻等),也可以选择blast所有的核酸或蛋白序列。不同的blast程序上面已经有了介绍。这里以常用的核酸库作为例子。

生物信息学分析方法

核酸和蛋白质序列分析 蛋白质, 核酸, 序列 关键词:核酸序列蛋白质序列分析软件 在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。通过启动子预测、CpG岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。上述技术路线可为其它类似分子的生物信息学分析提供借鉴。本路线图及推荐网址已建立超级链接,放在北京大学人类疾病基因研究中心网站(https://www.360docs.net/doc/9611661439.html,/science/bioinfomatics.htm),可以直接点击进入检索网站。 下面介绍其中一些基本分析。值得注意的是,在对序列进行分析时,首先应当明确序列的性质,是mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。 (一)核酸序列分析 1、双序列比对(pairwise alignment) 双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以Needleman-Wunsch算法和Smith-Waterman算法为代表。由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。 除了利用BLAST、FASTA等局部比对工具进行序列对数据库的搜索外,我们还推荐使用EMBOSS软件包中的Needle软件(http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST (https://www.360docs.net/doc/9611661439.html,/BLAST/)。以上介绍的这些双序列比对工具的使用都比较简单,一般输入所比较的序列即可。 (1)BLAST和FASTA FASTA(https://www.360docs.net/doc/9611661439.html,/fasta33/)和BLAST (https://www.360docs.net/doc/9611661439.html,/BLAST/)是目前运用较为广泛的相似性搜索工具。这两个工具都采用局部比对的方法,选择计分矩阵对序列计分,通过分值的大小和统计学显著

生物信息学复习题百度文库合集

生物信息学, 一、名词解释: 1、生物信息学:生物分子信息的获取、存贮、分析和利用;以数学为基础,应用计算机技术,研究生物学数据的科学。 2、相似性(similarity):两个序列(核酸、蛋白质)间的相关性。 3、同源性(homology):生物进化过程中源于同一祖先的分支之间的关系。 4、同一性(identity):两个序列(核酸、蛋白质)间未发生变异序列的关系。 5、序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。 6、生物数据库检索(database query,数据库查询):对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。 7、生物数据库搜索(database search):通过特定序列相似性比对算法,找出核酸或蛋白质序列数据库中与待检序列具有一定程度相似性的序列。 二、简答题: 1、分子生物学的三大核心数据库是什么?它们各有何特点? GenBank核酸序列数据库;SWISS-PROT蛋白质序列数据库;PDB生物大分子结构数据库;2、简述生物信息学的发生和发展。 20世纪50年代,生物信息学开始孕育; 20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来; 20世纪70年代,生物信息学的真正开端; 20世纪70年代到80年代初期,出现了一系列著名的序列比较方法和生物信息分析方; 20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库; 20世纪90年代后,HGP促进生物信息学的迅速发展。 3、生物信息学的主要方法和技术是什么? 数学统计方法;动态规划方法;机器学习与模式识别技术;数据库技术及数据挖掘;人工神经网络技术;专家系统;分子模型化技术;量子力学和分子力学计算;生物分子的计算机模拟;因特网(Internet)技术 4、常见的DNA测序方法有哪些?各有何技术特点和优缺点? Maxam-Gilbert DNA化学降解法: 优点:可测完全未知序列及CG富含区; 缺点:操作繁琐; Sanger双脱氧链终止法: 优点:简便,可测较长片段; 缺点:需已知部分序列或加接头; 焦磷酸测序: 优点:廉价、高通量; 缺点:一次测序片段短。 5、分子生物学数据库有哪些类型?各有何特点? 基因组数据库:基因组测序 核酸序列数据库:核酸序列测定 一次数据库:蛋白质序列数据库:蛋白质序列测定。生物大分子(蛋白质)三维结构数据库:X-衍射和核磁共振 特点:数量少,容量大,更新快

生物信息学复习资料

一、名词解释(31个) 1.生物信息学:广义:应用信息科学的方法和技术,研究生物体系和生物过程 中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。 2.二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、 实验数据和理论分析的基础上针对特定的应用目标而建立的。 3.多序列比对:研究的是多个序列的共性。序列的多重比对可用来搜索基因组 序列的功能区域,也可用于研究一组蛋白质之间的进化关系。 4.系统发育分析:是研究物种进化和系统分类的一种方法,其常用一种类似树 状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树。 5.直系同源:如果由于进化压力来维持特定模体的话,模体中的组成蛋白应该 是进化保守的并且在其他物种中具有直系同源性。 指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性。(来自百度) 6.旁系(并系)同源:是那些在一定物种中的来源于基因复制的蛋白,可能会 进化出新的与原来有关的功能。用来描述在同一物种内由于基因复制而分离的同源基因。(来自百度) 7.FASTA序列格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的 核苷酸或氨基酸字符串。 8.开放阅读框(ORF):是结构基因的正常核苷酸序列,从起始密码子到终止 密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。(来自百度) 9.结构域:大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区 域,折叠得较为紧密,各行其功能,称为结构域。 10.空位罚分:序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空 位并进行罚分,以控制空位插入的合理性。(来自百度) 11.表达序列标签:通过从cDNA文库中随机挑选的克隆进行测序所获得的部分 cDNA的3’或5’端序列。(来自文献) 12.Gene Ontology 协会: 13.HMM 隐马尔可夫模型:将核苷酸序列看成一个随机序列,DNA序列的编 码部分与非编码部分在核苷酸的选用频率上对应着不同的Markov模型。14.一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单 的归类整理和注释 15.序列一致性:指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋 白质的同一氨基酸位置的相同的氨基酸成员, 可用百分比表示。 16.序列相似性:指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所 占的比例。 17.Blastn:是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将 同所查序列作一对一地核酸序列比对。(来自百度) 18.Blastp:是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐 一地同每条所查序列作一对一的序列比对。(来自百度)

相关文档
最新文档