蛋白质序列分析

蛋白质序列分析
蛋白质序列分析

蛋白质序列、性质、功能和结构分析

基于网络的蛋白质序列检索与核酸类似,从NCBI或利用SRS系统从EMBL

检索。

1、疏水性分析

ExPASy的ProtScale程序(https://www.360docs.net/doc/061428819.html,/cgi-bin/protscale.pl)可用来计算蛋白质的疏水性图谱。输入的数据可为蛋白质序列或SWISS-PROT数据库的序列接受号。也可用BioEdit、DNAMAN等软件进行分析。

2、跨膜区分析

蛋白质跨膜区域分析的网络资源有:

TMPRED:https://www.360docs.net/doc/061428819.html,/software/TMPRED_form.html

PHDhtm:

http:www.embl-heidelberg.de/Services/sander/predictprotein/predictpro tein.html

MEMSAT: ftp://https://www.360docs.net/doc/061428819.html,

3、前导肽和蛋白质定位

一般认为,蛋白质定位的信息存在于该蛋白自身结构中,并且通过与膜上特殊受体的相互作用得以表达。这就是信号肽假说的基础。这一假说认为,穿膜蛋白质是由mRNA编码的。在起始密码子后,有一段疏水性氨基酸序列的RNA片段,这个氨基酸序列就称为信号序列(signal sequence)。

蛋白质序列的信号肽分析可联网到http://genome.cbs.dtu.dk

/services/SignalP/或其二版网址

http://genome.cbs.dtu.dk/services/SignalP-2.0/。该服务器也提供利用

e-mail进行批量蛋白质序列信号肽分析的方案

(http://genome.cbs.dtu.dk/services /SignalP/mailserver.html),e-mail 地址为signalp@ genome.cbs.dtu.dk。

蛋白质序列中含有的信号肽序列将有助于它们向细胞内特定区域的移动,如前导肽和面向特定细胞器的靶向肽。在线粒体蛋白质的跨膜运输过程中,通过线粒体膜的蛋白质在转运之前大多数以前体形式存在,它由成熟蛋白质和N端延伸出的一段前导肽或引肽(leader peptide)共同组成。迄今有40多种线粒体蛋白质前导肽的一级结构被阐明,它们约含有20~80个氨基酸残基,当前体蛋白跨膜时,前导肽被一种或两种多肽酶所水解转变成成熟蛋白质,同时失去继续跨膜能力。前导肽一般具有如下性质:①带正电荷的碱性氨基酸(特别是精氨酸)含量较丰富,它们分散于不带电荷的氨基酸序列中间;②缺失带负电荷的酸性

氨基酸;③羟基氨基酸(特别是丝氨酸)含量较高;④有形成两亲(即有亲水又有疏水部分)α-螺旋结构的能力。和信号肽与跨膜区结构一样,蛋白质的亚细胞定位也和其功能密切相关,蛋白质亚细胞定位分析可通过如下网址进行:http://predict. https://www.360docs.net/doc/061428819.html,/nnpsl/nnpsl_mult.cgi。

4、卷曲螺旋分析

另外一个能够直接从序列中预测的功能motif是α-螺旋的卷曲螺旋(coiled- coils)排列方式。在这种结构中,两个螺旋通过其疏水性界面相互缠绕在一起形成一个十分稳定的结构。卷曲螺旋在多种蛋白质中存在,如转录因子的亮氨酸拉链结构及肌球蛋白等。相关生物信息学资源如下:

Coiled-coil:

https://www.360docs.net/doc/061428819.html,/depts/biol/units/coils/coilcoil.html

COILS: https://www.360docs.net/doc/061428819.html,/software/COILS_form.html

EpitopeInfo: https://www.360docs.net/doc/061428819.html,/Links.htm

5、蛋白质功能预测

蛋白质序列分析的一般流程如下图。

图1 蛋白质序列分析的一般流程

(1)基于序列同源性分析的蛋白质功能预测

至少80个氨基酸长度范围内具有25%以上的序列一致性才提示可能的显著性意义。未知功能序列对库检索的一般分析策略如下:

①和运行Blastp程序的服务器(https://www.360docs.net/doc/061428819.html,/blast/)连接;

②将目的序列粘贴到序列输入框中,选择BLOSUM62记分矩阵运行BlastP 程序。NCBI的BlastP程序要求输入格式为FASTA格式,其他一些网站则要求纯序列格式;

③如果BlastP检测到了高度同源的序列,将有可能提示目的序列的生物学功能;

④如查BlastP未能获得有意义的结果,试用FASTA

(https://www.360docs.net/doc/061428819.html,/fasta3/)。虽然FASTA比BlastP慢,但有时可获得有意义的结果;

⑤如果FASTA和BlastP均未能获得有意义的结果,则需采用完全的Smith- Waterman算法对库搜索。例如用EBI的BLITZ程序

(https://www.360docs.net/doc/061428819.html,/bic_sw/)。此类程序能发现低同源性(如20%~25%)的蛋白质序列之间的匹配情况,此种情况在近似算法中会被丢掉。

在调整记分矩阵的同时,也可调整数据库。典型情况下使用的是非冗余的蛋白质序列数据库 SWISS-PROT和PDB数据库。如用BlastP程序也可检索OWL综合性蛋白质序列数据库。OWL综合性蛋白质序列数据库网址:

https://www.360docs.net/doc/061428819.html,/bsm/dbbrowser/OWL/owl_blast.html。

(2)基于motif、结构位点、结构功能域数据库的蛋白质功能预测

motif数据库PROSITE:https://www.360docs.net/doc/061428819.html, /prosite/。在对数据库PROSITE查询时,可联网到:https://www.360docs.net/doc/061428819.html,/tools /scnpsit1.html,将目的序列粘贴到输入框中,点击“search”即可。

数据库PROSITE是由专家根据生物学知识审编的SWISS-PROT蛋白质序列中有生物学意义的位点(sites)、模式(patterns)和轮廓(profiles)的数据库,包括酶活性位点、辅因子结合位点、二硫键位点等。此库可以帮助确定新的蛋白质序列是否属已知的家族。其网址为:

https://www.360docs.net/doc/061428819.html,/prosite/、

https://www.360docs.net/doc/061428819.html,/ftp/databases/prosite/。

profile数据库(蛋白质序列结构特征谱数据库)有以下几种:

BLOCKS: https://www.360docs.net/doc/061428819.html,/blocks/;

https://www.360docs.net/doc/061428819.html,/blocks_search.html

PFAM: https://www.360docs.net/doc/061428819.html,/Software/Pfam/

PFAM-A: https://www.360docs.net/doc/061428819.html,

PRINTS: https://www.360docs.net/doc/061428819.html,/dbbrowser/PRINTS/

PRINTS-S:

https://www.360docs.net/doc/061428819.html,/bsm/dbbrowser/PRINTS/PRINTS.html

ProDom: http://www.toulouse.inra.fr/prodom.html

http://protein.toulouse.inra.fr/prodom/prodom.html

http://protein.toulouse.inra.fr/prodom/blast_form.html

ProDomCG: http://www.toulouse.inra.fr/prodom.html

DOMO: https://www.360docs.net/doc/061428819.html,biogen.fr/services/domo/

BLOCKS+: https://www.360docs.net/doc/061428819.html,/

蛋白质轮廓(profiles)分析:

http://www.isrec.isb-sib.ch/software/PFSCAN_form.html

HITS蛋白质结构域数据库:

http://www.isrec.isb-sib.ch/cgi-bin/hits/hits_index

InterProScan综合分析网站:https://www.360docs.net/doc/061428819.html,/interpro/scan.html。

蛋白质功能结构域分析的简单模块构架搜索工具(simple modular architecture research tool,SMART):http://smart.embl-heidelberg.de/

6、蛋白质结构预测

蛋白质结构的四个层次:一级结构为氨基酸排列顺序,二级结构为由氢键维持的α-螺旋和β-片层,三级结构是完全折叠好的蛋白质空间结构(残基的立体排列模式),四级结构是多个蛋白质亚基组成的蛋白质复合体的结构(即蛋白质之间的交互作用)。对二级和三级结构进行分析是生物信息学在蛋白质结构分析分面的主要应用。另外,蛋白质的另一结构层次——蛋白质折叠——位于二级和三级结构之间十分重要。“折叠”指蛋白质二级结构元件“压缩”的方式,不提供loop区域的所有信息和残基的精确坐标。二级结构和三级结构之间的motif、结构域(domain)、和“折叠”或折叠单元(fold)对于蛋白质结构分类和预测有重要作用。

(1)蛋白质结构资源

a、PDB数据库

蛋白质的基本立体结构数据库PDB(protein data bank),由结构生物信

息学研究组织(research collaboration for structural bioinformatics,RCSB,https://www.360docs.net/doc/061428819.html,)管理。查看数据库的软件rasmol可从http:

//https://www.360docs.net/doc/061428819.html,/microbio/rasmol/下载。

PDBFinder数据库是在PDB、DSSP、HSSP基础上建立的二级库,包含PDB序列、作者、R因子、分辩率、二级结构等。网址:

http://www.sander.embl-heidelberg.de/pdbfinder/、 ftp://swift.embl- Heidelberg.de/pdbfinder。

b、NRL-3D数据库

https://www.360docs.net/doc/061428819.html,/Dan/proteins/nrl3d.html可用于对查询蛋白质序列

相似性分析以确定其结构。

c、ISSD数据库

http://www.protein.bio.msu.su/issd/。

d、HSSP数据库

http://www.sander.embl-heidelberg.de/hssp/。

e、蛋白质结构分类数据库(SCOP)

蛋白质结构分类数据库(structural classification of proteins,SCOP)

https://www.360docs.net/doc/061428819.html,/scop/。

f、Dali/FSSP数据库

https://www.360docs.net/doc/061428819.html,/dali/。

(2)蛋白质二级结构预测

蛋白质多重序列对齐结果进行蛋白质二级结构预测的PHD程序:

http://www.embl-heidelberg.de/predictprotein/predictprotein.html

(3)蛋白质三级结构预测

a、与已知结构的序列比较

采用BlastP程序直接搜索NRL-3D、SCOP等数据库,如果在连续100个氨基酸范围内含有大于40%的一致性,那么在蛋白质结构上则具有较为显著的相似性。此种情况下,即预测中结果按照同源模建(homology modeling)方法能够提供详细而准确的结果。在25~40%之间则难以提供精确的结果。

如果无法在NRL-3D数据库找到匹配序列,下一步则是搜索HSSP数据库。最简单的方法是用BLAST或FASTA程序搜索蛋白质序列数据库(SWISS-PROT,Trembl,PIR)。序列检索系统(sequence retrieve system,SRS)能够提供大于25%的序列一致性。如果检出结果含有HSSP数据库的信息,那么在字段DR中会有注释。如果与HSSP数据库中的蛋白质含有超过25%的序列一致性,那么一般认为该蛋白质至少和HSSP数据库中的蛋白质具有相似的折叠模式。

b、同源模建

Swiss-Model服务器(http://www.expasy.ch/swissmod/SM_TOPPAGE.html)提供自动化财同源模建分析任务。

c、穿针引线(threading)算法和折叠识别

有如下程序资源:

TOPITS:

http://www.embl-heidelberg.de/predictprotein/predictprotein.html

frsvr (fold recognition server):

https://www.360docs.net/doc/061428819.html,/people/frsvr/frsvr.html

123D: https://www.360docs.net/doc/061428819.html,/~nicka/123D.html

THEADER and THEADER2:

https://www.360docs.net/doc/061428819.html,/~jones/threader.html

https://www.360docs.net/doc/061428819.html,/~jones/threa der.html

7、蛋白质分子进化分析

同源蛋白质(homolog)进一步可分为直系同源(ortholog)和旁系同源(paralog)。前者指在不同物种中具有相同功能和共同起源和基因,后者则指在同一物种内具有不同功能、但也有共同起源的基因,例如同是起源于珠蛋白的α珠蛋白、β珠蛋白和肌红蛋白。

早期基于序列同源性来区分蛋白质家族的不同层次。由于在分子进化过程中,组成一个蛋白质序列的所有氨基酸并不具备同样的进化速率,具有重要功能位点的氨基酸显然进化较慢,因此单纯基于序列相似性并不合理。蛋白质进化过程中反映出重要氨基酸组群进化速率较慢而形成的保守性。这一结果体现在很多蛋白质家族成员之间蛋白质序列相似性可能只局限于某个序列区域或结构域中。因此,蛋白质超家族的概念已发展成为具有某种共同结构域的所有分子组成的分子集合。这一概念将蛋白质超家族进行了扩大。这一点也反映在PDB数据库的处理中,即PIR数据库不只依据序列的相似性,而且结合结构域的分析进行蛋白质家族和超家族分类。

蛋白质分类数据库(ProtoMap):http://www.protomap.cs.huji.ac.il/。

如果发现一个未知蛋白质序列和较多不同种属或同一种属的蛋白质序列具

有较高的同源性(大于30%),那么提示待分析蛋白质序列可能是相应家族的成员,从而可从分子进化的角度对蛋白质序列进行综合分析。基本步骤包括:

①用待分析蛋白质序列检索蛋白质序列数据库,获取同源性较高的蛋白质序列。此过程可通过NCBI/Blastp程序分析。

②将所有相关序列组织成FASTA格式,作为后续进行Clustal W/X软件分析的输入数据。

③采用Clustal W/X算法对这些序列进行聚类分析,可联网到https://www.360docs.net/doc/061428819.html,/clustalw/或直接使用Clustal W/X软件进行。

④根据蛋白质序列多重对齐结果绘制分子进化树。采用本地化软件MacVector、DANMAN、TreeView等进行。

蛋白质序列分析

蛋白质序列、性质、功能和结构分析 基于网络的蛋白质序列检索与核酸类似,从NCBI或利用SRS系统从EMBL 检索。 1、疏水性分析 ExPASy的ProtScale程序(https://www.360docs.net/doc/061428819.html,/cgi-bin/protscale.pl)可用来计算蛋白质的疏水性图谱。输入的数据可为蛋白质序列或SWISS-PROT数据库的序列接受号。也可用BioEdit、DNAMAN等软件进行分析。 2、跨膜区分析 蛋白质跨膜区域分析的网络资源有: TMPRED:https://www.360docs.net/doc/061428819.html,/software/TMPRED_form.html PHDhtm: http:www.embl-heidelberg.de/Services/sander/predictprotein/predictpro tein.html MEMSAT: ftp://https://www.360docs.net/doc/061428819.html, 3、前导肽和蛋白质定位 一般认为,蛋白质定位的信息存在于该蛋白自身结构中,并且通过与膜上特殊受体的相互作用得以表达。这就是信号肽假说的基础。这一假说认为,穿膜蛋白质是由mRNA编码的。在起始密码子后,有一段疏水性氨基酸序列的RNA片段,这个氨基酸序列就称为信号序列(signal sequence)。 蛋白质序列的信号肽分析可联网到http://genome.cbs.dtu.dk /services/SignalP/或其二版网址 http://genome.cbs.dtu.dk/services/SignalP-2.0/。该服务器也提供利用 e-mail进行批量蛋白质序列信号肽分析的方案 (http://genome.cbs.dtu.dk/services /SignalP/mailserver.html),e-mail 地址为signalp@ genome.cbs.dtu.dk。 蛋白质序列中含有的信号肽序列将有助于它们向细胞内特定区域的移动,如前导肽和面向特定细胞器的靶向肽。在线粒体蛋白质的跨膜运输过程中,通过线粒体膜的蛋白质在转运之前大多数以前体形式存在,它由成熟蛋白质和N端延伸出的一段前导肽或引肽(leader peptide)共同组成。迄今有40多种线粒体蛋白质前导肽的一级结构被阐明,它们约含有20~80个氨基酸残基,当前体蛋白跨膜时,前导肽被一种或两种多肽酶所水解转变成成熟蛋白质,同时失去继续跨膜能力。前导肽一般具有如下性质:①带正电荷的碱性氨基酸(特别是精氨酸)含量较丰富,它们分散于不带电荷的氨基酸序列中间;②缺失带负电荷的酸性

核酸蛋白序列比对分析

核酸\蛋白序列比对分析 生物技术 02级 021402198 曾彪 摘要生物信息学——是一门新兴的交叉学科,是采用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、存储、传递、检索、分析和解读的科学,是现代生命科学与计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。核酸与蛋白质序列分析是生物信息学的基本研究方法。核酸与蛋白质序列分析是生物信息学的基本研究方法。 关键词核酸/蛋白质序列分析生物信息数据与查询序列比较 DNA芯片质谱隐马尔可夫模型 正文人类基因组计划完成了人类基因组的测序与分析工作,也积累了大量的核酸和蛋白质序列数据,从而导致了分子数据库的建立。分子生物学家在此基础上依靠计算机进行核酸和蛋白质序列分析。 大量生物学实验的数据积累,形成了当前数以百计的生物信息数据库。它们各自按一定的目标收集和整理生物学实验数据,并提供相关的数据查询、数据处理。这些生物信息数据库可以分为一级数据库和二级数据库。一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。国际上著名的一级核酸数据库有

Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT、PIR等;蛋白质结构库有PDB等。国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等等。 要在如此庞大的数据库中找到所需要的目标序列,必须建立数据库查询系统。数据库查询(也称为数据库检索)是指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。常用的数据库查询系统有Entrez, SRS等。数据库搜索是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。常用的数据库搜索系统有BLAST 、FASTA 和BLITZ 。 面对大批由测序仪产生的序列数据,通过序列分析,人们能够了解这些序列的生物学信息和意义。线性核酸序列的分析主要包括同源比较,读框分析,酶切位点查找,GC比例分析,序列翻译,引物设计等;蛋白质序列分析包括同源比较,疏水性分析,序列模体识别,结构域识别,高级结构预测等。 核酸序列分析 核酸序列的基本分析 1.测定分子质量、碱基组成、碱基分布等基本数值; 2.序列变换:反向序列、互补序列、互补反向序列;

核酸蛋白序列比对分析

核酸\蛋白序列比对分析 生物技术02级021402198 曾彪 摘要生物信息学——是一门新兴的交叉学科,是采用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、存储、传递、检索、分析和解读的科学,是现代生命科学与计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。核酸与蛋白质序列分析是生物信息学的基本研究方法。核酸与蛋白质序列分析是生物信息学的基本研究方法。 关键词核酸/蛋白质序列分析生物信息数据与查询序列比较DNA芯片质谱隐马尔可夫模型 正文人类基因组计划完成了人类基因组的测序与分析工作,也积累了大量的核酸和蛋白质序列数据,从而导致了分子数据库的建立。分子生物学家在此基础上依靠计算机进行核酸和蛋白质序列分析。大量生物学实验的数据积累,形成了当前数以百计的生物信息数据库。它们各自按一定的目标收集和整理生物学实验数据,并提供相关的数据查询、数据处理。这些生物信息数据库可以分为一级数据库和二级数据库。一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。国际上著名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有

SWISS-PROT、PIR等;蛋白质结构库有PDB等。国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等等。 要在如此庞大的数据库中找到所需要的目标序列,必须建立数据库查询系统。数据库查询(也称为数据库检索)是指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。常用的数据库查询系统有Entrez, SRS等。数据库搜索是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。常用的数据库搜索系统有BLAST 、FASTA 和BLITZ 。 面对大批由测序仪产生的序列数据,通过序列分析,人们能够了解这些序列的生物学信息和意义。线性核酸序列的分析主要包括同源比较,读框分析,酶切位点查找,GC比例分析,序列翻译,引物设计等;蛋白质序列分析包括同源比较,疏水性分析,序列模体识别,结构域识别,高级结构预测等。 核酸序列分析 核酸序列的基本分析 1.测定分子质量、碱基组成、碱基分布等基本数值; 2.序列变换:反向序列、互补序列、互补反向序列; 3.限制性酶切分析:限制酶的所有信息,包括甲基化酶、相应的

蛋白质结构预测和序列分析软件

蛋白质结构预测和序列分析软件蛋白质数据库及蛋白质序列分析 第一节、蛋白质数据库介绍 一、蛋白质一级数据库 1、 SWISS-PROT 数据库 SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据 库,目前这二个数据库在EMBL和GenBank数据库上均建 立了镜像 (mirror) 站点。 SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序 列,这些序列经过检验和注释。该数据库主要由日内瓦大 学医学生物化学系和欧洲生物信息学研究所(EBI)合作维 护。SWISS-PROT的序列数量呈直线增长。 2、TrEMBL数据库: SWISS-PROT的数据存在一个滞后问题,即 进行注释需要时间。一大批含有开放阅读 了解决这一问题,TrEMBL(Translated E 白质数据库,它包括了所有EMBL库中的 质序列数据源,但这势必导致其注释质量 3、PIR数据库: PIR数据库的数据最初是由美国国家生物医学研究基金 会(National Biomedical Research Foundation, NBRF) 收集的蛋白质序列,主要翻译自GenBank的DNA序列。 1988年,美国的NBRF、日本的JIPID(the Japanese International Protein Sequence Database日本国家蛋 白质信息数据库)、德国的MIPS(Munich Information Centre for Protein Sequences摹尼黑蛋白质序列信息 中心)合作,共同收集和维护PIR数据库。PIR根据注释 程度(质量)分为4个等级。 4、 ExPASy数据库: 目前,瑞士生物信息学研究所(Swiss I 质分析专家系统(Expert protein anal 据库。 网址:https://www.360docs.net/doc/061428819.html, 我国的北京大学生物信息中心(www.cbi.

核酸和蛋白质序列分析

核酸和蛋白质序列分析 在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。通过启动子预测、CpG 岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。上述技术路线可为其它类似分子的生物信息学分析提供借鉴。本路线图及推荐网址已建立超级链接,放在北京大学人类疾病基因研究中心网站 (https://www.360docs.net/doc/061428819.html,/science/bioinfomatics.htm),可以直接点击进入检索网站。 下面介绍其中一些基本分析。值得注意的是,在对序列进行分析时,首先应当明确序列的性质,是mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。 (一)核酸序列分析 1、双序列比对(pairwise alignment) 双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以Needleman-Wunsch算法和Smith-Waterman算法为代表。由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。 除了利用BLAST、FASTA等局部比对工具进行序列对数据库的搜索外,我们还推荐使用EMBOSS软件包中的Needle软件 (http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST

实验二 核酸及蛋白质序列的比对

实验二核酸及蛋白质序列的比对 姓名:班级:序号:指导老师: 一、实验内容 利用检索出的蛋白质和核酸序列进行序列比对并进行分子进化树分析。 二、实验步骤 键入上次实验获得的phyA的核酸序列编号(NM_100828),获得核酸及蛋白质序列。利用blastx程序寻找与phyA蛋白质序列相似性的序列→选择下列序列:sorghum propinquum(高粱);zea mays(玉米);水稻;大豆;arabidopsis thaliana(拟南芥);cyrtosia septentrionalis(血红肉果兰)→点击get select sequence按钮显示序列为纯文本格式文件→分别命名为各自的文件名保存在本地电脑上备用。 在数字基因网找到dnaman及clustalx软件安装并进行多序列比对及分子进化树分析。 利用ebi上提供多序列比对工具再作一次比对.uk/clustalw/。 选作核酸序列的比对 5、打开ncbi主页点击BLAST→学习网页左侧的BLAST FAQS及program guide 三、作业 1、绘制分子进化树,并标明各个物种phyA蛋白之间的序列相似性。 2、根据你所学生物分类的知识,试解释该分子进化树的合理性 ①拟南芥:植物界种子植物门被子植物门双子叶植物纲十字花目十字花科鼠耳芥属(拟南芥属) ②大豆:植物界种子植物门被子植物亚门双子叶植物纲豆目蝶形花科大豆属 ③血红肉果兰:植物界种子植物门被子植物亚门百合纲百合目兰科树兰亚科肉果兰属 ④水稻:植物界种子植物门被子植物亚门单子叶植物纲禾本目禾本科稻属 ⑤玉米:植物界种子植物门被子植物亚门单子叶植物纲禾本目禾本科玉米属 ⑥高粱:植物界种子植物门被子植物亚门单子叶植物纲禾本目禾本科高粱属 经过对比可得下列同源性关系 高粱 玉米 水稻 拟南芥 大豆 血红肉果兰 与前面的同源树对比基本相似,说明软件分析结果与实际相符 3、找出一条可能的保守序列(多条蛋白共同的氨基酸序列)。 最长的保守序列:kliqpfgcllaldek

blast核酸氨基酸序列相似性比较

BLAST 核酸/氨基酸序列相似性比较 Blast(Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的统计说明。 BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。如果您想进一步了解BLAST算法,您可以参考NCBI的BLAST Course ,该页有BLAST算法的介绍。 BLAST的功能 BLAST对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。BLAST还能发现具有缺口的能比对上的序列。 BLAST是基于Altschul等人在上发表的方法在序列数据库中对查询序列进行同源性比对工作。从最初的BLAST发展到现在NCBI提供的,已将有缺口的比对序列也考虑在内了。BLAST可处理任何数量的序列,包括蛋白序列和核算序列;也可选择多个数据库但数据库必须是同一类型的,即要么都是蛋白数据库要么都是核酸数据库。 所查询的序列和调用的数据库则可以是任何形式的组合,既可以是核酸序列到蛋白库中作查询,也可以是蛋白序列到蛋白库中作查询,反之亦然。 BLAST包含的程序: 1、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。 2、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。 3、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。 4、TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。 5、TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。 通常根据查询序列的类型(蛋白或核酸)来决定选用何种BLAST。假如是作核酸-核酸查询,有两种BLAST供选择,通常默认为BLASTN。如要用TBLASTX也可,但记住此时不考虑缺口。 BLAST适用于本地查询。可以下载公共数据库,对于该数据库的更新和维护是必不可少的。如果要直接到网上查询也可以(即NetBlast),但记住如果你认为自己的序列很有价值的话,还是谨慎为宜。 如何访问在线的BLAST功能服务 您只要通过浏览器访问Blast主页( 。所有的查询和分析都通过浏览器来完成,就象您在您的本地机上一样方便和快捷。

蛋白质序列分析

肽和蛋白质的直接测序法 目前,肽和蛋白质的测序有三种策略:①根据基因测序的结果,从cDNA演绎肽和蛋白质序列,这种策略简单、快捷,甚至可以得到未分离出的蛋白质或多肽的序列信息。但是,用这一策略得到的一级结构不含蛋白质翻译后修饰及二硫键位置等信息;②直接测序策略;③质谱测序与生物信息学搜索相结合的策略。第①种策略可参考分子生物学的有关专著,第③种策略将在本书蛋白质组与蛋白质组分析一章中介绍,本章介绍直接测序策略。 1953年,Frederick Sanger在对牛胰岛素的研究中首先提出氨基酸直接测序的概念,迄今为止,已通过直接测序阐明了几千种蛋白质的氨基酸序列。 在蛋白质序列测定中,因为可以得到的蛋白质样品十分有限,而且蛋白质包含的20种不同的氨基酸表现出不同的化学功能和化学活性,在测序过程中每一次变性或裂解所发生的一系列副反应,将使测定过程变得十分复杂,在蛋白质序列测定中由于没有类似于DNA序列测定中采用的PCR技术可应用,因此,与DNA 序列测定相比,蛋白质序列测定在许多方面要复杂得多。其基本的测序过程如下所述。 确定不同的多肽链数目 首先应该确定蛋白质中不同的多肽链数目,根据蛋白质N-端或C-端残基的摩尔数和蛋白质的相对分子质量可确定蛋白质分子中的多肽链数目。如果是单体蛋白质,蛋白质分子只含一条多肽链,则蛋白质的摩尔数应与末端残基的摩尔数相等;如果蛋白质分子是由多条多肽链组成,则末端残基的摩尔数是蛋白质的摩尔数的倍数。 肽链的裂解 当蛋白质分子是由二条或二条以上多肽链构成时,必须裂解这些多肽链。如果多肽链是通过非共价相互作用缔合的寡聚蛋白质,可采用8 mol L-1尿素,6 mo1 L-1盐酸胍或高浓度盐等变性剂处理,使寡聚蛋白质中的亚基裂解;如果多肽链之间是通过共价二硫键交联的,可采用氧化剂或还原剂断裂二硫键。然后再根据裂解后的单个多肽链的大小不同或电荷不同进行分离、纯化。 太长的多肽片段不能直接进行序列测定,一般肽片段长度不超过50个左右残基的肽段,当肽段超过这个长度时,由于反应的不完全以及副反应产生的杂质积累将影响测定结果,因此,必须通过特定的反应将它们裂解为更小的肽段。通过两种或几种不同的断裂方法(即断裂点不同)将每条多肽链样品降解成为两套或几套重叠的肽段或肽碎片,每套肽段分别进行分离、纯化,再对纯化后的每一肽段进行氨基酸组成和末端残基的分析。 使肽链中某些特殊位置上的肽键发生断裂,可采用化学反应或酶反应裂解产生若干能够进行测序的小片段。一般将蛋白质样品分为两等份,采用不同的试剂裂解产生两套不同的片段,两套片段在测序完成后,根据他们之间的重叠情况即可重新排序。 1 酶解法 蛋白质通过蛋白水解酶的裂解后将产生若干能够代表每个蛋白质特性的肽片段,用于特定的蛋白质裂解的蛋白水解酶包括外肽酶和内肽酶,裂解肽链的N-端或C-端的氨基酸可采用外肽酶,而内肽酶则用于切断肽链中某个特定部位。表10.5为常用的蛋白水解酶。 表10.5 用于蛋白质部分裂解的蛋白酶 蛋白酶酶切位点 内肽酶: 胰蛋白酶R n-1=Arg,Lys R n≠Pro 胃蛋白酶R n=Leu,Phe,Trp,Tyr,Val R n-1≠Pro 糜蛋白酶R n-1=Phe,Trp,Try R n≠Pro 内肽酶GluC R n-1=Glu

核酸序列分析软件介绍

核酸序列分析 1、核酸序列检索 可通过NCBI使用Entrez系统进行检索,也可用EBI的SRS服务器进行检索。在同时检索多条序列时,可通过罗逻辑关系式按照GenBank接受号进行批量检索。如用“AF113671 [ac] OR AF113672 [ac]”可同时检索这两条序列。其中“[ac]”是序列接受号的描述字段。 2、核酸序列的基本分析 (1)分子质量、碱基组成、碱基分布 分子质量、碱基组成、碱基分布可通过一些常用软件等直接获得。如: BioEdit(https://www.360docs.net/doc/061428819.html,/BioEdit/bioedit.html), DNAMAN(https://www.360docs.net/doc/061428819.html,)。 (2)序列变换 进行序列分析时,经常需要对DNA序列进行各种变换,例如反向序列、互补序列、互补反向序列、显示DNA双链、转换为RNA序列等。这些用DNAMAN软件可很容易实现,这些功能集中在Sequence→Display,从中可选择不同的序列变换方式对当前通道的序列进行转换。 (3)限制性酶切分析 该方面最好的资源是限制酶数据库(Restriction Enzyme Database,REBASE)。REBASE数据库(https://www.360docs.net/doc/061428819.html,,https://www.360docs.net/doc/061428819.html,/rebase)中含有限制酶的所有信息,包括甲基化酶、相应的微生物来源、识别序列位点、裂解位点、甲基化特异性、酶的商业来源及公开发表的和未发表的参考文献。其它资源还有:WebGene:https://www.360docs.net/doc/061428819.html,/~tjyin/WebGene/RE.html, https://www.360docs.net/doc/061428819.html,/personal/tyin.html WebCutter2: http://www/https://www.360docs.net/doc/061428819.html,/firstmarkert/firstmarket/cutter/cut2.html 同时,很多软件也能够识别REBASE限制酶数据库。强烈推荐使用集成化的软件如BioEdit和DNAMAN等。所得出的结果给出指定DNA序列的酶切位点信息,为克隆鉴定和亚克隆提供了重要信息。 在实际进行分子生物学实验中,有时需要对多条相关序列(如发生突变的一批序列)同时进行酶切分析,以便为后续的克隆鉴定提供参考。此时DNAMAN软件是一个良好的选择。在对所有序列进行多重对齐后,其输出项“Output”中即有“Restriction Analysis”选项,执行后即可完成对所有参与对齐序列的酶切分析,能够得到所有序列的差异酶切图谱和一致酶切图谱。 (4)克隆测序分析 得到测序结果后,需要对所测序列进行后续分析,其中主要包括对测序峰图的查看和载体序列的去除等过程。 a. 测序峰图的查看 最简单的程序是澳大利亚的Conor McCarthy (https://www.360docs.net/doc/061428819.html,.au./~conor/)开发的Chromas.exe程序,但该程 N 序不支持Windows 95以上的长文件名。其实,集成化的软件如BioEdit和DNAMA 也具有此功能。 b. 载体序列的去除 许多数据库中收集了常用的测序载体序列,如:

蛋白质序列分析常用网站-2018.8

蛋白质序列分析 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。 基本理化性质分析:https://https://www.360docs.net/doc/061428819.html,/protparam/ 信号肽预测:http://www.cbs.dtu.dk/services/SignalP/ 在生物内,蛋白质的合成场所与功能场所常被一层或多层细胞膜所隔开,这样就涉及到蛋白质的转运。合成的蛋白质只有准确地定向运行才能保证生命活动的正常进行。一般来说,蛋白质的定位的信息存在于该蛋白质自身结构中,并通过与膜上特殊的受体相互作用而得以表达。在起始密码子之后,有一段编码疏水性氨基酸序列的RNA片段,这个氨基酸序列就这个氨基酸序列就是信号肽序列。含有信号肽的蛋白质一般都是分泌到细胞外,可能作为重要的细胞因子起作用,从而具有潜在的应用价值。 糖基化位点预测:http://www.cbs.dtu.dk/services/Net NGlyc/ 跨膜区分析:TMORED 蛋白质序列含有跨膜区提示它可能作为膜受体起作用,也可能是定位于膜的锚定蛋白或者离子通道蛋白等,从而,含有跨膜区的蛋白质往往和细胞的功能状态密切相关。 蛋白酶的结构功能进行预测和分析:http://smart.embl-heidelberg.de/ 同源建模分析:https://www.360docs.net/doc/061428819.html,//SWISS-MODEL.html 二级结构及折叠类预测:Predictprotein 特殊结构或结构预测:COILS MacStripe 疏水性分析:ExPASy的ProtScale 基于序列同源性分析的蛋白质功能预测: 至少有80个氨基酸长度范围内具有25%以上序列一致性才提示可能的显著性意义。类似于核酸序列同源性分析,用户直接将待分析的蛋白质序列输入NCBI/BLAST(https://www.360docs.net/doc/061428819.html,/blast),选择程序BLASTP就可网上分析。 基于motif、结构位点、结构功能域数据库的蛋白质功能预测 蛋白质的磷酸化与糖基化对蛋白质的功能影响很大,所以对其的分析也是生物信息学的一个部分。同时,分子进化方面的研究表明,蛋白质的不同区域具有

《蛋白质序列分析》word版

7 蛋白质序列分析与功能预测 (1) 7.1 引言 (1) 7.2 功能描述 (2) 7.2.1 基因本体 (3) 7.2.2 利用GO术语的功能注释 (7) 7.3 基于序列相似性的功能预测 (8) 7.3.1 基本预测方法 (10) 7.3.2 分析与讨论 (14) 7.3.3 蛋白质家族与序列的相似性聚类 (15) 7.4 基于蛋白质信号的功能预测 (17) 7.4.1 蛋白质信号 (17) 7.4.2 信号的描述 (22) 7.4.3 蛋白质模体、结构域和家族数据库 (28) 7.4.4 分析与讨论 (34) 7.5 基于蛋白质序列特征的功能预测 (35) 7.5.1 序列的理化性质 (35) 7.5.2 跨膜与卷曲螺旋分析 (37) 7.5.3 蛋白质翻译后修饰分析 (40) 7.5.4 亚细胞定位预测 (42) 7.5.5 基于序列特征的蛋白质分子功能预测 (44) 7.6 功能预测的其他思路 (45) 参考书目 (47)

7 蛋白质序列分析与功能预测 DNA经常被比喻为构筑生命的蓝图,相应地,蛋白质就是构筑生命体最主要的材料。蛋白质在生命过程中发挥着巨大的作用,它们执行着大部分生物功能。这些功能包括结构功能(如细胞骨架中的肌动蛋白)、酶功能(很多蛋白质可以催化生物反应,常见的蛋白质催化功能是使生物反应加速一定数量级),以及在细胞内或细胞间转运物质的功能。大量序列被测定带给了生物信息学家一个挑战,那就是如何从这些序列中找到基因,然后给基因加上注释,即给这些基因提供关于它们性质或功能的简单描述。 7.1 引言 继基因组结构注释(genome structural annotation)完成后,阐明基因组所表达的全部蛋白质的表达规律和生物功能,称为功能注释(functional annotation),成为研究的热点,是基因组注释(genome annotation)的重要组成部分。据Friedberg I称,2006年时,GeneBack中约有~40%的序列被标注为“unknown function”。由于蛋白质是生命活动的最终执行者,并且蛋白质功能的阐明将有助于疾病机理的研究并最终帮助人类进行药物设计与疾病治疗。因此,对基因产物——蛋白质的功能预测(protein functional prediction)是后基因组时代的一项重要任务。 尽管新的实验技术例如DNA芯片、酵母双杂交系统、RNA干扰以及大范围地、系统地缺失突变(knock-out)取得了巨大的进展,但这些方法都需要各种特定的设备,且价格昂贵、操作繁琐,成本高、周期长。由于实验同时会受到一些不可预知的环境以及人为因素的影响,其所得结果的可信度也需加以考虑。种种这些因素制约了蛋白质大规模分析的开展。目前,实验方法阐明蛋白质功能尚远远落后于序列的测定。面对呈指数增长的蛋白质序列数据,采用生物信息学的方法和手段来阐明大批量蛋白质序列的生物学功能具有非常重大的意义。 可采用生物信息学方法对蛋白质序列的功能进行预测的本质在于,承担核心生物功能的相当一部分基因被所有生物物种共享,从而可以利用某些特定物种中基因所编码的少量蛋白质序列(目前占已知蛋白质序列总数的5%)的已知生物功能信息(知识)对其他物种的大量蛋白质序列进行功能注释。Hawkins T于2006年在“Protein Science”上发表文章,将蛋白质序列分析和功能预测方法大致分为四类:

相关文档
最新文档