蛋白质功能预测方法概述

蛋白质功能预测方法概述
蛋白质功能预测方法概述

蛋白质功能预测方法概述

摘要: 蛋白质是生物体内最必需也是最通用的大分子,对它们功能的认识对于科学领域和农业领域的发展有着至关重要的作用。随着后基因组时代的发展,NCBI 数据库中迅速涌现出大量不明结构与功能的蛋白质序列,这些蛋白质序列甚至一跃成了研究的热点。近几十年来蛋白质功能预测的方法不断被完善。由最初的仅基于蛋白质序列或3D 结构信息的方法衍生出更多的基于序列相似性、基于结构基序、基于相互作用网络等新方法,这些新型方法采用新的算法、新的研究思路和技术手段,力求得到准确性与普遍性并存,能够被广泛应用的蛋白质功能预测方法。本文综述了近年来蛋白质功能预测的方法,并将这些研究方法分类归纳,各自阐明了每类方法的优缺点。

关键词: 蛋白质功能预测方法,结构基序,相互作用网络,ESG

An Overview protein function prediction methods

Abstract: Protein is the most necessary and versatile macromolecules in vivo,researches on their functions are very

important to the fields of science and the development of the agriculture. With the development of the post - genomic

era,the NCBI database quickly emerges a large number of protein sequences of unknown structure and functions,

which even become hot research Points. In the recent decades,protein function prediction methods have been

more and more improved and developed. This article reviews the protein function prediction methods occured in recent

years,All these methods were inducted and classicicated,and their advantages and disadvantages of each methods

were illustrates respectively.

Keywords: Protein Function Prediction Methods,Structal Motif,Interaction Networks,ESG

1 引言

基因组学和蛋白质组学在过去十年的发展过程中产生了大规模的新的蛋白质序列和试

验数据,科学家为了确定这些新序列的功能借助计算机手段进行了大量的研究[1 - 2]。在过去的二十年里,人们利用计算机技术对蛋白质功能进行预测的文章发表了上千篇之多( http: / /www.ncbi.nlm.nih.gov /pubmed) ,大部分是基于序列相似性、基于结构域、基于相互作用网络等方法预测,再利用生物学知识来进行解析。本文综合阐述了迄今为止蛋白质功能预测的分类,大致可分为四类: ( 1) 基于序列相似性预测方法; ( 2) 基于蛋白质相互作用网络预测方法;( 3) 基于结构相似性预测方法; ( 4) 其他预测方法。

2 蛋白质功能

蛋白质功能对于客观环境很敏感: 给定的发挥作用的空间环境不同、规定的作用时间不同都可以使蛋白质所表现出来的功能是有差异性的。为了使功能预测的结果更加准确,Bork 等提出了一种蛋白质功能类型的分类[3],按蛋白质发挥作用的平台不同将蛋白质功能分为分子功能,细胞功能和生理功能。很明显,这三个类型不是独立存在的,而是如图2 那样等级相关的。现如今在蛋白质功能预测中最常用的是GO 分类,Gene Ontology 分类从细胞组

成、分子功能和生物学途径三方面描述蛋白质的性质与功能。分子功能是描述其分子生物学活性,如催化活性、结合活性,可以具体到腺苷酸环化酶活性或钟形受体结合活性等; 生物学途径是细胞生长和维持、信号转导过程,更狭义可描述为在嘧啶代谢或α-配糖基的运输等具体过程。所以蛋白质功能预测的最终想得到结果是: 这个新序列在细胞中充当什么

组分,在哪个生物学过程中起作用,起着什么样的作用。

图1 蛋白质功能预测方法的分类

图2 蛋白质功能类型分类

3 蛋白质功能预测的方法

蛋白质功能预测方法可粗略分为基于序列相似性预测、基于蛋白质相互作用网络预测、基于结构相似性预测和其它不依赖于相似性的预测方法。我们将分别列举近年来基于这四类方法所做的蛋白质功能预测,以及它们各自的优势与弱势。

3. 1 基于序列相似性预测蛋白质功能

基于序列相似性是较早的一种功能预测的方法,它是基于序列相似,功能相似的假说建立的。最传统的方法是对新序列进行BLAST 或PSI - BLAST搜索[4],通过产生的E 值选择与新序列高度相似的序列( 一般序列一致性要在40%以上[5]) ,由已知序列功能推断出新序列的功能。但随着研究的不断深入,这种方法被证明是不可靠的[6],因为序列同源性不等于功能一致性[7]。基于序列同源性的模型的建立过于依赖蛋白质之间的相似程度,所以只能适用于与功能已知蛋白质有很高同源性的新蛋白序列的功能预测。并且随着同源性降低,建立模型的误差增加。Hawkins[8 - 9]分别通过提取Go terms 和对Goterms评分的方法对传统的PSI - BLAST 搜索进行拓展,包括从亲缘关系较远的序列进行注释、应用新的数据挖掘工具、功能相关矩阵、得分密切相关的注释对,开发出可以通过降低分辨率来增加功能注释的普及型的方法PFP( protein function prediction) 。PFP 方法综合考虑了GO terms 评分和GO terms 与其亲代GO terms 之间的功能相关性。从而不需要精准的匹配模式或蛋白质

结构信息,只需要较弱相似序列就可以推断出新序列的功能,结果的精确度和覆盖范围比传

统的PSI - BLAST 结果高出五倍不止。由AFP - SIG 05 [10]和CASP7[11]两个高级别的比

赛结果就可以证明PFP 方法是很成功的。

图3 ESG 方法建立的序列相似图谱

Chitale[12]于09 年建立了ESG( extended similaritygroup) 方法,此方法执行迭代

序列数据库搜索并且对新序列进行GO terms 注释。注释就是给每条序列制定一个概率,这个概率是基于蛋白质序列相似图谱( 图3) 中multiple - level neighbors 的亲缘相似评分所得的。图4 中用funsim( Fundamental SimulationInstruction Method ) 对PFP、Top -PSI -BLAST、ESG 三种方法进行了对比,从图中可以看出ESG 方法所产生结果较好。图3 PSI - BLAST 搜索得到的序列相似图谱,序列Q 经过PSI - BLAST 搜索返回N 条序列,称为ESG first level,对ESG first level 进行PSI - BLAST

再返回N 条序列称为ESG second level,以此类推得到ESG multiple - level,各序列之间称为multiple -evel neighbors。

图4 根据funsim打分得到的结果准确度对比

基于序列的蛋白质功能预测考虑的是独立的蛋白质序列,未考虑蛋白质之间的相互作用。而蛋白质是通过与其它蛋白质直接或间接相互作用而执行功能的。所以要从序列预测蛋白质的功能应该将与其相互作用的蛋白质序列一同考虑在内。

3. 2 基于相互作用网络预测蛋白质功能

基于PPI( protein - protein interaction) 的预测方法主要用于从多个蛋白质序列中寻找有相互作用和关联进化的蛋白质或从PPI 数据库中提取信息,预测效果依赖于基因组数目和PPI 数据库的准确程度。由Bader 等[13]开发的Pathguide( http: / /www.pathguide. org) 提供大部分PPI 相关的数据库列表和链接,表1 列出了部分PPI 数据库。根据这些数据库中提取的蛋白质相互作用数据,人们可以构建相应的相互作用网络。在相互作用网络中,一般用节点( node) 来表示蛋白质,而连接两个节点的边( edge) 表示蛋白质之间是否存在相互作用关系。

目前,利用相互作用网络进行功能注释主要有两种方法,即直接注释方

( directannotationschemes) [14 - 16]和基于模块的方法( module -assistedschemes) [17 - 18]。

3. 2. 1 直接注释方法

Vazquez[14]等首先采用基于分割的方法( cut -based approaches) 将图论法引入蛋白质功能注释研究中。其基本思路是: 对一个未知功能蛋白质赋予某种功能,要使得注释为相同功能的蛋白质( 未注释或者已注释) 的连接数目最多。Hu[15]综合考虑了PPI 信息和序列的生物化学/物理化学特征,当未注释蛋白质与已知功能的蛋白质几乎没有序列相似

性时,也可以获得相关的PPI 信息。并应用此方法对鼠源蛋白质功能进行预测,在训练集合测试集中一阶成功率分别为69. 1% 和70. 2%。构建蛋白质相互作用网络时通常是从注释蛋白质到非注释蛋白质做一个单向的预测。而真正的生物学过程中蛋白质是有流动性的,它们之间有动态的相互作用,从而产生了一个外环境稳定但内部千变万化的框架。Chi[16]首次将蛋白质之间动态相互作用加入到了预测过程中,方法是先给未注释的蛋白质指派一个最初的功能,然后计算此蛋白质和与其相邻的蛋白质之间的最初相似性。用基于KNN 的预测算法为未注释的蛋白质预测一个新的功能,用这个新预测的功能代替最初的功能,再重新计算该蛋白质和与其相邻的蛋白质之间的相似性,在进行下一轮的计算。直到未注释的蛋白质和与其相邻的蛋白质之间的相似性达到一个稳态平衡时结束。正确定义蛋白质之间的相似性迭代法比非迭代法显示了更好的准确度和召回率,同时可行性和有效性也得到了提高。

3. 2. 2 基于模块预测方法

Rives[17]等人就提出一个假设,认为同一个模块中的蛋白质成员更加可能拥有最短的路径距离谱( path distance profiles) 。根据这个假设,所有短路径的蛋白质对聚成一类。这个方法实施比较复杂,很难在整个基因组水平上的网络上进行分析,但在一些子网络中它已经得到很好的应用,比如对酿酒酵母的核蛋白的相互作用网络分析。Janusz[18]整合

了发育和癌症研究项目的基因表达谱和蛋白质相互作用图谱提供了一个有系统和全局代表性的组合网络模块。并开发了一种新方法Network -GuidedForests,该方法是以间接网络域相关的决策树来确定网络模块的生物或临床结果,由此产生的网络签名证明在不同样本队列之间的稳健性和捕捉发展与疾病的因果关系。

3. 3 基于结构信息预测

最早基于结构进行蛋白功能注释的方法是找到一个结构相似的蛋白,将其功能转移给前一个蛋白,如在蛋白序列中的情况一样。然而这种方法并不能够单独被用来预测蛋白质功能,因为它的准确性只有20% - 50%[19],结果是不足以令人采纳的。所以从3D 结构衍生了多种其他的可能预测蛋白质功能的方法结构基序是存在于几个相关蛋白质结构中的一

个蛋白的三维亚结构,它与功能息息相关。最为大家所熟知的结构基序是在许多DNA 结合蛋白中均能找到的螺旋-转角-螺旋( HTH) 基序。Leo C等[21]对人类TRIM 家族中TRIM20 ( pyrin) 和TRIM21 两个与疾病相关的蛋白进行了研究,阐明了C 末端PRYSPRY 区域是如何影响TRIM 的功能。鉴于大部分蛋白质功能研究都是针对特异性蛋白这

一状况,Akira R[22]提取了PDB 数据库中所有蛋白质聚类得到复合基序( 如图6) ,将复

合基序分组,根据各组的复合基序的功能特征来确定蛋白质的功能。这一方法的不局限性是蛋白质功能预测的一大突破。

Hoffmann[23]开发了一种衡量结合口袋之间相似性的新方法。以原子云代表每一个口袋,通过比对三维空间中的原子来评估两个口袋之间的相似性,并用convolution kernel 比较所得到的结果信息。这样即使相关蛋白不共享序列和整体结构相似性,口袋比对也是可行的。并用此方法来识别已知的结合口袋的配体结合的相关性,为今后在这一领域的工作提供了新的标杆。Hermann[24]预测Tm0396 的酶功能活性发现潜在的物的高能量结构对接模式可能成为酶功能预测的有用工具。现今比较成熟的结构预测方法有两种: 一种是实验测量,包括用X 射线衍射和核磁共振成像; 一种是理论预测,利用计算机根据理论和已知的氨基

酸序列等信息来预测,方法包括同源结构模拟、折叠辨识模拟和基于第一性原理的从头计算。虽然现在有很多蛋白质功能预测软件( PSIPred、PredictProtein等) ,CASP 会议也一直在致力于发现和发展蛋白质结构预测的高精尖方法。但是PDB 和SCOP 等蛋白质结构数据库中的数据量仍旧远远小于Uniprot、NCBI 等序列数据库。

3. 4 其他预测方法

Liao[25]建立了一种不依赖于序列和结构相似性来预测蛋白质功能的新方法。选择酵母中已知的实验测定的1377 个蛋白质。首先将它们由短到长重新排列成一个连贯的数据集。设定一个连贯序列集m( 可随机取值) ,将氨基酸序列集转换为profile编码( 每个氨基酸在1377 个总数中出现的频率) 数据集。然后采用最邻近聚类算法对序列集进行测试。选择步长为5,设定m 值,得到的结果30% m作为测试集,剩余作为训练集。这个方法是很多与

已知功能序列相似性很小的新蛋白质序列得到预测,同时也增加了从序列预测功能的普及性。Yang[26]从序列的数字特征预测蛋白质功能。首先从序列中提取疏水性、极性与电荷特性三个数字特征,并提出序列功能可能性。然后综合特征向量和功能可能性,应用k -最近邻居算法( KNN) 进行蛋白质的功能预测。该方法综合考虑了局部和全局信息,预测结果比基于序列相似性的方法更有效。

4 总结

近几十年来,蛋白质功能预测的方法不断被充实完善。本文仅指列出了部分有代表性的常用的蛋白质功能预测方法,但其中支持各个方法的算法本文就不多做陈述。后基因组时代的快速发展给我们带来机遇的同时也带来了巨大的挑战,蛋白质序列与结构的悬殊差异使我们不得不加快透彻分析序列的脚步,发展从序列预测蛋白质结构与功能的普遍性与准确性并存的方法就变得刻不容缓。而目前所提出的基于序列预测的方法还远远不能满足科学发

展的要求。

参考文献( References)

[1]T. Hawkins ,M.Chitale and D.Kihara. New paradigm in protein

function prediction for large scaleomics analysis[J].Mol.Biosyst,

2008,4

: 223 –231

[2]A. Al -Shahib,R.Breitling,DR. Gilbert. Predicting protein

function by machine learning on amino acid sequences –a critical

evaluation[J]. BMC Genomics,2007,7

8: 1 –10.

[3]P. Bork,T.Dandekar,Y. Diaz -Lazcoz,F.Eisenhaber,M.

Huynen and YP. Yuan. Predicting Function: From Genes to Genomes

and Back [J]. J.Mol.Biol,1998,283: 707 - 725.

[4]SF Altschul,TL. Madden,AA.Schffer,JH. Zhang,Z. Zhang,

W. Miller and DJ.Lipman. Gapped BLAST and PSI - BLAST: a

new generation of protein database search programs[J]. Nucleic

Acids Res,1997,25: 3389 –3402.

[5]B.Rost,J . Liu,R. Nair,KO.Wrzeszczynski and Y.Ofran. Automatic

prediction of protein function [J]. Cellular and Molecular

Life Sciences,2003,6

0: 2637 - 2650.

[6]B.Rost. Enzyme function less conserved than anticipated [J]. J

MolBiol,2002,318: 595 –608.

[7]B. Louie,R. Higdon,E.Kolker. A statistical model of protein

sequence similarity and function similarity reveals overly - specific

function prediction [J].PLoS One ,2009,4

: e7546.

[8]T. Hawkins,S.Luban,D.Kihara. Enhanced automated function

prediction using distantly related sequences and contextual association

by PFP[J]. Protein Sci.,2006,1

5: 1550 –1556.

[9]T. Hawkins,M.Chitale,S.Luban,D.Kihara. PFP: automatedprediction of gene ontology functional annotations with confidence

scores using protein sequence data[J]. Proteins,2009,7

4: 556 –

582.

[10]I. Friedberg,M.Jambon,A.Godzik. New avenues in protein

function prediction[J]. Protein Sci,2006,1

5: 1527 –1529.

[11]G. Lopez,A.Rojas,M. Tress,A. Valencia. Assessment of

predictions submitted for the CASP7 function prediction category

[J]. Proteins,2007,6

9: 165 –174.

[12]M.Chitale,T. Hawkins,C. Park and D.Kihara. ESG: extended

similarity group method for automated protein function

prediction[J]. BMC,2009,14: 1739 - 1745.

[13]GD. Bader,MP. Cary,C. Sander.Pathguide: a pathway resource list[J]. Nucleic Acids Res,2006,3

4: D504 - 506.

[14]Chua HN,Sung WK,Wong L. Exploiting indirect neighbours and topological weight to predict protein function from protein - protein interactions[J]. Bioinformatics,2006,22: 1623.

蛋白质结构解析的方法对比综述 (1)

蛋白质结构解析的方法对比综述 工程硕士李瑾 摘要:到目前为止,蛋白质结构解析的方法主要是两种,x射线衍射法和NMR法,这两种方法各有优点和不足。 关键词:x射线衍射法 NMR法 到目前为止,蛋白质结构解析的方法主要是两种,x射线衍射法和NMR法。其中X射线的方法产生的更早,也更加的成熟,解析的数量也更多,第一个解析的蛋白的结构,就是用x晶体衍射的方法解析的。而NMR方法则是在90年代才成熟并发展起来的。这两种方法各有优点和不足[1]。 首先是X射线晶体衍射法。该方法的前提是要得到蛋白质的晶体。通常是将表达目的蛋白的基因经PCR扩增后克隆到一种表达载体中,然后转入大肠杆菌中诱导表达,目的蛋白提纯之后摸索结晶条件,等拿到晶体之后,将晶体进行x射线衍射,收集衍射图谱,通过一系列的计算,得到蛋白质的原子结构[2]。 x射线晶体衍射法的优点是:速度快,通常只要拿到晶体,最快当天就能得出结构,另外不受肽链大小限制,无论是多大分子量的蛋白质或者RNA、DNA,甚至是结合多种小分子的复合体,只要能够结晶就能够得到其原子结构。所以x射线方法解析蛋白的关键是摸索蛋白结晶的条件。该方法得到的是蛋白质分子在晶体状态下的空间结构,这种结构与蛋白质分子在生物细胞内的本来结构有较大的差别。晶体中的蛋白质分子相互间是有规律地、紧密地排列在一起的,运动性较差;而自然界的生物细胞中的蛋白质分子则是处于一种溶液状态,周围是水分子和其他的生物分子,具有很好的运动性。而且,有些蛋白质只能稳定地存在于溶液状态,无法结晶[2]。 核磁共振NMR(nuclear magnetic resonance)现象很早就被科研人员观察到了,但将这种方法用来解析蛋白质结构,却是近一二十年的事情。NMR法具体原理是对水溶液中的蛋白质样品测定一系列不同的二维核磁共振图谱,然后根据已确定的蛋白质分子的一级结构,通过对各种二维核磁共振图谱的比较和解析,在图谱上找到各个序列号氨基酸上的各种氢原子所对应的峰。有了这些被指认的峰,就可以根据这些峰在核磁共振谱图上所呈现的相互之间的关系得到它们所对应的氢原子之间的距离。[3]可以想象,正是因为蛋白质分子具有空间结构,在序列上相差甚远的两个氨基酸有可能在空间距离上是很近的,它们所含的氢原子所对应的NMR峰之间就会有相关信号出现[4] 。通常,如果两个氢原子之间距离小于0.5纳米的话,它们之间就会有相关信号出现。一个由几十个氨基酸残基组成的蛋白质分子可以得到几百个甚至几千个这样与距离有关的信号,按照信号的强弱把它们转换成对应的氢原子之间的距离,然后运用计算机程序根据所得到的距离条件模拟出该蛋白质分子的空间结构。该结构既要满足从核磁共振图谱上得到的所有距离条件,还要满足化学上有关原子与原子结合的一些基本限制条件,如原子间的化学键长、键角和原子半径等[4]。 NMR解析蛋白结构常规步骤如下:首先通过基因工程的方法,得到提纯的目的蛋白,在蛋白质稳定的条件下,将未聚合,而且折叠良好的蛋白样品(通常是1mM-3mM,500ul,PH6-7的PBS)装入核磁管中,放入核磁谱仪中,然后由写好的程序控制谱仪,发出一系列的电磁波,激发蛋白中的H、13N、13C原子,等电磁波发射完毕,再收集受激发的原子所放出的“能量”,通过收集数据、谱图处理、电脑计算从而得到蛋白的原子结构[5] [6]。 用NMR研究蛋白质结构的方法,可以在溶液状态进行研究,得到的是蛋白质分子在溶液中的结构,这更接近于蛋白质在生物细胞中的自然状态[7]。此外,通过改变溶液的性质,还可以模拟出生物细胞内的各种生理条件,即蛋白质分子所处的各种环境,以观察这些周围环境的变化对蛋白质分子空间结构的影响。在溶液环境中,蛋白质分子具有与自然环境中类

蛋白质结构分析原理及工具-文献综述

蛋白质结构分析原理及工具 (南京农业大学生命科学学院生命基地111班) 摘要:本文主要从相似性检测、一级结构、二级结构、三维结构、跨膜域等方面从原理到方法再到工具,系统地介绍了蛋白质结构分析的常用方法。文章侧重于工具的列举,并没有对原理和方法做详细的介绍。文章还列举了蛋白质分析中常用的数据库。 关键词:蛋白质;结构预测;跨膜域;保守结构域 1 蛋白质相似性检测 蛋白质数据库。由一个物种分化而来的不同序列倾向于有相似的结构和功能。物种分化后形成的同源序列称直系同源,它们通常具有相似的功能;由基因复制而来的序列称为旁系同源,它们通常有不同的功能[1]。因此,推测全新蛋白质功能的第一步是将它的序列与进化上相关的已知结构和功能的蛋白质序列比较。表一列出了常用的蛋白质序列数据库和它们的特点。 表一常用蛋白质数据库 网址可能有更新 氨基酸替代模型。进化过程中,一种氨基酸残基会有向另一种氨基酸残基变化的倾向。氨基酸替代模型可用来估计氨基酸替换的速率。目前常用的替代模型有Point Accepted Mutation (PAM)矩阵、BLOck SUbstitution Matrix (BLOSUM)矩阵[2]、JTT模型[3]。 序列相似性搜索工具。序列相似性搜索又分为成对序列相似性搜索和多序列相似性搜索。成对序列相似性搜索通过搜索序列数据库从而找到与查询序列相似的序列。分为局部联配和全局联配。常用的局部联配工具有BLAST和SSEARCH,它们使用了Smith-Waterman 算法。全局联配工具有FASTA和GGSEARCH,基于Needleman-Wunsch算法。多序列相似性搜索常用于构建系统发育树,这里不阐述。表二列举了常用的成对序列相似性比对搜索工具

蛋白质结构预测在线软件

蛋白质预测在线分析常用软件推荐 蛋白质预测分析网址集锦 物理性质预测: Compute PI/MW http://expaxy.hcuge.ch/ch2d/pi-tool.html Peptidemasshttp://expaxy.hcuge.ch/sprot/peptide-mass.html TGREASE ftp://https://www.360docs.net/doc/5b12267608.html,/pub/fasta/ SAPS http://ulrec3.unil.ch/software/SAPS_form.html 基于组成的蛋白质识别预测 AACompIdent http://expaxy.hcuge.ch ... htmlAACompSim http://expaxy.hcuge.ch/ch2d/aacsim.html PROPSEARCH http://www.e mbl-heidelberg.de/prs.html 二级结构和折叠类预测 nnpredict https://www.360docs.net/doc/5b12267608.html,/~nomi/nnpredict Predictprotein http://www.embl-heidel ... protein/SOPMA http://www.ibcp.fr/predict.html SSPRED http://www.embl-heidel ... prd_info.html 特殊结构或结构预测 COILS http://ulrec3.unil.ch/ ... ILS_form.html MacStripe https://www.360docs.net/doc/5b12267608.html,/ ... acstripe.html 与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。 由NCBI检索蛋白质序列 可联网到:“http://www.ncbi.nlm.ni ... gi?db=protein”进行检索。 利用SRS系统从EMBL检索蛋白质序列 联网到:https://www.360docs.net/doc/5b12267608.html,/”,可利用EMBL的SRS系统进行蛋白质序列的检索。 通过EMAIL进行序列检索 当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。 蛋白质基本性质分析 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的

蛋白质结构预测和序列分析软件

蛋白质结构预测和序列分析软件蛋白质数据库及蛋白质序列分析 第一节、蛋白质数据库介绍 一、蛋白质一级数据库 1、 SWISS-PROT 数据库 SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据 库,目前这二个数据库在EMBL和GenBank数据库上均建 立了镜像 (mirror) 站点。 SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序 列,这些序列经过检验和注释。该数据库主要由日内瓦大 学医学生物化学系和欧洲生物信息学研究所(EBI)合作维 护。SWISS-PROT的序列数量呈直线增长。 2、TrEMBL数据库: SWISS-PROT的数据存在一个滞后问题,即 进行注释需要时间。一大批含有开放阅读 了解决这一问题,TrEMBL(Translated E 白质数据库,它包括了所有EMBL库中的 质序列数据源,但这势必导致其注释质量 3、PIR数据库: PIR数据库的数据最初是由美国国家生物医学研究基金 会(National Biomedical Research Foundation, NBRF) 收集的蛋白质序列,主要翻译自GenBank的DNA序列。 1988年,美国的NBRF、日本的JIPID(the Japanese International Protein Sequence Database日本国家蛋 白质信息数据库)、德国的MIPS(Munich Information Centre for Protein Sequences摹尼黑蛋白质序列信息 中心)合作,共同收集和维护PIR数据库。PIR根据注释 程度(质量)分为4个等级。 4、 ExPASy数据库: 目前,瑞士生物信息学研究所(Swiss I 质分析专家系统(Expert protein anal 据库。 网址:https://www.360docs.net/doc/5b12267608.html, 我国的北京大学生物信息中心(www.cbi.

蛋白质结构预测在线软件

蛋白质预测分析网址集锦? 物理性质预测:? Compute PI/MW?? ?? SAPS?? 基于组成的蛋白质识别预测? AACompIdent???PROPSEARCH?? 二级结构和折叠类预测? nnpredict?? Predictprotein??? SSPRED?? 特殊结构或结构预测? COILS?? MacStripe?? 与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。? 由NCBI检索蛋白质序列? 可联网到:“”进行检索。? 利用SRS系统从EMBL检索蛋白质序列? 联网到:”,可利用EMBL的SRS系统进行蛋白质序列的检索。? 通过EMAIL进行序列检索?

当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。? 蛋白质基本性质分析? 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。? 疏水性分析? 位于ExPASy的ProtScale程序(?)可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性,并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小(n)该参数用于估计每种氨基酸残基的平均显示尺度。? 进行蛋白质的亲/疏水性分析时,也可用一些windows下的软件如,bioedit,dnamana等。? 跨膜区分析? 有多种预测跨膜螺旋的方法,最简单的是直接,观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域,但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知

蛋白质结构预测方法综述

蛋白质结构预测方法综述 卜东波陈翔王志勇 《计算机不能做什么?》是一本好书,其中文版序言也堪称佳构。在这篇十余页的短文中,马希文教授总结了使用计算机解决实际问题的三步曲,即首先进行形式化,将领域相关的实际问题抽象转化成一个数学问题;然后分析问题的可计算性;最后进行算法设计,分析算法的时间和空间复杂度,寻找最优算法。 蛋白质空间结构预测是很有生物学意义的问题,迄今亦有很多的工作。有意思的是,其中一些典型工作恰恰是上述三步曲的绝好示例,本文即沿着这一路线作一总结,介绍于后。 1 背景知识 生物细胞种有许多蛋白质(由20余种氨基酸所形成的长链),这些大分子对于完成生物功能是至关重要的。蛋白质的空间结构往往决定了其功能,因此,如何揭示蛋白质的结构是非常重要的工作。 生物学界常常将蛋白质的结构分为4个层次:一级结构,也就是组成蛋白质的氨基酸序列;二级结构,即骨架原子间的相互作用形成的局部结构,比如alpha螺旋,beta片层和loop区等;三级结构,即二级结构在更大范围内的堆积形成的空间结构;四级结构主要描述不同亚基之间的相互作用。 经过多年努力,结构测定的实验方法得到了很好的发展,比较常用的有核磁共振和X光晶体衍射两种。然而由于实验测定比较耗时和昂贵,对于某些不易结晶的蛋白质来说不适用。相比之下,测定蛋白质氨基酸序列则比较容易。因此如果能够从一级序列推断出空间结构则是非常有意义的工作。这也就是下面的蛋白质折叠问题: 1蛋白质折叠问题(Protein Folding Problem) 输入: 蛋白质的氨基酸序列

输出: 蛋白质的空间结构 蛋白质结构预测的可行性是有坚实依据的。因为一般而言,蛋白质的空间结构是由其一级结构确定的。生化实验表明:如果在体外无任何其他物质存在的条件下,使得蛋白质去折叠,然后复性,蛋白质将立刻重新折叠回原来的空间结构,整个过程在不到1秒种内即可完成。因此有理由认为对于大部分蛋白质而言,其空间结构信息已经完全蕴涵于氨基酸序列中。从物理学的角度讲,系统的稳定状态通常是能量最小的状态,这也是蛋白质预测工作的理论基础。 2 蛋白质结构预测方法 蛋白质结构预测的方法可以分为三种: 同源性(Homology )方法:这类方法的理论依据是如果两个蛋白质的序列比较相似,则其结构也有很大可能比较相似。有工作表明,如果序列相似性高于75%,则可以使用这种方法进行粗略的预测。这类方法的优点是准确度高,缺点是只能处理和模板库中蛋白质序列相似性较高的情况。 从头计算(Ab initio ) 方法:这类方法的依据是热力学理论,即求蛋白质能量最小的状态。生物学家和物理学家等认为从原理上讲这是影响蛋白质结构的本质因素。然而由于巨大的计算量,这种方法并不实用,目前只能计算几个氨基酸形成的结构。IBM 开发的Blue Gene 超级计算机,就是要解决这个问题。 穿线法(Threading )方法:由于Ab Initio 方法目前只有理论上的意义,Homology 方法受限于待求蛋白质必需和已知模板库中某个蛋白质有较高的序列相似性,对于其他大部分蛋白质来说,有必要寻求新的方法。Threading 就此应运而生。 以上三种方法中,Ab Initio 方法不依赖于已知结构,其余两种则需要已知结构的协助。通常将蛋白质序列和其真实三级结构组织成模板库,待预测三级结构的蛋白质序列,则称之为查询序列(query sequence)。 3 蛋白质结构预测的Threading 方法 Threading 方法有三个代表性的工作:Eisenburg 基于环境串的工作、Xu Ying 的Prospetor 和Xu Jinbo 、Li Ming 的RAPTOR 。 Threading 的方法:首先取出一条模版和查询序列作序列比对(Alignment),并将模版蛋白质与查询序列匹配上的残基的空间坐标赋给查询序列上相应的残基。比对的过程是在我们设计的一个能量函数指导下进行的。根据比对结果和得到的查询序列的空间坐标,通过我们设计的能量函数,得到一个能量值。将这个操作应用到所有的模版上,取能量值最低的那条模版产生的查询序列的空间坐标为我们的预测结果。 需要指出的是,此处的能量函数却不再是热力学意义上的能量函数。它实质上是概率的负对数,即 ,我们用统计意义上的能量来代替真实的分子能量,这两者有大致相同的形式。 p E log ?=如果沿着马希文教授的观点看上述工作 ,则更有意思:Eisenburg 指出如果仅仅停留在简单地使用每个原子的空间坐标(x,y,z)来形式化表示蛋白质空间结构,则难以进一步深入研究。Eisenburg 创造性地使用环境串表示结构,从而将结构预测问题转化成序列串和环境串之间的比对问题;其后,Xu Ying 作了进一步发展,将蛋白质序列表示成一系列核(core )组成的序列,Core 和Core 之间存在相互作用。因此结构就表示成Core 的空间坐标,以及Core 之间的相互作用。在这种表示方法的基础上,Xu Ying 开发了一种求最优匹配的动态规划算法,得到了很好的结果。但是由于其较高的复杂度,在Prospetor2上不得不作了一些简化;Xu Jinbo 和Li Ming 很漂亮地解决了这个问题,将求最优匹配的过程表示成一个整数规划问题,并且证明了一些常用

蛋白质结构预测网址

蛋白质结构预测网址 物理性质预测: Compute PI/MW Peptidemass TGREASE SAPS 基于组成的蛋白质识别预测 AACompIdent PROPSEARCH 二级结构和折叠类预测 nnpredict Predictprotein SSPRED 特殊结构或结构预测 COILS MacStripe 与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。 由NCBI检索蛋白质序列 可联网到:“”进行检索。 利用SRS系统从EMBL检索蛋白质序列 联网到:”,可利用EMBL的SRS系统进行蛋白质序列的检索。 通过EMAIL进行序列检索 当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。 蛋白质基本性质分析 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。 疏水性分析 位于ExPASy的ProtScale程序()可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性,并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小(n)该参数用于估计每种氨基酸残基的平均显示尺度。 进行蛋白质的亲/疏水性分析时,也可用一些windows下的软件如, bioedit,dnamana等。 跨膜区分析 有多种预测跨膜螺旋的方法,最简单的是直接,观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域,但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知跨膜螺旋的研究而得到的。自然存在的跨膜螺旋Tmbase 数据库,可通过匿名FTP获得(),参见表一

蛋白质结构预测

实习 5 :蛋白质结构预测 学号20090***** 姓名****** 专业年级生命生技**** 实验时间2012.6.21 提交报告时间2012.6.21 实验目的: 1.学会使用GOR和HNN方法预测蛋白质二级结构 2.学会使用SWISS-MODEL进行蛋白质高级结构预测 实验内容: 1.分别用GOR和HNN方法预测蛋白质序列的二级结构,并对比异同性。 2.利用SWISS-MODEL进行蛋白质的三级结构预测,并对预测结果进行解释。 作业: 1. 搜索一条你感兴趣的蛋白质序列,分别用GOR和HNN进行二级结构预测,解释预测结果,分析两个方法结果有何异同。 答:所选用蛋白质序列为>>gi|390408302|gb|AFL70986.1| gag protein, partial [Human immunodeficiency virus] (1)GOR预测结果: 图1 图1是每个氨基酸在序列中所处的状态,可以看出序列的二级结构预测结果为: 1到9位个氨基酸为无规卷曲,10到33位氨基酸为α螺旋,34到37位为β折叠,38到45位为无规卷曲,46到49位为α螺旋,50到53位为无规卷曲,54到65为α螺旋,66到72位为无规卷曲,73到95位为α螺旋,96到101位为无规卷曲,102到108为β折叠,109到115位为无规卷曲,117位为β折叠。 图2 图2为各种结构在序列中所占的比例,其中Alpha helix占53.85%,Extended strand占11.11%,Random coil占35.04%,无他二级结构。

图3 图3为各个氨基酸在序列中的状态以及二级结构在全序列中二级结构分布情况。 (2)HNN预测: 图4 图4是每个氨基酸在序列中所处的状态,可以看出序列的二级结构预测结果为: 1到6位个氨基酸为无规卷曲,7到34位氨基酸为α螺旋,35到37位为β折叠,38位为α螺旋,39到44位为无规卷曲,45到49位为α螺旋,50到55位为无规卷曲,56到65为α螺旋,66到71位为无规卷曲,72到83位为α螺旋,84到86位为无规卷曲,87到95位为α螺旋,96到102为无规卷曲,103到108位为β折叠,108到117位为无规卷曲。 图5 图5为各种结构在序列中所占的比例,其中Alpha helix占55.56%,Extended strand占7.69%,Random coil占36.75%,无他二级结构。

蛋白质组分析word版

蛋白质组分析 蛋白质组(proteome)源于蛋白质(protein)与基因组(genome)两个词的杂合,其定义为proteins expressed by a genome,即一个基因组表达的全部蛋白质。目前认为蛋白质组的内涵是一个细胞、一类组织或一种生物的基因组所表达的全部蛋白质。 蛋白质组学(proteomics)是研究蛋白质组的一门新兴学科,旨在阐明生物体全部蛋白质的表达模式及功能模式。蛋白质化学着重于单一蛋白质结构、功能的研究,例如某一种蛋白质或蛋白质亚基的全序列分析,三维立体结构的确定,这样的结构如何执行功能、在生理上所扮演的角色,以及代谢的生化机制等。蛋白质组学则是研究多种蛋白质组成的复杂系統。Proteomics的字尾“-omics”的意思是“组学”,代表对生物、生命体系研究工作方式的重新定义,也就是说,蛋白质组学是对基因组所表达的整套蛋白质的分析,其研究对象是多蛋白质混合物的“系统”行为,而不是“单一组成”的行为。它通过对一个大系统中包含的所有蛋白质进行分离、鉴定、表征和定量,提供关于该系统准确和全面的数据和信息。 蛋白质组与基因组 通常,一个细胞中表达两类基因:①必须功能蛋白质的基因;②行使细胞专一性功能蛋白质的基因。因此,一种生物有一个基因组,但有许多蛋白质组。因此,蛋白质组与基因组在内涵上有很大的不同,主要表现在以下四个方面: (1)蛋白质组具有多样性 图11.1 基因以多种mRNA形式剪接的示意图 EXON:外显子,真核细胞基因DNA中的编码序列。这样的序列可转录为RNA并进而翻译为蛋白质。 P代表磷酸化,sugar代表糖基化,lipid代表脂肪酰化,Ub代表泛素化[3]。 (2)在蛋白质组的研究中,时间和空间的影响都不可忽视 (3)蛋白质间主要以相互作用的形式参与生命活动 (4)蛋白质组研究对技术的依赖性和要求远远超过基因组学 蛋白质组学研究对生物分析化学提出的挑战 表11.1 目前蛋白质组学分析中使用的分离与鉴定技术[6-12] 技术是否需要 标记 是否可 用于 可测定的蛋白质 分子量范围 动态范围 可分离的 蛋白点数 方法的适用范围

蛋白质功能-结构-相互作用预测网站工具合集

蛋白质组学 蛋白质是生物体的重要组成部分,参与几乎所有生理和细胞代谢过程。此外,与基因组学和转录组学比较,对一个细胞或组织中表达的所有蛋白质,及其修饰和相互作用的大规模研究称为蛋白质组学。 蛋白质组学通常被认为是在基因组学和转录组学之后,生物系统研究的下一步。然而,蛋白质组的研究远比基因组学复杂,这是由于蛋白质内在的复杂特点,如蛋白质各种各样的翻译后修饰所决定的。并且,研究基因组学的技术要比研究蛋白质组学的技术强得多,虽然在蛋白质组学研究中,质谱技术的研究已取得了一些进展。 尽管存在方法上的挑战,蛋白质组学正在迅速发展,并且对癌症的临床诊断和疾病治疗做出了重要贡献。几项研究鉴定出了一些蛋白质在乳腺癌、卵巢癌、前列腺癌和食道癌中表达变化。例如,通过蛋白质组学技术,人们可以在患者血液中明确鉴定出肿瘤标志物。表1列出了更多的蛋白质组学技术用于研究癌症的例子。 另外,高尔基体功能复杂。最新研究表明,它除了参与蛋白加工外,还能参与细胞分化及细胞间信号传导的过程,并在凋亡中扮演重要角色,其功能障碍也许和肿瘤的发生、发展有某种联系。根据人类基因组研究,约1000多种人类高尔基体蛋白质中仅有500~600种得到了鉴定,建立一条关于高尔基体蛋白质组成的技术路线将有助于其功能的深入研究。 蛋白质组学是一种有效的研究方法,特别是随着亚细胞器蛋白质组学技术的迅猛发展,使高尔基体的全面研究变为可能。因此研究人员希望能以胃癌细胞中的高尔基体为研究对象,通过亚细胞器蛋白质组学方法,建立胃癌细胞中高尔基体的蛋白质组方法学。 研究人员采用蔗糖密度梯度的超速离心方法分离纯化高尔基体,双向凝胶电泳(2-DE)分离高尔基体蛋白质,用ImageMaster 2D软件分析所得图谱,基质辅助激光解吸离子化飞行时间质谱(MALDI-TOF MS)鉴定蛋白质点等一系列亚细胞器蛋白质组学方法建立了胃癌细胞内高尔基体的蛋白图谱。 最后,人们根据分离出的纯度较高的高尔基体建立了分辨率和重复性均较好的双向电泳图谱,运用质谱技术鉴定出12个蛋白质,包括蛋白合成相关蛋白、膜融合蛋白、调节蛋白、凋亡相关蛋白、运输蛋白和细胞增殖分化相关蛋白。通过亚细胞器分离纯化、双向电泳的蛋白分离及MALDI-TOF MS蛋白鉴定分析,研究人员首次成功建立了胃癌细胞SGC7901中高尔基体的蛋白质组学技术路线。 3.1 蛋白质功能预测工具 也许生物信息学方法在癌症研究中最常用的就是基因功能预测方法,但是这些数据库只存储了基因组的大约一半基因的功能。为了在微阵列资料基础上完成功能性的富集分析,基因簇的功能注解是非常重要的。近几年生物学家研发了一些基因功能预测的方法,这些方法旨在超越传统的BLAST搜索来预测基因的功能。基因功能预测可以以氨基酸序列、三级结构、与之相互作用的配体、相互作用过程或基因的表达方式为基础。其中最重要的是基于氨基酸序列的分析,因为这种方法适合于微阵列分析的全部基因。 在表3中,前三项列举了三种同源搜索方法。FASTA方法虽然应用还不太广泛,但它要优于BLAST,或者至少相当。FASTA程序是第一个使用的数据库相似性搜索程序。为了达到较高的敏感程度,程序引用取代矩阵实行局部比对以获得最佳搜索。美国弗吉尼亚大学可以提供这项程序的地方版本,当然数据库搜索结果依赖于要搜索的数据库序列。如果最近的序列数据库版本在弗吉尼亚大学不能获得,那么就最好试一下京都大学(Kyoto University)的KEGG站点。PSI-BLAST(位点特异性反复BLAST)是BLAST的转化版本,PSI-BLAST的特色是每次用profile 搜索数据库后再利用搜索的结果重新构建profile,然后用新的profile再次搜索数据库,如此反复直至没有新的结果产生为止。PSI-BLAST先用带空位的BLAST搜索数据库,将获得的序列通过多序列比对来构建第一个profile。PSI-BLAST自然地拓展了BLAST方法,能寻找蛋白质序列中的隐含模式,有研究表明这种方法可以有效地找到很多序列差异较大而结构功能相似的相关蛋白,所以它比BLAST和FASTA有更好的敏感性。PSI-BLAST服务可以

蛋白质生信分析

蛋白质生物信息分析 基本性质分析: https://www.360docs.net/doc/5b12267608.html,/protparam/ 参考文献:Gasteiger E., Hoogland C., Gattiker A., Duvaud S., Wilkins M.R., Appel R.D., Bairoch A.; Protein Identification and Analysis Tools on the ExP ASy Server; (In) John M. Walker (ed): The Proteomics Protocols Handbook, Humana Press (2005). pp. 571-607 翻译后修饰: 信号肽预测http://www.cbs.dtu.dk/services/SignalP-3.0/ 残基磷酸化预测:http://www.cbs.dtu.dk/services/NetPhos/ 跨膜结构预测:http://www.cbs.dtu.dk/services/TMHMM-2.0/ http://bp.nuap.nagoya-u.ac.jp/sosui/ http://www.sbc.su.se/~miklos/DAS 亚细胞定位:http://www.cbs.dtu.dk/services/TargetP/ http://psort.hgc.jp/ 1一级结构分析:https://www.360docs.net/doc/5b12267608.html,/protscale/ 1二级结构分析:http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_sopma.html Significant improvement in protein secondary structure prediction by consensus prediction from multiple alignments., Cabios (1995) 11, 681-684 Network Protein Sequence Analysis TIBS 2000 March V ol. 25, No 3 [291]:147-150 1二级结构预测:http://www.cbs.dtu.dk/services/CPHmodels/ CPHmodels-3.0 - Remote homology modeling using structure guided sequence profiles Nielsen M., Lundegaard C., Lund O., Petersen TN Nucleic Acids Research, 2010, Vol. 38, doi:10.1093/nar/gkq535 View the abstract. CPHmodels 2.0: X3M a Computer Program to Extract 3D Models. O. Lund, M. Nielsen, C. Lundegaard, P. Worning

蛋白质结构与功能的生物信息学研究

实验名称:蛋白质结构与功能的生物信息学研究 实验目的:1.掌握运用BLAST工具对指定蛋白质的氨基酸序列同源性搜索的方法。 2.掌握用不同的工具分析蛋白质的氨基酸序列的基本性质 3掌握蛋白质的氨基酸序列进行三维结构的分析 4.熟悉对蛋白质的氨基酸序列所代表蛋白的修饰情况、所参与的 代谢途径、相互作用的蛋白,以及与疾病的相关性的分析。实验方法和流程: 一、同源性搜索 同源性从分子水平讲则是指两个核酸分子的核苷酸序列或两个蛋白质分子的氨基酸序列间的相似程度。BLAST工具能对生物不同蛋白质的氨基酸序列或不同的基因的DNA序列极性比对,并从相应数据库中找到相同或相似序列。对指定的蛋白质的氨基酸序列进行同源性搜索步骤如下: ↓ 登录网址https://www.360docs.net/doc/5b12267608.html,/blast/ ↓ 输入序列后,运行blast工具 ↓ 序列比对的图形结果显示

序列比对的图形结果:用相似性区段(Hit)覆盖输入序列的范围判断两个序列 的相似性。如果图形中包含低得分的颜色(主要是红色) 区段,表明两序列的并非完全匹配。 ↓ 匹配序列列表及得分

各序列得分 可选择不同的比对工具 备注: Clustal是一款用来对()的软件。可以用来发现特征序列,进行蛋白分类,证明序列间的同源性,帮助预测新序列二级结构与三级结构,确定PCR引物,以及 在分子进化分析方面均有很大帮助。Clustal包括Clustalx和Clustalw(前者是 图形化界面版本后者是命令界面),是生物信息学常用的多序列比对工具。 该序列的比对结果有100条,按得分降序排列,其中最大得分2373,最小得分 分为1195. ↓ 详细的比对序列的排列情况 第一个匹配 序列 第一个序列的匹配率为100% Score表示打分矩阵计算出来的值,由搜索算法决定的,值越大说明匹配程度

蛋白质结构与功能的关系

蛋白质结构与功能的关系 专业:植物学 摘要:蛋白质特定的功能都是由其特定的构象所决定的,各种蛋白质特定的构象又与其一级结构密切相关。天然蛋白质的构象一旦发生变化,必然会影响到它的生物活性。由于蛋白质的构象的变化引起蛋白质功能变化,可能导致蛋白质构象紊乱症,当然也能引起生物体对环境的适应性增强。而分子模拟技术为蛋白质的研究提供了一种崭新的手段。在理论上解决了结构预测和功能分析以及蛋白质工程实施方面所面临的难题。它在蛋白质的结构预测和模建工作中占有举足轻重的地位,实现了生物技术与计算机技术的完美结合。 关键词:蛋白质的结构、功能;折叠/功能关系;蛋白质构象紊乱症;分子模拟技术;同源建模 RNase是由124个氨基酸残基组成的单肽链,分子中 8 个Cys的-SH构成4对二硫键,形成具有一定空间构象的蛋白质分子。在蛋白质变性剂和一些还原剂存在下,酶分子中的二硫键全部被还原,酶的空间结构破坏,肽链完全伸展,酶的催化活性完全丧失。当用透析的方法除去变性剂和巯基乙醇后,发现酶大部分活性恢复,所有的二硫键准确无误地恢复原来状态。若用其他的方法改变分子中二硫键的配对方式,酶完全丧失活性。这个实验表明,蛋白质的一级结构决定它的空间结构,而特定的空间结构是蛋白质具有生物活性的保证。前体与活性蛋白质一级结构的关系,由108个氨基酸残基构成的前胰岛素原,在合成的时候完全没有活性,当切去N-端的24个氨基酸信号肽,形成84个氨基酸的胰岛素原,胰岛素原也没活性,在包装分泌时,A、B链之间的33个氨基酸残基被切除,才形成具有活性的胰岛素。 功能不同的蛋白质总是有着不同的序列;种属来源不同而功能相同的蛋白质的一级结构,可能有某些差异,但与功能相关的结构也总是相同。若一级结构变化,蛋白质的功能可能发生很大的变化。蛋白质特定的功能都是由其特定的构象所决定的,各种蛋白质特定的构象又与其一级结构密切相关。天然蛋白质的构象一旦发生变化,必然会影响到它的生物活性。由于蛋白质的构象的变化引起蛋白质功能变化,可能导致蛋白质构象紊乱症,当然也能引起生物体对环境的适应性增强。 虽然蛋白质结构与生物功能的关系比序列与功能的关系更加紧密,但结构与功能的这种关联亦若隐若现,并不能排除折叠差别悬殊的蛋白质执行相似的功能,折叠相似的蛋白质执行差别悬殊功能的现象的存在。无奈,该领域仍不得不将100多年前Fisher提出的“锁一钥

蛋白质结构与功能的关系

蛋白质结构与功能的关系 (The relationship between protein structure and function) 摘要蛋白质特定的功能都是由其特定的构象所决定的,各种蛋白质特定的构象又与其一级结构密切相关。天然蛋白质的构象一旦发生变化,必然会影响到它的生物活性。由于蛋白质的构象的变化引起蛋白质功能变化,可能导致蛋白质构象紊乱症,当然也能引起生物体对环境的适应性增强!现而今关于蛋白质功能研究还有待发展,一门新兴学科正在发展,血清蛋白组学,生物信息学等!本文仅就蛋白质结构与其功能关系进行粗略阐述。 关键词:蛋白质结构;折叠/功能关系;蛋白质构象紊乱症;分子伴侣 Keywords:protein structure;fold/function relationship;protein conformational disorder;molecular chaperons 虽然蛋白质结构与生物功能的关系比序列与功能的关系更加紧密,但结构与功能的这种关联亦若隐若现,并不能排除折叠差别悬殊的蛋白质执行相似的功能,折叠相似的蛋白质执行差别悬殊功能的现象的存在。无奈,该领域仍不得不将100多年前Fisher提出的“锁一钥匙”模型(“lock—key”model)和50多年前Koshand提出的诱导契合模型(induce fitmodel)作为蛋白质实现功能的理论基础。这2个略显粗糙的模型只是认为蛋白质执行功能的部位局限在结构中的一个或几个小区域内,此类区域通常是蛋白质表面上的凹洞或裂隙。这种凹洞或裂隙被称为“活性部位(active site)”或“别构部位(fallosteric site)”,凹陷部位与配体分子在空间形状和静电上互补。此外,在酶的活性部位中还存在着几个作为催化基团(catalyticgroup)的氨基酸残基。对蛋白质未来的研究应从实验基本数据的归纳和统计入手,从原始的水平上发现蛋白质的潜藏机制【1】。 蛋白质结构与功能关系的研究主要是以力求刻画蛋白质的3D结构的几何学为基础的。蛋白质结构既非规则的几何形,又非完全的无规线团(randomcoil),而是有序(α一螺旋和β一折叠)与无序(线团或环域loop)的混合体。理解蛋白质3D结构的技巧是将结构简化,只保留某种几何特征或拓扑模式,并将其数字化。探求数字中所蕴含的规律,且根据这一规律将蛋白质进行分类,再将分类的结构与蛋白质的功能进行比较,以检验蛋白质抽象结构的合理性。如果一种对蛋白质结构的简化、比较和分类能与蛋自质的功能有较好地对应关系,那么这就是一种对蛋白质结构的有价值的理解。蛋白质结构中,多种弱力(氢键、范德华力、静电相互作用、疏水相互作用、堆积力等)和可逆的二硫键使多肽链折叠成特定的构象。从某种意义上说,共价键维系了蛋白质的一级结构;主链上的氢键维系了蛋白质的二级结构;而氨基酸侧链的相互作用和二硫桥维系着蛋白质的三级结构。亚基(subunit)内部的侧链相互作用是构象稳定的基础,蛋白质链之间的侧链的相互作用是亚基组装(四级结构)的基础,而蛋白质中侧链与配体基团问的相互作用是蛋白质行使功能的基础。 牛胰核糖核酸酶(RNase)变性和复性的实验是蛋白质结构与功能关系的很好例证。蛋白质空间结构遭到破坏;,可导致蛋白质的理比性质和生物学性质的变化,这就是蛋白质变性。变性的蛋白质,只要其一级结构仍然完好,可在一定条件下恢复其空间结构,随之理化性质和生物学性质也可重现,这被称为复性。RNase是由124个氨基酸残基组成的一条肽链,分子中8个半胱氨酸的巯基构成4对二硫键,进而形成具有一定空间构象的活性蛋白质。天然RNase遇尿素和β巯基乙醇时发生变性,其分子中的氢键和4个二硫键解开,严密的空间结构遭破坏,丧失了生物学活性,但一级结构完整无损。若去除尿素和β巯基乙醇,RNase又可恢复其原有构象和生物学活性。RNase分子中的8个巯基若随机排列成二硫键可有105种方式。有活性的RNase只是其中的一种,复性时之所以选择了自

5种蛋白质分析方法

蛋白质分析方法 1、微量凯氏(Kjeldahl)定氮法 样品与浓硫酸共热。含氮有机物即分解产生氨(消化),氨又与硫酸作用,变成硫酸氨。经强碱碱化使之分解放出氨,借蒸汽将氨蒸至酸液中,根据此酸液被中和的程度可计算得样品之氮含量。若以甘氨酸为例,其反应式如下: NH2CH2COOH+3H2SO4——2CO2+3SO2+4H2O+NH3 (1) 2NH3+H2SO4——(NH4)2SO4 (2) (NH4)2SO4+2NaOH——2H2O+Na2SO4+2NH3 (3) 反应(1)、(2)在凯氏瓶内完成,反应(3)在凯氏蒸馏装置中进行。 为了加速消化,可以加入CuSO4作催化剂,K2SO4以提高溶液的沸点。收集氨可用硼酸溶液,滴定则用强酸。实验和计算方法这里从略。 计算所得结果为样品总氮量,如欲求得样品中蛋白含量,应将总氮量减去非蛋白 氮即得。如欲进一步求得样品中蛋白质的含量,即用样品中蛋白氮乘以6.25即得。 评价: 总氮-非蛋白氮=蛋白质氮——>蛋白质含量 灵敏度低,误差大,耗时长。 2、双缩脲法(Biuret法) (一)实验原理 双缩脲(NH3CONHCONH3)是两个分子脲经180℃左右加热,放出一个分子氨后得到的产物。在强碱性溶液中,双缩脲与CuSO4形成紫色络合物,称为双缩脲反应。凡具有两个酰胺基或两个直接连接的肽键,或能过一个中间碳原子相连的肽键,这类化合物都有双缩脲反应。 紫色络合物颜色的深浅与蛋白质浓度成正比,而与蛋白质分子量及氨基酸成分无关,故可用来测定蛋白质含量。测定范围为1-10mg蛋白质。干扰这一测定的物质主要有:硫酸铵、Tris 缓冲液和某些氨基酸等。 此法的优点是较快速,不同的蛋白质产生颜色的深浅相近,以及干扰物质少。主要的缺点是灵敏度差。因此双缩脲法常用于需要快速,但并不需要十分精确的蛋白质测定。(二)试剂与器材 1. 试剂: (1)标准蛋白质溶液:用标准的结晶牛血清清蛋白(BSA)或标准酪蛋白,配制成10mg/ml 的标准蛋白溶液,可用BSA浓度1mg/ml的A280为0.66来校正其纯度。如有需要,标准蛋白质还可预先用微量凯氏定氮法测定蛋白氮含量,计算出其纯度,再根据其纯度,称量配制成标准蛋白质溶液。牛血清清蛋白用H2O 或0.9%NaCl配制,酪蛋白用0.05N NaOH 配制。 (2)双缩脲试剂:称以 1.50克硫酸铜(CuSO4?5H2O)和 6.0克酒石酸钾钠(KNaC4H4O6?4H2O),用500毫升水溶解,在搅拌下加入300毫升10% NaOH溶液,用水稀释到1升,贮存于塑料瓶中(或内壁涂以石蜡的瓶中)。此试剂可长期保存。若贮存瓶中有黑色沉淀出现,则需要重新配制。

蛋白质结构与功能的生物信息学研究汇总

实验名称:蛋白质结构与功能的生物信息学研究实验目的:1.掌握运用BLAST工具对指定蛋白质的氨基酸序列同源性搜索 的方法。 2.掌握用不同的工具分析蛋白质的氨基酸序列的基本性质 3掌握蛋白质的氨基酸序列进行三维结构的分析 4.熟悉对蛋白质的氨基酸序列所代表蛋白的修饰情况、所参与的 代谢途径、相互作用的蛋白,以及与疾病的相关性的分析。 实验方法和流程: 一、同源性搜索 同源性从分子水平讲则是指两个核酸分子的核苷酸序列或两个蛋白质分子的氨基酸序列间的相似程度。BLAST工具能对生物不同蛋白质的氨基酸序列或不同的基因的DNA序列极性比对,并从相应数据库中找到相同或相似序列。对 指定的蛋白质的氨基酸序列进行同源性搜索步骤如下: ↓ 登录网址https://www.360docs.net/doc/5b12267608.html,/blast/ ↓ 输入序列后,运行blast工具 ↓ 序列比对的图形结果显示

序列比对的图形结果:用相似性区段(Hit)覆盖输入序列的范围判断两个序列 的相似性。如果图形中包含低得分的颜色(主要是红色) 区段,表明两序列的并非完全匹配。 ↓ 匹配序列列表及得分

各序列得分 可选择不同的比对工具 备注: Clustal是一款用来对()的软件。可以用来发现特征序列,进行蛋白分类,证明 序列间的同源性,帮助预测新序列二级结构与三级结构,确定PCR引物,以及 在分子进化分析方面均有很大帮助。Clustal包括Clustalx和Clustalw(前者是图 形化界面版本后者是命令界面),是生物信息学常用的多序列比对工具。 该序列的比对结果有100条,按得分降序排列,其中最大得分2373,最小得分 分为1195. ↓ 详细的比对序列的排列情况 第一个匹配 序列 第一个序列的匹配率为100% Score表示打分矩阵计算出来的值,由搜索算法决定的,值越大说明匹配程度

相关文档
最新文档