蛋白质结构比对

蛋白质结构解析的方法对比综述 (1)

蛋白质结构解析的方法对比综述工程硕士李瑾摘要：到目前为止，蛋白质结构解析的方法主要是两种，x射线衍射法和NMR法，这两种方法各有优点和不足。关键词：x射线衍射法 NMR法到目前为止，蛋白质结构解析的方法主要是两种，x射线衍射法和NMR法。其中X射线的方法产生的更早，也更加的成熟，解析的数量也更多，第一个解析的蛋白的结构，就是用x晶体衍射的方法解析的。而NMR方法则是在90年代才成熟并发展起来的。这两种方法各有优点和不足[1]。首先是X射线晶体衍射法。该方法的前提是要得到蛋白质的晶体。通常是将表达目的蛋白的基因经PCR扩增后克隆到一种表达载体中，然后转入大肠杆菌中诱导表达，目的蛋白提纯之后摸索结晶条件，等拿到晶体之后，将晶体进行x射线衍射，收集衍射图谱，通过一系列的计算，得到蛋白质的原子结构[2]。 x射线晶体衍射法的优点是：速度快，通常只要拿到晶体，最快当天就能得出结构，另外不受肽链大小限制，无论是多大分子量的蛋白质或者RNA、DNA，甚至是结合多种小分子的复合体，只要能够结晶就能够得到其原子结构。所以x射线方法解析蛋白的关键是摸索蛋白结晶的条件。该方法得到的是蛋白质分子在晶体状态下的空间结构，这种结构与蛋白质分子在生物细胞内的本来结构有较大的差别。晶体中的蛋白质分子相互间是有规律地、紧密地排列在一起的，运动性较差；而自然界的生物细胞中的蛋白质分子则是处于一种溶液状态，周围是水分子和其他的生物分子，具有很好的运动性。而且，有些蛋白质只能稳定地存在于溶液状态，无法结晶[2]。核磁共振NMR（nuclear magnetic resonance）现象很早就被科研人员观察到了，但将这种方法用来解析蛋白质结构，却是近一二十年的事情。NMR法具体原理是对水溶液中的蛋白质样品测定一系列不同的二维核磁共振图谱，然后根据已确定的蛋白质分子的一级结构，通过对各种二维核磁共振图谱的比较和解析，在图谱上找到各个序列号氨基酸上的各种氢原子所对应的峰。有了这些被指认的峰，就可以根据这些峰在核磁共振谱图上所呈现的相互之间的关系得到它们所对应的氢原子之间的距离。[3]可以想象，正是因为蛋白质分子具有空间结构，在序列上相差甚远的两个氨基酸有可能在空间距离上是很近的，它们所含的氢原子所对应的NMR峰之间就会有相关信号出现[4] 。通常，如果两个氢原子之间距离小于0.5纳米的话，它们之间就会有相关信号出现。一个由几十个氨基酸残基组成的蛋白质分子可以得到几百个甚至几千个这样与距离有关的信号，按照信号的强弱把它们转换成对应的氢原子之间的距离，然后运用计算机程序根据所得到的距离条件模拟出该蛋白质分子的空间结构。该结构既要满足从核磁共振图谱上得到的所有距离条件，还要满足化学上有关原子与原子结合的一些基本限制条件，如原子间的化学键长、键角和原子半径等[4]。 NMR解析蛋白结构常规步骤如下：首先通过基因工程的方法，得到提纯的目的蛋白，在蛋白质稳定的条件下，将未聚合，而且折叠良好的蛋白样品（通常是1mM－3mM，500ul，PH6－7的PBS）装入核磁管中，放入核磁谱仪中，然后由写好的程序控制谱仪，发出一系列的电磁波，激发蛋白中的H、13N、13C原子，等电磁波发射完毕，再收集受激发的原子所放出的“能量”，通过收集数据、谱图处理、电脑计算从而得到蛋白的原子结构[5] [6]。用NMR研究蛋白质结构的方法，可以在溶液状态进行研究，得到的是蛋白质分子在溶液中的结构，这更接近于蛋白质在生物细胞中的自然状态[7]。此外，通过改变溶液的性质，还可以模拟出生物细胞内的各种生理条件，即蛋白质分子所处的各种环境，以观察这些周围环境的变化对蛋白质分子空间结构的影响。在溶液环境中，蛋白质分子具有与自然环境中类

蛋白质结构分析原理及工具-文献综述

蛋白质结构分析原理及工具（南京农业大学生命科学学院生命基地111班）摘要：本文主要从相似性检测、一级结构、二级结构、三维结构、跨膜域等方面从原理到方法再到工具，系统地介绍了蛋白质结构分析的常用方法。文章侧重于工具的列举，并没有对原理和方法做详细的介绍。文章还列举了蛋白质分析中常用的数据库。关键词：蛋白质；结构预测；跨膜域；保守结构域 1 蛋白质相似性检测蛋白质数据库。由一个物种分化而来的不同序列倾向于有相似的结构和功能。物种分化后形成的同源序列称直系同源，它们通常具有相似的功能；由基因复制而来的序列称为旁系同源，它们通常有不同的功能[1]。因此，推测全新蛋白质功能的第一步是将它的序列与进化上相关的已知结构和功能的蛋白质序列比较。表一列出了常用的蛋白质序列数据库和它们的特点。表一常用蛋白质数据库网址可能有更新氨基酸替代模型。进化过程中，一种氨基酸残基会有向另一种氨基酸残基变化的倾向。氨基酸替代模型可用来估计氨基酸替换的速率。目前常用的替代模型有Point Accepted Mutation (PAM)矩阵、BLOck SUbstitution Matrix (BLOSUM)矩阵[2]、JTT模型[3]。序列相似性搜索工具。序列相似性搜索又分为成对序列相似性搜索和多序列相似性搜索。成对序列相似性搜索通过搜索序列数据库从而找到与查询序列相似的序列。分为局部联配和全局联配。常用的局部联配工具有BLAST和SSEARCH，它们使用了Smith-Waterman 算法。全局联配工具有FASTA和GGSEARCH，基于Needleman-Wunsch算法。多序列相似性搜索常用于构建系统发育树，这里不阐述。表二列举了常用的成对序列相似性比对搜索工具

蛋白质结构预测在线软件

蛋白质预测在线分析常用软件推荐蛋白质预测分析网址集锦物理性质预测： Compute PI/MW http://expaxy.hcuge.ch/ch2d/pi-tool.html Peptidemasshttp://expaxy.hcuge.ch/sprot/peptide-mass.html TGREASE ftp://https://www.360docs.net/doc/9a6065239.html,/pub/fasta/ SAPS http://ulrec3.unil.ch/software/SAPS_form.html 基于组成的蛋白质识别预测 AACompIdent http://expaxy.hcuge.ch ... htmlAACompSim http://expaxy.hcuge.ch/ch2d/aacsim.html PROPSEARCH http://www.e mbl-heidelberg.de/prs.html 二级结构和折叠类预测 nnpredict https://www.360docs.net/doc/9a6065239.html,/~nomi/nnpredict Predictprotein http://www.embl-heidel ... protein/SOPMA http://www.ibcp.fr/predict.html SSPRED http://www.embl-heidel ... prd_info.html 特殊结构或结构预测 COILS http://ulrec3.unil.ch/ ... ILS_form.html MacStripe https://www.360docs.net/doc/9a6065239.html,/ ... acstripe.html 与核酸序列一样，蛋白质序列的检索往往是进行相关分析的第一步，由于数据库和网络技校术的发展，蛋白序列的检索是十分方便，将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。由NCBI检索蛋白质序列可联网到：“http://www.ncbi.nlm.ni ... gi?db=protein”进行检索。利用SRS系统从EMBL检索蛋白质序列联网到：https://www.360docs.net/doc/9a6065239.html,/”，可利用EMBL的SRS系统进行蛋白质序列的检索。通过EMAIL进行序列检索当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时，可采用EMAIL方式进行序列检索。蛋白质基本性质分析蛋白质序列的基本性质分析是蛋白质序列分析的基本方面，一般包括蛋白质的氨基酸组成，分子质量，等电点，亲水性，和疏水性、信号肽，跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如，疏水性图谱可通知来预测跨膜螺旋。同时，也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标（其中最典型的

蛋白质结构预测和序列分析软件

蛋白质结构预测和序列分析软件蛋白质数据库及蛋白质序列分析第一节、蛋白质数据库介绍一、蛋白质一级数据库 1、 SWISS-PROT 数据库 SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据库，目前这二个数据库在EMBL和GenBank数据库上均建立了镜像 (mirror) 站点。 SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序列，这些序列经过检验和注释。该数据库主要由日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护。SWISS-PROT的序列数量呈直线增长。 2、TrEMBL数据库： SWISS-PROT的数据存在一个滞后问题，即进行注释需要时间。一大批含有开放阅读了解决这一问题，TrEMBL(Translated E 白质数据库，它包括了所有EMBL库中的质序列数据源，但这势必导致其注释质量 3、PIR数据库： PIR数据库的数据最初是由美国国家生物医学研究基金会（National Biomedical Research Foundation, NBRF）收集的蛋白质序列，主要翻译自GenBank的DNA序列。 1988年，美国的NBRF、日本的JIPID（the Japanese International Protein Sequence Database日本国家蛋白质信息数据库）、德国的MIPS（Munich Information Centre for Protein Sequences摹尼黑蛋白质序列信息中心）合作，共同收集和维护PIR数据库。PIR根据注释程度(质量)分为4个等级。 4、 ExPASy数据库：目前，瑞士生物信息学研究所（Swiss I 质分析专家系统（Expert protein anal 据库。网址：https://www.360docs.net/doc/9a6065239.html, 我国的北京大学生物信息中心(www.cbi.

蛋白质结构预测在线软件

蛋白质预测分析网址集锦? 物理性质预测：? Compute PI/MW?? ?? SAPS?? 基于组成的蛋白质识别预测? AACompIdent???PROPSEARCH?? 二级结构和折叠类预测? nnpredict?? Predictprotein??? SSPRED?? 特殊结构或结构预测? COILS?? MacStripe?? 与核酸序列一样，蛋白质序列的检索往往是进行相关分析的第一步，由于数据库和网络技校术的发展，蛋白序列的检索是十分方便，将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。? 由NCBI检索蛋白质序列? 可联网到：“”进行检索。? 利用SRS系统从EMBL检索蛋白质序列? 联网到：”，可利用EMBL的SRS系统进行蛋白质序列的检索。? 通过EMAIL进行序列检索?

当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时，可采用EMAIL方式进行序列检索。? 蛋白质基本性质分析? 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面，一般包括蛋白质的氨基酸组成，分子质量，等电点，亲水性，和疏水性、信号肽，跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如，疏水性图谱可通知来预测跨膜螺旋。同时，也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标（其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。? 疏水性分析? 位于ExPASy的ProtScale程序（?）可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性，并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小（n）该参数用于估计每种氨基酸残基的平均显示尺度。? 进行蛋白质的亲/疏水性分析时，也可用一些windows下的软件如，bioedit,dnamana等。? 跨膜区分析? 有多种预测跨膜螺旋的方法，最简单的是直接，观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域，但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知

蛋白质知识点整理

2 极性不带电荷7种：甘氨酸（Gly）丝氨酸（Ser）苏氨酸（Thr）半胱氨酸（Cys）酪氨酸（Tyr）天冬酰胺（Asn）谷氨酰胺（Gln） 3 极性带正电（碱性氨基酸）3种：赖氨酸（Lys）精氨酸（Arg）组氨酸（His） 4极性带负电（酸性氨基酸）2种：天冬氨酸（Asp）谷氨酸（Glu） 5 脂肪族氨基酸：丙、缬、亮、异亮、蛋、天冬、谷、赖、精、甘、丝、苏、半胱、天冬酰胺、谷氨酰胺 6 芳香族氨基酸：苯丙氨酸、酪氨酸 7 杂环族氨基酸：组氨酸、色氨酸 8 杂环亚氨基酸：脯氨酸 9 由于一个晶体中分子的有序排列通常只有在分子单元相同的情况下才能形成，许多蛋白质都能结晶这一事实，强有力地证明，即使是非常大的蛋白质，也是有特定结构的不连续的化学实体。 10 稳定一个特定蛋白质结构的最重要的作用力是非共价相互作用。蛋白质行使功能经常伴有两种或更多结构形式的相互转变。 11 蛋白质中原子的空间排列叫做蛋白质的构象。蛋白质的可能构象包括任何无须破坏共价键而达成的结构状态。具有功能和折叠构象的任何一种蛋白质称为天然蛋白质。 12 弱相互作用力是稳定蛋白质构象的主要作用力，因为它们数目众多。自由能最低的蛋白质构象（即最稳定的构象）就是弱相互作用力数目最多的一种构象。 13 蛋白质中基团是协同形成氢键的，一个氢键的形成有利于其

他氢键的形成。 14 蛋白质结构模式规则：疏水残基主要包埋在蛋白质内部，远离水；蛋白质内氢键的数目达到最大值。肽键是刚性的平面。 15 蛋白质是以氨基酸为基本单位构成的生物高分子，蛋白质分子上氨基酸的序列和由此形成的立体结构构成了蛋白质结构的多样性。蛋白质具有一级、二级、三级、四级结构，蛋白质分子的结构决定了它的功能。一级结构：蛋白质多肽链中氨基酸的排列顺序，以及二硫键的位置。二级结构（α-螺旋、β-折叠）：蛋白质分子局区域内，多肽链沿一定方向盘绕和折叠的方式。三级结构：蛋白质的二级结构基础上借助各种次级键卷曲折叠成特定的球状分子结构的空间构象。四级结构：多亚基蛋白质分子中各个具有三级结构的多肽链，以适当的方式聚合所形成的蛋白质的三维结构。 16 蛋白质中发现的α-螺旋都是右手螺旋，α-螺旋是α角蛋白中最主要的结构，它最佳地利用了内部的氢键。氨基酸序列影响α螺旋稳定性。脯氨酸和甘氨酸残基的存在阻碍α-螺旋的形成。 17 影响α-螺旋稳定性的因素：连续性的R基团带电的氨基酸残基之间的静电排斥（或吸引）；相邻的基团体积庞大；间隔三个或四个残基的氨基酸侧链之间的相互作用；脯氨酸和甘氨酸残基的存在；螺旋节段末端的氨基酸残基与α-螺旋固有的电偶极的相互作用。 18 β构象使多肽链折叠成片状结构。锯齿状的多肽链并排排列，形成一系列的片层结构，这种排列叫β-折叠片。氢键在多肽链的相

蛋白质结构解析研究进展作业

《蛋白质结构解析研究进展》一、蛋白质结构分类人类对于进化的认识及蛋白质结构相似性比较的研究使蛋白质结构分类成为可能，而且近年来取得的研究进展表明，大部分蛋白质可以成功的分入到适当数目的家族中。目前国际上流行的蛋白质结构分类数据库基本上采取两种不同的思路，一种是数据库中储存所有结构两两比较的结果；第二种思路是致力于构建非常正式的分类体系。由于所有分类方法反映了各研究小组在探究这个重要领域的不同角度，所以这些方法是同等有效的。目前，被广泛应用的四种分类标准是：手工构造的层次分类数据库SCOP，全自动分类的MMDB和FSSP，和半手工半自动的CATH。蛋白质结构自动分类问题可以被纳入机器学习的范畴，通过提取分析蛋白质结构的关键特征，构造算法来学习蕴含于大量已知结构和分类的数据中的专家经验知识，来实现对未知蛋白质结构的分类预测。目前，对蛋白质结构的不同层次分类，结果比较好的机器学习方法是：神经网络多层感知器、支持向量机和隐马尔可夫模型。支持向量机应用于分类问题最终归结于求解一个最优化问题。上世纪90 年代中期，隐马尔可夫模型与其他机器学习技术结合，高效地用于多重比对、数据挖掘和分类、结构分析和模式发现。多层感知器即误差反向传播神经网络，它是在各种人工神经网络模型中，在机器学习中应用最多且最成功的采用BP学习算法的分类器。二、蛋白质结构的确定蛋白质三维空间结构测定方法主要包括X射线晶体学分析、核磁共振波谱学技术和三维电镜重构，这三种方法都可以完整独立地在原子分辨水平上测定出蛋白质的三维空间结构。蛋白质数据库PDB中80%的蛋白质结构是由X射线衍射分析得到的，约15%的蛋白质结构是由核磁共振波谱学这种新的结构测定方法得到。 1、X射线晶体学

最经典总结-蛋白质的结构和功能

考点二蛋白质的结构和功能（5年6考） 1.蛋白质的结构及其多样性 (1)氨基酸的脱水缩合 ①过程：一个氨基酸分子中的氨基(—NH2)和另一个氨基酸分子中的羧基(—COOH)相连接，同时脱去一分子水。 ②二肽形成示例 ③肽键：连接两个氨基酸分子的化学键可表示为—CO—NH—。 (2)蛋白质的结构层次 ①肽的名称确定：一条多肽链由几个氨基酸分子构成就称为几肽。 ②H2O中各元素的来源：H来自—COOH和—NH2，O来自—COOH。 ③一条肽链上氨基数或羧基数的确定：一条肽链上至少有一个游离的氨基和一个游离的羧基，分别位于肽链的两端；其余的氨基(或羧基)在R基上。 (3)蛋白质的结构多样性与功能多样性

■助学巧记巧用“一、二、三、四、五”助记蛋白质的结构与功能 2.氨基酸脱水缩合与相关计算 (1)蛋白质相对分子质量、氨基酸数、肽链数、肽键数和失去水分子数的关系 ①肽键数＝失去水分子数＝氨基酸数－肽链数； ②蛋白质相对分子质量＝氨基酸数目×氨基酸平均相对分子质量－脱去水分子数×18。(不考虑形成二硫键) 肽链数目氨基酸数肽键数目脱去水分子数多肽链相对分子量氨基数目羧基数目1条m m－1 m－1 am－18(m－1) 至少1个至少1个n条m m－n m－n am－18(m－n) 至少n个至少n个注：氨基酸平均分子质量为a。 (2)蛋白质中游离氨基或羧基数目的计算 ①至少含有的游离氨基或羧基数＝肽链数×1。 ②游离氨基或羧基数目＝肽链数×1＋R基中含有的氨基或羧基数。

(3)利用原子守恒法计算肽链中的原子数 ①N原子数＝肽键数＋肽链数＋R基上的N原子数＝各氨基酸中N原子总数。 ②O原子数＝肽键数＋2×肽链数＋R基上的O原子数＝各氨基酸中O原子总数－脱去水分子数。 1.在分泌蛋白的合成、加工、运输和分泌的过程中，用含35S标记的氨基酸作为原料，则35S存在于图示①～④中的哪个部位？提示35S存在于氨基酸的R基上，题图中①处是R基，②处是肽键，③处连接的是肽键或羧基，④处连接的是碳原子，故35S存在于①部位。 2.蛋白质是生命活动的主要承担者，在组成细胞的有机物中含量最多。下图为有关蛋白质分子的简要概念图，请思考： (1)图示a中一定具有S吗？ (2)图示①为何种过程？该过程除产生多肽外，还会产生何类产物？ (3)图中b、c、d内容是什么？请写出b、c的化学表达式。 (4)甲硫氨酸的R基是—CH2—CH2—S—CH3，则它的分子式是________？提示(1)不一定。 (2)①为“脱水缩合”过程，该过程还可产生H2O。 (3)b、c、d依次为“氨基酸”、“肽键”、“蛋白质功能多样性”； b的化学表达式为 c的化学表达式为—CO—NH—。 (4)氨基酸共性部分为C2H4O2N，则甲硫氨酸分子式为C2＋3H4＋7O2NS即

三种分析蛋白结构域的方法

三种分析蛋白结构域(Domains)的方法 1，SMART入门，蛋白结构和功能分析 SMART介绍 SMART (a Simple Modular Architecture Research Tool) allows the identification and annotation of genetically mobile domains and the analysis of domain architectures. More than 500 domain families found in signalling, extracellular and chromatin-associated proteins are detectable. These domains are extensively annotated with respect to phyletic distributions, functional class, tertiary structures and functionally important residues. Each domain found in a non-redundant protein database as well as search parameters and taxonomic information are stored in a relational database system. User interfaces to this database allow searches for proteins containing specific combinations of domains in defined taxa. For all the details, please refer to the publications on SMART. SMART(，可以说是蛋白结构预测和功能分析的工具集合。简单点说，就是集合了一些工具，可以预测蛋白的一些二级结构。如跨膜区（Transmembrane segments），复合螺旋区（coiled coil regions），信号肽（Signal peptides），蛋白结构域（PFAM domains）等。 SMART前该知道的 1，SMART有两种不同的模式：normal 或genomic 主要是用的数据库不一样。Normal SMART, 用的数据库 Swiss-Prot, SP-TrEMBL 和 stable Ensembl proteomes。Genomic SMART, 用全基因组序列。详细列表：，一些名词解释进行时可以直接用各个数据库蛋白的ID。如Uniprot/Ensembl??ID / Accession number (ACC)。或是直接蛋白序列。运行SMART也可选择signal peptides、PFAM domains等的预测，勾上就是。看下图 SMART结果运行后的结果用图表表示。其实运行后的结果都有明确的解释。详细请看下面。

蛋白质结构预测方法综述

蛋白质结构预测方法综述卜东波陈翔王志勇《计算机不能做什么？》是一本好书，其中文版序言也堪称佳构。在这篇十余页的短文中，马希文教授总结了使用计算机解决实际问题的三步曲，即首先进行形式化，将领域相关的实际问题抽象转化成一个数学问题；然后分析问题的可计算性；最后进行算法设计，分析算法的时间和空间复杂度，寻找最优算法。蛋白质空间结构预测是很有生物学意义的问题，迄今亦有很多的工作。有意思的是，其中一些典型工作恰恰是上述三步曲的绝好示例，本文即沿着这一路线作一总结，介绍于后。 1 背景知识生物细胞种有许多蛋白质（由20余种氨基酸所形成的长链），这些大分子对于完成生物功能是至关重要的。蛋白质的空间结构往往决定了其功能，因此，如何揭示蛋白质的结构是非常重要的工作。生物学界常常将蛋白质的结构分为4个层次：一级结构，也就是组成蛋白质的氨基酸序列；二级结构，即骨架原子间的相互作用形成的局部结构，比如alpha螺旋,beta片层和loop区等；三级结构，即二级结构在更大范围内的堆积形成的空间结构；四级结构主要描述不同亚基之间的相互作用。经过多年努力，结构测定的实验方法得到了很好的发展，比较常用的有核磁共振和X光晶体衍射两种。然而由于实验测定比较耗时和昂贵，对于某些不易结晶的蛋白质来说不适用。相比之下，测定蛋白质氨基酸序列则比较容易。因此如果能够从一级序列推断出空间结构则是非常有意义的工作。这也就是下面的蛋白质折叠问题： 1蛋白质折叠问题（Protein Folding Problem）输入: 蛋白质的氨基酸序列

输出: 蛋白质的空间结构蛋白质结构预测的可行性是有坚实依据的。因为一般而言，蛋白质的空间结构是由其一级结构确定的。生化实验表明：如果在体外无任何其他物质存在的条件下，使得蛋白质去折叠，然后复性，蛋白质将立刻重新折叠回原来的空间结构，整个过程在不到1秒种内即可完成。因此有理由认为对于大部分蛋白质而言，其空间结构信息已经完全蕴涵于氨基酸序列中。从物理学的角度讲，系统的稳定状态通常是能量最小的状态，这也是蛋白质预测工作的理论基础。 2 蛋白质结构预测方法蛋白质结构预测的方法可以分为三种：同源性（Homology ）方法：这类方法的理论依据是如果两个蛋白质的序列比较相似，则其结构也有很大可能比较相似。有工作表明，如果序列相似性高于75％，则可以使用这种方法进行粗略的预测。这类方法的优点是准确度高，缺点是只能处理和模板库中蛋白质序列相似性较高的情况。从头计算（Ab initio ）方法：这类方法的依据是热力学理论，即求蛋白质能量最小的状态。生物学家和物理学家等认为从原理上讲这是影响蛋白质结构的本质因素。然而由于巨大的计算量，这种方法并不实用，目前只能计算几个氨基酸形成的结构。IBM 开发的Blue Gene 超级计算机，就是要解决这个问题。穿线法(Threading )方法：由于Ab Initio 方法目前只有理论上的意义，Homology 方法受限于待求蛋白质必需和已知模板库中某个蛋白质有较高的序列相似性，对于其他大部分蛋白质来说，有必要寻求新的方法。Threading 就此应运而生。以上三种方法中，Ab Initio 方法不依赖于已知结构，其余两种则需要已知结构的协助。通常将蛋白质序列和其真实三级结构组织成模板库，待预测三级结构的蛋白质序列，则称之为查询序列(query sequence)。 3 蛋白质结构预测的Threading 方法 Threading 方法有三个代表性的工作：Eisenburg 基于环境串的工作、Xu Ying 的Prospetor 和Xu Jinbo 、Li Ming 的RAPTOR 。 Threading 的方法：首先取出一条模版和查询序列作序列比对(Alignment)，并将模版蛋白质与查询序列匹配上的残基的空间坐标赋给查询序列上相应的残基。比对的过程是在我们设计的一个能量函数指导下进行的。根据比对结果和得到的查询序列的空间坐标，通过我们设计的能量函数，得到一个能量值。将这个操作应用到所有的模版上，取能量值最低的那条模版产生的查询序列的空间坐标为我们的预测结果。需要指出的是，此处的能量函数却不再是热力学意义上的能量函数。它实质上是概率的负对数，即，我们用统计意义上的能量来代替真实的分子能量，这两者有大致相同的形式。 p E log ?=如果沿着马希文教授的观点看上述工作，则更有意思：Eisenburg 指出如果仅仅停留在简单地使用每个原子的空间坐标(x,y,z)来形式化表示蛋白质空间结构，则难以进一步深入研究。Eisenburg 创造性地使用环境串表示结构，从而将结构预测问题转化成序列串和环境串之间的比对问题；其后，Xu Ying 作了进一步发展，将蛋白质序列表示成一系列核（core ）组成的序列，Core 和Core 之间存在相互作用。因此结构就表示成Core 的空间坐标，以及Core 之间的相互作用。在这种表示方法的基础上，Xu Ying 开发了一种求最优匹配的动态规划算法，得到了很好的结果。但是由于其较高的复杂度，在Prospetor2上不得不作了一些简化；Xu Jinbo 和Li Ming 很漂亮地解决了这个问题，将求最优匹配的过程表示成一个整数规划问题，并且证明了一些常用

蛋白质结构预测

实习 5 ：蛋白质结构预测学号20090***** 姓名****** 专业年级生命生技**** 实验时间2012.6.21 提交报告时间2012.6.21 实验目的： 1.学会使用GOR和HNN方法预测蛋白质二级结构 2.学会使用SWISS-MODEL进行蛋白质高级结构预测实验内容： 1.分别用GOR和HNN方法预测蛋白质序列的二级结构，并对比异同性。 2.利用SWISS-MODEL进行蛋白质的三级结构预测，并对预测结果进行解释。作业： 1. 搜索一条你感兴趣的蛋白质序列，分别用GOR和HNN进行二级结构预测，解释预测结果，分析两个方法结果有何异同。答：所选用蛋白质序列为>>gi|390408302|gb|AFL70986.1| gag protein, partial [Human immunodeficiency virus] （1）GOR预测结果：图1 图1是每个氨基酸在序列中所处的状态，可以看出序列的二级结构预测结果为： 1到9位个氨基酸为无规卷曲，10到33位氨基酸为α螺旋,34到37位为β折叠，38到45位为无规卷曲，46到49位为α螺旋，50到53位为无规卷曲，54到65为α螺旋，66到72位为无规卷曲，73到95位为α螺旋，96到101位为无规卷曲，102到108为β折叠，109到115位为无规卷曲，117位为β折叠。图2 图2为各种结构在序列中所占的比例，其中Alpha helix占53.85%，Extended strand占11.11%，Random coil占35.04%，无他二级结构。

图3 图3为各个氨基酸在序列中的状态以及二级结构在全序列中二级结构分布情况。（2）HNN预测：图4 图4是每个氨基酸在序列中所处的状态，可以看出序列的二级结构预测结果为： 1到6位个氨基酸为无规卷曲，7到34位氨基酸为α螺旋,35到37位为β折叠，38位为α螺旋，39到44位为无规卷曲，45到49位为α螺旋，50到55位为无规卷曲，56到65为α螺旋，66到71位为无规卷曲，72到83位为α螺旋，84到86位为无规卷曲，87到95位为α螺旋，96到102为无规卷曲，103到108位为β折叠，108到117位为无规卷曲。图5 图5为各种结构在序列中所占的比例，其中Alpha helix占55.56%，Extended strand占7.69%，Random coil占36.75%，无他二级结构。

蛋白结构分析和比较

蛋白结构分析和比较姓名学号日期年月日阅读分子月报科普短文，参阅相关文献，从蛋白质结构数据库下载以下蛋白质三维结构原子坐标文件，利用显示观察，说明其结构特点。猪胰岛素(): 由几个亚基组成，每个亚基有几条多肽链，每条多肽链由哪些二级结构单元组成；每条多肽链有几对链内二硫键，多肽链之间由几对二硫键连接；每个亚基如何与锌原子结合。抹香鲸肌红蛋白(): 由几股螺旋组成；与血色素卟啉环中央铁原子以配位健结合的是哪个组氨酸，该组氨酸位于第几股螺旋；与血色素携带的氧分子通过氢键连接的是哪个组氨酸，该组氨酸位于第几股螺旋。小鼠免疫球蛋白(): 由几个亚基组成，每个亚基各有几个结构域；两条重链之间由几对二硫键连接，重链和轻链之间由几对二硫键连接；每个结构域内部的二硫键和色氨酸如何形成疏水内核；多糖链对稳定分子结构的作用。水母（）绿色荧光蛋白(): 选择原始文件中二聚体链，保存为单个亚基; 打开，并用不同颜色显示二级结构折叠; 找出分子内部发光基团并说明其发光机理。核小体(): 用不同颜色显示组蛋白个亚基；观察分子碱基配对特点；显示组蛋白表面与相互作用的碱性氨基酸。斑头雁和灰雁血红蛋白比较实例从数据库中提取斑头雁和灰雁血红蛋白亚基序列，进行序列比对，找出差异位点。用软件中选择并保存灰雁氧合血红蛋白中四个亚基中的链链两个亚基。用结构叠合方法分析比较灰雁氧合血红蛋白链链两个亚基与斑头雁血红蛋白两个亚基的结构，计算基于碳叠合后的均方根误差（）。找出斑头雁血红蛋白链第位丙氨酸侧链碳原子和链位亮氨酸侧链末端两个碳原子和，分别测量和、之间的距离。找出灰雁血红蛋白链第位脯氨酸侧链碳原子和链位亮氨酸侧链末端两个碳原子和，分别测量和、之间的距离。根据上述分析结果，参阅相关文献，说明斑头雁和灰雁血红蛋白侧链大小和柔性不同，如何影响其构象变化，从而进一步引起氧气结合能力的变化。利用模拟突变的方法，将灰雁血红蛋白链第位脯氨酸突变成丙氨酸，测量突变后的和、之间的距离。课题相关蛋白质结构分析在蛋白质结构数据库中下载课题相关或分子月报中你最感兴趣的蛋白质分子，用显示其结构。该蛋白质有几个亚基，其二级结构是否含有螺旋和折叠。该蛋白质是否含二硫键，其配对方式如何。

蛋白质功能-结构-相互作用预测网站工具合集

蛋白质组学蛋白质是生物体的重要组成部分，参与几乎所有生理和细胞代谢过程。此外，与基因组学和转录组学比较，对一个细胞或组织中表达的所有蛋白质，及其修饰和相互作用的大规模研究称为蛋白质组学。蛋白质组学通常被认为是在基因组学和转录组学之后，生物系统研究的下一步。然而，蛋白质组的研究远比基因组学复杂，这是由于蛋白质内在的复杂特点，如蛋白质各种各样的翻译后修饰所决定的。并且，研究基因组学的技术要比研究蛋白质组学的技术强得多，虽然在蛋白质组学研究中，质谱技术的研究已取得了一些进展。尽管存在方法上的挑战，蛋白质组学正在迅速发展，并且对癌症的临床诊断和疾病治疗做出了重要贡献。几项研究鉴定出了一些蛋白质在乳腺癌、卵巢癌、前列腺癌和食道癌中表达变化。例如，通过蛋白质组学技术，人们可以在患者血液中明确鉴定出肿瘤标志物。表1列出了更多的蛋白质组学技术用于研究癌症的例子。另外，高尔基体功能复杂。最新研究表明，它除了参与蛋白加工外，还能参与细胞分化及细胞间信号传导的过程，并在凋亡中扮演重要角色，其功能障碍也许和肿瘤的发生、发展有某种联系。根据人类基因组研究，约1000多种人类高尔基体蛋白质中仅有500~600种得到了鉴定，建立一条关于高尔基体蛋白质组成的技术路线将有助于其功能的深入研究。蛋白质组学是一种有效的研究方法，特别是随着亚细胞器蛋白质组学技术的迅猛发展，使高尔基体的全面研究变为可能。因此研究人员希望能以胃癌细胞中的高尔基体为研究对象，通过亚细胞器蛋白质组学方法，建立胃癌细胞中高尔基体的蛋白质组方法学。研究人员采用蔗糖密度梯度的超速离心方法分离纯化高尔基体，双向凝胶电泳（2-DE）分离高尔基体蛋白质，用ImageMaster 2D软件分析所得图谱，基质辅助激光解吸离子化飞行时间质谱（MALDI-TOF MS）鉴定蛋白质点等一系列亚细胞器蛋白质组学方法建立了胃癌细胞内高尔基体的蛋白图谱。最后，人们根据分离出的纯度较高的高尔基体建立了分辨率和重复性均较好的双向电泳图谱，运用质谱技术鉴定出12个蛋白质，包括蛋白合成相关蛋白、膜融合蛋白、调节蛋白、凋亡相关蛋白、运输蛋白和细胞增殖分化相关蛋白。通过亚细胞器分离纯化、双向电泳的蛋白分离及MALDI-TOF MS蛋白鉴定分析，研究人员首次成功建立了胃癌细胞SGC7901中高尔基体的蛋白质组学技术路线。 3.1 蛋白质功能预测工具也许生物信息学方法在癌症研究中最常用的就是基因功能预测方法，但是这些数据库只存储了基因组的大约一半基因的功能。为了在微阵列资料基础上完成功能性的富集分析，基因簇的功能注解是非常重要的。近几年生物学家研发了一些基因功能预测的方法，这些方法旨在超越传统的BLAST搜索来预测基因的功能。基因功能预测可以以氨基酸序列、三级结构、与之相互作用的配体、相互作用过程或基因的表达方式为基础。其中最重要的是基于氨基酸序列的分析，因为这种方法适合于微阵列分析的全部基因。在表3中，前三项列举了三种同源搜索方法。FASTA方法虽然应用还不太广泛，但它要优于BLAST，或者至少相当。FASTA程序是第一个使用的数据库相似性搜索程序。为了达到较高的敏感程度，程序引用取代矩阵实行局部比对以获得最佳搜索。美国弗吉尼亚大学可以提供这项程序的地方版本，当然数据库搜索结果依赖于要搜索的数据库序列。如果最近的序列数据库版本在弗吉尼亚大学不能获得，那么就最好试一下京都大学（Kyoto University）的KEGG站点。PSI-BLAST（位点特异性反复BLAST）是BLAST的转化版本，PSI-BLAST的特色是每次用profile 搜索数据库后再利用搜索的结果重新构建profile，然后用新的profile再次搜索数据库，如此反复直至没有新的结果产生为止。PSI-BLAST先用带空位的BLAST搜索数据库，将获得的序列通过多序列比对来构建第一个profile。PSI-BLAST自然地拓展了BLAST方法，能寻找蛋白质序列中的隐含模式，有研究表明这种方法可以有效地找到很多序列差异较大而结构功能相似的相关蛋白，所以它比BLAST和FASTA有更好的敏感性。PSI-BLAST服务可以

蛋白质结构与功能的生物信息学研究

实验名称：蛋白质结构与功能的生物信息学研究实验目的：1.掌握运用BLAST工具对指定蛋白质的氨基酸序列同源性搜索的方法。 2.掌握用不同的工具分析蛋白质的氨基酸序列的基本性质 3掌握蛋白质的氨基酸序列进行三维结构的分析 4.熟悉对蛋白质的氨基酸序列所代表蛋白的修饰情况、所参与的代谢途径、相互作用的蛋白，以及与疾病的相关性的分析。实验方法和流程：一、同源性搜索同源性从分子水平讲则是指两个核酸分子的核苷酸序列或两个蛋白质分子的氨基酸序列间的相似程度。BLAST工具能对生物不同蛋白质的氨基酸序列或不同的基因的DNA序列极性比对，并从相应数据库中找到相同或相似序列。对指定的蛋白质的氨基酸序列进行同源性搜索步骤如下： ↓ 登录网址https://www.360docs.net/doc/9a6065239.html,/blast/ ↓ 输入序列后,运行blast工具 ↓ 序列比对的图形结果显示

序列比对的图形结果：用相似性区段（Hit）覆盖输入序列的范围判断两个序列的相似性。如果图形中包含低得分的颜色（主要是红色）区段，表明两序列的并非完全匹配。 ↓ 匹配序列列表及得分

各序列得分可选择不同的比对工具备注: Clustal是一款用来对()的软件。可以用来发现特征序列，进行蛋白分类，证明序列间的同源性，帮助预测新序列二级结构与三级结构，确定PCR引物，以及在分子进化分析方面均有很大帮助。Clustal包括Clustalx和Clustalw(前者是图形化界面版本后者是命令界面)，是生物信息学常用的多序列比对工具。该序列的比对结果有100条，按得分降序排列，其中最大得分2373，最小得分分为1195. ↓ 详细的比对序列的排列情况第一个匹配序列第一个序列的匹配率为100% Score表示打分矩阵计算出来的值，由搜索算法决定的，值越大说明匹配程度

蛋白结构分析和比较

蛋白结构分析和比较姓名________ 学号______________ 日期________年___月___日阅读分子月报科普短文，参阅相关文献，从蛋白质结构数据库下载以下蛋白质三维结构原子坐标文件，利用Swiss-PdbViewer显示观察，说明其结构特点。猪胰岛素(4INS): 由几个亚基组成，每个亚基有几条多肽链，每条多肽链由哪些二级结构单元组成；每条多肽链有几对链内二硫键，多肽链之间由几对二硫键连接；每个亚基如何与锌原子结合。抹香鲸肌红蛋白(1MBO): 由几股alpha螺旋组成；与血色素卟啉环中央铁原子以配位健结合的是哪个组氨酸，该组氨酸位于第几股alpha 螺旋；与血色素携带的氧分子通过氢键连接的是哪个组氨酸，该组氨酸位于第几股alpha螺旋。小鼠免疫球蛋白(1IGT): 由几个亚基组成，每个亚基各有几个结构域；两条重链之间由几对二硫键连接，重链和轻链之间由几对二硫键连接；每个结构域内部的二硫键和色氨酸如何形成疏水内核；多糖链对稳定分子结构的作用。水母（Jellyfish）绿色荧光蛋白(1GFL): 选择PDB原始文件中二聚体A链，保存为单个亚基1GFLa.pdb; 打开1GFLa.pdb，并用不同颜色显示二级结构beta折叠; 找出分子内部发光基团Ser65-Tyr66-Gly67并说明其发光机理。核小体(1AOI): 用不同颜色显示组蛋白8个亚基；观察DNA分子碱基配对特点；显示组蛋白表面与DNA相互作用的碱性氨基酸。斑头雁和灰雁血红蛋白比较实例从UniProt数据库中提取斑头雁和灰雁血红蛋白alpha亚基序列，进行序列比对，找出差异位点。用SwissPDB-Viwer软件中选择并保存灰雁氧合血红蛋白1FAW中四个亚基中的A链B 链两个亚基。用结构叠合方法分析比较灰雁氧合血红蛋白A链B链两个亚基与斑头雁血红蛋白1A4F 两个亚基的结构，计算基于alpha碳叠合后的均方根误差（RMSD）。找出斑头雁血红蛋白A链第119位丙氨酸侧链beta碳原子CB和B链55位亮氨酸侧链末端两个碳原子CD1和CD2，分别测量A119CB和B55CD1、B55CD2之间的距离。找出灰雁血红蛋白A链第119位脯氨酸侧链gamma碳原子CG和B链55位亮氨酸侧链末端两个碳原子CD1和CD2，分别测量A119CG和B55CD1、B55CD2之间的距离。根据上述分析结果，参阅相关文献，说明斑头雁和灰雁血红蛋白A119侧链大小和柔性不同，如何影响其构象变化，从而进一步引起氧气结合能力的变化。利用模拟突变的方法，将灰雁血红蛋白A链第119位脯氨酸突变成丙氨酸，测量突变后的A119CB和B55CD1、B55CD2之间的距离。课题相关蛋白质结构分析

蛋白质结构预测网址

蛋白质结构预测网址物理性质预测： Compute PI/MW Peptidemass TGREASE SAPS 基于组成的蛋白质识别预测 AACompIdent PROPSEARCH 二级结构和折叠类预测 nnpredict Predictprotein SSPRED 特殊结构或结构预测 COILS MacStripe 与核酸序列一样，蛋白质序列的检索往往是进行相关分析的第一步，由于数据库和网络技校术的发展，蛋白序列的检索是十分方便，将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。由NCBI检索蛋白质序列可联网到：“”进行检索。利用SRS系统从EMBL检索蛋白质序列联网到：”，可利用EMBL的SRS系统进行蛋白质序列的检索。通过EMAIL进行序列检索当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时，可采用EMAIL方式进行序列检索。蛋白质基本性质分析蛋白质序列的基本性质分析是蛋白质序列分析的基本方面，一般包括蛋白质的氨基酸组成，分子质量，等电点，亲水性，和疏水性、信号肽，跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如，疏水性图谱可通知来预测跨膜螺旋。同时，也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标（其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。疏水性分析位于ExPASy的ProtScale程序（）可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性，并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小（n）该参数用于估计每种氨基酸残基的平均显示尺度。进行蛋白质的亲/疏水性分析时，也可用一些windows下的软件如， bioedit,dnamana等。跨膜区分析有多种预测跨膜螺旋的方法，最简单的是直接，观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域，但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知跨膜螺旋的研究而得到的。自然存在的跨膜螺旋Tmbase 数据库，可通过匿名FTP获得()，参见表一