蛋白质数据库介绍

蛋白质结构分析原理及工具-文献综述

蛋白质结构分析原理及工具（南京农业大学生命科学学院生命基地111班）摘要：本文主要从相似性检测、一级结构、二级结构、三维结构、跨膜域等方面从原理到方法再到工具，系统地介绍了蛋白质结构分析的常用方法。文章侧重于工具的列举，并没有对原理和方法做详细的介绍。文章还列举了蛋白质分析中常用的数据库。关键词：蛋白质；结构预测；跨膜域；保守结构域 1 蛋白质相似性检测蛋白质数据库。由一个物种分化而来的不同序列倾向于有相似的结构和功能。物种分化后形成的同源序列称直系同源，它们通常具有相似的功能；由基因复制而来的序列称为旁系同源，它们通常有不同的功能[1]。因此，推测全新蛋白质功能的第一步是将它的序列与进化上相关的已知结构和功能的蛋白质序列比较。表一列出了常用的蛋白质序列数据库和它们的特点。表一常用蛋白质数据库网址可能有更新氨基酸替代模型。进化过程中，一种氨基酸残基会有向另一种氨基酸残基变化的倾向。氨基酸替代模型可用来估计氨基酸替换的速率。目前常用的替代模型有Point Accepted Mutation (PAM)矩阵、BLOck SUbstitution Matrix (BLOSUM)矩阵[2]、JTT模型[3]。序列相似性搜索工具。序列相似性搜索又分为成对序列相似性搜索和多序列相似性搜索。成对序列相似性搜索通过搜索序列数据库从而找到与查询序列相似的序列。分为局部联配和全局联配。常用的局部联配工具有BLAST和SSEARCH，它们使用了Smith-Waterman 算法。全局联配工具有FASTA和GGSEARCH，基于Needleman-Wunsch算法。多序列相似性搜索常用于构建系统发育树，这里不阐述。表二列举了常用的成对序列相似性比对搜索工具

最经典总结-组成蛋白质的氨基酸的结构及种类

考点一组成蛋白质的氨基酸及其种类（5年6考）组成蛋白质的氨基酸的结构及种类观察下列几种氨基酸的结构 (1)写出图中结构的名称 a.氨基； b.羧基。 (2)通过比较图中三种氨基酸，写出氨基酸的结构通式 (3)氨基酸的不同取决于R基的不同，图中三种氨基酸的R基依次为 (4)氨基酸的种类：约20种 ■助学巧记巧记“8种必需氨基酸” 甲(甲硫氨酸)来(赖氨酸)写(缬氨酸)一(异亮氨酸)本(苯丙氨酸)亮(亮氨酸)色(色氨酸)书(苏氨酸) 注：评价蛋白质食品营养价值主要依据其必需氨基酸的种类和含量。

组成蛋白质的氨基酸的种类与结构 1.(海南卷)关于生物体内组成蛋白质的氨基酸的叙述，错误的是() A.分子量最大的氨基酸是甘氨酸 B.有些氨基酸不能在人体细胞中合成 C.氨基酸分子之间通过脱水缩合形成肽键 D.不同氨基酸之间的差异是由R基引起的解析甘氨酸应是分子量最小的氨基酸，它的R基是最简单的氢。答案 A 2.下图为氨基酸分子的结构通式，下列叙述正确的是() A.结构④在生物体内约有20种 B.氨基酸脱水缩合产生水，水中的氢来自于②和③ C.结构④中含有的氨基或羧基全部都参与脱水缩合 D.生物体内n个氨基酸形成一条多肽链需要n种密码子解析①为氨基，③为羧基，④为侧链基团(R基)。构成人体氨基酸的种类约有20种，A正确；脱水缩合形成水，水中氢来自①③，B错误；R基中的氨基或羧基不参与脱水缩合，C错误；生物体内n个氨基酸形成一条多肽链需要n个密码子而不是需要n种密码子，D错误。答案 A 解答本类题目的关键是熟记氨基酸的结构通式，如下图所示

找出氨基酸的共同体，即图中“不变部分”(连接在同一碳原子上的—NH2、—COOH和—H)，剩下的部分即为R基。倘若找不到上述“不变部分”，则不属于构成蛋白质的氨基酸。

蛋白质数据库

生物芯片北京国家工程研究中心湖南中药现代化药物筛选分中心暨湖南涵春生物有限公司常用数据库名录 1、蛋白质数据库 PPI - JCB 蛋白质与蛋白质相互作用网络 ?Swiss-Prot - 蛋白质序列注释数据库 ?Kabat - 免疫蛋白质序列数据库 ?PMD - 蛋白质突变数据库 ?InterPro - 蛋白质结构域和功能位点 ?PROSITE - 蛋白质位点和模型 ?BLOCKS - 生物序列分析数据库 ?Pfam - 蛋白质家族数据库 [镜像： St. Louis (USA), Sanger Institute, UK, Karolinska Institutet (Sweden)] ?PRINTS - 蛋白质 Motif 数据库 ?ProDom - 蛋白质结构域数据库 (自动产生) ?PROTOMAP - Swiss-Prot蛋白质自动分类系统 ?SBASE - SBASE 结构域预测数据库 ?SMART - 模式结构研究工具 ?STRING - 相互作用的蛋白质和基因的研究工具

?TIGRFAMs - TIGR 蛋白质家族数据库 ?BIND - 生物分子相互作用数据库 ?DIP - 蛋白质相互作用数据库 ?MINT - 分子相互作用数据库 ?HPRD - 人类蛋白质查询数据库 ?IntAct - EBI 蛋白质相互作用数据库 ?GRID - 相互作用综合数据库 ?PPI - JCB 蛋白质与蛋白质相互作用网络 2、蛋白质三级结构数据库 ?PDB - 蛋白质数据银行 ?BioMagResBank - 蛋白质、氨基酸和核苷酸的核磁共振数据库?SWISS-MODEL Repository - 自动产生蛋白质模型的数据库 ?ModBase - 蛋白质结构模型数据库 ?CATH - 蛋白质结构分类数据库 ?SCOP - 蛋白质结构分类 [镜像: USA | Israel | Singapore | Australia] ?Molecules To Go - PDB数据库查询 ?BMM Domain Server - 生物分子模型数据库 ?ReLiBase - 受体/配体复合物数据库 [镜像： USA] ?TOPS - 蛋白质拓扑图 ?CCDC - 剑桥晶体数据中心 (剑桥结构数据库 (CSD))

蛋白质的性质和分类

蛋白质凭借游离的氨基和羧基而具有两性特征，在等电点易生成沉淀。不同的蛋白质等电点不同，该特性常用作蛋白质的分离提纯。生成的沉淀按其有机结构和化学性质，通过pH的细微变化可复溶。蛋白质的两性特征使其成为很好的缓冲剂，并且由于其分子量大和离解度低，在维持蛋白质溶液形成的渗透压中也起着重要作用。这种缓冲和渗透作用对于维持内环境的稳定和平衡具有非常重要的意义。在紫外线照射、加热煮沸以及用强酸、强碱、重金属盐或有机溶剂处理蛋白质时，可使其若干理化和生物学性质发生改变，这种现象称为蛋白质的变性。酶的灭活，食物蛋白经烹调加工有助于消化等，就是利用了这一特性。 (二)蛋白质的分类简单的化学方法难于区分数量庞杂、特性各异的这类大分子化合物。通常按照其结构、形态和物理特性进行分类。不同分类间往往也有交错重迭的情况。一般可分为纤维蛋白、球状蛋白和结合蛋白三大类。 1.纤维蛋白包括胶原蛋白、弹性蛋白和角蛋白。 (1) 胶原蛋白胶原蛋白是软骨和结缔组织的主要蛋白质，一般占哺乳动物体蛋白总量的30%左右。胶原蛋白不溶于水，对动物消化酶有抗性，但在水或稀酸、稀碱中煮沸，易变成可溶的、易消化的白明胶。胶原蛋白含有大量的羟脯氨酸和少量羟赖氨酸，缺乏半胱氨酸、胱氨酸和色氨酸。 (2) 弹性蛋白弹性蛋白是弹性组织，如腱和动脉的蛋白质。弹性蛋白不能转变成白明胶。 (3) 角蛋白角蛋白是羽毛、毛发、爪、喙、蹄、角以及脑灰质、脊髓和视网膜神经的蛋白质。它们不易溶解和消化，含较多的胱氨酸(14-15%)。粉碎的羽毛和猪毛，在15-20磅蒸气压力下加热处理一小时，其消化率可提高到70-80%，胱氨酸含量则减少5-6%。 2.球状蛋白 (1) 清蛋白主要有卵清蛋白、血清清蛋白、豆清蛋白、乳清蛋白等，溶于水，加热凝固。 (2) 球蛋白球蛋白可用5-10%的NaCl溶液从动、植物组织中提取；其不溶或微溶于水，可溶于中性盐的稀溶液中，加热凝固。血清球蛋白、血浆纤维蛋白原、肌浆蛋白、豌豆的豆球蛋白等都属于此类蛋白。 (3) 谷蛋白麦谷蛋白、玉米谷蛋白、大米的米精蛋白属此类蛋白。不溶于水或中性溶液，而溶于稀酸或稀碱。 (4) 醇溶蛋白玉米醇溶蛋白、小麦和黑麦的麦醇溶蛋白、大麦的大麦醇溶蛋白属此类蛋白。不溶于水、无水乙醇或中性溶液，而溶于70-80%的乙醇。 (5) 组蛋白属碱性蛋白，溶于水。组蛋白含碱性氨基酸特别多。大多数组蛋白在活细胞中与核酸结合，如血红蛋白的珠蛋白和鲭鱼精子中的鲭组蛋白。 (6) 鱼精蛋白鱼精蛋白是低分子蛋白，含碱性氨基酸多，溶于水。例如鲑鱼精子中的鲑精蛋白、鲟鱼的鲟精蛋白、鲱鱼的鲱精蛋白等。鱼精蛋白在鱼的精子细胞中与核酸结合。球蛋白比纤维蛋白易于消化，从营养学的角度看，氨基酸含量和比例也较纤维蛋白更理想。 3. 结合蛋白结合蛋白是蛋白部分再结合一个非氨基酸的基团(辅基)。如核蛋白(脱氧核糖核蛋白、核糖体)，磷蛋白(酪蛋白、胃蛋白酶)，金属蛋白(细胞色素氧化酶、铜蓝蛋白、黄嘌呤氧化酶)，脂蛋白(卵黄球蛋白、血中β1-脂蛋白)，色蛋白(血红蛋白、细胞色素C、黄素蛋白、视网膜中与视紫质结合的水溶性蛋白)及糖蛋白(γ球蛋白、半乳糖蛋白、甘露糖蛋白、氨基糖蛋白)。

生物信息研究中常用蛋白质数据库的总结

生物信息研究中常用蛋白质数据库简述内蒙古工业大学理学院呼和浩特孙利霞 2010.1.5 摘要：在后基因组时代生物信息学的研究当中，离不开各种生物信息学数据库。尤其在蛋白质从序列到功能的研究当中，目前各种行之有效的方法都是基于各种层次和结构的蛋白质数据库。随着计算机技术及网络技术的发展，目前的蛋白质数据库不论是所包含数据量还是功能都日新月异，新的数据库层出不穷。一个新手面对如此浩瀚的数据量往往无从下手。本文粗浅地为目前蛋白质数据库的使用勾画出一个轮廓，作为自己蛋白质研究入门的一个引导。关键词：蛋白质；数据库 0 引言随着科技的发展，个人的知识往往赶不上快速膨胀的信息量，人们为了解决这个问题，便创建了形形色色的数据库。蛋白质数据库是指：在蛋白质研究领域根据实际需要，对蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释，构建出具有特殊生物学意义和专门用途的数据库。蛋白质数据库总体上可分为两大类：蛋白质序列数据库和蛋白质结构数据库，蛋白质序列数据库来自序列测定，结构数据库来自X-衍射和核磁共振结构测定（详见图1）。这些数据库是分子生物信息学的基本数据资源。上世纪90年代，我国从事蛋白质研究的学者使用的蛋白质数据库储存介质还是国外实验室发布的激光光盘[1]。信息的传播储存甚为不便。随着蛋白质研究的发展飞快，同时伴随着计算机和因特网发展，蛋白质数据库的储存传播方式也发生的巨大的变化。进入21世纪后，我们所用的各种蛋白质数据库都发展成为存储在网络服务器上，基于“服务器—客户机”的访问查询方式。伴随着计算机及物理测试技术的发展数据库的容量和功能成数量级膨胀。但是面对如此浩瀚的数据，新手往往感到无从下手，在需要时找不到自己需要的合适数据库。本文从目前蛋白质数据库建立的的逻辑层次出发，系统地简绍了常用蛋白质数据的概况，它们的查询方法以及它们相互之间的联系。同时尽量不涉及数据库建设和维护方面的计算机和网络这些数据库底层的技术，为蛋白质研究的入门者及对蛋白质感兴趣的人员的一个引导。

蛋白质的二级结构主要有哪些类型

1.蛋白质的二级结构主要有哪些类型，其特点如何？答：α-右手螺旋，β-折叠，无规卷曲，U型回折（β-转角） <1>α-右手螺旋 α-螺旋为右手螺旋，每一圈含有3.6个aa残基（或肽平面），每一圈高5.4?，即每一个aa 残基上升1.5?，旋转了100度，直径为5 ?，2个二面角（ф,ψ）＝（-570，-480）。维持α-右手螺旋的力量是螺旋内氢键，它产生于一个肽平面的C=O与相邻一圈的在空间上邻近的另一个肽平面的N-H之间，它的方向平行于螺旋轴，每个氢键串起的长度为3.6个肽平面或3.6个aa残基，被氢键串起来的这个环上含有13个原子，故α-右手螺旋也被称为 3.613螺旋。Pro破坏α-螺旋。 <2>β-折叠肽链在空间的走向为锯齿折叠状，二面角（ф,ψ）＝（-119℃，+113℃）。维持β-折叠的力量是折叠间的氢键，它产生于一个肽平面的C=O与相邻肽链的在空间上邻近的另一个肽平面的N-H之间，两条肽链上的肽平面互相平行，有平行式和反平行式两种， <3>U型回折：也叫β-转角，肽链在某处回折1800所形成的结构。这个结构包括的长度为 4个aa残基，其中的第三个为Gly，稳定该结构的力量是第一和第四个aa残基之间形成的氢键。 <4>无规卷曲：无固定的走向，但也不是任意变动的，它的2个二面角（ф,ψ）有个变化范围。论述 04 蛋白质简述蛋白质一级结构的分析方法。第一步：前期准备，第二步：肽链的端点测定，第三步：每条肽链aa顺序的测定，第四步：二硫键位置的确定。 <1>第一步：前期准备分离纯化蛋白质：纯度要达到97％以上。蛋白质分子量的测定：用于判断分子的大小，估计肽链的数目，有渗透压法、凝胶电泳法（聚丙烯酰胺、SDS）、凝胶过滤法、超离心法等 aa组成的测定：用于最后核对，氨基酸自动分析仪。肽链拆分：非共价键的如氢键、离子键、疏水键、范德华力4种，可用尿素或盐酸胍等有机溶液来拆分。共价键的仅二硫键1种，可用巯基乙醇、碘代乙酸、过甲酸来拆分。 <2>第二步：肽链的端点测定 N端测定：Sanger法，DNFB→DNP-肽→水解→乙醚萃取→层析鉴定。 Edman法，PITC→PTC-肽→PTH-aa→层析鉴定。 C端测定：肼解法。 <3>第三步：每条肽链aa顺序的测定事先要将蛋白质打断成多肽甚至寡肽，再上机分析，而且要2套以上，便于以后拼接。常用的工具酶和特异性试剂有：胰蛋白酶：－（Arg、Lys）↓－。产物为C端Arg、Lys的肽链。糜蛋白酶：表示为－（Trp、Tyr、Phe）↓－。 CNBr：－Met↓－。 <4>第四步：二硫键位置的确定包括链内和链间二硫键的位置，用对角线电泳来测，这项工作在AA序测定完毕后进行。在肽链未拆分的情况下用胃蛋白酶水解之，可以得到被二硫键连着的多肽产物。先进行第一向电泳，将产物分开。再用巯基乙醇处理，将二硫键打断。最后进行第二向电泳，条件与第一向电泳完全相同。选取偏离对角线的样品（多肽或寡肽），它们就是含二硫键的片段，上机测aa顺序，根据已测出的蛋白质的aa顺序，把这些片段进行定位，就能找到二硫键的位置。

蛋白质问题归类解析

2014年临安中学高三复习讲义（蛋白质类问题归类解析） 1.氨基酸的结构：例1.下列各项中，哪项是构成生物体蛋白质的氨基酸例2.谷胱甘肽(分子式C 10H 17O 6N 3S )是存在于动植物和微生物细胞中的一种重要的三肽，它是由谷氨酸（C 5H 9NO 4）、甘氨酸（C 2H 5O 2）和半胱氨酸缩合而成，则半胱氨酸可能的分子式为 A.C 3H 3NS B. C 3H 5NS C. C 3H 7O 2NS D. C 3H 3O 2NS 例3.当含有如图所示的结构片段的蛋白质在胃肠道中水解时，不可能产生的氨基酸是 2.蛋白质种类：例4.由4种氨基酸(每种氨基酸数量不限)最多能合成不同结构的三肽有 A ．4种 B ．43种 C ．34种 D ．12种例 5.如果有足量的三种氨基酸分别为甲、乙、丙，则它们能形成的三肽种类以及包含三种氨基酸的三肽种类最多有 A ．9种，9种 B ．6种，3种 C ．27种，6种 D ．3种，3种例6.狼体内有a 种蛋白质,20种氨基酸；兔体内有b 种蛋白质,20种氨基酸.狼捕食兔后,狼体内的蛋白质种类和氨基酸种类最可能是多少? A.a+b ，40 B.a,20 C.大于a,20 D.小于a,20 3.肽键（水分子）数目：例7. 人体内的抗体IgG 是一种重要的免疫球蛋白，由4条肽链构成，共有m 个氨基酸，则该蛋白质分子有肽键数 A.m 个 B. (m+1)个 C.(m-2)个 D.(m-4)个例8.由M 个氨基酸构成的一个蛋白质分子，含有N 条肽链，其中Z 条是环状多肽，这个蛋白质完全水解共需水分子个数为 A.M-N+Z B.M-N-Z C.M-Z+N D.M+Z+N 例9.某22肽被水解成1个4肽，2个3肽，2个6肽，则这些短肽的氨基总数的最小值及肽键总数依次是 A .6 18 B .5 18 C .5 17 D .6 17 例10.免疫球蛋白lgG 的结构示意图如右，其中-S-S- 表示连接两条相邻肽链的二硫键。若该lgG 由m 个氨基酸构成，则该lgG 有肽键数 A ．m 个 B ．(m +1)个 C ．(m-2)个 D ．(m-4)个 4. 游离的氨基或羧基数目：例11.人体内的抗体IgG 是一种重要的免疫球蛋白，由4条肽链构成，共有764个氨基酸，则该蛋白质分子中至少含有游离的氨基和羧基的个数分别是 A. 764、 764 B. 760 、760 C. 762、 762 D. 4 、4 例12. 现有1000个氨基酸,其中氨基有1020个,羧基有1050个,则由此合成的4条肽链中游离的氨基、羧基的数目分别是 -S-S -S-S -S-S

SWISS-MODEL_蛋白质结构预测教程

SWISS-MODEL 蛋白质结构预测 SWISS-MODEL是一项预测蛋白质三级结构的服务，它利用同源建模的方法实现对一段未知序列的三级结构的预测。该服务创建于1993年,开创了自动建模的先河,并且它是讫今为止应用最广泛的免费服务之一。同源建模法预测蛋白质三级结构一般由四步完成： 1. 从待测蛋白质序列出发，搜索蛋白质结构数据库（如PDB,SWISS-PROT等），得到许多相似序列（同源序列），选定其中一个（或几个）作为待测蛋白质序列的模板； 2. 待测蛋白质序列与选定的模板进行再次比对，插入各种可能的空位使两者的保守位置尽量对齐； 3. 建模：调整待测蛋白序列中主链各个原子的位置，产生与模板相同或相似的空间结构——待测蛋白质空间结构模型； 4. 利用能量最小化原理，使待测蛋白质侧链基团处于能量最小的位置。最后提供给用户的是经过如上四步（或重复其中某几步）后得到的蛋白质三级结构。 SWISS-MODEL工作模式 SWISS-MODEL服务器是以用户输入信息的最小化为目的设计的，即在最简单的情况下，用户仅提供一条目标蛋白的氨基酸序列。由于比较建模程序可以具有不同的复杂性，用户输入一些额外信息对建模程序的运行有时是有必要的，比如，选择不同的模板或者调整目标模板序列比对。该服务主要有以下三种方式: ?First Approach mode(简捷模式）：这种模式提供一个简捷的用户介面：用户只需要输入一条氨基酸序列，服务器就会自动选择合适的模板。或者，用户也可以自己指定模板（最多5条），这些模板可以来自ExPDB 模板数据库（也可以是用户选择的含坐标参数的模板文件）。如果一条模板与提交的目标序列相似度大于25%，建模程序就会自动开始运行。但是，模板的可靠性会随着模板与目标序列之间的相似度的降低而降低，如果相似度不到50%往往就需要用手工来调整序列比对。这种模式只能进行大于25个残基的单链蛋白三维结构预测。 ?Alignment Interface（比对界面）：这种模式要求用户提供两条已经比对好的序列，并指定哪一条是目标序列，哪一条是模板序列（模板序列应该对应于ExPDB模板数据库中一条已经知道其空间结构的蛋白序列）。服务器会依据用户提供的信息进行建模预测。 ?Project mode(工程模式）：手工操作建模过程：该模式需要用户首先构建一个DeepView工程文件，这个工程文件包括模板的结构信息和目标序列与模板序列间的比对信息。这种模式让用户可以控制许多参数，例如：模板的选择，比对中的缺口位置等。此外，这个模式也可以用于“first approach mode简捷模式”输出结果的进一步加工完善。此外，SWISS-MODEL还具有其他两种内容上的模式： ?Oligomer modeling(寡聚蛋白建模):对于具有四级结构的目标蛋白,SWISS-MODEL提供多聚模板的模式，用于多单体的蛋白质建模。这一模式弥补了简捷模式中只能提交单个目标序列,不能同时预测两条及以上目标序列的蛋白三维结构的不足。 ?GPCR mode(G蛋白偶联受体模式)：是专门对7次跨膜G蛋白偶联受体的结构预测。

蛋白常用数据库

搞蛋白质的童鞋们，甭要只查NCBI了~蛋白质相关数据库启蒙~ ★ 小木虫(金币+1):奖励一下，谢谢提供资源 qinhy:恭喜，您的帖子被版主审核为资源贴了，别人回复您的帖子对资源进行评价后，您就可以获得金币了理由:资源贴2011-11-26 16:56 本来是带图的，可是弄过来就变成米图了，附件里面一个是PDF版、一个是WORD版均是带图的，童鞋们看带图的可能比较方便点哦~ 基于蛋白质序列的蛋白质相互作用位点预测（闲谈版）这个不是论文不是论文啊~~这个是应某某的要求帮他找的，所以都是用现成的免费的网站数据库做的预测分析。无论文为依托，无原理为根据，纯粹就是流连各大网站作个的闲谈。 1、用这些网站先查查你要研究的蛋白质的底细。这些网站的数据库大多数是实验或者一些相关文献报道的数据的组成。 ★String http://string.embl.de/ 输入你要搜寻的蛋白，它就把这个蛋白相关的数据反映给你，分confidence、evidence的数据可信度参考，同时还具有actions选项，反应它们之间可能是激活/抑制的关系。按按+、-号可以扩大缩小关联蛋白的数量范围。往下拉一点点就是数据,哈哈，我们都要看数据吃饭啊~~ 分析的数据源自Neighborhood、Fusion、Occurrence、Coexpression、Experiments Database、Textminin及Homology，表示点得证明有数据，根据各项数据给出综合评分。评分越高相互存在关系可能性越高。点击下方各项图标等详细看到各项数据内容。设条件确定筛选范围。 ★DIP https://www.360docs.net/doc/6110616939.html,/dip/Main.cgi 跟上面的大同小异的功能，装上它附带的软件可能操作性会好一点，不过我米有试过哦。倒是跟它有链接的几个数据库都很强大，大家可以点击看看。 ★BIND http://www.bind.ca 文献有介绍的网站，不过我不能理解为什么我注册就注不了……. 2、继续查，用这些网站将要研究的蛋白质的家庭背景，月收入也大起底。这里的网站可能跟相互作用方面的关系不大，但是如果知道这些，可以对研究的蛋白有更深的了解。 ★PDB https://www.360docs.net/doc/6110616939.html,/pdb/home/home.do 要查3D结构就往这里查~通常说的PDB号为文献号末4位。 ★PIR https://www.360docs.net/doc/6110616939.html,/pirwww/index.shtml 在蛋白质方面如NCBI般强大的网站，去上面晃荡下吧，会有收获滴。 ★KEGG http://www.genome.jp/kegg/ 粉强大的一个网站，我只说说它的KEGG PA THW AY子项，能迅速掌握一个蛋白质的功能通路，对于小白的偶们来说，很有用，有木有。 3、正题正题，做完上面那些后，接着就是纯预测的成分。也因为如此，要找着这些网站是很悲催的一件事。就算你找着了，你不懂语言，不懂算法，到底结果的可靠性怎样，见人见智。需要PDB号作分析： promate http://bioinfo.weizmann.ac.il/promate/

蛋白质结构预测在线软件

蛋白质预测分析网址集锦? 物理性质预测：? Compute PI/MW?? ?? SAPS?? 基于组成的蛋白质识别预测? AACompIdent???PROPSEARCH?? 二级结构和折叠类预测? nnpredict?? Predictprotein??? SSPRED?? 特殊结构或结构预测? COILS?? MacStripe?? 与核酸序列一样，蛋白质序列的检索往往是进行相关分析的第一步，由于数据库和网络技校术的发展，蛋白序列的检索是十分方便，将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。? 由NCBI检索蛋白质序列? 可联网到：“”进行检索。? 利用SRS系统从EMBL检索蛋白质序列? 联网到：”，可利用EMBL的SRS系统进行蛋白质序列的检索。? 通过EMAIL进行序列检索?

当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时，可采用EMAIL方式进行序列检索。? 蛋白质基本性质分析? 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面，一般包括蛋白质的氨基酸组成，分子质量，等电点，亲水性，和疏水性、信号肽，跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如，疏水性图谱可通知来预测跨膜螺旋。同时，也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标（其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。? 疏水性分析? 位于ExPASy的ProtScale程序（?）可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性，并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小（n）该参数用于估计每种氨基酸残基的平均显示尺度。? 进行蛋白质的亲/疏水性分析时，也可用一些windows下的软件如，bioedit,dnamana等。? 跨膜区分析? 有多种预测跨膜螺旋的方法，最简单的是直接，观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域，但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知

蛋白质相互作用数据库和分析方法

蛋白质相互作用数据库和分析方法 1. 蛋白质相互作用的数据库蛋白质相互作用数据库见下表所示：数据库名说明网址 BIND 生物分子相互作用数据库 http://bind.ca/ DIP 蛋白质相互作用数据库 https://www.360docs.net/doc/6110616939.html,/ IntAct 蛋白质相互作用数据库 https://www.360docs.net/doc/6110616939.html,/intact/index.html InterDom 结构域相互作用数据库 https://www.360docs.net/doc/6110616939.html,.sg/ MINT 生物分子相互作用数据库 http://mint.bio.uniroma2.it/mint/ STRING 蛋白质相互作用网络数据库 http://string.embl.de/ HPRD 人类蛋白质参考数据库 https://www.360docs.net/doc/6110616939.html,/ HPID 人类蛋白质相互作用数据库 http://wilab.inha.ac.kr/hpid/ MPPI 脯乳动物相互作用数据库 http://fantom21.gsc.riken.go.jp/PPI/ biogrid 蛋白和遗传相互作用数据，主要来自于酵母、线虫、果蝇和人 https://www.360docs.net/doc/6110616939.html,/ PDZbase 包含PDZ 结构域的蛋白质相互作用数据库 https://www.360docs.net/doc/6110616939.html,/services/pdz/start Reactome 生物学通路的辅助知识库 https://www.360docs.net/doc/6110616939.html,/ 2. 蛋白质相互作用的预测方法蛋白质相互作用的预测方法很非常多，以下作了简单的介绍 1) 系统发生谱这个方法基于如下假定：功能相关的(functionally related)基因，在一组完全测序的基因组中预期同时存在或不存在，这种存在或不存在的模式(pattern)被称作系统发育谱；如果两个基因，它们的序列没有同源性，但它们的系统发育谱一致或相似．可以推断它们在功能上是相关的。

乳清蛋白分类

乳清蛋白的分类乳清蛋白（whey protein）被称为蛋白之王，是从牛奶中提取的一种蛋白质，具有营养价值高、易消化吸收、含有多种活性成分等特点，是公认的人体优质蛋白质补充剂之一。乳清蛋白是采用先进工艺从牛奶分离提取出来的珍贵蛋白质，以其纯度高、吸收率高、氨基酸组成最合理等诸多优势被推为“蛋白之王”。乳清蛋白不但容易消化，而且还具有高生物价、高效化率、高蛋白质功效比和高利用率，是蛋白质中的精品等特点，是公认的人体优质蛋白质补充剂之一。牛奶的组成中87%是水，13%是乳固体。而在乳固体中27%是乳蛋白质，乳蛋白质中只有20%是乳清蛋白，其余80%都是酪蛋白，因此乳清蛋白在牛奶中的含量仅为0.7%。但是你知道吗？乳清蛋白也分等级的。它分为浓缩乳清蛋白，分离乳清蛋白以及水解乳清蛋白，下面对这些蛋白进行大致的说明。乳清蛋白分类纯度吸收率浓缩乳清蛋白WPC 35~80%（一般为50%）104 含乳糖分离乳清蛋白WPI 88~95%（一般为88%）159 再过滤，除乳糖水解乳清蛋白WPH 96%以上167 再过滤浓缩乳清蛋白WPC (Whey Protein Concentrate) 这类乳清蛋白的蛋白质的纯度为35~80%（一般为50%），吸收率为104，WPC常常因为包含有乳糖等杂质，所以吸收不是很理想，而且常常伴有拉肚子等症状。分离乳清蛋白WPI ( Whey Protein Isolate ) 这类乳清蛋白的蛋白质的纯度为88~95%（一般为88%），吸收率为159，WPI是在WPC 的基础之上，通过再次过滤，干燥等技术加工，完全的去除了WPC里面的乳糖。水解乳清蛋白WPH ( Whey Protein Hydrolysates ) 这类乳清蛋白的蛋白质的纯度一般在96%以上，其吸收率为167，在WPI分离乳清蛋白的基础之上，再次高科技技术过滤，干燥得到，自然其吸收率是最高，纯度也是最高的。水解乳清蛋白是现存增肌粉，蛋白粉中最好的蛋白质原料。

第三讲：Uniprot蛋白数据库及其他蛋白质分析工具

第三讲 Uniprot蛋白数据库及其他蛋白质分析工具
2013/03/19

Uniprot数据库
? Uniprot（Universal?protein?resource)是蛋白质序列的联合数据库。
– SIB:?Swiss?Institute?of?Bioinformatics – EBI:?European?Bioinformatics?Institute – PIR:?Protein?Information?Resource – 2002年三家联合形成了Uniprot

Swiss‐Prot
? 1986年建立 ? 低冗余度 ? 功能导向 ? 由Swiss?Institute?of?Bioinformatics?和EBI共同建立并维护

TrEMBL
? TrEMBL=Translation?from?EMBL ? EBI建立并维护 ? 是一个自动数据库 ? 冗余度高，可信度低

UniprotKB
? 部分经过专家注释的数据库 ? 具有很高的可信度 ? 包括两部分UniprotKB/Swiss‐Prot和 UniprotKB/TrEMBL ? UniprotKB/Swiss‐Prot包括539,165条序列 ? UniprotKB/TrEMBL包括29,769,971?条序列 ? 具有非冗余性

Uniparc
? 非冗余性 ? 给予序列的特异性，非同一物种的相同序列被认为是同一个蛋白质 ? 每一条序列被給予一个特异的编号

蛋白质的分类

蛋白质的分类摘要：蛋白质的种类繁多，结构复杂，所以分类也就各异。一、按来源分类蛋白质按来源可以分为动物蛋白和植物蛋白，两者所含的氨基酸是不同的。动物性蛋白质主要为提取自牛奶的乳清蛋白，其所含必需氨基酸种类齐全，比例合理，但是含有胆固醇。植物性蛋白质主要来源于大豆的大豆蛋白，最多的优点就是不含胆固醇。二、按组成成分分类按照化学组成，蛋白质通常可以分为简单蛋白质、结合蛋白质和衍生蛋白质。简单蛋白质经水解得氨基酸和氨基酸衍生物；结合蛋白质经水解得氨基酸、非蛋白的辅基和其他（结合蛋白质的非氨基酸部分称为辅基）；蛋白质经变性作用和改性修饰得到衍生蛋白质。 1—脂如酪蛋铜的有血蓝蛋白等。 ⑥黄素蛋白（flavoproteins）：辅基为黄素腺嘌呤二核苷酸，如琥珀酸脱氢酶、D—氨基酸氧化酶等。 ⑦金属蛋白（metalioproteins）：与金属直接结合的蛋白质，如铁蛋白含铁，乙醇脱氢酶含锌，黄嘌呤氧化酶含钼和铁等。衍生蛋白质，天然蛋白质变性或者改性、修饰和分解产物。 ①一级衍生蛋白质：不溶于所有溶剂，如变性蛋白质。 ②二级衍生蛋白质：溶于水，受热不凝固，如胨、肽。 ③三级衍生蛋白质：功能改进，如磷酸化蛋白、乙酰化蛋白、琥珀酰胺蛋白。三、按分子形状分类根据分子形状的不同，可将蛋白质分为球状蛋白质和纤维状蛋白质两大类。以长轴和短轴之比为标准，球状蛋白

质小于5，纤维状蛋白质大于5。纤维状蛋白多为结构蛋白，是组织结构不可缺少的蛋白质，由长的氨基酸肽链连接成为纤维状或蜷曲成盘状结构，成为各种组织的支柱，如皮肤、肌腱、软骨及骨组织中的胶原蛋白；球状蛋白的形状近似于球形或椭圆形。许多具有生理活性的蛋白质，如酶、转运蛋白、蛋白类激素与免疫球蛋白、补体等均属于球蛋白。四、按结构分类蛋白质按其结构可分为：单体蛋白、寡聚蛋白、多聚蛋白。单体蛋白：蛋白质由一条肽链构成，最高结构为三级结构。包括由二硫键连接的几条肽链形成的蛋白质，其最高结构也是三级。多数水解酶为单体蛋白。寡聚蛋白：包含2个或2个以上三级结构的亚基。可以是相同亚基的聚合，也可以是不同亚基的聚合。多聚蛋白：由数十个亚基以上，甚至数百个亚基聚合而成的超级多聚体蛋白。五、按功能分类 1. 2. 3.

整理(蛋白质序列数据库)

蛋白质序列数据库我们可以根据基因组序列预测新基因，预测编码区域，并推测其产物（即蛋白质）的序列。因此，随着基因组序列的不断增长，蛋白质序列也在不断增加。 PIR 历史上，蛋白质数据库的出现先于核酸数据库。在1960年左右，Dayhoff和其同事们搜集了当时所有已知的氨基酸序列，编著了《蛋白质序列与结构图册》。从这本图册中的数据，演化为后来的蛋白质信息资源数据库PIR（Protein Information Resource）。 PIR是由美国生物医学基金会NBRF（National Biomedical Research Foundation）于1984年建立的，其目的是帮助研究者鉴别和解释蛋白质序列信息，研究分子进化、功能基因组，进行生物信息学分析。它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。所有序列数据都经过整理，超过99%的序列已按蛋白质家族分类，一半以上还按蛋白质超家族进行了分类。PIR提供一个蛋白质序列数据库、相关数据库和辅助工具的集成系统，用户可以迅速查找、比较蛋白质序列，得到与蛋白质相关的众多信息。目前，PIR已经成为一个集成的生物信息数据源，支持基因组研究和蛋白质组研究。至2004年，PIR 有近30万个蛋白质的登录数据项，包括来自不同生物体的蛋白质序列。除了蛋白质序列数据之外，PIR还包含以下信息：（1）蛋白质名称、蛋白质的分类、蛋白质的来源；（2）关于原始数据的参考文献；（3）蛋白质功能和蛋白质的一般特征，包括基因表达、翻译后处理、活化等；（4）序列中相关的位点、功能区域。对于数据库中的每一个登录项，有与其它数据库的交叉索引，包括到GenBank、EMBL、DDBJ、GDB、MELINE等数据库的索引。PIR中一个具体的登录项如图4.4所示。

蛋白质分类

第五节蛋白质得分类、提取、分离及测定蛋白质种类繁多,结构复杂,目前有几种分类方法,作一介绍。一、根据分子形状分类根据蛋白质分子外形得对称程度可将其分为两类。 1、球状蛋白质球状蛋白质（glｏbuｌar proteins）分子比较对称,接近球形或椭球形。溶解度较好，能结晶。大多数蛋白质属于球状蛋白质，如血红蛋白、肌红蛋白、酶、抗体等。 2、纤维蛋白质纤维蛋白质(fiｂrous proteinｓ)分子对称性差,类似于细棒状或纤维状。溶解性质各不相同，大多数不溶于水,如胶原蛋白、角蛋白等。有些则溶于水,如肌球蛋白、血纤维蛋白原等二、根据化学组成分类根据化学组成可将蛋白质分为两类。 (一)简单蛋白质简单蛋白质(ｓｉmplｅ prｏｔｅinｓ)分子中只含有氨基酸,没有其它成分。１、清蛋白清蛋白（alｂｕmｉn）又称白蛋白，分子量较小,溶于水、中性盐类、稀酸与稀碱,可被饱与硫酸铵沉淀.清蛋白在自然界分布广泛，如小麦种子中得麦清蛋白、血液中得血清清蛋白与鸡蛋中得卵清蛋白等都属于清蛋白。 2、球蛋白球蛋白（globulins)一般不溶于水而溶于稀盐溶液、稀酸或稀碱溶液,可被半饱与得硫酸铵沉淀.球蛋白在生物界广泛存在并具有重要得生物功能。大豆种子中得豆球蛋白、血液中得血清球蛋白、肌肉中得肌球蛋白以及免疫球蛋白都属于这一类. ３、组蛋白组蛋白(ｈisｔones）可溶于水或稀酸。组蛋白就是染色体得结构蛋白，含有丰富得精氨酸与赖氨酸,所以就是一类碱性蛋白质。 4、精蛋白精蛋白(protａmineｓ)易溶于水或稀酸，就是一类分子量较小结构简单得蛋白质。精蛋白含有较多得碱性氨基酸，缺少色氨酸与酪氨酸,所以就是一类碱性蛋白质。精蛋白存在于成熟得精细胞中,与DNA 结合在一起,如鱼精蛋白。 5、醇溶蛋白醇溶蛋白(ｐrｏlamineｓ)不溶于水与盐溶液，溶于70％~80%得乙醇，多存在于禾本科作物得种子中，如玉米醇溶蛋白、小麦醇溶蛋白。 6、谷蛋白类谷蛋白（glutｅlinｓ)不溶于水、稀盐溶液，溶于稀酸与稀碱。谷蛋白存在于植物种子中，如水稻种子中得稻谷蛋白与小麦种子中得麦谷蛋白等。 7、硬蛋白类硬蛋白(sclｅrｏｐroteｉns)不溶于水、盐溶液、稀酸、稀碱,主要存在于皮肤、毛

蛋白质的功能域、结构及其药物设计----6

第六章蛋白质的功能域、结构及其药物设计随着人类基因组全序列测定的完成，预示着基因组研究从结构基因组(Structural Genomics)进入了功能基因组(Functional Genomics)研究时代。研究基因组功能当然首先要研究基因表达的模式。当前研究这一问题可以基于核酸技术，也可以基于蛋白质技术，即直接研究基因的表达产物。测定一个有机体的基因组所表达的全部蛋白质的设想是由Williams于1994年正式提出的，而“蛋白质组”(proteome)一词是Wilkins于1995年首次提出。蛋白质组是指由一个细胞或组织的基因组所表达的全部相应的蛋白质。蛋白质组与基因组相对应，均是一个整体概念，但是两者又有根本的不同：一个有机体只有一个确定的基因组，组成该有机体的所有不同细胞都共享有一个基因组；但是，基因组内各个基因表达的条件、时间和部位等不同，因而它们的表达产物(蛋白质)也随条件、时间和部位的不同而有所不同。因此，蛋白质组又是一个动态的概念。由于以上原因，再加上由于基因剪接，蛋白质翻译后修饰和蛋白质剪接，基因遗传信息的表达规律更趋复杂，不再是经典的一个基因一个蛋白的对应关系，而是一个基因可以表达的蛋白质数目大于一。由此可见，蛋白质组研究是一项复杂而艰巨的任务。蛋白质结构与功能的研究已有相当长的历史，由于其复杂性，对其结构与功能的预测不论是方法论还是基础理论方面均较复杂。统计学方法曾被成功地应用于蛋白质二级结构预测中，如Chou和Fasman提出的经验参数法便是最突出的例子。该方法统计分析了各种氨基酸的二级结构分布特征，得出相应参数(P а,P β 和P t )并用于预测。本章将简要介绍蛋白质结构与功能预测的生物信息学途径。第一节蛋白质功能预测一、根据序列预测功能的一般过程如果序列重叠群(contig)包含有蛋白质编码区，则接下来的分析任务是确定表达产物——蛋白质的功能。蛋白质的许多特性可直接从序列上分析获得，如疏水性，它可以用于预测序列是否跨膜螺旋(transmenbrane helix)或是前导序列(leader sequence)。但是，总的来说，我们根据序列预测蛋白质功能的唯一方法是通过数据库搜寻，比较该蛋白是否与已知功能的蛋白质相似。有2条主要途径可以进行上述的比较分析： ①比较未知蛋白序列与已知蛋白质序列的相似性； ②查找未知蛋白中是否包含与特定蛋白质家族或功能域有关的亚序列或保守区段。图6.1给出了根据序列预测蛋白质功能的大致过程。由于涉及数条技术路线，所得出的分析结果并不会总是相一致。一般来说，数据库相似性搜索获得的结果最为可靠，而来自PROSITE的结果相对不可靠。

UniProt：蛋白质的全信息数据库

Nucleic Acids Research, 2004, Vol. 32, Database issue D115-D119? 2004 Oxford University Press UniProt：蛋白质的全信息数据库摘要为了给科学界提供一个专门，集中，权威的蛋白质序列和功能的信息资源，瑞士－Prot，TrEMBL 和PIR蛋白质数据库已经合作组成了蛋白质的全信息数据库 (UniProt)。我们的目的是用广泛的对照和询问接口来提供一个全面的，分类完全的，丰富并且准确的蛋白质序列信息。中心数据库将有两个部分：符合熟悉的瑞士－Prot(完全手工操作入口)和TrEMBL(使用丰富的自动化的分类，注释和广泛的对照)。为方便序列查寻，UniProt也提供几个无冗余的序列数据库。 UniProt NREF(UniRef)数据库为高效率的搜寻提供适当的蛋白质的全信息数据库的代表性的子集。全面的UniProt 档案(UniParc)每天从很多公共来源数据库更新。数据库那些UniProt接口可在线访问(https://www.360docs.net/doc/6110616939.html,)或者以几个形式下载(ftp：//https://www.360docs.net/doc/6110616939.html,/pub)。我们鼓励科学界人士向UniProt 提供数据。介绍近来，瑞士-Prot + TrEMBL和PIR-PSD如同蛋白质数据库不同的序列信息覆盖面和注释优势共存。 2002年，在生物信息科学(SIB)的瑞士研究所和欧洲生物信息科学研究所的瑞士-Prot + TrEMBL 组 (EBI)和蛋白质信息资源(PIR)组织在乔治敦大学医学中心和国家生物医学的研究基金会联合协作。新联合的组织的主要任务是通过建立一个综合，详细分类，丰富并且准确注释蛋白质序列的优质的数据库和广泛序列对比和询问服务的到科学团体免费接口

蛋白质的分类

蛋白质的分类一般根据蛋白质分子的形状、化学组成、功能等对蛋白质进行分类。按形状分类可分为：①纤维蛋白，它的分子为细长形，不溶于水，丝、羊毛、皮肤、头发、角、爪甲、蹄、羽毛、结缔组织等都是纤维蛋白。②球蛋白，它的分子呈球形或椭球形，一般能溶于水或含有酸、碱、盐、乙醇的水溶液，酶和激素蛋白都是球蛋白。按化学组成分类，可分为：①简单蛋白，只由蛋白质本身，即只由多肽链组成。②结合蛋白，它是由蛋白质和非氨基酸物质（如核酸、脂肪、糖、色素等）结合而成的蛋白质，所以它又称复合蛋白。蛋白质与核酸结合可生成核蛋白，蛋白质和脂肪结合可生成脂蛋白，蛋白质和糖结合可生成糖蛋白，蛋白质和血红素结合可生成血红蛋白。按功能分类，蛋白质可分为：①活性蛋白（如酶、激素蛋白）。②非活性蛋白（如胶原蛋白、角蛋白、弹性蛋白）。蛋白质的分类营养学上根据食物蛋白质所含氨基酸的种类和数量不同，其营养价值也不同，可将食物蛋白质分三类： 1. 完全蛋白质这是一类优质蛋白质。它们所含的必需氨基酸种类齐全，数量充足，彼此比例适当。这一类蛋白质不但可以维持人体健康，还可以促进生长发育。奶、蛋、鱼、肉中的蛋白质都属于完全蛋白质。 2. 半完全蛋白质这类蛋白质所含氨基酸虽然种类齐全，但其中某些氨基酸的数量不能满足人体的需要。它们可以维持生命，但不能促进生长发育。例如，小麦中的麦胶蛋白便是半完全蛋白质，含赖氨酸很少。食物中所含与人体所需相比有差距的某一种或某几种氨基酸叫做限制氨基酸。谷类蛋白质中赖氨酸含量多半较少，所以，它们的限制氨基酸是赖氨酸。 3. 不完全蛋白质这类蛋白质不能提供人体所需的全部必需氨基酸，单纯靠它们既不能促进生长发育，也不能维持生命。例如，肉皮中的胶原蛋白便是不完全蛋白质。