蛋白质的功能域、结构及其药物设计----6
蛋白质分子的结构与功能

蛋白质分子的结构与功能蛋白质是生物体中最基本的一种分子,在生命体系内起着非常重要的作用。
生命中的各种生物分子和分子间相互作用的过程,都涉及到蛋白质分子的结构和功能。
本文将重点介绍蛋白质分子的结构和功能及其在生命体系内的作用。
一、蛋白质分子的结构蛋白质分子的结构非常复杂,同时也是非常奇妙的。
它由一条或者多条氨基酸链连接而成,氨基酸之间通过肽键连接在一起,形成了具有特定结构和功能的蛋白质分子。
1. 氨基酸的结构氨基酸是构成蛋白质分子的基本单元。
氨基酸分子由一羧基(-COOH)、一氨基(-NH2)和一个侧链组成。
氨基酸的特殊结构和其侧链组成,使得蛋白质分子具有非常复杂的结构和功能。
2. 蛋白质分子的层级结构蛋白质分子的层级结构分为四个层次,分别为: 一级结构、二级结构、三级结构和四级结构。
- 一级结构:指蛋白质分子中的氨基酸序列,也称为肽链序列。
氨基酸序列的不同,使得蛋白质分子拥有不同的结构和功能。
- 二级结构:是指蛋白质分子通过氢键、疏水作用等相互作用,形成了一些局部的稳定结构。
二级结构有两种形式: α-螺旋和β-折叠。
- 三级结构:是指蛋白质分子二级结构的经过折叠而形成的立体形态,也叫做蛋白质的原生构象,它决定了蛋白质分子的最基本的结构和功能。
- 四级结构:是指由两个或者更多的蛋白质分子,通过分子间相互作用所形成的大分子复合体,例如酶等大分子复合体。
二、蛋白质分子的功能蛋白质分子拥有多样的功能,其功能多样化与蛋白质分子的多样化结构有关。
常见的蛋白质分子功能有: 酶、运输蛋白、储存蛋白、因子、免疫蛋白以及结构蛋白等。
1. 酶酶是一类催化生物体中化学反应的蛋白质分子,可在细胞内、细胞膜上或细胞外等环境中发挥催化作用。
酶催化作用的速度非常快,能够加快化学反应,使化学反应更加高效和有效。
2. 运输蛋白运输蛋白主要负责生物体内物质的输送,如血浆中的氧气可以通过红细胞中的血红蛋白之间的结合来进行输送。
3. 储存蛋白储存蛋白是一种起储存作用的蛋白质,例如,在缺乏食物的情况下,哺乳动物的身体会利用储存蛋白来满足生命活动的需要。
蛋白质的结构与功能(6)

2、细胞色素C与系统树
一百多个AA残基 MW约12.5×103 2 8个不变残基
细胞色素C的AA序列差异可用于核对各物种 间的分类学关系以及绘制系统树/进化树。
细胞色素C
细胞色素C是一种含血红素的蛋白质,在 线粒体中起电子传递的作用。大多数细胞色素 C含一百零几个氨基酸残基,40多个物种的细 胞色素C氨基酸序列分析表明,有28个残基是 不变的,所有细胞色素C在第14位,第17位上 都是一个Cys残基,这个残基是血红素结合的 部位。
BPG
离子键稳定T态
O2和BPG与血红蛋白的结合是互相排斥的,虽然它们有 自己的结合部位并相隔较远
氧合Hb中央空穴太小,容纳不了BPG,
BPG对R态Hb亲和力的大小顺序为: HbO2>Hb(O2)2>Hb(O2)3
BPG与Hb(O2)4不结合
fetal hemoglobin 胎儿血红蛋白 HbF (α 2γ2 ) 对氧的亲和力比成人高,从母体的HbA中 获得O2 ——Ser取代His
细胞色素C的不变残基
不同物种异细残胞基色数素C的差
黑猩猩 绵羊 响尾蛇 鲤鱼 蜗牛 天蛾 酵母 花椰菜 欧防风
人
0 10 14 18 29 31 44 44 43
黑猩猩
w 死亡率极高 w 由于遗传基因突
变导致血红蛋白 分子结构突变
Β镰刀状细胞贫血病
镰刀状细胞贫血病是一种致死性疾病,它的纯 合子患者有的在童年就死亡。杂合子患者的寿命也 不长,但它能抵抗一种流行于非洲的疟疾。这种疟 疾也是一种致死性疾病,甚至对于具有正常血红蛋 白的人死于这种疟疾的比例也很高,常常在还没有 繁殖后代就已死去。Hbs杂合子患者对这种疟疾有 一定的抵抗能力,尚能繁殖后代,这是因为杂合子 患者加速被感染红细胞的破坏而中断疟原虫的生活 周期的缘故。
蛋白质的功能和结构研究

蛋白质的功能和结构研究蛋白质是生命的基本组成部分之一,在生物学领域中起着重要的作用。
由于它的广泛应用和大量的应用价值,蛋白质在生物学、医学等领域中一直被大量研究。
本文主要探讨蛋白质的功能和结构及其研究的相关内容。
一、预备知识在开始探讨蛋白质的功能和结构及其研究的相关内容之前,我们需要先了解一些与蛋白质相关的基础知识。
1. 蛋白质的基本结构和组成蛋白质是一种由氨基酸构成的高分子有机化合物,是生命体中许多关键结构和功能的基础组成部分。
其中,氨基酸是蛋白质所构成的基本单元,它们通过肽键进行缩合形成多肽链,然后多肽链进一步折叠成蛋白质分子。
2. 蛋白质的分子量蛋白质的分子量通常较大,常见的蛋白质分子量在10,000至1,000,000之间。
其中,分子量较小的蛋白质称为小型蛋白质,而大型蛋白质则包括了许多复合蛋白质和膜蛋白质。
3. 蛋白质的结构分类蛋白质可以根据其结构分为四类:原生质,二级结构,三级结构和四级结构。
原生态是蛋白质最初折叠的状态,二级结构是多肽链中相邻氨基酸的折叠方式,三级结构是碳水化合物折叠成一个与其他区域相对分离的单独域,四级结构是几个多链组装在一起形成一个多链复合物。
二、蛋白质的功能蛋白质在生命体中扮演着几乎所有生物过程的关键角色。
它们是组成肌肉、调节细胞的信号传递、催化生化反应、免疫应答、运输激素、维护结构等过程中的关键部分。
以下是蛋白质在生物学中扮演的一些关键角色。
1. 催化酶许多化学反应需要催化剂才能发生,而蛋白质酶就是生物体中最常见的催化酶类型。
酶是生命过程中许多重要的生物反应中所需的催化剂,如营养成分消化、免疫反应、信号转导、DNA复制和细胞呼吸等。
2. 组成细胞的结构蛋白质是细胞中许多重要分子的基本组成部分,如细胞质中的细胞骨架蛋白质、细胞核中的染色质蛋白质和核酸转录蛋白质。
细胞的功能和命运都与蛋白质有关,如细胞繁殖、信号传递和氧化还原反应等。
3. 维护组织的形态许多结构性蛋白质都在生命过程中起到关键作用。
蛋白质的功能域、结构及其药物设计----6

第六章 蛋白质的功能域、结构及其药物设计随着人类基因组全序列测定的完成,预示着基因组研究从结构基因组(Structural Genomics)进入了功能基因组(Functional Genomics)研究时代。
研究基因组功能当然首先要研究基因表达的模式。
当前研究这一问题可以基于核酸技术,也可以基于蛋白质技术,即直接研究基因的表达产物。
测定一个有机体的基因组所表达的全部蛋白质的设想是由Williams于1994年正式提出的,而“蛋白质组”(proteome)一词是Wilkins于1995年首次提出。
蛋白质组是指由一个细胞或组织的基因组所表达的全部相应的蛋白质。
蛋白质组与基因组相对应,均是一个整体概念,但是两者又有根本的不同:一个有机体只有一个确定的基因组,组成该有机体的所有不同细胞都共享有一个基因组;但是,基因组内各个基因表达的条件、时间和部位等不同,因而它们的表达产物(蛋白质)也随条件、时间和部位的不同而有所不同。
因此,蛋白质组又是一个动态的概念。
由于以上原因,再加上由于基因剪接,蛋白质翻译后修饰和蛋白质剪接,基因遗传信息的表达规律更趋复杂,不再是经典的一个基因一个蛋白的对应关系,而是一个基因可以表达的蛋白质数目大于一。
由此可见,蛋白质组研究是一项复杂而艰巨的任务。
蛋白质结构与功能的研究已有相当长的历史,由于其复杂性,对其结构与功能的预测不论是方法论还是基础理论方面均较复杂。
统计学方法曾被成功地应用于蛋白质二级结构预测中,如Chou和Fasman提出的经验参数法便是最突出的例子。
该方法统计分析了各种氨基酸的二级结构分布特征,得出相应参数(Pа,Pβ和Pt)并用于预测。
本章将简要介绍蛋白质结构与功能预测的生物信息学途径。
第一节 蛋白质功能预测一、根据序列预测功能的一般过程如果序列重叠群(contig)包含有蛋白质编码区,则接下来的分析任务是确定表达产物——蛋白质的功能。
蛋白质的许多特性可直接从序列上分析获得,如疏水性,它可以用于预测序列是否跨膜螺旋(transmenbrane helix)或是前导序列(leader sequence)。
蛋白质结构和功能

蛋白质结构和功能蛋白质是生命体中最为重要的基本物质之一,它在生命体内扮演着十分重要的角色,包括参与代谢、传递信息、免疫保护、传递遗传信息等一系列功能。
蛋白质的功能多种多样,这主要源于蛋白质的结构具有高度的多样性。
本文将重点介绍蛋白质的结构和功能以及如何通过结构来解析其功能。
蛋白质的结构层次。
蛋白质的结构层次从一维、二维到三维逐步升高,具体包括以下四个层次:1. 一级结构。
蛋白质的一级结构是指由氨基酸序列构成的线性多肽链。
氨基酸是蛋白质的基本组成部分,一共有20种氨基酸。
每个氨基酸都有一个羧基和一个氨基,羧基与氨基可以通过肽键(C-N)形成共价键连接在一起,形成多肽链。
2. 二级结构。
蛋白质的二级结构是指由多肽链中的氨基酸残基之间的氢键以及主链原子之间的相对位置关系所构成的结构。
常见的二级结构有α-螺旋和β-折叠。
α-螺旋结构是由氢键稳定的一种右旋螺旋,其中每个氨基酸的羧基和氨基通过氢键与前后两个氨基酸的氨基和羧基相互作用,形成螺旋结构。
β-折叠结构是由氢键稳定的β片层,其中β片层由多个反向排列的β转角所组成。
3. 三级结构。
蛋白质的三级结构是由多肽链中的氨基酸残余与相互作用的侧链交相作用,形成了更加复杂的空间结构。
这些侧链之间的相互作用包括氢键、离子键、范德华力、疏水作用等。
4. 四级结构。
四级结构是由两个或多个多肽链之间相对位置的关系所构成的结构。
成为寡聚体或聚合物。
具体包括二聚体(有两个相同的多肽链)、三聚体(有三个相同的多肽链)和四聚体(有四个相同的多肽链)等。
蛋白质的结构与功能的关系。
蛋白质的结构是决定其功能的重要因素之一。
不同的结构类型与不同的功能相互关联。
比如,结构酶的活性中心的氨基酸残基特征性质就是相互配对或与底物形成氢键、共价键或离子键;抗体的结构差异体现在其免疫活性上;肌动蛋白的特殊结构赋予它在肌肉等组织中的独特作用。
如何通过结构解析蛋白质的功能。
解析蛋白质的结构和功能是研究蛋白质科学的重要领域之一。
il-6蛋白分子量

il-6蛋白分子量IL-6(Interleukin-6),又称白细胞介素-6,是一种细胞因子蛋白,属于白细胞介素家族的一员。
它在免疫调节、炎症反应和组织修复等生理过程中发挥重要作用。
了解IL-6的分子量对于研究其结构和功能具有重要意义。
一、基本概述IL-6由人体内多种细胞产生,包括T淋巴细胞、B淋巴细胞、单核细胞、成纤维细胞等。
它的生物活性通过与细胞表面的IL-6受体结合,并启动下游信号转导通路来实现。
IL-6在免疫系统、代谢调节和神经系统等方面发挥着重要的生理和病理功能。
二、IL-6的结构IL-6是一种多肽蛋白,由184个氨基酸残基组成。
它具有四个α螺旋结构域和两个连接链(linker)区域。
其中,α螺旋结构域负责与受体结合,连接链起到稳定蛋白结构的作用。
IL-6的N端具有信号肽序列,用于定位和转运蛋白。
三、IL-6的分子量IL-6的分子量可以通过多种方法进行测定。
常见的方法包括SDS-PAGE电泳和质谱法。
1.SDS-PAGE电泳:通过将蛋白样品与SDS(十二烷基硫酸钠)和还原剂混合,使蛋白质在凝胶中形成复杂的结构,然后根据电荷大小和分子量进行迁移,最终通过染色或免疫印迹等方法确定目标蛋白的位置。
根据实验条件和所用凝胶的类型,IL-6的预测分子量约为22-26kDa。
2.质谱法:质谱法是一种直接测量蛋白质分子量的方法,常用的包括质谱仪和MALDI-TOF/TOF质谱技术。
这些技术能够以高精度和灵敏度测定蛋白质的分子量,其中IL-6的实际分子量约为21-28kDa。
需要注意的是,由于不同实验条件和试剂的差异,实际测得的IL-6分子量可能会存在一定的变异性。
此外,蛋白质的空间构象和修饰(如糖基化、磷酸化等)也会影响其分子量。
四、应用与意义了解IL-6的分子量对于研究其生物学功能和相互作用具有重要意义。
1.生理功能:IL-6在免疫调节、炎症反应、细胞增殖和分化、组织修复等方面发挥重要作用。
通过研究IL-6的分子量,可以更好地理解其在这些生理过程中的功能和机制。
第一章蛋白质的结构与功能蛋白质的...

第一章蛋白质的结构与功能一.蛋白质的分子组成组成蛋白质的元素主要:C、H、O、N、S,各种蛋白质的含氮量很接近,平均为16%人体蛋白质的氨基酸仅有20种,且均属L-α-氨基酸(甘氨酸除外)氨基酸等电点:在某一pH的溶液中,氨基酸解离成阳离子和阴离子的趋势及程度相等,成为兼性离子,呈电中性。
此时溶液的pH称为该氨基酸的等电点(pI)。
色氨酸、酪氨酸的最大吸收峰在280nm附近氨基酸与茚三酮水合物共热,可生成蓝紫色化合物肽键:由一个氨基酸的α-羧基与另一个氨基酸的α-氨基脱水缩合而形成的化学键谷胱甘肽(GSH)是由谷氨酸,半胱氨酸,甘氨酸组成的三肽。
第一个肽键与一般的不同,甘氨酸的γ-羧基与半胱氨酸的氨基组成,分子中半胱氨酸的巯基是主要功能基团。
GSH的巯基有还原性,可作为体内重要的还原剂,保护体内蛋白质或酶分子中巯基免遭氧化,使蛋白质和酶保持活性状态。
二.蛋白质的分子结构α-螺旋的结构特点:1.多个肽键平面通过α-碳原子旋转,相互之间紧密盘曲成稳固的右手螺旋2.主链呈螺旋上升,每3.6个氨基酸残基上升一圈,相当于0.54nm,这与X线衍射图符合3.相邻两圈螺旋之间借肽键中C=O和NH形成许多链内氢健,这是稳定α-螺旋的主要键4.肽链中氨基酸侧链R分布在螺旋外侧,其形状、大小及电荷影响α-螺旋的形成基团影响α-螺旋的稳定性包括以下三个方面:1.酸性或碱性氨基酸集中区域(两种电荷相互排斥)2.脯氨酸不利于α-螺旋的形成3.较大R基团侧链集中区域(空间位阻效应)β-折叠要点:1.是肽链相当伸展的结构,肽链平面之间折叠成锯齿状2.依靠两条肽链或一条肽链内的两段肽链间的C=O与H形成氢键,使构象稳定3.氨基酸残基的R侧链伸出在锯齿的上方或下方4.两段肽链可以是平行的,也可以是反平行的超二级结构有三种基本形式:1.α-螺旋组合(αα)2.β-折叠组合(ββ)3.α-螺旋β-折叠组合(βαβ)三.蛋白质结构与功能的关系镰刀形红细胞贫血:血红蛋白有2个α亚基和2个β亚基组成,其中β亚基的第六个氨基酸谷氨酸突变成缬氨酸。
蛋白质结构与药物设计

蛋白质结构与药物设计蛋白质结构是指蛋白质分子在空间中的排列方式,是决定蛋白质功能和性能的基础。
对于药物设计来说,了解蛋白质结构对于合理设计具有高效和选择性的药物至关重要。
本文将介绍蛋白质的基本结构、药物与蛋白质的相互作用以及利用蛋白质结构进行药物设计的方法。
一、蛋白质的基本结构蛋白质的基本结构包括一级结构、二级结构、三级结构和四级结构。
一级结构是指蛋白质序列中氨基酸的线性排列方式,由肽键连接。
二级结构是指蛋白质链中部分区域的局部折叠方式,常见的二级结构包括α-螺旋和β-折叠。
三级结构是指整个蛋白质分子的空间排列方式,包括局部和整体的折叠形态。
四级结构是由两个或多个蛋白质分子组合而成的复合物结构。
二、药物与蛋白质的相互作用药物与蛋白质的相互作用是指药物与蛋白质分子之间发生的非共价或共价作用。
常见的非共价相互作用包括氢键、疏水作用、离子键和范德华力等,这些作用通过药物与蛋白质的结合能够改变蛋白质的构象和功能。
共价相互作用通常指药物与蛋白质中的亲核基团或电子云的结合。
三、利用蛋白质结构进行药物设计的方法1. 靶点蛋白的结构确定了解靶点蛋白结构是进行药物设计的基础。
通过蛋白质结晶学、核磁共振、电子显微镜等技术,确定蛋白质的三维结构。
靶点蛋白结构的解析有助于理解蛋白质的功能及与其他分子之间的相互作用。
2. 药物分子的构效关系分析通过分析一系列药物分子的结构和药效学数据,建立药物分子的构效关系模型,了解药物分子结构与活性之间的内在规律。
这有助于预测新型化合物的结构和活性,指导药物设计和合成。
3. 药物分子的分子对接模拟通过分子对接模拟方法,将药物分子与靶点蛋白进行模拟对接,预测药物分子与靶点蛋白的相互作用方式和结合位点。
这有助于优选药物分子结构,改善药物的亲和性和选择性。
4. 蛋白质工程和蛋白质设计通过改变蛋白质的基因序列和结构,设计新型的蛋白质,以获得具有特殊功能和性能的蛋白质。
蛋白质工程和蛋白质设计可以用于改善药物的药理性质和生物利用度。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六章 蛋白质的功能域、结构及其药物设计随着人类基因组全序列测定的完成,预示着基因组研究从结构基因组(Structural Genomics)进入了功能基因组(Functional Genomics)研究时代。
研究基因组功能当然首先要研究基因表达的模式。
当前研究这一问题可以基于核酸技术,也可以基于蛋白质技术,即直接研究基因的表达产物。
测定一个有机体的基因组所表达的全部蛋白质的设想是由Williams于1994年正式提出的,而“蛋白质组”(proteome)一词是Wilkins于1995年首次提出。
蛋白质组是指由一个细胞或组织的基因组所表达的全部相应的蛋白质。
蛋白质组与基因组相对应,均是一个整体概念,但是两者又有根本的不同:一个有机体只有一个确定的基因组,组成该有机体的所有不同细胞都共享有一个基因组;但是,基因组内各个基因表达的条件、时间和部位等不同,因而它们的表达产物(蛋白质)也随条件、时间和部位的不同而有所不同。
因此,蛋白质组又是一个动态的概念。
由于以上原因,再加上由于基因剪接,蛋白质翻译后修饰和蛋白质剪接,基因遗传信息的表达规律更趋复杂,不再是经典的一个基因一个蛋白的对应关系,而是一个基因可以表达的蛋白质数目大于一。
由此可见,蛋白质组研究是一项复杂而艰巨的任务。
蛋白质结构与功能的研究已有相当长的历史,由于其复杂性,对其结构与功能的预测不论是方法论还是基础理论方面均较复杂。
统计学方法曾被成功地应用于蛋白质二级结构预测中,如Chou和Fasman提出的经验参数法便是最突出的例子。
该方法统计分析了各种氨基酸的二级结构分布特征,得出相应参数(Pа,Pβ和Pt)并用于预测。
本章将简要介绍蛋白质结构与功能预测的生物信息学途径。
第一节 蛋白质功能预测一、根据序列预测功能的一般过程如果序列重叠群(contig)包含有蛋白质编码区,则接下来的分析任务是确定表达产物——蛋白质的功能。
蛋白质的许多特性可直接从序列上分析获得,如疏水性,它可以用于预测序列是否跨膜螺旋(transmenbrane helix)或是前导序列(leader sequence)。
但是,总的来说,我们根据序列预测蛋白质功能的唯一方法是通过数据库搜寻,比较该蛋白是否与已知功能的蛋白质相似。
有2条主要途径可以进行上述的比较分析:①比较未知蛋白序列与已知蛋白质序列的相似性;②查找未知蛋白中是否包含与特定蛋白质家族或功能域有关的亚序列或保守区段。
图6.1给出了根据序列预测蛋白质功能的大致过程。
由于涉及数条技术路线,所得出的分析结果并不会总是相一致。
一般来说,数据库相似性搜索获得的结果最为可靠,而来自PROSITE的结果相对不可靠。
图6.1 根据序列预测蛋白质功能的技术路线二、通过比对数据库相似序列确定功能具有相似序列的蛋白质具有相似的功能。
因此,最可靠的确定蛋白质功能的方法是进行数据库的相似性搜索。
具体的搜索方法可参见第三章,但应记住,一个显著的匹配应至少有25%的相同序列和超过80个氨基酸的区段。
已有不少种类的数据库搜索工具,它们或者搜索速度慢,但灵敏;或者快速,但不灵敏。
快速搜索工具(如BLASTP)很容易发现匹配良好的序列,所以没有必要再运行更花时的工具(如FASTA、BLITZ);只有在诸如BLASTP不能发现显著的匹配序列时,这些工具才被使用。
所以,一般的策略是首先进行BLAST检索,如果不能提供相关结果,运行FASTA;如果FASTA也不能得到有关蛋白质功能的线索,最后可选用完全根据Smith-Waterman算法设计的搜索程序,例如BLITZ(/searches/blitz.html)。
BLITZ不做近似估计(BLAST和FASTA根据Smith-Waterman算法做近似估计),所以很花时,但非常灵敏。
通常诸如BLITZ的程序能够发现超过几百个残基但序列相同比率低于20~25%的匹配,这些匹配可能达到显著,但会被那些应用近似估计的程序错过。
还应注意计分矩阵(scoring matrix)的重要性。
选用不同的计分矩阵有不少重要原因:首先,选用的矩阵必须与匹配水平相一致,例如,PAM250应用于远距离匹配(<25%相同比率),PAM40应用于不很相近的蛋白质序列,而BLOSUM62是一个通用矩阵;第二,使用不同矩阵,可以发现始终出现的匹配序列,这是一条减少误差的办法。
除了选用不同的计分矩阵,同样可以考虑选用不同的数据库。
通常可以使用的数据库是无冗余蛋白序列数据库SWISS-PROT和PDB。
其它一些数据库也可以试试,如可用BLASTP搜索复合蛋白质序列库OWL (/bsm/dbbrowser/OWL/owl_blast.html)。
二、序列特性:疏水性、跨膜螺旋等许多功能可直接从蛋白质序列预测出来。
例如,疏水性信息可被用于跨膜螺旋的预测。
还有不少小的模序(motif)是细胞用于特定细胞区室(cell compartment)蛋白质的定向。
网上有大量数据资源帮助我们利用这些特性预测蛋白质功能。
疏水性信息可用ExPASy(http://expasy.hcuge.ch/egibin/protscal.pl)的ProtScale程序创建并演示。
这是一个很有用的工具,它能计算超过50种蛋白质的特性。
程序的输入即可通过输入框将序列粘贴进去,也可输入SWISS-PROT的记录号。
仅一项需要额外设定的参数是输入框的宽度,该参数将指示系统每次运行计算和显示的残基数,其缺省值为9。
如果想考虑跨膜螺旋特性,该参数设置应为20,因为一个跨膜螺旋通常有20个氨基酸长度。
图6.2是ProtScal程序的一个典型结果显示格式。
图171 图16.2有多种方法可以预测序列的跨膜螺旋。
最简单的方法是通过查找包含有20个疏水残基的区段,一些更复杂、更准确的算法不仅可以预测跨膜螺旋的位置,还能确定其在膜上的方向。
这些方法都依赖于一系列已知跨膜螺旋特性的研究结果。
TMbase是一个自然发生的跨膜螺旋数据库(http://ulrec3.unil.ch/tmbase/TMBASE_doc.html)。
相关的一些程序:TMPRED (http://ulrec3.unil.ch/software/TMPRED-form.html)、PHDhtm (www.embl_heidelberg.de/services/sander/predictprotein/predictprotein. html)、TMAP (http://www.embl-heidelberg.de/tmap/tmap/tmap_sin.html)和MEMSAT ()。
这些程序将使用了不同的统计模型,总体上,预测准确率在80~95%左右。
跨膜螺旋是可以根据序列数据比较准确预测的蛋白质特性之一。
预测前导序列或特殊区室靶蛋白信号的程序:SignalP (http://www.cbs.dtu.dk/services/SignalP)和PSORT (http://psort.nibbac.jp/form.html)。
另一个可从序列中确定的功能模序是卷曲(coil)螺旋。
在这一结构中,二个螺旋由于疏水作用而缠绕在一起形成非常稳定的结构。
相关的2个程序:COILS (http://ulrec3.unil.ch/software/COILS_form.html)和Paircoil (/cgi-bin/score)。
四、通过比对模序数据库等确定功能经常会出现这样的情况:通过列线,未知蛋白质序列与数据库内已知功能的序列均相差较大,找不到可靠的匹配结果,相反,也许会发现与某一不知功能的序列相匹配。
对于这一情况,仍然可以用生物信息学工具进行一些分析。
蛋白质不同区段的进化速率不同:蛋白质的一些部分必须保持一定的残基模式以保持蛋白质的功能,通过确定这些保守区域,有可能为蛋白质功能提供线索。
例如,有许多短序列可以识别蛋白质活性位点或结合区域。
整联蛋白(integrin)受体识别RGD或LDV配体模序(motif),如果未知序列中包含有RGD模序,则可推测未知序列的一个功能可能是结合整联蛋白。
这样的推测并不是说该蛋白质序列一定会结合整联蛋白(许多含有RGD的蛋白质并不结合整联蛋白),但它的确为我们提供了一个可供试验的假设。
还有些例子是保守序列位于酶活性位点、转录后修饰位点、协作因子结合位点或蛋白质分类信号等,不少有关这些保守模式(pattern)的生物信息学资源已经建立起来,并已用于在序列的搜索比对。
主要有二种方法可用于序列模序的查找。
一种方法是查找匹配的一致(consensus)序列或模序。
该技术的优点是快捷,模序数据库庞大且不断被扩充;缺点是有时不灵敏,因为只有与一致序列或模序完全匹配才会被列出,而近乎匹配的都将被忽略。
这将使你进行更复杂的分析时受到严重限制。
这时,第二种方法,一种更精细的序列分布型(profile)方法将发生作用。
原则上,分布型搜索的是保守序列(不只是一致序列),这样可以更灵敏地找出那些相关性较远的序列。
但是分布型和分布型数据库的创建并非易事,它需要大量的计算和人力,因此,分布型数据库的记录数并没有模序数据库多。
在实际分析时,应同时对这二种类型的数据库都进行搜索,其中在一个数据库中显著的匹配可能在另一个数据库中被完全错过,反之亦然。
最知名的模序数据库是PROSITE(http://expasy.hcuge.ch/sprot/prosite.html)。
PROSITE记录的典型形式(以酪蛋白激酶Ⅱ磷酸化位点的一致序列为例):[ST]-x(2)-[DE],即一个丝氨酸(S)或酪氨酸(T)紧跟任意2个残基,然后再是一个D或E。
另外记录中包含了位点其它一些重要信息,如位点的作用、在何处被发现等。
分布型(profile)数据库主要有BLOCKS (/blocks/)、PRINTS (/bsm/dbbrowers/PRINTS/)和ProDom (http://protein.toulouse.inra.fr/prodom/prodom.html)。
正如其它生物信息学资源一样,这些数据库总是在规模和质量之间寻求平衡。
对于分布型数据库的质量来说,还包括多序列列线产生的分布型。
记录数最多的数据库是依赖于自动列线程序,得到的结果有时并非是最佳结果;而记录数少的数据库一般花很多时间用于分析,人工核对列线结果,力求产生高质量的结果。
一般地,分析时应搜索所有的相关数据库,以保证没有任何的遗漏。
BLOCKS数据库是利用PROSITE数据库模序经无空位多序列列线构建而成,PRINTS数据库(最小的数据库)的记录来自保守序列的多序列列线,而ProDom数据库(version33)数据则来自9600个蛋白功能区模序(domain motif)的列线结果。