第六章 蛋白质的功能域、结构及其药物设计
蛋白质结构与功能的关系及其在药物设计中的应用

蛋白质结构与功能的关系及其在药物设计中的应用蛋白质是生物体内最重要的分子之一,它们在维持细胞结构和功能方面发挥着关键作用。
蛋白质的结构与功能之间存在密切的关系,了解这种关系对于药物设计和疾病治疗至关重要。
本文将探讨蛋白质结构与功能的关系,并介绍其在药物设计中的应用。
蛋白质的结构是其功能的基础。
蛋白质的结构通常由氨基酸的线性序列决定,这些氨基酸通过肽键连接在一起,形成多肽链。
蛋白质的结构可以分为四个层次:一级结构、二级结构、三级结构和四级结构。
一级结构即氨基酸的线性序列,它决定了蛋白质的基本组成。
在蛋白质的一级结构中,不同的氨基酸按照特定的顺序排列,这种特定的排列决定了蛋白质的物理化学性质和功能。
例如,氨基酸的性质可以影响蛋白质的溶解度、稳定性和折叠速度。
二级结构是指多肽链内部较为规则的折叠形式,其中最常见的二级结构是α-螺旋和β-折叠。
α-螺旋由具有螺旋形状的氨基酸序列组成,而β-折叠由相邻的氨基酸之间的氢键连接形成。
二级结构对蛋白质的稳定性和功能起着重要的作用。
例如,α-螺旋结构常常用于跨膜蛋白,它们能够形成稳定的通道和信号传递路线。
三级结构是指多肽链的整体三维结构。
在蛋白质折叠的过程中,氨基酸之间通过非共价相互作用力(如氢键、离子键、疏水作用力和范德华力)相互作用,从而形成稳定的三维结构。
蛋白质的三级结构决定了其功能和特性。
例如,蛋白质的酶活性通常需要特定的三级结构,任何对该结构的破坏都会导致酶活性的丧失。
四级结构是指由多个多肽链相互作用形成的复合物。
多肽链之间的相互作用可以是非共价的,如静电相互作用、范德华力和疏水作用力。
四级结构对于蛋白质的功能和稳定性至关重要。
例如,许多激素和免疫球蛋白是由多个多肽链组装而成的,它们的结构决定了它们的功能和特性。
蛋白质的结构与功能之间的关系是复杂而精密的。
不同的蛋白质结构决定了它们的功能和特性。
了解蛋白质的结构可以帮助科学家设计新的药物以干预疾病相关的蛋白质功能。
蛋白质功能区域的结构分析

蛋白质功能区域的结构分析蛋白质是生命活动中不可或缺的组成部分,它们能够承担多种功能,如催化化学反应、运输物质、传递信号、提供结构支持等。
而蛋白质实现这些功能的基础,就是它们内部的功能区域结构。
本文将对蛋白质功能区域的结构进行分析。
一、功能区域介绍蛋白质的功能区域分为结构域和功能域两种。
结构域包括了保守性极高的二级、三级和四级结构区域,而功能域则是蛋白质内部功能分区的最小单元。
其根据不同的功能,可以分为催化酶活性域、配体结合区域、信号传递域、膜蛋白跨膜区域等。
其中,催化酶活性域是蛋白质进行催化反应的最重要结构域之一。
催化酶活性域一般由多个氨基酸组成,它们相互作用,形成一个略微凹陷的活性中心。
活性中心内存在着一些关键氨基酸残基,它们能够催化反应的进行。
二、功能区域结构的分析蛋白质的功能区域结构与其功能密切相关。
例如催化酶活性域,其结构具有很高的特异性,可以催化十分复杂的化学反应。
催化酶能够高效地转化反应底物,并在反应中不消耗本身,大大提高了生命体的代谢效率。
配体结合区域的结构也十分特殊,一般采用蛋白质和配体互补的结构。
这种结构能够保证配体和蛋白质之间的相互作用为最强,从而发挥最大的生物学效应。
例如药物的结合到蛋白质受体时,具备十分高的特异性,从而能够实现精准、高效的药物作用。
信号传递域则是进行信息传递的重要组成部分。
它能够将外界刺激转化为内部信号,从而启动一些生物学反应。
一些结构上的微小变化,可以使这些域从关闭状态切换到开放状态,启动信号传递过程。
三、功能区域的作用蛋白质的功能区域结构决定了它们的生物学功能。
这些功能区域在生理、病理、药物研究等各个方面都有着重要的应用。
例如:1、药物研究:研究药物和蛋白质结合的情况,能够发现新的靶点或设计更高效的药物。
2、疾病研究:了解蛋白质功能区域的结构,可以帮助研究疾病的发生机理和寻找治疗手段。
3、生物纳米技术:了解蛋白质功能区域的结构,可以帮助研发新型的生物传感器或纳米材料。
蛋白质的结构及功能课件.ppt

2. 侧链有极性但不带电荷的氨基酸是极性中 性氨基酸
蛋白质的结构及功能课件
3. 侧链含芳香基团的氨基酸是芳香族氨基酸
蛋白质的结构及功能课件
4. 侧链含负性解离基团的氨基酸是酸性氨基酸
蛋白质的结构及功能课件
5. 侧链含正性解离基团的氨基酸属于碱性 氨基酸
蛋白质的结构及功能课件
3. 氧化供能
蛋白质的结构及功能课件
第一节
蛋白质的分子组成
The Molecular Component of Protein
蛋白质的结构及功能课件
蛋白质的元素组成 主要有C、H、O、N和S。 有些蛋白质含有少量P或金属元素Fe、
Cu、Zn、Mn、Co、Mo,个别蛋白质还 含有 I 。
蛋白质的结构及功能课件
蛋白质的结构及功能课件
第三节
蛋白质结构与功能的关系
The Relation of Structure and Function of Protein
蛋白质的结构及功能课件
一、蛋白质一级结构与功能的关系
(一)一级结构是空间构象的基础
二
硫
键
牛核糖核酸酶的 一级结构
蛋白质的结构及功能课件
去除尿素、 β-巯基乙醇
蛋白质的结构及功能课件
生物化学与医学
• 生物化学的理论与技术已渗透到医学科 学的各个领域
• 生物化学在生命科学中占有重要的地位 • 生物化学的发展促进了疾病病因、诊断
和治疗的研究
蛋白质的结构及功能课件
本课内容简介(一)
• 蛋白质的结构与功能 •酶 • 生物氧化 • 糖代谢 • 脂类代谢 • 氨基酸代谢
几种特殊氨基酸
Gly:无手性碳原子。 Pro:为环状亚氨基酸。 Cys:可形成二硫键。
蛋白质结构及其在药物设计中的应用

蛋白质结构及其在药物设计中的应用蛋白质是生物体中至关重要的大分子,具有广泛的功能和结构多样性。
它们不仅在细胞代谢和调控中起着重要作用,还被广泛应用于药物设计和开发领域。
本文将重点探讨蛋白质结构的特点以及它们在药物设计中的应用。
一、蛋白质结构的特点蛋白质的结构可以分为四个层次:一级结构、二级结构、三级结构和四级结构。
一级结构是指蛋白质的氨基酸序列,二级结构是指蛋白质中局部区域的稳定构象,常见的二级结构包括α-螺旋和β-折叠。
三级结构是指整个蛋白质的空间构象,由一部分二级结构组成。
而四级结构是指两个或多个蛋白质亚单位的组合形成的复合物。
蛋白质的结构决定了它们的功能。
不同的蛋白质结构对应着不同的功能,如酶活性、运载功能、结构支持等。
蛋白质的结构还与其稳定性、抗原性、溶解性等物理化学性质密切相关。
因此,了解和研究蛋白质的结构对于揭示其功能和应用具有重要意义。
二、蛋白质在药物设计中的应用1. 靶点识别和药物设计蛋白质在药物设计中的一个重要应用是作为药物靶点的识别和设计。
通过了解靶点蛋白质的结构、功能和相互作用,可以开发出针对该蛋白质的药物。
例如,针对癌症细胞增殖的蛋白激酶靶点,研究人员可以通过分析其结构来设计出激酶抑制剂,从而达到抑制细胞增殖的治疗效果。
2. 药物设计和分子对接蛋白质结构在药物设计中还有助于分子对接的研究。
分子对接是指通过计算机模拟方法将药物分子和靶点蛋白质进行“对接”,以预测药物和蛋白质之间的结合方式和力学性质。
这样的研究可以加速药物设计的过程,提高药物的选择性和效果。
3. 药物代谢和副作用预测蛋白质的结构也被用于预测药物代谢和副作用。
根据药物与蛋白质之间的相互作用模式,可以预测药物在体内的代谢途径和可能的副作用。
这有助于优化药物分子的结构和性能,减少不必要的副作用。
4. 蛋白质工程和药物开发蛋白质工程是指通过改变蛋白质的结构和功能来得到具有特定性质的蛋白质。
蛋白质工程可以用于开发新型药物,改善药物的稳定性、活性和选择性。
蛋白质的功能域、结构及其药物设计----6

第六章 蛋白质的功能域、结构及其药物设计随着人类基因组全序列测定的完成,预示着基因组研究从结构基因组(Structural Genomics)进入了功能基因组(Functional Genomics)研究时代。
研究基因组功能当然首先要研究基因表达的模式。
当前研究这一问题可以基于核酸技术,也可以基于蛋白质技术,即直接研究基因的表达产物。
测定一个有机体的基因组所表达的全部蛋白质的设想是由Williams于1994年正式提出的,而“蛋白质组”(proteome)一词是Wilkins于1995年首次提出。
蛋白质组是指由一个细胞或组织的基因组所表达的全部相应的蛋白质。
蛋白质组与基因组相对应,均是一个整体概念,但是两者又有根本的不同:一个有机体只有一个确定的基因组,组成该有机体的所有不同细胞都共享有一个基因组;但是,基因组内各个基因表达的条件、时间和部位等不同,因而它们的表达产物(蛋白质)也随条件、时间和部位的不同而有所不同。
因此,蛋白质组又是一个动态的概念。
由于以上原因,再加上由于基因剪接,蛋白质翻译后修饰和蛋白质剪接,基因遗传信息的表达规律更趋复杂,不再是经典的一个基因一个蛋白的对应关系,而是一个基因可以表达的蛋白质数目大于一。
由此可见,蛋白质组研究是一项复杂而艰巨的任务。
蛋白质结构与功能的研究已有相当长的历史,由于其复杂性,对其结构与功能的预测不论是方法论还是基础理论方面均较复杂。
统计学方法曾被成功地应用于蛋白质二级结构预测中,如Chou和Fasman提出的经验参数法便是最突出的例子。
该方法统计分析了各种氨基酸的二级结构分布特征,得出相应参数(Pа,Pβ和Pt)并用于预测。
本章将简要介绍蛋白质结构与功能预测的生物信息学途径。
第一节 蛋白质功能预测一、根据序列预测功能的一般过程如果序列重叠群(contig)包含有蛋白质编码区,则接下来的分析任务是确定表达产物——蛋白质的功能。
蛋白质的许多特性可直接从序列上分析获得,如疏水性,它可以用于预测序列是否跨膜螺旋(transmenbrane helix)或是前导序列(leader sequence)。
蛋白质结构和功能模拟及其在药物设计中的应用

蛋白质结构和功能模拟及其在药物设计中的应用蛋白质是生物体中最为重要的大分子,不仅是生命体中的重要基础化学物质,而且在保持细胞功能和调节生理活动方面也起着关键作用。
蛋白质具有多种不同的三维结构和功能,这种多样性使得它们在生物体内具有许多重要的作用,比如酶的催化作用、运输物质、细胞信号传导等等。
因此,对于蛋白质的结构和功能的模拟研究,对于掌握生物体内调节机制,甚至对于药物设计的发展都具有重要的实际意义。
在过去的几十年中,科学家们一直在努力开发出用于模拟蛋白质三维结构和计算其功能的计算方法和算法。
最早的蛋白质结构计算方法之一是分子力学模拟。
它利用构建的分子模型通过运动方程的数值求解来模拟分子能量的变化,从而计算出分子的力学性质,如构象、能量和动力学。
但是,分子力学模拟需要在计算量和复杂性之间找到平衡点,这使得它的可靠性和精度有限。
随着计算机技术的发展和细胞水平的数据积累,越来越多的模拟方法得到了广泛的应用。
蒙特卡罗法、荟萃模拟和分子动力学模拟(MD)等方法都是各类实验室在最近20年里发展出来的方法。
这些方法都是比较简单且可行的,各自适用于不同种类的蛋白质模拟。
其中,MD方法是最广泛使用的模拟方法之一。
MD方法基于经典动力学,通过对分子机理、力学、等势面等过程进行模拟,从而解释实验观察到的许多现象。
MD模拟方法应用广泛,包括蛋白质结构的动力学研究、酶的马达化和药物设计研究等等。
MD模拟方法的发展让预测蛋白质的靶标结构、蛋白质抑制物的设计和发现成为可能。
使用模拟方法还可以更全面、深入地研究蛋白质构象、能量和动力学等各方面的性质。
例如,模拟计算方法可以帮助科学家探索酶在反应中的作用,基于已有的结构数据改进酶的催化效率,并预测新的药物分子与蛋白质的作用方式。
使用计算机模拟蛋白质结构和功能,这种限制性条件的消除具有重要的指导意义。
因此,在药物设计方面,模拟方法提供了新的思路,并极大地推动了抗癌药物及其他药物的开发。
蛋白质结构与药物设计

蛋白质结构与药物设计蛋白质结构是指蛋白质分子在空间中的排列方式,是决定蛋白质功能和性能的基础。
对于药物设计来说,了解蛋白质结构对于合理设计具有高效和选择性的药物至关重要。
本文将介绍蛋白质的基本结构、药物与蛋白质的相互作用以及利用蛋白质结构进行药物设计的方法。
一、蛋白质的基本结构蛋白质的基本结构包括一级结构、二级结构、三级结构和四级结构。
一级结构是指蛋白质序列中氨基酸的线性排列方式,由肽键连接。
二级结构是指蛋白质链中部分区域的局部折叠方式,常见的二级结构包括α-螺旋和β-折叠。
三级结构是指整个蛋白质分子的空间排列方式,包括局部和整体的折叠形态。
四级结构是由两个或多个蛋白质分子组合而成的复合物结构。
二、药物与蛋白质的相互作用药物与蛋白质的相互作用是指药物与蛋白质分子之间发生的非共价或共价作用。
常见的非共价相互作用包括氢键、疏水作用、离子键和范德华力等,这些作用通过药物与蛋白质的结合能够改变蛋白质的构象和功能。
共价相互作用通常指药物与蛋白质中的亲核基团或电子云的结合。
三、利用蛋白质结构进行药物设计的方法1. 靶点蛋白的结构确定了解靶点蛋白结构是进行药物设计的基础。
通过蛋白质结晶学、核磁共振、电子显微镜等技术,确定蛋白质的三维结构。
靶点蛋白结构的解析有助于理解蛋白质的功能及与其他分子之间的相互作用。
2. 药物分子的构效关系分析通过分析一系列药物分子的结构和药效学数据,建立药物分子的构效关系模型,了解药物分子结构与活性之间的内在规律。
这有助于预测新型化合物的结构和活性,指导药物设计和合成。
3. 药物分子的分子对接模拟通过分子对接模拟方法,将药物分子与靶点蛋白进行模拟对接,预测药物分子与靶点蛋白的相互作用方式和结合位点。
这有助于优选药物分子结构,改善药物的亲和性和选择性。
4. 蛋白质工程和蛋白质设计通过改变蛋白质的基因序列和结构,设计新型的蛋白质,以获得具有特殊功能和性能的蛋白质。
蛋白质工程和蛋白质设计可以用于改善药物的药理性质和生物利用度。
蛋白质的功能结构域

蛋白质的功能结构域蛋白质是生物体内最基本的分子之一,它在细胞的生命活动中扮演着重要的角色。
蛋白质的功能结构域是指蛋白质分子中具有特定功能的区域,它在蛋白质的结构和功能中起到了至关重要的作用。
本文将从典型的蛋白质功能结构域入手,介绍其特点和功能。
1. 信号序列信号序列是蛋白质分子中的一个功能结构域,它位于蛋白质的起始端,用于指导蛋白质在细胞内的定位和定向运输。
信号序列可以将蛋白质分送到细胞内各个亚细胞器或细胞膜上,从而实现特定功能。
通过分析信号序列,科学家可以研究蛋白质的功能和调控机制。
2. 结构域结构域是蛋白质分子中具有特定结构和功能的区域,它是蛋白质的基本功能单位。
蛋白质的结构域可以通过不同的结构域组合形成多种蛋白质结构和功能。
例如,锌指结构域可以与DNA结合,起到转录因子的作用;SH2结构域可以与磷酸化肽链结合,参与细胞信号传导等。
3. 活性位点活性位点是蛋白质分子中的一个功能结构域,它与底物结合并催化特定的化学反应。
蛋白质的活性位点通常由一些特定的氨基酸残基组成,这些残基可以通过氢键、离子键和范德华力等相互作用与底物结合并催化反应。
活性位点的结构和特异性决定了蛋白质的催化活性和底物的选择性。
4. 反应中心反应中心是蛋白质分子中的一个功能结构域,它是催化反应的关键部位。
在一些酶类蛋白质中,反应中心通常由催化残基和底物结合位点组成,催化残基可以通过特定的化学反应催化底物的转化。
反应中心的结构和特异性与酶的催化活性和底物的选择性密切相关。
5. 结合位点结合位点是蛋白质分子中的一个功能结构域,它与其他分子结合并参与特定的生物学过程。
结合位点可以与DNA、RNA、蛋白质或小分子结合,从而实现特定的生物学功能。
例如,抗体中的结合位点可以与抗原结合,从而实现免疫应答。
6. 调控域调控域是蛋白质分子中的一个功能结构域,它参与蛋白质的调控和调节。
调控域可以通过与其他分子的结合或翻译后修饰来改变蛋白质的结构和功能。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六章 蛋白质的功能域、结构及其药物设计随着人类基因组全序列测定的完成,预示着基因组研究从结构基因组(Structural Genomics)进入了功能基因组(Functional Genomics)研究时代。
研究基因组功能当然首先要研究基因表达的模式。
当前研究这一问题可以基于核酸技术,也可以基于蛋白质技术,即直接研究基因的表达产物。
测定一个有机体的基因组所表达的全部蛋白质的设想是由Williams于1994年正式提出的,而“蛋白质组”(proteome)一词是Wilkins于1995年首次提出。
蛋白质组是指由一个细胞或组织的基因组所表达的全部相应的蛋白质。
蛋白质组与基因组相对应,均是一个整体概念,但是两者又有根本的不同:一个有机体只有一个确定的基因组,组成该有机体的所有不同细胞都共享有一个基因组;但是,基因组内各个基因表达的条件、时间和部位等不同,因而它们的表达产物(蛋白质)也随条件、时间和部位的不同而有所不同。
因此,蛋白质组又是一个动态的概念。
由于以上原因,再加上由于基因剪接,蛋白质翻译后修饰和蛋白质剪接,基因遗传信息的表达规律更趋复杂,不再是经典的一个基因一个蛋白的对应关系,而是一个基因可以表达的蛋白质数目大于一。
由此可见,蛋白质组研究是一项复杂而艰巨的任务。
蛋白质结构与功能的研究已有相当长的历史,由于其复杂性,对其结构与功能的预测不论是方法论还是基础理论方面均较复杂。
统计学方法曾被成功地应用于蛋白质二级结构预测中,如Chou和Fasman提出的经验参数法便是最突出的例子。
该方法统计分析了各种氨基酸的二级结构分布特征,得出相应参数(Pа,Pβ和Pt)并用于预测。
本章将简要介绍蛋白质结构与功能预测的生物信息学途径。
第一节 蛋白质功能预测一、根据序列预测功能的一般过程如果序列重叠群(contig)包含有蛋白质编码区,则接下来的分析任务是确定表达产物——蛋白质的功能。
蛋白质的许多特性可直接从序列上分析获得,如疏水性,它可以用于预测序列是否跨膜螺旋(transmenbrane helix)或是前导序列(leader sequence)。
但是,总的来说,我们根据序列预测蛋白质功能的唯一方法是通过数据库搜寻,比较该蛋白是否与已知功能的蛋白质相似。
有2条主要途径可以进行上述的比较分析:①比较未知蛋白序列与已知蛋白质序列的相似性;②查找未知蛋白中是否包含与特定蛋白质家族或功能域有关的亚序列或保守区段。
图6.1给出了根据序列预测蛋白质功能的大致过程。
由于涉及数条技术路线,所得出的分析结果并不会总是相一致。
一般来说,数据库相似性搜索获得的结果最为可靠,而来自PROSITE的结果相对不可靠。
图6.1 根据序列预测蛋白质功能的技术路线二、通过比对数据库相似序列确定功能具有相似序列的蛋白质具有相似的功能。
因此,最可靠的确定蛋白质功能的方法是进行数据库的相似性搜索。
具体的搜索方法可参见第三章,但应记住,一个显著的匹配应至少有25%的相同序列和超过80个氨基酸的区段。
已有不少种类的数据库搜索工具,它们或者搜索速度慢,但灵敏;或者快速,但不灵敏。
快速搜索工具(如BLASTP)很容易发现匹配良好的序列,所以没有必要再运行更花时的工具(如FASTA、BLITZ);只有在诸如BLASTP不能发现显著的匹配序列时,这些工具才被使用。
所以,一般的策略是首先进行BLAST检索,如果不能提供相关结果,运行FASTA;如果FASTA也不能得到有关蛋白质功能的线索,最后可选用完全根据Smith-Waterman算法设计的搜索程序,例如BLITZ(/searches/blitz.html)。
BLITZ不做近似估计(BLAST和FASTA根据Smith-Waterman算法做近似估计),所以很花时,但非常灵敏。
通常诸如BLITZ的程序能够发现超过几百个残基但序列相同比率低于20~25%的匹配,这些匹配可能达到显著,但会被那些应用近似估计的程序错过。
还应注意计分矩阵(scoring matrix)的重要性。
选用不同的计分矩阵有不少重要原因:首先,选用的矩阵必须与匹配水平相一致,例如,PAM250应用于远距离匹配(<25%相同比率),PAM40应用于不很相近的蛋白质序列,而BLOSUM62是一个通用矩阵;第二,使用不同矩阵,可以发现始终出现的匹配序列,这是一条减少误差的办法。
除了选用不同的计分矩阵,同样可以考虑选用不同的数据库。
通常可以使用的数据库是无冗余蛋白序列数据库SWISS-PROT和PDB。
其它一些数据库也可以试试,如可用BLASTP搜索复合蛋白质序列库OWL (/bsm/dbbrowser/OWL/owl_blast.html)。
二、序列特性:疏水性、跨膜螺旋等许多功能可直接从蛋白质序列预测出来。
例如,疏水性信息可被用于跨膜螺旋的预测。
还有不少小的模序(motif)是细胞用于特定细胞区室(cell compartment)蛋白质的定向。
网上有大量数据资源帮助我们利用这些特性预测蛋白质功能。
疏水性信息可用ExPASy(http://expasy.hcuge.ch/egibin/protscal.pl)的ProtScale程序创建并演示。
这是一个很有用的工具,它能计算超过50种蛋白质的特性。
程序的输入即可通过输入框将序列粘贴进去,也可输入SWISS-PROT的记录号。
仅一项需要额外设定的参数是输入框的宽度,该参数将指示系统每次运行计算和显示的残基数,其缺省值为9。
如果想考虑跨膜螺旋特性,该参数设置应为20,因为一个跨膜螺旋通常有20个氨基酸长度。
图6.2是ProtScal程序的一个典型结果显示格式。
图171 图16.2有多种方法可以预测序列的跨膜螺旋。
最简单的方法是通过查找包含有20个疏水残基的区段,一些更复杂、更准确的算法不仅可以预测跨膜螺旋的位置,还能确定其在膜上的方向。
这些方法都依赖于一系列已知跨膜螺旋特性的研究结果。
TMbase是一个自然发生的跨膜螺旋数据库(http://ulrec3.unil.ch/tmbase/TMBASE_doc.html)。
相关的一些程序:TMPRED (http://ulrec3.unil.ch/software/TMPRED-form.html)、PHDhtm (www.embl_heidelberg.de/services/sander/predictprotein/predictprotein. html)、TMAP (http://www.embl-heidelberg.de/tmap/tmap/tmap_sin.html)和MEMSAT ()。
这些程序将使用了不同的统计模型,总体上,预测准确率在80~95%左右。
跨膜螺旋是可以根据序列数据比较准确预测的蛋白质特性之一。
预测前导序列或特殊区室靶蛋白信号的程序:SignalP (http://www.cbs.dtu.dk/services/SignalP)和PSORT (http://psort.nibbac.jp/form.html)。
另一个可从序列中确定的功能模序是卷曲(coil)螺旋。
在这一结构中,二个螺旋由于疏水作用而缠绕在一起形成非常稳定的结构。
相关的2个程序:COILS (http://ulrec3.unil.ch/software/COILS_form.html)和Paircoil (/cgi-bin/score)。
四、通过比对模序数据库等确定功能经常会出现这样的情况:通过列线,未知蛋白质序列与数据库内已知功能的序列均相差较大,找不到可靠的匹配结果,相反,也许会发现与某一不知功能的序列相匹配。
对于这一情况,仍然可以用生物信息学工具进行一些分析。
蛋白质不同区段的进化速率不同:蛋白质的一些部分必须保持一定的残基模式以保持蛋白质的功能,通过确定这些保守区域,有可能为蛋白质功能提供线索。
例如,有许多短序列可以识别蛋白质活性位点或结合区域。
整联蛋白(integrin)受体识别RGD或LDV配体模序(motif),如果未知序列中包含有RGD模序,则可推测未知序列的一个功能可能是结合整联蛋白。
这样的推测并不是说该蛋白质序列一定会结合整联蛋白(许多含有RGD的蛋白质并不结合整联蛋白),但它的确为我们提供了一个可供试验的假设。
还有些例子是保守序列位于酶活性位点、转录后修饰位点、协作因子结合位点或蛋白质分类信号等,不少有关这些保守模式(pattern)的生物信息学资源已经建立起来,并已用于在序列的搜索比对。
主要有二种方法可用于序列模序的查找。
一种方法是查找匹配的一致(consensus)序列或模序。
该技术的优点是快捷,模序数据库庞大且不断被扩充;缺点是有时不灵敏,因为只有与一致序列或模序完全匹配才会被列出,而近乎匹配的都将被忽略。
这将使你进行更复杂的分析时受到严重限制。
这时,第二种方法,一种更精细的序列分布型(profile)方法将发生作用。
原则上,分布型搜索的是保守序列(不只是一致序列),这样可以更灵敏地找出那些相关性较远的序列。
但是分布型和分布型数据库的创建并非易事,它需要大量的计算和人力,因此,分布型数据库的记录数并没有模序数据库多。
在实际分析时,应同时对这二种类型的数据库都进行搜索,其中在一个数据库中显著的匹配可能在另一个数据库中被完全错过,反之亦然。
最知名的模序数据库是PROSITE(http://expasy.hcuge.ch/sprot/prosite.html)。
PROSITE记录的典型形式(以酪蛋白激酶Ⅱ磷酸化位点的一致序列为例):[ST]-x(2)-[DE],即一个丝氨酸(S)或酪氨酸(T)紧跟任意2个残基,然后再是一个D或E。
另外记录中包含了位点其它一些重要信息,如位点的作用、在何处被发现等。
分布型(profile)数据库主要有BLOCKS (/blocks/)、PRINTS (/bsm/dbbrowers/PRINTS/)和ProDom (http://protein.toulouse.inra.fr/prodom/prodom.html)。
正如其它生物信息学资源一样,这些数据库总是在规模和质量之间寻求平衡。
对于分布型数据库的质量来说,还包括多序列列线产生的分布型。
记录数最多的数据库是依赖于自动列线程序,得到的结果有时并非是最佳结果;而记录数少的数据库一般花很多时间用于分析,人工核对列线结果,力求产生高质量的结果。
一般地,分析时应搜索所有的相关数据库,以保证没有任何的遗漏。
BLOCKS数据库是利用PROSITE数据库模序经无空位多序列列线构建而成,PRINTS数据库(最小的数据库)的记录来自保守序列的多序列列线,而ProDom数据库(version33)数据则来自9600个蛋白功能区模序(domain motif)的列线结果。