蛋白质功能预测方法概述

合集下载

蛋白质结构和功能预测方法

蛋白质结构和功能预测方法

蛋白质结构和功能预测方法蛋白质是生物体中最重要的分子之一,它们参与了几乎所有生命活动的调控。

了解蛋白质的结构和功能对于深入研究生物学、药物设计以及疾病治疗都至关重要。

然而,实验方法获得蛋白质的结构和功能信息并不容易,费时费力。

因此,开发蛋白质结构和功能预测方法成为了科学家们的追求。

蛋白质结构预测是指通过计算机模拟和建模方法,预测未知蛋白质的三维结构。

理论上,已知蛋白质序列可以由这样的方法推测出其三维结构。

然而,蛋白质的三维结构由于受到许多因素的影响,如氨基酸之间的相互作用力、构象空间的限制等,因此结构预测的准确性较低。

目前,蛋白质结构预测方法主要有两类:序列比对和结构比对。

序列比对方法通过比较已知蛋白质序列与待预测的蛋白质序列之间的相似性,来预测其结构。

这些方法基于两个基本原理:序列保守性和序列-结构相关性。

序列保守性指的是在进化过程中,蛋白质序列的某些部分往往会保持不变,这是因为这些部分具有重要的功能。

序列-结构相关性则指的是蛋白质序列和其结构之间存在一定的统计关系。

基于这些原理,序列比对方法可以将待预测的蛋白质序列与已知蛋白质序列进行比较,从而推测出其结构。

另一种常用的蛋白质结构预测方法是通过结构比对来实现的。

结构比对方法将待预测的蛋白质结构与已知蛋白质结构进行比对,从而推测出其三维结构。

这些方法通过比较蛋白质间的结构相似性,来预测待预测蛋白质的结构。

结构比对方法主要有两种:序列比对和结构比对。

序列比对方法通过比较已知蛋白质序列与待预测的蛋白质序列之间的相似性,来预测其结构。

这些方法基于两个基本原理:序列保守性和序列-结构相关性。

序列保守性指的是在进化过程中,蛋白质序列的某些部分往往会保持不变,这是因为这些部分具有重要的功能。

序列-结构相关性则指的是蛋白质序列和其结构之间存在一定的统计关系。

基于这些原理,序列比对方法可以将待预测的蛋白质序列与已知蛋白质序列进行比较,从而推测出其结构。

另一种蛋白质结构预测方法是通过结构比对来实现的。

蛋白质结构预测方法综述

蛋白质结构预测方法综述

蛋白质结构预测方法综述蛋白质是构成生命体的基本单元之一,它们在生命过程中扮演着重要的角色。

蛋白质的功能通常与其三维结构密切相关,因此,准确地预测蛋白质的结构对于深入理解其功能和生命过程至关重要。

本文将综述几种常见的蛋白质结构预测方法。

一、基于模板的方法基于模板的方法是指利用已知蛋白质结构作为模板,预测未知蛋白质结构的方法。

这种方法又可分为序列比对和结构比对两种。

1. 序列比对序列比对是将待预测蛋白质的氨基酸序列与已知蛋白质结构的氨基酸序列进行比对,通过寻找序列相似性来预测未知蛋白质的结构。

这种方法的关键是在序列比对时找到相较于已知蛋白质更多的同源序列。

常见的序列比对工具包括BLAST、PSI-BLAST、HMMER等。

2. 结构比对结构比对是将待预测蛋白质的氨基酸序列与已知蛋白质结构的三维结构进行比对,通过寻找结构相似性来预测未知蛋白质的结构。

这种方法的关键是在结构比对时找到相较于已知蛋白质更多的同源结构。

常见的结构比对工具包括DALI、CE、TM-align等。

二、基于物理力学的方法基于物理力学的方法是指根据蛋白质结构和物理力学原理,通过计算机模拟和数学建模来预测蛋白质的结构。

这种方法的基本思路是根据蛋白质的氨基酸序列和结构参数作为输入,通过计算机模拟和数学建模来组织蛋白质的三维结构。

常见的基于物理力学的方法包括能量函数法和蒙特卡洛法。

1. 能量函数法能量函数法是指利用能量最优化原则,将蛋白质的三维结构作为一个能量函数的最小值,通过调整结构参数来最小化能量函数,得到最优化的蛋白质结构。

常见的能量函数包括力场法、分子动力学法、蛋白质力学法等。

2. 蒙特卡洛法蒙特卡洛法是指通过数值方法,在结构空间内进行搜索,采样概率分布,得到蛋白质的稳定结构。

该方法通过调整结构参数,使得目标函数(通常是能量函数)最小,从而得到最优化的蛋白质结构。

三、神经网络方法神经网络方法是指通过深度学习算法,利用大量的蛋白质序列和结构数据,以自主学习的方式预测蛋白质的结构。

生物信息学中的蛋白质结构与功能预测

生物信息学中的蛋白质结构与功能预测

生物信息学中的蛋白质结构与功能预测蛋白质是生物体内的重要分子,它们在维持生命活动中起着至关重要的作用。

了解蛋白质的结构和功能对于深入理解生物学过程、疾病发展以及药物设计具有重要意义。

然而,实验测定蛋白质的结构及其功能是一项耗时费力且成本高昂的工作。

为了解决这一问题,生物信息学中的蛋白质结构与功能预测成为一种有效的方法。

蛋白质结构预测是生物信息学中的重要研究领域之一。

根据蛋白质的氨基酸序列,结合生物化学、物理化学以及计算机科学的方法,可以建立一系列模型和算法,预测蛋白质的三维结构。

蛋白质的结构是决定其功能的基础,通过结构预测可以揭示蛋白质的功能和相互作用,为后续进一步的研究提供指导。

在蛋白质结构预测中,常用的方法有同源建模、折叠动力学模拟和密度泛函理论等。

同源建模是基于已知蛋白质结构和与待预测蛋白质具有较高相似性的蛋白质序列进行模拟和比对,从而预测待预测蛋白质的结构。

折叠动力学模拟则模拟蛋白质在空间中折叠成稳定结构的过程,通过分子力学和数值计算方法,获得预测蛋白质结构的可能构型。

而密度泛函理论则是利用量子力学的计算方法,建立不同蛋白质结构和功能之间的关联,实现蛋白质结构预测和功能预测的目的。

除了蛋白质结构预测,生物信息学中的蛋白质功能预测也是一个重要领域。

蛋白质功能是指蛋白质在生物体内扮演的具体角色,如催化反应、运输分子以及信号传导等。

通过分析蛋白质的序列、结构、水平和进化等特征,可以预测蛋白质的功能。

常见的蛋白质功能预测方法包括序列比对、结构域分析和机器学习等。

序列比对是常用的蛋白质功能预测方法之一,它通过比对待预测蛋白质序列与已知功能蛋白质序列的相似性,推断待预测蛋白质的功能。

对于已知功能蛋白质序列,可以通过蛋白质数据库的检索和分析来获取。

结构域分析则是基于蛋白质中的功能结构域来预测其功能。

功能结构域是指蛋白质中识别和结合特定物质的功能区域,可以通过各种软件工具进行识别和注释。

机器学习是一种颇有潜力的蛋白质功能预测方法,它借助计算机算法和统计模型,通过对已知功能蛋白质的训练,预测待预测蛋白质的功能。

基于生物信息学的蛋白质功能预测和结构鉴定

基于生物信息学的蛋白质功能预测和结构鉴定

基于生物信息学的蛋白质功能预测和结构鉴定生物信息学是一门综合性学科,主要研究生命体系中的信息传递、生物基因组学和分析方法,以及在这些方面的计算机应用。

其中,蛋白质功能预测和结构鉴定是生物信息学中的重要课题之一。

蛋白质是生命体系中一类重要的大分子,它在生命活动中扮演着重要的角色。

蛋白质的功能表现在它的结构上,而蛋白质的结构是由其氨基酸序列决定的。

因此,基于氨基酸序列的蛋白质功能预测和结构鉴定是非常重要的研究方向。

蛋白质功能预测是指利用不同的生物信息学分析方法,对未知蛋白的功能进行推测。

在生物信息学领域中,蛋白质功能预测主要有两种方法,即基于序列和基于结构。

基于序列的预测方法主要利用一些已知蛋白的序列信息,通过比对、聚类、模型建立等分析手段,推测未知蛋白的功能。

该方法的优点在于简单、快速,适用范围广,但由于仅基于序列信息,存在一定的偏差和误差。

此外,可以通过生物实验来验证其预测结果。

基于结构的预测方法主要分析蛋白质的结构信息,通过建立结构模型、比对等计算方法,推测未知蛋白的功能。

该方法的优点在于预测结果准确性高、可靠性较强,但由于存在诸多技术难点,研究较为复杂。

在对蛋白质功能进行预测的同时,蛋白质结构的鉴定也是困扰生物学家、生物信息学家等科学技术工作者长期以来的热点问题之一。

蛋白质的结构鉴定是指利用不同的生物信息学分析方法,对未知蛋白的结构进行鉴定。

在这个过程中,蛋白质序列的重要性更加凸显。

蛋白质结构的鉴定主要有基于实验和基于计算两种方法。

其中,基于实验的方法更为直接,适用范围广,被广泛应用。

基于实验的方法主要包括X光结晶学、核磁共振、质谱等技术。

而基于计算的方法,则主要是借助计算机进行研究。

基于计算的方法主要包括分子动力学模拟、蛋白质折叠等方法。

其中,分子动力学模拟是一种模拟分子系统在时间上的演化和能量、力学等方面的行为的方法,是基于原子分子的物理建模。

它可以模拟分子的动力学、结构的稳定和分子的自组织等过程。

蛋白质结构和功能的预测和设计方法

蛋白质结构和功能的预测和设计方法

蛋白质结构和功能的预测和设计方法蛋白质是生命体中一种重要的生物大分子,它们参与着生命体内的许多重要生命过程。

在目前的生物医学研究中,人们已经掌握了许多蛋白质的结构和功能信息,但还有很多蛋白质的具体功能及其对应的结构仍在研究之中。

因此,预测和设计蛋白质的结构和功能是现代生物医学研究的一个重要方向。

那么,如何预测和设计蛋白质的结构和功能呢?一、蛋白质结构预测方法蛋白质结构预测是指在没有统计学前提下根据蛋白质的氨基酸序列来预测其三维结构的一种方法。

目前被认为是最准确的蛋白质结构预测方法是基于模板的预测方法(Template-based modeling,TBM)。

这种方法是基于已知蛋白质结构的模板结构,通过寻找与目标蛋白质结构相似的模板结构,从而预测目标蛋白质结构的一种方法。

此外,还有一种蛋白质结构预测方法是基于蛋白质结构的比对(Structural alignment,SA)方法。

这种方法可以在已知的蛋白质结构数据库中寻找与目标蛋白质结构相似的结构,从而预测目标蛋白质结构。

这种方法适用于具有足够相似结构的蛋白质结构预测,然而,它在结构差异较大的蛋白质结构预测方面表现不佳。

二、蛋白质功能预测方法蛋白质功能预测是指通过分析蛋白质的结构和氨基酸序列等信息,来预测其生物学功能的一种方法。

在生物医学研究中,常用的蛋白质功能预测方法包括基于序列的功能预测、基于结构的功能预测以及结构-序列一体化方法等。

1. 基于序列的功能预测基于序列的功能预测是通过比对蛋白质氨基酸序列与已有的蛋白质序列,来预测目标蛋白质的功能类别以及相关的生物学功能。

该方法常用的工具包括BLAST、InterProScan和HMMER等。

2. 基于结构的功能预测基于结构的功能预测是通过比对蛋白质结构与已知蛋白质结构,来预测目标蛋白质的生物学功能。

这种方法适用于那些已知结构的蛋白质结构和目标蛋白质结构相似的情况下。

在结构比对方面,常用的工具包括DALI、CE和PDBeFold等。

蛋白质功能预测

蛋白质功能预测

蛋白质功能预测蛋白质是生物体内的重要分子,具有多种不同的功能。

在基因组学和蛋白质组学研究的推动下,人们通过基于序列和结构的方法对蛋白质结构和功能进行预测,从而更好地理解生物体的生理过程和疾病机制。

蛋白质功能预测是通过比对已知功能蛋白质数据库中蛋白质的序列和结构信息,预测新的蛋白质的功能。

本文将介绍蛋白质功能预测的几种方法和应用。

基于序列相似性的功能预测是最常用和广泛接受的方法之一。

这种方法利用已知蛋白质序列的数据库进行比对分析,找到与待预测蛋白质序列相似度较高的已知功能蛋白质。

然后,根据这些相似蛋白质的功能注释,推测待预测蛋白质的功能。

这种方法有助于预测新基因产物的功能,但需要确保相似蛋白质的功能注释是准确和可靠的。

基于结构的功能预测是另一种较为常用的方法。

在结构生物学研究中,通过解析蛋白质的三维结构,可以揭示其功能和相应的功能位点。

因此,通过预测蛋白质的结构,可以对其功能进行推测。

结构预测方法包括比对已知结构的数据库、基于物理和化学原理的模拟计算和机器学习方法等。

这种方法可以提供高精度的预测结果,但对于没有已知结构的蛋白质来说,预测效果会受到限制。

除了序列和结构信息外,基于功能域和保守模体的功能预测也是重要的方法之一。

功能域是蛋白质序列中具有特定功能的结构单元,而保守模体则是在蛋白质序列中保持较高保守性的片段。

通过分析蛋白质序列中的功能域和保守模体,可以推测蛋白质的功能。

这种方法对于序列相似性较低的蛋白质预测效果较好。

蛋白质功能预测在多个领域具有广泛的应用。

在基因组学研究中,可以通过功能预测对编码蛋白质的基因进行功能注释,以了解基因的生理功能。

在药物设计方面,蛋白质功能预测可以帮助预测药物和蛋白质的相互作用,从而加速药物研发过程。

此外,蛋白质功能预测还可以用于鉴定和预测蛋白质与疾病之间的关联,为疾病的诊断和治疗提供重要依据。

总而言之,蛋白质功能预测是一项重要的研究领域,通过分析蛋白质的序列、结构和功能域等信息,可以推测其功能并帮助解析生物过程和疾病机制。

蛋白质结构预测与功能分析的方法和挑战

蛋白质结构预测与功能分析的方法和挑战

蛋白质结构预测与功能分析的方法和挑战引言:蛋白质是生物体内起着各种重要功能的分子,其结构决定了其功能。

然而,蛋白质的结构预测和功能分析是一个具有挑战性的领域。

本文将介绍蛋白质结构预测和功能分析的方法和挑战,并探讨了当前在此领域的前沿研究。

一、蛋白质结构预测的方法1. 实验方法:实验方法是蛋白质结构预测中最直接的方法。

例如,X射线晶体学、核磁共振等技术可以通过精细的实验来确定蛋白质的三维结构。

然而,实验方法通常需要大量时间、资源和专业设备,并且对于一些复杂的蛋白质结构预测来说,往往不够精确和高效。

2. 计算方法:计算方法是目前蛋白质结构预测的主要方法。

它利用物理化学原理以及计算机模拟技术来预测蛋白质的结构。

常用的计算方法包括蛋白质折叠动力学模拟、基于模板的方法和基于机器学习的方法。

蛋白质折叠动力学模拟是通过模拟蛋白质内部的原子之间的相互作用和运动路径来预测蛋白质的结构。

这种方法可以提供一个原子级别的描述,但是牺牲了计算的效率。

另外,由于折叠模拟需要大量计算,能够进行快速准确的折叠模拟仍然是一个巨大的挑战。

基于模板的方法利用已知的蛋白质结构来寻找与目标蛋白质相似的结构,从而预测目标蛋白质的结构。

这种方法的优势在于速度较快,但是仅适用于已知结构类似的蛋白质。

基于机器学习的方法则依赖于已知蛋白质结构与功能之间的关联,通过训练模型来预测目标蛋白质的结构和功能。

这种方法的优势在于能够处理结构复杂、功能多样的蛋白质,但是对于大规模的蛋白质结构预测和功能分析来说,仍然面临着计算量大和训练集数据不足的挑战。

二、蛋白质功能分析的方法1. 序列比对方法:序列比对是一种常用的蛋白质功能分析方法。

它通过比较目标蛋白质的氨基酸序列与已知功能的蛋白质序列进行比对,从而判断目标蛋白质的功能。

这种方法的优势在于简单、快速,但是对于序列相似性较低的蛋白质来说,准确性会有所下降。

2. 结构比对方法:结构比对是一种基于蛋白质结构的功能分析方法。

生物大数据技术的蛋白质结构与功能预测方法与工具

生物大数据技术的蛋白质结构与功能预测方法与工具

生物大数据技术的蛋白质结构与功能预测方法与工具引言:随着生物学研究的不断深入,我们对蛋白质的结构和功能有着越来越多的需求。

然而,实验方法往往耗时费力且成本高昂。

因此,生物大数据技术的发展为蛋白质结构和功能预测提供了一条新的途径。

在本文中,我们将介绍一些常用的生物大数据技术和工具,用于蛋白质结构和功能的预测。

一、蛋白质结构预测方法与工具1. 基于序列比对的方法基于序列比对的方法是最常用的蛋白质结构预测方法之一。

通过比较目标蛋白质序列与已知结构的蛋白质序列之间的相似性,来预测目标蛋白质的结构。

在这个过程中,我们可以利用多序列比对的方法,以增加预测的准确性。

常用的工具包括BLAST、HMMER和PSI-BLAST等。

2. 基于物理模型的方法基于物理模型的方法通过模拟蛋白质分子的物理性质和力学原理来预测其结构。

常见的工具包括Rosetta和GROMACS等。

这些工具使用物理力学原理、能量函数和概率分布等来进行模拟,从而为蛋白质的结构预测提供依据。

3. 基于模板的方法基于模板的方法利用已知结构的蛋白质作为模板,通过比对目标蛋白质序列与模板蛋白质序列之间的相似性来预测目标蛋白质的结构。

常用的工具包括SWISS-MODEL、Phyre2和I-TASSER等。

这些工具利用已知结构的蛋白质库,寻找与目标蛋白质序列最匹配的模板结构,并据此进行结构预测。

二、蛋白质功能预测方法与工具1. 基于结构的方法基于结构的方法通过分析蛋白质的结构特征来预测其功能。

这些方法可以通过比对已知功能的蛋白质结构与目标蛋白质结构之间的相似性来预测功能。

常用的工具包括DALI、CATH和SCOP等。

2. 基于进化的方法基于进化的方法通过比对目标蛋白质序列与已知的进化信息来预测蛋白质的功能。

这些方法利用进化的保守性来推测蛋白质的功能。

常用的工具包括Pfam、InterPro和SMART等。

这些工具通过比对目标蛋白质序列与已知蛋白质家族或结构域的序列之间的相似性来推断功能。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

蛋白质功能预测方法概述摘要: 蛋白质是生物体内最必需也是最通用的大分子,对它们功能的认识对于科学领域和农业领域的发展有着至关重要的作用。

随着后基因组时代的发展,NCBI 数据库中迅速涌现出大量不明结构与功能的蛋白质序列,这些蛋白质序列甚至一跃成了研究的热点。

近几十年来蛋白质功能预测的方法不断被完善。

由最初的仅基于蛋白质序列或3D 结构信息的方法衍生出更多的基于序列相似性、基于结构基序、基于相互作用网络等新方法,这些新型方法采用新的算法、新的研究思路和技术手段,力求得到准确性与普遍性并存,能够被广泛应用的蛋白质功能预测方法。

本文综述了近年来蛋白质功能预测的方法,并将这些研究方法分类归纳,各自阐明了每类方法的优缺点。

关键词: 蛋白质功能预测方法,结构基序,相互作用网络,ESGAn Overview protein function prediction methodsAbstract: Protein is the most necessary and versatile macromolecules in vivo,researches on their functions are veryimportant to the fields of science and the development of the agriculture. With the development of the post - genomicera,the NCBI database quickly emerges a large number of protein sequences of unknown structure and functions,which even become hot research Points. In the recent decades,protein function prediction methods have beenmore and more improved and developed. This article reviews the protein function prediction methods occured in recentyears,All these methods were inducted and classicicated,and their advantages and disadvantages of each methodswere illustrates respectively.Keywords: Protein Function Prediction Methods,Structal Motif, Interaction Networks,ESG1 引言基因组学和蛋白质组学在过去十年的发展过程中产生了大规模的新的蛋白质序列和试验数据,科学家为了确定这些新序列的功能借助计算机手段进行了大量的研究[1 - 2]。

在过去的二十年里,人们利用计算机技术对蛋白质功能进行预测的文章发表了上千篇之多( http: / /www. ncbi. nlm. nih. gov /pubmed) ,大部分是基于序列相似性、基于结构域、基于相互作用网络等方法预测,再利用生物学知识来进行解析。

本文综合阐述了迄今为止蛋白质功能预测的分类,大致可分为四类: ( 1) 基于序列相似性预测方法; ( 2) 基于蛋白质相互作用网络预测方法;( 3) 基于结构相似性预测方法; ( 4) 其他预测方法。

2 蛋白质功能蛋白质功能对于客观环境很敏感: 给定的发挥作用的空间环境不同、规定的作用时间不同都可以使蛋白质所表现出来的功能是有差异性的。

为了使功能预测的结果更加准确,Bork 等提出了一种蛋白质功能类型的分类[3],按蛋白质发挥作用的平台不同将蛋白质功能分为分子功能,细胞功能和生理功能。

很明显,这三个类型不是独立存在的,而是如图2 那样等级相关的。

现如今在蛋白质功能预测中最常用的是GO 分类,Gene Ontology 分类从细胞组成、分子功能和生物学途径三方面描述蛋白质的性质与功能。

分子功能是描述其分子生物学活性,如催化活性、结合活性,可以具体到腺苷酸环化酶活性或钟形受体结合活性等; 生物学途径是细胞生长和维持、信号转导过程,更狭义可描述为在嘧啶代谢或α-配糖基的运输等具体过程。

所以蛋白质功能预测的最终想得到结果是: 这个新序列在细胞中充当什么组分,在哪个生物学过程中起作用,起着什么样的作用。

图1 蛋白质功能预测方法的分类图2 蛋白质功能类型分类3 蛋白质功能预测的方法蛋白质功能预测方法可粗略分为基于序列相似性预测、基于蛋白质相互作用网络预测、基于结构相似性预测和其它不依赖于相似性的预测方法。

我们将分别列举近年来基于这四类方法所做的蛋白质功能预测,以及它们各自的优势与弱势。

3. 1 基于序列相似性预测蛋白质功能基于序列相似性是较早的一种功能预测的方法,它是基于序列相似,功能相似的假说建立的。

最传统的方法是对新序列进行BLAST 或PSI - BLAST搜索[4],通过产生的E 值选择与新序列高度相似的序列( 一般序列一致性要在40%以上[5]) ,由已知序列功能推断出新序列的功能。

但随着研究的不断深入,这种方法被证明是不可靠的[6],因为序列同源性不等于功能一致性[7]。

基于序列同源性的模型的建立过于依赖蛋白质之间的相似程度,所以只能适用于与功能已知蛋白质有很高同源性的新蛋白序列的功能预测。

并且随着同源性降低,建立模型的误差增加。

Hawkins[8 - 9]分别通过提取Go terms 和对Goterms 评分的方法对传统的PSI - BLAST 搜索进行拓展,包括从亲缘关系较远的序列进行注释、应用新的数据挖掘工具、功能相关矩阵、得分密切相关的注释对,开发出可以通过降低分辨率来增加功能注释的普及型的方法PFP( protein function prediction) 。

PFP 方法综合考虑了GO terms 评分和GO terms 与其亲代GO terms 之间的功能相关性。

从而不需要精准的匹配模式或蛋白质结构信息,只需要较弱相似序列就可以推断出新序列的功能,结果的精确度和覆盖范围比传统的PSI - BLAST 结果高出五倍不止。

由AFP - SIG 05 [10]和CASP7[11]两个高级别的比赛结果就可以证明PFP 方法是很成功的。

图3 ESG 方法建立的序列相似图谱Chitale[12]于09 年建立了ESG( extended similaritygroup) 方法,此方法执行迭代序列数据库搜索并且对新序列进行GO terms 注释。

注释就是给每条序列制定一个概率,这个概率是基于蛋白质序列相似图谱( 图3) 中multiple - level neighbors 的亲缘相似评分所得的。

图4 中用funsim( Fundamental SimulationInstruction Method ) 对PFP、Top -PSI -BLAST、ESG 三种方法进行了对比,从图中可以看出ESG 方法所产生结果较好。

图3 PSI - BLAST 搜索得到的序列相似图谱,序列Q 经过PSI - BLAST 搜索返回N 条序列,称为ESG first level,对ESG first level 进行PSI - BLAST再返回N 条序列称为ESG second level,以此类推得到ESG multiple - level,各序列之间称为multiple -evel neighbors。

图4 根据funsim 打分得到的结果准确度对比基于序列的蛋白质功能预测考虑的是独立的蛋白质序列,未考虑蛋白质之间的相互作用。

而蛋白质是通过与其它蛋白质直接或间接相互作用而执行功能的。

所以要从序列预测蛋白质的功能应该将与其相互作用的蛋白质序列一同考虑在内。

3. 2 基于相互作用网络预测蛋白质功能基于PPI( protein - protein interaction) 的预测方法主要用于从多个蛋白质序列中寻找有相互作用和关联进化的蛋白质或从PPI 数据库中提取信息,预测效果依赖于基因组数目和PPI 数据库的准确程度。

由Bader 等[13]开发的Pathguide ( http: / /www.pathguide. org) 提供大部分PPI 相关的数据库列表和链接,表1 列出了部分PPI 数据库。

根据这些数据库中提取的蛋白质相互作用数据,人们可以构建相应的相互作用网络。

在相互作用网络中,一般用节点( node) 来表示蛋白质,而连接两个节点的边( edge) 表示蛋白质之间是否存在相互作用关系。

目前,利用相互作用网络进行功能注释主要有两种方法,即直接注释方( directannotation schemes) [14 - 16]和基于模块的方法( module - assistedschemes) [17 - 18]。

3. 2. 1 直接注释方法Vazquez[14]等首先采用基于分割的方法( cut -based approaches) 将图论法引入蛋白质功能注释研究中。

其基本思路是: 对一个未知功能蛋白质赋予某种功能,要使得注释为相同功能的蛋白质( 未注释或者已注释) 的连接数目最多。

Hu[15]综合考虑了PPI 信息和序列的生物化学/物理化学特征,当未注释蛋白质与已知功能的蛋白质几乎没有序列相似性时,也可以获得相关的PPI 信息。

并应用此方法对鼠源蛋白质功能进行预测,在训练集合测试集中一阶成功率分别为69. 1% 和70. 2%。

构建蛋白质相互作用网络时通常是从注释蛋白质到非注释蛋白质做一个单向的预测。

而真正的生物学过程中蛋白质是有流动性的,它们之间有动态的相互作用,从而产生了一个外环境稳定但内部千变万化的框架。

Chi[16]首次将蛋白质之间动态相互作用加入到了预测过程中,方法是先给未注释的蛋白质指派一个最初的功能,然后计算此蛋白质和与其相邻的蛋白质之间的最初相似性。

用基于KNN 的预测算法为未注释的蛋白质预测一个新的功能,用这个新预测的功能代替最初的功能,再重新计算该蛋白质和与其相邻的蛋白质之间的相似性,在进行下一轮的计算。

直到未注释的蛋白质和与其相邻的蛋白质之间的相似性达到一个稳态平衡时结束。

正确定义蛋白质之间的相似性迭代法比非迭代法显示了更好的准确度和召回率,同时可行性和有效性也得到了提高。

3. 2. 2 基于模块预测方法Rives[17]等人就提出一个假设,认为同一个模块中的蛋白质成员更加可能拥有最短的路径距离谱( path distance profiles) 。

相关文档
最新文档