蛋白质结构预测方法综述

合集下载

蛋白质定位预测方法综述及比较分析

蛋白质定位预测方法综述及比较分析

蛋白质定位预测方法综述及比较分析引言:蛋白质是细胞中最重要的生物大分子之一,其功能与其所处的亚细胞定位密切相关。

准确预测蛋白质定位是理解蛋白质功能的重要一环。

随着计算机科学和生物学的快速发展,越来越多的蛋白质定位预测方法被提出。

本文将对常见的蛋白质定位预测方法进行综述和比较分析,以期为进一步研究提供参考。

一、蛋白质定位预测的重要性蛋白质在细胞内发挥特定的功能,其定位信息对于理解和研究蛋白质功能至关重要。

准确预测蛋白质的定位可以为进一步研究蛋白质的功能和相互作用提供指导。

二、蛋白质定位预测方法的分类1. 基于氨基酸序列的方法这种方法根据蛋白质的氨基酸序列进行预测。

其中,物化性质(如蛋白质溶解性、亲水性等)、序列模式(如信号肽、跨膜蛋白等)及机器学习算法(如隐马尔科夫模型、支持向量机等)是常用的预测依据。

2. 基于蛋白质相似性的方法这种方法通过比对已知定位的蛋白质序列和待预测的蛋白质序列的相似性来预测其定位。

常用的方法有同源比对、核酸水平的序列相似性等。

3. 基于蛋白质结构的方法这种方法通过预测蛋白质的三维结构来预测其定位。

常见的方法有蛋白质结构模拟、蛋白质结构域预测等。

三、常见蛋白质定位预测方法的综述与分析1. 密集神经网络(DNN)方法DNN方法利用神经网络模型和大量的训练数据来预测蛋白质的定位。

该方法具有较高的准确性和可靠性,但需要大量的训练数据和计算资源。

2. 支持向量机(SVM)方法SVM方法利用训练集中已知定位的蛋白质特征,建立分类模型来预测待测蛋白质的定位。

该方法较为简单,但需要手动提取特征。

3. 隐马尔科夫模型(HMM)方法HMM方法通过使用隐马尔科夫模型对序列数据进行建模,预测蛋白质的定位。

该方法能够捕捉到序列中的潜在模式,但对训练数据的依赖较大。

四、基于机器学习的蛋白质定位预测方法比较分析1. 准确性比较DNN方法在大规模训练数据和计算资源的支持下,具有较高的准确性。

SVM方法相对简单,准确性较低。

生物信息学中的蛋白质结构预测方法

生物信息学中的蛋白质结构预测方法

生物信息学中的蛋白质结构预测方法蛋白质是生命体中重要的基本组成部分之一,它们的结构决定了它们的功能和相互作用方式。

然而,实验方法较为耗时且成本较高,因此,生物信息学中的蛋白质结构预测方法的发展对于研究人员来说具有重要意义。

本文将介绍几种常见的蛋白质结构预测方法。

1. 基于序列比对的方法基于序列比对的方法是最常用的蛋白质结构预测方法之一。

它通过将待预测蛋白质的序列与已知结构的蛋白质序列进行比对,并利用相似区域的结构信息来预测待预测蛋白质的结构。

这种方法的优势在于它可以快速预测蛋白质的结构,并且适用于大规模分析。

然而,由于序列比对的限制,这种方法的结构预测准确性较低。

2. 基于模板的方法基于模板的方法是一种常用的蛋白质结构预测方法。

它利用先前已知的蛋白质结构的模板,将待预测蛋白质序列与模板进行比对,并通过从模板中提取结构信息来预测待预测蛋白质的结构。

这种方法在蛋白质结构预测中具有较高的准确性,尤其是在与已知结构相似的蛋白质上。

然而,对于没有已知结构模板的蛋白质,这种方法就无法有效预测。

3. 蛋白质折叠机制方法蛋白质折叠机制方法是一种基于蛋白质的物理和化学性质来预测蛋白质结构的方法。

它通过分析蛋白质序列中氨基酸的相互作用和构象稳定性来推断蛋白质的结构。

这种方法能够提供相对准确的蛋白质结构预测,但由于计算复杂性和需要大量计算资源,使用该方法进行结构预测较为困难。

4. 基于机器学习的方法基于机器学习的方法是近年来发展起来的一种蛋白质结构预测方法。

它利用已知的蛋白质结构数据建立模型,通过学习这些模型来预测新的蛋白质结构。

这种方法可以快速预测蛋白质的结构,并且在一定程度上提高了准确性。

然而,由于模型的训练和参数调整等问题,该方法仍然面临挑战。

除了上述提到的方法,还有一些其他的蛋白质结构预测方法,如基于演化信息的方法和基于物理力学模拟的方法等。

这些方法不同于传统的结构预测方法,针对不同的蛋白质结构预测问题具有独特的优势。

蛋白质结构预测的算法及其评价

蛋白质结构预测的算法及其评价

蛋白质结构预测的算法及其评价蛋白质是生命体最基本的构成因素之一,通过研究蛋白质结构,可以深入了解生命的本质。

然而,在实验室中对蛋白质的研究成本十分昂贵,不仅需要大量的时间和人力,同时还可能因样本数量和质量的不足而导致结果不准确。

在此背景下,蛋白质结构预测的算法应运而生。

一、蛋白质结构的预测蛋白质结构预测是指通过计算机模拟、统计预测等方法,对蛋白质的结构进行推测。

在蛋白质研究中,结构预测是非常重要的一研究方向。

它可以在一定程度上帮助预测一个蛋白质的功能、化学性质等,并深入了解生命体系的本质。

根据计算方法的不同,目前可用的蛋白质结构预测算法主要有以下几种。

1.模板比对法模板比对法是目前最为常用的蛋白质结构预测方法之一,其核心理念是参照已知的蛋白质结构,利用比对的方法来预测目标蛋白的结构。

该方法较为准确,且时间上相对较短,最为重要的是其通用性较高,几乎适用于所有不同的蛋白质。

2.物理模型法物理模型法是另一种蛋白质结构预测的算法,它基于蛋白质分子的物理特性,通过数学模拟来预测目标蛋白的结构。

与模板比对法不同,物理模型法不依赖于已知的结构数据。

但该方法因其复杂度极高,对计算机硬件的资源要求也非常高,目前还需要进一步的改进。

3.二级结构预测法二级结构预测法是另一种目前被广泛应用的蛋白质结构预测方法。

它是一种基于蛋白质中氨基酸序列的预测方法,通过对氨基酸的特性进行分析,预测蛋白质的二级结构,再根据二级结构推算出三维空间的结构。

该方法在研究中被广泛应用,尤其是在药物研发上,但是存在准确性较低的问题。

二、评价蛋白质结构预测算法的标准对于蛋白质结构预测算法的评价标准,世界卫生组织以及美国生物技术学会提出了较为严格的标准,以下为其详解。

1. 准确性准确性是评价蛋白质结构预测算法的最基本和最重要的标准,它包括了预测结构与实验测量结构的相似程度、对各种蛋白质的适用性等指标。

一般来说,准确性越高,预测的结果越可靠。

2. 规模评价蛋白质结构预测算法的规模,包括其适用范围、预测样本的数量以及计算机处理的时间等指标。

蛋白质结构预测方法综述

蛋白质结构预测方法综述

蛋白质结构预测方法综述蛋白质是生命体内重要的基本组成部分,它们在维持生物体正常生理功能和参与生物化学反应中起着至关重要的作用。

蛋白质的结构决定了其功能和性质,因此对蛋白质结构的预测具有重要的科学意义。

随着计算机和生物技术的发展,人们已经开发出了多种蛋白质结构预测方法。

蛋白质结构预测方法可分为实验和计算两类。

实验方法包括X射线晶体学、核磁共振、电子显微镜等技术,这些方法以高精度获得蛋白质的三维结构,但实验过程复杂、昂贵且时间消耗大。

相比之下,计算方法具有更高的效率和经济性,被广泛应用。

在计算方法中,蛋白质结构预测的主要方法有以下几种:序列比对、模板建模、折叠动力学模拟和基于物理的方法。

序列比对是最常用的蛋白质结构预测方法之一。

通过将待预测蛋白质的氨基酸序列与已知结构的蛋白质进行比对,找到相似的蛋白质作为模板,从而预测目标蛋白质的结构。

序列比对方法包括本地比对和全局比对,其中本地比对常用于预测蛋白质的区域结构。

模板建模是一种基于已知蛋白质结构的预测方法,通过将目标蛋白质序列与已知结构的模板进行比对,并利用比对结果进行结构模型的构建。

模板建模方法包括同源建模、远源建模和蛋白质片段拼接等。

同源建模是指在达到一定相似度的情况下,利用已知结构的同源蛋白质作为模板进行结构预测。

而远源建模则是指在序列相似度较低甚至没有同源关系的情况下,利用构建的模型进行结构预测。

折叠动力学模拟是模拟蛋白质在原子级别上的折叠过程,根据蛋白质上的势能函数和动力学方程,利用计算机对蛋白质进行模拟,以寻找稳定的三维结构。

折叠动力学模拟方法包括分子动力学模拟和蒙特卡洛模拟,它们模拟蛋白质在不同时间尺度上的动态行为。

基于物理的方法是利用物理原理来预测蛋白质结构的方法。

这些方法包括能量函数优化、碰撞互助搜索和充分采样等。

能量函数优化方法通过最小化蛋白质分子力场能量函数来预测蛋白质的结构。

碰撞互助搜索方法基于蛋白质分子力场和碰撞算法来搜索蛋白质的结构。

蛋白质结构预测方法

蛋白质结构预测方法

蛋白质结构预测方法随着生物科技和计算机技术的快速发展,蛋白质结构预测方法已经成为当今生物学中的热门话题。

蛋白质是生命体中最基本的一种生物大分子,对于许多生命活动和疾病的研究都具有重要的作用。

然而,了解蛋白质的结构对于研究其功能和相互作用至关重要。

本文将介绍一些常见的蛋白质结构预测方法。

一、亚氨酸序列分析法亚氨酸序列分析法是一种基于蛋白质多肽链上各个氨基酸的组成及其排列顺序来预测蛋白质空间结构的方法。

这种方法在理论上已经被证明是可行和准确的。

然而,由于该方法在预测过程中可能会受到亚氨酸序列中缺失信息的影响,因此需要借助其他方法进行补充。

二、同源建模法同源建模法是一种比较广泛使用的蛋白质结构预测方法。

该方法依据细胞中已知结构的蛋白质对于待预测蛋白质的模板效应进行预测,从而得到待预测蛋白质的结构。

该方法的优点在于它能够对大量的蛋白质进行预测,并且往往能获得高质量的结构预测结果。

然而,该方法的主要缺点是仅适用于那些与已知结构相似的蛋白质。

三、Ab initio方法Ab initio方法是一种从头开始预测蛋白质结构的方法,它不依赖于与已知结构相似的蛋白质。

这种方法基于物理力学和统计学知识进行计算,尝试预测分子的基本构筑原理。

这种方法在处理具有折叠密码学特性的蛋白质时比较准确,但是在面对大分子的复杂蛋白质时常常出现预测的误差。

四、网络方法网络方法是一种将蛋白质折叠预测看作一个大型优化问题的方法,它通过构建各种相互作用网络来预测蛋白质的结构。

这种方法在处理大分子蛋白质的折叠过程中具有较好的表现,也是目前研究中的热门和前沿方向之一。

五、机器学习方法机器学习方法是一种基于人工智能理论和算法的蛋白质结构预测方法。

该方法可以构建出一个有效的预测模型,然后通过灵活的机器学习算法对蛋白质信息进行分析来预测蛋白质的结构。

该方法在处理大分子的复杂蛋白质时常常具有很好的预测效果,但是它的缺点在于需要大量的已知数据用于训练模型。

蛋白质结构预测技术发展综述

蛋白质结构预测技术发展综述

蛋白质结构预测技术发展综述蛋白质是组成生命活动的重要基础物质,其结构和功能之间的关系是生命科学和医学领域的重要研究方向。

因此,对蛋白质结构进行预测和分析,已成为当前生命科学、生物工程和计算机科学等领域的重要课题。

随着计算机技术和生物信息学的不断发展,蛋白质结构预测技术也取得了长足的进步和发展。

蛋白质结构预测技术的发展历程早期,蛋白质结构的预测多采用实验手段进行,例如X射线晶体衍射和核磁共振技术等。

但这些实验方法的成本和时间代价较高,仅适用于结构较小的蛋白质分子,而对于较大和复杂的蛋白质分子则多不适用。

因此,人们开始尝试用数学模型和计算机模拟的方法来预测蛋白质结构。

20世纪60年代,Pauling和Corey首次提出了"多肽链折叠概念",并开发出基于"菊花链"模型的蛋白质结构预测方法。

此后,人们提出了许多简化模型和分类模型,如Helix、Loop和Beta sheet。

这些模型的作用是减少蛋白质结构预测的计算量,提高预测准确性。

20世纪80年代,人们开始尝试用分子动力学模拟技术预测蛋白质结构。

分子动力学模拟是通过计算分子的平衡轨迹和能量状态,来预测分子的结构和性质的一种方法。

此外,还有一些基于序列和结构比对的反演预测方法,如PSI-BLAST和PHYRE。

21世纪以来,以机器学习和深度学习为代表的人工智能技术的快速发展,为蛋白质结构预测提供了新的思路和方法。

此外,利用分子动力学仿真和一些先进的计算机算法来研究蛋白质分子的空间结构和功能之间的关系,也成为了当前的研究热点。

蛋白质结构预测技术的应用价值蛋白质结构预测技术的应用价值是多方面的。

首先,它有助于解决部分蛋白质结构无法通过实验手段确定的问题,可以辅助实验进行验证和理解蛋白质功能和机理。

其次,它可用于药物研究和设计,避免药物和蛋白质之间的非特异性作用,增强药物的选择性和效果。

此外,蛋白质结构预测技术还可应用于食品添加剂、生物肥料、重金属污染等环节的治理和监管。

蛋白质结构预测方法综述

蛋白质结构预测方法综述蛋白质是构成生命体的基本单元之一,它们在生命过程中扮演着重要的角色。

蛋白质的功能通常与其三维结构密切相关,因此,准确地预测蛋白质的结构对于深入理解其功能和生命过程至关重要。

本文将综述几种常见的蛋白质结构预测方法。

一、基于模板的方法基于模板的方法是指利用已知蛋白质结构作为模板,预测未知蛋白质结构的方法。

这种方法又可分为序列比对和结构比对两种。

1. 序列比对序列比对是将待预测蛋白质的氨基酸序列与已知蛋白质结构的氨基酸序列进行比对,通过寻找序列相似性来预测未知蛋白质的结构。

这种方法的关键是在序列比对时找到相较于已知蛋白质更多的同源序列。

常见的序列比对工具包括BLAST、PSI-BLAST、HMMER等。

2. 结构比对结构比对是将待预测蛋白质的氨基酸序列与已知蛋白质结构的三维结构进行比对,通过寻找结构相似性来预测未知蛋白质的结构。

这种方法的关键是在结构比对时找到相较于已知蛋白质更多的同源结构。

常见的结构比对工具包括DALI、CE、TM-align等。

二、基于物理力学的方法基于物理力学的方法是指根据蛋白质结构和物理力学原理,通过计算机模拟和数学建模来预测蛋白质的结构。

这种方法的基本思路是根据蛋白质的氨基酸序列和结构参数作为输入,通过计算机模拟和数学建模来组织蛋白质的三维结构。

常见的基于物理力学的方法包括能量函数法和蒙特卡洛法。

1. 能量函数法能量函数法是指利用能量最优化原则,将蛋白质的三维结构作为一个能量函数的最小值,通过调整结构参数来最小化能量函数,得到最优化的蛋白质结构。

常见的能量函数包括力场法、分子动力学法、蛋白质力学法等。

2. 蒙特卡洛法蒙特卡洛法是指通过数值方法,在结构空间内进行搜索,采样概率分布,得到蛋白质的稳定结构。

该方法通过调整结构参数,使得目标函数(通常是能量函数)最小,从而得到最优化的蛋白质结构。

三、神经网络方法神经网络方法是指通过深度学习算法,利用大量的蛋白质序列和结构数据,以自主学习的方式预测蛋白质的结构。

蛋白质结构的预测与验证

蛋白质结构的预测与验证随着生物学研究的深入,我们对蛋白质的结构和功能也有了更深入的了解。

蛋白质结构的预测和验证是蛋白质学研究的重要分支,也是现代计算生物学的一个热门领域。

预测蛋白质结构的方法有很多,其中最受欢迎的是基于序列的预测方法。

一、基于序列的蛋白质结构预测方法基于序列的蛋白质结构预测方法是通过分析蛋白质序列的基本信息,如氨基酸成分、生物学功能等,来推断蛋白质的三维结构。

这些方法包括比较序列、融合序列和比较与融合序列。

比较序列法将一个蛋白质序列与已知结构的其他蛋白质序列进行比较,然后使用软件获得可能的结构信息。

融合序列法则将多个蛋白质序列融合在一起,并使用最新的匹配算法来验证可能的结构信息。

比较与融合序列则是将两者结合起来,以提高结构预测的准确性。

在蛋白质结构预测的研究中,特别是在基于序列的方法中最常用的工具是模拟器。

这些模拟器往往是通过重复输入和输出数据,以便自我“训练”的过程。

这样,模拟器可以学习如何正确识别蛋白质序列,并推断其结构。

模拟器的训练结果与使用的输入数据密切相关。

目前,研究人员已经成功地训练了许多不同的模拟器,以应对不同类型的蛋白质序列。

二、如何验证蛋白质结构预测完成蛋白质结构预测后,如何验证其准确度?验证蛋白质结构预测的程序通常包括两个关键部分: 结构评估和实验验证。

在结构评估过程中,预测的结构与实际结构进行对比。

这个对比可以使用不同的评估方法,如Root Mean Square Deviation(RMSD)评估方法。

RMSD是计算两个结构间原子的平均距离的指标,类似于基于均方根误差的评估方法,评价结构预测的质量。

通常的规则是RMSD值越小,预测的结构质量越好。

实验验证方面,采用的实验方法包括核磁共振波谱(NMR)、X射线衍射和冷冻电子显微镜(Cryo-EM)。

这些技术可以被用于检验预测的结构是否和实验证明的结构匹配,并确定预测的结构是否正确。

三、基于序列的方法的优势和不足基于序列的方法是蛋白质结构预测的一种非常强大、有前途的方法。

生命科学中的蛋白质结构预测方法

生命科学中的蛋白质结构预测方法蛋白质是生命体中最复杂的生物大分子之一,它在人体内扮演着重要的生物功能角色,例如重要的代谢反应、信号传递、基因调控、细胞增殖、细胞分化等。

它的结构对于其生物学功能至关重要。

通常蛋白质结构可以通过X-射线衍射和核磁共振等技术进行决定,但是这些技术的前提是获得高纯度、高质量的蛋白样品,这在实际应用中往往不太现实。

因此,蛋白质结构预测技术的发展至关重要。

目前,蛋白质结构预测方法主要包括基于物理力学、统计学和机器学习算法的方法。

物理力学方法中包括分子动力学模拟和构象采样,这两种方法通过追踪蛋白质分子的演化过程,提供了可靠的蛋白质结构预测结果。

但是这些方法需要大量的计算资源和时间,预测速度很慢,难以应用于大规模、高通量的蛋白质结构预测中。

此外,即使使用这些方法获得了大量蛋白质结构信息,我们也需要进行快速的数据挖掘和分类,以实现有效的结构预测和功能注释。

统计学方法主要基于蛋白质结构中保守的序列和结构特征,通过从大量已知蛋白质结构数据库中提取这些特征,从而进行分类和预测。

这些方法通常具有较快的预测速度,广泛应用于一些生物信息领域,如基因组学、转录组学和蛋白质组学等。

不过,统计学方法通常不能处理结构的灵活性和可变性,并限制于数据集的选取和质量。

机器学习方法主要基于多种预测因素,包括序列、结构和功能特征,结合现代计算机处理技术和算法优化,通过多种特征的高效筛选和加权,从而实现高精度、高速度的蛋白质结构预测。

机器学习方法通过大量的训练数据和复杂的模型学习,能够发现蛋白质结构与其生物学功能之间的关系,并提供更准确的预测结果,同时它也经常被应用于蛋白质结构模拟和设计。

总的来说,蛋白质结构预测方法依旧存在着不少的挑战和限制,如计算、数据集、算法和模型等,研究者们需要不断地完善和改进这些方法,以获得更加准确、高效的预测结果,并为人类疾病的研究和治疗提供重要的数据基础。

蛋白质结构预测方法总结

蛋白质结构预测方法总结蛋白质是生物体内最为重要的分子之一,其结构决定了功能和活性。

然而,实验性确定蛋白质的三维结构是一项复杂且昂贵的任务。

因此,研究人员发展了多种计算方法来预测蛋白质的结构。

本文将总结几种常见的蛋白质结构预测方法。

1. 基于比对的方法一种常用的蛋白质结构预测方法是基于比对。

这种方法使用已知结构的蛋白质作为模板,将目标蛋白质的序列与模板进行比对,从而预测其结构。

比对可以使用多种方法,如BLAST、PSI-BLAST和HHpred等。

这些方法根据序列之间的相似性来预测结构,通常适用于那些与已知结构相似的蛋白质。

2. 基于折叠的方法基于折叠的方法是通过在能量最小化的条件下预测蛋白质的结构。

这些方法利用原子间相互作用的物理性质来预测蛋白质的稳定结构。

其中,分子力学模拟是常用的方法之一,通过计算分子中原子的相互作用以及能量最小化来预测蛋白质的结构。

此外,还有蒙特卡洛模拟和分子动力学模拟等方法用于蛋白质结构的预测。

3. 基于碱基预测的方法基于碱基预测的方法是根据目标蛋白质的氨基酸序列来预测其结构。

这些方法利用氨基酸的特性,如溶解度、疏水性和电荷分布等,来推断蛋白质的结构。

在这种方法中,常用的技术包括人工神经网络和随机森林等。

4. 基于演化信息的方法基于演化信息的方法是利用多个序列的比较来预测蛋白质的结构。

这些方法假设在进化过程中,保守的残基通常对于结构和功能至关重要,因此可以通过比较不同蛋白质序列之间的保守性来预测其结构。

常用的技术包括多序列比对和物种树建构等。

5. 基于统计的方法基于统计的方法是从大量已知结构的蛋白质中提取统计学规律,以预测新蛋白质的结构。

在这种方法中,通过分析蛋白质的物理特性和氨基酸残基之间的相互作用,建立统计学模型,从而预测目标蛋白质的结构。

常见的方法包括聚类分析、SVM和隐马尔可夫模型等。

综上所述,蛋白质的结构预测是一项复杂而具有挑战性的任务。

虽然没有一种方法能够完美地预测蛋白质的结构,但结合不同的预测方法可以提高预测的准确性和可靠性。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

蛋白质结构预测方法综述卜东波陈翔王志勇《计算机不能做什么?》是一本好书,其中文版序言也堪称佳构。

在这篇十余页的短文中,马希文教授总结了使用计算机解决实际问题的三步曲,即首先进行形式化,将领域相关的实际问题抽象转化成一个数学问题;然后分析问题的可计算性;最后进行算法设计,分析算法的时间和空间复杂度,寻找最优算法。

蛋白质空间结构预测是很有生物学意义的问题,迄今亦有很多的工作。

有意思的是,其中一些典型工作恰恰是上述三步曲的绝好示例,本文即沿着这一路线作一总结,介绍于后。

1 背景知识生物细胞种有许多蛋白质(由20余种氨基酸所形成的长链),这些大分子对于完成生物功能是至关重要的。

蛋白质的空间结构往往决定了其功能,因此,如何揭示蛋白质的结构是非常重要的工作。

生物学界常常将蛋白质的结构分为4个层次:一级结构,也就是组成蛋白质的氨基酸序列;二级结构,即骨架原子间的相互作用形成的局部结构,比如alpha螺旋,beta片层和loop区等;三级结构,即二级结构在更大范围内的堆积形成的空间结构;四级结构主要描述不同亚基之间的相互作用。

经过多年努力,结构测定的实验方法得到了很好的发展,比较常用的有核磁共振和X光晶体衍射两种。

然而由于实验测定比较耗时和昂贵,对于某些不易结晶的蛋白质来说不适用。

相比之下,测定蛋白质氨基酸序列则比较容易。

因此如果能够从一级序列推断出空间结构则是非常有意义的工作。

这也就是下面的蛋白质折叠问题:1蛋白质折叠问题(Protein Folding Problem)输入: 蛋白质的氨基酸序列输出: 蛋白质的空间结构蛋白质结构预测的可行性是有坚实依据的。

因为一般而言,蛋白质的空间结构是由其一级结构确定的。

生化实验表明:如果在体外无任何其他物质存在的条件下,使得蛋白质去折叠,然后复性,蛋白质将立刻重新折叠回原来的空间结构,整个过程在不到1秒种内即可完成。

因此有理由认为对于大部分蛋白质而言,其空间结构信息已经完全蕴涵于氨基酸序列中。

从物理学的角度讲,系统的稳定状态通常是能量最小的状态,这也是蛋白质预测工作的理论基础。

2 蛋白质结构预测方法蛋白质结构预测的方法可以分为三种:同源性(Homology )方法:这类方法的理论依据是如果两个蛋白质的序列比较相似,则其结构也有很大可能比较相似。

有工作表明,如果序列相似性高于75%,则可以使用这种方法进行粗略的预测。

这类方法的优点是准确度高,缺点是只能处理和模板库中蛋白质序列相似性较高的情况。

从头计算(Ab initio ) 方法:这类方法的依据是热力学理论,即求蛋白质能量最小的状态。

生物学家和物理学家等认为从原理上讲这是影响蛋白质结构的本质因素。

然而由于巨大的计算量,这种方法并不实用,目前只能计算几个氨基酸形成的结构。

IBM 开发的Blue Gene 超级计算机,就是要解决这个问题。

穿线法(Threading )方法:由于Ab Initio 方法目前只有理论上的意义,Homology 方法受限于待求蛋白质必需和已知模板库中某个蛋白质有较高的序列相似性,对于其他大部分蛋白质来说,有必要寻求新的方法。

Threading 就此应运而生。

以上三种方法中,Ab Initio 方法不依赖于已知结构,其余两种则需要已知结构的协助。

通常将蛋白质序列和其真实三级结构组织成模板库,待预测三级结构的蛋白质序列,则称之为查询序列(query sequence)。

3 蛋白质结构预测的Threading 方法Threading 方法有三个代表性的工作:Eisenburg 基于环境串的工作、Xu Ying 的Prospetor 和Xu Jinbo 、Li Ming 的RAPTOR 。

Threading 的方法:首先取出一条模版和查询序列作序列比对(Alignment),并将模版蛋白质与查询序列匹配上的残基的空间坐标赋给查询序列上相应的残基。

比对的过程是在我们设计的一个能量函数指导下进行的。

根据比对结果和得到的查询序列的空间坐标,通过我们设计的能量函数,得到一个能量值。

将这个操作应用到所有的模版上,取能量值最低的那条模版产生的查询序列的空间坐标为我们的预测结果。

需要指出的是,此处的能量函数却不再是热力学意义上的能量函数。

它实质上是概率的负对数,即,我们用统计意义上的能量来代替真实的分子能量,这两者有大致相同的形式。

p E log −=如果沿着马希文教授的观点看上述工作 ,则更有意思:Eisenburg 指出如果仅仅停留在简单地使用每个原子的空间坐标(x,y,z)来形式化表示蛋白质空间结构,则难以进一步深入研究。

Eisenburg 创造性地使用环境串表示结构,从而将结构预测问题转化成序列串和环境串之间的比对问题;其后,Xu Ying 作了进一步发展,将蛋白质序列表示成一系列核(core )组成的序列,Core 和Core 之间存在相互作用。

因此结构就表示成Core 的空间坐标,以及Core 之间的相互作用。

在这种表示方法的基础上,Xu Ying 开发了一种求最优匹配的动态规划算法,得到了很好的结果。

但是由于其较高的复杂度,在Prospetor2上不得不作了一些简化;Xu Jinbo 和Li Ming 很漂亮地解决了这个问题,将求最优匹配的过程表示成一个整数规划问题,并且证明了一些常用的求解整数规划问题的技巧,都已经自然地包含在约束中。

3.1 Eisenburg 基于环境串的方法结构的形式化表示:环境串,其中每个特殊字符表示一种环境。

求解算法:序列串和环境串之间的比对 复杂度:O(mn)对于模板库中每个已知结构的蛋白质,将其转化成由特殊字符组成的一个串。

即对于每个氨基酸,研究其所处的环境,包括疏水性、包埋面积等,并据此分为多个不同的类别,每一类都使用一个特殊字符表示。

至于对于多个度量形成的空间,如何划分成一些子空间,Eisenburg 在已知数据的基础上做了比较精细的工作。

将已知结构转化成特殊字符形成的环境串,则结构预测问题就转化成序列串和环境串的比对问题,即寻找序列串和环境串之间的最佳联配。

那么如何来衡量联配的优劣呢?解决这个问题必需设置一种打分系统。

Eisenburg 还是沿着概率和统计的路线,统计了每种氨基酸在每种环境下出现频率,计算出一个分数,从而构成打分系统。

对于一些蛋白质,Eisenburg 的方法取得了很好的结果,比如在对几个蛋白质家族globin, cyclic AMP receptor-like protein 以及actin 中的蛋白质进行相似性搜索时,就发现了一些从序列上无法看出相似性但却在结构上相似的蛋白质。

3.2 Xu Ying 的动态规划算法结构的形式化表示:由core 构成的串,core 与core 之间存在相互作用; 求解算法:动态规划方法求最优匹配复杂度:O( ),M,N,TC 与core 的划分有关。

2/TC TC N Mn mn + 在Threading 基本方法的基础上,PROSPECT 引入核(core )的概念。

整条序列分成一段段的core 和loop 区(loop 是指core 之间的部分)。

这样做的前提是生物学中的一个现象:肽链在细胞中很多局部先折叠成比较保守的二级结构(主要是α螺旋和β折叠),形成了一条由二级结构连成的链。

在此基础上,二级结构链折叠成一个整体的三级结构。

core 是一种加了一些限制的二级结构,引入这个概念相当于在预测算法中一定程度上反映了蛋白质折叠的生化过程中经过二级结构这一事实,因此直观上讲应该能提高算法的效率。

如何来衡量序列和结构之间的相似性呢?PROSPECT 采用了能量函数的方法,包含4个部分:i)变异项值,ii)单独残基适合项值,iii)残基对相互作用势能项值,iv)gap 罚分。

当前的PROSPECTS 版本只考虑core 之间的残基对相互作用,并假设gap 仅限于loop 区域内。

在只考虑近距离的残基对相互作用时,PROSPECT 可以有效地找出全局最优的threading 比对。

PROSPECT 允许用户自行添加一些特殊的约束条件,例如:二硫键、活动位点、NOE 1距离约束。

系统将严格地在指定条件下寻找全局最优解。

PROSPECT 与其它的threading 方法相比关键的提高在于:1)它严格地推广了以前只考虑core 内残基比对的threading 方法(在以前的方法内,也没有显式地提出core),使得可以考虑loop 上残基的比对;2)显著提高计算效率;3)允许已知的部分结构信息作为约束条件。

具体的数学描述如下: 能量函数:gap gap pair pair s s mutate mutate total E E E E E ωωωω+++=[J1]1Nuclear Overhauster Effectgap pair s mutate ωωωω,,,为权重,通过对一些训练集进行训练获得。

mutate E ),(21a a :指比对结果中变异位置上氨基酸对应的变异罚分值的和。

PROSPECT 中使用PAM250作为变异罚分值矩阵。

21,a a s E ])2[;;(J t s a :度量了对结果中氨基酸a 排在模板上时,对二级结构的适应程度s,和a 的亲水性在这个位置的适合程度。

pair E ),(21a a :当比对结果中,在空间上的距离比较近的时候,给出了两者之间的相互作用势能,这是一个统计意义上的能量,而不是物理学定义的能量。

),(21a a pair E ),(21a a gap E )1]3[(6.08.10)(−×+=J g gPROSPECT 就是在模板库里找到一个模板,它和待查序列使得达到最小比对结果对应的是模板库里所有模板和待查序列比对结果所能使达到的最小值[J4]。

total E total E total E 即:设T 是模板库,其中的元素t=(q, ss, acc, xyz) q 是序列信息,ss 是二级结构信息, acc 是亲水性信息, xyz 是三级结构坐标信息。

记待查序列为Q 。

记Ali(Q,t)为Q 和t 的所有比对方式的集合,其中的元素a 的能量打分为(a),则PROSPECT 算法就是求解如下最优化问题:total E (a))min arg (min arg ),(total t Q Ali a total Tt E E ∈∈在PROSPECT II 中有如下改进:1、引入z-score 2对预测结果作出评价。

2、由于考虑pairwise 相互作用对比对过程的精确程度影响不大,所以在PROSPECT II 中,先进行不考虑pairwise 相互作用的比对,使用动态规划的算法,以获得更高的效率。

再对这个比对的结果加入pairwise 相互作用,进行折叠识别。

相关文档
最新文档