蛋白质结构预测及方法介绍2

合集下载

蛋白质结构的分析和预测方法

蛋白质结构的分析和预测方法

蛋白质结构的分析和预测方法蛋白质是构成生物体质量的基础,具有广泛而重要的生物功能。

研究蛋白质的结构和功能是生物学和药学等领域的重要研究课题。

而蛋白质结构的分析和预测是对蛋白质研究的基础,也是解决人类疾病等领域的重要突破口。

本文将从分析和预测两个方面介绍蛋白质结构的研究方法。

一、蛋白质结构的分析方法1. X射线晶体学蛋白晶体学是最广泛采用的蛋白质结构分析方法之一。

该方法利用X射线探测蛋白质晶体中原子的位置,并通过该信息推断蛋白质的三维结构。

通过X射线晶体学的方法已获得了数万个蛋白质结构,大大提高了蛋白质研究的深度和广度。

2. 核磁共振核磁共振是另一种常用的蛋白质结构分析方法,它利用一个强磁场对蛋白质分子进行瞬时激发,旋转确定的核磁共振信号,通过空间磁场分布的变化揭示分子的三维构造。

此外,核磁共振与分子动力学模拟等计算方法相结合,能够更细致地揭示分子的结构细节,如构象变化、动态性质、生理相关解离构象等。

3. 电镜电子显微镜是一种近期快速发展的方法,它可以在不需要结晶的情况下直接观察蛋白质体系的图像,从而解析它们的立体结构。

这种方法非常适合研究大分子复合物的结构和功能,因为它们相对比较柔软,不太容易得到光学衍射数据。

二、蛋白质结构的预测方法1. 基于结构相似性的预测基于结构相似性的预测是一种利用已知结构的蛋白质来推断其它蛋白质的结构的方法。

这种方法假设结构相似的蛋白质在空间构型上也具有相似性,因此可以通过分析相似结构间的差异性和共性来预测未知结构的蛋白质。

如蛋白质家族、同源模型等就是基于结构相似性预测蛋白质结构的重要手段。

2. 基于能量最小化的预测通过基于物理化学原理设计的力场,在预测过程中能够通过优化相互作用势能最小化的方式,预测蛋白质的结构。

这种方法在预测局部构象、构像变化、蛋白质之间的相互作用以及酶与其底物结合等方面非常重要。

3. 基于模板匹配的预测模板匹配预测是在已知蛋白质结构库中,通过匹配新蛋白质的序列与已知蛋白的结构来预测其结构的方法。

蛋白质结构预测与分析方法

蛋白质结构预测与分析方法

蛋白质结构预测与分析方法蛋白质作为生命体中最基本的分子之一,不仅在生物体中发挥着重要的催化、运输、调节、防御、信号传递等功能,同时也受到了科学家们的广泛关注。

因为在蛋白质的分子结构中蕴藏着其生物学功能的秘密。

为了深入理解蛋白质在生物体中的作用,结构预测与分析方法成为了不可或缺的重要手段。

一、蛋白质结构预测方法蛋白质结构预测是指根据蛋白质的氨基酸序列信息,利用计算机模拟和数学建模预测出蛋白质的三维立体结构的技术。

蛋白质结构预测技术的发展历程大致可以分为以下四个阶段。

1.基于序列保守性推断的序列比对方法序列比对法是一种最早传统的结构预测方法之一,主要基于了分子生物学的序列保守性假设,即同族蛋白质序列之间的关系比异族蛋白质序列要更为接近,同时也利用了同源因子结构的技术。

该方法的缺点在于较为依赖生物物种数据库中已知的同源蛋白质序列,并且无法解决折叠状态中序列变异路径不同的问题。

2.基于从头构建法的物理模拟方法从头构建法是指利用高中生物化学、数学及计算机科学相关知识,对蛋白质分子的构成及其相互作用力的原理进行理解,以及从分子结构相空间机构的角度进行蛋白质结构模拟的技术。

该方法可以绕过序列比对路径不同的缺点,但准确率较低、计算时间较长,并且需要较高的数学和物理素养。

3.基于同源建模法的结构对比和补全方法同源建模法是一种结构对比与预测的重要手段,通过利用已知蛋白质结构作为种子结构的替代物,比较它们所共有的氨基酸序列和结构,以此预测蛋白质分子之间的空间排列。

同源建模法适用于那当前有完整的同源确定模板结构的情况,但需要较强的生物学知识支持。

4.基于机器学习的预测方法机器学习是数据挖掘、人工智能和统计学应用领域中的一种技术,并被广泛用于蛋白质的结构预测和设计。

与其他方法相比,机器学习方法具有更好的处理大量数据的能力,准确度更高,并且可以较快的体现出不同环境的影响。

二、蛋白质结构分析方法蛋白质结构分析是指对已有蛋白质结构的进一步分析研究,从而深入探讨蛋白质在生物学功能中所起的角色和机理,目前主要涉及到以下几种方法。

蛋白质结构预测方法及其应用研究

蛋白质结构预测方法及其应用研究

蛋白质结构预测方法及其应用研究蛋白质是生命体内最基本也是最广泛的分子。

它们在细胞中扮演着诸多重要角色,比如酶催化作用、结构支撑和细胞信号转导。

由于蛋白质的结构决定了其功能,因此,预测和解析蛋白质结构一直是生物科学和药物研发领域的热门话题之一。

本文将介绍蛋白质结构预测的一些方法及其应用研究进展。

一、蛋白质结构预测的挑战虽然蛋白质结构预测已经成为生物学和药物研发领域的重要方法之一,但是蛋白质结构预测的挑战也很明显。

首先,蛋白质结构的确定涉及到三维空间的结构,这意味着我们需要预测众多的维度。

其次,蛋白质结构的确定涉及到一系列相互作用,包括静电力、氢键和范德华力等,这些相互作用会对蛋白质的构象产生重要影响。

此外,蛋白质结构的确定还需要考虑水分子在蛋白质表面的作用,因为在生物体内,蛋白质都是在水相中进行着各种生物学过程。

二、蛋白质结构预测的方法1. 基于实验数据的预测方法由于蛋白质结构的确定需要大量的实验数据,因此基于实验数据进行蛋白质结构预测的方法已经成为一种常用方法。

这些方法主要包括核磁共振(NMR)、X射线和电子显微镜等技术。

其中,核磁共振技术可以通过测量蛋白质分子的不同自旋来确定蛋白质的结构;X射线技术通过将蛋白质分子暴露在高能X射线中,并测量其散射模式来确定蛋白质的结构;电子显微镜技术可以通过将蛋白质分子封装在类似于油滴的小颗粒中,并使用电子束进行成像来确定蛋白质的结构。

2. 基于计算模拟的预测方法相对于基于实验数据的方法,基于计算模拟的蛋白质结构预测方法更加便捷,也更适用于大规模的蛋白质结构预测。

目前,基于计算模拟的蛋白质结构预测方法主要包括分子动力学模拟(MD)、蒙特卡罗模拟、蛋白质折叠动力学模拟等。

其中,分子动力学模拟是一种非常流行的蛋白质结构预测方法。

该方法可以通过对蛋白质分子进行分子动力学模拟,模拟蛋白质的分子运动、组装、折叠过程,最终确定蛋白质的构象。

然而,该方法所需要的计算资源较多,需要较强的计算机和算法支持。

蛋白质结构预测方法总结

蛋白质结构预测方法总结

蛋白质结构预测方法总结蛋白质是生物体内最为重要的分子之一,其结构决定了功能和活性。

然而,实验性确定蛋白质的三维结构是一项复杂且昂贵的任务。

因此,研究人员发展了多种计算方法来预测蛋白质的结构。

本文将总结几种常见的蛋白质结构预测方法。

1. 基于比对的方法一种常用的蛋白质结构预测方法是基于比对。

这种方法使用已知结构的蛋白质作为模板,将目标蛋白质的序列与模板进行比对,从而预测其结构。

比对可以使用多种方法,如BLAST、PSI-BLAST和HHpred等。

这些方法根据序列之间的相似性来预测结构,通常适用于那些与已知结构相似的蛋白质。

2. 基于折叠的方法基于折叠的方法是通过在能量最小化的条件下预测蛋白质的结构。

这些方法利用原子间相互作用的物理性质来预测蛋白质的稳定结构。

其中,分子力学模拟是常用的方法之一,通过计算分子中原子的相互作用以及能量最小化来预测蛋白质的结构。

此外,还有蒙特卡洛模拟和分子动力学模拟等方法用于蛋白质结构的预测。

3. 基于碱基预测的方法基于碱基预测的方法是根据目标蛋白质的氨基酸序列来预测其结构。

这些方法利用氨基酸的特性,如溶解度、疏水性和电荷分布等,来推断蛋白质的结构。

在这种方法中,常用的技术包括人工神经网络和随机森林等。

4. 基于演化信息的方法基于演化信息的方法是利用多个序列的比较来预测蛋白质的结构。

这些方法假设在进化过程中,保守的残基通常对于结构和功能至关重要,因此可以通过比较不同蛋白质序列之间的保守性来预测其结构。

常用的技术包括多序列比对和物种树建构等。

5. 基于统计的方法基于统计的方法是从大量已知结构的蛋白质中提取统计学规律,以预测新蛋白质的结构。

在这种方法中,通过分析蛋白质的物理特性和氨基酸残基之间的相互作用,建立统计学模型,从而预测目标蛋白质的结构。

常见的方法包括聚类分析、SVM和隐马尔可夫模型等。

综上所述,蛋白质的结构预测是一项复杂而具有挑战性的任务。

虽然没有一种方法能够完美地预测蛋白质的结构,但结合不同的预测方法可以提高预测的准确性和可靠性。

蛋白质结构预测和模拟方法

蛋白质结构预测和模拟方法

蛋白质结构预测和模拟方法蛋白质是生物体内的重要组成部分,对生命活动具有关键作用。

在了解蛋白质功能和相互作用等方面的研究中,蛋白质结构的预测和模拟方法发挥着重要的作用。

本文将介绍蛋白质结构预测的主要方法和蛋白质结构模拟的常见方法。

1. 蛋白质结构预测方法1.1 基于序列的预测方法基于序列的预测方法是根据蛋白质的氨基酸序列推测其结构。

这一方法通过将目标蛋白质的序列与已知结构的蛋白质序列进行比对,从而预测目标蛋白质的结构。

具体方法包括序列比对、蛋白质家族数据库搜索以及机器学习等等。

1.2 基于结构模板的预测方法基于结构模板的预测方法是根据已知结构的蛋白质来预测目标蛋白质的结构。

这一方法通过找到与目标蛋白质具有相似结构的蛋白质,从而预测目标蛋白质的结构。

具体方法包括结构比对、结构模板库搜索以及融合多个结构模板等等。

1.3 基于物理力学的预测方法基于物理力学的预测方法是利用物理力学原理来预测蛋白质的结构。

这一方法通过模拟蛋白质分子内的原子间相互作用,从而预测蛋白质的结构。

具体方法包括分子力学、蒙特卡洛模拟以及分子动力学模拟等等。

2. 蛋白质结构模拟方法2.1 分子力学模拟分子力学模拟是通过计算蛋白质分子内原子之间的相互作用力,来模拟蛋白质的结构和动力学性质。

这一方法可以对蛋白质进行模拟,从而获得与实验结果相一致的结构信息。

2.2 蒙特卡洛模拟蒙特卡洛模拟是通过引入随机性的方法来模拟蛋白质分子的运动和结构。

这一方法通常基于能量最小化原则,通过随机调整蛋白质的构象从而获得可能的结构。

2.3 分子动力学模拟分子动力学模拟是通过数值计算方法,模拟蛋白质分子静态和动态特性的一种方法。

这一方法可以模拟蛋白质的结构和动力学性质,并研究蛋白质在时间和空间尺度上的变化。

3. 蛋白质结构预测和模拟的应用蛋白质结构预测和模拟的方法在生物科学研究中发挥着重要的作用。

首先,它们可以帮助科学家深入了解蛋白质的结构与功能之间的关系。

其次,蛋白质结构预测和模拟方法还可以用于研究蛋白质的折叠机制、稳定性以及相互作用等。

蛋白质结构预测方法及其应用前景

蛋白质结构预测方法及其应用前景

蛋白质结构预测方法及其应用前景引言:蛋白质是构成生物体的重要组成部分,它们在细胞内发挥着关键的功能。

了解蛋白质的结构对于理解其功能和参与药物开发具有重要意义。

然而,实验手段通常耗时、昂贵且可能有限,因此研究人员一直在寻求一种准确、高效的方法来预测蛋白质的结构。

本文将介绍几种常见的蛋白质结构预测方法,并探讨其在生物医学领域中的应用前景。

一、同源建模方法同源建模是一种基于相似蛋白质序列的结构预测方法。

它假设具有相似序列的蛋白质可能具有相似的结构,因此通过与已解析的蛋白质结构进行比较,可以推断出目标蛋白质的结构。

这种方法的优势在于准确性高、时间效率高,已被广泛应用于生物医学研究中。

例如,同源建模方法可以用于预测蛋白质-蛋白质相互作用,帮助研究人员理解蛋白质间的相互作用机制,有助于药物研发和疾病治疗。

二、蛋白质折叠动力学模拟蛋白质折叠动力学模拟是一种基于物理力学原理的结构预测方法。

它通过模拟蛋白质分子的运动过程,推测出最稳定的蛋白质结构。

这种方法的优势在于可以考虑蛋白质分子的动态过程,从而更好地预测其结构。

蛋白质折叠动力学模拟在酶的催化机制研究、蛋白质结构稳定性预测等方面具有广泛的应用前景。

三、基于机器学习的方法随着机器学习的快速发展,越来越多的研究人员开始将其应用于蛋白质结构预测中。

例如,基于深度学习的神经网络模型可以通过学习大量已知蛋白质结构的数据,来预测未知蛋白质的结构。

这种方法的优势在于可以自动从大量数据中提取特征,并学习蛋白质的结构模式。

基于机器学习的方法在蛋白质药物设计、蛋白质功能预测等领域有着广阔的应用前景。

四、蛋白质结构预测的应用前景蛋白质结构预测方法的不断发展,为生物医学领域带来了广泛的应用前景。

首先,结构预测可以帮助揭示蛋白质的功能机制,从而推动药物研发和疾病治疗。

其次,结构预测可以用于预测蛋白质-蛋白质或蛋白质-小分子/药物的相互作用,为药物设计和药效评估提供重要信息。

再者,结构预测还可以用于研究蛋白质折叠与稳定性,有助于理解蛋白质的功能和突变对其结构和功能的影响。

蛋白质结构预测方法及其精度评估

蛋白质结构预测方法及其精度评估蛋白质是生命体中不可或缺的基本组成部分,也是研究生命科学和药物研发的重要对象。

蛋白质的功能与结构密切相关,因此蛋白质的结构预测成为了现代生物学研究的重要方向。

本文将介绍蛋白质结构预测的方法及其精度评估。

一、蛋白质结构预测的方法1. 实验方法实验方法是获得蛋白质结构信息的重要手段。

传统的蛋白质结构研究方法包括X射线晶体学、核磁共振(NMR)、电子显微镜等技术。

这些方法具有高精度和可靠性,但是也存在一些局限性,比如需要纯化大量蛋白质样品,且需要单晶或均质高浓度溶液等,难以适用于大规模的高通量实验。

2. 计算方法近年来,计算方法在蛋白质结构预测中发挥了越来越重要的作用。

可归纳为以下几类:(1)比对法比对法是通过比对已知蛋白质结构与新生物序列的相似性来预测新蛋白质的结构的方法。

这种方法的前提是已经有足够多的相似蛋白质结构可用于比对,且新蛋白质与已知蛋白质的相似性较高。

比对法的优势在于速度较快、精度较高,且计算复杂度较低。

常见的比对算法包括BLAST、PSI-BLAST等。

(2)拓扑法拓扑法是通过预测蛋白质的拓扑结构,然后通过拓扑结构来推断蛋白质的空间结构。

该方法的难点在于如何准确地预测拓扑结构。

目前最常用的拓扑算法是DMPfold和TOPOS。

(3)模拟法模拟法是通过分子动力学模拟和蒙特卡洛模拟等方法来模拟蛋白质分子的构象转换,从而预测出其最稳定的构象。

模拟法的优势在于能够预测出蛋白质表面暴露的区域和内部腔道等具有生物功能的结构。

(4)混合法混合法是指将多种预测方法综合使用,以期望提高预测精度。

例如,可以通过比对法提供初始结构,然后通过模拟法和拓扑法进一步优化结构。

混合法有助于克服单一方法的局限性,但计算复杂度随之增加。

二、蛋白质结构预测的精度评估1. RMSD评价法RMSD是评价蛋白质结构预测精度的最常用方法之一。

RMSD 指的是实验得到的结构与预测结构之间的均方根偏差,通常指C-alpha原子间的偏差值。

蛋白质结构预测研究方法预测

蛋白质结构预测研究方法预测1.基于模板的结构预测:这是最常用和最有效的一种方法,其基本思想是将目标蛋白质的序列与已知结构的蛋白质库进行比较,找到相似的结构作为模板。

基于模板的方法可以进一步细分为下述几种方法:-比对模板方法:使用蛋白质序列比对算法,如BLAST、PSI-BLAST等,将目标序列与已知结构的蛋白质库进行比对,根据比对结果来确定最好的模板。

-符合片段拼接方法:将目标序列切割成一系列较短片段,然后根据这些片段与已知结构片段之间的相似性进行拼接,以获得整个蛋白质的结构。

-聚类模板方法:将蛋白质结构数据库中的已知结构进行聚类,然后确定蛋白质序列在聚类中最接近的模板的结构。

2.基于物理的结构预测:这类方法根据蛋白质结构的物理性质,如键角、相互作用力等,通过物理模型进行预测。

基于物理的方法可以进一步细分为下述几种方法:-动力学模拟方法:通过模拟蛋白质分子的动力学过程,包括蛋白质分子的构象变化、能量泛函的优化等,从而得到最稳定的结构。

-能量函数优化方法:根据蛋白质的物理性质,设计能量函数来评估不同构象的稳定性,并通过优化算法来寻找最低能量的结构。

-亚稳态方法:将蛋白质结构的空间划分为不同的亚稳态,通过算法,如模拟退火、遗传算法等,在不同的亚稳态中寻找最优的结构。

3.基于机器学习的结构预测:这类方法通过训练已知结构的蛋白质和其对应的序列之间的关系,来预测新的蛋白质结构。

基于机器学习的方法可以进一步细分为下述几种方法:-神经网络方法:使用多层感知机或深度学习的方法,通过训练大量的蛋白质序列和结构对,建立序列和结构之间的非线性映射关系。

-统计学习方法:通过分析已知结构的蛋白质序列和结构之间的统计特征,来预测新的蛋白质结构。

-比对模式方法:通过比对已知结构的蛋白质序列和结构,寻找相似的比对模式,并用这些比对模式来预测新的蛋白质结构。

需要注意的是,由于蛋白质结构预测是一个非常复杂的问题,目前还没有一种方法可以预测所有蛋白质的结构。

蛋白质结构的预测和设计

蛋白质结构的预测和设计蛋白质是生命体内最基本的分子机器,它们完成了生命中几乎全部的功能。

然而,在理解蛋白质功能的基础上,我们面临的一个重要挑战是如何探究蛋白质的三维立体结构。

在人类基因组计划完成后,我们已经识别出了大约20,000种编码人类蛋白质的基因,但是仅有不到一半的蛋白质结构被解析。

因此,预测和设计蛋白质结构是当前生命科学领域内非常重要的研究方向。

一、蛋白质的结构预测蛋白质结构预测是通过计算机模拟来预测蛋白质的三维立体结构的过程。

它有助于了解蛋白质的功能和相互作用,并在药物开发、基因工程和分子演化等领域中发挥重要作用。

目前,主要有以下几种方法进行蛋白质结构预测。

1.同源建模同源建模是通过在已经解析的蛋白质结构库中搜索和比较已知的蛋白质结构进行预测的一种方法。

这种方法主要适用于已知序列与已知结构高度相似的蛋白质。

2.蒙特卡罗模拟蒙特卡罗模拟是通过在空间内采用随机数的方法来模拟蛋白质的折叠过程,以得到最稳定的蛋白质三维结构的一种方法。

3.基于物理性质的模拟基于物理性质的模拟是通过计算机模拟蛋白质原子在环境中的物理相互作用和动力学性质来预测蛋白质三维结构的一种方法。

这种方法通过物理模型计算蛋白质的能量最小值,以预测出最稳定的结构。

除了以上方法,还有一些基于机器学习算法、分子动力学模拟等技术的方法也被用于蛋白质结构预测。

但是,所有这些方法都存在重大局限性,如预测结果不准确、模型偏差过大等问题,限制了其在实际应用中的应用。

二、蛋白质的结构设计蛋白质结构设计是通过设计人工序列来实现有特定功能的蛋白质结构的过程。

它可以用于开发新型药物、分子传感器、嫩肤等领域。

经过近年来的探索和研究,已经发现了一些有效的蛋白质结构设计方法。

1.方法一该方法是将构建的蛋白质折叠成模型后,通过改变其氨基酸序列,以优化其折叠或使其保持特定的折叠状态。

重要的是,最好根据确定的目标蛋白质结构,为蛋白质设计完整的折叠拓扑和氨基酸序列。

怎么预测蛋白质的三维结构

怎么预测蛋白质的三维结构蛋白质是构成生命体的重要物质之一,由氨基酸组成的线性多肽链,其三维结构决定着蛋白质的功能和性质。

预测蛋白质的三维结构是一个长期以来的研究热点,对于深入理解蛋白质的生物学功能、新药研发等领域都具有重要意义。

本文将介绍预测蛋白质结构的方法和技术。

一、X射线晶体学X射线晶体学是一种经典的蛋白质结构解析方法。

该方法通过获得蛋白质的结晶体,并在X射线束的作用下进行数据采集和分析,得出蛋白质的三维结构模型。

然而,获得高质量的蛋白质晶体是非常困难的,也需要大量的试验和处理。

此外,对于那些无法形成晶体的蛋白质,晶体学方法也无法适用。

二、核磁共振核磁共振(NMR)是一种特殊的物理性质,可以用来求得蛋白质分子的结构信息。

NMR技术可以用于测量蛋白质中氢、碳、氮等原子的核磁共振谱,并通过分析不同类型的氢、碳、氮原子的化学位移、耦合常数等参数,来确定蛋白质的空间结构。

但是,NMR实验需要获得大量的蛋白质样品,并进行复杂的实验和数据分析,因此NMR成本较高。

三、分子建模方法在计算生物学领域中,分子建模技术是预测蛋白质三维结构的重要方法之一。

分子建模可以基于蛋白质的序列信息,使用计算机模拟技术对蛋白质的结构进行预测。

目前分子建模技术已经发展到了第三代,其中包括了经典力场模型、能量函数最小化方法、分子动力学模拟等方法。

其中,能量函数最小化方法使用一组特殊的数学公式来计算分子内原子间力的强度和作用,从而预测蛋白质的三维结构。

此外,基于蛋白质序列和结构的深度学习模型也成为了分子建模的主流方法之一。

通过训练大量的蛋白质序列和结构,深度学习模型可以预测蛋白质三维结构,并且已经实现高效且准确的预测。

但是,分子建模方法的预测准确性仍需要进一步提高,并且需要考虑到蛋白质分子的折叠动力学过程。

四、整合预测模型由于各种预测蛋白质三维结构的方法各有优缺点,因此研究人员开始将不同的方法整合起来进行蛋白质结构的预测。

目前,整合预测模型已经成为蛋白质结构预测的主流方法之一。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

随着蛋白质结构数据的积累,人们开始注意到一些较简单的序列与结构关系。

可以利用各种氨基酸的疏水值定位蛋白质的疏水区域,通过疏水氨基酸出现的周期性预测蛋白质的二级结构。

Lim等人很早就对α螺旋和β折叠归纳出了一套预测模式。

例如α螺旋的轮状结构特征,轮的一侧通常处于蛋白质的疏水核心,另一侧则常处于亲水表面,如图7.2所示。

因此,α螺旋中亲疏水氨基酸残基的出现位置也就有一定的规律性,亲水残基多出现在亲水侧面,而疏水残基则多出现在疏水侧面,反映在序列上就是一些特征的亲疏水残基间隔模式。

疏水性氨基酸的位置有助于推断蛋白质中二级结构的定位,通过显示疏水氨基酸的分布分析二级结构。

例如,图7.2 是利用HELICALWHEEL程序画出的蛋白质蜂毒素旋轮图。

图中各个氨基酸沿螺旋排布,相邻氨基酸之间的旋转角度为100o。

疏水性氨基酸L、I和V位于螺旋的一侧,而亲水性氨基酸则分布在另外一侧,显示这个螺旋的两亲特性。

根据蛋白质序列中疏水性氨基酸出现模式,可以预测局部的二级结构。

例如,当我们在一段序列中发现第i、i+3、i+4位是疏水氨基酸时,这一片段就被可以预测为α螺旋;当我们发现第i、i+1、i+4位为疏水氨基酸时,这一片段也可以被预测为α螺旋。

同样,对于β折叠,也存在着一些特征的亲疏水残基间隔模式,埋藏的β折叠通常由连续的疏水残基组成,一侧暴露的β折叠则通常具有亲水-疏水的两残基重复模式。

不过,由于β折叠受结构环境的影响较大,序列的亲疏水模式不及α螺旋有规则。

原则上,通过在序列中搜寻特殊的亲疏水残基间隔模式,就可以预测α螺旋和β折叠。

在Biou等人提出的点模式方法中,将20种氨基酸残基分为亲水和疏水残基,用八残基片段表征亲疏水间隔模式。

以一个二进制位代表一个残基,疏水为1,亲水为0,共八位。

这样,八残基片段的亲疏水模式就可用1个0~255的数值来表示。

α螺旋的特征模式对应的值为9,12,13,17,……,201,205,217,219,237;β折叠的特征模式则由连续的1或交替的01构成。

在进行二级结构预测时,根据氨基酸片段计算点模式,如果点模式的值为α螺旋的特征数,则片段预测为α螺旋;若为β折叠的特征数,则片段预测为β折叠。

其余的预测为无规则卷曲。

这种方法的三态预测准确率为55%左右,其中对无规则卷曲预测过多,而对β折叠则预测不足。

当序列长度小于50时,准确率较高。

上述方法定性描述序列片段的亲、疏水特征,通过特征模式识别来预测蛋白质的二级结构。

另一种方法是直接计算序列片段的疏水性和疏水矩,并根据定量计算结果预测该片段对应的二级结构。

序列片段疏水性计算的方法依赖于各个氨基酸残基疏水值。

对于一条蛋白质序列,用一个滑动窗口扫描该序列,计算滑动窗口下各个氨基酸的平均疏水值和疏水矩。

窗口的宽度是可以调整的,一般取9~15残基的窗口宽度,以获得较多的信息和较小的噪声干扰。

平均疏水值的计算公式如下:其中H i是片段第i残基的疏水值。

疏水矩的计算公式如下:其中S i是 碳原子到侧链中心的单位矢量。

按照公式(7-12)的计算结果,画出整个蛋白质的疏水曲线,形成疏水性图。

图7.3是人类视紫质蛋白的疏水图。

与蛋白质疏水图相对应的是蛋白质的疏水矩图。

通过分析这些图谱,可以帮助预测蛋白质的二级结构。

7.2.5 最邻近方法早期,由于缺乏数据,预测方法大多是基于单条序列的。

随着序列和结构数据的增加,人们的研究转向同源序列分析,充分利用隐藏在同源序列中的结构信息,使得结构预测的准确率得到了较大的提高。

同源分析的基础是序列比较,通过序列比较发现相似的序列,根据相似序列具有相似结构的原理,将相似序列(或者序列片段)所对应的二级结构作为预测的结果。

在Levitt 等人建立的方法中,将待预测的片段与数据库中已知二级结构的片段进行相似性比较,利用打分矩阵计算出相似性得分,根据相似性得分以及数据库中的构象态,构建出待预测片段的二级结构。

这一方法对数据库中同源序列的存在非常敏感,若数据库中有相似性大于30%的序列,则预测准确率可大大上升。

另一种更为合理的方法是将待预测二级结构的蛋白质U与多个已知结构的同源序列T i进行多重比对,对于U的每个残基位置,其构象态由多个同源序列对应位置的构象态决定,或取出现次数最多的构象态,或对各种可能的构象态给出得分值。

基于上述的策略,最邻近方法(Nearest Neighboring methods)在预测二级结构方面包括两个过程,一是学习过程,二是预测过程。

在学习阶段,用一个滑动窗口(例如长度为15)扫描已知结构的训练序列,序列个数为几百个,并且这些序列彼此之间的相似性很小。

通过窗口扫描形成大量的短片段(称为训练片段),记录这些片段中心氨基酸残基的二级结构。

在预测阶段,利用同样大小的窗口扫描给定的序列U,将在每一个窗口位置下的序列片段U’与上述训练片段相比较,找出50个最相似的训练片段。

假设这些相似片段中心残基各种二级结构的出现频率分别为fα、fβ和f c,用它们预测片段U’中心残基的二级结构,可以取频率最高的构象态作为U’中心残基的二级结构,或者直接以fα、fβ和f c反映U’中心残基各种构象态可能的分布。

根据处理过程的特点,最邻近方法又称为相似片段法。

7.2.6 人工神经网络方法人工神经网络是一种复杂的信息处理模型。

随着神经网络研究的兴起,科学家们也将神经网络用于生物信息学,其中包括二级结构的预测、蛋白质结构的分类、折叠方式的预测以及基因序列的分析等等。

将神经网络用于二级结构预测最早是由Qian和Sejnowskit提出的,他们受到神经网络在文字语言处理方面应用的启发,将蛋白质序列看作是由各种氨基酸字符组成的字符序列,将氨基酸残基片段作为输入的一串语言字符,二级结构即为对应的输出。

神经网络可以有效地学习蛋白质二级结构形成的复杂规律或模式,提取更多的信息,并利用所掌握的信息进行预测。

利用神经网络方法可以提高二级结构预测准确率。

早期的神经网络方法能够得到63-65% 的二级结构预测准确率,利用多序列比对的信息对二级结构预测的准确率能够达到70%。

用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络,包括输入层、隐含层以及输出层。

每一层由若干神经元组成,输入层神经元与隐含层的神经元是完全连接的,即任何一个输入层神经元都与任何一个隐含层的神经元连接,在图7.4中用一个大箭头表示。

同样,隐含层神经元与输出层的神经元也是完全连接的。

输入层用于接收蛋白质窗口序列数据。

沿蛋白质的氨基酸序列依次取一定大小的窗口,将窗口内的序列片段进行编码,窗口包括中心氨基酸残基及左右m个(共2m+1个)残基,每一个残基用21个神经元编码,因此,输入层共有21*(2m+1)个神经元。

在图7.4中,对于每个残基,仅画出3个神经元。

输出层有3个神经元,分别对应于窗口中心残基的H、E、C三态。

输入层中编码一个残基的21个神经元只有一个处于激发状态,即设置为1,其余为0,对应于一种氨基酸残基。

类似地,代表中心残基二级结构状态的输出单元的期望输出为1,其它两个单元为0。

在这样一种神经网络模型中,隐含层的神经元是完成从氨基酸序列到蛋白质二级结构映射的关键,这种映射是非线性的。

通过隐含层的信息处理,可以检测残基及所处环境与二级结构的复杂关系。

隐含层的神经元个数一般从2个变化到几十个,隐含层的神经元越多,则神经网络对训练实例的记忆能力越强,但是神经网络的推广能力将越弱,对新蛋白质二级结构预测的准确率越低。

因此,在实际应用中需要通过大量实验,选择合适的隐含层神经元个数。

神经网络通过神经元之间的连接存贮信息或知识,因此,神经网络学习的过程实际上是调整网络中各连接权值的过程。

神经网络中各层之间的连接权值调整采用反向传播BP算法(相应的网络称为BP 网)。

在训练或学习过程中,将结构已知的蛋白质序列由输入层输入,不断调整神经网络神经元之间的连接权重及网络节点的偏置,直至实际输出与期望值差别最小为止。

在训练过程的每一步,取一个窗口中的序列及窗口中心氨基酸所对应的二级结构作为已知的映射结果,调整网络映射行为,使之与已知映射关系相一致。

训练完毕后,得到一个已确定参数并且可以进行结构预测的实际神经网络。

与前述其它方法相比,神经网络具有应用方便、计算能力强、预测准确率较高的特点,网络一旦训练完毕,就可以进行快速预测。

目前,蛋白质二级结构预测识别率不高的主要原因是许多预测方法没有使用足够的进化信息和全局信息。

蛋白质序列家族中,氨基酸的替换模式是高度特异的,如何利用这样的进化信息是二级结构预测的关键。

这里介绍蛋白质二级结构预测软件系统PHDsec所使用的方法。

PHDsec的第一步工作是形成同源序列的多重对比排列。

对于一个待预测的蛋白质,PHDsec 首先利用BLAST在SWISS-PROT数据库中搜索同源序列,然后再利用MaxHom程序将这些同源序列对比排列起来,并对每个比对的位置进行统计分析。

PHDsec的第二步工作是将得到的多重比对的统计结果送到一个神经网络中。

这里的神经网络是一个多层的前馈网络,如图7.5所示。

整个网络模型包括两个层次。

第一层网络进行序列到结构的映射。

对于第一层网络的输入包括两个部分,如图7.5(a)、( b) 所示。

一部分是序列的局部信息,取自窗口内w(缺省值为13)个氨基酸残基,另一部分是来自整个序列的全局信息。

首先,取多重序列比对的w列,如图7.5(a)所示,这里w=7;然后,计算序列局部统计数据以及序列全局数据。

局部数据有24个,其中20个数据对应于20种氨基酸,1个数据对应于“空缺”氨基酸(这使得窗口位置可以在序列的两端,蛋白质的第一个或最后一个氨基酸都可以作为窗口的中心,不存在的部分用“空缺”符号代替),2个数据分别表示多重序列比对中该位置的插入(ins)和删除(del)的次数,1个数据表示该位置的保守程度(cons)。

全局数据有32个,其中20个数据表示各种氨基酸所占百分比,表示蛋白质长度的数据有4个(分别对应于4个区间,见图7.5(b)),当前窗口到蛋白质N-端和C-端的距离分别有4个。

第一层次网络的输出是窗口中心残基二级结构的状态,H代表螺旋,E代表折叠,L代表其它。

第二层次网络是一个从结构到结构的映射,作用是对前一层网络的输出进行校正。

第二层网络的输入主要是第一层网络的输出,同时还包括所有全局信息以及局部的保守信息(cons)。

所有第二层网络的输入形式表示为:3(二级结构)+1(空缺)+1(cons)+32(全局数据)。

第二层网络输出的含义与第一层网络的输出一样。

建立好系统的模型后(开始的时候系统仅仅是一个空壳),PHDsec对神经网络进行训练,通过训练教会神经网络如何正确地预测蛋白质二级结构。

相关文档
最新文档