结构生物信息学3-二级结构预测

合集下载

蛋白质结构和功能关系的二级结构预测

蛋白质结构和功能关系的二级结构预测

蛋白质结构和功能关系的二级结构预测蛋白质是生命的重要组成部分,在细胞内担任着多种功能的角色。

蛋白质的结构决定了其功能和活性,因此准确预测蛋白质的结构对于理解其功能关系具有重要意义。

蛋白质结构可以分为四个不同的层级:一级结构、二级结构、三级结构和四级结构。

在这些层级中,二级结构是最基本和常见的一种。

蛋白质的二级结构描述了氨基酸残基之间的局部空间排列方式,主要有α螺旋、β折叠、无规则结构和卷曲结构等几种主要类型。

这种结构的形成通过氢键、范德华力和静电相互作用等相互作用方式维持着。

二级结构在蛋白质结构和功能中起着基础性的作用,对于蛋白质的稳定性和折叠过程具有至关重要的影响。

在过去的几十年里,许多方法和算法被开发出来,用于预测蛋白质的二级结构。

这些方法基于不同的原理和假设,例如统计学、机器学习和模拟等。

统计学方法通过分析已知的蛋白质结构数据集来预测目标蛋白质的二级结构。

机器学习方法则利用已知的蛋白质二级结构进行训练,建立模型并预测目标蛋白质的结构。

模拟方法则使用物理原理和计算机模拟技术来模拟蛋白质的折叠和动力学过程,从而预测蛋白质的二级结构。

其中,最常用的蛋白质二级结构预测方法之一是基于氨基酸序列的机器学习方法。

这种方法通过收集大量的已知蛋白质二级结构数据集,提取相关特征并利用机器学习算法进行训练和预测。

特征可以包括氨基酸序列、物理化学性质、生物信息学特征等。

常用的机器学习算法包括支持向量机、随机森林和深度学习等。

另一种常见的蛋白质二级结构预测方法是基于氨基酸序列的模拟和计算技术。

这些方法通过使用力场模型和分子动力学模拟等技术,模拟蛋白质的折叠过程和结构动力学行为,从而预测蛋白质的二级结构。

这些方法往往需要大量的计算资源和时间,但由于其基于物理原理的优势,能够提供更为准确的预测结果。

最近的研究表明,将不同的预测方法进行组合和集成可以获得更准确的蛋白质二级结构预测结果。

这种组合方法可以充分利用不同方法的优势,并根据不同的蛋白质特征进行灵活调整和选择。

蛋白质结构预测及其在结构生物学中的应用

蛋白质结构预测及其在结构生物学中的应用

蛋白质结构预测及其在结构生物学中的应用蛋白质是生命体内最基础的分子,是构成生命物质的基本单位。

每个蛋白质都具有一定的空间结构,这个结构决定了蛋白质的功能。

因此,蛋白质结构的预测对于生命科学、药物设计等领域具有重要的意义。

本文将探讨蛋白质结构预测的基本原理以及在结构生物学中的应用。

一、蛋白质结构预测的基本原理蛋白质的空间结构可以分为四个层次:一级结构(序列)、二级结构(α-螺旋、β-折叠等)、三级结构(多肽链的空间构象)和四级结构(多个多肽链之间的空间关系)。

预测蛋白质的空间结构,从根本上来说就是预测其三级结构的问题。

目前,大部分蛋白质结构预测方法都是基于基因组学的大规模测序数据的,结合一些现有的晶体结构数据库和序列数据库。

基本上,它们都大致包含以下三个步骤:第一步,根据蛋白质的氨基酸序列和模板数据,在蛋白质数据库中寻找最相似的结构;第二步,将找到的最相似的结构作为一个初始模型,使用蛋白质结构预测算法进行优化;第三步,选择最优解或者最优模型。

目前使用最广泛的预测方法是同源建模和蒙特卡罗模拟。

同源建模通过寻找蛋白质序列和已经被解析的蛋白质晶体或者核磁共振数据的相似性,构建一个已知的三维模型。

蒙特卡罗模拟是一种基于优化的预测方法,模拟蛋白质在空间中不同构象的状态,最后得到最佳的构象。

二、蛋白质结构预测在结构生物学中的应用蛋白质的结构预测对于结构生物学的发展起到了重要的推动作用。

此外,它还可以在多个领域中发挥重要的应用。

1.药物设计药物设计是利用化学或者生物学方法开发药品的过程。

在药物设计过程中,蛋白质结构预测是不可或缺的一步。

通过预测蛋白质的结构,科学家可以根据药物和靶标蛋白质之间的相互作用原理来精确设计和优化药物分子结构。

2.蛋白质工程蛋白质工程是指利用基因工程技术对蛋白质分子进行改造的过程。

结合蛋白质结构预测的结果,科学家可以从理论上探究如何改变蛋白质的某些特性,例如抗原性、稳定性、活性等,以实现特定的应用需求。

蛋白质二级结构的预测以及二级结构与三级结构之间关联的探讨

蛋白质二级结构的预测以及二级结构与三级结构之间关联的探讨

蛋白质二级结构的预测以及二级结构与三级结构之间关联的探讨蛋白质的生物功能以其结构为基础。

随着人类基因组计划的顺利实施,蛋白质序列信息的积累速度远快于蛋白质结构数量的增长速度。

实验上研究蛋白质结构的主要手段有X射线晶体学技术、核磁共振衍射技术、电子纤维技术等。

然而,通过实验手段确定蛋白质的结构,不但成本高、耗时,而且实验中还会遇到一些目前无法解决的技术困难,因此人们非常希望利用理论计算的方法直接从序列信息出发来预测蛋白质结构,这是生物信息学研究的重要课题之一。

目前,直接从氨基酸序列信息出发来预测蛋白质三级结构还是有很多困难。

更多的焦点集中在去预测蛋白质二级结构。

由于二级结构单元是多肽链在三维空间折叠的基本元素,二级结构预测通常作为蛋白质空间结构预测的第一步,是蛋白质三级结构预测中重要的中间步骤,也是蛋白质折叠理论研究的重要挑战。

本文重点介绍了一种新的方法,即基于4肽结构字的多样性增量二次判别法(简称TPIDQD算法),对2个大小不同的数据库进行了二级结构的预测。

同时对325个标准样本集合,进行了二级结构和三级结构关联的研究。

(1)新的预测算法大体分三步:首先用定义的三种4肽结构字(alpha、beta、coil)在序列中出现的频次作为多样源,从而建立标准源;然后用多样性增量结合二次判别法对任何一个序列片段中心残基的二级结构进行预测;最后进行一些修正后处理,包括:消除预测中的结构涨落以及用4肽边界字来修正预测后的结构边界。

(2)用TPIDQD算法首次对CB513数据库的二级结构进行了预测,3折交叉检验的预测精度Q<sub>3</sub>达到79.19%。

(3)建立了一个新的包括1645个非冗余蛋白质链的数据库,其中蛋白质结构分辨率高于3 Angstroms,序列相似性小于25%。

用TPIDQD算法对其中21残基片段中心残基的结构性质进行预测,10折交叉检验得到Q<sub>3</sub>为79.68%。

基于生物信息学的RNA二级结构预测

基于生物信息学的RNA二级结构预测

基于生物信息学的RNA二级结构预测RNA二级结构预测是生物信息学中一个非常重要的问题。

RNA分子是生命中最重要的分子之一,它不只是蛋白质的重要合成媒介,还具有许多重要功能,包括参与基因调控、RNA编辑、RNA修饰等。

确定RNA二级结构不仅可以帮助我们理解RNA的功能和机制,还可以帮助我们研究各种致病和基因缺陷。

本文将介绍RNA二级结构预测的一些基础知识、方法和现状。

一、RNA的结构和功能RNA分子的结构是一个相对简单的单链;但在生命中,RNA 分子通常会折叠从而形成多种不同的结构。

这些结构通常由较短的RNA碱基序列和互补配对所形成的“二级结构”组成。

RNA二级结构是指RNA单链中互补碱基之间形成的配对。

配对产生的氢键形成了RNA的二级结构,而不同的二级结构相互之间的相对位置和方向可以是不同的。

这些相互关系产生复杂的RNA三维结构。

RNA的二级结构影响了RNA分子的许多重要功能,例如,它们可能会影响RNA的稳定性,调节RNA蛋白互作,以及可能为RNA编辑等重要功能的基础。

二级结构还是RNA信息编码的主要载体,起到了保护RNA核心区域的作用。

二、RNA二级结构的预测方法RNA二级结构预测有许多方法,这些方法的复杂性各不相同。

虽然没有一种方法或工具能够完全准确地预测出RNA二级结构,但是这些方法为基于RNA二级结构的机制研究提供了有用的信息。

现在,我们概述了四种常见的RNA二级结构预测方法。

1.基于比对的RNA二级结构预测基于比对的RNA二级结构预测通常基于对多个RNA序列进行比对,从而能够准确的确定RNA相似性和区域位置。

这种方法通常涉及到“比对搜索和计算”,它们根据RNA的结构和序列信息推断出RNA的二级结构。

2. RNA合成和干扰这种方法是通过合成RNA复合物,从而实现RNA二级结构的预测。

它通常针对“内切酶”和“RNA编辑酶”等控制发育和调节基因表达的关键RNA酶进行分析。

3.推断RNA互补模型Acta Cryst Sect D最近发表的一篇论文描述了X-ray晶体学方法,可以在原子分辨率下推断出RNA中两个碱基对之间的对应关系。

生物信息学中的序列分析和结构预测研究

生物信息学中的序列分析和结构预测研究

生物信息学中的序列分析和结构预测研究生物信息学是一门可以将计算机科学与生物学相结合的学科。

生物信息学中的序列分析和结构预测是其中一个重要的研究方向。

随着DNA测序技术的发展,越来越多的生物数据被生成和解析,因此,对生物序列数据的分析和解释变得越来越重要。

本文将介绍生物信息学中的序列分析和结构预测的相关概念和方法。

一. 序列分析序列分析是通过对蛋白质、核酸、氨基酸或者整个基因组序列的分析,得到更深刻的生物学认识的一种方法。

序列分析是从原始的序列数据出发,提取特征,并进行分析、统计和比较的过程,可以用于证实两个生物体之间的亲缘关系、预测基因或蛋白质的功能、寻找生物学上的信号和标志,还可以发现新的蛋白质或RNA序列。

在序列分析中,最重要的任务是进行序列比对。

序列比对是找到两个以上的序列之间的相同部分或相似部分的过程。

基于全序列比对的方法,常见的是Smith-Waterman算法和Needleman-Wunsch算法。

虽然都是动态规划算法,但细节不同,算法时间复杂度、空间复杂度、对gap处理策略不同。

对于一些特殊的比对问题,如短序列比对、大规模序列比对,则需要采用一些高速的快速比对算法,如BLAST和FASTA。

基于序列比对的序列多重比对是一种常见的方式,它用于对多个序列进行分析。

一般有两种方法:动态规划算法和基于计算机Cluster算法。

其中动态规划算法包括POA(Partial Order Alignment)算法、MFA(Multiple sequence alignments by progressive alignment)算法、T-Coffee等,而Cluster算法则有CLUSTAL、MUSCLE等。

序列聚类是生物信息学中的一项重要任务。

序列聚类是指将已知的序列按照一定的规则分成若干个类别,从而对进化树或者结构预测等研究提供比对的基础。

经典的序列聚类算法有UPGMA、NJ、BOT等,通过这些算法可以从序列中找到相似性,更快地分析生物学中的相似性和差异性。

几类常见的RNA二级结构预测方法

几类常见的RNA二级结构预测方法

几类常见的RNA二级结构预测方法摘要:RNA作为生物遗传信息传递和复制的重要组成部分,其结构非常复杂。

使用计算机算法预测大分子量的RNA二级结构将是一个行之有效的途径。

本文将介绍目前常用的几种RNA二级结构预测算法,并对其特点进行初步的比较分析。

关键词:RNA二级结构;算法;自由能;茎区RNA分子是生物体内参与各种如细胞分化、代谢、记忆存储等重要生命活动的一类大分子,其常见种类有:rRNA、mRNA、tRNA。

其中除tRNA分子量较小外,其余RNA分子都具有非常大的分子量且结构复杂。

传统的物理、化学结构预测方法只适用于测量分子量较小的RNA。

而针对大分子量的RNA二级结构预测,使用计算机技术预测是一条行之有效的方法。

本文主要介绍基于系统发育比较和自由能最小两种技术的RNA二级结构预测算法,并对算法的特点做出简单的阐述。

1RNA二级结构的预测方法从1960年fresco等提出第一个RNA二级结构预测算法开始,RNA二级结构的预测算法经历了近半个世纪的发展,已日趋成熟。

1987年V on heijin对各种预测RNA二级结构的方法进行了综述[1]。

1971年Tinoco et.al首次估算了与二级结构相关的能量,包括双链区中堆叠碱基对相关的稳态能量和未配对区域的稳定影响。

1975年Pipas和McMahon开发出计算机程序可以列出tRNA序列中所有可能的螺旋区。

直到1980年Nussinov和Jacobson首次设计出一个用于预测二级结构的精确而有效的算法,该算法运用了类似动态规划的相关技术,产生了两个记分矩阵,用于记录推测出的RNA分子中碱基的相关信息。

目前,研究人员开发出多种RNA二级结构预测方法。

但总体来说,这些方法可以从研究的数据量出发将其分为两大类:基于系统发育比较技术的预测算法和基于自由能最小技术的预测算法。

1.1基于系统发育比较技术的预测算法基于系统发育比较技术的预测算法即序列比较分析方法(comparative sequence analysis),或称系统发育方法(phylogenetic methods)。

生物信息学中蛋白质二级结构预测算法研究

生物信息学中蛋白质二级结构预测算法研究蛋白质是细胞中最重要的分子之一,它们执行着包括催化、结构支撑以及调节生物过程等重要功能。

在研究蛋白质功能的过程中,蛋白质的二级结构信息尤为关键。

二级结构通常指的是蛋白质中由氢键连接的α-螺旋、β-折叠等构像单元,是描述蛋白质内部空间结构的重要参数。

因此,准确预测蛋白质二级结构对于深入了解蛋白质结构与功能之间的关系,具有重要的意义。

在生物信息学领域,蛋白质二级结构预测一直是一个备受关注的研究方向。

这项工作旨在通过从蛋白质序列中推断出其氢键连接的二级结构信息。

在寻找二级结构预测算法的过程中,生物学家们研究发现,蛋白质二级结构具有一定的“规律性”以及模板性。

因此,大多数的蛋白质二级结构预测算法都仰仗于这些规律性的特征。

蛋白质二级结构预测算法主要分为两类:基于机器学习和基于规则的模型。

其中,机器学习算法是近年来发展最快的一种,并且取得了许多优异的预测效果。

前期的一些经典机器学习算法主要是基于统计方法的,如隐马尔科夫模型、支持向量机、人工神经网络等等。

它们的主要特点是利用大量已知结构的训练数据,不断调整模型参数和训练方法,最终实现对新序列的二级结构预测。

近年来,随着深度学习算法的兴起,目前最先进的蛋白质二级结构预测算法也以深度学习模型为主。

这些模型具有如下显著特点:首先,它们能够从蛋白质原始序列数据中提取出更多的相关特征,直接生成蛋白质二级结构。

其次,深度学习算法具有极强的自适应性和泛化性,能够对不同蛋白质序列和二级结构之间的关系进行建模与预测。

这种算法在特定数据集上表现优异,但与模型规则性比起来,其可解释性要差一些。

不同的蛋白质二级结构预测算法在算法内部的实现和技术细节上也各不相同。

举例来说,有一些算法采用分成多段预测或者是分类器配合来处理较复杂的结构;而有的算法则使用局部和全局的特征结合,减缓了中间序列长度增长所带来的影响。

它们在预测准确率、计算效率和模型可解释性等方面各有优缺点。

生物信息学中的基因组分析与功能预测方法研究

生物信息学中的基因组分析与功能预测方法研究简介:生物信息学是研究生物学数据的收集、存储、检索、分析和解释的一门学科,它结合了生物学、计算机科学和统计学的知识。

基因组分析和功能预测是生物信息学中的重要研究内容,旨在了解生物体的遗传信息和功能。

一、基因组分析方法基因组分析是对生物体中的基因组结构和组成进行研究和分析的过程。

下面介绍几种常见的基因组分析方法。

1.基因组测序:基因组测序是获取生物体基因组的完整序列信息的方法。

常见的基因组测序方法包括Sanger测序、Illumina测序和Oxford Nanopore测序等。

通过基因组测序,我们可以了解生物体基因组中的基因、非编码RNA、调控序列等信息,为功能预测提供数据基础。

2.基因组比对:基因组比对是将新测序的基因组序列与已知的参考序列进行比对,以找出两者之间的相似性和差异性。

常见的基因组比对方法包括BLAST、Bowtie、BWA等。

基因组比对可以帮助我们发现新的基因、突变、重排等结构变化。

3.基因组结构与注释:基因组结构与注释是对基因组中的基因进行识别和注释的过程。

常用的基因组结构与注释方法包括基于比对的方法、基于转录组的方法和基于比较基因组学的方法。

这些方法可以帮助我们了解基因的外显子、内含子、起始密码子、终止密码子等信息。

二、功能预测方法基因组的功能预测是根据基因组序列信息推测基因的功能和参与的生物学过程。

下面介绍几种常见的功能预测方法。

1.同源比较:同源比较是通过比对已知功能的基因组序列来推测新基因的功能。

常见的同源比较方法包括BLAST、HMMER、PHYRE等。

通过同源比较,我们可以从已知功能的基因中找到与待预测基因相似的序列,从而推测其功能。

2.基因家族预测:基因家族预测是通过分析基因组中的重复序列来推测基因的功能。

常用的基因家族预测方法包括Pfam、SUPERFAMILY等。

这些方法可以将基因分为不同的家族,并预测其功能。

3.结构与功能预测:结构与功能预测是通过预测蛋白质的二级结构、三级结构和功能来推测基因的功能。

生物信息学中的序列分析与结构预测研究

生物信息学中的序列分析与结构预测研究序列分析与结构预测是生物信息学中的重要研究领域。

生物信息学是应用计算机科学、数据科学和统计学等技术来研究生物学问题的学科。

序列分析和结构预测是生物信息学中的两个核心任务,它们可以揭示生物分子的功能和结构,进而为疾病治疗、药物设计等领域提供重要的理论依据。

1. 序列分析序列分析是指对生物分子序列(如DNA、RNA和蛋白质序列)进行研究和分析的过程。

通过序列分析,我们可以了解到生物分子的组成、结构和功能。

在序列分析中,常用的方法包括序列比对、序列搜索以及序列分类等。

序列比对是将不同生物分子序列进行比对,找出它们之间的相似性。

通过比对分析,可以推测不同生物分子之间的亲缘关系,进而研究它们的功能和进化历史。

序列比对中的常见算法包括Smith-Waterman算法和Needleman-Wunsch算法。

序列搜索是从大量的生物序列数据库中搜索与目标序列相似的序列。

这种方法可以帮助研究人员找到与目标序列功能相似的已知序列,从而推断目标序列的功能和结构特征。

常用的序列搜索算法包括BLAST算法和FASTA算法。

序列分类是根据生物分子的序列特征将它们分为不同的家族或亚型。

通过序列分类,可以对生物分子进行分类研究,从而揭示它们的功能和结构变化。

常用的序列分类方法包括聚类分析、物种分类和基于机器学习的分类模型。

2. 结构预测结构预测是基于生物分子的序列信息来预测其三维结构的方法。

生物分子的结构决定了其功能和相互作用方式。

结构预测可以帮助我们理解生物分子的功能和相互作用机制,并为药物设计和疾病治疗等领域提供有力的支持。

蛋白质结构预测是结构预测中的重要任务之一。

蛋白质是生物体内最重要的功能分子,其结构与功能密切相关。

蛋白质结构预测可以通过多种方法进行,包括基于比对的模板建模、蛋白质折叠动力学模拟以及基于物理力学模型的结构预测等。

核酸结构预测是研究DNA和RNA分子的三维结构的过程。

DNA和RNA是生物体内的遗传物质,其结构和功能的解析对生物学的研究具有重要意义。

蛋白质结构预测和功能预测的生物信息学算法研究

蛋白质结构预测和功能预测的生物信息学算法研究蛋白质是生物体中一种非常重要的分子,它们在细胞代谢过程中扮演着重要的角色,例如:催化反应、运输物质、支撑结构、调节信号传导等等。

我们人类的身体中,就有数以百万计的不同种类的蛋白质,而这些蛋白质都是由氨基酸(Amino Acids)构成的。

在国际上,对蛋白质立体构型(Protein Conformation)和功能的研究一直是生物信息学领域的一个热点。

因此,本文就来探讨一下蛋白质结构预测和功能预测的生物信息学算法研究。

一、蛋白质结构预测算法1. 介绍蛋白质的结构预测是对蛋白质分子结构进行预测的过程,可以分为三种类型:一级结构、二级结构和三级结构预测。

一级结构是指蛋白质的氨基酸序列,二级结构是指蛋白质中α螺旋和β折叠的相对排列,三级结构是指蛋白质的完整三维结构。

蛋白质结构预测的研究可以追溯到上世纪50年代,当时是通过实验方法来寻找蛋白质结构的。

而随着计算机技术的发展,蛋白质结构预测的研究逐渐趋于计算机模拟方法。

2. 常见的蛋白质结构预测算法(1)序列比对序列比对是通过比较不同蛋白质的氨基酸序列,找出它们的相同区域来推测蛋白质结构。

这种方法通常适用于寻找已知结构的蛋白质的未知序列,而对于全新的未知蛋白质序列,这种方法存在较大的误差。

(2)拓扑结构模拟拓扑结构模拟是建立在拓扑学基础上的一种新型方法,通过模拟拓扑结构的各种表现形式,例如多面体和环等,在根据实验数据优化模拟结果,获得预测结论。

拓扑结构模拟方法克服了许多传统算法存在的局限性,并且在计算时间上也得到了较大的改善,因此具有广泛应用价值。

(3)机器学习机器学习方法在蛋白质结构预测中也有广泛应用,这种方法主要是利用大量已知的蛋白质结构和对应的氨基酸序列,通过机器学习算法建立预测模型,再使用模型对未知蛋白质结构进行预测。

这种方法不仅准确度高,而且预测速度也非常快。

二、蛋白质功能预测算法1. 介绍蛋白质的功能预测是指比较已知的功能和未知蛋白质序列之间的相似性来预测其功能。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
u u
l
剩余部分若长于6个残基,而且{Pα} >1.03,则 预测为螺旋。
生物信息学培训班
二级结构预测方法 - 经验参数法 预测算法
Ø 经验参数法 – β折叠规则:
l
沿蛋白质序列寻找β折叠核
u
延伸
成核区
延伸
l
相邻的6个残基中如果有至少4个残基倾向于形 成β折叠,则认为是折叠核。 从螺旋核向两端延伸 直至四肽片段的β螺旋倾向性因子的平均值{Pβ }<1.0为止。 若延伸后的片段的{Pβ}>1.05,则预测为β折叠
Ø 由蛋白质二级结构统计分析得到的规则可用于全新蛋白质 设计或蛋白质突变体的设计; Ø 当序列同源性较低时,二级结构的指认有助于确定蛋白质 间结构与功能的关系; Ø 同源蛋白质模建中,二级结构预测有助于建立正确的序列 比对关系; Ø 基于二级结构片段堆积的三级结构预测中正确的二级结构 预测是第一步;
生物信息学培训班
二级结构预测方法 - 经验参数法 预测算法
Ø 经验参数法:
l
倾向性因子:一个氨基酸残基的构象倾向性因子定义为 残基A处于构 象态i 的比例 所有被统计残 基处于构象态 i的比例
Pi = Ai / Ti (i = α , β , c, t )
大于1.0表示该残基倾向 于形成二级结构构象i α -- 螺旋 β--折叠; c --转角; t -- 无规卷曲
l
每种氨基酸出现在各种二级结构中倾向或者频率是不同的
u Glu主要出现在α螺旋中 u Asp和Gly主要分布在转角中 u Pro也常出现在转角中,但是绝不会出现在α螺旋中
生物信息学培训班
二级结构预测方法 - 经验参数法 预测算法
Ø 经验参数法:
l l
由Chou 和Fasman在70年代提出来 是一种基于单个氨基酸残基统计的经验预测方法。通过 统计分析,获得的每个残基出现于特定二级结构构象的 倾向性因子,进而利用这些倾向性因子预测蛋白质的二 级结构
Ø 将蛋白质序列看作是由各种氨基酸字符组成的字符 序列,将氨基酸残基片段作为输入的一串语言字符 ,二级结构即为对应的输出。 Ø 神经网络可以有效地学习蛋白质二级结构形成的复 杂规律或模式,提取更多的信息,并利用所掌握的 信息进行预测。 Ø 利用神经网络方法可以提高二级结构预测准确率。
生物信息学培训班
二级结构预测方法 - 经验参数法 预测算法
生物信息学培训班
二级结构预测方法 - 经验参数法 预测算法
Ø 经验参数法:
l
基本思想是在序列中寻找规则二级结构的成核位点和终 止位点 扫描输入的氨基酸序列,利用一组规则发现可能成为特 定二级结构成核区域的短序列,然后对于成核区域进行 扩展,不断扩大成核区域,直到倾向性因子小于1.0为止 规则:
l
背景简介
l l
通过序列比对可以得到蛋白质序列的进化信息,得到蛋 白质家族中的特定残基替换模式; 通过序列的比对也可以得到长程信息 使二级结构预测的准确程度有了比较大的提高,特别是 对β折叠的预测准确率有较大的提高,预测结果与实验 观察趋于一致。
生物信息学培训班
Outline
Ø 背景简介 Ø 蛋白质二级结构预测算法 Ø 蛋白质二级结构常用软件
l
生物信息学培训班
二级结构预测方法 – 立体化学 方法 Ø 立体化学方法 --点模式方法:
l l l l
预测算法
将20种氨基酸残基分为亲水、疏水以及两性残基三类; 用八残基片段表征亲疏水间隔模式; 一个二进制位代表一个残基,疏水为1,亲水为0,共8位; 八残基片段的亲疏水模式可用0∼255的数值来表示 α螺旋的特征模式对应的值为: 9,12,13,17,……,201,205,217,219,237 β折叠的特征模式: 由连续的1或交替的01构成
f H = 780 / 1830 f H ' = 1050 / 1830 f H , A = 240 / 390 f H ', A = 150 / 390
I (ΔH ; A) = log( f H , A / f H ', A) log( f H ' / f H ) + = log((240 / 390) / (150 / 390)) + log((1050 /1830) / (780 /1830)) = 0.7650
生物信息学培训班
预测算法 二级结构预测方法 – 立体化学 方法 Ø 立体化学方法,基于氨基酸疏水性的预测方法:
l l
l
l
氨基酸的理化性质对二级结构影响较大 在进行结构预测时考虑氨基酸残基的物理化学性质,如 疏水性、极性、侧链基团的大小等; 根据残基各方面的性质及残基之间的组合预测可能形成 的二级结构。 Lim等人对α螺旋和β折叠归纳出了一套预测模式:
学习分类规则
生物信息学培训班
蛋白质二级结构预测基本方法
Ø 第一代是基于单个氨基酸残基统计分析
l
背景简介
从有限的数据集中提取各种残基形成特定二级结构的 倾向,以此作为二级结构预测的依据。
Ø 第二代预测方法是基于氨基酸片段的统计分析
l l l l
统计的对象是氨基酸片段 片段的长度通常为11-21 片段体现了中心残基所处的环境 在预测中心残基的二级结构时,以残基在特定环境形成 特定二级结构的倾向作为预测依据
l
预测算法
l
α螺旋的形成规律: u 在一段序列中发现第i、i+3、i+4位(如1、4、5)是 疏水残基时,这一片段就被预测为α螺旋; u 当发现第i、i+1、i+4位(如7,8,11)为疏水残基时 ,这一片段也被预测为α螺旋。 β折叠的形成规律: u 埋藏的β折叠通常由连续的疏水残基组成,一侧暴露的 β折叠则通常具有亲水-疏水的两残基重复模式 原则上,通过在序列中搜寻特殊的亲疏水残基间隔模式 ,就可以预测α螺旋和β折叠
u u u u
l
l
α螺旋规则 β折叠规则 转角规则 重叠规则
延伸
成核区
延伸
生物信息学培训班
二级结构预测方法 - 经验参数法 预测算法
Ø 经验参数法 -- α螺旋规则:
l
沿蛋白质序列寻找α螺旋核
u
延伸
成核区
延伸
l
相邻的6个残基中如果有至少4个残基倾向于形成 α螺旋,则认为是螺旋核。 从螺旋核向两端延伸 直至四肽片段的α螺旋倾向性因子的平均值{Pα }<1.0为止。 将螺旋两端各去掉3个残基
生物信息学培训班
二级结构预测方法 - 经验参数法 预测算法
Ø 经验参数法 –重叠规则:
l
l l
对于螺旋和折叠的重叠区域,按{Pα }和{Pβ }的相对 大小进行预测 若{Pα }大于{Pβ },则预测为螺旋; 反之,预测为折叠。
生物信息学培训班
二级结构预测方法 - GOR算法
预测算法
生物信息学培训班
蛋白质二级结构预测
背景简介
Ø 蛋白质二级结构预测的基本依据是: 每一段相邻的氨基酸残基具有形成一定二级结构的 倾向。 Ø 二级结构预测问题:模式分类和识别问题 Ø 二级结构预测的目标:
判断每一段中心的残基是否处于α螺旋、β折叠、转角( 或其它状态)之一的二级结构态。 l 蛋白质中约85%的氨基酸残基处于三种基本二级结构状态
Ø 定义信息为:
l
预测算法
I ( S ; R) = log[ P( S | R) / P( S )]
l l l
P(S|R):两个事件S和R的条件概率,即在R发生的条件下 ,S发生的概率 若S和R无关,则 I(S; R)=0 若R的发生有利于S的发生,则I(S; R)>0 若R的发生不利于S的发生,则I(S; R)<0
u
l
生物信息学培训班
二级结构预测方法 - 经验参数法 预测算法
Ø 经验参数法 –转角规则:
l
转角的模型为四肽
f j +1 ⋅ f j +2 ⋅ f j +3 ⋅ f j +4 > 7.5 ×10
u u
−5
四肽片段Pt的平均值大于100
l
Pt的均值同时大于Pα 的均值以及Pβ 的均值 则可以预测这样连续的4个氨基酸形成转角
预测算法
是将待预测二级结构的蛋白质U与多个同源序列 进行多重比对,对于U的每个残基位置,其构象 态由多个同源序列对应位置的构象态决定,或 取出现次数最多的构象态,或对各种可能的构 象态给出得分值。
生物信息学培训班
预测算法 二级结构预测方法 – 神经网 络法 Ø 人工神经网络是一种复杂的信息处理模型,
Ø I(S; R)在二级结构预测中的含义 l R代表中心氨基酸及其所处环境 l S代表二级结构类型 l I(S; R)代表中心氨基酸处于S的信息值
生物信息学培训班
二级结构预测方法 - GOR算法
Ø 例子:
l
预测算法
l
假定数据库中有1830个残基, 780个处于螺旋态,1050 个处于非螺旋态; 库中共有390个丙氨酸(A),有240个A处于螺旋态, 其余150个 A 处于非螺旋态。
行相似性比较,利用打分矩阵计算出相似性得分, 根据相似性得分以及数据库中的构象态,构建出待 预测片段的二级结构 Ø 该方法对数据库中同源序列的存在非常敏感,若数 据库中有相似性大于30%的序列,则预测准确率可 大大上升
生物信息学培训班
预测算法 二级结构预测方法 – 同源分 析法 待预测二级结构的氨基酸片段
假设已知二级结构的氨基酸片段 T=STNGIYW T的二级结构为 CHHHHHT H代表α螺旋, T代表转角, C代表无规卷曲 U=ATSGVFL
序列比对: T=STNGIYW U=ATSGVFL
相关文档
最新文档