蛋白质序列分析

蛋白质序列分析
蛋白质序列分析

7 蛋白质序列分析与功能预测 (1)

7.1 引言 (1)

7.2 功能描述 (2)

7.2.1 基因本体 (3)

7.2.2 利用GO术语的功能注释 (7)

7.3 基于序列相似性的功能预测 (8)

7.3.1 基本预测方法 (10)

7.3.2 分析与讨论 (14)

7.3.3 蛋白质家族与序列的相似性聚类 (15)

7.4 基于蛋白质信号的功能预测 (17)

7.4.1 蛋白质信号 (17)

7.4.2 信号的描述 (22)

7.4.3 蛋白质模体、结构域和家族数据库 (28)

7.4.4 分析与讨论 (34)

7.5 基于蛋白质序列特征的功能预测 (35)

7.5.1 序列的理化性质 (35)

7.5.2 跨膜与卷曲螺旋分析 (37)

7.5.3 蛋白质翻译后修饰分析 (40)

7.5.4 亚细胞定位预测 (42)

7.5.5 基于序列特征的蛋白质分子功能预测 (44)

7.6 功能预测的其他思路 (45)

参考书目 (47)

7 蛋白质序列分析与功能预测

DNA经常被比喻为构筑生命的蓝图,相应地,蛋白质就是构筑生命体最主要的材料。蛋白质在生命过程中发挥着巨大的作用,它们执行着大部分生物功能。这些功能包括结构功能(如细胞骨架中的肌动蛋白)、酶功能(很多蛋白质可以催化生物反应,常见的蛋白质催化功能是使生物反应加速一定数量级),以及在细胞内或细胞间转运物质的功能。大量序列被测定带给了生物信息学家一个挑战,那就是如何从这些序列中找到基因,然后给基因加上注释,即给这些基因提供关于它们性质或功能的简单描述。

7.1 引言

继基因组结构注释(genome structural annotation)完成后,阐明基因组所表达的全部蛋白质的表达规律和生物功能,称为功能注释(functional annotation),成为研究的热点,是基因组注释(genome annotation)的重要组成部分。据Friedberg I称,2006年时,GeneBack中约有~40%的序列被标注为“unknown function”。由于蛋白质是生命活动的最终执行者,并且蛋白质功能的阐明将有助于疾病机理的研究并最终帮助人类进行药物设计与疾病治疗。因此,对基因产物——蛋白质的功能预测(protein functional prediction)是后基因组时代的一项重要任务。

尽管新的实验技术例如DNA芯片、酵母双杂交系统、RNA干扰以及大范围地、系统地缺失突变(knock-out)取得了巨大的进展,但这些方法都需要各种特定的设备,且价格昂贵、操作繁琐,成本高、周期长。由于实验同时会受到一些不可预知的环境以及人为因素的影响,其所得结果的可信度也需加以考虑。种种这些因素制约了蛋白质大规模分析的开展。目前,实验方法阐明蛋白质功能尚远远落后于序列的测定。面对呈指数增长的蛋白质序列数据,采用生物信息学的方法和手段来阐明大批量蛋白质序列的生物学功能具有非常重大的意义。

可采用生物信息学方法对蛋白质序列的功能进行预测的本质在于,承担核心生物功能的相当一部分基因被所有生物物种共享,从而可以利用某些特定物种中基因所编码的少量蛋白质序列(目前占已知蛋白质序列总数的5%)的已知生物功能信息(知识)对其他物种的大量蛋白质序列进行功能注释。Hawkins T于2006年在“Protein Science”上发表文章,将蛋白质序列分析和功能预测方法大致分为四类:(1)基于序列或结构的分析方法(sequence and structure based methods),又称进化方法(evolutionary

methods),这类方法基于全局或局部序列的保守性,或者结构上的保守性来预测蛋白质功能;(2)基于基因组上下文的方法(genomic context methods),又称比较基因组方法(comparative genomics methods),分别基于结构域融合事件(domain fusion events)、系统进化特征谱(phylogenetic profiling)、保守的基因顺序(conserved gene order),表达谱(expression profiling)以及共调控(common regulatory)等预测蛋白质功能;(3)基于相互作用的方法(interaction-based methods),又称细胞方法(cellular methods),使用蛋白质相互作用数据预测功能;(4)基于过程的方法(process based methods),又称代谢方法(metabolic methods),利用生物化学路径(biochemical pathways)的结构化网络(structured networks)来匹配蛋白质的非典型反应(uncharacterized reaction)。其中方法(1)最为成熟,本章主要围绕该方法讲述。

7.2 功能描述

理论上,蛋白质功能指“所有在蛋白质上或是经由蛋白质发生的事情”,是一个非常复杂的概念。完全理解蛋白质的功能需要回答一系列的问题,如产生了什么样的蛋白质?其三维结构如何?会出现在生物体的什么组织中?会参与哪些细胞功能?会和哪些蛋白质发生相互作用?在细胞的后翻译(post- translationally)过程中会得到修饰产生变化吗?会与哪些蛋白质绑定?会催化哪些反应?会参与哪些代谢路径?等等。完整的蛋白质功能注释需要从生化、细胞、组织、发育进化、生理等各方面进行描述。

为支持基于生物信息学方法的功能分析,各数据库与注释系统普遍采用了功能术语集的方法。比如,SwissProt蛋白质序列数据库定义了10类八百多个功能描述关键字(SwissProt KeyWords),不同的蛋白质选用不同(个数)的KeyWords来概要定义其功能。这类方法存在的主要问题是容易产生术语不一致或术语描述模糊等现象。有时,功能根据生物化学的机制来定义(例如“腺苷酸激酶”);有时则根据所处的代谢通路或在细胞中的总体作用来定义(例如“糖酵解”或者“细胞代谢”);有时会根据生物体的表型来定义(例如“引起癌症”)。各数据库都有自己的功能术语集。比如,除SwissProt KeyWords外,GeneQuiz使用14类功能术语,PEDANT使用FunCat的15类功能术语等。这些给基于生物信息学方法的功能注释带来困难,更阻碍进一步的数据分析理解。

有学者提出可以分不同的层次和级别(multilevel and hierarchical)对蛋白质功能

进行描述。例如,Brok P于1998年给出可以从如图7.1所示的三个层次来描述蛋白质功能:最细致的一层给出蛋白质的特殊绑定位点、催化活性和构象变化等分子功能(molecular function);进而给出描述一定细胞环境下代谢途径、信号级联的参与情况等的细胞功能(cellular function);最上层给出其在生物体内的表型(phonotype)情况,如是否患有某种疾病及其疾病病理等。此时,功能预测的根本目标是建立基因型(genotype)与表型(phenotype)以及与环境间的相互作用与联系。这类复杂关系的建立将为致病基因筛选、药物靶标筛选、基因表达谱数据分析、建立调控网络等提供关键信息。比如,通过建立基因型与表型间的关系可以找出特定疾病表型的致病基因,找出可成为最佳药物靶标的重要代谢途径上的某些蛋白质,以及通过改变哪些基因可实现特定的表型等。然而,目前掌握的信息与知识还不足以大规模地解决生物体表型的功能预测问题,对蛋白质分子功能和细胞功能也还只能做到部分定性的描述。

在此背景下,Gene Ontology Consortium于1998年提出用一整套标准的结构化控制词汇(controlled vocabulary),来描述真核生物的基因或蛋白质在细胞内所扮演的角色及生物医学方面的知识。目前,基因本体得到了广泛的认可,成为事实上的标准功能术语集,为基于生物信息学的蛋白质功能预测带来便利。

7.2.1 基因本体

基因本体是一套具有动态(dynamic)形式的结构化控制词汇。可以从这样几个方面来理解基因本体的概念。首先,从“词汇性”方面理解。每个本体具有统一的标准名称(GO术语,GO term)和编号(GO id)。其次,从“结构化”方面理解,一组本体可通过“is a”或“part of”的关系关联起来形成一个具有层次结构的有向无环图(Directed Acyclic Graphs,DAG)。比如,“核膜”(nuclear membrane)本体与“核”(nucleus)本体可以通过“part of”的关系关联起来。DAG图可以展现为树状层次结构,如其原网站上给出的图(图7.2)所示。DAG图与标准的树状层次结构图的区别在于允许每一个本体有一个或多个父亲。在DAG中,本体的结构层次越浅,功能描述越笼统;层次越深,功能描述越特异。再次,从“控制性”方面理解,最上层的本体名称可代指整个DAG图及其包含的所有本体。比如,通常说GO有三大独立的基因本体:生物过程(biological process,BP)、分子功能(molecular function,MF)和细胞组分(cellular component,CC),如图7.2所示,分别用于描述蛋白质的分子和细胞功能。最后,从“动态性”方面理解,随著生命科学的发展,GO本体的术语

及其相互间的关系由专家一直在不断地手工累积与更新。截至到2009-3-12日为止已经积累了26933个GO术语。

图7.1 从分子功能、细胞功能、表型等三个层次来描述蛋白质功能

图7.2 GO的三大独立本体及DAG图示意

GO已经成为生物信息领域中一个极为重要的工具,并逐步改变着对生物学数据的组织和理解方式,它的存在已经大大加快了对所拥有的生物学数据的整合和利用。比如,在采用GO术语对基因或蛋白质的功能进行标注后,依据GO提供的层次性组织结构就可以从生物学功能上将基因或蛋白质分成不同的层次结构组。

为更进一步说明GO本体及其间的层次结构关系,下面引用Gene Ontology Consortium于2000年在Nature Genetic上发表的论文“Gene ontology: tool for the unification of biology.”中给出的三个例子,分别从生物过程BP、分子功能MF和细胞组分CC三个方面来说明GO本体。

生物过程指基因或基因产物促成的生物学目的(biological objective)。一个过程

通常经由一个或多个按顺序整合的分子功能完成。宽泛或称高层的生物过程术语的例子是“细胞生长和维持”(cell growth and maintenance)或者“信号转导”(signal transduction)。较为特异或称底层的过程术语是“翻译”(translation)、“嘧啶代谢”(pyrimidine metabolism)或“cAMP生物学合成”(cAMP biosynthesis)。图7.3给出了“DNA代谢”术语(本体)及其利用DAG图关联起来的部分相关本体。

图7.3 “DNA代谢”本体及其利用DAG图关联起来的部分相关本体以及相应的被注释的基因产物

分子功能被定义为单个基因产物分子的生物化学活性(包括针对配体或结构的特殊绑定)。注意,这个定义同样可用于描述潜在的基因产物或基因产物联合体(gene product complex)的功能。不过它仅用来描述发生了什么而不特指在哪里或何时该事件实际发生。宽泛的分子功能术语是“酶”(enzyme)、“运输”(transporter)或“配体”(ligand)。较为特异的功能术语是“将转换成腺苷酸的环化酶”(adenylate cyclase)或“Toll受体配体”(Toll receptor ligand)。图7.4给出了分子功能中核酸绑定以及酶等术语(本体)及其利用DAG图关联起来的部分相关本体。

细胞组分指的是基因产物能具活性的细胞位置。注意,术语集包含了所有的术语,然而并非所有的术语都被应用于所有的物种。细胞组分包含了“核糖体”(ribosome)、

“蛋白酶体”(proteasome)等包含了多个基因产物的特定细胞组分术语。同时也包含了“核膜”(nuclear membrane)、“高尔基体”(Golgi apparatus)等术语。图7.5给出了细胞、细胞质和核子等细胞组分本体及其利用DAG图关联起来的部分相关本体。

图7.4 分子功能中核酸绑定以及酶等本体及其利用DAG图关联起来的部分相关本体以及相应被注

释的基因产物

图7.5 细胞、细胞质和核子等细胞组分本体及其利用DAG图关联起来的部分相关本体以及相应被注

释的基因产物

7.2.2 利用GO术语的功能注释

Gene Ontology使用结构化的控制词汇规范化地定义了蛋白质(基因产物)的功能以及功能间的关系,在功能预测(注释)中得到了广泛地使用。2001年,UniProt组织成为GO Consortium的成员,并发起了GOA工程,基于文献以及多个数据库资源信息,利用GO术语对蛋白质(基因产物)进行功能注释。特别地,目前对人类基因组上的蛋白质序列也采用了GO术语进行功能注释,这体现在了Ensembl、UCSC和NCBI等提供的基因组注释系统中。

GO术语注释涵盖了一条默认规则:如果一个基因产物被注释为一个较为底层的本体,那么同时也被该本体的祖先注释。从图7.3中给出的被注释的基因产物及其相关本体和本体间关系的示意图中可以明显地看到这条规则,比如Pcna被注释为“DNA 链伸长率”(DNA strand elongation),那么同时也默认地被注释为“DNA独立”(DNA-dependent)、“DNA复制”(DNA replication)、“DNA代谢”(DNA metabolism)等一系列“祖先”本体。类似的注释情况可以从图7.4、7.5中观察到。

利用GO术语,一个基因或蛋白质可从三个层面来注解,首先是构成在细胞内的特定组分(cellular component),其次是此组分在分子功能上所扮演的角色(molecular

function),最后生物学家一定想知道这个基因或蛋白质到底参与哪些生物过程

(biological process)。以如图7.6所示的钾离子通道蛋白质KCNQ1(KcsAK+)为例,从细胞组分的角度看,该基因产物可以被本体“GO:0008076 Voltage-gated potassium channel complex”所描述,如图7.7;从分子功能的角度看,该基因产物可被注释为图7.7中的“GO:0005251 delayed rectifier potassium channel activity”;从参与的生物过程看,该基因产物可被注释为多条本体,包含图7.7中的“GO:0006936 muscle contraction”、“GO:0006813 potassium ion transport”、“GO:0008016 regulation of heart contraction”和“GO:0007605 sensory perception of sound”等。图7.7中括号内的“traceable author statement”(通常简写为TAS)是GO提供的对注释可信度的提示,称为证据码(evidence code)。除了TAS证据码外,GO网站还给出了多个证据码及其注释可信度说明(https://www.360docs.net/doc/e610552677.html,/GO.evidence. shtml)。

对于人类RBP4基因,编码的蛋白质为RET4_HUMAN(P02753),其GO的注释是“retinol binding”(分子功能)和“GO0005615extracellular space”、“GO0005634 nucleus”、“GO0005730 nucleolus”、“GO0005576 extracellular region”(细胞组分),与生物过程相关的注释较多,有“GO0050896 response to stimulus”、“GO0006810 transport”、“GO0006810 transport”、“GO0007601 visual perception”、“GO0006094 gluconeogenesis”等。

7.3 基于序列相似性的功能预测

利用序列相似性预测蛋白质功能几乎是最早也是最直接的功能预测方法。其理论依据是当若干生物大分子由共同的祖先分子进化而来时,它们往往在序列、结构和生物学功能上具有相似性。预测的基本步骤是,将未知功能的蛋白质序列作为查询序列,利用序列比对算法,例如BLAST、PSI-BLAST、FASTA等,搜索已注释的蛋白质序列数据库(如UniProt/SwissProt等),找出与查询序列相似的序列,进而从相似序列的功能特性分析外推查询序列的功能信息等。

KcsA K+ channel: two views PDB 1J95

(a) 三维结构图(从PDB中获取)(b) 钾离子通道功能示意图

图7.6 钾离子通道蛋白质KcsAK+的三维结构与功能示意图

图7.7 UniProtKB/SwissProt给出的KCNQ1(P51787)的GO注释情况

7.3.1 基本预测方法

序列的相似性搜索涉及两类资源,一是相似性搜索和比对软件工具,二是序列数据库资源。依据序列长度和类型的不同,可以选择不同的序列比对工具,比如,MPsrch、BLAST/ PSI-BLAST以及FASTA等。而已注释的蛋白质序列数据库有很多,如SwissProt、TrEMBL、NRDB(nr)、GenPept、PIR-PSD、PIR-NREF、NRL-3D和EXProt等等。国际著名杂志“核酸研究”(Nucleic Acids Research,NAR)的网站上专门有“general sequence database”的报道,较为全面地列出了目前国际上重要的蛋白质序列数据库,其中大多提供相应的序列比对搜索工具。

由于EBI(欧洲生物信息学研究所,European bioinformatics institute)、SIB(瑞士生物信息学研究所,Swiss Institute of Bioinformatics)和PIR(蛋白质信息中心,Protein Information Resource)的努力,目前UniProt(Universal Protein Resource)蛋白质序列数据库得到了广泛的认可。针对不同的用户,UniProt分三个层次构成,一是UniProt Knowledgebase(UniProtKB),包含UniProtKB/SwissProt和UniProtKB/TrEMBL,它涵盖大量人工注释的蛋白质信息,包括功能、分类以及数据库的交叉索引等;二是UniProt Archive(UniParc),力图收集最完整、最全面的蛋白质序列数据;三是UniProt Reference Clusters(UniRef),其涵盖的数据库是将UniParc中的序列数据依据不同的参数条件去除冗余后得到的结果。后两者对蛋白质序列都没有加以注释,只给出了序列数据的来源和相关链接。

UniProtKB/SwissProt,由于其注释信息的全面性和可靠性,被称为是注释的蛋白质序列数据的“黄金标准”(golden standard)。而UniProtKB/TrEMBL是为了在不降低SwissProt高水平注释质量的同时,又能使经由测序获取的蛋白质序列数据得以尽快地发布,作为SwissProt数据库的补充,而于1996年数据库得以诞生的。尽管其注

释信息的质量难以与SwissProt相比,TrEMBL仍然采用多种措施尽可能地丰富注释内容、提高数据质量。

NCBI提供的RefSeq由于整合了基因组DNA序列、转录本以及基因产物(蛋白质)等,为基因结构辨识(gene identification and characterization)、突变分析(mutation analysis)、表达研究(expression studies)、多态性发现(polymorphism discovery)和比对分析(comparative analyses)等提供了从基因组序列到蛋白质序列的全面的序列信息,因而也被广泛使用。相关内容在第2章中已有介绍,此处不再赘述。下面分别以三个例子说明针对UniProtKB/SwissProt进行相似性搜索提供蛋白质功能预测的情况。

例7-1 利用相似性分析进行蛋白质功能预测的成功案例。假定在基因结构预测中,利用基因结构预测工具(比如GenScan)得到了一条序列Protein_GenScan_HUMAN,序列内容如表7.1所示,利用蛋白质专家分析系统Expasy提供的blast工具进行序列相似性搜索,搜索数据库限定为SwissProt,其他参数选用默认值,得到相似性比对结果(部分结果内容如表7.2和图7.8所示)。

从结果中可以得知该蛋白质与视黄醇结合蛋白(retinol-binding protein, RET4)有很高的相似性,基本可以判定序列属于lipocalin家族。此时可以根据与提交序列具有非常高的相似性的蛋白质序列(比如RET4_PANTR、RET4_HUMAN、RET4_HORSE、RET4_PIG等)以及lipocalin家族成员所共有的功能注释情况对本序列进行功能预测。

表7.1 采用GenScan得到的一条蛋白质序列Protein_GenScan_HUMAN

>Protein_GenScan_HUMAN

MNYSKIPAQVDLRRQTERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAE

FSVDETGQMSATAKGRVRLLNNWDVCADMVGTFTDTEDPAKFKMKYWGVASFLQKGNDDH

WIVDTDYDTYAVQYSCRLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQEELCLARQ

YRLIVHNGYCDGRSERNLL

表7.2 利用Expasy的blast工具针对Protein_GenScan_HUMAN进行序列相似性搜索得到的部分结果Db AC Description Score E-value

sp P61641 RET4_PANTR Retinol-binding protein 4 precursor (Plasma... 385 e-107

sp P02753 RET4_HUMAN Retinol-binding protein 4 precursor (Plasma... 385 e-107

sp Q28369 RET4_HORSE Retinol-binding protein 4 precursor (Plasma... 370 e-102

sp P27485 RET4_PIG Retinol-binding protein 4 precursor (Plasma r... 367 e-101

sp P18902 RET4_BOVIN Retinol-binding protein 4 (Plasma retinol-b... 363 e-100

sp P06912 RET4_RABIT Retinol-binding protein 4 precursor (Plasma... 362 e-100

sp P04916 RET4_RAT Retinol-binding protein 4 precursor (Plasma r... 341 2e-93

sp Q00724 RET4_MOUSE Retinol-binding protein 4 precursor (Plasma... 341 2e-93

sp P41263 RET4_CHICK Retinol-binding protein 4 precursor (Plasma... 333 5e-91

sp P24774 RETB1_ONCMY Plasma retinol-binding protein 1 (PRBP-I) ... 258 2e-68

sp P24775 RETB2_ONCMY Plasma retinol-binding protein 2 (PRBP-II)... 256 5e-68

sp P06172 RETBP_XENLA Plasma retinol-binding protein precursor (... 256 6e-68

图7.8利用Expasy的blast工具针对Protein_GenScan_HUMAN进行序列相似性搜索得到的部分图示

结果

例7-1是相似性比对得到的非常好的结果的情形之一。实际上,利用相似性比对有时无法得到可以进行分析推理的结果,比如例7-2给出的情形。有时,给出了相关结果,但是也仍然无法进行较为准确的判断,比如例7-3给出的情形。

例7-2 利用相似性分析进行蛋白质功能预测的不成功案例。假定在基因结构预测中,利用基因结构预测工具(比如GenScan)得到了一条序列Protein_GenScan_PICST,如表7.3所示,同样利用Expasy提供的blast工具进行序列相似性搜索,搜索数据库也限定为SwissProt,得到相似性比对结果,如表7.4所示。比对结果的e-value值太高,不具备统计显著性,因而可以说不能由本相似性比对方法获取有价值的功能注释线索。

表7.3 采用GenScan得到的一条蛋白质序列Protein_GenScan_PICST

>Protein_GenScan_PICST

MAAPHGESRPGLASIPNLQHPSSTNNSDLISITNSNINSTSITSNSNDGSTSKKVRASWY

NSRDNNKGKDQDNNDSSSDEDDEDHHNKTPSPKRRFDLDLVGASTPLHVLQGRAANDSIS

FLSPMNKLNNLHLESDVIEESFQLPEATKDYYTEDEEDEHEDDFSLGDKTITNDTDSDIE

FHEIDGIDNDHPGLESSSFASPKFISHRKRLHIDSPSDMVITPNHSDSMRASSFRNSHTH

DSNDMSICTNSSLKLGFSSSDSTPCPTQPKRKKLKFKRSSGENAPSVTKTLRNKPMLNLS

HSVKTTVSDIAANAVQPPVSSLDESDEFSSSPPRVVFTSSAPGQNNNSTPISQSTPSNSR

ASTPPCLYQEFGESVNGYKFVKPVGKPQQFSYETPVNNNRTTTVNKLRESYNRREFTPME

VQVEQGTYEIIGEFPMASAGVMDESEPEIHIGDKRINDPYLTTPSATGSDSVKDYRPKRD

YRSEYFNQLRLPLPPPNFDNQESLAKEQLQVLVNDKEKVLEFLNLISLEGEDIKELVKNE

RIRWHPDRWASRFKNNHERVFFDRDIVGNVCQVMNSIIEELFS

表7.4 利用Expasy的blast工具针对Protein_GenScan_PICST进行序列相似性搜索得到的结果Db AC Description Score E-value

sp Q9LTS4 BH041_ARATH Putative transcription factor bHLH041 (Tra... 35 1.9

sp Q9JKV9 IL20_MOUSE Interleukin-20 precursor (IL-20) (Four alph... 34 3.3

sp Q59QL0 ERFB_CANAL Palmitoyltransferase ERF2 (EC 2.3.1.-) (DHH... 34 3.3

sp P53882 YNR6_YEAST Uncharacterized protein YNL176C [YNL176C] [... 33 4.3

sp Q54K81 TALB_DICDI Talin-B [talB] [Dictyostelium discoideum (S... 33 4.3

sp P38538 SLAPH_BRECH Surface layer protein precursor (Hexagonal... 33 4.3

sp P42948 SET4_YEAST SET domain-containing protein 4 [SET4] [Sac... 33 4.3

sp Q6FTT8 RRF1_CANGA Ribosome-recycling factor, mitochondrial pr... 33 4.3

sp Q09823 REC10_SCHPO Meiotic recombination protein rec10 [rec10... 33 4.3

sp Q8R2H1 IKBL1_RAT NF-kappa-B inhibitor-like protein 1 (Nuclear... 33 4.3

sp Q95Q95 TOR_CAEEL Target of rapamycin homolog (EC 2.7.11.1) (C... 32 9.5

sp_vs Q95Q95-2 Isoform b of Target of rapamycin homolog OS=Caenorha... 32 9.5

例7-3 利用相似性分析进行蛋白质功能预测的不确定案例。假定在基因结构预测中,利用基因结构预测工具(比如GenScan)得到了一条序列Protein_GenScan_DANRE,如表7.5所示,同样利用Expasy提供的blast工具进行序列相似性搜索,搜索数据库也限定为SwissProt,得到相似性比对结果,部分结果如表7.6和图7.9所示。从结果中尽管基本可以判定序列属于lipocalin家族,但究竟属于RETB1、RETB2、RET4、RETBP的哪一个子家族中的成员还是无法确定,因此可以得到的注释信息有限。

表7.5 采用GenScan得到的一条蛋白质序列Protein_GenScan_DANRE

>Protein_GenScan_DANRE

MLRLCIAVCVLATCWAQDCQVSNFAVQQDFNRTRYQGTWYAVAKKDPVGLFLLDNIVANF

KVEEDGTMTATAIGRVIILNNWEMCANMFGTFEDTEDPAKFKMKYWGAAAYLQTGYDDHW

IIDTDYDNYAIHYSCRELDEDGTCLDGYSFIFSRHPDGLRPEDQAIVTQKKQDICFLGKY

RRVAHTGFCEAA

表7.6 利用Expasy的blast工具针对Protein_GenScan_DANRE进行序列相似性搜索得到的部分结果

Db AC Description Score E-value

sp P24774 RETB1_ONCMY Plasma retinol-binding protein 1 (PRBP-I) ... 318 9e-87

sp P24775 RETB2_ONCMY Plasma retinol-binding protein 2 (PRBP-II)... 315 1e-85

sp P41263 RET4_CHICK Retinol-binding protein 4 precursor (Plasma... 261 2e-69

sp P61641 RET4_PANTR Retinol-binding protein 4 precursor (Plasma... 253 6e-67

sp P02753 RET4_HUMAN Retinol-binding protein 4 precursor (Plasma... 253 6e-67

sp P06912 RET4_RABIT Retinol-binding protein 4 precursor (Plasma... 248 2e-65

sp Q28369 RET4_HORSE Retinol-binding protein 4 precursor (Plasma... 248 2e-65

sp P27485 RET4_PIG Retinol-binding protein 4 precursor (Plasma r... 247 3e-65

sp P18902 RET4_BOVIN Retinol-binding protein 4 (Plasma retinol-b... 246 5e-65

sp P04916 RET4_RAT Retinol-binding protein 4 precursor (Plasma r... 243 5e-64

sp Q00724 RET4_MOUSE Retinol-binding protein 4 precursor (Plasma... 243 5e-64

sp P06172 RETBP_XENLA Plasma retinol-binding protein precursor (... 234 3e-61

sp P08938 PURP_CHICK Purpurin precursor [Gallus gallus (Chicken)] 200 4e-51

图7.9 利用Expasy的blast工具针对Protein_GenScan_DANRE进行序列相似性搜索得到的部分图示

结果

基于序列相似性比对的GO功能预测方法不仅在人工注释过程中得到广泛应用,该方法同时也被用于搭建蛋白质GO功能自动注释平台。比如,在GO本体术语集公开发布不久,在国际著名杂志“核酸研究”和“生物信息学(Bioinformatics)”上就相继发表了多个基于序列相似性搜索的蛋白质GO功能预测工具GoFigure,GOblet,OntoBlast,Blast2GO等。它们通过检索蛋白质序列数据库中的相似蛋白质,然后利用相似蛋白质的GO功能推测未知蛋白的功能。

7.3.2 分析与讨论

序列相似性搜索普遍地用于预测基因或蛋白质功能。然而,利用序列相似性进行蛋白质功能预测仍然存在困难。首先,基于序列相似性搜索的蛋白质功能预测受限于数据库内容。比如,当数据库对未注释序列有偏好(biased towards unannotated

sequences)时,对新序列进行相似性搜索往往不能获得相应的功能注释信息。其次,受到比对工具的探测远缘同源性(distant homologs)能力的影响。目前还无法明确序列相似性判断的“阈值”,即对于序列究竟相似到何种程度才能够进行GO功能预测这一问题,无法给出量化的评价指标,只能依据专家的经验来区分序列的相似程度是强还是弱。其根本原因在于,生物学上,通常,由一个共同祖先进化来的直系同源物会执行相同或相似的功能,而通过基因复制产生的旁系同源物将自由地进化出新的功能。而直系同源、旁系同源,甚至一些根本无关的蛋白质,在序列上都有可能表现出一定的相似性。常用的相似性比对搜索软件只能找出相似序列,并不能判断它们是直系还是旁系同源。特别是当相似性比对的一致性分值低于20%时,就难以确定或者根本无法确定这种相似性究竟是直系还是旁系同源结果。这大概也是序列数据库中存在众多不正确的基于生物信息学注释的原因。

可以有几种解决问题的思路,一是在选择搜索数据库时,应尽可能地选取具有可靠注释信息的蛋白质序列数据库。二是仔细检查获取的相似序列。仔细检查获取的候选蛋白质序列是一个非常耗时的过程,然而它有助于尽可能地确保每条序列的完整性和正确性,增加结果的正确度。三是尽可能地排除干扰。比如由于非特异性序列相似会降低比对搜索结果的质量。通常在执行比对搜索前要去除查询序列中与非特异性有关的片段。有几种程序,如SEG和COILS可以执行此功能。SEG可以找到低复杂度区,COILS可以预测蛋白质中潜在的卷曲螺旋结构。最后一个较好的想法是检查相似序列的同一家族中的所有成员,再由多序列比对工具,比如ClustalW、T-Coffee和MUSCLE等,对所有序列进行比对分析,找出序列间的相同或相异之处及其发生的原因。如果一个残基或一段短肽在一个家族所有序列中都是保守的而在其它蛋白质序列中完全不同,则意味着这些区域通常会对应蛋白质分子中重要的结构或功能区域。此时,引入蛋白质家族(protein family)的概念。

7.3.3 蛋白质家族与序列的相似性聚类

一个蛋白质家族由一组进化相关的蛋白质序列(evolutionarily related proteins)所定义。通常基于序列相似性划分蛋白质家族。依据序列相似性程度的不同,还可以得到蛋白质的超家族(superfamily)、家族(family)和子家族(sub-family)。一条蛋白质可能在子家族层(sub-family level)与另一个特定的蛋白质相关,也可能在家族层与一些具有较多相异特性的蛋白质相关,还可能在超家族层与一些更为相异的蛋白质相

关。各个不同层次蛋白质集合所具备的共有功能特性(common functional properties)是随着超家族到子家族逐层递增的。

建立了蛋白质家族的概念后,对蛋白质进行功能预测在某种程度上就意味着将蛋白质归类到某家族。可以采用基于序列相似性搜索的序列聚类(sequence clustering)方法来进行蛋白质家族的归类。序列聚类方法通常是全自动的(即非手工),并假定蛋白质家族的成员都将基于序列的相似性聚集在一起。采用序列聚类方法归类蛋白质家族成员的典型实例是ProDom数据库系统。

ProDom的基本假设是蛋白质家族可以通过采用序列比较的方法对现有的序列进行洗牌式操作来识别。具体方法从UniProtKB蛋白质序列数据库开始,在去除片断(segment)数据后,确定数据库中最短的序列,然后针对该序列利用PSI-BLAST工具搜索数据库中的剩余部分。所有匹配序列被移出并用来生成一个新的ProDom家族。剩下的序列又再次依据其长短排序以确定最短序列,重复该过程直至所有的UniProtKB序列被归类到它们所属的家族。基于所采用的方法,ProDom对蛋白质序列空间具有最高的覆盖性,不过在其150,000个家族中仍然存在一些少量的、潜在的、无生物学意义的聚类(clusters)。

利用ProDom进行蛋白质家族成员归类检索时,与blast的使用类似,用户以提交未知蛋白质序列的方式对ProDom数据库进行搜索,返回结果给出了未知蛋白序列中与已知蛋白质家族保守区域(称为结构域)的匹配情形。通过这些保守区域,可以将未知蛋白质序列与已知蛋白质家族成员的相关功能注释信息关联起来,进行功能预测。

例7-4 将表7.1中的Protein_GenScan_HUMAN提交给ProDom (http://prodom.prabi.fr/ prodom/current/html/home.php),搜索得到结构域PDA1G9Z3、PD093265、PD912633、PDA24519,进而可以得到由结构域关联起来的蛋白质家族各成员与提交蛋白质序列的多序列比对情况,如图7.10所示。从中也可以分析得到,与前面blast预测得到的结果雷同,该序列属于lipocalin家族。

图7.10 利用ProDom的搜索工具针对Protein_GenScan_HUMAN进行功能预测得到的由PD093265关联的蛋白质序列与提交序列的多序列比对图示结果

将表7.3中的Protein_GenScan_PICST提交给ProDom,依然不能得到有价值的结果。将表7.5中的Protein_GenScan_DANRE提交给ProDom得到的结果与采用前述方法得到的结果雷同,无法明确子家族的归属。其根本原因仍然在于序列聚类还是基于序列的相似性进行搜索,因而探测蛋白质家族中远缘成员的能力有限。另一种重要缺陷是自动分析方法无法将生物学知识考虑进来。

7.4 基于蛋白质信号的功能预测

如前所述,同一蛋白质家族的多序列比对结果可以用来推断结构、功能和家族中关键的氨基酸残基等重要信息。一些研究提出可以利用多序列比对结果来预测蛋白质功能。基本方法是,通过比对同一家族的多条蛋白质序列获取相应的比对结果并予以保存。在对未知蛋白质序列进行功能预测时,利用相应的工具搜索该未知序列中是否与保存的多序列比对结果匹配,据此可以把未知序列归类到某蛋白质家族,从而推断其功能。

将蛋白质归类到某家族有两类方法:序列聚类方法和基于蛋白质信号(protein signatures)的方法。前者即是7.3.3中介绍的基于序列相似性聚类的方法。后一种方法基于蛋白质信号将蛋白质归类到某家族,这类方法首先挖掘家族成员间的已知相似性,采用一定的数学模式来描述,并将这种描述方式用于识别新的家族成员。通常,描述方式有多种,各有其优势和弱点,可以整合在一起使用以补充各自的不足。

7.4.1 蛋白质信号

Jacob在1977年曾经指出,不管具体过程如何,“自然”像一个高明的裁缝,他把各式各样的补丁搜集起来,缝制成一件百衲衣(“Nature is a tinkerer and not an

inventor”)。实际也正是如此,进化过程并不都是从头开始,而是利用现有材料,通过改造,使其产生新的功能,或者是把几种不同的系统整合到一起,形成更好的新系统。而这些现有材料,就是蛋白质序列中的“信号”。大量证据表明,蛋白质序列中包含一些相对独立的单元,包括功能位点(functional sites)、保守残基(conserved residues)、残基模式(residue patterns)、模体(motifs)、指纹(fingerprints)、结构域(domians)等(具体描述见下文),这里统称为蛋白质信号(protein signature)。它们往往在一个蛋白质家族的所有成员中都是保守的而在其它蛋白质序列中完全不同,这意味着该信号可能对该蛋白质家族来说,起着维持其结构的关键或承担着实现重要生物功能的作用,可以用来推断结构、功能和家族中关键的氨基酸残基等重要信息。下面以结构域和模体为例进行蛋白质信号的简单介绍。

1. 蛋白质结构域

强调蛋白质的模块化结构需要强调一个概念就是蛋白质的结构域。结构域对于许多蛋白质家族来说很为常见。比如,Src-同源体(SH2和SH3)结构域会出现在许多与信号有关的蛋白质中,pleckstrin同源体(PH)结构域会出现在许多结合磷脂的蛋白质中。这些模块化结构很可能反映了蛋白质的进化方式。遗传事件可以导致结构域互换、结构域复制、结构域丢失和获得等。得到有特定功能的新结构域可以使蛋白质非常迅速地获得更加复杂的新功能。例如,酶可能得到与调节它的活动相关的新结构域,产生一种特定性更强的情况下有活性的蛋白质。许多蛋白质由不止一个结构域构成。这里并没有严格定义什么是蛋白质结构域,这是因为很难确立这样一个定义。结构域可以被定义为具有单一明确功能(例如结合一种特定的配体)的部分蛋白质序列,它们也可以是独立于序列其他部分之外,能够独立折叠成三维结构的部分序列。它们还可以被定义为蛋白质三级结构中几何结构不同的部分。可以明确结构域的一个重要特性,那就是结构域必须是一个独立的单元,它能存在于许多不相关的蛋白质序列中。

2. 蛋白质共享结构域的方式

蛋白质之间共享一个结构域的方式可以有多种。在Pevsner J的“生物信息学与功能基因组学”一书中图示(图7.11)了其中主要的三种方式。一是每个蛋白质可以仅仅由一个结构域组成(图7.11(a)),如lipocalin结构域。还有很多其他小的球蛋白也是由单个结构域构成的。

蛋白质1

蛋白质2

蛋白质

1蛋白质2

(a) 一个结构域占据一条蛋白质的整条序列

(b) 相同的结构域在不同的蛋白质中位于不同的区域

(c) 结构域在一条蛋白质中重复很多次蛋白质1

蛋白质2

图7.11 蛋白质共享结构域的三种主要方式

另一种更为常见的情况是,蛋白质由多个结构域构成,每个结构域只充当蛋白质的一个亚基。比较两个蛋白质序列时经常发现,相同的结构域在不同的蛋白质中位于不同的区域,如图7.11(b)所示。一个例子就是甲基结合结构域(methy-binding domain ),该结构域使得图7.12中的7个蛋白质都具有结合甲基化的DNA 的能力,但这7个蛋白质中的同一个结构域分别位于序列的不同区域上。甲基-CpG -结合蛋白2(Mecp2)就是这7个蛋白质中的一个。它是一个转录抑制因子,可以结合在很多基因的上游调控区(MECP2基因的突变会导致Rett 综合症或女孩的神经逻辑错乱,它还是女性智力障碍的几个常见原因之一)。可以用blastp 软件搜索与Mecp2蛋白有显著相似性的序列(部分搜索结果如图7.13所示),可以揭示出序列中哪一段是保守的结构域。图

7.13(a)显示了MeCP2这个蛋白质包含的结构域MBD 是一个保守结构域,并据此构成了一个蛋白质超家族(MBD superfamily )。BLAST 的搜索结果显示Mecp2蛋白只有一部分与其它4个MBD 蛋白序列匹配(图7.13(b))。进一步分析MeCP/MBD 家族的这5个蛋白,会发现这5个蛋白大小相差很大,只有MBD 结构域相互匹配,其他部分并不匹配。也就是说,这5个蛋白除了MBD 结构域外没有显著相似的区域,但是这5个蛋白仍旧属于同一蛋白质家族。

第三种情况是一个蛋白质中的结构域在蛋白中重复出现多次(图7.11(c))。两个

蛋白质序列分析

蛋白质序列、性质、功能和结构分析 基于网络的蛋白质序列检索与核酸类似,从NCBI或利用SRS系统从EMBL 检索。 1、疏水性分析 ExPASy的ProtScale程序(https://www.360docs.net/doc/e610552677.html,/cgi-bin/protscale.pl)可用来计算蛋白质的疏水性图谱。输入的数据可为蛋白质序列或SWISS-PROT数据库的序列接受号。也可用BioEdit、DNAMAN等软件进行分析。 2、跨膜区分析 蛋白质跨膜区域分析的网络资源有: TMPRED:https://www.360docs.net/doc/e610552677.html,/software/TMPRED_form.html PHDhtm: http:www.embl-heidelberg.de/Services/sander/predictprotein/predictpro tein.html MEMSAT: ftp://https://www.360docs.net/doc/e610552677.html, 3、前导肽和蛋白质定位 一般认为,蛋白质定位的信息存在于该蛋白自身结构中,并且通过与膜上特殊受体的相互作用得以表达。这就是信号肽假说的基础。这一假说认为,穿膜蛋白质是由mRNA编码的。在起始密码子后,有一段疏水性氨基酸序列的RNA片段,这个氨基酸序列就称为信号序列(signal sequence)。 蛋白质序列的信号肽分析可联网到http://genome.cbs.dtu.dk /services/SignalP/或其二版网址 http://genome.cbs.dtu.dk/services/SignalP-2.0/。该服务器也提供利用 e-mail进行批量蛋白质序列信号肽分析的方案 (http://genome.cbs.dtu.dk/services /SignalP/mailserver.html),e-mail 地址为signalp@ genome.cbs.dtu.dk。 蛋白质序列中含有的信号肽序列将有助于它们向细胞内特定区域的移动,如前导肽和面向特定细胞器的靶向肽。在线粒体蛋白质的跨膜运输过程中,通过线粒体膜的蛋白质在转运之前大多数以前体形式存在,它由成熟蛋白质和N端延伸出的一段前导肽或引肽(leader peptide)共同组成。迄今有40多种线粒体蛋白质前导肽的一级结构被阐明,它们约含有20~80个氨基酸残基,当前体蛋白跨膜时,前导肽被一种或两种多肽酶所水解转变成成熟蛋白质,同时失去继续跨膜能力。前导肽一般具有如下性质:①带正电荷的碱性氨基酸(特别是精氨酸)含量较丰富,它们分散于不带电荷的氨基酸序列中间;②缺失带负电荷的酸性

核酸蛋白序列比对分析

核酸\蛋白序列比对分析 生物技术 02级 021402198 曾彪 摘要生物信息学——是一门新兴的交叉学科,是采用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、存储、传递、检索、分析和解读的科学,是现代生命科学与计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。核酸与蛋白质序列分析是生物信息学的基本研究方法。核酸与蛋白质序列分析是生物信息学的基本研究方法。 关键词核酸/蛋白质序列分析生物信息数据与查询序列比较 DNA芯片质谱隐马尔可夫模型 正文人类基因组计划完成了人类基因组的测序与分析工作,也积累了大量的核酸和蛋白质序列数据,从而导致了分子数据库的建立。分子生物学家在此基础上依靠计算机进行核酸和蛋白质序列分析。 大量生物学实验的数据积累,形成了当前数以百计的生物信息数据库。它们各自按一定的目标收集和整理生物学实验数据,并提供相关的数据查询、数据处理。这些生物信息数据库可以分为一级数据库和二级数据库。一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。国际上著名的一级核酸数据库有

Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT、PIR等;蛋白质结构库有PDB等。国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等等。 要在如此庞大的数据库中找到所需要的目标序列,必须建立数据库查询系统。数据库查询(也称为数据库检索)是指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。常用的数据库查询系统有Entrez, SRS等。数据库搜索是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。常用的数据库搜索系统有BLAST 、FASTA 和BLITZ 。 面对大批由测序仪产生的序列数据,通过序列分析,人们能够了解这些序列的生物学信息和意义。线性核酸序列的分析主要包括同源比较,读框分析,酶切位点查找,GC比例分析,序列翻译,引物设计等;蛋白质序列分析包括同源比较,疏水性分析,序列模体识别,结构域识别,高级结构预测等。 核酸序列分析 核酸序列的基本分析 1.测定分子质量、碱基组成、碱基分布等基本数值; 2.序列变换:反向序列、互补序列、互补反向序列;

核酸蛋白序列比对分析

核酸\蛋白序列比对分析 生物技术02级021402198 曾彪 摘要生物信息学——是一门新兴的交叉学科,是采用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、存储、传递、检索、分析和解读的科学,是现代生命科学与计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。核酸与蛋白质序列分析是生物信息学的基本研究方法。核酸与蛋白质序列分析是生物信息学的基本研究方法。 关键词核酸/蛋白质序列分析生物信息数据与查询序列比较DNA芯片质谱隐马尔可夫模型 正文人类基因组计划完成了人类基因组的测序与分析工作,也积累了大量的核酸和蛋白质序列数据,从而导致了分子数据库的建立。分子生物学家在此基础上依靠计算机进行核酸和蛋白质序列分析。大量生物学实验的数据积累,形成了当前数以百计的生物信息数据库。它们各自按一定的目标收集和整理生物学实验数据,并提供相关的数据查询、数据处理。这些生物信息数据库可以分为一级数据库和二级数据库。一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。国际上著名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有

SWISS-PROT、PIR等;蛋白质结构库有PDB等。国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等等。 要在如此庞大的数据库中找到所需要的目标序列,必须建立数据库查询系统。数据库查询(也称为数据库检索)是指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。常用的数据库查询系统有Entrez, SRS等。数据库搜索是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。常用的数据库搜索系统有BLAST 、FASTA 和BLITZ 。 面对大批由测序仪产生的序列数据,通过序列分析,人们能够了解这些序列的生物学信息和意义。线性核酸序列的分析主要包括同源比较,读框分析,酶切位点查找,GC比例分析,序列翻译,引物设计等;蛋白质序列分析包括同源比较,疏水性分析,序列模体识别,结构域识别,高级结构预测等。 核酸序列分析 核酸序列的基本分析 1.测定分子质量、碱基组成、碱基分布等基本数值; 2.序列变换:反向序列、互补序列、互补反向序列; 3.限制性酶切分析:限制酶的所有信息,包括甲基化酶、相应的

蛋白质结构预测和序列分析软件

蛋白质结构预测和序列分析软件蛋白质数据库及蛋白质序列分析 第一节、蛋白质数据库介绍 一、蛋白质一级数据库 1、 SWISS-PROT 数据库 SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据 库,目前这二个数据库在EMBL和GenBank数据库上均建 立了镜像 (mirror) 站点。 SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序 列,这些序列经过检验和注释。该数据库主要由日内瓦大 学医学生物化学系和欧洲生物信息学研究所(EBI)合作维 护。SWISS-PROT的序列数量呈直线增长。 2、TrEMBL数据库: SWISS-PROT的数据存在一个滞后问题,即 进行注释需要时间。一大批含有开放阅读 了解决这一问题,TrEMBL(Translated E 白质数据库,它包括了所有EMBL库中的 质序列数据源,但这势必导致其注释质量 3、PIR数据库: PIR数据库的数据最初是由美国国家生物医学研究基金 会(National Biomedical Research Foundation, NBRF) 收集的蛋白质序列,主要翻译自GenBank的DNA序列。 1988年,美国的NBRF、日本的JIPID(the Japanese International Protein Sequence Database日本国家蛋 白质信息数据库)、德国的MIPS(Munich Information Centre for Protein Sequences摹尼黑蛋白质序列信息 中心)合作,共同收集和维护PIR数据库。PIR根据注释 程度(质量)分为4个等级。 4、 ExPASy数据库: 目前,瑞士生物信息学研究所(Swiss I 质分析专家系统(Expert protein anal 据库。 网址:https://www.360docs.net/doc/e610552677.html, 我国的北京大学生物信息中心(www.cbi.

核酸和蛋白质序列分析

核酸和蛋白质序列分析 在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。通过启动子预测、CpG 岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。上述技术路线可为其它类似分子的生物信息学分析提供借鉴。本路线图及推荐网址已建立超级链接,放在北京大学人类疾病基因研究中心网站 (https://www.360docs.net/doc/e610552677.html,/science/bioinfomatics.htm),可以直接点击进入检索网站。 下面介绍其中一些基本分析。值得注意的是,在对序列进行分析时,首先应当明确序列的性质,是mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。 (一)核酸序列分析 1、双序列比对(pairwise alignment) 双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以Needleman-Wunsch算法和Smith-Waterman算法为代表。由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。 除了利用BLAST、FASTA等局部比对工具进行序列对数据库的搜索外,我们还推荐使用EMBOSS软件包中的Needle软件 (http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST

实验二 核酸及蛋白质序列的比对

实验二核酸及蛋白质序列的比对 姓名:班级:序号:指导老师: 一、实验内容 利用检索出的蛋白质和核酸序列进行序列比对并进行分子进化树分析。 二、实验步骤 键入上次实验获得的phyA的核酸序列编号(NM_100828),获得核酸及蛋白质序列。利用blastx程序寻找与phyA蛋白质序列相似性的序列→选择下列序列:sorghum propinquum(高粱);zea mays(玉米);水稻;大豆;arabidopsis thaliana(拟南芥);cyrtosia septentrionalis(血红肉果兰)→点击get select sequence按钮显示序列为纯文本格式文件→分别命名为各自的文件名保存在本地电脑上备用。 在数字基因网找到dnaman及clustalx软件安装并进行多序列比对及分子进化树分析。 利用ebi上提供多序列比对工具再作一次比对.uk/clustalw/。 选作核酸序列的比对 5、打开ncbi主页点击BLAST→学习网页左侧的BLAST FAQS及program guide 三、作业 1、绘制分子进化树,并标明各个物种phyA蛋白之间的序列相似性。 2、根据你所学生物分类的知识,试解释该分子进化树的合理性 ①拟南芥:植物界种子植物门被子植物门双子叶植物纲十字花目十字花科鼠耳芥属(拟南芥属) ②大豆:植物界种子植物门被子植物亚门双子叶植物纲豆目蝶形花科大豆属 ③血红肉果兰:植物界种子植物门被子植物亚门百合纲百合目兰科树兰亚科肉果兰属 ④水稻:植物界种子植物门被子植物亚门单子叶植物纲禾本目禾本科稻属 ⑤玉米:植物界种子植物门被子植物亚门单子叶植物纲禾本目禾本科玉米属 ⑥高粱:植物界种子植物门被子植物亚门单子叶植物纲禾本目禾本科高粱属 经过对比可得下列同源性关系 高粱 玉米 水稻 拟南芥 大豆 血红肉果兰 与前面的同源树对比基本相似,说明软件分析结果与实际相符 3、找出一条可能的保守序列(多条蛋白共同的氨基酸序列)。 最长的保守序列:kliqpfgcllaldek

blast核酸氨基酸序列相似性比较

BLAST 核酸/氨基酸序列相似性比较 Blast(Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的统计说明。 BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。如果您想进一步了解BLAST算法,您可以参考NCBI的BLAST Course ,该页有BLAST算法的介绍。 BLAST的功能 BLAST对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。BLAST还能发现具有缺口的能比对上的序列。 BLAST是基于Altschul等人在上发表的方法在序列数据库中对查询序列进行同源性比对工作。从最初的BLAST发展到现在NCBI提供的,已将有缺口的比对序列也考虑在内了。BLAST可处理任何数量的序列,包括蛋白序列和核算序列;也可选择多个数据库但数据库必须是同一类型的,即要么都是蛋白数据库要么都是核酸数据库。 所查询的序列和调用的数据库则可以是任何形式的组合,既可以是核酸序列到蛋白库中作查询,也可以是蛋白序列到蛋白库中作查询,反之亦然。 BLAST包含的程序: 1、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。 2、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。 3、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。 4、TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。 5、TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。 通常根据查询序列的类型(蛋白或核酸)来决定选用何种BLAST。假如是作核酸-核酸查询,有两种BLAST供选择,通常默认为BLASTN。如要用TBLASTX也可,但记住此时不考虑缺口。 BLAST适用于本地查询。可以下载公共数据库,对于该数据库的更新和维护是必不可少的。如果要直接到网上查询也可以(即NetBlast),但记住如果你认为自己的序列很有价值的话,还是谨慎为宜。 如何访问在线的BLAST功能服务 您只要通过浏览器访问Blast主页( 。所有的查询和分析都通过浏览器来完成,就象您在您的本地机上一样方便和快捷。

蛋白质序列分析

肽和蛋白质的直接测序法 目前,肽和蛋白质的测序有三种策略:①根据基因测序的结果,从cDNA演绎肽和蛋白质序列,这种策略简单、快捷,甚至可以得到未分离出的蛋白质或多肽的序列信息。但是,用这一策略得到的一级结构不含蛋白质翻译后修饰及二硫键位置等信息;②直接测序策略;③质谱测序与生物信息学搜索相结合的策略。第①种策略可参考分子生物学的有关专著,第③种策略将在本书蛋白质组与蛋白质组分析一章中介绍,本章介绍直接测序策略。 1953年,Frederick Sanger在对牛胰岛素的研究中首先提出氨基酸直接测序的概念,迄今为止,已通过直接测序阐明了几千种蛋白质的氨基酸序列。 在蛋白质序列测定中,因为可以得到的蛋白质样品十分有限,而且蛋白质包含的20种不同的氨基酸表现出不同的化学功能和化学活性,在测序过程中每一次变性或裂解所发生的一系列副反应,将使测定过程变得十分复杂,在蛋白质序列测定中由于没有类似于DNA序列测定中采用的PCR技术可应用,因此,与DNA 序列测定相比,蛋白质序列测定在许多方面要复杂得多。其基本的测序过程如下所述。 确定不同的多肽链数目 首先应该确定蛋白质中不同的多肽链数目,根据蛋白质N-端或C-端残基的摩尔数和蛋白质的相对分子质量可确定蛋白质分子中的多肽链数目。如果是单体蛋白质,蛋白质分子只含一条多肽链,则蛋白质的摩尔数应与末端残基的摩尔数相等;如果蛋白质分子是由多条多肽链组成,则末端残基的摩尔数是蛋白质的摩尔数的倍数。 肽链的裂解 当蛋白质分子是由二条或二条以上多肽链构成时,必须裂解这些多肽链。如果多肽链是通过非共价相互作用缔合的寡聚蛋白质,可采用8 mol L-1尿素,6 mo1 L-1盐酸胍或高浓度盐等变性剂处理,使寡聚蛋白质中的亚基裂解;如果多肽链之间是通过共价二硫键交联的,可采用氧化剂或还原剂断裂二硫键。然后再根据裂解后的单个多肽链的大小不同或电荷不同进行分离、纯化。 太长的多肽片段不能直接进行序列测定,一般肽片段长度不超过50个左右残基的肽段,当肽段超过这个长度时,由于反应的不完全以及副反应产生的杂质积累将影响测定结果,因此,必须通过特定的反应将它们裂解为更小的肽段。通过两种或几种不同的断裂方法(即断裂点不同)将每条多肽链样品降解成为两套或几套重叠的肽段或肽碎片,每套肽段分别进行分离、纯化,再对纯化后的每一肽段进行氨基酸组成和末端残基的分析。 使肽链中某些特殊位置上的肽键发生断裂,可采用化学反应或酶反应裂解产生若干能够进行测序的小片段。一般将蛋白质样品分为两等份,采用不同的试剂裂解产生两套不同的片段,两套片段在测序完成后,根据他们之间的重叠情况即可重新排序。 1 酶解法 蛋白质通过蛋白水解酶的裂解后将产生若干能够代表每个蛋白质特性的肽片段,用于特定的蛋白质裂解的蛋白水解酶包括外肽酶和内肽酶,裂解肽链的N-端或C-端的氨基酸可采用外肽酶,而内肽酶则用于切断肽链中某个特定部位。表10.5为常用的蛋白水解酶。 表10.5 用于蛋白质部分裂解的蛋白酶 蛋白酶酶切位点 内肽酶: 胰蛋白酶R n-1=Arg,Lys R n≠Pro 胃蛋白酶R n=Leu,Phe,Trp,Tyr,Val R n-1≠Pro 糜蛋白酶R n-1=Phe,Trp,Try R n≠Pro 内肽酶GluC R n-1=Glu

核酸序列分析软件介绍

核酸序列分析 1、核酸序列检索 可通过NCBI使用Entrez系统进行检索,也可用EBI的SRS服务器进行检索。在同时检索多条序列时,可通过罗逻辑关系式按照GenBank接受号进行批量检索。如用“AF113671 [ac] OR AF113672 [ac]”可同时检索这两条序列。其中“[ac]”是序列接受号的描述字段。 2、核酸序列的基本分析 (1)分子质量、碱基组成、碱基分布 分子质量、碱基组成、碱基分布可通过一些常用软件等直接获得。如: BioEdit(https://www.360docs.net/doc/e610552677.html,/BioEdit/bioedit.html), DNAMAN(https://www.360docs.net/doc/e610552677.html,)。 (2)序列变换 进行序列分析时,经常需要对DNA序列进行各种变换,例如反向序列、互补序列、互补反向序列、显示DNA双链、转换为RNA序列等。这些用DNAMAN软件可很容易实现,这些功能集中在Sequence→Display,从中可选择不同的序列变换方式对当前通道的序列进行转换。 (3)限制性酶切分析 该方面最好的资源是限制酶数据库(Restriction Enzyme Database,REBASE)。REBASE数据库(https://www.360docs.net/doc/e610552677.html,,https://www.360docs.net/doc/e610552677.html,/rebase)中含有限制酶的所有信息,包括甲基化酶、相应的微生物来源、识别序列位点、裂解位点、甲基化特异性、酶的商业来源及公开发表的和未发表的参考文献。其它资源还有:WebGene:https://www.360docs.net/doc/e610552677.html,/~tjyin/WebGene/RE.html, https://www.360docs.net/doc/e610552677.html,/personal/tyin.html WebCutter2: http://www/https://www.360docs.net/doc/e610552677.html,/firstmarkert/firstmarket/cutter/cut2.html 同时,很多软件也能够识别REBASE限制酶数据库。强烈推荐使用集成化的软件如BioEdit和DNAMAN等。所得出的结果给出指定DNA序列的酶切位点信息,为克隆鉴定和亚克隆提供了重要信息。 在实际进行分子生物学实验中,有时需要对多条相关序列(如发生突变的一批序列)同时进行酶切分析,以便为后续的克隆鉴定提供参考。此时DNAMAN软件是一个良好的选择。在对所有序列进行多重对齐后,其输出项“Output”中即有“Restriction Analysis”选项,执行后即可完成对所有参与对齐序列的酶切分析,能够得到所有序列的差异酶切图谱和一致酶切图谱。 (4)克隆测序分析 得到测序结果后,需要对所测序列进行后续分析,其中主要包括对测序峰图的查看和载体序列的去除等过程。 a. 测序峰图的查看 最简单的程序是澳大利亚的Conor McCarthy (https://www.360docs.net/doc/e610552677.html,.au./~conor/)开发的Chromas.exe程序,但该程 N 序不支持Windows 95以上的长文件名。其实,集成化的软件如BioEdit和DNAMA 也具有此功能。 b. 载体序列的去除 许多数据库中收集了常用的测序载体序列,如:

蛋白质序列分析常用网站-2018.8

蛋白质序列分析 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。 基本理化性质分析:https://https://www.360docs.net/doc/e610552677.html,/protparam/ 信号肽预测:http://www.cbs.dtu.dk/services/SignalP/ 在生物内,蛋白质的合成场所与功能场所常被一层或多层细胞膜所隔开,这样就涉及到蛋白质的转运。合成的蛋白质只有准确地定向运行才能保证生命活动的正常进行。一般来说,蛋白质的定位的信息存在于该蛋白质自身结构中,并通过与膜上特殊的受体相互作用而得以表达。在起始密码子之后,有一段编码疏水性氨基酸序列的RNA片段,这个氨基酸序列就这个氨基酸序列就是信号肽序列。含有信号肽的蛋白质一般都是分泌到细胞外,可能作为重要的细胞因子起作用,从而具有潜在的应用价值。 糖基化位点预测:http://www.cbs.dtu.dk/services/Net NGlyc/ 跨膜区分析:TMORED 蛋白质序列含有跨膜区提示它可能作为膜受体起作用,也可能是定位于膜的锚定蛋白或者离子通道蛋白等,从而,含有跨膜区的蛋白质往往和细胞的功能状态密切相关。 蛋白酶的结构功能进行预测和分析:http://smart.embl-heidelberg.de/ 同源建模分析:https://www.360docs.net/doc/e610552677.html,//SWISS-MODEL.html 二级结构及折叠类预测:Predictprotein 特殊结构或结构预测:COILS MacStripe 疏水性分析:ExPASy的ProtScale 基于序列同源性分析的蛋白质功能预测: 至少有80个氨基酸长度范围内具有25%以上序列一致性才提示可能的显著性意义。类似于核酸序列同源性分析,用户直接将待分析的蛋白质序列输入NCBI/BLAST(https://www.360docs.net/doc/e610552677.html,/blast),选择程序BLASTP就可网上分析。 基于motif、结构位点、结构功能域数据库的蛋白质功能预测 蛋白质的磷酸化与糖基化对蛋白质的功能影响很大,所以对其的分析也是生物信息学的一个部分。同时,分子进化方面的研究表明,蛋白质的不同区域具有

《蛋白质序列分析》word版

7 蛋白质序列分析与功能预测 (1) 7.1 引言 (1) 7.2 功能描述 (2) 7.2.1 基因本体 (3) 7.2.2 利用GO术语的功能注释 (7) 7.3 基于序列相似性的功能预测 (8) 7.3.1 基本预测方法 (10) 7.3.2 分析与讨论 (14) 7.3.3 蛋白质家族与序列的相似性聚类 (15) 7.4 基于蛋白质信号的功能预测 (17) 7.4.1 蛋白质信号 (17) 7.4.2 信号的描述 (22) 7.4.3 蛋白质模体、结构域和家族数据库 (28) 7.4.4 分析与讨论 (34) 7.5 基于蛋白质序列特征的功能预测 (35) 7.5.1 序列的理化性质 (35) 7.5.2 跨膜与卷曲螺旋分析 (37) 7.5.3 蛋白质翻译后修饰分析 (40) 7.5.4 亚细胞定位预测 (42) 7.5.5 基于序列特征的蛋白质分子功能预测 (44) 7.6 功能预测的其他思路 (45) 参考书目 (47)

7 蛋白质序列分析与功能预测 DNA经常被比喻为构筑生命的蓝图,相应地,蛋白质就是构筑生命体最主要的材料。蛋白质在生命过程中发挥着巨大的作用,它们执行着大部分生物功能。这些功能包括结构功能(如细胞骨架中的肌动蛋白)、酶功能(很多蛋白质可以催化生物反应,常见的蛋白质催化功能是使生物反应加速一定数量级),以及在细胞内或细胞间转运物质的功能。大量序列被测定带给了生物信息学家一个挑战,那就是如何从这些序列中找到基因,然后给基因加上注释,即给这些基因提供关于它们性质或功能的简单描述。 7.1 引言 继基因组结构注释(genome structural annotation)完成后,阐明基因组所表达的全部蛋白质的表达规律和生物功能,称为功能注释(functional annotation),成为研究的热点,是基因组注释(genome annotation)的重要组成部分。据Friedberg I称,2006年时,GeneBack中约有~40%的序列被标注为“unknown function”。由于蛋白质是生命活动的最终执行者,并且蛋白质功能的阐明将有助于疾病机理的研究并最终帮助人类进行药物设计与疾病治疗。因此,对基因产物——蛋白质的功能预测(protein functional prediction)是后基因组时代的一项重要任务。 尽管新的实验技术例如DNA芯片、酵母双杂交系统、RNA干扰以及大范围地、系统地缺失突变(knock-out)取得了巨大的进展,但这些方法都需要各种特定的设备,且价格昂贵、操作繁琐,成本高、周期长。由于实验同时会受到一些不可预知的环境以及人为因素的影响,其所得结果的可信度也需加以考虑。种种这些因素制约了蛋白质大规模分析的开展。目前,实验方法阐明蛋白质功能尚远远落后于序列的测定。面对呈指数增长的蛋白质序列数据,采用生物信息学的方法和手段来阐明大批量蛋白质序列的生物学功能具有非常重大的意义。 可采用生物信息学方法对蛋白质序列的功能进行预测的本质在于,承担核心生物功能的相当一部分基因被所有生物物种共享,从而可以利用某些特定物种中基因所编码的少量蛋白质序列(目前占已知蛋白质序列总数的5%)的已知生物功能信息(知识)对其他物种的大量蛋白质序列进行功能注释。Hawkins T于2006年在“Protein Science”上发表文章,将蛋白质序列分析和功能预测方法大致分为四类:

相关文档
最新文档