蛋白质组学生物信息学分析介绍
生物信息学在蛋白质组学研究中的应用

生物信息学在蛋白质组学研究中的应用在当今生命科学的前沿领域中,蛋白质组学的研究正如火如荼地开展着。
蛋白质组学旨在全面、系统地研究细胞、组织或生物体中蛋白质的组成、结构、功能以及相互作用。
而生物信息学作为一门交叉学科,正为蛋白质组学的研究提供了强大的工具和方法,加速了我们对生命活动的深入理解。
蛋白质组学研究产生了海量的数据,这些数据的复杂性和规模远远超出了传统实验方法所能处理的范围。
生物信息学的介入就像是为这些数据的分析和解读配备了一把“万能钥匙”。
它通过运用各种算法、数据库和统计方法,能够从纷繁复杂的数据中挖掘出有价值的信息。
首先,在蛋白质鉴定方面,生物信息学发挥着关键作用。
质谱技术是目前蛋白质组学研究中常用的蛋白质鉴定手段。
通过质谱分析得到的大量肽段数据,需要与蛋白质数据库进行比对,以确定其对应的蛋白质。
生物信息学提供了高效的算法和软件,能够快速准确地完成这一比对过程。
例如,常用的搜索引擎如 Mascot 和 SEQUEST 等,它们基于不同的算法原理,能够根据质谱数据的特征,在庞大的蛋白质数据库中搜索匹配的肽段和蛋白质。
除了鉴定,蛋白质定量也是蛋白质组学研究的重要内容。
在这方面,生物信息学同样不可或缺。
基于质谱的定量蛋白质组学技术,如标记定量(如 iTRAQ、TMT 等)和非标记定量,都会产生大量的数据。
生物信息学工具可以对这些数据进行处理和分析,计算出不同样品中蛋白质的相对或绝对丰度。
通过统计学方法,可以筛选出在不同条件下表达水平发生显著变化的蛋白质,为进一步研究蛋白质的功能和调控机制提供线索。
在蛋白质结构和功能预测方面,生物信息学也有着出色的表现。
虽然实验方法可以测定蛋白质的三维结构,但由于技术难度和成本等因素的限制,能够测定结构的蛋白质数量相对较少。
生物信息学通过利用已知蛋白质结构的信息和相关算法,可以对未知结构的蛋白质进行结构预测。
同时,根据蛋白质的序列特征和结构信息,还可以预测其功能,例如酶的活性位点、蛋白质的相互作用位点等。
生物信息学中的蛋白质组学和蛋白质互作

生物信息学中的蛋白质组学和蛋白质互作随着科技的飞速发展,生物学研究已经从单一的分子和单一的基因上升到了组学领域。
其中,蛋白质组学是研究生物体内所有蛋白质的一门科学。
蛋白质是细胞的重要组成部分,不仅参与物质代谢和能量转化,还能调控细胞的信号转导和基因表达等生命活动。
因此,蛋白质组学也是基础医学、临床医学和药物研发等多个领域的重要研究方向。
而蛋白质互作则是蛋白质组学中的一个重要分支,主要研究蛋白质之间的相互作用关系。
一、蛋白质组学蛋白质组学是从基因组学和转录组学中发展而来的。
基因组学研究的是基因组,即生物体内所有基因的总体组成和结构;转录组学则研究的是转录组,即基因在特定的生理条件和生化环境下的表达水平和模式。
而蛋白质组学则是研究生物体内所有蛋白质的总体组成和结构,从而探究它们的生物学功能。
蛋白质组学主要包括以下几种方法:蛋白质质谱、两性二维电泳、蛋白质芯片、蛋白质鉴定、蛋白质结构预测和功能分析等。
二、蛋白质互作蛋白质互作是通过研究蛋白质之间的相互作用关系,探究蛋白质所在的生理过程和生物学功能。
蛋白质互作主要分为直接和间接两种方式。
直接互作是指两个或多个蛋白质之间通过化学或生物学方法直接结合形成复合物;间接互作则是指两个或多个蛋白质之间通过其他蛋白质介导进行相互作用。
蛋白质互作研究方法有很多,其中最常用的是酵母双杂交技术、共免疫沉淀法、生物亲和层析法、荧光共振能量转移法和蛋白质芯片技术等。
这些方法可以通过筛选出与特定蛋白质相互作用的其他蛋白质,帮助我们探究生命活动的调控机理。
三、蛋白质组学在疾病研究中的应用近年来,随着蛋白质组学方法和技术的不断发展,越来越多的学者开始尝试将其应用于疾病的研究和诊断。
例如,通过蛋白质组学研究,已经发现了一些新型肿瘤标志物,如前列腺特异性抗原(PSA)、癌胚抗原(CEA)和甲胎蛋白(AFP)等。
此外,蛋白质组学还可以研究疾病的发生机理和治疗方案。
例如,蛋白质组学可以揭示癌细胞中的特定靶标,从而帮助开发出更有效的治疗方案。
蛋白质组相关生物信息学

比500 bp或更多一些碱基对的序列,这就有一个由 大量的较短的序列全体构成的重叠群。逐步把它们 拼接起来形成序列更长的重叠群,直至得到完整序 列的过程称为重叠群装配。
蛋白质组相关生物信息学
8.遗传密码的起源
遗传密码为什么是现在这样的?这一直是一个谜。 一种最简单的理论认为,密码子与氨基酸之间的关 系是生物进化历史上一次偶然的事件而造成的,并 被固定在现代生物最后的共同祖先里,一直延续至 今。不同于这种“冻结”理论,有人曾分别提出过 选择优化、化学和历史等三种学说来解释遗传密码。 随着各种生物基因组测序任务的完成,为研究遗传 密码的起源和检验上述理论的真伪提供了新的素材。
蛋白质组相关生物信息 学
2020/12/5
蛋白质组相关生物信息学
蛋白质组研究中的生物信息学
第一节 生物信息学简介
蛋白质组相关生物信息学
一、什么是生物信息学 生物Fra bibliotek息学是随着人类基因组计划而发展
起来的。生物信息学是一门新兴的交叉学科。 它包含了生物信息的获取、处理、存储、发 布、分析和解释等在内的所有方面.它综合 运用数学、计算机科学和生物学的各种工具, 来阐明和理解大量数据所包含的生物学意义。
国内外都开展了生物信息处理算法并行化方 向的研究。主要是研究生物信息学中的一些 关键的算法,研究其中的可并行性.然后将 其固化到硬件芯片中,从而提高整个计算系 统的性能。 11. 其它
如基因表达谱分析,代谢网络分析,基因 芯片设计和蛋白质组学数据分析.逐渐成为 生物信息学中新兴的重要研究领域。
蛋白质组相关生物信息学
日本1984年着手建立国家级的核较数据库DDBJ, 1987年正式服务。目前绝大部分核酸和蛋白质数据 由美国、欧洲和日本产生,以上三家共同组成了 DDBJ/EMBI/GeneBank国际核酸序列数据库。其 他国家如德国、法国、意大利等也纷纷建立自己的数 据库,为本国服务。
蛋白质组学 名词解释

蛋白质组学名词解释蛋白质组学是一种研究蛋白质组,也就是细胞或生物体内所有蛋白质的组成、结构和功能的学科。
它主要包含蛋白质分离和鉴定、蛋白质互作和代谢、生物信息学分析等方面。
本文将从名词解释入手,分步骤地介绍蛋白质组学的相关概念。
一、蛋白质分离蛋白质分离是蛋白质组学中的基础工作。
它包括对样本中蛋白质的分离、处理、富集,以及去除不必要的成分。
蛋白质分离技术通常分为凝胶电泳、质谱分析、色谱分离等。
其中,凝胶电泳包括SDS-PAGE、二维凝胶电泳等;质谱分析则包括MALDI-TOF、ESI-Q-TOF等;色谱分离则包括离子交换、凝胶过滤、亲和层析等。
二、蛋白质鉴定蛋白质鉴定是蛋白质组学中的重要环节。
鉴定能够帮助我们确认蛋白质的身份,了解其结构和功能。
蛋白质鉴定技术通常包括人工鉴定和机器学习鉴定。
其中,人工鉴定包括质谱图谱解释、蛋白质组图谱解释等;机器学习鉴定则包括支持向量机算法、随机森林算法等。
三、蛋白质互作蛋白质互作是蛋白质组学中的重要研究内容。
它探讨的是蛋白质之间的相互作用,以及这些作用是如何影响生物体内的信号传递、代谢调节等重要生命活动。
蛋白质互作技术通常包括酵母双杂交、原位荧光共聚焦等。
四、蛋白质代谢蛋白质代谢是蛋白质组学中的另一个重要研究内容。
它研究的是蛋白质在生物体内的合成、降解和调节等重要生理过程。
蛋白质代谢技术通常包括代谢标记、蛋白质印迹、蛋白质质量谱等。
五、生物信息学分析生物信息学分析是蛋白质组学研究的一项重要内容。
它用计算机和生物信息学方法对海量蛋白质信息进行分析和处理,从而获得蛋白质的结构、功能、代谢等相关信息。
生物信息学分析技术通常包括基因组学、蛋白质组学、代谢组学等。
总之,蛋白质组学的研究内容非常广泛,它不仅可以帮助我们了解生物体内蛋白质的组成和特性,更可以为生物医学、农业、环保等多个领域的研究提供重要支持。
生物信息学分析在蛋白质组学中的应用

生物信息学分析在蛋白质组学中的应用近年来,生物信息学分析在蛋白质组学中的应用已成为研究热点。
蛋白质组学是研究生物样品(如细胞、组织、生物体)中所有蛋白质的形态、结构、功能和相互作用的技术和方法学。
生物信息学是利用计算机和生物学知识,研究生物信息的学科。
生物信息学的分析方法包括序列分析、结构分析、功能分析等。
该分析方法在蛋白质组学中的应用,可以帮助我们更好的理解蛋白质的功能和相互作用,从而在疾病预防和治疗方面做出更好的决策。
一、蛋白质组学中的生物信息学分析方法1. 序列分析序列分析是生物信息学中最基本的分析方法。
它通过比较蛋白质序列中氨基酸的差异,揭示蛋白质的结构和功能。
序列分析包括多序列比对、同源性搜索和序列分类。
多序列比对法将多条相似序列按某种规则进行比对,从而找出相同的部分,判断它们之间的差异和相似度,进而预测蛋白质的结构和功能。
同源性搜索是指利用已知的蛋白质序列“搜索”数据库中的序列,以寻找和已知蛋白质相似的新序列。
序列分类是将蛋白质序列进行分类,以便对新蛋白质序列进行分析和预测。
2. 结构分析结构分析是通过对蛋白质的结构进行分析,揭示蛋白质的功能、相互作用和调控机制等信息。
结构分析方法主要包括蛋白质结构预测、结构比对和蛋白质互作分析等。
蛋白质结构预测是利用已知的蛋白质结构数据,预测新的蛋白质结构。
结构比对是将蛋白质结构与数据库中的已知蛋白质结构进行比对,以发现蛋白质之间的差异和相似性。
蛋白质互作分析是研究生物大分子之间相互作用的过程,揭示蛋白质的通讯机制、信号传递和调控机制等。
3. 功能分析功能分析是通过生物信息学分析方法揭示蛋白质在生物体内的功能和调控机制。
功能分析方法包括蛋白质功能注释、基因本体论和通路分析等。
蛋白质功能注释是通过对蛋白质序列、结构和相互作用等进行分析,明确蛋白质的功能和生物学作用。
基因本体论是一种分类方法,将蛋白质的功能按照一定的规则进行分类,以便对新的蛋白质进行预测和注释。
蛋白质组学简介

蛋白质组学简介蛋白质是构成所有生命体的重要分子,它们具有多种生物学功能,包括催化酶反应、质量传输、细胞信号传导、免疫防御和细胞结构支撑等。
因此,研究蛋白质及其功能在生命科学中具有关键性的作用。
传统的蛋白质鉴定和分析技术在生物体内的复杂性和极小的蛋白质浓度下往往难以进行。
为了获得更全面、准确的蛋白质信息并解决这些问题,蛋白质组学应运而生。
蛋白质组学是研究生物体内所有蛋白质的系统性科学。
本文将从蛋白质组学的定义、技术、应用等方面对其进行介绍。
蛋白质组学的定义蛋白质组学是一种系统性的、高通量的蛋白质分析与鉴定技术,结合了生物信息学、分子生物学、蛋白质化学、免疫学等学科的研究方法,旨在探究生物体内所有蛋白质的表达水平、鉴定与分类、功能,从而全面了解生物体的科学特性和生物化学过程。
作为一种新兴的学科,蛋白质组学已成为了生命科学的一个重要分支。
它研究的对象是生物体内所有蛋白质,因此其涵盖的层面远比基因组学要广。
同时,蛋白质组学关注的是蛋白质的表达水平、分布和作用机制等内容,这些是基因组学无法覆盖的范畴。
因此,蛋白质组学是生物大分子的研究重心。
蛋白质组学的技术蛋白质组学是迅速发展的新兴技术,其技术体系十分复杂,包括试剂的制备、样品处理、分离、鉴定、定量和数据处理等流程。
常见的蛋白质组学技术主要包括以下几种:(1)二维凝胶电泳(2-DE)2-DE是一种基于物理化学性质差异进行蛋白质分离的技术,通过蛋白质在等电点和分子量上的差异实现蛋白质的分离和图谱的生成。
该技术优势在于对多个蛋白质进行分析和半定量分析,但仅限于高丰度蛋白质的分离和检测。
(2)液相色谱质谱联用技术(LC-MS)LC-MS是一种基于化学特性和质量/电荷比差异进行的蛋白质分析技术,通过前沿的液相色谱与高分辨质谱仪的联用,大大增强了蛋白质分析的灵敏度和准确性,可以用于鉴定、定量甚至研究蛋白质的组学水平。
(3)矩阵辅助激光解析飞行时间质谱(MALDI-TOF MS)MALDI-TOF MS是一种用于分析生物样品蛋白质序列的方法,它将蛋白质与矩阵混合后通过激光脱附并飞行时间分析进行分离和识别,这种方法可以用来分析单个蛋白质并测定其序列信息。
生物信息学中的蛋白质分析技术

生物信息学中的蛋白质分析技术蛋白质是生物体中不可或缺的重要分子,其功能包括酶催化、信号传递、结构支持等多种生命活动。
蛋白质分析是生物信息学研究中的重要领域之一,目的是从生物样品中获取有关蛋白质的信息。
这项技术不仅可以揭示蛋白质的结构和功能,还可以为医学诊断和药物研发提供重要的参考。
一、蛋白质分析的基本流程蛋白质分析的基本流程包括蛋白质提取、分离纯化、分析鉴定等几个步骤。
蛋白质提取是将目标蛋白从生物样品中提取出来,一般采用机械破碎、化学分解、超声波等方法。
分离纯化是将目标蛋白与其他蛋白分离开来,可以采用电泳、层析、过滤等方法。
分析鉴定则是对分离得到的蛋白进行化学、物理和生物学的分析,如质谱分析、核酸测序、免疫学检测等方法。
二、质谱分析技术的应用质谱分析是一种可以同时检测多种蛋白质组成和结构的方法,其技术基础是将蛋白质分离并进行离子化后进行质量分析。
这种方法被广泛地应用于蛋白质组学和蛋白质互作等领域。
在蛋白质组学中,将样品中的所有蛋白质分离并进行质谱分析,可以获得大量的信息,如蛋白质的数量、种类、分布和修饰状态等。
质谱分析技术的应用还包括蛋白质互作的研究。
蛋白质互作通常是指两个或多个蛋白质之间的相互作用,这在生物活动中非常重要。
质谱分析可以用来鉴定已知的蛋白质互作或发现新的蛋白质互作,这对于深入理解生物活动机理具有重要意义。
三、结构生物学的应用结构生物学是研究蛋白质三维结构的一种技术,其目的是探究蛋白质结构与功能之间的关系。
现有的结构生物学技术主要包括X射线晶体学、核磁共振和电子显微镜。
通过这些技术,可以确定单个蛋白质的原子结构,也可以确定蛋白质的超分子结构,如蛋白质-DNA复合物和蛋白质-蛋白质复合物等。
在药物研发方面,结构生物学的应用也非常广泛。
通过了解蛋白质的结构,可以设计出针对特定靶标的药物,并对药物与靶标之间的相互作用进行优化和改良。
四、生物信息学的应用生物信息学是将计算机和数学等方法应用于生物学研究的一种学科。
蛋白质组学原理

蛋白质组学原理
蛋白质组学是一门研究生物体内蛋白质组成、结构和功能的学科,是生物信息学领域的重要分支之一。
蛋白质作为生物体内最基本的功能分子,承担着细胞的结构支持、代谢调节、信号传导等重要功能,因此蛋白质组学的研究对于理解生命活动的机理、疾病的发生发展以及药物研发具有重要意义。
蛋白质组学的研究内容主要包括蛋白质的鉴定、定量、功能分析和相互作用等方面。
其中,蛋白质的鉴定是蛋白质组学研究的基础和关键,通常采用质谱技术进行蛋白质的鉴定。
质谱技术是利用质谱仪对蛋白质进行分析,通过蛋白质的质量/电荷比、氨基酸序列等信息来确定蛋白质的身份。
在蛋白质的定量方面,常用的方法包括同位素标记法、定量质谱法等,这些方法能够准确地测定蛋白质在不同生理状态下的表达水平。
在蛋白质功能分析方面,蛋白质组学常常结合蛋白质结构生物学、蛋白质相互作用等技术手段,对蛋白质的功能进行研究。
蛋白质组学还可以通过分析蛋白质的修饰情况、亚细胞定位等信息来揭示蛋白质的功能特性。
此外,蛋白质组学还可以通过研究蛋白质的相互作用网络,揭示蛋白质在细胞内的相互作用关系,从而理解细胞内生物过程的调控机制。
总的来说,蛋白质组学的研究对于推动生命科学的发展具有重要意义。
随着蛋白质组学技术的不断进步,我们对于蛋白质组的认识也将更加深入,这将有助于揭示生命活动的奥秘,促进疾病的诊断和治疗,推动新药的研发,对于人类健康和生命科学的发展都具有重要的意义。
希望通过蛋白质组学的研究,能够更好地理解生命的奥秘,为人类健康和疾病治疗提供更多的帮助。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息学分析FAQCHAPTER ONE ABOUT GENE ONTOLOGY ANNOTATION (3)什么是GO? (3)GO和KEGG注释之前,为什么要先进行序列比对(BLAST)? (3)GO注释的意义? (3)GO和GOslim的区别 (4)为什么有些蛋白没有GO注释信息? (4)为什么GO Level 2的统计饼图里蛋白数目和差异蛋白总数不一致? (4)什么是差异蛋白的功能富集分析&WHY? (4)GO注释结果文件解析 (5)Sheet TopBlastHits (5)Sheet protein2GO/protein2GOslim (5)Sheet BP/MF/CC (6)Sheet Level2_BP/Level2_MF/Level2_CC (6)CHAPTER TWO ABOUT KEGG PATHWAY ANNOTATION (7)WHY KEGG pathway annotation? (7)KEGG通路注释的方法&流程? (7)KEGG通路注释的意义? (7)为什么有些蛋白没有KEGG通路注释信息? (8)什么是差异蛋白的通路富集分析&WHY? (8)KEGG注释结果文件解析 (8)Sheet query2map (8)Sheet map2query (9)Sheet TopMapStat (9)CHAPTER THREE ABOUT FEATURE SELECTION & CLUSTERING (10)WHY Feature Selection? (10)聚类分析(Clustering) (10)聚类结果文件解析 (10)CHAPTER FOUR ABOUT PROTEIN-PROTEIN INTERACTION NETWORK (12)蛋白质相互作用网络分析的意义 (12)蛋白质相互作用 VS生物学通路? (12)蛋白质相互作用网络分析结果文件解析 (12)CHAPTER ONE ABOUT GENE ONTOLOGY ANNOTATION什么是GO?随着多种生物基因组的相继解码,同时大量ESTs以及gene expression profile date的积累,使得annotation的工作量和复杂度大大增加。
然而另一方面,大多数基因在不同真核生物中拥有共同的主要生物功能,通过在某些物种中获得的基因或者蛋白质(shared protein)的生物学信息,可以用以解释其他物种中对应的基因或蛋白(especially in comparative genomics)。
由于这些繁复的功能信息主要是包含在积累的文献之中,如何有效的提取和综合这些信息就是我们面临的核心困难,这也是GO所要着力解决的问题。
通过建立一套具有动态形式的控制字集(controlled vocabulary),来解释真核基因及蛋白在细胞内所扮演的角色,并随着生命科学研究的进步,不断积累和更新。
一个ontology会被一个控制字集来描述并给予一定的名称,通过制定“本体”ontologies并运用统计学方法及自然语言处理技术,可以实现知识管理的专家系统控制。
到目前为止,Gene Ontology (GO) 数据库中有3大独立的ontology:biological process生物过程, molecular function分子功能,cellular component细胞组分。
而这三个ontology下面又可以独立出不同的亚层次,层层向下构成一个ontologies的树型分支结构。
可以说, GO是生物学的统一化工具。
由于GO是一种整合性的分类系统,其下的3类主ontology虽然说是独立的,但是无论是GOC原初的设计还是我们的使用中其实都还是存在一定的流程关系。
一个基因/蛋白质或者一个ontology在注解的过程中,首先是考虑涉及在构成细胞内的组分和元件(cellular component),其次就是此组分/元件在分子水平上所行使的功能(molecular function),最后能够呈现出该分子功能所直接参与的生物过程(biological process)。
由于这是一种存在反馈机制的注释过程,并且整个系统是动态开放实时更新的,因此在某种程度上说它具有纠错的能力。
GO和KEGG注释之前,为什么要先进行序列比对(BLAST)?在进行功能注释和通路注释之前,我们会先将差异蛋白与合适的数据库中的蛋白序列进行比对。
目的一:很多物种目前研究的程度还很有限,关于这些物种的蛋白注释信息还很不完善。
根据相似性原理,具有相似序列的蛋白可能也具有相似的功能,因此,我们可以将BLAST所得的同源蛋白的注释信息转嫁到我们关注的差异蛋白上,来完成对于差异蛋白尤其是研究程度不足的物种的差异蛋白的注释。
目的二:我们在查库过程中,为了得到更多的蛋白质鉴定信息,我们大多使用UniProt数据库(含SwissProt和TrEmbl:SwissProt中的蛋白均经过人工校验,数据可靠性高,注释完整;TrEmbl由基因组序列翻译而来,未经人工校验,注释信息不全)或NCBI Protein数据库(用户可任意提交序列,有冗余,信息不完善,质量很难保证),BLAST一方面可以帮我们提高后续的注释效率,另一方面也可以帮助客户大致了解所鉴定的蛋白可能的名称和功能(尤其对于uncharacterized protein,predicted protein,putative protein 等)。
GO注释的意义?对鉴定到的蛋白或者差异蛋白进行GO注释,其宗旨是为了帮助我们了解这些蛋白。
可能的应用包括:一,例如,某客户对某差异蛋白A非常感兴趣,通过在GO注释的结果中(protein2GO表单)查询蛋白A的注释信息,即可得知蛋白A可能具有的功能、可能参与的生物学过程,以及该蛋白所在的亚细胞定位。
二,根据课题的设计和先验知识,客户可能对某个生物学过程(例如:离子运输)非常感兴趣,可以通过在结果中(BP表单)查询ion transport这个GO term下包含哪些蛋白,并对这些蛋白进行深入研究。
三,客户拿到质谱数据分析结果后,可能对于后续的分析没有方向,这种情况下可以通过在注释结果中查询哪些功能类别包含的蛋白数目较多,可以从这些功能类别和蛋白入手进行重点研究。
四,GO注释可以为课题的设计和实验结果的合理性提供证据。
GO和GOslim的区别GOslim是简化的GO子集,是经过科学家人工筛选的一部分GO term。
简单的说,GOslim去除了一些比较细枝末节的GO term,更着重研究level更高、相互关联的GO term,以及与物种更为相关的GO term(Plant,Candida albicans,Schizosaccharomyces pombe,Yeast,Aspergillus,Metagenomics)。
GOslim对于大规模组学的研究很有意义(比如全基因组、全蛋白组),不至于相关的功能类别太多反而忽略了重点。
通常情况下,我们的分析只针对几十个到几百个差异蛋白进行重点注释,GO和GOslim的结果差别不大。
为什么有些蛋白没有GO注释信息?目前对于蛋白质的功能研究还有限,尤其是非模式生物。
为了提高注释率,根据序列相似的蛋白可能具有相似的功能的原则,我们已经在注释前对目标蛋白序列进行了blast,并利用足够相似的比对序列的注释信息对目标序列进行注释。
此外,我们还采用了查找InterPro数据库中的保守motif的方法对难以注释的蛋白进行注释。
但是仍然有少数蛋白,对于该蛋白,或者同物种中也之相似的蛋白,或者其他物种中的同源蛋白的研究依然十分不足,所以以目前的研究水平难以获得注释信息。
为什么GO Level 2的统计饼图里蛋白数目和差异蛋白总数不一致?一个蛋白可能参与多个生物过程(biological process),具有多种分子功能(molecular function),甚至存在于多个细胞组分(cellular component),因此GO Level 2的统计饼图里多个类别的蛋白数相加通常是大于差异蛋白数目的。
此外,少数蛋白由于无法获得注释信息,不参与统计,也是造成统计数目和差异蛋白总数不一致的一个原因。
什么是差异蛋白的功能富集分析&WHY?差异蛋白的功能富集分析是将差异蛋白列表中的蛋白与参考物种的全部蛋白列表或实验鉴定到的所有蛋白列表根据GO 功能的注释结果进行对照比较,通过Fisher精确检验 (Fisher’s Exact Test),得出两者差异的显著性,从而找到这个差异蛋白列表中富集的功能类别条目,找到一个蛋白列表的功能特性。
不同于蛋白功能注释以蛋白为单位进行注释,差异蛋白的功能富集分析以GO功能条目为单位,结果可以直接揭示整个差异蛋白列表中蛋白的整体功能富集特征。
GO注释结果文件解析GO注释的结果文件包括GO.xlsx和GOslim.xlsx两个EXCEL表格,共计15个表单。
GO.xlsx:包含TopBlastHits,protein2GO,BP,MF,CC,Level2_BP,Level2_MF,Level2_CC等8个表单GOslim.xlsx:包含protein2GOslim,BP,MF,CC,Level2_BP,Level2_MF,Level2_CC等7个表单Sheet TopBlastHitsSequence name:目标蛋白IDSequence desc.:根据blast结果,目标蛋白可能的名称和描述Sequence length:目标蛋白序列长度Hit desc.:比对序列的蛋白名称和描述Hit ACC:比对序列的蛋白ID号E-Value:S值可靠性的评价,表明在随机的情况下,其它序列与目标序列相似度大于S值的可能性,越低越好Similarity:Positives/AlignmentScore:表示两序列的同源性,分值越高表明它们之间相似的程度越大Alignment:比对上的蛋白序列部分的长度Positives:相同或理化性质相似的氨基酸数目Sheet protein2GO/protein2GOslimSeqName:目标蛋白IDHit-Desc:比对序列的蛋白名称和描述GO-Group:所注释GO term的类别(P:Biological Process,F:Molecular Function,C:Cellular Component)GO-ID:所注释GO term的IDTerm:所注释GO term的名称Sheet BP/MF/CCLevel :GO term 在ontologies 的树型分支结构中所处的层次,BP 、MF 、CC 最高(Level 1)GO-ID :所注释GO term 的IDTerm :所注释GO term 的名称Type :GO term 所属类别(BP 、MF 、CC )#Seqs :属于该GO term 的蛋白数目Seqs :属于该GO term 的蛋白IDSheet Level2_BP/Level2_MF/Level2_CCData labels :GO term (Level 2), 属于该GO term 的蛋白数目metabolicprocess, 38cellular process, 37signaling, 2 multicellular organismal process,3 developmentalprocess, 3 single-organismprocess, 16 response to stimulus, 4 localization, 7 biological regulation, 8 cellular component organization orbiogenesis, 13 Biological Processprotein binding transcription factoractivity, 1catalyticactivity, 25structuralmoleculeactivity, 8transporter activity, 1 binding, 40 enzymeregulatoractivity, 4 Molecular Function extracellul ar region, 1 cell, 37 membrane , 8 extracellul ar matrix,1 membrane -enclosed lumen, 4 macromole cular complex, 25 organelle, 28 Cellular ComponentCHAPTER TWO ABOUT KEGG PATHWAY ANNOTATIONWHY KEGG pathway annotation?在生物体中,蛋白质并不独立行使其功能,而是不同蛋白质相互协调完成一系列生化反应以行使其生物学功能。