转录组注释网站介绍

序列的功能，是现在生物研究常用的分析方法之一。当我们拿到基因组信息之后，接下来就是基因注释，识别这个基因是什么，预测这个基因编码什么蛋白，有什么功能；当获得无参转录组之后需要从头拼接转录本，拼接的转录本功能也需要做注释；当得到了差异表达基因，想做下富集分析，就必须要了解每个基因对应哪个GO分类，也是需要进行功能注释。基因注释需要通过专业数据库完成，所以找到好用的基因注释数据库就很有必要了。下面呢，我们就介绍一下现在常用的几种数据库。

1、KEGG

京都基因与基因组百科全书（Kyoto Encyclopedia of Genes and Genomes，KEGG）是一个整合了基因组、化学和系统功能信息的综合性数据库。KEGG数据库的核心的是ORTHOLOGY和PATHWAY数据库。在ORTHOLOGY数据库中，同源基因聚成一类称为KEGG Orthology，简称KO。PATHWAY数据库主要以KO为结点，用人工绘制的代谢通路图展示分子间的相互作用、反应和反应网络。

2、GO

GO（Gene Ontology）数据库是基因本体联合会建立，用于描述基因和基因产物功能的综合性数据库，

目的是利用统一的、结构化的语言建立一个适用于不同物种，对基因和蛋白质功能进行定义和描述，并且能够随着研究的不断深入而更新的语言词汇标准。GO 数据库包括三层结构，包括分子功能，生物过程和细胞组分。

3、NR和NT

NR和NT是NCBI提供的数据库，NR是非冗余蛋白质数据库（non-redundant protein sequence database），NT是核酸序列数据库（Nucleotide Sequence Database）。NCBI提供在线比对注释工具BLAST，可以方便的对基因进行注释。

4、UniProt

UniProt整合了3个数据库Swiss-Prot、TrEMBL和PIR-PSD。Swiss-Prot数据库中的所有序列条目都基于文献资料经人工审阅，数据库质量高、非冗余，但数据

但没有经过人工校验。国际蛋白质序列数据库（PIR-PSD）是一个全面的、经过注释的、非冗余的蛋白质序列数据库。UniProt是目前国际上序列数据最完整、注释信息最丰富的非冗余蛋白质序列数据库。

5、Pfam

蛋白质家族数据库（Pfam）是蛋白质家族的集合，每个蛋白质家族由多序列比对和隐马尔科夫模型描述文件表示。

6、COG和KOG

同源蛋白簇数据库（Clusters of Orthologous Groups of proteins，COG）是由NCBI创建并维护的蛋白数据库，根据细菌、藻类和真核生物完整基因组的编码蛋白的进化关系分类构建而成。根据蛋白质序列的相似性，数据库将蛋白质分成不同的类，每类赋予一个编号，代表一种同源蛋白。COG数据库包含COG和KOG两个数据库，前者是原核生物的同源蛋白聚类，后者是真核生物的同源蛋白进行聚类。NCBI不提供COG的在线注释，只能本地化运行。

7、STRING

要研究基因编码的蛋白与其他蛋白的相互作用关系，使得研究人员能更加深入的了解其功能和调控机制。STRING的目的在于收集、评估及整合所有公用的蛋白-蛋白互作资源，并与计算机预测的结果互为补充。其目标在于成为一个综合的、专门的全球网络，涵盖直接的（物理上的）互作和间接的（功能上的）互作信息。Cytoscape有个插件stringApp，可以在Cytoscape中方便的搜索蛋白相互作用关系，并进行后续的分析。

8、DA VID

DA VID是一个综合性的生物学数据库，整合了多种生物学数据和分析工具，为大规模的基因或蛋白数据提供综合性的生物功能注释，帮助用户从中提取生物学信息。不过DA VID的数据库更新频率非常低。目前数据库的版本是2016年5月更新的，距今已经3年多未更新，请谨慎使用！

9、Metascape

Metascape集成了四十多个生物信息数据库，通过一键快速分析的简洁界面让生物学者能够轻松获得全面的数据解析。其不仅在内容上包含了生物通路富集分析，蛋白质互作用网络结构分析以及丰富的基因注释功能，而且将结果以生物学家容易理解的高质量的图表语言加以呈现。与其他工具相比，Metascape克服了常见的难以学习使用，数据库缺乏更新，和结果不易理解的缺陷，强烈推荐！