利用KEGG数据库进行ID转换

合集下载

KEGG的使用方法

KEGG的使用方法

KEGG的使用方法KEGG (Kyoto Encyclopedia of Genes and Genomes) 是一个重要的生物信息学数据库,提供了基因、基因组、代谢通路和化合物等生物信息的综合性资源。

它为研究人员提供了一个系统性地探索生物学的工具和平台。

以下是KEGG的一些主要功能和使用方法的详细介绍。

1.数据库结构:KEGG数据库由四个主要模块组成:-通路数据库:包含了多种生物学过程的代谢通路、信号转导通路以及生物化学途径等信息。

-基因数据库:提供了多种物种的基因组、基因的序列、注释和分类信息。

-组数据库:提供了基于基因和化合物之间关系的信息,例如基因座与化合物之间的关联。

-化合物数据库:提供了化合物的结构、属性以及相关的代谢途径和药物作用信息。

2.基因和基因组数据:KEGG基因数据库包含了多个物种的基因组序列以及相关的注释信息。

通过KEGG的基因功能,可以输入基因的名称、ID或者序列来与之相关的信息。

结果将提供基因的位置、功能注释、代谢途径及相关通路等信息。

3.代谢通路和生物化学途径:KEGG通路数据库提供了多种生物学过程的代谢通路、信号传导通路和生物化学途径等信息。

通过KEGG的通路功能,可以输入通路的名称或者基因的名称来与之相关的信息。

结果将提供通路的组成成分、相关基因、代谢产物等详细信息。

4.同源基因比较和功能注释:KEGG基因数据库提供了基因的同源比较和功能注释工具,如BLAST和Motif等。

通过这些工具,研究人员可以比较不同物种中的基因,并预测它们的功能。

5.化合物数据和药物发现:KEGG的化合物数据库提供了大量的化合物结构、属性以及与生物过程相关的代谢通路和药物作用等信息。

研究人员可以使用KEGG的化合物功能,输入化合物的名称、结构或者KCF格式的化学表达式来与之相关的信息。

6.KEGG图谱和数据可视化:KEGG提供了多种图谱和数据可视化工具,包括通路图谱、基因组图谱和基因表达图谱等。

KEGG数据库的使用方法与介绍 (转)

KEGG数据库的使用方法与介绍 (转)

KEGG数据库的使用方法与介绍(转)KEGG的数据KEGG中的pathway是根据相关知识手绘的,这里的手绘的意思可能是指人工以特定的语言格式来确定通路各组件的联系;基因组信息主要是从NCBI 等数据库中得到的,除了有完整的基因序列外,还有没完成的草图;另外KEGG中有一个“专有名词”KO(KEGG Orthology),它是蛋白质(酶)的一个分类体系,序列高度相似,并且在同一条通路上有相似功能的蛋白质被归为一组,然后打上KO(或K)标签。

下面就首先来讲一下KEGG orthology。

任找一个代谢通路图,在上方有pathway meue | payhway entry | Show(Hide) description | 这3个选项,点击pathwayentry, 出现了一个页面,这个随时被连接出来的页面相信大家一定再熟悉不过了。

在这个页面中的pathway map项中点击按钮状的链接Ortholog table 。

就进入了Ortholog table如下的页面:在这个表中,行与物种对应,3个字母都是相应物中的英文单词缩写,比如has 表示Homo sapiens,mcc表示Macaca mulatta;列就表示相应的Ortholog分类,比如K00844就表示生物体内的己糖激酶hexokinase 这一类序列和功能相似的蛋白质类(酶类)。

如上图has后有3101,3098,3099这3个条目,它表示在人类细胞中中存在3中不同的己糖激酶,它们分别由以上这3组数字代表的基因所编码,这3组数字应该是这3个基因的登录号。

空白则表示在该物种中不存在这种酶。

点击K00844则这一KO分类信息及成员列表都可显示出来;点击has则链接到物种(人类)基因组去了;点击P,则显示相应的代谢通路。

下面我们点击3101,如下:如上图,就是我们常见的一个页面,3101是KEGG中的基因ID(登录号),H.sapiens表示物种,然后是基因的名称,表达的酶,属于哪个KO分类以及参与哪些代谢途径;下面还有结构、序列信息等等。

KEGG数据库使用攻略之我见

KEGG数据库使用攻略之我见

KEGG网址http://www.genome.jp/kegg/kegg网上自述简介:KEGG: Kyoto Encyclopedia of Genes and GenomesA grand challenge in the post-genomic era is a complete computer representation of the cell, the organism, and the biosphere, which will enable computational prediction of higher-level complexity of cellular processes and organism behaviors from genomic and molecular information. Towards this end we have been developing a bioinformatics resource named KEGG as part of the research projects of the Kanehisa Laboratories in the Bioinformatics Center of Kyoto University and the Human Genome Center of the University of Tokyo.以下是我归纳出的使用KEGG方法敲门,供给大家参考使用KEGG数据库一个主要用途就是查询分析pathway,然而直接通过网页打开的是一个图片形式的数据。

如下介绍如何利用下载的数据,以及使用软件VisANT(首先需要安装java虚拟机,太大了请自己去网上下载)来分析KEGG数据。

以人类MAPK通路(编号hsa04010)为例:一、如何确定一组基因(蛋白)是否在MAPK通路中?通过ftp下载人类hsa04010相关的所有数据。

kegg数据库的使用方法与介绍

kegg数据库的使用方法与介绍

kegg数据库的使用方法与介绍KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库是一个全面的基因组、基因、路径和药物信息的数据库资源。

它由日本京都大学生物信息学中心维护和更新。

KEGG提供了对各种生物学系统的综合信息,包括基因组、化学物质、代谢网络、信号传递、细胞过程和疾病等。

KEGG数据库具有以下几个主要的组成部分:基因组、基因、通路、化合物和药物、疾病、反应、酶和互动。

基因组部分提供了大量物种的基因组图谱和序列信息。

用户可以通过浏览物种树、搜索特定物种或基因来访问所需的基因组数据。

基因部分包含了基因的注释信息和相互作用网络。

用户可以查询特定基因或搜索具有特定功能或特征的基因。

通路部分提供了详细的代谢网络和信号传递通路图。

这些图谱显示了生物进程中的相互作用和调控。

化合物和药物部分包括了化学物质和药物的信息。

用户可以通过搜索特定的化学物质或药物来访问它们的结构、性质和作用机制等相关信息。

疾病部分提供了与疾病相关的基因和通路等信息。

用户可以浏览特定的疾病,并了解与该疾病相关的基因和通路。

反应部分提供了生物化学反应的详细信息。

它包括反应方程式、酶和底物等相关信息。

酶部分提供了酶的功能、结构和催化机制等信息。

用户可以查询特定的酶或搜索具有特定功能的酶。

互动部分展示了基因、化学物质和药物之间的相互作用。

用户可以查询特定的基因或化学物质,并了解它们之间的相互作用。

在使用KEGG数据库时,用户可以使用多种不同的方式来访问和获取所需的信息。

以下是一些常见的使用方法:1. 浏览:用户可以通过浏览不同的数据库部分来获取特定领域的信息。

他们可以浏览基因组图谱、代谢通路和与疾病相关的信息等。

2. 搜索:用户可以使用KEGG数据库的搜索功能来查找特定的基因、化合物、通路或疾病等。

他们可以输入关键词,然后得到与之相关的结果。

3. ID转换:用户可以使用KEGG数据库的ID转换工具来将不同的标识符转换为KEGG ID。

kegg使用方法

kegg使用方法

kegg使用方法KEGG(Kyoto Encyclopedia of Genes and Genomes)是一个由日本的京都大学建立的数据库,提供了大量的生物信息资源和工具。

KEGG数据库包括基因组、基因、蛋白质、化合物、酶、代谢途径、药物和疾病等各个方面的数据和信息。

本文将介绍KEGG数据库的使用方法。

1.访问KEGG数据库2.数据KEGG数据库提供了基因、蛋白质、化合物、酶、代谢途径、药物和疾病等各个方面的数据功能。

用户可以输入关键词感兴趣的数据。

3.基因和蛋白质用户可以通过输入基因或蛋白质的名称或ID来相关信息。

例如,输入基因的KEGG ID(例如hsa:1234)可以获得该基因的详细信息、序列和相关文献等。

4.代谢途径5.功能和注释KEGG数据库提供了各种功能和注释信息,包括KO(KEGG Orthology)注释、GO(Gene Ontology)注释、PFAM注释、KEGG BRITE注释等。

这些注释信息可以帮助用户理解基因、蛋白质和化合物的功能和特性。

6.序列比对和功能注释KEGG数据库提供了序列比对和功能注释的工具,如BLAST、KASS、KOBAS等。

用户可以输入序列数据进行比对,并获得比对结果和相关的功能注释。

7.代谢通路KEGG数据库的核心特色之一是提供了详细的代谢途径信息。

用户可以通过浏览代谢途径的分类来了解不同的代谢途径,或者通过输入化合物或基因的名称或ID来查找相关的代谢途径信息。

8.KEGG地图KEGG地图是KEGG数据库中非常重要的功能之一,可以帮助用户直观地了解基因、蛋白质和化合物在代谢途径中的位置和相互关系。

用户可以在KEGG地图中点击不同的节点来获取相关的详细信息和注释。

10.API接口KEGG数据库还提供了API接口,可以方便地将KEGG数据集成到自己的脚本或程序中。

用户可以通过API接口来获取和处理KEGG数据库的数据。

总结:KEGG数据库是一个功能强大的生物信息资源和工具,提供了丰富的数据和功能。

skr!GEO芯片数据的探针ID转换

skr!GEO芯片数据的探针ID转换

skr!GEO芯片数据的探针ID转换今天这个帖子,对我来说很有意义,我在最后要介绍一位心中的男神。

我每天努力学习就是为了消除心中的疑惑。

几年前,当我跟着别人的代码跑了个流程后,突破不了的是两个事情•1.如何不借助 excel 的拖拽,对芯片进行分组,•2.如何方便优雅全能地进行探针转换。

那个时候,R语言基础很差,处理不了数据,很有挫败感,所以就停止了R语言的学习。

直到我碰到了那个男人。

现在我解决了这个问题,分享给大家。

第一种,我们可以直接用平台的数据进入官网 /geo/知道平台是GPL6244这时候我们进入R语言,用GEOquery中的getGEO可以获得探针和基因名的信息网络不好的可以直接略过1.library(GEOquery)2.GPL6244 <>'GPL6244',destdir ='.')转换成数据框形式,有3万行,12列1.GPL6244_anno ->T able(GPL6244)查看内容,我们发现基因名称藏在了gene_assignment这一列的中间所以我们要把他和第一列id提取出来1.library(dplyr)2.library(tidyr)3.probe2symbol_df % ->4.select(ID,gene_assignment) %>%5.filter(gene_assignment != '---') %>%6.separate(gene_assignment,c('drop','symbol'),sep='//') %>%7.select(-drop)看一下,数据已经被提取出来了。

假如getGEO这一步网络不好呢1.library(GEOquery)2.GPL6244 <>'GPL6244',destdir ='.')我们在这个一开始的这个页面下载平台的soft文件点击soft文件下载解压然后用data.table这个包中的fread即可阅读进来,注意,skip这个参数十分重要!!1.GPL6244_anno<>'./GSE42872_family.soft/GSE42872_family.soft',skip ='ID') 得到了GPL6244_anno,我们又可以运行下面的代码提出探针和基因名称对应的关系了。

KEGG使用介绍

KEGG使用介绍

KEGG使用介绍KEGG(Kyoto Encyclopedia of Genes and Genomes)是一个全球使用最广泛的生物信息学资源,旨在帮助研究人员深入了解基因和代谢途径在生物体中的功能和调控机制。

下面将对KEGG的使用介绍进行详细阐述。

KEGG数据库提供了综合的生物信息学工具和资源,包括基因组、代谢途径、疾病、药物等方面的数据。

它具有以下几个主要特点。

首先,KEGG提供了大量的基因组学和转录组学数据,包括多个物种的遗传组织定位、基因组序列、蛋白质注释和表达数据等。

用户可以通过KEGG数据库查询感兴趣基因的信息,如基因位点、转录本、编码蛋白、关键功能等。

这些信息可帮助研究人员了解基因的组织表达模式、功能注释和代谢调控。

其次,KEGG提供了详细的代谢途径图和物质代谢网络。

用户可以通过KEGG Pathway浏览和研究特定代谢途径的调控机制和关键分子。

KEGG Pathway中的每个分子都链接到详细的注释信息,包括物质结构、酶和基因的注释、相互作用等。

通过对代谢途径的研究,研究人员可以深入了解一种生物过程中基因和代谢产物之间的相互关系和调控机制。

此外,KEGG提供了疾病和药物信息,包括疾病的遗传学和发病机制、药物的作用和靶点等。

用户可以通过KEGG Disease查询具体疾病的病因、发病机制等信息,帮助研究人员了解疾病的分子基础和可研究的靶点。

同时,KEGG Drug提供了药物的分类、化学结构和作用机制等信息,用户可以通过查询具体的药物名或药物类别来获得相关数据。

最后,KEGG还提供了一系列实用的生物信息学工具。

例如,KEGG Mapper工具可以将基因、蛋白质或化合物ID映射到KEGG数据库中的相应数据,帮助研究人员获得更详细的注释信息。

此外,KEGG提供了基因表达和代谢组学的分析工具,用户可以通过这些工具对自己的实验数据进行分析和解释。

在使用KEGG时,主要有以下几个步骤:2.在KEGG的主页上,可以通过关键词或点击数据库上的链接来查找感兴趣的基因、代谢途径、疾病、药物等。

KEGG使用教程

KEGG使用教程

KEGG使用教程KEGG(Kyoto Encyclopedia of Genes and Genomes,京都基因组和基因组百科全书)是一个涉及基因组、基因和生物化合物的综合数据库,为研究生物学、生物信息学和系统生物学提供重要的资源和工具。

本教程将介绍KEGG数据库的基本用法,帮助用户更好地利用该数据库进行研究。

一、KEGG数据库概述KEGG数据库包含了大量的关于基因组、代谢途径、疾病和药物等方面的信息。

其主要包含了以下三个数据库:1.KEGGPATHWAY:代谢途径数据库,包含了多种生物途径的详细信息,如糖代谢途径、氨基酸代谢途径等。

2.KEGGGENES:基因数据库,提供了大量的基因序列、功能注释和基因组定位等信息。

3.KEGGDRUG:药物数据库,包含了多种药物的结构信息、药物靶点和作用机制等。

二、KEGG数据库的使用方法2.基因:在栏中输入基因名或ID,然后点击按钮。

系统将返回与输入相关的基因信息,包括基因描述、序列、功能注释等。

3.代谢途径:在栏中输入感兴趣的代谢途径名或ID,然后点击按钮。

系统将返回与输入相关的代谢途径信息,包括途径图、相关基因和代谢产物等。

4.药物:在栏中输入感兴趣的药物名或ID,然后点击按钮。

系统将返回与输入相关的药物信息,包括药物结构、作用靶点和相关的疾病等。

5. 序列比对:在KEGG网站的工具栏中,选择“Sequencesimilarity search”选项,可以进入基因序列比对的页面。

用户可以将自己的序列与KEGG数据库中的序列进行比对,以查找相关基因或代谢途径。

7. 可视化分析:KEGG数据库还提供了一些用于代谢途径之间相互作用和基因表达等数据分析的工具和资源。

用户可以在KEGG网站的工具栏中选择“Analysis”选项,进入相应的页面进行数据可视化和分析。

三、使用案例以糖代谢途径为例,介绍KEGG数据库的使用方法。

1. 在KEGG网站的栏中输入“Glycolysis”(糖酵解),点击按钮。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

利用KEGG数据库进行ID转换clusterProfiler can convert biological IDs using OrgDb object via the bitr function. Now I implemented another function, bitr_kegg for converting IDs through KEGG API.library(clusterProfiler)data(gcSample)hghead(hg)## [1] '4597' '7111' '5266' '2175' '755''23046'eg2np ## Warning in bitr_kegg(hg, fromType = 'kegg', toType = 'ncbi-proteinid',## organism = 'hsa'): 3.7% of input gene IDs are fail to map...head(eg2np)## kegg ncbi-proteinid## 1 8326 NP_003499## 2 58487 NP_001034707## 3 139081 NP_619647## 4 59272 NP_068576## 5 993 NP_001780## 6 2676 NP_001487np2uphead(np2up)## ncbi-proteinid uniprot## 1 NP_005457 O75586## 2 NP_005792 P41567## 3 NP_005792 Q6IAV3## 4 NP_037536 Q13421## 5 NP_006054 O60662## 6 NP_001092002 O95398The ID type (both fromType & toType) should be one of'kegg', 'ncbi-geneid', 'ncbi-proteinid' or 'uniprot'. The 'kegg' is the primary ID used in KEGG database. The data source of KEGG was from NCBI. A rule of thumb for the 'kegg' ID is entrezgene ID for eukaryote species and Locus ID for prokaryotes.Many prokaryote species don't have entrezgene ID available. For example we can check the gene information of ece:Z5100 inhttp://www.genome.jp/dbget-bin/www_bget?ece:Z5100, which have NCBI-ProteinID and UnitProt links in the Other DBs Entry, but not NCBI-GeneID.If we try to convert Z5100 to ncbi-geneid, bitr_kegg will throw error of ncbi-geneid is not supported.bitr_kegg('Z5100', fromType='kegg',toType='ncbi-geneid', organism='ece')## Error in KEGG_convert(fromType, toType, organism) :## ncbi-geneid is not supported for ece ...We can of course convert it to ncbi-proteinid and uniprot:bitr_kegg('Z5100', fromType='kegg',toType='ncbi-proteinid', organism='ece')## kegg ncbi-proteinid## 1 Z5100 AAG58814bitr_kegg('Z5100', fromType='kegg', toType='uniprot', organism='ece')## kegg uniprot## 1 Z5100 Q7DB85search_kegg_organismclusterProfiler supports more than 4k species listed inhttp://www.genome.jp/kegg/catalog/org_list.html for hypergeometric test (enrichKEGG & enrichMKEGG) and GSEA (gseKEGG & gseMKEGG). We can use bitr_kegg to convert ID for all these 4k species. To facilitate searching scientific name abbreviate used in the organism parameter of these functions, I implemented thesearch_kegg_organism function. We can search bykegg_code, scientific_name or common_name (which is not available for prokaryotes).search_kegg_organism('ece', by='kegg_code')## kegg_codescientific_name common_name## 334 ece Escherichia coli O157:H7 EDL933 (EHEC)ecolidim(ecoli)## [1] 64 3head(ecoli)## kegg_codescientific_name common_name## 329 eco Escherichia coli K-12MG1655## 330 ecj Escherichia coli K-12W3110## 331 ecd Escherichia coli K-12DH10B## 332 ebw Escherichia coliBW2952## 333 ecok Escherichia coli K-12 MDS42## 334 ece Escherichia coli O157:H7 EDL933 (EHEC)keyType parameterWith the ID conversion utilities built in clusterProfiler, I add a parameter keyType in enrichKEGG, enrichMKEGG, gseKEGG and gseMKEGG. Now we canuse ID type that is not the primary ID in KEGG database.x head(summary(x))## IDDescription GeneRatio## hsa04072 hsa04072 Phospholipase D signaling pathway 11/133## hsa04060 hsa04060 Cytokine-cytokine receptor interaction 14/133## hsa04390 hsa04390 Hippo signaling pathway 10/133## hsa04975 hsa04975 Fat digestion and absorption 5/133## hsa05221 hsa05221 Acute myeloid leukemia 6/133## BgRatio pvalue p.adjustqvalue## hsa04072 216/9275 0.0002654190 0.039016590.03240905## hsa04060 354/9275 0.0005349245 0.039316950.03265855## hsa04390 213/9275 0.0009536247 0.041994040.03488227## hsa04975 58/9275 0.0014014886 0.041994040.03488227## hsa05221 86/9275 0.0014283687 0.041994040.03488227##geneID## hsa04072O95398/Q99777/P49619/Q6FGP0/Q8WVM9/O14807/P41 594/A8K5P7/P10145/A0A024RDA5/P16234## hsa04060A0N0N3/O00574/P19876/P01589/P10145/A0A024RDA5/ B4DGA4/Q99665/P16234/P78556/Q6I9S7/P42830/P2793 0/Q9UBN6## hsa04390Q8WW10/A8K141/Q9UI47/P35240/A0A024R1J8/Q659G9 /Q9UJU2/P22003/M9VUD0/O00144## hsa04975Q9UNK4/A0A087WZT4/A0A0C4DFX6/Q9UHC9/P04054 ## hsa05221Q659G9/Q9UJU2/Q03181/A0A024RCW6/Q06455/B2R6I 9## Count## hsa04072 11## hsa04060 14## hsa04390 10## hsa04975 5## hsa05221 6setReadableFor GO analysis, we have a readable parameter to control whether traslating the IDs to human readable gene name. This parameter is not available for KEGG analysis. But we still have the ability to translate input gene IDs to gene name using setReadable function if and only if corresponding OrgDb object is available.y head(summary(y))## IDDescription GeneRatio## hsa04072 hsa04072 Phospholipase D signaling pathway 11/133## hsa04060 hsa04060 Cytokine-cytokine receptor interaction 14/133## hsa04390 hsa04390 Hippo signaling pathway 10/133## hsa04975 hsa04975 Fat digestion and absorption 5/133## hsa05221 hsa05221 Acute myeloid leukemia 6/133## BgRatio pvalue p.adjustqvalue## hsa04072 216/9275 0.0002654190 0.039016590.03240905## hsa04060 354/9275 0.0005349245 0.039316950.03265855## hsa04390 213/9275 0.0009536247 0.041994040.03488227## hsa04975 58/9275 0.0014014886 0.041994040.03488227## hsa05221 86/9275 0.0014283687 0.041994040.03488227##geneID## hsa04072RAPGEF3/RAPGEF3/DGKG/MRAS/MRAS/MRAS/GRM5/ GRM5/CXCL8/CXCL8/PDGFRA## hsa04060CXCR6/CXCR6/CXCL3/IL2RA/CXCL8/CXCL8/IL12RB2/IL 12RB2/PDGFRA/CCL20/CXCL5/CXCL5/IL1R2/TNFRSF1 0D## hsa04390CTNNA3/CTNNA3/CTNNA3/NF2/NF2/LEF1/LEF1/BMP5/ BMP5/FZD9## hsa04975PLA2G2D/PLA2G2D/NPC1L1/NPC1L1/PLA2G1B## hsa05221LEF1/LEF1/PPARD/PPARD/RUNX1T1/RUNX1T1## Count## hsa04072 11## hsa04060 14## hsa04390 10## hsa04975 5## hsa05221 6经常有人问我用enricher或GSEA分析的话,没有readable参数,要知道这两函数是通用的富集分析工具,对于你要做什么(包括知识库,物种,ID类型)是没有任何假设的,请问我该如何来为你自动转ID,答案是不可能,但你自己做什么,心里应该有点B数,那么我为你提供了setReadable函数,可以帮忙解决部分的ID转换问题,当然肯定不是全部。

相关文档
最新文档