DAVID使用方法介绍

DAVID使用说明文档

一、DAVID简介

DAVID （the Database for Annotation，Visualization and Integrated Discovery）的网址是。 DAVID是一个生物信息数据库，整合了生物学数据和分析工具，为大规模的基因或蛋白列表（成百上千个基因ID或者蛋白ID列表）提供系统综合的生物功能注释信息，帮助用户从中提取生物学信息。

DAVID这个工具在2003年发布，目前版本是。和其他类似的分析工具，如GoMiner，GOstat等一样，都是将输入列表中的基因关联到生物学注释上，进而从统计的层面，在数千个关联的注释中，找出最显着富集的生物学注释。最主要是功能注释和信息链接。

二、分析工具：

DAVID需要用户提供感兴趣的基因列表，在基因背景下，使用提供的分析工具，提取该列表中含有的生物信息。这里说的基因列表和背景文件的选取对结果至关重要。

1.基因列表：这个基因列表可能是上游的生物信息分析产生的基因ID列表。对于富集分析而言，一般情况下，大量的基因组成的列

表有更高的统计意义，对富集程度高的特殊Terms有更高的敏感度。富集分析产生的p-value在相同或者数量相同的基因列表中具有可比性。

DAVID对于基因列表的格式要求为每行一个基因ID或者是基因ID用逗号分隔开。基因列表的质量会直接影响到分析结果。这里定性给出好的基因列表应该具有的特点，一个好的基因列表至少要满足以下的大部分的要求：

（1）包含与研究目的相关的大部分重要的基因（如标识基因）。

（2）基因的数量不能太多或者太少，一般是100至10000这个数量级。

（3）大部分基因可以较好的通过统计筛选，例如，在控制组和对照组样品间选择显着差异表达基因时，使用的t-test标准：fold changes >=2 && P-values <=。

（4）大部分是上下调的基因都涉及到特定的某一生物过程，而不是随机的散布到所有可能的生物过程中。

（5）一个好的基因列表比起随机产生的一个基因列表，应该含有更丰富的生物信息。

（6）在同样的条件下，列表具有高度可重复性。

（7）高通量数据的质量能够被其他独立的实验证实。

以上（2），（3），（6）&（7）是来自上游的数据标准，DAVID会自动检查其余的各项要求，即（1），（4）&（7）。

2.基因背景：在一项研究中，如果一个生物过程不正常，那么通过高通量筛选技术，对该过程共同作用的基因有更大的可能性被选为

相关的一组。富集分析正是以此为基础。为检测富集的程度，必须选取一个背景来进行对比。基因背景的选取有一个指导原则，就是必须构建一个足够大的，研究者可能涉及的所有基因的集合。用户使用默认的背景文件（默认为该物种的所有基因），或者是上传一个基因列表文件作为基因背景。

3.DAVID为实现各项功能分析，提供了以下4个分析内容（共6个分析工具）：

（1）Gene Name Batch Viewer

这个工具能够实现将基因ID迅速翻译成基因名称，从而给研究者对于基因ID列表一个直观的印象，初步判断基因列表是否符合要求目的。

图1中显示了该工具的分析结果，具体说明图1中标注。

图1 Gene Name Batch Viewer的分析结果

（2） Gene Functional Classification

这个工具是Gene Name Batch Viewer工具的延伸。由于基因名称并不能显着体现基因的功能，所以我们需要更加有效的功能分类工具。该工具基于它们共同的注释信息，而不是基因名称，采用全新的模糊聚类算法，能够实现将功能相关的基因聚到一起作为一个单元，在生物学网络水平上去研究这些基因群。对聚类结果打分，分值越高，代表该组内的基因在基因列表中越重要。

同时还提供了2-D View，以热图形式展现聚类到同一组的基因和该组内各个Term之间的关系。

结果见图2，将列表中的基因ID作为聚类对象，将功能相关的基因分组显示。图3是以热图形式展示的gene-term关系。

图2 Gene Functional Classification的分析结果

图3 2-D View展示gene-term关系（3）Functional Annotation

该工具是DAVID最核心的分析内容，包含了三个子工具：

Functional Annotation Chart

该工具提供gene-term的富集分析。相比于其他富集分析软件而言，DAVID在该功能上最显着的特点是，注释范围的可扩展性：从最初的GO注释，扩展到现在超过40中的注释种类，包括GO注释，KEGG注释，蛋白相互作用，蛋白功能区域，疾病相关，生物代谢通路，序列特点，异构体，基因功能总结，基因在组织里的表达和论文等。用户可以根据需要选择其中的某些或者所有种类的注释信息。

结果中以基因列表中富集的Terms为对象，将信息按照DAVID计算出来的p-value排列，同时链接指向更多的信息，见图4。

图4 Functional Annotation Chart的分析结果

Functional Annotation Clustering

该工具使用类似于Gene Functional Classification工具的模糊聚类方法，基于注释共同出现的程度作聚类，对被注释上的Terms做聚类，即Terms被分成多组，并将给出聚类的分值。分值越高，代表该组内的基因在基因列表中越重要。同时还提供了2-D View，以热图形式展现聚类到同一组的基因和该组内各个Term之间的关系。

结果中（见图5），即被注释上的Terms作为聚类对象，用户可以根据聚类的分值找到重要的Terms。

图5 Functional Annotation Clustering的分析结果

Functional Annotation Table

该工具实现了基因的功能注释，将输入列表中每个基因在选定数据库中的注释以表格形式呈现。结果见图6。.

图6 Functional Annotation Table的分析结果

（4）Gene ID Conversion

该工具实现不同数据库的基因标识间的转换。包含NCBI, PIR 和 Uniprot/SwissProt等重要数据库的基因标识信息。

结果如图7所示，左边的表格显示转换的情况，右边表格以列表呈现转换结果，和基因名称注释等。

图7 Gene ID Conversion分析结果

总结：

对于以上6项分析工具各有偏重点，下面给出一个指示图（见图8），帮助用户选择DAVID的各项分析工具。

图8 DAVID各项分析工具的选择指示图三、使用步骤：

1.向DAVID网站提交一个基因列表。

首先登录到网站的首页（见图9）。点击页面顶端的“Start Analysis”在弹出页面的左边有一个面板“Gene List Manager”，在该面板的“upload”标签下提交基因列表（基因列表的格式为每行一个基因或者行内的多个基因以逗号分隔，可以将基因列表黏贴到输入窗口或者以文件形式上传）；接着选取输入基因列表的ID类型；最后确定列表的类型，是基因列表还是作为背景文件。点击use，进入分析。

图9 网站首页

上传的数据可以供所有的分析模块共享，而不需要重复上传。基因列表文件可以选取如图10中所示的Demolist1 和 Demolist2。本

文中使用DAVID提供的Demolist1作为基因列表。附件一是人的血瘀和正常样品之间的显着差异表达基因列表，可供使用。

如果你要做的是全基因组背景或者是接近全基因组背景的研究，就不需要上传那个背景文件，网站会自动根据上传的基因列表类型，选择对应物种的所有基因作为背景文件。如果你要自己设定背景，也可以在“upload”标签中上传，然后在“Background”标签中选定所需的列表作为背景。本文中选取默认的背景文件，即人的全基因作为背景。

图10 上传数据窗口

在“List”标签中，可以看到所有上传的列表。在图11所示的右侧中，选择分析项。

图11 Lsit标签和分析工具选择窗口

（1）选择Gene Name Batch Viewer这项分析，弹出的窗口显示分析结果，即基因ID和对应的基因名称、相关基因以及所属物种。用户可以据此初步判断，列表中是否含有感兴趣的基因（见图12）。Species栏指向物种相关的ncbi信息网页。

图12 Gene Name Batch Viewer分析结果

点击Related Genes栏中的 RG，将会出现跟该行基因功能相关的基因列表，如图13所示的结果。

图13 功能相关基因列表

（2）选择“Gene ID Conversion Tool”这项分析工具，在弹出窗口（见图14）中，选择目的标识类型，然后点击“Submit to Conversion Tool”，弹出结果窗口，详细说明见图15。（参照网页）

图14 Gene ID Conversion Tool窗口

图15 Gene ID Conversion Tool结果说明文件

（3）选择“Gene Functional Classification”这项分析工具，弹出的结果和具体说明见图16（具体说明参照网页）。

图16 Gene Functional Classfication

（3）选择“Functional Annotation Tool”这项分析工具,会弹出图17所示窗口（具体说明参照）。

图17 Functional Annotation Tool界面

点击页面底部的三个选项“Functional Annotation Clustering”、“Functional Annotation Chart”、“Functional Annotation Table”:选择Functional Annotation Clustering这一项分析，可以对被注释上的Terms做聚类，弹出结果见图18，图中绿色的图标可以

显示2-D view热图（详见之前提到）。

图18 Functional Annotation Clustering分析结果

选择“Functional Annotation Chart“这一项分析，可以实现Terms的富集分析。结果见图19（具体说明见网页）。