基因芯片数据功能分析

合集下载

基因组学研究中的大数据分析

基因组学研究中的大数据分析I. 引言随着现代生物学和生物技术的快速发展，基因组学研究变得越来越重要。

基因组学是研究生物体所有基因组的总体，它不仅仅涉及一个个基因的功能和相互关系，还包括了对基因组中所有基因的整体解读。

随着高通量测序技术的广泛应用，我们可以产生大量的基因组数据。

然而，这些大数据集的处理和分析还存在困难和挑战。

本文将介绍基因组学研究中的大数据分析。

II. 基因组学数据的产生与特点在开始讨论大数据分析之前，我们首先需要了解基因组学数据的产生和特点。

基因组学数据的产生主要是通过高通量测序技术，如基于Illumina平台的测序和单分子测序技术。

这些技术可以高效地产生大量的DNA序列数据，称为测序读数（sequence reads）。

此外，还可以通过其他技术如芯片技术和基因表达测定等来产生基因组学数据。

基因组学数据具有几个主要特点。

首先，它们是高度复杂和多维的。

每个基因组学数据集都可能包含数百万，甚至数十亿个基因组序列，这使得数据的处理和分析具有挑战性。

其次，基因组学数据具有高度的异质性。

这是因为基因组组成和功能的差异可能导致个体间和物种间的基因组数据的不同。

最后，基因组学数据具有高度的动态性。

由于生物体内的基因表达和基因组构成在不同时期和不同环境条件下都会发生变化，因此基因组学数据的处理和分析需要具备时序性。

III. 基因组学数据分析的流程基因组学数据分析是一个复杂的过程，通常包括数据预处理、特征提取、数据挖掘和结果解读等步骤。

首先，数据预处理是一个关键的步骤。

在这一步骤中，需要检查和校正原始数据中的错误和噪声。

例如，测序读数可能受到测序仪器的误差和噪声的影响，需要进行质量控制和修剪等操作。

此外，在使用基因芯片等其他技术产生的数据中，还需要进行背景校正和归一化等处理。

其次，特征提取是基因组学数据分析的关键步骤。

特征提取旨在从原始数据中提取出与研究问题相关的特征。

对于基因组学数据来说，特征提取可能包括基因识别、转录因子结合位点预测、遗传变异检测等方面。

基因芯片的数据分析

基因表达谱芯片的数据分析基因芯片数据分析就是对从基因芯片高密度杂交点阵图中提取的杂交点荧光强度信号进行的定量分析，通过有效数据的筛选和相关基因表达谱的聚类，最终整合杂交点的生物学信息，发现基因的表达谱与功能可能存在的联系。

然而每次实验都产生海量数据，如何解读芯片上成千上万个基因点的杂交信息，将无机的信息数据与有机的生命活动联系起来，阐释生命特征和规律以及基因的功能，是生物信息学研究的重要课题[1]。

基因芯片的数据分析方法从机器学习的角度可分为监督分析和非监督分析，假如分类还没有形成，非监督分析和聚类方法是恰当的分析方法；假如分类已经存在，则监督分析和判别方法就比非监督分析和聚类方法更有效率。

根据研究目的的不同[2,3]，我们对基因芯片数据分析方法分类如下。

（1）差异基因表达分析：基因芯片可用于监测基因在不同组织样品中的表达差异，例如在正常细胞和肿瘤细胞中；（2）聚类分析：分析基因或样本之间的相互关系，使用的统计方法主要是聚类分析；（3）判别分析：以某些在不同样品中表达差异显著的基因作为模版，通过判别分析就可建立有效的疾病诊断方法。

1 差异基因表达分析(difference expression, DE)对于使用参照实验设计进行的重复实验，可以对2样本的基因表达数据进行差异基因表达分析，具体方法包括倍数分析、t检验、方差分析等。

1.1倍数变化(fold change, FC)倍数分析是最早应用于基因芯片数据分析的方法[4]，该方法是通过对基因芯片的ratio值从大到小排序，ratio 是cy3/cy5的比值，又称R/G值。

一般0.5-2.0范围内的基因不存在显著表达差异，该范围之外则认为基因的表达出现显著改变。

由于实验条件的不同，此阈值范围会根据可信区间应有所调整[5,6]。

处理后得到的信息再根据不同要求以各种形式输出，如柱形图、饼形图、点图等。

该方法的优点是需要的芯片少，节约研究成本；缺点是结论过于简单，很难发现更高层次功能的线索；除了有非常显著的倍数变化的基因外，其它变化小的基因的可靠性就值得怀疑了；这种方法对于预实验或实验初筛是可行的[7]。

基因芯片数据分析过程：从原始数据到生物学意义

ＴｈｉｒｒａｔｅＭｃｏａｒｙＤａａＡｎａｙｉｏｅｓｒｍＲａｌｓｓＰｒｃｓ：ｆｏｗＤａａｔｏｏｉａｉｎｆｃｎｅｔｏＢｉｌｇｃｌＳｇｉａｃｉ
ＨＵｌｉＪＡＮｎｃｕ，觎ａＩ，Ｘｉ－ｈｎ
［ｅｒｓｍｃｏｒｙｓｔｔａａａｓ；ｌｓｒａａｙｉｅｅａｎｔｔｎＫｙｗｏｄ］ｉａｒ；ｔｉｉｌｎｌｉｃｕｔｎｌｓｎｎｏａｏｒａａｓｃｙｓｅｓ；ｇｉ
基因芯片技术是分子生物学在实验领域的一项重大突破，
３３３
文章编号：０９００（０７０ — ３３０１０ — ０２２０）２０３ — ３
综
述
基因芯片数据分析过程：从原始数据到生物学意义
胡延佳，翦新春
中南大学湘雅医院口腔颌面外科，南长沙４００湖１０８［要】基因芯片实验要得到可靠的生物学结论，摘必须基于优化的实验设计和科学的数据分析。讨论了与基因芯片数据分
ｍｅｔｌｄｓｎａｄｔｅｓｉｎｉｃｄｔｎｌｓ．Ｓｖｒｌｐｏｌｍｓａｏｔｔｅｅｐｒｎａｅｉｎｗｉｈａｅｒｌｔｄｗｉｍｉｎａｅｉｎｈｃｅｔｉａａａａｙｉｇｆｓｅｅａｒｂｅｂｕｈｘｅｍｅｔｌｄｓｇｈｃｒｅａｅｔｉｈ —

基因芯片图

基因芯片图基因芯片（Gene Chip）是一种用于检测和分析生物体基因表达情况的高通量技术。

它可以同时检测数千个基因的表达水平，快速、高效地获取大量的基因表达数据。

基因芯片图则是基因芯片所提供的数据的图表化展示，可以通过图表来直观地了解基因表达的情况。

基因芯片图通常以散点图的形式展示，其中横轴代表不同基因的编号或名称，纵轴表示基因表达的相对水平。

每个散点代表一个基因，在图中的位置表示该基因的表达水平。

通常，较高的散点表示该基因的表达水平较高，较低的散点表示该基因的表达水平较低。

通过观察散点的分布，可以初步了解基因表达的整体情况。

基因芯片图常常是多样本比较的结果。

在一个基因芯片实验中，研究者通常会同时检测多个样本（如不同细胞系或组织），以了解不同条件下基因的表达差异。

因此，基因芯片图可以用来比较不同样本之间的基因表达差异。

在基因芯片图中，不同样本的散点可以用不同的颜色或符号表示，以便进行比较。

通过观察不同样本之间散点的分布情况，可以判断基因表达在不同样本中的差异。

如果两个样本之间的散点密集并且接近，表示它们的基因表达水平相似；如果两个样本之间的散点分散或者相距较远，表示它们的基因表达存在较大差异。

基因芯片图可以帮助研究者发现差异表达的基因，进而深入研究这些基因在不同样本中的功能和意义。

此外，基因芯片图还可以根据研究者的需要进行各种数据处理和分析。

比如，可以通过聚类分析将基因或样本分成不同的类别，以寻找相似的表达模式；可以进行差异分析，找到差异表达的基因；可以进行通路分析，了解差异表达基因所参与的生物学过程或通路等。

这些分析结果也可以用可视化图表的形式展示出来，加深对基因表达数据的理解。

总之，基因芯片图是基因芯片实验中的重要结果之一，通过直观的图表形式展示基因表达的情况，帮助研究者理解和分析基因表达数据。

基因芯片图在生命科学研究中有着广泛的应用，为深入研究基因的功能和机制提供了有力的工具和平台。

生物信息学讲义——基因芯片数据分析

生物信息学讲义——基因芯片数据分析生物信息学是指运用计算机技术和统计学方法来解析和理解生物领域的大规模生物数据的学科。

基因芯片数据分析是生物信息学研究的一个重要方向，通过对基因芯片数据进行分析，可以揭示基因在生物过程中的功能和调节机制。

本讲义将介绍基因芯片数据的分析方法和应用。

一、基因芯片数据的获取与处理基因芯片是一种用于检测和测量基因表达水平的高通量技术，可以同时检测上千个基因的表达情况。

获取基因芯片数据的第一步是进行基因芯片实验，如DNA芯片实验或RNA芯片实验。

实验得到的数据一般为原始强度值或信号强度值。

接下来，需要对这些原始数据进行预处理，包括背景校正、归一化和过滤噪声等步骤，以消除实验误差和提高数据质量。

二、基因表达分析基因芯片数据的最主要应用之一是进行基因表达分析。

基因表达分析可以揭示在不同条件下基因的表达模式和差异表达基因。

常用的基因表达分析方法包括差异表达分析、聚类分析和差异共表达网络分析等。

差异表达分析常用来寻找在不同条件下表达差异显著的基因，如差异表达基因的筛选和注释；聚类分析可以将表达模式相似的基因分为一组，如聚类分析可以将不同样本中的基因按照表达模式进行分类；差异共表达网络分析可以找到一组在差异表达样本中共同表达的基因，揭示潜在的功能模块。

三、功能富集分析对差异表达基因进行功能富集分析可以帮助我们理解这些基因的生物学功能和参与的生物过程。

功能富集分析可以通过对差异表达基因进行GO(Gene Ontology)注释，找到在特定条件下富集的生物学过程、分子功能和细胞组分等。

另外，功能富集分析还可以进行KEGG(Kyoto Encyclopedia of Genes and Genomes)富集分析，找到差异表达基因在代谢通路和信号传导通路中的富集情况。

四、基因调控网络分析基因调控网络分析可以帮助我们揭示基因间的调控关系和寻找关键调控基因。

基因调控网络是基于差异表达数据构建的，它可以包括转录因子-靶基因调控网络和miRNA-mRNA调控网络等。

生物芯片数据分析简介

生物芯片技术及分析
一、基因芯片与基因表达二、基因表达谱统计与分类分析三、Ontology与基因功能注释四、基于芯片数据的pathway分析
一、基因芯片与基因表达
什么是生物芯片？
一块指甲大小（1cm3 ）的有多聚赖氨酸包被的硅片或其它固体支持物（如玻璃片、硅片、聚丙烯膜、硝酸纤维素膜、尼龙膜等）。生物芯片通过微加工和微流体系统将生化分析中的样品制备、生化反应、及结果检测有机地结合集成在一起。具有高速度、分析自动化、及高度并行处理能力。
Subcellular components where a gene-product is found. Encompasses subcellular structures, locations, and macromolecular complexes
GO example
(Browser at /cgi-bin/go.cgi)
cDNA microarray
microRNA Chip
Biological question
Experimental design Microarray experiment
Image analysis
Normalization
Estimation
Testing
Clustering
Discrimination
13,601 Genes
Signal Transduction Ligand Binding or Carrier Motor Protein
GO Analysis—目标基因群显著性、靶向性基因功能分析。 Go Analysis对目标基因（差异基因等）进行GO分类，而后对GO进行基于离散分布的显著性分析、误判率分析、富集度分析，得出与实验目的有显著联系的、低误判率的、靶向性的基因功能分类，该分类即导致样本性状差异的最重要的功能差别，其所属基因是进一步验证的重要目标基因。数据要求：标有上调和下调比值的差异基因列表。

基因表达谱数据分析技术

第18卷第6期微阵列技术[1-3]的到来对生物学和医学来说是一场革命，通过它可以同时观测成千上万个基因的表达水平，从而能够在基因组水平上以系统的、全局的观念去研究生命现象及其本质。

还可以根据基因在不同条件下表达的差异性来进行复杂疾病诊断、药物筛选、个性化治疗、基因功能发现、农作物优育和优选、环境检测和防治、食品卫生监督及司法鉴定等，因此对基因表达谱的研究具有重要的理论价值和应用意义。

微阵列基因表达数据具有维数高、样本小、非线性的特点，这对一些传统的机器学习方法提出了新的挑战，对其数据的分析已成为生物信息学研究的焦点。

1基因表达数据采集基因表达数据采集可分为三个步骤：微阵列设计、图像分析和数据获取、过滤、标准化。

基因芯片（gene chip ），简称为微阵列,就是指固着在载体上的高密度DNA 微点阵，具体地说就是将靶基因或寡核苷酸片段有序地、高密度排列在玻璃、硅等载体上。

mRNA （信使核糖核酸）的表达水平的获得是通过选取来自不同状态的样本（如正常组织与肿瘤组织、不同发育阶段组织，或用药之前与用药之后组织等，一种称为实验样本，另外一种称为参考样本），在逆转录过程中,实验样本和参考样本RNA （核糖核酸）分别用不同的红、绿荧光染料去标记，并将它们混合，与微阵列上的探针序列进行杂交，经适当的洗脱步骤与激光扫描仪对芯片进行扫描，获得对应于每种荧光的荧光强度图像，通过专用的图像分析软件，可获得微阵列上每个点的红、绿荧光强度（Cy5和Cy3），其比值（Cy5/Cy3）表示该基因在实验样本中的表达水平。

在通常情况下，考虑Cy5和Cy3的数值时，还应考虑相应的背景数值，如果微阵列上某个基因的Cy5或Cy3数值比相应的背景数值低，则该基因的表达水平无法确定。

为了方便数据处理，常孟令梅等：一种基于DCT 变换的图像认证算法文章编号：1005－1228（2010）06－0017－03基因表达谱数据分析技术刘玲（江苏财经职业技术学院，江苏淮安223001）摘要：人类基因组计划的研究已进入后基因组时代，后基因组时代研究的焦点已经从测序转向功能研究，主要采用无监督和有监督技术来分析基因表达谱和识别基因功能，通过基因转录调控网络分析细胞内基因之间的相互作用关系的整体表示，说明生命功能在基因表达层面的展现，对目前基因表达谱数据分析技术及它们的发展，进行了综述性的研究，分析了它们的优缺点,提出了解决问题的思路和方法，为基因表达谱的进一步研究提供了新的途径。

基因芯片数据处理流程与分析介绍

基因芯片数据处理流程与分析介绍关键词：基因芯片数据处理当人类基因体定序计划的重要里程碑完成之后，生命科学正式迈入了一个后基因体时代，基因芯片(microarray)的出现让研究人员得以宏观的视野来探讨分子机转。

不过分析是相当复杂的学问，正因为基因芯片成千上万的信息使得分析数据量庞大，更需要应用到生物统计与生物信息相关软件的协助。

要取得一完整的数据结果，除了前端的实验设计与操作的无暇外，如何以精确的分析取得可信数据，运筹帷幄于方寸之间，更是画龙点睛的关键。

基因芯片的应用基因芯片可以同时针对生物体内数以千计的基因进行表现量分析，对于科学研究者而言，不论是细胞的生命周期、生化调控路径、蛋白质交互作用关系等等研究，或是药物研发中对于药物作用目标基因的筛选，到临床的疾病诊断预测，都为基因芯片可以发挥功用的范畴。

基因表现图谱抓取了时间点当下所有的动态基因表现情形，将所有的探针所代表的基因与荧光强度转换成基本数据(raw data)后，仿如尚未解密前的达文西密码，隐藏的奥秘由丝丝的线索串联绵延，有待专家抽丝剥茧，如剥洋葱般从外而内层层解析出数千数万数据下的隐晦含义。

要获得有意义的分析结果，恐怕不能如泼墨画般洒脱随兴所致。

从raw data取得后，需要一连贯的分析流程(图一)，经过许多统计方法，才能条清理明的将raw data整理出一初步的分析数据，当处理到取得实验组除以对照组的对数值后(Iog2 ratio)，大约完成初步的统计工作，可进展到下一步的进阶分析阶段。

Rosetta profile error model calculation2Sqweeze replicated probes^Normalize intensities (exclude flagged ^nd wontroldata) with median scaling"Basic statistic plot and Pearson correlationcoefficient^Combine tech nicar repeatPairwise ratid calculation图一、整体分析流程。

基因芯片及其数据分析

Page 3
2.基因芯片发展历史
Southern & Northern Blot
Dot Blot
Macroarray
Microarray
3.基因芯片癿杂交原理
如图，在一块基片表面固定了序列已知癿八核苷酸癿探针。当溶液中带有荧光标记癿核酸序列TATGCAATCTAG，不基因芯片上对应位置癿核酸探针产生互补匹配时，通过确定荧光强度最强癿探针位置，获得一组序列完全互补癿探针序列。据此可重组出靶核酸癿序列。
Page 6
5.制备基因芯片癿固定方法
目前已有多种方法可以将寡核苷酸或短肽固定到固相支持物上。这些方法总体上有两种，即原位合成（ in situ synthesis ）不合成点样两种。支持物有多种如玻璃片、硅片、聚丙烯膜、硝酸纤维素膜、尼龙膜等，但需经特殊处理。作原位合成癿支持物在聚合反应前要先使其表面衍生出羟基或氨基（视所要固定癿分子为核酸或寡肽而定）幵不保护基建立共价连接；作点样用癿支持物为使其表面带上正电荷以吸附带负电荷癿探针分子，通常需包被以氨基硅烷或多聚赖氨酸等。
Page 7
6.基因芯片癿合成原理
基因芯片在片合成原理图美国Affymetrix公司制备癿基因芯片产品在1.28*1.28cm2表面上可包含 300,000个20至25mer寡核苷酸探针，每个探针单元癿大小为10um X 10um。其实验室芯片癿阵列数已超过到1,000,000个探针。
Page 8
Page 10
光纤微珠芯片癿组装
Page 11
光纤微珠芯片癿优点
光纤微珠芯片是利用独特癿微珠阵列(BeadArray)技术生产癿芯片，具有高密度、高重复性、高灵敏度、低上样量、定制灵活等特点，兊服了传统芯片癿多个技术瓶颈，丌仅检测筛选速度很高，也显著降低了研究成本。光纤微珠芯片有可能成为以后基因芯片癿发展方向。

基因芯片数据分析中的基因集合分析技术

关键词：基因芯片；基因集合分析技术；数据分析
中图分类号：Ｑ８７
文献标识码：Ａ
文章编号：１０－３２０）０－１９００８１１（０８８０６ｈｎｑｅｏｅｅＣｈｉＤａａＡｎｌｓｓｎｔＡａｙｉｃｉｕｆＧｎｐｔａｙｉ
ＡｂｔａｔＧｅｅｃｉｓａｈｇｔｒｕｈｕｉｔｃｎｌｇ．Ｂｕｔｓｉｒｍａｎａｂｇｐｏｌｍｔａｏｔｅｚｕｈｓｒｃ：ｎｈｐｉｉｈ－ｏｇｐｔｂｏｅｈｏｏｈｙｔｉｔｌｅｉｓｉｒｂｅｌｈｔｈｗｏｓｉｅｏｔｔｅｐｔｎｉｌｂｏｉｆｒｔｎｆｏｈｇａａｐｏｕｅｒｍｅｅｃｉｘｅｍｅｔ．Ｇｎｅａｙｉｅｈｉｕｏｌｅｅｏｅｔａｉ－ｏｍａｉｒｍｕｅｄｔｒｄｃｄｆｏｇｎｈｐｅｐｒｎｏｉｎｓｅｅｓｔａｌｓｓｔｃｎｑｅｃｕｄｒｖａｎｌｔｅｅｉｏｔｔｂｏｏｉａｎｗｌｄｅｈｓｍｐｒａｉｌｇｃｋｏｅｇ．ｎｌＫｅｒｓＧｅｅｃｉＧｅｅｓｔａａｙｉｅｈｉｕ；Ｄａａａａｙｉｙｗｏｄ：ｎｈｐ；ｎｅｌｓｓｔｃｎｑｅｎｔｎｓｓｌ
生物学实验从传统的少量基因研究转变到全基因组水平。数据的飞速增长，使得生物工作者满怀激动却又举
步维艰。为找出隐藏在这些海量数据中的规律，揭示生

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

生物信息学在基因芯片数据功能分析中的应用
2009-4-29
随着人类基因组计划(Human Genome Project)即全部核苷酸测序的即将完成，人类基因组研究的重心逐渐进入后基因组时代(Postgenome Era)，向基因的功能及基因的多样性倾斜。

通过对个体在不同生长发育阶段或不同生理状态下大量基因表达的平行分析，研究相应基因在生物体内的功能，阐明不同层次多基因协同作用的机理，进而在人类重大疾病如癌症、心血管疾病的发病机理、诊断治疗、药物开发等方面的研究发挥巨大的作用。

它将大大推动人类结构基因组及功能基因组的各项基因组研究计划。

生物信息学在基因组学中发挥着重大的作用, 而另一项崭新的技术——基因芯片已经成为大规模探索和提取生物分子信息的强有力手段，将在后基因组研究中发挥突出的作用。

基因芯片与生物信息学是相辅相成的，基因芯片技术本身是为了解决如何快速获得庞大遗传信息而发展起来的，可以为生物信息学研究提供必需的数据库，同时基因芯片的数据分析也极大地依赖于生物信息学，因此两者的结合给分子生物学研究提供了一条快捷通道。

本文介绍了几种常用的基因功能分析方法和工具：
一、GO基因本体论分类法
最先出现的芯片数据基因功能分析法是GO分类法。

Gene Ontology（GO，即基因本体论）数据库是一个较大的公开的生物分类学网络资源的一部分，它包含38675 个Entrez Gene注释基因中的17348个，并把它们的功能分为三类：分子功能，生物学过程和细胞组分。

在每一个分类中，都提供一个描述功能信息的分级结构。

这样，GO中每一个分类术语都以一种被称为定向非循环图表（DAGs）的结构组织起来。

研究者可以通过GO分类号和各种GO数据库相关分析工具将分类与具体基因联系起来，从而对这个基因的功能进行描述。

在芯片的数据分析中，研究者可以找出哪些变化基因属于一个共同的GO功能分支，并用统计学方法检定结果是否具有统计学意义，从而得出变化基因主要参与了哪些生物功能。

EASE（Expressing Analysis Systematic Explorer）是比较早的用于芯片功能分析的网络平台。

由美国国立卫生研究院（NIH）的研究人员开发。

研究者可以用多种不同的格式将芯片中得到的基因导入EASE 进行分析，EASE会找出这一系列的基因都存在于哪些GO分类中。

其最主要特点是提供了一些统计学选项以判断得到的GO分类是否符合统计学标准。

EASE 能进行的统计学检验主要包括Fisher 精确概率检验，或是对Fisher精确概率检验进行了修饰的EASE 得分（EASE score）。

由于进行统计学检验的GO分类的数量很多，所以EASE采取了一系列方法对“多重检验”的结果进行校正。

这些方法包括弗朗尼校正法（Bonferroni），本杰明假阳性率法（Benjamini falsediscovery rate）和靴带法（bootstraping）。

同年出现的基于GO分类的芯片基因功能分析平台还有底特律韦恩大学开发的Onto-Express。

2002年，挪威大学和乌普萨拉大学联合推出的Rosetta 系统将GO分类与基因表达数据相联系，引入了“最小决定法则”（minimal decision rules）的概念。

它的基本思想是在对多张芯片结果进行聚类分析之后，与表达模式
不相近的基因相比，相近的基因更有可能参与相同的生物学功能的实现。

比较著名的基于GO分类法的芯片数据分析网络平台还有七十多个，表1列举了其中的一部分。

表1 用GO 分类法进行芯片功能分析的网络平台
二、Pathway通路分析法
通路分析是现在经常被使用的芯片数据基因功能分析法。

与GO分类法（应用单个基因的GO分类信息）不同，通路分析法利用的资源是许多已经研究清楚的基因之间的相互作用，即生物学通路。

研究者可以把表达发生变化的基因列表导入通路分析软件中，进而得到变化的基因都存在于哪些已知通路中，并通过统计学方法计算哪些通路与基因表达的变化最为相关。

现在已经有丰富的数据库资源帮助研究人员了解及检索生物学通路，对芯片的结果进行分析。

主要的生物学通路数据库有以下两个：
①KEGG 数据库：迄今为止，KEGG数据库（Kyoto encyclopedia of genes and genomes）是
向公众开放的最为著名的生物学通路方面的资源网站。

在这个网站中，每一种生物学通路都有专门的图示说明。

②BioCarta 数据库：BioCarta 是一家生物技术公司，它在其公共网站上提供了用于绘制生
物学通路的模板。

研究者可以把符合标准的生物学通路提供给BioCarta数据库。

BioCarta 数据库不会检验这些生物学通路的质量，因此其中的资源质量参差不齐，并且有许多相互重复。

然而BioCarta数据库数据量巨大，且不同于KEGG数据库，包含了大量代谢通路之外的生物学通路，所以也得到广泛的应用。

最先出现的通路分析软件之一是GenMAPP（gene microarray pathway profiler）。

它可以免费使用，其最新版本为Gen-MAPP2。

在这个软件中，使用者可以用几种灵活的文件格式输入自己的表达谱数据，GenMAPP的基因数据库包含许多从常用的资源中得到的物种特异性的基因注释和识别符（ID）。

这些ID可以将使用者输入的基因与不同的生物学通路的基因联系起来。

这些生物学通路存在于GenMAPP 的MAPP文件中。

MAPP文件需要时常下载更新。

它包含有许多KEGG生物学通路，一些GenMAPP自己的生物学通路和许多GO分类的MAPP 文件，全部操作简单明了。

而且依靠其自带的MAPPBuilder和MAPPFinder 两个软件，使用者可以自己绘制生物学通路和对MAPP 文件进行检索。

由于使用者可以自己绘制生物学通路保存为MAPP 格式，这个文件很小易于在网络上传播，所以GenMAPP数据库更有利于研究者之间的及时交流。

由于上述特点，GenMAPP数据库及软件仍是现今免费平台里应用比较广泛的。

2004年推出的Pathway Miner也是应用较为广泛的免费通路分析网络平台，由美国亚利桑那大学癌症中心建立维护，其最突出的特点就是信息全面，操作简便。

使用者可以在这个网站中获得单个基因的序列、功能注释，以及有关它们编码的蛋白结构功能，组织分布，OMIM等信息。

对于通路分析部分，使用者给出基因列表及他们的表达变化值，网站可以根据三大公用的通路数据库：KEGG、GenMAPP 和BioCarta，生成变化基因参与的通路，并用fisher 精确概率检验。

PathwayMiner自动把得到的通路分成两大类：代谢通路和细胞调节通路。

方便使用者根据不同的研究目的选择需要查看的结果。

在2006年国内也开发了用于通路分析的网络平台，即KOBAS（KO-Based Annotation System），其基于KEGG数据库建立，由北京大学生命科学院开发和维护。

其特点是可直接采用基因或蛋白质的序列录入基因，并对录入的基因列表进行KO 注释。

对于结果的可靠性检验提供了四种统计方法。

使用者可以在网站进行注册，网站会为使用者保存输入的数据，方便日后直接调用。

最近推出的软件Eu.Gene 整合了来自KEGG，Gen-MAPP 以及Reactome 的通路数据，并采用fisher 精确概率检验及基因集富集分析（Gene Set Enrichment Analysis, GSEA）来检验结果是否具有统计学意义。

表2 列举了部分通路分析的网络平台及它们的网址。

表二通路分析网络平台
三、基因调控网络分析
通路分析法是芯片功能分析的有力工具之一，其与GO分类法的主要区别也正是它的弱点。

在生物反应的过程中，发生表达变化的基因通常不只局限在一个通路中，而是存在于由许多调控因子和通路参与的复杂调控网络中。

生物调控网络十分复杂，并没有现成的文献和数据库供参考。

而且，把芯片中发生表达变化的基因放在生物调控网络的水平来看，它们通常在多个通路中都有分布，而每个通路只包含几个发生表达变化的基因。

这就解释了为什么有些通路只有部分基因表达发生变化，而且表达变化的趋势在整个通路水平上不一定是一致的。

进行生物调控网络的研究需要更多的数据库及分析工具的支持。

比如需要关于基因组调控序列（启动子和增强子）的信息，现在已经有许多关于转录因子结合位点（transcription factor binding site, TFBS）的数据库可以满足这个要求，如TRANSFAC及JASPAR。

而且芯片检测的基因变化应该深入到转录本水平，因为不同的转录本的转录可能是由不同的启动子启
动的。

外显子连接芯片（exon junction microarray）将基因组中外显子与外显子之间的连接序列做成36nt 的探针点到芯片上，与样本mRNA 进行杂交后可检测出样本中多外显子基因pre-mRNA 的剪接状况。

转录调节控制基因表达，调控不同组织中的细胞在各种生理条件及外界刺激下的反应。

不同于原核细胞，真核细胞的转录调节涉及大量转录因子的相互作用，而且基因组调控序列不只位于启动子，还包括内含子及许多基因下游序列。

所以真正了解真核细胞的基因调控网络是一项非常艰巨的工作。

用基因调控网络来分析基因芯片数据还需要更多信息及技术的支持。