基因表达谱芯片数据分析及其Bioconductor实现

合集下载

基因表达谱芯片

总的来说，基因表达谱芯片是一种非常重要的基因分析技术，它可以帮助科学家们更深入域的研究提供有力支持。
基因表达谱芯片（Gene Expression Microarray），简称基因芯片，是一种高通量的基因分析技术，它可以同时检测数千个基因的表达水平。基因芯片的核心是由成千上万的探针组成的芯片，每个探针可以检测一个特定的基因的表达水平。通过对样本进行处理和标记，然后与芯片上的探针进行杂交和检测，可以获得每个基因的表达水平数据。
基因芯片的应用非常广泛，特别是在生命科学领域中。它可以用于研究不同生物条件下基因表达的变化，探索基因调控机制，发现新的基因标记，甚至可以用于疾病的早期诊断和治疗。除此之外，基因芯片还可以应用于农业、环境、食品安全等领域。
基因芯片技术的优点是可以同时检测大量基因的表达水平，从而提高研究效率和减少研究成本。此外，基因芯片还可以在不需要繁琐实验和检测的情况下，快速、准确地得到大量基因表达数据。这些数据可以用于建立基因表达谱和生物信息学分析，从而发现新的基因调控机制，识别疾病相关基因和生物标志物，提高研究和诊断水平。

生物芯片数据分析简介

生物芯片技术及分析
一、基因芯片与基因表达二、基因表达谱统计与分类分析三、Ontology与基因功能注释四、基于芯片数据的pathway分析
一、基因芯片与基因表达
什么是生物芯片？
一块指甲大小（1cm3 ）的有多聚赖氨酸包被的硅片或其它固体支持物（如玻璃片、硅片、聚丙烯膜、硝酸纤维素膜、尼龙膜等）。生物芯片通过微加工和微流体系统将生化分析中的样品制备、生化反应、及结果检测有机地结合集成在一起。具有高速度、分析自动化、及高度并行处理能力。
Subcellular components where a gene-product is found. Encompasses subcellular structures, locations, and macromolecular complexes
GO example
(Browser at /cgi-bin/go.cgi)
cDNA microarray
microRNA Chip
Biological question
Experimental design Microarray experiment
Image analysis
Normalization
Estimation
Testing
Clustering
Discrimination
13,601 Genes
Signal Transduction Ligand Binding or Carrier Motor Protein
GO Analysis—目标基因群显著性、靶向性基因功能分析。 Go Analysis对目标基因（差异基因等）进行GO分类，而后对GO进行基于离散分布的显著性分析、误判率分析、富集度分析，得出与实验目的有显著联系的、低误判率的、靶向性的基因功能分类，该分类即导致样本性状差异的最重要的功能差别，其所属基因是进一步验证的重要目标基因。数据要求：标有上调和下调比值的差异基因列表。

基因表达谱数据分析技术

第18卷第6期微阵列技术[1-3]的到来对生物学和医学来说是一场革命，通过它可以同时观测成千上万个基因的表达水平，从而能够在基因组水平上以系统的、全局的观念去研究生命现象及其本质。

还可以根据基因在不同条件下表达的差异性来进行复杂疾病诊断、药物筛选、个性化治疗、基因功能发现、农作物优育和优选、环境检测和防治、食品卫生监督及司法鉴定等，因此对基因表达谱的研究具有重要的理论价值和应用意义。

微阵列基因表达数据具有维数高、样本小、非线性的特点，这对一些传统的机器学习方法提出了新的挑战，对其数据的分析已成为生物信息学研究的焦点。

1基因表达数据采集基因表达数据采集可分为三个步骤：微阵列设计、图像分析和数据获取、过滤、标准化。

基因芯片（gene chip ），简称为微阵列,就是指固着在载体上的高密度DNA 微点阵，具体地说就是将靶基因或寡核苷酸片段有序地、高密度排列在玻璃、硅等载体上。

mRNA （信使核糖核酸）的表达水平的获得是通过选取来自不同状态的样本（如正常组织与肿瘤组织、不同发育阶段组织，或用药之前与用药之后组织等，一种称为实验样本，另外一种称为参考样本），在逆转录过程中,实验样本和参考样本RNA （核糖核酸）分别用不同的红、绿荧光染料去标记，并将它们混合，与微阵列上的探针序列进行杂交，经适当的洗脱步骤与激光扫描仪对芯片进行扫描，获得对应于每种荧光的荧光强度图像，通过专用的图像分析软件，可获得微阵列上每个点的红、绿荧光强度（Cy5和Cy3），其比值（Cy5/Cy3）表示该基因在实验样本中的表达水平。

在通常情况下，考虑Cy5和Cy3的数值时，还应考虑相应的背景数值，如果微阵列上某个基因的Cy5或Cy3数值比相应的背景数值低，则该基因的表达水平无法确定。

为了方便数据处理，常孟令梅等：一种基于DCT 变换的图像认证算法文章编号：1005－1228（2010）06－0017－03基因表达谱数据分析技术刘玲（江苏财经职业技术学院，江苏淮安223001）摘要：人类基因组计划的研究已进入后基因组时代，后基因组时代研究的焦点已经从测序转向功能研究，主要采用无监督和有监督技术来分析基因表达谱和识别基因功能，通过基因转录调控网络分析细胞内基因之间的相互作用关系的整体表示，说明生命功能在基因表达层面的展现，对目前基因表达谱数据分析技术及它们的发展，进行了综述性的研究，分析了它们的优缺点,提出了解决问题的思路和方法，为基因表达谱的进一步研究提供了新的途径。

基因表达谱芯片数据分析及其Bioconductor实现

基因表达谱芯片数据分析及其Bioconductor实现基因表达谱芯片数据分析及其Bioconductor实现1.表达谱芯片及其应用表达谱DNA芯片（DNA microarrays for gene expression profiles）是指将大量DNA片段或寡核苷酸固定在玻璃、硅、塑料等硬质载体上制备成基因芯片，待测样品中的mRNA被提取后，通过逆转录获得cDNA，并在此过程中标记荧光，然后与包含上千个基因的DNA芯片进行杂交反应30min~20h后，将芯片上未发生结合反应的片段洗去，再对玻片进行激光共聚焦扫描，测定芯片上个点的荧光强度，从而推算出待测样品中各种基因的表达水平。

用于研究基因表达的芯片可以有两种：①cDNA芯片；②寡核苷酸芯片。

cDNA芯片技术及载有较长片段的寡核苷酸芯片采用双色荧光系统：目前常用Cy3一dUTP（绿色）标记对照组mRNA，Cy5一dUTP （红色）标记样品组mRNA[1]。

用不同波长的荧光扫描芯片，将扫描所得每一点荧光信号值自动输入计算机并进行信息处理，给出每个点在不同波长下的荧光强度值及其比值（ratio值），同时计算机还给出直观的显色图。

在样品中呈高表达的基因其杂交点呈红色，相反，在对照组中高表达的基因其杂交点呈绿色，在两组中表达水平相当的显黄色，这些信号就代表了样品中基因的转录表达情况[2]。

基因芯片因具有高效率，高通量、高精度以及能平行对照研究等特点，被迅速应用于动、植物和人类基因的研究领域，如病原微生物毒力相关基因的。

基因表达谱可直接检测mRNA的种类及丰度，可以同时分析上万个基因的表达变化，来揭示基因之间表达变化的相互关系。

表达谱芯片可用于研究：①同一个体在同一时间里，不同基因的表达差异。

芯片上固定的已知序列的cDNA或寡聚核苷酸最多可以达到30 000多个序列，与人类全基因组基因数相当，所以基因芯片一次反应几乎就能够分析整个人的基因[3]。

②同一个体在不同时间里，相同基因的表达差异。

代谢途径上游基因的筛选及其疾病关联性研究

代谢途径上游基因的筛选及其疾病关联性研究代谢途径是维持生命活动的关键过程之一。

不同的细胞、组织和器官需要不同的代谢途径来满足其能量需求和物质合成需求。

随着新一代测序技术的快速发展，越来越多的代谢途径和相关基因被鉴定出来。

然而，仍有大量的代谢途径和相关基因需要被发现和研究。

本文将讨论如何筛选代谢途径上游基因并研究其疾病关联性。

一、代谢途径上游基因的筛选代谢途径上游基因是指控制代谢途径开启和关闭的基因。

通过筛选代谢途径上游基因，可以揭示代谢途径的启动机制和调节机制，为进一步研究代谢途径提供理论基础。

下面介绍两种筛选代谢途径上游基因的方法。

1.基于生物信息学分析生物信息学分析是一种基于计算机技术的大规模数据分析方法。

在筛选代谢途径上游基因时，可以通过以下方法进行生物信息学分析。

（1）基于文献资料筛选首先，可以通过文献检索工具搜索与目标代谢途径相关的文献资料。

然后，通过文献资料中提及的基因名和代谢途径关系，筛选出与目标代谢途径相关的基因。

这种方法可以获得较为完整的研究对象，但需要耗费较长时间进行筛选。

（2）基于基因表达谱数据筛选生物信息学分析中常用的基因表达谱数据可以揭示基因在不同组织和生理状态下的表达情况。

在筛选代谢途径上游基因时，可以通过以下方法进行基于基因表达谱数据的筛选。

Step 1: 收集目标代谢途径相关基因的表达数据，通常通过生物数据库（如GEO和TCGA）获取。

Step 2: 利用R/Bioconductor等开源工具，对基因表达数据进行过滤和可视化，以确保质量和准确性。

Step 3: 利用拓扑分析、差异分析等方法，确定代谢途径上游基因和下游基因的位置和作用关系。

基于基因表达谱数据的方法可以高通量的完成筛选过程，同时数据来源广泛，但其局限性在于数据来源的可靠性和准确性存在一定问题。

2.基于基因组编辑技术基因组编辑技术是利用CRISPR/Cas9等工具修改基因组序列的方法。

目前，CRISPR/Cas9已成为最流行的基因组编辑工具。

基因表达谱数据分析方法

基因表达谱数据分析方法基因表达谱是对生物体内基因表达情况的记录，通过对基因表达谱的分析，可以了解到基因在不同条件下的表达状态，从而揭示生命现象的本质和规律。

这对于研究基本生物现象、发现新的治疗手段等具有重要的意义。

随着高通量技术的发展，获取基因表达谱数据已经成为了常规操作。

但是，如何对这些数据进行分析和处理，是一个相当复杂的问题。

本文将介绍基因表达谱数据分析的基本方法和技巧。

我们将从预处理数据、差异分析、聚类分析、通路分析和生物信息学工具等几个方面进行论述。

一、预处理数据首先，我们需要将原始数据进行预处理，去除质量较差的数据，检查样本之间的差异和异常值等。

预处理过程旨在保证数据的准确性和可靠性，为后续的分析奠定基础。

二、差异分析差异分析是对基因表达谱数据进行质量评估和过滤的关键步骤。

常用的差异分析方法包括T检验、方差分析、Wilcoxon秩和检验等。

差异分析的目标是找出在不同实验条件下，哪些基因的表达发生了变化。

这是为了找到有生物学意义的差异基因集合并进一步进行研究。

三、聚类分析聚类分析是将基因表达谱数据中的基因和样本分别分成若干类，使得同一类中的基因或样本具有相似的表达模式，不同类之间具有较大的差异。

这样的分类结果有助于我们找出基因表达谱数据中的模式。

聚类分析常用的方法包括层次聚类和k-平均聚类等。

四、通路分析通路分析是将差异基因集合与特定生物过程或通路进行关联，以揭示差异基因集合在生物学上的意义。

通常，通路分析需要利用基因注释或生物信息学数据库中的信息，将差异基因集合与通路相对应，从而找到可能受到影响的通路。

五、生物信息学工具最后，利用生物信息学工具进行综合分析和可视化。

有很多生物信息学工具可以用来对基因表达谱数据进行分析和可视化，比如R、Python、Cytoscape等。

这些工具可以帮助我们更好地理解和解释基因表达谱数据中的生物学意义。

总结：基因表达谱数据分析是序列分析的一个重要分支，广泛应用于生物信息学、系统生物学和合成生物学等领域。

第七讲差异表达基因分析

一般性的方法
选择一个统计量给基因排秩来证明表达有差异为排秩统计量选择一个判别值，在它之上的值将被认为是显著的前面一个部分更为重要，所以研究的较多，方法也更多，后面那部分的方法稍微简单
重复芯片（replicates）M值
根据比率平均值或对基因排序。 M值为信号强度比值的log2值，是任一特定基因在重复序列中M值的均值。这一排序法忽略了一个基因在重复实验中的不同芯片上表达水平的差异程度。例如，可能某一个基因在某一张芯片上M值很大，但在其他芯片上M值很小，其实这条基因并没有差异表达，但由于个别M值的影响，从而显示出一个差异表达的特性，造成假阳性。
Cluster&Treeview软件
Genesis软件
预分析（Pre-Analysis）
重复值合并（ replicate handling ）数据转换和标准化（data transformation and standardization）缺失数据处理（ missing value management ）基因筛选（pattern selection）
K最近邻法（K-nearest neighborhood method）：假定某个基因在某个指标上含有缺失值，计算此包含缺失值的基因与在该指标上无缺失的基因间的相似性指标或距离指标（相似性或距离的计算中不包括欲估计的指标），与该基因相似性最大的K个基因称为该基因的K个最近邻（k nearest neighborhoods），这K个基因在该观测指标上的数据就是估计缺失基因数据的基础，估计值可以是这K个基因在该指标上的均数，也可以是这K个基因的加权均数。在加权均数中，权重为上面计算的基因间的相似性。K值的确定具有一定的经验性，但不宜太大和太小。

使用生物大数据中心数据库进行基因表达谱分析的步骤

使用生物大数据中心数据库进行基因表达谱分析的步骤生物大数据中心数据库是一个强大的工具，可以用于分析基因表达谱。

在进行基因表达谱分析之前，我们需要明确几个步骤。

本文将详细介绍如何使用生物大数据中心数据库进行基因表达谱分析。

第一步是向生物大数据中心数据库注册账号并登录。

注册账号是使用生物大数据中心数据库进行基因表达谱分析的第一步。

可以访问该数据库的官方网站进行注册。

填写个人信息、用户名和密码后，您将获得一个账号。

登录之后，您可以访问数据库的各个功能和工具。

第二步是选择合适的基因表达数据集。

生物大数据中心数据库拥有众多的基因表达数据集，您可以根据自己的研究需求选择合适的数据集。

数据集通常被分类为不同的物种、组织类型和疾病状态。

例如，如果您的研究关注人类心脏组织的基因表达谱，您可以选择包含心脏组织样本的数据集。

第三步是导入和预处理基因表达数据。

一旦选择了适当的数据集，您可以根据需要下载数据集中的原始数据。

原始数据通常以文本文件或Excel文件的形式提供。

在导入数据之前，您可能需要进行一些预处理步骤，例如去除噪声、归一化或筛选不感兴趣的基因。

这些预处理步骤可以使用生物大数据中心数据库中的工具完成。

第四步是进行基因表达谱分析。

生物大数据中心数据库提供了各种分析工具，可以帮助您更好地理解基因表达谱。

其中包括差异表达基因分析、基因共表达网络分析、功能富集分析等。

差异表达基因分析可以帮助您识别在不同样本之间表达水平显著不同的基因。

基因共表达网络分析可以帮助您发现在相似组织或条件下共同表达的基因模块。

功能富集分析可以帮助您理解哪些生物学过程和信号通路参与了基因的调控。

这些工具可以根据您的研究需求进行灵活的组合和调整。

第五步是解释和呈现分析结果。

一旦完成了基因表达谱分析，您将得到大量的结果，包括差异表达基因列表、共表达基因模块和功能富集结果。

解释和呈现这些结果对于得到有意义的结论至关重要。

生物大数据中心数据库通常提供了数据可视化和分析结果导出的功能。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基因表达谱芯片数据分析及其Bioconductor实现1.表达谱芯片及其应用表达谱DNA芯片（DNA microarrays for gene expression profiles）是指将大量DNA片段或寡核昔酸固定在玻璃、硅、塑料等硬质载体上制备成基因芯片，待测样品中的mRNA被提取后，通过逆转录获得cDNA,并在此过程中标记荧光，然后与包含上千个基因的DNA芯片进行杂交反应30min~20h后，将芯片上未发生结合反应的片段洗去，再对玻片进行激光共聚焦扫描，测定芯片上个点的荧光强度，从而推算出待测样品中各种基因的表达水平。

用于硏究基因表达的芯片可以有两种：①cDNA芯片；② 寡核昔酸芯片。

cDNA芯片技术及载有较长片段的寡核昔酸芯片采用双色荧光系统：U前常用Cy3—dUTP （绿色）标记对照组mRNA, Cy5—dUTP （红色）标记样品组mRNAUl。

用不同波长的荧光扫描芯片，将扫描所得每一点荧光信号值自动输入计•算机并进行信息处理，给出每个点在不同波长下的荧光强度值及其比值（ratio值），同时计算机还给出直观的显色图。

在样品中呈高表达的基因其杂交点呈红色，相反，在对照组中高表达的基因其杂交点呈绿色，在两组中表达水平相当的显黄色，这些信号就代表了样品中基因的转录表达情况⑵。

基因芯片因具有高效率，高通量、高精度以及能平行对照研究等特点，被迅速应用于动、植物和人类基因的研究领域，如病原微生物毒力相关基因的。

基因表达谱可直接检测mRNA的种类及丰度，可以同时分析上万个基因的表达变化，来揭示基因之间表达变化的相互关系。

表达谱芯片可用于研究：①同一个体在同一时间里，不同基因的表达差异。

芯片上固定的已知序列的cDNA或寡聚核昔酸最多可以达到30 000多个序列，与人类全基因组基因数相当，所以基因芯片一次反应儿乎就能够分析整个人的基因⑶。

②同一个体在不同时间里，相同基因的表达差异。

③不同个体的相同基因表达上的差异。

利用基因芯片可以分析多个样本，同时筛选不同样本（如肿瘤组织、癌前病变和正常组织）之间差异表达的基因，这样可以避免了芯片间的变异造成的误差⑷。

张辛燕⑸ 等将512个人癌基因和抑癌基因的cDNA用点样仪点在特制玻片上制成表达谱芯片，对正常人卵巢组织及卵巢癌组织基因表达的差异性进行比较研究，结果发现在卵巢癌组织中下调的基因有23个，上调的基因有15个，初步筛选出了卵巢癌相关基因。

Lowe⑹等利用胰腺癌、问充质细胞癌等组织的cDNA制备基因芯片，筛选到胰腺癌细胞中高表达的基因，为医疗诊断、病理研究及新药设计奠定基础。

2.表达谱芯片的数据处理技术2.1探针水平数据（probe-level data）的获得提取生物样品的mRNA并反转录成cDNA,同时用荧光素或同位素标记。

在液相中与基因芯片上的探针杂交，经洗膜后用图像扫描仪捕获芯片上的荧光或同位素信号⑺，山此获得的图像就是基因芯片的原始数据（raw data），也叫探针水平数据。

获取探针水平的数据是芯片数据处理的第一步，然后需要对其进行预处理（pre-processing）,以获得基因表达数据（gene expression data）。

基因表达数据是芯片数据处理的基础。

2.2预处理2.2.1背景（background）处理背景处理即过滤芯片杂交信号中属于非特异性的背景噪音部分。

一般以图像处理软件对芯片划格后，每个朵交点周圉区域各像素吸光度的平均值作为背景。

但此法存在芯片不同区域背景扣减不均匀的缺点，同时会使1%〜5%【7】的点产生无意义的负值。

也可利用芯片最低信号强度的点（代表非特异性的样本与探针结合值）或综合整个芯片非杂交点背景所得的平均值做为背景同。

Brown国等提出利用整个芯片杂交点外的平均吸光度值作为背景的best-fit方法，使该问题得到较好的解决，并有效地提高了处理数据的质量。

背景处理之后，我们可以将芯片数据放入一个矩阵中：<w n “2…叫、M=叫加22…叫N♦•♦♦•♦♦•♦皿叫2…叫丿其中，各字母的意义如下：N：条件数；G：基因数目（一般情况下，G»N）；行向量皿=伽〃,〃"2,…，加沏表示基因i在N个条件下的表达水平（这里指绝对表达水平，亦即荧光强度值）；列向量nij=（mij,ni2j,…Jg）表示在第j个条件下各基因的表达水平（即_张芯片的数据）；元素〃巧表示第基因i在第j个条件下（绝对）基因表达数据。

m可以是R （红色，Cy5,代表样品组）。

也可以是G （绿色，Cy3,代表对照组）。

2.2.2数据清洗（data cleaning）经过背景校正后的芯片数据中可能会产生负值，显然负值是没有生物学意义的。

数据集中还可能包括一些单个异常大（或小）的峰（谷）信号，它们被认为是随机噪声。

另外，对于负值和噪声信号，通常的处理方法就是将其去除。

然而，数据的缺失（除了上述原因会造成数据缺失以外，扫描的过程中也可能会产生缺失）对后续的统讣分析（尤其是层式聚类和主成分分析）有致命的影响。

所以对数据的删除，通常是删去所在的列向量或行向量。

一个比较常用的做法是，事先定义个阈值M。

若行（列）向量中的缺失数据量达到阈值M,则删去该向量。

若未达到M,有两种方法处理，一是以0或者用基因表达谱中的平均值或中值代替，另一个是分析基因表达谱的模式，从中得到相邻数据点之间的关系，据此利用相邻数据点估算得到缺失值（类似于插值）。

2.2.3归一化（normalization）经过背景处理和数据清洗处理后的修正值反映了基因表达的水平冏。

然而在芯片试验中，各个芯片的绝对光密度值是不一样的，在比较各个试验结果之前必需将其归一化（normalization，也称作标准化）。

在同一块芯片上杂交的、由不同荧光分子标记的两个样品间的数据，也需归一化。

常用的标准化方法有“看家基因法”、基于总光密度的方法、回归方法、比率统计法"°】等。

（1）"看家基因（house-keeping gene）"法此法最为常用，可以用于儿张芯片的数据归一化。

它预先选择一组表达水平不变的看家基因，计算出这组基因平均ratio值为1时标准化系数，然后将其应用于全部的数据以达到归一化的U的。

但是U前尚未找到理想的看家基因山】，另外此前•有研究表明，所谓“看家基因”在不同实验条件下其表达水平同样发生变化问。

（2）基于总光密度的方法21此方法用于标准化同一块芯片上杂交的两种样品，它假设两批待标记的mRNA的量相同；相对于对照组样品，实验组的表达应既有上调也有下调。

而且，扫描所得的所有Cy5和Cy3荧光分子的光密度值是相同的。

据此计算出一个标准化系数，用以重新计算芯片上每个基因的光密度。

（3）回归的方法R】此方法用于标准化同一块芯片上杂交的两种样品。

如果mRNA来自紧密相关的样品，那么大部分基因的表达水平是相近的。

这样，在以Cy5和Cy3为坐标的散点图上，这些基因应呈一直线。

如果两批样品的标记和检测效率相同，则直线的斜率也是惟一的。

那么，标准化这些数据就等同于用回归的方法计算其最适斜率。

但在实际试验中，光密度值常为非线性，此时应该使用局部回归方法，如LOWESS （locally weighted scatterplot smoothing）回归法。

(4)比率统汁法I⑶此方法用于标准化同一块芯片上杂交的两种样品，并且建立于以下的假设之上：在近似的两个样品中，虽然基因有上调和下调，但一些基本的基因(如管家基因)的表达量是近似相同的。

山此得出一个近似概率密度公式：比率T二R /G (R和G分别是芯片上笫K个点的红光和绿光的强度),经过迭代算法处理得到一个平均表达比率及其可信限，用于数据的标准化计算。

2.3基因表达数据经过预处理，探针水平数据转变为基因表达数据。

为了便于应用一些统讣和数学术语，基因表达数据仍釆用矩阵形式。

随着生物学进入后基因组学时代，类似芯片数据这样的的非序列生物数据儿乎呈指数形式膨胀。

这些生物数据往往维数高，具有异质性和网络性，传统的分析方法已不能胜任，发展优秀的算法分析生物数据成为生物学研究的瓶颈。

数据挖掘等决策支持技术因其在大规模数据处理方面的卓越能力而在其中占据越来越重要的地位冲】。

数据挖掘也被称为数据库知识发现(knowledge discovery in database, KDD),是从数据库中识别出有效的、新颖的、潜在有用的并且最终可理解的、模式的非平凡过程“】。

迄今还没有一套完整、统一的数据挖掘理论体系来指导如何获取有用信息"1。

2.4 差异表达基因(differentially expressed genesQEGs)筛选用于检测基因表达水平的DNA微阵列的应用之一是比较实验，LI的是比较两个条件下的基因差异表达，从中识别出与条件相关的特异性基因或显著差异表达的基因。

2.4.1倍数变化法(foldchang,FC)比较两个各不同生物样本时，可根据ratio值来筛选，一般认为ratio值在0.5 —2.0范用内的基因不存在显著表达差异，该范圉之外则认为表达有显著差异。

当然，上述范围需要根据不同实验条件作调整。

FC法的优点是简单直观，需要的芯片量少，节约研究成本2】；缺点是结论过于简单，其阈值的划分主观性较强、缺乏生物学和统计学支持，尤其对于分析样本中的低拷贝或高拷贝转录子，容易产生假阳性和假阴性问题"21。

一般而言，FC法可用于对于预实验和实验初筛。

2.4.2参数分析(parameter analysis)(1)t-检验(t-test)t检验可用于两个生物条件下多个重复样本的差异表达基因的筛选。

当t 超过根据可信度选择得标准时，比较的两样本被认为存在着差异。

受样本量和成本的限制，研究者提出了调节性t 检验(regi皿edt-test)。

它根据在基因表达水平和变异之间存在着相互关系，相似的基因表达水平有着相似的变异这个经验，应用贝叶斯条件概率统计方法，通过检测同一张芯片上其他临近基因表达水平，理论上可对任何基因的变异程度估计进行弥补。

调节性t检验法对基因表达的标准差估计优于一般t检验和FC法I?。

】。

(2)F检验F检验乂称变异数分析或方差分析(analysis of variance, ANOVA)。

F检验适用于多个生物条件下DEGs的检测，它检验两个或多个样本均数的差异是否有统计学意义。

方差分析需要参照实验设计，参照样本常用多种细胞的mRNA混合而成，由于所有的细胞同时表达基因众多，结果低表达基因在样本混合后就被稀释而减少了参照样本的代表性，因此，增加参照样本的细胞不会提高参照样本的代表性。

方差分析的缺点在于虽然能计•算出那些基因有统计差异，但是他没有对那些组之间有统计差异进行区分。

基因表达谱芯片数据分析及其Bioconductor实现

基因表达谱芯片

生物芯片数据分析简介

基因表达谱数据分析技术

基因表达谱芯片数据分析及其Bioconductor实现

代谢途径上游基因的筛选及其疾病关联性研究

基因表达谱数据分析方法

第七讲 差异表达基因分析

使用生物大数据中心数据库进行基因表达谱分析的步骤

第七讲差异表达基因分析