小样本情况下差异表达基因鉴别的参数统计分析
转录组数据分析中的差异表达基因确定方法

转录组数据分析中的差异表达基因确定方法转录组数据分析是研究生物体内转录过程的全基因表达情况的一个重要手段。
通过分析转录组数据,我们可以确定哪些基因在不同条件下表达水平发生了显著变化。
这些差异表达的基因被认为与不同条件下生物体功能的变化密切相关。
因此,确定差异表达基因是理解生物体适应和响应各种条件变化的关键。
在转录组数据中确定差异表达基因,一般需要经历如下几个步骤:1. 数据预处理:首先,需要对原始的转录组数据进行质量控制和过滤。
通过质量控制,我们可以评估数据的准确性和可靠性。
而通过过滤掉低质量的数据,可以提高后续分析的可靠性和准确性。
常用的预处理方法包括去除低质量的读段、去除低质量的碱基、去除接头序列及低质量的5'和3'端。
2. 对齐与定量:第二步是将预处理后的转录组数据与参考基因组对齐,将reads与参考基因组相匹配。
目前常用的对齐工具包括Tophat、STAR等。
通过对齐,可以获得每个基因在样本中的表达量。
常见的定量软件包括HTSeq和Cufflinks等。
3. 差异表达分析:差异表达分析是转录组数据分析的核心步骤。
根据不同的实验设计和假设,可以选择不同的差异表达分析方法。
常见的差异表达基因分析方法包括DESeq2、edgeR、limma等。
这些方法在统计学模型的基础上,使用不同的假设检验方法来寻找表达差异显著的基因。
通常会计算差异倍数(Fold Change)和调整的p值。
4. 功能注释与富集分析:确定差异表达基因后,将这些基因进行进一步的功能注释和富集分析是继续研究的重要一步。
功能注释通过查询数据库(如Gene Ontology和KEGG)来了解差异基因的功能和通路信息。
富集分析则通过比较差异表达基因与全基因组之间的差异,找出在特定功能和通路上显著富集的基因。
这些注释和富集结果能够帮助我们了解差异表达基因的生物学意义。
除了上述的常见分析步骤,根据具体的研究问题,还可以采用其他附加分析方法,如构建共表达网络、进行重要转录因子的分析等,来进一步挖掘差异表达基因的潜在功能。
基因表达数据分析中的差异分析方法

基因表达数据分析中的差异分析方法随着基因组学和生物信息学的发展,基因表达数据分析在生物学研究中扮演着至关重要的角色。
基因表达数据的分析可以帮助我们寻找不同条件下的基因差异,从而进一步了解基因的功能以及生物系统的调控机制。
而在基因表达数据分析中,差异分析方法是最常用和重要的工具之一。
本文将介绍几种常见的基因差异分析方法,包括差异基因筛选、聚类分析和生物学功能注释等。
一、差异基因筛选差异基因筛选是基因表达数据分析中最常见的任务之一。
它的目的是从两个或多个不同条件下的基因表达数据中找出在两个条件之间有显著表达差异的基因。
在差异基因筛选中,常用的方法有t检验、方差分析和Wilcoxon秩和检验等。
t检验是一种基本的统计方法,适用于两个条件的差异分析。
它可以通过比较两个条件下基因的平均表达水平,来判断它们之间的差异是否具有统计学意义。
方差分析则适用于三个以上条件的差异分析。
它基于方差的分解,通过比较组内和组间的方差差异,判断基因的表达是否受到不同条件的显著影响。
Wilcoxon秩和检验是一种非参数检验方法,适用于数据不满足正态分布的情况。
它利用数据的秩次而非具体数值进行比较,更加鲁棒。
二、聚类分析除了差异基因的筛选,聚类分析也是基因表达数据分析中常用的方法之一。
聚类分析可以将基因表达数据分为若干个类别,从而发现具有相似表达模式的基因。
常见的聚类方法包括层次聚类和k均值聚类。
层次聚类是一种树状图分析方法,可以将样本或基因聚成一颗层次树。
它基于距离或相似性的度量,通过自下而上或自上而下的合并或分割,将数据划分为不同的类别。
而k均值聚类则是一种基于样本的聚类方法。
它将数据分为k个类别,并试图使得每个样本到其所属类别的中心距离最小。
三、生物学功能注释在差异分析之后,对差异基因的生物学功能进行注释是进一步理解基因调控机制的重要步骤。
生物学功能注释可以揭示差异基因所参与的生物过程、细胞部位和分子功能等信息。
在生物学功能注释中,常见的工具和数据库包括Gene Ontology (GO)注释、KEGG和Reactome等通路注释以及蛋白质-蛋白质相互作用网络等。
生物大数据技术中的差异表达基因分析方法

生物大数据技术中的差异表达基因分析方法生物大数据的快速发展为生物学研究提供了前所未有的机遇。
其中,差异表达基因分析方法是生物大数据技术中的重要研究内容。
差异表达基因分析是比较两个或多个样本中基因表达差异的研究。
它的目的是找出在不同条件或状态下表达水平发生显著变化的基因,从而深入研究与生物学过程相关的机制和调控网络。
在生物大数据技术中,有多种差异表达基因分析方法可供选择。
下面将介绍其中的几种主要方法。
首先,最为常用的方法之一是差异表达分析的统计学方法。
这种方法通过对比两个或多个不同条件下的基因表达数据,运用统计学模型进行分析。
常见的统计学方法包括t检验、方差分析 (ANOVA)、贝叶斯统计学等。
它们在差异检验、基因表达水平的显著性评估等方面有着广泛的应用。
此外,不同的统计学方法还可以结合其他技术,如机器学习等,来提高分析的准确性和可信度。
其次,基因差异表达的模式识别算法也是研究生物大数据技术中常用的方法。
模式识别算法可以通过对基因表达数据进行聚类分析、主成分分析 (PCA)、自组织映射 (SOM) 等,来寻找潜在的基因表达模式或特征。
其中,基于聚类分析的模式识别算法可以将样本或基因分成不同的簇,从而发现不同基因表达的模式。
这种方法有助于理解基因与生物学过程之间的关系,为后续的功能注释和生物学机制研究提供重要参考。
此外,基因表达的差异分析还可以采用机器学习方法。
机器学习通过构建模型来进行预测和分类,可以将基因表达数据作为输入,利用已知的类别标签进行训练,进而对未知样本进行分类或预测。
常用的机器学习算法包括支持向量机 (SVM)、随机森林 (Random Forest)、人工神经网络 (Artificial Neural Network) 等。
这些算法可以挖掘出隐藏在基因表达数据中的模式和规律,从而对差异表达基因进行分类和预测。
最后,差异表达基因分析方法还可以结合到功能注释和通路分析中。
功能注释可以通过对差异表达基因进行GO (Gene Ontology)、KEGG (Kyoto Encyclopedia of Genes and Genomes)、Reactome等数据库的富集分析,来探索差异基因与生物学功能之间的关联。
生物信息学中转录组数据分析方法与差异表达基因鉴定

生物信息学中转录组数据分析方法与差异表达基因鉴定近年来,随着高通量测序技术的快速发展,生物信息学成为了生物学研究不可或缺的一部分。
而转录组数据分析作为生物信息学的重要方法之一,在研究生物体内基因表达变化、差异表达基因的鉴定以及功能注释等方面发挥着重要作用。
转录组数据分析的第一步是将测序得到的原始数据进行质控与清洗。
在这个步骤中,需要运用一系列的质量评估工具来评估原始数据的质量,并且对数据中的低质量序列、接头污染等进行去除,以保证后续分析的准确性和可靠性。
之后,对于清洗后的测序数据,可以进行基因定量分析。
基因定量可以通过统计数据中每个基因的发现数目来实现,以探究不同样本中基因的表达量差异。
最常见的基因定量方法是将每个样本的测序数据比对到参考基因组,然后使用一些特定的算法来计算每个基因的读数。
最常用的算法包括RPKM(reads per kilobase million)和TPM(transcripts per million)等。
在基因定量的基础上,可以进行差异表达基因的鉴定。
差异表达分析旨在找出在不同条件下表达水平发生显著变化的基因。
常用的差异表达分析方法包括DESeq2、edgeR和limma等。
这些方法基于统计学原理,通过对基因表达进行归一化、方差稳定化和模型的拟合来找出差异表达基因。
除了差异表达基因的鉴定,还可以进行富集分析,以确定差异表达基因的功能。
富集分析是一种将某一特定基因集与已知功能注释的基因集相比较的方法,可以帮助研究人员了解差异表达基因在生物学过程和通路中的功能变化。
在这个步骤中,通常会使用一些公共数据库,如GO(Gene Ontology),KEGG(Kyoto Encyclopedia of Genes and Genomes)和Reactome等,来获得基因功能注释信息。
除了上述提到的方法,还有一些其他的转录组数据分析方法可供选择。
例如,可以使用聚类分析方法对样本进行聚类,以寻找具有类似表达模式的基因组。
基因表达数据分析中的差异基因识别方法研究

基因表达数据分析中的差异基因识别方法研究随着高通量测序技术的发展,基因表达数据的分析和挖掘成为了生物学研究中的关键环节之一。
在研究基因功能、疾病发生机制以及药物靶点发现等方面,识别差异表达的基因是相当重要的。
本文将探讨基因表达数据分析中的差异基因识别方法的研究。
基因表达数据分析中,差异基因的识别是一个复杂而关键的挑战。
通过比较不同样本之间的基因表达水平,可以发现差异表达的基因,从而揭示细胞过程的变化以及与疾病相关的生物学机制。
然而,由于高通量测序技术的广泛使用,产生了大量的基因表达数据,使得如何准确快速地识别差异基因成为一个急需解决的问题。
传统的差异基因识别方法通常使用统计学方法,如t检验、方差分析和回归模型等。
这些方法易于实施,但对数据的前提假设严格,需要满足数据分布情况的要求。
此外,由于高通量测序数据存在负二项分布、过度离散和零膨胀等特点,传统的统计学方法往往无法准确评估基因表达的差异。
为了克服传统方法的局限性,研究人员提出了许多新的差异基因识别方法。
其中,最常用的方法之一是基于差异表达分析的方法,如EdgeR和DESeq等。
这些方法基于概率模型对数据进行建模,可以更好地适应高通量测序数据的特点。
另外,机器学习方法也被用于差异基因的识别,如随机森林、支持向量机和神经网络等。
这些方法通过构建分类模型来识别差异基因,可以考虑更多的细节和特征,提高识别的准确性。
除了传统的统计学方法和机器学习方法外,差异基因识别方法还可以通过网络分析和功能注释等方法来增强结果的解释性。
在网络分析中,可以通过构建基因共现网络或基因-蛋白质相互作用网络来挖掘差异基因在生物学过程中的功能关联和调控机制。
功能注释则通过利用公共数据库和生物信息学工具来研究差异基因的功能特征,帮助研究人员更好地理解其在生物过程中的作用。
此外,差异基因识别方法还需要与其他数据分析方法相结合,例如基因整合和数据挖掘方法。
基因整合可以将多个来源的基因表达数据整合到一起,增加样本数量,提高结果的可靠性。
基因组学数据分析中差异表达分析的使用方法

基因组学数据分析中差异表达分析的使用方法差异表达分析是基因组学研究中常用的一种分析方法,用于比较不同条件或样本之间基因表达的差异。
这种分析方法可以帮助研究人员理解基因表达调控的机制、寻找与特定疾病相关的基因、发现新的分子标记物等。
本文将介绍差异表达分析的基本流程和相关的工具。
差异表达分析的基本流程通常包括:数据预处理、差异基因筛选和分析结果的验证。
首先,进行数据预处理,主要包括原始数据的读取、质量控制和归一化等。
其次,进行差异基因筛选,通过统计学方法或基因表达差异的幅度和显著性来确定差异基因。
最后,对选定的差异基因进行验证,可以使用实验室实验技术如RT-PCR、Western blot 等,或者进行功能富集分析、通路分析等。
在进行差异表达分析时,研究人员通常会使用一些专门的工具和软件。
下面以DESeq2为例,介绍差异表达分析的具体步骤。
首先,将原始数据导入到R或Python等编程环境中,利用相应的包或库进行数据预处理。
DESeq2是R语言中最常用的差异表达分析工具之一。
它可以处理RNA-seq数据,对基因表达的差异进行统计显著性分析。
使用DESeq2进行数据预处理时,首先需要进行数据的归一化处理,通常使用RPKM(reads per kilobase of exon per million mapped reads)或TPM(Transcripts Per Kilobase Million)方法将数据进行归一化处理。
接下来,进行差异基因筛选。
DESeq2使用负二项分布模型对差异表达进行建模,通过p值和调整的p值来判断差异的显著性。
DESeq2还结合了前沿理论来估计基因表达的离散性,提高了差异表达分析的准确性。
通过设定阈值,筛选出显著差异表达的基因。
此外,DESeq2还可以计算基因的表达倍数差异,帮助研究人员判断差异的生物学意义。
最后,对差异基因进行验证。
一种常用的验证方法是使用实验室技术如RT-PCR,验证差异基因在不同条件或样本中的表达水平。
小样本情况下差异表达基因鉴别的参数统计分析

2 研究步骤
针对具体资料进行的不同方法性能的比较, 结果
的可信性和结论的泛化性能必然受到影响, 而建立在
完全模拟数据基础上的方法探讨又往往脱离其生物学
背景, 本文根据实验数据估计相应的参数, 为模拟数据000 个基因中在 2 种条件下有差异表达的基因, 试验
设计采用间接设计, 即两组基因表达水平的测量值是
以相同的参照样品为对照得到的。原始实验数据可在
ht tp: / / w w w - stat - class stanford edu/ SAM/ SAM
Servlet 下载。
( 1) 原始资料分析及参数的估计
通过对原始实验资料的分析, 拟合残差方差的分 布参数, 本研究选择反伽马分布作为残差方差的理论
∀ 143 ∀
差的实际分布与理论反伽马分布间的符合情况较好, 拟合 优度检验 的 P > 0 05 ( 统 计量 # 2 = 49 32, v = 39) 。另外, 在对另外 4 个数据集的分析中也发现同样 的规律, 因此可以用反伽马分布拟合残差方差分布。
2 各统计量的特征 采用 5 种方法对数据集进行分析, 图 2 中 5 个直 方图显示了针对其中一个数据集 5 个统计量的分布, 除 B 统计量外, 其余四个统计量的分布都近似正态分 布, 只是分布的右侧拖尾比较明显, 这部分拖尾数据是 差异表达基因形成的, 而其余的绝大部分分布为非差 异表达基因, 图 2 的右下子图为 B 统计量, 它的分布 呈凹型下降, 另外通过与无差异表达基因的分布比较, 发现它同样具有较为明显的拖尾现象。因此, 从统计 量的分布来看, 它们基本反映了数据集中是否包含差 异表达基因及其比例的信息, 但仅从直方图上尚不能 比较几种方法的优劣。图 2 左上子图为 该数据集中 6000 个基因的差异表达倍数相对于标准误的散点图, 用于说明数据的基本特征, 在各标准误水平上基因在 差异倍数为 0 上下较为均匀地分布, 而设定的差异表 达基因在此散点图上也得以较为明显的体现, 即图中 最上部与整体脱离的点。
qpcr表达量差异比较检验方法

qpcr表达量差异比较检验方法(最新版2篇)目录(篇1)1.引言2.qPCR 表达量差异比较检验方法的原理3.qPCR 表达量差异比较检验方法的步骤4.qPCR 表达量差异比较检验方法的应用5.结论正文(篇1)【引言】在生物科学研究中,研究基因表达差异是重要的研究方向。
qPCR 表达量差异比较检验方法是一种常用的研究方法,通过比较基因表达量差异,揭示基因在生物过程中的作用。
本文将介绍 qPCR 表达量差异比较检验方法的原理、步骤和应用。
【qPCR 表达量差异比较检验方法的原理】qPCR 表达量差异比较检验方法是通过实时定量聚合酶链反应(qPCR)技术,比较不同样本或处理组之间特定基因的表达量差异。
其原理是利用qPCR 技术对基因进行定量分析,通过计算不同样本或处理组之间基因表达量的差异,从而得出基因在生物过程中的作用。
【qPCR 表达量差异比较检验方法的步骤】qPCR 表达量差异比较检验方法主要包括以下几个步骤:1.设计特异性引物:根据目标基因序列设计一对特异性引物,以便在qPCR 反应中特异性地扩增目标基因。
2.提取总 RNA:从实验样本中提取总 RNA,并进行逆转录,得到 cDNA。
3.进行 qPCR 反应:将 cDNA 作为模板,进行 qPCR 反应,得到目标基因的表达量。
4.数据分析:对实验数据进行统计分析,计算不同样本或处理组之间基因表达量的差异。
【qPCR 表达量差异比较检验方法的应用】qPCR 表达量差异比较检验方法在生物科学研究中有广泛应用,例如:1.研究基因在特定生物过程中的作用;2.探究不同处理条件下基因表达差异,为基因功能研究提供依据;3.分析基因表达差异在疾病发生发展中的作用。
目录(篇2)1.实时定量聚合酶链反应(qPCR)简介2.qPCR 表达量差异比较的方法3.qPCR 表达量差异比较的检验方法4.应用及注意事项正文(篇2)实时定量聚合酶链反应(qPCR)是一种在核酸合成过程中检测特定基因表达的方法,通过实时监测核酸扩增过程,可以准确地定量目标基因的表达水平。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
共建立 5 个模拟数据集: 每个数据集都包含 6000
个基因在两个条件下的各 5 次重复测量, 差异基因的
比例为 6% 。
( 3) 不同方法差异表达基因的鉴别及性能比较 分别采用 5 种差异表达基因鉴别方法对 5 个模拟
中国卫生统计 2005 年 6 月第 22 卷第 3 期
数据集进行分析, 比较不同方法的特点和鉴别差异表 达基因的性能。
d=
^∀1- ^∀2 ^ p ooled + s 0
( 7) ,
s 0 为样本残差标准误的校正值, 它在基因特异性
t 检验的分母中加入一个较小的正值, 使差异表达具
有较小变化的基因不会因为具有很小的标准误而被误
判为差异表达基因, 减小了基因特异性 t 检验的不稳 定性, 有 效 降低 了 假 阳性 率。T usher, T ibshirant 和 Chu 提出了基于统计量的变异系数最小化的 s0 估计 方法: 在对照基因或染色体规模的微阵列实验中具有 差异表达的基因只占很小的比例, 而大多数基因的表 达都没有差异, 因此这些基因的统计量 d 的变异应很 小, d 的分布应该与基因的表达水平是独立的, 在研究 中选择变异系数, 通过使统计量 d 的变异系数达到最 小而实现对校正值 s0 的估计。Efron, T ibshirani, Goss 和 Chu 采用所有基因样本残差标准误的第 90 百分位 数作为 s 0 的估计取得了较好的结果, 这种方法由于计 算简便而在 SAM 分析中广泛应用。
∀ 142 ∀
Chinese Journal of Health St at ist ics, Jun 2005, Vol. 22, N o. 3
权平均, 即校正 t 检验( regularized t t est ) 。 ( 3) 随机方差模型( random variance model) 不同基因的误差方差不同, 假定它们是某种分布
)
( 8)
对于绝大多数基因 ∀i = 0( Ig = 0) , 只有极少的一小部 分基因 ∀i % 0( Ig = 1) 。基因 g 为差异表达基因的对
数后验比为Bg =
log
Pr Pr
(Ig= (Ig=
1| 0|
( (
M ij M ij
)) ))
,
通过假设基因
方差和非零均数的联合先验分布, 可以得到
关键词 差异表达基因 随机方差模型 SA M 对数后验比法
微阵列技术可以同时测量成千上万条基因的表达 水平, 具有较广泛的应用领域, 如了解基因间的相互作 用, 寻找不同表型的差异表达基因, 及检测疾病或药物 刺激因素下基因表达的变化规律等。但由于微阵列实 验的影响因素众多, 其技术重复性较差, 且通常的芯片 试验中的生物学重复数又较少。最传统的差异表达基 因的鉴别方法为倍数法、t 检验/ F 检验, 倍数法通过 对基因在两种状态下的对数表达比界定一个界值来判 断其是否具有差异表达; t 检验/ F 检验是指对每个基 因在两种/ 多种状态下的表达的差异进行独立的统计 学检验; 两种方法简单而直观, 但倍数法受极端值的影 响较大, 而极端值是微阵列实验中的常见现象; t 检验 / 方差分析在样本标准误较小的情况下, 即使表达均数 间的差值并不大, 也可能得到很大的 t 值而被判断为 差异表达, 造成假阳性, 而大量基因中不可避免有部分 基因的标准误很小。于是基于一定的理论提出了一些 新的差异表达基因的鉴别方法。本文以实际实验资料 为背景进行理论数据模拟, 在此基础上较为系统地探 讨了随机方 差模型、SAM ( signif icance analysis of mi croarray) 和对数后验比法的特征和性能, 并与倍数法 和 t 检验进行了比较。
其中, y ij 为基因 i 在序列 j 上的对数表达比, xj 为针对
样品的设计向量( 如处理和对照、不同的时间点等) , i
为基因的系数向量, 如对于处理和对照两种状态, 其对
应基因 i 在两种状态下的平均表达水平, ij 为残差, ij
~ N ( 0, - 2 ) 。在贝叶斯分析中, 通常选择反伽马分
( 5) 对数后验比( 经验贝叶斯对数后验比, empiri
cal Bayes log posterior odds)
假定基因 i 在序列 j 上的对数表达比 Mij 为均数
为 ∀i 、方差为
2 i
正态分布的随机观测值(
经证实这种
假定是合理的) , 即
Mij | ∀i ,
2i ~ N ( ∀i ,
2 i
形式的随机样本, 通过观察实际资料中每个基因的误 差方差, 估计其分布形式, 然后根据此分布对单个基因 的残差平方和进行调整。这样, 方差的估计建立在多 个基因的基础上, 可以得到给定基因残差方差的较佳 估计, 有效地提高了方差估计的自由度。考虑的模型 形式为
yij = x#j i + ij
( 4)
2) ^ n-
2 p ooled
2) +
+2 2a
b-
1
,
( 6)
^ p ooled =
( n1-
1) 1+ ( n 2n 1+ n 2- 2
1)
2,
自由度 v = n - 2+ 2a
( 4) SAM ( sig nificance analysis of microarrays)
SAM 的检验统计量
差, 即为全局 t 检验( g lobal t test ) 。另外, 介于简单 t
检验和全局 t 检验之间的方法使用两种误差方差的加
* 第二军医大学青年基金资助项目( 2003 SQ 19) 1 第二军医大学卫生统计学教研室( 200433) 2 D ep art ment of M i crobiol ogy & I mmu nology , Wei ll M edi cal Coll ege of Cornell U niv ersi ty, N E W YO RK , USA
设计采用间接设计, 即两组基因表达水平的测量值是
以相同的参照样品为对照得到的。原始实验数据可在
ht tp: / / w w w - stat - class stanford edu/ SAM/ SAM
Servlet 下载。
( 1) 原始资料分析及参数的估计
通过对原始实验资料的分析, 拟合残差方差的分 布参数, 本研究选择反伽马分布作为残差方差的理论
计为基因特异性的, 即用于检验某基因是否具有差异 表达的 t 值的误差方差的估计仅使用该基因在两种条
件下测量值, 而独立于其他基因。
ti =
( Fold change) i SEi
( 3)
其中, SE i 为基因 i 对数表达比的标准误。
建立在小样本基础上的误差方差估计的稳定性受
到影响, 有研究在假定所有基因误差方差相等的前提 下, 使用所有基因的误差方差替代基因特异性误差方
Fold change
n
! log2( R ( i ) / G ( i ) )
i= 1
n
( 1)
m
! log2( R i ( i ) / G ( i ) )
=
i= 1
m
-
n
! log2( R c( i ) / G ( i ) )
i= 1
n
( 2)
其中, R ( i ) 和 G ( i ) 分别为基因 i 在实验和参照中的
中国卫生统计 2005 年 6 月第 22 卷第 3 期
∀ 141 ∀
小样本情况下差异表达基因鉴别的参数统计分析*
贺宪民1 武建虎1 贺 佳1 X iang Zhaoy ing 2
提 要 目的 探索小样本情况下基于不同理论的统 计方法在 鉴别差 异表达 基因时 的性能。方 法 以 实验资 料
为基础, 估计残差方差的分布参数、基因的平均表达及差异表达水平, 按照一定差异比例模拟理 论数据, 用于分析 倍数法、 t 检验、随机方差模型、SAM 及对数后验比法的性 能及特 征。结果 随机 方差模 型、SAM 及对数 后验比 法在鉴 别差异 表 达基因的准确性上 相近, 均高于 t 检验和倍数 法, t 检 验又稍高 于倍数法。结 论 倍数 法的性能受 极端值的 影响严重, t 检验在基因特异性标准误较小情况下增加鉴别的假阳性率, 而随机方差模型、SA M 和对 数后验比 法由于统计 量的计算 建 立在多基因的基础上, 鉴别的准确性较高 。
原理与方法
1 差异表达基因的鉴别方法 ( 1) 倍数法( f old change) 倍数法是鉴别差异表达基因最简单的方法。差异 表达倍数通常使用基因在两种条件下的表达比或对数 表达比表示, 当有重复时, 为重复观测上的均数。对于 直接和间接试验设计, 差异表达的倍数分别为
直接设计:
Fold change = 间接设计:
Bg =
log
p 1- p
1 1+ nc
a+
s2g +
M
2 g
a+
s2g+
M
2 g
1+ nc
v+
n 2
( 9)
其中, a 和 v 为方差反伽马先验分布的超参数, c 为非
零均数正态先验分布的超参数, n 为重复数, p 为设定
的差异表达基因的比例。
对数后验比的缺点在于要预先给定差异表达基因
的比例, 但 研究表明 它通常 并不影 响统计 量 B 的顺 序。
荧光强度。
通过设定特定的临界值判定基因是否具有差异表
达, 如差异表达超过两倍定义为有意义, 在以 2 为底的
对数表达比上为大于 1 或小于- 1。由于差异表达倍
数受极端值的影响, 有研究提出采用强度特异性临界 值作为判断的标准。