基因表达数据分析
生物信息学中的基因表达数据分析方法

生物信息学中的基因表达数据分析方法在生物学研究中,基因表达数据的分析对于理解生物体内基因调控的机制和功能至关重要。
随着高通量测序技术的发展,基因表达数据的获取和分析变得更加容易和准确。
生物信息学中的基因表达数据分析方法主要包括差异表达分析、基因共表达网络分析以及功能富集分析等。
差异表达分析是基因表达数据分析的关键技术之一。
它可以识别不同基因在不同组织或条件下的表达量差异,从而帮助我们深入了解基因的功能和调控。
常用的差异表达分析方法包括基于计数数据的DESeq2和edgeR,以及基于表达量的limma等。
这些方法能够通过统计学模型和假设检验来识别不同基因的显著差异表达,并且考虑了多重比较校正和批次效应等因素的影响。
另外,基因共表达网络分析也是生物信息学中常用的方法之一。
它可以根据基因表达模式的相似性将基因划分为不同的共表达模块,从而发现基因之间的相互作用关系。
基因共表达网络分析能够帮助我们预测基因功能、发现新的基因调控模块以及揭示基因调控网络的结构和功能。
常用的基因共表达网络分析方法包括WGCNA和STRING等。
这些方法能够通过计算基因之间的相关性来构建基因共表达网络,并利用网络拓扑结构和模块发现算法来鉴定关键的共表达模块和核心基因。
此外,功能富集分析也是基因表达数据分析中重要的方法之一。
它可以识别差异表达基因集合中富集的生物学功能和通路,从而揭示基因集合在特定生物过程中的功能角色。
功能富集分析常用的方法包括基于基因本体论(Gene Ontology)的GO分析和基于KEGG通路的富集分析。
这些方法能够通过统计学假设检验来判断差异表达基因集合是否富集于特定的功能分类或通路,帮助我们深入了解基因的功能和生物学过程的调控机制。
此外,在基因表达数据的分析中,还有许多其他的方法可以用于发现和解释基因表达的模式和调控机制,比如聚类分析、GO/KEGG富集分析、差异表达基因的功能注释和生物学网络分析等。
这些方法的应用丰富了我们对基因表达数据的理解,并且为生物学研究提供了重要的信息。
基因表达数据分析的算法和方法

基因表达数据分析的算法和方法基因表达数据分析是在基因组学和生物信息学领域中非常热门和重要的研究方向之一。
基因表达数据的分析不仅可以帮助人们了解基因的生物学功能、特性和调节方式,更可以为分子医学的研究提供有价值的信息和数据。
而基因表达数据分析的算法和方法则是各种基因表达数据分析软件和工具的核心,也是此领域研究的关键。
一、基因表达数据分析的算法和方法概述基因表达数据可以用来描述不同条件下基因的表达水平差异,测定转录本的组成、很好地识别功能基因和非功能基因等等。
其中的数据通常是通过基因芯片、RNA测序等方法获取后,经过大量数据预处理和数据加工,得到基因表达矩阵。
该矩阵中的基因和样品可以丰富和复杂,并且也存在着许多的噪声和误差。
这些噪声和误差会对后续的数据分析带来一定的影响,并且可能导致其结果的无效和无用。
因此,对基因表达数据的概述和分析应该适当关注到数据的质量、类型和特点。
二、基因表达数据分析的流程和方法通常的、基于表达数组或RNA-Seq测序数据的基因表达分析流程如下:1. 质控和预处理2. 数据归一化3. 基因筛选4. 差异表达分析5. 注释分析6. 基因表达聚类分析7. 功能富集分析在上述流程中,每个步骤都可以有多种不同的算法和方法实现。
而每种算法和方法也各具有其优点和缺点。
以下我将分别介绍各个流程中的算法和方法。
1. 质控和预处理要确保RNA测序和基因芯片表达数据的质量,就需要首先进行质控和预处理。
其中,数据质量控制可通过QC工具,如FastQC、NgsQC等进行检查,预处理则可以通过一些软件如SeqPrep、Trimmomatic等去除低品质序列、去除 reads 夹杂粘合以及进行宿主去除等操作。
2. 数据归一化数据归一化能够消除样品间技术变异性,一般的归一化方法包括:TPM & FPKM: 在RNA测序中通过比较相对丰度,表达基因表达定量。
一般使用到的算法包括RSEM、eXpress和Salmon等。
生物信息学中的基因表达数据分析方法比较

生物信息学中的基因表达数据分析方法比较随着高通量测序技术的快速发展,大量的生物信息学数据被积累下来,其中基因表达数据是其中一类最为重要的数据类型。
基因表达数据可以帮助我们了解基因在细胞或组织中的活动水平,进而洞察基因调控网络的运作机制。
在生物信息学研究中,比较不同的基因表达数据分析方法对于揭示生物学过程的关键因素、特定基因的表达模式以及发现新的生物学知识至关重要。
本文将会介绍几种常见的基因表达数据分析方法,并比较它们之间的优缺点。
1. 基因差异分析(Differential Gene Expression Analysis)基因差异分析是一种常见的基因表达数据分析方法,它用于比较两个或多个实验组之间的基因表达水平的差异。
通过基因差异分析,我们可以识别出在不同情况下表达量显著变化的基因。
这些基因可能与生物学过程的调节、疾病的发生等密切相关。
在基因差异分析中,常用的方法包括:差异表达基因分析(Differential gene expression analysis)和差异表达基因富集分析(Differential gene expression enrichment analysis)。
差异表达基因分析使用统计学方法来比较基因在两个或多个组之间的表达量差异,并验证这些差异是否显著。
而差异表达基因富集分析则通过对差异表达基因进行功能富集分析来发现差异表达基因在特定生物学过程中的富集情况。
2. 基因聚类分析(Gene Clustering Analysis)基因聚类分析是一种将基因根据它们的表达模式进行分组的方法。
通过基因聚类分析,我们可以发现具有相似表达模式的基因群,从而推测它们在生物学过程中可能具有相似的功能或相互作用。
基因聚类分析有多种方法,包括层次聚类分析(Hierarchical clustering analysis)、k-均值聚类分析(k-means clustering analysis)、模糊C-均值聚类分析(Fuzzy C-means clustering analysis)等。
生物信息学中的基因表达数据分析教程

生物信息学中的基因表达数据分析教程基因表达数据分析是生物信息学中的重要研究领域,它帮助我们理解基因在不同条件下的表达模式,揭示基因功能和调控机制。
本篇文章将为您介绍基因表达数据分析的基本流程和常用的方法。
一、基因表达数据基因表达数据是指基因在细胞或组织中的相对或绝对表达水平。
它可以通过不同的实验方法获得,如基因芯片(microarray)和高通量测序(high-throughput sequencing)技术。
这些技术产生的数据量庞大,需要通过生物信息学的方法进行分析和解释。
二、常用的基因表达数据分析方法1. 数据清洗和预处理基因表达数据分析的第一步是对原始数据进行清洗和预处理。
这包括数据质量控制、噪声去除、基因表达量的归一化和批次效应的去除等。
这些步骤有助于提高数据的准确性和可靠性。
2. 异常值检测在基因表达数据中,可能存在异常值或离群点。
这些异常值可能是实验误差、生物学变异或技术偏差导致的。
通过统计学和可视化方法,我们可以检测和处理这些异常值,以避免其对后续分析结果的影响。
3. 差异表达分析差异表达分析是基因表达数据分析的核心内容之一。
它可以帮助我们发现在不同生物条件下表达差异显著的基因。
常用的差异表达分析方法有t检验、方差分析、贝叶斯方法等。
这些方法可以对基因的差异表达进行统计检验,并筛选出差异表达显著的基因。
4. 功能富集分析功能富集分析可以帮助我们理解差异表达基因的功能和参与的生物过程。
通过将差异表达基因与公共数据库中的功能注释进行比较,我们可以发现这些基因所参与的通路、功能和生物过程。
常用的功能富集分析工具包括DAVID、GOstats、KEGG等。
5. 聚类和可视化聚类分析可以帮助我们将基因表达数据划分为不同的表达模式,从而揭示基因之间的关联和功能聚类。
常用的聚类方法包括层次聚类、k均值聚类、PCA等。
可视化还可以通过图表、热图和网络图等方式直观地展示基因表达模式和差异表达基因。
6. 基因网络分析基因网络分析可以帮助我们理解基因之间的相互作用和调控关系。
基因组学中的基因表达数据分析应用

基因组学中的基因表达数据分析应用基因组学是研究生物体遗传物质基因组的科学,通过对基因组的研究,我们可以更好地了解基因的功能与调控机制。
而基因表达数据分析是基因组学中重要的一环,它可以帮助我们理解基因在不同条件下的表达水平,揭示基因调控网络,探索基因与疾病之间的关联,并提供新的治疗策略。
基因表达数据是基因组学研究中最重要的一类数据之一。
它可以通过高通量测序技术如RNA测序(RNA-seq)或芯片技术来获取。
这些技术能够定量地测量样本中各个基因的表达水平,从而提供了基因调控的全局视角。
但是,原始的基因表达数据通常很庞大,需要进行生物信息学分析来提取有用的信息。
第一步,基因表达数据的预处理。
原始的基因表达数据可能会受到测序误差、批次效应和噪声的影响,因此需要进行数据预处理来减少这些影响。
常见的预处理方法包括去除低表达的基因、标准化处理和批次效应的校正。
通过这些预处理步骤,我们可以得到更准确和可比较的基因表达数据。
第二步,基因表达数据的差异分析。
差异表达分析是比较不同样本间基因表达水平差异的重要方法。
它可以帮助我们发现可能与特定生物过程或疾病相关的基因。
常见的差异表达分析方法包括t检验、方差分析(ANOVA)和Fisher准确检验等。
这些方法可以帮助我们鉴定差异表达的基因,并进行后续的功能注释和通路分析。
第三步,基因表达数据的聚类分析。
聚类分析可以将基因和样本按照表达模式进行分类,从而揭示出基因的调控网络和样本间的相似性。
常见的聚类分析方法包括层次聚类、k-均值聚类和自组织映射等。
通过聚类分析,我们可以发现具有相似表达模式的基因群,并研究它们在生物过程中的功能和相互作用。
第四步,基因表达数据的功能注释。
功能注释可以帮助我们理解差异表达基因的生物学功能和调控通路。
常见的功能注释方法包括基因本体论(Gene Ontology)、KEGG、生物过程、分子功能和细胞组分等。
通过功能注释,我们可以发现差异表达基因在哪些生物学过程中起作用,从而深入研究其关联的生物学机制。
基因组学研究中的表达谱数据分析方法解析

基因组学研究中的表达谱数据分析方法解析概述:基因组学研究是研究生物体基因组的编码和非编码序列的科学。
在基因组学研究中,表达谱数据是一种重要的数据类型,由于其高维度和复杂性,需要采用一系列的分析方法和技术来解析。
本文将介绍基因组表达谱数据的分析方法,包括数据预处理、差异表达分析、聚类分析、富集分析以及网络分析。
一、数据预处理:数据预处理是基因组表达谱数据分析的第一步,目的是清除原始数据中的噪声、去除非生物学的变异以及纠正技术上的偏见。
常用的数据预处理步骤包括数据质量控制、归一化和基因过滤。
1. 数据质量控制:首先需要对原始数据进行质量控制,该步骤可通过查看测序质量分数和测序错误率来评估。
常用的工具有FastQC和Trimmomatic等。
该步骤的目的是排除测序引入的噪声。
2. 归一化:由于不同样本之间的表达量存在显著的差异,我们需要对数据进行归一化处理,以消除样本间的偏差。
常用的归一化方法有TPM、FPKM和RPKM等。
归一化后的数据便于后续的比较和统计分析。
3. 基因过滤:在分析表达谱数据时,一些基因的表达量非常低,对分析结果产生较小的影响并增加运算复杂性。
因此,我们通常会对表达量低于一定阈值的基因进行过滤处理,从而提高分析效率。
常用的过滤标准包括表达量百分位数和表达量阈值。
二、差异表达分析:差异表达分析是基因表达谱数据分析的核心内容之一,旨在发现不同条件下存在差异表达的基因。
通常,差异表达分析包括基于假设检验的方法和机器学习方法。
1. 基于假设检验的方法:这类方法通常基于统计学原理,将样本分组,通过计算差异表达的显著性水平来判断基因是否差异表达。
常用的方法包括Student's t-test、Wilcoxon秩和检验和Fisher's确切检验等。
这些方法基于不同的假设,在数据有明确的分布前提下,可以得到比较可靠的差异表达结果。
2. 机器学习方法:机器学习方法对差异表达分析具有较高的灵活性和预测能力。
基因表达数据分析及相关统计算法研究

基因表达数据分析及相关统计算法研究随着生物技术的飞速发展,越来越多的基因表达数据被生成和积累。
这些数据提供了宝贵的信息,可以帮助我们更好地了解基因的功能、调控机制以及与疾病相关的变化。
然而,对于海量的基因表达数据如何进行有效的分析和挖掘,仍然是一个具有挑战性的问题。
本文将介绍基因表达数据分析的基本概念和涉及的相关统计算法的研究进展。
基因表达数据是指在细胞或组织中,基因在特定条件下的转录水平的测量值。
常用的基因表达数据包括基因芯片数据和基因测序数据。
基因芯片技术是最早应用于基因表达数据分析的方法之一,它通过测量RNA分子与特定基因探针的配对情况来反映基因的表达水平。
而基因测序技术则可以提供更详细的基因表达信息,可以测量到具体的转录本和外显子的表达。
基因表达数据的分析涉及的主要任务包括差异表达基因分析、基因表达聚类分析以及功能富集分析等。
差异表达基因分析旨在识别在不同条件下表达水平存在显著差异的基因。
这一任务可以帮助我们理解基因在不同生物过程或疾病状态下的特定功能。
基因表达聚类分析是指将基因或样本根据其表达模式进行分类,寻找共同调控或具有相似表达模式的基因。
功能富集分析则是通过比较差异表达基因集合与已知的功能注释数据库中的基因集合,来发现具有富集功能的基因集合。
为了解决这些基因表达数据分析的问题,研究人员提出了许多统计算法和机器学习方法。
其中最常用的方法之一是差异表达分析中的t检验和方差分析。
t检验可以用于比较两组样本间的表达差异,而方差分析可以用于同时比较多组样本间的表达差异。
除了传统的统计方法,还有基于机器学习的方法,如支持向量机(SVM)和随机森林(Random Forest)等。
这些机器学习算法可以通过构建分类模型来预测基因是否差异表达或进行样本分类。
近年来,随着单细胞测序技术的发展,单细胞基因表达数据的分析也成为了热点研究领域。
单细胞测序可以提供单个细胞的基因表达信息,揭示细胞间的表型差异和功能特化。
统计生物学中的基因表达数据分析

统计生物学中的基因表达数据分析在统计生物学中,基因表达数据分析是一项关键性工作,它帮助我们了解基因在不同细胞或组织中的表达模式以及与其相关的生物学过程。
本文将介绍基因表达数据分析的基本原理和常用方法,以及其在研究中的应用。
一、基因表达数据的获取基因表达数据的获取主要依靠高通量测序技术,如RNA-seq和微阵列技术。
这些技术能够测量基因在细胞中的转录水平,并将其转化为数字化的数据。
通过这些数据,我们可以分析基因的表达变化及其所参与的生物学过程。
二、基因表达数据的预处理在进行基因表达数据分析之前,我们需要对原始数据进行预处理。
这一步骤包括数据清洗、去噪声、标准化和归一化等。
数据清洗主要是去除低质量的reads和冗余信息,去噪声可以减少实验误差的影响,标准化和归一化则能够对不同样本之间的差异进行修正。
三、基因表达水平分析基因表达数据分析的核心是对基因的表达水平进行定量和比较。
通过计算基因的表达丰度或读数计数,我们可以了解基因在样本中的表达水平。
常用的方法包括TPM(每百万转录组标准测序数)和FPKM (每千万转录组标准测序数)等。
四、差异表达分析差异表达分析可以帮助我们找到在不同样本中表达水平有显著差异的基因。
这一步骤主要通过统计学方法,如t检验、F检验或基于负二项分布的方法,进行差异基因的筛选和聚类分析。
差异表达基因的鉴定对于理解不同种群间的表达差异以及挖掘潜在的生物学机制至关重要。
五、富集分析富集分析能够帮助我们了解差异表达基因的功能和通路,以及它们在生物学过程中的作用。
主要的富集分析方法包括基因本体论(Gene Ontology, GO)分析和通路富集分析。
这些方法通过比较差异表达基因与数据库中的注释信息进行关联,找到与特定生物学过程或功能相关的基因集合。
六、网络分析网络分析是一种用于挖掘基因之间相互作用关系的方法。
通过构建基因网络,我们可以识别关键的调控基因和功能模块,并了解基因之间的相互作用网络。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第8章基因表达数据分析基因芯片或DNA微阵列等高通量检测技术的发展,可以从全基因组水平定量或定性检测基因转录产物mRNA,获取基因表达的信息。
由于生物体中的细胞种类繁多,同时基因表达具有时空特异性,因此,基因表达数据要比基因组数据更为复杂、数据量更大、数据的增长速度更快。
基因表达数据中蕴含着基因调控的规律,可以反映细胞当前的生理状态,例如(??)是否恶化、(??)是否对药物有效等。
对基因表达数据的分析是生物信息学的重大挑战之一,也是DNA微阵列能够推广应用的关键环节之一。
基因表达数据分析的对象是在不同条件下,全部或部分基因的表达数据所构成的数据矩阵。
通过对数据矩阵的分析,回答一些生物学问题,例如,基因的功能是什么?在不同条件或不同细胞类型中,哪些基因的表达存在差异?在特定的条件下,哪些基因的表达发生了显著改变,这些基因受到哪些基因的调节,或者调控哪些其它的基因?哪些基因的表达是条件特异性的,根据它们的行为可以判断细胞的状态(正常或癌变)????等等。
对这些问题的回答,结合其他生物学知识和数据有助于阐明基因的调控路径和基因之间的调控网络。
揭示基因调控路径和网络是生物学和生物信息学共同关注的目标,是系统生物学(Systems Biology,在附录中增加解释条目!)研究的核心内容。
目前,对基因表达数据的分析主要是在三个逐渐复杂的层次上进行:1、分析单个基因的表达水平,根据在不同实验条件下,该基因表达水平的变化,来判断它的功能,例如可以确定肿瘤类型特异基因。
采用的分析方法可以是统计学中的假设检验等。
2、考虑基因组合,将基因分组,研究基因的共同功能、相互作用以及协同调控等。
多采用聚类分析等方法。
3、尝试推断潜在的基因调控网络,从机理上解释观察到的基因表达谱。
多采用反工程的方法。
本章首先介绍基因表达数据的来源和预处理方法;然后介绍基因表达数据分析的主要方法,即表达差异分析和聚类分析;最后简单介绍从基因表达数据出发研究基因调控网络的一些经典模型。
8.1 基因表达数据的获取基因表达数据反映的是直接或间接测量得到的基因转录产物mRNA在细胞中的拷贝数或者水平(转录??),这些数据可以用于分析哪些基因的表达发生了改变,它们有何相关性,在不同条件下基因是如何受影响的。
它们在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面有重要的应用。
目前检测mRNA水平的方法有DNA微阵列、基因芯片、基因表达串行化分析(Serial analysis of gene expression,SAGE)、RT-PCR、EST测序等。
目前,最主要的表达数据来自于基因芯片或cDNA微阵列,它们的原理是相同的,利用4种核苷酸之间两两配对互补的特性,使两条在序列上互补的单链形成双链,这个过程被称为杂交。
基本技术是:在一个约1cm2大小的玻璃片上,将称为探针的核苷酸片段固定在上面,这个过程称为芯片制备;从细胞或组织中提取mRNA,通过RT-PCR合成荧光标记的cDNA,与芯片杂交;用激光显微镜或荧光显微镜检测杂交后的芯片,获取荧光强度,分析细胞中的mRNA的相对水平。
8.1.1 cDNA微阵列cDNA微阵列最早是在1995年,由斯坦福大学研制并应用于基因表达分析的。
首先将细胞内的mRNA逆转录成cDNA并分离,然后将分离得到的所有或部分cDNA(通常大于200bp)作为探针,用机器手点到玻璃片上,玻璃片上的每一个点包含一种cDNA分子,这样就制成了cDNA微阵列。
固定在玻片上的cDNA探针可以通过测序得到序列或者其来源是已知的。
在使用cDNA微阵列时,首先是提取组织或细胞系的mRNA样本,逆转录成cDNA 并用荧光素标记;然后把标记混合物加到cDNA微阵列上,与探针杂交,杂交过程完成后,清洗微阵列;然后用激光扫描仪扫描并获取荧光图像,对图像进行分析,得到cDNA芯片上每一个点的荧光强度值。
荧光强度值定量反映了样本中存在的与探针互补的mRNA量,也就是反映了探针对应基因的表达水平。
在制造cDNA微阵列时,点样点的大小是不能保证完全一样的,点的排列也是不规则的,这样要比较不同微阵列图像的荧光绝对强度是不合理的,因此通常使用双色荧光系统来纠正点之间的差异。
在制备样本时,使用两个样本,一个称为控制样本或对照样本,其cDNA 用红色(Cy5)或绿色(Cy3)荧光素标记,另一个为测量样本,其cDNA用与对照样本不同的绿色或红色荧光素标记。
这两个样本按1:1的比例混合,同时与微阵列杂交,杂交后用不同波长的激光扫描,分别获取荧光强度,并成像。
来自两个样本的基因如果以相同水平表达则显示黄色,而如果表达水平有差异,则图像显示红色或绿色。
因此,cDNA微阵列的实验数据反映了两个样本中基因的相对表达水平。
通常,在cDNA微阵列实验中对获取的原始图像数据必须进行归一化,例如基于全局强度值调整、强度相关归一化、玻片之间的对比归一化等,通常这些工作由与微阵列扫描系统配套的软件自动完成。
为什么要进行归一化?如果用不同荧光素标记的是相同的样本,那么比率Cy5/Cy3(ratio值)的期望值为1,但由于Cy3和Cy5的标记效率不相等,或存在系统噪声等原因,得到的Cy5/Cy3往往不等于1,所以通过归一化可以使之回到1,并调整其它的测量值。
归一化方法包括总密度(假设两个样本中的总RNA是相等的)、线性回归、Ratio统计、迭代log(ratio)平均值中心化等。
cDNA微阵列实验得到的值反映了基因的相对表达水平,即测量样本与对照样本之间荧光信号强度的比率或者比率取对数,这是一个无量纲的值,可用于比较一组实验中的基因相对表达水平。
如果对照样本的信号非常低,那么这个比率就可能很大,因为可能主要是噪声信号,因此它很可能是无意义的,对于这些数据往往看作是不确定的,在后续分析时要注意这些数据,根据需要确定是否保留以及如何赋值。
(是否是自己的语言???,或用我们的文章,陆老师)8.1.2 寡核苷酸芯片又称为基因芯片、DNA芯片。
它是在玻璃片上按阵列固定寡核苷酸探针,这些探针是在片原位合成的。
现有产品中应用最广泛的是Affymetrix公司制造的GENECHIP®芯片,它使用一种光掩模技术和传统的DNA合成化学的组合以非常高的密度制造寡核苷酸阵列。
例如,Affymetrix公司的Human Genome U133芯片包含了100万个不同的寡核苷酸探针,代表了33000个人类基因。
寡核苷酸芯片主要用于DNA多态性检测和基因表达分析,还可以用于微生物基因组的再测序。
寡核苷酸探针的长度通常为20-25bp,在检测mRNA表达水平时可能存在寡核苷酸之间的非特异性交叉杂交的冗余信息,可能会掩盖杂交信号;此外,对于特定的寡核苷酸,信号强度对于寡核苷酸的碱基组成是敏感的。
对于第一个问题,通常是采用匹配/失配(PM/MM)探针对的方法,即在设计一个特异的寡核苷酸(匹配)时,同时设计一个非特异的寡核苷酸探针,仅仅在中间位置有一个碱基替换(失配),这样可以用PM与MM之间的差值作为信号强度。
为了解决第二个问题,在设计探针时,对于每一个待检测的mRNA包含多个寡核苷酸探针,例如为每一个转录本设计11-20个探针对来检测。
与cDNA微阵列不同的是,与寡核苷酸芯片杂交的是测量样本,而不是cDNA微阵列实验中的测量样本与对照样本的混合物。
对于基因芯片的检测结果有两种,一种是P/A/M,表示有/无/不确定,另一种是信号强度。
前者的结果主要是用来判断样本中有无特定基因的表达,这个结果对于部分实验,特别是一些定性实验是有意义的,例如判断肿瘤与正常情况下的细胞基因表达差异。
当需要对几个不同条件下的基因表达情况进行分析时,对基因表达的相对变化更感兴趣,所以多采用第二种方式。
有时基因表达数据的信号强度是负值,这是由于测量的信号小于背景信号或者背景/阴性控制样本的定义不正确造成的,对于前者,一般把负值做为0考虑,现在的Affymetrix的芯片分析系统已不产生负值。
(??)在考虑基因表达谱时,所采用的数据与cDNA微阵列数据一样,也是一系列测量样本与对照样本之间的信号强度比率或比率的对数值。
实验得到的信号强度也是经过规格化的数值,规格化的方法很多,但归一化过程一般都包含在芯片扫描系统的图像处理软件中。
cDNA微阵列或基因芯片(以下统称微阵列)在用于基因表达分析时的一个最大优点是高通量性,在一次芯片实验中可以对成千上万个基因的表达进行并行测量。
由于实验环节较多,虽然在设计芯片时可以通过添加阴性和阳性探针等手段来保证数据的可靠,但是需要提醒的是,数据的可靠性仍然是对数据进行后续分析时必须考虑的一个问题。
8.1.3 基因表达数据的网络资源大量基于微阵列实验的基因表达数据是公开在Internet网上的,尤其是学术机构在发表论文时所用的实验数据都能免费提供给全世界的研究人员下载使用。
作为学术论文的补充资料在网上发布的数据主要是文本文件或Excel格式的文件,这些数据往往都是经过归一化处理后的Ratio值或log2(Ratio),对于寡核苷酸芯片数据有的是P/A/M(Present/Absent/Don’t Know)的表示或基因绝对表达值。
因为这些数据文件没有包含原始的实验方案、实验材料、原始扫描图像、图像处理方法和数据归一化方法等信息,对于要比较、集成和整合分析来自不同研究小组的基因表达数据是非常困难的。
主要原因是微阵列并不是在任何客观的个体上测量基因表达水平,大多数测量值仅仅是基因表达的相对变化,而且使用的并不是一个标准化的对照样本。
同时,基因表达数据比基因组序列数据要复杂的多,这些数据仅仅在有具体的关于实验条件的描述时才是有意义的,对于不同的细胞类型,在不同的条件下都有一套转录本。
因此,基于微阵列的基因表达数据存储量是非常大的,对于具有20000个探针的微阵列实验,以10um的分辨率扫描,产生3千万个离散的数据点,如果以tiff文件贮存,将占用~60Mb的硬盘空间。
一方面是基因表达数据量非常庞大,数据中蕴含着丰富的生物学知识,另一方面是这些数据没有注释,迫切需要一种标准来描述和存贮微阵列基因表达数据,同时建立公共的微阵列数据仓库。
欧洲生物信息学研究所(EBI)与德国肿瘤研究中心(DKFZ)在1999年成立了MGED讨论组(The Microarray Gene Expression Data)。
MGED(/)是一个国际性的成员联盟,参与人员包括生物学家、计算机科学家、数据分析学家。
它的目标是促进由功能基因组学和蛋白组学研究产生的微阵列数据的共享。
当前集中于建立微阵列数据注释和交换的标准,推动微阵列数据库建设和相关软件来实现这些标准,促进高质量的、经过注释的基因表达数据在生命科学领域的共享。