基因表达数据分析

基因表达数据分析
基因表达数据分析

第8章基因表达数据分析

基因芯片或DNA微阵列等高通量检测技术的发展,可以从全基因组水平定量或定性检测基因转录产物mRNA,获取基因表达的信息。由于生物体中的细胞种类繁多,同时基因表达具有时空特异性,因此,基因表达数据要比基因组数据更为复杂、数据量更大、数据的增长速度更快。基因表达数据中蕴含着基因调控的规律,可以反映细胞当前的生理状态,例如(??)是否恶化、(??)是否对药物有效等。对基因表达数据的分析是生物信息学的重大挑战之一,也是DNA微阵列能够推广应用的关键环节之一。

基因表达数据分析的对象是在不同条件下,全部或部分基因的表达数据所构成的数据矩阵。通过对数据矩阵的分析,回答一些生物学问题,例如,基因的功能是什么?在不同条件或不同细胞类型中,哪些基因的表达存在差异?在特定的条件下,哪些基因的表达发生了显著改变,这些基因受到哪些基因的调节,或者调控哪些其它的基因?哪些基因的表达是条件特异性的,根据它们的行为可以判断细胞的状态(正常或癌变)????等等。对这些问题的回答,结合其他生物学知识和数据有助于阐明基因的调控路径和基因之间的调控网络。揭示基因调控路径和网络是生物学和生物信息学共同关注的目标,是系统生物学(Systems Biology,在附录中增加解释条目!)研究的核心内容。目前,对基因表达数据的分析主要是在三个逐渐复杂的层次上进行:1、分析单个基因的表达水平,根据在不同实验条件下,该基因表达水平的变化,来判断它的功能,例如可以确定肿瘤类型特异基因。采用的分析方法可以是统计学中的假设检验等。2、考虑基因组合,将基因分组,研究基因的共同功能、相互作用以及协同调控等。多采用聚类分析等方法。3、尝试推断潜在的基因调控网络,从机理上解释观察到的基因表达谱。多采用反工程的方法。

本章首先介绍基因表达数据的来源和预处理方法;然后介绍基因表达数据分析的主要方法,即表达差异分析和聚类分析;最后简单介绍从基因表达数据出发研究基因调控网络的一些经典模型。

8.1 基因表达数据的获取

基因表达数据反映的是直接或间接测量得到的基因转录产物mRNA在细胞中的拷贝数或者水平(转录??),这些数据可以用于分析哪些基因的表达发生了改变,它们有何相关性,在不同条件下基因是如何受影响的。它们在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面有重要的应用。目前检测mRNA水平的方法有DNA微阵列、基因芯片、基因表达串行化分析(Serial analysis of gene expression,SAGE)、RT-PCR、EST测序等。目前,最主要的表达数据来自于基因芯片或cDNA微阵列,它们的原理是相同的,利用4种核苷酸之间两两配对互补的特性,使两条在序列上互补的单链形成双链,这个过程被称为杂交。基本技术是:在一个约1cm2大小的玻璃片上,将称为探针的核苷酸片段固定在上面,这个过程称为芯片制备;从细胞或组织中提取mRNA,通过RT-PCR合成荧光标记的cDNA,与芯片杂交;用激光显微镜或荧光显微镜检测杂交后的芯片,获取荧光强度,分析细胞中的mRNA的相对水平。

8.1.1 cDNA微阵列

cDNA微阵列最早是在1995年,由斯坦福大学研制并应用于基因表达分析的。首先将细胞内的mRNA逆转录成cDNA并分离,然后将分离得到的所有或部分cDNA(通常大于200bp)作为探针,用机器手点到玻璃片上,玻璃片上的每一个点包含一种cDNA分子,这样就制成了cDNA微阵列。固定在玻片上的cDNA探针可以通过测序得到序列或者其来源是已知的。在使用cDNA微阵列时,首先是提取组织或细胞系的mRNA样本,逆转录成cDNA 并用荧光素标记;然后把标记混合物加到cDNA微阵列上,与探针杂交,杂交过程完成后,清洗微阵列;然后用激光扫描仪扫描并获取荧光图像,对图像进行分析,得到cDNA芯片上每一个点的荧光强度值。荧光强度值定量反映了样本中存在的与探针互补的mRNA量,也就是反映了探针对应基因的表达水平。

在制造cDNA微阵列时,点样点的大小是不能保证完全一样的,点的排列也是不规则的,这样要比较不同微阵列图像的荧光绝对强度是不合理的,因此通常使用双色荧光系统来纠正点之间的差异。在制备样本时,使用两个样本,一个称为控制样本或对照样本,其cDNA 用红色(Cy5)或绿色(Cy3)荧光素标记,另一个为测量样本,其cDNA用与对照样本不同的绿色或红色荧光素标记。这两个样本按1:1的比例混合,同时与微阵列杂交,杂交后用不同波长的激光扫描,分别获取荧光强度,并成像。来自两个样本的基因如果以相同水平表达则显示黄色,而如果表达水平有差异,则图像显示红色或绿色。因此,cDNA微阵列的实验数据反映了两个样本中基因的相对表达水平。通常,在cDNA微阵列实验中对获取的原始图像数据必须进行归一化,例如基于全局强度值调整、强度相关归一化、玻片之间的对比归一化等,通常这些工作由与微阵列扫描系统配套的软件自动完成。为什么要进行归一化?如果用不同荧光素标记的是相同的样本,那么比率Cy5/Cy3(ratio值)的期望值为1,但由于Cy3和Cy5的标记效率不相等,或存在系统噪声等原因,得到的Cy5/Cy3往往不等于1,所以通过归一化可以使之回到1,并调整其它的测量值。归一化方法包括总密度(假设两个样本中的总RNA是相等的)、线性回归、Ratio统计、迭代log(ratio)平均值中心化等。

cDNA微阵列实验得到的值反映了基因的相对表达水平,即测量样本与对照样本之间荧光信号强度的比率或者比率取对数,这是一个无量纲的值,可用于比较一组实验中的基因相对表达水平。如果对照样本的信号非常低,那么这个比率就可能很大,因为可能主要是噪声信号,因此它很可能是无意义的,对于这些数据往往看作是不确定的,在后续分析时要注意这些数据,根据需要确定是否保留以及如何赋值。(是否是自己的语言???,或用我们的文章,陆老师)

8.1.2 寡核苷酸芯片

又称为基因芯片、DNA芯片。它是在玻璃片上按阵列固定寡核苷酸探针,这些探针是在片原位合成的。现有产品中应用最广泛的是Affymetrix公司制造的GENECHIP?芯片,它使用一种光掩模技术和传统的DNA合成化学的组合以非常高的密度制造寡核苷酸阵列。例如,Affymetrix公司的Human Genome U133芯片包含了100万个不同的寡核苷酸探针,代表了33000个人类基因。寡核苷酸芯片主要用于DNA多态性检测和基因表达分析,还可以用于微生物基因组的再测序。

寡核苷酸探针的长度通常为20-25bp,在检测mRNA表达水平时可能存在寡核苷酸之间的非特异性交叉杂交的冗余信息,可能会掩盖杂交信号;此外,对于特定的寡核苷酸,信号

强度对于寡核苷酸的碱基组成是敏感的。对于第一个问题,通常是采用匹配/失配(PM/MM)探针对的方法,即在设计一个特异的寡核苷酸(匹配)时,同时设计一个非特异的寡核苷酸探针,仅仅在中间位置有一个碱基替换(失配),这样可以用PM与MM之间的差值作为信号强度。为了解决第二个问题,在设计探针时,对于每一个待检测的mRNA包含多个寡核苷酸探针,例如为每一个转录本设计11-20个探针对来检测。

与cDNA微阵列不同的是,与寡核苷酸芯片杂交的是测量样本,而不是cDNA微阵列实验中的测量样本与对照样本的混合物。对于基因芯片的检测结果有两种,一种是P/A/M,表示有/无/不确定,另一种是信号强度。前者的结果主要是用来判断样本中有无特定基因的表达,这个结果对于部分实验,特别是一些定性实验是有意义的,例如判断肿瘤与正常情况下的细胞基因表达差异。当需要对几个不同条件下的基因表达情况进行分析时,对基因表达的相对变化更感兴趣,所以多采用第二种方式。有时基因表达数据的信号强度是负值,这是由于测量的信号小于背景信号或者背景/阴性控制样本的定义不正确造成的,对于前者,一般把负值做为0考虑,现在的Affymetrix的芯片分析系统已不产生负值。(??)在考虑基因表达谱时,所采用的数据与cDNA微阵列数据一样,也是一系列测量样本与对照样本之间的信号强度比率或比率的对数值。实验得到的信号强度也是经过规格化的数值,规格化的方法很多,但归一化过程一般都包含在芯片扫描系统的图像处理软件中。

cDNA微阵列或基因芯片(以下统称微阵列)在用于基因表达分析时的一个最大优点是高通量性,在一次芯片实验中可以对成千上万个基因的表达进行并行测量。由于实验环节较多,虽然在设计芯片时可以通过添加阴性和阳性探针等手段来保证数据的可靠,但是需要提醒的是,数据的可靠性仍然是对数据进行后续分析时必须考虑的一个问题。

8.1.3 基因表达数据的网络资源

大量基于微阵列实验的基因表达数据是公开在Internet网上的,尤其是学术机构在发表论文时所用的实验数据都能免费提供给全世界的研究人员下载使用。作为学术论文的补充资料在网上发布的数据主要是文本文件或Excel格式的文件,这些数据往往都是经过归一化处理后的Ratio值或log2(Ratio),对于寡核苷酸芯片数据有的是P/A/M(Present/Absent/Don’t Know)的表示或基因绝对表达值。因为这些数据文件没有包含原始的实验方案、实验材料、原始扫描图像、图像处理方法和数据归一化方法等信息,对于要比较、集成和整合分析来自不同研究小组的基因表达数据是非常困难的。主要原因是微阵列并不是在任何客观的个体上测量基因表达水平,大多数测量值仅仅是基因表达的相对变化,而且使用的并不是一个标准化的对照样本。同时,基因表达数据比基因组序列数据要复杂的多,这些数据仅仅在有具体的关于实验条件的描述时才是有意义的,对于不同的细胞类型,在不同的条件下都有一套转录本。因此,基于微阵列的基因表达数据存储量是非常大的,对于具有20000个探针的微阵列实验,以10um的分辨率扫描,产生3千万个离散的数据点,如果以tiff文件贮存,将占用~60Mb的硬盘空间。

一方面是基因表达数据量非常庞大,数据中蕴含着丰富的生物学知识,另一方面是这些数据没有注释,迫切需要一种标准来描述和存贮微阵列基因表达数据,同时建立公共的微阵列数据仓库。欧洲生物信息学研究所(EBI)与德国肿瘤研究中心(DKFZ)在1999年成立了MGED讨论组(The Microarray Gene Expression Data)。MGED(https://www.360docs.net/doc/a24138694.html,/)是一个国际性的成员联盟,参与人员包括生物学家、计算机科学家、数据分析学家。它的目标是促进由功能基因组学和蛋白组学研究产生的微阵列数据的共享。当前集中于建立微阵列数据注释和交换的标准,推动微阵列数据库建设和相关软件来实现这些标准,促进高质量的、经过注释的基因表达数据在生命科学领域的共享。该组织开发的微阵列数据标准称为

MIAME(the minimum information about a microarray experiment),是对于解释和验证结果所必需的微阵列实验的最小信息描述。MIAME不是微阵列实验必须遵循的教条,而是一组指导方针,它将帮助微阵列数据库和数据分析工具的开发。同时,MGED组织开发了微阵列基因表达标记语言(MAGE-ML,Microarray Gene Expression - Markup Language),它是一种语言,用来描述和基于实验的微阵列信息的通讯,它基于XML,可以描述微阵列设计、微阵列制造信息,微阵列实验组织和实施信息,基因表达数据和数据表达结果。MIMAE标准和MAGE-ML语言受到了广泛关注。美国NCBI的Gene Expression Omnibus (GEO)、英国的EBI的ArrayExpress数据库都采用了该标准,斯坦福微阵列数据库(Stanford Microarray Database,SMD)也正在兼容该标准。

目前收集、存贮微阵列基因表达数据的最有影响的数据库和网站是GEO、ArrayExpress 和SMD。

GEO(https://www.360docs.net/doc/a24138694.html,/geo)是由NCBI在2000年开发的一个基因表达和杂交微阵列数据仓库,同时作为获取来自不同生物体的基因表达数据的在线资源。到2004年3月,数据仓库中包含内容605个Platforms,14391个Sample,816个Serial。Platform是关于物理反应物的信息,例如核酸、抗体和组织微阵列和SAGE数据等的基因表达数据被接受、增加和归档作为公共数据集。Series是关于样本集的信息,反映样本间的相关性和组织。

ArrayExpress(https://www.360docs.net/doc/a24138694.html,/arrayexpress/)是基于基因表达数据的微阵列公共知识库,目的是存储被很好注释的数据,当前包含多个基因表达数据集和与实验相关的原始图像集。ArrayExpress数据库接受MAGE-ML格式的数据递交或者通过MIAMExpress的基于Web的数据注释和递交工具。ArrayExpress提供一个简单的基于Web的数据查询界面,并直接与Expession Profiler数据分析工具相连,可以进行表达数据聚类,和其它类型的Web 数据发掘,并将进一步开发多个实验和数据库间的交叉查询。ArrayExpress数据库中的数据将与所有相关的由EBI维护的或在线的数据库相联接。

斯坦福微阵列数据库(SMD,https://www.360docs.net/doc/a24138694.html,/ )是一个使用Oracle作为数据库管理软件的关系数据库。SMD存储微阵列实验的原始、归一化数据和对应的图像文件。自从2002年1月1日起,到现在包括85篇学术论文,超过3500个双色点样DNA微阵列的实验数据,每年增加1000个微阵列实验的数据。另外,SMD提供数据获取、分析和可视化的界面,目前包括层次聚类和自组织映射等方法,还将加入k-平均聚类、单值分解和丢失值归纳等方法。

除了以上3个综合性的基因表达数据仓库外,还有一些专门的基因表达数据库,例如YMD (Yale Microarray Database,https://www.360docs.net/doc/a24138694.html,/microarray/)、ArrayDB (https://www.360docs.net/doc/a24138694.html,/arraydb/)、BodyMap(http://bodymap.ims.u-tokyo.ac.jp/)、ExpressDB(https://www.360docs.net/doc/a24138694.html,/ExpressDB/)、HuGE Index(Human Gene Expression Index,https://www.360docs.net/doc/a24138694.html,/welcome/index.html)等,这些数据库收集的数据往往具有物种特异性,使用比较方便。

8.2 基因表达数据预处理

一次微阵列实验能获得细胞在某一条件下的全基因组表达数据,包含成千上万个基因在细胞中的相对或绝对丰度,不同条件(细胞周期的不同阶段、药物作用时间、肿瘤类型、不

G?的数据矩阵M,通常情况下同病人等)下的全基因组表达数据就构成了一个N

x表示第i个基因在第j个条件下的表达水平值(在多数应用情G>>,其中每一个元素

N

ij

况下,表示的是Ratio 值或log(Ratio)值),行向量),,,(21.iN i i i x x x =x 代表基因i 在N 个条件下的表达水平,称为基因i 的表达谱,列向量T G i i i i x x x ),,,(21. =x 代表某一条件下的各基因的表达水平。

????????????=GN G G N N x x x x x x x x x 2122221

11211M (8-1)

注意排版,统一。公式背景为白底。

对基因表达数据进行分类、聚类等数据分析之前,往往需要进行预处理,包括对丢失数据进行填补、清除不完整的数据或合并重复数据等数据清洗,根据分析的目的进行数据过滤,以及针对分析方法选择适当的数据转换等预处理方法。

数据清洗是数据分析前必须进行的一项工作,对于基因表达数据,目的是去除表达水平是负值或很小的数据、或者明显的噪声数据(单个异常大或小的尖峰信号),同时处理缺失数据。微阵列实验得到的数据一般是经过归一化处理的,每个点的信号强度是前景信号减去背景信号,因此有时会出现负值或很小的值,显然负值是没有生物学意义的。对于这些数据点,通过数据过滤步骤可以置为缺失或赋予统一的数值,例如对于寡核苷酸芯片数据,将低于100的数据全部设置为100。微阵列表达数据由于实验条件和芯片的因素,检测得到的信号强度往往与细胞中实际的mRNA 丰度之间没有对应关系,因此,通常是采用两个条件下的信号强度的比值,例如在cDNA 微阵列双色实验中,最后得到的往往是Ratio 值。而寡核苷酸单色实验的结果是信号强度,然而在处理一组数据时,也往往选择一个样本作为对照样本,将实验数据转换成Ratio 值。在计算Ratio 值时,如果参考样本的信号强度很小,就可能得到很大的Ratio 。如果一个基因谱中仅仅存在单个特别大的Ratio 值,称之为异常数据点(outlier),这往往是由于噪声造成的。对于这个异常数据点,必须进行去除。数据的缺失对于某些后续数据分析方法(例如层次式聚类和PCA )来说有着非常大的影响,甚至是致命性的,这时必须采取相应的方法。一种方法是直接过滤掉这些存在缺失数据项的行向量或列向量。另一种方法是设定阈值,计算一个基因表达谱中的缺失项数目,如果达到该阈值,则将该基因表达谱从数据矩阵M 中删除;如果没有达到阈值但存在缺失项,对这些缺失项可以进行插值。以0代替或用基因表达谱的平均值或中值进行代替,这些方法比较简单,但是否与真实值接近,很难进行评估。较为复杂和可靠的方法是,分析基因表达谱的模式,从中得到相邻数据点之间的关系,根据这种关系,利用相邻数据点估算得到缺失值。这种方法类似于k 近邻方法,需要有足够的完整的模式来发现有缺失值的相邻模式,需要有足够的值来确定它们的邻居。

在细胞中,基因表达有时空特异性,在某一条件下,发生表达的基因占基因总数的少部分,而大多数基因仅维持基础转录或不转录,转录本丰度很小,因此微阵列实验得到的数据矩阵中存在大量的基因表达谱曲线是平坦的,即基因表达水平变化很小。对于这些基因,往往不是生物学家所关心的,而它们的存在,却会大大增加数据分析的复杂性,而且会对一些分析方法的结果有干扰。对这些数据进行过滤是非常有必要的,可以给出一定的比例,使存在的基因占总数的多少,这是与分析目的相密切相关的,例如是分析细胞周期,可以多保留一些基因,而对于肿瘤特异基因表达谱分析,可以少保留一点基因。过滤这些基因所采用的标准有:①基因表达谱中最大值与最小值的差;②标准差;③均方根;④绝对值大于阈值的数据个数等。根据分析的对象和目的,可以选择以上一个或多个标准,确定阈值,来选择基

因表达谱。

基因表达谱数据经过过滤,在进行聚类分析等操作前,往往还需要进行数据转换。数据变换是将数据转换为适合数据挖掘的形式,可以根据需要构造出新的数据属性以帮助理解分析数据的特点,或者将数据规范化,使之落在一个特定的数据区间中。因此,数据转换包括对数转换和标准化两个过程。

许多DNA 微阵列实验的结果是测量样本与对照样本间信号强度的Ratio 值,对于Ratio 值,在大多数情况下是转换到对数(log)空间中进行处理,常用的对数底为2, e, 10。考虑时间序列上的基因表达数据,实验结果是相对于0时刻的表达水平。如图8.1所示,假设在时间点1,基因的表达水平没有改变,在时间点2,上调2倍,而时间点3,下调2倍,原始的比率值分别为1.0、2.0、0.5。在大多数应用中,需要把上调2倍和下调2倍看作是变化的相同幅度,只是方向不同。在Ratio 空间中,时间点1和2之间的差异是+1.0,而时间点1和3之间是-0.5,从数学角度看,上调2倍的数值是下调2倍的2倍。而在log 空间中,(为了简化,用2为底),这三个数据点分别为0、1.0、-1.0,上调2倍与下调2倍是关于0对称的。因此,对数转换可以使小于1的值变大,大于1的值变小,从而使它们关于0对称化,这种变换是否反映了一定的生物学意义,能更直观的了解基因的上调或下调的幅度?尚没有定论,但是对于大多数基因表达数据分析过程,都是在log 空间中进行的。

图8.1 表达数据的Ratio 和log2(Ratio)表示

数据的标准化是将所有的数据转换到同一个范围内,这样做的好处是方便比较和计算相关系数,缺点是在标准差接近0的时候,会产生大的噪声,这也是首先要进行数据过滤的一个重要理由。数据标准化按如下公式进行, ∑=---=N j i ij i

ij ij x x N x x x 1

2)(11 8.2 ∑==N j ij i x

x 11

8.3

通过标准化,使得每个基因表达谱的平均值为0,标准差为1。如果要求所有的数据在[0,1]之间,还需要进行如下转换

)/()(min max min x x x x x --= },,,min{21min N x x x x = },,,max{21max N x x x x =8.4 而要求数据满足[a,b],则变换如下:

a x x x x a

b x +---=min max min ))(( 8.5

还有一种数据标准化方法是数据的中心化。对于来自细胞系的大量肿瘤样本与一个共同的对照样本比较,对于每一个基因,都有一系列的Ratio 值,相对于对照样本中那个基因的表达水平。因为对照样本通常对实验没有什么帮助,对照样本中的基因表达量是独立于分析的。这样可以通过调整每一个基因的数值来反映系列观察值的变化,例如平均值或者中值。这就是平均值/中值中心化,中心化可以减少参考样本的影响。中心化数据同样可以用于去除某些类型的偏差。许多双色荧光杂交实验的结果没有校正Ratio 值的系统偏差,它们是由于RNA 数量差异,标记效率和图像获取参数所造成的。这样的偏差对于所有的基因与一个固定数值的Ratio 有放大的效应。在log 空间的平均值和中值中心化有校正这种偏差的效果。数据中心化是基于这样的一种假设,在特定的实验中,基因的平均值期望比率是1.0(在log 空间中为0)。通常,更多的是使用中值中心化。

目前对数据预处理这种策略的作用还不是很清楚,还没有人进行系统的研究,提供有说服力的证据来帮助研究人员针对特定的任务选择特定的数据预处理的策略和方法。在具体应用时,往往是根据分析目的和个人经验选择不同的方法。

8.3 基因表达差异的显著性分析

在检测基因表达的微阵列实验中,有很大一部分是比较实验,目的是比较两个条件下的基因表达差异,从中识别出与条件相关的特异性基因,例如识别肿瘤特异性基因、药物特异响应基因等。为了提高实验的可靠性,对于两个条件,往往有两个以上的重复实验,但是由于微阵列实验仍然很昂贵,不可能重复足够的次数来满足实验数据分析的要求,因此需要采用一些比较复杂的方法来分析这些数据。对这些表达数据的分析目的就是要识别在两个条件下有显著表达差异的基因。何谓显著表达差异?通常是指一个基因在两个条件中表达水平的检测值在排除实验、检测等因素外,达到一定的差异,具有统计学意义,同时也具有生物学意义。分析方法有三类,一类称之为倍数分析,简单估计在两个条件中每个基因的表达水平的比值,设定阈值得到表达差异显著的基因;第二类方法是估计表达差异的置信度,采用的方法是t 检验和方差分析;第三类是建模的方法,通过确定两个条件下的模型参数是否相同来判断表达差异的显著性,例如贝叶斯方法。

8.3.1 倍数分析

早期基于cDNA 微阵列技术的比较实验,用倍数来分析基因表达水平差异,即计算两个条件下的表达水平的Ratio 值。用gi x 表示基因g 在条件i 中的表达水平测量值,因此,21/g g g x x r =表示基因g 在条件1和2中的表达水平比率。对于cDNA 微阵列实验,两个

条件的样本同时与同一微阵列进行杂交实验,得到的是成对数据,对于每次实验得到的数据计算g r ,最后计算多次重复实验的平均g r 。而对于寡核苷酸芯片,首先分别计算两个样本的重复微阵列实验的归一化表达水平的平均值,然后计算其比率。当g r =1时,基因g 的表达水平没有改变,而g r <1或g r >1意味着基因g 在两个条件下存在表达差异,特别是g r <1表示基因在条件1是下调的,而g r >1,表示在条件1是上调的。在具体应用中,如果一个基因的平均表达水平在两个条件下的变化超过一个常数,典型的常数是2,即g r >2或<1/2,则认为该基因的表达差异是显著的。然而,对表达数据仔细考察后提出,这样简单的2倍法并不能产生最优的结果,因为因子2在不同的表达水平上有相当不同的显著性。对于低表达水平的基因,其信噪比太低,用2倍法作为判断条件太宽松,而对于高表达基因,条件又太苛刻,往往小于2就有生物学意义上的表达差异显著性。在具体应用中,并没有明确的阈值,往往根据分析的具体要求由数据分析者自行确定,目前也没有关于这类简单的倍数分析方法的假阳性率和假阴性率的深入研究报道。

8.3.2 t 检验

对于两个条件下的多次重复实验,为了判断基因的表达差异是否具有显著性,在应用中较多的采用假设检验,包括两个条件下的t 检验和多个条件下的方差分析(ANOV A ),这里仅仅介绍t 检验。

零假设为210:g g u u H =,与之对应的备选假设是211:g g u u H ≠。t 统计量的计算公式如下:

2221212

1//n s n s x x t g g g g g +-= 8.6

其中 ∑==

j n j i gij gi n x x 1/,∑=--=i n j gi gij i gi x x n s 1

22)(11,i n 为某一条件下的重复实验次数。 如果t 超过了某个由给定的置信水平确定的阈值,就拒绝零假设,即认为基因g 在两个条件下的表达差异是显著的。因为在t 检验中,两个总体平均值之间的距离被经验得到的标准差归一化,可以克服固定倍数阈值方法的一些缺点。然而,对于微阵列数据的t 检验的基本问题是,即使用当前的高通量检测技术,实验仍然是花费很大或者实验过程很冗长,重复次数i n 经常较小,i n =2、3的小样本仍然非常普通。由于样本量小,导致总体方差被严重低估,得到的t 值就较大,因此会导致较高的假发现率(FDR, False Discovery Rate),即通过t 检验得到的结果中表达差异不显著的基因数目较多。这样,需要更好的分析方法来克服这些缺点。

在t 假设检验中,经常使用的显著性水平是p=0.01,其意思是在零假设正确的情况,进行100次抽样,会有1次错误地拒绝了零假设。对于微阵列实验,检测的基因数目巨大,如

果微阵列上有10000个基因,采用p=0.01,将会有100个基因是由于偶然性而被错误认为是有表达差异显著的。这个数目已经对后续的生物学分析可能会产生很大的干扰,从而导致t 检验分析结果的不可靠或失去意义。

为了解决这个问题,可以对t 检验进行了改进,降低由于分母上方差小而带来的错误,因此对t 检验的计算公式修改如下:

021s s x x d g g g g +-= 8.7

}][][{22221211∑∑-+-=n g i g n g i g g x x x x a s

8.8 )2/()/1/1(2121-++=n n n n a

8.9 假设g d 的分布是独立于基因表达水平的。因为较低的表达水平会使g s 的值较小,导致g d 的变化可以较高。为了保证g d 独立于基因表达,在分母上增加s 0,s 0的选择是最小化g d 的变化系数。通过对设计的一组对照样本的分析,可以确定阈值,g d 大于阈值的基因被认为是表达差异显著的。

8.3.3 贝叶斯分析

由于微阵列数据噪声大、波动大,而且在大量数据的背后还有很多相关变量不能被观察到,因此贝叶斯方法可以用来分析微阵列表达数据。贝叶斯分析可以简单描述如下:

)(/)()|()|(D P M P M D P D M P = 8.10

其中,P(M|D)表示由观测数据集D 得到参数化模型)(w M M =为真的概率,称为后验概率;P(M)称为先验概率,表示在没有得到任何数据之前所估计的模型M 为真的概率。P(D|M)是指似然度,表示从模型M 得到一个观测数据集D 的概率。贝叶斯推断是通过参数估计和模型选择来实现任务的,最常用的方法是最大后验概率(MAP)估计和最大似然(ML)估计。

在用贝叶斯方法分析表达数据时,首先假设在给定条件下,一个基因的表达水平测量值是独立的,并满足正态分布。根据经验,这一假设是合理的,特别是表达水平的对数大致服从对数正态分布。对于重复实验,也可以引入伽玛分布、高斯/伽玛混合分布等。一个基因在一种条件下的表达测量值可以用一个正态分布),;(2

σμx N 来建模。对每个基因和每个条件,都对应有一个双参数模型),(2σμ=w ,似然函数可以由下式给出: 2222/])1()

([2/222)(),;(),|(σσσμσμs n u x n n i i e C x N D P -+---==∏ 8.11

i 取遍所有的重复测量,C 表示归一化常数。似然度取决于充分统计量n 、x 和s 2。

先验概率分布),(2σμP 的选择有几种,一般采用共扼先验分布。先验分布的四个超

参数构成向量),,,(20000σνλμα=

220020002/])([)12/(212)(),(σσνμλνσσσμ+--+--=u e C P 8.12

对于微阵列数据,采用一个μ和2σ相互不独立的先验分布很有意义。经过一些代数运算,可以推导出后验分布具有与先验分布相同的函数形式:

),;()/,;(),|,(2222n n n n N D P σνσλσμμασμΓ= 8.13

其中

2

00022002000000)()1(μλλσνσνννλλλμλλμ-++-+=+=+=+++=x n

n s n n n

m n n n

n n n n n 8.14

后验分布的参数以一种合理的方式将先验分布的信息和数据信息结合了起来。后验分布是贝叶斯分析的基本对象,它包含了μ和2σ所有可能取值的相关信息,可以通过多种方法

进行估计。

对于两个条件下的每个基因的表达测量值都与两个模型相关,根据模型参数的不同可以判断基因的表达差异是否显著。贝叶斯方法部分地克服了由于实验重复次数少造成的t 检验的缺陷,如果实验次数很少(2或3次),贝叶斯方法比t 检验法效果好,如果有5次重复实验,两者结果相似。在重复次数为2时,贝叶斯方法的假阳性率会提高。

8.4 基因表达谱聚类分析

对于基因表达谱数据的分析是目前生物信息学的研究热点和难点。转化为数学问题,分析任务是从数据矩阵M 中找出显著性结构,结构类型包括全局模型(model)和局部结构(pattern),这些结构可以对基因或者条件形成亚类,结合生物学解释,这些亚类是细胞周期特异性的或者是肿瘤类型特异性的。因此,对基因表达谱数据的分析是数据挖掘问题,所采用的方法包括通过可视化进行探索性数据分析(Exploratory Data Analysis )、描述建模(descriptive modeling)、分类、聚类和回归等。

目前,基因表达谱分析所采用的方法主要是聚类,其目的就是将基因或条件分组,对于条件之间存在时间依赖关系的基因表达谱,更多的是对基因进行分组;而对于不同来源的肿瘤样本,首先是确定特征基因,然后获取这些特征基因的表达谱数据子集,对条件进行分类,从而可以获取与肿瘤类型相关的特征,这些特征也称为基因组指纹(genomic fingerprint )或签名(signature ),它们可以作为肿瘤的临床诊断标准或药效的评价标准。因为从数学的角度,对行或对列进行聚类所用的方法是一样的,不同的是对列进行分析时维度较大,样本数较小,结合生物学背景知识,通常需要降维,这个过程也称特征基因的选择过程,可以通过行向量的一些统计特征,例如方差、信息增益等,也可以用遗传算法等优化搜索算法来获取

特征基因。因此,以下部分主要是针对基因分组来介绍聚类算法。

从数学的角度,聚类得到的基因分组,一般是组内各成员在某数学特征上彼此相似,但与其它组中的成员不同。从生物学的角度,聚类分析方法所隐含的生物学意义(或基本前提)是,组内基因的表达谱相似,它们可能有相似的功能。当然,功能这个词太普通以至不能精确和定量,太广以至不能特指和特定意义。产物有相同功能的编码基因(例如对其它蛋白质有磷酸化作用),不一定共享相似的转录模式。相反,有不同功能的基因可能因为巧合或随机扰动而有相似的表达谱。尽管有许多意外的情况存在,大量功能相关的基因的确在相关的一组条件下有非常相似的表达谱,特别是被共同的转录因子共调控的基因,或者它们的产物构成同一个蛋白复合体,或者参与相同的调控路径。这就是在具体应用中,通过连坐(guilt-by-association )证据,根据一个简单的有相似表达模式的基因聚类,可以指派未知基因的功能。

聚类分析是模式识别和数据挖掘中普遍使用的一种方法,是基于数据的知识发现的有效方法,特别适用于模式分类数不知道的情况。从机器学习的角度来看,聚类分析可以分为两类,即有监督聚类和无监督聚类。在有监督聚类中,对于基因表达谱数据,首先对基因进行功能分类,然后选择这些基因的表达谱作为训练集,通过有监督学习获取每一功能类的特征模式,利用这些特征模式,可以构建分类器,对未知功能的基因根据表达谱进行分类,从而能够对未知功能的基因预测功能,常用的方法有支持向量机、人工神经网络、朴素贝叶斯分类、多元logistic 回归等。无监督聚类不需要任何先验领域知识,根据数学特征提取分类标准,对数据进行分类,这种数学特征的例子有统计平均值、相关系数、协方差矩阵的本征值及本征向量等。无监督聚类在基因表达数据分析中应用的很多,主要有层次式聚类、k 平均、自组织特征映射网络、谱聚类等。本节将对在基因表达数据分析中常用的聚类方法进行具体介绍。

8.4.1 相似性度量函数

对基因表达谱进行聚类分析之前,必须首先确定反映不同基因表达谱相似程度的度量函数,根据该函数可以将具有相似程度高的基因聚为一类。在实际计算中,还可以用距离代替相似的概念,相似性度量被转化为两个基因表达谱之间的距离。距离越小,表达模式越相近,反之,则表达模式差异大。

常见的相似性度量有距离、点积、相关系数(correlation coefficient )、互信息(mutual information )等。假设两个基因表达谱分别为X=(x 1,x 2,…,x m )和Y=(y 1,y 2,…,y m ),距离函数d(X ,Y)必须满足如下条件:

d(X ,Y) ≧ 0

d(X ,Y) = d(Y ,X)

d(X ,Y) = 0 if X = Y

d(X ,Y) ≦ d(X ,Z) + d(Z ,Y)

欧氏距离(Euclidean distance )是一个通常采用的距离定义,与测度的选择无关,它是在m 维空间中两个点之间的真正距离,两个基因表达谱之间的欧氏距离计算公式如下:

8.15

相关系数也是常用的相似性度量函数,计算公式如下:

8.16 ∑=-=m

i i i y x m Y X D 12)(1),(∑=Φ-Φ-=m i Y y X x m Y offset i X offset i Y X S 1

1))((),(

8.17

其中,G offset是G的各分量的均值,ΦG是标准方差。用上述两种相似性度量,可以找出表达模型相同或者变化趋势相同的基因,如图8.2(a)、(b)所示。欧氏距离、相关系数可以反映基因之间的共表达关系,两个基因表达谱间的距离小于或相关系数大于某个给定的阈值,就可以认为它们之间是共表达的。距离和相关系数之间存在相关性,在具体应用时,可以根据需要进行转换,例如d=1-r。

距离和相关系数反映的都是基因表达谱之间的相似性,这种相似性反映了基因的共表达行为,而基因的行为是复杂的,它们之间存在调控和被调控的关系,或者存在调控链,例如基因A调控B,B调控C,调控还有正性调控和负性调控之分。对于这些调控关系,它们的表达谱往往是不相似的,或者存在时延、或者存在反相,而基因表达的幅度也可能不相等。如何从数据中发现这些复杂的基因关系呢?互信息可能是一种有用的度量指标,其定义如下

8.18

MI(X,Y)是向量X和Y的互信息,H(X)是X的熵。

MI(X,Y)=H(X)+H(Y)-H(X,Y)

NMI(X,

Y)=MI(X,Y)/max[H(X),H(Y)] 8.19

NMI称为归一化互信息,它独立于单个信息熵,抓住了模式上的相似性。互信息聚类分析,没有规则上的约束。不象欧氏距离,MI不仅能确定负相关和非线性相关,同样可以反应正线性相关。因此,基于MI的聚类可能共享输入,但是对这些输入有不同的动力学过程。例如A,B得到C输入,A是上调,B是下调。

目前,还没有理论来指导如何选择最好的相似性度量,也许一个“正确”的距离在表达模式空间是不存在的,选择依赖于我们要问的问题。已知的共调控的基因在不同生物和基因调控网络中标准集可能有利于发现理论上的相似性度量。

8.4.2 无监督聚类方法(??)

对于基因表达谱的聚类问题,由于目前对基因表达的系统行为了解得不全面,没有聚类的先验知识,所以通常采用无监督聚类方法。在基因表达数据分析方面,层次式聚类、k均(a)(b)(c)

图8.2 两个表达模式之间的关系(a)相似;(b)变化趋势一致;

(c)两个基因的调控制输入一样,但是调控结果不一样,甚至相反。

=

-

=

Φ

m

i

offset

i

G m

G

G

,1

2

)

(

)

(

log

)

(

)

(

1

2i

m

i

i

x

p

x

p

X

H∑

=

-

=

值、自组织映射神经网络是应用中的常用方法。下面主要介绍这几种常用的聚类方法,并简单介绍一些其它方法。

8。4。2。1.简单聚类

假设有G 个基因,它们的表达谱分别用向量表示为..2.1,,,G x x x 。令任意一个基因的表达向量为第一个聚类的中心1z ,假设选择.11x z =。然后计算.2x 到1z 的距离D 21,如果D 21大于给定的阈值T ,则说明.2x 不属于第一类,应该分到另外的类。在这种情况下,建立一个新的聚类中心.22x z =。如果D 21小于阈值T ,则将.2x 分到第一类中。接着处理其它基因,在处理第i 个基因时,首先计算该基因的表达谱与现有各类中心的距离,假设与第j 类的距离D ij 最小,并且D ij

简单聚类算法的结果与第一个聚类中心的选择、基因的顺序、阈值T 以及基因表达谱在其空间的分布有关。该方法对于给定的一组表达数据模式进行初步分类提供了一种快速的算法。

8。4。2。2.层次聚类法

层次聚类法,在统计分析中也称为系统聚类法,原理与算法与第六章所介绍的系统发生树连锁构造方法类似,所不同的只是将所分析的数据由生物分子序列换成了这里的基因表达谱。该方法在基因表达谱聚类分析中是常用方法,它的优点是容易理解和实现,所得到的结果以树状图的形式表示,可以直观地观察基因之间的相互关系,尤其是类与类之间的关系。但是,基因表达谱的数量很多,往往要多于系统发生树分析时的物种数量,而且基因之间的相互关系信息也没有物种之间的多,所以对聚类结果的后续分析要比系统发生树分析复杂的多。对于表达谱聚类的结果还需要进一步分析基因的功能或者基因的序列特征,要通过剪枝才能得到分类,而剪枝的过程带有更多的主观性,这会导致丢失一些重要的信息或包括一些无关的信息。此外,在构建系统树时,已被合并的向量不再参与以后的分类,这会导致聚类结果与向量的次序有关,所以被认为是一种局部最优解的方法。

8。4。2。3.K 均值聚类

K 均值聚类在数据划分上不考虑类的分层结构问题,该算法使待聚类的所有样本到聚类中心的距离平方和最小,这是在误差平方和准则的基础上得到的。

K 均值聚类算法的基本过程如下:

(1) 任意选取K 个基因表达向量作为初始聚类中心z 1, z 2,…, z k ,在没有先验知识

的情况下,一般选择前K 个基因;

(2) 反复迭代计算。在第l 次迭代过程中,如果||)1(||||)1(||i j z x z x -<-

(i=1,2,…,K,i ≠j),则将X 所代表的基因归于第j 类。按照上述办法处理所有

的基因;

(3) 经过上述处理,聚类可能发生变化,因此需要重新计算K 个新聚类中心: j=1,2,…,K 8.20 ∑

∈=+)(1)1(l f j j j N l Z x x

其中f j (l)为第l 次迭代中第j 个聚类的基因集合,N j 为该集合中基因的个数。

(4) 对于所有的聚类中心,如果Z j (l+1)=Z j (l)(j=1,2,…,K),则迭代结束,得到最

后的聚类结果;否则转第2步,继续进行迭代计算。

聚类中心的个数K 、初始聚类中心的选择、基因排列的顺序以及基因表达数据的分布影响聚类的结果,当基因表达模式类别之间分离较远时,该算法可以取得令人满意的聚类分析结果。

8。4。2。4.自组织映射神经网络

人工神经网络技术在模式识别方面有着独特的优势,在生物信息学中的应用也非常广泛,如基因识别、蛋白质结构预测等。神经网络能够进行非线性数据处理,发现复杂的数据关系,其中,自组织映射神经网络(Self-Organizing Map ,SOM )可以对模式数据进行自动聚类。

自组织特征映射是Kohonen 在1990年提出的类似大脑思维的一种人工神经网络方法,它是一种竞争学习算法,可以被认为是一种从N 维模式空间各点到输出空间少数点的映射。这一映射由系统本身完成,没有外部的监督,即聚类是以自组织的方式实现的。SOM 采用无教师学习训练,训练完成后,分类信息存储在网络个节点连接权值向量中,具有与权值向量相似的输入向量将分为一类。SOM 包括一维和二维模型,二维SOM 也称为KFM(Kohonen Feature Mapping)。它们的区别在于KFM 考虑邻近神经元的相互作用,即获胜神经元对周围神经元由于距离的不同会产生不同的影响。

KFM 的结构如图8.3所示,输出单元呈二维排列。Kohonen 认为,神经网络中邻近的各个神经元通过侧向交互作用彼此相互竞争,自适应地发展成检测不同信号的特殊检测器。该思想来自于大脑神经元的特性,即大脑皮层的神经元成二维空间排列,不同区域分工不同,各自对输入模式的不同特征敏感,神经元之间存在信息交互,主要是侧向交互,即某主响应神经元对周围神经元之间存在有近到远的不同的影响作用,而不是简单的侧抑制作用。对邻近神经元的交互作用函数有巴拿马草帽型或矩形型。 ?????>≤-=R R d R d j F cj c d 0 1)( 8.21

???>≤=R R d j F c d 0 1)(

图8.3 SOM 的结构图。

其中d cj 是输出单元c 与邻近单元j 之间在神经元平面上的距离,R 是交互作用半径。

KFM 的学习过程是:

(1) 用随机数设定权值初始值,并进行权向量归一化计算,在以后的每次修正权向量之后

也要进行归一化,使其满足 12

2==∑i j ij w W ;

(2) 反复进行以下运算,直到达到预定学习次数或每次学习后权值改变量小于某一阈值。

(a )输入一个样本向量x ,计算各输出单元强度 ∑=

=i

i ij T j j x w W net x (b )找出主兴奋单元c ,使)(max j j c net net = (c )确定各输出单元在主兴奋单元影响下的兴奋度 y j =F c (j)

(d )计算各权值修正量i j j ij x net y w )(-=?η

(e )根据学习次数更新学习步长η和邻域交互作用半径R

学习过程可以采用从全局到局部的策略,在这种策略下,学习初期可设定较大的交互作用半径R ,随着学习过程的不断推进,逐步减小R ,直至不考虑对邻近单元的影响。邻域的形状可以为正方形、正六边形或圆形。

KFM 的聚类结果与k 平均法相似,它的优点是自动提取样本数据中的信息,同时也是一种全局的决策方法,能避免陷入局部最小,缺点在于必须实现人为设定类的数目与学习参数,而且学习时间较长。KFM 方法克服了K-均值聚类的一些缺点:它应用类间的全局关系,能提供大数据集内相似性关系的综合看法,便于研究数据变量值的分布及发现类结构。而且,它具有更稳健更准确的特点,对噪声稳定,一般不依赖于数据分布的形状。但它是一种拓扑保留的神经网络,产生不均衡分类。若不相关数据(如不变的“平坦”谱)或某种特定形式的谱过多,从而感兴趣的数据只能处于少数类,分辨率就可能很低。因此,在应用KFM 前,一般要对数据进行筛选。

8。4。2。5. 其它聚类方法

聚类方法是数据挖掘中的基本方法,方法很多,在基因表达谱的分析中,除了以上常用方法外,还有一些方法也被应用。然而,由于对聚类结果尚没有一种有效的方法进行评价,尤其是对聚类结果的进一步生物学知识发现尚没有新的分析思路和成功应用,因此这些方法更多的是方法研究,而没有进入到实用阶段。但是这些方法有不同的原理,能够提取不同数据模式的特征,有可能对具体的数据得到有意义的结果,发现更多的生物学知识。这里,简单介绍这些方法的原理,更详细的介绍请参看相关文献。

不用公式,简述核心思想!

(1)模糊聚类分析方法

这是一种模拟人类的思维方法,通过隶属度函数来反映某一对象属于某一类的程度。基本过程包括:计算两两基因表达谱之间的相似系数构建模糊相似矩阵,利用模糊数学中的传递闭包计算方法得到模糊等价矩阵,选择不同的置信水平就可以从模糊等价矩阵中构建动态聚类图。对于特定的置信水平,可以对基因进行分类。该方法的优点是利用了模糊数学中的隶属度概念,能够更好的反映基因之间的相互关系,而且它是一种全局的优化方法,与向量的顺序无关。

(2)模糊C 均值算法

该方法同样将模糊数学中的隶属度概念引入到k 均值聚类方法中,C 均值方法也称为硬分类。判断一个基因表达谱是否属于某一类时,以隶属度来确定属于每一类的可能性,因此

在计算聚类中心时也必须考虑所有表达谱向量的隶属度。聚类中心向量m 和隶属度μ的计算公式如下:

[][],,,2,1,)()(11

c j n

i b i j n i i b i j j ==∑∑==x μ

x x m 8.22 c j n i c k b k i b j i i j ,,2,1,,2,1,)1()

1()(1)1(12

)1(12 ==--=∑=--m x m x x μ 8.23 {}n i x i ,,2,1, =是n 个样本组成的样本集合,c 为预定的类别数目,c i m i ,,2,1, =为每个聚类的中心,)(i j x μ是第i 个样本对于第j 类的隶属度函数。聚类的评价是最小化聚类损失函数,计算公式如下:

[]∑∑==-=c j n i j i b i j f m x x J 112)

(μ, 8.24

其中b>1是一个可以控制聚类结果的模糊程度的函数。当算法收敛时,就得到了各类的聚类中心和各个样本对于各类的隶属度值,从而完成了模糊聚类划分。如果需要,还可以将模糊聚类结果进行去模糊化,即用一定的规则把模糊聚类划分转化为确定性分类。

(3)超顺磁性聚类(superparamagnetic clustering )

这是一种基于模拟非均匀铁磁物质的物理特性的聚类方法,将数据聚类问题视为检验不均匀Potts 模型的平衡特性。根据表达谱向量之间的距离矩阵构建图,顶点是数据点,如果两个点之间的距离满足K-mutual-neighbor 准则,则称为邻居。数据点的聚类等价于有权图的划分。给每一数据点分配一个Potts 自旋子,相邻数据点间引入强度随距离下降的相互作用函数。非均匀Potts 模型系统随温度变化表现出三相:在低温下,所有自旋子呈现完全有序的排列,系统为铁磁相;随着温度的升高,小区域自旋子形成磁化“颗粒”,附属于同一“颗粒”者相互间产生强耦合,而无关者间相互作用很弱,不同“颗粒”的排列呈无序状态,为超顺磁相;在高温下,系统不表现任何有序性,为顺磁相。在超顺磁相的转换温度下,磁化率表现出显著的峰值。原则上,超顺磁相可以有一系列的转换点。随着温度的升高,系统可以首先分裂为两类,其中每一类又可以分裂为更多的子类,这样,数据就分层组织为类。SPC 算法的优点是对噪声及初始化不敏感,因为类由系统的综合性质产生。由磁化率的峰值很容易鉴别主要的分界,从而能清楚显示类的构成和分界,并且在每一个分辨率上能自动确定类数。

(4)谱聚类(Spectral clustering )

k 均值聚类对于聚类中心相距较远的数据样本具有很好的聚类效果,而对于具有同心圆特征的数据样本很难得到好的效果,而谱聚类能够很好的对这类样本进行聚类。谱聚类是一种基于矩阵特征向量的方法,也是一种能根据顶点之间的权值对图进行划分的方法。用图表示基因表达谱矩阵,基因表达谱可以看作是一组顶点,连接顶点的边的权值反映了两个表达

谱之间的相似性,这样就得到有权无向图G=(V,A),聚类过程等价于将G划分为不连接的子集,这可以通过简单地删除连接边来实现。聚类过程包括两个步骤:第1步是将表达谱空间转化为相似度矩阵的特征向量空间;第2步是应用简单的k均值法对特征向量空间的特征向量进行聚类,得到的结果就对应了基因表达谱的聚类结果。该方法可以根据特征值自动确定分类数目。谱聚类在聚类过程中进行了特征空间的转换,可以将大的空间转化为较小的空间,从而可以更快速的处理大规模的数据。

(5)双向聚类法

以上所述方法主要是对基因表达谱进行聚类,将具有相似表达模式的基因分为一组,这是在应用中要解决的主要问题。数据矩阵中列表示了实验条件,可以是时间序列也可以是不同的肿瘤样本或病人样本。从数学的角度,数据矩阵中的每一列对基因表达谱的行聚类结果有着不同的影响,挑选部分列进行行聚类的结果与选择所有列进行聚类的结果是不同的。从生物学应用的角度,对列进行聚类可以发现各实验条件之间的相互关系,例如同一肿瘤类型的样本可以聚成一类,它们具有相似的基因表达模式,这样就可以基于表达谱对肿瘤进行分类。将两者结合起来,就称为双向聚类法,在行和列两个方向上进行聚类分析,通常采用贪婪迭代检索的方法来发现子矩阵或稳定的类,这些子矩阵中感兴趣的模式具有特定的生物学意义。在应用中,可以根据具体的目的,确定以降低基因维还是以降低样本维为主,通过迭代得到稳定的若干样本分类或基因分组。

8.4.3 有监督聚类方法(分类??)

如上所述,对于基因表达谱数据矩阵M,在对行或列向量进行聚类时很少或根本不需要生物学知识,所得到的结果是否具有生物学意义,还需要进一步的分析。然而,对于特定的数据矩阵,都有特定的生物学背景,例如基因之间存在相关性,可以分成若干功能类,样本之间也存在某种关系,可能来自相同肿瘤的病人。将这些知识应用于聚类方法中,挑选部分样本作为训练样本,可以提取特征构建分类器,然而对其它的样本进行分类,实现聚类的目的。这种方法称为有监督聚类方法,可以分类两类,一类是基于模型的方法,另一类是不基于模型的方法,包括人工神经网络和属于机器学习的支持向量机。这里主要介绍支持向量机的原理和基本方法。

8。4。3。1 支持向量机(support vector machine,SVM)

统计学习理论是目前针对小样本统计估计和预测学习的最佳理论,它从理论上较系统地研究了风险最小化原则成立的条件,有限样本下经验风险与期望风险的关系,以及如何利用这些理论找到新的学习原则和方法等问题。支持向量机是实现统计学习理论思想的具体方法,可以用于解决小样本、非线性及高维学习问题,不需要足够的样本来构建特征空间,而仅仅需要少量的样本来构建分类界面,这些用来构建分类界面的样本就称为支持向量。

考虑图示的二维两类线性可分情况,图8.4中实心点和空心点分别表示两类的训练样本,H是把两类没有错误地分开的分类线,H1,H2分别为过各类样本中离分类线最近的点,且平行于H的直线,H1、H2之间的距离叫做两类的分类空隙或分类间隔,最优分类线就是要求分类线不但能将两类无错误地分开,而且要使两类的分类空隙最大,前者是保证经验风险最小。使分类空隙最大,实际上就是使推广性的界中的置信范围最小,从而使真实风险最小。对于高维空间,最优分类线就成为最优分类面。

图8.4 两维两类的分类线 假设线性可分样本集为),(i i y x ,i=1,2,…,n,}1,1{-+∈i y ,d

R ∈x ,则分类判别函数为b g +?=x w x )(,分类面方程为0=+?b x w 。将判别函数归一化,使两类所有样本都满足1|)(|≥x g ,即使离分类面最近的样本的判别值为1,这样分类间隔||||/2w =。要使间隔最大,必须使||||w 最小,要求分类线对所有样本正确分类,就要求它满足:

01][≥-+?b y i i x w 8.26

因此满足上述条件且使||||w 最小的分类面就是最优分类面。过两类样本中离分类面最近的点且平行于最优分类面的超平面H 1,H 2上的训练样本就是使等号成立的那些样本,叫支持向量(Support Vectors ),它们支撑最优分类面。

那么,如何求最优分类面?根据上述讨论,最优分类面问题可以表示成在条件8.26的约束下。求函数)(2/1||||2

1)(2w w w w ?==φ的最小值。为此,可以构建Lagrange 函数 ∑=-+?-=n i i i i b y b L 1

2}1][{||||21),,(x w w x w α, 8.27 其中0>i α,为Lagrange 系数,问题是对w 和b 求Lagrange 函数的极小值,分别对w 和b 求偏微分并令它们等于0,在约束条件

∑==n i i i

y 10α,n i i ,,1,0 =≥α 8.28

之下,对i α求解函数的最大值,

∑∑==?-=n

j i j i j i j i n i i y y Q 1,1

)(21)(x x αααα 8.29 若*i α为最优解,则∑=i i i y x w *

*α,即最优分类面的权系数向量是训练样本向量的线性

组合。

求解上述问题后得到的最优分类函数是

})(sgn{})sgn{()(****∑+?=+?=b y b x f i i i x x x w α 8.30

sgn()为符号函数,由于非支持向量对应的i α均为0,因此式中的求和实际上只对支持向量进行,而b *是分类的阈值,可以由任意一个支持向量求得,或通过两类中任意一对支持向量取中值求得。从最终的分类判别函数中可以看到,只含有待分类样本与训练样本中的支持向量的内积运算。

对于二类情况的分类,就是要构建最优分类面或超平面。对于大多数真实世界的问题,包含不可分的数据,也就是在数据空间中不存在一个超平面可以成功的区分二类样本,一个解决办法是将数据映射到更高维的空间,在那里定义一个可分隔的超平面。这个更高维的空间称为特征空间,而对应的训练样本所在的空间叫输入空间。问题就成为如何选择一个足够维度的特征空间,使得训练数据可分?这里有计算和学习理论的代价。还有一个风险是人为分隔数据可能使学习系统有过学习的风险。SVM 可以避开这两个问题,避免过学习的问题,通过在特征空间中从众多可分隔超平面中选择最大边缘分隔超平面。

SVM 的基本思想是首先通过非线性变换将输入空间变换到一个高维的特征空间,然后在这个新空间中求取最优线性分类面,而这种非线性变换是通过定义适当的内积函数实现的。用于超平面分类点的决策函数仅仅包含特征空间中点之间的点积,因此寻找特征空间中可分隔超平面的算法完全可以用输入空间中的向量和特征空间中的点积来陈述。SVM 能够定位超平面,不需要明确的表示特征空间,只需要简单的定义称为核心函数的函数,它在特征空间中起着点积的作用,这个技术避免了明确表示特征向量的计算负担。

SVM 的判别函数为:})(sgn{

)(1**∑=+?=n i i i i b K y x f x x α 8.31

一些简单的核心函数有: 多项式形式的内积函数q K )1(),(+?=y x , q =1,2,3,… 8.32

核函数型内积:)2/||||exp(),(22αy x --=K 8.33 α是高斯宽度,等于正样本与最近负样本间欧氏距离的中值,得到的SVM 是一种径向基函数分类器。

8。4。3。2 基于模型的聚类方法

在基因表达数据显著性分析时,我们提到贝叶斯方法的应用,它是根据重复实验数据分别构建模型,通过比较两个条件下的模型参数来确定表达差异的显著性。同样,基因表达谱分析也可以引入建模的方法,假定每一个基因表达谱是由一种内在的概率模型产生的,它满

足一定概率分布或者有限组合,例如多元正态分布,而所有的基因表达谱是由若干个概率模型产生的,这样就可以通过确定这些概率模型,来实现对基因表达谱聚类的目的。高斯混合模型在许多聚类应用中都是很有用的工具。与启发式聚类算法比较的最大的优势是,没有严格的方法来确定类的数目或最佳的聚类方法。

基于混合模型聚类假定数据中蕴含的每一组(成分)由一种内在的概率分布混合产生,例如,高斯混合模型中,独立多元观测y 1,y 2,…,y n 组成的数据Y 中每一成分k 由参数为u k (均值矢量)和Σk (协方差矩阵)的多元正态分布模拟,

)

2det()}

()(2/1exp{),|(1k k i k T k i k k i k f Σu y Σu y Σu y π---=- 8.34 算法的目标是由数据预测参数u k 和Σk ,并确定相应于这些参数预测的类。为了便于参数预测,对Σk 进行特征值分解:T k k k k k D A D Σλ=, D 为特征向量组成的正交矩阵,确定成

分的取向,A 为对角矩阵,元素与Σk 的特征值成正比,确定成分的形状,λ为标量,确定成分的体积。约束和改变部分参数,可以得到这一框架下的一组模型,如等体积球模型(EI :I Σλ=k )I 为单位矩阵、不等体积球模型(VI:I k k λ=∑)等,以适应数据特征的变化。每一种协方差矩阵与类数组合情况相应于不同的概率模型,由贝叶斯信息准则(BIC)估计每一种模型下数据被观测到的概率,计算结果的BIC 的得分,最后选择BIC 的得分做大的模型和参数。

8.4.4 聚类结果的可视化

对微阵列基因表达谱的聚类分析得到的一般是基因的分组信息和基因表达谱在某种关系上的相互关系,如何进一步了解同组基因的表达谱差异?不同组基因之间是否存在相互关系?哪些基因是上调或下调的,幅度变化有多大,在何种条件下发生较大的变化?等等生物学家普遍关注的问题,需要通过简单、直观的方法来得到这些答案。数据对于大多数人来说太抽象了,而文字的描述又不能反映数据的本质,所以采用可视化的方法可以大大方便对表达谱分析结果的理解,有利于对这些问题的回答。

在数据挖掘中,可视化方法可以用来发现数据中的结构,在数据探索中占有特别重要的地位,这是因为人类的眼睛和大脑具有强大的结构探测能力——这是长期进化的成果。可视化方法就是以各种可以发挥出人类在模式处理方面的特殊能力的方式来显示数据。可视化方法在数据挖掘中具有非常重要的地位,它是筛选数据寻找未知数据关系的理想方法。可视化方法是生物信息学中常用的一种表示和发现生物学知识的方法,典型的例子有蛋白质三维构象的表示、转录因子DNA 结合位点一致序列的logo 表示、基因调控网络的图形表示等。 基因表达谱的数据特点是基因数目多,样本少,而每一个数据点所表示的是基因在特定条件下的表达数据,经过数据预处理后,往往是与参考样本表达水平的比值的对数值,负值表示基因表达水平的下调,正值表示上调,值的绝对值反映了变化的幅度。因此,对于表达谱数据及其聚类结果通常用两种方式表示:

①彩色盒图和树状图(dendrogram)。所谓的彩色盒图是用不同的颜色小方盒来表示基因表达谱数据,一个小方盒表示一个数据,绿色表示数据小于0,红色表示数据大于0,相对应其生物学意义是对应的基因在相应的条件下是上调还是下调,而颜色的深浅反映了数据的绝对值大小。基因表达谱的很多聚类结果是以树状图的形式表示的,例如层次式聚类、模糊聚类和SPC 等,对于这些结果的可视化是通过树状图和彩色盒图相结合表达的(如图8.5a 所示)。

全基因组表达谱分析方法(DGE)

全基因组表达谱分析方法(DGE)----基于新一代测序技术的 技术路线 该方法首先从每个mRNA的3’端酶切得到一段21bp的TAG片段(特异性标记该基因);然后通过高通量测序,得到大量的TAG序列,不同的TAG序列的数量就代表了相应基因的表达量;通过生物信息学分析得到TAG代表的基因、基因表达水平、以及样品间基因表达差异等信息。技术路线如下: 1、样品准备: a) 提供浓度≥300ng/ul、总量≥6ug、OD260/280为1.8~2.2的总RNA样品; 2、样品制备(见图1-1): a) 类似SAGE技术,通过特异性酶切的方法从每个mRNA的3’末端得到一段21bp 的特异性片段,用来标记该基因,称为TAG; b) 在TAG片段两端连接上用于测序的接头引物; 3、上机测序: a) 通过高通量测序每个样品可以得到至少250万条TAG序列; 4、基本信息分析: a) 对原始数据进行基本处理,得到高质量的TAG序列; b) 通过统计每个TAG序列的数量,得到该TAG标记的基因的表达量; c) 对TAG进行注释,建立TAG和基因的对应关系; d) 基因在正义链和反义链上表达量间的关系; e) 其它统计分析; 5、高级信息分析: a) 基因在样品间差异表达分析; b) 库容量饱和度分析;

c) 其它分析; 测序优势 利用高通量测序进行表达谱研究的优势很明显,具体如下: 1.数字化信号:直接测定每个基因的特异性表达标签序列,通过计数表达标签序列的数目来确定该基因的表达量,大大提高了定量分析的准确度。整体表达差异分布符合正态分布,不会因为不同批次实验引起不必要的误差。 2.可重复性高:不同批次的表达谱度量准确,能够更准确的进行表达差异分析。 3.高灵敏度:对于表达差异不大的基因能够灵敏的检测其表达差异;能够检测出低丰度的表达基因。 4.全基因组分析,高性价比:由于该技术不用事先设计探针,而是直接测序的方式,因此无需了解物种基因信息,可以直接对任何物种进行包括未知基因在内的全基因组表达谱分析,因此性价比很高。 5.高通量测序:已有数据表明,当测序通量达到200万个表达标签时,即可得到样本中接近全部表达基因的表达量数据,而目前每个样本分析可以得到300 万~600万个表达标签。

16种常用数据分析方法

一、描述统计描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。 1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率回归法、决策 树法。 2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W 检验、动差法。 二、假设检验 1、参数检验 参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验。 1)U验使用条件:当样本含量n较大时,样本值符合正态分布 2)T检验使用条件:当样本含量n较小时,样本值符合正态分布 A 单样本t检验:推断该样本来自的总体均数卩与已知的某一总体均数卩0 (常为理论值或标准值)有无差别; B 配对样本t 检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似; C 两独立样本t 检验:无法找到在各方面极为相似的两样本作配对比较时使用。 2、非参数检验 非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。 适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。 A 虽然是连续数据,但总体分布形态未知或者非正态; B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10 以下; 主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。 三、信度分析检査测量的可信度,例如调查问卷的真实性。 分类: 1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度 2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。 四、列联表分析用于分析离散变量或定型变量之间是否存在相关。对于二维表,可进行卡 方检验,对于三维表,可作Mentel-Hanszel 分层分析列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。 五、相关分析 研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。 1、单相关:两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量; 2、复相关:三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以

(生物科技行业)CT法分析基因相对表达量

利用实时定量PCR和2-△△CT法分析基因相对表达量METHODS 25, 402–408 (2001) Analysis of Relative Gene Expression Data Using Real-Time Quantitative PCR and the 2-△△CT Method Kenneth J. Livak* and Thomas D. Schmittgen?,1 *Applied Biosystems, Foster City, California 94404; and ? Department of Pharmaceutical Sciences, College of Pharmacy, Washington State University, Pullman, Washington 99164-6534 摘要: 现在最常用的两种分析实时定量PCR 实验数据的方法是绝对定量和相对定量。绝对定量通过标准曲线计算起始模板的拷贝数;相对定量方法则是比较经过处理的样品和未经处理的样品目标转录本之间的表达差异。2-△△CT方法是实时定量PCR 实验中分析基因表达相对变化的一种简便方法,即相对定量的一种简便方法。本文介绍了该方法的推导,假设及其应用。另外,在本文中我们还介绍了两种2-△△CT衍生方法的推导和应用,它们在实时定量 PCR 数据分析中可能会被用到。 关键词:反转录PCR 定量PCR 相对定量实时PCR Taqman 反转录 PCR (RT-PCR )是基因表达定量非常有用的一种方法(1 - 3 )。实时PCR 技术和RT-PCR 的结合产生了反转录定量 PCR 技术(4 ,5 )。实时定量PCR 的数据分析方法有两种:绝对定量和相对定量。绝对定量一般通过定量标准曲线来确定我们所感兴趣的转录本的拷贝数;相对定量方法则是用来确定经过不同处理的样品目标转录本之间的表达差异或是目标转录本在不同时相的表达差异。 绝对定量通常在需要确定转录本绝对拷贝数的条件下使用。通过实时 PCR 进行绝对定量已有多篇报道(6 - 9 ),包括已发表的两篇研究论文(10,11 )。在有些情况下,并不需要对转录本进行绝对定量,只需要给出相对基因表达差异即可。显然,我们说 X 基因在经过某种处理後表达量增加 2.5 倍比说该基因的表达从1000 拷贝/ 细胞增加到2500 拷贝/ 细胞更加直观。 用实时PCR 对基因表达进行相对定量分析需要特殊的公式、假设以及对这些假设的验证。2-△△CT方法可用于定量PCR 实验来计算基因表达的相对变化:2-△△CT 公式的推导,以及实验设计,有效性评估在Applied Biosystems User Bulletin

基因表达谱测序

基因表达谱测序 背景介绍 基因表达谱分析利用HiSeq 2000高通量测序平台对mRNA进行测序,获得10M读长为49nt的原始reads,每一个reads可以对应到相应的转录本,从而研究基因的表达差异情况。与转录组测序相比,基因表达谱分析要求的读长更短,测序通量更小,仅可用于基因表达差异的研究。该方法具有定量准、可重复性高、检测阈值宽、成本低等特点,能很好的替代以往的数字化表达谱分析。 技术路线

生物信息学分析 送样要求 样品要求 1. 所需Total RNA 的量均不少于 20μg/文库,Total RNA 可以保存在DEPC 处理过的水中、75%的乙醇、异丙醇中,具体以什么方式保存请注明。 2. 如提供实验材料为动物组织材料,样品质量需大于2g ; 3. 如提供实验材料为植物样品,样品质量需大于4g ; 4. 如提供实验材料为培养细胞,请提供1×107培养好的细胞; 5. 如提供实验材料为血液样品,请提供≥2ml 的样品。 我们强烈建议在送样的同时客户做好备份,以备后续实验之用。 样品纯度要求 1. OD 260/OD 280在1.8- 2.0之间,RNA 无降解、28S 和18S 核糖体RNA 条带非常亮且清晰(其

大小决定于用于抽提RNA的物种类型),28S的密度大约是18S的2倍;Agilent 2100检测仪分析RNA完整性数据RIN≥8。 2. 无蛋白质、基因组DNA污染,如有污染请去蛋白并进行DNase I处理。 请提供至少一种样品的凝胶电泳或者Agilent 2100检测仪检测图片,并注明其浓度、体积、OD260/OD280、溶剂名称、制备时间、物种来源以及特别备注。最终以我方定量、质检为准。 样品采集 为了保证提取RNA的完整性,确保后续实验的顺利进行,请务必确保样品的新鲜,对于如何确保样品的新鲜针对不同的样品获取材料的方法如下: 1. 动物组织:从活体上迅速的取下组织(切成黄豆粒大小的块状),每切成一个黄豆粒大小的块状立即放入液氮中,重复上述操作,直至足够提取总RNA的量;准备一个50ml的离心管,做相应的标记(样品名称、编号、客户姓名、时间),最好既在管盖上做好标记,也在管壁上做好相应的标记,先放入液氮中预冷2-3min,拿出离心管(离心管的下部分还是保持在液氮中),打开离心管的盖子,将液氮中黄豆粒大小的块状收集进离心管中。 2. 植物组织: (1)如所采集的是果实、麦穗等体积偏大的样品,收集样品请参照1.动物组织取样方法;(2)如采集的是叶片等体积偏小的样品,请尽量采集嫩叶、幼芽等,每采集一片叶片立即放入液氮中,直至足够提取总RNA的量,后续操作请参照动物组织的采集。 (3)如是植物的花,在采集花骨朵的时候请尽量不要采集到花萼、叶片等,每采集一个花骨朵请立即放入液氮中,直至足够提取总RNA的量;后续操作请参照动物组织的采集。3. 如提供实验材料为菌丝体,请取500μl的菌液于1.5ml离心管中,离心去上清,剩余菌丝体放入液氮或干冰中,请提供不少于5管的菌丝体。 样品运输 从液氮中取出准备好的样品,请立即放入干冰中,并用干冰掩埋好样品。请填写完整订单,放入自封袋中与样品一起邮寄。为防止RNA的降解,请确保干冰的量足够运送到目的地。我们强烈建议在寄送RNA样品时将RNA保存在75%的乙醇或异丙醇中。 如是特殊样品,关于送样量和保存问题请与我们联系沟通,以便双方共同协商解决。 提供结果 根据客户需求,提供不同深度的信息分析结果。

基因表达谱芯片的数据分析

基因表达谱芯片的数据分析(2012-03-13 15:25:58)转载▼ 标签:杂谈分类:生物信息 摘要 基因芯片数据分析的目的就是从看似杂乱无序的数据中找出它固有的规律, 本文根据数据分析的目的, 从差异基因表达分析、聚类分析、判别分析以及其它分析等角度对芯片数据分析进行综述, 并对每一种方法的优缺点进行评述, 为正确选用基因芯片数据分析方法提供参考. 关键词: 基因芯片; 数据分析; 差异基因表达; 聚类分析; 判别分析 吴斌, 沈自尹. 基因表达谱芯片的数据分析. 世界华人消化杂志2006;14(1):68-74 https://www.360docs.net/doc/a24138694.html,/1009-3079/14/68.asp 0 引言 基因芯片数据分析就是对从基因芯片高密度杂交点阵图中提取的杂交点荧光强度信号进行的定量分析, 通过有效数据的筛选和相关基因表达谱的聚类, 最终整合杂交点的生物学信息, 发现基因的表达谱与功能可能存在的联系. 然而每次实验都产生海量数据, 如何解读芯片上成千上万个基因点的杂交信息, 将无机的信息数据与有机的生命活动联系起来, 阐释生命特征和规律以及基因的功能, 是生物信息学研究的重要课题[1]. 基因芯片的数据分析方法从机器学习的角度可分为监督分析和非监督分析, 假如分类还没有形成, 非监督分析和聚类方法是恰当的分析方法; 假如分类已经存在, 则监督分析和判别方法就比非监督分析和聚类方法更有效率。根据研究目的的不同[2,3], 我们对基因芯片数据分析方法分类如下: (1)差异基因表达分析: 基因芯片可用于监测基因在不同组织样品中的表达差异, 例如在正常细胞和肿瘤细胞中; (2)聚类分析: 分析基因或样本之间的相互关系, 使用的统计方法主要是聚类分析; (3)判别分析: 以某些在不同样品中表达差异显著的基因作为模版, 通过判别分析就可建立有效的疾病诊断方法. 1 差异基因表达分析(difference expression, DE) 对于使用参照实验设计进行的重复实验, 可以对2样本的基因表达数据进行差异基因表达分

数据属性

数据属性 数据具有数值属性、物理属性。在数据处理上数据又具有集合性、隶属性、稳定性、方便性、重复性、共同性、指向性以及运算规则及运算约束。我们先看一个命题,求一个苹果和一个梨的和?由于它们的物理属性不同,我们不能求出它们的和。再看命题现在有一个苹果和一个梨,问是否满足3个人,每人一个苹果或梨,由于物理属性转移到“人”概念下的“个”,所以必须先进行加法运算,其结果是分析命题的依据。数据是复杂的,它可以是任何介质上所记录的信息,比如我们可以对文字信息进行拷贝、连接、检索、删除,都是数据概念下的操作。 详细解释 进行各种统计、计算、科学研究或技术设计等所依据的数值。 柯岩《奇异的书简·船长》:“ 贝汉廷分析着各个不同的数据,寻找着规律,终于抓住了矛盾的牛鼻子。”数据(data)是载荷或记录信息的按一定规则排列组合的物理符号。可以是数字、文字、图像,也可以是计算机代码。对信息的接收始于对数据的接收,对信息的获取只能通过对数据背景的解读。数据背景是接收者针对特定数据的信息准备,即当接收者了解物理符号序列的规律,并知道每个符号和符号组合的指向性目标或含义时,便可以获得一组数据所载荷的信息。亦即数据转化为信息,可以用公式“数据+背景=信息”表示。 编辑本段计算机科学中的解释 数据:在计算机系统中,各种字母、数字符号的组合、语音、图形、图像等统称为数据,数据经过加工后就成为信息。 在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。是组成地理信息系统的最基本要素,种类很多。 按性质分为 ①定位的,如各种坐标数据;②定性的,如表示事物属性的数据(居民地、河流、道路等);③定量的,反映事物数量特征的数据,如长度、面积、体积等几何量或重量、速度等物理量;④定时的,反映事物时间特性的数据,如年、月、日、时、分、秒等。 按表现形式分为

数据分析软件和工具

以下是我在近三年做各类计量和统计分析过程中感受最深的东西,或能对大家有所帮助。当然,它不是ABC的教程,也不是细致的数据分析方法介绍,它只是“总结”和“体会”。由于我所学所做均甚杂,我也不是学统计、数学出身的,故本文没有主线,只有碎片,且文中内容仅为个人观点,许多论断没有数学证明,望统计、计量大牛轻拍。 于我个人而言,所用的数据分析软件包括EXCEL、SPSS、STATA、EVIEWS。在分析前期可以使用EXCEL进行数据清洗、数据结构调整、复杂的新变量计算(包括逻辑计算);在后期呈现美观的图表时,它的制图制表功能更是无可取代的利器;但需要说明的是,EXCEL毕竟只是办公软件,它的作用大多局限在对数据本身进行的操作,而非复杂的统计和计量分析,而且,当样本量达到“万”以上级别时,EXCEL的运行速度有时会让人抓狂。 SPSS是擅长于处理截面数据的傻瓜统计软件。首先,它是专业的统计软件,对“万”甚至“十万”样本量级别的数据集都能应付自如;其次,它是统计软件而非专业的计量软件,因此它的强项在于数据清洗、描述统计、假设检验(T、F、卡方、方差齐性、正态性、信效度等检验)、多元统计分析(因子、聚类、判别、偏相关等)和一些常用的计量分析(初、中级计量教科书里提到的计量分析基本都能实现),对于复杂的、前沿的计量分析无能为力;第三,SPSS主要用于分析截面数据,在时序和面板数据处理方面功能了了;最后,SPSS兼容菜单化和编程化操作,是名副其实的傻瓜软件。 STATA与EVIEWS都是我偏好的计量软件。前者完全编程化操作,后者兼容菜单化和编程化操作;虽然两款软件都能做简单的描述统计,但是较之 SPSS差了许多;STATA与EVIEWS都是计量软件,高级的计量分析能够在这两个软件里得到实现;STATA的扩展性较好,我们可以上网找自己需要的命令文件(.ado文件),不断扩展其应用,但EVIEWS 就只能等着软件升级了;另外,对于时序数据的处理,EVIEWS较强。 综上,各款软件有自己的强项和弱项,用什么软件取决于数据本身的属性及分析方法。EXCEL适用于处理小样本数据,SPSS、 STATA、EVIEWS可以处理较大的样本;EXCEL、SPSS适合做数据清洗、新变量计算等分析前准备性工作,而STATA、EVIEWS在这方面较差;制图制表用EXCEL;对截面数据进行统计分析用SPSS,简单的计量分析SPSS、STATA、EVIEWS可以实现,高级的计量分析用 STATA、EVIEWS,时序分析用EVIEWS。 关于因果性 做统计或计量,我认为最难也最头疼的就是进行因果性判断。假如你有A、B两个变量的数据,你怎么知道哪个变量是因(自变量),哪个变量是果(因变量)? 早期,人们通过观察原因和结果之间的表面联系进行因果推论,比如恒常会合、时间顺序。但是,人们渐渐认识到多次的共同出现和共同缺失可能是因果关系,也可能是由共同的原因或其他因素造成的。从归纳法的角度来说,如果在有A的情形下出现B,没有A的情形下就没有B,那么A很可能是B的原因,但也可能是其他未能预料到的因素在起作用,所以,在进行因果判断时应对大量的事例进行比较,以便提高判断的可靠性。 有两种解决因果问题的方案:统计的解决方案和科学的解决方案。统计的解决方案主要指运用统计和计量回归的方法对微观数据进行分析,比较受干预样本与未接受干预样本在效果指标(因变量)上的差异。需要强调的是,利用截面数据进行统计分析,不论是进行均值比较、频数分析,还是方差分析、相关分析,其结果只是干预与影响效果之间因果关系成立的必要条件而非充分条件。类似的,利用截面数据进行计量回归,所能得到的最多也只是变量间的数量关系;计量模型中哪个变量为因变量哪个变量为自变量,完全出于分析者根据其他考虑进行的预设,与计量分析结果没有关系。总之,回归并不意味着因果关系的成立,因果关系的判定或推断必须依据经过实践检验的相关理论。虽然利用截面数据进行因果判断显得勉强,但如果研究者掌握了时间序列数据,因果判断仍有可为,其

第24章 基因表达谱分析的生物信息学方法思考与练习参考答案

第24章 基因表达谱分析的生物信息学方法 思考与练习参考答案 1.据教材表24–3提供的数据信息可以构建一棵决策树,请利用最大信息增益方法写出如何选出根结点中用于分割的特征。 教材表24-3 天气情况与是否去打球的关系数据集 注:该信息表示根据天气情况决定是否出去打球,数据集共包含14个样本,两个类别信息(Yes 、No ),每个样本包含3 个特征信息(Outlook 、Temp 、Windy )。 解:计算用每一个特征进行分割时所获取的信息增益,取信息增益最大的那个特征作为分割特征,以Outlook 特征为例计算(参照练习图24-1) 练习图24-1 同Outlook 特征进行分割所获得的信息增益 )14 9 log 149145 log 145()(220+-=S H

)5 2 log 5253 log 53()(2211+-=S H 0)4 4 log 44()(212=-=S H )52 log 5253 log 53()(2213+-=S H )(14 5 )(144)(145)(1312111S H S H S H S H ++= infor-gain (Outlook )=)()(10S H S H - 同理,计算其他两个特征的信息增益,最后从三个值中选取最大的一个对应的特征作为根结点的分割特征。 2.请从https://www.360docs.net/doc/a24138694.html,/上下载一原始未经标准化的表达谱数据,并对该数据进行如下分析: (1)对数据进行标准化处理。 (2)对数据进行分类分析。 (3)分别对基因和样本进行聚类分析。 (4)选择特征基因。 (答案略)

GIS中的数据分析

二、GIS中的数据分析 第1节空间数据分析 地理信息系统(GIS)与—般的计算机辅助制图(CAM/CAD)系统的主要区别在于GIS具有空间数据的分析、变换能力。除一些基本的变换功能如数据更新、比例尺变换,投影变换外.主要的空间分析和变换功能为地理数据的拓扑和空间状况运算,属性综合运算,几何要素与属性的联合运算等。为了完成这些运算,GIS一般都以用户和系统交互的形式提供以上分析处理能力。应指出,栅格数据结构与矢量数据结构的空间分析方法有所不同。一般来说,栅格结构组织数据的空间分析方法要简单一些。 下图以分级结构形式概括的各种空间分析类型和方法:

图: GIS空间分析方法 一、综合属性数据分析 GIS中属性数据一般采用关系型数据库管理,因此,关系数据库中各种分析功能都可以对属性性数据进行分析。 (一)数学计算 属性数据中的数字型数据可以进行“加”、“减”、“乘”、“除”、“乘方”等数学运算,以产生新的属性值,如人口数/图斑面积(km)=人口密度。 (二)逻辑运算 逻辑运算的基本原理是布尔代数,这种逻辑分析几乎可以在所有

的空间分析中得到应用。它按属性数据的组合条件来检索其他属性项目或图形数据,以及进行空间聚类. (三)单变量分级分析 属性的单变量分级分析是把单个属性作为变量,依据布尔逻辑方法分成若干个类别。这种分析方法,可进行属性数据的合并式转换,把复杂的属性类别合并成简单的类别,以实现空间聚合 (四)多变量统计分析 多变量统计分析主要用于数据分类。在GIS中存储的数据具有原始的性质,以便用户可以根据不同的使用目的,进行任意提取和分析,特别是对于观测和取样数据.随着采用的分类和内插方法的不同,得到的结果有很大的差异, 因此,在大多数情况下, 首先是将大量未经分类的属性数据输入信息系统的数据库,然后要求用户建立具体的分类算法,以获得所需要的信息。 1.变量筛选分析 随着现代数据收集系统的不断改进,在一个取样点上常可以收集到几十种原始变量。在这些变量中有许多是相互关联的,可以通过寻找一组相互独立的变量,使多变量数据得到简化,这就是变量筛选分析。常用的变量筛选方法有主成分分析法、主因子分析法和关键变量分析法等。 主成分分析是以取样点作为坐标轴,以属性变量作为矢量矩阵,研究属性变量之间的亲疏关系。 主因子分析是以属性变量作为坐标轴,以取样点作为矢量矩阵,

基因表达谱芯片数据分析及其Bioconductor实现

基因表达谱芯片数据分析及其Bioconductor实现 1.表达谱芯片及其应用 表达谱DNA芯片(DNA microarrays for gene expression profiles)是指将大量DNA片段或寡核昔酸固定在玻璃、硅、塑料等硬质载体上制备成基因芯片,待测样品中的mRNA被提取后,通过逆转录获得cDNA,并在此过程中标记荧光,然后与包含上千个基因的DNA芯片进行杂交反应30min~20h后,将芯片上未发生结合反应的片段洗去,再对玻片进行激光共聚焦扫描,测定芯片上个点的荧光强度,从而推算出待测样品中各种基因的表达水平。用于硏究基因表达的芯片可以有两种:①cDNA芯片;② 寡核昔酸芯片。 cDNA芯片技术及载有较长片段的寡核昔酸芯片采用双色荧光系统:U前常用Cy3—dUTP (绿色)标记对照组mRNA, Cy5—dUTP (红色)标记样品组mRNAUl。用不同波长的荧光扫描芯片,将扫描所得每一点荧光信号值自动输入计?算机并进行信息处理,给出每个点在不同波长下的荧光强度值及其比值(ratio值),同时计算机还给出直观的显色图。在样品中呈高表达的基因其杂交点呈红色,相反,在对照组中高表达的基因其杂交点呈绿色,在两组中表达水平相当的显黄色,这些信号就代表了样品中基因的转录表达情况⑵。 基因芯片因具有高效率,高通量、高精度以及能平行对照研究等特点,被迅速应用于动、植物和人类基因的研究领域,如病原微生物毒力相关基因的。基因表达谱可直接检测mRNA的种类及丰度,可以同时分析上万个基因的表达变化,来揭示基因之间表达变化的相互关系。表达谱芯片可用于研究:①同一个体在同一时间里,不同基因的表达差异。芯片上固定的已知序列的cDNA或寡聚核昔酸最多可以达到30 000多个序列,与人类全基因组基因数相当,所以基因芯片一次反应儿乎就能够分析整个人的基因⑶。②同一个体在不同时间里,相同基因的表达差异。 ③不同个体的相同基因表达上的差异。利用基因芯片可以分析多个样本,同时筛选不同样本(如肿瘤组织、癌前病变和正常组织)之间差异表达的基因,这样可以避免了芯片间的变异造成的误差⑷。张辛燕⑸ 等将512个人癌基因和抑癌基因的cDNA用点样仪点在特制玻片上制成表达谱芯片,对正常人卵巢组织及卵巢癌组织基因表达的差异性进行比较研究,结果发现在卵巢癌组织中下调的基因有23个,上调的基因有15个,初步筛选出了卵巢癌相关基因。Lowe⑹等利用胰腺癌、问充质细胞癌等组织的cDNA制备基因芯片,筛选到胰腺癌细胞中高表达的基因,为医疗诊断、病理研究及新药设计 奠定基础。 2.表达谱芯片的数据处理技术

实证研究论文数据分析方法详解

修订日:2010.12.8实证论文数据分析方法详解 (周健敏整理) 名称变量类型在SPSS软件中的简称(自己设定的代号) 变革型领导自变量1 zbl1 交易型领导自变量2 zbl2 回避型领导自变量3 zbl3 认同和内部化调节变量 TJ 领导成员交换中介变量 ZJ 工作绩效因变量 YB 调节变量:如果自变量与因变量的关系是变量M的函数,称变量M为调节变量。也就是, 领 导风格(自变量)与工作绩效(因变量)的关系受到组织认同(调节变量)的影 响,或组织认同(调节变量)在领导风格(自变量)对工作绩效(因变量)影响 关系中起到调节作用。具体来说,对于组织认同高的员工,变革型领导对工作绩 效的影响力,要高于组织认同低的员工。 中介变量:如果自变量通过影响变量N 来实现对因变量的影响,则称N 为中介变量。也就 是,领导风格(自变量)对工作绩效(因变量)影响作用是通过领导成员交换(中 介变量)的中介而产生的。 研究思路及三个主要部分组成: (1)领导风格对于员工工作绩效的主效应(Main Effects)研究。 (2)组织认同对于不同领导风格与员工工作绩效之间关系的调节效应(Moderating Effects)研究。 (3)领导成员交换对于不同领导风格与员工工作绩效之间关系的中介效应(Mediator Effects)研究。

目录 1.《调查问卷表》中数据预先处理~~~~~~~~~~~~~~ 3 1.1 剔除无效问卷~~~~~~~~~~~~~~~~~~~~ 3 1.2 重新定义控制变量~~~~~~~~~~~~~~~~~~ 3 2. 把Excel数据导入到SPSS软件中的方法~~~~~~~~~~ 4 3. 确认所有的变量中有无“反向计分”项~~~~~~~~~~~4 3.1 无“反向计分”题~~~~~~~~~~~~~~~~~~ 5 3.2 有“反向计分”题~~~~~~~~~~~~~~~~~~ 5 4. 效度分析~~~~~~~~~~~~~~~~~~~~~~~~6 5. 信度分析~~~~~~~~~~~~~~~~~~~~~~~~8 6. 描述统计~~~~~~~~~~~~~~~~~~~~~~~~9 7. 各变量相关系数~~~~~~~~~~~~~~~~~~~~ 12 7.1 求均值~~~~~~~~~~~~~~~~~~~~~~~12 7.2 相关性~~~~~~~~~~~~~~~~~~~~~~~12 8. 回归分析~~~~~~~~~~~~~~~~~~~~~~~13 8.1 使用各均值来分别求Z值~~~~~~~~~~~~~~~13 8.2 自变量Z值与调节变量Z值的乘积~~~~~~~~~~~13 8.3 进行回归运算~~~~~~~~~~~~~~~~~~~~14 8.3.1 调节作用分析~~~~~~~~~~~~~~~~~~14 8.3.2 中介作用分析~~~~~~~~~~~~~~~~~~18 8.4 调节作用作图~~~~~~~~~~~~~~~~~~~~22

基因表达分析

基因表达分析 1、EST(Expressed Sequence Tag)表达序列标签(EST)分析 1、EST基本介绍 1、定义: EST是从已建好的cDNA库中随机取出一个克隆,进行5’端或3’端进行一轮单向自动测序,获得短的cDNA部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20到7000bp不等,平均长度为400bp。 EST来源于一定环境下一个组织总mRNA所构建的cDNA文库,因此,EST也能说明该组织中各基因的表达水平。 2、技术路线: 首先从样品组织中提取mRNA,在逆转录酶的作用下用oligo(dT)作为引物进行RT-PCR 合成cDNA,再选择合适的载体构建cDNA文库,对各菌株加以整理,将每一个菌株的插入片段根据载体多克隆位点设计引物进行两端一次性自动化测序,这就是EST序列的产生过程。

3、EST数据的优点和缺点: (1)相对于大规模基因组测序而言,EST测序更加快速和廉价。 (2)EST数据单向测序,质量比较低,经常出现相位的偏差。 (3)EST只是基因的一部分,而且序列里有载体序列。 (4)EST数据具有冗余性。 (5)EST数据具有组织和不同时期特异性。 4、EST数据的应用 EST作为表达基因所在区域的分子标签因编码DNA序列高度保守而具有自身的特殊性质,与来自非表达序列的标记(如AFLP、RAPD、SSR等)相比,更可能穿越家系与种的限制。因此,EST标记在亲缘关系较远的物种间比较基因组连锁图和比较质量性状信息是特别有用的。同样,对于一个DNA序列缺乏的目标物种,来源于其他物种的EST也能用于该物种有益基因的遗传作图,加速物种间相关信息的迅速转化。具体说,EST的作用表现在:

基因表达谱聚类

基因表达谱聚类分析 [ 文章来源:| 文章作者:| 发布时间:2006-12-21| 字体:[大中小] 学习过程可以采用从全局到局部的策略。采取这种策略时,学习初期可设定较大的交互作用半径R ,随着学习过程的不断推进,逐步减小R ,直至不考虑对邻近单元的影响。邻域的形状可以是正方形或者圆形。 KFM 的聚类结果与K 均值相似,它的优点是自动提取样本数据中的信息,同时也是一种全局的决策方法,能避免陷入局部最小,缺点在于必须实现人为设定类的数目与学习参数,而且学习时间较长。KFM 方法克服了K- 均值聚类的一些缺点:它应用类间的全局关系,能提供大数据集内相似性关系的综合看法,便于研究数据变量值的分布及发现类结构。而且,它具有更稳健更准确的特点,对噪声稳定,一般不依赖于数据分布的形状。 8.4.2.5 其它聚类方法 聚类方法是数据挖掘中的基本方法,数据挖掘的方法很多,在基因表达谱的分析中,除了以上常用方法外,还有一些其它的方法。由于对聚类结果尚没有一种有效的方法进行评价,尤其是对聚类结果的进一步生物学知识发现尚没有新的分析思路和成功应用,因此,科学家们在不断地研究一些新方法。这些方法有不同的原理,能够提取不同数据特征,有可能对具体的数据得到更有意义的结果,发现更多的生物学知识。这里,简单介绍这些方法的原理,更详细的介绍请参看相关文献。 (1)模糊聚类分析方法:这是一种模拟人类的思维方法,通过隶属度函数来反映某一对象属于某一类的程度。基本思路是计算两两基因表达谱之间的相似性程度,构建模糊相似矩阵,利用模糊数学中的传递闭包计算方法得到模糊等价矩阵,选择不同的置信水平从模糊等价矩阵中构建动态聚类图。对于特定的置信水平,可以实现对基因表达谱的分类。该方法的优点是利用了模糊数学中的隶属度概念,能够更好的反映基因表达谱之间的相互关系,而且它是一种全局的优化方法,与向量的顺序无关。 (2)模糊C均值算法:该方法同样将模糊数学中的隶属度概念引入到常用的K 均值聚类方法中。对于K 均值算法,一个基因表达谱所属的类只有一个,因此,它与各类别的关系要么是 1 ,要么是0 ,即属于或不属于某一类。而对于模糊 C 均值法,一个基因表达谱是否属于某一类,是以隶属度来确定第i 个样本属于第j 类的可能性。最终的聚类结果取决于分析的目的,可以根据最大隶属度来确定基因表达谱的分类,即一个基因表达谱只属于一类;但往往是确定隶属度的阈值,只要大于该阈值,就可以将基因表达谱划分为该类,这样的划分结果是一个基因表达谱可以属于多个类,这也是可以被生物学家接受的。模糊 C 均值法与K 均值法的实现过程基本相同,所不同的是对于

常用数据分析方法详细讲解

常用数据分析方法详解 目录 1、历史分析法 2、全店框架分析法 3、价格带分析法 4、三维分析法 5、增长率分析法 6、销售预测方法 1、历史分析法的概念及分类 历史分析法指将与分析期间相对应的历史同期或上期数据进行收集并对比,目的是通过数据的共性查找目前问题并确定将来变化的趋势。 *同期比较法:月度比较、季度比较、年度比较 *上期比较法:时段比较、日别对比、周间比较、 月度比较、季度比较、年度比较 历史分析法的指标 *指标名称: 销售数量、销售额、销售毛利、毛利率、贡献度、交叉比率、销售占比、客单价、客流量、经营品数动销率、无销售单品数、库存数量、库存金额、人效、坪效 *指标分类: 时间分类 ——时段、单日、周间、月度、季度、年度、任意 多个时段期间 性质分类 ——大类、中类、小类、单品 图例 2框架分析法 又叫全店诊断分析法 销量排序后,如出现50/50、40/60等情况,就是什么都能卖一点但什么都不 好卖的状况,这个时候就要对品类设置进行增加或删减,因为你的门店缺少 重点,缺少吸引顾客的东西。 如果达到10/90,也是品类出了问题。 如果是20/80或30/70、30/80,则需要改变的是商品的单品。 *单品ABC分析(PSI值的概念) 销售额权重(0.4)×单品销售额占类别比+销售数量权重(0.3) × 单品销售数量占类别比+毛利额权重(0.3)单品毛利额占类别比 *类别占比分析(大类、中类、小类) 类别销售额占比、类别毛利额占比、 类别库存数量占比、类别库存金额占比、

类别来客数占比、类别货架列占比 表格例 3价格带及销售二维分析法 首先对分析的商品按价格由低到高进行排序,然后 *指标类型:单品价格、销售额、销售数量、毛利额 *价格带曲线分布图 *价格带与销售对数图 价格带及销售数据表格 价格带分析法 4商品结构三维分析法 *一种分析商品结构是否健康、平衡的方法叫做三维分析图。在三维空间坐标上以X、Y、Z 三个坐标轴分别表示品类销售占有率、销售成长率及利润率,每个坐标又分为高、低两段,这样就得到了8种可能的位置。 *如果卖场大多数商品处于1、2、3、4的位置上,就可以认为商品结构已经达到最佳状态。以为任何一个商品的品类销售占比率、销售成长率及利润率随着其商品生命周期的变化都会有一个由低到高又转低的过程,不可能要求所有的商品同时达到最好的状态,即使达到也不可能持久。因此卖场要求的商品结构必然包括:目前虽不能获利但具有发展潜力以后将成为销售主力的新商品、目前已经达到高占有率、高成长率及高利润率的商品、目前虽保持较高利润率但成长率、占有率趋于下降的维持性商品,以及已经决定淘汰、逐步收缩的衰退型商品。 *指标值高低的分界可以用平均值或者计划值。 图例 5商品周期增长率分析法 就是将一段时期的销售增长率与时间增长率的比值来判断商品所处生命周期阶段的方法。不同比值下商品所处的生命周期阶段(表示) 如何利用商品生命周期理论指导营运(图示) 6销售预测方法[/hide] 1.jpg (67.5 KB) 1、历史分析法

表达谱

对于基因表达谱数据的分析是生物信息学的研究热点和难点。转化为数学问题,分析任务是从数据矩阵 M 中找出显著性结构,结构类型包括全局模型 (model) 和局部模式 (pattern) 。对基因表达谱数据的分析是数据挖掘问题,所采用的方法包括通过可视化进行探索性数据分析( Exploratory Data Analysis )、描述建模 (descriptive modeling) 、分类、聚类、回归和机器学习等。 基因表达谱分析所采用的常用方法是聚类,其目的就是将基因分组。从数学的角度,聚类得到的基因分组,一般是组内各成员在数学特征上彼此相似,但与其它组中的成员不同。从生物学的角度,聚类分析方法所隐含的生物学意义或基本假设是,组内基因的表达谱相似,它们可能有相似的功能。然而,产物有相同功能的编码基因(例如对其它蛋白质有磷酸化作用),不一定共享相似的转录模式。相反,有不同功能的基因可能因为巧合或随机扰动而有相似的表达谱。尽管有许多意外的情况存在,大量功能相关的基因的确在相关的一组条件下有非常相似的表达谱,特别是被共同的转录因子共调控的基因,或者产物构成同一个蛋白复合体,或者参与相同的调控路径。因此,在具体的应用中,可以根据对相似表达谱的基因进行聚类,从而指派未知基因的功能。 聚类分析是模式识别和数据挖掘中普遍使用的一种方法,是基于数据的知识发现的有效方法,特别适用于模式分类数不知道的情况。聚类分析是一种无监督学习方法,不需要任何先验领域知识,它根据数学特征提取分类标准,对数据进行分类,这种数学特征的例子有统计平均值、相关系数、协方差矩阵的本征值及本征向量等。聚类分析在基因表达数据分析中应用得很多,主要有层次聚类、 K 均值、自组织特征映射网络等。本节将介绍基因表达数据分析中常用的聚类方法及与此相关的内容。 8.4.1 相似性度量函数 对基因表达谱进行聚类分析之前,必须首先确定反映不同基因表达谱相似程度的度量函数,根据该函数可以将相似程度高的基因分为一类。在实际计算中,还可以用距离代替相似的概念,相似性度量被转化为两个基因表达谱之间的距离。距离越小,表达模式越相近;反之,则表达模式差异大。 常见的相似性度量有距离、点积、相关系数( correlation coefficient )、互信息( mutual information )等。假设两个基因表达谱分别为X = (x 1 ,x 2 ,…,x m )和Y = (y 1 ,y 2 ,…, y m ) , 距离函数 d( X ,Y ) 必须满足如下条件: d( X ,Y ) ≧ 0 d( X ,Y ) = d( Y ,X ) d( X ,Y ) = 0 if X = Y

16种常用数据分析方法

一、描述统计 描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。 1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率回归法、决策树法。 2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。 二、假设检验 1、参数检验 参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验。 1)U验使用条件:当样本含量n较大时,样本值符合正态分布 2)T检验使用条件:当样本含量n较小时,样本值符合正态分布 A 单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别; B 配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似; C 两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。

2、非参数检验 非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。 A 虽然是连续数据,但总体分布形态未知或者非正态; B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下; 主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。 三、信度分析 检査测量的可信度,例如调查问卷的真实性。 分类: 1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度 2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。 四、列联表分析 用于分析离散变量或定型变量之间是否存在相关。 对于二维表,可进行卡方检验,对于三维表,可作Mentel-Hanszel分层分析。列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。

基因表达数据在数据库中的预处理(1)

数据库与信息管理本栏目责任编辑:闻翔军Computer Knowledge and Technology 电脑知识与技术第5卷第16期(2009年6月)基因表达数据在数据库中的预处理 刘春菊,刘自伟,姜遥 (西南科技大学计算机科学与技术学院,四川绵阳621010) 摘要:存在不完整的、不一致的和含噪声的数据是现实世界大型的数据库或数据仓库的共同特点,基因表达数据也存在这种情况。因此,在数据挖掘之前对基因表达数据进行预处理非常必要。 关键词:基因表达;数据库;数据预处理 中图分类号:TP274文献标识码:A 文章编号:1009-3044(2009)16-4101-02 Gene Expression Data Pre-processing in the Database LIU Chun-ju,LIU Zi-wei,JIANG Yao (College of Computer Science &Technology,Southwest University of Science &Technology,Mianyang 621010,China) Abstract:The existence of incomplete,inconsistent and with the noise of the data in large-scale real-world database or data warehouse is a common feature.Gene expression data also has such situation.Therefore,pre-processing is necessary before data mining. Key words:gene expression,database,data pre-processing 1引言 在数据挖掘中,数据预处理就是在对数据进行知识发现前,先对将要研究的原始数据进行必要的清洗、集成、变换和约简等一系列的处理工作,使之达到挖掘算法进行知识获取研究所要求的最低规范和标准[1]。 2数据来源 实验数据来源于美国国立生物技术信息中心,网址:https://www.360docs.net/doc/a24138694.html,/sites/entrez 。数据主要包括正常组织的基因表达值,患乳腺癌的基因表达值。每一组值来源于二个表。其一,Table1,包括探针ID 号及测得的基因表达值;其二,Table2,主要包括探针ID 号,基因的制作日期、基因名、基因符号、基因描述等共15个属性。 3数据集成 数据集成是将多文件或多数据库运行环境中的异构数据进行合并处理,解决语义的模糊性。该部分主要涉及数据的选择、数据的冲突问题以及不一致数据的处理问题[2]。 由于实验数据在二个表中,需要进行多表连接操作。根据二个表中都有相同的探针ID 号,因此,可以采用等值连接将二个表集成为一个表,并将集成后的表命名为Table_Integration 如: SELECT Table1.*,Table2.*into Table_Integration FROM Table1,Table2 WHERE Table1.ID=Table2.ID 4数据清理 当属性出现缺少值时,有忽略元组、填充最可能的值等补充方法。在缺少类标号且元组有多个属性缺少值时通常采用忽略元组法,填充最可能值的方法比较常用,它能够通过现存数据的最多信息推测出相对准确的缺少值。噪音数据是由一种随机错误或被测变量的差变引起的,可采用分箱、丛聚、人机交互检查、回归等数据平滑技术去除。对于数据集成或有些事务记录中数据可能存在的不一致性,可以采用附加材料给予更正。知识工程工具也可以用来检测违反数据限制的数据。 由于探针与基因并不是一一对应的关系,因此,集成的表中出现多个ID 号对应同一个基因,此时需要将这种多对一的关系转换为一对一的关系,这里采用平均值法和分组法来解决,对每一个基因进行分组,同一基因的值进行平均化[3],并将转换后的数据保存在Table_Clean 中,如: SELECT gene,avg(value)INTO Table_Clean FROM Table_Integration group by gene 由于Table2中有些ID 号并没有给出相应的基因名,因此,在Table_Clean 中出现了有些样本有对应的基因表达值却没有对应的基因名,此时需要对基因为空的样本进行处理,由于此处涉及到很深生物学知识,而且这些空缺基因很难对应,此处采取忽略元组策略[4],如: DELETE FROM Table_Clean WHERE gene IS NULL 5数据归约 由于实验设备容量的限制,所有基因芯片杂交实验不能同时在一个实验炉中进行,而多次试验时炉内的温度、液体密度等微环收稿日期:2009-05-06 基金项目:国家自然科学基金资助项目(10676029) ISSN 1009-3044Computer Knowledge and Technology 电脑知识与技术Vol.5,No.16,June 2009,pp.4101-4102E-mail:jslt@https://www.360docs.net/doc/a24138694.html, https://www.360docs.net/doc/a24138694.html, Tel:+86-551-569096356909644101

相关文档
最新文档