基因表达数据分析

第8章基因表达数据分析

基因芯片或DNA微阵列等高通量检测技术的发展，可以从全基因组水平定量或定性检测基因转录产物mRNA，获取基因表达的信息。由于生物体中的细胞种类繁多，同时基因表达具有时空特异性，因此，基因表达数据要比基因组数据更为复杂、数据量更大、数据的增长速度更快。基因表达数据中蕴含着基因调控的规律，可以反映细胞当前的生理状态，例如（？？）是否恶化、（？？）是否对药物有效等。对基因表达数据的分析是生物信息学的重大挑战之一，也是DNA微阵列能够推广应用的关键环节之一。

基因表达数据分析的对象是在不同条件下，全部或部分基因的表达数据所构成的数据矩阵。通过对数据矩阵的分析，回答一些生物学问题，例如，基因的功能是什么？在不同条件或不同细胞类型中，哪些基因的表达存在差异？在特定的条件下，哪些基因的表达发生了显著改变，这些基因受到哪些基因的调节，或者调控哪些其它的基因？哪些基因的表达是条件特异性的，根据它们的行为可以判断细胞的状态（正常或癌变）？？？？等等。对这些问题的回答，结合其他生物学知识和数据有助于阐明基因的调控路径和基因之间的调控网络。揭示基因调控路径和网络是生物学和生物信息学共同关注的目标，是系统生物学(Systems Biology，在附录中增加解释条目！)研究的核心内容。目前，对基因表达数据的分析主要是在三个逐渐复杂的层次上进行：1、分析单个基因的表达水平，根据在不同实验条件下，该基因表达水平的变化，来判断它的功能，例如可以确定肿瘤类型特异基因。采用的分析方法可以是统计学中的假设检验等。2、考虑基因组合，将基因分组，研究基因的共同功能、相互作用以及协同调控等。多采用聚类分析等方法。3、尝试推断潜在的基因调控网络，从机理上解释观察到的基因表达谱。多采用反工程的方法。

本章首先介绍基因表达数据的来源和预处理方法；然后介绍基因表达数据分析的主要方法，即表达差异分析和聚类分析；最后简单介绍从基因表达数据出发研究基因调控网络的一些经典模型。

8.1 基因表达数据的获取

基因表达数据反映的是直接或间接测量得到的基因转录产物mRNA在细胞中的拷贝数或者水平（转录？？），这些数据可以用于分析哪些基因的表达发生了改变，它们有何相关性，在不同条件下基因是如何受影响的。它们在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面有重要的应用。目前检测mRNA水平的方法有DNA微阵列、基因芯片、基因表达串行化分析（Serial analysis of gene expression，SAGE）、RT-PCR、EST测序等。目前，最主要的表达数据来自于基因芯片或cDNA微阵列，它们的原理是相同的，利用4种核苷酸之间两两配对互补的特性，使两条在序列上互补的单链形成双链，这个过程被称为杂交。基本技术是：在一个约1cm2大小的玻璃片上，将称为探针的核苷酸片段固定在上面，这个过程称为芯片制备；从细胞或组织中提取mRNA，通过RT-PCR合成荧光标记的cDNA，与芯片杂交；用激光显微镜或荧光显微镜检测杂交后的芯片，获取荧光强度，分析细胞中的mRNA的相对水平。

8.1.1 cDNA微阵列

cDNA微阵列最早是在1995年，由斯坦福大学研制并应用于基因表达分析的。首先将细胞内的mRNA逆转录成cDNA并分离，然后将分离得到的所有或部分cDNA（通常大于200bp）作为探针，用机器手点到玻璃片上，玻璃片上的每一个点包含一种cDNA分子，这样就制成了cDNA微阵列。固定在玻片上的cDNA探针可以通过测序得到序列或者其来源是已知的。在使用cDNA微阵列时，首先是提取组织或细胞系的mRNA样本，逆转录成cDNA 并用荧光素标记；然后把标记混合物加到cDNA微阵列上，与探针杂交，杂交过程完成后，清洗微阵列；然后用激光扫描仪扫描并获取荧光图像，对图像进行分析，得到cDNA芯片上每一个点的荧光强度值。荧光强度值定量反映了样本中存在的与探针互补的mRNA量，也就是反映了探针对应基因的表达水平。

在制造cDNA微阵列时，点样点的大小是不能保证完全一样的，点的排列也是不规则的，这样要比较不同微阵列图像的荧光绝对强度是不合理的，因此通常使用双色荧光系统来纠正点之间的差异。在制备样本时，使用两个样本，一个称为控制样本或对照样本，其cDNA 用红色（Cy5）或绿色（Cy3）荧光素标记，另一个为测量样本，其cDNA用与对照样本不同的绿色或红色荧光素标记。这两个样本按1：1的比例混合，同时与微阵列杂交，杂交后用不同波长的激光扫描，分别获取荧光强度，并成像。来自两个样本的基因如果以相同水平表达则显示黄色，而如果表达水平有差异，则图像显示红色或绿色。因此，cDNA微阵列的实验数据反映了两个样本中基因的相对表达水平。通常，在cDNA微阵列实验中对获取的原始图像数据必须进行归一化，例如基于全局强度值调整、强度相关归一化、玻片之间的对比归一化等，通常这些工作由与微阵列扫描系统配套的软件自动完成。为什么要进行归一化？如果用不同荧光素标记的是相同的样本，那么比率Cy5/Cy3（ratio值）的期望值为1，但由于Cy3和Cy5的标记效率不相等，或存在系统噪声等原因，得到的Cy5/Cy3往往不等于1，所以通过归一化可以使之回到1，并调整其它的测量值。归一化方法包括总密度（假设两个样本中的总RNA是相等的）、线性回归、Ratio统计、迭代log(ratio)平均值中心化等。

cDNA微阵列实验得到的值反映了基因的相对表达水平，即测量样本与对照样本之间荧光信号强度的比率或者比率取对数，这是一个无量纲的值，可用于比较一组实验中的基因相对表达水平。如果对照样本的信号非常低，那么这个比率就可能很大，因为可能主要是噪声信号，因此它很可能是无意义的，对于这些数据往往看作是不确定的，在后续分析时要注意这些数据，根据需要确定是否保留以及如何赋值。（是否是自己的语言？？？，或用我们的文章，陆老师）

8.1.2 寡核苷酸芯片

又称为基因芯片、DNA芯片。它是在玻璃片上按阵列固定寡核苷酸探针，这些探针是在片原位合成的。现有产品中应用最广泛的是Affymetrix公司制造的GENECHIP?芯片，它使用一种光掩模技术和传统的DNA合成化学的组合以非常高的密度制造寡核苷酸阵列。例如，Affymetrix公司的Human Genome U133芯片包含了100万个不同的寡核苷酸探针，代表了33000个人类基因。寡核苷酸芯片主要用于DNA多态性检测和基因表达分析，还可以用于微生物基因组的再测序。

寡核苷酸探针的长度通常为20-25bp，在检测mRNA表达水平时可能存在寡核苷酸之间的非特异性交叉杂交的冗余信息，可能会掩盖杂交信号；此外，对于特定的寡核苷酸，信号

强度对于寡核苷酸的碱基组成是敏感的。对于第一个问题，通常是采用匹配/失配（PM/MM）探针对的方法，即在设计一个特异的寡核苷酸(匹配)时，同时设计一个非特异的寡核苷酸探针，仅仅在中间位置有一个碱基替换（失配），这样可以用PM与MM之间的差值作为信号强度。为了解决第二个问题，在设计探针时，对于每一个待检测的mRNA包含多个寡核苷酸探针，例如为每一个转录本设计11-20个探针对来检测。

与cDNA微阵列不同的是，与寡核苷酸芯片杂交的是测量样本，而不是cDNA微阵列实验中的测量样本与对照样本的混合物。对于基因芯片的检测结果有两种，一种是P/A/M，表示有/无/不确定，另一种是信号强度。前者的结果主要是用来判断样本中有无特定基因的表达，这个结果对于部分实验，特别是一些定性实验是有意义的，例如判断肿瘤与正常情况下的细胞基因表达差异。当需要对几个不同条件下的基因表达情况进行分析时，对基因表达的相对变化更感兴趣，所以多采用第二种方式。有时基因表达数据的信号强度是负值，这是由于测量的信号小于背景信号或者背景/阴性控制样本的定义不正确造成的，对于前者，一般把负值做为0考虑，现在的Affymetrix的芯片分析系统已不产生负值。（？？）在考虑基因表达谱时，所采用的数据与cDNA微阵列数据一样，也是一系列测量样本与对照样本之间的信号强度比率或比率的对数值。实验得到的信号强度也是经过规格化的数值，规格化的方法很多，但归一化过程一般都包含在芯片扫描系统的图像处理软件中。

cDNA微阵列或基因芯片（以下统称微阵列）在用于基因表达分析时的一个最大优点是高通量性，在一次芯片实验中可以对成千上万个基因的表达进行并行测量。由于实验环节较多，虽然在设计芯片时可以通过添加阴性和阳性探针等手段来保证数据的可靠，但是需要提醒的是，数据的可靠性仍然是对数据进行后续分析时必须考虑的一个问题。

8.1.3 基因表达数据的网络资源

大量基于微阵列实验的基因表达数据是公开在Internet网上的，尤其是学术机构在发表论文时所用的实验数据都能免费提供给全世界的研究人员下载使用。作为学术论文的补充资料在网上发布的数据主要是文本文件或Excel格式的文件，这些数据往往都是经过归一化处理后的Ratio值或log2(Ratio)，对于寡核苷酸芯片数据有的是P/A/M（Present/Absent/Don’t Know）的表示或基因绝对表达值。因为这些数据文件没有包含原始的实验方案、实验材料、原始扫描图像、图像处理方法和数据归一化方法等信息，对于要比较、集成和整合分析来自不同研究小组的基因表达数据是非常困难的。主要原因是微阵列并不是在任何客观的个体上测量基因表达水平，大多数测量值仅仅是基因表达的相对变化，而且使用的并不是一个标准化的对照样本。同时，基因表达数据比基因组序列数据要复杂的多，这些数据仅仅在有具体的关于实验条件的描述时才是有意义的，对于不同的细胞类型，在不同的条件下都有一套转录本。因此，基于微阵列的基因表达数据存储量是非常大的，对于具有20000个探针的微阵列实验，以10um的分辨率扫描，产生3千万个离散的数据点，如果以tiff文件贮存，将占用~60Mb的硬盘空间。

一方面是基因表达数据量非常庞大，数据中蕴含着丰富的生物学知识，另一方面是这些数据没有注释，迫切需要一种标准来描述和存贮微阵列基因表达数据，同时建立公共的微阵列数据仓库。欧洲生物信息学研究所（EBI）与德国肿瘤研究中心(DKFZ)在1999年成立了MGED讨论组(The Microarray Gene Expression Data)。MGED（https://www.360docs.net/doc/ba978872.html,/）是一个国际性的成员联盟，参与人员包括生物学家、计算机科学家、数据分析学家。它的目标是促进由功能基因组学和蛋白组学研究产生的微阵列数据的共享。当前集中于建立微阵列数据注释和交换的标准，推动微阵列数据库建设和相关软件来实现这些标准，促进高质量的、经过注释的基因表达数据在生命科学领域的共享。该组织开发的微阵列数据标准称为

MIAME(the minimum information about a microarray experiment)，是对于解释和验证结果所必需的微阵列实验的最小信息描述。MIAME不是微阵列实验必须遵循的教条，而是一组指导方针，它将帮助微阵列数据库和数据分析工具的开发。同时，MGED组织开发了微阵列基因表达标记语言（MAGE-ML，Microarray Gene Expression - Markup Language），它是一种语言，用来描述和基于实验的微阵列信息的通讯，它基于XML，可以描述微阵列设计、微阵列制造信息，微阵列实验组织和实施信息，基因表达数据和数据表达结果。MIMAE标准和MAGE-ML语言受到了广泛关注。美国NCBI的Gene Expression Omnibus (GEO)、英国的EBI的ArrayExpress数据库都采用了该标准，斯坦福微阵列数据库（Stanford Microarray Database，SMD）也正在兼容该标准。

目前收集、存贮微阵列基因表达数据的最有影响的数据库和网站是GEO、ArrayExpress 和SMD。

GEO（https://www.360docs.net/doc/ba978872.html,/geo）是由NCBI在2000年开发的一个基因表达和杂交微阵列数据仓库，同时作为获取来自不同生物体的基因表达数据的在线资源。到2004年3月，数据仓库中包含内容605个Platforms，14391个Sample，816个Serial。Platform是关于物理反应物的信息，例如核酸、抗体和组织微阵列和SAGE数据等的基因表达数据被接受、增加和归档作为公共数据集。Series是关于样本集的信息，反映样本间的相关性和组织。

ArrayExpress(https://www.360docs.net/doc/ba978872.html,/arrayexpress/)是基于基因表达数据的微阵列公共知识库，目的是存储被很好注释的数据，当前包含多个基因表达数据集和与实验相关的原始图像集。ArrayExpress数据库接受MAGE-ML格式的数据递交或者通过MIAMExpress的基于Web的数据注释和递交工具。ArrayExpress提供一个简单的基于Web的数据查询界面，并直接与Expession Profiler数据分析工具相连，可以进行表达数据聚类，和其它类型的Web 数据发掘，并将进一步开发多个实验和数据库间的交叉查询。ArrayExpress数据库中的数据将与所有相关的由EBI维护的或在线的数据库相联接。

斯坦福微阵列数据库(SMD，https://www.360docs.net/doc/ba978872.html,/ )是一个使用Oracle作为数据库管理软件的关系数据库。SMD存储微阵列实验的原始、归一化数据和对应的图像文件。自从2002年1月1日起，到现在包括85篇学术论文，超过3500个双色点样DNA微阵列的实验数据，每年增加1000个微阵列实验的数据。另外，SMD提供数据获取、分析和可视化的界面，目前包括层次聚类和自组织映射等方法，还将加入k-平均聚类、单值分解和丢失值归纳等方法。

除了以上3个综合性的基因表达数据仓库外，还有一些专门的基因表达数据库，例如YMD (Yale Microarray Database，https://www.360docs.net/doc/ba978872.html,/microarray/)、ArrayDB （https://www.360docs.net/doc/ba978872.html,/arraydb/）、BodyMap（http://bodymap.ims.u-tokyo.ac.jp/）、ExpressDB(https://www.360docs.net/doc/ba978872.html,/ExpressDB/)、HuGE Index(Human Gene Expression Index，https://www.360docs.net/doc/ba978872.html,/welcome/index.html)等，这些数据库收集的数据往往具有物种特异性，使用比较方便。

8.2 基因表达数据预处理

一次微阵列实验能获得细胞在某一条件下的全基因组表达数据，包含成千上万个基因在细胞中的相对或绝对丰度，不同条件（细胞周期的不同阶段、药物作用时间、肿瘤类型、不

G?的数据矩阵M，通常情况下同病人等）下的全基因组表达数据就构成了一个N

x表示第i个基因在第j个条件下的表达水平值（在多数应用情G>>，其中每一个元素

况下，表示的是Ratio 值或log(Ratio)值），行向量),,,(21.iN i i i x x x =x 代表基因i 在N 个条件下的表达水平，称为基因i 的表达谱，列向量T G i i i i x x x ),,,(21. =x 代表某一条件下的各基因的表达水平。

????????????=GN G G N N x x x x x x x x x 2122221

11211M （8-1）

注意排版，统一。公式背景为白底。

对基因表达数据进行分类、聚类等数据分析之前，往往需要进行预处理，包括对丢失数据进行填补、清除不完整的数据或合并重复数据等数据清洗，根据分析的目的进行数据过滤，以及针对分析方法选择适当的数据转换等预处理方法。

数据清洗是数据分析前必须进行的一项工作，对于基因表达数据，目的是去除表达水平是负值或很小的数据、或者明显的噪声数据(单个异常大或小的尖峰信号)，同时处理缺失数据。微阵列实验得到的数据一般是经过归一化处理的，每个点的信号强度是前景信号减去背景信号，因此有时会出现负值或很小的值，显然负值是没有生物学意义的。对于这些数据点，通过数据过滤步骤可以置为缺失或赋予统一的数值，例如对于寡核苷酸芯片数据，将低于100的数据全部设置为100。微阵列表达数据由于实验条件和芯片的因素，检测得到的信号强度往往与细胞中实际的mRNA 丰度之间没有对应关系，因此，通常是采用两个条件下的信号强度的比值，例如在cDNA 微阵列双色实验中，最后得到的往往是Ratio 值。而寡核苷酸单色实验的结果是信号强度，然而在处理一组数据时，也往往选择一个样本作为对照样本，将实验数据转换成Ratio 值。在计算Ratio 值时，如果参考样本的信号强度很小，就可能得到很大的Ratio 。如果一个基因谱中仅仅存在单个特别大的Ratio 值，称之为异常数据点(outlier)，这往往是由于噪声造成的。对于这个异常数据点，必须进行去除。数据的缺失对于某些后续数据分析方法（例如层次式聚类和PCA ）来说有着非常大的影响，甚至是致命性的，这时必须采取相应的方法。一种方法是直接过滤掉这些存在缺失数据项的行向量或列向量。另一种方法是设定阈值，计算一个基因表达谱中的缺失项数目，如果达到该阈值，则将该基因表达谱从数据矩阵M 中删除；如果没有达到阈值但存在缺失项，对这些缺失项可以进行插值。以0代替或用基因表达谱的平均值或中值进行代替，这些方法比较简单，但是否与真实值接近，很难进行评估。较为复杂和可靠的方法是，分析基因表达谱的模式，从中得到相邻数据点之间的关系，根据这种关系，利用相邻数据点估算得到缺失值。这种方法类似于k 近邻方法，需要有足够的完整的模式来发现有缺失值的相邻模式，需要有足够的值来确定它们的邻居。

在细胞中，基因表达有时空特异性，在某一条件下，发生表达的基因占基因总数的少部分，而大多数基因仅维持基础转录或不转录，转录本丰度很小，因此微阵列实验得到的数据矩阵中存在大量的基因表达谱曲线是平坦的，即基因表达水平变化很小。对于这些基因，往往不是生物学家所关心的，而它们的存在，却会大大增加数据分析的复杂性，而且会对一些分析方法的结果有干扰。对这些数据进行过滤是非常有必要的，可以给出一定的比例，使存在的基因占总数的多少，这是与分析目的相密切相关的，例如是分析细胞周期，可以多保留一些基因，而对于肿瘤特异基因表达谱分析，可以少保留一点基因。过滤这些基因所采用的标准有：①基因表达谱中最大值与最小值的差；②标准差；③均方根；④绝对值大于阈值的数据个数等。根据分析的对象和目的，可以选择以上一个或多个标准，确定阈值，来选择基

因表达谱。

基因表达谱数据经过过滤，在进行聚类分析等操作前，往往还需要进行数据转换。数据变换是将数据转换为适合数据挖掘的形式，可以根据需要构造出新的数据属性以帮助理解分析数据的特点，或者将数据规范化，使之落在一个特定的数据区间中。因此，数据转换包括对数转换和标准化两个过程。

许多DNA 微阵列实验的结果是测量样本与对照样本间信号强度的Ratio 值，对于Ratio 值，在大多数情况下是转换到对数(log)空间中进行处理，常用的对数底为2, e, 10。考虑时间序列上的基因表达数据，实验结果是相对于0时刻的表达水平。如图8.1所示，假设在时间点1，基因的表达水平没有改变，在时间点2，上调2倍，而时间点3，下调2倍，原始的比率值分别为1.0、2.0、0.5。在大多数应用中，需要把上调2倍和下调2倍看作是变化的相同幅度，只是方向不同。在Ratio 空间中，时间点1和2之间的差异是+1.0，而时间点1和3之间是-0.5，从数学角度看，上调2倍的数值是下调2倍的2倍。而在log 空间中，（为了简化，用2为底），这三个数据点分别为0、1.0、-1.0，上调2倍与下调2倍是关于0对称的。因此，对数转换可以使小于1的值变大，大于1的值变小，从而使它们关于0对称化，这种变换是否反映了一定的生物学意义，能更直观的了解基因的上调或下调的幅度？尚没有定论，但是对于大多数基因表达数据分析过程，都是在log 空间中进行的。

图8.1 表达数据的Ratio 和log2(Ratio)表示

数据的标准化是将所有的数据转换到同一个范围内，这样做的好处是方便比较和计算相关系数，缺点是在标准差接近0的时候，会产生大的噪声，这也是首先要进行数据过滤的一个重要理由。数据标准化按如下公式进行， ∑=---=N j i ij i

ij ij x x N x x x 1

2)(11 8.2 ∑==N j ij i x

x 11

8.3

通过标准化，使得每个基因表达谱的平均值为0，标准差为1。如果要求所有的数据在[0，1]之间，还需要进行如下转换

)/()(min max min x x x x x --= },,,min{21min N x x x x = },,,max{21max N x x x x =8.4 而要求数据满足[a,b]，则变换如下：

a x x x x a

b x +---=min max min ))(( 8.5

还有一种数据标准化方法是数据的中心化。对于来自细胞系的大量肿瘤样本与一个共同的对照样本比较，对于每一个基因，都有一系列的Ratio 值，相对于对照样本中那个基因的表达水平。因为对照样本通常对实验没有什么帮助，对照样本中的基因表达量是独立于分析的。这样可以通过调整每一个基因的数值来反映系列观察值的变化，例如平均值或者中值。这就是平均值/中值中心化，中心化可以减少参考样本的影响。中心化数据同样可以用于去除某些类型的偏差。许多双色荧光杂交实验的结果没有校正Ratio 值的系统偏差，它们是由于RNA 数量差异，标记效率和图像获取参数所造成的。这样的偏差对于所有的基因与一个固定数值的Ratio 有放大的效应。在log 空间的平均值和中值中心化有校正这种偏差的效果。数据中心化是基于这样的一种假设，在特定的实验中，基因的平均值期望比率是1.0(在log 空间中为0)。通常，更多的是使用中值中心化。

目前对数据预处理这种策略的作用还不是很清楚，还没有人进行系统的研究，提供有说服力的证据来帮助研究人员针对特定的任务选择特定的数据预处理的策略和方法。在具体应用时，往往是根据分析目的和个人经验选择不同的方法。

8.3 基因表达差异的显著性分析

在检测基因表达的微阵列实验中，有很大一部分是比较实验，目的是比较两个条件下的基因表达差异，从中识别出与条件相关的特异性基因，例如识别肿瘤特异性基因、药物特异响应基因等。为了提高实验的可靠性，对于两个条件，往往有两个以上的重复实验，但是由于微阵列实验仍然很昂贵，不可能重复足够的次数来满足实验数据分析的要求，因此需要采用一些比较复杂的方法来分析这些数据。对这些表达数据的分析目的就是要识别在两个条件下有显著表达差异的基因。何谓显著表达差异？通常是指一个基因在两个条件中表达水平的检测值在排除实验、检测等因素外，达到一定的差异，具有统计学意义，同时也具有生物学意义。分析方法有三类，一类称之为倍数分析，简单估计在两个条件中每个基因的表达水平的比值，设定阈值得到表达差异显著的基因；第二类方法是估计表达差异的置信度，采用的方法是t 检验和方差分析；第三类是建模的方法，通过确定两个条件下的模型参数是否相同来判断表达差异的显著性，例如贝叶斯方法。

8.3.1 倍数分析

早期基于cDNA 微阵列技术的比较实验，用倍数来分析基因表达水平差异，即计算两个条件下的表达水平的Ratio 值。用gi x 表示基因g 在条件i 中的表达水平测量值，因此，21/g g g x x r =表示基因g 在条件1和2中的表达水平比率。对于cDNA 微阵列实验，两个

条件的样本同时与同一微阵列进行杂交实验，得到的是成对数据，对于每次实验得到的数据计算g r ，最后计算多次重复实验的平均g r 。而对于寡核苷酸芯片，首先分别计算两个样本的重复微阵列实验的归一化表达水平的平均值，然后计算其比率。当g r =1时，基因g 的表达水平没有改变，而g r <1或g r >1意味着基因g 在两个条件下存在表达差异，特别是g r <1表示基因在条件1是下调的，而g r >1，表示在条件1是上调的。在具体应用中，如果一个基因的平均表达水平在两个条件下的变化超过一个常数，典型的常数是2，即g r >2或<1/2，则认为该基因的表达差异是显著的。然而，对表达数据仔细考察后提出，这样简单的2倍法并不能产生最优的结果，因为因子2在不同的表达水平上有相当不同的显著性。对于低表达水平的基因，其信噪比太低，用2倍法作为判断条件太宽松，而对于高表达基因，条件又太苛刻，往往小于2就有生物学意义上的表达差异显著性。在具体应用中，并没有明确的阈值，往往根据分析的具体要求由数据分析者自行确定，目前也没有关于这类简单的倍数分析方法的假阳性率和假阴性率的深入研究报道。

8.3.2 t 检验

对于两个条件下的多次重复实验，为了判断基因的表达差异是否具有显著性，在应用中较多的采用假设检验，包括两个条件下的t 检验和多个条件下的方差分析（ANOV A ），这里仅仅介绍t 检验。

零假设为210:g g u u H =，与之对应的备选假设是211:g g u u H ≠。t 统计量的计算公式如下：

2221212

1//n s n s x x t g g g g g +-= 8.6

其中 ∑==

j n j i gij gi n x x 1/，∑=--=i n j gi gij i gi x x n s 1

22)(11，i n 为某一条件下的重复实验次数。如果t 超过了某个由给定的置信水平确定的阈值，就拒绝零假设，即认为基因g 在两个条件下的表达差异是显著的。因为在t 检验中，两个总体平均值之间的距离被经验得到的标准差归一化，可以克服固定倍数阈值方法的一些缺点。然而，对于微阵列数据的t 检验的基本问题是，即使用当前的高通量检测技术，实验仍然是花费很大或者实验过程很冗长，重复次数i n 经常较小，i n =2、3的小样本仍然非常普通。由于样本量小，导致总体方差被严重低估，得到的t 值就较大，因此会导致较高的假发现率(FDR, False Discovery Rate)，即通过t 检验得到的结果中表达差异不显著的基因数目较多。这样，需要更好的分析方法来克服这些缺点。

在t 假设检验中，经常使用的显著性水平是p=0.01，其意思是在零假设正确的情况，进行100次抽样，会有1次错误地拒绝了零假设。对于微阵列实验，检测的基因数目巨大，如

果微阵列上有10000个基因，采用p=0.01，将会有100个基因是由于偶然性而被错误认为是有表达差异显著的。这个数目已经对后续的生物学分析可能会产生很大的干扰，从而导致t 检验分析结果的不可靠或失去意义。

为了解决这个问题，可以对t 检验进行了改进，降低由于分母上方差小而带来的错误，因此对t 检验的计算公式修改如下：

021s s x x d g g g g +-= 8.7

}][][{22221211∑∑-+-=n g i g n g i g g x x x x a s

8.8 )2/()/1/1(2121-++=n n n n a

8.9 假设g d 的分布是独立于基因表达水平的。因为较低的表达水平会使g s 的值较小，导致g d 的变化可以较高。为了保证g d 独立于基因表达，在分母上增加s 0，s 0的选择是最小化g d 的变化系数。通过对设计的一组对照样本的分析，可以确定阈值，g d 大于阈值的基因被认为是表达差异显著的。

8.3.3 贝叶斯分析

由于微阵列数据噪声大、波动大，而且在大量数据的背后还有很多相关变量不能被观察到，因此贝叶斯方法可以用来分析微阵列表达数据。贝叶斯分析可以简单描述如下：

)(/)()|()|(D P M P M D P D M P = 8.10

其中，P(M|D)表示由观测数据集D 得到参数化模型)(w M M =为真的概率，称为后验概率；P(M)称为先验概率，表示在没有得到任何数据之前所估计的模型M 为真的概率。P(D|M)是指似然度，表示从模型M 得到一个观测数据集D 的概率。贝叶斯推断是通过参数估计和模型选择来实现任务的，最常用的方法是最大后验概率(MAP)估计和最大似然(ML)估计。

在用贝叶斯方法分析表达数据时，首先假设在给定条件下，一个基因的表达水平测量值是独立的，并满足正态分布。根据经验，这一假设是合理的，特别是表达水平的对数大致服从对数正态分布。对于重复实验，也可以引入伽玛分布、高斯/伽玛混合分布等。一个基因在一种条件下的表达测量值可以用一个正态分布),;(2

σμx N 来建模。对每个基因和每个条件，都对应有一个双参数模型),(2σμ=w ，似然函数可以由下式给出： 2222/])1()

([2/222)(),;(),|(σσσμσμs n u x n n i i e C x N D P -+---==∏ 8.11

i 取遍所有的重复测量，C 表示归一化常数。似然度取决于充分统计量n 、x 和s 2。

先验概率分布),(2σμP 的选择有几种，一般采用共扼先验分布。先验分布的四个超

参数构成向量),,,(20000σνλμα=

220020002/])([)12/(212)(),(σσνμλνσσσμ+--+--=u e C P 8.12

对于微阵列数据，采用一个μ和2σ相互不独立的先验分布很有意义。经过一些代数运算，可以推导出后验分布具有与先验分布相同的函数形式：

),;()/,;(),|,(2222n n n n N D P σνσλσμμασμΓ= 8.13

其中

00022002000000)()1(μλλσνσνννλλλμλλμ-++-+=+=+=+++=x n

n s n n n

m n n n

n n n n n 8.14

后验分布的参数以一种合理的方式将先验分布的信息和数据信息结合了起来。后验分布是贝叶斯分析的基本对象，它包含了μ和2σ所有可能取值的相关信息，可以通过多种方法

进行估计。

对于两个条件下的每个基因的表达测量值都与两个模型相关，根据模型参数的不同可以判断基因的表达差异是否显著。贝叶斯方法部分地克服了由于实验重复次数少造成的t 检验的缺陷，如果实验次数很少（2或3次），贝叶斯方法比t 检验法效果好，如果有5次重复实验，两者结果相似。在重复次数为2时，贝叶斯方法的假阳性率会提高。

8.4 基因表达谱聚类分析

对于基因表达谱数据的分析是目前生物信息学的研究热点和难点。转化为数学问题，分析任务是从数据矩阵M 中找出显著性结构，结构类型包括全局模型(model)和局部结构(pattern)，这些结构可以对基因或者条件形成亚类，结合生物学解释，这些亚类是细胞周期特异性的或者是肿瘤类型特异性的。因此，对基因表达谱数据的分析是数据挖掘问题，所采用的方法包括通过可视化进行探索性数据分析（Exploratory Data Analysis ）、描述建模(descriptive modeling)、分类、聚类和回归等。

目前，基因表达谱分析所采用的方法主要是聚类，其目的就是将基因或条件分组，对于条件之间存在时间依赖关系的基因表达谱，更多的是对基因进行分组；而对于不同来源的肿瘤样本，首先是确定特征基因，然后获取这些特征基因的表达谱数据子集，对条件进行分类，从而可以获取与肿瘤类型相关的特征，这些特征也称为基因组指纹（genomic fingerprint ）或签名（signature ），它们可以作为肿瘤的临床诊断标准或药效的评价标准。因为从数学的角度，对行或对列进行聚类所用的方法是一样的，不同的是对列进行分析时维度较大，样本数较小，结合生物学背景知识，通常需要降维，这个过程也称特征基因的选择过程，可以通过行向量的一些统计特征，例如方差、信息增益等，也可以用遗传算法等优化搜索算法来获取

特征基因。因此，以下部分主要是针对基因分组来介绍聚类算法。

从数学的角度，聚类得到的基因分组，一般是组内各成员在某数学特征上彼此相似，但与其它组中的成员不同。从生物学的角度，聚类分析方法所隐含的生物学意义（或基本前提）是，组内基因的表达谱相似，它们可能有相似的功能。当然，功能这个词太普通以至不能精确和定量，太广以至不能特指和特定意义。产物有相同功能的编码基因（例如对其它蛋白质有磷酸化作用），不一定共享相似的转录模式。相反，有不同功能的基因可能因为巧合或随机扰动而有相似的表达谱。尽管有许多意外的情况存在，大量功能相关的基因的确在相关的一组条件下有非常相似的表达谱，特别是被共同的转录因子共调控的基因，或者它们的产物构成同一个蛋白复合体，或者参与相同的调控路径。这就是在具体应用中，通过连坐（guilt-by-association ）证据，根据一个简单的有相似表达模式的基因聚类，可以指派未知基因的功能。

聚类分析是模式识别和数据挖掘中普遍使用的一种方法，是基于数据的知识发现的有效方法，特别适用于模式分类数不知道的情况。从机器学习的角度来看，聚类分析可以分为两类，即有监督聚类和无监督聚类。在有监督聚类中，对于基因表达谱数据，首先对基因进行功能分类，然后选择这些基因的表达谱作为训练集，通过有监督学习获取每一功能类的特征模式，利用这些特征模式，可以构建分类器，对未知功能的基因根据表达谱进行分类，从而能够对未知功能的基因预测功能，常用的方法有支持向量机、人工神经网络、朴素贝叶斯分类、多元logistic 回归等。无监督聚类不需要任何先验领域知识，根据数学特征提取分类标准，对数据进行分类，这种数学特征的例子有统计平均值、相关系数、协方差矩阵的本征值及本征向量等。无监督聚类在基因表达数据分析中应用的很多，主要有层次式聚类、k 平均、自组织特征映射网络、谱聚类等。本节将对在基因表达数据分析中常用的聚类方法进行具体介绍。

8.4.1 相似性度量函数

对基因表达谱进行聚类分析之前，必须首先确定反映不同基因表达谱相似程度的度量函数，根据该函数可以将具有相似程度高的基因聚为一类。在实际计算中，还可以用距离代替相似的概念，相似性度量被转化为两个基因表达谱之间的距离。距离越小，表达模式越相近，反之，则表达模式差异大。

常见的相似性度量有距离、点积、相关系数（correlation coefficient ）、互信息（mutual information ）等。假设两个基因表达谱分别为X=（x 1,x 2,…,x m ）和Y=（y 1,y 2,…,y m ）,距离函数d(X ，Y)必须满足如下条件：

d(X ，Y) ≧ 0

d(X ，Y) = d(Y ，X)

d(X ，Y) = 0 if X = Y

d(X ，Y) ≦ d(X ，Z) + d(Z ，Y)

欧氏距离（Euclidean distance ）是一个通常采用的距离定义，与测度的选择无关，它是在m 维空间中两个点之间的真正距离，两个基因表达谱之间的欧氏距离计算公式如下：

8.15

相关系数也是常用的相似性度量函数，计算公式如下：

8.16 ∑=-=m

i i i y x m Y X D 12)(1),(∑=Φ-Φ-=m i Y y X x m Y offset i X offset i Y X S 1

1))((),(

8.17

其中，G offset是G的各分量的均值，G是标准方差。用上述两种相似性度量，可以找出表达模型相同或者变化趋势相同的基因，如图8.2(a)、(b)所示。欧氏距离、相关系数可以反映基因之间的共表达关系，两个基因表达谱间的距离小于或相关系数大于某个给定的阈值，就可以认为它们之间是共表达的。距离和相关系数之间存在相关性，在具体应用时，可以根据需要进行转换，例如d=1-r。

距离和相关系数反映的都是基因表达谱之间的相似性，这种相似性反映了基因的共表达行为，而基因的行为是复杂的，它们之间存在调控和被调控的关系，或者存在调控链，例如基因A调控B，B调控C，调控还有正性调控和负性调控之分。对于这些调控关系，它们的表达谱往往是不相似的，或者存在时延、或者存在反相，而基因表达的幅度也可能不相等。如何从数据中发现这些复杂的基因关系呢？互信息可能是一种有用的度量指标，其定义如下

8.18

MI(X,Y)是向量X和Y的互信息，H（X）是X的熵。

MI（X，Y）=H（X）+H（Y）-H（X，Y）

NMI（X，

Y）=MI（X，Y）/max[H（X），H（Y）] 8.19

NMI称为归一化互信息，它独立于单个信息熵，抓住了模式上的相似性。互信息聚类分析，没有规则上的约束。不象欧氏距离，MI不仅能确定负相关和非线性相关，同样可以反应正线性相关。因此，基于MI的聚类可能共享输入，但是对这些输入有不同的动力学过程。例如A,B得到C输入，A是上调，B是下调。

目前，还没有理论来指导如何选择最好的相似性度量，也许一个“正确”的距离在表达模式空间是不存在的，选择依赖于我们要问的问题。已知的共调控的基因在不同生物和基因调控网络中标准集可能有利于发现理论上的相似性度量。

8.4.2 无监督聚类方法（？？）

对于基因表达谱的聚类问题，由于目前对基因表达的系统行为了解得不全面，没有聚类的先验知识，所以通常采用无监督聚类方法。在基因表达数据分析方面，层次式聚类、k均（a）（b）（c）

图8.2 两个表达模式之间的关系（a）相似；（b）变化趋势一致；

（c）两个基因的调控制输入一样，但是调控结果不一样，甚至相反。

∑

offset

G m

)

(

)

(

log

)

(

)

(

H∑

值、自组织映射神经网络是应用中的常用方法。下面主要介绍这几种常用的聚类方法，并简单介绍一些其它方法。

8。4。2。1．简单聚类

假设有G 个基因，它们的表达谱分别用向量表示为..2.1,,,G x x x 。令任意一个基因的表达向量为第一个聚类的中心1z ,假设选择.11x z =。然后计算.2x 到1z 的距离D 21，如果D 21大于给定的阈值T ，则说明.2x 不属于第一类，应该分到另外的类。在这种情况下，建立一个新的聚类中心.22x z =。如果D 21小于阈值T ，则将.2x 分到第一类中。接着处理其它基因，在处理第i 个基因时，首先计算该基因的表达谱与现有各类中心的距离，假设与第j 类的距离D ij 最小，并且D ij

简单聚类算法的结果与第一个聚类中心的选择、基因的顺序、阈值T 以及基因表达谱在其空间的分布有关。该方法对于给定的一组表达数据模式进行初步分类提供了一种快速的算法。

8。4。2。2．层次聚类法

层次聚类法，在统计分析中也称为系统聚类法，原理与算法与第六章所介绍的系统发生树连锁构造方法类似，所不同的只是将所分析的数据由生物分子序列换成了这里的基因表达谱。该方法在基因表达谱聚类分析中是常用方法，它的优点是容易理解和实现，所得到的结果以树状图的形式表示，可以直观地观察基因之间的相互关系，尤其是类与类之间的关系。但是，基因表达谱的数量很多，往往要多于系统发生树分析时的物种数量，而且基因之间的相互关系信息也没有物种之间的多，所以对聚类结果的后续分析要比系统发生树分析复杂的多。对于表达谱聚类的结果还需要进一步分析基因的功能或者基因的序列特征，要通过剪枝才能得到分类，而剪枝的过程带有更多的主观性，这会导致丢失一些重要的信息或包括一些无关的信息。此外，在构建系统树时，已被合并的向量不再参与以后的分类，这会导致聚类结果与向量的次序有关，所以被认为是一种局部最优解的方法。

8。4。2。3．K 均值聚类

K 均值聚类在数据划分上不考虑类的分层结构问题，该算法使待聚类的所有样本到聚类中心的距离平方和最小，这是在误差平方和准则的基础上得到的。

K 均值聚类算法的基本过程如下：

（1）任意选取K 个基因表达向量作为初始聚类中心z 1, z 2,…, z k ，在没有先验知识

的情况下，一般选择前K 个基因；

（2）反复迭代计算。在第l 次迭代过程中，如果||)1(||||)1(||i j z x z x -<-

(i=1,2,…,K,i j)，则将X 所代表的基因归于第j 类。按照上述办法处理所

有的基因；

（3）经过上述处理，聚类可能发生变化，因此需要重新计算K 个新聚类中心： j=1,2,…,K 8.20 ∑

∈=+)(1)1(l f j j j N l Z x x

其中f j (l)为第l 次迭代中第j 个聚类的基因集合，N j 为该集合中基因的个数。

（4）对于所有的聚类中心，如果Z j (l+1)=Z j (l)(j=1,2,…,K)，则迭代结束，得到最

后的聚类结果；否则转第2步，继续进行迭代计算。

聚类中心的个数K 、初始聚类中心的选择、基因排列的顺序以及基因表达数据的分布影响聚类的结果，当基因表达模式类别之间分离较远时，该算法可以取得令人满意的聚类分析结果。

8。4。2。4．自组织映射神经网络

人工神经网络技术在模式识别方面有着独特的优势，在生物信息学中的应用也非常广泛，如基因识别、蛋白质结构预测等。神经网络能够进行非线性数据处理，发现复杂的数据关系，其中，自组织映射神经网络（Self-Organizing Map ，SOM ）可以对模式数据进行自动聚类。

自组织特征映射是Kohonen 在1990年提出的类似大脑思维的一种人工神经网络方法，它是一种竞争学习算法，可以被认为是一种从N 维模式空间各点到输出空间少数点的映射。这一映射由系统本身完成，没有外部的监督，即聚类是以自组织的方式实现的。SOM 采用无教师学习训练，训练完成后，分类信息存储在网络个节点连接权值向量中，具有与权值向量相似的输入向量将分为一类。SOM 包括一维和二维模型，二维SOM 也称为KFM(Kohonen Feature Mapping)。它们的区别在于KFM 考虑邻近神经元的相互作用，即获胜神经元对周围神经元由于距离的不同会产生不同的影响。

KFM 的结构如图8.3所示，输出单元呈二维排列。Kohonen 认为，神经网络中邻近的各个神经元通过侧向交互作用彼此相互竞争，自适应地发展成检测不同信号的特殊检测器。该思想来自于大脑神经元的特性，即大脑皮层的神经元成二维空间排列，不同区域分工不同，各自对输入模式的不同特征敏感，神经元之间存在信息交互，主要是侧向交互，即某主响应神经元对周围神经元之间存在有近到远的不同的影响作用，而不是简单的侧抑制作用。对邻近神经元的交互作用函数有巴拿马草帽型或矩形型。 ?????>≤-=R R d R d j F cj c d 0 1)( 8.21

???>≤=R R d j F c d 0 1)(

图8.3 SOM 的结构图。

其中d cj 是输出单元c 与邻近单元j 之间在神经元平面上的距离，R 是交互作用半径。

KFM 的学习过程是：

（1）用随机数设定权值初始值，并进行权向量归一化计算，在以后的每次修正权向量之后

也要进行归一化，使其满足 12

2==∑i j ij w W ；

（2）反复进行以下运算，直到达到预定学习次数或每次学习后权值改变量小于某一阈值。

（a ）输入一个样本向量x ，计算各输出单元强度 ∑=

i ij T j j x w W net x （b ）找出主兴奋单元c ，使)(max j j c net net = （c ）确定各输出单元在主兴奋单元影响下的兴奋度 y j =F c (j)

（d ）计算各权值修正量i j j ij x net y w )(-=?η

（e ）根据学习次数更新学习步长η和邻域交互作用半径R

学习过程可以采用从全局到局部的策略，在这种策略下，学习初期可设定较大的交互作用半径R ，随着学习过程的不断推进，逐步减小R ，直至不考虑对邻近单元的影响。邻域的形状可以为正方形、正六边形或圆形。

KFM 的聚类结果与k 平均法相似，它的优点是自动提取样本数据中的信息，同时也是一种全局的决策方法，能避免陷入局部最小，缺点在于必须实现人为设定类的数目与学习参数，而且学习时间较长。KFM 方法克服了K-均值聚类的一些缺点：它应用类间的全局关系，能提供大数据集内相似性关系的综合看法，便于研究数据变量值的分布及发现类结构。而且，它具有更稳健更准确的特点，对噪声稳定，一般不依赖于数据分布的形状。但它是一种拓扑保留的神经网络，产生不均衡分类。若不相关数据（如不变的“平坦”谱）或某种特定形式的谱过多，从而感兴趣的数据只能处于少数类，分辨率就可能很低。因此，在应用KFM 前，一般要对数据进行筛选。

8。4。2。5. 其它聚类方法

聚类方法是数据挖掘中的基本方法，方法很多，在基因表达谱的分析中，除了以上常用方法外，还有一些方法也被应用。然而，由于对聚类结果尚没有一种有效的方法进行评价，尤其是对聚类结果的进一步生物学知识发现尚没有新的分析思路和成功应用，因此这些方法更多的是方法研究，而没有进入到实用阶段。但是这些方法有不同的原理，能够提取不同数据模式的特征，有可能对具体的数据得到有意义的结果，发现更多的生物学知识。这里，简单介绍这些方法的原理，更详细的介绍请参看相关文献。

不用公式，简述核心思想！

（1）模糊聚类分析方法

这是一种模拟人类的思维方法，通过隶属度函数来反映某一对象属于某一类的程度。基本过程包括：计算两两基因表达谱之间的相似系数构建模糊相似矩阵，利用模糊数学中的传递闭包计算方法得到模糊等价矩阵，选择不同的置信水平就可以从模糊等价矩阵中构建动态聚类图。对于特定的置信水平，可以对基因进行分类。该方法的优点是利用了模糊数学中的隶属度概念，能够更好的反映基因之间的相互关系，而且它是一种全局的优化方法，与向量的顺序无关。

（2）模糊C 均值算法

该方法同样将模糊数学中的隶属度概念引入到k 均值聚类方法中，C 均值方法也称为硬分类。判断一个基因表达谱是否属于某一类时，以隶属度来确定属于每一类的可能性，因此

在计算聚类中心时也必须考虑所有表达谱向量的隶属度。聚类中心向量m 和隶属度μ的计算公式如下：

[][],,,2,1,)()(11

c j n

i b i j n i i b i j j ==∑∑==x μ

x x m 8.22 c j n i c k b k i b j i i j ,,2,1,,2,1,)1()

1()(1)1(12

)1(12 ==--=∑=--m x m x x μ 8.23 {}n i x i ,,2,1, =是n 个样本组成的样本集合，c 为预定的类别数目，c i m i ,,2,1, =为每个聚类的中心，)(i j x μ是第i 个样本对于第j 类的隶属度函数。聚类的评价是最小化聚类损失函数，计算公式如下：

[]∑∑==-=c j n i j i b i j f m x x J 112)

(μ， 8.24

其中b>1是一个可以控制聚类结果的模糊程度的函数。当算法收敛时，就得到了各类的聚类中心和各个样本对于各类的隶属度值，从而完成了模糊聚类划分。如果需要，还可以将模糊聚类结果进行去模糊化，即用一定的规则把模糊聚类划分转化为确定性分类。

（3）超顺磁性聚类（superparamagnetic clustering ）

这是一种基于模拟非均匀铁磁物质的物理特性的聚类方法，将数据聚类问题视为检验不均匀Potts 模型的平衡特性。根据表达谱向量之间的距离矩阵构建图，顶点是数据点，如果两个点之间的距离满足K-mutual-neighbor 准则，则称为邻居。数据点的聚类等价于有权图的划分。给每一数据点分配一个Potts 自旋子，相邻数据点间引入强度随距离下降的相互作用函数。非均匀Potts 模型系统随温度变化表现出三相：在低温下，所有自旋子呈现完全有序的排列，系统为铁磁相；随着温度的升高，小区域自旋子形成磁化“颗粒”，附属于同一“颗粒”者相互间产生强耦合，而无关者间相互作用很弱，不同“颗粒”的排列呈无序状态，为超顺磁相；在高温下，系统不表现任何有序性，为顺磁相。在超顺磁相的转换温度下，磁化率表现出显著的峰值。原则上，超顺磁相可以有一系列的转换点。随着温度的升高，系统可以首先分裂为两类，其中每一类又可以分裂为更多的子类，这样，数据就分层组织为类。SPC 算法的优点是对噪声及初始化不敏感，因为类由系统的综合性质产生。由磁化率的峰值很容易鉴别主要的分界，从而能清楚显示类的构成和分界，并且在每一个分辨率上能自动确定类数。

（4）谱聚类（Spectral clustering ）

k 均值聚类对于聚类中心相距较远的数据样本具有很好的聚类效果，而对于具有同心圆特征的数据样本很难得到好的效果，而谱聚类能够很好的对这类样本进行聚类。谱聚类是一种基于矩阵特征向量的方法，也是一种能根据顶点之间的权值对图进行划分的方法。用图表示基因表达谱矩阵，基因表达谱可以看作是一组顶点，连接顶点的边的权值反映了两个表达

谱之间的相似性，这样就得到有权无向图G=(V,A)，聚类过程等价于将G划分为不连接的子集，这可以通过简单地删除连接边来实现。聚类过程包括两个步骤：第1步是将表达谱空间转化为相似度矩阵的特征向量空间；第2步是应用简单的k均值法对特征向量空间的特征向量进行聚类，得到的结果就对应了基因表达谱的聚类结果。该方法可以根据特征值自动确定分类数目。谱聚类在聚类过程中进行了特征空间的转换，可以将大的空间转化为较小的空间，从而可以更快速的处理大规模的数据。

（5）双向聚类法

以上所述方法主要是对基因表达谱进行聚类，将具有相似表达模式的基因分为一组，这是在应用中要解决的主要问题。数据矩阵中列表示了实验条件，可以是时间序列也可以是不同的肿瘤样本或病人样本。从数学的角度，数据矩阵中的每一列对基因表达谱的行聚类结果有着不同的影响，挑选部分列进行行聚类的结果与选择所有列进行聚类的结果是不同的。从生物学应用的角度，对列进行聚类可以发现各实验条件之间的相互关系，例如同一肿瘤类型的样本可以聚成一类，它们具有相似的基因表达模式，这样就可以基于表达谱对肿瘤进行分类。将两者结合起来，就称为双向聚类法，在行和列两个方向上进行聚类分析，通常采用贪婪迭代检索的方法来发现子矩阵或稳定的类，这些子矩阵中感兴趣的模式具有特定的生物学意义。在应用中，可以根据具体的目的，确定以降低基因维还是以降低样本维为主，通过迭代得到稳定的若干样本分类或基因分组。

8.4.3 有监督聚类方法（分类？？）

如上所述，对于基因表达谱数据矩阵M，在对行或列向量进行聚类时很少或根本不需要生物学知识，所得到的结果是否具有生物学意义，还需要进一步的分析。然而，对于特定的数据矩阵，都有特定的生物学背景，例如基因之间存在相关性，可以分成若干功能类，样本之间也存在某种关系，可能来自相同肿瘤的病人。将这些知识应用于聚类方法中，挑选部分样本作为训练样本，可以提取特征构建分类器，然而对其它的样本进行分类，实现聚类的目的。这种方法称为有监督聚类方法，可以分类两类，一类是基于模型的方法，另一类是不基于模型的方法，包括人工神经网络和属于机器学习的支持向量机。这里主要介绍支持向量机的原理和基本方法。

8。4。3。1 支持向量机（support vector machine，SVM）

统计学习理论是目前针对小样本统计估计和预测学习的最佳理论，它从理论上较系统地研究了风险最小化原则成立的条件，有限样本下经验风险与期望风险的关系，以及如何利用这些理论找到新的学习原则和方法等问题。支持向量机是实现统计学习理论思想的具体方法，可以用于解决小样本、非线性及高维学习问题，不需要足够的样本来构建特征空间，而仅仅需要少量的样本来构建分类界面，这些用来构建分类界面的样本就称为支持向量。

考虑图示的二维两类线性可分情况，图8.4中实心点和空心点分别表示两类的训练样本，H是把两类没有错误地分开的分类线，H1，H2分别为过各类样本中离分类线最近的点，且平行于H的直线，H1、H2之间的距离叫做两类的分类空隙或分类间隔，最优分类线就是要求分类线不但能将两类无错误地分开，而且要使两类的分类空隙最大，前者是保证经验风险最小。使分类空隙最大，实际上就是使推广性的界中的置信范围最小，从而使真实风险最小。对于高维空间，最优分类线就成为最优分类面。

图8.4 两维两类的分类线假设线性可分样本集为),(i i y x ,i=1,2,…,n,}1,1{-+∈i y ,d

R ∈x ，则分类判别函数为b g +?=x w x )(,分类面方程为0=+?b x w 。将判别函数归一化，使两类所有样本都满足1|)(|≥x g ，即使离分类面最近的样本的判别值为1，这样分类间隔||||/2w =。要使间隔最大，必须使||||w 最小，要求分类线对所有样本正确分类，就要求它满足：

01][≥-+?b y i i x w 8.26

因此满足上述条件且使||||w 最小的分类面就是最优分类面。过两类样本中离分类面最近的点且平行于最优分类面的超平面H 1,H 2上的训练样本就是使等号成立的那些样本，叫支持向量（Support Vectors ），它们支撑最优分类面。

那么，如何求最优分类面？根据上述讨论，最优分类面问题可以表示成在条件8.26的约束下。求函数)(2/1||||2

1)(2w w w w ?==φ的最小值。为此，可以构建Lagrange 函数 ∑=-+?-=n i i i i b y b L 1

2}1][{||||21),,(x w w x w α， 8.27 其中0>i α，为Lagrange 系数，问题是对w 和b 求Lagrange 函数的极小值，分别对w 和b 求偏微分并令它们等于0，在约束条件

∑==n i i i

y 10α，n i i ,,1,0 =≥α 8.28

之下，对i α求解函数的最大值，

∑∑==?-=n

j i j i j i j i n i i y y Q 1,1

)(21)(x x αααα 8.29 若*i α为最优解，则∑=i i i y x w *

*α，即最优分类面的权系数向量是训练样本向量的线性

组合。

求解上述问题后得到的最优分类函数是

})(sgn{})sgn{()(****∑+?=+?=b y b x f i i i x x x w α 8.30

sgn()为符号函数，由于非支持向量对应的i α均为0，因此式中的求和实际上只对支持向量进行，而b *是分类的阈值，可以由任意一个支持向量求得，或通过两类中任意一对支持向量取中值求得。从最终的分类判别函数中可以看到，只含有待分类样本与训练样本中的支持向量的内积运算。

对于二类情况的分类，就是要构建最优分类面或超平面。对于大多数真实世界的问题，包含不可分的数据，也就是在数据空间中不存在一个超平面可以成功的区分二类样本，一个解决办法是将数据映射到更高维的空间，在那里定义一个可分隔的超平面。这个更高维的空间称为特征空间，而对应的训练样本所在的空间叫输入空间。问题就成为如何选择一个足够维度的特征空间，使得训练数据可分？这里有计算和学习理论的代价。还有一个风险是人为分隔数据可能使学习系统有过学习的风险。SVM 可以避开这两个问题，避免过学习的问题，通过在特征空间中从众多可分隔超平面中选择最大边缘分隔超平面。

SVM 的基本思想是首先通过非线性变换将输入空间变换到一个高维的特征空间，然后在这个新空间中求取最优线性分类面，而这种非线性变换是通过定义适当的内积函数实现的。用于超平面分类点的决策函数仅仅包含特征空间中点之间的点积，因此寻找特征空间中可分隔超平面的算法完全可以用输入空间中的向量和特征空间中的点积来陈述。SVM 能够定位超平面，不需要明确的表示特征空间，只需要简单的定义称为核心函数的函数，它在特征空间中起着点积的作用，这个技术避免了明确表示特征向量的计算负担。

SVM 的判别函数为：})(sgn{

)(1**∑=+?=n i i i i b K y x f x x α 8.31

一些简单的核心函数有：多项式形式的内积函数q K )1(),(+?=y x , q =1,2,3,… 8.32

核函数型内积:)2/||||exp(),(22αy x --=K 8.33 α是高斯宽度，等于正样本与最近负样本间欧氏距离的中值，得到的SVM 是一种径向基函数分类器。

8。4。3。2 基于模型的聚类方法

在基因表达数据显著性分析时，我们提到贝叶斯方法的应用，它是根据重复实验数据分别构建模型，通过比较两个条件下的模型参数来确定表达差异的显著性。同样，基因表达谱分析也可以引入建模的方法，假定每一个基因表达谱是由一种内在的概率模型产生的，它满

足一定概率分布或者有限组合，例如多元正态分布，而所有的基因表达谱是由若干个概率模型产生的，这样就可以通过确定这些概率模型，来实现对基因表达谱聚类的目的。高斯混合模型在许多聚类应用中都是很有用的工具。与启发式聚类算法比较的最大的优势是，没有严格的方法来确定类的数目或最佳的聚类方法。

基于混合模型聚类假定数据中蕴含的每一组(成分)由一种内在的概率分布混合产生，例如，高斯混合模型中，独立多元观测y 1,y 2,…,y n 组成的数据Y 中每一成分k 由参数为u k （均值矢量）和Σk （协方差矩阵）的多元正态分布模拟，

)

2det()}

()(2/1exp{),|(1k k i k T k i k k i k f Σu y Σu y Σu y π---=- 8.34 算法的目标是由数据预测参数u k 和Σk ，并确定相应于这些参数预测的类。为了便于参数预测，对Σk 进行特征值分解：T k k k k k D A D Σλ=， D 为特征向量组成的正交矩阵，确定成

分的取向，A 为对角矩阵，元素与Σk 的特征值成正比，确定成分的形状，λ为标量，确定成分的体积。约束和改变部分参数，可以得到这一框架下的一组模型，如等体积球模型（EI ：I Σλ=k ）I 为单位矩阵、不等体积球模型(VI:I k k λ=∑)等，以适应数据特征的变化。每一种协方差矩阵与类数组合情况相应于不同的概率模型，由贝叶斯信息准则(BIC)估计每一种模型下数据被观测到的概率，计算结果的BIC 的得分，最后选择BIC 的得分做大的模型和参数。

8.4.4 聚类结果的可视化

对微阵列基因表达谱的聚类分析得到的一般是基因的分组信息和基因表达谱在某种关系上的相互关系，如何进一步了解同组基因的表达谱差异？不同组基因之间是否存在相互关系？哪些基因是上调或下调的，幅度变化有多大，在何种条件下发生较大的变化？等等生物学家普遍关注的问题，需要通过简单、直观的方法来得到这些答案。数据对于大多数人来说太抽象了，而文字的描述又不能反映数据的本质，所以采用可视化的方法可以大大方便对表达谱分析结果的理解，有利于对这些问题的回答。

在数据挖掘中，可视化方法可以用来发现数据中的结构，在数据探索中占有特别重要的地位，这是因为人类的眼睛和大脑具有强大的结构探测能力——这是长期进化的成果。可视化方法就是以各种可以发挥出人类在模式处理方面的特殊能力的方式来显示数据。可视化方法在数据挖掘中具有非常重要的地位，它是筛选数据寻找未知数据关系的理想方法。可视化方法是生物信息学中常用的一种表示和发现生物学知识的方法，典型的例子有蛋白质三维构象的表示、转录因子DNA 结合位点一致序列的logo 表示、基因调控网络的图形表示等。基因表达谱的数据特点是基因数目多，样本少，而每一个数据点所表示的是基因在特定条件下的表达数据，经过数据预处理后，往往是与参考样本表达水平的比值的对数值，负值表示基因表达水平的下调，正值表示上调，值的绝对值反映了变化的幅度。因此，对于表达谱数据及其聚类结果通常用两种方式表示：

①彩色盒图和树状图(dendrogram)。所谓的彩色盒图是用不同的颜色小方盒来表示基因表达谱数据，一个小方盒表示一个数据，绿色表示数据小于0，红色表示数据大于0，相对应其生物学意义是对应的基因在相应的条件下是上调还是下调，而颜色的深浅反映了数据的绝对值大小。基因表达谱的很多聚类结果是以树状图的形式表示的，例如层次式聚类、模糊聚类和SPC 等，对于这些结果的可视化是通过树状图和彩色盒图相结合表达的（如图8.5a 所示）。

全基因组表达谱分析方法(DGE)

全基因组表达谱分析方法（DGE）----基于新一代测序技术的技术路线该方法首先从每个mRNA的3’端酶切得到一段21bp的TAG片段（特异性标记该基因）；然后通过高通量测序，得到大量的TAG序列，不同的TAG序列的数量就代表了相应基因的表达量；通过生物信息学分析得到TAG代表的基因、基因表达水平、以及样品间基因表达差异等信息。技术路线如下： 1、样品准备： a) 提供浓度≥300ng/ul、总量≥6ug、OD260/280为1.8~2.2的总RNA样品； 2、样品制备（见图1-1）： a) 类似SAGE技术，通过特异性酶切的方法从每个mRNA的3’末端得到一段21bp 的特异性片段，用来标记该基因，称为TAG； b) 在TAG片段两端连接上用于测序的接头引物； 3、上机测序： a) 通过高通量测序每个样品可以得到至少250万条TAG序列； 4、基本信息分析： a) 对原始数据进行基本处理，得到高质量的TAG序列； b) 通过统计每个TAG序列的数量，得到该TAG标记的基因的表达量； c) 对TAG进行注释，建立TAG和基因的对应关系； d) 基因在正义链和反义链上表达量间的关系； e) 其它统计分析； 5、高级信息分析： a) 基因在样品间差异表达分析； b) 库容量饱和度分析；

c) 其它分析；测序优势利用高通量测序进行表达谱研究的优势很明显，具体如下： 1．数字化信号：直接测定每个基因的特异性表达标签序列，通过计数表达标签序列的数目来确定该基因的表达量，大大提高了定量分析的准确度。整体表达差异分布符合正态分布，不会因为不同批次实验引起不必要的误差。 2．可重复性高：不同批次的表达谱度量准确，能够更准确的进行表达差异分析。 3．高灵敏度：对于表达差异不大的基因能够灵敏的检测其表达差异；能够检测出低丰度的表达基因。 4．全基因组分析，高性价比：由于该技术不用事先设计探针，而是直接测序的方式，因此无需了解物种基因信息，可以直接对任何物种进行包括未知基因在内的全基因组表达谱分析，因此性价比很高。 5．高通量测序：已有数据表明，当测序通量达到200万个表达标签时，即可得到样本中接近全部表达基因的表达量数据，而目前每个样本分析可以得到300 万~600万个表达标签。

数据分析系统

电子商务公司网站分析几大模块电子商务火热，客观上也让网站分析的需求激增，无论是出于何种目的，例如希望获得更多潜在客户，或是希望压缩成本，又或是希望提升用户体验，业务需求一．业务需求： 1. 市场推广方式是否有效，以及能否进一步提效； 2. 访问网站的用户是否是目标用户，哪种渠道获取的用户更有价值（跟第一个需求有交集也有不同）； 3. 用户对网站的感觉是好还是不好，除了商品本身之外的哪些因素影响用户的感觉； 4. 除了撒谎外，什么样的商业手段能够帮助说服客户购买； 5. 从什么地方能够进一步节约成本； 6. 新的市场机会在哪里，哪些未上架的商品能够带来新的收入增长。2．网站分析实施 1. 网站URL的结构和格式 2. 流量来源的标记 3. 端到端的ROI监测实施 4. 每个页面都正确置入了监测代码吗三. 在线营销 1. SEO的效果衡量 2. SEM和硬广的效果衡量 3. EDM营销效果衡量 4. 所有营销方式的综合分析 4．网站上的影响、说服和转化预置的影响点和说服点的评估 2. 识别潜在的影响点和说服点 3. 购物车和支付环节仍然是重中之重

五．访问者与网站的互动参与访问者互动行为研究包括：（1）内部搜索分析；（2）新访问者所占的比例、数量趋势和来源；（3）旧访问者的访问数量趋势、比例和来源；（4）访问频次和访问间隔时间；（5）访问路径模式商品研究包括：（1）关注和购买模型；（2）询价和购买模型；访问者来询价，还是来购买，在具体行为上是有区别的。（3）内部搜索分析其他重要的关联因素：狭义的网站分析领域：地域细分的销售额、访问者和商品关注情况；客户端情况；例如操作系统，浏览器软件，带宽，访问网站的速度等等；广义的网站分析领域：网站分析测试：A/B测试和多变量测试用户可用性测试；调研；用户人群属性研究；站内IWOM分析；站外IWOM分析 1. 市场推广方式是否有效，以及能否进一步提效；网站分析能够全面衡量效果，并据此提效 2. 访问网站的用户是否是目标用户，哪种渠道获取的用户更有价值 3. 用户对网站的感觉是好还是不好，除了商品本身之外的哪些因素影响

大数据分析的六大工具介绍

大数据分析的六大工具介绍 2016年12月一、概述来自传感器、购买交易记录、网络日志等的大量数据，通常是万亿或EB的大小，如此庞大的数据，寻找一个合适处理工具非常必要，今天我们为大家分学在大数据处理分析过程中六大最好用的工具。我们的数据来自各个方面，在面对庞大而复杂的大数据，选择一个合适的处理工具显得很有必要，工欲善其事，必须利其器，一个好的工具不仅可以使我们的工作事半功倍，也可以让我们在竞争日益激烈的云计算时代，挖掘大数据价值，及时调整战略方向。大数据是一个含义广泛的术语，是指数据集，如此庞大而复杂的，他们需要专门设il?的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源:传感器、气候信息、公开的信息、如杂志、报纸、文章。大数据产生的其他例子包括购买交易记录、网络日志、病历、事监控、视频和图像档案、及大型电子商务。大数据分析是在研究大量的数据的过程中寻找模式, 相关性和其他有用的信息，可以帮助企业更好地适应变化，并做出更明智的决策。二.第一种工具:Hadoop Hadoop是一个能够对大量数据进行分布式处理的软件框架。但是Hadoop是以一种可黑、高效、可伸缩的方式进行处理的。Hadoop是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。Hadoop还是可伸缩的，能够处理PB级数据。此外，Hadoop依赖于社区服务器，因此它的成本比较低，任何人都可以使用。

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下儿个优点: ,高可黑性。Hadoop按位存储和处理数据的能力值得人们信赖。，高扩展性。Hadoop是在可用的计?算机集簇间分配数据并完成讣算任务的，这些集簇可以方便地扩展到数以千计的节点中。，高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。，高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。 ,Hadoop带有用Java语言编写的框架，因此运行在Linux生产平台上是非常理想的。Hadoop上的应用程序也可以使用其他语言编写，比如C++。第二种工具:HPCC HPCC, High Performance Computing and Communications（高性能计?算与通信）的缩写° 1993年，山美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项 U：高性能计算与通信”的报告，也就是被称为HPCC计划的报告，即美国总统科学战略项U ,其U的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国实施信息高速公路而上实施的计?划，该计划的实施将耗资百亿美元，其主要U标要达到:开发可扩展的计算系统及相关软件，以支持太位级网络传输性能，开发千兆比特网络技术，扩展研究和教育机构及网络连接能力。

(生物科技行业)CT法分析基因相对表达量

利用实时定量PCR和2－△△CT法分析基因相对表达量METHODS 25, 402–408 (2001) Analysis of Relative Gene Expression Data Using Real-Time Quantitative PCR and the 2－△△CT Method Kenneth J. Livak* and Thomas D. Schmittgen?,1 *Applied Biosystems, Foster City, California 94404; and ? Department of Pharmaceutical Sciences, College of Pharmacy, Washington State University, Pullman, Washington 99164-6534 摘要：现在最常用的两种分析实时定量PCR 实验数据的方法是绝对定量和相对定量。绝对定量通过标准曲线计算起始模板的拷贝数；相对定量方法则是比较经过处理的样品和未经处理的样品目标转录本之间的表达差异。2－△△CT方法是实时定量PCR 实验中分析基因表达相对变化的一种简便方法，即相对定量的一种简便方法。本文介绍了该方法的推导，假设及其应用。另外，在本文中我们还介绍了两种2－△△CT衍生方法的推导和应用，它们在实时定量 PCR 数据分析中可能会被用到。关键词：反转录PCR 定量PCR 相对定量实时PCR Taqman 反转录 PCR （RT-PCR ）是基因表达定量非常有用的一种方法（1 - 3 ）。实时PCR 技术和RT-PCR 的结合产生了反转录定量 PCR 技术（4 ,5 ）。实时定量PCR 的数据分析方法有两种：绝对定量和相对定量。绝对定量一般通过定量标准曲线来确定我们所感兴趣的转录本的拷贝数；相对定量方法则是用来确定经过不同处理的样品目标转录本之间的表达差异或是目标转录本在不同时相的表达差异。绝对定量通常在需要确定转录本绝对拷贝数的条件下使用。通过实时 PCR 进行绝对定量已有多篇报道（6 - 9 ），包括已发表的两篇研究论文（10,11 ）。在有些情况下，并不需要对转录本进行绝对定量，只需要给出相对基因表达差异即可。显然，我们说 X 基因在经过某种处理後表达量增加 2.5 倍比说该基因的表达从1000 拷贝/ 细胞增加到2500 拷贝/ 细胞更加直观。用实时PCR 对基因表达进行相对定量分析需要特殊的公式、假设以及对这些假设的验证。2－△△CT方法可用于定量PCR 实验来计算基因表达的相对变化：2－△△CT 公式的推导，以及实验设计，有效性评估在Applied Biosystems User Bulletin

基因表达谱测序

基因表达谱测序背景介绍基因表达谱分析利用HiSeq 2000高通量测序平台对mRNA进行测序，获得10M读长为49nt的原始reads，每一个reads可以对应到相应的转录本，从而研究基因的表达差异情况。与转录组测序相比，基因表达谱分析要求的读长更短，测序通量更小，仅可用于基因表达差异的研究。该方法具有定量准、可重复性高、检测阈值宽、成本低等特点，能很好的替代以往的数字化表达谱分析。技术路线

生物信息学分析送样要求样品要求 1. 所需Total RNA 的量均不少于 20μg/文库，Total RNA 可以保存在DEPC 处理过的水中、75%的乙醇、异丙醇中，具体以什么方式保存请注明。 2. 如提供实验材料为动物组织材料，样品质量需大于2g ； 3. 如提供实验材料为植物样品，样品质量需大于4g ； 4. 如提供实验材料为培养细胞，请提供1×107培养好的细胞； 5. 如提供实验材料为血液样品，请提供≥2ml 的样品。我们强烈建议在送样的同时客户做好备份，以备后续实验之用。样品纯度要求 1. OD 260/OD 280在1.8- 2.0之间，RNA 无降解、28S 和18S 核糖体RNA 条带非常亮且清晰（其

大小决定于用于抽提RNA的物种类型），28S的密度大约是18S的2倍；Agilent 2100检测仪分析RNA完整性数据RIN≥8。 2. 无蛋白质、基因组DNA污染，如有污染请去蛋白并进行DNase I处理。请提供至少一种样品的凝胶电泳或者Agilent 2100检测仪检测图片，并注明其浓度、体积、OD260/OD280、溶剂名称、制备时间、物种来源以及特别备注。最终以我方定量、质检为准。样品采集为了保证提取RNA的完整性，确保后续实验的顺利进行，请务必确保样品的新鲜，对于如何确保样品的新鲜针对不同的样品获取材料的方法如下： 1. 动物组织：从活体上迅速的取下组织（切成黄豆粒大小的块状），每切成一个黄豆粒大小的块状立即放入液氮中，重复上述操作，直至足够提取总RNA的量；准备一个50ml的离心管，做相应的标记（样品名称、编号、客户姓名、时间），最好既在管盖上做好标记，也在管壁上做好相应的标记，先放入液氮中预冷2-3min，拿出离心管（离心管的下部分还是保持在液氮中），打开离心管的盖子，将液氮中黄豆粒大小的块状收集进离心管中。 2. 植物组织：（1）如所采集的是果实、麦穗等体积偏大的样品，收集样品请参照1.动物组织取样方法；（2）如采集的是叶片等体积偏小的样品，请尽量采集嫩叶、幼芽等，每采集一片叶片立即放入液氮中，直至足够提取总RNA的量，后续操作请参照动物组织的采集。（3）如是植物的花，在采集花骨朵的时候请尽量不要采集到花萼、叶片等，每采集一个花骨朵请立即放入液氮中，直至足够提取总RNA的量；后续操作请参照动物组织的采集。3. 如提供实验材料为菌丝体，请取500μl的菌液于1.5ml离心管中，离心去上清，剩余菌丝体放入液氮或干冰中，请提供不少于5管的菌丝体。样品运输从液氮中取出准备好的样品，请立即放入干冰中，并用干冰掩埋好样品。请填写完整订单，放入自封袋中与样品一起邮寄。为防止RNA的降解，请确保干冰的量足够运送到目的地。我们强烈建议在寄送RNA样品时将RNA保存在75%的乙醇或异丙醇中。如是特殊样品，关于送样量和保存问题请与我们联系沟通，以便双方共同协商解决。提供结果根据客户需求，提供不同深度的信息分析结果。

大数据分析及其在医疗领域中的应用-图文(精)

第７期２４２０１４年４月１０日计算机教育ＣｏｍｐｕｔｅｒＥｄｕｃａｔｉｏｎ ◆新视点文章编号：１６７２．５９１３（２０１４）０７—００２４－０６中图分类号：Ｇ６４２大数据分析及其在医疗领域中的应用邹北骥（中南大学信息科学与工程学院，湖南长沙４１００８３）摘要：互联网和物联网技术的快速发展给数据的上传与下载带来了前所未有的便利，使得互联网上的数据量急剧增长，由此产生了针对大数据的存储、计算、分析、处理等新问题，尤其是对大数据的挖掘。文章分析当前大数据产生的背景，阐述大数据的基本特征及其应用，结合医疗领域，论述医疗大数据分析的目的、意义和主要方法。关键词：大数据；物联网；医疗；大数据挖掘１大数据早已存在，为何现在称之为大

数据时代计算与数据是一对孪生姐妹，计算需要数据，数据通过计算产生新的价值。数据是客观事物的定量表达，来自于客观世界并早已存在。例如，半个世纪前，全球的人口数量就有数十亿，与之相关的数据就是大数据；但是在那个时代，由于技术的局限性，大数据的采集、存储和处理还难以实现。互联网时代之前，采集世界各地的数据并让它们快速地进入计算系统几乎是一件不可想象的事情。２０世纪８０年代兴起的互联网技术在近３０年里发生了翻天覆地的变化，彻底地改变了人们的工作和生活方式【ｌ】。通过互联网人们不仅可以下载到新闻、小说、论文等各类文字数据，而且可以轻而易举地下载到音乐、图像和视频等多媒体数据，这使得互联网上的数据流量急剧增长。据统计，现在互联网上每分钟流人流出的数据量达到１０００ＰＢ，即１０亿ＧＢｔ２１。推动大数据产生的另一个重要因素是物联网技术。近几年发展起来的物联网技术通过给每个物品贴上标签并应用ＲＦＩＤ等技术实现了

基因表达谱芯片的数据分析

基因表达谱芯片的数据分析(2012-03-13 15:25:58)转载▼ 标签：杂谈分类：生物信息摘要基因芯片数据分析的目的就是从看似杂乱无序的数据中找出它固有的规律, 本文根据数据分析的目的, 从差异基因表达分析、聚类分析、判别分析以及其它分析等角度对芯片数据分析进行综述, 并对每一种方法的优缺点进行评述, 为正确选用基因芯片数据分析方法提供参考. 关键词: 基因芯片; 数据分析; 差异基因表达; 聚类分析; 判别分析吴斌, 沈自尹. 基因表达谱芯片的数据分析. 世界华人消化杂志2006;14(1):68-74 https://www.360docs.net/doc/ba978872.html,/1009-3079/14/68.asp 0 引言基因芯片数据分析就是对从基因芯片高密度杂交点阵图中提取的杂交点荧光强度信号进行的定量分析, 通过有效数据的筛选和相关基因表达谱的聚类, 最终整合杂交点的生物学信息, 发现基因的表达谱与功能可能存在的联系. 然而每次实验都产生海量数据, 如何解读芯片上成千上万个基因点的杂交信息, 将无机的信息数据与有机的生命活动联系起来, 阐释生命特征和规律以及基因的功能, 是生物信息学研究的重要课题[1]. 基因芯片的数据分析方法从机器学习的角度可分为监督分析和非监督分析, 假如分类还没有形成, 非监督分析和聚类方法是恰当的分析方法; 假如分类已经存在, 则监督分析和判别方法就比非监督分析和聚类方法更有效率。根据研究目的的不同[2,3], 我们对基因芯片数据分析方法分类如下: (1)差异基因表达分析: 基因芯片可用于监测基因在不同组织样品中的表达差异, 例如在正常细胞和肿瘤细胞中; (2)聚类分析: 分析基因或样本之间的相互关系, 使用的统计方法主要是聚类分析; (3)判别分析: 以某些在不同样品中表达差异显著的基因作为模版, 通过判别分析就可建立有效的疾病诊断方法. 1 差异基因表达分析(difference expression, DE) 对于使用参照实验设计进行的重复实验, 可以对2样本的基因表达数据进行差异基因表达分

最常用生物软件大全介绍讲解

一、基因芯片： 1、基因芯片综合分析软件。 ArrayVision 7.0 一种功能强大的商业版基因芯片分析软件，不仅可以进行图像分析，还可以进行数据处理，方便protocol的管理功能强大，商业版正式版：6900美元。 Arraypro 4.0 Media Cybernetics公司的产品，该公司的gelpro, imagepro一直以精确成为同类产品中的佼佼者，相信arraypro也不会差。 phoretix™ Array Nonlinear Dynamics公司的基因片综合分析软件。 J-express 挪威Bergen大学编写，是一个用JAVA语言写的应用程序，界面清晰漂亮，用来分析微矩阵（microarray）实验获得的基因表达数据，需要下载安装JAVA运行环境JRE1.2后(5.1M)后，才能运行。 2、基因芯片阅读图像分析软件 ScanAlyze 2.44 ，斯坦福的基因芯片基因芯片阅读软件，进行微矩阵荧光图像分析，包括半自动定义格栅与像素点分析。输出为分隔的文本格式，可很容易地转化为任何数据库。

3、基因芯片数据分析软件 Cluster 斯坦福的对大量微矩阵数据组进行各种簇（Cluster)分析与其它各种处理的软件。 SAM Significance Analysis of Microarrays 的缩写，微矩阵显著性分析软件，EXCEL软件的插件，由Stanford大学编制。4．基因芯片聚类图形显示 TreeView 1.5 斯坦福开发的用来显示Cluster软件分析的图形化结果。现已和Cluster成为了基因芯片处理的标准软件。 FreeView 是基于JAVA语言的系统树生成软件，接收Cluster生成的数据，比Treeview增强了某些功能。 5．基因芯片引物设计 Array Designer 2.00 DNA微矩阵（microarray）软件，批量设计DNA和寡核苷酸引物工具二、RNA二级结构。 RNA Structure 3.5 RNA Sturcture 根据最小自由能原理，将Zuker的根据RNA

数据分析系统—用户操作手册

数据分析系统操作手册目录一、前言 (2) 1.1、编写目的 (2) 1.2、读者对象 (2) 二、系统综述 (3) 2.1、系统架构 (3) 2.1.1系统浏览器兼容 (3) 三、功能说明 (4) 3.1、登录退出 (4) 3.1.1、登录 (4) 3.1.2、退出 (4) 3.1.3、用户信息 (5) 3.2、仪表盘 (5) 3.2.1、报表选择 (6) 3.2.2、布局方式 (7) 3.2.3、仪表盘管理 (8) 3.2.4、单个报表 (10) 3.3、应用中心 (13) 3.3.1、数据搜索 (13) 3.4、策略配置 (39)

3.4.1、数据采集 (39) 3.4.2、报表 (46) 3.4.3、数据类型 (53) 3.4.4、预设搜索 (58) 3.5、系统管理 (61) 3.5.1、代理注册设置 (61) 3.5.2、用户角色 (62) 3.5.3、系统用户 (65) 四、附件 (67) 一、前言 1.1、编写目的本文档主要介绍日志分析系统的具体操作方法。通过阅读本文档，用户可以熟练的操作本系统，包括对服务器的监控、系统的设置、各类设备日志源的配置及采集，熟练使用日志查询、日志搜索功能，并掌握告警功能并能通过告警功能对及日志进行定位及分析。 1.2、读者对象系统管理员：最终用户

项目负责人：即所有负责项目的管理人员测试人员：测试相关人员二、系统综述 2.1、系统架构系统主界面为所有功能点的入口点,通过主菜单可快速定位操作项。系统主要分为四大模块，分别为 1）：仪表盘 2）：应用中心 3）：策略配置 4）：系统管理 2.1.1系统浏览器兼容支持的浏览器 IE版本IE8至IE11等版本 Chrome 36及以上版本 Google chrome(谷歌浏览器) Firefox 30及以以上版本 Mozilla Firefox (火狐浏览器)

系统和数据分析

第一课SAS 系统简介一.SAS 系统 1什么是SAS 系统 SAS 系统是一个模块化的集成软件系统。所谓软件系统就是一组在一起作业的计算机程序。 SAS 系统是一种组合软件系统。基本部分是Base SAS 软件 2 SAS 系统的功能 SAS 系统是大型集成应用软件系统,具有完备的以下四大功能： ●数据访问 ●数据管理 ●数据分析 ●数据显示它是美国软件研究所（SAS Institute Inc.）经多年的研制于1976年推出。目前已被许多国家和地区的机构所采用。SAS 系统广泛应用于金融、医疗卫生、生产、运输、通信、政府、科研和教育等领域。它运用统计分析、时间序列分析、运筹决策等科学方法进行质量管理、财务管理、生产优化、风险管理、市场调查和预测等等业务，并可将各种数据以灵活多样的各种报表、图形和三维透视的形式直观地表现出来。在数据处理和统计分析领域，SAS 系统一直被誉为国际上的标准软件系统。 3 SAS 系统的主要模块 SAS 系统包含了众多的不同的模块，可完成不同的任务，主要模块有： ●●●●●●●● ●●●SAS/BASE（基础）——初步的统计分析 SAS/STAT（统计）——广泛的统计分析 SAS/QC（质量控制）——质量管理方面的专门分析计算 SAS/OR（规划）——运筹决策方面的专门分析计算 SAS/ETS（预测）——计量经济的时间序列方面的专门分析计算 SAS/IML（距阵运算）——提供了交互矩阵语言 SAS/GRAPH（图形）——提供了许多产生图形的过程并支持众多的图形设备 SAS/ACCESS（外部数据库接口）——提供了与大多数流行数据库管理系统的方便接口并自身也能进行数据管理 SAS/ASSIST（面向任务的通用菜单驱动界面）——方便用户以菜单方式进行操作SAS/FSP（数据处理交互式菜单系统） SAS/AF（面向对象编程的应用开发工具）另外SAS系统还将许多常用的统计方法分别集成为两个模块LAB和INSIGHT，供用户

基因表达谱芯片数据分析及其Bioconductor实现

基因表达谱芯片数据分析及其Bioconductor实现 1.表达谱芯片及其应用表达谱DNA芯片（DNA microarrays for gene expression profiles）是指将大量DNA片段或寡核昔酸固定在玻璃、硅、塑料等硬质载体上制备成基因芯片，待测样品中的mRNA被提取后，通过逆转录获得cDNA,并在此过程中标记荧光，然后与包含上千个基因的DNA芯片进行杂交反应30min~20h后，将芯片上未发生结合反应的片段洗去，再对玻片进行激光共聚焦扫描，测定芯片上个点的荧光强度，从而推算出待测样品中各种基因的表达水平。用于硏究基因表达的芯片可以有两种：①cDNA芯片；② 寡核昔酸芯片。 cDNA芯片技术及载有较长片段的寡核昔酸芯片采用双色荧光系统：U前常用Cy3—dUTP （绿色）标记对照组mRNA, Cy5—dUTP （红色）标记样品组mRNAUl。用不同波长的荧光扫描芯片，将扫描所得每一点荧光信号值自动输入计?算机并进行信息处理，给出每个点在不同波长下的荧光强度值及其比值（ratio值），同时计算机还给出直观的显色图。在样品中呈高表达的基因其杂交点呈红色，相反，在对照组中高表达的基因其杂交点呈绿色，在两组中表达水平相当的显黄色，这些信号就代表了样品中基因的转录表达情况⑵。基因芯片因具有高效率，高通量、高精度以及能平行对照研究等特点，被迅速应用于动、植物和人类基因的研究领域，如病原微生物毒力相关基因的。基因表达谱可直接检测mRNA的种类及丰度，可以同时分析上万个基因的表达变化，来揭示基因之间表达变化的相互关系。表达谱芯片可用于研究：①同一个体在同一时间里，不同基因的表达差异。芯片上固定的已知序列的cDNA或寡聚核昔酸最多可以达到30 000多个序列，与人类全基因组基因数相当，所以基因芯片一次反应儿乎就能够分析整个人的基因⑶。②同一个体在不同时间里，相同基因的表达差异。 ③不同个体的相同基因表达上的差异。利用基因芯片可以分析多个样本，同时筛选不同样本（如肿瘤组织、癌前病变和正常组织）之间差异表达的基因，这样可以避免了芯片间的变异造成的误差⑷。张辛燕⑸ 等将512个人癌基因和抑癌基因的cDNA用点样仪点在特制玻片上制成表达谱芯片，对正常人卵巢组织及卵巢癌组织基因表达的差异性进行比较研究，结果发现在卵巢癌组织中下调的基因有23个，上调的基因有15个，初步筛选出了卵巢癌相关基因。Lowe⑹等利用胰腺癌、问充质细胞癌等组织的cDNA制备基因芯片，筛选到胰腺癌细胞中高表达的基因，为医疗诊断、病理研究及新药设计奠定基础。 2.表达谱芯片的数据处理技术

常用统计软件介绍

常用统计软件介绍《概率论与数理统计》是一门实践性很强的课程。但是,目前在国内,大多侧重基本方法的介绍,而忽视了统计实验的教学。这样既不利于提高学生创新精神和实践能力,也使得这门课程的教学显得枯燥无味。为此,我们介绍一些常用的统计软件，以使学生对统计软件有初步的认识,为以后应用统计方法解决实际问题奠定初步的基础。一、统计软件的种类 1.SAS 是目前国际上最为流行的一种大型统计分析系统，被誉为统计分析的标准软件。尽管价格不菲，SAS已被广泛应用于政府行政管理，科研，教育，生产和金融等不同领域，并且发挥着愈来愈重要的作用。目前SAS已在全球100多个国家和地区拥有29000多个客户群，直接用户超过300万人。在我国，国家信息中心，国家统计局，卫生部，中国科学院等都是SAS系统的大用户。尽管现在已经尽量“傻瓜化”，但是仍然需要一定的训练才可以使用。因此,该统计软件主要适合于统计工作者和科研工作者使用。 2.SPSS SPSS作为仅次于SAS的统计软件工具包，在社会科学领域有着广泛的应用。SPSS是世界上最早的统计分析软件，由美国斯坦福大学的三位研究生于20世纪60年代末研制。由于SPSS容易操作，输出漂亮，功能齐全，价格合理,所以很快地应用于自然科学、技术科学、社会科学的各个领域，世界上许多有影响的报刊杂志纷纷就SPSS 的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价与称赞。迄今SPSS软件已有30余年的成长历史。全球

约有25万家产品用户，它们分布于通讯、医疗、银行、证券、保险、制造、商业、市场研究、科研教育等多个领域和行业，是世界上应用最广泛的专业统计软件。在国际学术界有条不成文的规定，即在国际学术交流中，凡是用SPSS软件完成的计算和统计分析，可以不必说明算法，由此可见其影响之大和信誉之高。因此,对于非统计工作者是很好的选择。 3.Excel 它严格说来并不是统计软件，但作为数据表格软件，必然有一定统计计算功能。而且凡是有Microsoft Office的计算机，基本上都装有Excel。但要注意，有时在装 Office时没有装数据分析的功能，那就必须装了才行。当然，画图功能是都具备的。对于简单分析，Excel 还算方便，但随着问题的深入，Excel就不那么“傻瓜”，需要使用函数，甚至根本没有相应的方法了。多数专门一些的统计推断问题还需要其他专门的统计软件来处理。 4.S-plus 这是统计学家喜爱的软件。不仅由于其功能齐全，而且由于其强大的编程功能，使得研究人员可以编制自己的程序来实现自己的理论和方法。它也在进行“傻瓜化”,以争取顾客。但仍然以编程方便为顾客所青睐。 5.Minitab 这个软件是很方便的功能强大而又齐全的软件，也已经“傻瓜化”，在我国用的不如SPSS与SAS那么普遍。

展会观众数据分析与评估

展会观众数据分析与评估中国展览市场的竞争日益白热化，能不能办好一个展览的标准已不仅仅局限于展览会收益的多少。展览的持续性、规模的不断扩展、精品化、品牌化是提升展览品牌的基本要求。而表现最为直接的就是如何将展览上获得的各类观众数据充分利用，以此提升展览的水平和形象，更好的为展商和专业观众服务。参观观众的数量和质量直接反映了展览的成效。观众数据分析，特别是专业观众和境外观众的数据分析对客户关系的建立和发展有着重要的意义。观众数据分析不仅反映了观众的地区分布，行业构成及参展目的，更重要的是它客观地反映了观众对展览的期望值，为完善展览组织工作提供了决策依据，也是参展企业与目标观众选择展览的重要依据。如图所示。观众数据分析流程按照国际惯例，展览的品质并不是以参观者数量的多寡取胜。有数据显示，德国在中国举行的展览与中国同类展览相比，媒体对外宣布的观众人数要少得多。如慕尼黑国际博览集团2005年５月份在上海举办的中国国际运输与物流博览会（Transport Logistic China）的展览报告，统计的观众数量只有9000多人，相比现场看上去比较旺人气缩小了很多，会后，德国负责观众统计的官员解释：在中国所办的展览主要是针对专业观众。因此，观众在拿到入场券之前必须进行预登记。主办单位能准确统计参展观众的人数和性质（专业观众或普通观众）。媒体和未登记的嘉宾并不算做观众。而目前在中国，展览评估与认证在国内还属于空白。展览组织者使用的统计标准五花八门。对展商、观众和媒体来说，要了解展览真正的规模和影响显得十分困难。部分展览组织者相当抵触观众数据的透明度，使得相当部分的目标客户无法获得真正的信息，展览服务的品质受到质疑。因此，展览统计数据的透明化将会对整个中国展览市场受益匪浅。一份良好的数据分析评估报告，对参展商而言，评估的结果可以使参展商在同一展题，不同展览间或展览与其他营销战略的选择时提供参考依据。对观众而言，尤其是专业观众对选择参观不同展览时可获得客观的标准；对展览主办者而言，为打造展览品牌以及更好的完善对参展商及观众的服务提炼了有价值的信息。获得展览观众数据资源并加以挖掘利用是摆在展览企业面前的当务之急。展览观众数据统计分析它主要是以真实、准确的评估分析展览。其作用第一是对外发布展览效果；第二是提供下届展览策划参照。展览观众数据统计分析工作不仅要求对现有数据认真仔细的研究，而且对模糊的数据来源要进行回访查实，力求数据真实、准确，为下一步展览组织工作提供良好的决策支持。这项工作不仅可以树立展览的品牌形象，也能在参展商与观众中产生良好的口碑，从而全面提升展览组织者对展览服务的信心。一、调查取样与信息采集。 1、观众定义标准严格的观众定义是精确统计的前提，被誉为展览大国的德国在展览的观众的定义及展览统计方面有一套相当成熟的做法。德国展览统计数据自愿控制组织（ＦＫＭ）规定：凡购票入场或是在观众登记处登记了姓名和联系地址的人都被称为观众。记者、展商、馆内服务人员和没有登记的嘉宾不在观众之列。这个

大数据可视化分析平台介绍

大数据可视化分析平台一、背景与目标基于邳州市电子政务建设得基础支撑环境,以基础信息资源库（人口库、法人库、宏观经济、地理库）为基础，建设融合业务展示系统,提供综合信息查询展示、信息简报呈现、数据分析、数据开放等资源服务应用。实现市府领导及相关委办得融合数据资源视角，实现数据信息资源融合服务与创新服务,通过系统达到及时了解本市发展得综合情况，及时掌握发展动态，为政策拟定提供依据。充分运用云计算、大数据等信息技术,建设融合分析平台、展示平台,整合现有数据资源結合政务大数据得分析能力与业务编排展示能力，以人口、法人、地理人口与地理法人与地理实现基础展示与分析，融合公安、交通、工业、教育、旅游等重点行业得数据综合分析，为城市管理、产业升级、民生保障提供有效支撑。二、政务大数据平台 1、数据采集与交换需求：通过对各个委办局得指定业务数据进行汇聚，将分散得数据进行物理集中与整合管理，为实现对数据得分析提供数据支撑。将为跨机构得各类业务系统之间得业务协同，提供统一与集中得数据交互共享服务。包括数据交换、共享与ETL等功能。 2、海量数据存储管理需求:大数据平台从各个委办局得业务系统里抽取得数据量巨大，数据类型繁杂，数据需要持久化得存储与访问。不论就是结构化数据、半结构化数据，还就是非结构化数据，经过数据存储引擎进行建模后，持久化保存在存储系统上。存储系统要具备髙可靠性、快速查询能力。 3、数据计算分析需求:包括海量数据得离线计算能力、髙效即席数

据查询需求与低时延得实时计算能力。随着数据量得不断增加, 需要数据平台具备线性扩展能力与强大得分析能力，支撑不断增长得数据量，满足未来政务各类业务工作得发展需要，确保业务系统得不间断且有效地工作。 4、数据关联集中需求:对集中存储在数据管理平台得数据，通过正确得技术手段将这些离散得数据进行数据关联，即：通过分析数据间得业务关系，建立关键数据之间得关联关系，将离散得数据串联起来形成能表达更多含义信息集合，以形成基础库、业务库、知识库等数据集。 5、应用开发需求：依靠集中数据集，快速开发创新应用，支撑实际分析业务需要。 6、大数据分析挖掘需求：通过对海量得政务业务大数据进行分析与挖掘，辅助政务决策，提供资源配置分析优化等辅助决策功能，促进民生得发展。

基因表达分析

基因表达分析 1、EST（Expressed Sequence Tag）表达序列标签（EST）分析 1、EST基本介绍 1、定义： EST是从已建好的cDNA库中随机取出一个克隆，进行5’端或3’端进行一轮单向自动测序，获得短的cDNA部分序列，代表一个完整基因的一小部分，在数据库中其长度一般从20到7000bp不等，平均长度为400bp。 EST来源于一定环境下一个组织总mRNA所构建的cDNA文库，因此，EST也能说明该组织中各基因的表达水平。 2、技术路线：首先从样品组织中提取mRNA，在逆转录酶的作用下用oligo（dT）作为引物进行RT-PCR 合成cDNA，再选择合适的载体构建cDNA文库，对各菌株加以整理，将每一个菌株的插入片段根据载体多克隆位点设计引物进行两端一次性自动化测序，这就是EST序列的产生过程。

3、EST数据的优点和缺点：（1）相对于大规模基因组测序而言，EST测序更加快速和廉价。（2）EST数据单向测序，质量比较低，经常出现相位的偏差。（3）EST只是基因的一部分，而且序列里有载体序列。（4）EST数据具有冗余性。（5）EST数据具有组织和不同时期特异性。 4、EST数据的应用 EST作为表达基因所在区域的分子标签因编码DNA序列高度保守而具有自身的特殊性质，与来自非表达序列的标记（如AFLP、RAPD、SSR等）相比，更可能穿越家系与种的限制。因此，EST标记在亲缘关系较远的物种间比较基因组连锁图和比较质量性状信息是特别有用的。同样，对于一个DNA序列缺乏的目标物种，来源于其他物种的EST也能用于该物种有益基因的遗传作图，加速物种间相关信息的迅速转化。具体说，EST的作用表现在：

基因表达谱聚类

基因表达谱聚类分析 [ 文章来源：| 文章作者：| 发布时间：2006-12-21| 字体：[大中小] 学习过程可以采用从全局到局部的策略。采取这种策略时，学习初期可设定较大的交互作用半径R ，随着学习过程的不断推进，逐步减小R ，直至不考虑对邻近单元的影响。邻域的形状可以是正方形或者圆形。 KFM 的聚类结果与K 均值相似，它的优点是自动提取样本数据中的信息，同时也是一种全局的决策方法，能避免陷入局部最小，缺点在于必须实现人为设定类的数目与学习参数，而且学习时间较长。KFM 方法克服了K- 均值聚类的一些缺点：它应用类间的全局关系，能提供大数据集内相似性关系的综合看法，便于研究数据变量值的分布及发现类结构。而且，它具有更稳健更准确的特点，对噪声稳定，一般不依赖于数据分布的形状。 8.4.2.5 其它聚类方法聚类方法是数据挖掘中的基本方法，数据挖掘的方法很多，在基因表达谱的分析中，除了以上常用方法外，还有一些其它的方法。由于对聚类结果尚没有一种有效的方法进行评价，尤其是对聚类结果的进一步生物学知识发现尚没有新的分析思路和成功应用，因此，科学家们在不断地研究一些新方法。这些方法有不同的原理，能够提取不同数据特征，有可能对具体的数据得到更有意义的结果，发现更多的生物学知识。这里，简单介绍这些方法的原理，更详细的介绍请参看相关文献。 (1)模糊聚类分析方法:这是一种模拟人类的思维方法，通过隶属度函数来反映某一对象属于某一类的程度。基本思路是计算两两基因表达谱之间的相似性程度，构建模糊相似矩阵，利用模糊数学中的传递闭包计算方法得到模糊等价矩阵，选择不同的置信水平从模糊等价矩阵中构建动态聚类图。对于特定的置信水平，可以实现对基因表达谱的分类。该方法的优点是利用了模糊数学中的隶属度概念，能够更好的反映基因表达谱之间的相互关系，而且它是一种全局的优化方法，与向量的顺序无关。 (2)模糊C均值算法:该方法同样将模糊数学中的隶属度概念引入到常用的K 均值聚类方法中。对于K 均值算法，一个基因表达谱所属的类只有一个，因此，它与各类别的关系要么是 1 ，要么是0 ，即属于或不属于某一类。而对于模糊 C 均值法，一个基因表达谱是否属于某一类，是以隶属度来确定第i 个样本属于第j 类的可能性。最终的聚类结果取决于分析的目的，可以根据最大隶属度来确定基因表达谱的分类，即一个基因表达谱只属于一类；但往往是确定隶属度的阈值，只要大于该阈值，就可以将基因表达谱划分为该类，这样的划分结果是一个基因表达谱可以属于多个类，这也是可以被生物学家接受的。模糊 C 均值法与K 均值法的实现过程基本相同，所不同的是对于

沉降观测数据处理及分析评估系统

沉降观测数据处理及分析评估系统
1 软件简介
《沉降观测数据处理及分析评估系统》为一套集合了沉降观测数据的平差处理、沉降观测数据数据管理、沉降评估等功能的综合性专业软件，适用于铁路、公路和其他土建工程的沉降观测数据的处理与管理。软件的主要目标为提高数据处理效率、保证结果的准确性以及大批量数据的管理。软件分为两个模块：①电子水准仪数据处理及平差软件； ②数据录入与分析评估软件。在后述的使用说明中将分别介绍其使用方法。
2 服务
客户购买软件时，同时获得软件升级与远程技术支持服务，在服务期限内客户可根据自己的需要免费升级到新的版本和向技术支持服务人员进行软件应用咨询，用户非正常使用引起的结果不在服务范围。
3 运行环境
3.1 硬件设备
CPU——P4 2.0G 及以上内存——512M 及以上硬盘——10G 及以上
3.2 支持软件
操作系统：Windows 2000/XP/Vista 开发平台：MS Visual Studio 支持软件：Office Excel 2003

4 平差处理软件使用说明
4.1 软件的功能和性能
电子水准仪数据处理及平差软件，是专为我国京沪高速铁路线下沉降观测评估而设计的电子水准仪数据处理与高程平差计算软件。软件的主要功能有： 1、根据需要选择工作路径； 2、根据设置生成高差文件； 3、生成平差文件； 4、输出观测手簿； 5、闭合环自动搜索与闭合差计算； 6、网平差处理与成果输出； 7、其它一些辅助功能。软件的主要输出内容包括： 1、可输出高程控制网测段实测高差数据； 2、可输出网点高程平差值及其精度； 3、可输出网点高差改正数、平差值及其精度； 4、可输出高程控制网平差后的验后单位权中误差； 5、可输出高程控制网外业观测手簿等。
4.2 使用说明
4.2.1 选择工作路径 “电子水准仪数据处理及平差软件”是按 Windows 管理文件夹与文件的模式进行的，所有的操作是在所选定的文件夹中进行的。这样做的优点是方便用户使用，便于存档和调阅及工作路径的选择。 “电子水准仪数据处理及平差软件” 的项目会涉及到许多文档，根据一定的命名规则，系统会调用相应的文档进行处理。使用“电子水准仪数据处理及平差软件”的第一步就是选择要进行操作的工作路径，并在此路径下进行数据处理操作。用以下方法之一选择工作路径：（1）选择菜单打开/选择工作路径；（2）在选择作业工具栏中，选择作业路径/选择工作路径。选择此项，弹出如图 4.1 所示窗口。

数据分析常用指标介绍

数据分析指标体系信息流、物流和资金流三大平台是电子商务的三个最为重要的平台。而电子商务信息系统最核心的能力是大数据能力，包括大数据处理、数据分析和数据挖掘能力。无论是电商平台还是在电商平台上销售产品的商户，都需要掌握大数据分析的能力。越成熟的电商平台，越需要以通过大数据能力驱动电子商务运营的精细化，更好的提升运营效果，提升业绩。因此构建系统的电子商务数据分析指标体系是数据电商精细化运营的重要前提。电商数据分析指标体系可以分为八大类指标：包括总体运营指标、网站流量指标、销售转化指标、客户价值指标、商品类目指标、营销活动指标、风险控制指标和市场竞争指标。不同类别指标对应电商运营的不同环节，如网站流量指标对应的是网站运营环节，销售转化、客户价值和营销活动指标对应的是电商销售环节。能否灵活运用这些指标，将是决定电商平台运营成败的关键。 1.1.1.1总体运营指标总订单数量：即访客完成网上下单的订单数之和。销售金额：销售金额是指货品出售的金额总额。客单价：即总销售金额与总订单数量的比值。销售毛利：销售收入与成本的差值。销售毛利中只扣除了商品原始成本，不扣除没有计入成本的期间费用（管理费用、财务费用、营业费用）。

毛利率：衡量电商企业盈利能力的指标，是销售毛利与销售收入的比值。 ~ 1.1.1.2网站流量指标独立访客数（UV）：指访问电商网站的不重复用户数。对于PC网站，统计系统会在每个访问网站的用户浏览器上添加一个cookie来标记这个用户，这样每当被标记cookie的用户访问网站时，统计系统都会识别到此用户。在一定统计周期内如（一天）统计系统会利用消重技术，对同一cookie在一天内多次访问网站的用户仅记录为一个用户。而在移动终端区分独立用户的方式则是按独立设备计算独立用户。页面访问数（PV）：即页面浏览量，用户每一次对电商网站或者移动电商应用中的每个网页访问均被记录一次，用户对同一页面的多次访问，访问量累计。人均页面访问数：即页面访问数（PV）／独立访客数（UV），该指标反映的是网站访问粘性。单位访客获取成本：该指标指在流量推广中，广告活动产生的投放费用与广告活动带来的独立访客数的比值。单位访客成本最好与平均每个访客带来的收入以及这些访客带来的转化率进行关联分析。若单位访客成本上升，但访客转化率和单位访客收入不变或下降，则很可能流量推广出现问题，尤其要关注渠道推广的作弊问题。跳出率（Bounce Rate）：为浏览单页即退出的次数/该页访问次数，跳出率只能衡量该页做为着陆页面（LandingPage）的访问。如果花钱做推广，着落页的跳出率高，很可能是因为推广渠道选择出现失误，推广渠道目标人群和和被推广网站到目标人群不够匹配，导致大部分访客来了访问一次就离开。页面访问时长：页访问时长是指单个页面被访问的时间。并不是页面访问时长越长越好，要视情况而定。对于电商网站，页面访问时间要结合转化率来看，如果页面访问时间长，但转化率低，则页面体验出现问题的可能性很大。人均页面浏览量：人均页面浏览量是指在统计周期内，平均每个访客所浏览的页面量。人均页面浏览量反应的是网站的粘性。