基因芯片的数据分析

合集下载

生物信息学讲义——基因芯片数据分析

生物信息学讲义——基因芯片数据分析

生物信息学讲义——基因芯片数据分析生物信息学是指运用计算机技术和统计学方法来解析和理解生物领域的大规模生物数据的学科。

基因芯片数据分析是生物信息学研究的一个重要方向,通过对基因芯片数据进行分析,可以揭示基因在生物过程中的功能和调节机制。

本讲义将介绍基因芯片数据的分析方法和应用。

一、基因芯片数据的获取与处理基因芯片是一种用于检测和测量基因表达水平的高通量技术,可以同时检测上千个基因的表达情况。

获取基因芯片数据的第一步是进行基因芯片实验,如DNA芯片实验或RNA芯片实验。

实验得到的数据一般为原始强度值或信号强度值。

接下来,需要对这些原始数据进行预处理,包括背景校正、归一化和过滤噪声等步骤,以消除实验误差和提高数据质量。

二、基因表达分析基因芯片数据的最主要应用之一是进行基因表达分析。

基因表达分析可以揭示在不同条件下基因的表达模式和差异表达基因。

常用的基因表达分析方法包括差异表达分析、聚类分析和差异共表达网络分析等。

差异表达分析常用来寻找在不同条件下表达差异显著的基因,如差异表达基因的筛选和注释;聚类分析可以将表达模式相似的基因分为一组,如聚类分析可以将不同样本中的基因按照表达模式进行分类;差异共表达网络分析可以找到一组在差异表达样本中共同表达的基因,揭示潜在的功能模块。

三、功能富集分析对差异表达基因进行功能富集分析可以帮助我们理解这些基因的生物学功能和参与的生物过程。

功能富集分析可以通过对差异表达基因进行GO(Gene Ontology)注释,找到在特定条件下富集的生物学过程、分子功能和细胞组分等。

另外,功能富集分析还可以进行KEGG(Kyoto Encyclopedia of Genes and Genomes)富集分析,找到差异表达基因在代谢通路和信号传导通路中的富集情况。

四、基因调控网络分析基因调控网络分析可以帮助我们揭示基因间的调控关系和寻找关键调控基因。

基因调控网络是基于差异表达数据构建的,它可以包括转录因子-靶基因调控网络和miRNA-mRNA调控网络等。

免疫学中基因芯片的应用及数据分析方法

免疫学中基因芯片的应用及数据分析方法

免疫学中基因芯片的应用及数据分析方法基因芯片是一种新型的生物技术工具,它被广泛运用于生物学研究、医学诊断以及农业等领域。

在免疫学研究中,基因芯片可以用来分析基因表达,研究免疫系统的生物学和病理生理学,以及开发新的免疫疗法。

本文将探讨免疫学中基因芯片的应用及数据分析方法。

一、基因芯片在免疫学研究中的应用基因芯片技术基于DNA序列互补的原理,可以同时探测几千个基因在不同生理和病理条件下的表达水平。

在免疫学研究中,基因芯片技术可以用来研究免疫系统中与疾病相关的基因表达变化,为免疫治疗的开发提供重要的信息。

1. 免疫系统基因表达谱的分析免疫系统是一种复杂的网络,包括免疫细胞、激素和细胞因子等多种成分。

在不同生理和病理条件下,免疫系统中的基因表达模式会发生变化,这些变化与多种疾病的发生和发展密切相关。

利用基因芯片技术可以对免疫系统中的基因表达谱进行全面的分析,从而发现与免疫系统相关的新的治疗靶点。

2. 免疫治疗的监测免疫治疗是一种新兴的治疗模式,包括肿瘤免疫治疗、自身免疫病治疗以及感染病治疗等。

基因芯片技术可以用来监测免疫治疗的效果,并评估治疗的预后。

例如,利用基因芯片技术可以分析免疫治疗后T细胞的基因表达谱,从而预测治疗是否成功。

3. 病原体识别和分析免疫系统的主要功能是识别和清除病原体,基因芯片技术可以用来识别和分析各种病原体的基因表达模式,从而发现新的病原体治疗靶点,为针对性治疗提供依据。

二、基因芯片数据分析方法基因芯片技术可以同时测量成千上万个基因的表达水平,产生的数据量很大,数据分析也是一个复杂的过程。

一般情况下,基因芯片数据分析包括数据预处理、差异基因筛选、聚类分析、生物学意义的解释等几个步骤。

1. 数据预处理数据预处理指的是原始的基因芯片数据清洗与归一化的过程,这是数据分析的关键步骤。

数据预处理的目的是剔除芯片噪声、基准样本处理、将不同芯片数据进行标准化处理,提高数据质量和可靠性,为后续分析打下基础。

实验6 基因芯片数据处理分析与GO分析

实验6 基因芯片数据处理分析与GO分析
实验六: 基因芯片数据处理和分析、GO 分析
实验目的:
1. 学会使用 TM4 软件集对芯片数据进行处理和分析,学会使用 Cluster 进行聚类分析 3. 学会 GO 语义及其相关注释的浏览与搜索,学会使用 DAVID 进行基因集功能富集分析
实验内容:
一、基因芯片数据处理和分析
基因芯片或称微阵列(microarray)能够平行、高通量地检测成千上万基因转录本的表 达水平, 应用芯片技术可以比较正常和异常细胞中的表达, 帮助识别疾病相关基因和药物作 用靶标,分析复杂疾病的致病机制,也可以揭示基因间的表达调控关系。基因芯片数据处理 包括芯片杂交实验芯片数据采集(扫描)数据基本处理提交数据库生物信息学分析 等步骤,涉及很多不同的实验类型。这里介绍 TIGR 中心开发的 TM4 软件包,应用 MeV、 Cluster 和 TreeView 等软件对相关基因表达谱进行聚类分析和差异表达基因的筛选。
Figure 6.11 ( 2 ) 数 据 导 入 : 点 击 “Browse” 按 钮 , 打 开 软 件 自 带 的 表 达 量 数 据 文 件 :
TDMS_format_sample.txt , 样 本 数 据 便 自 动 加 载 到 “Expression File Loader” 窗 口 下 方 的 “Expression Table”栏(Figure 6.12) 。实验数据类型有两个选项:双色芯片(Two-color Array) 和单色芯片(Single-color Array) ,本例选择双色芯片。单击“Load”按钮将数据导入。
Figure 6.12 (3)显示基因表达情况:通过 Multiple Array Viewer 窗口看热图(Heat map) ,了解每 个基因在不同样本中的相对表达量(Figure 6.13) 。

基因芯片及其数据分析

基因芯片及其数据分析

Page 3
2.基因芯片发展历史
Southern & Northern Blot
Dot Blot
Macroarray
Microarray
3.基因芯片癿杂交原理
如图,在一块基片表面固定了序列已知癿八核苷酸癿探针。当溶液中带有荧 光标记癿核酸序列TATGCAATCTAG,不基因芯片上对应位置癿核酸探针产 生互补匹配时,通过确定荧光强度最强癿探针位置,获得一组序列完全互补 癿探针序列。据此可重组出靶核酸癿序列。
Page 6
5.制备基因芯片癿固定方法
目前已有多种方法可以将寡核苷酸或短肽固定到固相支持 物上。这些方法总体上有两种,即原位合成( in situ synthesis )不合成点样两种。支持物有多种如玻璃片、 硅片、聚丙烯膜、硝酸纤维素膜、尼龙膜等,但需经特殊 处理。 作原位合成癿支持物在聚合反应前要先使其表面衍生出羟 基或氨基(视所要固定癿分子为核酸或寡肽而定)幵不保 护基建立共价连接;作点样用癿支持物为使其表面带上正 电荷以吸附带负电荷癿探针分子,通常需包被以氨基硅烷 或多聚赖氨酸等。
Page 7
6.基因芯片癿合成原理
基因芯片在片合成原理图 美国Affymetrix公司制备癿基因芯片产品在1.28*1.28cm2表面上可包含 300,000个20至25mer寡核苷酸探针,每个探针单元癿大小为10um X 10um。 其实验室芯片癿阵列数已超过到1,000,000个探针。
Page 8
Page 10
光纤微珠芯片癿组装
Page 11
光纤微珠芯片癿优点
光纤微珠芯片是利用独特癿微珠阵列(BeadArray)技术生产 癿芯片,具有高密度、高重复性、高灵敏度、低上样量、 定制灵活等特点,兊服了传统芯片癿多个技术瓶颈,丌仅 检测筛选速度很高,也显著降低了研究成本。光纤微珠芯 片有可能成为以后基因芯片癿发展方向。

基于生物信息学的基因芯片数据分析技术研究

基于生物信息学的基因芯片数据分析技术研究

基于生物信息学的基因芯片数据分析技术研究随着生物技术的进步,生命科学研究中的基因芯片数据越来越多,也越来越复杂,对于如何较好地分析这些数据,成为了当前生物信息学研究的一个重要课题。

本文将结合实际案例,探讨基于生物信息学的基因芯片数据分析技术研究。

1. 基因芯片技术简介基因芯片是一种高通量的检测方法,也称为基因表达谱(gene expression profiling)技术。

它可以同时检测成千上万个基因的表达水平,从而揭示基因表达与疾病、发育等生物过程之间的联系。

基因芯片的数据量巨大,分析也越来越复杂,因此需要借助生物信息学的方法来进行数据处理和分析。

2. 基因芯片数据分析流程基因芯片数据分析的基本流程包括预处理(preprocessing)、差异分析(differential analysis)、聚类分析(clustering analysis)和富集分析(enrichment analysis)四个部分。

2.1 预处理预处理是指通过对原始数据的质控、标准化和筛选,减少噪声、消除实验误差和归一化处理等,从而得到高质量的数据。

具体预处理步骤包括芯片图像分析、原始数据提取、背景校正、数据标准化、基因过滤、批次效应调整等。

2.2 差异分析差异分析是指比较不同实验组的基因表达差异,从而确定与特定现象有关的基因。

通常采用的方法包括t检验、方差分析、t-test、SAM等,差异分析后得到的结果通常以p值和折叠变化(fold changes)为标准。

2.3 聚类分析聚类分析是指将相似的样本或基因聚集在一起,从而揭示样本或基因在表达模式上的共性和差异。

主要方法包括层次聚类(hierarchical clustering)和K-means聚类等。

聚类分析后,可以通过热图(heatmap)和散点图(scatter plot)等方式可视化聚类结果。

2.4 富集分析富集分析是指对差异基因的功能和通路进行注释和分析,从而了解这些基因参与的生物过程、疾病和代谢通路等。

基因芯片数据分析

基因芯片数据分析
(2). DNA chips: 将寡核苷酸探针 (20~80-mer) 合成到 芯片上。Affymetrix开发设计,通常为单通道, 一次检验一种状态 。
(1) cDNA microarrays
cDNA clones
载玻片
差异表达基因的筛选
Treatment / control Normal / tumor tissue Brain / liver …
荧光标记的靶基因
(2) DNA chips
DNA chips的制备:Affymetrix photolitography
探针长度:25 bp 每个基因:22-40个探针 Perfect Match (PM) vs.
MisMatch (MM) probes
A. 选择硅片、玻璃片、瓷片或聚丙烯膜、尼龙膜等支持物 B. 采用光导化学合成和照相平板印刷技术在硅片等表面合成寡核苷酸探 针; 或者通过液相化学合成寡核苷酸链探针,或PCR技术扩增基因序列, 由阵列复制器,或阵列机及电脑控制的机器人,将不同探针样品定量点 样于带正电荷的尼龙膜或硅片等相应位置上 C. 紫外线交联固定后即得到DNA微阵列或芯片
基因芯片数据分析
1. 基因芯片(Microarray) 2. 图像处理与数据标准化 3. 基因芯片的数据分析
1. 基因芯片简介
基因芯片 (1987): 固定有寡核苷酸、DNA或cDNA等 的生物芯片。利用这类芯片与标记生物样品进行杂 交,可对样品基因表达谱生物信息进行快速定性和 定量分析。
高通量、点阵以及Northern杂交 同时测定细胞内数千个基因的表达情况 将mRNA反转录成cDNA与芯片上的探针杂交
芯片的体积非常小:微量样品的检测 基因表达情况的定量分析
生物芯片的基本要点

基因芯片(Affymetrix)分析2:芯片数据预处理

基因芯片(Affymetrix)分析2:芯片数据预处理

基因芯片(Affymetrix)分析2:芯片数据预处理基因芯片技术的特点是使用寡聚核苷酸探针检测基因。

前一节使用ReadAffy函数读取CEL文件获得的数据是探针水平的(probe level),即杂交信号,而芯片数据预处理的目的是将杂交信号转成表达数据(即表达水平数据,expression level data)。

存储探针水平数据的是AffyBatch类对象,而表达水平数据为ExpressionSet类对象。

基因芯片探针水平数据处理的R软件包有affy, affyPLM, affycomp, gcrma等,这些软件包都很有用。

如果没有安装可以通过运行下面R语句安装:Affy芯片数据的预处理一般有三个步骤:•背景处理(background adjustment)•归一化处理(normalization,或称为“标准化处理”)•汇总(summarization)。

最后一步获取表达水平数据。

需要说明的是,每个步骤都有很多不同的处理方法(算法),选择不同的处理方法对最终结果有非常大的影响。

选择哪种方法是仁者见仁智者见智,不同档次的杂志或编辑可能有不同的偏好。

1 需要了解的一点Affy芯片基础知识Affy基因芯片的探针长度为25个碱基,每个mRNA用11~20个探针去检测,检测同一个mRNA的一组探针称为probe sets。

由于探针长度较短,为保证杂交的特异性,affy公司为每个基因设计了两类探针,一类探针的序列与基因完全匹配,称为perfect match(PM)probes,另一类为不匹配的探针,称为mismatch (MM)probes。

PM和MM探针序列除第13个碱基外完全一样,在MM中把PM的第13个碱基换成了互补碱基。

PM和MM探针成对出现。

我们先使用前一节的方法载入数据并修改芯片名称:用pm和mm函数可查看每个探针的检测情况:上面显示的列名称就是探针的名称。

而基因名称用probeset名称表示:名称映射时会看到。

基因芯片数据分析(模式识别与智能系统专业优秀论文)

基因芯片数据分析(模式识别与智能系统专业优秀论文)

中国科学院自动化研究所博士学位论文学技术的发展,基因的遗传物质是DNA、DNA双螺旋结构、基冈断裂现象、基因重叠现象、内含子、外显子、转座子、启动子以及假基因等被陆续发现.所有这些成果无疑进一步加深了人类对基因的认识,为基因概念加入了新鲜的内涵。

然而对基因的概念.直到目前也没有一个公认的定义。

说起基因表达,就不得不提起分子生物学中的一个基本法则,即克里克(FHccdck)于1970年提出来的中心法则(cemmldogma)_6J,该法则描述了细胞中遗传信息的流动,描述了遗传信息的载体(基因)是如何决定了生物功能执行分子(蛋白质)。

如图l-l所示。

遗传信息的一般流动方向(图中实线所示)是:遗传信息可以从DNA流向DNA,即完成DNA的自我复制过程,也司以从DNA流向RNA,进而流向蛋白质(prote抽),即完成遗传信息的转录和翻译过程。

后来的研究又发现,在某些病毒中,RNA也可以自我复制,笋且还发现在一些病毒蛋白质的合成过程中,RNA可以在逆转录酶的作用下台成D悄A。

因此,在某些病毒中,遗传信息可以沿图中的虚线方向流动。

上述逆转录过程以及RNA自我复制过程的发现,补充和发展了“中心法则”,使之更加完整。

图1一1.生命的中心法则(车图片来自[71)从上述过程中我们可以看出,从DNA到蛋白质的过程中,RNA起着媒介作用,我们把起媒介作用的RNA叫做mm4A(messerIgerRNA,信使RNA)。

基因表达指的就是DNA转录成mRNA,mRNA又翻译成蛋白质的整个过程【8lo第4页中国科学院自动化研究所博士学位论文作用而形成氢键。

对于DNA来说,腺嘌呤(adenine,缩写A)和胸腺嘧啶(thymine,缩写T)配对,胞嘧啶(c”osine,缩写c)和鸟嘌呤(guanine,缩写G)配对,如图1.2所示。

杂交结果双链分子的丰度依赖于最初单链分子的丰度及其序列配对的吻合程度。

需要提醒的一点就是杂交双方的分子个数都要足够多,因为这对于保证杂交反应能进行下去以及后期丰度的监测与测量都是十分必要的。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基因表达谱芯片的数据分析基因芯片数据分析就是对从基因芯片高密度杂交点阵图中提取的杂交点荧光强度信号进行的定量分析,通过有效数据的筛选和相关基因表达谱的聚类,最终整合杂交点的生物学信息,发现基因的表达谱与功能可能存在的联系。

然而每次实验都产生海量数据,如何解读芯片上成千上万个基因点的杂交信息,将无机的信息数据与有机的生命活动联系起来,阐释生命特征和规律以及基因的功能,是生物信息学研究的重要课题[1]。

基因芯片的数据分析方法从机器学习的角度可分为监督分析和非监督分析,假如分类还没有形成,非监督分析和聚类方法是恰当的分析方法;假如分类已经存在,则监督分析和判别方法就比非监督分析和聚类方法更有效率。

根据研究目的的不同[2,3],我们对基因芯片数据分析方法分类如下。

(1)差异基因表达分析:基因芯片可用于监测基因在不同组织样品中的表达差异,例如在正常细胞和肿瘤细胞中;(2)聚类分析:分析基因或样本之间的相互关系,使用的统计方法主要是聚类分析;(3)判别分析:以某些在不同样品中表达差异显著的基因作为模版,通过判别分析就可建立有效的疾病诊断方法。

1 差异基因表达分析(difference expression, DE)对于使用参照实验设计进行的重复实验,可以对2样本的基因表达数据进行差异基因表达分析,具体方法包括倍数分析、t检验、方差分析等。

1.1倍数变化(fold change, FC)倍数分析是最早应用于基因芯片数据分析的方法[4],该方法是通过对基因芯片的ratio值从大到小排序,ratio 是cy3/cy5的比值,又称R/G值。

一般0.5-2.0范围内的基因不存在显著表达差异,该范围之外则认为基因的表达出现显著改变。

由于实验条件的不同,此阈值范围会根据可信区间应有所调整[5,6]。

处理后得到的信息再根据不同要求以各种形式输出,如柱形图、饼形图、点图等。

该方法的优点是需要的芯片少,节约研究成本;缺点是结论过于简单,很难发现更高层次功能的线索;除了有非常显著的倍数变化的基因外,其它变化小的基因的可靠性就值得怀疑了;这种方法对于预实验或实验初筛是可行的[7]。

此外倍数取值是任意的,而且可能是不恰当的,例如,假如以2倍为标准筛选差异表达基因,有可能没有1条入选,结果敏感性为0,同样也可能出现很多差异表达基因,结果使人认为倍数筛选法是在盲目的推测[8,9]。

1.2 t检验(t-test)差异基因表达分析的另一种方法是t检验[10],当t超过根据可信度选择的标准时,比较的两样本被认为存在着差异。

但是t 检验常常受到样本量的限制,由于基因芯片成本昂贵,重复实验又很费时,小样本的基因芯片实验是很常见的,但是小样本导致了不可信的变异估计。

为了克服这种缺点,研究者提出了调节性t 检验(regularized t -test),它是根据在基因表达水平和变异之间存在着相互关系,相似的基因表达水平有着相似的变异这个经验,应用贝叶斯条件概率(贝叶斯定理 )统计方法,通过检测同一张芯片临近的其它基因表达水平,可以对任何基因的变异程度估计进行弥补。

这种方法对于基因表达的标准差估计优于简单的t -test 和固定倍数分析法[11]。

1.3 方差分析(analysis of variance, ANOV A)方差分析(ANOV A)又称变异数分析或F 检验,其目的是推断两组或多组资料的总体均数是否相同,检验两个或多个样本均数的差异是否有统计学意义,方差分析可用于差异基因表达研究[12]。

方差分析需要参照实验设计,参照样本常用多种细胞的mRNA 混合而成,由于所有的细胞同时表达的基因众多,结果低表达基因在样本混合后就被稀释而减少了参照样本的代表性,因此,增加参照样本的细胞不会提高参照样本的代表性[13]。

方差分析能计算出哪些基因有统计差异,但它没有对那些组之间有统计差异进行区分,比如用单因素方差分析对A 、B 、C 、D 4组进行分析,对于某一个基因,方差分析能够分析出A 组与B 、C 、D 组之间有差异,但是B 、C 、D 之间无统计学意义。

这就需要使用均值间的两两比较(post-hoc comparisons)检验,该检验是对经方差分析后的基因进行下一水平更细节的分析[14]。

即t -检验只能用于检验两样本中均值是否存在显著性差异,而两两比较技术考虑了多于2样本间均数的比较。

上述所有的参数分析方法必须平衡假阳性、假阴性错误[15, 16],控制假阳性率有4种方法:(1)邦弗朗尼(Bonferroni)方法,计算公式:Corrected P-value =P-value×n(number of genes in test),如果纠正P 值仍小于错误率(如0.05),则该基因将属于有表达差异的基因。

(2)Bonferroni Step-down(Holm)法,这种校正方法与邦弗朗尼很相似,但没有前者严格。

主要思想如下:每个基因的P 值从低到高排序,Corrected P -value =P -value×n(n-1/n-2……),如果纠正P 值仍小于错误率(如0.05),则该基因将属于有表达差异的基因。

(3)Westafall & Young 参数法,前面2种方法都是单独对P 值进行纠正,本方法通过同时对所有基因进行排序,充分利用基因间的独立性进行P 值纠正。

每个基因的P 值是按原始资料的排序进行计算;将资料划分为人工组和对照组而产生新的数据。

采用新数据计算所有基因的P 值,新P 值再与以前的P 值进行比较,上述过程重复很多次,最后计算出纠正P 值。

如果纠正P 值仍小于错误率(如0.05),则该基因将属于有表达差异的基因。

(4)Benjamini & Hochberg 假阳性率法,该方法是4种方法中最不严谨()()()()r r r r B A A A B B ΡΡΡ=Ρ的方法,因此可能产生很多的假阳性和假阴性,其方法如下:首先对每一个基因的p值由小到大排序,最大的P值保持不变,其它基因按下列公式计算P值,Corrected p-value=P value×(n/n-1)以此类推,若P<0.05则为有差异基因。

上述前3种方法可概括为误差率判断族(family-wise error rate, FWER),它的特点是允许很少的假阳性基因发生,而假阳性率(false discovery rate, FDR)是允许一定率的假阳性基因发生。

总之,假阳性率(FDR)在差异表达与控制假阳性率之间提供了一个好的平衡统计,Bonferroni 是最严格的方法,也是最保守的假阳性估计方法。

Westfall & Young 参数法是以基因的共同调节进行计算,因此它的计算是很慢的,对假阳性率的估计也是很保守的[17,18]。

1.4非参数分析(nonparametric analysis)由于微阵列数据存在“噪声”干扰而且不满足正态分布假设,因此使用t-检验和回归模型进行筛选的方法可能有风险。

非参数检验并不要求数据满足特殊分布的假设,所以使用非参数方法对变量进行筛选虽然粗放,但还是可行的[19]。

目前用于基因表达谱数据分析的非参数方法除了传统的非参数t-检验(nonparametric t-test)、Wilcoxon秩和检验(Wilcoxon rank sun test)等外[20],一些新的非参数方法也应用于基因表达谱数据的分析中,如经验贝叶斯法(empirical Bayes method)[21]、芯片显著性分析(significance analysis of microarray, SAM)[22]、混合模型法(the mixture model method, MMM)[23]等。

参数法的缺点是分析数据有假设检验,比如改变样本中的变异可明显影响分析结果,对同样数据的转换(如对数),对其分析结果也有明显的影响。

非参数方法对于这种情况的发生更有效,但是它对表达数据分析的敏感性不如参数方法。

1.5回归分析(Regression Analysis)目前使用的一些简单的参数分析方法是通过数据转换(如对数)来达到正态分布为假设前提的,或者是估计的经验分布,然而这二种方法对基因表达数据可能都是不合理的,非参数方法忽视了数据的分布,而参数方法又会误判数据的分布[24,25]。

基因表达谱的回归分析是可以处理多个基因变量间线性依存关系的统计方法,于是研究者们提出了使用回归分析基因表达谱数据,如Li et al[26]使用互变量(Cox)回归方法分析基因表达谱数据,用于患者的生存率预判;Huang et al[27]将线性回归方法应用于肿瘤的分类研究中。

2 聚类分析(clustering analysis)聚类分析的目的在于辨别在某些特性上相似的事物,并按这些特性将样本划分成若干类(群),使同类事物具有高度同质性,而不同类事物则有高度异质性。

聚类分析是通过建立各种不同的数学模型,它把基于相似数据特征的变量或样本组合在一起。

归为一个簇的基因在功能上可能相似或关联,从而找到未知基因的功能信息或已知基因的未知功能。

但是由于使用数据转换、归一化等因素,导致对聚类分析结果的影响较大;此外,聚类只是为了寻求类,不管所聚的类别是否有意义[28]。

2.1分层聚类法(hierarchical clustering, HCL)分层聚类是将n 个样品各作为一类,计算n 个样品两两之间的距离,构成距离矩阵,合并距离最近的两类为一新类,计算新类与当前各类的距离[29]。

再合并、计算,直至只有一类为止。

分层聚类是第一个被应用于基因表达谱数据分析的聚类方法[30],由于结果的可视化和基因间关系的明确表现,广泛地应用于基因表达谱的肿瘤亚型分类和幸存率研究中[31,32]。

2.2 K-均值聚类 (k-means clustering, KMC)K-均值聚类是先选择初始凝聚点,根据欧氏距离系数 ,将每个样品归类,各类的重心代替初始凝聚点,根据欧氏距离将每个样品不断地归类,直至分类达到稳定。

K-均值算法是采用误差平方和为准则函数的动态聚类方法,其计算快速,适合于大规模的数据计算[33]。

如D'ambrosio et al [34]为了理解肥大细胞增生的分子机制和寻找其鉴定的分子标记,选取肥大细胞增生症患者和正常人的骨髓的单核细胞进行基因芯片实验,应用K-均值聚类和分层聚类得到同一类的10个基因,进一步分析鉴定出3个基因属于该疾病的候选标记基因。

但是K-均值聚类也有不足之处,它对初始凝聚点比较敏感,如果初始凝聚点没有选择好就可能集合在标准功能值的局域极小值上。

而另一个问题在于它是完全无结构的方法,聚类的结果是无组织的[35]。

相关文档
最新文档