基因表达谱聚类
基因表达数据分析中的聚类算法综述

基因表达数据分析中的聚类算法综述基因表达数据是研究基因功能和调控的重要数据源,充分理解基因表达数据有助于揭示基因间相互作用及其在生物过程中的功能。
聚类算法被广泛应用于基因表达数据的分析,通过将样本或基因划分为不同的类别,有助于理解基因表达模式和生物学特征。
本文将综述在基因表达数据分析中常用的聚类算法以及其应用。
一、层次聚类算法层次聚类算法是一种自底向上或自顶向下的策略,根据样本或基因之间的相似度或距离构建树状结构,并通过切割树状结构来得到聚类结果。
常见的层次聚类算法包括凝聚层次聚类和分裂层次聚类。
凝聚层次聚类从每个样本或基因开始,逐步将相似度最高的样本或基因合并为聚类,直到所有样本或基因都被聚类到一个类中。
凝聚层次聚类算法常用的相似度度量包括欧氏距离、曼哈顿距离和相关系数等。
分裂层次聚类从所有样本或基因开始,逐步将已聚类的样本或基因分裂为更小的类别,直到每个样本或基因都被分为一个单独的类别。
分裂层次聚类算法常用的相似度度量包括最短距离、最长距离和平均距离等。
二、k均值聚类算法k均值聚类算法是一种基于样本之间距离的划分聚类方法,通过将样本划分为k个类别,并使得每个样本与所在类别的中心点距离最小化来得到聚类结果。
具体步骤包括初始化k个聚类中心,计算每个样本与聚类中心的距离,选取最近的聚类中心作为其所属类别,更新聚类中心,重复计算直到达到收敛条件。
k均值聚类算法的优点在于简单易理解、计算效率较高,但其结果受初始聚类中心的选择影响较大,并且对异常值和噪声敏感。
因此,需要对基因表达数据进行预处理和异常值处理,以提高聚类结果的准确性。
三、基于密度的聚类算法基于密度的聚类算法可以有效处理基因表达数据中的不规则聚类模式和噪声数据。
相比于传统的基于距离的聚类算法,基于密度的聚类算法通过确定数据点周围的密度来划分不同的聚类。
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种常用的基于密度的聚类算法。
基因表达谱数据分析方法

基因表达谱数据分析方法基因表达谱是对生物体内基因表达情况的记录,通过对基因表达谱的分析,可以了解到基因在不同条件下的表达状态,从而揭示生命现象的本质和规律。
这对于研究基本生物现象、发现新的治疗手段等具有重要的意义。
随着高通量技术的发展,获取基因表达谱数据已经成为了常规操作。
但是,如何对这些数据进行分析和处理,是一个相当复杂的问题。
本文将介绍基因表达谱数据分析的基本方法和技巧。
我们将从预处理数据、差异分析、聚类分析、通路分析和生物信息学工具等几个方面进行论述。
一、预处理数据首先,我们需要将原始数据进行预处理,去除质量较差的数据,检查样本之间的差异和异常值等。
预处理过程旨在保证数据的准确性和可靠性,为后续的分析奠定基础。
二、差异分析差异分析是对基因表达谱数据进行质量评估和过滤的关键步骤。
常用的差异分析方法包括T检验、方差分析、Wilcoxon秩和检验等。
差异分析的目标是找出在不同实验条件下,哪些基因的表达发生了变化。
这是为了找到有生物学意义的差异基因集合并进一步进行研究。
三、聚类分析聚类分析是将基因表达谱数据中的基因和样本分别分成若干类,使得同一类中的基因或样本具有相似的表达模式,不同类之间具有较大的差异。
这样的分类结果有助于我们找出基因表达谱数据中的模式。
聚类分析常用的方法包括层次聚类和k-平均聚类等。
四、通路分析通路分析是将差异基因集合与特定生物过程或通路进行关联,以揭示差异基因集合在生物学上的意义。
通常,通路分析需要利用基因注释或生物信息学数据库中的信息,将差异基因集合与通路相对应,从而找到可能受到影响的通路。
五、生物信息学工具最后,利用生物信息学工具进行综合分析和可视化。
有很多生物信息学工具可以用来对基因表达谱数据进行分析和可视化,比如R、Python、Cytoscape等。
这些工具可以帮助我们更好地理解和解释基因表达谱数据中的生物学意义。
总结:基因表达谱数据分析是序列分析的一个重要分支,广泛应用于生物信息学、系统生物学和合成生物学等领域。
表达谱数据的 GO分析和聚类分析

表达谱数据的 GO分析和聚类分析王琼萍上海交通大学GO(gene ontology)是基因本体联合会(Gene Ontology Consortium)所建立的数据库。
GO 是多种生物本体语言中的一种,旨在建立一个能阐释各种物种的基因以及基因产物。
这个数据库最开始起源于三个模式生物的数据库:果蝇基因组数据库(Drosophila)、酵母基因组数据库(Saccharomyces Genome Database,SGD)、小鼠基因组数据库(Mouse GenomeDatabase,MGD)。
在这之后,在基因本体联合会成员的努力下,将GO 数据库扩展到了植物、动物、微生物等世界范围内各个主要的数据库。
GO 数据库建立了具有三层结构的定义方式来描述基因及其产物的生物学过程、细胞组分及分子功能,对不同信息源的信息进行整合,以DAG(有向无环图)结构组织起来作为多个分支,节点的高低也代表了每个节点的意义的广泛程度。
每个父项(parent terms)下包含若干子项(children terms),分支越远,匹配的GO 条目就越具体。
在这个层级结构中,一个生物学注释可以由一个基因集表示。
这个数据库的建立为基因功能数据挖掘提供了新的思路。
一套基因本体,其实也就是一套基因的树状结构。
GO 数据库及其序列分析程序的问世,使得差异基因的功能分析变得更加高效、准确。
目前,已经有很多可以供畜牧研究者免费使用的GO资源,如AmiGo,它可以分析一个基因的GO 术语,也可以分析多个基因。
另外,还有Onto express、DAVID、Gostat 等。
差异基因的GO 分析关键在于利用统计学方法进行基因富集,常用的方法是Fisher 的精确概率法或卡方检验。
Fisher 的精确概率法利用超几何分布(hypergeometric distribution)的原理推断每个基因集中差异表达基因的比例是否与整个基因芯片上差异表达基因的比例相同。
谱聚类算法综述

谱聚类算法综述一、本文概述谱聚类算法是一种基于图理论的机器学习技术,它在数据分析和模式识别中发挥着重要作用。
本文旨在对谱聚类算法进行全面的综述,从理论基础、算法流程、应用领域以及最新进展等多个方面进行深入的探讨。
我们将简要介绍谱聚类算法的基本概念和原理,包括图论基础、拉普拉斯矩阵、特征值分解等关键知识点。
然后,我们将详细阐述谱聚类算法的基本流程和主要步骤,包括数据预处理、构建相似度矩阵、计算拉普拉斯矩阵、求解特征向量和聚类等。
接下来,我们将重点分析谱聚类算法在不同领域中的应用,如图像处理、社交网络分析、机器学习等,并探讨其在这些领域中取得的成果和优势。
我们还将对谱聚类算法的性能进行评估,包括其时间复杂度、空间复杂度以及聚类效果等方面。
我们将对谱聚类算法的最新研究进展进行综述,包括新的算法模型、优化方法以及应用领域的拓展等方面。
通过对这些最新进展的梳理和总结,我们可以更好地了解谱聚类算法的发展趋势和未来研究方向。
本文旨在对谱聚类算法进行全面的综述和分析,为读者提供一个清晰、系统的认识框架,同时也为该领域的研究者提供有价值的参考和启示。
二、谱聚类算法的基本原理谱聚类算法是一种基于图理论的聚类方法,它通过将数据点视为图中的节点,数据点之间的相似性视为节点之间的边的权重,从而构建出一个加权无向图。
谱聚类的基本原理在于利用图的拉普拉斯矩阵(Laplacian Matrix)的特征向量来进行聚类。
构建相似度矩阵:需要计算数据点之间的相似度,这通常通过核函数(如高斯核函数)来实现,从而构建出一个相似度矩阵。
构建图的拉普拉斯矩阵:根据相似度矩阵,可以构建出图的度矩阵和邻接矩阵,进而得到图的拉普拉斯矩阵。
拉普拉斯矩阵是相似度矩阵和度矩阵之差,它反映了数据点之间的局部结构信息。
求解拉普拉斯矩阵的特征向量:对拉普拉斯矩阵进行特征分解,得到其特征向量。
这些特征向量构成了一个新的低维空间,在这个空间中,相似的数据点更接近,不相似的数据点更远。
基因组学研究中的表达谱数据分析方法解析

基因组学研究中的表达谱数据分析方法解析概述:基因组学研究是研究生物体基因组的编码和非编码序列的科学。
在基因组学研究中,表达谱数据是一种重要的数据类型,由于其高维度和复杂性,需要采用一系列的分析方法和技术来解析。
本文将介绍基因组表达谱数据的分析方法,包括数据预处理、差异表达分析、聚类分析、富集分析以及网络分析。
一、数据预处理:数据预处理是基因组表达谱数据分析的第一步,目的是清除原始数据中的噪声、去除非生物学的变异以及纠正技术上的偏见。
常用的数据预处理步骤包括数据质量控制、归一化和基因过滤。
1. 数据质量控制:首先需要对原始数据进行质量控制,该步骤可通过查看测序质量分数和测序错误率来评估。
常用的工具有FastQC和Trimmomatic等。
该步骤的目的是排除测序引入的噪声。
2. 归一化:由于不同样本之间的表达量存在显著的差异,我们需要对数据进行归一化处理,以消除样本间的偏差。
常用的归一化方法有TPM、FPKM和RPKM等。
归一化后的数据便于后续的比较和统计分析。
3. 基因过滤:在分析表达谱数据时,一些基因的表达量非常低,对分析结果产生较小的影响并增加运算复杂性。
因此,我们通常会对表达量低于一定阈值的基因进行过滤处理,从而提高分析效率。
常用的过滤标准包括表达量百分位数和表达量阈值。
二、差异表达分析:差异表达分析是基因表达谱数据分析的核心内容之一,旨在发现不同条件下存在差异表达的基因。
通常,差异表达分析包括基于假设检验的方法和机器学习方法。
1. 基于假设检验的方法:这类方法通常基于统计学原理,将样本分组,通过计算差异表达的显著性水平来判断基因是否差异表达。
常用的方法包括Student's t-test、Wilcoxon秩和检验和Fisher's确切检验等。
这些方法基于不同的假设,在数据有明确的分布前提下,可以得到比较可靠的差异表达结果。
2. 机器学习方法:机器学习方法对差异表达分析具有较高的灵活性和预测能力。
基因表达谱数据

基因表达谱数据基因表达谱数据是指在不同细胞类型、生理状态、环境条件下,某些基因在RNA水平上的表达水平。
在生物体内,不同基因的表达模式是复杂、分层和多样性的。
基因表达谱数据可从不同细胞、组织、器官和物种中获得,其中包括微生物、植物和动物。
这些数据的收集和分析对于深入理解生命过程以及疾病的发生和发展具有重要意义。
基因表达谱数据通常通过RNA测序技术得到。
RNA测序是目前最常用的基因表达测量方法。
该技术利用高通量平台对细胞或组织中的RNA 进行测序,从而得到RNA序列信息。
由此可以得到多种RNA类别的信息,包括编码蛋白的mRNA,非编码RNA(如长链非编码RNA和小核RNA)以及翻译后修饰的RNA。
通过RNA测序技术,可以获得完整的基因表达图谱以及基因不同组织或环境下的表达差异。
生成的基因表达谱数据可用于许多应用,如基因功能注释、新基因发掘和疾病诊断和治疗跟踪。
其中,基因功能注释是最常用和最基础的应用之一。
它使得在不同细胞、组织和环境中特定基因的表达模式得以比较,并可用于发现不同基因的生物学功能和信号通路调节机制。
对于新基因的发掘,基因表达谱数据可以用于预测新基因的表达模式并设计特异性引物进行验证,从而促进新基因发现的进程。
在疾病诊断和治疗跟踪方面,基因表达谱数据可以用于诊断和治疗各种疾病,例如:癌症、神经系统疾病、自身免疫性疾病和代谢性疾病等。
基因表达谱数据的分析包含许多步骤和方法,它们旨在发现生物学和疾病的特征。
目前,基于RNA次级结构(如RNA-Seq)的分析方法是主流,包括基因差异分析、聚类分析、通路分析和蛋白质互作分析。
其中,基因差异分析用于确定在不同条件下基因表达水平差异显著的基因。
它是基因表达谱数据分析中最基础、最关键的步骤之一。
聚类分析是一种将基因在不同实验条件下的表达模式归纳为相似类别的统计方法。
聚类的目标是发现表达模式相似的基因群,分别分析观察到的生物学趋势。
通路分析通过评估不同基因的生物学功能,从而确定特定病理生理条件下的信号通路和生物学过程。
生物信息学中的基因表达谱分析

生物信息学中的基因表达谱分析基因表达谱是指在不同时间、不同环境或不同组织中,基因转录和翻译产生的RNA和蛋白质的数量和种类的一种定量和定性描述。
基因表达谱分析是研究生物学中基因表达的重要手段,可以帮助科学家研究基因功能、诊断疾病和开发新药。
生物信息学的发展为基因表达谱分析提供了许多新的方法和工具,让科学家能够更加快速、高效地分析和利用基因表达谱数据。
1. 基因表达谱分析的类型基因表达谱分析可以分为两种类型,即定性分析和定量分析。
定性分析主要依赖于基因表达谱的图形化展示和样本的聚类分析。
图形化展示可以帮助科学家快速地查看基因表达的变化趋势,如差异基因的表达,而聚类分析则可以将不同样本中的基因表达谱分为几类,有助于发现它们之间的相似性。
定量分析可以测量基因表达水平的数量,此类分析方法包括将基因表达谱数据和生物样本的方法学特征进行归一化,以便进行生物信息学方法的比较分析。
这些方法包括微阵列、RNA测序和蛋白质组学等技术,这些技术都可以更加准确地测量基因表达量,并能够比较不同样本之间的差异。
2. 基因表达谱分析的步骤基因表达谱分析需要经过多个步骤,通常包括数据预处理、探测器注释、归一化处理、差异基因筛选和生物功能的验证等步骤。
数据预处理涉及去除噪声、正规化和探针的标准化。
在预处理时,我们可以使用质控图来确保数据质量,同时,使用探测器注释,即对基因定位信息的注释,可以保证数据的准确性。
归一化处理用于保证基因表达量在样本之间具有可比性。
差异基因的筛选旨在发现基因表达谱中存在的显着差异,我们可以使用t-test、方差分析(ANOVA)和Pearson相关系数等统计方法来确定这些基因。
生物功能的验证是确定差异基因的生物作用和分子机制,以及它们在生物学过程中的重要性。
3. 基因表达谱分析的应用基因表达谱分析可以应用在许多领域,包括医学、农业、环境和食品安全等方面。
在医学领域中,基因表达谱分析可以用于研究基因在癌症和其他疾病中的功能,以及开发新的药物。
基因表达谱的构建和分析方法

基因表达谱的构建和分析方法基因表达谱是指某一时刻细胞内基因转录水平的全面反映。
它对了解不同细胞状态的差异性、疾病发生机制及药物治疗等具有重要的意义。
本文将对基因表达谱的构建和分析方法进行简要介绍。
一、基因表达谱的构建基因表达谱的构建方法包括microarray和RNA-Seq两种主要技术方法。
1. microarraymicroarray技术是将探针(probe)固定在芯片表面用于检测不同的核酸分子。
其构建基因表达谱的流程如下:(1)提取全基因组mRNA,反转录为cDNA。
(2)将cDNA打标记并杂交到微阵列中。
(3)信号扫描与数据分析。
microarray技术具有高通量、快速、灵敏、重复性好等特点,被广泛应用于药物筛选、肿瘤检测和疾病诊断等领域。
但是,其局限在于存在信号的非特异性、探针设计的错误等问题。
2. RNA-SeqRNA-Seq技术是基于高通量测序技术,通过定量并分析RNA 样本中所有的转录本、可变剪切事件和基因表达状况。
其构建基因表达谱的流程如下:(1)提取RNA,并用RNA脱除重复序列技术去除rRNA。
(2)转录为cDNA。
(3)建立文库并测序。
(4)数据处理和分析。
RNA-Seq技术具有更高的分辨率和准确度,能够检测到新转录本和SNP,且不受局限于预先设定的探针。
但其存在成本、数据处理和分析的复杂度等问题。
二、基因表达谱的分析方法基因表达谱的分析方法包括聚类分析、差异表达基因分析、通路富集分析等多种方法,这里仅简要介绍其中的两种。
1. 聚类分析聚类分析可以将一组基因根据其表达特征分成不同的簇,并确定它们之间的相似度。
聚类分析是基于特征基因进行的,特征基因的数量对结果有重要影响。
聚类分析主要分为两种:层次聚类和k-means聚类。
层次聚类根据相似度建立基因树,然后根据阈值将基因分为不同的簇。
k-means聚类将基因分成固定数量的簇,通过相似度计算和簇内距离最小化来划分簇。
2. 差异表达基因分析差异表达基因分析用于比较两个或多个条件下基因表达水平的差异。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基因表达谱聚类分析[ 文章来源:| 文章作者:| 发布时间:2006-12-21| 字体:[大中小] 学习过程可以采用从全局到局部的策略。
采取这种策略时,学习初期可设定较大的交互作用半径R ,随着学习过程的不断推进,逐步减小R ,直至不考虑对邻近单元的影响。
邻域的形状可以是正方形或者圆形。
KFM 的聚类结果与K 均值相似,它的优点是自动提取样本数据中的信息,同时也是一种全局的决策方法,能避免陷入局部最小,缺点在于必须实现人为设定类的数目与学习参数,而且学习时间较长。
KFM 方法克服了K- 均值聚类的一些缺点:它应用类间的全局关系,能提供大数据集内相似性关系的综合看法,便于研究数据变量值的分布及发现类结构。
而且,它具有更稳健更准确的特点,对噪声稳定,一般不依赖于数据分布的形状。
8.4.2.5 其它聚类方法聚类方法是数据挖掘中的基本方法,数据挖掘的方法很多,在基因表达谱的分析中,除了以上常用方法外,还有一些其它的方法。
由于对聚类结果尚没有一种有效的方法进行评价,尤其是对聚类结果的进一步生物学知识发现尚没有新的分析思路和成功应用,因此,科学家们在不断地研究一些新方法。
这些方法有不同的原理,能够提取不同数据特征,有可能对具体的数据得到更有意义的结果,发现更多的生物学知识。
这里,简单介绍这些方法的原理,更详细的介绍请参看相关文献。
(1)模糊聚类分析方法:这是一种模拟人类的思维方法,通过隶属度函数来反映某一对象属于某一类的程度。
基本思路是计算两两基因表达谱之间的相似性程度,构建模糊相似矩阵,利用模糊数学中的传递闭包计算方法得到模糊等价矩阵,选择不同的置信水平从模糊等价矩阵中构建动态聚类图。
对于特定的置信水平,可以实现对基因表达谱的分类。
该方法的优点是利用了模糊数学中的隶属度概念,能够更好的反映基因表达谱之间的相互关系,而且它是一种全局的优化方法,与向量的顺序无关。
(2)模糊C均值算法:该方法同样将模糊数学中的隶属度概念引入到常用的K 均值聚类方法中。
对于K 均值算法,一个基因表达谱所属的类只有一个,因此,它与各类别的关系要么是 1 ,要么是0 ,即属于或不属于某一类。
而对于模糊 C 均值法,一个基因表达谱是否属于某一类,是以隶属度来确定第i 个样本属于第j 类的可能性。
最终的聚类结果取决于分析的目的,可以根据最大隶属度来确定基因表达谱的分类,即一个基因表达谱只属于一类;但往往是确定隶属度的阈值,只要大于该阈值,就可以将基因表达谱划分为该类,这样的划分结果是一个基因表达谱可以属于多个类,这也是可以被生物学家接受的。
模糊 C 均值法与K 均值法的实现过程基本相同,所不同的是对于模糊 C 均值法并不是直接将样本向量归类,而是计算属于各类别的隶属度;同样它没有一个明确的类界限,在计算聚类中心时,需要考虑所有的样本向量,根据隶属度μ来计算聚类中心。
(3)谱聚类:K 均值聚类对于聚类中心相距较远的数据样本具有很好的聚类效果,而对于具有同心圆特征的数据样本很难得到好的分类效果,而谱聚类(Spectral clustering )能够很好的对具有这种特征的样本进行聚类。
谱聚类是一种基于矩阵特征向量的方法,也是一种能根据顶点之间的权值对图进行划分的方法。
用图表示基因表达谱矩阵,基因表达谱可以看作是一组顶点,连接顶点的边的权值反映了两个表达谱之间的相似性,这样就得到有权无向图G(V ,A) ,聚类过程等价于将G 划分为不连接的子集,这可以通过简单地删除连接边来实现。
聚类过程包括两个步骤:第1 步是将表达谱空间转化为相似度矩阵的特征向量空间;第2 步是应用简单的K 均值法对特征向量空间的特征向量进行聚类,得到的结果就对应了基因表达谱的聚类结果。
该方法可以根据特征值自动确定分类数目。
谱聚类在聚类过程中进行了特征空间的转换,可以将大的空间转化为较小的空间,从而可以更快速地处理大规模的数据。
(4)超顺磁性聚类:超顺磁性聚类(superparamagnetic clustering )是一种基于模拟非均匀铁磁物质的物理特性的聚类方法,将数据聚类问题视为检验不均匀Potts 模型的平衡特性。
根据表达谱向量之间的距离矩阵构建图,顶点是数据点,如果两个点之间的距离满足K-mutual-neighbor 准则,则称为邻居。
数据点的聚类等价于有权图的划分。
给每一数据点分配一个Potts 自旋子,相邻数据点间引入强度随距离下降的相互作用函数。
非均匀Potts 模型系统随温度变化表现出三相:在低温下,所有自旋子呈现完全有序的排列,系统为铁磁相;随着温度的升高,小区域自旋子形成磁化“颗粒”,附属于同一“颗粒”者相互间产生强耦合,而无关者间相互作用很弱,不同“颗粒”的排列呈无序状态,为超顺磁相;在高温下,系统不表现任何有序性,为顺磁相。
在超顺磁相的转换温度下,磁化率表现出显著的峰值。
原则上,超顺磁相可以有一系列的转换点。
随着温度的升高,系统可以首先分裂为两类,其中每一类又可以分裂为更多的子类,这样,数据就分层组织为类。
超顺磁性聚类算法的优点是对噪声及初始化不敏感,因为类由系统的综合性质产生。
由磁化率的峰值很容易鉴别主要的分界,从而能清楚显示类的构成和分界,并且在每一个分辨率上能自动确定类数。
(5)双向聚类法:以上所述方法主要是对基因表达谱进行聚类,或针对基因表达矩阵的行进行聚类分析,将具有相似模式的基因表达谱分为一组,这是在应用中要解决的主要问题。
基因表达数据矩阵中的列表示了实验条件,可以是时间序列,也可以是不同的肿瘤样本或病人样本。
从生物学应用的角度,针对列的聚类可以发现各实验条件之间的相互关系,例如,同一肿瘤类型的样本可以聚成一类,它们具有相似的基因表达模式,这样就可以基于表达谱对肿瘤进行分类。
从数学的角度,数据矩阵中的每一列对基因表达谱的行聚类结果有着不同的影响,挑选部分列进行聚类的结果与选择所有列进行聚类的结果是不同的。
将两者结合起来,就称为双向聚类法,在行和列两个方向上进行聚类分析,通常采用贪婪迭代检索的方法来发现子矩阵或稳定的类,这些子矩阵中感兴趣的模式具有特定的生物学意义。
在应用中,可以根据具体的目的,确定以降低基因维数还是以降低样本维数为主,通过迭代得到稳定的若干样本分类或基因分组。
8.4.3 基于模型的聚类方法在基因表达数据显著性分析时,我们提到贝叶斯方法的应用,它分别对两种条件下的数据构建模型,通过比较它们的模型参数来确定表达差异的显著性。
同样,基因表达谱分析也可以引入建模的方法,假定每一个基因表达谱是由一种内在的概率模型产生的,它满足一定概率分布或者分布的有限组合,例如多元正态分布,而所有的基因表达谱是由若干个概率模型混合产生的,这样就可以通过确定这些概率模型,来实现对基因表达谱聚类的目的。
高斯混合模型是该聚类方法中的常用模型。
与上面所述的各种启发式聚类算法比较,基于模型的方法具有的最大优点是,不需要使用严格的方法来确定类的数目或最佳的聚类方法,但是不足是计算量非常大,对于大量数据的分析比较困难。
基于混合模型的聚类,首先假设数据中蕴含的每一类样本由一种内在的概率分布混合产生,例如高斯混合模型,独立多元观测y1,y2,… ,y n组成的数据Y中每一元素y k由参数为u k(均值向量)和Σk(协方差矩阵)的多元正态分布模拟,(8-24)式中的det是求矩阵行列式值的函数。
算法的目标是由数据预测参数u k和Σk并确定相应于这些参数预测的类。
为了便于参数预测,对Σk进行特征值分解:,D 为特征向量组成的正交矩阵,确定模型的取向,A为对角矩阵,元素与Σk的特征值成正比,确定模型的形状λ为标量,确定模型的体积。
约束和改变部分参数,可以得到这一概率框架下的一组模型,如, 等体积球模型(EI :,I 为单位矩阵)、不等体积球模型(VI: ) 等,以适应数据特征的变化。
模型参数可以通过EM (期望最大化)方法估计。
每一种协方差矩阵与类数组合情况相应于不同的概率模型,由贝叶斯信息准则(BIC) 估计每一种模型下数据被观测到的概率,计算模型的BIC 得分,最后选择BIC 得分最大的模型和参数对该样本进行分类。
8.4.4 支持向量机如上所述,对于基因表达谱数据矩阵M,在对行或列向量进行聚类分析时很少或根本没有用到生物学知识,所得到的结果是否具有生物学意义,还需要进一步的分析。
然而,对于特定的数据矩阵,都有特定的生物学背景,例如,基因之间存在相关性,可以分成若干功能类,样本之间也存在某种关系,可能来自患有相同肿瘤的病人。
将这些知识应用于聚类方法中,挑选部分样本作为训练样本,可以提取特征构建分类器,然后对其它的样本进行分类,实现聚类的目的。
这种方法称为有监督学习方法,支持向量机(support vector machine ,SVM )就是这样一种从少量样本中提取分类信息的机器学习方法。
因为SVM 仅仅需要少量样本,而实现对大量样本的分类,这与分类问题中通常有明确类别存在的情况下对未知类别进行分类是不同的,所以,在这里将它作为一种聚类方法进行介绍。
统计学习理论是目前针对小样本统计估计和预测学习的最佳理论,它从理论上较系统地研究了风险最小化原则成立的条件、有限样本下经验风险与期望风险的关系以及如何利用这些理论找到新的学习原则和方法等问题。
支持向量机是实现统计学习理论思想的具体方法,可以用于解决小样本、非线性及高维学习问题,不需要足够的样本来构建特征空间,而仅仅需要少量的样本来构建分类界面,这些用来构建分类界面的样本就称为支持向量。
考虑图8.4 所示的二维两类线性可分情况,图中实心点和空心点分别表示两类训练样本点,分类线H 能把两类正确地分开,H 1 ,H 2 平行于H ,并且分别为两类样本中离分类线H 最近的点,H 1 、H 2 之间的距离叫做两类的分类空隙或分类间隔,最优分类线就是要求分类线不但能将两类正确地分开,同时要求使两类的分类空隙最大,从而使真实风险最小。
对于高维空间,最优分类线就成为最优分类面。
假设线性可分样本集为是类别标号,则分类判别函数为, 分类面方程为。
将判别函数归一化,使两类所有样本都满足,即使离分类面最近的样本的判别值为 1 ,这样分类间隔=2/。
要使间隔最大,必须使最小,要求分类线对所有样本能正确分类,就要求它满足:(8-25)因此,满足上述条件且使最小的分类面就是最优分类面。
过两类样本中离分类面最近的点且平行于最优分类面的超平面H 1 ,H 2 上的训练样本就是使等号成立的那些样本,即支持向量。
那么,如何求最优分类面?根据上述讨论,最优分类面问题可以表示成在条件(8-25 )的约束下,求函数的最小值。
为此,可以构建Lagrange 函数(8-26)其中>0,为Lagrange 系数,问题转化为对w和b求Lagrange函数的极小值,分别对w和b求偏微分并令它们等于0,在约束条件(8-27)之下,对求解下述函数的最大值,(8-28)若为最优解,则,即最优分类面的权系数向量是训练样本向量的线性组合。