基因微阵列数据中的聚类技术研究

合集下载

基于聚类方法的生物信息学研究

基于聚类方法的生物信息学研究

基于聚类方法的生物信息学研究生物信息学是现代生物学研究中必不可少的一部分。

它不仅涉及到基因组学、蛋白质组学等生物学领域,还涉及到计算机科学、数学和统计学等多个学科,因为它需要处理大量的生物学数据。

聚类方法是生物信息学研究中最常用的方法之一,在数据分析和数据挖掘领域得到了广泛的应用。

聚类分析是将数据集中的物品分为不同的类别,使得在同一类别中的物品有相似的属性,不同类别之间的属性有所不同。

在生物信息学领域中,聚类分析通常被用来发现基因表达模式、蛋白结构等方面的相似性,以及识别不同类型的组织、肿瘤等。

聚类分析分为两种类型:层次聚类和非层次聚类。

在层次聚类中,数据集中的物品被分成具有树状结构的层次结构。

在非层次聚类中,数据集中的物品被分为预定义的簇。

在基于聚类的生物信息学研究中,通常使用聚类分析的两种类型,将同一类型的基因或蛋白质聚类在一起,以研究其生物学意义。

不同的聚类算法通常被用来处理不同类型的数据。

k-means算法是非层次聚类中最常用的算法之一,它将物品分为预定义的簇,并最小化每个簇内部的平方误差。

层次聚类通常使用分别是凝聚层次聚类和分裂层次聚类。

凝聚层次聚类是从下往上构建聚类树,每个物品从单个簇开始,然后不断合并直到形成一个大的簇。

分裂层次聚类是从上往下构建聚类树,从一个大簇开始划分,直到划分成单个物品。

这两种层次聚类方法的适用范围不同,需要根据具体的研究问题来选择不同的算法。

聚类方法广泛应用于基因组学和蛋白质组学中。

在基因表达数据分析中,聚类方法用于寻找基因表达模式。

基因表达模式可以被用来描述不同类型的组织或疾病之间的差异。

不同基因的表达也可以被用来预测不同类型的癌症。

在蛋白质结构分析中,聚类方法主要用于寻找相似的蛋白结构。

这可以帮助识别表达相同功能的蛋白质家族,以及帮助设计新药物。

除了基因组学和蛋白质组学,聚类方法在其他生物信息学领域也得到了广泛应用。

例如,聚类分析可以用于识别不同类型的序列数据,比如DNA序列、RNA序列等。

聚类分析和可视化

聚类分析和可视化

凝聚法和分裂法的比较
分裂算法快速(运算复杂度为nlgn,n2),但
不一定得到更好的结果,也不一定能非常准 确反映数据的结构特征。
凝聚法运算复杂度(n2,n3)
比较不同的聚类方法的聚类结果
聚类树的切割
系统聚类
系统聚类是目前基因聚类中最常用的方法之
一,因为它仅需要确定类的合并规则和相似 性度量指标.且得到的系统树图便于对基因 间的相似性进行评价。它的主要缺点在于基 因的分类数需要由用户确定,且当相似短阵 较大时计算量较大。
利用相关系数计算距离
平均点积
向量间的角度 协方差
Pearson相关距离
第二节 聚类算法
聚类算法任务就是寻找到最优函数C,使得
类内的非相似性最小。
聚类算法常被分为两大类:分割方法和系统
方法。分割方法把观测个体最优地分割到固
定数目的类中,系统方法将产生类的嵌套式
的分类序列。
一、系统聚类
确定相似性指标
第一节 相似性或距离的度量
n维空间中的两个点x、y间的距离d具有如下
属性:
1)
对称性: d(x,y)=d(y,x) 指从x到y的距离等于y到x
的距离
2)
非负性: d(x,y) ≥0 指两点x,y间的距离大于或等于0
3)
三角不等性: d(x,y) ≤d(z,x)十d(z,y)指两个点
利用极差标化欧氏距离
二、马氏距离
马氏距离(Manhattan
distance),又称为
city-block距离
三、Chebychev(最大)距离
使用在n次实验中两个基因测量值差别最大的
值作为两个基因间的距离。
四、Minkowski距离

gsea分析结果详细解读

gsea分析结果详细解读

gsea分析结果详细解读GSEA(Genesetenrichmentanalysis),称基因集富集分析,是一种计算科学家们常用的生物信息学研究手段,也是当今最流行的基因表达分析活动之一。

GSEA的分析目的是在一组已知基因表达谱(例如微阵列测量的组织样本)中,对给定的基因集进行研究。

使用GSEA 进行基因表达分析的关键是能够将基因组中的海量基因表达数据进行结构化聚合,以找出具有特殊表达谱特征的基因或基因集。

GSEA可以将基因表达谱转换为可比较的标准值,以便可以根据表达谱的相关性来确定两个基因集之间的同质性。

特别是,GSEA利用聚类技术,可以识别出具有特定表达谱的基因集,即使这些基因集只由少量基因组成。

这种突出表达谱特征的基因集被称为热点基因集,可以用于确定在相关细胞类型或疾病中发挥重要作用的关键基因。

GSEA的分析结果由多个指标体现,其中包括模式因子(pattern factor)、指数因子(index factor)、对数改变值(log-change value)和证据值(evidence value)。

模式因子反映了给定基因集与实验组之间的差异,指数因子表示基因集的显著性,对数改变值表示多个基因的表达值的变化,而证据值则表示基因集现有的解释性能。

对于GSEA分析结果的解读,首先应该确定基因集是否存在显著差异。

针对该问题,可以根据结果中的指数因子值来检验基因集的显著性:当指数因子值大于2(更一般地说,指数因子值大于一定阈值)时,可以认为基因集具有较强的显著性。

此外,还要检查对数改变值,该值可以用于确定基因集的表达谱变化的方向。

最后,可以通过模式因子和证据值来确定基因集的相关性,其中模式因子反映了两个基因集之间的差异,而证据值反映了模型的解释性能。

一般来说,GSEA分析结果可以用于帮助生物学家明确疾病发病机制,以及对难以表达的基因进行分类。

此外,GSEA分析还可以帮助临床医生识别肿瘤治疗抗性,并研究新药的有效性。

一种CCA-层次聚类的基因聚类算法

一种CCA-层次聚类的基因聚类算法

第28卷㊀第5期2023年10月㊀哈尔滨理工大学学报JOURNAL OF HARBIN UNIVERSITY OF SCIENCE AND TECHNOLOGY㊀Vol.28No.5Oct.2023㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀一种CCA -层次聚类的基因聚类算法林倩闽(厦门理工学院电气工程与自动化学院,福建厦门361024)摘㊀要:针对基因芯片技术带来的海量基因表达数据,为了充分挖掘其蕴含的生物信息和潜在的生物机制,提出一种基于CCA -层次聚类的基因聚类算法(CCA-Hc )㊂该算法在层次聚类的基础上引入典型相关分析,优化相似性矩阵计算方法㊂首先,利用典型相关分析方法结合基因的多个特征信息进行基因相关性度量,得到基因相似性矩阵㊂然后将该相似性矩阵作为层次聚类的邻近矩阵进行凝聚层次聚类㊂在Oryza sativa L.(水稻)的基因表达数据集上进行CCA-Hc 聚类效果测试实验,结果表明,与采用欧式距离的传统层次聚类算法(EUC-Hc )相比,CCA-Hc 的内部稳定性指标和生物功能性指标均优于EUC-Hc ,具有更佳的鲁棒性和聚类准确性,更有利于去发现基因间的共表达关系㊂关键词:基因表达数据;聚类算法;典型相关分析;层次聚类DOI :10.15938/j.jhust.2023.05.011中图分类号:TP391文献标志码:A文章编号:1007-2683(2023)05-0085-06A Gene Clustering Algorithm Based on the CCA-Hierarchical ClusteringLIN Qianmin(School of Electrical Engineering and Automation,Xiamen University of Technology,Xiamen 361024,China)Abstract :Aiming at the massive gene expression data brought by gene chip technology,in order to fully mine the biological information and potential biological mechanisms contained in it,this paper proposes a gene clustering algorithm based on CCA-hierarchical clustering (CCA-Hc).The algorithm introduces canonical correlation analysis on the basis of hierarchical clustering,and optimizes the calculation method of similarity matrix.First,the canonical correlation analysis method is used to measure the gene correlation by combining the multiple feature information of the gene,and the gene similarity matrix is obtained.Then the similarity matrix is used as the neighbor matrix of hierarchical clustering for agglomerative hierarchical clustering.The CCA-Hc clustering effect test experiment was performed on the gene expression dataset of Oryza sativa L.(rice).The results show that,compared with the traditional hierarchical clustering algorithm using Euclidean distance (EUC-Hc),CCA-Hc is superior to EUC-Hc in both internal stability index and biological functional index,and has better robustness and clustering accuracy.It is more conducive to discoveringthe co-expression relationship between genes.Keywords :gene expression data;clustering algorithm;canonical correlation analysis;hierarchical clustering㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀收稿日期:2022-06-08基金项目:福建省科技厅引导性项目(2019H0039);福建省中青年教师教育科研项目(JAT210341).通信作者:林倩闽(1992 ),女,硕士,助理实验师,E-mail:1023447133@.0㊀引㊀言随着高通量测序技术的不断快速发展,出现越来越多复杂度高㊁数据量大的生物数据㊂不同测序技术可以得到不同水平的生物数据,如通过基因组测序得到DNA 水平的生物数据,转录组测序得到RNA 水平的生物数据㊂基因表达数据是通过DNA微阵列技术(又称为基因芯片技术)检测得到,是不同细胞在不同条件下的基因动态表达水平[1]㊂基因是携带遗传物质的DNA片段,在不同细胞中会有不同的表达方向[2],从而可以控制不同的性状㊂为此基因表达数据蕴含着丰富且重要的生物机制,具有很大的研究价值㊂在基因表达数据分析中,聚类分析方法被广大研究者选用,用以发现具有相似表达行为的基因集,基因间的共表达㊁共调控关系等,对于推断未知的基因功能及在疾病诊断方面具有重要意义[2]㊂目前基因聚类算法根据聚类对象可以分为基于基因㊁基于样本聚类以及基于基因样本的双聚类[3-4]㊂根据聚类方式的不同,又可以分为以K-means算法[5]㊁K-MEDOIDS[6]为代表的基于分区的聚类算法,以BIRCH算法[7]㊁CURE算法[8]为代表的基于层次的聚类算法,以DBSCAN算法[9]㊁OPTICS算法[10]为代表的基于密度的聚类算法和以CLIQUE算法[11]为代表的基于网格的聚类算法㊂在对基因表达数据进行聚类分析时,主要是度量基因之间的相关性,把相关性程度高的基因聚在一起㊂很多基因聚类研究中把皮尔森相关系数㊁欧式距离㊁曼哈顿距离等作为相关性程度的度量方式[12]㊂这些度量方式是基于基因的整体表达水平进行的,即一个基因只由一个一维的数据矩阵表示㊂而在实际的的测序过程中,往往会在不同的细胞周期进行实验测量基因的表达水平,使得一个基因会有多组数据,每组数据代表该基因的一个特征㊂大部分的研究中采用求和的方式把基因多个特征的数据进行累加,进而分析基因之间的相关性㊂这种方法存在的问题是忽略了基因各个特征对表达水平的影响,从而对聚类结果造成影响㊂为了解决上述问题,本文把典型相关分析(Ca-nonical Correlation Analysis,CCA)引入到层次聚类中来,搭建出基于CCA-层次聚类的基因聚类算法(CCA-Hc)㊂典型相关分析是一种计算变量之间相关性的统计学分析方法,能结合变量的多个特征,得到变量的整体相关性[13]㊂利用典型相关分析度量基因之间的相关性,能充分考虑基因的多个特征信息,使得聚类结果中的基因集相似性程度更高㊂同时采用凝聚层次聚类,可以从聚类树状图中直观地分析聚类结果,从而整体上提高聚类效果㊂最后用GEO数据库上的基因数据集来验证CCA-Hc算法的有效性㊂1㊀CCA-Hc算法设计1.1㊀典型相关分析给定基因微阵列数据矩阵A nˑm=(G,T),n表示基因个数,m表示条件的种类数㊂每个基因可以看成是一个变量,使用典型相关分析方法分析变量相关性时,假设变量X有p个特征,变量Y有q个特征,pɤq,每个特征均对应m个不同条件的数据,则X=[x1, ,x p]T(1) Y=[y1, ,y q]T(2)变量X的数据矩阵为x11x12x13 x1mx21x22x23 x2mx31x32x33 x3m︙︙︙︙x p1x p2x p3 x pméëêêêêêêêùûúúúúúúú变量Y的数据矩阵为y11y12y13 y1my21y22y23 y2my31y32y33 y3m︙︙︙︙y q1y q2y q3 y qméëêêêêêêêùûúúúúúúú变量X和变量Y的协方差矩阵为ð=Cov(X,Y)=Var(X)Cov(X,Y)Cov(Y,X)Var(Y)()=ð11ð12ð21ð22()(3)变量X和变量Y的线性表达式记为U㊁V,表示为:U=a1x1+a2x2+ +a p x p=a T X(4) V=b1y1+b2y2+ +b q y q=b T Y(5)变量X和变量Y进行典型相关性分析时,可用这两个变量的线性表达式U㊁V之间相关系数的最大值来度量变量之间的相关性程度,即max a,b corr(U,V)=a Tð12b(a Tð11aˑb Tð22b)1/2(6)在求解上述最值表达式时,运用拉格朗日数乘法求解瑞利熵矩阵(ð-111ð12ð-122ð21)得到p个特征值,68哈㊀尔㊀滨㊀理㊀工㊀大㊀学㊀学㊀报㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第28卷㊀记为λ1,λ2 λp ㊂这p 个特征值即变量X 和变量Y之间的典型相关系数㊂每一个相关系数再应用卡方检验进行显著性检验,得到p 个卡方检验p-value 值,记为p 1,p 2 p p ㊂为了更好地表示变量之间的典型相关程度,引入一个关于典型相关系数和p-value 值的权重函数W 来表示,定义为:W =ðp i =1λi I (log P i )ðp i =1I (log P i )(7)其中I (log P i )=0P >0.05-log PP ɤ0.05{这样每两个变量之间就能得到一个w 值来度量它们的相关性程度㊂对基因表达数据的n 个基因进行如上方法的典型相关分析后,最终得到一个n ˑn 的相似性矩阵㊂1.2㊀层次聚类目前常用的聚类算法有基于分区㊁基于层次㊁基于密度和基于网络4种类型[2],其中基于层次聚类的算法因原理通俗易懂㊁结果直观且精度高等优点而被广泛使用[14]㊂层次聚类分为自下而上的凝聚聚类和自上而下的分裂聚类两种[15],其中凝聚层次聚类运用最为广泛,同时凝聚层次聚类在无预先定义类别数的分类中具有明显优势[16]㊂故本文采用的是凝聚层次聚类,可以用树状图和嵌套簇图来表示,例如图1所示㊂图1㊀凝聚层次聚类的树状图和嵌套簇图Fig.1㊀Dendrogram and Nested Cluster Diagramfor Agglomerative Hierarchical Clustering下面介绍凝聚层次聚类的聚类过程:步骤1:视每一个数据点(如基因变量)为一个集群;步骤2:计算邻近矩阵,把类间距离最接近的两个集群进行合并;步骤3:重复步骤2,直到所有数据点合并完成㊂步骤2中的类间距离即两个集群之间的距离,传统的层次聚类类间距离计算方法有如下几种[17]:1)两个集群中距离最近的两个样本距离;2)两个集群中距离最远的两个样本距离;3)两个集群中所有样本之间的距离再求平均值;完成所有聚类步骤后会生产一个树状图(又叫聚类树)㊂采用不同的变量相关性程度度量方式和不同的类间距离计算方法都将对聚类结果造成影响㊂1.3㊀CCA-HC 算法传统的层次聚类算法其计算复杂度为O (n 3),由于在聚类过程中需要不断地重复计算类间距离㊁不断地更新邻近矩阵,从而消耗大量的时间与资源[18]㊂对于数据量庞大的基因微阵列数据,迫切需要对算法进行优化,降低复杂度㊂本文提出了一种基于CCA 和层次聚类的基因聚类算法(CCA-HC),优化相似性矩阵计算方法,把典型相关分析的输出作为层次聚类的输入,即把典型相关分析得到的相似性矩阵作为层次聚类的邻近矩阵㊂CCA-HC 在度量基因相关性程度时采用典型相关分析的方法,在层次聚类方式上选择自下而上的凝聚层次聚类㊂CCA-HC 充分利用了典型相关分析和层次聚类的优点,能够结合基因的多个特征来量化基因之间的相关性,使得聚类结果中的基因集相似性程度更高,也能自主选择集群数目以得到更佳的聚类效果[18]㊂2㊀实验与结果分析2.1㊀实验数据为了评价章节一中提出算法的聚类效果,在GEO 数据库上下载Oryza sativa L.(水稻)的基因表达数据集,得到的原始数据集共有45063个基因,样本数为41㊂由于原始数据集基因数庞大,对其计算分析时不论在存储空间还是计算程序上都提出了较高的要求,为此进行适当的数据预处理显得尤为重要㊂本文在数据预处理方面开展的主要工作有:把基因名未知的数据剔除;过滤掉样本表达量过低的基因;采用log2的对数函数对原始数据进行标准化处理等㊂经过如上处理后得到4564ˑ41的数据矩阵,用于后续的实验分析㊂预处理后的实验数据集78第5期林倩闽:一种CCA -层次聚类的基因聚类算法统计情况如表1所示㊂表1㊀预处理后的实验数据集统计情况表Tab.1㊀Statistical table of experimental dataset after preprocessing数据集基因数样本数基因功能类别Oryza sativa L.456441881.5㊀评价标准基因表达数据的聚类效果可以从聚类结果中同一集群的相关性程度以及聚类算法的稳定性等方面进行评价,用生物功能性指标和内部稳定性指标来描述㊂1.生物功能性指标生物同源性指标(biological homogeneity index, BHI)是用来评估聚类集群在生物功能意义上的同源性程度[19]㊂在基因本体(gene ontology,GO)数据库上下载水稻的基因功能类数据,可以得知每个水稻基因所对应的生物组织功能,用来分析同一聚类集群中的基因在功能上的相关性㊂BHI公式计算如下:BHI(K,B)=1KðK k=11nk(n k-1)ðiʂjɪC k I(B(i)=B(j))(8)式中:C为聚类结果中的任一集群;B为基因功能类集合,当基因i和基因j所对应的功能类存在交集,则I(B(i)=B(j))=1,否则为0㊂最终得到的BHI 是介于0~1的值,BHI值越大,表示基因聚类集群的生物功能相关性越大,聚类效果更佳[19]㊂2.内部稳定性指标内部稳定性指标在于评价聚类算法的鲁棒性,通过改变基因微阵列数据的某几列进行聚类,进而比较基于不同数据的聚类结果㊂优值系数(figure of merit,FOM)是内部稳定性指标中的一种,表示数据列改变后基因之间的平均群内方差[20]㊂FOM公式计算如下:FOM(l,K)=1NðK k=1ðiɪC k(l)dist(x i,l, x C k(l))(9)式中:FOM的取值范围是0到无穷大,FOM值越小表示该聚类算法的稳定性越好[20]㊂2.3㊀结果与分析为验证CCA-Hc的聚类效果,对比采用欧式距离的传统层次聚类算法(EUC-Hc),运用相同数据集进行实验㊂为了获得更加准确的聚类效果,本实验设置不同的聚类集群参数,确定聚类集群数目K 分别为2㊁4㊁6㊁7㊁9㊁11㊁12这7组实验,并通过BHI 和FOM指标对这7组实验的聚类结果进行评估, BHI和FOM指标值分别见表2和表3㊂表2㊀不同聚类集群数目下的BHI指标值Tab.2㊀BHI index values under different number of clusters 算法类型\集群数目CCA-Hc EUC-Hc差异率K=20.4660.233100.05%K=40.4630.34633.77%K=60.4670.37723.90%K=70.4670.41213.34%K=90.4650.4357.12%K=110.4640.4512.72%K=120.4630.456 1.48%表3㊀不同聚类集群数目下的FOM指标值Tab.3㊀FOM index values under different number of clusters算法类型\集群数目CCA-Hc EUC-Hc差异率K=22.6974.633-41.78%K=42.6974.298-37.26%K=62.6964.047-33.37%K=72.6963.995-32.52%K=92.6963.816-29.35%K=112.6953.693-27.03%K=12 2.695 3.636-25.89%㊀㊀表2中的差异率指的是CCA-Hc的BHI指标比EUC-Hc的BHI指标相差的百分比,同理可以计算表3中的差异率㊂根据表2和表3的实验指标数据发现,对于7组不同的聚类集群数目实验,本文提出的CCA-Hc 的BHI指标均高于EUC-Hc,FOM指标均低于EUC-Hc,这表明CCA-Hc的鲁棒性更好,聚类结果中同一集群的基因相关性更大,聚类效果更加显著㊂同时还发现,集群数目对CCA-Hc的影响较小,K选不同的值,BHI指标值稳定在0.463~0.467之间,FOM88哈㊀尔㊀滨㊀理㊀工㊀大㊀学㊀学㊀报㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第28卷㊀指标值稳定在2.695~2.697之间,而集群数目对EUC-Hc 算法的影响相对比较明显㊂图2为CCA-Hc 在Oryza sativa L.数据集的聚类树状图,可以自行在所需的层级对树状图进行 剪枝 操作以获得合适的聚类效果[21]㊂图2㊀CCA-Hc 在Oryza sativa L.数据集的聚类树状图Fjg.2㊀Clustering dendrogram of CCA-Hc in Oryzasativa L.dataset3㊀结㊀论本文为了充分有效地挖掘基因表达数据所蕴含的生物机制,提出一种基于CCA -层次聚类的基因聚类算法(CCA-Hc)㊂把典型相关分析方法引入到凝聚层次聚类中来进行多特征基因的聚类分析,成为本文的创新之处㊂该算法利用典型相关分析方法度量基因之间的相关性程度,能够充分考虑基因的多个特征信息㊂同时采用凝聚层次聚类可自主选择聚类集群数目,直观显示聚类结果㊂基于Oryza sativa L.(水稻)的基因表达数据集,本文对比了CCA-Hc 和EUC-Hc 的聚类效果,使用BHI 和FOM 两个评价指标进行衡量,结果表明CCA-Hc 的鲁棒性和聚类准确性均更好,更有利于去探索基因表达数据潜在的生物机制㊂参考文献:[1]㊀欧阳玉梅.基因表达数据聚类分析技术及其软件工具[J].生物信息学,2010,8(2):104.OUYANG Yumei.Gene Expression Data Cluster Analysis Technology and Software Tools [J ].Bioinformatics,2010,8(2):104.[2]㊀高华成.基于数据降维框架的基因聚类算法[D].南京:南京邮电大学,2021.[3]㊀姚登举,詹晓娟,张晓晶.一种加权K -均值基因聚类算法[J ].哈尔滨理工大学学报,2017,22(2):112.YAO Dengju,ZHAN Xiaojuan,ZHANG Xiaojing.A Weighted K-Means Gene Clustering Algorithm[J].Jour-nal of Harbin University of Science and Technology,2017,22(2):112.[4]㊀方匡南,陈远星,张庆昭,等.双向聚类方法综述[J].数理统计与管理,2020,39(1):22.FANG Kuangnan,CHEN Yuanxing,ZHANG Qingzhao,et al.Review of Bidirectional Clustering Methods [J].Journal of Applied Statistics and Management,2020,39(1):22.[5]㊀吴明阳,张芮,岳彩旭,等.应用K-means 聚类算法划分曲面及实验验证[J].哈尔滨理工大学学报,2017(1):54.WU Mingyang,ZHANG Rui,YUE Caixu,et al.Appli-cation of K-means Clustering Algorithm for Surface Divi-sion and Experimental Verification[J].Journal of HarbinUniversity of Science and Technology,2017(1):54.[6]㊀LACKO D,HUYSMANS T,VLEUGELS J,et al.ProductSizing with 3D Anthropometry and K-medoids Clustering[J].Computer-Aided Design,2017:S0010448517301173.[7]㊀ZHANG T,RAMAKRISHNAN R,LIVNY M.BIRCH:ANew Data Clustering Algorithm and Its Applications[J].Data Mining and Knowledge Discovery,1997,1(2):141.[8]㊀FUSHIMI T,MORI R.High-Speed Clustering of Region-al Photos Using Representative Photos of Different Re-gions[C].2018IEEE /WIC /ACM International Confer-ence on Web Intelligence (WI),IEEE,2018:520.[9]㊀Al-MAMORY S O,KAMIL I S.A New Density BasedSampling to Enhance DBSCAN Clustering Algorithm[J].Journal of Computer Science,2019,32(4):315.[10]ANKERST M,BREUNIG M M,KRIEGEL H P,et al.OPTICS:Ordering Points to Identify the Clustering Struc-ture[C]//SIGMOD 1999,Proceedings ACM SIGMOD International Conference on Management of Data,June 1-3,1999,Philadelphia,Pennsylvania,USA.ACM,1999:2008,99.[11]王飞,王国胤,李智星,等.一种基于网格的密度峰值聚类算法[J ].小型微型计算机系统,2017(5):1034.WANG Fei,WANG Guoyin,LI Zhixing,et al.A Grid-based Density Peak Clustering Algorithm[J].Journal of98第5期林倩闽:一种CCA -层次聚类的基因聚类算法Chinese Computer Systems,2017(5):1034. [12]YAO J,CHANG C,SALMI M L,et al.Genome-scaleClusteranalysis of Replicated Microarrays Using ShrinkageCorrelation Coefficient[J].BMC Bioinformatics,2008,9:288.[13]HONG S,CHEN X,JIN L,et al.Canonical CorrelationAnalysis for RNA-seq Co-expression Networks[J].Nu-cleic Acids Res,2013,41(8):e95.[14]万静,郑龙君,何云斌,等.高维数据的高密度子空间聚类算法[J].哈尔滨理工大学学报,2020,25(4):84.WAN Jing,ZHENG Longjun,HE Yunbin,et al.High-Density Subspace Clustering Algorithm for High-Dimen-sional Data[J].Journal of Harbin University of Scienceand Technology,2020,25(4):84.[15]刘昊.基于聚类算法的生物分析软件的设计与实现[D].上海:复旦大学,2013.[16]乔锦荣,原新鹏,梁旭东,等.凝聚层次聚类方法在降水预报评估中的应用[J].干旱气象,2022,40(4):690.QIAO Jinrong,YUAN Xinpeng,LIANG Xudong,et al.Application of Agglomerative Hierarchical ClusteringMethod in Precipitation Forecast Evaluation[J].AridMeteorology,2022,40(4):690.[17]JASKOWIAK P A,CAMPELLO R J,COSTA I G.Onthe Selection of Appropriate Distances for Gene Expres-sion Data Clustering[J].BMC Bioinformatics,2014,15(2):1.[18]季姜帅,裴颂文.面向异质基因数据的智能层次聚类算法研究[J].小型微型计算机系统,2021,43(9):1808.JI Jiangshuai,PEI Songwen.Research on Intelligent Hi-erarchical Clustering Algorithm for Heterogeneous GeneticData[J].Journal of Chinese Computer Systems,2021,43(9):1808.[19]DATTA S,DATTA S.Methods for Evaluating ClusteringAlgorithms for Gene Expression Data Using a ReferenceSet of Functional Classes[J].BMC Bioinformatics,2006,7(1):1.[20]DATTA parisons and Validation of Statistical Clus-tering Techniques for Microarray Gene Expression Data[J].Bioinformatics,2003,19(4):459. [21]HULOT A,CHIQUET J,JAFFRÉZIC F,et al.Fast TreeAggregation for Consensus Hierarchical Clustering[J].BMC Bioinformatics,2020,21(1):12.(编辑:温泽宇)09哈㊀尔㊀滨㊀理㊀工㊀大㊀学㊀学㊀报㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第28卷㊀。

基于矩阵变换层次聚类在基因表达数据分析中应用研究

基于矩阵变换层次聚类在基因表达数据分析中应用研究

基于矩阵变换的层次聚类在基因表达数据分析中的应用研究摘要:随着基因测序技术的不断发展和完善,基因芯片技术逐渐成熟,产生了大量可供分析的基因表达数据,使得研究和比较大量基因成为了可能。

聚类分析能够检测出表达谱相似的基因群,将基因表达谱相似程度高的基因划分到同一类中,从而识别出未知功能的基因,是目前研究基因表达数据使用的主要技术之一。

本文在对基因表达数据分析方法的研究基础上,采用了一种改进的、基于矩阵变换的基因表达数据层次聚类(nhc)方法,用于改善聚类效果。

关键词:层次聚类;基因芯片;基因表达数据中图分类号:q786 文献标识码:a 文章编号:1007-9599 (2012)24-0046-031 引言生物信息学是20世纪80年代末兴起的新学科,他是涉及数学、生物学、计算机科学和工程学的交叉学科,是一门理论和实践相结合的学科。

基因芯片技术为生物信息学中的一项非常重要的前沿技术,该技术产生于20世纪90年代。

随着基因测序技术的发展,果蝇、小鼠、线虫等生物基因测序的完成,以及人类基因组计划的顺利进行,基因序列数据正在以前所未有的速度迅速增长。

生物信息学已经进入了一个全新的时代,确定每条基因在整个生物体的发育和活动中所起的调控功能,揭示成千上万基因间的相互作用关系已经为人类基因组计划研究的重点,人类基因组计划从此进入了后基因时代。

此时,需要一种能够监测基因行为变化的技术,使研究者能够同时监测不同发育阶段、不同组织、不同健康状态下的基因表达情况。

传统的实验技术此时已经无法满足这种需求了,于是基因芯片技术应运而生,为分析基因功能提供了一个十分理想的技术平台。

它能同步研究大规模基因在各种不同生理状态下的表达状况,使得同时研究和比较大量基因的功能和特性成为可能。

近年来,数据挖掘作为知识发现的重要手段已经在越来越多的领域得到广泛地应用。

在生物信息学领域,也已有多种数据挖掘技术应用于基因表达数据分析。

由于聚类分析能够根据基因之间的相似程度将基因表达谱相似程度高的基因划分到同一子类,识别出表达谱相似的基因群,从而使研究者可以通过抑制基因或者结合特征数据来对功能未知的基因进行研究,在基因表达数据分析中得到的广泛应用。

基因表达数据的模糊聚类技术研究

基因表达数据的模糊聚类技术研究
行聚 类分析 ,通 过对 不 同噪 音水平 的基 因表 达数 据 的 测试, 实验结果 验证 了 F M 算法 比传统 的 K Men 聚 C — as
此本 文并 不用统 一 的评价 标 准对所 有 的聚 类算 法进 行
评价 。
类算法 鲁棒 性好 。由于 F M 算法 存 在这 些缺 陷 , C 下面 分 别介 绍将 模糊 聚类 算法 应用 到基 因表 达数 据聚 类分
析 上所做 的改进 。 ( ) 一 自动 生成最 优 聚类数 目
传 统 的基 因表 达数据 聚 类分析 主要 有基 于划 分 的
方 法 基于 层次 的方 法崂 口 于人 工神 经 网络 的方法[ 、 基 4 1
等 。 生物 学 角度 看 , 统 的聚类方 式生 成 的是基 因表 从 传 达数据 的一 个划 分 , 因簇之 间没 有重 叠 , 基 然而 一个基 因通 常具 有多面 性 ,在 不 同的条件 下 可能 与不 同 的基
因组其 调控 , 此各个 聚类之 间应 该有重 叠 的现 象 。 因 为
G sh等 / 出 一 种 F M 的 启 发 式 改 进 算 法 ac 6 /提 C
F zy uzK,该 算 法对 基 因表 达数 据执 行 三次 F M 处 理 。 C
第一次 F M 迭 代结 束后 , 一个 基 因与其 中的某 聚类 C 若 中心 间 的 P asn相 关 系数 大 于 D7时 , 该基 因从原 er o . 将 基 因表 达数 据 中移 除 ,剩 余 的基 因表达 数据 构成 了原 基 因表 达数 据 的一个 子集 ,然后在 这个 子集 上进 行第
数学 的 角度 出发,而 且要 在生物 学 意义 下进行 评价, 因
F M 算 法不 能保 证 收敛到 目标 函数 的极小值 点 。 C 另外 , F M 对模 糊 参数 m 的选择 、 始 中 心 ( C 初 或初 始 隶属 度) 的选 择 、 据 的输 入顺 序 等 都 比较 敏 感 , 且 F M 从 数 而 C 本 质上 来说 是一种 局部 搜索算 法 。 大 量研 究表 明,模糊 聚类 算法 很好 地挖 掘 了基 因 间的关 系 。 文献 / F M 算 法对 时序基 因表达数 据进 用 C

微阵列—比较基因组杂交技术及其在肿瘤研究中的应用

微阵列—比较基因组杂交技术及其在肿瘤研究中的应用

微阵列—比较基因组杂交技术及其在肿瘤研究中的应用微阵列技术是一种高通量的基因表达分析方法,它通过比较基因组杂交技术实现对大量基因表达水平的同时检测和分析。

本文将介绍微阵列技术的原理和应用,并重点探讨其在肿瘤研究中的应用。

一、微阵列技术原理微阵列技术是基于比较基因组杂交的原理实现的,其基本步骤包括样本准备、RNA提取和标记、芯片杂交和信号检测四个主要环节。

1. 样本准备:首先需要提取研究对象的RNA样本,例如从肿瘤组织或正常组织中提取RNA。

为了获得可靠的数据,研究者需要大量重复样本。

2. RNA提取和标记:首先将提取的RNA逆转录成cDNA,然后利用核酸杂交和扩增技术,将样本RNA与反义RNA标记物杂交。

标记物可以是荧光标记的核酸分子或生物素等,以便后续的检测。

3. 芯片杂交:将标记的RNA样本加入到微阵列芯片上,通过杂交反应使得标记物与芯片中的探针片段互相结合。

4. 信号检测:利用激光扫描仪扫描芯片上的标记物,获取荧光信号,并根据信号的强度和密度来定量分析基因的表达水平。

二、微阵列技术在肿瘤研究中的应用微阵列技术在肿瘤研究中具有广泛的应用前景,主要体现在以下几个方面:1. 基因表达谱的分析:通过微阵列技术可以同时检测和分析大量的基因表达水平,从而了解肿瘤发生发展的分子机制。

比较正常组织与肿瘤组织的基因表达谱差异,可以发现潜在的肿瘤标志物或靶向治疗的新靶点。

2. 肿瘤分类与诊断:肿瘤是一类异质性很强的疾病,通过微阵列技术可以将肿瘤分子分型和个性化治疗相结合,实现精准医疗。

通过分析肿瘤细胞的基因表达谱,可以准确地判断肿瘤类型和预测患者的预后。

3. 药物研发与耐药机制研究:利用微阵列技术可以筛选出特异性作用于肿瘤的新药物。

通过比较药物敏感性和耐药性细胞系的基因表达差异,可以揭示耐药机制,并寻找新的治疗策略。

4. 分子靶向治疗的预测:微阵列技术能够评估患者对靶向治疗的敏感性和预测疗效,从而帮助医生制定个体化的治疗方案。

第四节基因表达数据的聚类分析

第四节基因表达数据的聚类分析

第四节 基因表达数据的聚类分析基因表达数据主要来自于两个方面,一是基因芯片,这是最主要的表达数据来源,利用基因芯片技术可以大规模并行获取基因转录结果mRNA 的数据(Schena Eet al ,1995)。

表达系列分析SAGE 和差异显示(Kozian and Kirschbaum ,1999)、蛋白质芯片等是快速检测蛋白质及其含量的另一类技术。

聚类分析是模式识别中一种非常有吸引力的方法,特别适用于模式分类数不知道的情况。

从机器学习的角度来看,有两种基本的聚类分析(Kaufman 1990),即所谓有教师聚类和无教师聚类。

在有师聚类中,对于每一类有一个参考模式,对于一个未分类的向量,通过计算选择一个最接近的参考模式,并将该向量归入该参考模式所对应的类,这实际上是一个分类问题。

而真正的聚类分析是一种无师学习(或无监督学习),没有关于聚类的先验知识,需要聚类算法根据样本之间的距离或者相似程度进行自动分类(傅京孙,1990;李介谷等,1986)。

基因表达数据聚类分析一般包括以下几个步骤:(1)确定基因表达的数据;(2)计算相似性矩阵,各个矩阵元素代表两个基因的表达是否相似;(3)选择算法进行聚类分析;(4)显示分析结果。

以下着重讨论对表达型基因芯片实验数据的处理和分析。

在一种基因芯片上往往含有成百上千个基因探针,一次可以同时检测大量基因的表达。

利用同一种芯片在不同条件下(不同时间,不同细胞,不同外界作用)进行基因表达实验,搜集表达数据,将原始数据放在一起,形成一个数据表格。

表格的每一行代表一个基因,是一个基因在不同实验条件下表达的“快照”,而每一列则代表各个基因在同一种实验条件下的表达水平。

从数学形式上来看,表格的一行数据就是一个向量,常称其为一个基因的表达模式,而表格本身就相当于一个矩阵。

聚类分析就是将这些向量按照相似程度进行归类。

对数据进行聚类分析之前,必须将包含在基因表达矩阵中的数据进行相似程度分析,并且对分析结果进行量化。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基因微阵列数据中的聚类技术研究第l6卷第2期2006年2月计算机技术与发展C()NIPUTERTE({N0l)【YANI)I)EVE1』)ljMEN7,V(,l16NO.2Feb.2006基因微阵列数据中的聚类技术研究马煜,陈莉,方鹤鹤(西北大学计算机科学系,陕西西安710069)摘要:微阵列技术是后基因时代功能基因组研究的主要工具.由于采用了高效的并行杂交技术,每次实验可以得到大量丰富的数据,因此其结果分析成为一项很有挑战性而且具有重要意义的工作.聚类分析是微阵列数据分析中使用最为广泛的一类方法.微阵列实验得到的大量数据通过聚类分析,可以得到很多有用的信息,其成功应用已广泛涉及到基因功能研究和生物医学研究中的各个领域.文中介绍了基因微阵列数据的聚类分析方法及其重要应用.关键词:微阵列;基因表达谱;聚类分析中图分类号:TP391文献标识码:A文章编号:1005—3751(2006)02一Ol17—03 ClusteringAnalysisofMicroarrayGeneExpressionDataMAYu,CHENLi,FANGHe-he(DepartmentofComputerScience,NorthwestUniversity,Xi'an710069,China) Abstract:Microarraytechnologyisthechieftoolforfunctionalgenomeresearch.Asadoptin gthehighefficientandparallelDNAhy?bridizaitontechnology,canachieveadundantdatafromeachexperiment,sothedataanalysis ofmicroarraysdatabecomesamorechalleng?ingandmeaningfultask.Clusteringistheu~fulandmostwidelyusedmethodofmicroarrayda taanalysis.Abundantusefulinformationcarl beobtainedthroughthemicroarrayclustering.Thispaperpresentsasystemofclusteringanal ysisforDNAmicroarraydata.Keywords:microarray;geneexpressionprofiles;clusteringanalysisO引言近年来生物信息学持续迅速发展.随着果蝇基因组测试和人类基因组工程的第一个草图的完成,基因组测序研究蓬勃发展.高密度cDNA微阵列与寡核苷酸微阵列技术已经可以同时测定多个基因(甚至整个基因组)在某一条件下的转录水平.大规模基因表达谱数据为研究基因功能,基因之间的调控机制及医药研究提供了新的研究思路.怎样从如此浩如烟海的数据集中找到研究者所感兴趣的信息,不仅是生物信息学研究者的一个重要课题,也对计算机研究者提出了新的课题.近几年,高性能生物序列聚类算法¨叫J有了很大提高,这些算法都能自动把数量非常庞大的基因数据库进行聚类,它是微阵列研究中的一个重要的工具.文中系统评述了微阵列数据分组基因问题中所用到的各种聚类方法.由于聚类问题的多样性和"开放性",评价一个聚类问题的优劣不仅仅是要看其数学上表现,而且要在具体的生物学的环境下进行评价,聚类问题和聚类算法中,特别是在基因表达条件下,有很多收稿日期:2005—05—27基金项目:陕西省自然科学基金(98X11);陕西省教育厅重点科研计划项目(00JK015)作者简介:马煜(1975~),女,陕西子州人,硕士研究生,研究方向为数据挖掘,生物信息学;陈莉,副教授,硕士研究生导师,研究方向为人工智能,数据挖掘.重要问题需要考虑.因此在这里并不对所有的聚类算法给定一个统一的评价标准.1微阵列数据简介在过去短短几年里,基于微阵列的新技术大量涌现并且迅速发展.这一类技术包括DNA杂交阵列(hybndi~一tionarray)[基因表达阵列以及用于测序和多态性研究的寡核苷酸(oligonucleotide)阵列],蛋白质阵列,组织阵列等.由于这些高能量方法使大量分子与一个大型文库之间的组合成为可能.DNA基因表达微阵列便利生物学家能够在基因组层次上研究任何种类细胞的任何时间,任何给定条件下的基因表达模式【.利用这些微阵列,人们正产生出大量的数据,它们可以帮助人们深入地认识诸多生物过程的本质, 如基因功能,发育,癌症,衰老和药理等.即使是对现有信息的部分理解也能够提供很有价值的线索.例如,新基因的共表达(CO—expression)就有助于推断许多缺乏相关信息的基因的功能.然而,基因徽阵列数据分析方法的发展现在才刚刚起步.2基因聚类分析聚类就是将物理或抽象对象分组成为多个类或簇(cluster),在同一个簇中的对象之间具有较高的相似度.?ll8-计算机技术与发展第16卷而不同簇中的对象差别较大.基因聚类就是将基因在属性的基础上分组,这些属性往往是基因在一些特定的情况下的表达水平或其子集.2.1分级聚类聚类可以通过分级的分支过程得到.因此有一些方法,可以根据两两相似度从数据中自动建立一棵树.对于基因表达的情况,这就是文献[6]所用的方法.这种方法的输出是一棵树而非一组类别.特别地,如何从树中定义类别往往不明显.因为类别是通过在树的某些点剪枝得到,而这一过程或多或少带有主观性.分级聚类算法的步骤:Stepl:建立Gene—experiment矩阵.建立m×矩阵,其中每一列是不同的组织,或者在不同的条件下的样本,每一行是基因的编号,每个基因的表达量用标准化后的log2R/G表示.Step2:计算所有基因之间的相关系数(correlationco—efficient).基因的相似分值(similarityscore)可以由Pearsonscor—relation公式计算:,y:i=1ccG妇一般取值为标准化后的中位数G=√堕,或平均值.它等于0,即log2R/G:0.表示表达无差异.Step3:建立C-ene—C-ene的距离矩阵(见表1).表1Gene—Gene距离矩阵G1G2G3G4G5G10G220G3650(3410940G598530Step'*:建立系统发育树(dendrograrn).根据Game-Gane矩阵的分值,首先找到矩阵中两个最相似的元素(具有最大相关性,距离最近的),生成一个结点将它们结合在一起,例如对表1,有5个基因的矩阵, 得到的系统发育树如图1所示.12345图L系统发育树图Steps:建立表达图谱,通过求两个元素表达谱(ex—pressionprofile)(或向量)的平均(缺失的数据可以忽略,求平均时可以按照向量中元素的个数进行加权)生成新节点的表达谱(或向量).s~tp6:用新节点取代两个结合的元素,按照新计算的表达谱(或向量)计算新的相关矩阵.这个相关矩阵比原来的矩阵要小一些.Step7:从N个点开始,这个过程将最多重复N一1次,直至只剩下1个单节点.正如已经指出的,在建立了这样一个标准树图以后,如何显示结果以及如何选取类别仍然是个问题.这一步往往是由人手工来完成的,既浪费时间又带着强烈的主观性.文献[6]用了一种启发式近似算法,它用平均表达水平,柒色体位置和最大诱导时间(timeofmaximalinduc—tion)对基因加权.通过对一组基因表达数据聚类得到的主要类别确实显示出了生物学上的相关性.2.2K均值聚类法在所有的聚类算法中,K均值聚类法_7J可能具有最清晰的概率表述.K均值聚类法与分层聚类有本质的区别, 首先类别数被固定为一个值K,然后将全部的基因按照相似性的距离,归人这几类中.一开始就给各类选择代表点或类中心,这样K个代表点或类中心的选择或多或少带有随意性.它们也被称为质心(centroid)或原型(proto—thee).K均值聚类算法:Stepl:将gene—experiments矩阵转化为gene—gene distance矩阵,但与分层聚类计算相关系数的方法不同,用欧氏距离(Euclideandistance)公式计算:———_d(X,Y)=^/(K—)Yi=l式中,x,y为两个基因.然后将所有的基因随机分配到K类中.Step2:计算出每个类中的基因的均值,把每个点分到离它最近的代表点所代表的类内;分类诸新的代表点,比如取每一个新类的平均或重心.Step3:重复上面两个步骤,直到系统收敛或涨落很小.这里要注意:K均值聚类法要求选择类别数,要求可以计算点与点之间的距离或相似度,并且对于每一类在给定其成员时可以计算代表点.2.3基于图论的聚类算法该算法基于图论中最小生成树方法的聚类分析.其作法是利用最小生成树算法(MST)将多维基因数据建树,这个表示的关键性是表达数据的每个簇对应MST的一个子树,这样将一个多维数据的聚类问题严格地转换成为一个树的划分问题,然后删去最大边产生聚类J.'D={d}是一个表达数据的集合,其中每个d={e,e;,…,e}表示从时间1到时间t基因,的表达水平.在这里定义一个带权图G(D):(,E).向量集V:{dldj∈D},边集E∈{(d,d,)ld,df∈D且i≠J}.因第2期马煜等:基因微阵列数据中的聚类技术研究?ll9? 此((D)是一个完全图,每个边(U,)∈E都有一个权重用来代表两个结点之间的距离或(相异性).p(U,)在U和之间的距离可以被定义为欧氏距离,相关性系数或是其它一些距离测试方法.连接带权图G(D)造成树T是G(D)一个连通子图.树的属性为:(1)T包含G(D)中每个向量;(2)T不包含任何的环.MST是距离总和最小的生成树.最小生成树算法:Stepl:用最小生成树(MSr)算法数据建树.Step2:找到最小生成树中两个叶结点之间距离最长的剪枝,生成一个新簇.Step3:若没有执行到N一1步,则执行Step2;否则,输出聚类结果.基于图论理论的聚类算法的优点:(1)树形结构有利于高效地实现严格的聚类算法;(2)基于图论的聚类不依赖于簇的几何形状,它可以克服其它划分聚类算法的问题即严重依赖簇的几何形状, 一般在面对包含无重叠的向量集中的簇时并不能很好地发挥性能.缺点:因为过渡区域的点,这个算法所面对的是一套强连通的基因,所以基于图论的聚类算法的计算复杂性高.2.4自组织映射自组织映射(sat—organizedmap,SOMs)分析'2J是人工神经网络应用于聚类分析中的例子.它采用的是结构简单的单层竞争性神经网络.模式在输入端引入并与输出结点关联,其间的权重通过学习反复变更,直到达到终止标准.结果是相似的模式被分人同组,并为同一个单位(神经元)所代表.SOMs法有着和K—me~-3s相同的不足, 在未知分块数目时其初始权重选择很可能不合适而导致产生次优解.另外收敛受到多种参数影响,结果可能不稳定.Mavroudi等…1提出了改进的SOMs算法,称为sNet—SOM(supervisednetworkself—organizedmap),它通过一个动态扩展过程可以自适应地确定分组数目,同时有效地降低了计算代价.2.5模拟退火算法聚类模拟退火算法-9.9是一种受统计力学启发的通用的优化算法.在模拟退火聚类算法中假设N是基因表达水平的数量,每一个表达水平包含M个时间点上的数据.起初每个基因表达水平用一个M维向量{e,,…,}表示,每个维的值被标准化为{0,l}之间的值.两个向量和之间的距离用欧氏距离表示:Md:[:(一)]尼一l对于给定簇的数量K时,使用最小化簇中所有点之间距离d之和来得到簇的最优分布.簇内所有点之间距离之和用下式表示:.KE(K)=∑[∑∑]这里计算最小化簇中所有点之间距离之和时使用的是模拟退火算法.模拟退火算法步骤:Stepl:将集体中的所有向量任意分到K个簇内.Step2:选择一个簇中的任意一个向量,将它分配至另一簇中.计算一个新的E一和原来的值Edd进行比较.如果Edd大于E一则向量就被无条件地分配到新的簇中, E一做为下一次迭代的开始.Step3:计算新的分配被接受的可能性exp[~(E一一E)/T].Step4:如果T没有接近0,则执行Step2,else输出所得到的簇.这里可能性表达式中如果E的值可以看作系统的能量时,T可以被理解为"温度".这个算法保证了经过有限步的迭代后系统在给定的温度下服从波耳兹曼一吉布斯分布.因此,如果温度T接近0,那么系统中E函数也就接近了全局的最小值.3展望基因微阵列数据的聚类分析方法已经在生命科学的各个领域内得到了许多成功的应用,如基因表达谱与生物个体行为关系的研究,肿瘤分类等等.由于其应用的广泛性,出现了大量可用的聚类分析软件,更加方便了其推广和应用.聚类算法在目前生物信息的分析中应用极其广泛,但大多数是基于统计理论,而生物领域的知识很少被涉及. 而一个聚类结果的质量的好坏不仅仅要看其在数学形态上的表现,生物领域的知识是要起非常大的作用的.生物信息的聚类分析进行应该充分考虑将基因的生物学意义和聚类算法很好地结合起来.参考文献:[1]Mavrou~S,PapadimitriouS,BegerianosA.Geneexpression dataanalysiswithadynamicallyextendedself—organizedmap thatexploitsclassinformation[J].Bioinformatics,2002,18: 1446~1453.[2]GoulbTR,SlonimDK,TamayoP,eta1.Molecularclassifica. tionofcancer:classdiscoveryanddasspredictionbygeneex-pressionminitoring[J].Science,1999,286(18):1194~1206. [3]Cxx)putationalcomplexityofprobabilityinference usingBayesianBeliefNetworks[J].ArtificialIntelligence, 1993,15:246—255.[4]Luk~shinA V,FucKsR.Analysisiftemporalgeneexpression profiles:clusteringbysimulatedannealinganddetemfiningthe optimalnumberofclusters[J].Bioinformaties,2001,17:405~414.[5]HolstegeFCP,JenningsEG,WyrickJJ,eta1.Dissectingthe regulatorydrc~tryofaeukaryoticgenome[J].Ceu,1998,95:(下转第l22页)?l22?计算机技术与发展第16卷synchronizedvoidLeftEnter()throws[nterruptedException{a)一一一while(nRight>O)wait();nLeft+;//获取资源,nLeft加1}synchronizedvoidLeftExit(){p_Le~t一一;//释放资源线处,nLeft减1b)一一一if(nLeft==O)notifyAU();}a)判断另一类线程是否占用资源:如果nRight等于0说明没有占用该资源,如果nRight大于0,说明另一类线程正在占用该资源,这样就挂起本线程.b)释放资源并唤醒线程:如果nLeft(nRight)等于零,就说明该类线程已经全释放了资源,重新唤醒所有线程继续竞争资源,这样就保证了多线程的延续性.(3)synchronized的作用[.Java提供了专门机制以解决这种冲突,即synchro—nized关键字,它有效避免了同一个数据对象被多个线程同时访问.synchronized方法使每个类实例对应一把锁,每个synchronized方法都必须获得调用该方法的类实例的锁方能执行,否则所属线程阻塞本程序就是使用第一种方法来实现对公共资源的互斥访问.3.3.3关于FairTunne1.java的控制分析FairTunnel类是对SafeTunnel类的改进,在实现多线程并发执行中的安全性的同时,也保证了多个线程对资源访问的公平性.privatehatnLeft:0,nRight=0,wai~ht=0,waitLeft=0;privatebooleanRightturn:true;synchronizedvoidLeft.Enter()throwsInterruptedException{++waitLeft;//等待的LeftTrain线程的个数加1a)一一一while(nPdght>0II(waitiight>0&&R/ght—turn))wait();一一waitLeft;//等待的LeftTrain线程个数减1++nLeft;//占用该资源的线程个数随之加1}synchronizedvoidLeftExit(){一一rllt;//释放资源,nLeft(nRight)减1b)一一一Righrtum=true;c)一一一if(n1.eft:=O)notifyAU();(上接第119页)717—728.[6]EisenMB,SpeIlmaJ1PT,BrownPO,eta1.Clusteranalysisanddisplayofgenome--wideexpressionpatterns[A].Proc. Nat1.Acad.SciUSA,95[C].USA:[S.n.],1998.14863—14868.[7]DudaRO,HartPE.PatternClassificatinandSceneAnalysis }在这个类中引用了以下几个公共变量:*nLeft,nRight:代表占用资源的同类线程数;*waitLeft,waitRight:代表申请资源的同类线程数;*Rightturn:是一个时间片开关,它实现了两边的两类线程公平地访问资源,两类线程申请资源获得允许使用权力的时间片就是一列Train通过单行隧道的时间.a)挂起线程:当n_Right大于0时说明RightTrain线程正在占用资源,当waitRight大于0时,说明有新的RightTrain线程将准备使用资源,Rightturn等于true时, 说明RightTrain线程有权继续使用资源.在上述情况下, 挂起LeftTrain线程.b)当第一个使用资源的LeftTrain线程到达资源释放处时,使得Rightturn改为true,使得LeftTrain线程失去申请资源获得允许使用权力.c)释放资源并唤醒线程:如果n.Left(nRight)等于零,就说明该类线程已经全释放了资源,重新唤醒所有线程继续竞争资源,这样就保证了多线程的延续性.4结束语文中简单模拟火车行驶单行隧道,通过这个实验模拟了多线程并发系统中的安全性与公平性问题,分别演示了在不同情况下产生何种后果:只考虑安全性,将会有一类Train(LeftTrain或者RightTrain)长时间等待,申请不到资源;只考虑公平性,会出现两边火车相撞的情况.由此,可充分认识打到并发系统中的安全性与公平性二者的辨证关系,通过两者的结合,设计解决实际问题的最优方案.参考文献:[1JMageeJ,KramerJ.Concurrency:StateModels&JavaPro—grams[M].[s.1_]:Willeypublishingoompany,1999[2]任爱华,王雷.操作系统实用教程(第2版)[M].北京:清华大学出版社,2004.[3]StallingsW.操作系统精髓与设计原理(第3版)[M].北京: 清华大学出版社,1998.[4]陶冶.Java多线程学习笔记[EB/OL].http://www.岱一,'programAnd0-2(.hun.2003—06—18.[5]DeitelHM,DeitelPJ.Java程序设计教程[M].施平安,施惠琼译.北京:清华大学出版社,2004.[M].[S.I_]:JohnWileyandSorts,1973.[8]XuYing,OlmanV,XuDong.Clusteringgeneexprexsiondata usingagraph-theoreticapproach:anapplicationofnfinimum spanningtrees[J].Bioinformatics,2002,l8:536—545.[9]KirkpatrickS,GelattCD,VecchiMP.Optimizationbysimu—latedanne~ng[JJ.Science,1983,220:671—680.。

相关文档
最新文档