聚类算法综述
聚类算法综述

聚类算法综述聚类算法综述Sunstone Zhang1. 分层次聚类法(最短距离法).........................................................................................................12. 最简单的聚类⽅法.............................................................................................................................23. 最⼤距离样本.....................................................................................................................................34. K 平均聚类法(距离平⽅和最⼩聚类法)......................................................................................35. 叠代⾃组织(ISODATA )聚类法....................................................................................................46. ISODATA 法的改进...........................................................................................................................57. 基于“核”的评估聚类⽅法 (6)聚类(Cluster ):相似⽂档的分组表达⽅式。
基因表达数据分析中的聚类算法综述

基因表达数据分析中的聚类算法综述基因表达数据是研究基因功能和调控的重要数据源,充分理解基因表达数据有助于揭示基因间相互作用及其在生物过程中的功能。
聚类算法被广泛应用于基因表达数据的分析,通过将样本或基因划分为不同的类别,有助于理解基因表达模式和生物学特征。
本文将综述在基因表达数据分析中常用的聚类算法以及其应用。
一、层次聚类算法层次聚类算法是一种自底向上或自顶向下的策略,根据样本或基因之间的相似度或距离构建树状结构,并通过切割树状结构来得到聚类结果。
常见的层次聚类算法包括凝聚层次聚类和分裂层次聚类。
凝聚层次聚类从每个样本或基因开始,逐步将相似度最高的样本或基因合并为聚类,直到所有样本或基因都被聚类到一个类中。
凝聚层次聚类算法常用的相似度度量包括欧氏距离、曼哈顿距离和相关系数等。
分裂层次聚类从所有样本或基因开始,逐步将已聚类的样本或基因分裂为更小的类别,直到每个样本或基因都被分为一个单独的类别。
分裂层次聚类算法常用的相似度度量包括最短距离、最长距离和平均距离等。
二、k均值聚类算法k均值聚类算法是一种基于样本之间距离的划分聚类方法,通过将样本划分为k个类别,并使得每个样本与所在类别的中心点距离最小化来得到聚类结果。
具体步骤包括初始化k个聚类中心,计算每个样本与聚类中心的距离,选取最近的聚类中心作为其所属类别,更新聚类中心,重复计算直到达到收敛条件。
k均值聚类算法的优点在于简单易理解、计算效率较高,但其结果受初始聚类中心的选择影响较大,并且对异常值和噪声敏感。
因此,需要对基因表达数据进行预处理和异常值处理,以提高聚类结果的准确性。
三、基于密度的聚类算法基于密度的聚类算法可以有效处理基因表达数据中的不规则聚类模式和噪声数据。
相比于传统的基于距离的聚类算法,基于密度的聚类算法通过确定数据点周围的密度来划分不同的聚类。
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种常用的基于密度的聚类算法。
聚类算法综述

聚类算法综述引用请注明出处:/s/blog_4c2cb83f0100ct0l.html1 聚类方法概述聚类方法是将物理或抽象对象的集合组成为由类似的对象组成的多个类的过程被成为聚类。
由聚类所组成的簇是一组数据对象的集合,这些对象与同一簇中的对象彼此类似,与其他簇中的对象相异。
在许多应用中,可以将一些簇中的数据对象作为一个整体来对待。
聚类是研究数据间逻辑上或物理上的相互关系的技术,其分析结果不仅可以揭示数据间的内在联系与区别,还可以为进一步的数据分析与知识发现提供重要依据。
它是数据挖掘技术中的重要组成部分。
作为统计学的重要研究内容之一,聚类分析具有坚实的理论基础,并形成了系统的方法学体系。
数据挖掘中聚类算法的应用很广泛。
在商务上,聚类能帮助市场分析人员从客户基本库中发现不同的客户群,并且用不同的购买模式来刻画不同的消费群体的特征。
在生物学上,聚类能用于帮助推导植物和动物的种类,基因和蛋白质的分类,获得对种群中固定结构的认识。
聚类在地球观测数据中相似地区的确定,根据房屋的类型、价值和位置对一个城市中房屋的分类发挥作用。
聚类也能用来对web上的文档进行分类,以发现有用的信息。
聚类分析能作为一种独立的工具来获得数据分布的情况,观察每个簇的特点,并对某些特定的节点进一步分析。
此外,聚类还可以作为其他方法的预处理步骤。
数据聚类正在蓬勃的发展,有贡献的领域包括数据挖掘,统计学,机器学习,空间数据库技术,生物学以及市场营销。
现在数据聚类分析已经成为一个非常活跃的研究课题。
作为统计学的一个分支,聚类分析已经被广泛地研究若干年,主要集中在基于距离的聚类分析。
基于k-means(k-平均值)、k-medoids(k-中心点)和其他一些的聚类分析工具已经被加入到许多统计分析的软件中,例如S-Plus、SPSS和SAS。
在机器学习领域,聚类分析是无指导学习的例子。
与分类不同,聚类不需要依赖事先定义的类和带符号的训练实践。
聚类算法研究综述

聚类算法研究综述随着数据挖掘技术的迅速发展,作为其重要的组成部分,聚类技术已经被广泛应用于数据分析、图像处理、市场研究等许多领域。
聚类算法研究已经成为数据挖掘研究领域中非常活跃的一个研究课题。
本文分析了各类常见聚类算法的应用场景及优缺点,指出了聚类分析研究重点关注内容。
标签:聚类;划分聚类;层次聚类1 引言同时,聚类作为数据挖掘的主要方法之一,越来越引起人们的关注。
聚类[1]分析是一种无先验知识的机器学习过程,是数据挖掘一个重要的分支,遵循同一个集合中的样本相似性最大,不同集合中的样本差异性最大的思想,把样本集分为若干个集合,每个集合称为一个簇。
通过聚类,人们能够识别密集的和稀疏的区域,发现全局的分布模式以及数据属性之间有意义的相互关系。
聚类算法在计算机科学、生医学、地球科学、社会科学、经济学等领域都有广泛的应用。
已有的经典聚类算法大致可分为五种:基于划分的、基于层次的、基于密度的、基于网格的和基于图论的聚类。
本文比较了数据挖掘中典型的聚类算法,分析了它们各自的优缺点并指出了其面临的挑战。
2典型聚类算法2.1划分聚类方法划分聚类[2]将数据对象划分成不重叠的子集,使得每个数据对象都分布在不同的子集中。
最经典的聚类算法是K-Means[3],其主要思想是找出数据集的k 个聚类中心,把数据集划分为是k个类簇,使得数据集中的数据点与所属类簇的类中心的距离平方和最小。
该算法优点是算法简单易于实现,但是需人工指定聚类数,同时受聚类中心的初始选择影响大,易陷入局部最优解。
K-modes是K-Means算法的一個延伸,主要是可处理分类属性数据,而不像K-Means那样只能处理数值属性的数据。
K-Means和K-modes处理离群点时候性能较差。
AP 是Frey等人2007年提出的一种聚类算法,该算法与K-means算法等同属于k中心聚类方法,AP算法部分地克服了K-means对初始聚类中心的选择敏感且容易陷入局部极值的缺陷。
数据挖掘中聚类算法研究综述

数据挖掘中聚类算法研究综述随着数据量的不断增加,数据挖掘成为了探索数据背后规律的一种重要方法。
而聚类算法作为数据挖掘中的一种基本技术,其在数据分析、模式识别、生物信息学、社交网络分析等领域都有着广泛的应用。
本文就对数据挖掘中的聚类算法进行了研究和总结,旨在对聚类算法的原理、特点、应用等方面进行探讨。
一、聚类算法的基本原理聚类算法是指将一组对象划分为若干个组或类,使得组内对象之间的相似度尽可能大,组间对象之间的相似度尽可能小,从而达到数据分类和分析的目的。
聚类算法的基本原理包括以下三个方面:1. 相似度度量:聚类算法的基础在于相似度度量,即将每个对象之间的相似度进行计算。
相似度度量可以采用欧几里得距离、曼哈顿距离、余弦相似度等多种方法。
2. 聚类分配:聚类分配是指将每个对象划分到合适的聚类中。
聚类分配可以通过最近邻法、k-means算法等实现。
3. 聚类更新:聚类更新是指对各个聚类进行调整,使得聚类内对象之间的相似度尽可能大,聚类间对象之间的相似度尽可能小。
聚类更新可以采用层次聚类法、DBSCAN算法等。
二、聚类算法的分类根据聚类算法的不同特点和应用场景,可以将聚类算法分为以下几种类型:1. 基于距离的聚类算法:包括最近邻法、k-means算法、k-medoid 算法等。
2. 基于密度的聚类算法:包括DBSCAN算法、OPTICS算法等。
3. 基于层次的聚类算法:包括凝聚层次聚类法、分裂层次聚类法等。
4. 基于模型的聚类算法:包括高斯混合模型聚类、EM算法等。
三、聚类算法的应用聚类算法在各种领域中都有着广泛的应用,包括数据分析、模式识别、社交网络分析、生物信息学等。
下面简单介绍一下聚类算法在这些领域中的应用:1. 数据分析:聚类算法可以对数据进行分类和分组,从而提取出数据中的规律和趋势,帮助人们更好地理解和利用数据。
2. 模式识别:聚类算法可以对图像、声音、文本等数据进行分类和分组,从而实现对数据的自动识别和分类。
文本数据中的关键主题提取与聚类算法综述

文本数据中的关键主题提取与聚类算法综述文本数据中的关键主题提取与聚类算法综述在信息爆炸时代,我们面临着海量的文本数据,如何从中提取出关键主题并进行聚类分析成为了一项重要的任务。
关键主题提取可帮助用户快速理解文本的内容,而聚类算法则能够根据文本的相似性将其归类。
关键主题提取算法致力于从文本数据中提取出最具代表性的主题。
常见的关键主题提取算法包括TF-IDF(Term Frequency-Inverse Document Frequency),TextRank和LDA(Latent Dirichlet Allocation)等。
TF-IDF是一种经典的关键主题提取算法,通过计算特定单词在文档中的频率与在整个语料库中的逆文档频率的乘积来衡量单词的重要性。
具有较高TF-IDF值的单词通常具有较高的区分度,可作为关键主题的候选。
TextRank是一种基于图的关键主题提取方法,它通过将文本的句子构建成图网络,节点表示句子,边表示句子之间的关系,然后使用PageRank算法对句子进行排序,得到具有高重要性的句子作为关键主题。
LDA是一种概率主题模型,它基于潜在主题的假设,将文档表示为主题的混合,进而推断出文档与主题以及主题与词汇之间的关联关系。
LDA可将文本数据分解为多个主题,每个主题都包含一组相关的词汇,并可为每个文档分配一个主题分布。
除了关键主题提取,文本数据聚类也是一项重要的任务。
聚类算法能够根据文本的相似性将其归类,并可帮助用户进行主题探索和信息抽取。
常见的文本聚类算法包括K-means,层次聚类和DBSCAN (Density-Based Spatial Clustering of Applications with Noise)等。
K-means是一种基于距离度量的聚类算法,通过迭代优化类中心来对文本进行聚类。
它需要事先指定聚类的数量,对初始类中心的选择也较为敏感。
层次聚类通过将文本逐渐合并或分割为不同的子集来进行聚类。
(完整版)聚类算法总结

1.聚类定义“聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有一些相似的属性”——wikipedia“聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。
它是一种重要的人类行为。
聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。
”——百度百科说白了,聚类(clustering)是完全可以按字面意思来理解的——将相同、相似、相近、相关的对象实例聚成一类的过程。
简单理解,如果一个数据集合包含N个实例,根据某种准则可以将这N 个实例划分为m个类别,每个类别中的实例都是相关的,而不同类别之间是区别的也就是不相关的,这个过程就叫聚类了。
2.聚类过程:1) 数据准备:包括特征标准化和降维.2) 特征选择:从最初的特征中选择最有效的特征,并将其存储于向量中.3) 特征提取:通过对所选择的特征进行转换形成新的突出特征.4) 聚类(或分组):首先选择合适特征类型的某种距离函数(或构造新的距离函数)进行接近程度的度量;而后执行聚类或分组.5) 聚类结果评估:是指对聚类结果进行评估.评估主要有3 种:外部有效性评估、内部有效性评估和相关性测试评估.3聚类算法的类别没有任何一种聚类技术(聚类算法)可以普遍适用于揭示各种多维数据集所呈现出来的多种多样的结构,根据数据在聚类中的积聚规则以及应用这些规则的方法,有多种聚类算法.聚类算法有多种分类方法将聚类算法大致分成层次化聚类算法、划分式聚类算法、基于密度和网格的聚类算法和其他聚类算法,如图1 所示的4 个类别.3.聚类算法基于层次聚类算法:基于划分聚类算法(partition clustering)基于密度聚类算法:基于网格的聚类算法:STING :利用网格单元保存数据统计信息,从而实现多分辨率的聚类WaveCluster:在聚类分析中引入了小波变换的原理,主要应用于信号处理领域。
数据挖掘中聚类算法研究综述

数据挖掘中聚类算法研究综述一、引言数据挖掘是指从大量的数据中发现有用的信息和知识的过程,是应用于各种领域的热门技术之一。
其中,聚类算法是数据挖掘中最为重要的算法之一,它可以将数据集中相似的对象归为同一类别,不同类别之间具有较大差异性。
本文将对聚类算法进行综述,包括聚类算法的定义、分类以及应用等方面。
二、聚类算法定义聚类算法是指将一个数据集分成若干个互不相交的子集(即簇),使得每个子集内部的对象相似度较高,而不同子集之间的对象相似度较低。
其中,“相似度”可以根据具体问题来定义,例如欧氏距离、余弦相似度等。
三、聚类算法分类目前常见的聚类算法可以分为以下几种:1. 基于原型的聚类算法:该算法通过在空间中生成原型来进行聚类,常见的代表有K-Means和高斯混合模型(GMM)。
2. 层次聚类算法:该算法基于树形结构对数据进行划分,常见代表有凝聚层次聚类和分裂层次聚类。
3. 密度聚类算法:该算法将数据空间看作是由不同密度区域组成的,通过寻找高密度区域来进行聚类,常见代表有DBSCAN和OPTICS。
4. 基于网格的聚类算法:该算法将数据空间划分为网格,并在每个网格中进行聚类,常见代表有STING和CLIQUE。
5. 模型化聚类算法:该算法利用概率模型或者其他模型对数据进行建模,然后根据模型进行聚类,常见代表有EM(期望最大化)算法和谱聚类。
四、应用实例1. 生物信息学在生物信息学领域中,聚类算法可以用于DNA序列分析、基因表达谱分析等方面。
例如,可以利用K-Means对基因表达谱数据进行分类,从而找到具有相似特征的基因集合,并研究它们与疾病之间的关系。
2. 图像处理在图像处理领域中,聚类算法可以用于图像分割、目标识别等方面。
例如,在图像分割中可以利用基于原型的K-Means算法对图像像素进行分类,从而实现自动化图像分割。
3. 社交网络分析在社交网络分析领域中,聚类算法可以用于社区发现、用户行为分析等方面。
例如,在社区发现中可以利用谱聚类对社交网络中的节点进行分类,从而找到具有相似特征的节点集合,并研究它们之间的关系。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
西南民族大学学报·自然科学版第37卷5月专辑 Journal of Southwest University for Nationalities ⋅Natural Science Edition May.2011______________________________________________________________________________________________收稿日期:2011-03-01作者简介:向培素(1974-), 女, 副教授, 主要研究方向: 计算机应用, 检索技术.基金项目:本文是“西南民族大学校级科研项目”(09NYB007)的研究成果之一.文章编号: 1003-2843(2011)05专-0112-03 聚类算法综述向培素(西南民族大学电气信息工程学院, 四川成都 610041)摘 要: 聚类分析是一种基本的数据分析方法,它在数据挖掘,统计学,空间数据库技术,人工智能,生物学研究,机器学习,模式识别等领域都得到了广泛的应用. 论文介绍了各类主要的聚类算法,并概述了其主要应用领域.关键词: 聚类算法; 半监督聚类中图分类号: G642 文献标志码: Adoi :10.3969/j.issn.1003-2483.2011.05专.33随着信息技术的发展, 人们积累了越来越多的音、视频数据, 以及文本, 图片等数据, 为了从这些海量数据中查找, 提取有用信息, 出现了数据挖掘技术. 聚类作为数据挖掘的重要技术之一, 在机器学习、工程学、神经网络、生物学、统计学、地球科学以及社会科学和经济学等许多领域起着越来越重要的作用.传统的聚类算法大致分为两类:层次聚类算法, 分割聚类算法.1 层次聚类算法层次聚类是对给定的数据对象的集合进行层次的分界, 根据一些指定标准把数据排列成一个树状结构的算法. 根据层次分界的表示方式, 层次聚类方法又可以分为凝聚的和分裂的两种.凝聚算法先将每个数据作为一个簇, 然后根据一定的规则将簇合并, 凝聚算法又有单连接(single linkage)、全连接(complete linkage)和平均连接(average linkage)方法.单连接是指当两个簇之间存在互连的边, 并且簇中数据最小距离小于等于给定的阈值, 则认为这两个簇的距离足够小, 可以合并. 全连接和单连接类似, 不过全连接是使用簇中数据的最大距离作为簇间距离. 平均连接使用两簇中数据的两两距离的平均值作为簇间距离.分裂聚类先将所有数据归在一个簇里, 然后对簇中联系不紧密的数据进行分裂, 分到其他簇里, 分裂聚类有一些简化的算法, 如单元分裂法和多元分裂法. 单元分裂法每一次选取一个变量对簇进行分裂, 和变量相同的数据归为一类, 和变量不同的数据归为另一类. 多元分裂则是选取一个距离其他数据最远的数据构成分离组, 然后计算簇中每一个数据距离分离组的距离并和该数据与簇中其他数据的距离进行比较, 若该数据距离分离组的距离更近, 则将该数据划入分离组. 重复这个过程, 直到找不到这样的数据为止.2 分割聚类算法分割聚类法先对所有数据点进行较为粗略的划分, 然后通过重复的迭代算法使某个准则达到最优化来对划分进行修正. 分割聚类法又可以分为基于密度的算法, 基于网格的算法, 基于图论的算法, 基于平方误差的迭代重分配算法.5月专辑基于密度的聚类的主要思想是根据数据对象的分布密度, 将密度足够大的数据对象聚集成一类. 该类算法基于样本的邻域条件, 整个样本空间被低密度区间划分开, 且不需要预先知道聚类的数目, 只需一遍扫描就可以完成聚类的任务.基于网格的聚类将数据空间分成有限数目的小空间以构成一个可以聚类的网格结构, 所有操作都在这些小空间中进行. 和基于密度的聚类只能处理数值型数据不同, 基于网格的聚类可以处理任意类型的数据. 基于网格的聚类需要考虑如何选择小空间的大小和数目以及如何对小空间中的信息进行汇总.基于图论的聚类是把聚类问题映射为一个图论中的组合优化问题. 例如, 基于图论聚类中的谱聚类算法就是首先根据给定的样本数据集定义一个描述成对数据点相似度的亲合矩阵,并计算矩阵的特征值和特征向量,然后选择合适的特征向量聚类不同的数据对象, 本质还是将聚类问题转化为图的最优划分问题.基于平方误差的迭代重分配聚类主要思想是逐步对聚类结果进行优化, 不断将目标数据集向各个聚类中心进行重新分配以获得最优解.3 各种聚类算法的应用3.1 K-mean算法在农用地分类中的应用K-mean算法是前面介绍的分割聚类算法中基于平方误差的迭代重分配聚类算法中的一种. 它首先选取K 个初始聚类中心, 把每个对象分配给离它最近的聚点, 从而得到一组聚类. 然后计算当前每个聚类的中心作为新的聚点, 把每个对象重新分配到最近的聚点, 如果满足终止条件, 则算法结束, 用新聚类代替原聚类.农用地分等问题实际属于分类问题, 在陈志民等人提出的算法中, 提出利用关联规则挖掘算法从已知类别的训练样本提取其中的分类关联规则作为监督信息, 结合非监督学习方法中的 K-mean 聚类算法, 对大量未标定样本进行分类的半监督学习方法. 对广东省土地资源的评价实验表明, 这种算法土地评价准确率为94.0622%.3.2 边介数聚类算法在肿瘤基因表达谱中的应用边介数聚类算法属于层次聚类中的凝聚算法, 边介数是指网络中所有节点对之间的最短路径中经过该边的路径数. 边介数最大边指经过该边的最短路径数最多. 边介数算法就是找出网络中边介数最大的边并删除这条边, 使得网络逐步聚成子网络.在阮晓刚等人提出的算法中, 首先对原始数据进行降维以提取特征基因, 然后对特征基因构建基因网络, 最后用边介数算法对这个网络进行聚类以提取基因功能模块. 通过将最后得到的特征基因模块映射到GO数据库, 可以发现每个特征基因模块中的大多数基因都具有相同的有明确生物学意义的功能.3.3 聚类算法在天文学中的应用在严太生等人的文章里, 例举了聚类算法在天文学中的应用:恒星/星系的分类是天文学的基本任务之一, 目前, 研究者们对应用聚类算法对天体进行自动聚类方面进行了探索和研究, 如mähönen等人应用模糊c均值聚类算法, 对天体进行自动分类. 用隶属度确定每个数据点属于某个聚类的程度:首先, 随机选择c个初始聚类中心, 然后根据最小距离原则将每个样本分配到某一类中, 之后不断迭代计算各类的聚类中心, 并依据新的聚类中心调整聚类情况直到迭代收敛. 实验表明, FCM聚类算法对天体自动分类, 能得到合理的结果, 和BP算法比较可见二者正确率相当, 但聚类算法能直接估计出分类的可靠性, 从而得到较全面的分类信息.3.4 聚类算法在击剑训练负荷分析系统中的应用训练负荷是导致运动员竞技能力提高的主要因素, 击剑训练负荷分析系统是为了能针对个人特点科学地安排击剑运动员的训练负荷. 它主要通过对运动员身体机能的多项生理生化指标的监测结果, 结合队医, 教练员对运动员的综合评价提供给教练员, 使其对运动员的身体机能状况做合理的分析, 及时调整训练方案以改善训练的质量和水平. 由于人体的生理过程十分复杂, 单靠监测一两项指标会造成系统不准确, 但是, 指标过多又会造成噪声过多, 使系统不易收敛, 甚至会使系统无法得到一致性的结果. 为了解决这一矛盾, 需要对数据进行预处理, 而聚类算法正是应用在预处理这一阶段.西南民族大学学报·自然科学版在邱飞飞等人提出的算法中, 首先对训练集中的数据依据数据的输入向量间的欧式距离进行聚类, 对产生的各类进行检查, 如果某类中成员个数少于预定值, 则需要调整参数再次聚类, 直到所有聚类中成员个数都不小于预定值为止. 然后把只含有一个数据的类直接加入到结果集中后, 再次聚类, 完毕后删除只含一个数据的类(这些数据是噪声), 把剩下的类中的所有数据加入到结果集中去.实验结果表明, 基于聚类的数据预处理算法能使BP网络在同样情况下的训练迭代次数显著降低, 改善了BP网络学习算法的效率和速度.3.5 聚类算法在基于CBR的自动武器设计系统中的应用基于实例推理(case based reasoning)的自动武器设计系统是将自动武器设计专家的经验综合并以知识库, 实例库的形式存储到计算机中, 当进行新产品的设计时, 从实例库中检索出相似的实例, 参考检索出的实例, 设计出新的产品, 大大提高了自动武器产品的设计效率. 随着时间的推移, 实例库会逐渐变得庞大, 检索相似实例会需要较长时间, 为了提高效率, 可以对实例库中的实例利用特征向量进行聚类, 并计算出每个聚类的均值, 新的实例直接与每个聚类的中心点比较, 以找到距离新的实例最近的聚类, 并在这个最近的聚类中以最近邻法搜索相似的实例.结语聚类算法具有广泛的应用前景, 随着数据复杂性增加, 对聚类算法的要求也会越来越高, 在今后的聚类算法的发展中, 更多的考虑:融合不同的聚类思想以形成新的聚类算法, 从而综合利用不同聚类算法的优点;提高处理大规模数据和高维数据的能力;要求聚类结果具有可解释性.聚类算法的聚类结果具有一定的不可预见性, 在实际应用中, 应根据数据类型选择合适的聚类算法, 以取得最佳的聚类效果.参考文献:[1] 阮晓钢. 边介数聚类算法在肿瘤基因表达谱中的应用[J]. 北京工业大学学报, 2008(7).[2] 严太生. 聚类算法在天文学中的应用[J]. 天文学进展, 2010(6).[3] 邱飞飞. 基于聚类的数据预处理算法在击剑训练负荷分析系统中的应用[J]. 计算机应用, 2006(6).[4] 陈志明. 半监督学习算法在农用地分等中的应用[J]. 计算机工程与设计, 2008(23).[5] 胡良明. 改进最近邻法在基于CBR的自动武器设计系统中的应用[J]. 制造业自动化, 2008(11).Survey of Clustering AlgorithmXIANG pei-su(School of Electrical and Information Engineering, Southwest University for Nationalities, Chendu, 610041, P. R. C.) Abstract: Clustering is an important technique in Data Mining.The paper presented a introduction of the existing popular partiple swarm clustering algorithms and summarized particle swarm application of clustering algorithm.Key words: clustering algorithm; semi-supervized clustering algorithm。