一种高维数据集的子空间聚类算法

合集下载

高维数据分析方法

高维数据分析方法数据的快速增长和信息技术的快速发展带来了大规模、复杂和高维度的数据集，这对传统数据分析方法提出了新的挑战。

高维数据分析方法应运而生，为我们从庞大的数据中抽取有效信息提供了强有力的工具和技术。

本文将探讨几种常见的高维数据分析方法，包括主成分分析（PCA）、聚类分析、流形学习和深度学习。

一、主成分分析（PCA）主成分分析是一种常用的降维方法，通过将原始数据投影到新的低维空间上，保留最重要的特征，同时尽可能地减少信息损失。

它可用于数据可视化、特征提取等领域。

主成分分析基于数据的协方差矩阵，通过计算特征值和特征向量进行降维。

二、聚类分析聚类分析是将数据根据相似性进行分组的一种常见方法。

在高维数据中，聚类可以帮助我们发现潜在的模式和关系。

传统的聚类算法如K均值和层次聚类通常效果不佳，因为高维数据中存在维度灾难的问题。

为解决这一问题，一些新的聚类方法基于子空间聚类，将数据投影到不同的子空间中进行聚类。

三、流形学习流形学习是一种非传统的降维方法，通过在原始高维空间中构建数据的低维嵌入，将复杂的高维结构转化为简单的低维流形结构。

流形学习可以在保持数据相对距离的同时，显著降低维度，提高数据分析的效率。

常见的流形学习方法有等距映射（Isomap）、拉普拉斯特征映射（LE）和局部线性嵌入（LLE）等。

四、深度学习深度学习是一种通过多层神经网络进行特征学习和模式识别的方法。

在高维数据分析中，深度学习可以帮助我们自动学习数据的表征，发现复杂的模式和关系。

深度学习的关键是构建适当的神经网络模型，通过反向传播算法进行模型训练。

综上所述，高维数据分析方法在处理复杂的高维数据中起到了重要的作用。

无论是通过主成分分析进行降维，还是利用聚类分析、流形学习或深度学习方法进行数据挖掘，我们都可以从庞大的数据中提取有价值的信息。

随着数据规模和复杂度不断增加，我们需要不断改进和创新数据分析方法，以更好地应对高维数据分析的挑战。

基才遗传算法的高维子空间聚类算法设计

的新算法能够有效地进行高维数据聚类，降低“ 维数灾效应” 的影响。
关键词：遗传算法；高维空间；聚类：特征维
中国分类号：１ ’ Ｐ１８文献标识码：Ａ文章编号：１６７４ — ６２３６（２０１３）０５ — ０１８０ — ０４
（武汉科技大学信息科学与工程学院，湖北武汉４３００８１）摘要：针对高维空间数据的特点。为了降低 “ 维数灾难效应 ” 对聚类结果的影响，提出并实现了一种新的基于遗传算法的子空间聚类算法．通过特征选择方法并结合遗传算法的全局搜索能力对所有的特征子空间进行搜索；采用实数
ＨＵＡＮＧＢａｉ－ｍｅｉ，ＺＨＡＮＧＺｈｅｎｇ
（ＣｏｌｌｅｇｅｏｆＩｎｆｏｒｍａｔｉｏｎａｎｄＳｃｉｅｎｃｅａｎｄＥｎｇｉｎｅｅｒｉｎｇ，ＷｕｈａｎＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｃｅｎａｎｄＴｅｃｈｎｏｌｏｇｙ，
制编码方式对解空间进行编码．并设计一种基于距离和信息熵的适应度评估函数来对聚类结果和子空间所包含的特征维进行评估。最后，通过人工数据与真实数据等几组实验验证了算法的高效性和鲁棒性。实验结果表明，本文提出

基于机器学习的子空间聚类算法研究与应用

基于机器学习的子空间聚类算法研究与应用随着数据量的不断增长，传统的聚类算法已经无法满足对大规模数据进行快速而准确的聚类的需求。

在这种情况下，基于机器学习的子空间聚类算法被提出，并且得到了广泛的研究与应用。

在传统的聚类算法中，数据点之间的距离是通过欧几里得空间中的距离来计算的。

然而，随着数据维度的增加，欧几里得空间中的距离会变得越来越稀疏，从而导致聚类算法的准确性下降。

基于机器学习的子空间聚类算法解决了这个问题。

子空间聚类算法基于假设，即数据点可以分布在低维子空间中。

因此，对于高维数据，子空间聚类算法会将其分解为多个低维子空间，并在各个子空间中进行聚类。

这种聚类方法在处理高维数据时表现极为出色。

它对空间的局部结构和复杂度作出了准确而合理的模型假设，从而对数据进行分析时能提高精度和有效性。

在子空间聚类算法中，首先需要确定子空间的维度。

传统的方法是通过人工指定维度值来实现，但这种方法需要经验和技巧，效果不稳定。

近年来，基于机器学习的自适应子空间聚类算法被提出，使实现过程更智能化。

自适应子空间聚类算法通过结合聚类结果和数据分布特征，自适应地确定每个子空间的维度。

这种方法能够使聚类结果更加准确、稳定和有效，同时能够避免人工决策的不确定性，提高计算效率。

除了自适应子空间聚类算法，还有一些其他的基于机器学习的子空间聚类算法，比如谱聚类、核聚类、对比传播聚类等。

这些算法都有着不同的适用范围和应用场景，但它们的基本思路都是相似的。

通过有效的降维和聚类方法，它们能够对高维数据进行准确、稳定、有效的聚类，为实际应用提供了有力的支持。

在实际应用中，子空间聚类算法已经被广泛地应用于网络安全、图像识别、音视频分析等领域。

例如，基于子空间聚类算法的网络异常流量检测系统、基于子空间聚类算法的人脸识别系统等。

这些应用展示了子空间聚类算法的巨大潜力和实际价值。

总之，基于机器学习的子空间聚类算法是一种有效的高维聚类方法。

通过自适应子空间聚类算法等技术手段，可以进一步提高算法的准确性、稳定性和效率。

高维数据聚类方法综述

所面临的不仅是数据量越来越大的问题，重要的还是数据的更
基降臁类焉于维｛
基于超图的聚类
数据
方法
聚类子空间聚类
ＣＩＵＬＱＥ，ＥＣＵ，ＭＡＩＮＬＳＦＡ
高维度问题。换句话说，由于数据来源的丰富多样，图文声像甚至视频都逐渐成为聚类处理的目标对象，这些特殊对象的属性信息往往要从数十个甚至数百个方面来表现，其每一个属性
ｓｎｌｙ是一个非常普遍的现象。这一术语最先由Ｂｌａｉａｔ）ｏｉｅｍｎ提ｌ出，泛指在数据分析中遇到的由于变量（性）多而引起它属过的一系列问题。此后又有很多研究者做了大量的研究致力于
Ｃｉａｈｎ）
ＡｂｓｒｔＴｓｐｐｒｐｏｉｅｕｖｙｏｕｒｎｔｃｕｓｅｉｇａｇｒｔｔａｃ：ｈｉａｅｒｖｄｄａｓｒｅｆｃｒｅｌｔｒｎｌｏｉｈｍｓｆｒｈｇｄｍｅｓｏａａａａｒｔｈｅａｅａｅｍ— ｏｉｈ— ｉｎｉｎｌｄｔｔｆｓ，ｔｎｍｄｏｉｐａｉｏｍｏｇｔｅａｄｉｅｔｆｚｄｔｅｎｗｒｃｉｎｉｈｅｆｔｅ，ｗｈｉｈｗａｈｏｒｓｎａｎｈｍｎｄｎｉｅｈｅｄｉｅｔｏｎｔｕｕｒｉｃｓｔｅｃｍｂｉｔｏｆｓｂｐａｅｃｕｓｅｎｎｄｏｈｅｎａｉｎｏｕｓｃｌｔｒｇａｔｒｉｔｐｃａｌｓｅｉｔｄｓｙｉｌｃｕｔｒｎｇｍｅｈｏ．Ｋｅｏｄｙｗｒｓ：ｈｇｄｉｎｓｏａｌｄｔｉｈ— ｍｅｉｎａａ；ｃｕｔｒｎｌｓｅｇ；ｓｂｓｃｉｕｐａｅ

一种改进的K-Modes聚类算法

一种改进的K-Modes聚类算法K-Modes聚类算法是一种常用的聚类算法，主要用于离散属性的数据聚类。

传统的K-Modes算法在处理大规模数据集和高维数据时存在一些问题。

为了解决这些问题，近年来出现了一种改进的K-Modes聚类算法。

改进的K-Modes聚类算法与传统的K-Modes算法相比，主要在以下几个方面进行了改进：1. 子空间聚类：传统的K-Modes算法对所有属性进行全局聚类，忽略了不同属性之间的相关性。

改进的算法采用子空间聚类的方式，将不同属性划分为不同的子空间，并分别进行聚类。

这样可以更好地捕捉到数据中的不同属性之间的关系，提高聚类的准确性。

2. 核心样本选择：传统的K-Modes算法是随机选择初始的聚类中心，这样容易导致得到的聚类结果不理想。

改进的算法通过核心样本选择的方法，从数据集中选择具有代表性的样本作为初始的聚类中心。

通过这种方式，可以提高聚类算法的收敛速度和聚类质量。

3. 多粒度聚类：传统的K-Modes算法在聚类的过程中只考虑了一个粒度的聚类，忽略了数据可能存在的多个层次的聚类结构。

改进的算法引入了多粒度聚类的概念，将聚类过程分解为多个层次的子聚类过程。

通过这种方式，可以更好地理解数据的聚类结构，提高聚类算法的可解释性。

4. 并行计算：传统的K-Modes算法是串行计算的，限制了算法的计算效率。

改进的算法引入了并行计算的思想，将聚类过程分解为多个子任务，并行计算各个子任务，提高了算法的计算效率。

改进的K-Modes聚类算法在以上几个方面进行了改进，可以更好地处理大规模数据集和高维数据，并提高聚类算法的准确性、计算效率和可解释性。

在实际应用中，可以根据数据的特点选择合适的改进算法，以获得更好的聚类结果。

拉普拉斯秩约束的子空间聚类算法

拉普拉斯秩约束的子空间聚类算法拉普拉斯秩约束的子空间聚类算法是一种基于拉普拉斯矩阵和约束优化的子空间聚类方法。

该方法通过对数据集进行子空间聚类，可以有效地解决高维数据集中的聚类问题。

本文将分为四个部分来详细介绍拉普拉斯秩约束的子空间聚类算法。

第一部分是引言部分，介绍拉普拉斯秩约束的子空间聚类算法的背景和意义。

高维数据集在聚类分析过程中存在维度灾难的问题，传统的聚类方法无法有效地处理高维数据。

为了克服这一问题，研究人员提出了基于子空间聚类的方法。

子空间聚类算法能够利用数据的子空间结构来进行聚类分析，从而提高聚类效果。

而拉普拉斯秩约束的子空间聚类算法是一种基于拉普拉斯矩阵和约束优化的子空间聚类方法，可以进一步提高聚类效果。

第二部分是问题描述部分，详细描述拉普拉斯秩约束的子空间聚类算法的问题背景和数学描述。

在拉普拉斯秩约束的子空间聚类算法中，问题的目标是将数据集划分为若干个子空间，并使得同一子空间中的数据点在相似性度量下更接近。

算法通过优化问题的拉普拉斯矩阵和约束条件来获得最优的子空间划分。

第三部分是算法描述部分，详细介绍拉普拉斯秩约束的子空间聚类算法的具体步骤和计算方法。

该算法的主要步骤包括选择子空间聚类的维度、计算拉普拉斯矩阵、构建优化问题、求解优化问题以及对结果进行后处理等。

具体的计算方法包括对拉普拉斯矩阵进行特征值分解、使用约束优化方法求解优化问题等。

第四部分是实验评估部分，通过实验评估拉普拉斯秩约束的子空间聚类算法的效果。

在实验中，使用多个不同数据集进行测试，并与其他子空间聚类算法进行对比。

实验结果表明，拉普拉斯秩约束的子空间聚类算法在各项指标上都有较好的表现，能够有效地进行高维数据的聚类分析。

综上所述，拉普拉斯秩约束的子空间聚类算法是一种基于拉普拉斯矩阵和约束优化的子空间聚类方法，可以有效地解决高维数据集中的聚类问题。

该算法通过优化问题的拉普拉斯矩阵和约束条件来获得最优的子空间划分。

实验结果表明，该算法在各项指标上表现良好，具有较好的聚类效果。

一种大规模高维数据集的高效聚类算法

聚类效果．
关键词：聚类算法；空间聚类；优分割；据划分子最数
中图分类号：Ｔ３１Ｖ１文献标识码：Ａ
ＡｎＥｆｉｉｎｕｔｒｎｇｒｔｍｆＬａｇｃｌｎｇＤｉｅｓｏａｔｅｆｃｅｔＣｌｓｅｉｇＡｌｏｉｈｏｒｅＳａｅａｄＨｉｈｍｎｉｎＤａａＳｔｌ
聚类分析是数据挖掘领域中的一项重要的研究课题，既可以作为一个单独的工具用以发现数据它集中数据分布的一些深入的信息，可以作为其他也数据挖掘分析算法的一个预处理步骤．目前，大规对模高维数据集的高效聚类已成为聚类分析算法的巨大挑战．今为止，究者已经提出了许多聚类算迄研
ｓａｓｅｔｒｐｃｆｍｏｔｅ — ｒｄｄｔｅｓＮｅｅｔｅｅｓ，ｔｅｄｔｅｓｏｅｃｎａｎｃｕｔｒｉｄｎｉａｉｕｐｒｅｆａｕｅｓａｅｏｓｒａｗｏｌａａｓｔ．ｌｖｒｌｓｈｈａａｓｔｆｎｏｔｉｌｓｅｈｄｅｎｖｒｏｓｔｓ
一
种大规模高维数据集的高效聚类算法
周晓云，孙志张柏礼挥，
（东南大学计算机科学与工程系，苏南京２０９）江１０６
摘
要：规模高维数据集的聚类算法已成为当前聚类研究的热点，大由于高维的原因，聚类往ຫໍສະໝຸດ 往隐藏在数据空间的

子空间聚类算法解析

子空间聚类算法解析子空间聚类算法是一种用于处理高维数据的聚类方法。

高维数据是指具有大量特征的数据，对于传统的聚类算法而言，高维数据会面临维度灾难的问题，即随着特征维度的增加，数据之间的距离会愈发稀疏，聚类效果会受到严重影响。

为了解决这个问题，子空间聚类算法引入了子空间的概念，将高维数据投影到低维子空间中进行聚类，从而降低维度灾难的影响。

子空间聚类算法主要包括两个步骤：子空间构建和聚类划分。

首先，需要构建表示数据的子空间，一般可以通过主成分分析（PCA）、因子分析等方法得到数据的主要特征子空间。

然后将数据投影到这些子空间中，得到降低维度后的数据表示。

接着，在降维后的子空间中进行聚类划分，可以使用传统的聚类算法，如k-means、DBSCAN等。

1.子空间聚类算法有较好的鲁棒性。

由于数据在子空间中被降维处理，可以过滤掉噪声和冗余特征，提高聚类的准确性和鲁棒性。

2.子空间聚类算法能够发现数据的局部和全局结构。

通过将数据投影到不同的子空间中，可以捕捉到数据在不同维度上的局部和全局结构信息。

3.子空间聚类算法能够处理特征选择问题。

由于高维数据可能存在大量冗余特征，通过子空间聚类算法可以选择数据的主要特征子空间，减少特征数量，提高聚类效果。

4.子空间聚类算法具有较好的可解释性。

子空间聚类得到的结果可以转化为可视化的形式，便于理解和解释聚类结果。

然而，子空间聚类算法也存在一些挑战和限制：1.子空间聚类算法对子空间的选择较为敏感。

不同的子空间表示方法可能得到不同的聚类结果，选择合适的子空间表示方法是一个挑战。

2.子空间聚类算法可能会受到噪声和异常值的干扰。

由于子空间构建和降维过程中，可能存在噪声和异常值的影响，导致聚类结果不准确。

3.子空间聚类算法的计算复杂度较高。

由于需要进行降维和聚类操作，计算复杂度相对较高，需要较长的计算时间。

总结来说，子空间聚类算法是一种解决高维数据聚类问题的有效方法。

通过将数据投影到低维子空间中进行聚类，能够降低高维数据的维度灾难问题，提高聚类效果。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

较高的属性之间的一维密集簇进行搜索 , 合并得到二维密集簇 .对二维空间中的密集子空间的寻找 , 通过
计算基于二维联合熵的函数来确定 .
在计算二维联合熵时 , 参考文献 [ 3] 中计算一维属性熵的方法 , 首先将每个属性划分为 1 / 个等长
的区间 , 设 X为所有区间 , 密度 d(x)定义为落入 x内的样本点个数占数据集样本总数的百分比 , 属性 A的
展而来的 .自底向上的算法通过对数据集的全面搜索 , 不会失去任何一个簇 , 但是大部分该类算法策略很
少考虑数据的分布 , 通常设定全局密度阈值 , 随着维度的增加 , 数据集将被打散 , 其密度也将随之降低 , 从而容易导致聚类质量的降低 , 很容易导致重叠的簇产生 .
在自顶向下的搜索策略中 , 初始将整个数据集划分为 k个部分 , 并赋给每个簇相同的权值 , 然后重复
定义 1 对标准化数据集 , 给定一个阈值 0 <α<1, 若 xj -yj ≤ α(1 ≤ j≤ d), 则称点 x=[ x1 , x2 , … , xi, …, xd] 和 y=[ y1 , y2 , … , yi, … , yd] 是关于第 j维相似 .
本文为简化查找相似点的过程 , 首先将样本点按照每个属性的属性值大小进行排序 (每个维度 j有一个排序的序列 Sj).根据定义 1, 通过顺序扫描 Sj可以得到所有与样本点 x第 j维相似的点 y.
熵值计算公式为 :H(A)=-∑ d(x)logd(x).间隔的大小需要小心选择 , 如果选取过小 , 将划分出很多 x∈ X
的区间 , 导致落入区间里的样本点过少 ;相反 , 如果选取的过大 , 则很难得到有效的信息 , 区分出区间的密
定义 2 给定一个三元组 (xi, xj, f)来存储样本点在每一维上的近邻关系 , 其中 (xi, xj, 1)表示样本点 xi和样本点 xj在当前指定空间维度中是相似的 , (xi, xj, 0)表示样本点 xi和样本点 xj在当前指定空间维度中是不相似的 .
引理 1[ 1] (单调性原理 )如果一个样本点集 S是 k维空间的一个密集簇 , 那么将 S映射到 k-1维空间得到 S′, 则 S′将是 k-1维空间某个密集簇的子集 . 1.2 算法描述 1.2.1 数据标准化与排序由于芯片原始数据集的表达多样性 , 首先标准化原始数据集 .数据标准化处理以数据的最大值和最小值的差距进行数学计算 , 其结果介于 0 ～ 1之间 .具体计算公式为 :zi =xxm ii ax--xm i xi m inin .式中 , xi为原始样本值 , zi为标准化处理后的样本值 , xm iin为样本集中某个属性特征的最小值 , xm iax为样本集中某个属性特征的最大值 .
ASubspaceClusteringAlgorithm jia, XuJianhua
(SchoolofComputerScienceandTechnology, NanjingNormalUniversity, Nanjing210097, China)
Abstract:A new subspaceclusteringalgorithm basedongridanddensityisproposedinthispaper.Thealgorithm makesuseofheuristicdensity-connectedideatogeneratetheinitialclustersinthefirstdimension, andappliesbottomupstrategytosearchthesubspaceclusters.Withtheexperimentsonreal-worldgeneexpressiondata, theresultsshow thatouralgorithm iseffectivewithoutsacrificingotherperformancesandreducesthesensitivitytothedataorderandto thenoisedataindealingwithhigh-dimensionaldata. Keywords:clusteringalgorithm, subspaceclustering, geneCMOSchip
南京师范大学学报 (工程技术版 ) 第 9卷第 3期 (2009年 )
当高 , 因此大部分该类算法都采用某些策略选择实际数据的一部分作为数据样本来提高性能 .PROCLUS 算法[ 8] 和 ORCLUS算法 [ 9] 采用的策略就是将数据库分成多个子集 , 将高维空间分成多个子空间 , 形成子集 -子空间对 , 子集在子空间中的映射形成紧凑的映射类 .其中 PROCLUS算法 [ 8] 是最早也是最典型的自顶向下算法 , 该算法选择实际数据的一部分作为数据的样本 , 然后从样本中选择 k中心点并反复改进簇的数量 , 适合查找超球面形状的簇 .之后提出的 ORCLUS算法 [ 9] 较之 PROCLUS算法更稳定、更精确 .MetaCluster算法[ 10] 采用的是基于网格和密度的聚类算法策略 , 该算法采用相似度测量的策略来挖掘存在于重叠网格之间的真实簇 .自顶向下的算法为数据的每个部分都建立簇 , 这意味着不会有重复的簇产生 , 一个点只能赋给一个簇 , 但是在大数据集中 , 不断重复改进初始簇的过程需要的代价相当高 , 时间开销通常随着数据维度和子空间维度的增加呈指数级增长 .
算法 1 生成初始簇的算法描述 . 输入 :已标准化数据集 — 56 —
乐耀佳 , 等 :一种高维数据集的子空间聚类算法
输出 :一维初始簇集
1)fork=1 toddo
依据第 k维属性下的样本值对样本排序 ;计算第 k维属性下三元组矩阵 S;
2)fork=1 toddo
1 2 3 4 5
[ 摘要 ] 提出了一个基于密度和网格的子空间聚类算法 .该算法运用启发式的密度连通思想来确定一维空间初始簇的生成 , 使用自底向上的搜索策略来发现存在子空间中的簇 .实验结果表明 , 在处理高维数据时 , 在不牺牲算法的其他性能的同时提高了聚类的有效性 , 降低了对输入数据顺序及噪音数据的敏感性 . [ 关键词 ] 聚类算法 , 子空间聚类 , 基因芯片 [ 中图分类号 ] TP391.4 [ 文献标识码 ] A [ 文章编号 ] 1672-1292(2009)03-0055-09
采用某种策略对这些初始簇不断改进 , 并更新这些簇的权值 .在大数据集中 , 这个重复过程所需的代价相
收稿日期 :2008-12-20. 通讯联系人 :许建华 , 教授 , 研究方向 :模式识别、神经网络、机器学习、信号处理等 .E-mail:xujianhua@
— 55 —
forx∈ Sjdo 如果 (xi, xj, f)中的 f=1, 其中 i≠ j, xi∈ 一维初始簇 C, 那么 xi和 xj在属性 k下是相似的 , 一维初始簇 C→ C∩ {xj}; 3)算法结束 , 得到所有一维初始簇 .
-1 1 0 0 -1 0 0 -0 0
其中关于三元组 (xi, xj, f), 图 1举例描述了一个包含 5个样本的数据集在某个属性下的三元组 (xi, xj, f).从图 1很显然看出有 2个簇的存在 , 簇 1 ={1, 2, 3}, 簇 2 ={4, 5}.如果遇到样本 xk与样本 xi和 xj都比较靠近的情况 , 就按照先到先得原则 , 把 xk和 xi划为一类 , 这对
第 9卷第 3期 2009年 9月
JOURNALOFNANJINGNOR南MA京L师UN范IV大ER学SI学TY报(EN(工GIN程E技ER术IN版GA)NDTECHNOLOGYEDITION)
Vol.9 No.3 Sep, 2009
一种高维数据集的子空间聚类算法
乐耀佳 , 许建华
(南京师范大学计算机科学与技术学院 , 江苏南京 210097)
在高维数据空间中对传统聚类算法的一种扩展 , 其思想是将搜索局部化在相关维中进行 , 尝试在相同数据
集的不同子空间上发现聚类 .现有的子空间聚类算法根据搜索的方向的不同 , 可以分成两大类 :自底向上的搜索策略和自顶向下的搜索策略 .
在自底向上的搜索策略中 , CLIQUE算法 [ 1] 是最早尝试在数据子空间中查找聚类的算法 .该算法采用
本文提出的高维数据集的子空间聚类算法 , 首先将每个样本点看作单独的簇 , 扫描一遍数据集一次性地构造出数据集各维特征上的所有合理的聚类 , 然后在自底向上的簇合并过程中生成所有合理的聚类 , 最后用 3个数据来验证算法的有效性与效果 .
1 算法描述
1.1 基本概念为方便后续的讨论 , 对有关术语作一些说明 .
了基于密度和基于网格的聚类算法的思想 , 使用 Apriori策略来查找和合并某个度量大于给定阈值的单
元 , 产生候选子空间 , 并且将这些候选子空间按其规模即子空间中点的数量进行排序 ;随后利用最小描述长度 (MinimumDescriptionLength[ 2] , MDL)准则将规模较低的子空间剪枝 .该算法能自动标识高维空间的子空间 , 所有搜索限制在原始空间的子空间中 , 而不是引入新的维度 .随后 , ENCLU算法 [ 3] 和 MAFIA算法 [ 4] 都在 CLIQUE算法基础上进行了改进 , 大大提高了运行速度 .SUBCLU算法[ 5] 采用的是基于密度的聚类算法策略 , 是在 DBSCAN算法基础上发展而来的 .DOC算法 [ 6] 是基于网格的算法 , 采用了反复改善簇质量的策略 .IBUSCA算法 [ 7] 采用的是基于网格的聚类算法策略 , 该算法是在 CLIQUE和 MAFIA的基础上发
实验的结果可能有一定的影响 .
-1 -
图 1 近邻三元组 Fig.1 Exampleofneighbortriples
1.2.3 簇集合并当一维初始簇完全生成后 , 从一维空间到二维空间将产生数量庞大的候选簇 , 所以在一维到二维密集