子空间聚类改进算法研究综述

合集下载

改进CLIMB聚类算法在图象数据库中的应用研究

ｉｅｃｒｉａｅａｄｔｅｅｗｉｅａｄｓｉｕｉｇｃｒｅｏｅｅｓａｃｅ．Ｕｓｎｈ “ ｌｍｂｎｔｏ ”．ｔｅｅｗｌｇｔｔｅｔｕｈｎｔｏｄｎｎｈｒｌｂｉｔｂｔｕｖｆｔｓｗｔｈｓｈｔｌｒｎｈｉｇｔｅｃｉｉｇｍｅｈｄｈｒｌｅｈｒｇｉｏ
维普资讯
ｌ４５ Leabharlann 计算机与数字工程
第３４卷
改进ＣＩＬＭＢ聚类算法在图象数据库中的应用研究
林恩爱许宏丽
北京Ｉ）４（（）ＸＭ（北京交通大学计算机与信息技术学院
摘要ＣＩＢ聚类算法是基于子空间的算法，ＬＭ基本思想是对每个样本在坐标维上投影，得到样本分布曲线。通过爬
Ｅｐｒｎｓｓｏｈｔｔｉａｌｒｔｅｃｕｔｒｇａｇｒｔｍｉｄｎｅｌｉｈｍａｅｒｔｅａｘｅｍｅｔｈｗｔａｈｓｍｅｉａｖｓｅｉｌｏｈｓｏｅｗｌｎｔｅｉｇｒｖ１ｉｏｉｌｎｉｅｉＫｅｒｓｃｕｔｒｇａｇｒｈ，ａｅｅｒｎｆｒ，ｍａｅｒｔｅａｙｗｏｄｌｓｉｌｏｔｅｎｉｍｗｖｌｔｔｓｏａｍｉｇｅｒｖｌｉＣＩｓｕａｓｎｍｂｒＴＰ９ｅ３
ｎａｅｃｅｔｔｕｖａｄｅｙｍｏｎａｎｉｏｒｐｎｉｇｃｕｔｒｇＢｅｏｃｕｔｒｇｔｌｄｍｅｓｏａｔ，ｌｓｅａｄｗｙｒｓｅｃｒｅ，ｎｒｒｕｔｉｓａｃｒｓｏｄｎｌｓｅｎ．ｆｒｌｓｅｎｅｍｕｔｉｎｉｎｌａａｗｅｃｕｔｒｆｏｈｅｅｉｅｉｈｉｄｔｅｌｗｎｉｎｌｄｔｒｔＡｔｒｗａｅｅａｓｒｎ，ｔｅｄｓｂｉｇｃｒｅｏｅｅｓａｃｅｌｂｍｏｔｅＡｎｈｓｗｌｒ— ｈｏｍｅｓａａａｆ．ｆｖｌｔｒｆｍｉｇｈｉｔｕｎｕｔｓｗｔｈｓｗｌｅｓｏｈｄｏｉｓｅｔｎｏｉｒｔｖｆｈｉｄｔｉｉｅｍｏｅｔｅｄｓｕｂｎｅｏｅｎｉ．Ｔｅａｐｏｉｔｓ＇ｅｗｔｉｅｅｔｙｒｓｃｌｒｍｏｅｄｔｉｄｍｅｓｇｉｅｎｘｅｔｖｈｉｔｒａｃｔｏｓｈｐｒｘｍａｅｍｅｓｇｈｄｆｒｎａｄｔｋｗｌｅｖｅａｌｓａｅｏｄｆｒｔｔｎ．ｆｈｅａｉｆｉｉｅｆｆｅｅ

基于机器学习的子空间聚类算法研究与应用

基于机器学习的子空间聚类算法研究与应用随着数据量的不断增长，传统的聚类算法已经无法满足对大规模数据进行快速而准确的聚类的需求。

在这种情况下，基于机器学习的子空间聚类算法被提出，并且得到了广泛的研究与应用。

在传统的聚类算法中，数据点之间的距离是通过欧几里得空间中的距离来计算的。

然而，随着数据维度的增加，欧几里得空间中的距离会变得越来越稀疏，从而导致聚类算法的准确性下降。

基于机器学习的子空间聚类算法解决了这个问题。

子空间聚类算法基于假设，即数据点可以分布在低维子空间中。

因此，对于高维数据，子空间聚类算法会将其分解为多个低维子空间，并在各个子空间中进行聚类。

这种聚类方法在处理高维数据时表现极为出色。

它对空间的局部结构和复杂度作出了准确而合理的模型假设，从而对数据进行分析时能提高精度和有效性。

在子空间聚类算法中，首先需要确定子空间的维度。

传统的方法是通过人工指定维度值来实现，但这种方法需要经验和技巧，效果不稳定。

近年来，基于机器学习的自适应子空间聚类算法被提出，使实现过程更智能化。

自适应子空间聚类算法通过结合聚类结果和数据分布特征，自适应地确定每个子空间的维度。

这种方法能够使聚类结果更加准确、稳定和有效，同时能够避免人工决策的不确定性，提高计算效率。

除了自适应子空间聚类算法，还有一些其他的基于机器学习的子空间聚类算法，比如谱聚类、核聚类、对比传播聚类等。

这些算法都有着不同的适用范围和应用场景，但它们的基本思路都是相似的。

通过有效的降维和聚类方法，它们能够对高维数据进行准确、稳定、有效的聚类，为实际应用提供了有力的支持。

在实际应用中，子空间聚类算法已经被广泛地应用于网络安全、图像识别、音视频分析等领域。

例如，基于子空间聚类算法的网络异常流量检测系统、基于子空间聚类算法的人脸识别系统等。

这些应用展示了子空间聚类算法的巨大潜力和实际价值。

总之，基于机器学习的子空间聚类算法是一种有效的高维聚类方法。

通过自适应子空间聚类算法等技术手段，可以进一步提高算法的准确性、稳定性和效率。

一种改进的K-Modes聚类算法

一种改进的K-Modes聚类算法K-Modes聚类算法是一种常用的聚类算法，主要用于离散属性的数据聚类。

传统的K-Modes算法在处理大规模数据集和高维数据时存在一些问题。

为了解决这些问题，近年来出现了一种改进的K-Modes聚类算法。

改进的K-Modes聚类算法与传统的K-Modes算法相比，主要在以下几个方面进行了改进：1. 子空间聚类：传统的K-Modes算法对所有属性进行全局聚类，忽略了不同属性之间的相关性。

改进的算法采用子空间聚类的方式，将不同属性划分为不同的子空间，并分别进行聚类。

这样可以更好地捕捉到数据中的不同属性之间的关系，提高聚类的准确性。

2. 核心样本选择：传统的K-Modes算法是随机选择初始的聚类中心，这样容易导致得到的聚类结果不理想。

改进的算法通过核心样本选择的方法，从数据集中选择具有代表性的样本作为初始的聚类中心。

通过这种方式，可以提高聚类算法的收敛速度和聚类质量。

3. 多粒度聚类：传统的K-Modes算法在聚类的过程中只考虑了一个粒度的聚类，忽略了数据可能存在的多个层次的聚类结构。

改进的算法引入了多粒度聚类的概念，将聚类过程分解为多个层次的子聚类过程。

通过这种方式，可以更好地理解数据的聚类结构，提高聚类算法的可解释性。

4. 并行计算：传统的K-Modes算法是串行计算的，限制了算法的计算效率。

改进的算法引入了并行计算的思想，将聚类过程分解为多个子任务，并行计算各个子任务，提高了算法的计算效率。

改进的K-Modes聚类算法在以上几个方面进行了改进，可以更好地处理大规模数据集和高维数据，并提高聚类算法的准确性、计算效率和可解释性。

在实际应用中，可以根据数据的特点选择合适的改进算法，以获得更好的聚类结果。

《2024年L1范数仿射子空间投影聚类算法研究》范文

《L1范数仿射子空间投影聚类算法研究》篇一一、引言随着大数据时代的到来，数据挖掘和机器学习技术得到了广泛的应用。

在众多数据处理方法中，聚类算法因其无监督性，已成为处理海量数据的强大工具。

特别是在仿射子空间结构中，对数据点进行有效聚类已成为计算机视觉和机器学习的核心任务之一。

近年来，基于L1范数的仿射子空间投影聚类算法引起了研究者的广泛关注。

L1范数作为信号稀疏性的度量工具，具有强大的噪声鲁棒性。

而仿射子空间投影则是一种强大的工具，能够处理复杂的非线性关系和结构化数据。

本文旨在深入探讨L1范数仿射子空间投影聚类算法的研究，包括其理论基础、应用领域及优势等。

二、L1范数与仿射子空间投影的简介（一）L1范数L1范数常用于稀疏表示中，它的核心思想是通过稀疏表示从数据集中获取最具代表性的特征，以此实现对数据的精确分类。

它能够在众多变量中找出关键变量，从而降低模型的复杂度。

（二）仿射子空间投影仿射子空间投影是一种将数据从原始空间映射到低维仿射子空间的方法。

这种方法能够有效地处理复杂的非线性关系和结构化数据，使得数据在新的空间中具有更好的可分性。

三、L1范数仿射子空间投影聚类算法的原理L1范数仿射子空间投影聚类算法结合了L1范数的稀疏性和仿射子空间的投影技术。

该算法首先通过L1范数对数据进行稀疏表示，然后利用仿射子空间投影将数据映射到低维空间，最后在新的空间中执行聚类操作。

这种算法可以有效地处理噪声和异常值，同时能够准确地识别出数据的内在结构。

四、算法的步骤与实现（一）算法步骤1. 数据预处理：对原始数据进行标准化处理和预过滤。

2. 稀疏表示：使用L1范数对数据进行稀疏表示。

3. 仿射子空间投影：将数据从原始空间映射到低维仿射子空间。

4. 聚类操作：在新的空间中执行聚类操作，如K-means算法等。

5. 聚类结果评估与优化：对聚类结果进行评估，并进行必要的优化操作。

（二）算法实现在实现过程中，我们采用了Python语言和相应的机器学习库（如scikit-learn等）。

拉普拉斯秩约束的子空间聚类算法

拉普拉斯秩约束的子空间聚类算法拉普拉斯秩约束的子空间聚类算法是一种基于拉普拉斯矩阵和约束优化的子空间聚类方法。

该方法通过对数据集进行子空间聚类，可以有效地解决高维数据集中的聚类问题。

本文将分为四个部分来详细介绍拉普拉斯秩约束的子空间聚类算法。

第一部分是引言部分，介绍拉普拉斯秩约束的子空间聚类算法的背景和意义。

高维数据集在聚类分析过程中存在维度灾难的问题，传统的聚类方法无法有效地处理高维数据。

为了克服这一问题，研究人员提出了基于子空间聚类的方法。

子空间聚类算法能够利用数据的子空间结构来进行聚类分析，从而提高聚类效果。

而拉普拉斯秩约束的子空间聚类算法是一种基于拉普拉斯矩阵和约束优化的子空间聚类方法，可以进一步提高聚类效果。

第二部分是问题描述部分，详细描述拉普拉斯秩约束的子空间聚类算法的问题背景和数学描述。

在拉普拉斯秩约束的子空间聚类算法中，问题的目标是将数据集划分为若干个子空间，并使得同一子空间中的数据点在相似性度量下更接近。

算法通过优化问题的拉普拉斯矩阵和约束条件来获得最优的子空间划分。

第三部分是算法描述部分，详细介绍拉普拉斯秩约束的子空间聚类算法的具体步骤和计算方法。

该算法的主要步骤包括选择子空间聚类的维度、计算拉普拉斯矩阵、构建优化问题、求解优化问题以及对结果进行后处理等。

具体的计算方法包括对拉普拉斯矩阵进行特征值分解、使用约束优化方法求解优化问题等。

第四部分是实验评估部分，通过实验评估拉普拉斯秩约束的子空间聚类算法的效果。

在实验中，使用多个不同数据集进行测试，并与其他子空间聚类算法进行对比。

实验结果表明，拉普拉斯秩约束的子空间聚类算法在各项指标上都有较好的表现，能够有效地进行高维数据的聚类分析。

综上所述，拉普拉斯秩约束的子空间聚类算法是一种基于拉普拉斯矩阵和约束优化的子空间聚类方法，可以有效地解决高维数据集中的聚类问题。

该算法通过优化问题的拉普拉斯矩阵和约束条件来获得最优的子空间划分。

实验结果表明，该算法在各项指标上表现良好，具有较好的聚类效果。

子空间聚类算法解析

子空间聚类算法解析子空间聚类算法是一种用于处理高维数据的聚类方法。

高维数据是指具有大量特征的数据，对于传统的聚类算法而言，高维数据会面临维度灾难的问题，即随着特征维度的增加，数据之间的距离会愈发稀疏，聚类效果会受到严重影响。

为了解决这个问题，子空间聚类算法引入了子空间的概念，将高维数据投影到低维子空间中进行聚类，从而降低维度灾难的影响。

子空间聚类算法主要包括两个步骤：子空间构建和聚类划分。

首先，需要构建表示数据的子空间，一般可以通过主成分分析（PCA）、因子分析等方法得到数据的主要特征子空间。

然后将数据投影到这些子空间中，得到降低维度后的数据表示。

接着，在降维后的子空间中进行聚类划分，可以使用传统的聚类算法，如k-means、DBSCAN等。

1.子空间聚类算法有较好的鲁棒性。

由于数据在子空间中被降维处理，可以过滤掉噪声和冗余特征，提高聚类的准确性和鲁棒性。

2.子空间聚类算法能够发现数据的局部和全局结构。

通过将数据投影到不同的子空间中，可以捕捉到数据在不同维度上的局部和全局结构信息。

3.子空间聚类算法能够处理特征选择问题。

由于高维数据可能存在大量冗余特征，通过子空间聚类算法可以选择数据的主要特征子空间，减少特征数量，提高聚类效果。

4.子空间聚类算法具有较好的可解释性。

子空间聚类得到的结果可以转化为可视化的形式，便于理解和解释聚类结果。

然而，子空间聚类算法也存在一些挑战和限制：1.子空间聚类算法对子空间的选择较为敏感。

不同的子空间表示方法可能得到不同的聚类结果，选择合适的子空间表示方法是一个挑战。

2.子空间聚类算法可能会受到噪声和异常值的干扰。

由于子空间构建和降维过程中，可能存在噪声和异常值的影响，导致聚类结果不准确。

3.子空间聚类算法的计算复杂度较高。

由于需要进行降维和聚类操作，计算复杂度相对较高，需要较长的计算时间。

总结来说，子空间聚类算法是一种解决高维数据聚类问题的有效方法。

通过将数据投影到低维子空间中进行聚类，能够降低高维数据的维度灾难问题，提高聚类效果。

稀疏子空间聚类算法

稀疏子空间聚类算法与模型建立稀疏子空间聚类是一种基于谱聚类的子空间聚类方法，基本思想：假设高位空间中的数据本质上属于低维子空间，能够在低维子空间中进行线性表示,能够揭示数据所在的本质子空间, 有利于数据聚类.基本方法是, 对给定的一组数据建立子空间表示模型,寻找数据在低维子空间中的表示系数, 然后根据表示系数矩阵构造相似度矩阵, 最后利用谱聚类方法如规范化割(Normalized cut, Ncut)[22] 获得数据的聚类结果。

基本原理稀疏子空间聚类[32] 的基本思想是: 将数据 αS x i ∈表示为所有其他数据的线性组合, j ij ij i x Z x ∑≠= （1）并对表示系数施加一定的约束使得在一定条件下对所有的αS x j ∉, 对应的0=ij Z 。

将所有数据及其表示系数按一定方式排成矩阵，则式（1）等价于 XZ X = （2）且系数矩阵N N R Z ⨯∈ 满足: 当i x 和j x 属于不同的子空间时, 有0=ij Z . 不同于用一组基或字典表示数据, 式（2）用数据集本身表示数据, 称为数据的自表示. 若已知数据的子空间结构, 并将数据按类别逐列排放, 则在一定条件下可使系数矩阵Z 具有块对角结构, 即⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=k Z Z Z Z 00000021 （3）这里),,1(k Z =αα 表示子空间αS 中数据的表示系数矩阵; 反之, 若Z 具有块对角结构, 这种结构揭示了数据的子空间结构. 稀疏子空间聚类就是通过对系数矩阵Z 采用不同的稀疏约束, 使其尽可能具有理想结构, 从而实现子空间聚类.Elhamifar 等[32] 基于一维稀疏性提出了稀疏子空间聚类(Sparse subspace clustering,SSC) 方法, 其子空间表示模型为1min Z Z 0,..==ii Z XZ X t s （4）该模型利用稀疏表示(SR) 迫使每个数据仅用同一子空间中其他数据的线性组合来表示. 在数据所属的子空间相互独立的情况下, 模型(4) 的解Z 具有块对角结构, 这种结构揭示了数据的子空间属性: 块的个数代表子空间个数, 每个块的大小代表对应子空间的维数, 同一个块的数据属于同一子空间. 注意, 模型中的约束0=ii Z 是为了避免平凡解, 即每个数据仅用它自己表示, 从而Z 为单位矩阵的情形. 稀疏子空间聚类综述王卫卫1 李小平1 冯象初1 王斯琪132 Elhamifar E, Vidal R. Sparse subspace clustering. In: Pro-ceedings of the 2009 IEEE Computer Society Conferenceon Computer Vision and Pattern Recognition (CVPR).Miami, FL, USA: IEEE, 2009. 2790¡2797稀疏最优化模型位于线性或仿射子空间集合的高维数据可以稀疏地被同一个子空间的点线性或者仿射表示。

聚类算法研究现状

聚类算法研究现状聚类算法是机器学习中的一种重要算法，它被广泛应用于数据挖掘、图像处理、自然语言处理等领域。

在聚类算法中，我们通过将数据集划分成若干个簇，使得同一簇内的数据对象相似度较高，而不同簇之间的相似度较低。

本文将对聚类算法的研究现状进行探讨。

一、传统聚类算法1.1 K-Means算法K-Means算法是一种经典的聚类算法，它将数据集划分成K个簇，每个簇的中心点即为该簇内所有数据点的平均值。

该算法的基本流程如下：（1）随机选择K个数据对象作为初始的簇中心；（2）将每个数据对象分配到距其最近的簇中心所在的簇中；（3）重新计算每个簇的中心点；（4）重复以上步骤，直到簇中心不再发生变化或达到预设的迭代次数。

K-Means算法简单易实现，但其聚类结果高度依赖于初始簇中心的选择，且对异常值敏感。

1.2 层次聚类算法层次聚类算法是一种自底向上或自顶向下的聚类算法，其基本思想是将数据集中的每个数据对象看作一个簇，并不断地将相似度较高的簇合并，直到形成一个大的簇为止。

层次聚类算法可以自适应地确定簇的个数，并且不需要事先指定簇的个数，但其计算复杂度较高，难以处理大规模数据集。

二、基于深度学习的聚类算法2.1 自编码器聚类算法自编码器是一种重要的深度学习模型，其可以将输入数据编码成低维度的表示，从而实现数据的降维压缩。

自编码器聚类算法将自编码器与聚类算法相结合，即将自编码器的编码层作为聚类的特征表示，通过最小化重构误差和聚类误差来同时进行编码和聚类。

自编码器聚类算法可以有效地处理高维度数据，具有较好的聚类性能和可解释性。

2.2 基于生成对抗网络的聚类算法生成对抗网络（GAN）是一种强大的深度学习模型，其可以生成高质量的合成数据。

基于GAN的聚类算法将GAN的生成器作为聚类器，通过最小化生成器和判别器的损失函数来实现聚类。

基于GAN的聚类算法具有较好的聚类性能，并且可以生成具有高度可解释性的聚类结果。

三、聚类算法的应用聚类算法在各个领域都有广泛的应用，例如：3.1 图像处理聚类算法可以用于图像分割、图像分类和图像检索等方面。

聚类分析综述范文

聚类分析综述范文聚类分析（Cluster Analysis）是一种数据分析技术，用于将相似的数据点分为不同的组或聚类。

这种统计技术非常有用，在许多领域中都被广泛应用，包括数据挖掘、图像处理、生物信息学、市场研究等。

聚类分析的目标是将数据点分为不同的组，每个组内的数据点彼此相似，而不同组之间的数据点则有较大的差异。

通过聚类分析，我们可以获得数据的结构，发现隐藏的模式和规律，从而对数据进行更深入的理解。

聚类分析的方法主要有两大类：层次聚类和划分聚类。

层次聚类方法将数据点组织成一棵树状结构，从而建立层次结构，同一层次上的数据点具有相似性。

划分聚类方法则将数据点划分为互不重叠的聚类，每个数据点仅属于一个聚类。

层次聚类方法有两种主要的算法：凝聚法和分裂法。

凝聚法从每个数据点作为一个独立的聚类开始，然后将具有最小距离的聚类合并，直到只剩下一个聚类。

分裂法则从所有数据点作为一个聚类开始，然后逐步将数据点分成越来越多的聚类，直到每个数据点都成为一个聚类。

划分聚类方法中最常用的算法是K-means算法。

K-means算法将数据点分成K个非重叠的聚类，其中K是用户定义的聚类数量。

算法开始时，根据初始的聚类中心随机分配数据点，然后通过计算每个数据点与每个聚类中心之间的距离，将数据点重新分配到最近的聚类中心。

然后，更新聚类中心，继续迭代直到满足停止准则。

除了这些经典的聚类方法，还有一些其他的聚类算法被提出，例如DBSCAN、OPTICS、谱聚类等。

这些算法在聚类分析过程中也起着重要的作用，并提供了不同的可选择的方法。

聚类分析在实际应用中具有广泛的应用，其中一个重要的应用领域是市场研究。

通过聚类分析，可以将顾客细分为不同的群体，从而更好地了解他们的需求和偏好。

这可以帮助企业开展有针对性的市场营销，并制定更好的产品策略。

另一个应用领域是图像处理。

聚类分析可以帮助我们对图像进行分割和分析，从而识别出图像中的不同对象和区域。

这对于计算机视觉和模式识别具有重要的意义。

一种改进的子空间选择算法在聚类中的应用

Key words clustering ; high dimensional space; k nearest neighbors ; approximate nearest neighbors 摘要高维空间聚类由于其数据分布稀疏、噪声数据多、差距趋于零现象” “ 等特征，因而给传统的聚类方法带来很大的阻碍. 为了解决这些问题，介绍了一种对于潜在子空间的选择方法. 原有方法采用 k 邻
关键词聚类 ; 子空间; 郁近; 近似部近 k
中图法分类号 T P3l l
聚类是数据挖掘研究中的一个重要分析手段，目前的聚类算法主要分为层次方法和划分方法. 层次方法对给定的数据集进行层次分解，对分解结果
题，在处理海量数据集和高维数据上表现得尤为
明显 .
做合并或分裂形成聚簇， BIRcH[‘ ]和cu RE[2〕是典
型的层次聚类算法 ; 分区方法利用某一个划分策略对数据集进行分区，得到的每个分区代表一个聚簇，
典型算法包括尔mediod[3] ，一走 means[3〕随着聚类等.
在实际中的应用越来越广泛，也逐渐凸现出一些问
收稿日期 :2007一一 03 05
高维空间数据有如下特点 : 1 数据分布稀疏、 ) 噪声数据较多; 2 维度高达一定程度时， ) 对给定数据点、距其最近的数据点与最远数据点间的距离随着维度的增加渐趋于零，在此称为“ 差距趋零现象” . 并且，这些特点随着维度的增加更趋明显. 为了处理这些问题，通常采用将对聚簇无关或者影响不大
13 0
计算机研究与发展 200 ， ( 增刊) 7 44
( 5 为 l o s ) w r ，T in动ua 协1* r it ， 1咭 100084 ) o f t f a e s s y 及红

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

②发现类 :子空间搜索的目的是发现 k维空间及其子空间中的密集单元格 ,将这些密集单元格组成的集合记做 D, 类发现的目的就是要将 D 中互相连接的密集单元格聚集在一起 ,形成 q个类 D1 , D2 , …, Dq。CL IQUE算法采用深度优先搜索算法完成类发现 ,从 D中任选一个密集单元格作为当前子空间 ,为它分配一个类 ID ,然后分别在不同的维上寻找与当前子空间相邻的单元格 ,判断该单元格是否为密集的 , 如果是 ,则为它们分配同一个类 ID ,并将该密集单元格作为当前子空间 ,重复以上过程 ;如果不是 ,则从 D中任选未访问过的密集单元格 ,重复以上过程直到所有密集单元格都打上类标签 ;
ABSTRACT: The clustering of high dimensional data is a key p roblem in clustering methods. Subspace clustering is an effective app roach to realize clustering in high dimensional data. A s a p ioneer density and grid based clustering al2 gorithm , CL IQUE algorithm has, w ith its p racticality and high efficiency, greatly facilitated the development of sub2 space clustering algorithm. ? This paper? analyzes in dep th the advantages and lim itations of CL IQUE algorithm and introduces several subspace clustering algorithm s? put forward in recent years which have all been? updated to? ad2 dress the lim itations of CL IQUE algorithm and therefore imp roved the efficiency and accuracy for clustering. ? In ad2 dition, this paper also discusses the development trend of subspace clustering algorithm. KEYW O RD S: Data m ining; Clustering; H igh dimensional datasets; Subspace
但是 CL IQUE不能自动去除孤立点 ,并且由于方法大大简化 ,它也存在着很多的局限性 ,主要是以下几个方面 : ① CL IQUE算法采用固定划分网格的方法 ,这一方面很容易破坏密集区域的边缘 ,降低最终结果的准确性 ,另一方面会导致可能有某一聚类被人为地分割成多个区域 ,而在覆盖相连的密集单元时又将其相连。使得划分单元的数目增加 ,在高维情况下 ,相邻单元的数量以指数级增长 ,降低了聚类算法的效率 ; ②CL IQUE算法利用最小描述长度技术来进行剪枝 , 以减少候选密集单元的数目。但是 ,利用这种技术可能会剪掉一些密集单元 ,对最终的聚类结果造成影响 ; ③算法中很多步骤都大大简化 ,以及很多步骤用的是近似算法 ,因此聚类结果的精确性可能会降低。
3 改进的子空间聚类算法
近几年的一些新的研究都着眼于对以前算法的进一步改进和寻找新的聚类途径 ,但是没有一种算法能满足所有的标准 ,因此 ,对数据聚类的进一步改进和创新算法仍然任重道远。本文介绍一些针对以上提出的 CL IQUE算法的局限性进行改进的新算法。 3. 1 基于网格划分的改进
子空间聚类是针对大规模高维数据聚类的有效方法。近年来 ,国内外的研究大多集中在算法的创新与改进 ,提出了众多的子空间聚类算法 ,很少有研究者对这些算法作细致的比较和分析。本文从最具代表性的 CL IQUE算法入手 ,以对 CL IQUE算法局限性的改进为基础 ,将近年来提出的新的子空间聚类算法进行了分类介绍和分析。这些分析研究对
CL IQUE (Clustering In Quest) [5 ]是 IBM 的 A lmaden研究中心数据挖掘课题的研究成果 ,是最早的子空间聚类算法。 CL IQUE算法采用了基于网格和密度的方法 , 能够发现最高维空间及其子空间存在的类。该算法分为 3个步骤 :
①子空间搜索 : CL IQUE算法采用自底向上法 ,首先扫描数据库 ,找出 1维空间中的密集单位格 ,然后根据 ( k - 1 )维的密集单位格生成 k维空间密集单位格的候选集 ,该候选集是 k维空间密集单位格集合的超集 ,有关候选集的生成方式详情见文献 [ 6 ]。得到 k维密集单元格的候选集 Ck 后 ,逐个查看 Ck 中的密集单元格在 ( k - 1 )维上的映射是否包含于 Ck - 1 ,对于那些在 ( k - 1)维上的映射不被 Ck - 1包含的密集单元格 ,根据定理 1从 Ck 中删除以减少下一轮生成候选集的计算量。同时 CL IQUE 采取基于 MDL (m inimal descrip tion length)的剪枝策略删除某些“兴趣度不大 ”的子空间 ,该方法能够提高算法效率 ;
摘要 :高维数据聚类是聚类技术的难点和重点 ,子空间聚类是实现高维数据集聚类的有效途径。CL IQUE算法是最早提出的基于密度和网格的子空间聚类算法 ,自动子空间聚类算法的实用性和高效性 ,带来了子空间聚类算法的空前发展。深入分析 CL IQUE算法的优点和局限性 ;介绍了一些近几年提出的子空间聚类算法 ,并针对 CL IQUE算法的局限性作了改进 ,聚类的效率和精确性得到了提高 ;最后对子空间聚类算法的发展趋势进行了讨论。关键词 :数据挖掘 ;聚类 ;高位数据集 ;子空间中图分类号 : TP311 文献标识码 : A
子空间聚类的效率和质量在很大程度上取决于网格划分的精度 ,网格划分得越精细 ,聚类效果越好 ,但同时算法的效率也就越低。因此 ,构造好的网格划分方法能够显著改进聚类的效率和精度。 3. 1. 1 MAF IA 算法的自适应网格技术
定理 1和定理 2还可以描述为 :若一个 k维单元是密集的 ,则其在 k - 1维空间上的投影也是密集的 ; 若给定的 k 1维单元是非密集的 ,则其在 k维空间上的投影必是不密集的。在高维空间子空间中进行聚类时 ,可以利用该性质进行 “剪枝 ”,其用法类似于发现关联规则的 Ap riori算法。一个类是指连接的密集单元的最大集合。 2. 3 CL IQUE算法分析 2. 3. 1 CL IQUE算法概述
③描述类 :对每个类给出 DNF形式的最精简描述。 2. 3. 2 CL IQUE算法的优点和局限性
在高维空间中 , CL IQUE算法能够有效地进行聚类 ,并且能够发现嵌套在高维数据空间子空间中的聚类 ,所有搜索限制在原始空间的子空间中 ,而不是引入新的维度 ,这有利于产生可解释的聚类结果 ,对于大型数据库中的高维数据的聚类非常有效。它具有如下优点 : ①它随输入数据的大小线性地扩展 ,当数据维数增加时具有良好的可伸缩性 ; ②对数据输入顺序不敏感 ,且无需假设任何规范的数据分布 ; ③聚类结果以简洁的 DNF范式表达 ,具有良好的可解释性。
Summary of Subspace C luster ing A lgor ithm s Research Ba sed on CL IQUE
L I X ia1, 2 , XU Shu - wei2
(1. College of A rchitecture and U rban Planning, Tongji University, Shanghai 200092, China; 2. Computer Center, Henan University, Kaifeng Henan 475001, China)
SCAN[4 ]等。由于高维数据的稀疏性、空空间现象以及维度效应的影响 ,在高维数据空间中使用传统算法会遇到以下问题 : ①随着维数增长 ,聚类的时间和空间复杂度迅速上升从而导致算法的性能下降 ; ②高维数据集中存在大量无关的属性 ,并且在这些不相关的维上十分稀疏 ,这就使得在所有维中存在簇的可能性几乎为零 ,所以传统的聚类算法不适合对高维数据进行聚类 ; ③距离函数难于定义 ,聚类操作的基础是数据对象之间相似性的度量 ,相似度高的对象归为一类。但在高维情况下距离函数失效 ,因此必须通过重新定义合适的距离函数或相似性度量函数以避开“维度究人员就已经提出了不少数据聚类算法 , 比较著名的有 CLARANS[2 ] 、B IRCH[3 ] 、DB2
基金项目 :河南省教育厅自然科学研究计划项目 (2009B50004) 收稿日期 : 2009 - 03 - 21 修回日期 : 2009 - 04 - 29
— 174 —
第 27卷第 5期文章编号 : 1006 - 9348 ( 2010) 05 - 0174 - 04
计算机仿真
子空间聚类改进算法研究综述
2010年 5月
李霞 1, 2 ,徐树维 2
(1. 同济大学建筑与城市规划学院 ,上海 200092; 2. 河南大学计算中心 ,河南开封 475001)
定理 1 如果 S是 k维空间的一个类中的数据点集合 ,那么将 S映射到 k - 1维空间得到 S′,则 S′将是 k - 1维空间某个类的子集。
定理 2 如果 S是 k - 1 维空间的数据点集合 ,但 S不属于任何类 ,那么如果将 S扩展到 k维空间得到 S′,则 S′也不可能属于任何类。
今后进一步改进 CL IQUE算法以及提出新的子空间聚类算法提供了依据和指导。