基于网格的聚类方法研究

合集下载

基于网格梯度的多密度聚类算法

数据集进行聚类，它的缺点是不能有效地分离出多个类；ＮＳＮ
算法采用了一种共享近邻的思想来定义相似度（于数据集对中每个点，找出距离其最近的个邻近点，形成一个集合，然后考虑数据集中的任意两个点的ｋ个邻近点集合交集部分的点
学习等。聚类分析是数据挖掘中一种非常重要的技术和方法，是自发、无监督的学习过程。通过聚类能够识别对象空间中稠
第应用研究
ＡｐｌａｉｎＲｅｅｒｈｏｏｕｅｓｐｉｔｓａｃｆＣｍｐｔｒｃｏ
Ｖｏ．５Ｎｏ１１２．１ＮＯ．２ｏＶ０８
基于网格梯度的多密度聚类算法水
Ａｂｔａｔｓｒｃ：Ａｔｒｓｎ，ｍｏｔｃｕｔｒｇａｇｒｈｅｏｅｔｎｈｒｉａｙｓａｅａｄｄｆｒｎｉｌｓｒ，ｂｔｔｓｄｍ．ｅｅｔｐｓｌｓｅｉｌｏｔｍｓｄｖｔｏｆｄｔｅａｂｔｒｈｐｎｉｅｅｔｓｅｃｕｔｓｕｉｎｉｉｒｚｅｉｉｃｌｔｅｉｈｌ — ｅｓｔａａｓｔｆｃｉｅｙｈｓｐｐｒｐｏｏｅｈｌｏｔｍｉｈｕｅｈｄｂｓｄｃａａｔｒｕｔｏｄａｗｔｔｅｍｕｔｄｎｉｄｔｅｆｔｌ．Ｔｉａｅｒｐｓｄｔｅａｇｒｈｗｈｃｓｄｔｅｌｈｉｙｅｅｖｉ — ａｅｈｒｃｅｏａｉｉ．Ｆｒｔ．ｉｗｐｄｏｅｎｉｅｕｉｇｔｅＧａｓｉｎｓｏｈｎｔｅｕｄｔｅｃｕｔｒｉｈｈｄｉｌ — ｅｓｔａａｆｒｐｄｔｙｉｓｙｔｌｅｆｔｏｓｓｎｕｓａｍｏｔｉｇ，ｈｎｆｎｈｌｓｅｃｉｍｕｔｄｎｉｄｔｉｈｈｏｗｈｎｉｙ

一种基于网格的K-Means聚类算法

０引言
聚类是数据挖掘中的一项重要技术，的目标是将数它
Ｓ１，ｉＸ［２ｈ］一［１ｈ］１，２Ｘ… ×［，ｎ就是ｎ数据空间。１ｈ］ｄ维
定义１将每一维分成ｋ个不相交的区间段，个区：每间都是左闭右开的等长的区间，样将数据空间分割成一这
从而形成２个单元，些单元称为网格的子单元。ｎ这
定义３网格单元的相邻单元是指与所给单元有共同：边界或有共同点的那些单元。定义４如果一个网格单元中数据点的个数大于给定：
３郑州成功财经学院信工系，南巩义４１０）．河５２０
摘要： — ａｓ算法是聚类方法中常用的一种划分方法。随着数据量的增加， — ａｓ算法的局限性日益突出。ＫＭｅｎＫＭｅｎ
基于网格划分的思想，出了一种基于网格的Ｋ— ａｓ类算法，算法使用了网格技术在一定程度上去除了孤立提Ｍｅｎ聚该点和噪声数据，少了原始ＫＭｅｎ算法将大的聚类分开的可能。实验表明，算法能处理任意形状和大小的聚类，减 — ａｓ该对孤立点和噪声数据也能很好地识别，并且在去除孤立点和噪声数据方面可以达到较好的精度。
的密度值Ｍｉｔ时，ｎｓ我们称该单元为高密度单元；之称Ｐ反

一种基于密度的网格动态聚类算法的研究

或高维数据的聚类问题．
１相关研究
基于网格的聚类算法由于易于增量实现和高维数据挖掘而被广泛应用于聚类算法当中，今为止，迄已经有很多人提出了基于密度和网格的聚类算法，ＤＳＡＣＲＣＩＵ如ＢＣＮ、ＵＥ、ＬＱＥ等算法．ＣＩＵＬＱＥ是一种基于网格和密度的聚类算法，它是一种更广泛的子空间聚类方法，以通过任意组可合来产生子空间，将数据投影到子空间中进行聚类，有网格类算法效率高的优点，且可以处理高再具并维的数据．是在划分网格时没有考虑数据的分布，而导致了聚类质量的降低．但从ＩＤＡ是一种基于密度的增量式网格聚类算法，算法通过将数据空间划分成体积相等的若干单ＧＣ该元，而有效地提高了聚类的效率，从减低了聚类时间和ＩＯ开销．由于它是基于ＤＣＣＮ的一种算／但ＢＳＡ法的改进，可避免具有了ＤＳＡ聚类算法的缺点．不ＢＣＮ
Ｖｏ｜１Ｎｏ１ｌ３．
第３卷第１１期
一
种基于密度的网格动态聚类算法的研究
焦誉赖建章柯，，佳
２０５；３０９（．１安徽行政学院信息管理系，安徽合肥
２合肥工业大学管理学院Байду номын сангаас，．安徽合肥２００；．３０９３安徽中医学院计算机系，安徽合肥２０３）３０７

基于地理的聚类方法

基于地理的聚类方法随着信息技术的快速发展，地理信息系统（GIS）在各个领域扮演着越来越重要的角色。

其中，聚类分析是GIS中地理空间数据分析的重要方法之一。

它通过对数据点的相似性进行度量，将属于同一类别的数据点聚集在一起，从而发现地理空间中的规律和关系。

在本文中，我们将着重介绍基于地理的聚类方法。

1.基于密度的聚类密度聚类方法是基于数据点密度的分析方法。

其基本思想是将数据点分布空间中的高密度区域看成一类，而低密度区域则看成另一类。

常见的密度聚类算法有DBSCAN（密度聚类的基础算法）、OPTICS 等算法。

在地理信息领域，该方法可用于提取地形形态、城市几何形态、森林覆盖度等信息。

2.基于网格的聚类网格聚类将地理信息空间分割为一个个网格，并测试每个网格的内容。

网格中心是被聚类的对象，其属性值将被作为网格的模式。

网格聚类的优点是聚类结果具有空间属性和易于解释性。

网格聚类的应用领域包括城市规划、环境管理和森林覆盖等。

3.基于层次聚类层次聚类将数据点看成一棵树，从下到上逐渐合并成一团。

该方法通过不同阈值的设定，把这棵树的分枝划分成不同的类别。

在地理信息领域，该方法可用于划分地形形态、水文地貌等信息。

4.基于特征聚类特征聚类将地理信息中的特征看成一类，通过这些特征的共同性，将这些特征聚类在一起。

特征聚类应用广泛，例如在植被分类、河流图像分割和地形分类等领域。

总结基于地理的聚类方法可以分为四种：基于密度的聚类、基于网格的聚类、基于层次聚类和基于特征聚类。

不同的聚类方法适用于不同的数据类型，所以聚类方法的选择也很关键。

在GIS空间数据分析过程中，通过探索不同聚类方法的优缺点，可以深入理解数据本身，并发现其中具有潜在规律和联系的地理现象，为决策提供有效的支持。

基于密度的聚类和基于网格的两大聚类算法

即不在结果队列中）放人有序种子队列： Step 3：如果有序种子队列为空，返回Step 2，否则选择种子队列中的
第一个对象P进行扩张： Step 3.1：如果P不是核心节点．转Step 4；否则，对P 的E邻域内任一
未扩张的邻居q 进行如下处理：如果q已在有序种子队列中且从P到 q的可达距离小于旧值，则更新q的
基于网格(dding-based)指将对象空间量化为有限数目的单元，形成一个网格结构，所有聚类都在这个网格结构上进行。
20
基于网格的聚类
基本思想是将每个属性的可能值分割成许多相邻的区间，创建网格单元的集合（对于的讨论我们假设属性值是序数的、区间的或者连续的）。
每个对象落入一个网格单元，网格单元对应的属性区间包含该对象的值。
据点在邻域内的影响，被称为影响函数。数据空间的整体密度(全局密度函数)可以被模拟为所有数据点的影响函数
的总和；聚类可以通过确定密度吸引点(density attractor)来得到，这里的密度吸引点
是全局密度函数的局部最大值。一个点 x 是被一个密度吸引点 x*密度吸引的，如果存在一组点 x0，x1，
高层单元的统计参数可以很容易Fra bibliotek从低层单元的参数计算得到。
28
STING:统计信息网格
统计处理思想：使用自顶向下的方法回答空间数据的查询
从一个预先选择的层次开始－通常包含少量的单元，为当前层的每个单元计算置信区间不相关的单元不再考虑当检查完当前层，接着检查下一个低层次重复这个过程直到达到底层
（1）对数据点占据的空间推导密度函数；（2）通过沿密度增长最大的方向(即梯度方向)移动，识别密度函数的局
部最大点（这是局部吸引点），将每个点关联到一个密度吸引点；（3）定义与特定的密度吸引点相关联的点构成的簇；（4）丢弃与非平凡密度吸引点相关联的簇（密度吸引点 x’称为非平凡密

基于网格的数据流聚类算法

而且，维护的是ｍｉｏｃｕｔｒ的聚类特征向量（Ｆｘ它ｃ－ｌｓｅｒＣ２；Ｃ；ＦｔＣ；）这在噪声情况下，ＦｘＣ２；Ｆｔｎ，会产生干扰误差。
种一次性扫描的方法和算法，如文［－４等等，１－１但它们的聚类结果通常是球形的，不能支持对任意形状类的聚类［。５］
ＧｒｄｂｓｄＤａａＳｒａｕｔｒｎｇＡｌｏｉｈｉ－ａｅｔｔｅｍＣｌｓｅｉｇｒｔｍＬＩＱｉｇＢｏＤＡＩａＦｎＤＥＮＧｕＺＵｎ — ａｏａＣｈ－ＳＨＡＮＧｅ－ｉｇＷｉｎＭ
称为ｐｒｍｉｔｒｅ的结构储存下来。同时，ｙａｄｉｆｍｅａｍ使用另一个离线的ｍａｒｃｓｅ过程，据用户的具体要求对ｍｃｏｃｏｌｔｒ－ｕ根ｉｒ－ｃｓｅ聚类的结果进行再分析。但它采用距离作为度量参ｌｔｒｕ数，聚类结果通常是球形的，不能支持对任意形状类的聚类。
（ｌｅｅｏｎｏｍａｉｎＳｓｅａｄＭａａｅｎ，ＮａｉｎｌＵｎｖｒｉｆＤｅｅｅＴｅｈｏｏｙ，ａｇｈ１０３ＣｏｌｇｆＩｆｒｔｏｙｔｍｎｎｇｍｅｔｔｏａｉｅｓｔｏｆｎｓｃｎｌｇＣｈｎｓａ４０７）ｙ
噪声干扰下发现任意形状的类，而且有效地解决了聚类算法参数敏感和聚类结果无法区分密度差异等问题。
关键词
ＡｂｔａｔＷｉｔｏｇａｉｔｒｄｓｏｅｉｇａｂｔａｙｓａｅｃｕｔｒｎａｄｉｇｎｉｅｇｉ— ａｅａａｓｒａｃｕｔ — ｓｒｃｔｓｒｎｂｌｙｆｉｃｖｒｎｒｉｒｒｈｐｌｓｅｓａｄｈｎｌｏｓ，ｒｄｂｓｄｄｔｔｅｍｌｓｅｈｉｏｎｒｇａｇｒｔｍｆｃｅｔｙｒｓｌｅｈｓｒｂｅｏｅｎｅｙｓｎｉｉｅｔｈｓｒｄｆｅａａｅｅｓａｄｄｆｉｕｔｔｉｌｏｉｈｅｆｉｎｌｅｏｖｓｔｅｅｐｏｌｍｆｂｉｇｖｒｅｓｔｏｔｅｕｅ－ｅｉｄｐｒｍｔｒｎｉｃｌｏｎｉｖｎｆｄｓｉｇｉｈｔｅｄｎｉｙｄｓｉｃｉｎｏｌｓｅｓｉｔｕｓｈｅｓｔｉｔｔｏｆｕｔｒ．ｎｎｃＫｅｗｏｄＣｌｓｅｉｇ，Ｄａａｓｒａ，Ｃｌｓｅｉａａｔｒｙｒｓｕｔｒｎｔｔｅｍｕｔｒｎｐｒｍｅｅ，Ｒｅａｉｅｄｎｉｇｌｔｖｅｓｔｙ

基于网格和密度的数据流聚类算法

ｉｕｅｔｅｍｉｉｔｓｈｎｍｕｍｐａｎｎｒｅｃｌｔｒｎｇｒｔｍｏｇｔｔｅｃｕｓｅｎｅｕｔ，ｉｒｖｄｔｅｃｕｔｒｎｆｅｔｓｎｉｇｔｅｈｓｅｉｇＡｌｏｈｔｅｈｌｔｒｇｒｓｌｓｍｐｏｅｈｌｓｅｇａｆｃ．ｉｉｉＫｅｒｙｗｏｄｓ：ａａｓｒａ；ｌｓｅｎｄｔｔｅｍｃｕｔｒｇ；ｓｂｒｄｉｕｇｉ
ｗｈｃｏｉｅｈｐｒａｈｂｓｄｏｅｓｔｎｒ．Ｂａｓｏｅｍｏｅｏｏｂｅ—ｌｙｒｃｎｔｃｉｎ，ｔｅｉｈｃｍｂｎｄｔｅａｐｏｃａｅｎｄｎｉａｄｇｄｙｉｙｍｅｎｆｔｄｌｆｕｌｈｄａｅｏｓｕｔｒｏｈ
ＡｂｔａｔＡｃｏｄｎｏｔｅｃａａｔｒｓｉｓｏｈａａｓｒａ，ｉｐｒｐｅｅｔｄａｎｗｌｓｅｎｌｏｔｍｓｒｃ：ｃｒｉｇｔｈｈｒｃｅｉｔｆｔｅｄｔｔｅｍｈｓｐａｅｒｓｎｅｅｃｕｔｒｇａｇｒｈＧＴＣＳｃｉｉ
数据流的挖掘要在有限的内存中完成对数据的及时处理．通过单次扫描机制，在内存中保存数据流的概要信
息，以支持后续的计算，成挖掘结果的近似性．形数据流是一个连续、在线的过程，传统的聚类算法无法在数据流中直接应用，因此数据流的聚类对数据挖掘领域提出了前所未有的新挑战，也成为许多学者研究的热

基于动态网格的数据流聚类分析

Ｖ０．５Ｎｏ１１２．１ＮＯ．２０Ｖ０８
基于动态网格的数据流聚类分析
何
摘
勇，刘青宝
（国防科学技术大学信息系统与管理学院，沙４０７）长１０３要：提出的增量式数据流聚类算法ＤＣＳ结合网格和密度技术，ＧＤ能够得到任意形状的聚类，通过改进网格
密度的计算方式，解决了现有网格算法中丢失数据空间影响信息的问题，并且实现了关键参数的自适应设置，减小了工参数对聚类结果的影响。人关键词：动态网格；网格密度；数据流聚类；聚类参数
中图分类号：Ｔ３１Ｐ９文献标志码：Ａ文章编号：１０ —６５２０）１３８．４０１３９（０８１－２１０
提出的增量式数据流聚类算法dgcds结合网格和密度技术能够得到任意形状的聚类通过改进网格密度的计算方式解决了现有网格算法中丢失数据空间影响信息的问题并且实现了关键参数的自适应设置减小了人工参数对聚类结果的影响
第２第１期５卷１
２００８年１１月
计算机应用研究
ＡｐｌａｉｎＲｅｅｒｈｏｍｐｔｒｐｉｔｓａｃｆＣｏｕｅｓｃｏ
Ｄｙａｃｇｉ — ａｅｌｓｅｉｇｏｅａａｓｒａｎｍｉｒｄｂｓｄｃｕｔｒｎｖｒｄｔｔｍｅ
ＨＥＹｎ，ｉｇｂｏｏｇＨＵＱｎ —ａ
（ｏｅｅｆＩｏａｏｙｅ＆Ｍｎｇｍｎ，ａｏｌｎｅｉＤｅｅＴｈｏｏｙＣａｇｈ１０３Ｃｉ）ＣｌｇｎｒｔｎｓｍｌｏｆｍｉＳｔａａｅｅｔＮｔｎｉｒｔｏｅｎｅｎｌ，ｈｎｓａ０７，ｈａｉａＵｖｓｙｆｆｓｃｇ４ｎ

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

(a)
(b)
图1 网格单元的相连定义(a)4-connection论及展望
基于网格聚类方法的优点是它的处理速度快，因为其速度与数据对象的个数无关，而只依赖于数据空间中每个维上单元的个数，发现任意形状、任意大小的簇、计算结果与数据输入顺序无关、计算时间与数据量无关，同时不要求像k均值一样预先指定簇个数等。但是，基于网格方法的聚类算法的输入参数对聚类结果影响较大，而且这些参数较难设置。当数据中有噪音时，如果不加特殊处理，算法的聚类质量会很差。而且，算法对于数据维度的可伸缩性较差。基于网格的聚类方法目前还存在一些急需解决的问题，主要有以下几点：（1）当簇具有不同的密度时，全局的密度参数不能有效发现这样的簇，需要开发具有可变密度参数的算法。（2）对于不同类型数据的聚类问题，比如对于高维数据，网格的数据将急剧增加，需
120
方法的代表性算法。WaveCluster处理低维空间数据，它的性能超越了BIRCH、CLARANS，与DBSCAN等优秀的聚类算法 [15]。CLIQUE考虑了高维子空间聚类，但它的时间复杂度较高，需要用户指定全局密度阈值。算法MAFIA[8]对CLIQUE进行了改进，为了减少聚类算法需要处理的网格单元数目，MAFIA将均匀划分网格中每一维上数据分布密度相似的相邻段合并，由此得到一个不均匀划分的网格。这个网格在数据分布较均匀的区域划分粒度大，在数据分布不均匀的区域划分粒度小，这种不均匀划分网格的方法能够提高聚类的质量，被后续的许多算法所采用。采用由底向上的网格划分方法的优点在于，它能通过对数据的一遍扫描，将数据压缩到一个网格数据结构内，并基于这个网格数据结构，发现任意形状的簇。此外，如果网格单元的粒度较小（即体积较小），那么得到的聚簇的精度较高，但是算法的计算复杂度较大。此外，由底向上的网格方法存在不适合处理高维数据的问题。在高维空间，数据的分布是非常稀疏的，网格方法失去其压缩作用，而且属于同一个簇的高密度网格单元也可能不相连，这使聚类算法不能发现合理数目的簇。 2.2 自顶向下的划分方法自顶向下的网格划分方法采取分治的策略（divide and conquer principle），对数据空间进行递归划分，使问题的规模不断减小。首先将原数据空间划分为几个较大的区域。对于每个得到的区域，划分过程反复执行，直到每个区域包含属于同一个簇的数据点，那么这些区域就是最终的网格单元。基于自顶向下网格方法的聚类算法直接将高密度网格单元识别为一个簇，或是将相连的高密度网格单元识别为簇。 OptiGrid[9]与CLTree[10]是两个典型的基于自顶向下网格划分方法的聚类算法。其中， OptiGrid则是用空间数据分布的密度信息来选择最优划分。通过一个密度函数来决定切割平面，可以将数据空间划分为规则的或不规则单元，与传统的等间距的划分相比，可以用此来解决高维聚类的问题。而CLTree用划分后的
3 基于网格的聚类过程
基于网格的聚类算法的基本过程是，首先将数据空间W划分为网格单元，将数据对象集O 映射到网格单元中，并计算每个单元的密度。根据用户输入的密度阈值MinPts 判断每个网格单元是否为高密度单元，由邻近的稠密单元组形成簇[11]，如表1。表1 基本的网格聚类算法
121
技术
信息增益来选取最优划分。自顶向下划分方法的主要优点在于不需要用户指定划分参数，而是根据数据的分布对空间进行划分，因此这种划分更为合理。数据空间维度对自顶向下网格方法的影响较小，可以快速将大型高维数据集中的簇分隔开。这一类方法的计算复杂度与数据集大小和维度都呈线性关系适合于处理高维数据。由于划分是基于数据分布的，而通常认为噪音是在整个空间均匀分布的，所以自顶向下划分方法对噪音不敏感。但是，由于这种方法得到的网格单元的体积远大于由底向上网格方法中的网格单元体积，因此方法产生的簇的描述精度比由底向上的网格方法得到的簇的描述精度要低。而且在自顶向下的划分过程中，同一个簇可能被划分到不同的区域中，最终得到的同一区域也可能包含不同的簇，这样就进一步降低了算法的正确度。这类划分方法的另一个缺点是它在划分过程中，需要对数据集进行多次扫描。而由底向上划分方法在于只需对数据集进行一次线性扫描以及较高的簇的描述精度。因此，两类方法适用于不同的问题。前者适于处理高维数据集，后者能有效处理存取代价较大的超大型数据集与动态数据。
为减少，而且单元增加与维数的关系由指数增长变为线性增长，所以能进一步减少算法运行所需的时间，具有较低的计算复杂度 [13]。其外，只有在非常特殊的情况下，使用4-connection定义得到的聚类结果才会与使用8-connection定义得到的聚类结果不同[14]，这是因为，当4-connection的网格单元是高密度网格单元时，四个对角线上的网格单元不论是否是高密度网格单元，都能被正确的聚类；只有当与对角线上的网格单元相邻的2个网格单元同时为空且该单元本身是高密度网格单元时，不能正确聚类，在划分网格时，通常都要求网格单元的大小远小于簇的大小，因此可以认为这种情况出现的可能很小。
ε 为用户输入的密度阙值，当
ε 时，该网格单元是—个密集网格单元。
相对于稠密网格单元来说，大多数的网格单元包含非常少甚至空的的数据，这一类网格单元被称为稀疏网格单元。大量的稀疏网格单元的存在会极大的降低聚类的速度，需要在聚类之前对稀疏网格单元进行处理，定义稀疏密度阈值为 θ ,当density> θ 时，该网格单元是—个稀疏单元。对于稀疏网格单元的处理方法一般采用压缩的方法或者直接删除的方法，如果需要保留稀疏网格单元用于后续处理，可以使用压缩的方法；如果在现有数据的基础之上直接聚类，可以删除稀疏网格单元，理论分析和实验证明删除稀疏网格单元并不影响聚类的质量[12]。 3.2 由稠密网格单元形成簇在基于网格的聚类算法中，根据以上分析，由邻接的稠密单元形成簇是相对直截了当的，这也是基于网格的方法的优点之一。但是需要首先定义邻接单元的含义。设n维空问中的存在任意两个网格单元U1和 U2，当这两个网格单元在—个维上有交集或是具有一个公共面时，称它们为邻接网格单元。在二维空间中，比较常使用的是4-connection 相邻定义和8-connection相邻定义（如图1）， 4-connection更适合在聚类算法中使用。因为当寻找某个网格单元的邻居时，在4-connection定义下，一个网格单元只有2d个邻居，而在8-connection定义下，有3d-1个邻居，当数据维度d较大时，这个数目非常大。使用4-connection不仅参与计算的单元数目大
122
要有效地技术发现近邻单元。（3）当数据集的规模巨大以及数据具有地理分布特性时，需要开发有效的并行算法来提高处理的速度。（4）对现有网格算法的优化，从不同方面提高网格算法的有效性。比如开发稀疏网格的压缩算法、密度相似网格的合并算法等。本文对基于网格的聚类方法的已有研究进行了分析和总结，包括网格的定义与划分方法、网格单元密度的确定、由邻接网格单元形成聚簇的聚类过程；最后对网格聚类方法优点与局限性进行总结，在已有研究分析的基础上，提出后续需要重点解决的问题。
[6]Wang W,Yang J,Muntz R.STING:A Statistical Information Grid Approach to Spatial Data Mining[C].In:Proceedings of the 23rd VLDB Conference.Athens,Greece,1997.186-195. [7]Sheikholeslami G,Chatterjee S,Zhang A.WaveCluster:A Multi-Resolution Clustering Approach for Very Large Spatial Databases[C]. In:Proceedings of the 24th VLDB Conference.New York,USA,1998.428-439. [8]Goil S,Nagesh H,Choudhary A.MAFIA:Efficient and Scalable Subspace Clustering for Very Large
M r 个网格单元。
基于网格聚类算法的第一步是划分网格结构，按搜索子空间的策略不同，主要有基于由底向上网格划分方法的算法和基于自顶向下网格划分方法的算法。 2.1 由底向上的划分方法由底向上的网格划分方法按照用户输入的划分参数（即每维段数ki，1 ≤i ≤d），将数据空间均匀划分为相等大小的网格单元，假设落入同一网格单元内的所有数据点都属于同一个簇，每个网格单元保存落入其内数据的统计信息，比如数据点个数，数据点之和。包含一定数目数据点的网格单元被称为高密度网格单元。 WaveCluster与CLIQUE是采用由底向上网格划分
1 引言
数据挖掘是指从大型数据库或数据仓库中提取隐含的、未知的及有应用价值的信息或模式。它是数据库研究中的一个很有应用价值的领域，融合了数据库、机器学习、统计学等多个领域的理论和技术 [1]。聚类分析是数据挖掘中广为研究的课题之一，是从数据中寻找数据间的相似性，并依此对数据进行分类，从而发现数据中隐含的有用信息或知识。目前已经提出了不少数据聚类算法，其中比较著名的有CLARANS[2]、BIRCH[3]、DBSCAN[4]和CLIQUE[5] 等。但对于高维、大规模数据库的高效聚类分析仍然是一个有待研究的开放问题。网格方法是空间数据处理中常用的将空间数据离散化的方法。基于网格的聚类算法由于易于增量实现和进行高维数据处理而被广泛应用于聚类算法中。研究人员已经提出了很多基于网格的聚类算法，包括 STING [6]，它利用了存储在网格单元中的统计信息； WaveCluster [7] 它用一种小波转换方法来聚类数据对象；CLIQUE在高维数据空间中基于网格和密度的聚类方法等。本文对已有的基于网格的聚类算法进行了研究，从网格的表示，划分网格单元的方法，到统计网格内信息，搜索近邻网格单元，聚类超过指定阙值的网格