基于网格的聚类方法研究

合集下载

基于网格梯度的多密度聚类算法

数据集进行聚类，它的缺点是不能有效地分离出多个类；ＮＳＮ
算法采用了一种共享近邻的思想来定义相似度（于数据集对中每个点，找出距离其最近的个邻近点，形成一个集合，然后考虑数据集中的任意两个点的ｋ个邻近点集合交集部分的点
学习等。聚类分析是数据挖掘中一种非常重要的技术和方法，是自发、无监督的学习过程。通过聚类能够识别对象空间中稠
第应用研究
ＡｐｌａｉｎＲｅｅｒｈｏｏｕｅｓｐｉｔｓａｃｆＣｍｐｔｒｃｏ
Ｖｏ．５Ｎｏ１１２．１ＮＯ．２ｏＶ０８
基于网格梯度的多密度聚类算法水
Ａｂｔａｔｓｒｃ：Ａｔｒｓｎ，ｍｏｔｃｕｔｒｇａｇｒｈｅｏｅｔｎｈｒｉａｙｓａｅａｄｄｆｒｎｉｌｓｒ，ｂｔｔｓｄｍ．ｅｅｔｐｓｌｓｅｉｌｏｔｍｓｄｖｔｏｆｄｔｅａｂｔｒｈｐｎｉｅｅｔｓｅｃｕｔｓｕｉｎｉｉｒｚｅｉｉｃｌｔｅｉｈｌ — ｅｓｔａａｓｔｆｃｉｅｙｈｓｐｐｒｐｏｏｅｈｌｏｔｍｉｈｕｅｈｄｂｓｄｃａａｔｒｕｔｏｄａｗｔｔｅｍｕｔｄｎｉｄｔｅｆｔｌ．Ｔｉａｅｒｐｓｄｔｅａｇｒｈｗｈｃｓｄｔｅｌｈｉｙｅｅｖｉ — ａｅｈｒｃｅｏａｉｉ．Ｆｒｔ．ｉｗｐｄｏｅｎｉｅｕｉｇｔｅＧａｓｉｎｓｏｈｎｔｅｕｄｔｅｃｕｔｒｉｈｈｄｉｌ — ｅｓｔａａｆｒｐｄｔｙｉｓｙｔｌｅｆｔｏｓｓｎｕｓａｍｏｔｉｇ，ｈｎｆｎｈｌｓｅｃｉｍｕｔｄｎｉｄｔｉｈｈｏｗｈｎｉｙ

一种基于网格的K-Means聚类算法

０引言
聚类是数据挖掘中的一项重要技术，的目标是将数它
Ｓ１，ｉＸ［２ｈ］一［１ｈ］１，２Ｘ… ×［，ｎ就是ｎ数据空间。１ｈ］ｄ维
定义１将每一维分成ｋ个不相交的区间段，个区：每间都是左闭右开的等长的区间，样将数据空间分割成一这
从而形成２个单元，些单元称为网格的子单元。ｎ这
定义３网格单元的相邻单元是指与所给单元有共同：边界或有共同点的那些单元。定义４如果一个网格单元中数据点的个数大于给定：
３郑州成功财经学院信工系，南巩义４１０）．河５２０
摘要： — ａｓ算法是聚类方法中常用的一种划分方法。随着数据量的增加， — ａｓ算法的局限性日益突出。ＫＭｅｎＫＭｅｎ
基于网格划分的思想，出了一种基于网格的Ｋ— ａｓ类算法，算法使用了网格技术在一定程度上去除了孤立提Ｍｅｎ聚该点和噪声数据，少了原始ＫＭｅｎ算法将大的聚类分开的可能。实验表明，算法能处理任意形状和大小的聚类，减 — ａｓ该对孤立点和噪声数据也能很好地识别，并且在去除孤立点和噪声数据方面可以达到较好的精度。
的密度值Ｍｉｔ时，ｎｓ我们称该单元为高密度单元；之称Ｐ反

一种基于密度的网格动态聚类算法的研究

或高维数据的聚类问题．
１相关研究
基于网格的聚类算法由于易于增量实现和高维数据挖掘而被广泛应用于聚类算法当中，今为止，迄已经有很多人提出了基于密度和网格的聚类算法，ＤＳＡＣＲＣＩＵ如ＢＣＮ、ＵＥ、ＬＱＥ等算法．ＣＩＵＬＱＥ是一种基于网格和密度的聚类算法，它是一种更广泛的子空间聚类方法，以通过任意组可合来产生子空间，将数据投影到子空间中进行聚类，有网格类算法效率高的优点，且可以处理高再具并维的数据．是在划分网格时没有考虑数据的分布，而导致了聚类质量的降低．但从ＩＤＡ是一种基于密度的增量式网格聚类算法，算法通过将数据空间划分成体积相等的若干单ＧＣ该元，而有效地提高了聚类的效率，从减低了聚类时间和ＩＯ开销．由于它是基于ＤＣＣＮ的一种算／但ＢＳＡ法的改进，可避免具有了ＤＳＡ聚类算法的缺点．不ＢＣＮ
Ｖｏ｜１Ｎｏ１ｌ３．
第３卷第１１期
一
种基于密度的网格动态聚类算法的研究
焦誉赖建章柯，，佳
２０５；３０９（．１安徽行政学院信息管理系，安徽合肥
２合肥工业大学管理学院Байду номын сангаас，．安徽合肥２００；．３０９３安徽中医学院计算机系，安徽合肥２０３）３０７

7种常用的聚类方法

7种常用的聚类方法K均值聚类是一种基于距离的聚类方法，它将数据点分成K个簇，每个簇都有一个代表性的点，称为质心。

该方法的优点是简单易懂，计算速度快，适用于大规模数据集。

然而，K均值聚类对初始质心的选择敏感，容易陷入局部最优解。

层次聚类是一种树状聚类方法，它通过不断合并最相似的簇来构建聚类树。

这种方法不需要事先指定聚类个数，且对初始值不敏感，但计算复杂度较高，不适用于大规模数据集。

密度聚类是一种基于密度的聚类方法，它将高密度区域划分为簇，并能够发现任意形状的簇。

该方法对噪声和离群点具有较好的鲁棒性，但对参数的选择较为敏感。

模型聚类是一种基于概率模型的聚类方法，它假设数据是由若干个概率分布生成的，并通过模型拟合来进行聚类。

这种方法可以很好地处理数据中的噪声和缺失值，但对数据分布的假设较为苛刻。

谱聚类是一种基于图论的聚类方法，它将数据点视为图中的节点，通过图的拉普拉斯矩阵来进行聚类。

谱聚类能够发现任意形状的簇，且对参数的选择较为鲁棒，但计算复杂度较高，不适用于大规模数据集。

基于网格的聚类是一种将数据空间划分为网格单元，然后在每个单元中进行聚类的方法。

这种方法适用于高维数据和大规模数据集，但对网格大小的选择较为敏感。

分布式聚类是一种将聚类过程分布在多台计算机上进行的方法，它能够处理大规模数据集，并能够并行计算，但需要考虑数据通信和同步的开销。

综上所述，不同的聚类方法适用于不同的数据特点和应用场景。

在选择聚类方法时，需要综合考虑数据规模、数据特征、计算资源等因素，以及对聚类结果的要求。

希望本文介绍的7种常用聚类方法能够为读者在实际应用中的选择提供一定的参考和帮助。

基于地理的聚类方法

基于地理的聚类方法随着信息技术的快速发展，地理信息系统（GIS）在各个领域扮演着越来越重要的角色。

其中，聚类分析是GIS中地理空间数据分析的重要方法之一。

它通过对数据点的相似性进行度量，将属于同一类别的数据点聚集在一起，从而发现地理空间中的规律和关系。

在本文中，我们将着重介绍基于地理的聚类方法。

1.基于密度的聚类密度聚类方法是基于数据点密度的分析方法。

其基本思想是将数据点分布空间中的高密度区域看成一类，而低密度区域则看成另一类。

常见的密度聚类算法有DBSCAN（密度聚类的基础算法）、OPTICS 等算法。

在地理信息领域，该方法可用于提取地形形态、城市几何形态、森林覆盖度等信息。

2.基于网格的聚类网格聚类将地理信息空间分割为一个个网格，并测试每个网格的内容。

网格中心是被聚类的对象，其属性值将被作为网格的模式。

网格聚类的优点是聚类结果具有空间属性和易于解释性。

网格聚类的应用领域包括城市规划、环境管理和森林覆盖等。

3.基于层次聚类层次聚类将数据点看成一棵树，从下到上逐渐合并成一团。

该方法通过不同阈值的设定，把这棵树的分枝划分成不同的类别。

在地理信息领域，该方法可用于划分地形形态、水文地貌等信息。

4.基于特征聚类特征聚类将地理信息中的特征看成一类，通过这些特征的共同性，将这些特征聚类在一起。

特征聚类应用广泛，例如在植被分类、河流图像分割和地形分类等领域。

总结基于地理的聚类方法可以分为四种：基于密度的聚类、基于网格的聚类、基于层次聚类和基于特征聚类。

不同的聚类方法适用于不同的数据类型，所以聚类方法的选择也很关键。

在GIS空间数据分析过程中，通过探索不同聚类方法的优缺点，可以深入理解数据本身，并发现其中具有潜在规律和联系的地理现象，为决策提供有效的支持。

基于密度的聚类和基于网格的两大聚类算法

即不在结果队列中）放人有序种子队列： Step 3：如果有序种子队列为空，返回Step 2，否则选择种子队列中的
第一个对象P进行扩张： Step 3.1：如果P不是核心节点．转Step 4；否则，对P 的E邻域内任一
未扩张的邻居q 进行如下处理：如果q已在有序种子队列中且从P到 q的可达距离小于旧值，则更新q的
基于网格(dding-based)指将对象空间量化为有限数目的单元，形成一个网格结构，所有聚类都在这个网格结构上进行。
20
基于网格的聚类
基本思想是将每个属性的可能值分割成许多相邻的区间，创建网格单元的集合（对于的讨论我们假设属性值是序数的、区间的或者连续的）。
每个对象落入一个网格单元，网格单元对应的属性区间包含该对象的值。
据点在邻域内的影响，被称为影响函数。数据空间的整体密度(全局密度函数)可以被模拟为所有数据点的影响函数
的总和；聚类可以通过确定密度吸引点(density attractor)来得到，这里的密度吸引点
是全局密度函数的局部最大值。一个点 x 是被一个密度吸引点 x*密度吸引的，如果存在一组点 x0，x1，
高层单元的统计参数可以很容易Fra bibliotek从低层单元的参数计算得到。
28
STING:统计信息网格
统计处理思想：使用自顶向下的方法回答空间数据的查询
从一个预先选择的层次开始－通常包含少量的单元，为当前层的每个单元计算置信区间不相关的单元不再考虑当检查完当前层，接着检查下一个低层次重复这个过程直到达到底层
（1）对数据点占据的空间推导密度函数；（2）通过沿密度增长最大的方向(即梯度方向)移动，识别密度函数的局
部最大点（这是局部吸引点），将每个点关联到一个密度吸引点；（3）定义与特定的密度吸引点相关联的点构成的簇；（4）丢弃与非平凡密度吸引点相关联的簇（密度吸引点 x’称为非平凡密

基于网格的数据流聚类算法

而且，维护的是ｍｉｏｃｕｔｒ的聚类特征向量（Ｆｘ它ｃ－ｌｓｅｒＣ２；Ｃ；ＦｔＣ；）这在噪声情况下，ＦｘＣ２；Ｆｔｎ，会产生干扰误差。
种一次性扫描的方法和算法，如文［－４等等，１－１但它们的聚类结果通常是球形的，不能支持对任意形状类的聚类［。５］
ＧｒｄｂｓｄＤａａＳｒａｕｔｒｎｇＡｌｏｉｈｉ－ａｅｔｔｅｍＣｌｓｅｉｇｒｔｍＬＩＱｉｇＢｏＤＡＩａＦｎＤＥＮＧｕＺＵｎ — ａｏａＣｈ－ＳＨＡＮＧｅ－ｉｇＷｉｎＭ
称为ｐｒｍｉｔｒｅ的结构储存下来。同时，ｙａｄｉｆｍｅａｍ使用另一个离线的ｍａｒｃｓｅ过程，据用户的具体要求对ｍｃｏｃｏｌｔｒ－ｕ根ｉｒ－ｃｓｅ聚类的结果进行再分析。但它采用距离作为度量参ｌｔｒｕ数，聚类结果通常是球形的，不能支持对任意形状类的聚类。
（ｌｅｅｏｎｏｍａｉｎＳｓｅａｄＭａａｅｎ，ＮａｉｎｌＵｎｖｒｉｆＤｅｅｅＴｅｈｏｏｙ，ａｇｈ１０３ＣｏｌｇｆＩｆｒｔｏｙｔｍｎｎｇｍｅｔｔｏａｉｅｓｔｏｆｎｓｃｎｌｇＣｈｎｓａ４０７）ｙ
噪声干扰下发现任意形状的类，而且有效地解决了聚类算法参数敏感和聚类结果无法区分密度差异等问题。
关键词
ＡｂｔａｔＷｉｔｏｇａｉｔｒｄｓｏｅｉｇａｂｔａｙｓａｅｃｕｔｒｎａｄｉｇｎｉｅｇｉ— ａｅａａｓｒａｃｕｔ — ｓｒｃｔｓｒｎｂｌｙｆｉｃｖｒｎｒｉｒｒｈｐｌｓｅｓａｄｈｎｌｏｓ，ｒｄｂｓｄｄｔｔｅｍｌｓｅｈｉｏｎｒｇａｇｒｔｍｆｃｅｔｙｒｓｌｅｈｓｒｂｅｏｅｎｅｙｓｎｉｉｅｔｈｓｒｄｆｅａａｅｅｓａｄｄｆｉｕｔｔｉｌｏｉｈｅｆｉｎｌｅｏｖｓｔｅｅｐｏｌｍｆｂｉｇｖｒｅｓｔｏｔｅｕｅ－ｅｉｄｐｒｍｔｒｎｉｃｌｏｎｉｖｎｆｄｓｉｇｉｈｔｅｄｎｉｙｄｓｉｃｉｎｏｌｓｅｓｉｔｕｓｈｅｓｔｉｔｔｏｆｕｔｒ．ｎｎｃＫｅｗｏｄＣｌｓｅｉｇ，Ｄａａｓｒａ，Ｃｌｓｅｉａａｔｒｙｒｓｕｔｒｎｔｔｅｍｕｔｒｎｐｒｍｅｅ，Ｒｅａｉｅｄｎｉｇｌｔｖｅｓｔｙ

基于网格和密度的数据流聚类算法

ｉｕｅｔｅｍｉｉｔｓｈｎｍｕｍｐａｎｎｒｅｃｌｔｒｎｇｒｔｍｏｇｔｔｅｃｕｓｅｎｅｕｔ，ｉｒｖｄｔｅｃｕｔｒｎｆｅｔｓｎｉｇｔｅｈｓｅｉｇＡｌｏｈｔｅｈｌｔｒｇｒｓｌｓｍｐｏｅｈｌｓｅｇａｆｃ．ｉｉｉＫｅｒｙｗｏｄｓ：ａａｓｒａ；ｌｓｅｎｄｔｔｅｍｃｕｔｒｇ；ｓｂｒｄｉｕｇｉ
ｗｈｃｏｉｅｈｐｒａｈｂｓｄｏｅｓｔｎｒ．Ｂａｓｏｅｍｏｅｏｏｂｅ—ｌｙｒｃｎｔｃｉｎ，ｔｅｉｈｃｍｂｎｄｔｅａｐｏｃａｅｎｄｎｉａｄｇｄｙｉｙｍｅｎｆｔｄｌｆｕｌｈｄａｅｏｓｕｔｒｏｈ
ＡｂｔａｔＡｃｏｄｎｏｔｅｃａａｔｒｓｉｓｏｈａａｓｒａ，ｉｐｒｐｅｅｔｄａｎｗｌｓｅｎｌｏｔｍｓｒｃ：ｃｒｉｇｔｈｈｒｃｅｉｔｆｔｅｄｔｔｅｍｈｓｐａｅｒｓｎｅｅｃｕｔｒｇａｇｒｈＧＴＣＳｃｉｉ
数据流的挖掘要在有限的内存中完成对数据的及时处理．通过单次扫描机制，在内存中保存数据流的概要信
息，以支持后续的计算，成挖掘结果的近似性．形数据流是一个连续、在线的过程，传统的聚类算法无法在数据流中直接应用，因此数据流的聚类对数据挖掘领域提出了前所未有的新挑战，也成为许多学者研究的热

基于动态网格的数据流聚类分析

Ｖ０．５Ｎｏ１１２．１ＮＯ．２０Ｖ０８
基于动态网格的数据流聚类分析
何
摘
勇，刘青宝
（国防科学技术大学信息系统与管理学院，沙４０７）长１０３要：提出的增量式数据流聚类算法ＤＣＳ结合网格和密度技术，ＧＤ能够得到任意形状的聚类，通过改进网格
密度的计算方式，解决了现有网格算法中丢失数据空间影响信息的问题，并且实现了关键参数的自适应设置，减小了工参数对聚类结果的影响。人关键词：动态网格；网格密度；数据流聚类；聚类参数
中图分类号：Ｔ３１Ｐ９文献标志码：Ａ文章编号：１０ —６５２０）１３８．４０１３９（０８１－２１０
提出的增量式数据流聚类算法dgcds结合网格和密度技术能够得到任意形状的聚类通过改进网格密度的计算方式解决了现有网格算法中丢失数据空间影响信息的问题并且实现了关键参数的自适应设置减小了人工参数对聚类结果的影响
第２第１期５卷１
２００８年１１月
计算机应用研究
ＡｐｌａｉｎＲｅｅｒｈｏｍｐｔｒｐｉｔｓａｃｆＣｏｕｅｓｃｏ
Ｄｙａｃｇｉ — ａｅｌｓｅｉｇｏｅａａｓｒａｎｍｉｒｄｂｓｄｃｕｔｒｎｖｒｄｔｔｍｅ
ＨＥＹｎ，ｉｇｂｏｏｇＨＵＱｎ —ａ
（ｏｅｅｆＩｏａｏｙｅ＆Ｍｎｇｍｎ，ａｏｌｎｅｉＤｅｅＴｈｏｏｙＣａｇｈ１０３Ｃｉ）ＣｌｇｎｒｔｎｓｍｌｏｆｍｉＳｔａａｅｅｔＮｔｎｉｒｔｏｅｎｅｎｌ，ｈｎｓａ０７，ｈａｉａＵｖｓｙｆｆｓｃｇ４ｎ

基于密度的聚类和基于网格的两大聚类算法

DBSCAN：基于高密度连通区域聚类 OPTICS：通过点排序识别聚类结构
DENCLUE:基于密度分布函数的聚类
2
DBSCAN

基于密度的簇是密度相连的点的集合主要思想
寻找被低密度区域分离的高密度区域只要临近区域的密度（单位大小上对象或数据点的数
目）超过某个阈值，就继续聚类

13
OPTICS：通过点排序识别聚类结构

数据集的排序可以用图形描述，有助于可视化和理解数据集中聚类结构，例如下图是一个简单的二维数据集的可达图。其中三个高斯“凸起”反映数据集中比较稠密的部分。
14
OPTICS：通过点排序识别聚类结构

Step 1：有序种子队列初始为空．结果队列初始为空； Step 2：如果所有点处理完毕．算法结束；否则选择一个未处理对象（即不在结果队列中）放人有序种子队列： Step 3：如果有序种子队列为空，返回Step 2，否则选择种子队列中的第一个对象P进行扩张： Step 3.1：如果P不是核心节点．转Step 4；否则，对P 的E邻域内任一未扩张的邻居q 进行如下处理 Step 3.1.1：如果q已在有序种子队列中且从P到 q的可达距离小于旧值，则更新q的可达距离，并调整q到相应位置以保证队列的有序性； Step 3.1.2：如果q不在有序种f队列中，则根据P 到q的可达距离将其插入有序队列； Step 4：从有序种子队列中删除P．并将P写入结果队列中，返回Step 3
Step4 否则（即p为核心对象），给 Neps(p)中的所有对象打上一个新的类标签 newid，然后将这些对象压入堆栈的Seeds中； Step5 让CurrentObject = Seeds.top；然后检索属于Neps(CurrentObject) 的所有对象；如果| Neps(CurrentObject) |>MinPts，则剔除已经打上标记的对象，将余下的未分类对象打上类标签newid，然后压入堆栈； Step6 Seeds.pop，判断Seeds是否为空，是，则执行Step1 ，否则执行Step5。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于网格的聚类方法研究
【摘要】由于已有的聚类算法对于发现任意形状的聚类和处理离群点效果不理想，分析了现有基于网格的聚类算法。

使用网格方法的数据分析方法将空间划分为由（超）矩形网格单元组成的网格，然后在网格单元上进行聚类，最后提出基于网格的聚类需要进一步研究的方向。

【关键词】数据挖掘；网格；聚类
1 引言
数据挖掘指从大型数据库或数据仓库中提取隐含的、未知的及有应用价值的信息或模式。

它是数据库研究中的一个很有应用价值的领域，融合了数据库、机器学习、统计学等多个领域的理论和技术。

数据挖掘中广为研究的课题之一是聚类分析，从数据中寻找数据间的相似性，并依此对数据进行分类，从而发现数据中隐含的有用信息或知识。

目前已经提出了不少著名的数据聚类算法，有CLARANS、BIRCH、DBSCAN和CLIQUE 等。

但对于高维、大规模数据库的高效聚类分析仍然是一个有待研究的开放问题。

空间数据处理中常用的将空间数据离散化的方法是网格方法。

由于易于增量实现和进行高维数据处理而广泛应用聚类算法。

研究人员已经提出了很多基于网格的聚类算法，包括利用了存储在网格单元中的统计信息的STING；用一种小波转换方法来聚类数据对象的WaveCluster；在高维数据空间中基于网格和密度的聚类方的CLIQUE法等。

本文分析了从网格的表示，划分网格单元的方法，到统计网格内信息，搜索近邻网格单元，聚类超过指定阙值的网格单元的各个步骤，对已有的基于网格的聚类算法进行了研究，最后展望了基于网格方法聚类的研究方向。

2 网格的定义与划分
网格的基本概念，设A1，A2，…，Ar是数据集O={O1，O2，…，On}中数据对象的r个属性的有界定义域，那W=A1×A2×…×Ar就是一个r维空间，将A1，A2，…，Ar看成是W的维（属性、字段），则对于一个包含n个数据点的r维空间中的数据集O={O1，O2，…，On}，其中Oi={Oi1，Oi2，…，Oir}（i=1，2，…，n），Oi的第j个分量Oij∈Aj。

将W的每一维M等分，即把W分割成个网格单元。

基于网格聚类算法的第一步是划分网格结构，按搜索子空间的策略不同，主要有两种算法：一种基于由底向上网格划分方法的算法，另一种是基于自顶向下网格划分方法的。

2.1由底向上的划分方法
由底向上的网格划分方法按照用户输入的划分参数（即每维段数ki，1≤i≤d），将数据空间均匀划分为相等大小的网格单元，假设落入同一网格单元内的所有数据点都属于同一个簇，落入其内数据的统计信息由每个网格单元保存，比如数据点个数与数据点之和，包含一定数目数据点的网格单元被称为高密度网格单元。

2.2自顶向下的划分方法
自顶向下的网格划分方法采取分治的策略（divideand conquer principle），对数据空间进行递归划分，使问题的规模不断减小。

首先将原数据空间划分为几个较大的区域。

对于每个得到的区域，划分过程反复执行，直到每个区域包含属于同一个簇的数据点，那么这些区域就是最终的网格单元。

基于自顶向下网格方法的聚类算法直接将高密度网格单元识别为一个簇，或是将相连的高密度网格单元识别为簇。

3 基于网格的聚类过程
3.1网格单元的密度
簇就是一个区域，该区域中的点的密度大于与之相邻的区域。

在网格数据结构中，由于每个网格单元都有相同的体积，因此网格单元中数据点的密度即是落到单元中的点的个数。

据此可以得到稠密网格单元的密度是，设在某一时刻t一个网格单元的密度为density，定义density=单元内的数据点数/数据空间中总的数据点数，设密度阈值为，为用户输入的密度阙值，当density>时，该网格单元是—个密集网格单元。

相对于稠密网格单元来说，大多数的网格单元包含非常少甚至空的的数据，这一类网格单元被称为稀疏网格单元。

对于稀疏网格单元的处理方法一般采用压缩的方法或者直接删除的方法，如果需要保留稀疏网格单元用于后续处理，可以使用压缩的方法；如果在现有数据的基础之上直接聚类，可以删除稀疏网格单元，理论分析和实验证明删除稀疏网格单元并不影响聚类的质量。

3.2由稠密网格单元形成簇
在基于网格的聚类算法中，根据以上分析，由邻接的稠密单元形成簇是相对直截了当的，这也是基于网格的方法的优点之一。

但是需要首先定义邻接单元的含义。

设n维空问中的存在任意两个网格单元U1和U2，当这两个网格单元在—个维上有交集或是具有一个公共面时，称它们为邻接网格单元。

在二维空间中，比较常使用的是4-connection相邻定义和8-connection相邻定义，4-connection更适合在聚类算法中使用。

因为当寻找某个网格单元的邻居时，在4-connection定义下，一个网格单元只有2d个邻居，而在8-connection定义下，有3d-1个邻居，当数据维度d较大时，这个数目非常大。

使用4-connection
不仅参与计算的单元数目大为减少，而且单元增加与维数的关系由指数增长变为线性增长，所以能进一步减少算法运行所需的时间，具有较低的计算复杂度。

其外，只有在非常特殊的情况下，使用4-connection定义得到的聚类结果才会与使用8-connection定义得到的聚类结果不同，这是因为，当4-connection的网格单元是高密度网格单元时，四个对角线上的网格单元不论是否是高密度网格单元，都能被正确的聚类；只有当与对角线上的网格单元相邻的2个网格单元同时为空且该单元本身是高密度网格单元时，不能正确聚类，在划分网格时，通常都要求网格单元的大小远小于簇的大小，因此可以认为这种情况出现的可能很小。

4 结论及展望
基于网格聚类方法的优点是它的处理速度快，因为其速度与数据对象的个数无关，而只依赖于数据空间中每个维上单元的个数，发现任意形状、任意大小的簇、计算结果与数据输入顺序无关、计算时间与数据量无关，同时不要求像k 均值一样预先指定簇个数等。

但是，基于网格方法的聚类算法的输入参数对聚类结果影响较大，而且这些参数较难设置。

当数据中有噪音时，如果不加特殊处理，算法的聚类质量会很差。

而且，算法对于数据维度的可伸缩性较差。

基于网格的聚类方法目前还存在一些急需解决的问题，主要有以下几点：（1）当簇具有不同的密度时，全局的密度参数不能有效发现这样的簇，需要开发具有可变密度参数的算法。

（2）对于不同类型数据的聚类问题，比如对于高维数据，网格的数据将急剧增加，需要有效地技术发现近邻单元。

（3）当数据集的规模巨大以及数据具有地理分布特性时，需要开发有效的并行算法来提高处理的速度。

（4）对现有网格算法的优化，从不同方面提高网格算法的有效性。

比如开发稀疏网格的压缩算法、密度相似网格的合并算法等。

参考文献：
[1]CHENMS，HAN Jiawei，YUPS.Datamining：an overviewfrom a database perspective[J].IEEE Trans on Knwledge and Data Eng.1996，8（6）：866-883
[2]NGRT，HANJ.Efficient and effective clustering methods for spatial data mining[C].Proc of the 20th VLDB Conference.Chile，Santia.1994：144-155
[3]ZHANGT，RAMAKRISHNANR，LIVNYM.An efficient data clustering method for very large databases[C].Proc of ACM SIGMOD International Conference on Management of Data.NewYork：ACM Press，1996：103-114。