一种基于网格密度的聚类算法

合集下载

一种新型的基于密度和栅格的聚类算法

聚类是将数据对象分成类和簇的过程，同一个簇中的对使
Ｘｌ，是一个ｄ维数据空间。１ｈ）定义２栅格单元Ｇ。若空间的每一维划分成等长的Ｈ个区问，而将整个空问分成有限个不相交且大小相等从
ｄｉ１．９９ｊｉｎ１０ —６５２１．５０６ｏ：０３６／．ｓ．０１３９．０１０．３ｓ
Ｎｏｅｌｓｅｉｇａｇｒｔｍａｅｎｇｉｎｅｓｔｖｌｃｕｔｒｎｌｏｉｈｂｓｄｏｒｄａｄｄｎｉｙ
ｐｏｏｅｈｏｂｎｔｎｏｅｓｙａｄｇｉｃｓｒｇａｏｉｍ，ｔｔｗｓＤＣ（ｅｓｙａｄｇｉｂｓｄｃｓｒｇａｏｒｐｓｄｔｅｃｍｉａｉｆｎｉｎｒｌｔｎｌｒｈｏｄｔｄｕｅｉｇｔｈａＧＡｄｎｉｎｒａｅｌｔｉｌ — ａｔｄｕｅｎｇｒｈｉｍ）ｗｉｈｂｓｄｏｅｓｔａｄｇｉ．Ｔｅｇｖｎａｇｒｈｆｓｌｉｉｅａａｓａｅｉｔｒｓｏｌｗｄｂｔｒｇｄｔｎｏｔｈｃａｅｎｄｎｉｎｒｄｈｉｅｌｏｔｍｒｔｄｖｄｄｄｔｐｃｏｇｉ；ｆｌｅｙｓｏｎａａｉｔｙｉｉｙｎｄｏｉ
熊仕勇
（重庆邮电大学软件学院，重庆４０６）００５
摘
要：针对网格和密度方法的聚类算法存在效率和质量问题，出了密度与栅格相结合的聚类挖掘算法，给即

基于网格梯度的多密度聚类算法

数据集进行聚类，它的缺点是不能有效地分离出多个类；ＮＳＮ
算法采用了一种共享近邻的思想来定义相似度（于数据集对中每个点，找出距离其最近的个邻近点，形成一个集合，然后考虑数据集中的任意两个点的ｋ个邻近点集合交集部分的点
学习等。聚类分析是数据挖掘中一种非常重要的技术和方法，是自发、无监督的学习过程。通过聚类能够识别对象空间中稠
第应用研究
ＡｐｌａｉｎＲｅｅｒｈｏｏｕｅｓｐｉｔｓａｃｆＣｍｐｔｒｃｏ
Ｖｏ．５Ｎｏ１１２．１ＮＯ．２ｏＶ０８
基于网格梯度的多密度聚类算法水
Ａｂｔａｔｓｒｃ：Ａｔｒｓｎ，ｍｏｔｃｕｔｒｇａｇｒｈｅｏｅｔｎｈｒｉａｙｓａｅａｄｄｆｒｎｉｌｓｒ，ｂｔｔｓｄｍ．ｅｅｔｐｓｌｓｅｉｌｏｔｍｓｄｖｔｏｆｄｔｅａｂｔｒｈｐｎｉｅｅｔｓｅｃｕｔｓｕｉｎｉｉｒｚｅｉｉｃｌｔｅｉｈｌ — ｅｓｔａａｓｔｆｃｉｅｙｈｓｐｐｒｐｏｏｅｈｌｏｔｍｉｈｕｅｈｄｂｓｄｃａａｔｒｕｔｏｄａｗｔｔｅｍｕｔｄｎｉｄｔｅｆｔｌ．Ｔｉａｅｒｐｓｄｔｅａｇｒｈｗｈｃｓｄｔｅｌｈｉｙｅｅｖｉ — ａｅｈｒｃｅｏａｉｉ．Ｆｒｔ．ｉｗｐｄｏｅｎｉｅｕｉｇｔｅＧａｓｉｎｓｏｈｎｔｅｕｄｔｅｃｕｔｒｉｈｈｄｉｌ — ｅｓｔａａｆｒｐｄｔｙｉｓｙｔｌｅｆｔｏｓｓｎｕｓａｍｏｔｉｇ，ｈｎｆｎｈｌｓｅｃｉｍｕｔｄｎｉｄｔｉｈｈｏｗｈｎｉｙ

基于网格和密度的模糊C均值聚类初始化方法

次，对于聚类边界以及交叉数据的处理上，基于网格和密度的算
０引言
模糊Ｃ均值聚类是目前聚类分析中最受欢迎的算法之一。它把聚类问题归结为一个非线性规划问题，利用交替优化策略
求解无监督分类问题，得令人满意的效果。然而研究表明模取
ＡｂｔａｔｓｒｃＦｚ — ａｓｃｕｔｒｎｇａｇｒｔｕｚｙｃｍｅｎｌｓｅｉｌｏｈｍｓｏｅｏｈｅｍｏｔｗｉｓｒａｌｓｅｉｇａｇｒｔｉｉｎｆｔｓｄｅｐｅｄｃｕｔｒｎｌｏｉｈｍ、ｔｒｏｍａｃｔｏｌｐｅｄｎｔｅＩｓｐｅｆｒｎｅｓｒｎｇｙｄｅｎｓｏｈ
（ｈｎｑｇＩｓｔｔｏｅｈｔｏｙＣｏｇｉｇ４０５，ｈｎ）ＣｏｇｉｔｕｅｆＴｃｒｌｇ，ｈｎｑ０００Ｃｉｎｎｉｏｎａ。ＣｌｇｎｏｍｔｎＥｇｎｅｎ，ａｉｎＵｉｒｔ，ａｉｎ１６２ＬａｎｎＣｉ）（ｏｌｅｏｆｒａｉｎｉｒｇＤｌｎｖｓｙＤｌ１６２，ｉｏｉｅｆＩｏｅｉａｅｉａｇ，ｈｎａ
ｉｉｉｌｐｒｍｅｅｓＴｏｓｌｅｔｉｏｅ，ｎｉｉｉｉａｉｎｍｅｈｏｏｕｚｙｃｍｅｎｌｓｅｉｌｏｉｈｂｓｄｏｒｄａｄｄｅｉｙｉｒｐｓｄ、ｎｔａａａｔｒ．ｏｖｈｓｐｒｂｌｍａｎｔａｚｔｏｔｄｆｒｆｚ — ａｓｃｕｔｒｎｇａｇｒｔｍａｅｎｇｎｎｓｔｓｐｏｏｅｌｉＧｒｄａｄｄｎｉｒｅｏｅｔａｃｈｌｓｅｎｇｃｎｅｆｓｍｐｅ，ｎｎｔａｉｅｔｅｉｉｉｌｐｒｍｅｅｆｆｚｙｃｍｅｎｓｃｕｔｒｎｇａｇ — ｉｎｅｓｔａｅｕｓｄｔｘｒｔｔｅｃｕｔｒｅｔｒｏａｌｓａｄｉｉｉｚｈｎｔａａａｔｒｏｕｚ — ａｌｓｅｙｉｓｌｓｉｌｏｒｔｉｈｍ．Ｅｘｐｒｍｅｔｓｏｈｔｔｉｅｈｄｉｅｓｂｌｎａｉｅｉｎｈｗｓｔａｈｓｍｔｏｓｆａｉｅａｄｖｌｄ．ＫｅｙｗｏｄｓｒＦｚｙｃｍｅｎｓｃｕｓｅｎｇＧｒｄＤｅｉｙｕｚ — ａｌｔｒｉｉｎｓｔ

一种基于网格和密度的微粒群混合聚类算法

象的简单计数。
定义２两个网格单元是紧相连的，当且仅当两个网格
单元共有一个面。
上，借鉴密度函数思想，出了一种新的网格单元密度的计算提方法。此方法避免了一般基于网格的方法中对数据点采取简单计数的映射方式造成的数据点之间联系被割裂的情况。将这种新的网格单元密度的计算方法与微粒群算法相结合，实现了一种基于网格和密度的微粒群混合聚类算法。最后，本
１引言
聚类是将物理或抽象对象的集合分组成为由类似的对象
组成的多个类的过程。聚类分析不仅是从大量数据中获取知
目，前很多研究者从提高算法的效率，简化密度的计算等角度提出了将以上两种算法相结合的聚类算法，基本ｑ］其思想就是利用划分网格的方式，数据空间离散化，将并计算网格单元的密度值。在此基础上结合基于密度的聚类方法，实
现对数据集的聚类。目前，在大部分检索到的将基于网格的方法与基于密度的方法相结合的文献中，都应用了两个重要定义或其等同概
念。
识的重要手段，同时也是数据挖掘过程中常常采用的技术之
一
［ｌＩ
。
微粒群算法是一种新型的群体演化算法，最早源于对鸟
群觅食行为的模拟。微粒群算法具有调整参数少，］收敛速度快等特点。微粒群算法不仅具有全局寻优能力，通过调整
参数还可以具有较强的局部搜索能力。本文在分析现有的基于网格和密度的聚类算法的基础

一种基于密度的网格动态聚类算法的研究

或高维数据的聚类问题．
１相关研究
基于网格的聚类算法由于易于增量实现和高维数据挖掘而被广泛应用于聚类算法当中，今为止，迄已经有很多人提出了基于密度和网格的聚类算法，ＤＳＡＣＲＣＩＵ如ＢＣＮ、ＵＥ、ＬＱＥ等算法．ＣＩＵＬＱＥ是一种基于网格和密度的聚类算法，它是一种更广泛的子空间聚类方法，以通过任意组可合来产生子空间，将数据投影到子空间中进行聚类，有网格类算法效率高的优点，且可以处理高再具并维的数据．是在划分网格时没有考虑数据的分布，而导致了聚类质量的降低．但从ＩＤＡ是一种基于密度的增量式网格聚类算法，算法通过将数据空间划分成体积相等的若干单ＧＣ该元，而有效地提高了聚类的效率，从减低了聚类时间和ＩＯ开销．由于它是基于ＤＣＣＮ的一种算／但ＢＳＡ法的改进，可避免具有了ＤＳＡ聚类算法的缺点．不ＢＣＮ
Ｖｏ｜１Ｎｏ１ｌ３．
第３卷第１１期
一
种基于密度的网格动态聚类算法的研究
焦誉赖建章柯，，佳
２０５；３０９（．１安徽行政学院信息管理系，安徽合肥
２合肥工业大学管理学院Байду номын сангаас，．安徽合肥２００；．３０９３安徽中医学院计算机系，安徽合肥２０３）３０７

基于密度的聚类和基于网格的两大聚类算法

即不在结果队列中）放人有序种子队列： Step 3：如果有序种子队列为空，返回Step 2，否则选择种子队列中的
第一个对象P进行扩张： Step 3.1：如果P不是核心节点．转Step 4；否则，对P 的E邻域内任一
未扩张的邻居q 进行如下处理：如果q已在有序种子队列中且从P到 q的可达距离小于旧值，则更新q的
基于网格(dding-based)指将对象空间量化为有限数目的单元，形成一个网格结构，所有聚类都在这个网格结构上进行。
20
基于网格的聚类
基本思想是将每个属性的可能值分割成许多相邻的区间，创建网格单元的集合（对于的讨论我们假设属性值是序数的、区间的或者连续的）。
每个对象落入一个网格单元，网格单元对应的属性区间包含该对象的值。
据点在邻域内的影响，被称为影响函数。数据空间的整体密度(全局密度函数)可以被模拟为所有数据点的影响函数
的总和；聚类可以通过确定密度吸引点(density attractor)来得到，这里的密度吸引点
是全局密度函数的局部最大值。一个点 x 是被一个密度吸引点 x*密度吸引的，如果存在一组点 x0，x1，
高层单元的统计参数可以很容易Fra bibliotek从低层单元的参数计算得到。
28
STING:统计信息网格
统计处理思想：使用自顶向下的方法回答空间数据的查询
从一个预先选择的层次开始－通常包含少量的单元，为当前层的每个单元计算置信区间不相关的单元不再考虑当检查完当前层，接着检查下一个低层次重复这个过程直到达到底层
（1）对数据点占据的空间推导密度函数；（2）通过沿密度增长最大的方向(即梯度方向)移动，识别密度函数的局
部最大点（这是局部吸引点），将每个点关联到一个密度吸引点；（3）定义与特定的密度吸引点相关联的点构成的簇；（4）丢弃与非平凡密度吸引点相关联的簇（密度吸引点 x’称为非平凡密

一种基于网格密度的自适应聚类分析算法

的网格大小来划分问题空间，每个网格保存了落在其内部的
数据统计信息，然后在网格上进行聚类操作。由于网格的数量
远小于数据点的数量，其运行时间很快。网格的大小决定了聚
类效果，精细的网格可能导致网格数量的急剧增加，时甚至有
超过了数据点的数量，这将导致计算时间的增加；粗糙的网格导致了聚类质量的下降，时甚至不能找出不同的聚类。有
Ｔｅｍｏｔｒａｉｉｆｉｎｖｌｌｏｔｍａａｔｒｇｔｅｓａｅａｄｅｔｎｆａｃｕｔｒｙｕｉｇｄ，ａｄｔｅａｙｅｅｈｓｃｅｔｔｏｓｏｅｇｒｈｗｓｃｐｕｉｈｐｎｘｅｔｏｌｓｅｓｎｖｙｔｈａｉｎｈｂｎｎａｌｚｄｔｈｎｈ
一
课题，已被广泛应用于许多领域。聚类能够在潜在的数据中发现令人感兴趣的数据分布模式。它将数据对象的集合分组为多个类或簇；同一个簇中的对象彼此相似，与其他簇中的对而象相异。通过聚类，能够识别出稀疏的或稠密的区域，从而发
现全局分布模式以及数据属性之间有趣的相互关系。对于大
维普资讯
第２４卷第８期
２０年８月０７
计算机应用研究
ＡｐｌａｉｎＲｅｅｒｈｏｏｕｅｓｐｉｔｓａｃｆＣｍｐｔｒｃｏ
Ｖｏ．４Ｎｏ８１２．Ａｕ．２０ｇ０７
ｄｔａｅｎｔｅｄｄｎｉ．Ｉａｓｏｌｅｃｉｈｅｃｅｃｅａｓｆｉｉｅｒｔｏｌｘｔ．Ｂｔｅｒｎｌｓｓａａｂｓｄｏｈｅｓｔｙｔｏｃｕｄｒａｈｈｇｆｉｎｙｂｃｕｅｏｓｌａｉｃｍｐｅｉｌｉｔｎｍｅｙｏｔｏｙａａｙｉｈｈ

基于网格的数据流聚类算法

而且，维护的是ｍｉｏｃｕｔｒ的聚类特征向量（Ｆｘ它ｃ－ｌｓｅｒＣ２；Ｃ；ＦｔＣ；）这在噪声情况下，ＦｘＣ２；Ｆｔｎ，会产生干扰误差。
种一次性扫描的方法和算法，如文［－４等等，１－１但它们的聚类结果通常是球形的，不能支持对任意形状类的聚类［。５］
ＧｒｄｂｓｄＤａａＳｒａｕｔｒｎｇＡｌｏｉｈｉ－ａｅｔｔｅｍＣｌｓｅｉｇｒｔｍＬＩＱｉｇＢｏＤＡＩａＦｎＤＥＮＧｕＺＵｎ — ａｏａＣｈ－ＳＨＡＮＧｅ－ｉｇＷｉｎＭ
称为ｐｒｍｉｔｒｅ的结构储存下来。同时，ｙａｄｉｆｍｅａｍ使用另一个离线的ｍａｒｃｓｅ过程，据用户的具体要求对ｍｃｏｃｏｌｔｒ－ｕ根ｉｒ－ｃｓｅ聚类的结果进行再分析。但它采用距离作为度量参ｌｔｒｕ数，聚类结果通常是球形的，不能支持对任意形状类的聚类。
（ｌｅｅｏｎｏｍａｉｎＳｓｅａｄＭａａｅｎ，ＮａｉｎｌＵｎｖｒｉｆＤｅｅｅＴｅｈｏｏｙ，ａｇｈ１０３ＣｏｌｇｆＩｆｒｔｏｙｔｍｎｎｇｍｅｔｔｏａｉｅｓｔｏｆｎｓｃｎｌｇＣｈｎｓａ４０７）ｙ
噪声干扰下发现任意形状的类，而且有效地解决了聚类算法参数敏感和聚类结果无法区分密度差异等问题。
关键词
ＡｂｔａｔＷｉｔｏｇａｉｔｒｄｓｏｅｉｇａｂｔａｙｓａｅｃｕｔｒｎａｄｉｇｎｉｅｇｉ— ａｅａａｓｒａｃｕｔ — ｓｒｃｔｓｒｎｂｌｙｆｉｃｖｒｎｒｉｒｒｈｐｌｓｅｓａｄｈｎｌｏｓ，ｒｄｂｓｄｄｔｔｅｍｌｓｅｈｉｏｎｒｇａｇｒｔｍｆｃｅｔｙｒｓｌｅｈｓｒｂｅｏｅｎｅｙｓｎｉｉｅｔｈｓｒｄｆｅａａｅｅｓａｄｄｆｉｕｔｔｉｌｏｉｈｅｆｉｎｌｅｏｖｓｔｅｅｐｏｌｍｆｂｉｇｖｒｅｓｔｏｔｅｕｅ－ｅｉｄｐｒｍｔｒｎｉｃｌｏｎｉｖｎｆｄｓｉｇｉｈｔｅｄｎｉｙｄｓｉｃｉｎｏｌｓｅｓｉｔｕｓｈｅｓｔｉｔｔｏｆｕｔｒ．ｎｎｃＫｅｗｏｄＣｌｓｅｉｇ，Ｄａａｓｒａ，Ｃｌｓｅｉａａｔｒｙｒｓｕｔｒｎｔｔｅｍｕｔｒｎｐｒｍｅｅ，Ｒｅａｉｅｄｎｉｇｌｔｖｅｓｔｙ

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一种基于网格密度的聚类算法
摘要：提出了一种基于网格密度的聚类算法（dgca）。

该算法主要利用网格技术去除数据集中的部分孤立点或噪声数据，对类的边缘节点使用一种边缘节点判断函数进行提取，最后利用相近值的方法进行聚类。

实验表明，dgca算法能够很好地识别出孤立点或噪声，聚类结果可以达到一个较高的精度。

关键词：网格聚类；边界点；网格密度
中图分类号：tp312文献标识码：a文章编号：1672-7800（2012）012-0056-02
0引言
聚类是把一组数据按照相似性归成若干类别，它的目的是使得属于同一类别的个体之间的距离尽可能地小而不同类别上的个体间
的距离尽可能地大。

聚类的结果可以得到一组数据对象的集合，称其为簇或类。

簇中的对象彼此相似，而与其它簇中的对象相异。

迄今为止，已经提出了许多聚类算法，大体上这些算法可以分为基于距离的方法、基于层次的方法、基于密度的方法、基于网格的方法和基于模型的方法等。

基于网格的聚类算法首先将d维数据空间的每一维平均分割成等长的区间段，即把数据空间分割成一些网格单元。

若一个网格单元中所含数据量大于给定的值，则将其定为高密度单元；否则将其视为低密度单元。

如果一个低密度网格单元的相邻单元都是低密度
的，则视这个低密度单元中的节点为孤立点或噪声节点。

网格聚类就是这些相邻的高密度单元相连的最大集合。

1基本概念
1.1相近值
网格单元内节点之间的相近值是利用节点间的距离来计算的。

节点间的相近值越大，它们就越相似。

即对这些网格单元内的节点进行聚类时，它们属于同一个类的可能性就越大。

定义1节点集：设p=（u，k），我们用p表示n条记录的集合。

u={u1，u2，…，un}代表网格单元内的节点集
k={k1，k2，…，kr}代表网格单元内节点的属性
其中，i，i∈（1，2，…，n），kim，m∈（1，2，…，r）代表节点ui的第m个属性km，因此，用km代表一个r维的向量（ki1，ki2，…，kir），i∈（1，2，…，n）。

定义 2 相异值：任意两个节点ui与uj之间的相异值定义如下：d（i，j）=∑rm=1|kim-kjm|，i， j=1，2，…，n（1）定义 3 相近值：任意两个节点ui与uj之间的相近值定义如下：s（i，j）=maxdf-d（i，j）（2）其中，maxdf=max1≤i，j≤nd（i， j）代表网格单元中节点间的最大相异值。

1.2边缘节点判断函数
在传统的网格聚类算法中，将与高密度单元相邻的低密度单元中的节点作为孤立点或噪声数据丢弃，这样会丢失一些有用的边缘节
点。

为提高聚类的精度，在dgca算法中引入边缘节点判断函数minf （i），其定义如下：minf（i）=（maxsim1≤j≤n（i，j）+avesim （i））/2（3）其中，maxsim1≤j≤n（i，j）=max{j︱s（i，j），1≤j≤n}，avesim（i）=1n∑nj=1s（i，j）
边缘节点函数borderf（i），其定义如下：borderf（i）=1hd∑hdi=1s（i，l）（4）其中，hd表示高密度单元中节点的个数。

边缘节点处理的方法是：如果一个高密度网格单元的相邻网格单元中有低密度单元，就使用边缘节点函数borderf（i）检查这些低密度单元中的节点i，如果borderf（i）的值大于等于设定的边缘节点判断函数值minf（i），那么判定节点i是此高密度单元的边界点，即i与此高密度单元中的节点属于一类。

这样就可以将有用的边缘节点提取出来，从而提高聚类的质量。

2dgca聚类算法
dgca聚类算法的基本思想：①将所有节点集u映射到数据空间相应的网格单元中；②根据用户输入的密度测试值minpts判断每个网格单元是低密度还是高密度网格单元，如果是高密度网格单元，则对其相邻的低密度网格单元中的节点，利用minf（i）判断各个节点是否为该高密度网格的边缘节点，如果是即提取边缘节点，如果不是就把该节点认为是孤立点或噪声数据；③根据用户输入的相近测试值minsim，对去除孤立点或噪声数据后的节点，使用相近值方法进行聚类，即如果任意两个节点的相近值s（i， j）大于或等
于给定的测试值minsim，就把这两个数据对象视为同一个类中的数据。

dgca算法如下：
输入：z，minpts，minsim
输出：类，孤立点或噪声数据
步骤1：根据用户输入的z值将整个数据空间x划分成zr个网格单元。

步骤2：将节点集u映射到网格单元中。

步骤3：逐一扫描每个网格单元，并记录每个网格单元中的节点个数cell[q].count（1≤q≤zr）。

步骤4：根据密度阈值将网格单元分为高密度单元和低密度单元。

步骤5：考虑每个高密度单元，如果其相邻网格单元有低密度的，利用边缘节点判断函数提取有用的边缘节点，低密度单元中剩余的节点作为孤立点或噪声数据丢弃。

步骤6：考虑高密度单元中的任意两个节点，如果其相似值大于给定的minsim值，则将这两个对象归于一类。

3实验结果与分析
本实验所使用的pc具有1g内存，奔腾ⅳcpu 2.40ghz，使用的操作系统是windows xp professional，算法是用vc++进行编程设计的。

3.1精度对比（综合数据集）
实验中图1对应的节点数据集是来自于参考文献，此节点集含有5 034条记录，从该图中可以直观地看到，此节点集应该被分为5类。

实验结果显示，算法dgca的结果是5个类，由于使用了边缘节点判断函数，孤立点或噪声被有效地识别出来，使得dgca算法的精度明显好于传统的网格聚类算法clique，dgca算法中的参数：z=100，minpts=10，minsim=198。

3.2时间对比
由于dgca算法的时间复杂度是o（n2），所以该算法的时间效率还有待改进。

4结语
本文提出了一种基于网格密度的聚类算法（dgca）。

该算法主要利用网格技术去除节点数据集中的部分孤立点或噪声节点，对类的边缘节点使用一种边缘节点判断函数进行提取，最后利用相近值的方法进行聚类。

实验表明，dgca算法与传统的聚类方法相比，聚类的精度有了很大的提高。

它不仅适用于综合节点数据集，而且对高维节点数据集也能够得到令人满意的聚类结果和聚类质量。

参考文献：
[1]罗静，刘宗歧.基于网格聚类算法的电力营销预测研究[j].科技信息，2012（3）.
[2]邱保志，沈钧毅.基于扩展和网格的多密度聚类算法[j].控制与决策，2006（9）.
[3]张鸿雁，刘希玉.一种网格聚类的边缘检测算法[j].控制与决策，2011（12）.
[4]邱保志，沈钧毅.网格聚类中的边界处理技术[j].模式识别与人工智能，2006（2）.
[5]levent ertoz，michael steinbach，vipin kumar.finding clusters of different sizes，shapes，and densities in noisy，high dimensional data[c].in siam international conference on data mining，2003.
（责任编辑：余晓）。