基于网格的聚类方法研究
合集下载
基于网格梯度的多密度聚类算法

数据集进行聚类 , 它的缺点 是不能 有效地分 离 出多个类 ;N SN
算法采用 了一种共 享近邻 的思想来 定义 相似度 ( 于数据集 对 中每个点 , 找出距 离其最近 的 个邻 近点 , 形成一个集合 , 然后 考虑数据集 中的任 意两个点的 k个邻近点集合交集部分 的点
学习等 。聚类分析是数据挖掘 中一种非常重要的技术 和方法 , 是 自发、 无监督 的学 习过程 。通过聚类能够识别对象空 间中稠
第应 用 研 究
Ap l ain Ree rh o o ues pi t sac fC mp tr c o
Vo . 5 No 1 12 . 1 NO . 2 o V 08
基 于 网格梯 度 的 多密度 聚 类算 法 水
Ab ta t sr c :At r s n ,mo tcu t r g ag r h e oe t n h r i ay s a e a d df r n i l s r ,b t t sd m. ee t p s l se i lo t ms d v t o f d te a b t r h p n i e e ts e c u t s u i n i i r z e ii c l t e i h l — e st aa s t f cie y h s p p rp o o e h lo t m ih u e h d b s d c a a t r u t o d a w t t e mu t d n i d t e f t l .T i a e r p s d te ag r h whc s d t e l h i y ee v i — a e h r ce o a i i .F rt .i w p d o e n ieu i g t eGa s in s oh n t e u d te cu t r ih h d i l — e st aa fr pd t y is y t l e f t os sn u sa mo ti g, h n f n h lse c i mu t d n i d t i h h o wh n i y
算法采用 了一种共 享近邻 的思想来 定义 相似度 ( 于数据集 对 中每个点 , 找出距 离其最近 的 个邻 近点 , 形成一个集合 , 然后 考虑数据集 中的任 意两个点的 k个邻近点集合交集部分 的点
学习等 。聚类分析是数据挖掘 中一种非常重要的技术 和方法 , 是 自发、 无监督 的学 习过程 。通过聚类能够识别对象空 间中稠
第应 用 研 究
Ap l ain Ree rh o o ues pi t sac fC mp tr c o
Vo . 5 No 1 12 . 1 NO . 2 o V 08
基 于 网格梯 度 的 多密度 聚 类算 法 水
Ab ta t sr c :At r s n ,mo tcu t r g ag r h e oe t n h r i ay s a e a d df r n i l s r ,b t t sd m. ee t p s l se i lo t ms d v t o f d te a b t r h p n i e e ts e c u t s u i n i i r z e ii c l t e i h l — e st aa s t f cie y h s p p rp o o e h lo t m ih u e h d b s d c a a t r u t o d a w t t e mu t d n i d t e f t l .T i a e r p s d te ag r h whc s d t e l h i y ee v i — a e h r ce o a i i .F rt .i w p d o e n ieu i g t eGa s in s oh n t e u d te cu t r ih h d i l — e st aa fr pd t y is y t l e f t os sn u sa mo ti g, h n f n h lse c i mu t d n i d t i h h o wh n i y
一种基于网格的K-Means聚类算法

0 引 言
聚类 是 数 据 挖 掘 中 的一 项 重要 技术 , 的 目标 是 将 数 它
S 1,i X[2 h ] 一[1h ] 1,2 X… ×[ ,n 就是 n 数 据 空 间 。 1 h] d 维
定 义 1 将 每 一 维 分 成 k个 不 相 交 的 区 间 段 , 个 区 : 每 间都 是 左 闭右 开 的等 长 的 区 间 , 样将 数 据 空 间分 割 成 一 这
从 而形 成 2 个 单 元 , 些 单 元 称 为 网格 的 子单 元 。 n 这
定 义 3 网 格 单元 的相 邻 单 元 是 指 与 所 给 单 元 有 共 同 : 边 界或 有 共 同点 的那 些 单 元 。 定 义 4 如 果 一个 网格 单 元 中 数 据 点 的个 数 大 于 给 定 :
3 郑 州成 功 财 经 学 院 信 工 系 , 南 巩 义 4 1 0 ) . 河 5 2 0
摘 要 : — as算法是聚 类方 法中常用的一种 划分方 法。随着数据 量的增加 , — as算 法的局 限性 日益 突出。 K Men K Men
基 于 网格 划 分 的 思 想 , 出 了一种 基 于 网格 的 K— a s 类 算 法 , 算 法 使 用 了 网格 技 术 在 一 定 程 度 上 去 除 了孤 立 提 Men 聚 该 点和 噪 声数 据 , 少 了原 始 K Men 算 法 将 大 的 聚 类 分 开 的 可 能 。 实 验 表 明 , 算 法能 处 理 任 意 形 状 和 大 小 的 聚 类 , 减 — as 该 对孤 立 点 和噪 声数 据 也 能很 好 地 识 别 , 并且 在 去 除孤 立 点和 噪 声数 据 方 面 可 以达 到 较 好 的精 度 。
的 密度 值 Mi t 时 , n s 我们 称 该 单 元 为 高 密 度 单 元 ; 之 称 P 反
一种基于密度的网格动态聚类算法的研究

或 高维 数据 的聚类 问题 .
1 相 关 研 究
基 于 网格 的聚类算 法 由于易 于增 量实 现 和高维 数据 挖掘 而被 广泛 应用 于聚 类算 法 当中 , 今 为止 , 迄 已经 有很 多人 提 出 了基 于 密度 和 网格 的聚 类算 法 , D S A C R C IU 如 B C N、U E、LQ E等 算法 . C IU LQ E是 一种基 于 网格 和密 度 的聚类算 法 , 它是 一种 更广 泛 的子空 间 聚类 方 法 , 以通过 任 意 组 可 合来 产生 子空 间 , 将数 据投 影 到子空 间 中进行 聚 类 , 有 网格 类 算法 效 率 高 的优 点 , 且 可 以处 理 高 再 具 并 维 的数据 . 是在划 分 网格 时没有 考 虑数据 的分 布 , 而 导致 了聚类 质 量 的降低 . 但 从 ID A是一 种 基于 密度 的增 量 式 网格 聚类 算法 , 算法 通过 将 数据 空 间划 分成 体积 相等 的若 干 单 G C 该 元 , 而 有效 地 提高 了聚类 的效率 , 从 减低 了聚类 时 间 和 IO 开销 . 由于 它是 基 于 D C C N 的一 种算 / 但 B SA 法 的改进 , 可避免 具有 了 D S A 聚类算 法 的缺点 . 不 BCN
Vo| 1 No 1 l3 .
第3 卷 第 1 1 期
一
种基于密度的 网格动态聚类算法的研 究
焦 誉 赖建章 柯 , , 佳
205 ; 30 9 (. 1安徽行政学 院 信息管理 系 , 安徽 合肥
2 合肥工业大学 管理学院Байду номын сангаас, . 安徽 合 肥 2 00 ;. 3 0 9 3 安徽 中医学 院 计算机 系, 安徽 合肥 2 0 3 ) 30 7
1 相 关 研 究
基 于 网格 的聚类算 法 由于易 于增 量实 现 和高维 数据 挖掘 而被 广泛 应用 于聚 类算 法 当中 , 今 为止 , 迄 已经 有很 多人 提 出 了基 于 密度 和 网格 的聚 类算 法 , D S A C R C IU 如 B C N、U E、LQ E等 算法 . C IU LQ E是 一种基 于 网格 和密 度 的聚类算 法 , 它是 一种 更广 泛 的子空 间 聚类 方 法 , 以通过 任 意 组 可 合来 产生 子空 间 , 将数 据投 影 到子空 间 中进行 聚 类 , 有 网格 类 算法 效 率 高 的优 点 , 且 可 以处 理 高 再 具 并 维 的数据 . 是在划 分 网格 时没有 考 虑数据 的分 布 , 而 导致 了聚类 质 量 的降低 . 但 从 ID A是一 种 基于 密度 的增 量 式 网格 聚类 算法 , 算法 通过 将 数据 空 间划 分成 体积 相等 的若 干 单 G C 该 元 , 而 有效 地 提高 了聚类 的效率 , 从 减低 了聚类 时 间 和 IO 开销 . 由于 它是 基 于 D C C N 的一 种算 / 但 B SA 法 的改进 , 可避免 具有 了 D S A 聚类算 法 的缺点 . 不 BCN
Vo| 1 No 1 l3 .
第3 卷 第 1 1 期
一
种基于密度的 网格动态聚类算法的研 究
焦 誉 赖建章 柯 , , 佳
205 ; 30 9 (. 1安徽行政学 院 信息管理 系 , 安徽 合肥
2 合肥工业大学 管理学院Байду номын сангаас, . 安徽 合 肥 2 00 ;. 3 0 9 3 安徽 中医学 院 计算机 系, 安徽 合肥 2 0 3 ) 30 7
基于地理的聚类方法

基于地理的聚类方法随着信息技术的快速发展,地理信息系统(GIS)在各个领域扮演着越来越重要的角色。
其中,聚类分析是GIS中地理空间数据分析的重要方法之一。
它通过对数据点的相似性进行度量,将属于同一类别的数据点聚集在一起,从而发现地理空间中的规律和关系。
在本文中,我们将着重介绍基于地理的聚类方法。
1.基于密度的聚类密度聚类方法是基于数据点密度的分析方法。
其基本思想是将数据点分布空间中的高密度区域看成一类,而低密度区域则看成另一类。
常见的密度聚类算法有DBSCAN(密度聚类的基础算法)、OPTICS 等算法。
在地理信息领域,该方法可用于提取地形形态、城市几何形态、森林覆盖度等信息。
2.基于网格的聚类网格聚类将地理信息空间分割为一个个网格,并测试每个网格的内容。
网格中心是被聚类的对象,其属性值将被作为网格的模式。
网格聚类的优点是聚类结果具有空间属性和易于解释性。
网格聚类的应用领域包括城市规划、环境管理和森林覆盖等。
3.基于层次聚类层次聚类将数据点看成一棵树,从下到上逐渐合并成一团。
该方法通过不同阈值的设定,把这棵树的分枝划分成不同的类别。
在地理信息领域,该方法可用于划分地形形态、水文地貌等信息。
4.基于特征聚类特征聚类将地理信息中的特征看成一类,通过这些特征的共同性,将这些特征聚类在一起。
特征聚类应用广泛,例如在植被分类、河流图像分割和地形分类等领域。
总结基于地理的聚类方法可以分为四种:基于密度的聚类、基于网格的聚类、基于层次聚类和基于特征聚类。
不同的聚类方法适用于不同的数据类型,所以聚类方法的选择也很关键。
在GIS空间数据分析过程中,通过探索不同聚类方法的优缺点,可以深入理解数据本身,并发现其中具有潜在规律和联系的地理现象,为决策提供有效的支持。
基于密度的聚类和基于网格的两大聚类算法

即不在结果队列中)放人有序种子队列: Step 3:如果有序种子队列为空,返回Step 2,否则选择种子队列中的
第一个对象P进行扩张: Step 3.1:如果P不是核心节点.转Step 4;否则,对P 的E邻域内任一
未扩张的邻居q 进行如下处理 :如果q已在有序种子队列中且从P到 q的可达距离小于旧值,则更新q的
基于网格(dding-based)指将对象空间量化为有 限数目的单元,形成一个网格结构,所有聚类都 在这个网格结构上进行。
20
基于网格的聚类
基本思想是将每个属性的可能值分割成许多相邻 的区间,创建网格单元的集合(对于的讨论我们 假设属性值是序数的、区间的或者连续的)。
每个对象落入一个网格单元,网格单元对应的属 性区间包含该对象的值。
据点在邻域内的影响,被称为影响函数。 数据空间的整体密度(全局密度函数)可以被模拟为所有数据点的影响函数
的 总和; 聚类可以通过确定密度吸引点(density attractor)来得到,这里的密度吸引点
是全局密度函数的局部最大值。 一个点 x 是被一个密度吸引点 x*密度吸引的,如果存在一组点 x0,x1,
高层单元的统计参数可以很容易Fra bibliotek从低层单元的参数计算得到。
28
STING:统计信息网格
统计处理思想: 使用自顶向下的方法回答空间数据的查询
从一个预先选择的层次开始-通常包含少量的单 元,为当前层的每个单元计算置信区间 不相关的单元不再考虑 当检查完当前层,接着检查下一个低层次 重复这个过程直到达到底层
(1)对数据点占据的空间推导密度函数; (2)通过沿密度增长最大的方向(即梯度方向)移动,识别密度函数的局
部最大点(这是局部吸引点),将每个点关联到一个密度吸引点; (3)定义与特定的密度吸引点相关联的点构成的簇; (4)丢弃与非平凡密度吸引点相关联的簇(密度吸引点 x’称为非平凡密
第一个对象P进行扩张: Step 3.1:如果P不是核心节点.转Step 4;否则,对P 的E邻域内任一
未扩张的邻居q 进行如下处理 :如果q已在有序种子队列中且从P到 q的可达距离小于旧值,则更新q的
基于网格(dding-based)指将对象空间量化为有 限数目的单元,形成一个网格结构,所有聚类都 在这个网格结构上进行。
20
基于网格的聚类
基本思想是将每个属性的可能值分割成许多相邻 的区间,创建网格单元的集合(对于的讨论我们 假设属性值是序数的、区间的或者连续的)。
每个对象落入一个网格单元,网格单元对应的属 性区间包含该对象的值。
据点在邻域内的影响,被称为影响函数。 数据空间的整体密度(全局密度函数)可以被模拟为所有数据点的影响函数
的 总和; 聚类可以通过确定密度吸引点(density attractor)来得到,这里的密度吸引点
是全局密度函数的局部最大值。 一个点 x 是被一个密度吸引点 x*密度吸引的,如果存在一组点 x0,x1,
高层单元的统计参数可以很容易Fra bibliotek从低层单元的参数计算得到。
28
STING:统计信息网格
统计处理思想: 使用自顶向下的方法回答空间数据的查询
从一个预先选择的层次开始-通常包含少量的单 元,为当前层的每个单元计算置信区间 不相关的单元不再考虑 当检查完当前层,接着检查下一个低层次 重复这个过程直到达到底层
(1)对数据点占据的空间推导密度函数; (2)通过沿密度增长最大的方向(即梯度方向)移动,识别密度函数的局
部最大点(这是局部吸引点),将每个点关联到一个密度吸引点; (3)定义与特定的密度吸引点相关联的点构成的簇; (4)丢弃与非平凡密度吸引点相关联的簇(密度吸引点 x’称为非平凡密
基于网格的数据流聚类算法

而且 , 维 护 的 是 mi ocutr的 聚 类 特 征 向量 ( F x 它 c- lse r C 2; C ; F tC ; ) 这在 噪声 情况下 , F x C 2; F t n , 会产生 干扰误差 。
种一次性扫描 的方法 和算法 , 如文[-4等等 , 1 - 1 但它们 的聚类 结果通 常是球形 的, 不能支持对任意形状类的聚类[ 。 5 ]
Gr d b s d Da a S r a u t rng Al o ih i - a e t t e m Cl se i g r t m LI QigB o DAI a F n DENG u Z U n — a o a Ch - S HANG e- ig W i n M
称为 p rmi t r e的结 构储存 下 来 。同时 , ya d i f me a m 使用 另一 个离线的 mar c se 过程 , 据用户 的具 体要求 对 m co co l tr - u 根 i r- c se 聚类 的结果 进行 再分析 。但 它采用 距 离作 为度 量参 l tr u 数, 聚类结果通 常是球 形 的, 不能 支持对 任意形状 类 的聚类 。
( le eo n om ain S se a d M a a e n ,N ain lUnv r i fDee eTe h oo y, a g h 1 0 3 Colg fI f r to y tm n n g me t to a iest o fns c n lg Ch n s a4 0 7 ) y
噪 声干扰 下发现任 意形状 的类, 而且有效地解决 了聚类算 法参数敏感和聚 类结果无法区分密度差异等 问题。
关键词
Ab ta t W i to g a i t rd s o e i g a b t a y s a e cu t r n a d i g n i e g i— a e a as r a cu t — sr c t s r n b l y f ic v rn r ir r h p l s e sa d h n l o s , rd b s d d t t e m l s e h i o n r g ag rt m f ce ty r s l e h s r b e o en e y s n ii e t h s r d f e a a e e s a d d fiu t t i lo ih ef in l e o v st e e p o lm fb i g v r e st o t e u e - e i d p r m t r n i c l o n i v n f d s ig ih t e d n iy d s i c in o l s e s it u s h e st it to f u t r . n n c Ke wo d Cl s e i g,Da a s r a ,Cl s e i a a t r y rs u t rn t te m u t rn p r me e ,Re ai e d n i g ltv e st y
种一次性扫描 的方法 和算法 , 如文[-4等等 , 1 - 1 但它们 的聚类 结果通 常是球形 的, 不能支持对任意形状类的聚类[ 。 5 ]
Gr d b s d Da a S r a u t rng Al o ih i - a e t t e m Cl se i g r t m LI QigB o DAI a F n DENG u Z U n — a o a Ch - S HANG e- ig W i n M
称为 p rmi t r e的结 构储存 下 来 。同时 , ya d i f me a m 使用 另一 个离线的 mar c se 过程 , 据用户 的具 体要求 对 m co co l tr - u 根 i r- c se 聚类 的结果 进行 再分析 。但 它采用 距 离作 为度 量参 l tr u 数, 聚类结果通 常是球 形 的, 不能 支持对 任意形状 类 的聚类 。
( le eo n om ain S se a d M a a e n ,N ain lUnv r i fDee eTe h oo y, a g h 1 0 3 Colg fI f r to y tm n n g me t to a iest o fns c n lg Ch n s a4 0 7 ) y
噪 声干扰 下发现任 意形状 的类, 而且有效地解决 了聚类算 法参数敏感和聚 类结果无法区分密度差异等 问题。
关键词
Ab ta t W i to g a i t rd s o e i g a b t a y s a e cu t r n a d i g n i e g i— a e a as r a cu t — sr c t s r n b l y f ic v rn r ir r h p l s e sa d h n l o s , rd b s d d t t e m l s e h i o n r g ag rt m f ce ty r s l e h s r b e o en e y s n ii e t h s r d f e a a e e s a d d fiu t t i lo ih ef in l e o v st e e p o lm fb i g v r e st o t e u e - e i d p r m t r n i c l o n i v n f d s ig ih t e d n iy d s i c in o l s e s it u s h e st it to f u t r . n n c Ke wo d Cl s e i g,Da a s r a ,Cl s e i a a t r y rs u t rn t te m u t rn p r me e ,Re ai e d n i g ltv e st y
基于网格和密度的数据流聚类算法

i u e t e mi i t s h n mum pa n n r e c lt rn g rt m o g tt e cuse n e u t ,i r v d t e cu trn fe t s n i g te h se i g Alo h t e h l tr g r s ls mp o e h l se g afc . i i i Ke r y wo ds: a a sr a ; l se n d t te m cu tr g;s b rd i u g i
whc o i e h p r a h b s d o e st n r .B a so e mo e o o b e—l y rc n t cin,t e ih c mb n d te a p o c a e n d n i a d g d y i y me n ft d l f u l h d a e o s u t r o h
A b t a t Ac o d n o t e c a a trsiso h aa sr a , i p r p e e td a n w l se n lo t m s r c : c r i g t h h r ce it ft e d t te m h spa e r s n e e c u tr g a g r h GTCS c i i
数据流的挖掘要在有限的内存 中完成对数据的及时处理. 通过单次扫描机制 , 在内存中保存数据流的概要信
息 ,以支持后 续 的计 算 , 成挖掘 结果 的近似性 . 形 数据 流是一 个连续 、 在线 的过程 , 传统 的聚类 算法 无法 在数 据 流 中直接 应用 , 因此数 据流 的聚类对 数 据挖 掘 领域 提 出了前 所 未 有 的新 挑 战 , 也成 为许 多学 者 研究 的热
whc o i e h p r a h b s d o e st n r .B a so e mo e o o b e—l y rc n t cin,t e ih c mb n d te a p o c a e n d n i a d g d y i y me n ft d l f u l h d a e o s u t r o h
A b t a t Ac o d n o t e c a a trsiso h aa sr a , i p r p e e td a n w l se n lo t m s r c : c r i g t h h r ce it ft e d t te m h spa e r s n e e c u tr g a g r h GTCS c i i
数据流的挖掘要在有限的内存 中完成对数据的及时处理. 通过单次扫描机制 , 在内存中保存数据流的概要信
息 ,以支持后 续 的计 算 , 成挖掘 结果 的近似性 . 形 数据 流是一 个连续 、 在线 的过程 , 传统 的聚类 算法 无法 在数 据 流 中直接 应用 , 因此数 据流 的聚类对 数 据挖 掘 领域 提 出了前 所 未 有 的新 挑 战 , 也成 为许 多学 者 研究 的热
基于动态网格的数据流聚类分析

V0 . 5 No 1 12 . 1 NO . 2 0 V 0 8
基 于 动 态 网格 的数 据 流 聚 类分 析
何
摘
勇, 刘青宝
( 国防科 学技 术 大 学 信 息 系统 与 管理 学院 , 沙 40 7 ) 长 103 要 :提 出的增 量式数 据流 聚类 算 法 D C S结合 网格 和 密度技 术 , GD 能够得 到任 意形状 的聚 类 , 通过 改进 网格
密度的计算方式, 解决了现有网格算法中丢失数据空间影响信息的问题 , 并且实现了关键参数的 自适应设置, 减 小 了 工参数对聚类结果的影响。 人 关键词 :动态网格 ;网格密度 ; 数据流聚类; 聚类参数
中图分 类号 :T 3 1 P9 文献标 志码 :A 文 章编 号 :10 —6 5 20 ) 138.4 0 139 (0 8 1-2 10
提出的增量式数据流聚类算法dgcds结合网格和密度技术能够得到任意形状的聚类通过改进网格密度的计算方式解决了现有网格算法中丢失数据空间影响信息的问题并且实现了关键参数的自适应设置减小了人工参数对聚类结果的影响
第 2 第 1 期 5卷 1
20 0 8年 1 1月
计 算 机 应 用 研 究
Ap l ain Ree rh o mp tr p i t sac fCo ues c o
Dy a c g i — a e l se i g o e aa sra n mi rd b s d cu trn v rd t t m e
HEY n , igbo o g HU Qn —a
( o eefI o a o y e &M n gm n , a o l n e i D e eT hooy C agh 10 3 C i ) Clg n r t n sm l o fm i S t a a e et N t n i rt o e n e nl , h nsa 0 7 , h a i a U v sy f fs c g 4 n
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(a)
(b)
图1 网格单元的相连定义(a)4-connection论及展望
基于网格聚类方法的优点是它的处理速度快,因为 其速度与数据对象的个数无关,而只依赖于数据空间 中每个维上单元的个数,发现任意形状、任意大小的 簇、计算结果与数据输入顺序无关、计算时间与数据量 无关,同时不要求像k均值一样预先指定簇个数等。但 是,基于网格方法的聚类算法的输入参数对聚类结果影 响较大,而且这些参数较难设置。当数据中有噪音时, 如果不加特殊处理,算法的聚类质量会很差。而且,算 法对于数据维度的可伸缩性较差。 基于网格的聚类方法目前还存在一些急需解决的问 题,主要有以下几点:(1)当簇具有不同的密度时, 全局的密度参数不能有效发现这样的簇,需要开发具有 可变密度参数的算法。(2)对于不同类型数据的聚类 问题,比如对于高维数据,网格的数据将急剧增加,需
120
方法的代表性算法。WaveCluster处理低维空间数据, 它的性能超越了BIRCH、CLARANS,与DBSCAN等优 秀的聚类算法 [15]。CLIQUE考虑了高维子空间聚类, 但它的时间复杂度较高,需要用户指定全局密度阈 值。算法MAFIA[8]对CLIQUE进行了改进,为了减少聚 类算法需要处理的网格单元数目,MAFIA将均匀划分 网格中每一维上数据分布密度相似的相邻段合并,由 此得到一个不均匀划分的网格。这个网格在数据分布 较均匀的区域划分粒度大,在数据分布不均匀的区域 划分粒度小,这种不均匀划分网格的方法能够提高聚 类的质量,被后续的许多算法所采用。 采用由底向上的网格划分方法的优点在于,它能 通过对数据的一遍扫描,将数据压缩到一个网格数据 结构内,并基于这个网格数据结构,发现任意形状 的簇。此外,如果网格单元的粒度较小(即体积较 小),那么得到的聚簇的精度较高,但是算法的计算 复杂度较大。此外,由底向上的网格方法存在不适合 处理高维数据的问题。在高维空间,数据的分布是非 常稀疏的,网格方法失去其压缩作用,而且属于同一 个簇的高密度网格单元也可能不相连,这使聚类算法 不能发现合理数目的簇。 2.2 自顶向下的划分方法 自顶向下的网格划分方法采取分治的策略(divide and conquer principle),对数据空间进行递归划 分,使问题的规模不断减小。首先将原数据空间划分 为几个较大的区域。对于每个得到的区域,划分过程 反复执行,直到每个区域包含属于同一个簇的数据 点,那么这些区域就是最终的网格单元。基于自顶向 下网格方法的聚类算法直接将高密度网格单元识别为 一个簇,或是将相连的高密度网格单元识别为簇。 OptiGrid[9]与CLTree[10]是两个典型的基于自顶向 下网格划分方法的聚类算法。其中, OptiGrid则是用 空间数据分布的密度信息来选择最优划分。通过一个 密度函数来决定切割平面,可以将数据空间划分为规 则的或不规则单元,与传统的等间距的划分相比,可 以用此来解决高维聚类的问题。而CLTree用划分后的
3 基于网格的聚类过程
基于网格的聚类算法的基本过程是,首先将数据 空间W划分为网格单元,将数据对象集O 映射到网格 单元中,并计算每个单元的密度。根据用户输入的密 度阈值MinPts 判断每个网格单元是否为高密度单元, 由邻近的稠密单元组形成簇[11],如表1。 表1 基本的网格聚类算法
121
技术
信息增益来选取最优划分。 自顶向下划分方法的主要优点在于不需要用户 指定划分参数,而是根据数据的分布对空间进行划 分,因此这种划分更为合理。数据空间维度对自顶 向下网格方法的影响较小,可以快速将大型高维数 据集中的簇分隔开。这一类方法的计算复杂度与数 据集大小和维度都呈线性关系适合于处理高维数 据。由于划分是基于数据分布的,而通常认为噪音 是在整个空间均匀分布的,所以自顶向下划分方法 对噪音不敏感。但是,由于这种方法得到的网格单 元的体积远大于由底向上网格方法中的网格单元体 积,因此方法产生的簇的描述精度比由底向上的网 格方法得到的簇的描述精度要低。而且在自顶向下 的划分过程中,同一个簇可能被划分到不同的区域 中,最终得到的同一区域也可能包含不同的簇,这 样就进一步降低了算法的正确度。这类划分方法的 另一个缺点是它在划分过程中,需要对数据集进行 多次扫描。 而由底向上划分方法在于只需对数据集进行一次 线性扫描以及较高的簇的描述精度。因此,两类方法 适用于不同的问题。前者适于处理高维数据集,后者 能有效处理存取代价较大的超大型数据集与动态数 据。
为减少,而且单元增加与维数的关系由指数增长变为线 性增长,所以能进一步减少算法运行所需的时间,具 有较低的计算复杂度 [13]。其外,只有在非常特殊的情 况下,使用4-connection定义得到的聚类结果才会与 使用8-connection定义得到的聚类结果不同[14],这是 因为,当4-connection的网格单元是高密度网格单元 时,四个对角线上的网格单元不论是否是高密度网格单 元,都能被正确的聚类;只有当与对角线上的网格单元 相邻的2个网格单元同时为空且该单元本身是高密度网 格单元时,不能正确聚类,在划分网格时,通常都要求 网格单元的大小远小于簇的大小,因此可以认为这种情 况出现的可能很小。
ε 为用户输入的密度阙值,当
ε 时,该网格单元是—个密集网格单元。
相对于稠密网格单元来说,大多数的网格单元包含 非常少甚至空的的数据,这一类网格单元被称为稀疏网 格单元。大量的稀疏网格单元的存在会极大的降低聚类 的速度,需要在聚类之前对稀疏网格单元进行处理, 定义稀疏密度阈值为 θ ,当density> θ 时,该网格单元 是—个稀疏单元。对于稀疏网格单元的处理方法一般采 用压缩的方法或者直接删除的方法,如果需要保留稀疏 网格单元用于后续处理,可以使用压缩的方法;如果在 现有数据的基础之上直接聚类,可以删除稀疏网格单 元,理论分析和实验证明删除稀疏网格单元并不影响聚 类的质量[12]。 3.2 由稠密网格单元形成簇 在基于网格的聚类算法中,根据以上分析, 由邻接的稠密单元形成簇是相对直截了当的,这也是基 于网格的方法的优点之一。但是需要首先定义邻接单 元的含义。设n维空问中的存在任意两个网格单元U1和 U2,当这两个网格单元在—个维上有交集或是具有一 个公共面时,称它们为邻接网格单元。 在二维空间中,比较常使用的是4-connection 相邻定义和8-connection相邻定义(如图1), 4-connection更适合在聚类算法中使用。因为当寻找 某个网格单元的邻居时,在4-connection定义下,一 个网格单元只有2d个邻居,而在8-connection定义 下,有3d-1个邻居,当数据维度d较大时,这个数目非 常大。使用4-connection不仅参与计算的单元数目大
122
要有效地技术发现近邻单元。(3)当数据集的规模巨 大以及数据具有地理分布特性时,需要开发有效的并 行算法来提高处理的速度。(4)对现有网格算法的优 化,从不同方面提高网格算法的有效性。比如开发稀疏 网格的压缩算法、密度相似网格的合并算法等。 本文对基于网格的聚类方法的已有研究进行了分析 和总结,包括网格的定义与划分方法、网格单元密度的 确定、由邻接网格单元形成聚簇的聚类过程;最后对网 格聚类方法优点与局限性进行总结,在已有研究分析的 基础上,提出后续需要重点解决的问题。
[6]Wang W,Yang J,Muntz R.STING:A Statistical Information Grid Approach to Spatial Data Mining[C].In:Proceedings of the 23rd VLDB Conference.Athens,Greece,1997.186-195. [7]Sheikholeslami G,Chatterjee S,Zhang A.WaveCluster:A Multi-Resolution Clustering Approach for Very Large Spatial Databases[C]. In:Proceedings of the 24th VLDB Conference.New York,USA,1998.428-439. [8]Goil S,Nagesh H,Choudhary A.MAFIA:Efficient and Scalable Subspace Clustering for Very Large
M r 个网格单元。
基于网格聚类算法的第一步是划分网格结构,按 搜索子空间的策略不同, 主要有基于由底向上网格划 分方法的算法和基于自顶向下网格划分方法的算法。 2.1 由底向上的划分方法 由底向上的网格划分方法按照用户输入的划分参 数(即每维段数ki,1 ≤i ≤d),将数据空间均匀划 分为相等大小的网格单元,假设落入同一网格单元内 的所有数据点都属于同一个簇,每个网格单元保存落 入其内数据的统计信息,比如数据点个数,数据点之 和。包含一定数目数据点的网格单元被称为高密度网 格单元。 WaveCluster与CLIQUE是采用由底向上网格划分
1 引言
数据挖掘是指从大型数据库或数据仓库中提取 隐含的、未知的及有应用价值的信息或模式。它是 数据库研究中的一个很有应用价值的领域,融合了 数据库、机器学习、统计学等多个领域的理论和技 术 [1]。 聚类分析是数据挖掘中广为研究的课题之一,是 从数据中寻找数据间的相似性,并依此对数据进行 分类,从而发现数据中隐含的有用信息或知识。目 前已经提出了不少数据聚类算法,其中比较著名的 有CLARANS[2]、BIRCH[3]、DBSCAN[4]和CLIQUE[5] 等。但对于高维、大规模数据库的高效聚类分析仍然 是一个有待研究的开放问题。 网格方法是空间数据处理中常用的将空间数据离 散化的方法。基于网格的聚类算法由于易于增量实现 和进行高维数据处理而被广泛应用于聚类算法中。研 究人员已经提出了很多基于网格的聚类算法,包括 STING [6],它利用了存储在网格单元中的统计信息; WaveCluster [7] 它用一种小波转换方法来聚类数据对 象;CLIQUE在高维数据空间中基于网格和密度的聚类 方法等。 本文对已有的基于网格的聚类算法进行了研究, 从网格的表示,划分网格单元的方法,到统计网格内 信息,搜索近邻网格单元,聚类超过指定阙值的网格