一种基于网格密度的聚类算法
一种新型的基于密度和栅格的聚类算法

聚 类 是将 数 据 对 象 分 成 类 和 簇 的 过 程 , 同一 个 簇 中 的 对 使
Xl , 是 一 个 d维 数 据 空 间 。 1 h ) 定 义 2 栅 格 单 元 G 。 若 空 间 的 每 一 维 划 分 成 等 长 的 H 个 区 问 , 而 将 整 个 空 问 分 成 有 限个 不 相 交 且 大 小 相 等 从
d i1 .9 9 ji n 10 —6 5 2 1 . 5 0 6 o:0 3 6 /.s .0 13 9 . 0 10 . 3 s
No e l se i g a g rt m a e n g i n e st v lc u t rn l o ih b s d o rd a d d n i y
po o e h o bn t no e s ya d gi c s r g a oi m,t tw sD C ( e s y a d gi b sd c s r g a o rp s dtec m iai f n i n r l t n l r h o d t d u e i g t h a G A d n i n r a e l t i l — a t d u en g rh i m)w ih b sdo e st a dgi.T egv nag r h f sl iie aas aeit r s olw db tr gd t no t hc ae nd ni n rd h ie lo tm rt dvd d d t p c ogi ;fl e yso n aait y i i y n d o i
熊 仕 勇
( 重庆 邮 电大 学 软 件 学 院 ,重庆 4 0 6 ) 005
摘
要 :针对 网格和 密度 方 法的聚 类算 法存在 效 率和质 量 问题 , 出了密 度 与栅 格相 结合 的 聚类 挖掘 算 法 , 给 即
基于网格梯度的多密度聚类算法

算法采用 了一种共 享近邻 的思想来 定义 相似度 ( 于数据集 对 中每个点 , 找出距 离其最近 的 个邻 近点 , 形成一个集合 , 然后 考虑数据集 中的任 意两个点的 k个邻近点集合交集部分 的点
学习等 。聚类分析是数据挖掘 中一种非常重要的技术 和方法 , 是 自发、 无监督 的学 习过程 。通过聚类能够识别对象空 间中稠
第应 用 研 究
Ap l ain Ree rh o o ues pi t sac fC mp tr c o
Vo . 5 No 1 12 . 1 NO . 2 o V 08
基 于 网格梯 度 的 多密度 聚 类算 法 水
Ab ta t sr c :At r s n ,mo tcu t r g ag r h e oe t n h r i ay s a e a d df r n i l s r ,b t t sd m. ee t p s l se i lo t ms d v t o f d te a b t r h p n i e e ts e c u t s u i n i i r z e ii c l t e i h l — e st aa s t f cie y h s p p rp o o e h lo t m ih u e h d b s d c a a t r u t o d a w t t e mu t d n i d t e f t l .T i a e r p s d te ag r h whc s d t e l h i y ee v i — a e h r ce o a i i .F rt .i w p d o e n ieu i g t eGa s in s oh n t e u d te cu t r ih h d i l — e st aa fr pd t y is y t l e f t os sn u sa mo ti g, h n f n h lse c i mu t d n i d t i h h o wh n i y
基于网格和密度的模糊C均值聚类初始化方法

次, 对于聚类边界以及交叉数据的处理上 , 基于网格 和密度 的算
0 引 言
模糊 C 均值聚类 是 目前聚类 分析 中最 受欢迎 的算法 之一 。 它把聚类问题归结为一个 非线性规划 问题 , 利用交替 优化策 略
求 解 无 监督 分 类 问题 , 得 令 人 满 意 的 效 果 。然 而研 究 表 明模 取
Ab ta t sr c F z — a s cu t rnga g rt uz y c me n l se i l o hm s o e o he mo twi s r a l se ig a g rt i i n ft s de p e d c u t rn l oihm、 t ro ma c to l pe d n t e Ispef r n e srngy de n s o h
( hn q gIstt o ehtoy C ogig4 0 5 ,hn ) C og i tuefTcrlg , hn q 0 0 0 C i n ni o n a 。 C lg nom t nE gnen , ainU i rt, ain1 62 Lann C i ) ( ol eo fr ai n i r g D l nv sy D l 16 2,io i e fI o ei a ei a g,hn a
iiilp r me es To s l et i o e , n i ii ia in meho o uzy c me n l sei loih b s d o rd a d de iyi r p s d、 n ta a a tr . o v hsprblm a nta z to t d frf z — a s cu trngag rt m a e n g n nst sp o o e l i Grd a d d n i r e o e tac h lse ng c n e fs mp e , n nta ie t e i iilp r me e ff z y c me ns cu trng ag — i n e st a e us d t x r tt e cu tr e tr o a l s a d i ii z h nta a a tr o u z — a l se y i s l s i lo rt ihm. Exp rme ts o h tti eh d i e sbl n ai e i n h wst a h sm t o sf a i e a d v l d. Ke ywo ds r F z y c m e nscuse ng Grd De iy u z — a l tr i i nst
一种基于网格和密度的微粒群混合聚类算法

定义 2 两个 网格 单元 是紧相 连 的 , 当且仅 当 两个 网格
单元共有一个面 。
上, 借鉴密度 函数思想 , 出了一种新 的网格单元 密度 的计 算 提 方法 。此方法避免 了一般基 于网格 的方法 中对 数据点采取 简 单计 数的映射方式造成 的数 据点 之间联 系被割裂的情况。将 这种新 的网格单元密度 的计算方 法与微 粒群 算法相结 合 , 实 现 了一种基于 网格 和密度 的微粒群 混合 聚类算 法。最 后 , 本
1 引言
聚类是将物理或抽象对象的集合分组成为 由类似 的对 象
组成 的多个类 的过程 。聚类分析不仅是从大量数据 中获取知
目 , 前 很多研究者从提高算法 的效率 , 简化密度的计算等 角度 提出了将 以上两种 算法相 结合 的 聚类算 法 , 基本 q]其 思想 就是利用划分网格的方式 , 数据 空间离散化 , 将 并计算 网 格单元的密度值 。在此基 础上结合 基 于密度 的聚类方 法 , 实
现对 数据 集的聚类 。 目前 , 在大部分检索 到的将 基于 网格 的方 法与基 于密度 的方法相结合的文献 中, 都应 用 了两 个重要 定义或 其等 同概
念。
识的重要 手段 , 同时也是 数据挖 掘过程 中常常 采用 的技 术之
一
[l I
。
微粒群算 法是一种新 型的群体 演化算 法 , 最早源 于对 鸟
群觅食行为的模拟 。微粒 群算法 具有调 整参数 少 , ] 收敛速 度快等特点 。微粒群算 法不仅具有 全局 寻优 能力 , 通过调 整
参数还可 以具有较强的局部搜索能力 。 本文在分析现 有 的基 于网格 和密 度 的聚类 算 法 的基础
一种基于密度的网格动态聚类算法的研究

1 相 关 研 究
基 于 网格 的聚类算 法 由于易 于增 量实 现 和高维 数据 挖掘 而被 广泛 应用 于聚 类算 法 当中 , 今 为止 , 迄 已经 有很 多人 提 出 了基 于 密度 和 网格 的聚 类算 法 , D S A C R C IU 如 B C N、U E、LQ E等 算法 . C IU LQ E是 一种基 于 网格 和密 度 的聚类算 法 , 它是 一种 更广 泛 的子空 间 聚类 方 法 , 以通过 任 意 组 可 合来 产生 子空 间 , 将数 据投 影 到子空 间 中进行 聚 类 , 有 网格 类 算法 效 率 高 的优 点 , 且 可 以处 理 高 再 具 并 维 的数据 . 是在划 分 网格 时没有 考 虑数据 的分 布 , 而 导致 了聚类 质 量 的降低 . 但 从 ID A是一 种 基于 密度 的增 量 式 网格 聚类 算法 , 算法 通过 将 数据 空 间划 分成 体积 相等 的若 干 单 G C 该 元 , 而 有效 地 提高 了聚类 的效率 , 从 减低 了聚类 时 间 和 IO 开销 . 由于 它是 基 于 D C C N 的一 种算 / 但 B SA 法 的改进 , 可避免 具有 了 D S A 聚类算 法 的缺点 . 不 BCN
Vo| 1 No 1 l3 .
第3 卷 第 1 1 期
一
种基于密度的 网格动态聚类算法的研 究
焦 誉 赖建章 柯 , , 佳
205 ; 30 9 (. 1安徽行政学 院 信息管理 系 , 安徽 合肥
2 合肥工业大学 管理学院Байду номын сангаас, . 安徽 合 肥 2 00 ;. 3 0 9 3 安徽 中医学 院 计算机 系, 安徽 合肥 2 0 3 ) 30 7
基于密度的聚类和基于网格的两大聚类算法

第一个对象P进行扩张: Step 3.1:如果P不是核心节点.转Step 4;否则,对P 的E邻域内任一
未扩张的邻居q 进行如下处理 :如果q已在有序种子队列中且从P到 q的可达距离小于旧值,则更新q的
基于网格(dding-based)指将对象空间量化为有 限数目的单元,形成一个网格结构,所有聚类都 在这个网格结构上进行。
20
基于网格的聚类
基本思想是将每个属性的可能值分割成许多相邻 的区间,创建网格单元的集合(对于的讨论我们 假设属性值是序数的、区间的或者连续的)。
每个对象落入一个网格单元,网格单元对应的属 性区间包含该对象的值。
据点在邻域内的影响,被称为影响函数。 数据空间的整体密度(全局密度函数)可以被模拟为所有数据点的影响函数
的 总和; 聚类可以通过确定密度吸引点(density attractor)来得到,这里的密度吸引点
是全局密度函数的局部最大值。 一个点 x 是被一个密度吸引点 x*密度吸引的,如果存在一组点 x0,x1,
高层单元的统计参数可以很容易Fra bibliotek从低层单元的参数计算得到。
28
STING:统计信息网格
统计处理思想: 使用自顶向下的方法回答空间数据的查询
从一个预先选择的层次开始-通常包含少量的单 元,为当前层的每个单元计算置信区间 不相关的单元不再考虑 当检查完当前层,接着检查下一个低层次 重复这个过程直到达到底层
(1)对数据点占据的空间推导密度函数; (2)通过沿密度增长最大的方向(即梯度方向)移动,识别密度函数的局
部最大点(这是局部吸引点),将每个点关联到一个密度吸引点; (3)定义与特定的密度吸引点相关联的点构成的簇; (4)丢弃与非平凡密度吸引点相关联的簇(密度吸引点 x’称为非平凡密
一种基于网格密度的自适应聚类分析算法

的网格大小来划分问题空间 , 每个 网格保存 了落在其 内部 的
数据统计信息 , 然后在 网格上进行 聚类操 作。 由于网格 的数量
远小于数据点的数量 , 其运行 时间很 快。网格 的大小决定 了聚
类 效果 , 精细 的网格可能 导致 网格数量 的急剧增 加 , 时甚 至 有
超过了数据点的数量 , 这将 导致 计算时 间 的增加 ; 粗糙 的网格 导致 了聚类 质量的下降 , 时甚 至不 能找出不同的聚类 。 有
T e mo t r ai i f i n v l l o t m a a t r gt e s a ea d e tn fac u t r yu i g d,a d t e ay e e h s c e t t o s o e g r h w sc p u i h p n xe to lse sn vy t h a i n h b n n a lz d t h n h
一
课题 , 已被广泛应用于许多领域 。聚类能够在潜在 的数据 中发 现令 人感 兴趣的数据分布模 式。它将 数据对 象的集合 分组 为 多个类或簇 ; 同一个簇 中的对象彼 此相 似 , 与其他簇 中的对 而 象相异。通过聚类 , 能够 识别 出稀疏 的或稠密 的区域 , 从而 发
现全局分布模式以及数据 属性 之间有 趣 的相互关 系。对于 大
维普资讯
第2 4卷 第 8期
2 0 年 8月 07
计 算 机 应 用 研 究
Ap l a in Re e r h o o u e s p i t s a c fC mp t r c o
Vo . 4 No 8 12 . Au .2 0 g 07
d t a e n t e d d n i .I a s o l e c i h e ce c e a s fi i e r t o l xt .B t e r n lss aa b s d o h e st y t o c u d r a h h g f in y b c u e o s l a i c mp e i l i t n me y o t o y a ay i h h
基于网格的数据流聚类算法

种一次性扫描 的方法 和算法 , 如文[-4等等 , 1 - 1 但它们 的聚类 结果通 常是球形 的, 不能支持对任意形状类的聚类[ 。 5 ]
Gr d b s d Da a S r a u t rng Al o ih i - a e t t e m Cl se i g r t m LI QigB o DAI a F n DENG u Z U n — a o a Ch - S HANG e- ig W i n M
称为 p rmi t r e的结 构储存 下 来 。同时 , ya d i f me a m 使用 另一 个离线的 mar c se 过程 , 据用户 的具 体要求 对 m co co l tr - u 根 i r- c se 聚类 的结果 进行 再分析 。但 它采用 距 离作 为度 量参 l tr u 数, 聚类结果通 常是球 形 的, 不能 支持对 任意形状 类 的聚类 。
( le eo n om ain S se a d M a a e n ,N ain lUnv r i fDee eTe h oo y, a g h 1 0 3 Colg fI f r to y tm n n g me t to a iest o fns c n lg Ch n s a4 0 7 ) y
噪 声干扰 下发现任 意形状 的类, 而且有效地解决 了聚类算 法参数敏感和聚 类结果无法区分密度差异等 问题。
关键词
Ab ta t W i to g a i t rd s o e i g a b t a y s a e cu t r n a d i g n i e g i— a e a as r a cu t — sr c t s r n b l y f ic v rn r ir r h p l s e sa d h n l o s , rd b s d d t t e m l s e h i o n r g ag rt m f ce ty r s l e h s r b e o en e y s n ii e t h s r d f e a a e e s a d d fiu t t i lo ih ef in l e o v st e e p o lm fb i g v r e st o t e u e - e i d p r m t r n i c l o n i v n f d s ig ih t e d n iy d s i c in o l s e s it u s h e st it to f u t r . n n c Ke wo d Cl s e i g,Da a s r a ,Cl s e i a a t r y rs u t rn t te m u t rn p r me e ,Re ai e d n i g ltv e st y
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一种基于网格密度的聚类算法
摘要:提出了一种基于网格密度的聚类算法(dgca)。
该算法主要利用网格技术去除数据集中的部分孤立点或噪声数据,对类的边缘节点使用一种边缘节点判断函数进行提取,最后利用相近值的方法进行聚类。
实验表明,dgca算法能够很好地识别出孤立点或噪声,聚类结果可以达到一个较高的精度。
关键词:网格聚类;边界点;网格密度
中图分类号:tp312文献标识码:a文章编号:1672-7800(2012)012-0056-02
0引言
聚类是把一组数据按照相似性归成若干类别,它的目的是使得属于同一类别的个体之间的距离尽可能地小而不同类别上的个体间
的距离尽可能地大。
聚类的结果可以得到一组数据对象的集合,称其为簇或类。
簇中的对象彼此相似,而与其它簇中的对象相异。
迄今为止,已经提出了许多聚类算法,大体上这些算法可以分为基于距离的方法、基于层次的方法、基于密度的方法、基于网格的方法和基于模型的方法等。
基于网格的聚类算法首先将d维数据空间的每一维平均分割成等长的区间段,即把数据空间分割成一些网格单元。
若一个网格单元中所含数据量大于给定的值,则将其定为高密度单元;否则将其视为低密度单元。
如果一个低密度网格单元的相邻单元都是低密度
的,则视这个低密度单元中的节点为孤立点或噪声节点。
网格聚类就是这些相邻的高密度单元相连的最大集合。
1基本概念
1.1相近值
网格单元内节点之间的相近值是利用节点间的距离来计算的。
节点间的相近值越大,它们就越相似。
即对这些网格单元内的节点进行聚类时,它们属于同一个类的可能性就越大。
定义1节点集:设p=(u,k),我们用p表示n条记录的集合。
u={u1,u2,…,un}代表网格单元内的节点集
k={k1,k2,…,kr}代表网格单元内节点的属性
其中,i,i∈(1,2,…,n),kim,m∈(1,2,…,r)代表节点ui的第m个属性km,因此,用km代表一个r维的向量(ki1,ki2,…,kir),i∈(1,2,…,n)。
定义 2 相异值:任意两个节点ui与uj之间的相异值定义如下:d(i,j)=∑rm=1|kim-kjm|,i, j=1,2,…,n(1)定义 3 相近值:任意两个节点ui与uj之间的相近值定义如下:s(i,j)=maxdf-d(i,j)(2)其中,maxdf=max1≤i,j≤nd(i, j)代表网格单元中节点间的最大相异值。
1.2边缘节点判断函数
在传统的网格聚类算法中,将与高密度单元相邻的低密度单元中的节点作为孤立点或噪声数据丢弃,这样会丢失一些有用的边缘节
点。
为提高聚类的精度,在dgca算法中引入边缘节点判断函数minf (i),其定义如下:minf(i)=(maxsim1≤j≤n(i,j)+avesim (i))/2(3)其中,maxsim1≤j≤n(i,j)=max{j︱s(i,j),1≤j≤n},avesim(i)=1n∑nj=1s(i,j)
边缘节点函数borderf(i),其定义如下:borderf(i)=1hd∑hdi=1s(i,l)(4)其中,hd表示高密度单元中节点的个数。
边缘节点处理的方法是:如果一个高密度网格单元的相邻网格单元中有低密度单元,就使用边缘节点函数borderf(i)检查这些低密度单元中的节点i,如果borderf(i)的值大于等于设定的边缘节点判断函数值minf(i),那么判定节点i是此高密度单元的边界点,即i与此高密度单元中的节点属于一类。
这样就可以将有用的边缘节点提取出来,从而提高聚类的质量。
2dgca聚类算法
dgca聚类算法的基本思想:①将所有节点集u映射到数据空间相应的网格单元中;②根据用户输入的密度测试值minpts判断每个网格单元是低密度还是高密度网格单元,如果是高密度网格单元,则对其相邻的低密度网格单元中的节点,利用minf(i)判断各个节点是否为该高密度网格的边缘节点,如果是即提取边缘节点,如果不是就把该节点认为是孤立点或噪声数据;③根据用户输入的相近测试值minsim,对去除孤立点或噪声数据后的节点,使用相近值方法进行聚类,即如果任意两个节点的相近值s(i, j)大于或等
于给定的测试值minsim,就把这两个数据对象视为同一个类中的数据。
dgca算法如下:
输入:z,minpts,minsim
输出:类,孤立点或噪声数据
步骤1:根据用户输入的z值将整个数据空间x划分成zr个网格单元。
步骤2:将节点集u映射到网格单元中。
步骤3:逐一扫描每个网格单元,并记录每个网格单元中的节点个数cell[q].count(1≤q≤zr)。
步骤4:根据密度阈值将网格单元分为高密度单元和低密度单元。
步骤5:考虑每个高密度单元,如果其相邻网格单元有低密度的,利用边缘节点判断函数提取有用的边缘节点,低密度单元中剩余的节点作为孤立点或噪声数据丢弃。
步骤6:考虑高密度单元中的任意两个节点,如果其相似值大于给定的minsim值,则将这两个对象归于一类。
3实验结果与分析
本实验所使用的pc具有1g内存,奔腾ⅳcpu 2.40ghz,使用的操作系统是windows xp professional,算法是用vc++进行编程设计的。
3.1精度对比(综合数据集)
实验中图1对应的节点数据集是来自于参考文献,此节点集含有5 034条记录,从该图中可以直观地看到,此节点集应该被分为5类。
实验结果显示,算法dgca的结果是5个类,由于使用了边缘节点判断函数,孤立点或噪声被有效地识别出来,使得dgca算法的精度明显好于传统的网格聚类算法clique,dgca算法中的参数:z=100,minpts=10,minsim=198。
3.2时间对比
由于dgca算法的时间复杂度是o(n2),所以该算法的时间效率还有待改进。
4结语
本文提出了一种基于网格密度的聚类算法(dgca)。
该算法主要利用网格技术去除节点数据集中的部分孤立点或噪声节点,对类的边缘节点使用一种边缘节点判断函数进行提取,最后利用相近值的方法进行聚类。
实验表明,dgca算法与传统的聚类方法相比,聚类的精度有了很大的提高。
它不仅适用于综合节点数据集,而且对高维节点数据集也能够得到令人满意的聚类结果和聚类质量。
参考文献:
[1]罗静,刘宗歧.基于网格聚类算法的电力营销预测研究[j].科技信息,2012(3).
[2]邱保志,沈钧毅.基于扩展和网格的多密度聚类算法[j].控制与决策,2006(9).
[3]张鸿雁,刘希玉.一种网格聚类的边缘检测算法[j].控制与决策,2011(12).
[4]邱保志,沈钧毅.网格聚类中的边界处理技术[j].模式识别与人工智能,2006(2).
[5]levent ertoz,michael steinbach,vipin kumar.finding clusters of different sizes,shapes,and densities in noisy,high dimensional data[c].in siam international conference on data mining,2003.
(责任编辑:余晓)。