基于网格技术的高精度聚类算法
基于网格技术的高精度聚类算法
邱保志1,2
?÷°2 710049
?£?Y 450052)
摘
要
提出了利用低密度单元中的点到高密度单元中心的距离作为判断聚类边界点和孤立点的技术
实验表明
聚类的精度高
可扩展性好
聚类
算法
Abstract
Key words
3 2006年2
月
February
2006
文章编号
3428(2006)03
02
文献标识码
TP311
1
概述
基于网格的聚类方法
[1]首先将数据空间分成不相交的网
格单元
相邻的高密度单元连接
在一起组成一个聚类
其优点是聚类的结果与输入数据的顺序无关
但该算法存在聚类
精度低的问题
那么这些点就会作为孤立点而被舍弃
本文提出了从低密度单元中
提取聚类边界点的技术
运行速度快
图1
聚类的边界点
主要表现在
不能准确地将聚类的边界点从
噪声数据中分离出来
就会造成聚类边界点的丢失原
因是随着维度的增加
对第2个缺陷已经有许多研究成果(见文献
[2~5])
虽然文献[2]中提出了将网格方法用于高维空间聚类
但都没有解决聚类
边界的问题
但算法的时间复杂度高
并将边界点归类于离它最近的高密度单元中
为此
聚类边界点分离技术
维数据集
不妨设第i 维上的值在区间
中
则
S
l 1,h
1
…
维数据空间
不相交的区间的段
这样将数据空间被分
割成
k d 个网格单元
i l i )/ k
i ,l i +j*
定义2 一个网格单元的相邻单元是那些与该单元有相邻边界的单元或有相邻点的那些单元
定义3 一个单元中数据点个数大于指定的阈值minspts 时反之称该单元为低密度单元即属于同一个聚类
所以要将这两个单元进行合并
定义4 如果一个低密度单元的所有邻居单元都是低密
基金项目
69803014邱保志(1964
男
副教授
数据
挖掘
教授
2005-01-23 E-mail
相关主题