空间聚类的研究现状及其应用_戴晓燕

合集下载

空间聚类技术研究综述

空间聚类技术研究综述
数据 量之 大 、 型之 多 、 类 结构 之复 杂远 超 过 了人 脑 的分 析 能 力 … . 由此 造成 了空 间 数据 虽 多 , 知 识 贫乏 但 的局 面. 这些空 间 数 据 中发 现 领 域 知 识 的 迫 切 需 求 产 生 一 个 多 学 科 、 领 域 综 合交 叉 的新 兴 研 究 领 从 多 域—— 空 间数据挖 掘 J空间 数据挖 掘 ( pt lD t M nn ) 指 从 空 间数 据 库 中提 取 隐含 的 、 户感 兴 . S a a aa ii 是 i g 用 趣 的空间和 非空 间模式 、 普遍 特征 、 规则 和知识 的过程 l . 4 J
me h d ,h e ac ia t o s e st— a e t o s r — a e t o s t o s ir h c l r me h d ,d n i b d me h d ,g i b s d me h d ,mo e— a e t o s a d o h r . y s d d lb s d meh d n t e s Ke r s p t aa mi i g p t l s rn ,c u t ra ay i y wo d :s ai d t nn ,s ai cu ti g l se n ss l a l a e l
据统计 , 8 %以上的数据与地理位置相关. 有 0 事实上 , 大量的空间数据是从遥感 、 医疗影像 、 地理信息 系统 ( eg p i If ma o yt G or hc no t nS s m,G S 计算 机辅 助设 计 ( A ) 物流 系统 等 多种 应用 中收集 而来 , a r i e I )、 C D 、 其
[ 摘要 ] 空间数据挖掘是一种获取空间数据所蕴含知识的方法和技术. 空间聚类是空间数据挖掘的重要研究内容, 有着广泛

聚类算法在网络空间行为分析中的应用研究

聚类算法在网络空间行为分析中的应用研究

聚类算法在网络空间行为分析中的应用研究随着互联网的快速普及,网络空间已成为人们日常生活和社交活动的重要场所。

同时,由于网络空间的虚拟性和匿名性,也给网络安全与维护带来了很大的挑战。

因此,利用各种方法研究网络空间的行为分析已成为网络安全研究领域的一个重要研究方向。

而聚类算法作为一种数据挖掘方法,已被广泛应用于网络空间行为分析中。

一、聚类算法概述聚类算法是一种无监督学习方法,其目的是将相似的对象分组,并且不需要指定类别标签。

聚类算法可以从数据集中挖掘出潜在的密度较高的数据集,从而确定数据集中的内部和外部结构。

聚类算法被广泛应用于数据挖掘、模式识别、图像分析、生物信息学等领域。

二、聚类算法在网络空间行为分析中的应用在网络空间行为分析中,聚类算法可以帮助研究人员快速准确地找出某些网络行为的模式,并识别出违规行为。

比如,在网络攻击行为中,聚类算法可以帮助研究人员发现攻击的规律,从而加强网络安全防护。

在社交网络分析中,聚类算法可以帮助研究人员发现社交网络中用户之间的关联,识别出“活跃用户”、“潜在用户”等。

在具体应用方面,聚类算法可以被应用在以下几个方面:1.入侵检测聚类算法可以对网络流量进行聚类分析,识别出网络攻击或入侵事件。

在入侵检测中,聚类算法可以帮助研究人员建立黑名单和白名单,从而更加有效地识别出入侵者。

另外,在聚类分析中,研究人员可以发现一些异常的行为模式,从而查出那些可能隐蔽的入侵行为,提高网络的安全性和防范能力。

2.恶意软件检测恶意软件种类繁多,不同的恶意软件可能表现出不同的行为模式。

聚类算法可以对这些行为模式进行分类,帮助研究人员识别出各种不同类型的恶意软件。

通过聚类分析,可以找出各类恶意软件的特征,再采取相应的反制措施。

3.社交网络分析社交网络是一个庞大的、复杂的网络系统,其中包含大量的节点、链接和社交关系。

聚类算法可以帮助研究人员划分社交网络的群体结构和节点关系,从而更好地了解用户在社交网络中的行为。

聚类分析的现状与前景研究

聚类分析的现状与前景研究
模式。
影响力传播
通过聚类分析识别社交网络中具 有影响力的用户或群体,预测信 息或行为的传播路径和影响范围。
个性化推荐
聚类分析用于社交网络中的个性 化推荐,根据用户兴趣和行为将 用户划分为不同的群体,提供个
性化的内容推荐和好友推荐。
03
聚类分析的关键技术
K-means聚类
定义
K-means聚类是一种基于距离的聚类算法,通过迭代将数 据划分为K个集群,使得每个数据点与其所在集群的中心 点之间的距离之和最小。
感谢您的观看
THANKS
未来发展方向与前景
深度学习与聚类分析的结 合
深度学习在特征学习和表示方面具有优势, 可以与聚类分析结合,提高聚类的准确性和 效率。
无监督学习与半监督学习的 发展
无监督学习和半监督学习在聚类分析中具有广泛的 应用前景,未来可以进一步发展相关算法和技术。
大数据处理技术
随着大数据时代的到来,如何处理大规模数 据并实现高效的聚类分析是未来的重要研究 方向。
优点
简单易行,计算效率高,适用于大数据集。
缺点
需要预先设定集群数量K,对初始聚类中心敏感,可能陷 入局部最优解。
DBSCAN聚类
定义
DBSCAN聚类是一种基于密度的聚类算法,通过识别高密度区 域和连接这些区域的低密度区域来形成聚类。
优点
能够发现任意形状的聚类,对异常值具有较强的鲁棒性。
缺点
对密度参数和半径参数敏感,需要手动调整。
缺点
需要手动调整密度阈值参数,计算复杂度较高。
基于网格的聚类
定义
01
基于网格的聚类算法将数据空间划分为一系列网格单元,然后
在网格单元上进行聚类。
优点

空间聚类分析及应用

空间聚类分析及应用

空间聚类分析及应用空间聚类分析是一种分析空间数据的方法,其主要目的是将具有相似属性的空间对象聚集到一起。

在空间聚类分析中,通常使用距离度量来衡量空间对象之间的相似性,并基于相似性构建聚类模型。

聚类模型可以将空间数据划分为不同的群集,每个群集内的空间对象具有相似的特征。

空间聚类分析在许多领域中都有广泛的应用。

以下是几个常见的应用领域:1. 城市规划:空间聚类分析可以用于确定城市中心或商业区的位置。

通过分析空间数据,能够找到具有相似特征的区域,从而帮助决策者做出最佳的规划决策。

2. 环境研究:研究人员可以使用空间聚类分析来识别环境热点区域。

例如,在研究环境污染时,可以通过聚类分析找到受污染程度相似的区域,以便采取相应的对策。

3. 交通规划:空间聚类分析可以用于交通规划,例如确定最佳的公共交通线路或站点。

通过聚类分析,可以识别出相对集中的人口区域,从而优化交通设施的布局。

4. 电子商务:在电子商务中,空间聚类分析可以帮助企业确定最佳的销售区域。

通过分析潜在客户的空间分布,可以找到潜在市场的热点区域,以便开展精确的市场推广活动。

在实际的空间聚类分析中,通常使用不同的聚类算法来实现。

以下是几个常用的算法:1. K-means算法:K-means算法是一种常见的聚类算法,也适用于空间聚类分析。

该算法通过迭代计算空间对象与聚类中心之间的距离,并将对象划分到最近的中心点所代表的聚类中。

2. DBSCAN算法:DBSCAN算法是一种密度聚类算法,它能够自动发现具有不同密度的簇。

该算法通过定义邻域半径和最小对象数来确定核心对象,并将其他对象划分到核心对象的簇中。

3. 层次聚类算法:层次聚类算法通过逐步合并或分割聚类来构建聚类层次结构。

该算法可以根据不同的相似性度量和连接方式来实现,例如单链接、完全链接和平均链接。

总之,空间聚类分析是一种有力的数据挖掘工具,可以帮助我们理解和利用空间数据。

通过深入研究和应用空间聚类分析,我们能够更好地理解和管理空间相关的问题,并为决策提供科学依据。

空间大数据分析技术研究与应用分析

空间大数据分析技术研究与应用分析

空间大数据分析技术研究与应用分析一、引言随着互联网的发展和计算机技术的飞速进步,大数据分析技术已经被广泛应用于各行各业。

在这个发展的大潮中,空间大数据分析技术逐渐受到了人们的关注和重视。

空间大数据分析技术是将空间数据与大数据相结合,采用各种统计学、计算机科学、地理信息系统等技术手段,对大规模的空间数据进行处理和分析,以揭示其内在规律和特征。

本文将探讨空间大数据分析技术的研究现状和应用分析。

二、空间大数据分析技术的研究现状空间大数据分析技术经过了多年的发展,取得了一系列重要的研究成果。

以下是一些主要的研究成果:1、空间数据挖掘技术空间数据挖掘技术是一种大数据分析技术,它是将空间数据与数据挖掘相结合,通过各种算法对空间数据进行分析和挖掘,以发现数据中的隐藏规律和关联关系。

例如,通过对交通流量数据进行聚类分析,可以将城市中的交通拥堵点进行识别和预测。

2、空间数据可视化技术空间数据可视化技术是将空间数据以可视化的形式呈现,帮助用户更好地理解和分析空间数据。

例如,通过地图软件将房价数据以热力图的形式展示出来,可以直观地看出不同地区的房价分布情况。

3、空间数据流分析技术空间数据流分析技术是一种实时处理空间数据的技术,它可以对空间数据进行实时分析和处理,以满足实时决策的需要。

例如,在城市交通领域应用空间数据流分析技术,可以实时监测和优化城市路网的交通情况。

三、空间大数据分析技术的应用分析空间大数据分析技术已经在众多领域得到了广泛应用,以下是一些主要的应用场景:1、城市交通随着城市化程度的不断提高,城市交通问题变得越来越突出。

在这种情况下,利用空间大数据分析技术可以优化城市交通系统,提高路网计算能力和减少交通拥堵。

例如,美国芝加哥交通管理局采用空间大数据分析技术对城市交通进行实时监测和分析,以优化交通状况,提高交通效率。

2、生态环保空间大数据分析技术在生态环保领域的应用也非常广泛。

以地表覆盖分析为例,可以通过分析卫星图像、无人机图像和地形数据等空间数据,建立地表覆盖分类模型,进行水土保持、森林保护和生态修复等工作。

基于机器学习的子空间聚类算法研究与应用

基于机器学习的子空间聚类算法研究与应用

基于机器学习的子空间聚类算法研究与应用随着数据量的不断增长,传统的聚类算法已经无法满足对大规模数据进行快速而准确的聚类的需求。

在这种情况下,基于机器学习的子空间聚类算法被提出,并且得到了广泛的研究与应用。

在传统的聚类算法中,数据点之间的距离是通过欧几里得空间中的距离来计算的。

然而,随着数据维度的增加,欧几里得空间中的距离会变得越来越稀疏,从而导致聚类算法的准确性下降。

基于机器学习的子空间聚类算法解决了这个问题。

子空间聚类算法基于假设,即数据点可以分布在低维子空间中。

因此,对于高维数据,子空间聚类算法会将其分解为多个低维子空间,并在各个子空间中进行聚类。

这种聚类方法在处理高维数据时表现极为出色。

它对空间的局部结构和复杂度作出了准确而合理的模型假设,从而对数据进行分析时能提高精度和有效性。

在子空间聚类算法中,首先需要确定子空间的维度。

传统的方法是通过人工指定维度值来实现,但这种方法需要经验和技巧,效果不稳定。

近年来,基于机器学习的自适应子空间聚类算法被提出,使实现过程更智能化。

自适应子空间聚类算法通过结合聚类结果和数据分布特征,自适应地确定每个子空间的维度。

这种方法能够使聚类结果更加准确、稳定和有效,同时能够避免人工决策的不确定性,提高计算效率。

除了自适应子空间聚类算法,还有一些其他的基于机器学习的子空间聚类算法,比如谱聚类、核聚类、对比传播聚类等。

这些算法都有着不同的适用范围和应用场景,但它们的基本思路都是相似的。

通过有效的降维和聚类方法,它们能够对高维数据进行准确、稳定、有效的聚类,为实际应用提供了有力的支持。

在实际应用中,子空间聚类算法已经被广泛地应用于网络安全、图像识别、音视频分析等领域。

例如,基于子空间聚类算法的网络异常流量检测系统、基于子空间聚类算法的人脸识别系统等。

这些应用展示了子空间聚类算法的巨大潜力和实际价值。

总之,基于机器学习的子空间聚类算法是一种有效的高维聚类方法。

通过自适应子空间聚类算法等技术手段,可以进一步提高算法的准确性、稳定性和效率。

聚类分析的现状与前景研究

聚类分析的现状与前景研究

聚类分析的现状与前景研究聚类分析是一种常用的数据分析方法,旨在将相似的样本对象划分到同一类别中,同时确保不同类别之间的差异性最大化。

聚类分析在多个领域中得到了广泛应用,例如数据挖掘、生物学、社会网络分析等。

本文将从两个方面来探讨聚类分析的现状和前景研究。

首先,聚类分析的现状研究主要包括算法改进、应用拓展和可解释性提高等方面。

在算法改进方面,研究者们提出了许多新的聚类算法,例如谱聚类、密度聚类和基于密度的聚类等。

这些算法相对于传统的聚类算法具有更高的效率和准确性。

在应用拓展方面,聚类分析已经从传统的数值数据拓展到非数值数据,如文本、图像和网络数据等。

这些非数值数据的聚类分析需要基于特定的相似性度量和特征提取技术。

在可解释性提高方面,研究者们提出了一些辅助分析技术,例如聚类集成、聚类验证和聚类可视化等。

这些技术可以帮助用户更好地理解和解释聚类结果。

其次,聚类分析的前景研究主要包括深度学习、不确定性处理和多源数据融合等方面。

深度学习是近年来兴起的一种机器学习方法,通过自动学习数据表征来完成聚类任务。

深度学习的出现将极大地推动聚类分析的研究和应用。

不确定性处理是一种新的聚类分析思想,旨在处理数据中的不确定性信息。

不确定性处理可以提供更加准确和可信的聚类结果。

多源数据融合是将来聚类分析的一个重要方向,因为在许多实际应用中,数据往往来自于多个数据源,通过将不同数据源的信息进行融合,可以提高聚类分析的准确性和稳定性。

总之,聚类分析作为一种常用的数据分析方法,在现状研究方面已经取得了许多成果,在算法改进、应用拓展和可解释性提高等方面都有了显著进展。

而在未来的前景研究中,深度学习、不确定性处理和多源数据融合等将是主要的研究方向。

这些研究将进一步推动聚类分析在各个领域的应用,并为实际问题的解决提供更加准确和可靠的方法和工具。

基于GIS的空间聚类算法研究

基于GIS的空间聚类算法研究

基于GIS的空间聚类算法研究摘要:随着地理信息系统(GIS)技术的快速发展,越来越多的空间数据被应用于各种领域的研究和决策。

空间聚类算法是一种重要的数据挖掘技术,在GIS领域也得到了广泛的应用。

本文主要探讨了基于GIS的空间聚类算法的研究现状和发展趋势,对当前常用的几种空间聚类算法进行了比较和总结,并对其在不同领域的应用进行了探讨,最后对未来的研究方向提出了展望。

关键词:GIS,空间聚类,数据挖掘技术,研究现状,发展趋势一、引言地理信息系统(GIS)技术是一种将空间数据与属性数据相结合的综合信息处理技术,它已经被广泛应用于城市规划、环境管理、资源监测等领域。

随着大数据时代的到来,越来越多的空间数据被收集和处理,怎样高效地从中挖掘出有用的信息成为了一个热门的研究方向。

空间聚类算法作为一种重要的数据挖掘技术在GIS领域得到了广泛的应用和研究。

二、常用的空间聚类算法1.基于密度的聚类算法基于密度的聚类算法主要通过计算数据点的密度来判断其是否属于一个簇。

其中最著名的算法是DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法,该算法通过将空间数据点划分为核心点、边界点和噪音点,实现了对不同密度的空间数据点进行聚类。

2.基于网格的聚类算法基于网格的聚类算法主要是将空间数据划分为一系列的网格,然后根据网格中的数据点数量来进行聚类。

其中一种常用的算法是STING (Statistical Information Grid)算法,该算法通过计算每个网格中数据点的均值和标准差来判断其是否属于一个簇。

3.基于层次的聚类算法基于层次的聚类算法主要是通过计算数据点之间的相似性来判断其是否属于一个簇,并将数据点逐级聚合成簇。

其中一种常用的算法是BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)算法,该算法通过构建一棵多叉树来实现对空间数据点的层次聚类。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

空间聚类的研究现状及其应用*戴晓燕1 过仲阳1 李勤奋2 吴健平1(1华东师范大学教育部地球信息科学实验室 上海 200062)(2上海市地质调查研究院 上海 200072)摘 要 作为空间数据挖掘的一种重要手段,空间聚类目前已在许多领域得到了应用。

文章在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。

关键词 空间聚类 K-均值法 散度1 前言随着GPS、GI S和遥感技术的应用和发展,大量的与空间有关的数据正在快速增长。

然而,尽管数据库技术可以实现对空间数据的输入、编辑、统计分析以及查询处理,但是无法发现隐藏在这些大型数据库中有价值的模式和模型。

而空间数据挖掘可以提取空间数据库中隐含的知识、空间关系或其他有意义的模式等[1]。

这些模式的挖掘主要包括特征规则、差异规则、关联规则、分类规则及聚类规则等,特别是聚类规则,在空间数据的特征提取中起到了极其重要的作用。

空间聚类是指将数据对象集分组成为由类似的对象组成的簇,这样在同一簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大,即相异度较大。

作为一种非监督学习方法,空间聚类不依赖于预先定义的类和带类标号的训练实例。

由于空间数据库中包含了大量与空间有关的数据,这些数据来自不同的应用领域。

例如,土地利用、居住类型的空间分布、商业区位分布等。

因此,根据数据库中的数据,运用空间聚类来提取不同领域的分布特征,是空间数据挖掘的一个重要部分。

空间聚类方法通常可以分为四大类:划分法、层次法、基于密度的方法和基于网格的方法。

算法的选择取决于应用目的,例如商业区位分析要求距离总和最小,通常用K-均值法或K-中心点法;而对于栅格数据分析和图像识别,基于密度的算法更合适。

此外,算法的速度、聚类质量以及数据的特征,包括数据的维数、噪声的数量等因素都影响到算法的选择[2]。

本文在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。

2 划分法设在d维空间中,给定n个数据对象的集合D 和参数K,运用划分法进行聚类时,首先将数据对象分成K个簇,使得每个对象对于簇中心或簇分布的偏离总和最小[2]。

聚类过程中,通常用相似度函数来计算某个点的偏离。

常用的划分方法有K-均值(K-means)法和K-中心(K-medoids)法,但它们仅适合中、小型数据库的情形。

为了获取大型数据库中数据的聚类体,人们对上述方法进行了改进,提出了K-原型法(K-prototypes method)、期望最大法EM(Expectation Maximization)、基于随机搜索的方法(ClAR ANS)等。

K-均值法[3]根据簇中数据对象的平均值来计算———————————————*基金项目:国家自然科学基金资助。

(资助号:40371080)收稿日期:2003-7-11第一作者简介:戴晓燕,女,1979年生,华东师范大学地理系硕士研究生,主要从事空间数据挖掘的研究。

·41·2003年第4期 上海地质Shanghai Geology相似度,将簇中对象的平均值(或称为质心)作为簇中心。

算法首先在n 个数据对象中随机选择k 个对象,每个对象代表了一簇的平均值;对余下的每个对象,根据其与各个簇中心的距离,按距离最小的原则,将它们分配给最近的簇;在此基础上,重新计算每个簇的平均值;如此往复,直到误差平方和的值最小,即:E =∑kj =1∑i l ∈Cj ︳i l -w j ︳2的值最小,此时,簇中的成员不再发生变化。

式中,il 是给定的数据对象,wj 是簇Cj 的平均值。

其时间复杂度为O (nkt ),其中,n 是数据对象的个数(下同),k 是簇的个数(下同),t 是迭代次数。

该法在实际工作中得到了广泛的应用。

例如,Lucchese 和Mitra 利用K -均值法实现了对彩色图像的非监督分割[4];Linde 和Buzo等人则在对K -均值法修改的基础上,提出了用于图像压缩的LB G 算法[5];Tapas 和David 等人根据kd -树的数据结构特征对K -均值法进行了改进,提出了一种简单而有效的过滤算法(filtering algo -rithm )[6],并将它应用于色彩定量化、数据压缩和图像分割,取得了较好的效果。

此外,Steinbach 的研究也表明,分层划分的K -均值法也适合于文本聚类[7]。

然而,运用该法进行聚类时,其缺点是容易陷入局部最优解,很难找到全局最优解,且对噪声和异常数据敏感,因而限制了其应用范围。

K -中心法将簇中位置最中心的对象作为簇中心,其目的是消除K -均值法对于孤立点的敏感性。

例如,PAM (Partitioning around Medoid )[8]是一种早期提出的K -中心法,该法首先从n 个数据对象中随机选择k 个对象作为初始中心点,进而分析所有可能的对象对,用产生误差平方和值减少的对象代替原来的中心点;迭代过程中产生的最佳对象集就成为下次迭代的中心点,直到误差达到最小。

其每步迭代的时间复杂度为O (k (n -k )2)。

与K -均值法相比,其效率较低。

与前述方法相比,基于选择的方法CLARA(Clustering Large Applications )[8]则适合处理数据量较大的情形。

计算过程中,首先从数据库中随机提取多个样本,对每个样本应用PAM 法选择中心点,在此基础上,选择误差值最小的中心点集合,将误差最小的聚类结果作为输出。

聚类的质量即平均相异度根据整个数据集中的所有对象计算。

CLARA 法每步迭代的时间复杂度为O (ks 2+k (n -k )),其中,s是样本的大小。

然而,运用该法聚类时,若采样的均匀性较差,那么,基于样本的最优聚类结果并不能代表整个数据集合的最优聚类,因而就不能得到最佳的聚类结果。

而ClARANS (Clustering Large Applications basedupon Randomized Search )[9]法则是一种基于随机搜索的方法,其优点是一方面改进了CLARA 的聚类质量,另一方面拓展了数据处理量的伸缩范围。

CL AR ANS 法与CL ARA 法的本质区别在于CLARA 法在搜索的开始是抽取节点的样本,而CLARANS 法在搜索的每一步是抽取邻居的样本。

Ng 与Han 的研究表明[9],与PAM 和CLARA 法相比,Cl A R ANS 法的聚类效果明显占优,但其时间复杂度仍为O (n 2),因此,低效仍是其存在的缺点之一。

为此,Ester 等人在已有研究的基础上,利用R *-树和聚焦技术来改善其效率[10],取得了明显的成效。

此外,Ng 与Han 对ClARANS 法进行了改进,提出了空间属性占优法(Spatial Dominant Approach )和非空间属性占优法(Non -Spatial Dominant Ap -proach ),其主要思想是假定输入的空间数据库同时包含空间属性和非空间属性数据,利用CLARANS 法来处理空间属性数据,用DBLE AR N 法来处理非空间属性数据。

DBLE AR N 的实质就是从非空间属性数据中挖掘出有用的信息和知识,根据学习要求,首先用SQL 查询抽取相关维的一个集合,随后,在属性概念分层的基础上循环地概括维。

空间属性占优法首先利用CLAR ANS 法进行空间聚类,并用启发式算法来确定簇的自然个数,然后利用DB LE ARN 对每个簇进行非空间属性概括,它侧重于发现空间簇的非空间特征。

与空间属性占优法不同,非空间属性占优法侧重于发现存在于非空间数据集中的空间簇。

算法首先使用DBLEAR N 对非空间属性进行概括,在此基础上,运用CLAR ANS 法进行空间聚类。

Ng 与Han 通过对Vancouver 地区住房单元数的聚类研究表明,运用这两种方法来处理空间属性数据,效果十分明显[9]。

3 层次法该法通过对给定的数据对象集按层次进行分解,形成一棵以数据子集为节点的树。

层次法可分为凝聚和分裂两类方法。

运用凝聚法进行聚类时,·42· 上海地质Shanghai Geology 总第88期首先将每个数据对象视为一个簇,然后根据某些准则(例如,两个子簇中心的距离),由低向上,直到所有子簇被合并成为一个簇,或满足某个终止条件。

分裂聚类则相反,该法首先将所有数据对象放在一个簇中,然后按照两个子簇中心距离最小准则,将一个簇分裂为若干个子簇,直至每个对象自成一簇,或达到某个终止条件。

AGNE S(Agglomerative Nesting)和DIANA(Divisive Analysis)是早期的层次聚类方法,前者是一种凝聚的层次聚类方法,后者是一种分裂的层次聚类方法,两者都使用简单的准则即根据各簇间距离度量来合并或分裂簇。

由于这两种方法在选择合并或分裂点时有一定困难,并且所进行的合并或分裂的步骤不能被撤消,簇之间也不能交换对象,就会导致发现错误的簇而降低聚类质量。

同时,这种方法没有很好的可伸缩性。

因此,人们在对这两种方法概括和总结的基础上,提出了一些新的层次聚类算法,如BIRC H(Balanced Iterative Reducing and Clustering Using Hierarchies)法,CURE(Clustering Using Representatives)法和C HAMELE ON法。

BIRC H[11]法是一种综合的层次聚类法,聚类过程中,首先运用CF树将数据对象压缩为许多子簇,然后用划分法来提高聚类精度。

此法适合对大型数据库中数据的处理,尤其是空间数据库,其主要原因在于它采用了一种多阶段聚类技术,即扫描一次数据集合就可以产生一个基本的聚类,多次扫描就可以逐步改善聚类质量。

算法的时间复杂度为O(n)。

实验结果揭示了BIRC H法在所需内存大小、运行时间、聚类质量、稳定性和伸缩性方面都胜于CLARANS法和K-均值法[13]。

然而,由于C F树的每个节点只能包含有限数目的子簇,因此一个CF 树的节点并不总对应于用户所认为的一个自然簇,且由于BIRCH法定义了子簇直径的概念,因而对非球形簇情形的聚类效果较差。

CURE[12]法和CHAMELE ON[13]法利用较为复杂的准则进行合并或分裂簇,极大地提高了聚类的准确性。

相关文档
最新文档