一种基于网格密度的聚类算法
大模型 聚类方法

大模型聚类方法全文共四篇示例,供读者参考第一篇示例:大模型聚类方法是一种通过聚类算法对大规模数据进行处理和分析的方法。
随着互联网的快速发展和信息技术的不断进步,人们对大数据的需求日益增加,而大模型聚类方法正是为了应对这种需求而应运而生的。
大模型聚类方法主要包括基于划分的聚类、基于层次的聚类、基于密度的聚类和基于网格的聚类等。
基于划分的聚类方法通过将数据划分成不同的簇,每个簇包含一组相似的数据点,然后不断迭代直到找到最佳的簇;基于层次的聚类方法通过不断合并或分裂数据点来生成树状结构,从而实现数据的聚类分析;基于密度的聚类方法则是根据数据点的密度来进行聚类,密度越大的点越有可能成为簇的核心;而基于网格的聚类方法则是将数据点划分成不同的网格单元,然后根据相邻网格单元之间的相似性进行聚类。
在实际应用中,大模型聚类方法有着广泛的应用。
在金融领域,大模型聚类方法可以用来发现和预测股票价格的波动规律,帮助投资者做出更准确的投资决策;在医疗领域,大模型聚类方法可以用来对医疗图像、病历数据等进行分析和处理,从而帮助医生做出更科学的诊断和治疗方案;在零售领域,大模型聚类方法可以用来对客户偏好、购买行为等数据进行分析,帮助零售商更好地进行市场定位和产品推广。
要想有效地应用大模型聚类方法,需要克服一些挑战和问题。
大规模数据的处理和分析需要消耗大量的计算资源和存储资源,因此需要有足够的硬件设备和技术支持;大模型聚类方法的实现和调试需要具有一定的专业知识和技能,因此需要具备相关领域的专业人才;大模型聚类方法在应用过程中可能会遇到一些数据质量问题、数据不平衡问题等,需要通过数据清洗、特征选择等方法来解决。
大模型聚类方法是一种强大的数据处理和分析工具,可以帮助人们更有效地挖掘和利用大规模数据中的信息,为各行各业的发展提供有力支持。
在未来,随着人工智能、大数据等领域的不断发展和进步,大模型聚类方法的应用范围和效果也将不断拓展和提升,为人们带来更多的便利和价值。
聚类分析的现状与前景研究

影响力传播
通过聚类分析识别社交网络中具 有影响力的用户或群体,预测信 息或行为的传播路径和影响范围。
个性化推荐
聚类分析用于社交网络中的个性 化推荐,根据用户兴趣和行为将 用户划分为不同的群体,提供个
性化的内容推荐和好友推荐。
03
聚类分析的关键技术
K-means聚类
定义
K-means聚类是一种基于距离的聚类算法,通过迭代将数 据划分为K个集群,使得每个数据点与其所在集群的中心 点之间的距离之和最小。
感谢您的观看
THANKS
未来发展方向与前景
深度学习与聚类分析的结 合
深度学习在特征学习和表示方面具有优势, 可以与聚类分析结合,提高聚类的准确性和 效率。
无监督学习与半监督学习的 发展
无监督学习和半监督学习在聚类分析中具有广泛的 应用前景,未来可以进一步发展相关算法和技术。
大数据处理技术
随着大数据时代的到来,如何处理大规模数 据并实现高效的聚类分析是未来的重要研究 方向。
优点
简单易行,计算效率高,适用于大数据集。
缺点
需要预先设定集群数量K,对初始聚类中心敏感,可能陷 入局部最优解。
DBSCAN聚类
定义
DBSCAN聚类是一种基于密度的聚类算法,通过识别高密度区 域和连接这些区域的低密度区域来形成聚类。
优点
能够发现任意形状的聚类,对异常值具有较强的鲁棒性。
缺点
对密度参数和半径参数敏感,需要手动调整。
缺点
需要手动调整密度阈值参数,计算复杂度较高。
基于网格的聚类
定义
01
基于网格的聚类算法将数据空间划分为一系列网格单元,然后
在网格单元上进行聚类。
优点
一种基于密度的高性能增量聚类算法

利用密度和 网格 技术对 数据进行聚类 () 3改变 闽值后提 L一种增量 算法 ,只对 受影响的点重新 计算聚类 。() n 4在动态环境下,数据增删后的
增量聚类算法。实验征明 ,该算法能很好地处理高维数 ,有效过 滤噪声 数掘 ,大大节省聚类时 间。 关健词 :数据挖掘 ;聚类算法 ;密度 ;增量算法
po o e n ice na lo。h t e ac lt aaa e td o l.( te aa is rin o eein i y a c e i mel rp s sa n rme t lag ltm O rc luae d t f ce ny 41Af rd t n e t rd lto n d n mi nvr i o on ,,ma ig u e o t kn s f
(. p. f mp tr ce c n n ie r g S a g a Ja tn I De t o Co ue in ea dE g n ei , h n h i i o gUnv ri , h n h i 0 0 0 2 OrceC ia S a g a 2 0 2 ) S n o iest S a g a 2 0 3 ; . a l h n , h n h i 0 0 1 Y
i c e n a l o ih t e c u trd t . e e p i n ss o t a h e a g rt m a fi i n l r c s i h di n i n l aa wih n ie a d n r me t la g r t m O r — l se a a Th x m。 me t h w h tt e n w l o i h c n e fc e t p o e s h g me s o a t t o s n y d s e du nn ral. p e p mi i g g e t y
密度聚类算法详解课件

04
密度聚类算法在数据挖掘中的应用 场景
在图像分类中的应用
01
总结词
密度聚类算法在图像分类中能够有效地识别和区分不同类别的图像。
02
详细描述
通过构建像素之间的相似性矩阵,密度聚类算法可以发现图像中的密集
区域和稀疏区域,从而将不同的图像分为不同的类别。
03
应用案例
DBSCAN算法可以用于图像分类,例如在人脸识别、物体识别等应用中
密度聚类算法详解课件
目录
CONTENTS
• 密度聚类算法概述 • DBSCAN算法详解 • DENCLUE算法详解 • 密度聚类算法在数据挖掘中的应用场景 • 密度聚类算法的优缺点及未来发展趋势
01
密度聚类算法概述
定义与背景
定义
密度聚类算法是一种基于数据密 度的聚类方法,通过搜索数据空 间中的密集区域来发现聚类。
参数与优化策略
参数
DENCLUE算法的主要参数包括高斯混合模型的组件数、高斯分布的协方差矩阵 、迭代次数等。这些参数需要根据具体数据集和问题进行调整和优化。
优化策略
在算法的迭代过程中,可以使用EM算法来优化高斯混合模型的参数,以及使用 K-means算法来对密度分布进行聚类。此外,可以使用一些启发式方法来初始化 高斯混合模型的参数,以提高算法的性能。
DENCLUE(Density based Clustering based on Locally Aggregated Mode Learning)是一种基于密度的聚类算法 。它通过学习局部模式的密度分布来进行聚类。
数学模型
该算法主要基于概率密度估计,通过学习数据的局部密度分 布来进行聚类。它使用一个高斯混合模型(GMM)来估计数 据的局部密度分布,并使用一个聚类算法(如K-means)对 估计的密度分布进行聚类。
四类传统聚类算法简介

- leaf balance L •Parameter: T
BIRCH algorithm
•
An example of the CF Тree Initially, the data points in one cluster.
root A
A
BIRCH algorithm
root •
An example of the CF Тree The data arrives, and a check is made whether the size of the cluster does not exceed T.
传统聚类算法
• 基于划分的方法
• K-means算法
• 基于密度的方法
• DBSCAN算法
• FCM算法
• 基于网格的方法
• CLIQUE算法
• 基于层次的方法
• 层次凝聚的代表算法AGNES。层 次分裂的代表算法DIANA。 • 改进的层次聚类方法BIRTH
一、基于划分的方法
• 思想:给定包含n个样本的一个有限数据集,将数据集用划分方 法构建成k个聚类(k<n)
A
A
T
BIRCH algorithm
root •
An example of the CF Тree
If the cluster size grows too big, the cluster is split into two clusters, and the points are redistributed.
• 再使用循环定位技术将样本在各聚类间移动,来提高划分质量。
• 经典的基于划分的聚类方法k-means算法和FCM算法
K-means聚类算法
数据挖掘的主要技术——聚类

高校 理科 研 究
数据 控 掘 的 主 要 技 术
[ 摘
秉 夫 墼
培
同济 大学软件 学院 天 津渤 来 发展 相 当迅 猛 的数 据 挖 掘 技 术 , 文 讨 论 聚 类 , 种 数 据挖 掘 的 一种 主 要 技 术 , 结 本 这 目的 是 通过 深入 探 索挖 掘 的 方 神 经 网络 的 研究 课 题 。 随着数据挖掘研究的深入 , 出现 了很 多 的聚 类 算法 。常见 的聚 类 算 法有 五 大 类 。即划 分 法 、 层 法 、 于密 度 的方 法 、 于 网格 的方 法 和 基 分 基 基 于模 型的方法 。 1划 分 方 法 ( atinn to 、 prt ig hd) io me 给 定 要 构 建 的划 分 的 数 目 k创 建 一 个 初 始 划 分 。每 个 划 分 表 示 一 , 个 簇 , 个 簇 至 少 包 含 一 个 数 据 对 象 , 时 , 个 数 据 对 象 只 能 属 于 一 每 同 每 个簇 ( 模糊聚类 中可放宽约束 ) 然后采用一种迭代的重定位技术 , 。 尝试 通过对象在划分问移动来改进划分 , 直到 以局部最优结束 。 一个好的划 分的准则是 : 在同一类中的对象之间尽可能“ 接近” 或相关 , 而不同类中 的 对象 之 间尽 可 能 的 远 离 或 不 同 。 最 著 名 与常 用 的划 分 方 法是 K nen 、— e o s — l sK m di 以及 它 们 的 变种 。 a d 2 层 次 方 法 (i aciame o ) 、 he rhcl t d r h 层次式聚类算法对给定数据对象集合进行层次 的分解 ,根据层次 分解形成 的方 向又可以分成凝聚式和分列式两种。前者采用 自底向上 的方法 , 先将每个对 象归为单独底组 , 然后 逐渐合并相近 的对象 或组 , 直 到所有 的组合并为一个 , 或者达到一个 中止条件。后者则采用 自顶向 下 的方法 , 初始将所有的对 象置 于一个组 中,然后在迭代的过程中 , 每 个 组 被 分 裂 为 更 小 的 组 , 到 最 终 每 个 对 象 在 单 独 的 一 个 组 中 , 者 达 直 或 到一 个 中止 条 件 。 层次式聚类算法的缺陷在于 , 旦完成一个合并或分裂的步骤后 , 一 即使 是 错 误 的 , 无 法 被撤 销 , 影 响 其 后 的 聚类 过 程 。 也 且 CR U E算法就是采用 了层次 聚类算 法 ,解决 了绝大多数 聚类算 法 偏好球形和相似大小的问题 , 在处理孤立点上也更加健壮 。 C R 但 U E不 能处理分类属性。 3 基 于 密 度 的 方法 (e sy b sdm to ) 、 d ni - ae ehd t 基于距离的聚类方法只能发现球状的簇 ,而在发现任意形状 的簇 上遇到 了困难 , 为此 提出了基 于密度 的聚类 。其 中心思想是 : 只要 临近 区域的密度( 对象或数 据点 的数 目) 超过 某个 阈值就继续 聚类 。也就是 说, 对类中的每个数据 点 , 在一个 给定 范围的区域 中必须 至少包含某个 数 目的点 。这种方法可以用来过滤噪声数据 , 发现任意形状的簇 。 Etr rn等人提出的 DB C N算法是一种基于密度的空间数据 s t e Ma i SA 聚 类 算 法 。该 算 法 利 用 基 于 密度 的聚 类 ( 者 类 cut ) 念 。这一 算 法 或 ls r e概 的显著优点是聚类速度快 , 且能够有效处理噪声点(ulr) 0 tes i 和发现任意 形状的空间聚类 。但是它 又有两个 比较 明显 的弱点 : I 当数据量增大 () 时, 要求较大的内存支持, O消耗也很大;2 当空间聚类的密度不均匀 , I / () 聚类间距离相差很大时 , 聚类质量较差。 4基 于 网格 的方 法 ( d ae to ) 、 —bsd h d me 基于网格 的方法把对象空 间量化为有限数 目的单元 ,形成一个 网 格结构 , 所有 的聚类操作都在这个 网格结构 ( 即量化空间 ) 上进行 。 C I U算法综合 了基于密度和基于 网格 的聚类 方法,利用 自顶 向 LQ 上方法求 出各个子空间的聚类单元, 主要用于找出高维数据空 间中存在 的低维聚类 。 但为了求 出 K维空间聚类, 则必须组合给 出所有 K 1 一 维子 空间的聚类 , 导致其算法的空间和时间效率都很低 , 而且要求用户输入 两个参数 , 数据聚值空间等间隔距离 ∈和密度阈值 。这些数据与样本 数据紧密相关 , 用户一般难以确定 。但它对数据的输入顺序不敏感 。 5、 于模 型 的方 法 ( o e bsdm to ) 基 m d l ae ehd — 基于模 型的方法为每个聚类假定 了一个模型 ,然后去寻找能够很 好满 足这个模型的数据集 。一个基于模型的算法可以通过构造反映数 据点空间分布的密度函数来定位聚类 ,也可以基于标准的统计数字 自 动决 定 聚 类 的数 目 。 现 在 人 们 又 把 数 学 中 的 模 糊 理 论 应 用 到 聚 类 领 域 中 ,从 而产 生 了 模糊聚类算法。传统意义上的聚类分 析是把 每个样本 严格地 划分到某 类 , 于硬划分的范畴, 属 即硬 聚 类 。 着 模 糊 集理 论 的提 出 , 聚 类 被 随 硬 推 广 为模 糊 聚类 , 即软 聚类 。在 模 糊 聚类 中 , 个样 本 不 再 仅 属 于某 一 每 类 , 是 以一 定 的隶 属 度分 别 属 于 每 一类 。换 句 话 说 , 过 模 糊 聚类 分 而 通 析 得 到 了 样 本 属 于 各个 类 别 的 不 确定 性 程度 ,即建 立 起 了样 本 对 于类 别 的不 确 定 性 的 描 述 。这 样 就 能 更 准 确 地 反 映 现 实世 界 。 随着聚类算法研究 的深入 ,聚类分析 的应用也逐渐深入到科学研 究 、 会 生 活 的 方方 面 面 。聚 类 算 法 的 研究 有 着积 极 的现 实 意义 。 社
基于动态网格的数据流聚类分析

V0 . 5 No 1 12 . 1 NO . 2 0 V 0 8
基 于 动 态 网格 的数 据 流 聚 类分 析
何
摘
勇, 刘青宝
( 国防科 学技 术 大 学 信 息 系统 与 管理 学院 , 沙 40 7 ) 长 103 要 :提 出的增 量式数 据流 聚类 算 法 D C S结合 网格 和 密度技 术 , GD 能够得 到任 意形状 的聚 类 , 通过 改进 网格
密度的计算方式, 解决了现有网格算法中丢失数据空间影响信息的问题 , 并且实现了关键参数的 自适应设置, 减 小 了 工参数对聚类结果的影响。 人 关键词 :动态网格 ;网格密度 ; 数据流聚类; 聚类参数
中图分 类号 :T 3 1 P9 文献标 志码 :A 文 章编 号 :10 —6 5 20 ) 138.4 0 139 (0 8 1-2 10
提出的增量式数据流聚类算法dgcds结合网格和密度技术能够得到任意形状的聚类通过改进网格密度的计算方式解决了现有网格算法中丢失数据空间影响信息的问题并且实现了关键参数的自适应设置减小了人工参数对聚类结果的影响
第 2 第 1 期 5卷 1
20 0 8年 1 1月
计 算 机 应 用 研 究
Ap l ain Ree rh o mp tr p i t sac fCo ues c o
Dy a c g i — a e l se i g o e aa sra n mi rd b s d cu trn v rd t t m e
HEY n , igbo o g HU Qn —a
( o eefI o a o y e &M n gm n , a o l n e i D e eT hooy C agh 10 3 C i ) Clg n r t n sm l o fm i S t a a e et N t n i rt o e n e nl , h nsa 0 7 , h a i a U v sy f fs c g 4 n
twostep聚类算法

twostep聚类算法两步聚类算法(Two-Step Cluster)是一种聚类方法,它主要包含两个步骤:预聚类(pre-clustering)和聚类(clustering)。
在预聚类步骤中,使用一个快速的聚类算法将数据集划分为若干个较小的子集,也称为“网格”。
这个聚类算法通常选择K-means算法,因为它既快速又适用于处理连续变量。
同时,需要选择适当的簇的数量。
在聚类步骤中,使用密度连接方法(Density Linkage)来合并预聚类中的网格。
在这个过程中,需要选择合适的连接方式和合并的阈值。
两步聚类的优点是它可以处理不同类型的变量,包括连续变量和离散变量。
此外,它还可以处理缺失值,因为它使用了一种基于概率模型的方法来估计缺失值。
以上是两步聚类的基本介绍,如需了解更多信息,建议查阅专业书籍或论文。
两步聚类的算法流程如下:1. 预聚类:* 将数据集分成K个子集,每个子集称为一个网格。
这个过程可以使用K-means算法实现。
* 在每个网格中,计算每个数据点到网格中心的距离,并将该数据点标记为该网格的成员。
2. 聚类:* 对于每个网格,找到该网格中所有其他网格的距离,并计算它们的平均距离。
* 将平均距离小于某个阈值的所有网格合并成一个新的网格。
这个过程可以通过计算所有网格间的最小距离来实现。
* 重复步骤2,直到所有的网格都合并成一个大的聚类。
3. 结果评估:* 对于每个聚类,计算其内部密度(即聚类内所有数据点之间的平均距离)。
* 如果某个聚类的内部密度低于某个阈值,则将该聚类进一步拆分为两个或更多的子聚类。
* 重复步骤3,直到所有的聚类都满足内部密度要求。
4. 结果输出:* 将最终的聚类结果作为输出。
需要注意的是,两步聚类的效率和效果取决于预聚类的质量和聚类算法的选择。
因此,在实际应用中,需要根据数据集的特点和实际需求选择合适的预聚类算法和聚类算法。
同时,也需要根据实际情况选择合适的阈值和参数。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一种基于网格密度的聚类算法
摘要:提出了一种基于网格密度的聚类算法(DGCA)。该算法主要
利用网格技术去除数据集中的部分孤立点或噪声数据,对类的边缘节
点使用一种边缘节点判断函数进行提取,最后利用相近值的方法进行
聚类。实验表明,DGCA算法能够很好地识别出孤立点或噪声,聚类
结果可以达到一个较高的精度。
关键词:网格聚类;边界点;网格密度
0引言
聚类是把一组数据按照相似性归成若干类别,它的目的是使得属
于同一类别的个体之间的距离尽可能地小而不同类别上的个体间的
距离尽可能地大。聚类的结果可以得到一组数据对象的集合,称其为
簇或类。簇中的对象彼此相似,而与其它簇中的对象相异。迄今为止,
已经提出了许多聚类算法,大体上这些算法可以分为基于距离的方
法、基于层次的方法、基于密度的方法、基于网格的方法和基于模型
的方法等。
基于网格的聚类算法首先将d维数据空间的每一维平均分割成
等长的区间段, 即把数据空间分割成一些网格单元。若一个网格单
元中所含数据量大于给定的值,则将其定为高密度单元;否则将其视
为低密度单元。如果一个低密度网格单元的相邻单元都是低密度的,
则视这个低密度单元中的节点为孤立点或噪声节点。网格聚类就是这
些相邻的高密度单元相连的最大集合。
1基本概念
1.1相近值
网格单元内节点之间的相近值是利用节点间的距离来计算的。节
点间的相近值越大,它们就越相似。即对这些网格单元内的节点进行
聚类时,它们属于同一个类的可能性就越大。
定义1节点集:设P=(U,K),我们用P表示n条记录的集合。
U={U1,U2,…,Un}代表网格单元内的节点集
K={K1,K2,…,Kr}代表网格单元内节点的属性
其中,i,i∈(1,2,…,n),kim,m∈(1,2,…,r)
代表节点Ui的第m个属性Km,因此,用Km代表一个r维的向量
(ki1,ki2,…,kir),i∈(1,2,…,n)。
定义 2 相异值:任意两个节点Ui与Uj之间的相异值定义如下:
D(i,j)=∑rm=1|kim-kjm|,i, j=1,2,…,n(1)定义 3 相近值:
任意两个节点Ui与Uj之间的相近值定义如下:S(i,j)=MaxDf-D
(i,j)(2)其中,MaxDf=Max1≤i,j≤nD(i, j)代表网格单元
中节点间的最大相异值。
1.2边缘节点判断函数
在传统的网格聚类算法中,将与高密度单元相邻的低密度单元中
的节点作为孤立点或噪声数据丢弃,这样会丢失一些有用的边缘节
点。为提高聚类的精度,在DGCA算法中引入边缘节点判断函数Minf
(i),其定义如下:Minf(i)=(MaxSim1≤j≤n(i,j)+aveSim(i))
/2(3)其中,MaxSim1≤j≤n(i,j)=max{j︱S(i,j),1≤j≤n},
aveSim(i)=1n∑nj=1S(i,j)
边缘节点函数Borderf(i),其定义如下:Borderf(i)=1hd∑hdi=1S
(i,l)(4)其中,hd表示高密度单元中节点的个数。
边缘节点处理的方法是:如果一个高密度网格单元的相邻网格单
元中有低密度单元,就使用边缘节点函数Borderf(i)检查这些低密
度单元中的节点i,如果Borderf(i)的值大于等于设定的边缘节点
判断函数值Minf(i),那么判定节点i是此高密度单元的边界点,即
i与此高密度单元中的节点属于一类。这样就可以将有用的边缘节点
提取出来,从而提高聚类的质量。
2DGCA聚类算法
DGCA聚类算法的基本思想:①将所有节点集U映射到数据空
间相应的网格单元中;②根据用户输入的密度测试值MinPts判断每
个网格单元是低密度还是高密度网格单元,如果是高密度网格单元,
则对其相邻的低密度网格单元中的节点,利用Minf(i)判断各个节
点是否为该高密度网格的边缘节点,如果是即提取边缘节点,如果不
是就把该节点认为是孤立点或噪声数据;③根据用户输入的相近测试
值MinSim,对去除孤立点或噪声数据后的节点,使用相近值方法进
行聚类,即如果任意两个节点的相近值S(i, j)大于或等于给定的
测试值MinSim,就把这两个数据对象视为同一个类中的数据。
DGCA算法如下:
输入:Z,MinPts,MinSim
输出:类,孤立点或噪声数据
步骤1:根据用户输入的Z值将整个数据空间X划分成Zr个网
格单元。
步骤2:将节点集U映射到网格单元中。
步骤3:逐一扫描每个网格单元,并记录每个网格单元中的节点
个数cell[q].count(1≤q≤Zr)。
步骤4:根据密度阈值将网格单元分为高密度单元和低密度单元。
步骤5:考虑每个高密度单元,如果其相邻网格单元有低密度的,
利用边缘节点判断函数提取有用的边缘节点,低密度单元中剩余的节
点作为孤立点或噪声数据丢弃。
步骤6:考虑高密度单元中的任意两个节点,如果其相似值大于
给定的MinSim值,则将这两个对象归于一类。
3实验结果与分析
本实验所使用的PC具有1G内存,奔腾ⅣCPU 2.40GHz,使用
的操作系统是Windows XP Professional,算法是用VC++进行编程设
计的。
3.1精度对比(综合数据集)
实验中图1对应的节点数据集是来自于参考文献,此节点集含有
5 034条记录,从该图中可以直观地看到,此节点集应该被分为5类。
实验结果显示,算法DGCA的结果是5个类,由于使用了边缘节点
判断函数,孤立点或噪声被有效地识别出来,使得DGCA算法的精
度明显好于传统的网格聚类算法CLIQUE,DGCA算法中的参数:
Z=100,MinPts=10,MinSim=198。
3.2时间对比
由于DGCA算法的时间复杂度是O(n2),所以该算法的时间效
率还有待改进。
4结语
本文提出了一种基于网格密度的聚类算法(DGCA)。该算法主
要利用网格技术去除节点数据集中的部分孤立点或噪声节点,对类的
边缘节点使用一种边缘节点判断函数进行提取,最后利用相近值的方
法进行聚类。实验表明,DGCA算法与传统的聚类方法相比,聚类的
精度有了很大的提高。它不仅适用于综合节点数据集,而且对高维节
点数据集也能够得到令人满意的聚类结果和聚类质量。
参考文献:
[1]罗静,刘宗歧.基于网格聚类算法的电力营销预测研究[J].科技
信息,2012(3).
[2]邱保志,沈钧毅.基于扩展和网格的多密度聚类算法[J].控制与
决策,2006(9).
[3]张鸿雁,刘希玉.一种网格聚类的边缘检测算法[J].控制与决
策,2011(12).
[4]邱保志,沈钧毅.网格聚类中的边界处理技术[J].模式识别与人
工智能,2006(2).
[5]LEVENT ERTOZ,MICHAEL STEINBACH,VIPIN
KUMAR.Finding clusters of different sizes,shapes,and densities in
noisy,high dimensional data[C].In SIAM International Conference on
Data Mining,2003.