一种新的K—means最佳聚类数确定方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
韩 凌 波
( 中共 湛 江 市 委 党 校 干 部 在 线 学 习管 理 科 ,湛 江 5 2 4 0 3 2 )

要 :在 传 统 的 K~ me a n s 算 法 中 .聚 类 数 K 是 随机 给 定 的 . K 值 选 取 不合 理 会 造 成 K— me a n s 算 法 陷入 局 部 最 优 。针 对 这 个 缺 点 , 提 出一 种 新 的 K— me a n s 聚 类数 确 定 方 法 . 根 据 聚 类 算 法
接 决 定 着 聚 类 效 果 的 好 坏 针 对 这 个 问题 .有 文 章 提 出 了一 些 检 验 聚类 有 效
标按照相似性准则划分 到若 干个子集 中.使得相 同子 集中各元素间差别最小 .而 不同子集 中各元素差 别最
大 K - m e a n s 算法设计过程 中. 首 先 需 由人 工 确 定 所 要 聚类的准确书 目 K , 并 随机 选 择 K个 对 象 , 每 一 个 对 象
中类 内相 似 度 最 大差 异 度 最 小和 类 问 差异 度 最 大相 似 度 最 小 的基 本 原 则 . 提 出距 离评 价 函
数 作 为 最 佳 聚 类 数 的 检 验 函数 , 建 立相 应 的 数 学 模 型 . 并 通 过 实例 结 果 进 一 步 验 证 新 算 法
的有 效 性 。
( 1 ) 针对数 据集 , z , …. n } , 任选 k个样 本作 为
初始聚类中心 , ( z 1 , z 2 , …, z k ) ; ( 2 ) 对每个样本 X i 找 到 离 它 最 近 的 聚 类 中心 z , 并
i n g - t h e o r y&P r a c t i c e 杂 志上杨 善林等人提 出的一种距 离代价 函数作 为聚类算法 的有效性指 标进行 进一步 的
的评 价 指 标 . 即 认 为 两 个 对 象 的距 离 越 近 . 其 相 似 度 就 越 大 通 过 计 算 每 个 数 据 对 象 与 k 个 聚类 中 心 的距 离 , 将 数 据 对 象 划 分 到 距 离 它 最 近 的一 个类 .然 后 调 整 聚
新的聚类有效性评价指标 . 建立了相应的数学模 型 , 并 通过仿真实验进一步验证 了新算 法的有 效性
文章编号 : 1 0 0 7 — 1 4 2 3 ( 2 0 1 3 ) 3 0 — 0 0 1 2 - 0 4
D OI : 1 0 . 3 9 6 9 / j . i s s n . 1 0 0 7 — 1 4 2 3 . 2 0 1 3 . 3 0 . 0 0 3

种新 的 K — me a n s最佳聚 类数确定 方法
缺陷 , 一 般难 以直 接找到 最佳 聚类数 K , 需要 确定 一
复进行 . 直到聚类准则 函数收敛
算法步骤如下 :
个合理的范 围, 使得 k ≤k ≤k 一。对 于如 何界定 K
和k 一, 目前 尚无 明 确 的 理论 指 导 f 3 ] , 多 数 学 者 使 用 经 验 规 则问 认为: 1 ≤k ≤ Vi 。该 文 对 S y s t e m s E n g i n e e r -
代表一个簇 ( 类) 的均 值或中心 , 对剩余 的每个对 象 。 根
据其与各簇 中心 的距离 . 将它赋给最近的簇 。 然后重新
计 算 每 个簇 的 平 均 值 形 成 新 的 聚类 中 心 .这 个 过 程 重
性 的函数指标 .通 过对聚类有效性指标计算 合适 的聚
类数 k , 即 最 佳 聚 类 数 , 但 是 由于 有 效 性 指 标 自身 的
收 稿 日期 : 2 0 1 3 —0 9 — 0 5 修 稿 日期 : 2 0 1 3 -1 0 -1 5
作 者 简介 : 韩凌波( 1 9 8 2 一 ) , 男, 山西 晋 中人 , 硕 士, 研 究 方 向 为 人 工智 能 、 模 式识剐、 数 据 挖 掘
@ 现 代 计 算 机 2 0 1 3 . 1 标明的类 ;
的相似度最小 . 差异度最大 . 即任 一 空 间对 象 与 该 对 象
( 3 ) 采 取 平 均 的方 法 计 算 重 新 分 类 后 的各 类 心 ;
所 属的类 的几何 中心之 间的距离 比该对象 到任何其他 类 的几何 中心的距离都小 , 此 时聚类准则函数收敛 。 聚
类 准则 函数 :

( 4 ) 计算 D : [ m i n 2 kd ( x ) ] ;
, ,

( 5 ) 如果 D值 收 敛 , 则r e t u n( r z 1 , z 2 , …, Z k U) 并 终 止 算法 , 否则转 至步骤( 2 ) 。
关键 词 : K — me a n s 算 法 :聚 类 个数 :距 离评 价 函数
0 引

改进 . 根据 K — m @ a n s 算法的基本原则 : 类间差异度最 大
相似 度最小 、 类 内相 似 度 最 大 差 异 度 最 小 , 提 出 了 一 种
1 9 6 7年 . Ma c Q u e e n首次提 出了 K — m e a n s 算法 K — M e a n s 算法是典 型的基于距 离的聚类算法 .是 聚类分 析 中使用最广泛 的算 法之一 它采用距离作 为相似性
1 K — me a n s聚 类 算 法
K — m e a n s 聚类 算 法 是 一 种 空 问 数 据 划 分 或 分 组 处 理 的重 要 手 段 和 方 法 它 是 将 研 究 对 象 的 空 间 距 离 指
类中心 . 如上反复迭 代直到聚类 中心不再发生变 化 传 统的 K — m e a n s 算法 中 . 聚类数 k需要事先 给定 . 但在实 际 中.聚类数 k 难 以准确界定 . k值的选 取是 否合理直
相关文档
最新文档