一种快速词自动聚类算法
一种融合 K-means 和快速密度峰值搜索算法的聚类方法

一种融合 K-means 和快速密度峰值搜索算法的聚类方法盛华;张桂珠【摘要】K-means 算法的初始聚类中心是随机选取的,不同的初始中心输入会得出不同的聚类结果。
针对 K-means 算法存在的问题,提出一种融合 K-means 算法与聚类的快速搜索和发现密度峰算法的聚类算法(K-CBFSAFODP)。
该算法是这样考虑的:类簇中心被具有较低局部密度的邻居点包围,且与具有更高密度的任何点都有相对较大的距离,以此来刻画聚类中心;再运用 K-means算法进行迭代聚类,弥补了 K-means 聚类中心随机选取导致容易陷入局部最优的缺点;并且引入了熵值法用来计算距离,从而实现优化聚类。
在 UCI 数据集和人工模拟数据集上的实验表明,融合算法不仅能得到较好的聚类结果,而且聚类很稳定,同时也有较快的收敛速度,证实了该融合算法的可行性。
%The initial clustering centre of K-means algorithm is selected randomly,different initial centre inputs will get different clustering results.Aiming at this problem of K-means algorithm,we proposed a clustering algorithm which combines K-means algorithm and clustering with the fast density peaks search and finding algorithm (K-CBFSAFODP).This algorithm has the following considerations:the class cluster centre is surrounded by neighbour points with lower local density,and has relatively larger distance to any point with higher density,this is used to depict the cluster centre;then the K-means algorithm is employed for iterative clustering,this makes up the defect that to randomly select K-means clustering centre leads to falling into local optima easily.Moreover,the algorithm introduces entropy method to calculate the distance,thereby realises the optimisation of clustering.It isdemonstrated by the experiments on UCI datasets and artificial simulation dataset that this combination algorithm can get better clustering results,and the clusters is very stable as well;meanwhile it also has fast convergence speed.These confirm the feasibility of the combination algorithm.【期刊名称】《计算机应用与软件》【年(卷),期】2016(033)010【总页数】6页(P260-264,269)【关键词】聚类;K-means算法;CBFSAFODP算法;初始聚类中心;密度;信息熵【作者】盛华;张桂珠【作者单位】江南大学物联网工程学院江苏无锡 214122;江南大学轻工过程先进控制教育部重点实验室江苏无锡 214122【正文语种】中文【中图分类】TP18聚类分析是一种无监督的机器学习方法,是数据挖掘中的重要研究方向之一[1]。
一种基于概率的快速聚类算法

L
1
( 1 )
9 O
L
4
定义 2 样本数 据 点之 间的概 率定 义为 任两个 类在 m 种分 类 中在 同一类 中 的概 率 :
1
P= ×c
HL
6 1 ( 2 )
L
5
其中, c 是 m种分类方法中任两个类被分在同一类 的个数。 定义 3 [ 加 准确率 :
第3 1 卷 第 2期
V0 1 . 31 N0. 2
重庆工 商 大学 学报 ( 自然科 学版 )
J C h o n g q i n g T e c h n o l B u s i n e s s U n i v . ( N a t S c i E d )
2 0 1 4年 2月
F e b.2 01 4
文章 编号 : 1 6 7 2 - 0 5 8 X( 2 0 1 4 ) 0 2 — 0 0 6 1 — 0 5
一
种基 于概 率 的快 速 聚 类算 法
李 婧
( 重庆师范大学 数 学学 院 , 重庆 4 0 0 0 4 7 )
摘
要: 在聚类算法和特征 向量维数确定的模 式样本集中, 各样本的每一维表 示一个对应特征 ; 鉴于此
1 算法设计
在层次聚类算法 中, 先是初始模式样本 自 成一类 , 计算各类之间的距离 , 得到距离矩阵。然后根据要求 进行合并 。在借鉴了层次聚类算法思路 的基础上 , 提出了基 于概率 的快速聚类算法 , 算法先对各个特征进 行分类 , 然后按照层次聚类算法思路 , 得到概率矩阵 , 合并概率大的两项。
0
6
L
4
7
4
一种基于改进的Newman快速算法的文本聚类方法

根据 贪婪算 法 的原理 , 每次 合 并应 沿 着使 Q增
大最 多或者减 少最 小 的方 向进行 。该 步 的算 法 复杂
21 0 0年 8月 4 日收 到
度为 o m) ( 。每次 合 并 以后 , 应 的元 素 e更 新 , 对 q 并 将与 √社 团相关 的行和列相加 。该步 的算法 复杂度 为 0 n 。因此 , 步的算法复 杂度为 0 m+ ) () 第二 ( n。
⑥
2 1 SiT e. nn. 0 0 e eh E gg .
一
种基 于 改 进 的 N w n快 速 算 法 e ma 的文 本 聚类 方 法
安 娜 赵 继 广 刘 绍 海
( 装备指挥技术学院, 北京 1 11 ; 0 4 6 武警沈阳指挥学院 沈 阳 10 1 ) , 113
的算 法复 杂度 还是 比较 大 , 因此仅 仅 局 限于研 究 中
种凝 聚算 法 。算 法 如下 :
① 初 始化 网络 为 个社 团 , 即每 个节 点 就是一
个 独立 社 团 。初 始 的 e和 a 满 足 0 其 他 ,
等规 模 的 复杂 网 络 。文 本 聚类 中 的 网络 通 常 都 包 含几 百万个 以上 的节 点 , 在这 种 情 况 下 , 统 的 G 传 N
1 3 1 文本 向量 的 空 间模 型 ( S . . V M)
‘
向量空间模型是由 Sln等人_ 在 2 ao t 4 0世纪 6 0
年代 提 出来 的 , 在 著 名 的 S r系 统 中实 现 。在 并 mat
向量空 间模 型 中 , 一 篇 文 档被 表 示 为规 范 化 正 交 每 特征 词矢 量 所 组 成 的空 间 中 的 一 个 点 。一 般 采 用 I F Iv r ou e t rq e c ) D (n es D c m n Fe u ny 来表 示 V M, : e S 即
一种适用于短消息文本的聚类算法

( 南机 电 职 业技 术 学 院 信 息 工 程 系 , 南 长沙 4 05 ) 湖 湖 1 1 1
摘要 : 针对短消息文本聚类 , 设计基 于频繁词集和 A t re的混合聚 类方 法。该算法利用基 于频繁词 集聚类算法处理文 n. e T
本数据 的效 率优 势, 生成初始聚簇 , 算轮廓 系数 消除重叠文档 , 计 在此基础上再通过 A t r n— e T e算法继续精 化, 最终得到 高
质 量 的 结 果 输 出 。 而且 聚 类结 果保 留 了描 述 信 息 和 树 状 层 级 结 构 , 提供 了更 广 阔 的应 用 。
关键词 : 频繁词集 ; n—re 法; At e算 T 轮廓 系数 ; 短消息 ;聚类
中 图 分 类 号 :P 0 . T 3 16 文 献标 识 码 : A d i 1 .9 9 ji n 10 — 7 .0 2 0 .0 o: 0 3 6/.s .0 62 5 2 1 .2 09 s 4
海 量 的短 消息数 据。 这 些数 据 蕴 含 着大 量有 价 值 的 信 息 , 这些 数 据 的挖 掘 应用 的重要性 日趋 显 著 。 对
本 文结合 频繁 词 集 挖 掘算 法 和 A t re聚 类 算 n— e T 法, 引进 轮 廓 系 数 , 计 适 合 短 文 本 混 合 聚 类 算 法 设
c u t r g rd c s te i i a s r h n e i n ts te o e p tx o u n s b a c l t g s h u t o f ce t F r e l se i ,p o u e h n t ldu t ,t e l n i e mia e h v da e td c me t y c u a i i o e t c e iin . u t r l n l e h
一种基于代表点的快速聚类算法

一种基于代表点的快速聚类算法李晓翠;孟凡荣;周勇【期刊名称】《南京大学学报:自然科学版》【年(卷),期】2012(48)4【摘要】目前经典的聚类算法在内存空间有限的情况下,聚类受到时间、空间等各方面的限制,提出一种基于代表点的快速聚类算法FCBRP(fast clustering based representative points).首先,判定数据集中所有节点的属性,当节点的D临域内存在大于等于K个邻居节点时,将其定义为代表点,代表点D临域内所有邻居节点与该代表点之间的平均欧氏距离即为该代表点的相关密度RD,所有的代表点组成代表点集合;将所有在代表点的D临域内的节点定义为能被代表的节点,并将其进行存储;既不是代表点、又不能被其它节点所代表的节点,将其定义为噪音节点;其次,对代表点集合进行聚类,对于给定的密度标准α,如果两个代表点满足密度相关,即两个代表点的相关密度分别乘以密度标准α后同时大于等于两者之间的欧氏距离,则将其划分到同一类簇中,通过对代表点的聚类,达到对数据的区域划分,得到所有类簇的基本形状;最后,对于被其它代表点所代表的节点,通过检测代表它们的代表点所属的类簇,判定被代表的节点所属的类簇,对于少数位于不同类簇中的代表点的D临域内的节点,将其划分到相对距离较近的代表点所属的类簇中.实验证明,FCBRP算法对空间需求较小,效率快,精度高,鲁棒性更佳.【总页数】9页(P504-512)【关键词】代表点选取;代表点聚类;FCBRP算法【作者】李晓翠;孟凡荣;周勇【作者单位】中国矿业大学计算机学院【正文语种】中文【中图分类】TP391.41【相关文献】1.基于代表点的快速聚类算法 [J], 贾瑞玉;耿锦威;宁再早;何成刚2.一种基于代表点和点密度的聚类算法 [J], 陈园园;陈治平3.一种基于代表点的分布式数据流聚类算法 [J], 高兵;张健沛;杨静4.一种基于代表点的增量聚类算法 [J], 孟凡荣;李晓翠;周勇5.一种基于代表点质量的万有引力聚类算法 [J], 张晓民;张枫;刘黎明因版权原因,仅展示原文概要,查看原文内容请购买。
WRM 一种基于单词相关度的文档聚类新方法

WRM:一种基于单词相关度的文档聚类新方法伍赛*杨冬青*韩近强*张铭*王文清+冯英+(*北京大学信息与科学技术学院北京100871)(+北京大学图书馆中国高等教育文献保障系统管理中心北京 100871)(wsai@)摘要目前大多数的搜索引擎如Google、百度等,查询的结果都是按照重要度排序然后分页地显示给用户。
但是有时候这样显示并不能很好地服务于用户,用户经常要浏览了很多页面才找到自己所需要的内容。
如果将返回的结果再进行分类,就可以很好的解决这一问题。
不同于传统的向量空间模型的方法,本文提出了一种基于单词相关度的聚类方法。
实验的结果表明该方法具有较高的准确性和很高的效率。
关键字文档聚类,单词相关度,单词向量空间模型WVM,向量空间模型VSM,TF/IDF,聚类引擎中图法分类号TP311WRM: A Novel Document Clustering Method Based on Word RelationWu Sai* Yang Dong-Qing* Han Jin-Qiang*Zhang Ming* Wang Wen-Qing+ Feng Ying+ (*School of Electronics Engineering and Computer Science, Peking University, Beijing, China, 100871) (+Administrative Center for China Academic Library & Information System Room 607, Peking University LibraryBeijing, China, 100871)Abstract The most popular search engines, such as Google and Baidu, answer users’ queries as lists of ranked results according to importance. But in some cases the most “important” is not the most useful for the user. A user has to look through several pages to get what he wants. Trying to classify the results is a good idea to solve this problem. In this paper, we propose a novel clustering method based on the word relation WRM, which is different from the traditional VSM method. Experiment results show that our method WRM is not only very effective but also efficient.Keywords Document Clustering, Word Relation, Word Vector Model (WVM), Vector Space Model (VSM) , TF/IDF, Clustering Engine1. 引言*面对网络资源爆炸式的激增,越来越多的人选择使用搜索引擎来帮助他们找到所需资源。
一种快速的文本聚类-分类法

一种快速的文本聚类-分类法
林春燕;朱东华
【期刊名称】《计算机工程与科学》
【年(卷),期】2004(026)007
【摘要】本文提出了文本分类的一种新方法,该方法是将部分文献的内容词进行聚类,根据聚类的结果生成分类模型,再根据朴素的贝叶斯原理将文献进行归类.
【总页数】3页(P74-76)
【作者】林春燕;朱东华
【作者单位】北京理工大学应用数学系,北京,100081;北京理工大学管理与经济学院,北京,100081
【正文语种】中文
【中图分类】TP311
【相关文献】
1.一种基于主分量分析的恒星光谱快速分类法 [J], 覃冬梅;胡占义;赵永恒
2.一种背弃“音乐本体”的分类法——对中国传统音乐“四大类”分类法的质疑[J], 刘永福
3.一种基于快速KNFL的模式分类法及其在寂声/语声段识别中的应用 [J], 郑文明;赵力;邹采荣
4.一种基于改进的Newman快速算法的文本聚类方法 [J], 安娜;赵继广;刘绍海
5.一种基于卷积神经网络的恒星光谱快速分类法 [J], 王楠楠; 邱波; 马杰; 石超君; 宋涛; 郭平
因版权原因,仅展示原文概要,查看原文内容请购买。
一种快速山峰聚类算法

第2 5卷第 7期
20 0 8年 7 月
计 算 机 应 用 研 究
Ap l a in Re e r h o mp tm p i t s a c fCo u e c o
Vo . 5 No 7 I2 .
J1 0 8 u.2 0
80 1 , hn 30 1 C i a)
A s at e ls r g eh iu ec bd hc sa po e n o h ona  ̄ o ( bt c:An wcuti cnq ei dsr e ,w i i n i rvmet ntem uti m hd MM)o ls r g r en t s i h m n fc t n ue i
该算 法有 效地减 少 了运 算量 , 高 了聚类 聚 类法 ;减 法 聚类 ;Pt e — e ;无监督 学 习 r 中图 分类号 :T 3 14 P9 . 文献 标 志码 :A 文章 编号 :10 — 6 5 2 0 ) 7 2 4 — 3 0 139 (08 0 —030
la n n e rig
0 引言
聚类分析是将特性 相似 的样本进 行划 分归类 的过 程 。聚 类分析既是从大量样本 中获 取知识 的重要手段 , 也是数据挖掘
中 的 常 用 方 法 。 。 根 据 聚 类 准 则 的 不 同 , 多 种 不 同 的 聚 类 有
损失的树表示 。它 主要用 于高维空间数据的存储 , 为空间数据 挖掘做准备 。它 的思想 是递 归地划 分高维 的样本 集。为 了降 低 在处理高维样本 集 和大样 本集 时 的时间 复杂 度 , 文将 P 本 - te r 引进到 山峰 聚类 算法 , 聚类前 先将大 样本 集用 Pt e e 在 — e 数 r 据结 构分解成 2 个小 样本集 ; 后用 改进 的减法 聚类计 算每 然
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
A NEW ALGoRI THM oF oRDS AUTOM ATI CLUS W C TERI NG
WagD o QeJn Z a gJa L n i。 n u i u hn un i We bn
( at Sho o P h izun n i l o mie ,h ah ag00 5 , ee, hn ) P r colfC C S i ha gMu ip m teS i zu n 5 0 1 H biC ia y j a caC t i f 。 H bi r e inlcz e P li l c nea dL w,h izun 5 0 1 H biC ia ( eePo so a 0 ohc i c n a Siah a g0 0 6 , ee,hn ) fs a Se j ’ S iah ag U irt cnmi ,h izu n 5 01, biC ia (h i u n n esyo E oo c S iah ag0 03 Hee, hn ) jz v i f s j
( 河北 政 法 职 业 学 院
王 舵 郄 君 张 娟 李文斌
河北 石家庄 0 0 5 ) 5 0 1
河北 石家庄 006) 5 0 1
( 石家庄经 济学院
河北 石家庄 0 0 3 ) 5 0 1
摘 要
词聚类是语言 自动处理 中一个重要的基础环节。传 统的统计 方法基于贪 婪原则 , 常以语料 的似 然 函数或 困惑度 作为评
Ab t a t sr c W od cu tr g i a mp r n u d me tlw r n a t mai a g a e p o e s T a i o a sait a t o sb s n g e d r l s i n i o t t n a na o k i u o t ln u g rc s . r d t n l tt i lmeh d a eo r e y en s a f c i sc
价标准 , 其主要缺 点是 : 聚类速度慢、 初值对结果 的影 响大 、 易陷入局 部最优。针对这些 问题 , 出 了基于相似度 测度和覆 盖方法的 提
聚类方法。该方 法计 算量小 、 聚类速度 快。而且 , 借助覆盖原理有效减小 了初始 点选取对聚 类的影响程度 。实验证 踢, 效果理想 。 关键词 词聚 类 似然 函数 覆盖方法
g ,h i l se ig s e d i s w, e ii a v l e afc st er s l ge t , n h y e s y fl it o a p i m. o ni g t h s r b e , . te r u t r p e s l t n t l au f t h e ut r al a d te a i al n o lc l t c n o h i e y l o mu P i t t e e p o lms n o t i p p rp t f r r e w r sa tmai l se n t o a e n smi r yme s r me t n o e i g ag r h T ec u t r g s e d h s a e u s owa d an w o d u o t c u t r g meh d b s d o i li a u e n d c v rn l o t m. h l se n p e c i at a i i o i meh d i fs b c u et e c mp tt n lc mp e i smu h smp e Alo d e t h o ei g t e r s t i me h d r d c st e i f — ft s h to s a t e a s h o u ai a o lx t i o y c i l . s , u o te c v r h o e , s n i h t o e u e h n u l e c fi i a ee t n o on n t e cu trn . x e i n ai a e h d a f c fo rd sg . n e o t s lci f ito h l sei g E p r n i l o p me tv l ts t e ie 1 f to u e in d ee Ke wo d y rs W o d cu trn L k l o d f n t n C v r g meh d r l se g i i ei o u ci o e i to h o n
第2 7卷 第 8期
21 0 0年 8月
计算机 应 用与软件
Co u e p iai n n o wa e mp t rAp l to s a d S f r c t
Байду номын сангаас
Vo _ 7 No 8 l2 . Au . 2 0 g 01
一
种快 速 词 自动聚 类算 法
( 中共石家庄 市委党校
p n i l ot n us a ua e m ae as lk lh o u c in o o f so c e e e ta here au to rtra. e a e tpia fu t e. i r cp e, fe e lng g t r l i e io d f n to r c n u in a hiv m n s t i v la in c e i Th y h v y c ldea ls, i i