基于信息熵降维的混合属性数据流聚类算法

合集下载

基于距离与熵的混合属性数据流聚类算法

基于距离与熵的混合属性数据流聚类算法

基于距离与熵的混合属性数据流聚类算法
基于距离与熵的混合属性数据流聚类算法(MAD-StreamClust)是一种用于处理包含多种属性的数据流的聚类算法。

该算法结合了距离度量和熵的思想,对原始数据进行特征选择,并采用
K-Means算法进行聚类。

该算法的主要思路是,在数据流进入系统之前,通过特征选择方法筛选出最重要的属性,并根据这些属性建立起数据流的描述模型。

描述模型可以用来预测新数据,将其分类到合适的聚类中。

在数据流不断更新的过程中,会运用熵的理论方法对聚类进行更新和合并,保证聚类的稳定性与准确性。

MAD-StreamClust算法的主要步骤包括:
1. 特征选择:利用信息增益或相关性等方法选择出最有区分能力的属性,并建立描述模型来描述数据流。

2. 数据流聚类:在特征选择后获得的描述模型上,利用K-Means算法对数据流进行聚类。

3. 聚类更新与合并:利用熵的理论方法对聚类进行更新和合并,保证聚类的稳定性与准确性。

该算法在处理多种混合属性的数据流时,表现出较高的稳定性和准确性。

特别是在处理高维数据流时,可以有效地减少数据描述的维度,提升算法的效率。

另外,该算法对于数据流的增量更新也具有良好的适应性,可以在不重新处理整个数据流的情况下,直接针对新增的数据进行聚类操作,保证了算法的实时性和效率。

在实际应用中,MAD-StreamClust算法可以用于多领域的数据处理任务,如金融、医疗等领域,可以很好地帮助用户对海量数据进行细粒度的划分和分析。

基于信息熵的FCM聚类算法

基于信息熵的FCM聚类算法

基于信息熵的FCM聚类算法
邢婷;邢治国;王凤领
【期刊名称】《计算机工程与设计》
【年(卷),期】2010(031)023
【摘要】针对模糊聚类存在的数据收缩问题的不足,提出了一种改进现有模糊聚类算法的方法,并进行仿真实验研究.模糊C-均值(FCM)算法主要通过目标函数的迭代优化来实现集合划分,以信息熵作为模糊C-均值算法的约束条件,给出改进算法的推导过程,得出改进后的模糊C-均值算法的隶属度和聚类中心,实现了模糊C-均值的改进算法.实验结果可以表明,改进的模糊C-均值算法是有效的,能够表现出比模糊C-均值算法更好的性能,在实际应用中可以取得较好的聚类效果.
【总页数】4页(P5092-5095)
【作者】邢婷;邢治国;王凤领
【作者单位】哈尔滨德强商务学院计算机与信息工程系,黑龙江,哈尔滨,150025;三锐系统株式会社事业统括部,日本,东京,101-0021;哈尔滨德强商务学院计算机与信息工程系,黑龙江,哈尔滨,150025
【正文语种】中文
【中图分类】TP18
【相关文献】
1.基于信息熵原理与FCM算法的市场细分方法 [J], 林盛;吕红艳
2.一种基于信息熵约束的快速FCM聚类水下图像分割算法 [J], 王士龙;徐玉如;万
磊;唐旭东
3.基于信息熵加权的FCM交通状态识别研究 [J], 曹洁;张丽君;侯亮;陈作汉;张红
4.基于PSO-TVAC的中心自适应权的FCM聚类算法 [J], 胡建华;尹慧琳
5.基于FCM聚类算法的多分组和分层的协作缓存策略 [J], 胡昌桂;王翊;欧梦添;许耀华;黄林生
因版权原因,仅展示原文概要,查看原文内容请购买。

一种基于信息熵的混合数据属性加权聚类算法

一种基于信息熵的混合数据属性加权聚类算法

一种基于信息熵的混合数据属性加权聚类算法赵兴旺;梁吉业【期刊名称】《计算机研究与发展》【年(卷),期】2016(053)005【摘要】同时兼具数值型和分类型属性的混合数据在实际应用中普通存在,混合数据的聚类分析越来越受到广泛的关注。

为解决高维混合数据聚类中属性加权问题,提出了一种基于信息熵的混合数据属性加权聚类算法,以提升模式发现的效果。

工作主要包括:首先为了更加准确客观地度量对象与类之间的差异性,设计了针对混合数据的扩展欧氏距离;然后,在信息熵框架下利用类内信息熵和类间信息熵给出了聚类结果中类内抱团性及一个类与其余类分离度的统一度量机制,并基于此给出了一种属性重要性度量方法,进而设计了一种基于信息熵的属性加权混合数据聚类算法。

在10个 UCI 数据集上的实验结果表明,提出的算法在4种聚类评价指标下优于传统的属性未加权聚类算法和已有的属性加权聚类算法,并通过统计显著性检验表明本文提出算法的聚类结果与已有算法聚类结果具有显著差异性。

%In real applications , mixed data sets with both numerical attributes and categorical attributes at the same time are more common . Recently , clustering analysis for mixed data has attracted more and moreattention .In order to solve the problem of attribute weighting for high-dimensional mixed data ,this paper proposes an attribute weighted clustering algorithm for mixed data based on information entropy .The main work includes :an extended Euclidean distance is defined for mixed data , which can be used to measure the difference between the objectsand clusters more accurately and objectively . And a generalized mechanism is presented to uniformly assess the compactness and separation of clusters based on within-cluster entropy and between-cluster entropy . Then a measure of the importance of attributes is given based on this mechanism .Furthermore ,an attribute weighted clustering algorithm for mixed data based on information entropy is developed .The effectiveness of the proposed algorithm is demonstrated in comparison with the widely used state -of-the-art clustering algorithms for ten real life datasets from UCI .Finally ,statistical test is conducted to show the superiority of the results produced by the proposed algorithm .【总页数】11页(P1018-1028)【作者】赵兴旺;梁吉业【作者单位】山西大学计算机与信息技术学院太原 030006;计算智能与中文信息处理教育部重点实验室山西大学太原 030006【正文语种】中文【中图分类】TP391【相关文献】1.基于信息熵降维的混合属性数据流聚类算法 [J], 谭建建;郑洪源;丁秋林2.一种改进的基于大数据集的混合聚类算法 [J], 张晓;王红3.一种基于划分的混合数据聚类算法 [J], 常茜茜;张月琴4.基于信息熵的混合属性数据谱聚类算法 [J], 姜智涵;朱军;周晓锋;李帅5.一种基于密度峰值的针对模糊混合数据的聚类算法 [J], 陈奕延; 李晔; 李存金因版权原因,仅展示原文概要,查看原文内容请购买。

基于信息熵的模糊聚类新算法研究

基于信息熵的模糊聚类新算法研究

基于信息熵的模糊聚类新算法研究
苏璇;王晓晔;王卓
【期刊名称】《天津理工大学学报》
【年(卷),期】2010(026)005
【摘要】本文针对传统FCM(模糊C均值)聚类算法对初始中心值非常敏感,并且对数据集属性要求过高的缺陷,提出了采用信息熵的方法对聚类中心进行初始化,以此来降低算法对初始聚类中心的依赖.同时为了使算法能够对任意形状的簇进行聚类,本文引用了类合并的思想,将任意形状的簇分割成小类,再通过一定的规则将小类对进行合并.实验结果证实了在FCM基础上改进的模糊聚类新算法能够识别任意形状的簇,并大大降低了FCM算法对初始聚类中心的依赖.
【总页数】4页(P57-60)
【作者】苏璇;王晓晔;王卓
【作者单位】天津理工大学,计算机与通信工程学院,天津,300384;天津理工大学,计算机与通信工程学院,天津,300384;天津理工大学,计算机与通信工程学院,天
津,300384
【正文语种】中文
【中图分类】TP301.6
【相关文献】
1.基于模糊聚类和信息熵的综合评价算法 [J], 张运凯;王方伟;戴敬书;黄文艳;陈艳红
2.基于信息熵模糊聚类和粗糙集理论故障的模糊判据研究 [J], 李俊;孟涛;张立新;易当祥
3.基于信息熵的新的词语相似度算法研究 [J], 王小林;陆骆勇;邰伟鹏
4.基于功率谱信息熵与GK模糊聚类的生物组织变性识别方法 [J], 胡伟鹏;刘备;邹孝;赵新民;钱盛友
5.一种基于信息熵与K均值迭代模型的模糊聚类算法 [J], 吴春旭;吴镝;蒋宁
因版权原因,仅展示原文概要,查看原文内容请购买。

一种混合属性数据流聚类算法

一种混合属性数据流聚类算法
杨春宇
周 杰
( 华 大学 自动 化 系 北 京 1 0 8 ) 清 0 0 4


数 据 流 聚 类 是 数 据 流 挖掘 中 的重 要 问题 . 现实 世 界 中 的 数 据 流 往 往 同 时 具 有 连 续 属 性 和 标 称 属 性 , 现 但
有 算 法 局 限 于 仅 处 理 其 中 一 种 属性 , 对 另一 种采 取 简 单 舍 弃 的 办 法 . 而 目前 还 没 有 能 在 算 法层 次 上 进 行 混 合 属 性 数 据 流 聚 类 的算 法 . 中提 出 了一 种 针 对 混 合 属性 数 据 流 的聚 类 算 法 ; 立 了数 据 流 到 达 的 ? 松 过 程 模 型 ; 频 度 文 建 白 用 直方 图对 离 散 属 性 进 行 了 描 述 ; 出 了混 合 属 性条 件 下 微 聚 类 生 成 、 新 、 并 和 删 除 算 法 . 公 共 数 据 集 上 的 实 给 更 合 在 验表 明 , 中 提 出 的算 法具 有 鲁 棒 的性 能 . 文 关键 词 数 据 挖 掘 ; 据 流 ; 类 分 析 ; 合 属 性 ; 松 过 程 数 聚 混 泊
中 图 法分 类号 TP 1 31
A t r g n o s Da a S r a Cl s e i g Al o ihm He e o e e u t t e m u t r n g r t
YANG u — ZH 0U i Ch n Yu Je
( p rme t f Auo a i n De a t n tm t ,Ts g u n v ri o o i h aU i est n y,B ii g 1 0 8 ) ejn 0 0 4
o h r c s . S c n l t d f e h it g a d s rp i n o h i c e e a t i u e n M ir ft e p o e s e o d y i e i s t e h s o r m e c i to f t e d s r t t rb t s i c o n

基于相对密度和熵的混合属性聚类融合算法

基于相对密度和熵的混合属性聚类融合算法

基于相对密度和熵的混合属性聚类融合算法余泽【摘要】Mixed attributes data clustering is a research hotspot in recent years. For mixed attributes data clustering algorithm, it requires handling numeric attributes and categorical attributes simultaneously. However many algorithms have not very good balance with numeric and categorical attributes, and the cluster results are not satisfied. For mixed attributes data set, a new clustering ensemble algorithm based on intersection is proposed. It processes the numeric attributes with a new relative density clustering algorithm, and processes the categorical attributes with a clustering algorithm based on information entropy. Then it fuses these two cluster members with a cluster fusion algorithm based on intersection. Finally, it gets the clustering results. It is validated by taking an experiment on UCI data set Zoo, and compared with the existing k-prototypes algorithm and EM algorithm. The experiment result shows that the new algorithm has higher flexibility and accuracy. The influence of the intersection element ratioand to the result is also discussed.%混合属性聚类是近年来的研究热点,对于混合属性数据的聚类算法要求处理好数值属性以及分类属性,而现存许多算法没有很好得平衡两种属性,以至于得不到令人满意的聚类结果。

基于网格和MST的混合属性流数据聚类算法

基于网格和MST的混合属性流数据聚类算法

基于网格和MST的混合属性流数据聚类算法作者:俞智君,张凤斌来源:《电脑知识与技术》2010年第19期摘要:现有的流数据聚类算法往往只能处理单一属性类型的流数据,或是不能发现任意形状的聚类。

针对这个问题,该文提出一种混合属性流数据聚类算法GTMS,算法使用了网格及MST(最小生成树)技术,采用基于信息增益和几何相邻的方法来计算混合类型数据相似度。

实验表明该算法能够有效地处理混合属性流数据。

关键词:流数据聚类;混合属性;网格;最小生成树中图分类号:TP311文献标识码:A文章编号:1009-3044(2010)19-5220-03A Heterogeneous Data Stream Clustering Algorithm Based on Grid and MSTYU Zhi-jun, ZHANG Feng-bin(School of Computer Science and Technology, Harbin University of Science and Technology, Harbin 150080, China)Abstract: Most of the exiting streaming clustering algorithms can deal with only single type attributes,or they can't discover clusters with arbitrary shape.To solve the problem,GTMS is proposed for clustering stream data with mixed data types, grid and minimum spanning tree techniques is used in the algorithms,using a kind of geometric adjacency and information gain found on mixing data similarity.Experimental results show that the algorithm can deal with the stream data with mixed data types.Key words: stream data; mixed attributes; grid; minimum spanning tree随着网络技术和通信技术日新月异地发展,一种被称为“流数据”的新型数据仓库得到了快速的发展。

降维聚类算法

降维聚类算法

降维聚类算法是一种用于数据分析和机器学习的算法,它可以将高维数据集降维到较低维度,同时保持数据之间的相似性,以便于进一步分析。

降维聚类算法在许多领域都有广泛的应用,如生物信息学、市场分析、社交网络分析等。

降维聚类算法的基本原理是将高维数据集中的样本划分为不同的簇,每个簇中的样本具有相似的特征。

通过降维,可以将高维数据集中的特征数量减少到较低的维度,从而降低计算复杂度,提高算法的效率。

同时,降维算法还需要保留数据之间的相似性,以便于后续的分析和可视化。

常用的降维聚类算法包括K-means聚类、主成分分析(PCA)等。

其中,K-means聚类是一种简单易用的聚类算法,它将数据集中的样本划分为不同的簇,每个簇由一个质心表示。

PCA 是一种常用的主成分分析算法,它可以将高维数据集降维到较低的维度,同时保留数据之间的相关性。

在实际应用中,降维聚类算法通常与其他算法结合使用,如层次聚类、DBSCAN聚类等。

这些算法可以与PCA等降维算法结合使用,进一步提高聚类的精度和效率。

聚类分析的结果可以用于可视化,如使用热图、散点图等可视化工具将聚类结果展示出来。

这些可视化工具可以帮助用户更好地理解数据集中的不同特征和不同样本之间的关系。

此外,降维聚类算法还可以与其他机器学习算法结合使用,如分类、回归等算法,以提高模型的准确性和泛化能力。

总之,降维聚类算法是一种重要的数据分析工具,它可以将高维数据集降维到较低的维度,同时保持数据之间的相似性。

通过与其他算法结合使用,降维聚类算法可以应用于各种领域的数据分析和机器学习任务中,提高模型的准确性和效率。

在实际应用中,用户需要根据具体的数据集和任务选择合适的降维聚类算法,并进行适当的参数调整和优化,以提高模型的性能和准确性。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

r, 顺 序 到 达 。 X m… =[ I 】 , , I , =[ 2…, B
:… y] + : , ,b, d表示数据点 X ma 的维度为 d,其 中,
(≤i 日 表 示第 i 1 ≤ ) 个名词属性 ; (≤ ≤ ) 1 表示第 个数
值属性 。
作者 简介 : 谭建建(95 , 18 一) 男, 硕士研究 生, 主研方 向: 数据 挖掘 ,
信 息安全 ;郑洪源 ,副教授、博士 ;丁秋林 ,教授、博士 生导 师
构 ,采 用滑动窗 口获取 当前窗 1 3中数据流的分布特征 。 目前大多数数据流聚类算法 只能处理 数值 属性。文献【】 4
第3 7卷 第 1 期 9
、0 .7 ,13






2 1年 1 01 0月
O co r 2 l t be 0 1
N O. 9 1
Co p t rEn i e rng m ue gn ei
软件 技 术 与数 据 库 ・
文章编号:10 48 o ) — o 3 文献标识码。 0 H 2( 1 l 8 2 19 A
下面简单介绍现有 的一些经典数据流聚类算法 。 Cut a lSr m…是一个经典 的面 向数据流 的聚 类分析 算法。 e 算法将聚类过程分为联机和脱机 2个 阶段 , 实现 了增量聚类 , 能够做 出 a yi e的 回应 。 nt m 文 献f】 2提出 的H Sra P t m算法框架针对 C u t a e lSr m算法有 e 2点改进 :() 用投 影聚类技术 处理 高维数据 流。() 用衰 1 采 2采
减 函 数 减 弱 历 史 数 据 对 聚 类 的影 响 。 文 献 【】 出 了 一 种 面 向 X 3提 ML 数 据 流 的 聚 类 算 法
称 之为信息熵 ,简称 熵。 另外 , 本文沿用 HP t a 算法 的衰 减函数 /f=2 , Sr m e ’) ( 以减弱 历史 数据对 聚类的影响。
数据流提 出了 E Sra 算法 ,对于名词属性 ,使用频度矩 HP t m e 阵衡 量其 出现频度 ,并且提 出了基于信 息熵的降维方法 ;对
于数值属性 ,用标准差衡量数值 的离 散程 度 ,采用投影聚类
技术降低数值属性 的维度 。
定义 2信 息熵)设某一概率系统 中有 个事件 . 一 ( , 一. x一
X , ,第 i个事件 X 发生的概率 为 ( I2…,) 一x , , n ,当 事件 X 发 生后 ,给出的信息量为 H 1 ,单位为 bt =一 b i 。由 n个事件构成 的概率系统其产 生的平均信息量为 :
H = 一 1 ∑ b
i =1
2 研究 现状 与 问题分析
表示名词属性维数 ; 表示数值属性维数。
通过算法 1 ,可 以得 到 B Q) C( 。
不是数值的平方和, 个值是∑ ( T) ̄。 是簇 其第 ft l x -q ) (
的创建 时间。 =∑f t ) (一 表示在 时~1 % . si c e s d b % 5
[ ywod ]dt ra miig h t o e e u tiue;rq ec tx ifr t net p ;i n inrd cin Ke r s aase m nn ; ee g no s tb tsf u nyma i;noma o nr y dme s u t t r ar e r i o o e o
DOh 1.9 9 .s.0 03 2 .0 1.2 03 6 /i n10 —4 82 1.90 6 js 1
1 概述
近年来 ,由于计算机技术和通信技术 的发展 ,产生 了海
3 概要数据结构设计和名词属性降维
本文 用到 的基本概念和公式如下 :
量的实时数据流 ,例如工业 自动控制中的控制信息流、传感 器 网络 中的实 时信息流 。如何从这 些数据 流中获得有用 的知
a g rt m a a i u ae h t r g n o s at b t s a d h g d m e s o a a a s t . l o h c n m n p l t e e o e e u t u e n i h— i n i n ld t e s Co i i r mp r d wi h a e t t e HPS r a ag ih h te m l ort m,i l t rn r c so t c use g p e ii n s i
利用频度矩阵处理名词属性 ,通过基于信 息熵 的名词 属性选择方法降低 数据 维度。实验结果 表明 , 该算法 能有 效处理混合属性和维度较高
的数据集 ,与 HP t a 算法相 比,聚类精度有 5 1 %的提高 。 Sr m e %~ 5
关健诃 :数据流挖掘 ;混合属性 ;频度矩阵 ;信息熵 ;降维
识成为新 的研究热点 。其 中,数据流模 型上的聚类技术作为 数据挖掘 的重要方法得 到了广 泛的研究。本文针对混合属性
定义 l数据流)数据流 由一系列无 限的、按照时间顺序 ( 到 达 的 多 维 实 例 组 成 , 即 实 例 x, 一 X , x , … 在 时 刻
, ,… ,
S XS L ,该算法 以聚类 特征 指数直方 图作 为概 要数据结 W— C S
3 概要数据结构 的设计 . 1 为 了实现增量聚 类 ,算法需要一个能够在 内存 中实 时反
映聚类特征 的概 要数 据结构。为了满足 宏聚类的要求 ,里面 的值还需具有可加性 ,由此得 出:
P c , =( ,, C G, ,C , , t t,) F ( t P( F 2f f F I f wf,, ) ) ) ( ) )c
要数据结构 的集合 ;
新 到达 实例 的到达 时间 , t 当前 时间 。 F 2( f 一共有 是 c G, ) b 个值 ,这是 由每条记录一共有 b维数值 属性决定的 ,同时
B S={ c(1 B ( 2 …, C( , C B c) C C ) B Q) , , …}, 表 示 属 性 选 择
t e p o l m , hi p p r i r v s t e o - n r c s n he o — i e p o e s o h r be t s a e mp o e h f l e p o e s a d t n ln r c s f HPS r a l rt m,whih u e e u n y ma rx t a d e t e i te m ago h i c s s f q e c t o h n l h r i
E ma :w o y 0 @13 m . i od07 6脚 l
第 3卷 7
第1 9期
谭 建建 ,郑洪源 ,丁秋林 :基于信息熵降维 的混合属性数据流 聚类 算法
对结果排序 ,取熵最大 的前 c个属性 ; 【
8 3
其 中, P C, 是带有衰减函数的 a v ( t) f X 大小 的频率矩阵 ,即 :
T inj n Z NG n -u n DI ul AN Ja -a , HE i Ho gy a , NG Qi-n i
( l g fnomainS ineadT c n lg , nigUnv r t f rn uis n t n uisNaj g2 0 1, ia Col e fr t ce c eh oo yNaj iesyo Aeo at d r a t , ni 10 6 Chn ) e oI o n n i c a As o c n [ sr c]E i e aas em ls r gag rh a o el t tedt ra wi ihdme s n l eeoe e u t b tsT d rs Abtat xs dd t t a cuti lo tms nn t a wi aasem t hg —i ni ah trgn o s t ue. oa des t r en i c d hh t h o ar i
中圈分类号: P 1 T 31
基 于信 息熵 降维的混合属 性数据 流聚 类算 法
谭建建 ,郑洪源 ,丁秋林
( 南京航 空航 天大学信息科学与技术 学院 ,南京 2 0 1 ) 10 6 摘 要 :现有 的数据流 聚类 算法无法处理高维混合属性 的数据 流。针对该问题 ,对 H Sr m 算法 的脱机 聚类 和联机 聚类过程进行改进 , P ta e
Cl s e i gAl o ih o t t e m t t r g ne u t i u e u t r n g r t m f rDa a S r a wih He e 0 e 0 sAtr b t s
Ba e n I f r a i n En r p m e i n Re u t0 s d 0 n o m t0 t o y Di nso d c i n
s Q) c( 的集合 ;
x 表示新到达 的实例 ;
k 示最大簇数 ; 表
每个值都含有衰减 函数 。例如 ,第 个值 是 ∑, f ) ( 一 ( 。 )
F l c, 与 F 2(_) 同 的是 ,F , q, 是 数 值 的和 , C 『 ) ( f C C, 不 f f C( f ) 而
c t g rc la t b t s a d u e h rn i l f i f r ai n e to y t n d e t e p o l m f h gh di n i n. p rme t lr s l h w h tt e ae o a t u e n s st e p i c p e o n o m to n r p o ha l h r b e o i me so Ex e i n a e u t s o t a h i i r s
选取 方差最小最小 的 p个数值 属性; 在 B ( C C 中, ) 将上面选的 c D个属 性置 为 1 其他属性置 【 + ,
相关文档
最新文档