基于信息熵的蚁群聚类算法在客户细分中的应用
数据聚类算法在客户分类中的应用

数据聚类算法在客户分类中的应用
邢婷;王凤芝
【期刊名称】《哈尔滨商业大学学报(自然科学版)》
【年(卷),期】2005(21)6
【摘 要】介绍了数据聚类算法,提出了采用基于相似度的聚类算法进行客户分类的
思路,给出了相似度的计算方法及客户分类的算法,并通过试验结果证明了算法对客
户分类的有效性.
【总页数】4页(P747-749,765)
【作 者】邢婷;王凤芝
【作者单位】哈尔滨商业大学,德强商务学院,黑龙江,哈尔滨,150030;哈尔滨市第一
专科医院,黑龙江,哈尔滨,150056
【正文语种】中 文
【中图分类】TP301
【相关文献】
1.模糊聚类算法在银行客户分类管理中的应用 [J], 张建珍;张秀珍;周星星;
2.模糊聚类算法在银行客户分类管理中的应用 [J], 张建珍;张秀珍;周星星
3.K均值聚类算法在商业银行客户分类中的应用 [J], 瞿小宁
4.改进K-均值聚类算法在电信客户分类中的应用 [J], 关云鸿
5.蚁群聚类算法在客户分类中的应用 [J], 周晓刚;洪春勇
因版权原因,仅展示原文概要,查看原文内容请购买
客户细分中聚类的应用

客户细分中聚类的应用作者:赵坊芳来源:《电脑知识与技术》2010年第11期摘要:客户细分是企业识别客户类别、把握客户特征的重要方法。
文章简单介绍了当前常用的客户细分的方法,针对电信企业提出了基于客户价值和客户行为的客户细分模型,采用K-means算法对电信企业客户进行聚类,并提出提升各类客户价值相应的策略。
关键词:K-means 算法;客户细分;聚类中国分类号:TP312 文献标识码:A文章编号:1009-3044(2010)11-2653-02Application Clustering of Customer SegmentationZHAO Fang-fang(School of Information Engineering, Jiangnan University, Wuxi 214000, China)Abstract: Customer segmentation is important way to identify of client business category and grasp features of customers. Article briefly describes the current methods commonly used in customer segmentation, targeting telecom companies was proposed based on customer value and customer segmentation model of customer behavior, using K-means algorithm to cluster the telecommunications business customers. then proposed the appropriate strategy to improve the types of customer value.Key words: K-means algorithm; segmentation model of customer; clustering在激烈的市场竞争中,企业可以通过客户细分更清晰地识别不同客户群体及其需求。
基于蚁群优化的分类算法的研究

第2 4卷 第 4期
20 0 7年 i n n o t r o ue p i t s a d S f c o wa e
Vo _ No 4 l24 .
Apr 2 0 .0 7
Ab t a t sr c
An oo y Opi z t n i rn h o e y d v l p d fr o r f i l n el e c a ld s r ne l e c . t a e n a — tC ln t miai sab a c f n wl e eo e m f t ca t l g n e c l wal i tl g n e I h sb e p o a o ai i i i e n i
拟 , 如在 自然界 中, 蚂蚁 、 蜜蜂 之类 群落 , 个体 只能完 成简 其
1 引 言
数据库 内容丰富 , 蕴藏 大量信 息, 以通过分类 , 可 提取 重要 数据类的模型及预测未来的数据趋 势。 目前虽然存在一些分类 方法 , 如决策树归纳 , 贝叶斯分类 以及基 于神经 网络 、 遗传计算 、
粗糙集理论 等方法 , 尚未 发现一种 有效的方法 对所有数 据的 但
单 的工作 , 而群 体之 间通过信 息素的引导 , 相互合作 , 以完成 可
一
些较为复杂 的任务 。P eie i r nl a p l 等在 文献 [ ] 3 中提 出 了基 于 于预测未来数据 的类型 。具体步骤如下 :
关键词 群体智能 蚁群 优化 分 类
RESEARCH OF CLASS FI I CATI ON ALGORI TH M BAS ED ON
ANT COLONY r玎 I OPr ZAT ON I
Lu B P n Ju u i o a ih i
基于信息熵调整的自适应蚁群算法

基于信息熵调整的自适应蚁群算法
肖菁;李亮平
【期刊名称】《计算机工程与设计》
【年(卷),期】2010(031)022
【摘要】针对基本蚁群算法在求解大规模旅行商问题进易导致搜索时间过长或陷入停滞的问题,提出一种基于信息熵调整的自适应蚁群算法.该算法通过优化过程中种群的信息熵来衡量演化的程度,自适应地调整路径选择策略和信息素更新策略.信息熵的计算以某条路径边上的信息素占总信息素量的比例为基础.对大规模城市数旅行商问题进行实验,实验结果表明,提出的基于信息熵调整的自适应蚁群算法能获得比基本蚁群算法更好的解,并且增加了算法的稳定性.
【总页数】4页(P4873-4876)
【作者】肖菁;李亮平
【作者单位】华南师范大学,计算机学院,广东,广州,510631;中山大学,计算机科学系,广东,广州,510006;中山大学,计算机科学系,广东,广州,510006
【正文语种】中文
【中图分类】TP18
【相关文献】
1.动态自适应调整信息素蚁群算法在传动齿轮磨损归类中的应用 [J], 王琪;黄正荣;毛淑华;方文明
2.基于自适应信息素调整的连续空间优化蚁群算法 [J], 王团结;侯立刚;苏成利
3.聚类邻域自适应调整的多载蚁群算法 [J], 沈明明;毛力
4.基于信息熵的异类多种群蚁群算法 [J], 邓可;林杰;张鹏
5.参数α、β和ρ自适应调整的快速蚁群算法 [J], 尤海龙;鲁照权
因版权原因,仅展示原文概要,查看原文内容请购买。
基于信息熵的标称变量聚类算法研究

第
"$
卷第
(
期 !
"##$ 年 ( 月
计算机应用 Y7;M9HID ?MMEG:1HG726
! ]7E+ "$ A7+ ( ?93+ "##$
输出:聚类结果 3
过实验证明,该算法对于不同的数据集合都能得到满意的结
#)任意选择一个对象记为 /# ,56)5789 # {/# };
果,是一种性能较好的聚类标称变量的算法。
!)根据公式(*)分别计算 /1 ’ 56)5789 与 31 = 3 中的每 个对象的相似度,按照 !2 ! 描述的方法获得相似度阈值。如果
’! 基本概念
后两者中,二元变量可以看作是标称变量的特例即属性值只
取 # 或 ’,下面统称为标称变量。由于这两种变量属性值的 特殊性,不能用距离度量对象间的相似性。
定义 ’! 给定 ; <( 5,=)为数据样本集,其中,5 < {>’ , >" ,…,>- }为 对 象 集 合,= < {=’ ,=" ,…,=’ }是 属 性 集 合。 ?@A( =’ ),?@A( =" ),…,?@A( =’ )为各属性对应的属性值 的集合。如果对于任意的 ?@A( =B )是有限并且无序的,则称 =B 为标称变量。
目前已有的面向标称变量的算法还比较有限,主要包括 STU7JI6[’],V=NWW["],WXYS[,]和 Y?Y=ZV[&]等。STU7JI6 算 法是 STUI126 算法在标称变量下的一种扩展,因此该算法具 有 STUI126 算法的优缺点。WXYS 算法提出了链接和邻居的 概念:当两个元组的 [1::1DJT:7I//G:GI2H 大于或等于用户给定 的阈值时,说明这两个元组是邻居;链接指两个元组共同的邻 居数。WXYS 算法执行层次聚类的过程,最大化类中的链接 数,而最小化类间的链接数,最终达到聚类的目的。V=NWW 算 法和 Y?Y=ZV 算法都是通过标称变量属性值之间的距离集合 来构造聚类。
基于蚁群算法的分类规则发现的开题报告

基于蚁群算法的分类规则发现的开题报告摘要:蚁群算法是一种基于集群智能的优化算法,适用于解决不同类型的优化问题。
在本文中,我们将应用蚁群算法来发现分类规则。
首先,我们使用抵消贝叶斯分类器将数据集分类为正类和负类。
然后,我们将使用蚁群算法来发现正类和负类之间的分类规则。
最后,我们将评估所发现的分类规则的准确性和可解释性。
关键词:蚁群算法,分类规则发现,抵消贝叶斯分类器。
引言:随着大数据时代的到来,如何有效地处理和管理海量数据成为了机器学习和数据挖掘领域的热点问题。
分类是机器学习和数据挖掘中最常见的任务之一。
分类问题的本质是将数据集划分为两个或多个类别。
分类任务的核心是发现数据集中隐藏的模式和规律。
分类规则发现是分类任务的一种常见方法,通过发现分类规则来解释分类结果,可以帮助更好地理解数据集中的模式和规律。
蚁群算法是一种基于集群智能的优化算法,适用于解决不同类型的优化问题。
蚁群算法模拟了真实世界中蚂蚁寻找食物的行为。
在蚁群算法中,蚂蚁会沿着从家到食物的路径释放信息素,并且越多的蚂蚁走过同一路径,其释放信息素的浓度就越高。
信息素浓度高的路径会吸引更多的蚂蚁走过,从而形成一条优化的路径。
在本文中,我们将应用蚁群算法来发现分类规则。
我们将使用抵消贝叶斯分类器将数据集分类为正类和负类。
然后,我们将使用蚁群算法来发现正类和负类之间的分类规则。
最后,我们将评估所发现的分类规则的准确性和可解释性。
方法:1. 数据预处理我们将使用UCI Machine Learning Repository中的Wine数据集进行分类规则发现。
这个数据集包含178个样本和13个特征,这些特征描述了红酒的化学特性。
这个数据集包含三个不同的品种的红酒,我们将只使用两个品种的红酒,将其标记为正类和负类。
我们将随机选择100个正类样本和100个负类样本作为我们的训练数据集,其余的样本将用于测试。
为了让数据适合抵消贝叶斯分类器,我们将对数据进行适当的预处理。
【精品】快速聚类分析算法在CRM中客户定位的应用.
快速聚类分析算法在C R M中客户定位的应用.第 6 卷第 3期 2006年 9月温州职业技术学院学报Journal of Wenzhou Vocational & Technical CollegeV ol.6 No.3Sep.2006快速聚类分析算法在 CRM 中客户定位的应用2006-04-11范潇允(1981—,女,辽宁抚顺人,辽宁石化职业技术学院计算机系讲师 . [收稿日期][作者简介]范潇允(辽宁石化职业技术学院计算机系,辽宁锦州121000[摘要]客户关系管理是一个以客户为中心保持企业与客户互动的过程。
把聚类分析用于客户关系管理, 可以使得本企业更有针对性地与客户保持良好的关系。
聚类分析算法可以用于客户关系管理的决策支持系统中。
[关键词]聚类分析;客户关系管理(CRM ;欧式距离 [中图分类号]TP391.77[文献标识码] A[文章编号]1671-4326(200603-0030-03利率。
为实现目标,一个核心的问题就是如何将客户进行分类管理,解决这个问题的办法就是在企业实施客户关系管理(C R M ,在这种时代背景下,C R M 便孕育而生了。
1客户划分是 CRM 中的首要问题一个企业在经营策划时要非常明确以下问题:销售对象是哪个客户层?哪些客户需要这样的产品?是否考虑了客户生命周期?是否建立了以客户需求为导向的客户关系?谁是公司最有价值的客户?要回答和解决以上问题,首要任务就是综合各种数据,从不同角度对客户进行分群、分组划分。
面对客户群如何进行划分?分到什么程度?传统的做法有以下两种:一是根据客户交易过程中的不同变量确定一个门限值,对实际数据作简单判别,从而划分出不同的组(簇。
如当某一客户单次交易额达到 5万元时则把他划分为“金牌客户” ,达到 4万元时就FAN Xiao-yun(Computer Science Department, Liaoning Vocational and Technical College of Petrochemical, Jinzhou, 121000, ChinaThe Application of Rapid Cluster Analysis Algorithm toCustomer Orientation in CRMAbstract: Customer Relationship Management is a process that is customer-centered and maintains theinteraction between the enterprises and the customers. Applying the cluster analysis algorithm to the CustomerRelationship Management can help the enterprises to be more purposeful and keep a better relation with customers.The cluster analysis algorithm can be used for the decision support system of the Customer Relationship Manage-ment.Key words: Cluster analysis; CRM (Customer Relationship Management; Euciolidiam distance0引言企业的经营理念已经从“以产品为中心”转变为“以客户为中心” 。
《基于遗传—蚁群融合算法的聚类算法研究》范文
《基于遗传—蚁群融合算法的聚类算法研究》篇一基于遗传-蚁群融合算法的聚类算法研究一、引言聚类算法作为数据挖掘和机器学习领域的重要技术,广泛应用于图像处理、模式识别、生物信息学等多个领域。
然而,传统的聚类算法在处理大规模、高维度的数据时,往往存在计算复杂度高、聚类效果不佳等问题。
为了解决这些问题,本文提出了一种基于遗传-蚁群融合算法的聚类算法,通过融合遗传算法和蚁群算法的优点,提高聚类的准确性和效率。
二、相关技术背景1. 遗传算法:遗传算法是一种模拟自然进化过程的优化算法,通过模拟生物进化过程中的选择、交叉、变异等操作,实现对问题空间的搜索和优化。
2. 蚁群算法:蚁群算法是一种模拟蚂蚁觅食过程中信息素传递的优化算法,通过模拟蚂蚁的信息素传递和协作行为,实现对问题的求解。
3. 聚类算法:聚类算法是一种无监督学习方法,将数据划分为若干个簇,使得同一簇内的数据相似度高,不同簇间的数据相似度低。
三、基于遗传-蚁群融合算法的聚类算法1. 算法思想本算法融合了遗传算法和蚁群算法的优点,通过遗传算法的全局搜索能力和蚁群算法的局部优化能力,实现对聚类问题的求解。
具体思想如下:(1)初始化:随机生成一定数量的聚类中心,作为初始解集。
(2)编码与解码:将聚类中心编码为染色体,通过遗传操作生成新的染色体,解码得到新的聚类中心。
(3)适应度评价:根据聚类效果评价函数,计算每个染色体的适应度。
(4)选择、交叉、变异:根据适应度选择优秀的染色体进行交叉、变异操作,生成新的解集。
(5)蚁群局部优化:在遗传算法的基础上,利用蚁群算法对聚类结果进行局部优化,提高聚类的准确性。
2. 具体实现步骤(1)初始化聚类中心,形成初始解集。
(2)将聚类中心编码为染色体,进行遗传操作,生成新的染色体。
(3)解码得到新的聚类中心,计算每个染色体的适应度。
(4)根据适应度选择优秀的染色体进行交叉、变异操作,生成新的解集。
(5)利用蚁群算法对聚类结果进行局部优化,得到最终的聚类结果。
一种基于信息熵的空间聚类算法
一种基于信息熵的空间聚类算法
郑燕玲
【期刊名称】《微电子学与计算机》
【年(卷),期】2011(28)8
【摘要】空间数据挖掘技术是从空间数据库中提取隐含的、用户感兴趣的知识.针对当前的聚类算法没有很好考虑到空间数据的复杂性和数据之间的联系,再加上聚类的精确度不高,设计了一种新的算法—基于信息熵的空间聚类算法(ESCA算法),该算法优先考虑空间数据的复杂性和数据之间的联系,并采用蚁群优化机制改善传统算法中聚类簇数不确定的缺点.实验结果表明该算法是可行,并且具有更高的精确度.【总页数】4页(P225-227)
【关键词】信息熵;空间数据挖掘;聚类;蚁群算法
【作者】郑燕玲
【作者单位】江门职业技术学院
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于信息熵的空间对象群聚类算法 [J], 刘建兴;鲍培明
2.一种基于信息熵的子空间聚类算法 [J], 刘竞杰;陶亮
3.一种基于信息熵的混合数据属性加权聚类算法 [J], 赵兴旺;梁吉业
4.一种基于信息熵的加权聚类算法 [J], 李顺勇;崔文秀;荆鹏霏
5.基于信息熵的加权块稀疏子空间聚类算法 [J], 龙咏红;邓秀勤;王卓薇;刘玉兰因版权原因,仅展示原文概要,查看原文内容请购买。
大数据聚类算法在商品市场细分中的应用
大数据聚类算法在商品市场细分中的应用引言:在如今的数字化时代,数据的生成量呈现爆炸性增长。
随着大数据技术的迅速发展,商业机构能够获取海量的数据,并通过分析这些数据来获取有价值的信息。
其中,大数据聚类算法作为一种常用的数据分析技术,被广泛应用于商品市场的细分中。
本文将重点探讨大数据聚类算法在商品市场细分中的应用,并介绍其原理和方法。
一、大数据聚类算法概述大数据聚类算法是一种无监督学习算法,其主要目的是将数据集中的样本划分为若干个具有相似特征的簇。
聚类算法通过计算样本之间的相似性来实现簇的划分,从而实现对数据的分类与分析。
常见的聚类算法有K-means算法、DBSCAN算法和层次聚类算法等。
二、大数据聚类算法在商品市场细分中的应用1. 客户细分大数据聚类算法能够对不同的客户进行细分,从而帮助企业更好地了解客户的需求、制定个性化的营销策略等。
通过对海量的客户数据进行分析和建模,企业可以将客户划分为不同的簇,每个簇代表一类具有相似需求和特征的客户群体。
这样一来,企业可以根据不同簇的特点来制定相应的营销活动,提高客户粘性和满意度。
2. 产品定位大数据聚类算法能够将产品划分为不同的簇,从而帮助企业了解产品的市场定位和潜在竞争对手。
通过分析产品的属性和市场需求,可以将具有相似特征的产品聚类在一起,同时发现市场上存在的差距和机会。
这有助于企业制定合理的市场定位策略,提高产品的竞争力。
3. 销售预测通过大数据聚类算法,企业可以对销售数据进行聚类分析,找出销售额高的产品和低的产品以及其特征。
这有助于企业了解产品的销售规律,预测销售趋势,并在生产和物流等方面进行合理的规划。
同时,企业还可以根据不同产品的销售情况制定差异化的销售策略,提高销售业绩。
4. 促销策略大数据聚类算法可以帮助企业选择更加有效的促销策略。
通过对促销活动与销售数据的聚类,企业可以找出相应促销策略的影响效果,进而优化促销方案。
此外,根据不同客户簇的特点,可以制定针对性的促销策略,提高促销的精准性和效果。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2010 年 第19卷 第 7 期 计 算 机 系 统 应 用 171Applied Technique 应用技术
基于信息熵的蚁群聚类算法在客户细分中的应用①
吴春旭 刘艳泽 苟清龙 (中国科学技术大学 管理学院 安徽 合肥 230026) 摘 要: 传统的蚁群聚类算法需设置较多参数,且聚类时间较长。基于信息熵的蚁群聚类算法通过信息熵改变蚂蚁拾起和放下数据的规则,减少了参数的设置、缩短了聚类的时间,将其应用于客户细分,并且与采用传统的蚁群聚类算法得到的细分结果进行比较分析,实验表明。基于信息熵的蚁群聚类算法可以加快客户细分的聚类进程。 关键词: 信息熵;蚁群算法;聚类;客户细分;应用
Ant Colony Algorithm Based on Entropy for Customer Segmentation WU Chun-Xu, LIU Yan-Ze, GOU Qing-Long (Department of Management, University of Science and Technology of China, Hefei 230026, China) Abstract: The ant-based clustering algorithm needs to set several parameters and cluster for a long time.The ant- based clustering algorithm based on entropy, which uses entropy to amend the ants picking and dropping rules, can reduce the number of parameters and shorten the time of clustering. This paper intends to apply it to the customer segmentation, and compares the segmentation results with the traditional ant-based clustering algorithm. The experiment shows that the ant-based clustering algorithm based on entropy can accelerate customer segmentation. Keywords: entropy; ant colony algorithm; clustering; customer segmentation; application
1 引言 随着知识经济的迅速发展,市场竞争越来越激烈,产品同质化加剧了企业之间的竞争。如何对客户进行细分,进而针对不同的客户群实施差异化服务和营销,已经成为企业的迫切需求。传统的客户细分方法主要是基于经验的分类或简单的分割[1]。这些方法对一个企业的客户关系管理(CRM)是有一定价值的。随着管理信息系统的广泛应用和电子商务的快速发展,企业已经积累了大量的客户数据,传统的客户细分方法已不能科学有效地处理这些数据,无法满足企业的客户细分需求[2]。 数据挖掘技术可以对客户的所有数据进行智能分类,从中寻找有用的客户行为模式和各种潜在的客户需求,为企业的决策者提供更好的决策支持,已成为CRM的核心支撑技术之一[3]。基于蚁群算法的聚类算 法已经在当前的数据挖掘研究中得到了广泛的应用, 该算法不需要预先设定聚类的簇数,而且可以形成任意形状的簇,减少初始参数对聚类结果的影响,但其设置的参数较多,聚类的时间较长。为了减少聚类时间,本文将信息熵和蚁群聚类算法相结合应用于客户细分,利用信息熵减少设置的参数,加快了聚类的速度,从而更好地体现客户特征,帮助企业制定出针对客户的个性化策略,提高客户的价值贡献。
2 蚁群聚类算法 聚类分析是数据挖掘领域中一个重要的研究课题,它根据数据间的相似程度进行分类,使类间的相似性最小化,而类内相似性最大化。经典的聚类分析方法包括分层算法、K均值算法、模糊C均值算法、图论聚类法、神经网络法以及基于统计的方法等。聚
① 基金项目:安徽省自然科学基金(090416240);高等学校优秀青年人才基金(2009SQRS001ZD) 收稿时间:2009-10-30;收到修改稿时间:2009-12-18 计 算 机 系 统 应 用 2010 年 第19卷 第 7 期 172应用技术Applied Technique
类方法应用于客户细分领域,将大量的客户分成不同的类,在每个类里的客户拥有相似的属性,类间的客户属性不同,便于企业确定目标客户,实施产品和服务差异化战略。 蚁群聚类算法的主要思想是[4]:将每一个数据对象随机地投影到平面的一个网格单元中,每只蚂蚁随机地选择网格单元中的一个位置。假设在t时刻某只蚂蚁在网格r发现一个数据对象oi,将对象oi与其邻
域对象oj的平均相似性定义为(1)式。
(1) 其中,()ssNeighr×表示r周围的以s为边长的正方形区域;d(oi, oj)表示对象oi和oj在属性空间中的距离,通常采用欧式距离;α为调节数据对象间相似性的参数,它决定了聚类数目和收敛速度。 蚂蚁在运动过程中拾起对象oi的概率pp(oi)和放下对象的概率pd(oi)分别是: (2) (3) 其中k1,k2都为阈值常量。 蚂蚁沿着网格单元移动时,根据公式(1)计算对象的平均相似性。如果蚂蚁未负载,则根据公式(2)计算“拾起”的概率pp,若pp大于某一个随机概率,而同时该对象未被其他蚂蚁“拾起”,则蚂蚁“拾起”该对象,随机移往别处,并标记自己有负载,否则,蚂蚁拒绝“拾起”该对象,而随机选择其他对象。如果蚂蚁是有负载状态,则根据公式(3)计算“放下”概率pd,若pd大于某一个随机概率,则蚂蚁“放下”该对象,并标记自己未负载,而重新选择一个新的数据对象。 蚁群聚类算法能实现完全分布式控制,并具有自组织性、可扩展性、健壮性等特征,而且采用蚁群模型进行聚类更加接近实际的聚类问题[5]。但是蚁群聚类算法需要设置的参数多,参数设置不当就会导致聚类结果不理想。而拾起与放下的规则会导致一个数据对象被多次拾起或放下,从而影响聚类的进程。 3 基于信息熵的蚁群聚类算法 针对蚁群聚类算法设置参数多、计算时间长的缺点,将信息熵理论用于蚁群聚类算法,通过信息熵的计算与比较,改变了拾起和放下数据的规则,减少了设置的参数,提高了聚类的性能。 3.1 信息熵定义 Shannon提出的信息熵定义为:假设是一个随机变量, X是其可能的取值集合(连续型数据需离散化),p(x)是取x值的可能性函数,信息熵E(x)定义为: (4) 一个多变量向量x={x1,x2,…,xn}的信息熵为: (5) 其中p(x)=p{x1,x2,…,xn
}是多变量可能分布函数,
X1,X2,…,Xn是相应向量项的可能取值集合(连续型数
据需离散化)。 3.2 算法思想
于信息熵的聚类算法均依据这样一个事实:包含聚的子空间的信息熵比不包含聚的信息熵小[6]。借鉴这
一思想,可以将信息熵引入蚁群聚类算法,改变蚂蚁拾起与放下数据对象的规则,算法的主要是思想是[7]:
一个未负载的蚂蚁移到对象oi之处,计算周围s×s区域中对象的信息熵,假设未拾到对象oi之前的信息熵为E1,拾起对象oi之后该区域的信息熵为E2,那么拾起的规则为:若E1> E2,则拾起对象oi。 一个负载对象oi的蚂蚁移到空白之处,计算周围s×s区域中对象的信息熵,假设未放下对象oi之前的
信息熵为E1,放下对象oi之后该区域的信息熵为E2,
那么放下的规则为:若E1> E2,则放下对象oi。 假设每一个对象包含n个互为独立的属性A1,A2,…,An,各属性的可能取值集合为x1,x2,…,xn,
s×s区域中对象的信息熵可以按以下公式计算:
(6) (7) 其中x为s×s区域中Ai
=x的对象个数;Y为s×s
区域中对象的总数。 基于信息熵的蚁群聚类算法只需要设置3个参数蚂蚁数目Nant、蚂蚁迭代次数tmax和s,影响拾起或
者放下对象的因素只有参数s。每次放下对象能减少小块区域的信息熵,每次拾起对象能增加小块区域的信息熵,根据包含聚的子空间的信息熵比不包含聚的信息熵小的思想,使得同类型的数据对象能够较快的聚集在一起,但是产生的结果是局部最优。通过调整s的大小,可以减少小块聚的产生。
2()
(,)11,()0()0,issijioNeighridoofofosα
×∈
⎧⎡⎤
−>⎪⎢⎥
=⎨⎣⎦
⎪⎩
∑若
其他
21
1()
()pi
i
kpo
kfo
⎛⎞=⎜⎟
+⎝⎠
222(),()()1,()iidii
fofokpofok
<⎧
=⎨
≥⎩若若
()()log()xXExpxpx∈=−
∑
111212()(,,,)log(,,,)xXnnnnxX
Expxxxpxxx
∈∈=−
∑∑
21()()log()nixXEspxpx
=∈=−
∑∑
()xpxY=