一种基于加权的高效关联规则挖掘算法的设计与实现

计算机工程与应用!""#$!"数据挖掘(%&’&()*)*+),也称为数据库知识发现,是指发掘隐藏在多数据源中的规则和知识,这对决策者而言,是一种迫切的应用需求。关联规则(,--./)&’).*0123-)是数据挖掘的重要研究内容,发现规则的过程基本上可以总结为:首先由决策用户指定被挖掘的数据库;其次是指定阈值,即最小支持度(()*)4145166.7’)和最小置信度(()*)4148.*9):3*/3),系统将选择一个挖掘算法并运行,运行结束后,系统将返回大量的关联规则;最后对挖掘结果进行筛选以便抽取对决策有用的规则。

但是有时候仅有这些是不够的,例如某商场同时出售商品!;,!!,!<和!#。通过对其进行数据挖掘,得到类似这样的规则,同时买!;,!!支持度较高,而同时买的!;,!#支持度较低。所以商场就可能对!;采取一些促销措施。但是,虽然商场卖出的!;比!#多,但实际上!#的利润往往远远大于!;的利润。所以,在挖掘关联规则时,可能会丢失许多重要的规则。出现这个问题的主要原因是关联规则没有考虑各个属性重要性的差异。所以在挖掘关联规则时,提出了“加权”的概念,即必须考虑支持度和权重两个因素。文献=!>从另一个技术角度,给出了两个加权关联规则的挖掘算法:(?@A,B (C )算法和(?@,B (A )算法。该文提出了一种基于加权频繁模式树的加权关联规则挖掘算法DAEFG,(,,2+.7)’H4I&-3:.*A3)+H’3:E73J13*’F&’’37*G733)

,用以提高规则发现的效率。;加权关联规则的挖掘问题

"KL #;,#!……,#$M 是由$个不同的项目组合的集合,%是所

有事务的集合(即数据库),每个事务&是一些项目的集合,&

包含在"中,每个事务可以用唯一的标识符G?%来标识。

定义;关联规则形如’()*,其中’!",*!",且’"*(!。%中事务包含’就包含*的可能性为规则的置信度,

同时包含’和*的可能性为规则的支持度。

对于给定项目集"KL #;,#!……,#$M ,为每个项目#+指定一个权值,+,"#,+#;,+(L;,!,…,$M ,

来表示项目的重要性。定义!加权关联规则’()*的加权支持度N4)*-16定义为:

!-+

#$

(’%*)"

#(5166.7’

(’%*))定义<若OD 项集’:

!-+#$’

"

$(5166.7’

(P ))QKN4)*-16称’为./加权频繁项集。

定义#若./项集’为./加权频繁项集,则’的支持数(58)满足:

01(’)&,4)*-16R &

#$’

!,

+

定义S 一个包含*的./项集的最大可能权重为:-(*,.)(#$’

!,+2./3

+(;!,4+

其中"为所有项目的集合,*为一3/项目集,

其中35.,设在余下的"/*的项目中,权重最大的(./3)个项目的权重分别为#4;,#4!,…,#4./3。

定义T 根据定义#和定义S ,包含*的OD 加权频繁项集

一种基于加权的高效关联规则挖掘

算法的设计与实现

周晓云

孙志挥

倪巍伟

(东南大学计算机科学与工程系,南京!;""UT )

VD4&)2:WXY"Z!#[-31$3:1$/*

文章研究了在大型事务数据库中挖掘加权关联规则的问题,给出了加权频繁模式树的定义,在挖掘算法(?@\

A,B

(C )和(?@A,B (A )的基础上,提出了一种基于加权频繁模式树的加权关联规则挖掘算法DAEFG,,并做了相应的算法比较,试验结果表明算法AEFG,是有效的。关键词

数据挖掘

关联规则

加权关联规则

文章编号;""!D]<<;D (!""#)!"D"";ZD"<

文献标识码,

中图分类号GF<";$T

!""#$#%&’(#&#&)*+),-#’./",-0%#).’%1*22,$#3’#,&45+%2

6.,57#3,85&95&6.#.5#:#0%#;%#

(%36&7’43*’.98.461’375/)3*/3&*:V*+)*337)*+,5.1’H3&-’^*)_37-)’Y ,@&*‘)*+!;""UT )

*<2’-3$’:GH)-6&637:)-/1--3-’H367.I234.9:)-/._37)*+N3)+H’3:&--./)&’).*7123-I3’N33*)’34)*&2&7+3:&’&I&-3

.9-&23-’7&*-&/’).*,&*:&*3N &2+.7)’H4)-67._):3:I&-3:.*’H3&2+.7)’H4-.9(?@A,B (C )&*:(?@A,B (A )$8.4\6&7)*+N)’H .’H37&2+.7)’H4-,’H3&1’H.7&2-..9937--.433X637)43*’-’.-H.N ’H&’’H3*3N &2+.7)’H4)-4.73399)/)3*’$=%8;,-12:%&’&()*)*+,,--./)&’).*0123-,N3)+H’3:&--./)&’).*7123-基金项目:国家自然科学基金资助项目(编号:Z"

作者简介:周晓云,男,博士研究生,主要研究领域为数据挖掘与知识发现。孙志挥,教授、博导。倪巍伟,博士研究生。

;Z

万方数据

相关主题
相关文档
最新文档