闭项集挖掘算法研究综述

合集下载

一种基于位运算的频繁闭项集挖掘算法

一种基于位运算的频繁闭项集挖掘算法
r f e q u e n t c l o s e d i t e m s e t s( MF C I S ) . F i r s t l y , t h e a l g o i r t h m u s e d t h e v e c t o r t o e x p r e s s i t e ms i n d a t a b a s e a n d s c a n e d t h e
d a t a b a s e or f o n l y o n e t i me .S e c o n d l y i t c o mp u t e d t h e s u p p o  ̄o f i t e ms e t s t h r o u g h t h e b i t o p e r a t i o n a n d u s e d t h e ma t r i c e a n d t h e a r r a y t o s t o r e t h e a n c i l l a r y i n f o r ma t i o n t o r e d u c e t h e t i me a n d me me o r y, a n d u s e d p r u n i n g t e c h n o l o g y t o i mp r o v e t h e mi n i n g e f f i -
息, 减 少时间和 空 间消耗 ; 深度优 先搜 索产 生频繁 闭项集 时利 用剪枝 策略进一 步减 少挖掘 时 间 ; 利 用 同生 项集 性
质进行 闭合 性检测 , 无 须检 查超集 或子 集。理论 分析 和 实验 结果验 证 了该算 法的有效 性 。
关键词 :数 据挖掘 ;频繁 闭项集 ;矩 阵 ; 位 运 算 ;同生项 集 中图分 类号 :T P 3 1 1 文献标 志码 :A 文 章编 号 :1 0 0 1 — 3 6 9 5 ( 2 0 1 3 ) 1 1 — 3 2 8 0 . 0 3

FCIM:一种新的闭模式挖掘算法

FCIM:一种新的闭模式挖掘算法
维普资讯
10 20 .33 ) 8 0 7 4 (3
C m ue nier ga dA pi tn o p trE gnei n p lai s计算机工程 与应用 n c o
F I : C M 一种新 的闭模 式挖掘 算法
李世 松 ・柴 晓辉 z宋顺 林 ・ , ,
掘 到的信息 , 利用 F — re P Te 直接 产生结果 集 , 试验结果 表明该 算 法的性能 比其它的算法 要好 。
a d A piain ,0 7 4 ( 3 : 8 - 8 . n p l t s 2 0 ,3 3 ) 1 0 1 3 c o
Ab t a t T i p p r p o o e a n w a p o c o s r c : h s a e rp s s e p r a h t mi i g t e fe u n co e i ms t i P— r e wi o t d p ia e e ea in nn h q e t ls d t r e es n F T e , t u u l t s g n r t h c o a d wi o t me r c n e v t nT e x e me tl e o a c s h w ta t i ag r h n t u moy o s r ai .h e p r n a p r r n e s o h o i fm h t h s lo t m o te f r s e tr h n t e s t o i u p ro b t t a o h r t e f m e a
t e r l rt h a agoihms t .
Ke r s l s d p t r As o it n Ru e Da a Mi i g y wo d :co e a t n; s cai l ; t n n e o

基于频繁闭项集挖掘的增量式维护算法

基于频繁闭项集挖掘的增量式维护算法

[ sr c]nod romie atn fcet e un lsdi mst acrigt sro , eeo n df ao fh a b s, i ppr Abta t I re n sade inl f q et oe e es codn i et n dlt na dmo ict no edt ae t s a e t f i yr c t on i i i i t a h
LIYun ,SH IYa n
( . c o l f ot ae XiinU ie s y Xi n7 0 7 ; . c o l f l t ncE g n e n , d a ies y Xi n7 0 7 ) 1 S h o o S f r, da n v ri , ’ 10 1 2 S h o E e r i n ie r g XiinUnv ri , ’ 1 0 1 w t a o co i t a
b sd o ag r h i Th l o h p r to s d t n o d fe e tg o s t i t p o o e n i c e n a i t i i g a g rt m CHARM a e n CHARM l o t m . e a g rt m a ii n a a i t if r n r up o r p s s a n r me t l man an n l o h U i

即 , 一 组 项 目的集 合 , t ,。如 果 ,中 的一 个 子 集 X 存 中
在 X t ,就说一个交易包含 x。 ,

个项集 X的支持度定义为包含项集 X的交易的数 目与
交易总数 的百分比,记 为 Sp X) u f 。如果项集 X 的支持度大 于 或等于用户指定的最小支持度 ( i u ) mn p ,则称 X 为频 繁项 S 集 。 对于 频 繁 项集 X,若 不 存 在 项 集 y 使 得 Y X且

基于频繁闭项集的Web日志挖掘算法

基于频繁闭项集的Web日志挖掘算法
1 2 问题 与 解 决 方 法 .
1 We 日志 挖 掘 b
We b日志挖 掘是 指 通 过 分析 用 户 访 问 服 务器
时 留下 的访 问记 录 , 合 各种 数 据 挖 掘 技 术 , 到 结 得 包 括 网站运 营和 用户访 问规 律 等信 息 , 而改 进 网 从 站 服务 , 提高 用户 满意 度.
以提取 用 户访 问页 面间 隐含 的 因果关 系 、 简单 关 系 和前后 关 系等 , 有 较好 的商 业前 景. 而 , 有 的 具 然 现 基于关 联 规则 的 W e 日志 挖掘 算法 往 往产 生 大 量 b 的候选 规则 , 对 规 则 的排 序 、 剪 和 查 找都 带 来 这 修
1 1 W e 日志 挖 掘 模 型 . b
关 联 规则 在数 据挖 掘 中得到 了广 泛 的应 用 , 尤
提取 We b日志 中 的隐含 的信 息需 要 经 过数 据 预处理、 模式 发 现 和 模 式 分 析 等 阶段Ⅲ , 1显 示 图
了 W e 日志 挖 掘 模 型 . b
其在 大量 商业决 策 中. 年来 页 面关联 规 则挖 掘 可 近
秦 东霞 , 周 航 , 张栋 梁 , 文 欢 吴
( 口师范 学院 计 算机 科 学与技 术 学院 , 南 周 口 4 6 0 ) 周 河 6 0 1
摘 要 : 绍 了 we 日志 挖 掘 的 模 型 , 析 了使 用 关 联 规 则 挖 掘 W e 日志 时 遇 到 的 规 则数 量 大 且 存 在 冗 余 介 b 分 b
们希 望在 互联 网 上 找 到 自己需 要 的 各 种 各 样 的信
息. 用户在 网上 的各 种 行 为 都 保存 在服 务 器 中 , 如
何发 现这些 行 为 中隐含 的规则 和关 系 , 改进 网站 对 及吸 引更 多 用 户 有 着 重 要 的 意 义. b 日志数 据 We

一种挖掘频繁闭项集的深度优先算法

一种挖掘频繁闭项集的深度优先算法
ZHANG n L A0 n. GUO Xi . I Pi Bo ( ol eo i c n eh o g ,N nh n nvri,Naca gJ nx 3 0 9 hn ) C lg S e ead Tcnl y acag U i sy e f cn o et nh n i g i 0 2 ,C ia a 3
0 引 言ห้องสมุดไป่ตู้
频 繁 项 集 挖 掘 是关 联 规 则 挖 掘 中的 关 键 步 骤 , 是 数 据 也
C I re Coe r un e st re 两 种结 构提 高 了基 于 F. e ( lsdFe et m e Te ) T q h
F —r 挖掘频繁闭项集 的算法性能。 PTe e

种 挖 掘 频 繁 闭项 集 的深 度 优 先 算 法
张 圻, 廖 频, 郭 波
( 昌大学 科学技术学院 , 南 南昌 30 2 ) 3 0 9
(hn x @ 13 cr) zagi 6 .o n n

要: 频繁 闭项集挖掘是许 多数据挖掘应 用 中的重要 问题 。为减 少候 选项集数量和降低 支持度计算 的开销 , 提
d tst no ai t e y t mpoe o p esd F e u n a en t e ( F —re i o t a i o t x a d a e if m t n s rd b h i rvd C m rs rq e tP t r r a r o o e e t e C PT e ) n h p r t n ma , n t e ti i r
dphfs sac l rh r iigf q et lsdi m es a e e t—r erhfrrq et lsdi m e ( F C) et—r erha oi m f n eu n coe e st cl ddphfs sac eu n coe e st D F I it g t om n r t l it of t s w spooe ,w i o l r uetenmbr f addt i m esadtecs o u p ̄ cu t g F C m et e a rpsd h hcud e c h u e o nia e st n ot fsp o oni .D F Ip jc dt c d c et h n e h

基于索引数组和复合频繁模式树的频繁闭项集挖掘算法

基于索引数组和复合频繁模式树的频繁闭项集挖掘算法
S ONG e W i YANG i g Ru XU h n — n ’ Bn- 2 Z a g Ya ZHANG o Ho g Ta - n
( h o o nomainE gn eig B in ies yo cec n c n lg ,B in 0 0 3 c s o l f fr t n ier , e igUnv ri fSin e dTeh oo y I o n j t a e ig1 0 8 ) j
效率较 高。
关键词
数据挖掘 , 关联规则 , 频繁 闭项 集, 索引数组 , 复合频繁 模式树
Cl s d I e e i n g rt m s d n n e r y a mpo nd Fr qu ntI e e e o e t ms tM ni g Al o ih Ba e o I d x Ar a nd Co u e e t ms tTr e
e. Th n,b s d o i p,a lo i m o o u i n e ra s p e e td Fu t e o e r q e ti ms ae r e a e n bt ma n ag rt h fr c mp tn id x a ry i r sn e . g rh r r ,fe u n t r m e
tt n l o t I hsp p r a i a s. n t i a e ,CROP I d x,wh c s a mp o e lo ih f r mi i g f e u n l s d i ms t s p o o c ne ih i n i r v d a g rt m o n n r q e tco e t e e ,i r —
维普资讯
计 算机科学 2 0 Vo. 4 0 8 0 7 1 N . 3

基于频繁概念直乘分布的全局闭频繁项集挖掘算法

基于频繁概念直乘分布的全局闭频繁项集挖掘算法

关键词
Ie eg概 念 格 ; 布 式 数 据 挖 掘 ; 置 集 成 ; cb r 分 并 异构 数 据 库 ; 频 繁 项 集 闭
TP 1 31 D 号 : 0 3 2 / P J 1 1. 0 2 0 9 0 OI 1 . 7 4 S . . 0 6 2 1 . 0 9
中 图法 分 类号
( 州大学信息工程学院 郑 郑州 4 00 ) 5 0 1


基 于 概 念 格 的集 中式 数 据挖 掘算 法 , 能 充 分 地 利 用 分 布 式 计 算 资 源 来 改 善 概 念 格 构 造 效 率 , 而 影 响 不 从
了挖 掘 算 法 的性 能. 中进 一 步 分 析 了 I b r 念 格 并 置 集 成 的 内在 并 行 特 性 ; 频 繁 概 念 直 乘 及 其 下 覆 盖 为 最 文 c eg概 e 以
Ab t a t s r c
W ih nc e sng i t i e o p i n r n e t p id x e i l t i r a i d s rbut d c m utng e vio m n a ple e t nsvey, t a ii a r d ton l
小 粒 度 , Ieeg概 念 格 并 置集 成 过 程 进 行 分 解 和 分 布 式 计 算 ; 对 其 正 确 性 理 论 证 明 的 基 础 上 , 出 了 一 个 新 对 cbr 在 提
颖 的异 构 分 布 式 环 境 下 闭频 繁项 集全 局挖 掘算 法 . 算 法 利 用 Ie eg概 念 格 的半 格 以及 可 并 置 集 成 特 性 , 分 发 此 cb r 充 挥 了分 布 式环 境 下 计 算 资 源 的 优 势 . 实验 证 明 , 稠 密 数 据 集 和 稀 疏 数 据 集 上 , 挖 掘算 法都 表 现 出较 好 的 性 能 . 在 该

利用数据变换与并行运算的闭频繁项集挖掘方法

利用数据变换与并行运算的闭频繁项集挖掘方法

利用数据变换与并行运算的闭频繁项集挖掘方法党红恩;赵尔平;刘炜;雒伟群【摘要】针对传统闭频繁项集(CFI)挖掘方法耗时长、效率低的问题,提出一种基于数据变换与并行运算(DTPC)的新型挖掘方法:设计基于质数对数运算的数据变换方法,将大量数据转换成简单的数字;利用Spark并行框架中的平方/开方运算将这些数字转换成频繁项集.3 000万篇文章的大数据集实验结果表明,提出的DTPC算法可以大幅度提升数据挖掘效率,同时减少计算资源的不必要浪费.%A novel big datasets mining method based on data transformation and parallel computing is proposed to settle the problems of time-consuming and low efficiency of traditional closed frequent item sets (CFI) mining algorithms:designing a prime-logarithmic-operational based data transformation to transform big datasets into simple numbers;utilizing the square and square root calculation in Spark parallel framework to transform these numbers into frequent item sets.Experiments on 30 million articles indicate that the proposed DTPC algorithm can not only enhance data mining efficiency,but decrease unnecessary waste of computing resources.【期刊名称】《湘潭大学自然科学学报》【年(卷),期】2018(040)001【总页数】4页(P119-122)【关键词】闭频繁项集;大数据挖掘;质数对数变换;Spark并行计算框架【作者】党红恩;赵尔平;刘炜;雒伟群【作者单位】西藏民族大学信息工程学院,陕西咸阳712082;西藏民族大学信息工程学院,陕西咸阳712082;西藏民族大学信息工程学院,陕西咸阳712082;西藏民族大学信息工程学院,陕西咸阳712082【正文语种】中文【中图分类】TP311;O241海量信息的爆发式增长已成为当今世界最主要的特点.在这些形式各异、容量极大的数据中,如何准确提取关键信息,帮助各类决策者了解、掌握瞬息变换的客观世界,是非常重要的[1].信息技术和硬件技术的快速进步,已经使得用户生产并处理海量的事务数据(即大数据)成为可能,大数据处理的核心就是数据挖掘技术[2].然而,在物理世界中不断涌现的闭频繁项集(closed frequent itemset, CFI)加大了大数据挖掘的难度,降低了数据挖掘结果的实时性和可靠性.闭频繁项集的概念最早见于文献[3],此后出现了大量的闭频繁项集挖掘算法[4-7].在处理小数据集或高支持阈值的CFI挖掘问题时,现有的方法表现出了良好的性能.这些算法通过将搜索空间限制在闭频繁项集而不是整个集合的幂集,将寻找频繁项集简化为挖掘闭频繁项集.但是,当数据集范围增大或支持度阈值变低时,内存占用和通信成本的急剧增大使得现有方法的可行性和运行速率变低.一些研究试图通过并列运行的方式加快CFI挖掘算法的速度,但却产生了一些如数据划分和通信成本最小化等问题,需要进一步改进.然而,不可否认的是,并行方案确实是一种解决CFI大规模挖掘的行之有效的方法.目前,针对闭频繁项集并行挖掘算法的研究相对较少.[8]基于MapReduce平台的CFI,提出一种基于贪婪策略的CFI并行平衡挖掘算法,并通过实验证明了所提算法在大规模CFI挖掘中的可靠性和快速性.[9]提出了一种充分利用频繁模式增长算法固有并行特征的多处理器顺序展开结构,实验结果表明提出的结构可以大幅度提高运算速度.[10]提出一种运行于多核处理器上的SAT并行算法,通过路径指引来分解枚举过程,大大提高了CFI挖掘的动态性能.为充分利用并行框架Spark在计算和存储等方面的优势,本文提出一种基于数据变换与并行运算(data transformation and parallel computing, DTPC)的CFI挖掘方法:利用平方和开方运算将数据集的项转化为质数,进而成频繁项集.利用3 000万篇文章组成的大数据集进行了相关实验,实验结果证明本文算法在可靠性、准确性和动态响应速度等方面大大优于现有的算法.1 DTPC算法本文提出的DTPC闭频繁项集挖掘方法包括两个步骤:第一步,进行数据转换,生成频繁项列表,并在Spark中进行降序排列;第二步,在Spark中挖掘闭频繁项集.在介绍本文具体算法之前,先对闭频繁项集的一些相关概念进行简单的介绍. 定义1 提取上下文:指一个三元组κ=(O,I,R),式中O表示对象的有限集合,I为项的有限集合,R为二元(关联)关系(即R⊆O×I),每对(o,i)∈R表示对象o∈O包含项i∈I.定义2 闭项集:项i∈Ι是闭环的,当且仅当I″=I;S(I)代表i的支持,其值等于κ中包含i的项数;如果S(i)比S(I)的最小值大,则认为i是频繁的.定义2中,(″)表示闭包算子,由ψ:P(i)→P(O)s.t.ψ(i)={o∈O|∀i∈I,(o,i)∈R}和φ:P(O)→P(i)s.t.φ(O)={i∈I|∀o∈O,(o,i)∈R}共同定义.闭包算子将项的幂集分割成了互不相连的子集.我们提出一种数据转换方法来生成频繁项列表,同时使用Spark[11]依据项支持的降序分类该列表.定义3 质数:一个整数Z >1是质数,当且仅当其仅能被自身和1整除.定义4 质因子:假设整数Z >1不是质数,此时Z可以通过一系列质数相乘进行表示,即其中pi为质数,mi为正整数.在定义3和定义4的基础上,给出一种新型的数据变换方法(定义5),用来将输入数据变换为频繁项集.定义5 事务转换:假设T={ij,…,ik}为事务,项ir∈T,通过将质数pr分配给每个项ir,并用方程(1)进行计算,可以完成数据转换过程,得到事务转换后的新数值VT.表1 数据变换示例Tab.1 Example of data transformation表1给出了数据转换的示例,其中:表1(a)为提取上下文κ;表1(b)为κ中按照降序分类的项,以及这些项的质数和支持;表1(c)为上下文κ经数据转换后得到的结果.完成数据转换后,需要在Spark中提取闭频繁项集的完整集合,从而建立完整的DTPC闭频繁项集挖掘方法.定义6 条件上下文:给定提取上下文[12]κ,令i为κ中的频繁项,当省略了所有频繁项、项i和跟随i之后的项时,i的条件上下文定义为包含i的转换子集.令j 为频繁项X的条件上下文中的一个频繁项,当省略了所有频繁项、项j和跟随j之后的项时,jX条件上下文定义为包含j的、X的条件上下文中的转换子集.将频繁项按支持度的大小进行降序分类,对于每个i,DTPC只包含i的数据转换中的条件上下文.为了加快对这些子上下文的搜索,本文定义了与每个上下文关联的指示表,该表列举了按项支持度降序分裂的,包含在其相应条件上下文中的项.在本文算法中,提取闭频繁项集不需要使用此表.本文研究的项集X具有以下特征:(1) 从上下文中提取的闭项集X,是通过连接与X同样频繁的项发现的.(2) 无需设计包含在闭频繁项集的项集Y的条件上下文,来使S(X) =S(Y).定理1(最大公约数闭包) 令X条件上下文为包含X的转换集,X条件上下文中的最大公约数所有事务的闭包.将项及其事务转换为质数后,通过计算条件上下文的所有事务的最大公约数,可以很简单地计算出闭包,而且这并不需要存储条件上下文包含的项的支持度.通过将闭包与连接候选项进行连接(即将该候选项的质数与闭包的数值相乘),即可得到闭频繁项集.本文将该闭频繁项集表示为一个数,并将该数添加到最终得到的集合中. 综上,可得DTPC算法的具体步骤:(1) 对输入数据进行基于质数平方/开方的数据转化预处理;(2) 并行挖掘闭频繁项集,即利用并行最大公约数方法挖掘局部闭频繁项集;(3) 获取输出结果,即闭频繁项集.基于以上三步,即可以正确、快速地挖掘出闭频繁项集的完整集合.事实上,在预处理阶段后,DTPC已经开始基于Spark计算项的支持度,并将项按照支持度降序进行,得到相应的列表.在正式开始挖掘闭频繁项集时,DTPC算法使用第二个Spark,通过将上下文分割为一个新的数据集,并将其作为输入数据的条件上下文.此时,DTPC算法通过应用新的闭包操作,计算条件上下文之间所有事务的最大公约数,进而提取并获取闭环.2 实验分析为了验证提出的DTPC算法的有效性,本文在两个数据集上进行测试.第一个数据集为“Google Article”,表示将Google转换为事务数据集的转换集合,每一行为一篇文章.Google Article包含5 352 741个事务,合计4 305 928个不同的项目.在这些事务中,事务的最大长度为102 394,整个数据集的尺寸为3.2 GB.第二个数据集为“Clue Web”,包含10种语言、约10亿种网页,收集于2017年1月,该数据集包含43 783 550个事务、9 802 501个项,这些事务的最大长度为403 521,整个“Clue Web”的尺寸为19.5 GB.采用高性能消息传递库OpenMPI[13]作为实验平台,选取15个节点的聚类进行实验:将一个节点选为主节点,负责在不同节点之间调度执行任务;将其他节点设置为从节点,负责并行计算.为验证该算法的优越性,将DTPC算法与[14]和[15]中的算法进行比较,结果如图1所示.图1(a)为最小支持度值小于数据库整体规模3%时,三种算法在“Google Article”上测试的实验结果.由实验结果可知,提出的DTPC算法明显优于其他算法.这是因为“Google Article”包含数量众多的项,项数几乎等于事物数.当最小支持度的值足够低时,文献[14]、[15]中的两种算法都会生成许多的候选者和条件上下文.因此,在这两种算法中所使用的方法非常复杂,进而导致挖掘性能变差.DTPC算法基于质数,通过简单的平方/开方运算即可生成条件上下文,因而计算起来非常简便.此外,每个条件上下文中的最大公约数消除了候选者和其闭包之间的支持度检验,从而省略了闭包频率的计算.图1(b)为在“Clue Web”上的实验结果,通过减少最小支持度值,闭频繁项数变化并不明显;匹配候选者事务的数量却快速增加,这样会导致项集的候选者生成较大的条件上下文.然而,在这种情况下,本文提出的DTPC算法仍能获得较好的计算性能,这是因为本文的算法避免了从每个条件上下文中产生闭包的冗余计算,而文献[14]、[15]中的两种算法则不具备这种能力.参考文献[1] 赵海燕, 王向前, 马艺. 量子密码学结合Grover搜索的大数据安全认证方案[J]. 湘潭大学自然科学学报, 2016, 38(4): 76-79.[2] 史玉珍, 吕琼帅. 基于进化模糊规则的Web新闻文本挖掘与分类方法[J]. 湘潭大学自然科学学报, 2016, 38(2): 99-103.[3]PASQUIER N,BASTIDE Y,TAOUIL R, et al. Discovering frequent closed items ets for association rules[J]. Lecture Notes in Computer Science, 1999, 1540: 398-416.[4]SUTHA M J,DHANASEELAN F R. An efficient method for detection of breast cancer based onclosed frequent itemsets mining[J]. Journal of Medical Im aging & Health Informatics, 2015, 5(5): 45-56.[5]TAN J. Efficient data streams based closed frequent itemsets mining algorit hm[J]. Applied Mechanics & Materials, 2013, 256-259: 2910-2913.[6]LUCCHESE C,ORLANDO S,PEREGO R. Fast and memory efficient mining of f requent closed itemsets[J]. IEEE Transactions on Knowledge & DataEnginee ring, 2006, 18(1): 21-36.[7] 王黎明, 张卓. 基于iceberg概念格并置集成的闭频繁项集挖掘算法[J]. 计算机研究与发展, 2007, 44(7): 1184-1190.[8] CHEN G P,YANG Y B,ZHANG Y. MapReduce-based balanced mining for closed frequent itemset[C]//International Confe rence on Web Services, 2012: 652-653.[9]IONESCU C M,COPOT D,COPOT C, et al.Parallel architecture for implement ation of frequent itemset mining using FP-growth[C]//International Conference on Signals and Systems, 2017: 92-98.[10]DLALA IO,JABBOUR S,SAIS L, et al. Parallel SAT based closed frequent item sets enumeration[C]//IEEE/ACS 12th International Conference of Computer Systems and Applications, 2015: 1-8.[11] 陈洁, 褚龙现, 夏栋梁. 一种支持并行处理的矢量数据存储与查询方法[J]. 电子设计工程, 2017, 25(10): 31-33.[12]HAN J,PEI J,YIN Y, et al. Mining frequent patterns without candidate genera tion: a frequent-pattern tree approach[J]. Data Mining & Knowledge Discovery, 2004, 8(1): 53-87.[13]PERKS O,BECKINGSALE D A,DAWES A S, et al. Analysing the influence of Inf iniBand choice on OpenMPI memory consumption[C]//International Confe rence on High Performance Computing and Simulation, 2013: 186-193. [14] 唐颖峰, 陈世平. 一种基于后缀项表的并行闭频繁项集挖掘算法[J]. 计算机应用研究, 2014, 31(2): 373-377.[15] 李海峰. 基于GPU的闭合频繁项集挖掘方法[J]. 计算机工程, 2011, 37(14): 59-61.。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

闭项集挖掘算法研究综述
刘文杰;秦伟德;张晓蝶
【期刊名称】《大众标准化》
【年(卷),期】2022()8
【摘要】频繁项集挖掘算法和高效用项集挖掘算法是数据挖掘关联规则领域非常重要的两个分支,旨在发现项之间隐藏的关联性。

然而,这两类算法会产生大量的频繁项集和高效用项集,算法效率有待提高。

考虑到这一问题,闭项集的概念被提出,衍生出闭项集挖掘算法。

首先对闭项集的概念进行描述,给出闭频繁项集和闭高效用项集的相关定义性质,然后从算法机制、数据结构、阶段数等角度对现有闭频繁和闭高效用算法进行总结归纳。

【总页数】3页(P151-153)
【作者】刘文杰;秦伟德;张晓蝶
【作者单位】兰州财经大学
【正文语种】中文
【中图分类】TP3
【相关文献】
1.基于概念格的频繁闭项集增量挖掘算法研究
2.基于频繁项集挖掘最大频繁项集和频繁闭项集
3.一种挖掘频繁项集和频繁闭包项集的算法
4.基于定量更新滑动窗口频繁闭项集挖掘算法研究
5.稀疏数据频繁项集挖掘算法研究综述
因版权原因,仅展示原文概要,查看原文内容请购买。

相关文档
最新文档