基于间隔链表改进的频繁项集挖掘算法

合集下载

基于线性链表存储结构的Apriori改进算法

联规则。挖掘的重点主要集中在如何快速、高效发
现频繁项集。Ａｒｒ算法的主要不足之处是，成了大量的ｐｉｉｏ生候选频繁项集以及为了验证候选频繁项集是否是
首先，ｐｉｉ法计算事务数据库中所有单个Ａｒｒ算ｏ
然后计算这些候选项集的支持度，生成．繁项集频
。
为了减少扫描数据库的次数，高算法的效提率，研究并实现了一种Ａｒｒ的改进算法，事物ｐｉｉｏ将
数据库中的信息用线性链表表示，约了存储设备节
第１卷１
第２３期
２１年８０１月
科
学
技
术
与
工
程
Ｖｏ．１Ｎｏ２Ａｕ．０１１１．３ｇ２１
１７ — １１（０１２ —６５０６１８５２１）３５８ —３
ＳｉｎｅＴｅｈｏｏｙａｄＥｇｎｅｎｃｅｃｃｎｌｇｎｎｉｅｒｇｉ
第一作者简介：赵明茹（９９）黑龙江人，师，士，１７一，讲硕研究方向：
数据挖掘。
据库的过程中，据库Ｄ的大小将影响算法的性数
５８６６
科
学
技
术
与
工
程
１卷１
能，并且系统的ＩＯ负载相当大。／（）Ａｆｆ算法会产生大量的中间项集，２ｐｏｉｉ由频繁ｋ一１项集进行连接生成的候选ｋ集数量巨大。项由Ｌｋ～１产生候选ｋ项集是指数级增长的。候

频繁项集挖掘算法

频繁项集挖掘算法 FP-GrowthApriori算法和FPTree算法都是数据挖掘中的关联规则挖掘算法，处理的都是最简单的单层单维布尔关联规则。

Apriori算法Apriori算法是⼀种最有影响的挖掘布尔关联规则频繁项集的算法。

是基于这样的事实：算法使⽤频繁项集性质的先验知识。

Apriori使⽤⼀种称作逐层搜索的迭代⽅法，k-项集⽤于探索(k+1)-项集。

⾸先，找出频繁1-项集的集合。

该集合记作L1。

L1⽤于找频繁2-项集的集合L2，⽽L2⽤于找L3，如此下去，直到不能找到频繁k-项集。

找每个L k需要⼀次数据库扫描。

这个算法的思路，简单的说就是如果集合I不是频繁项集，那么所有包含集合I的更⼤的集合也不可能是频繁项集。

算法原始数据如下：TID List of item_ID’sT100 T200 T300 T400 T500 T600 T700 T800 T900I1,I2,I5 I2,I4I2,I3I1,I2,I4 I1,I3I2,I3I1,I3I1,I2,I3,I5 I1,I2,I3算法的基本过程如下图：⾸先扫描所有事务，得到1-项集C1，根据⽀持度要求滤去不满⾜条件项集，得到频繁1-项集。

下⾯进⾏递归运算：已知频繁k-项集(频繁1-项集已知)，根据频繁k-项集中的项，连接得到所有可能的K+1_项，并进⾏剪枝（如果该k+1_项集的所有k项⼦集不都能满⾜⽀持度条件，那么该k+1_项集被剪掉），得到项集，然后滤去该项集中不满⾜⽀持度条件的项得到频繁k+1-项集。

如果得到的项集为空，则算法结束。

连接的⽅法：假设项集中的所有项都是按照相同的顺序排列的，那么如果[i]和[j]中的前k-1项都是完全相同的，⽽第k项不同，则[i]和[j]是可连接的。

⽐如中的{I1,I2}和{I1,I3}就是可连接的，连接之后得到{I1,I2,I3}，但是{I1,I2}和{I2,I3}是不可连接的，否则将导致项集中出现重复项。

基于改进FP-tree的最大频繁项目集挖掘算法

基于改进FP-tree的最大频繁项目集挖掘算法马丽生;姚光顺;杨传健【摘要】针对已有算法为了减少PF-tree中路径被重复遍历的次数,需要保存FP-tree中所有频繁1-项集的条件模式基的问题,对FP-tree的数据结构进行修改,使得只需要保存FP-tree中每个叶子节点的父节点到根节点路径上项目组成的条件模式基,降低了保存条件模式基的存储空间开销.在分析最大频繁项目集挖掘算法中搜索空间以及数据表示方法的基础上,通过理论分析和证明,设计了剪枝策略和压缩策略,缩小了算法搜索空间,压缩了FP-tree的规模,提高了算法的执行效率.最后将新算法分别与NHTFPG算法、FpMAX算法进行对比,验证算法的正确性和有效性.实验结果表明,新算法保存FP-tree条件模式基所需要的存储空间不到NHTFPG算法的50％,执行效率比FpMAX算法提高了2～3倍.%In order to reduce the repeated traversal times of path in the FP-tree, the conditional pattern bases of all frequent 1 -itemsets in the FP-tree need to be saved in the existing algorithms. Concerning this problem, in the new algorithm, the data structure of FP-tree was improved that only the conditional pattern bases were saved which were constituted by the items in the path from every leaf node' parents to the root in the FP-tree, and the storage space of the conditional pattern bases was reduced. After studying search space and the method of data representation in the algorithm for mining maximal frequent itemsets, the pruning and compression strategies were developed through theoretical analysis and verification, which could decrease the search space and the scale of FP-tree. Finally, the new algorithm was compared with NHTFPG algorithm and FpMAX algorithmrespectively in terms of accuracy and efficiency. The experimental results show that the new FP-tree algorithm saves the required conditions for model-based storage space more than 50% than NHTFPG algorithm, and the efficiency ratio improves by 2 to 3 times than FpMAX algorithm.【期刊名称】《计算机应用》【年(卷),期】2012(032)002【总页数】4页(P326-329)【关键词】频繁项目集;最大频繁项目集;条件模式基;项头表;剪枝策略;压缩策略【作者】马丽生;姚光顺;杨传健【作者单位】滁州学院计算机与信息工程学院,安徽滁州239000;滁州学院计算机与信息工程学院,安徽滁州239000;滁州学院计算机与信息工程学院,安徽滁州239000【正文语种】中文【中图分类】TP311.130 引言从IBM的Agrawal博士等1993年提出Apriori［1-2］方法以来，许多研究人员对频繁项目集挖掘问题进行了大量的研究［1-3］。

基于链表数组的最大频繁项集挖掘算法

第３６卷第６期
１１３１．６ｏ
・
计
算
机
工
程
２１００年３月
Ｍａｒｈ２０ｃ０１
Ｎｏ．６
ＣｏｐｔｒＥｎｉｅｒｎｍｕｅｇｎｅｉｇ
软件技术与数扼｝・库
文章编号：１ｔ－４８００６０８－０文献标识码：Ａ０）３２（１０－０９－２ｔ－１２）－
［ｙｗ，ｓａｎｎ；ａｉｌｒｑｅｔｔｅｓＦ）ｌｋｄｌｔｒａ；ｏｕｉｎｓａｅＫｅｗｄｌｄｍｍｉｉｇＭｘｍａＦｅｕｎｅｔ（Ｉ；ｉｅｓａｒｙｓｌｔｃＩｍｓＭｎｉｏｐ
１概述
在诸如关联规则挖掘、序列模式挖掘、相关性挖掘、多
ＭａｉａｅｘｍｌＦｒｑｕｅｔｍｓｔｉｎｇＡｌｏｒｔｎｔＩｅｅｓＭｎｉｇｉｈｍＢａｅ０ＬｉｅｓｒｙｓｄｎｎｋｄＬｉｔＡｒａ
ＬＩＹｉｇｄｏｇ，Ｕｎ－ｎＬＥＮＧｉｇｗｅＣＨＥＮａ－ｕ。Ｍｎ－ｉ，Ｘｉｏｙｎ
［ｓａｚＡｂｔｃ］ＭｉｉｇａｌｒｑｅｔｔｍｓｔｉｄｎｅｄｔｓｔｉｖｒｘｅｓｅＡｉｎｔｈｓｒｂｅｌｋｄｌｔｒａ，ｅａｒｃｒ，ｄａｒｎｎｌｆｕｎｅｅｓｎｅｓａｅｓｓｅｙｅｐｎｉ．ｍｉｇａｉｐｏｌｍ，ｉｅｓａｒｙａｎｗｄｔｓｕｔｅａｅｉａｖｔｎｉａｔｕｎ
算法。该方法使用链表数组为每个项目立事务链表，且链表的创建过程只需扫描数据库１建并次。使用深度优先搜索得到所有候选最大频

一种改进的频繁项目集挖掘算法

Ａｂｓｔｒａｃｔ：ＴｏｓｏｌｖｅｔｈｅｂｏｔｔｌｅｎｅｃｋｐｒｏｂｌｅｍｓｔｈａｔＡｐｉｆｏｉｒａｌｇｏｉｔｒｈｍｎｅｅｄｓｔｏｓｃａｎｄａｔａｂａｓｅｔｉｍｅａｆｔｅｒｔｉｍｅａｎｄｍａｙｐｒｏｄｕｃｅａ
ｃｏｍｐａｒｅｄｗｉｔｈＡｐｒｉｏｉｆｌｇａｏｉｒｔｈｍ，ｔｈｉｓｌｇａｏｒｉｔｈｍｎｏｔｏｎｌｙｇｕａｒａｎｔｅｅｓｔｈｅａｃｃｕｒａｃｙｂｕｔｌｓａｏｃｏｓｔｓｌｅｓｓ．
ｌａｒｇｅｎｕｍｂｅｒｏｆｃａｎｄｉｄａｔｅｓｅｔｓ，ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｓａｎｉｍｐｌ ’ ｏｖｅｄａｌｇｏｒｉｔｈｍｆｏｒｍｉｎｉｎｇ￣ｅｑｕｅｎｔｉｔｅｍｓｅｔｓ．Ｔｈｉｓａｌｇｏｉｒｔｈｍｎｅｅｄｅｄｔｏｓｃａｎｄａｔａｂａｓｅｏｎｌｙｏｎｃｅａｎｄｇｅｎｅｒａｔｅｄａｌｉｎｋｅｄｌｉｓｔｗｈｏｓｅｎｏｄｅｓｔｏｒｅｄｔｈｅｐｏｓｉｔｉｏｎｏｆｉｔｅｍｓｅｔｉｎｄａｔａｂａｓｅｂｙｂｉｔ．Ｗｉｔｈｏｕｔｐｒｏｄｕｃｉｎｇｃａｎｄｉｄａｔｅｓｅｔｓ，ｔｈｅａｌｇｏｉｔｒｈｍｃｏｕｌｄｄｉｒｅｃｔｌｙｇｅｎｅｒａｔｅｆｒｅｑｕｅｎｔｉｔｅｍｓｅｔｓｂｙｌｏｇｉｃａｎｄｓｅｔｏｐｅｒａｔｉｏｎ．Ｔｈｅｅｘａｍｐｌｅａｎｌｙａｓｉｓｓｈｏｗｓｔｈａｔ

改进的最大频繁项集挖掘算法

改进的最大频繁项集挖掘算法
陈晨;鞠时光
【期刊名称】《计算机工程与设计》
【年(卷),期】2010(031)018
【摘要】为了提高挖掘关联规则的效率,提出基于改进FP-Tree结构的最大频繁项集挖掘算法.介绍并分析了挖掘最大频繁项集的过程和现有算法,指出现有算法中耗时的关键步骤.克服了MMF1算法中需要反复从头表出发沿相同项目结点链搜索右侧结点的缺点,提出一种改进的最大频繁项集挖掘算法IMMFI.通过在有序FP-Tree 中引入叶子链,用沿叶子链搜索取代沿同层结点链搜索,有效地减少了搜索的次数,提高了算法的效率.实验结果表明了该算法的性能良好.
【总页数】4页(P4009-4011,4032)
【作者】陈晨;鞠时光
【作者单位】江苏财经职业技术学院,江苏,淮安,223003;江苏大学,计算机科学与通信工程学院,江苏,镇江,212013
【正文语种】中文
【中图分类】TP311
【相关文献】
1.基于Spark改进的最大频繁项集挖掘算法 [J], 焦润海;张谦;陈超
2.一种改进的数据流最大频繁项集挖掘算法 [J], 胡健;吴毛毛
3.基于改进FP-Tree的最大频繁项集高效挖掘算法 [J], 纪怀猛
4.改进的基于频繁模式树的最大频繁项集挖掘算法——FP-MFIA [J], 杨鹏坤;彭慧;周晓锋;孙玉庆
5.一种改进的最大频繁项集挖掘算法 [J], 胡德敏;赵瑞可
因版权原因，仅展示原文概要，查看原文内容请购买。

基于改进倒排表和集合的最频繁项集挖掘算法

中图分类号：Ｔ３１Ｐ０文献标志码：Ａ文章编号：１０．６５２１）６２３．３０１３９（０２０．１５０
ｄｉ１．９９ｊｉｎ１０．６５２１．６０５ｏ：０３６／．ｓ．０１３９．０２０．３ｓ
（．ｐ．ｏｏｐｔｒｃｎｅ＆ＴｃｎｌｙａｙａｓｔｔｏＴｃｎｌｙＮａｙｎｅａ７０４，Ｃｉａ２ＳｈｏｏＣｍｕｅＣｍ．１ＤｅｔｆＣｍｕｉｃｅＳｅｅｈｏｏ，ＮｎａｇＩｔｕｅｈｏｏ，ｎａｇＨｎｎ４３０ｇｎｉｅｆｇｈｎ：．ｃｏｌｏｐｔｒｏｆ
第２９卷第６期
２１０２年６月
计算机应用研究
ＡｐｌａｉｎＲｅｅｒｈｏｍｐｔｒｐｉｔｓａｃｆＣｏｕｅｓｃｏ
Ｖｏ｜９Ｎｏ６ｌ２．
Ｊｎ２２ｕ．０１
基于改进倒排表和集合的最频繁项集挖掘算法术
Ｍｏｔｆｅｕｎｔｍｓｔｍｉｉｇａｇｒｔｍａｅｎｉｒｖｄｓｒｑｅｔｉｅｅｎｎｌｏｉｈｂｓｄｏｍｐｏｅ
ｉｖｒｅｉｔａｄｓｔｔｅｒｎｅｔｄｌｓｎｅｈｏｙ
ＣＨＥＮＸｉｏｙａ — ｕ，ＹＡＮＧＹａ — ａｎｙｎ，ＬＵＫｅｅｅｇＨＵＨａ — ｏｇＩ — ｈｎ，ｄｐｅｅｔｄａｎｗｓｒｑｅｔｉｍｓｔｍｉｉｇａｇｒｈｂｓｄｏｍｐｏｅｎｅｄｌｔａｄｓｔｔｅｒ．Ｉｄｉｔｔｇｎｒｓｎｅｅｍｏｔｆｕｎｔｅｎｎｌｏｉｍａｅｎｉｒｖｄｉｖａｅｉｎｅｈｏｙｎａｄ — ｒｅｅｔｓ

一种改进的基于SQL的频繁项集挖掘算法_周张兰

[收稿日期]2008-09-23　[作者简介]周张兰(1980-),女,2002年大学毕业,助教,硕士生,现主要从事数据挖掘、数据库方面的研究工作。

一种改进的基于SQL 的频繁项集挖掘算法周张兰　(长江大学计算机科学学院,湖北荆州434023;华中师范大学计算机科学系,湖北武汉430079) 詹泽梅　(长江大学计算机科学学院,湖北荆州434023) 邱　林　(长江大学计算机科学学院,湖北荆州434023)[摘要]数据挖掘中的关联规则应用广泛,而频繁项集的产生又是关联规则挖掘最重要的一步。

讨论了关系数据库中利用A prio ri 算法实现频繁项集挖掘的问题,并借助A prio riT id 算法思想,提出了一种改进的基于SQ L 的频繁项集挖掘算法。

试验证明,在事务数据量和支持度变化的情况下,此算法性能稳定且执行效率较好。

[关键词]数据挖掘;关联规则;频繁项集;SQ L[中图分类号]T P 311.13[文献标识码]A [文章编号]1673-1409(2008)04-N 344-03 在众多的关联规则挖掘算法中,由R .Ag raw al 等提出的Apriori 算法[1]最为经典。

而支持SQL 语言的关联规则挖掘算法也大多以A prio ri 算法思想为基础,如早期H o utsm a 等提出的SE TM 算法[2],以及之后出现的改进算法[4～6]。

尽管有些算法直接利用SQL 减少了候选频繁项集或避免了候选频繁项集的产生,但当数据事务集较大时在执行效率上并不高。

笔者借助于Aprio riTid 算法的思想,提出了一种基于SQL 的改进算法。

试验证明,该算法相比其他SQ L 实现的算法而言性能较好。

1　关系数据库中的频繁项集挖掘1.1　相关概念在关系数据库中,事务记录集可用关系模式(Tid ,item )或(Tid ,item 1,item 2,…,item k )形式表示,而利用SQ L 可以将后者转化为前者如文献[2]里所述。

改进的基于FP—tree的频繁项集挖掘算法

关键词：据挖掘；数关联规则；繁项集；Ｐｔｅ频Ｆ～ｒｅ文章编号：０２８３（０７１ — １４０文献标识码：中图分类号：Ｐｌ．３１０ — ３１２０）９０７ — ３Ａ３１ｒ１
摘要：于频繁项集挖掘，用一种Ｆ一组技术来减少Ｆ —ｒｅ的遍历时间，少数据集的扫描次数，此基础上提出了一种对采Ｐ数Ｐｔｅ减在
基于Ｆ —ｒｅ行频繁项集挖掘的Ｆ —ｒｗｈ算法，高了算法的效率。最后的实验证明了该算法的有效性。Ｐｔ进ｅＰｇｏｔ＋提
色。自从Ａｒｗｌ出频繁项集挖掘的Ａｒｒ算法之后，了ｇａ提ａｐｉｉｏ为
２２Ｆ —ｒｅ和Ｆ — ｒｗｈ算法．ＰｔｅＰｇｏｔ
频繁模式树即Ｆ —ｒＰｔｅ中．个结点由３个域组成：名ｅ每项
维普资讯
１４７
２０，３１）０７４（９
Ｃｍｕｒｏｐｔ西肥ｅａｄＡｐｉｔｎｅ，ｎｐｌａｉｓ计算机Ｘ程与应用ｃｏ－
改进的基于Ｆ —ｒｅ的频繁项集挖掘算法Ｐｔｅ
郭伟．叶德谦
ｉｍ、点支持度计数ｓｐｃｕｔ结点链ｎｄ—ｉｋ为方便遍ｔ结ｅｕ— ｏｎ及ｏｅｌ。ｎ
历．创建一个项头表Ｈａｅｂｅ它由２个域组成：名ｉｍｅｄｒｔｌ，ａ项ｔｅ和结点链头ｈａｆｎｄ — ｉｋｅｄｏｏｅｌ，其中结点链头指向Ｆ —ｒｎＰｔｅ中ｅ

一种基于组合方式改进的频繁项集挖掘算法

ｄｆｒｎｒｍｈ６心ｉｉｅｅｔｆｏｔｅｃｒ
｜ｌｅｂｓｎＦ・ｒｗｔ．ｈｓｐｐｒｍｉｅｒｑｅｔｉｍ．ｔｔｅｎｍ－ａｅｉＰｇｏｈＴｉａｅｎｓｆｕｎｔｓｓｗｉａｎｗｅｅｅｈ
ｏｓｒｃ＿ｃｍｐｅｓｄａｄｏｔｃｎｔｕｔｏｒｓｅｎｐｉｚｄＦ — ｅ．ＭＦ－ｅｌｏｉｍｒｐｓｄｔａｉｅｔａｎｔｎ，ａｍｉｅＰｔｅＩＰｔｅａｇｒｈｉｐｏｏｅｒｌ￣ｔｕｃｉ．ｎｒｒｔｓｏｅｚ＇ｈｆｏＩ
Ａｂｓｒｃ：ＦｇｏｈａｇｒｔｍｏｔａｔＰ－ｒｗｔｌｏｉｈｆｒｍｉｎｓｏｉｔｏｕｅｓｄｖｄｄｉｔｈｅ：ｕｉｉｇａＦｔｅｎｄｍｉｎｎｉｇａｓｃａｉｎｒｌｓｉｉｉｅｏｔｐａｓｂｌｎＰ— ｅａｎｉｇｎｗｏｓｄｒ
ＷＡＮＧｈｎ－ａｇ，ＬＣｅｇＬｉｎ “ ＵＯａｇＹｉ ‘ Ｃｈｎ — ｎ
（．ｏｌｇｆｏｐｔｃｅｃ，ｈｎｑｎｉｅｓｙＣｏｇｉｇ４０４，ｈｎ１ｌｅｍｕｅＳｉｅＣｏｇｉｇＣｅｏＣｒｎＵｎｖｒｔｈｎｑｎ００４Ｃｉａｉ，２ＣｌｇｆｌｔｃｌｎｉｅｒｇＣｏｇｉｇＵｉｒｔ，ｈｎｑｎ００４Ｃｉａ．ｏｌｅＥｅｒａＥｇｅｉ，ｈｎｑｎｎｖｓＣｏｇｉｇ４０４，ｈ）ｅｏｃｉｎｎｅｉｙｎ

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于间隔链表改进的频繁项集挖掘算法作者：徐永秀刘旭敏徐维祥来源：《计算机应用》2016年第04期摘要：针对PrePost算法中需要建立复杂的前序和后序编码树（PPCtree）和节点链表（Nlist）的问题，提出一种基于间隔链表（Ilist）改进的高效频繁项集挖掘算法。

首先，该算法采用了比频繁模模式树（FPtree）更加压缩的数据存储结构间隔编码的频繁模式树（IFPtree），无需迭代地建立条件FPtree；其次，该算法利用更简洁的Ilist代替了PrePost中复杂的Nlist，从而提高了建树和挖掘速度；最后，对于单分支路径的情况，该算法通过组合的方法，直接求得某些频繁项集，以提高算法的时间性能。

实验结果表明：一方面，对于同一数据集在相同支持数下挖掘的结果相同，验证了改进算法的正确性；另一方面，无论在时间还是空间上改进算法的整体性能均比PrePost算法提高约10%；且对于稀疏型数据库或密集型数据库的挖掘都有较好的应用。

关键词：数据挖掘；关联规则；频繁项集；频繁模式树；间隔链表中图分类号：TP311.13 文献标志码：A0引言数据挖掘是从海量数据中提取具有潜在利用价值的信息和知识的过程，其中关联规则挖掘是数据挖掘的关键问题之一。

关联规则挖掘一般分为挖掘频繁项集和产生关联规则两步，其中最关键和最耗时的一步是挖掘频繁项集，因为一旦挖掘出所有的频繁项集，关联规则通过简单的数学计算便可得到。

因此，频繁项集挖掘的性能决定了关联规则挖掘的总体性能。

频繁项集挖掘最早是在1993年被Agrawal等[1-2]提出，自此，大量的频繁项集挖掘算法被提出。

一般地，它们主要分为以下三类：1）Apriori类算法。

Apriori类算法采用层次迭代的思想，需要不断地扫描事务数据库以及递归地自连接产生候选项集并对其进行剪枝，最终挖掘出所有的频繁项集。

但是它存在重复地扫描数据库和产生大量的候选项集两个严重缺陷。

对于长度为N的频繁项集，最大可能要枚举2N-2个子集，算法的计算效率太低，甚至有时根本无法计算。

为了解决这一问题，研究者们提出了一些改进算法。

例如，基于直接散列和修剪（Direct Hashing and Pruning，DHP）的频繁项集挖掘算法[3]在生成候选项集时，将K维子集放入Hash桶中，减少候选项集的数量；BitTableFI算法[4]采用一种特殊的BitTable数据结构加快候选项集的产生以及项集支持度的计算。

但是这类算法仍然存在产生候选项集的问题。

2）频繁模式增长（Frequent Patter Growth， FPGrowth）类算法。

FPGrowth算法采用分而治之的策略[5]，只需要遍历两次数据库，便可挖掘出全部的频繁项集。

FPGrowth算法将数据压缩到频繁模模式树（Frequent Pattern tree， FPtree）中，然后挖掘由FPtree导出的条件数据库。

FPGrowth需要递归地构建条件FPtree，消耗大量的时间，并且此算法不太适合稀疏型数据集。

Sucahyo等[6]对FPGrowth算法加以优化提出基于高压缩频繁模式树（Compressed FPtree，CFPtree）的CTPRO算法，该算法避免了递归生成条件FPtree的开销；但是需要对每个频繁项目建立局部CFPtree，因此，当数据量较大时，CTPRO算法可能会出现内存崩溃的问题。

3）垂直数据结构的算法。

Apriori类算法和FPGrowth类算法通常采用水平数据结构挖掘。

一般采用垂直数据结构的挖掘性能要优于水平数据结构的挖掘性能[7]。

Eclat算法[8]采用垂直数据结构Tidset，但当Tidset的规模庞大时将会出现一下两个问题：①Tidset的交集运算消耗大量时间，影响了算法的效率；②消耗系统大量的内存。

最近，Deng等[9]提出了一种基于节点链表（Node list，Nlist）和前序和后序编码树（Preorder and Postorder Code tree，PPCtree）的高效频繁项集挖掘算法——PrePost算法。

该算法结合了FPGrowth算法和Eclat算法的优点，利用Nlist的交集运算求得项集支持数，避免了条件树的建立和候选项集的产生。

但是PrePost算法需要前序和后序两次遍历初始PPCtree来得到完整的PPCtree，消耗了建树时间。

另外，PrePost算法在建立Nlist时需要为每个节点保存计数值，占用了内存空间。

针对PrePost算法的问题，本文在PrePost算法的基础上进行了改进：一方面，本文采用了一种利用间隔编码的频繁模式树（Interval FPtree，IFPtree），在改进算法中只需要遍历一次初始IFPtree便可得到完整的IFPtree，提高了建树速度；另一方面，采用了较Nlist简单的间隔链表Ilist，在求项集支持数的过程中，不需要为项集保存支持数，节省了内存空间，提高了频繁项集挖掘的速度。

为了表明本文改进算法的有效性和正确性，在实验部分，将改进算法与PrePost算法进行了实验比较，实验结果表明改进算法的整体性能优于PrePost算法。

4结语本文针对Deng等[9]提出的PrePost算法进行改进，引入事务间隔的概念，建立Ilist，将IFPtree中的每个节点一一映射到Ilist中的每个事务间隔[s， e]，提高了建树速度。

本文充分利用了Ilist中事务间隔的有序性和单分支特性，使得求频繁k项集的Ilist具有线性时间复杂度，从而有效地提高了频繁项集的挖掘速度。

在接下来的工作中，将继续完善该算法：一方面，在并行计算方面进行扩展，如将云计算与其结合起来，实现算法的MapReduce化；另一方面，可以将该算法的思想拓展到最大、闭频繁项集的挖掘领域。

致谢非常感谢邓志宏教授提供的PrePost算法的代码。

参考文献：[1]AGRAWAL R， IMIEILNSKI T， SWAMI A. Mining association rules between sets of items in large databases [C]// Proceedings of 1993 ACM SIGMOD Conference on Management Data. New York： ACM， 1993： 207-216.[2]AGRAWAL R， SRIKANT R. Fast algorithms for mining association rules [C]// VLDB 1994：Proceedings of the 20th International Conference on Very Large Data Bases. San Francisco： Morgan Kaufmann Publishers， 1994：487-499.[3]LIN K C， LIAO I E， CHEN Z S. An improved frequent pattern growth method for mining association rules [J]. Expert Systems with Applications， 2011， 38（5）： 5154-5161.[4]GUPTA R， SATSANGI C S. An efficient range partitioning method for finding frequent patterns from huge database [J]. International Journal of Advanced Computer Research， 2012， 2（2）： 62-69.[5]李也白，唐辉，贺玉明.基于改进的FPtree的频繁模式挖掘算法[J]. 计算机应用， 2011，31（1）： 101-103.（LI Y B， TANG H， HE Y M. Frequent pattern mining algorithm based on improved FPtree [J]. Journal of Computer Applications， 2011，31（1）：101-103.）[6]SUCAHYO Y G， GOPALAN R P. CTPRO： a bottomup non recursive frequent itemset mining algorithm using compressed FPtree data structure [C]// FIMI 2004： Proceedings of the IEEE ICDM Workshop on Frequent Itemset Mining Implementations. Piscataway， NJ： IEEE， 2004：212-223.赵娟. 一种基于矩阵的并行频繁项集挖掘算法研究与实现[D].兰州：兰州大学， 2011：10-11.（ZHAO J. Research and implement of a matrix based paralleled frequent itemset mining algorithm [D]. Lanzhou： Lanzhou University， 2011：10-11.）[7]ZAKI M J， GOUDA K. Fast vertical mining using diffsets [C]// Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data mining. New York： ACM，2003： 326-335.[8]LI Z F， LIU X F， CAO X. A study on improved Eclat data mining algorithm [J]. Advanced Materials Research， 2011， 328/329/330： 1896-1899. 卷就是这样写的。

http：///docinfo.action？docid=1842644&isxkflag=1[9]DENG Z H， WANG Z H， JIANG J J. A new algorithm for fast mining frequent itemsets using Nlists [J]. Science China Information Sciences， 2012， 55（9）： 2008-2030.[10]LIN K C， LIAO I E， CHANG T P. A frequent itemset mining algorithm based on the principle of inclusionexclusion and transaction mapping [J]. Information Sciences， 2014， 276：278-289.[11]VO B， LE T， COENEN F. Mining frequent itemsets using the nlist and subsume concepts [C]// Proceedings of the 2013 IEEE International Conference on Systems， Man， and Cybernetics. Piscataway， NJ： IEEE， 2014： 1-13.[12]GOETHALS B， ZAKI M. Frequent itemset mining implementations repository [EB/OL]. [20150220] http：//fimi.ua.ac.be/data/.BackgroundThis work is supported by the National Natural Science Foundation of China （61272029）.XU Yongxiu， born in 1991， M. S. candidate. Her research interests include data mining.LIU Xumin， born in 1956， Ph. D.， professor. Her research interests include computer aided geometric design， graphics and image processing， data mining.XU Weixiang， born in 1956， Ph. D.， professor. His research interests include data mining，analysis and integration for transport systems， cloud computing.。