Apriori算法的改进算法设计与分析
Apriori算法的改进算法设计与分析
陈自力
【摘要】摘要:提出采用事务压缩和哈希技术相结合方式的改进算法.该算法通过备份数据库Dk生成候选项目集Ck,在生成Ck的同时计算支持度.针对生成频繁2-项目集L2的瓶颈,在生成L2的时候使用DHP算法.从时间复杂度上对Apriori算法和改进算法进行比较,说明改进算法在效率上优于Apriori算法.【期刊名称】闽江学院学报
【年(卷),期】2011(032)002
【总页数】3
【关键词】关键词:关联规则;Apriori;DHP算法
1993年,Agrawal等人首先提出关联规则概念,关联规则挖掘便迅速受到数据挖掘领域专家的广泛关注[1].迄今,关联规则挖掘技术得到了较为深入的发展.Apriori算法是关联规则挖掘经典算法.针对该算法的缺点,许多学者提出了改进算法,主要有基于哈希优化和基于事务压缩等.
1 Apriori算法及现有改进算法
1.1 Apriori算法
Agrawal等提出了 Apriori算法9.Apriori算法详细描述如下[2]:
输入:事务数据库D,最小支持度阈值minsup
输出:D中的频繁项目集L
1)L1=search_frequent_l-itemset(D);/* L1为频繁1-项目集*/
2)for(k=2;Lk-1≠ φ;k++)/*产生频繁k-项目集* /
3){Ck=apriori_gen(Lk-1);/*生成候选k-项目集* /
相关主题