关联规则中频繁项集高效挖掘的研究

合集下载

数据挖掘中的关联规则挖掘分析

数据挖掘中的关联规则挖掘分析数据挖掘是指从大量数据中自动地发掘出有价值的信息和知识的过程。

而关联规则挖掘分析则是数据挖掘的一个重要技术，它旨在找出数据集中多个元素之间的关系规律，通常通过寻找事务之间普遍存在的共现性来实现。

举个例子，关联规则挖掘可以用于超市购物行为的分析，寻找顾客购物时的购买模式，比如经常购买牛奶的顾客也可能购买面包。

关联规则通常包含两个部分：前件（antecedent）和后件（consequent），其中前件是关联规则中的条件，后件则是关联规则中的结论。

关联规则的形式通常为：{A, B} → C，其中 {A, B} 是前件，C 是后件，→ 表示“推导”或“条件成立时”的意思。

在实际应用中，关联规则挖掘可以帮助分析人员了解所研究数据集中的多种关系，从而为他们的后续工作提供一些有价值的洞见。

例如，它可以帮助超市指导员制定更有效的促销策略，或者帮助医生预测疾病的发生率等等。

现在，我们来简单介绍一下关联规则挖掘分析的算法和流程。

算法流程:1. 收集数据在进行关联规则挖掘分析之前，我们首先需要收集相关数据。

在数据挖掘领域，不同类型的数据集有着不同的采集方式，它们可以是来自各行业的交易、企业业务数据或社交媒体数据等。

2. 数据预处理在收集到数据后，我们需要对其进行预处理，以确保数据清洁、规范和可用。

这一阶段包括数据清理、数据集成、数据转换和数据规约等等。

3. 挖掘频繁项集在数据预处理后，我们需要进行数据挖掘的核心任务——挖掘频繁项集。

其实，支持度（support）是频繁项集挖掘中最重要的一项指标，用于测量数据集中交易或项集之间的关系强度。

如果一个项目集的支持度高于预设的最小支持度，那么该项目集就是频繁的。

4. 构建关联规则挖掘出频繁项集后，我们可以利用它们来构建关联规则。

在这一阶段，我们需要通过计算关联规则的置信度来确定我们挖掘到的关规则是否是强规则。

置信度表示在前件条件下后件条件成立的概率。

基于提高频繁项集挖掘效率算法在市场分析中的探讨

基于提高频繁项集挖掘效率算法在市场分析中的探讨摘要：频繁模式是频繁地出现在数据集中的模式（如项集、子序列或子结构）。

如频繁地同时出现在交易数据集中的商品的集合是频繁项集，利用高效率的频繁项集挖掘算法来发现频繁项集，通过分析这些频繁项集来预测商品的销售情况。

关键词：关联规则；apriori算法；频繁项集；商品中图分类号：tp311 文献标识码：a 文章编号：1009-3044（2013）04-0661-03based on the improvement of frequent itemsets mining efficiency algorithm in market analysis of discusschen wei（huainan union university， huainan 232038， china）abstract： frequent pattern is frequently seen in the data concentration mode （such as itemsets， sequences or structures）.as frequently appear in both the transaction data concentrated merchandise collection is frequent itemset，using of efficient algorithm for mining frequent itemsets to find frequent itemsets， through the analysis of the frequent itemsets to predict the commodity the sales situation.key words： association rule； apriori algorithm； frequent itemsets； commodity随着大量数据不停地收集和存储，从数据库中挖掘频繁模式引起各行各业人士的兴趣。

提高频繁项集挖掘算法效率的方法研究

美毽词数据挖掘关联规别子集划分局部频繁项集Ｆ＿长Ｐ增
文章编号１０ — ３１（０２１ — ０３０文献标识码Ａ０２８３一２０）００３ — ３中图分类号Ｔ３１Ｐ１
ＲｅｅｒｈｏｅｈｄｆｒＥｎａｃｎｈｆｃｅｃｆｔｅＦｒｑｅｔｓａｃｎＭｔｏｏｈｎｉｇｔｅＥｆｉｎｙｏｈｅｕｎｉ
Ｅ— ｌ：ｈｎｌ＠２３ｎｔｍａｌｃｅｃ６．ｅ
摘
要
提高频繁项集挖掘算法的效率是关联规则挖掘研究的一个重要内容。通过对不产生候选项频繁项集挖掘算法
的分析，干集的划分和局部频繁项集挖掘出发，出了一种提高频繁项桌挖掘算法效率的实现方法。从提实验表明，方法该对提高频繁项集挖掘算法的效率是有效的。
￣ｙｏｄ：Ｄｔｉｉ．ｓｉｉｕｅＳｂｔｐｒｔｎＬｃｌｆｑｅｔｉｍｓｔＦｅｕｎ－ａｅｍＷｈｗｒｓａｍｎｎＡｓａｏｒｌ，ｕｓａｉｏ，ｏａｒｕｎｔｅ，ｒｑｅｔｐｔｒｇｔａｇｃｏｔｎｅｔｉｅｅｔｎ
ＡｂｔａｔＥｎａｃｎｈｆｃｅｃｆｆｅｕｎｔｍｓｔｍｉｉｇａｌｍｅｅｓａｍｐｒｎｏｔｎｆｒｓａｃｉｇａＳＣａｓｒｃｈｎｉｇｔｅｅｆｉｎｙｏｒｑｅｔｉｉｅｅｎｎｒｈｄｉｎｉｏｔｔｃｎｅｔｏｅｅｒｈｎｓＯｌ— ｔａｉｕｅｆｎｒｌｍｉｉｇＢｓｄ１ｔｅｎｌｓｓｏｅｆｑｅｔｉｍｓｔｍｉｉｇａｉｍｅｉｉｏｔｒｄｃｎｃｎｉａｅｔｍｓｔ，ｏｎｎａｅｏ１ｈａａｙｉｆｔｒｕｎｔｅｎｎｒｈｔｗｔｕｐｏｕｉｇａｄｄｔｉ，ｈｅｅｔｃｈｅｅｓａｒａｉｉｍｅｏｏｎａｃｎｈｆｃｅｃｆｆｑｅｔｉｍｓｔａｉｉｇａｉｍｅｉｓｕｏｗｒｒｍｈ￣ｅｏｉｔｆｅｌ Ⅱ ｚｈｔｄｆｒｅｈｎｉｇｔｅｅｆｉｎｙｏｒｕｎｔｅｒｎｎｒｔｉｅｅｈｔｉｃｐｔｆｒａｄｆｏｔｅｉｗｐｎｏｔｅｓｂｅａｔｉｎａｄｌｃｌｆｅｕｎｔｍｓｔｈｕｓｔｐｒｉｏｎｏａｒｑｅｔｉｔｅｅｍｉｉｇｉｈｓｐｐｒｘｅｍｅｔｉｄｃｔｔａｔｅｍｅｈｄｉｆｃｉｅｏｎｎｎｔｉａｅ．ｐｒｎｓｎｉａｅｈｔｈｔｏｓｅｆｔｆｒＥｉｅｖｅｈｎｉｇｆｑｅｔｉｍｓｔｍｉｉｇａｉｍｅｉ．ｎａｃｎｒｕｎｔｅｅｅｎｎｒｈｔｔｃ

《数据挖掘中关联规则算法研究》范文

《数据挖掘中关联规则算法研究》篇一一、引言随着信息技术和大数据时代的飞速发展，数据挖掘技术逐渐成为各个领域研究的重要课题。

关联规则算法作为数据挖掘的核心技术之一，能够从大量数据中提取出有价值的信息和知识。

本文将深入探讨数据挖掘中关联规则算法的研究现状、常用算法及其应用领域。

二、关联规则算法概述关联规则算法是一种在大规模数据集中寻找项集之间有趣关系的技术。

其主要目标是发现数据集中项集之间的关联性或因果结构，从而帮助人们更好地理解和利用数据。

关联规则算法通常用于购物篮分析、用户行为分析、生物信息学等领域。

三、常用关联规则算法1. Apriori算法：Apriori算法是一种经典的关联规则挖掘算法，其核心思想是通过寻找频繁项集来生成关联规则。

Apriori算法通过不断迭代，逐步找出满足最小支持度和最小置信度的规则。

2. FP-Growth算法：FP-Growth算法是一种改进的关联规则挖掘算法，它通过构建频繁模式树（FP-Tree）来发现数据集中的频繁项集和关联规则。

与Apriori算法相比，FP-Growth算法具有更高的效率。

3. Eclat算法：Eclat算法也是一种常用的关联规则挖掘算法，其基本思想是将数据库分割成若干个不相交的子集，然后对每个子集进行局部搜索，最后将局部搜索结果合并得到全局的关联规则。

四、关联规则算法的应用领域1. 购物篮分析：通过分析顾客的购物行为，发现商品之间的关联关系，从而帮助商家制定更有效的营销策略。

2. 用户行为分析：在互联网领域，通过分析用户的浏览、点击等行为数据，发现用户兴趣之间的关联关系，为个性化推荐等应用提供支持。

3. 生物信息学：在生物信息学领域，关联规则算法可以用于分析基因、蛋白质等生物分子之间的相互作用关系，从而揭示生物系统的复杂网络结构。

五、研究现状与展望目前，关联规则算法已经广泛应用于各个领域，并取得了显著的成果。

然而，随着数据规模的日益增大和复杂性的提高，传统的关联规则算法面临着诸多挑战。

可视化数据挖掘中的关联规则和频繁项集

可视化数据挖掘中的关联规则和频繁项集可视化数据挖掘是一种将数据挖掘的结果以可视化的方式展示出来的方法。

它通过将数据转化为图形、图表、地图等形式，帮助人们更直观地理解和分析数据。

在可视化数据挖掘中，关联规则和频繁项集是两个重要的概念。

关联规则用于发现数据中的关联关系，而频繁项集则用于发现经常同时出现在一起的项。

本文将深入研究可视化数据挖掘中的关联规则和频繁项集，并探讨它们在实际应用中的意义和方法。

一、关联规则1.1 关联规则概述在可视化数据挖掘中，关联规则是一种描述两个或多个项之间相关性强弱程度的方法。

它可以帮助人们发现事物之间隐藏的联系，并通过这些联系做出预测或者推断。

1.2 关联规则挖掘算法为了发现大量数据中隐藏的关联性，需要使用一种高效且准确率较高的算法来进行关联规则挖掘。

常见的算法有Apriori算法、FP-Growth算法等。

1.3 可视化展示通过将得到的关联规则以图表或者其他形式展示出来，可以更加直观地理解和分析数据之间的关联关系。

例如，可以使用散点图、矩阵图等方式来展示关联规则的分布情况。

1.4 实际应用关联规则在市场营销、医疗诊断、网络安全等领域都有广泛的应用。

例如，在市场营销中，可以通过发现购买某种产品的人群中还会购买其他产品的规律，来进行精准推荐。

二、频繁项集2.1 频繁项集概述频繁项集是指在数据集中经常同时出现的一组项。

通过发现频繁项集，可以了解到哪些项经常一起出现，从而为后续分析和决策提供依据。

2.2 频繁项集挖掘算法为了发现数据中频繁项集，常用的算法有Apriori算法和FP-Growth算法。

这些算法在挖掘大规模数据时具有较高的效率和准确率。

2.3 可视化展示通过将得到的频繁项集以图表或者其他形式展示出来，可以更加直观地理解数据之间经常同时出现的情况。

例如，在市场篮子分析中，可以使用词云图等方式展示经常一起购买的商品。

2.4 实际应用频繁项集在推荐系统、市场分析、网络安全等领域都有广泛的应用。

基于频繁项集与关联规则挖掘技术探索王新陆临床用药及处方配伍规律的初步研究

ｓｐｐｒｔｕｏ
—
ｃｕｔＸ：ｌ｛Ｔ，Ｔｏｎ（）Ｔｌ ∈ＤＸ｝Ｉ
项集支持度：项集ｘ的支持度是指项集在事务集Ｄ中出现
的概率，以记为：可
ｓｐｏｔＸ＿ｐＸ：ｓｐｏｔｃｕｔＸ／ｊ】ｕｐｒ（）（）ｕｐｒｏｎ（）－Ｄ
ＤＩ３６／．ｎ１０ — ３４２１．９０１Ｏ：ｉ．９９ｊｉ．５５０．００．５０Ｓｓ００
中图分类号：Ｒ５２０
文献标识码：Ｃ
文章编号：１０ —３４２１）９０９ —３０５５０（０００．０２０频繁项集是数据挖掘技术中的一种常用方法，的是支持指
１２１频数及频繁项集．．
主要进行处方中中药数据信息的频挖掘分析先生处方中常用药对和药团。
１２２关联分析方法．．关联规则挖掘问题源于对购物篮数据的分析，关联规则中需要明确的参数是支持度（ｕｐｒ）ｓｐｏｔ和置信度。支持度是训练集中前提条件（规则中的 “ ｆｉ ”部分）为真的记录的百分比，即包含前项的记录数与总的记录数的比值，亦
・
９２
ＣｈｉｓＪｕｒａｌｆｎｆｒａｔｉｎｎＣｎｅｅｏபைடு நூலகம்ｎｏＩｏｍｏｏＴＭ
Ｓｐ．ｌｅ２Ｏ０Ｖｏ１７ｏ．１Ｎ．９
・中医药信息学
・
基于频繁项集与关联规则挖掘技术探索王新陆临床用药及处方配伍规律的初步研究

关联规则的高效挖掘算法研究

一
步骤１找出交易数据库Ｄ中所有具有用户指定最小支：持度的项目集，有最小支持项目集为频繁项耳集，之称为具反非频繁项目集．步骤２利用频繁项目集生成所需要的关联规则．于每：对个频繁项目集＾，出Ａ的所有非空子集若找 ≥
中圈分类号；３ｌＴＰ］文献标识码：Ａ且ｘｎＹ＝
１引
言
关联规则的挖掘问题可蹦分解为下两个子问题关联规则的挖掘是目前研究的最多的一种知识发品之间的相互关系．超市关为倒．条关联规则就是形如｛包．油）｛奶）规则描一面牛牛的述形式．含义就是表示顾客在购买某些物品的同时会有多其大的倾向性购买其他物品．果获得了这种倾向性ｔ可蹦为如就
决策的质量．
自］９９３年以来．据挖掘领域的研究者在挖掘关联规则数上做了大量的工作．之成为一个具有普遍和实用意义的挖使掘技术．联规则描述的问题是：给定交易数据库中，美在每十交易包含一十数据项集．联发现函数作用在这个交易集关上．回各项集之间存在的密切关系．返这种密切关系可以这样说明：包含Ａ．的交易中的８％也包含ｃ，告Ａ，Ｃ的ＢＯ包Ｂ，交易占整十交易集的ｌ％ ” 其中的百分比分别定义为关联０，的信任度和支持度．这个关联中，Ｂ是ｃ的关联对立面．在Ａ，一．（既可以是单个数据项．可以是数据项集，是其交Ｂ，１也但集必须为空．述例子关联规刘形式可表示为：Ａ，ｃ１上（Ｂ）

医疗数据分析中的关联规则挖掘算法研究与应用

医疗数据分析中的关联规则挖掘算法研究与应用概述随着医疗系统的数字化和数据量的急剧增加，医疗数据分析成为了提高医疗质量和效率的关键。

关联规则挖掘算法作为数据挖掘领域的重要技术之一，被广泛应用于医疗数据分析中，用于发现医疗数据中的潜在关联规律。

本文将对医疗数据分析中的关联规则挖掘算法进行详细研究，并探讨其应用领域。

一、关联规则挖掘算法概述关联规则挖掘算法是一种用于发现数据中的关联规律的方法。

它通过分析数据集中的项集之间的频繁出现模式来挖掘关联规则。

关联规则通常形如“A->B”，表示项集A的出现与项集B的出现之间存在某种关系。

关联规则挖掘算法主要包括Apriori算法、FP-Growth算法等。

1. Apriori算法Apriori算法是最经典和常用的关联规则挖掘算法之一。

它通过迭代计算频繁项集来挖掘数据中的关联规则。

Apriori算法的基本思想是：首先生成数据集中的所有频繁1-项集，然后通过连接这些频繁1-项集来生成频繁2-项集，再通过连接频繁2-项集来生成频繁3-项集，直到得到所有频繁项集为止。

最后，通过检测置信度来生成关联规则。

2. FP-Growth算法FP-Growth算法是一种基于频繁模式树的关联规则挖掘算法。

相较于Apriori算法，FP-Growth算法能够更高效地挖掘频繁项集。

FP-Growth算法通过构建一棵频繁模式树来快速发现频繁项集，然后通过后缀路径来生成关联规则。

二、医疗数据分析中的关联规则挖掘算法研究关联规则挖掘算法在医疗数据分析中起到了重要的作用。

通过挖掘医疗数据中的关联规律，可以帮助医疗行业从海量数据中提取出有价值的信息，用于医疗决策、疾病预测、药物研发等方面。

以下是几个医疗数据分析中关联规则挖掘算法的研究方向：1. 医疗数据预处理在进行关联规则挖掘之前，需要对医疗数据进行预处理。

医疗数据预处理包括数据清洗、数据集成和数据变换等步骤。

这些步骤的目的是消除数据中的噪声和冗余，以提高关联规则挖掘算法的准确性和效率。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

阵，构造的二项集支持度矩阵 M 如图 1 所示。
I11 I12 I 22 I13 I 23 I33 I1m I 2m I 3m I mm
图1
二项集支持度矩阵图
通过扫描数据库，若扫描到一条事务中包含 { Ii I k} 项，则对位于矩阵坐标[i， k]， [i， i]， [k， k]中的元素计数分别加 1。（2）逐行扫描矩阵，找出该行中不小于最小支持度计数的元素 Iij ，到 j 行搜索该行中不小于最小支持度计数的元素 I jk ，再定位到矩阵 Iik 中，若 Iik 不小于最小支持度计数，则连接生成候选三项集 { Ii I j I k} 。算法如下：
1
引言
关联分析是数据挖掘的一项重要研究内容，其主要任务
众多改进算法所引用[9-10]，文献[9]通过构建两个支持度矩阵分别挖掘频繁二项集和最大频繁项集，其时间和空间代价较大；文献[10]存在着在由频繁 k 项集连接生成候选 k+1 项集时效率较低，以及会生成错误频繁项的缺点。本文在减少扫描数据库次数的基础上，通过生成二项集支持度矩阵避免了产生无效的二项集，解决了二项集瓶颈问题。同时利用矩阵的优势对连接和剪枝步进行改进，提高了挖掘频繁项的效率。
L 2 中，那么就把此三项集删除，最后由未经删除的三项集组成
return C3 .
（3）由 C k 生成候选 k+1 项集表 C k + 1（k≥3），由于生成的候选 k 项集表 C k 是按字典顺序排列的。对于每个候选 k 项集 X，从 X 在 C k 之后的位置中查找以 X 后 k - 1 个项开始的其他候选 k 项集，若找到这样一个候选 k 项集 Y，则把 X 的第一个项 I r 和 Y 的最后一个项 I s 的标号连接形成矩阵坐标 [r， s ]，到矩阵 M 中查找这个坐标上的值是否大于最小支持度计数，如果大于或等于，则生成候选 k+1 项集，如果不大于，则不予连接，继续查找下一个，直到 C k 中的最后一个 k 项集。至此候选 k+1 项集表构造结束。（4）第二次扫描数据库，因为在生成支持度矩阵时，已经产生了频繁二项集，所以这里只对生成的候选 k 项集表 C k（k≥ 3）中的每个 k 项集进行计数，并对其进行筛选，最后形成频繁 k 项集。值得注意的是有许多改进算法，如文献[12]对生成的对角矩阵进行深度遍历，这样能更好地提高获取最高维频繁项的连接效率，但是却不能及时地进行剪枝，极有可能会造成许多连接的浪费，此外，它实际上只生成了候选频繁项集表，但并没有对数据库进行第二次扫描，对其中的候选项集进行验证，这样就很有可能将非频繁 k 项集划为频繁 k 项集。表 1 所示为数据库 D1 的情况。
表 1 数据库 D1
TID item T1 a， b T2 a， b T3 b， c T4 b， c T5 a， c T6 a， c
候选三项集表 C3 。（5）第三次扫描数据库，对 C3 中的三项集进行计数，找出大于最小支持度的三项集，生成频繁三项集表 L3 。这样依次由频繁 k 项集表生成频繁 k+1 项集表，直至不能生成更高维的频繁项集为止。通过对 Apriori 算法的分析可以看出它有以下几个缺点：需要频繁的扫描数据库，这对经常遇到的海量数据库以及平均事务宽度很长的数据库来说， I/O 开销是非常大的；生成了大量的候选二项集，产生了二项集瓶颈问题，其中有许多是无效的二项集，这样不但占用了较多的空间，而且增加了步骤（3）的工作量；在生成的每一个候选三项集时的连接和剪枝阶段，都要多次对 L 2 进行扫描，且搜索空间较大，效率较低。
Computer Engineering and Applications 计算机工程与应用
2011， 47 （3）
139
关联规则中频繁项集高效挖掘的研究
张云涛 1，于治楼 2，张化祥 1 ZHANG Yuntao1， YU Zhilou2， ZHANG Huaxiang1
1.山东师范大学信息科学与工程学院，济南 250014 2.浪潮集团有限公司，济南 250101 1.School of Information Science and Engineering， Shandong Normal University， Jinan 250014， China 2.Inspur Group， Jinan 250101， China E-mail： tozyt@ ZHANG Yuntao， YU Zhilou， ZHANG Huaxiang.Research on high efficiency mining frequent itemsets on association puter Engineering and Applications， 2011， 47 （3）： 139-141. Abstract：An improved algorithm Apriori-M which combines with 2-itemsets support count matrix is brought forward for its lower efficiency of time.The algorithm scans the database to generate 2-itemsets support count matrix， and then improves the efficiency of the connectivity and the pruning by the character of the matrix； gets all the frequent itemsets correctly by scanning the database second time， and also solves the question about generating 2-itemsets invalid.Experimental results show that the capability of the improved algorithm is more efficient than Apriori. Key words：association rules； Apriori algorithm； transaction database； frequent itemsets； support matrix 摘要：针对 Apriori 时间性能较低的缺陷，结合二项集支持度矩阵提出了 Apriori 改进算法 Apriori-M。在扫描数据库时生成一个二项集支持度矩阵，利用矩阵的性质提高了连接和剪枝的效率；通过第二次扫描数据库就能正确地获取所有的频繁项集，并很好地解决了 Apriori 生成无效二项集的问题。实验结果表明 Apriori-M 的性能优于 Apriori。关键词：关联规则； Apriori 算法；事务数据库；频繁项；支持度矩阵 DOI： 10.3778/j.issn.1002-8331.2011.03.042 文章编号： 1002-8331 （2011） 03-0139-03 文献标识码： A 中图分类号： TP391.4
合；其中包含 k 个数据项的项集称为 k 项集。k 项集 X 在事务数据库 D 中的百分比称为 X 的支持度，如果此支持度大于或等于用户设定的最小阈值（此阈值即为最小支持度），则称 X 为频繁 k 项集[11]。
基金项目：山东省自然科学基金（the Natural Science Foundation of Shandong Province of China under Grant No.Y2007G16)；山东省科技攻关计划（the Key Technologies R&D Program of Shandong Province， China under Grant No.2008GG10001015))；山东省高新技术自主创新工程专项计划（No.2007ZZ17)；山东省电子发展基金（No.2008B0026）。作者简介：张云涛（1984—），男，硕士研究生，研究方向为数据挖掘，机器学习；于治楼，男，研究员，研究方向为计算机应用，人工智能；张化祥，男，博导，教授，研究方向为机器学习，人工智能及 Web 挖掘。收稿日期： 2009-06-26 修回日期： 2009-10-23
[12]
3 Apriori-M 算法
（1）扫描数据库，构造二项集的支持度矩阵。分别以项目集合 I 中的各个项作为矩阵的行标和列标，用 Iik 表示二项集
{ Ii I k}（i≤k）在事务数据库 D 中出现的次数，此矩阵为对称矩
设最小支持度计数是 2，则会有频繁二项集 {a， b}{b， c} {a， c}，按照此算法的做法，会生成频繁三项集{a， b， c}。但是三项集 {a， b， c} 并不在数据库中。所以应该对数据库进行第二次扫描，以避免这种错误。通过对 Apriori-M 算法的分析，可以看出：（1）此算法减少了对数据库的扫描次数，当频繁项的最高维数是 k 时， Apriori 算法需要扫描 k 次数据库才能挖掘出所有的频繁项[13]，而此算法，在保证不会错误的获取 k 项集时，仅需扫描数据库两次，就能挖掘出所有的频繁项集，减少了 I/O 花销。（2）充分利用矩阵的性质，进行连接时，只到特定的行中搜索频繁二项集，搜索空间要远比在 L k 小，而且由于这是一个上三角矩阵，随着连接过程的深入，所要搜索的空间会越来越小，因此可以比 Apriori 算法中的连接节省更多的时间；进行剪枝时，则只需定位到矩阵特定的坐标中，根据其元素的值来决定是否剪枝，大大提高了剪枝效率。
[3] [2]