关联规则挖掘算法的研究
关联规则挖掘的算法研究

科技信 息
。计算机 与信息技术 o
SIN E&T C N L G F R TO CE C E H O O YI O MA I N N
20 07年
第 1 期 9
关联规则挖掘的算法研究
徐伟伟 1 , 2
(. 1山东师范大学
t T 济 南 2 0 1 2济南职业学院计算机系 1: l. a 5 0 4 )
摘 要 : 据挖 掘 是 近 年 来 出现 的 一 种 综合 机 器 学 习 、 计 学 、 据 库 等 众 多领 域 的新 技 术 , 关联 规 则 是 数 据 挖 掘 的 核 心技 术 。 文通 过 对 数 统 数 而 本 关 联 规 则 挖 掘 算 法 的 分 析 , 出 了优 化 思 想 , 后 展 望 了关 联规 则 挖掘 的 未 来 方 向 。 给 最
2fr = ; 1 ;+ )ob g ) ( 2 一 ok ≠ +d ei n 3c= pir g nL一 ;产 生 新 的候 选 者 )^A roi e ( ̄)/ : I,
4fr l t nat n ∈D d e n ) lr sci st obg o a a o i 5c= u stc , ,C n iae o t ndi )1S be (^ ;/a ddtscna e t i n
2关 联 规 则 概 念 简 介 .
6fr l c ddtsc ) l a iae ∈C o o a n d 关 联 规 则 挖 掘 是 发 现 大 量 数 据 中 项 集 之 间有 趣 的关 联 或相 关 联 7 c o n ++; ) .ut c 系。从大量商务数据 中发现有趣 的关联关系 , 可以帮助许多商务决策 8 n 、e d 的制定。典型的关联规则挖掘是购物篮分析拉 】 。 9 = c ^CIu t misp o } ) { ∈cI , nI nu pr c o > t 设 I{I — 是 项 的 集 合 , 是 数 据 库 事 务 的集 合 , 中 每 一 个 事 =i l l D 其 1)n 0e d 务 是项 的集合 。 使得 T I 设 是一个项集 , <。 事务 包含 当且仅 当 1)nw r A  ̄ e=UL; 1 j  ̄ X< T。关 联 规则 是 形 如 X y的 规 则 , 中 X= h 2 ・ , = 1B A 其 AI A y B ^ 2… A B, 是 属 性 一 对 。 IY I并 且 ny 。规 则 j y在 事 务集 A B 值 X< , < , = 候 选 集 生 成 算 法 A r r —gn是 以频 繁 一 )项 目集 生 成 候 选 pi i e o 1一 D 中成 立 , 有 支 持 度 和 置 信 度 c =u p r 具 。 sp ot y=P u y ; ) )c 项 目集 的 。该 算法 分 为 如下 两 步 : cniec ( ̄ Y = (I 。 挖掘 关 联规 则 时 。 of nex )PYX) 在 d 满足 最 小支 持 度 阈值 和 Arr p i i— g n函 数 : o e 最小置信度阈值的规则称为强规则。 P o e ur ro i gn( _ f q e t 一 )i m e ; i spr n— r c d e Ap i r e 1 l u n k 1 t st r n u : i k:e r ( 一 e sa - a 3关 联 规 则 算 法 的 分 析 . s p o he h l) u p r trs od t 31A roi 法 及 优 化 A r f 算 法 是 一 种 最 有 影 响 的 挖 掘 布 . pir 算 pii o 1fre c tmst 1 1 ) a hie e ∈ 0 l 尔 型 关 联 规 则 频 繁 项 目集 的 算 法 _ 算 法基 于频 繁项 集 的先 验 知 识 , 引 。 利 2fr ahi mst 2 ) c e e ∈L 1 oe t 用 A oi 质 : 繁 项 集 的 所 有 非 空 子 集 都 必 须 是频 繁 的 , 小 算 法 r性 频 减 3i ) 1 ^ f 【 4 1 I 产 … 1 ^ If I = 的搜 索 空 间 。 A 算 法 所 采 用 的 是 逐 层 迭 代 搜 索 方 法 ,,项 目集 用 _ te{= 。 ; 连 接 步 , 生 候选 频繁 项 目集 h nc L一 / , 产 于搜索 + ) 项 目集 , 1一 首先 , 寻找 出频繁 1 项 目集 的集合 , 一 该集 合记 4i hsif eun_ u st ,k te ) a_n q e tsbec 一 hn f r ( 0 作 。 用 来 寻 找 频 繁 2 项 目集 的集 合 , 用 寻 找 出 厶 , , 。 一 再 以此 类 5d lt C / 接 步 , 除 小 于 最 小 支 持 度 的 候 选 项 目集 )eee ;剪 , 删 推 , 到 不 能 找 到 频 繁 项 目集 为 止 。每 次 找 出一 个 厶, 需 要 扫 描 直 就 6es d oC )l a dct k e 数据库一次 。 如下所述 : 即 7rtr G ; ) u en 寻 找 频 繁 项 目集 算 法 的 基 本 思 路 是 A r r 性 质 .即 频 繁 项 目 pi i的 o P o e u e h s ifrq e tsn e Ccn iiaee k  ̄mst厶-: r c d r a n e u n u st(:adddtst jt e; _ e 1 的所有非空子集都 必须是频繁 的。利用 这个 性质在搜索 频繁项 目集 f q et 一 )imsC; t r u n( 1.t e)/陡用先验知识 e k -e / 时 , 常 有 利 于 压 缩 搜 索 空 间 , 而 提 高 频 繁 项 目集 逐 层 搜 索 的 效率 。 非 从 1o ahk 1-u st f ) r c (- )sbe So f e C 在 第 一 遍 扫 描 中, 算 单 个 项 目 的 支 持 度 . 定 哪 些 项 目是 频 繁 计 确 2i Ih n ) ∈ f te 项 目, 即它们需具有最 小支持度。 在后来 的扫描 中, 均将前一次扫描得 3rtr RU ) u T E; en 到 的频 繁项 目作 为基 础项 目 , 用 这个 基 础 项 目产 生 出新 的 频 繁 项 目 利 4es e r A L ) ertn F S E; l u 集 , 样 的频 繁 项 目集 称 作 候 选 项 目集 fa ̄iaeh Ⅱ es. 且 在 扫 这 C r d t e, t 并 d s ) 综 上 所 述 , o _ e : 进 行 连 接 和 剪 枝 , 连 接 部 分 , 与 A f gn 需 i 在 厶 描数据 的过程 中计算这 些候选项 目 的实际 支持度计数 。扫描结束 连接产生可能的候选项 目即 ( 14步) 集 第 - ,剪枝部分 ( 5 7步) 第 — ,使用 后 , 定 哪 些 候 选 项 目集 才 是 真 正 的 频 繁 项 目 , 后 将 是 频 繁 项 目 的 A 确 然 性质删除具有非频繁子集的候选项 目集 ,a_l q e tsne hsif eu n_u st nr 这些候选项 目集作 为下一 次扫描用 的基础 项 目。 重复此过程直到没有 过 程 是 非频 繁 子集 的测 试过 程 。 新 的 频 繁项 目集产 生 为 止 。 一般 地 , 法要 对 数据 库 进行 多 次 扫 描 。 算 尽管 A 算法可 以有效地挖掘关联规则 ,但 是由于它使用逐 如 何 用 找 ? 需 下 面 的两 步 过 程 : 接 和剪 枝 连 层 搜 索 的 迭 代 方 法 , 每 一 个 都 需 要 一 次 数 据 库 扫 描 , 需 的 时 间 找 所 连 接 : 找 厶 , 过 ¨ 与 自 己 连 接 产 生 候 一 项 目集 的集 合 , 随 着 数 据 库 的增 大 指 数 倍 增 大 。A r r 为 通 选 pl i的变 形 算 法 可 以部 分 地 提 高 o 该 候 选 项 目集 的集 合 记 作 c 。 厶 和 是 L 中 的项 目集 。 号 洲 挖掘 的效率 : ^设 记 ] 如使用 HA H表提高关 联规则挖��
关联规则挖掘算法研究

s al o t e r ns c o us d o c ni a g ad al y c e f h t a a ti n e t s an ng nd r u re u t e c l o t e l d ce h s a e f h Ck at he a e t s m
e . h B A ( r u B s d A s C a i n u e n n ) a g r t m S l e o r d a l r d c t e T e G R M G o p a e s o i t o R l s Mi i g d l o i h i a b t g a u l y e u e h
(r u a e so it o u e i ig) G op B s d A s ca in R ls M n n 算法对事务集进 行压缩 , 并且在 统计 c k中各项 集的支持频度 时 , 步减小 c 逐 k的规 模, 从而 改善算法的性能。
关键 词 关 联规 则 A r o i 频繁 项 集 G R M p ir BA
维普资讯
关联规 则挖掘 算法研 究
邓 悦 赵 井 文 130 ) 2 00 ( 宁工程技术 大学 职业技 术学院 阜新 辽
摘 要 A r o i算法是发现频繁项 目集的经典算法,但是该算法需 反复扫描数据库 ,因此效率较低 。针对 A r o i p ir p ir 算法 ,B R GAM
一
生频繁项 目集 的算法, 这些算法产生频繁项 目集 时, 扫描数据
项集 的集合 L, L 用于找 , 而 如此下去, 直到不能找到频
・
3 ・办公 自动化 杂 志 8
维普资讯
繁 k一 项 集 。 每个 L 需 要一 次数 据 库 扫描 。 旦 从数 据 库 的 找 一
《数据挖掘中关联规则算法研究》范文

《数据挖掘中关联规则算法研究》篇一一、引言随着信息技术和大数据时代的飞速发展,数据挖掘技术逐渐成为各个领域研究的重要课题。
关联规则算法作为数据挖掘的核心技术之一,能够从大量数据中提取出有价值的信息和知识。
本文将深入探讨数据挖掘中关联规则算法的研究现状、常用算法及其应用领域。
二、关联规则算法概述关联规则算法是一种在大规模数据集中寻找项集之间有趣关系的技术。
其主要目标是发现数据集中项集之间的关联性或因果结构,从而帮助人们更好地理解和利用数据。
关联规则算法通常用于购物篮分析、用户行为分析、生物信息学等领域。
三、常用关联规则算法1. Apriori算法:Apriori算法是一种经典的关联规则挖掘算法,其核心思想是通过寻找频繁项集来生成关联规则。
Apriori算法通过不断迭代,逐步找出满足最小支持度和最小置信度的规则。
2. FP-Growth算法:FP-Growth算法是一种改进的关联规则挖掘算法,它通过构建频繁模式树(FP-Tree)来发现数据集中的频繁项集和关联规则。
与Apriori算法相比,FP-Growth算法具有更高的效率。
3. Eclat算法:Eclat算法也是一种常用的关联规则挖掘算法,其基本思想是将数据库分割成若干个不相交的子集,然后对每个子集进行局部搜索,最后将局部搜索结果合并得到全局的关联规则。
四、关联规则算法的应用领域1. 购物篮分析:通过分析顾客的购物行为,发现商品之间的关联关系,从而帮助商家制定更有效的营销策略。
2. 用户行为分析:在互联网领域,通过分析用户的浏览、点击等行为数据,发现用户兴趣之间的关联关系,为个性化推荐等应用提供支持。
3. 生物信息学:在生物信息学领域,关联规则算法可以用于分析基因、蛋白质等生物分子之间的相互作用关系,从而揭示生物系统的复杂网络结构。
五、研究现状与展望目前,关联规则算法已经广泛应用于各个领域,并取得了显著的成果。
然而,随着数据规模的日益增大和复杂性的提高,传统的关联规则算法面临着诸多挑战。
关联规则挖掘算法的研究与应用

关联规则挖掘算法的研究与应用引言:关联规则挖掘算法作为数据挖掘领域的重要工具之一,在商业、医疗等领域有着广泛的应用。
通过挖掘数据集中的关联规则,可以发现数据之间的潜在关联关系,为决策提供支持与指导。
本文将对关联规则挖掘算法的研究和应用进行探讨,并分析其在实际问题中的应用效果。
一、关联规则挖掘算法的基本原理关联规则挖掘算法是通过寻找数据集中的频繁项集和关联规则来揭示数据之间的相关性。
算法的基本原理包括:支持度和置信度的计算、频繁项集的挖掘和关联规则的生成。
1. 支持度和置信度的计算:支持度表示一个项集在整个数据集中出现的频率,而置信度表示一个关联规则的可信度。
通过计算支持度和置信度,可以筛选出具有一定频率和可信度的项集和关联规则。
2. 频繁项集的挖掘:频繁项集是指在数据集中出现频率达到预定义阈值的项集。
挖掘频繁项集的常用算法有Apriori算法、FP-growth算法等。
Apriori算法是一种基于逐层搜索的算法,在每一层中利用候选项集生成频繁项集。
而FP-growth算法是一种基于树结构的算法,通过构建FP树和挖掘频繁模式来实现。
3. 关联规则的生成:在挖掘到频繁项集之后,可以利用这些频繁项集生成关联规则。
关联规则的生成常采用Apriori原理,即从频繁项集中根据最小置信度阈值生成关联规则。
二、关联规则挖掘算法的研究进展随着数据挖掘技术的发展,关联规则挖掘算法也得到了不断的改进与扩展。
研究者们提出了许多新的算法和改进方法,以提高关联规则的挖掘效果。
1. 改进的关联规则挖掘算法:针对传统算法在挖掘大规模数据时效率低下的问题,研究者们提出了一些改进的算法。
例如,有基于GPU加速的算法、并行化的算法以及基于增量挖掘的算法等。
这些算法通过利用硬件加速和并行计算技术,可以大幅提升挖掘速度。
2. 多维度关联规则挖掘:除了在单一维度上挖掘关联规则,研究者们还尝试在多维度上进行关联规则的挖掘。
多维关联规则挖掘算法可以同时挖掘多个维度中的关联规则,从而发现更加丰富和准确的关联关系。
关联规则挖掘Apriori算法研究综述

关键词 :关联 规则 ;海量数据 ;算法优化 ;发展 趋势 中图分类号 : P 1 T 3 1 文献标 志码 : A 文章 编号 :0 6 8 2 (0 0 — — 3 1 0 — 2 82 1 )9 1 0 2 1
A r v e e i w o s o i tv r e m i ng Apr o i l rt f a s c a i e ul ni i r a go ihm
f u e e e o m e t a e f r c se ut r d v l p n r o e a t d.
K e r s a s caie r ls;m asv aa; o t iain; d v lp na rn s y wo d : so itv ue s ie d t pi z t m o e eo me tlte d
Abs r c : Th a s ca i l i i g e h i ue s a i o tn e h q e n daa m i i g r s a c .Ap i r l o i m i l s i a ta t e s o it ve r e m n n t c n q i n mp ra t t c ni u i t n n e e r h o ro i g rt a h s a c a sc l a g rt m o a s c a i e u l s Ho lo h i f s o i t r e . v w t d g u t r ls f h e s o i t d a a e fo o i o t he u e o t a s c a e d t s t r m t e a a a e n h I d veo m e t h d t b s i t e T e l p n p o e s s mp ra t r c s i i o t n wi i c e sn o ma sv d t c le to a d t r g . I t i p pe h p i c p e a d p i z to i e o h t n ra ig f s i e aa o lc i n n so a e n h s a r t e rn i l s n o tmi ai n d a f Ap i r a g rt m a e ic s e a d e e a c a s c l p i i ai n l o i m s r a a y e a t e a e i .Fi a l t e r n s f ro i l o h i r d s u s d n s v r l ls ia o t z to a g rt m h a e n l z d t h s m tme nl y h te d o
基于关联规则数据挖掘算法的研究共3篇

基于关联规则数据挖掘算法的研究共3篇基于关联规则数据挖掘算法的研究1基于关联规则数据挖掘算法的研究随着信息时代的快速发展和数据储存技术的不断提升,数据挖掘变得越来越重要。
它能够从大量的数据中找到内在的模式和规律,有助于人们更好地理解数据背后的本质。
关联规则是数据挖掘中最常用的方法之一,它能够发现数据集中项之间的关系,即根据一些已知的事件或属性,推断出一些新的事件或属性。
本文将着重讲述基于关联规则数据挖掘算法的研究。
一、基本概念关联规则是数据挖掘中研究项之间关联关系的方法,它描述了一种频繁出现的事物之间的关系。
举个例子,如果超市销售数据中每位购买了尿布的顾客都会购买啤酒,那么这两个项(尿布和啤酒)之间就存在关联关系。
关联规则有两个部分:前项和后项。
前项是指已知的、出现频率高的事件或属性,后项是根据前项推断出的可能相关的事件或属性。
关联规则还包括支持度和置信度两个指标。
支持度是指所有包含前项和后项的交易占总交易数的比例,而置信度是指含有前项和后项同时出现的交易占包含前项的交易的比例。
二、关联规则算法1、Apriori算法Apriori算法是发现频繁项集的一种方法。
它的工作流程是先从单项集开始,不断推算出更高维度的项集,再检查每个项集的支持度。
如果支持度高于预设的最小值,那么这个项集就被认为是频繁项集。
Apriori算法的优点是简单高效,但是它的缺点是在大规模数据中存在较高的时间和空间复杂度。
2、FP-Growth算法FP-Growth算法同样用于发现频繁项集,它的工作流程是构建一棵FP树,然后根据FP树的特性,进行递归寻找频繁项集。
相比Apriori算法,FP-Growth的优势在于减少了I/O开销,适应于分布式环境。
三、应用实例关联规则算法在现实中的应用十分广泛。
比如,在电子商务平台中,我们可以根据用户购买历史,对商品进行关联分析,根据用户购买A商品的同时购买B商品的规律,来推荐B商品给用户。
在医学领域,我们可以根据患者的病历和病情,进行关联挖掘,找到不同病例之间的共同点,为医生提供辅助诊断。
关联规则挖掘方法的研究及应用

关联规则挖掘方法的研究及应用一、本文概述本文旨在深入研究关联规则挖掘方法,探索其在不同领域的应用价值。
关联规则挖掘是一种数据挖掘技术,旨在从大型数据集中发现项之间的有趣关系,如购物篮分析中经常一起购买的商品组合。
本文首先将对关联规则挖掘的基本概念、原理和方法进行详细的介绍和梳理,为后续的应用研究提供理论基础。
接着,本文将重点探讨关联规则挖掘在多个领域的应用。
这些领域包括但不限于零售业、电子商务、医疗保健、社交网络分析等。
在这些领域中,关联规则挖掘可以帮助我们理解客户行为、优化产品组合、预测疾病趋势、分析社交网络结构等,具有重要的实际应用价值。
本文还将对关联规则挖掘方法的优化和改进进行探讨。
尽管关联规则挖掘已经取得了一些重要的成果,但在处理大规模、高维度、复杂数据集时,仍然存在一些挑战。
因此,我们需要不断探索新的算法和技术,以提高关联规则挖掘的效率和准确性。
本文将总结关联规则挖掘方法的研究现状和未来发展趋势,为相关领域的研究和实践提供参考和借鉴。
通过本文的研究,我们希望能够为关联规则挖掘的应用提供更多的思路和方法,推动其在更多领域发挥更大的作用。
二、关联规则挖掘方法理论基础关联规则挖掘是数据挖掘领域中的一种重要技术,它主要用于发现数据集中项之间的有趣关系。
这些关系通常表现为形如“如果购买了A,则很可能也会购买B”的关联规则。
关联规则挖掘方法理论基础主要涉及到频繁项集和关联规则的产生,以及它们之间的度量指标——支持度和置信度。
我们需要明确什么是频繁项集。
在给定的事务数据库中,如果某个项集出现的频率高于用户设定的最小支持度阈值,那么这个项集就被称为频繁项集。
最小支持度阈值是用户根据实际需求设定的一个参数,它决定了项集被认为是“频繁”的最低标准。
在确定了频繁项集之后,我们可以进一步生成关联规则。
关联规则是一种形如“A -> B”的蕴含关系,其中A和B都是项集。
一个关联规则是否成立,取决于它的支持度和置信度是否满足用户设定的阈值。
关联规则挖掘算法研究

2 基本概念n ・
设 I = {。i… . i 是 m 个 不 同 项 目 的 数 据 项 集 , 是 一 个 交 易 数 据 库 , 条 交 易 T对 i ,: , } D 每
应 于一个数 据项 子集 , 既 交 易
集 .
I. 条 交 易 由 一 个 T D 标 识 . 数 据 项 集 , 且 仅 当 每 I 对 当
法 进 行 改 进 . 验 表 明 , 进 算 法 在 运 行 效 率 上 要 比 A rf算 法 快 一 个 数 量 级 . 实 改 po i i [ 键 词 ] 联 规 则 ; 繁 项 集 ; 繁 项 集 增 量 关 关 频 频
[ 中图 分 类 号 ] P0 . T 3 16
[ 献标识码 ] 文 A
也 称 K 维 频 繁 项 目集 , 为 X 的 长 度 ; 1 频 繁 项 目 集 所 包 含 的 项 目 为 频 繁 项 目 , 在 D 中 K 称 维 其
发 生 的 次 数 为 该 项 目 的 频 度 ; s p( U y 把 u )不 小 于 某 个 给 定 的 最 小 支 持 度 且 c n of( 小 于 某 个 给 定 的最 小 置 信 度 阈 值 的 规 则 y称 为 关 联 规 则 . y)不
发 现 频 繁 项 目集 是 关 联 规 则 挖 掘 应 用 中 的 关 键 技 术 和 步 骤 . 后 诸 多 研 究 人 员 对 关 联 规 则 的 以
挖 掘 问 题 进 行 了 大 量 的 研 究 , 中 以 R . ga a 等 人 提 出 的 Ap ir、 roi i i 等 算 法 -最 具 其 A rw l roi Ap ir — Td ’
郭 玉 滨
( 泽 学 院 计算 机 与信 息 工 程 系 . 菏 山东 菏 泽 24 1) 70 5
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Vol.29No.1
Jan.2013
赤峰学院学报(自然科学版)JournalofChifengUniversity(NaturalScienceEdition)第29卷第1期(下)
2013年1月关联规则挖掘算法的研究目前是数据挖掘领域的一个重要方向,其中,Apriori算法就是一个经典的挖掘关联规则算法.1993年,Agrawal等提出关联规则挖掘的相关概念,随后提出经典Apriori算法,它是一个采用两阶段挖掘思想的算法,且多次扫描事务数据库,直到寻找出给定数据集中数据项之间有趣的关联规则.1关联规则基本概念
1.1
关联规则
关联规则是形如A圯B的蕴含式,在关联规则中,有两
个重要的概念:支持度和置信度.支持度是对关联规则的重要性的衡量,置信度是对关联规则的准确度的衡量,一般情况下,用户根据实际挖掘需要,预先给定最小支持度和最小置信度,通常情况下,如果规则的置信度和支持度大于用户指定的最小置信度和支持度,那么这个规则就是一条有效规则.事实上,有效规则并不一定具有实用性,还要参照关联规则的其他指标.
定义1
设I={I1,I2,…,IM}是数据项的集合,D是全体事务
的集合,一个事务T有一个唯一的标识TID.如果项集A哿T,则称事务T支持项集A,也称事务T包含项集A.
定义2
关联规则是形如A圯B的蕴含式,其中A奂I,B奂I,且A∩B=Φ.
定义3
事务数据库D中有N条交易事务,关联规则
A圯B的支持度定义为:
support(A圯B)=support(A∪B)×100%.定义4
置信度定义为:
confidence(A圯B)=support(A∪B)×100%.
引理1
在数据库中若有一事务T其长度小于K+1,则
由K项频繁集生成K+1项频繁集时,事务T是没必要扫描的.1.2
Apriori算法的基本思想
Apriori算法是发现关联规则的经典算法.该算法分两个步骤发现关联规则:第一步通过迭代,找出事务数据库中的所有频繁项集,即支持度不低于最小支持度的项集;第二步利用频繁项集构造出满足用户最小可信度的规则.2
Apriori 算法的不足之处
Apriori算法最大的优点是算法思路比较简单,它以递归统计为基础,生成频繁项集,易于实现.Apriori算法虽然能够从海量数据中挖掘出关联规则,但是算法在执行速度和效率上有一定的局限性,表现如下:2.1
Apriori算法会产生大量的候选项集.该算法是由候选
集函数Apriori-Gen利用Lk-1项产生候选项集Ck,所产生的Ck由Ck
Lk-1
项集组成.显然k越大产生的候选项集的数目就越多.
2.2I/O负载过大.Apriori算法需要多次扫描事务数据库,
需要很大的I/O负载.对每次k循环,候集Ck中的每个元素都必须扫描数据库1次来决定其是否加入Ck.例如,一个频繁大项目集包含12个项,那么就至少扫描事务数据库12遍.3
对Apriori 算法的改进
算法改进的思路
1.改变数据的存储结构,用二进制位存储各项目的事务集,矩阵的列代表频繁K-项集,矩阵的行代表事务,其中1表示该项目在某事务中出现,0表示该项目在某事务中没有出现.
2.生成频繁1-项集.首先扫描源数据库,生成矩阵.统计每列中包含1的数目,得到该项目的支持事务数,如果该项的支持事务数大于最小支持事务数,则该项是频繁项集,否则是非频繁项集.从矩阵中将该列删除,并根据引理1,在矩阵中删除第9行,得出频繁1-项集.
3.由频繁1-项集生成频繁2-项集.对频繁1-项集中的项两两连接得出候选2-项集,也就是对矩阵中第i列所代表的项集和第j列所代表的项集进行逻辑与操作.然后计
关联规则挖掘算法的研究
张
丽
(湖南文理学院
经济与管理学院,湖南
常德415000)
摘要:本文介绍了数据挖掘中的关联规则经典Ap r i or i 算法.针对Ap r i or i 算法在执行速度和效率上的缺点,提出了一种改进的Ap r i or i 算法.
关键词:Ap r i or i ;算法;关联规则中图分类号:TP311
文献标识码:A
文章编号:1673-260X(2013)01-0022-02
基金项目:湖南文理学院2010年度青年启动课题(QNQD1017)
22--
算支持候选2-项集各项集的事务集,在矩阵中删除支持事务数小于最小支持事务数项集对应的列,根据引理1,在矩阵中删除第4、6、10行.得出频繁2-项集.
4.类推,得到频繁K-项集,直到不能产生新的频繁项集为止.
4改进算法举例
假定最小支持数为3
原始数据交易
第一步生成初始矩阵
第二步将支持度小于3的列删除.得到L1=(a,b,c,d)
第三步将支持度小于3的列删除,且根据引理1,删除第9行,得到L2=(ac,bc,bd,cd)
第四步将支持度小于3的列删除,且根据引理1,删除第4,6,10行,得到L3=(bcd)
5结束语
进算法通过改进数据的存储结构,利用“0”和“1”存储各项目的事务集,采用逻辑运算求得某项集的支持事务数,再根据给定的最小支持数生成频繁项集.改进后的算法与Apriori算法相比具有以下优势:(1)整个数据库只要扫描一次.(2)由频繁k-1项集直接生成频繁k项集,不需要再扫描整个数据库.3)在求k频繁项集时,删除了长度小于K的事务.节约了存储空间,算法的效率也大大提高.
——
——
——
——
——
——
——
——
——
—
参考文献:
〔1〕刘军,谢康林.一种改进的关联规则提取算法[J].型微型计算机系统,2003(7).
〔2〕安颖.基于关联规则的数据挖掘算法研究[D]北京:北京工业大学,2009.
〔3〕杨志刚,何月顺.基于压缩事务矩阵相乘的Apriori改进算法[J].中国新技术新产品,2010,30(6):57-58..
〔4〕黄建明,赵文静,王星星.基于十字链表的Apriori改进算法[J].计算机工程,2009,35(2):37-38.
〔5〕李云峰,陈建文,程代杰.关联规则挖掘的研究及对Apriori 算法的改进[J].计算机工程与科学,2002,24(6):65-68.
tid ac bc bd cd
t11000
t20100
t31100
t40100
t50111
t60100
t71111
t80111
t101000
tid bcd
t10
t20
t30
t51
t71
t81
tid项目集
t1acg
t2bcg
t3abc
t4bc
t5bcde
t6bg
t7abcdf
t8bcdf
t9a
t10ac
tid a b c d e f g
t11010001
t20110001
t31110000
t40110000
t50111100
t60110001
t71111010
t80111010
t91000000
t101010000
tid a b c d
t11010
t20110
t31110
t40110
t50111
t60110
t71111
t80111
t91000
t101010
23
--。