基于改进多层次模糊关联规则的定量数据挖掘算法
基于关联规则算法的改进研究

Ab ta t No d y o fag rt ms,n l d n h l sr c : wa a sa l to l o h i ic u ig te wel—k o ro i ha e n p tfr r n wn Ap ir , s b e u o wa d. To s le t e p o lms o o efce c a s d b e ta to a l o i m , e a g rt m a d o v h r b e f lw f in y c u e y t r di n lag rt i h i h a n w lo ih n me Mi ig Al o t m o s c ain i r p s d. nn g r h fr As o ito sp o o e i
5 5
集合 。每 个事务 T由 I 中的若 干 项组 成 , I 是 的子 定 的最 小支持 度 的数据项 集 , 即具有最 小 支持 度 的
法效 率 太低 , 了解 决 这 些 问题 , 出 了一 种 快 速 更新 的 关联 挖 掘 算 法 。 为 提 关键 词 : 据挖 掘 ; 联 规 则 ; 数 关 频繁 项 集 ; p o 算 法 A ff i
中图分类号 :P T3
文献标识码 : A
文章编号 :20 )3— 0 4一 5 (0 7 0 05 O
一
些 描述 , 以从 大量 的事务记 录 中发 现有趣 的关 联 1 2 关联 规 则挖 掘 问题 可 .
关 系 , 以帮 助制定许 多重大 决策 。 可
1 关联 规则挖 掘
11 基 本概述 .
关联 规则是 描 述数 据 库 中数 据 项 之 间 存在 的
潜在 的 关 系 规 则 。问 题 可 以 描 述 如 下 : i1 I= i, i, , 是所有 项 的集合 , 当与 商 品 的种类 集 … i } 相 合 。D是 所有事 务 的子 集 , 当于 数据 库 中 的记 录 相
基于FP算法改进的多层次关联规则数据挖掘算法

大缺点 。 针对 A r r 算法 的固有缺 陷 . pi i o 国外 有学者提
出 了不产 生候 选 挖掘 频繁 项 集 的方法— —F P算 法 。
F 对 不 同 长 度 的 规 则 都 有 很 好 的 适 应 性 . 同 时 在 效 P 率 上 较 A f f算 法 有 巨 大 的 提 高 。 多 应 用 . 别 是 po ii 许 特 电 子 商 务 的 应 用 中 .在 最 低 层 或 原 始 层 的 数 据 项 之
也 称 为 多 维 相 关 规 则 。 如 ,oai f , o t1Pou t L ct nX S uh,rd c o
现
『 U
算 曩 j
童
象 的属 性 值 。 常 , 性 是 可 分 类 的 . 据 的 分 类 层 次 通 属 数
f irrhe1表 示 了 白底 向 上 的 慨 括 r eea zt n Heac i s G n rlai ) i o 和 自顶 向 下 的特 殊 化 (p c c t n 基 于 分 类 层 次 的 S ei ai 1 i f o 关 联 规 则 挖 掘 算 法 主要 包 括 : 法 C mua 算 u 1t e和 Srt t i a
\ \
\
研究与开发
基于 F P算 法改进 的 多层次关联 规则数据挖掘算 法
操 漫 成
( 州学 院经 贸系 , 州 270 池 池 4 0 0)
摘 要 :针 对 F P算 法 的 缺 陷 , OL 将 AP技 术 和 Ap o 关 联 规 则 相 结 合 , 出 一 种 针 对 F ii ff 提 P算 法 的 改进的 多层次 关联规 则数 据挖掘 算 法, 分析 关联 规则数 据挖掘 结构 执 行 步 骤 , 于 关联 规 则 数 据 挖 掘 的 研 究 具 有 一 定 的 理 论 意 义 。 对 关 键 词 :算 法 改进 ;多层 次 ;关 联 规 则 ;数 据 挖 掘
基于关联规则的数据挖掘算法及其应用的开题报告

基于关联规则的数据挖掘算法及其应用的开题报告一、选题背景和意义:随着互联网时代的到来,数据量不断增长,信息爆炸的问题愈发突出。
为了从数据中挖掘出有用的知识,需要用到数据挖掘技术。
关联规则挖掘算法是数据挖掘中一项重要的技术之一,主要用于发现数据集中的关联项和频繁项集,以支持决策和预测。
随着数据量和数据类型的不断增加,关联规则算法也面临着越来越大的挑战。
本文选取基于关联规则的数据挖掘算法及其应用作为研究对象,旨在深入了解关联规则挖掘算法的原理和特点,以及相关的应用场景。
该研究将有助于提高数据挖掘技术在实际应用中的效率和准确性,为企业和机构提供更准确的决策支持。
二、研究内容和方法:1. 研究背景和意义:重点介绍数据挖掘技术在互联网时代的应用和发展趋势,分析关联规则挖掘算法在数据挖掘中的重要性和应用场景。
2. 关联规则挖掘算法:介绍Apriori算法和FP-Growth算法等关联规则挖掘算法的原理和特点,并比较各算法之间的优缺点。
3. 应用案例分析:以电子商务领域为例,通过实际的数据挖掘案例,探讨关联规则挖掘算法的应用方法和效果,并评估算法的准确性和效率。
4. 研究总结和展望:总结关联规则挖掘算法的特点和应用价值,探讨其未来在数据挖掘领域的发展方向和趋势。
三、预期成果:本研究的预期成果为:1. 对关联规则挖掘算法的原理和特点进行深入探讨,比较各算法之间的优缺点。
2. 经过应用案例分析,评估关联规则挖掘算法的准确性和效率。
3. 提供对于数据挖掘在实际应用中的一定指导意义和支持。
四、研究计划:1. 第一周:进行文献查阅,确定研究方向和内容。
2. 第二周:深入研究关联规则挖掘算法的原理和特点。
3. 第三周:比较各种关联规则挖掘算法,选择适合的算法。
4. 第四周:通过实际应用案例,评估算法的准确性和效率。
5. 第五周:总结研究成果,撰写开题报告初稿。
6. 第六周:进行报告修改和完善,最终完成开题报告。
五、研究难点和风险:本研究的难点主要在于:1. 关联规则挖掘算法的理解和应用需要较强的数学基础和编程能力。
一种基于改进的遗传算法的关联规则挖掘及应用

规则
Y在事务 集 中 的可信 度是 指包 含 和 y的事务 数 与包含 的交易 数之 比 , 记为 cn dneX of ec( i
= J ,即 c n d n eX = 】 :P X I ) =, >) o f e c( = , i > ) ( y 。
第 2 卷第 2 7 期
21年 3 01 月
齐 齐 哈 尔 大 学 学 报
J u n l f qh r o r a o Qi i a ier i Unv st y
Vo .7, . 12 No2
Mac .0l rh2 1
一
ห้องสมุดไป่ตู้
种基 于 改进 的遗传 算 法 的关联 规 则 挖 掘 及 应 用
一
个 重要 的 问题 ,用 来发 现 大 量 数 据 中 项 集 之 间 有 趣 的关 联 或 相 关 联 系 。 自 Aga a 等 于 19 rw l 9 3年 首
先提 出 了挖 掘顾客交 易数据 库 中项集 间的关联 规则 问题后 , 诸多 的研究 人员 对关联规 则 的挖 掘问题 进 行 了 大量 的 研 究 。遗 传 算 法 因其 具 有 简 单 、通 用 、鲁 棒 性 强 和 适 于 并 行 处 理 等 诸 多优 点 而 成 为 数 据挖掘 中的一 种重要 方法 ,目前 基 于遗传算 法 的数据 挖掘方法 的研究 主要 集 中在 分类 系统方 面 ,而 对 于 关 联 规 则 的 提 取 , 传 算 法 的应 用 还 较 少 。 文 提 出 了一 种 改 进 的 遗 传 算 法 挖 掘 定 量 关 联 规 则 , 遗 本
挖 掘关联 规 则 问题 就 是 寻 找 支持 度 和 可 信度 分别 大 于用 户 给 定 的最 小 支 持 度 和最 小 可 信度 的关 联规
PSO-SA算法的改进及其在关联规则挖掘中的应用研究的开题报告

PSO-SA算法的改进及其在关联规则挖掘中的应用研究的开题报告题目:PSO-SA算法的改进及其在关联规则挖掘中的应用研究研究背景和意义:众所周知,关联规则挖掘是数据挖掘领域的一项重要任务,主要用于发现数据集中存在的频繁项集和关联规则,其应用范围非常广泛,包括商品推荐、客户行为分析、信用评估等领域。
然而,基于传统算法的关联规则挖掘存在着计算效率低、挖掘效果不佳等问题,因此需要研究一种高效、有效的新算法。
粒子群算法(PSO)和模拟退火算法(SA)分别是智能优化领域的两个重要算法。
PSO算法具有收敛速度快和并行性强的特点,而SA算法则具有全局搜索能力和单调性质。
因此,将两种算法相结合,可以从一定程度上克服它们各自的缺点,实现更加高效、有效的数据挖掘过程。
研究内容:本课题旨在改进PSO-SA算法,并将其应用于关联规则挖掘中,在提高计算效率和挖掘效果的同时,也拓展其应用领域。
具体来说,研究内容包括以下3个方面:1. 改进PSO-SA算法,针对其在搜索空间和搜索速度上的不足,提出相应的改进策略,例如引入多策略动态权重算法、基于自适应粒子群算法(APSO)的算法改进等,并比较不同改进方法之间的效果差异。
2. 将改进的PSO-SA算法应用于关联规则挖掘,通过实验比较,探究由改进的算法挖掘出的关联规则与传统算法之间的优劣。
3. 基于改进的PSO-SA算法,探讨关联规则挖掘在实际应用中的表现,包括对其适用范围、处理大规模数据的能力等方面的分析和探讨。
研究方法:本课题将采用实验方法和分析方法相结合,主要包括以下3个方面:1. 针对PSO-SA算法的改进,通过设计相关实验,分析不同改进策略对搜索效率和挖掘结果的影响,并比较不同改进策略的效果。
2. 将改进的算法应用于关联规则挖掘中,通过实验比较,评估由改进算法的挖掘结果,并与传统关联规则挖掘算法的结果进行对比。
3. 在探讨改进的PSO-SA算法在实际应用中表现的基础上,通过分析实际数据的规模、复杂程度、噪声度等因素,评估其在处理实际数据时的适用性、可行性和实用性。
数据挖掘中关联规则的一种改进算法

关联规. (soi i ue)  ̄ asc t nrls的挖掘是数据挖掘研究的重要内容之 ] 1 ao A rw l ga a等人 19 年首先提出了从交易数据库中发现用户模式的 93 相关 f问题 , 生 并提出了基于频繁集的 A f f算法。 po ii 该算法的主要优 是 算法思路比较简单 , 以递归统计为基础 , 生成频繁集。 其主要观 是在产 生频繁模式的过程中, 需要产生大量的候选项和多次遍历数据库 , 占用 大量的内存空间和 C U处理时间 , P 该算法难以适应海量数据挖掘 。 J n . 提出了用频繁模式树产生频繁集的方法 , Ha 其主要思想是将用 支持艘% 吏 持蘼% 产生频繁集的数据压缩到一棵频繁模式树 F - re ,用 F - re P Te 中 P Te 存 图 2应用 D 2时三种算法的 储项 目的关联信 息, 然后对模式树产生频繁集。F - re P Te 算法主要优点 图 1应用 D1时三种算法的运行 时间随支持度变化情况 运行时间随支持度变化的情况 是: ) ( 不需要产生候选项 , 1 仅需要构造 F - r 和条件 F _ re通过递 PTe e P Te , tbepoetd alFo Te(a enfsn e ) al=rjc T be rm rept r,rIdx ; e t it 归地访问 F - re产生频繁模式 ; ) :务数据库仅需两次遍历 , 1 P Te , ( Xc 2  ̄g 4 第 次遍历产生频繁 1 ̄ 集 , 2 - . 第 次遍历用于创建 F _ re从而极大地降 - P Te, F -rwht l,rt dxpt r) P go t( bef sn e ,a en ; a i I t 低 了访问数据库的次数。 P Te 算法的主要缺点是需要占用 ̄i 内存 F - re t 算法 2 输 入 :Ifs ne Fj r ldx , t i ( F - re 与 P Te 的深度和宽度成 比例 ) 的深度一般是单个事务中所含 ,树 输 出: ̄ oo ce eu n i m t l F - r etdf q et t a e j r e b 项 目数量的最大值; 树的宽度是平均每层所含项 目的数量。 如果数据库 中的频繁 1 项集的数量很大 ,且内存不能装入库中所有项 目在 F - 一 P Se , t 1找到 Fi p I在项头表 中对应位置 , 通过节点链头确定该项 目 在频繁模式树中的所有出现位 ̄;tp2 Se ,由每个位置 自下 向上读取该 Te 的映射信息时, re 算法将不能有效地工作。 本文在继承 F - re PT e 算法不需要产生候选项的优点 的基础上 , 提 路径的节点信息, 并作为一条伪事务按频繁项 目表 的格式存储 , 路径上 出一种合理 的方法 , 将数据库 的项集分解成若干子集 , 分别对子集使用 所有节点的支持数以 Fj I在该位置处的支持数代替 , 该频繁项 目表仅出 F - re P Te 算法得到频繁模式。 这些频繁模式的并集为数据库的所有频繁 现项 Fj1…,I, I , F 1所有的伪事务号存储在 FD lt 伪事务 i 一 I-i 中, s 中项 目 模式 , 最后给 出实验结果证实改进是有效的。 F h的数值 以 Vi ( FD i , 一 ,1; 【 ̄ i I 4 s 讲i11)过程 po eeT be , ? t r etd al 用于从 k j 一 2 关联 规则 维频繁项 目表中生成(+ )维频繁项 目表。 k 1一 关联型知识( s ca o )反映—个事件和其它事件之间依赖或关 A s iin : o t 5算法性能分析比较 将基于频繁项 目表的频繁模式挖掘方法与传统的 A f f 算法, po ii 以 联的知识 , 又称依赖( e edn y关系。这类知识可用于数据库中的归 D pn ec ) 化, 查询优化等。关联规则形式如下 : “ 规则 面包+ 黄油_ 牛奶『 及 F -rwh > 8 %, P go t 方法进行 了比较 。所有实验都是在 1 H 主频 、2 M内 G z 18 8吲 ”指在购买面包和黄油的顾客中,5 5 , 8% ̄A 同时也买了牛奶。这里 , 存 、 运行 Widw 8的 PI P n o s9 I C上进行 , I 所有程序采用 M F + 6 S C+. 0编 8 %为规则的支持度, 8%为规则的信任度。 而 5 用于关联规则发现的主要 程。 为了更好地进行算法 胜能的比较 , 我们采用两个数据集 DlT 5 1. (2 . 0 I 对象是事务型数据库 , 中针对的应用则是售货数据 , 其 也称货篮数据。 D1K) D ( 52 .10 ) 0 和 2 . 0 0 K 。最后 , I D 我们通过图 3给出了在设定支持 3频 繁模 式树 的数 据 结构 度为 2 %时 ,IE 、P go t A r r算法的运行时 间随事务数 目 FB R F -rwh和 pi i o 频繁模式树是按树结构对原事务数据库 T B中的频繁模式信息 变化的情况 , D 由图可知 , 当事务数从 1K增大到 10 O 0 K时 , 三者都表现 进行压缩存储。频繁模式树包含一个标记为“ul的根节点, nl ” 一组频繁 了一定的线性扩展能力 , 且在事务数取 IK左右时 , O 三种算法的性能基 项 目子树作为根节点的子节点,另外还有一个便于对树进行遍历操作 本相当,P go t F - r h要比其它二者略好 , w 但随着事务数 目的增加 , p o Aff ii 的项头表。频繁项 目子树的每个节点都由三个域组成 : 目名 、 项 计数以 算法性能相对要恶化的更快 , 同时 FB R算法 良好的可扩展性也在高 IE 及 链 。 目名标明该节点在频繁 1 项 J页目列表中对应的频繁项 目, 计 事务数 目区再一次得到验证。 数即包含该项 目的事务的数 目,节点链则指向该树中下一个代表该项 表 1实验采用的两个数据集 目的节点, 若剩余子树上不再有该节点时 , 该域为空。项头表包含两个 墼 鉴 I 变 尘 墼 鳖 丛 堡 二 量 . 塑 丝 塑 塑 墼 查 主 尘 里 墼 韭 Dl 2 5 l O l K l K 0 11 .M 域 : 目名和节点链头, 项 其中节点链头记录了频繁模式树 中代表该项 目 【2 ) 2 5 1 0 l K O lO O K I M 38 的第 — 个节点 。 4改 进算 法描述 首先给出建立频繁模式集的算法( 算法 1 , ) 在此基础上给出用于从 频繁模式树 中生成 Fjpoet I rjc d频繁项 目表的算法( - 6 算法 2 。 ) 算法 1 输入 : 原始交易数据库 T B 最小支持度 D, 输 出: 频繁模式集 Se , t 1扫描一遍 T B 得到 1 p D, 频繁项集合 F lt I,I, ・ I) 法比较 ,该方法避免 了反 -s F1F2 ・ , q i( ・F 图 3三种算法运行时间 及其支持数 ,并按支持数对 F lt _s作降序排列 ;t ,根据 F lt对 复进行候选集的生成与测 i Se 2 p i s 随事物数 目变化情况 T B构造 频繁模式 树[P O] tp3frec t Fjjq … ,) 试 , D H Y 0; e , ah im I = , 2i S o e ( n 并使用分治策略将频繁模式划分为若干个小集合进行分割挖掘, 大
一种挖掘模糊关联规则的新方法

20 0 7年 第 3期
福
建 电
脑
Байду номын сангаас1 1
一
种挖掘模糊关联规则的新方法
郑鹏宇
(福 州 大 学数 学 与 计 算机 科 学 学 院 福 建 福 州 3 00 5 0 2)
【 摘 要 】 :提 出了一种基 于改进 的 K m as 类算 法上 的 自动确定样本数 据隶属度函数 的新方法,并在此基础上结合 - en 聚 A r r算 法, 出 了一 种挖 掘模 糊 关 联 规 则 的 新 算 法 。与 现 有 的 同类 算 法 相 比, 有 的 方 法 均 需 随机 地 确 定初 始 的 聚 类 中心, pi i o 提 现 往 往 得 出有 悖 于 实 际的 隶 属 度 函数 , 而影 响 了整 个 模 糊 关联 规 则 的提 取 结 果 。 该 算 法 克 服 了这 一 缺 点, 高 了模 糊 关联 规 从 提
则 的提 取 结 果 的 正 确 性 。
【 键词 】 关 :数据挖掘; 糊关联规则; 模 K均值; 隶属度 函数
信 息技 术 是 当今 发展 最 快 的 技 术 之 一 。数 据 挖 掘 是 信 息技 其 中 II 示事 务 总个 数 。规 则 B 的 可 信 度 ( n d ne  ̄ D表 e f ee)( oi qA 术 自然 演 化 的 结 果 。但 大 量 信 息 在 给 人 们 带 来 方 便 的 同 时也 带 BD )旺A^BD y (/) 即 A 发 生 时 B 发 生 的 条 件 概 率 P , :( /  ̄AD , 来 了一 大 堆 的 问题 : 一 是信 息 过 量 。 以 消 化 ; 二 是 信 息 真 第 难 第 J 其 中 A, 为 模 式 。 , B均 假难 以辨 识 。 于是 人 们 开 始 提 出一 个 新 的 口号 :要 学 会 抛 弃 信 ” 定 义 5 最 小 支持 率 为 口 与 最 小 可信 度 为 。 满 足 ( 若 r ( 息 ” 面 对 这 一 挑 战 。 据 挖 掘 和 知 识 发 现 ( a nn n n A^B, ) 。 数 D t Miiga dK a D> ( ̄ aD ) , A B为 模 糊关 联 规 则 。 A / > 则 o ld eDso ey技 术 应 运 而 生 。 显 示 出强 大 的 生 命 力 。 we g i vr ) c 并 定 义 6 频 繁 模 糊 模 式 集 合 厶=f . AAI4 A . A AA . 6 A . 在 数 据 挖 掘 中发 现 .一 个事 件 和其 他 事 件 之 间 有 着 依 赖 或 AA D > } = u 称 为 频 繁模 糊 模 式 集 合 . /) 0 . 关 联 的知 识 。 如果 两 项 或 多项 属 性 之 间 存 在 关 联 . 么 其 中一 项 2 建立 模 糊 关 联 规 则算 法 那 . 的 属 性值 就 可 以依 据其 他 属 性值 进 行 预测 。最 为 著 名 的 关 联 规 21 属 度 函数 的 确定 .隶 则挖 掘 方 法 是 RA rw l 出 A r 算 法 I 】 .ga a 提 pi I 。随 后 又 有 了 F — 211 始 聚类 中心 的选 取 . ’ D .. 初 go t 法 l Ds nt e f e模 式 算 法 l。 关 联 规 则 的研 究 r h算 3 w 】 iu ci —r 和 i v e 4 对 】 初 始 聚类 中心 的选 取 主 要 采 用 K m as 数 据集 D进 行 J — en 对 又 可 分 为 单 层 次 规 则 和 多层 次规 则 。 关联 规 则 的 前 件 和 后 件 如 次 搜 索 k个 近 似 聚 类 中 心 , 后 对 这 些 Jk个 聚 类 中心 。 利 用 然 * 再 果 是 确 定 的 , 是精 确 的 , 为 确 定 性 关 联 规 则 。但 由于 客 观 世 K m as 聚 类 , 出 它 们 的 聚类 中心 。 其 算 法 Sac ( k J 又 称 — en 再 求 erh D, ,) 界 的多 样 性 和 复 杂 性 , 多 事 务 难 于 用 确 定 和 精 确 的概 念 表 示 。 的算 法 描 述如 下 : 许 例 如 。 的 月 收 入 。 分 为 高 、 、 等 。 这 些 只是 模 糊 概念 , 人 可 中 低 但 难 算 法 名 称 : erh D, ,) S ac ( k J 以用 确 定 的和 精 确 的概 念 表 示 .因 此 不 能 有 效 地 表 达 数 据 之 间 输 入 : 据 取 样 次 数 J 数 据集 D. 别 数 目 数 , 类 的关 联 关 系 。 了解 决 这 一 问 题 , 内外 一 些 学 者 提 出 了结 合 模 为 国 输 出 : 个 初 始 聚 类 中 心 糊 集 理论 的 模 糊 关 联 规 则 的挖 掘 技 术 【 1 众 所 周 知 , 糊 关 联 ¥ a h D k J 5。 ' 6 模 er ( , , ) c I ; 集合 C存 储 Jk个聚类 中心 c * 规 则 提 取 技 术 的一 个 关 键 问 题 就 是 样 本 数 据 的 隶 属 度 函数 的 确 [ ( 1 i 】j+ oi ; -; 】 r= 《 + 定 问题 . 而隶 属 度 函数 的确 定 在 以前 的研 究 领 域 里 一 般 采 用 的 l 是专 家 给 定 的方 法 .这 样 确 定 的 隶 属 度 函数 带 有 一 定 的 主 观 盲 G= - ∞ 3D,)/D 为 敷 据 集 D的 第 次敷 据 随 机 取 样 KⅢ (ik;  ̄ / 目性 。 会 对 最 终 的 模 糊 关 联规 则 提 取结 果 造 成 一 定 的 影 响 。 也 在 C C  ̄ - uC; ) FK mts k; f - e (,) m 文献 【中采 用 了 自组 织 特 征 映 射 网络 来 确 定样 本 数 据 的 隶 属 度 7 】 m tm F; u 函数 , 在 聚 类 过 程 中 , 但 聚类 中 心 的 初 值 是 采 用 随 机 分 布 的 。 一 ) 旦初 值 选 取 不 合 理 , 会 误 导 聚 类 过 程 . 终导 致得 到 一 个 不 合 将 最 改 进 的 K m as聚 类 算 法 与 原 始 的 K m as聚 类 算 法 — en — en 理 的隶 属 度 函 数 的结 果 .从 而 影 响 了整 个 模 糊 关联 规 则 提 取 的 的 最 大 区 别 在 于 改 进 的 K— en 聚 类 算 法 先 采 用 算 法 m as 结果 。本 文采 取 的是 改 进 的 K m a s - en 聚类 方 法 来 确 定 样 本 数 据 Sac ( k J 得 出数 据 集 的 k个 初 始 聚 类 中 心 . 后 以 这 k erh D, ,) 然 的隶 属度 函数 , 优 势 在 于 减 少 了 对 聚 类 中心 的 依 赖 , 而得 出 个 初 始 聚 类 中 心 为 初 始 值 再 采 用 K— en 其 从 m a s聚 类 算 法 进 行 聚 比较 合理 的样 本 数 据 的隶 属 度 函 数 .再结 合模 糊 关 联 规 则 的 提 类 。 这 种 方 法 是 可 行 的 , 是 因 为 每 次 的 取 样 数 I; <DI因 这 DI I , < 取技 术 对 模糊 关联 规 则 的进 行 提 取 , 这样 更 能保 证 其 正 确性 。 此 寻 找 初 始 聚类 中 心 的所 花 费 的 时 间 远 远 小 于 数 据 聚 类 的 时
基于关联规则的apriori挖掘算法改进

爨塑:笠凰.基于关联规则的A pr i or i挖掘算法改进辛文(南昌理工学院计算机学院,江西南昌330063)j。
j?j?一jj j j睛蜀关联援剥挖掘是—种主要的也是用途最广的数掘挖掘方法。
本文首先对关联授剧挖掘缓其经典A pri o一算法作了介绍,然后针对;A pfi of i算法的缺陷.提出了一种瑰进的关联规则挖掘算法,充分地证明了改进算法的性能优势。
:j陕键词】数撇;关嬲4;Apfiofi’,7,-。
J』』‘随着数据库技术的快速发展,全球范围内的数据存储量急骤上升,激增的数据背后隐藏着许多潜在的信息,然而,缺乏了对数据进行深层次分析的技术,导致了“数据丰富但知识贫乏。
的现象。
如何理解已有的历史数据并用以预测未来的行为,如何从这些海量数据中发现信息,变波动的数据为主动的知识,如何快速、准确地获得有价值的信息,指导政府和企业决策,获取更大的经济效益和更好的社会效益,都迫使人们去寻找新的、更为有效的数据分析手段对各种“数据矿藏”进行有效的挖掘以发挥其应用潜能。
面对这—挑战,数据挖掘技术应运而生。
1关联规则挖掘经典算法A pn od数据挖掘中,关联规则的挖掘是一个重要的问题。
关联规则发现最初的形式是零售商的货篮分析,货篮分忻是通过发现顾客放入其货篮中的不同商品,即不同项之间的关联,这种关联的发现可以帮助零售商制定营销策略。
货篮分析的典型应用是可以帮助经理设计不同的商品布局。
关联规则就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识。
随着收集和存储在数据库中的数据规模越来越大,人们对从这些数据中挖掘相应的关联知识越来越有兴趣。
挖掘关联规则主要包含以下两个步骤:首先发现所有的频繁项集,根据定义,这些项集的频度至少应等于最小支持频度。
然后根据所获得的频繁项集,产生相应的强关嬲Ijo根据定义这些规则必须满足最/J睢泊接。
A pri or i算法简介Input:D at abas eD,m i ns u【帅i ni m um s uppor t t h r es ho l cD;O ut put:L,f r equent i t em set s i n D.1)L,=0ar ge1-i t em set s};2)f or a(=2;L hT≠D;k++)do begi n3)C,=A pr i or i—gen(Lk.);//新的侯选集4)for al l t r a nsa ct i on s t E D do begi n5)C产s ubs eH C01};,,事务t中包含的候选集6)for al l ca nd i da t e s C E c f do7)c count++;8)e nd9)£.砖∈C,l c.count>一m i nsu@10)end”)A nsw er=U“2A D r br i算法的改进现在我们来讨论一下具体的改进算法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
作者简介:张定祥(1969-),男(苗族),贵州松桃人,高级工程师,副教授,主要研究方向为数据挖掘(zhangdingxianggz@);张跃进(1978-), 男,湖北钟祥人,副教授,博士,主要研究方向为数据挖掘、计算机应用.
发布日期 引用格式
2018 年 10 月 10 日
张定祥, 张跃进. 基于改进多层次模糊关联规则的定量数据挖掘算法[J/OL]. 2019, 36(12). [2018-10-10]. /article/02-2019-12-037.html.
第 36 卷第 12 期 录用定稿
1 提出的改进多层次模糊关联规则挖掘算法
为了挖掘多层次关联规则,需要对项目进行分类或者对概 念的层次结构进行有效定义[11]。其中概念的层次结构可以从一 个有向无环图(directed acyclic graph, DAG)[12]复制得到。概念 的层次结构代表项目的通路与需求之间的关系,并能将它们在 不同的抽象层级上分类。这些概念层次具有可用性,或者可以 通过某一领域的专家应用得到。例如一个用户通常不仅关心电 脑与打印机之间的关联,而更希望得到台式电脑的价格与激光 打印机的价格之间的关联。此外,模糊理论[13]对于多层次关联 挖掘方法的研究具有一定借鉴意义,这一理论提出通过引入渐 进成员关系来表征语言术语的模糊边界[14]。
摘 要:针对单一层次结构实现规则提取,具有规则提取准确性不高,算法运行时间长,难以满足用户使用需求的问 题,提出一种基于改进多层次模糊关联规则的定量数据挖掘算法。采用高频项目集合,通过不断深化迭代的方法形成 自顶向下的挖掘过程,整合模糊集合理论、数据挖掘算法以及多层次分类技术,从事务数据集中寻找模糊关联规则, 挖掘出储存在多层次结构事务数据库中定量值信息的隐含知识,实现用户的定制化信息挖掘需求。实验结果表明,提 出的数据挖掘算法在挖掘精度和运算时间方面相较于其他算法具有突出优势,可为多层次关联规则提取方法的实际应 用带来突破性进展。 关键词:模糊集合;用户定制化;多层次结构;柔性边界;隶属度函数 中图分类号:TP311 doi: 10.3969/j.issn.1001-3695.2018.06.0405
————————————————————————————————————————————————
基于改进多层次模糊关联规则的定量数据挖掘算法
作者 机构 DOI 基金项目
预排期卷 摘要
关键词 作者简介
中图分类号 访问地址 投稿Fra bibliotek期 修回日期张定祥,张跃进
贵州商学院 计算机与信息工程学院;华东交通大学 信息工程学院
并取得了较好的应用效果[3]。例如,超市的管理人员可以使用 关联挖掘有效预测人们更倾向于一起购买的商品组合,类似于 “购买纸尿裤的顾客通常也会购买啤酒”之类的关联规则就可以 被挖掘出来。基于这些关联规则,超市的管理人员可以将啤酒 和纸尿裤摆放在超市相近的位置来诱导顾客同时购买。可见, 关联规则的定量数据挖掘研究意义重大。
针对上述研究现状,提出一种基于改进多层次模糊关联规 则的挖掘算法,可用于提取定量数据中的隐含信息。该方法采 用高频项目集合,通过不断深化迭代的方法形成自顶向下的挖 掘过程。算法整合了模糊集合理论、数据挖掘算法以及多层次 分类技术,着眼于从事务数据集中寻找模糊关联规则。实验结 合具体算例验证该算法的优越性,对于用户来说,该方法挖掘 得到的规则更具有逻辑性,且更符合人类思维认知。
纵观近年来关联挖掘算法学术研究成果,大多基于 Aprior 算法通过逐步产生并测试候选项目集合实现[4,5]。然而这一过程 通常需要对数据库进行遍历扫描计算,数据计算成本较高。随 着关联挖掘数据样本容量呈现指数级增长趋势,Aprior 算法所
—————————— 收稿日期:2018-06-26;修回日期:2018-08-09 基金项目:国家自然科学基金资助项目(61164013);贵州省软科学研究计划项目(黔科合体 R 字[2014]
此外,目前绝大多数关联规则算法研究成果都仅仅着眼于 单一概念层次挖掘,对于多概念层次挖掘较少涉及,如文献[8]、 文献[9]的算法。文献[10]提出模糊挖掘算法,应用多层次关联 挖掘,从关联挖掘方法实际应用需求角度出发,为用户提供更 多有价值的信息。但是在提供应对多余规则的解决方案时,迭 代算法复杂,需要耗费较高计算资源。
录用定稿
张定祥,等:基于改进多层次模糊关联规则的定量数据挖掘算法
第 36 卷第 12 期
耗费的高昂时间成本已成为关联挖掘研究领域亟待解决的关键 问题[6]。因此,文献[7]提出关联规则需要满足自信度和支持度 两种用户特定的约束度,以降低数据挖掘的计算时间。其中, 支持度定义为事务集中满足条件的事务所占的比例,而自信度 定义为满足条件的事务支持度与事务集支持度的比值。
0 引言
近年来,随着数据科学领域理论体系和算法的日益完善, 基于数据算法的科学研究理论正逐渐成为学术界和工业界的关 注焦点[1]。其中,数据挖掘理论作为数据关系信息提取的重要 方法而成为数据科学领域研究的重点。根据所挖掘数据信息的 不同,可以将数据挖掘方法进一步细分为关联挖掘、分类挖掘、 聚类挖掘以及序列挖掘等[2]。关联挖掘是数据挖掘的重要类型, 该方法主要用于确定事务数据库中不同项目之间的相关性。关 联挖掘方法已被广泛应用于市场规划和营销策略制定等领域,
Quantitative data mining algorithm based on improved multi-level fuzzy association rules
Zhang Dingxiang1, Zhang Yuejin2
(1. College of Computer & Information Engineering Guizhou University of Commerce, Guiyang 550014, China; 2. School of Information Engineering, East China Jiaotong University, Nanchang 330013, China)
/article/02-2019-12-037.html
2018 年 6 月 26 日
2018 年 8 月 9 日
基于改进多层次模糊关联规则的定量数据挖掘算法
————————————————————————————————————————————————
《计算机应用研究》 2019 年第 36 卷第 12 期
针对单一层次结构实现规则提取,具有规则提取准确性不高,算法运行时间长,难以满足用 户使用需求的问题,提出一种基于改进多层次模糊关联规则的定量数据挖掘算法。采用高频 项目集合,通过不断深化迭代的方法形成自顶向下的挖掘过程,整合模糊集合理论、数据挖 掘算法以及多层次分类技术,从事务数据集中寻找模糊关联规则,挖掘出储存在多层次结构 事务数据库中定量值信息的隐含知识,实现用户的定制化信息挖掘需求。实验结果表明,提 出的数据挖掘算法在挖掘精度和运算时间方面相较于其他算法具有突出优势,可为多层次关 联规则提取方法的实际应用带来突破性进展。
10.3969/j.issn.1001-3695.2018.06.0405
国家自然科学基金资助项目(61164013);贵州省软科学研究计划项目(黔科合体 R 字[2014] LKS2007);贵州省教育厅基金项目(黔教社发[2010]339);贵州省普通高等学校智能物联 网工程研究中心建设项目(黔教合 KY 字[2016]016);贵州省教育厅项目(黔教合 KY 字 [2017]022)
计算机应用研究 Application Research of Computers
Vol. 36 No. 12 Online Publication
基于改进多层次模糊关联规则的定量数据挖掘算法 *
张定祥 1,张跃进 2
(1. 贵州商学院 计算机与信息工程学院, 贵阳 550014; 2. 华东交通大学 信息工程学院, 南昌 330013)
模糊集合;用户定制化;多层次结构;柔性边界;隶属度函数
张定祥(1969-),男(苗族),贵州松桃人,高级工程师,副教授,主要研究方向为数据挖掘 (zhangdingxianggz@);张跃进(1978-),男,湖北钟祥人,副教授,博士,主要 研究方向为数据挖掘、计算机应用. TP311
因此,为实现定量数据集中多层次关联规则的有效挖掘, 将基于分类学理论成果[15],提出一种改进的模糊挖掘算法。这 一算法综合利用数据挖掘方法、多层次分类理论以及隶属函数 定义,可用于在给定的事务数据集中挖掘模糊关联规则。 1.1 改进多层次关联规则
在多概念层次上挖掘关联规则可能会获得更具普适性和可 用性的规则。具体项目的分类在实际应用场景中通常是预先定 义,并且能够用结构树进行表示的。结构树的终端节点代表事 务中出现的实际项目;内部节点表示低层次节点所形成的概念 或类别。
Abstract: In order to extract rules from a single hierarchy, the accuracy of the rule extraction is not high, the algorithm runs long, and it is difficult to meet the needs of the users, this paper proposes a quantitative data mining algorithm based on the improved multilevel fuzzy association rules, adopt the high frequency project set, form the continuous deepening of the iterative method. In the top down mining process, fuzzy set theory, this method integrates data mining algorithm and multi-level classification technology to find fuzzy association rules from the transaction data set, excavates the hidden knowledge of quantitative value information in the multi-layer structured transaction database, and realizes the user's customized information mining needs. The experimental results show that the quantitative data mining algorithm based on the improved multilevel fuzzy association rules has a prominent advantage over other algorithms in mining precision and operation time. It can bring about breakthrough in the practical application of multilevel association rule extraction. Key words: fuzzy set; user-defined; multi level structure; flexible border; belonging function