频繁模式挖掘算法综述
数据挖掘-频繁闭合模式挖掘

f-con DB(f:4)
root c:4
a:1
d:1
e:3
d:1
8
FCIs containing e without f, a, d
TDB
root
c:4
e:1
e:3
fபைடு நூலகம்1
a:1
f:3
a:1
a:1
d:1
d:1
e-con DB(e:4)
root c:3
╳
9
FCIs containing only c
Orderd Frequent Items
c:4
e:1
10 a, c, d, e, f c, e, f, a, d
20 a, b, e
e, a
e:3
f:1
a:1
30 c, e, f 40 a, c, d, f
c, e, f c, f, a, d
f:3
a:1
50 c, e, f
c, e, f
a:1
d:1
设计关键:尽早剪除不闭合的FCP。
3
基于FP-Tree的算法 CLOSET,CLOSET+
适用于元素少、 事件多的数据
FP-tree 是一种有效的数据压缩结构
4
实例:Build Global FP-Tree
TDB
Example: minSupport=2, minlen=1
root
TID Items
1 {abclos}
12 {al}
13 {aco}
All
2
{adehplr}
23 {aeh}
3 {acehoqt}
123 {a}
不受元素、事件 多少限制
不确定数据流频繁模式挖掘算法研究

不确定数据流频繁模式挖掘算法研究数据流模型在经济、军事、金融、电信等领域中普遍存在,同时在这些应用中,由于设备精度、传输丢失、环境干扰、设备故障、隐私保护和不同系统间集成等方面的原因,不确定性在数据流中广泛存在。
因此,不确定数据流的数据挖掘算法就成为了一个新的研究方向。
频繁模式挖掘作为数据流挖掘工作的重要组成部分,其研究已经历十多年的发展,理论上日趋成熟,但这些研究主要是基于确定性数据的挖掘算法。
由于不确定数据增加了概率信息描述其不确定性,传统数据流挖掘算法都不能直接应用到不确定数据流中,因此如何针对不确定数据流进行频繁模式挖掘是不确定数据流管理领域亟待解决的一个重要问题。
本文对数据管理中的不确定性现象和问题进行了归纳和总结,并对经典的数据流频繁模式挖掘算法进行了深入分析,在此基础上提出了一些适用于不确定流数据的频繁模式挖掘算法,并通过大量实验验证了其高效性。
主要工作包括以下几个方面:(1)基于数据流普遍采用的滑动窗口模型,提出了高效的概率频繁项挖掘算法。
该算法避免了每次窗口更新都重新计算答案,而是利用现有的计算结果进行增量更新,从而减少挖掘代价。
另外,本文提出的过滤策略,可以显著地减少检测数据的数量,提高挖掘效率。
实验结果表明,本文提出的算法可以有效减少候选集,降低搜索空间,改善其在不确定数据流上的性能。
(2)基于滑动窗口模型,提出了一种高效的增量概率Top-K频繁项挖掘算法。
该算法基于窗口中的现有数据对未来可能成为频繁项的元素进行预测,并提出相应的过滤策略,减少检测数据的数量,提高挖掘效率。
同时,该算法对不同窗口中的相同候选元素进行压缩,显著减少存储空间。
(3)提出了支持滑动窗口模型的概率阈值频繁模式挖掘算法。
该算法设计了一种新的压缩数据结构CPFP-Tree,将同一分支中概率不同的相同项合并为同一节点,可以有效地压缩存储空间并维护不确定数据流的信息;另外,提出了基于CPFP-Tree树结构的挖掘算法(CPFP-mine),在挖掘阶段,利用剪枝策略仅保留必要的项集,并对该候选集进行动态地更新,避免重新计算。
频繁模式及关联规则挖掘技术

{A} {B}
2 3
L1
{C}
3
{D}
1
{E}
3
Itemset sup
{A}
2
{B}
3
{C}
3
{E}
3
40
B, E
L2 Itemset sup
{A, C} 2 {B, C} 2 {B, E} 3 {C, E} 2
C2 Itemset sup
{A, B} 1 {A, C} 2 {A, E} 1 {B, C} 2 {B, E} 3 {C, E} 2
基本思想分而治之用fptree递归增长频繁集方法对每个项生成它的条件模式库然后是它的条件fptree对每个新生成的条件fptree重复这个步骤直到结果fptree为空或只含唯一的一个路径此路径的每个子路径对应的项集都是频繁集fptree其临床表现为持续性进行性的多个智能功能域障碍的临床综合征包括记忆语言视空间能力应用辨认执行功能及计算力等认知功能的损害
关联规则的性质:
性质1:频繁项集的子集必为频繁项集。 性质2:非频繁项集的超集一定是非频繁的。 Apriori算法运用性质1,通过已知的频繁项集构成
长度更大的项集,并将其称为潜在频繁项集。潜在 频繁k项集的集合Ck 是指由有可能成为频繁k项集的 项集组成的集合。以后只需计算潜在频繁项集的支 持度,而不必计算所有不同项集的支持度,因此在 一定程度上减少了计算量。
PARTITION,FPGrowth。
挖掘频繁集 不用生成候选集
用Frequent-Pattern tree (FP-tree) 结构压缩数据库, 高度浓缩,同时对频繁集的挖掘又完备的 避免代价较高的数据库扫描
开发一种高效的基于FP-tree的频繁集挖掘算法 采用分而治之的方法学:分解数据挖掘任务为 小任务 避免生成关联规则: 只使用部分数据库!
交通数据中频繁轨迹模式挖掘

所 i 页。最终 ,运动物体 ,j l 概述 是T 个单元 时间间隔 T 第 i , 个时间段用 t i 表 i 存储 的位置 R【 】 在 从相 同长度 的时空 序列 中发现 时空周 示 (≤i ) 1 ≤T 。 数据 库 D 被转换成 用标识符 O 标 识 的不 同 s j 问题 描述 1 :给定一个一般 轨迹集合 D, 运动序列 的集合 MS 。 期性模式 时,一种算法被提出 ,而且应用序列 34 MI . NE A 结构来支持时空查 询的执行。但我们关心 的是 个 二 维 参 考 平 面 M,关 注 的 时 间 区 间 u P算法 x 直接 应用像 G P或者 D F M N S S _ I E之类 的 随机长度 的序列趋 势,并且研究的点是不确定 m a sa s r n 】和支 持 度 的 最 小 阈值 pn[ a ,e d tt i a 的取样 点 。在文 献 【1中 D F M N 6 S _ I E算 法在 r n sp u 。我们 的任务 就是从数据库 中发现对 算法是不可能的,因为模式中一个区域的形状 天气预报进行时空挖掘时被引进 ,但是那篇文 象运动的所有的频繁模式 。 和大小在每一轮重新发现并被 自动修改的。我 章研究 了固定地点 的随时间变化 的属性间的关 问题描述 2 :给定用一系列的位置表示的 们提 出的 MIE A L P算法用 于发现所 有 的 N _LF 系 ,但是没考虑算法怎样应用到运动对象的挖 轨 迹的历史 数据库 D =f (i t ,l ≤ 频繁 模 式 。 B ( p,v ) ≤i i 掘中。所以 。对于这种变化中的位置属性和对 n 、取样时间间隔为 T 1 、参考二维 平面 M、最 为 了便 于快 速高效 的产生候选模式 ,模 应的固定属性 的关系 的研究 ,就显得 尤为必 大 的 时 间 限 制 m xgp、 最 小 的 支 持 度 式域的 MB 被提 出来 。如果这些对 的交集不 a_a Rs i a 要, 具体应用 中,用户什 么时候进人某位 置就 r n sp u 、最小 的置信度 m n cn。问题是从 是 空 的 ,取 得 的候 选 模 式将 会 是这 种 形 式 i _ f o 需 要被知晓 ,所 以时 间戳也是 我们关 心的因 D B中发 现所有符合阈值限制的频繁运动规则。 c d f (l 1 , (2 2 , … , (k a = < a ,t) n c ,t) o- l k 1 , (k ,)> ,t一 ) b ,t k ,我们将 cn a d中所有 素。这里提出两种算 法 M N _ L F 和 M 】 IE A L P a一 【 3发现模式 的算法 M N _ L F IE A L P MO P。分别用来发现所有的运动频 繁集和最大 处理之前 ,用一个 函数 MI E MS来使得 域 的符 合一定 条件 的点连 接起来 :R. = j N_ i R. oj 频繁集。我们引入 图的概念 ,并且 在发现频繁 我们可 以从 相同 的输 人 中得 到我们希 望的模 oi ,此 时要 将 m 和 Rj连 接起 来条 件是 m. jRi ,且 m._ jj o t R.。候选模式的支持度是 i t 集的过程 中引入一种类似图中路径来增加算法 式。运 动对象数据库 D B首先按照物体标识符 O = .i 可行性,为了控制住模式的可控性并且使得可 的 O 分类 ,在 同一个对 象的信 息内部是按 照 符合候选模式 的对象 0i j 的个数 。 然后 ,候 选域需要 经过一个检测 ,因为 控性的大小可变,我们引入一种基 于网格的簇 时间戳进行排序的。之后 ,根据轨迹 的生存时 集 (ls r g 技 术 。 cut n) e i 间 【 ,t】 t e ,将 生存 时 间在给 定 最大 时间段 经 过连接操作 之后它 们可能 不再是密集 型的 s x 为 了达到最终 目标—— 支持基 于位置 系 m a sa s r,ed p n【at n 】中的轨迹 从 D t B中抽取 了。如果支持度 大于最 小支持度 r n u ,那 a _p i 统 L S的功能 ,提出一种基 于规则 的位置 预 出来 。这个 函数 d r g 0 在文 献 【O B u n i l】中有 么候 选 模式 的域 将 会 被 重 聚类 。对于 得 到 的 新 测算法 ,来利用挖掘出来 的规则预测一个运 动 介绍。这样我们就从数据库中抽取 了我们关心 的聚类 ,一个模式将会 被创建 ,模式域 的大小 对象 的未来时刻的位置。其 中运动规则是利用 时 间段 内 的特 定 对象 的运 动 信 息 。 也 会 跟 着 调 整 。 比如 , 考 虑 候 选 模 式 < ( 2 , t), ( 0 , t) >。 在 连 接 单 元 R13 1 R 1 2 现提 出的 MI E A L P算 法对用 户 的历 史运 N _ LF 31 期 工作 之 一 :轨迹 重 构 .前 动信息进
数据挖掘中的频繁模式发现

数据挖掘中的频繁模式发现数据挖掘是一种从大量数据中发现并提取有价值信息的过程。
频繁模式发现是数据挖掘领域中的一项重要任务,它帮助我们发现数据中经常出现的模式或关联规则,从而为决策和预测提供有力支持。
本文将介绍数据挖掘中频繁模式发现的基本概念、常用方法和实际应用。
一、频繁模式发现的概念在数据挖掘中,频繁模式指的是在数据集中经常出现的模式或子集。
这些模式可以是项集、序列或子图等形式。
频繁模式发现任务的目标是寻找在数据集中出现频率高于预设阈值的模式。
二、频繁模式发现的常用方法1. Apriori算法Apriori算法是频繁模式发现中最经典的方法之一。
该算法基于一种称为Apriori原则的性质,即如果一个模式是频繁的,那么它的所有子集也必须是频繁的。
Apriori算法通过迭代地生成候选项集,并在每一次迭代中利用Apriori原则剪枝,从而减少模式发现的搜索空间,提高算法的效率。
2. FP-Growth算法FP-Growth算法是另一种常用的频繁模式发现方法。
该算法通过构建一种称为FP树的数据结构来表示数据集,然后利用树的结构和属性,高效地挖掘频繁模式。
与Apriori算法相比,FP-Growth算法不需要生成候选项集,因此在一些情况下可以提供更好的性能。
三、频繁模式发现的应用频繁模式发现在各个领域都有广泛的应用。
以下是几个例子:1. 超市销售分析超市拥有大量的交易数据,通过频繁模式发现可以找到经常同时被购买的商品,从而帮助超市制定促销策略、调整商品陈列和优化供应链。
2. 社交网络分析在社交网络中,频繁模式发现可以用于发现用户之间的关联规则,例如朋友推荐、用户相似性分析和社群发现。
3. 生物信息学频繁模式发现可以在基因表达数据中发现共同出现的基因模式,从而帮助生物学家理解基因的功能和相互作用。
4. Web点击分析通过分析用户的点击行为,可以发现用户经常访问的网页或点击的广告,从而改进网站的推荐系统和广告投放策略。
《基于并行频繁模式挖掘算法的博客推荐系统的设计与实现》范文

《基于并行频繁模式挖掘算法的博客推荐系统的设计与实现》篇一一、引言随着互联网的飞速发展,信息过载问题日益严重。
对于用户来说,如何在海量的信息中快速找到自己感兴趣的内容成为了一个亟待解决的问题。
推荐系统因此应运而生,其中,基于频繁模式挖掘的推荐系统因其准确性和有效性受到了广泛关注。
本文将介绍一种基于并行频繁模式挖掘算法的博客推荐系统的设计与实现。
二、系统需求分析1. 用户需求:系统需要能够为用户推荐其可能感兴趣的博客文章,同时提供个性化推荐服务。
2. 数据特点:博客文章数据量大,且具有时效性,需要设计高效的数据处理和存储方案。
3. 技术要求:系统需要支持并行计算,以提高数据处理速度和推荐准确性。
三、系统设计1. 数据预处理:对博客文章进行分词、去除停用词等操作,提取出特征词。
2. 频繁模式挖掘:采用并行频繁模式挖掘算法,对特征词进行频繁模式挖掘,得出博客文章的关联规则。
3. 用户行为分析:通过分析用户的历史浏览记录和点击行为,得出用户的兴趣偏好。
4. 推荐算法:结合频繁模式挖掘结果和用户兴趣偏好,采用协同过滤等算法进行推荐。
5. 系统架构:采用分布式架构,将数据存储在Hadoop等大数据平台上,利用Spark等计算框架进行并行计算。
四、并行频繁模式挖掘算法1. 算法原理:并行频繁模式挖掘算法是一种基于分布式计算的频繁模式挖掘算法。
它通过将数据集分割成多个子集,并在多个计算节点上并行处理子集,从而加快了数据处理速度。
2. 算法实现:在实现过程中,需要设计合理的任务划分策略、数据传输策略和结果合并策略。
同时,为了确保算法的准确性,需要采用一定的剪枝策略来减少搜索空间。
五、系统实现1. 数据存储:将博客文章数据存储在Hadoop等大数据平台上,以便进行高效的读写操作。
2. 数据处理:利用Spark等计算框架进行并行计算,提高数据处理速度。
3. 推荐服务:结合频繁模式挖掘结果和用户兴趣偏好,采用协同过滤等算法进行推荐。
基于Fp—Tree频繁模式的挖掘算法
基于Fp—Tree频繁模式的挖掘算法作者:赵健来源:《电子技术与软件工程》2017年第10期Fp-Tree算法在挖掘最大频繁模式和搜索关联规则中得到了广泛应用。
本文阐述了Fp-Tree 算法的一般过程,并对其效率瓶颈作了分析:传统的Fp-Tree算法在构建频繁树的过程中需要递归地插入频繁项,在频繁模式的挖掘过程中需要递归地产生条件Fp-Tree,这些递归过程会增大算法开销,降低算法效率。
本文使用非递归机制对Fp-Tree的构建过程做了一些改进,同时,在挖掘频繁项过程中使用了组合频繁前缀的方法,避免了条件Fp-Tree的产生。
本文就改进算法与传统算法作了对比实验,可以看出,这些改进一定程度上提高了效率。
【关键词】频繁模式关联规则Fp-Tree频繁前缀1 前言随着信息社会的发展,关联规则挖掘在数据挖掘中的地位日益重要。
关联规则是对事物之间相互依存和关联关系的一种描述。
挖掘频繁模式是挖掘关联规则的基础,针对这种模式的挖掘有一系列优秀算法,比如Aprior算法和Fp-Tree算法。
其中Aprior算法思路直观,更易实现,但需多次扫描数据集并产生大量候选频繁项集。
相对的,Fp-Tree在挖掘过程中无需产生候选集,与Aprior 相比效率更高。
但是,传统的Fp-Tree算法建立Fp-Tree的过程是递归的,会频繁进出栈,这就增加了内存开销,提高算法的时间复杂性,特别是在数据集很大的情况下。
同时,在频繁模式的挖掘过程中需递归地构建条件Fp树,这也会降低算法效率。
本文从这两方面改进了Fp-Tree算法,使之更有效率。
2 传统的Fp-Tree算法2.1 传统Fp-Tree算法的的基本步骤每个待插入Fp-Tree数据集的项包含四个字段:项目名称、父结点指针、指向同名结点的指针(该指针构成同名指针的结点链)以及结点的支持度计数。
传统Fp-Tree算法的的基本步骤如下:(1)将频繁项集按降序排序。
扫描事务数据集D以生成频繁1项集,并计算它们的支持度,然后对满足不小于最小支持度要求的频繁1项集按支持度降序排序,排序后的结果形成了一个项列表,记为L。
数据流频繁模式与分类挖掘算法的分析
数据流频繁模式和分类挖掘算法研究第二章数据挖掘相关理论2.1数据挖掘2.1.1数据挖掘产生随着计算机与信息技术的飞速发展,人们面临着快速扩张的数据海洋,如何有效利用这一丰富数据海洋的宝藏为人类服务,已经成为广大信息技术工作者所关注的焦点之一。
与F1趋成熟的数据管理技术与软件工具相比,人们所依赖的数据分析工具功能,却无法有效地为决策者提供其决策支持所需要的相关知识,从而形成了一种独特的现象“丰富的数据,贫乏的知识”。
为有效解决这一问题,自二十世纪80年代开始,数据挖掘技术逐步发展起来。
2.1.2数据挖掘定义数据挖掘(DataMining,简称DM)ttgl,又称数据库中的知识发现(KnowledgeDiscoveryinDatabase),就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程。
数据挖掘的全过程定义描述如图所示。
数据挖掘仝过程图2.1数据挖掘全过程4数据流频繁模式和分类挖掘算法研究图3.4不同W下不同支持度下的时间性能3.2基于Apriori的数据流挖掘算法SOA3.2.1引言RakeshAgrawal等1994年提出了经典的Apriori算法存在的一个固有的缺陷——需要多次重复的扫描数据库,而这恰恰是数据流的特点所不允许的。
但是它使用候选项集的策略却可以运用到数据流挖掘中,本章也是在滑动窗口模型下提出了一种由Apriori算法改造的单遍扫描数据流算法SOA(StreamOfApriori)。
3.2.2算法描述本算法的定义与3.1节相同,尤其是窗口大小和项集到达的时间序列定义在本章同样适用。
由于同样是基于滑动窗口模型下研究的,该算法也分为分两个阶段:即当前到来的事务数目N≤w(窗口初始化阶段)和N>W阶段(窗口滑动阶段)。
(一)窗口初始化阶段(i≤w)逐条读入数据流记录ti,据该记录支持的所有l一项集构造可能的组合(tip记录支持的所有1.项集、2一项集、3-项集…),并进行操作:查看每个组合是否已经出现在已有的候选项集C,若出现则将其计数值count加l,并且该组合的时间列表中加入当前序列标志tid(imodw);否则将该项集的计数值count为l,时间列表中加入tid,并将该项集加入到所有的候选项集C中。
基于FS_tree的频繁模式挖掘算法
2008,44(30)
1引言关联规则挖掘是数据挖掘中的一个重要研究课题,用于在大量数据中发现项集之间有趣的关联或相关联系,它首先由Agrawal,Imielinski和Swami提出[1]
。根据算法对搜索空间浏览
计数的方式不同,可分为广度优先搜索方式(BFS)和深度优先搜索方式(DFS)[2]。
广度优先搜索的典型算法是Apriori[3-4]
,
它使用逐层搜索的
迭代方法,k项集用于搜索(k+1)项集,其主要缺点是需要产生大量的候选项集,重复扫描数据库,通过模式匹配检查一个很大的候选集合,占用大量的内存空间和CPU处理时间,难以适
应海量数据挖掘[5]
。
深度优先搜索的典型算法是FP-growth[6-7]
,
它采用分治策
略:将产生频繁项集的数据库压缩到一棵频繁模式树(FP-tree)
中,以此保留项集之间的关联信息;然后,通过创建条件模式基挖掘FP-tree得到频繁集。该算法只需要对数据遍历两次,且不产生候选项,仅需要构造FP-tree和条件FP-tree。其主要缺
点是需要占用大量内存(与FP树的深度和宽度成比例)。如果数据库中的频繁1-项集的数量很大,且内存不能装入库中所有项目在FP-树的映射信息时,算法将不能有效地工作[8]。文献
[8]在FP-tree算法中融合了邻接矩阵和极大团划分的思想,提出了MaxCFPTree算法,其扫描的时间复杂性为O(n2
)。
Grahne
发现有80%的CPU时间是用来遍历FP树的,他提出的Fp-
growth*算法通过减少遍历时间来提高算法运行效率[9]
。文献
[10]
提出了一种逆向FP-合并算法,时空效率更优于FP-growth算法。文献[11]通过构建一个高效的数据存储结构AFP-树,使存
储和查询频繁模式更为迅速。文献[12]提出一种基于二叉频繁模式树(FP-Btree)的关联规则算法用于挖掘医学图像数据中的关联关系。
本文继承FP-growth算法的思想,不产生任何候选集,通
新版数据挖掘第6章--挖掘频繁模式、关联和相关性:基本概念和方法
Apriori算法步骤
Apriori算法由连接和剪枝两个步骤组成。 连接:为了找Lk ,通过Lk -1与自己连接产生候选k-项集的 集合,该候选k项集记为Ck 。
(l1[1] l2 [1]) (l1[2] l2 [2]) ... (l1[k 2] l2 [k 2]) (l1[k 1] l2 [k 1])
age ( X , "30...39" ) buys ( X , " laptop _ computer" ) age ( X , "30...39" ) buys ( X , " computer" )
根据关联挖掘的各种扩充
挖掘最大的频繁模式(该模式的任何真超模式都是非频繁 的) 挖掘频繁闭项集(一个项集c是频繁闭项集,如果不存在 其真超集c’,使得每个包含c的事务也包含c’)
sup port ( A B) P( A B)
Customer buys beer
confidence ( A B) P( B | A) P( A B) / P( A)
– 置信度c是指D中包含A的事 务同时也包含B的百分比
TID 2000 1000 4000 5000
购买的item A,B,C A,C A,D B,E,F
Apriori算法:通过限制 候选产生发现频繁项集
Apriori算法是挖掘布尔关联规则频繁项集的 算法 Apriori算法利用的是Apriori性质:频繁项集 的所有非空子集也必须是频繁的。
– A B 模式不可能比A更频繁的出现 – Apriori算法是反单调的,即一个集合如果不能 通过测试,则该集合的所有超集也不能通过相 同的测试。 – Apriori性质通过减少搜索空间,来提高频繁项 集逐层产生的效率
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
结 构 以及 设 置广 告 页 面 等 。 因此 挖 掘 邻 近 序 列 模 式 有 实 际 意 义 。
为 了 提 高 算 法 效 率 , 们 提 出 了 散 列 项 集 计 数 1 划 分I、 人 9 1 、 , 选 O l 目前 人 们 已 经 提 出 了许 多 邻 近 序 列 模式 挖 掘算 法 . 如 ail rw提 出 的 P M 算 法fI 算 法 先 把所 有 的 序 列 串 联 在 D 3. 0该 样 I和 动 态 项 集 1等 技 术 来 对 A r r算 法 进 行 优 化 。 但 这 些 算 D ne C o I U 1 2 l pi i o 起 组 成 一 个 长 字符 串 .然 后 通 过 在 长 字 符 串 中 删 除 低 阶 邻 近 法 都 是 在 A f r算 法 基 础 上 进 行 的 改 进 . 可 能 改 变 A f f算 p oi i 不 po ii
2 频 繁 项 集挖 掘 、
要 多 次 扫 描 数 据 库 . 致 算 法 性 能 不 佳 。算 法 F S a 导 me pn和 Pe r. i a f P n虽 然 不 用 多 次 扫描 数 据 库 .但 往 往 会 构 造 很 多 投 影 或 者 x
关 联 规 则 是 数 据 挖 掘 的 众 多 模式 中最 为 重 要 的 一 种 .它 主 伪 投 影 数 据 库 . 此算 法 的 效率 也 不 理想 Pi 对 We 日志 的 因 e针 b 要 用 来揭 示数 据库 中项 目或 属 性 之 间 的相 关 性 。 关 联 规 则 经 常 特 点设 计 了一 个 称 为 WA — n P Mie的 算 法 . 算 法 首 先 扫 描 两 该
算法 , 并指 出 了频 繁 模 式 未 来的 研 究 方 向 。
【 关键词】 频繁模式 数据挖掘 :
1 引 言 、
顺 序发生的 。 且是连续发生 的。 而
频 繁模 式 挖 掘 是 数 据 挖 掘 研 究 中的 一 个 重 要 课 题 .它 是 关
在 We b使 用 挖 掘 中 . 件 被 看 成 单 元 索 的 集 合 . 此 非 邻 事 因
例 而 对 候 选 集 进 行 筛 选 .因 此 该算 法 时 问 效 率 和 空 问 伸 缩 性 都 面 临 预 测 用 户 下 一 步 的 访 问请 求闯阿 . 且 还 可 以用 来 改 善 网站 挑战 。
因此 . 现 频 繁项 集 是关 联 规 则 挖 掘 中 的关 键 技 术 和 步 骤 。 发
联 规则 、 关 性分析 、 列模式 、 相 序 因果 关 系 、 节 片 段 、 部 周期 近 序 列 模 式 是 常 规 序 列 模 式 挖 掘 的 一 个 特 例 。常 规 的序 列 模 式 情 局
性 、 露 模式 等许 多 重 要 数 据 挖 掘 任 务 的 基 础 『 因此 . 繁模 式 挖 掘 算 法 Ap A 『、 S f FeS a l、r x pn' 都 可用 显 1 ] 。 频 J 儿l G P j 9 1 划、 rep n Pe S a [等 z 1 f i 3 有 着 很 广 泛 的 应 用 , 如 。 物 蓝 数 据 分 析 、 叉 购 物 、 页 预 于 从 We 日志 中 挖 掘 非 邻 近 序 列 模 式 。 但 算 法 A r r l 和 例 购 交 网 b pi i l oA S 取 、 性 化 网站 等 。根 据 挖 掘 对 象 的不 同 , 繁 模 式 挖 掘 方 法 可 G P在 生 成 非 邻 近 序 列 模 式 的 过 程 中 容 易 产 生 大 量 候 选 集 且 需 个 频 分 为 频 繁 项 集 挖 掘 、 繁 序 列 挖 掘 等1 频 2 - 1
被 婀 于 市 场 营 销 中 .从 交 易 数 据 库 中 可挖 掘 出 不 同 商 品 问 隐 含 遍 数 据库 . 把数 据 库 压缩 存 储 到 WA P树 中 . 后 递归 的构 造 条 件 然
的 销 售组 合信 息 . 将这 些 信 息用 在 营 销 策 略 上 . 高 商 品 销 售 WA 再 提 P树 来挖 掘非 邻 近 序列模 式 。Z a g 出 了 C - n 算 法叫. hn 提 Smie 该
量 . 又 称 为 购 物篮 分析 [ 关 联 规 则 不 仅 仅 局 限 于购 物 篮 分 析 . 算 法 通 过 加 入 检 测 函 数 来 对 WA — n 算 法 进 行 改 进 . 一 定 程 故 3 1 。 P mie
它还 有 着 广 泛 的应 用 领 域 . 医疗 [1 融l. b站 点优 化 : 度 上 提 高 了 算 法 效 率 CIE e e提 出 了对 WA 如 4. 1 金 aWe 5 1 等 . zi . f P树 编 码 的 思想 L P Mie 1 但 j 1 在 挖 掘关 联 规 则的 过 程 中 . 繁项 集 的 挖 掘 是 整 个 算 法 的 瓶 颈 。 和 一 个 挖 掘 非 邻 近 序 列 模 式 的 有 效 算 法 P WA — n 【. 频 P WA — n 算 法 主要 的 不 足 是 搜 索 空 间收 缩 太 慢 .遍 历 结 点 L P Mie 这 A r r算 法 f 一 种挖 掘频 繁项 集 的基 本 算 法 。 采 用逐 层 次 数 过 多 . 在 一 定 程 度 上 影 响 了算 法 的 效 率 。 pi i o a l 是 它 迭代 策略 产生 频 繁 项 集 , 后 利 用 频 繁 项 集 产 生 关 联 规 则 。 于 然 由 由于 用 户 访 问站 点 页 面 的连 续 性 . 因此 邻 近 序 列 模式 能 更 A r r算 法生 成规 模 巨大 候 选 集 .同 时 必 须 多 次 扫 描 数 据 库 来 好 表示 用 户 访 问 站 点 的语 义 信 息用 邻 近 序 列 模式 不仅 可 以用 来 pi i o 。
21 0 0年第 2期
福Leabharlann 建 电脑 3
频繁模式挖掘算 法综述
周常恩 ,林端 宜 ,杨雪梅 ,赖新梅 ,褚剑锋
(福 建 中 医 学 院信 息 管理 研 究 所 福 建 福 州 3 00 ) 503
【 摘 要】 对频繁模式技术进行 了综述 , : 阐述 了频繁模 式产生的背景 、 义和任务 , 定 介绍 了国 内外常用的频繁模 式挖掘