流数据上的频繁项挖掘算法

合集下载

在线挖掘数据流闭频繁项集的高效算法

（ＡｐｐｌｉｅｄＳｃｉｅｎｃｅＩｎｓｔｉｔｕｔｅｏｆＪｉａｎｇｘｉＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，Ｇａｎｚｈｏｕ３４１０００，Ｃｈｉｎａ）
态维护所有闭频繁项集的生成，以降低闭频繁项集的维护代价，提高算法的效率。理论分析与实验结果表明，Ａ－Ｎｅｗ—
Ｍｏｍｅｎｔ算法具有较好的性能。关键词数据挖掘，数据流，频繁项集，闭频繁项集ＴＰ１８２文献标识码Ａ中图法分类号
ｒｅｆｑｕｅｎｔｉｔｅｍｓｅｔｓ．Ｆｉｒｓｔｌｙ，ｉｔｄｅｓｉｇｎｅｄａｃｏｍｂｉｎａｔｉｖｅｄａｔａｓｔｒｕｃｔｕｒｅｗｈｉｃｈｕｓｅｓａｎｅｆｅｃｔｉｖｅｂｉｔ－ｖｉｃｔｏｒｔｏｒｅｐｒｅｓｅｎｔｉｔｅｍｓ
摘要
长沙４１００８３）
数据流闭频繁项集挖掘算法得到了广泛的研究，其中一个典型的工作就是ＮｅｗＭｏｍｅｎｔ算法。针对Ｎｅｗ－
Ｍｏｍｅｎｔ算法存在搜索空间大而造成算法时间效率低的问题，提出了一种改进的数据流闲频繁项集挖掘算法Ａ－Ｎｅｗ— Ｍｏｍｅｎｔ。它设计了一个二进制位表示项目与扩展的频繁项目列表相结合的数据结构，来记录数据流信息及闭频繁项集。在窗体初始阶段，首先挖掘频繁１一项集所产生的支持度为最大的最长闭频繁项集，接着提出新的“ 不需扩展策略”

数据流频繁项挖掘的研究

列。这种数据广泛存在于现实世界中，具有无限Ｊ，持续变化性，快速性和不可预陛测性等特点。近年来，基于数据流处理和分析的模型、系统和算法的研究都取得了很多有价值的成果和进展。不仅出现了一些数据流分析系统ｌＩ１和数据流管理系统 ’ ，
管结果是近似的，可以保证在用户定义的但
１引言．
近几年，在许多研究领域，像金融管理，
流的概要数据，利用概要数据来满足用户的查询。查询结果通常是真实查询结果的
近似。数据流频繁项挖掘的主要任务是在有限的存储空间下，通过近似算法对项集
８１
¨
中国科技信息２１年第１期００９
ＣＩＣＥＣＮＥＨＯＯＹＩＦＲＡＩｃ．０９ＨＮＳＩＥＡＤＴＣＮＬＧＮＯＭＴＯＯｔ０ＡＮＮ２
一
Ｄ：１．９９ｊｉｎ１０ — ９２２１．９０３ＯＩ０３６／．ｓ．０１８７．００１．３ｓ
数据流频繁项挖掘的研究
王飞超 ’李国倪现君韩业红
来的发展方向。
２理论基础．
流数据频繁项挖掘就是在流的目前已
一
数：支持度阈值Ｓ ∈ （０，１）和误差范围参数￡∈ ０１，远小于ｓＬｓＣｕｔｇ（，）８。ｏｓｏｎｉｙｎ算法的基本思想是：在主存中维护数据流的
一
的频率进行估计，并尽可能减少相对误
差，从而得到满足最小支持度的频繁项集。数据流频繁项的挖掘主要具有以下３个特点：

数据流中基于矩阵的频繁项集挖掘

南京航空航天大学信息科学与技术学院，南京２０１１０６ＣｌｇｆＩｆｒａｉｃｅｃｎｅｈｏｏｙａｊｇＵｉｒｔｏｅｏａｔｓａｄＡｔｎｕｉ，ＮｎｉｇｏｅｅｏｎｏｍｔｎＳｉｎｅａｄＴｃｎｌｇ，ＮｎｉｎｖｓｙｆＡｒｎｕｉｎｓｏａｔｓａｊｌｏｎｅｉｃｒｃｎ
点击流、传感器网络产生的数据和股票价格波动的数
Ｒｅｅｖｄ２０－４，Ａｃｅｔｄ２０－１ｃｉｅ０７０ｃｐｅ０７１
维普资讯
ＩＳｌ７ — ４８ＣＯＤＥＫＹＡ８ＳＮ６３９１ＮＪＴＪｕｎｌｏｒｎｉｒｏｏｕｅｃｅｃｎｅｈｏｏｙｏｒａｆＦｏｔｓｆＣｍｐｔｒＳｉｎｅａｄＴｃｎｌｇｅｌ７ — ４ｌ／０８００）０３ — ７６３９８２０／２（３一３００
数据流中基于矩阵的频繁项集挖掘
王磊＋黄志球，，国华，，朱小栋沈程亮
ＷＡＮＧｅ，ＨＵＬｉＡＮＧｈｑｕＺＺｉｉ，ＨＵＸｉｏｏｇＳａｄｎ，ＨＥＮＧｕｈａＣＨＥＮＧＬａｇｏｕ，ｉｎ
关键词：据流；数数据挖掘；繁模式；阵频矩
文献标识码：中图分类号：Ｐ１ＡＴ３１
１引言
数据流是一种特殊的数据类型。它在一个近似
据，都是数据流的典型示例。数据流产生的数据无法
全部保存在内存中，而访问存储在次级储存介质中的

频繁集项算法

频繁集项算法频繁集项算法是一种常用的数据挖掘算法，用于从大规模数据集中发现频繁出现的项集。

它是一种基于集合的数据分析方法，可以帮助我们找到数据中的关联规则和模式，从而为我们提供有价值的信息。

在实际应用中，频繁集项算法可以用于市场营销、推荐系统、网络安全等领域。

例如，在市场营销中，我们可以利用频繁集项算法来分析顾客的购买行为，找出哪些商品经常一起被购买，从而制定精准的促销策略。

在推荐系统中，我们可以利用频繁集项算法来分析用户的浏览记录，找出用户可能感兴趣的商品或内容，为用户提供个性化的推荐。

频繁集项算法的核心思想是通过扫描数据集多次，统计每个项集的出现频率，然后根据设定的最小支持度阈值来筛选出频繁项集。

具体而言，频繁集项算法可以分为两个步骤：第一步是生成候选项集，第二步是计算候选项集的支持度。

在生成候选项集的过程中，首先需要扫描数据集，统计每个项的出现次数，然后根据最小支持度阈值筛选出频繁一项集。

接下来，通过对频繁一项集进行连接操作，生成候选二项集。

对于候选二项集，再次扫描数据集，统计每个候选项集的出现次数，根据最小支持度阈值筛选出频繁二项集。

这个过程会一直进行下去，直到无法再生成新的候选项集为止。

在计算候选项集的支持度时，可以采用两种方式：暴力搜索和Apriori算法。

暴力搜索的方式是将每个候选项集与数据集中的每条记录进行比对，统计候选项集的出现次数。

而Apriori算法则是利用了频繁项集的性质，通过剪枝操作来减少候选项集的数量，从而提高计算效率。

除了频繁集项算法，还有一些相关的算法，如关联规则算法和序列模式挖掘算法。

关联规则算法是在频繁集项的基础上，通过计算置信度来挖掘项集之间的关联关系。

序列模式挖掘算法则是在频繁集项的基础上，考虑了项集之间的时序关系，用于挖掘序列数据中的频繁模式。

频繁集项算法是一种重要的数据挖掘算法，可以帮助我们从大规模数据集中发现有价值的信息。

通过对数据集的多次扫描和统计，可以找出频繁出现的项集，这些项集可以用于分析关联规则、推荐系统等应用场景。

fp-growth算法原理

fp-growth算法原理fp-growth算法是一种用于频繁项集挖掘的算法，它是基于一种称为FP树的数据结构来实现的。

该算法可以高效地挖掘事务数据集中的频繁项集，因此广泛应用于数据挖掘和机器学习领域。

一、FP树FP树是一种基于前缀树的数据结构，可以用来存储事务数据集中各个事务的项集。

它通过将项集按照出现次数从高到低进行排序，并进行压缩，从而大大减小了数据的存储空间。

FP树由一个根节点开始，每个节点存储一个项和该项出现的次数。

FP树上的每一个路径都代表一个项集，而每个路径上的叶节点都包含了相同的项集，而仅仅是出现的次数不同。

假设我们有以下事务数据集：{| class="wikitable" style="text-align:center" |+ style="font-size:larger;" |事务数据集 |- ! style="padding:0.2em 1em;text-align:left;" | 事务编号 ! style="padding:0.2em 1em;text-align:left;" | 项集 |- | 1 | A, B, C |- | 2 | B, D |- | 3 | C, D |- | 4 | A, B, D |- |}我们需要扫描整个事务数据集，计算每个项的出现次数，并按照出现次数从高到低进行排序，得到如下表格：{| class="wikitable" style="text-align:center" |+ style="font-size:larger;" |频繁项集 |- ! style="padding:0.2em 1em;text-align:left;" | 项 !style="padding:0.2em 1em;text-align:left;" | 支持度 |- | B | 3 |- | C | 2 |- | A | 2 |- | D | 2 |-}然后，我们可以通过FP树来表示整个事务数据集。

一种基于计数的数据流频繁项挖掘算法的改进

挖掘等。本文在ＳｐａｃｅＳａｖｉｎｇ算法基础上，提出维护两个样本的错误判断并一定程度上提高算法的效率。更新操作用来根据阈值更新并维护样本集内的数据，描述输入：数据流Ｄｓ输出：样本集ｓ，ｓ，
集的思路以期挖掘出的Ｔｏｐ — Ｋ频繁项集的结果能减少对数据项如下：
Hale Waihona Puke 器ｆ．最小的一项
（４）ＥＬＳＥａｉ保留在ｓ！（５）ＥＬＳＥＩＦａｉ在ｓ２中；ｄｆ对应的计数器ｆｉ＋＋（６）ＩＦｆｉ＞ｍ将ｆ移入ｓ！中，并删除ｓ２中ｄｆ（７）ＥＬＳＥａｉ保留在ｓ，（８）ＥＬＳＥＩＦｓ，不满；将＜ａ，ｆ＞￣ｕＮｓ２￣
时间序列分析。频数统计包括在单个或多个数据流上提取出现入ｓ，进行下一轮计数，当随着计数小于ｍ时，则从Ｓ２将对应的数
频率超过指定阈值的频繁项或者项集，是研究的重点。频数统据退回到ｓ中。
计主要涉及：频繁项或频繁项集挖掘、Ｔｏｐ — Ｋ数据项及数据项集２．２改进算法
们所要面对的新考验。数据流挖掘作为数据挖掘的一个分支方２．１关键思想向，其中的挖掘数据流频繁项作为热点问题，所研究领域所涉
个万向。
针对ｓｓ算法若某数据项ａｉ的频数超过数据项频率Ｆ／样本
内，增加一个样本集ｓ，，即将样本集ｓ分成ｓ，ｕｓ，两个样本集来
１概述
（１）Ｆ＝Ｆ＋ｆｊ；ｍ＝Ｆ／Ｓ

数据流上的频繁闭项集挖掘算法

事务与项集类似（指那些在数据流中的组成单元）ｋ个项可特，以组成ｋ项集。项集的支持度是指在其滑动窗口的所有事务
２２函数定义．定义１设在数据流Ｄ上，为所有事务的子集，定义：
＿丁）ｆ厂：｛∈，Ｉ ∈Ｔ，∈Ｔ｝（Ｖｔｉ
中出现的比例。超过由用户指定比例的项集被称为频繁项集…。频繁闭项集是指不存在超项集与自身有相同支持度的
法通过采用紧致的数据结构和简化的判断过程提高时空效率，支持响应不同用户支持度阈值的查询。实验结果表明，在保持已有算法精度的情况下，ＭＦＲ具有更高的时空效率。ＷＳ关健词：数据流；数据挖掘；频繁闭项集
ＡｌｏｉｈｆｉｉｇＦｒｑｅｔＣｌｓｄＩｅｓｔｎＤａａＳｒａｓｇｒｔｍｏｎｎｅｕｎｏｅｔｍｅｓｏｔｔｅｍＭ
频繁项集。数据流上的频繁项集挖掘成为近来研究的热点，文献【］出Ｌｓｏｎｎ２提ｏｓＣｕｔｇ方法；ｈｎｙｉＣａｇ等提出的算法ｅｔｅｓｃＤ采用一种将数据流随出现时间推移而降低其权重的方法；Ｇｉｎｌａｅｌｎａ等提出的方法从另一个方面考虑了这个特性。以上的方法称全数据流方法。而另外一类算法采用了滑动窗１模３
第３卷第１６８期
Ｖ１３ｏ．６
ＮｏＪ．８
计
算
机
工
程
２１００年９月
Ｓｐｅｂｒ２１ｅｔｍｅ００
ＣｏｐｔｒＥｎｉｅｒｎｍｕｅｇｎｅｉｇ

在线挖掘数据流闭合频繁项集CMNL—SW算法

第２卷第４７期２１年 Nhomakorabea ０２月
数
据
采
集
与
处
理
Ｖｏ．ｏ．１２７Ｎ４
Ｊｕｎｌｏｔｑｉｉｉｎ＆ＰｏｅｓｎｏｒａｆＤａａＡｃｕｓｔｏｒｃｓｉｇ
Ｊ１２１ｕ．０２
文章编号：０４９３（０２０— ５８０１０— ０７２１）４００—６
Ｍｏｎ和ＣＩＳｒａ，且随着数据流上处理事务数的递增和快速改变表现出良好的稳定性。ｍｅｔＦ— ｔｍ并ｅ关键词：掘算法；合频繁项集；动窗口；据流挖闭滑数中图分类号：２Ｔ９ＴＰ；Ｐ文献标识码：Ａ
（ＭＮＬ— Ｗ）ｉｐｏｏｅ．Ｉｓｓｔａａｓｒｃｕｅ，ｉｅｌｓｄｍａｔｒｓｈｌｓｄｉｅＣＳｓｒｐｓｄｔｅｗｏｄｔｔｕｔｒｓ．．ｃｏｅｐｓｏｅ，ｔｅｃｏｅｍ— ｕｔ
ｓｔｅｓ，ｔｓｒｎｅｎｄｔｍｉｔｓｏｅｈｅｎｈｏｅａｅｍｉｄａｈｅｎｕｌｓｔｒｓｔｕｍｂｅｆａｌｄｆｅｅｔｉｅｒｏｌｉｆｒｎｔｍｓ．Ｖｉｈｅｓｍｐｅａｔｉｌｕｎｉｐｅａｉｎｏｔｍｍｂｒｃｎｔｉｄｗｉｈｎａｎｗｒｉｉｇｏｒａｌｌｔｎｒｎｓｃｉｎｏｎｏｒｔｏｎｉｅｎｕｅｏａｎｅｔｉｅａｒｖｎｎｏｄｄｅｅｉｇｔａａｔｏａｈｎｅｓｃｉｎｏｐｒｔｏｎｃｒａｎｐｒｖｏｌｅｔｍｓｔｎｃｎｄｔｅｉｔｒｅｔｏｅａｉｎｏｅｔｉｅｉｕｓｃｏｓｄｉｅｅｓｏｅ，ｉｎｃｅｅａｌｐｄｔｓｔｉｒｍｎｔｌｙｕａｅ

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Ａｓｒｃ：ＡｆｑｅｔｔｍｓｎｎｌｏｉｍｏｒａａＳＣＵＴａｒｏｅ，ｗｉｓｄｄｔｓｍｐｉｇｂｔａｔｅｕｎｉｉｇａｒｈｆｔｍｄｔＷ— ＯＮ）ｗｓｐｏｓｄｈｃｕｅａａａｌｒｅｍｉｇｔｓｅａ（ｐｈｎ
ｒｑｕｒｍｅ，ａｄｔｍｅａｄｓｃｆｃｅｙ．ｅｉｅｎｔｎｉｎｐａｅｅｉｉｎｃＫｅｏｄｓｄａａｓｒａ；ｆｅｕｅｔｉｅ；ｓｉｎｇｗｉｄｏｙｗｒ：ｔｔｅｍｒｑｎｔｍｌｄｉｎｗ；ｓｍｐｉｇｔｃｏｏｙｄａａｍｉｉｇａｌｎｅｈｎｌｇ；ｔｎｎ
据项的平均处理时间为Ｄ（）大量的实验证明，１。该算法比其他类似算法具有较好的精度质量以及时间和空间效率。
关键词：据流；繁项；数频滑动窗口；样技术；据挖掘采数中图分类号：ＰＯ．Ｔ３１６文献标志码：Ａ
８ａｐｏｉｔｅｕｎｔｍｓｏａａｓｒａｕｉｇ０（）ｍｅｒｐｃｎｈｒｃｓｉｇｔｏａｈｄｔｔｍａ一ｐｒｘｍａｅｆｑｅｔｅｆｄｔｔｅｍｓｎｓｒｉａｍｏｙｓａｅａｄｔｅｐｏｅｓｎｉｆｒｅｃａａｉｅｗｓｍｅ
第３１卷第２期
２１年２月０１文章编号：０１９８（０１００５０１０ — ０１２１）２— ４０— ４
计算机应用
ＪｕｎｌｏｏｕｅｐｉａｉｎｏｒａｆＣｍｐｔｒＡｐｌｔｓｃｏ
Ｖｌ３．０＿１Ｎｏ２Ｆｂ２１ｅ．０ｌ
ｄｉ１．７４Ｓ．．０７２１．０５ｏ：０３２／ＰＪ１８．０１０４０
流数据上的频繁项挖掘算法
屠莉陈峻，
（．阴职业技术学院计算机科学系，１江江苏江阴２４０；２扬州大学信息工程学院，１５４．江苏扬州２５０；２０９
ｔｃｎｑｅｔｎｅｕｎｔｍｓｏａａｆｏｎｅｌｉｇｗｎｏｓＧｉｅｎｅｒｒｔｒｓｏｄ８ｅｈｉｕｏｍｉｅｆｑｅｔｉｒｅｆｔｗｕｄｒｓｉｎｉｄｗ．ｖｎａｒｏｈｅｈｌ。Ｓ — ＯＵＮＴｃｎｄｔｃｄｌｄＷＣａｅｅｔ
０引言
随着计算机技术的快速发展，数据流广泛出现在众多应
用领域。如，ｂ服务器上的用户点击记录流、联网中传例Ｗｅ互
变化的到达率。王伟平等人提出了一个算法挖掘数据流中ｓ近似频繁项，动态地维护１ｅ个样本，空间复杂度为／其
Ｍｉｉｒｑｎｔｍｓｏｔｅｍａａｎｎｇｆｅｕｅｔｉｅｎｓｒａｄｔ
ＴＵＣＨＥＮｉｇ ’ Ｌｉ．Ｌｎ
（．ＤｐｒｅｔｆＣｍｕｅＳｉｅｉｇｉｏｅｈｉＩｓｔｔｉｎｙｎＪａｇａ２４０，Ｃｉａ１ｅａｔｎｏｏｐｔｃｎ，ＪａｙｎＰｄｃｎｎｔｕ，Ｊａｇｉｉｎｓ１４５ｈｎ；ｍｒｅｃｎｃｉｅ
０（）平均每个数据项的处理时间为０（）此外，ｓ，１。算法返
回的结果频率误差界限为８１一ｓ＋）通过滑动窗口技术（Ｎ，发现频繁项。ｅ和Ｔｎ ¨ Ｌｅｉｇ提出了一种算法，实现空间复
递的ＩＰ数据包、电信公司的通话记录、传感器网络中的监测信号、股票价格波动的数据等。与传统的数据库不同，据流数产生的数据无法全部保存在内存中，并且数据流上的查询具有很强的实时性要求。因此对在线数据分析和挖掘提出了新的挑战。数据流上的频繁项挖掘已经成为数据挖掘领域中的
０１．ＡｌｔｏｘｅｉｎｓｓｏｈｔＳ —ＯＮｕｐｒｒｓｏｈｒｍｔｏｓｉｅｍｓｏｈｃｕａｙｍｍｏｙ（）ｏｆｅｐｒｍｅｔｈｗｔａＷＣＵＴｏｔｅｆｍｔｅｅｈｄｎｔｒｆｔｅａｃｒｃ，ｅｒｏ
３．南京大学计算机软件新技术国家重点实验室，南京２０９）１０３
（ｚｔｌｙｈｏｃｍ．ｎｙｕｉａｏ．ｏｖ）ｕ＠
摘
要：出了一种流数据上的频繁项挖掘算法（ＷＯＮ３＇
据流频繁项。给定的误差ｓＳＣＵＴ可以在Ｏｇ）空间复杂度下，测误差在ｓ，Ｗ—ＯＮ（检ｎ内的数据流频繁项，每个数对
２ｅａｔｅｔｏｐｔｃｎｅａｇｈａＵｉｒｔ，Ｙｎｚｏｉｎｓ２０９ｈｎ；．ＤｐｒｎｏＣｍｕｒＳｉｃ，ＹｎｚｏｎｖｓｙａｇｈｕＪａｇｕ２５０，Ｃｉａｍｆｅｅｅｉ３ｔｔＫｅａｏａｏｙｏｏｅｓｆｗｒＴｃｎｌｙａｊｇＵｉｅｓｙａｊｎｉｎｓ１０３ｈｎ）．ＳａｅｙＬｂｒｔｒｆｒｖｌｏｔａｅｅｈｏｏ，ＮｎｉｎｖｒｔＮｇｎｉ，ＮｎｉｇＪａｇｕ２０９，Ｃｉａ