流式数据上关联规则挖掘研究综述

合集下载

数据挖掘中的关联规则与序列模式挖掘技术

数据挖掘中的关联规则与序列模式挖掘技术随着互联网和大数据技术的发展，数据挖掘技术在各个领域得到了广泛的应用。

其中，关联规则与序列模式挖掘技术是数据挖掘中的两个重要内容。

本文将介绍关联规则与序列模式挖掘技术的基本概念、应用场景以及挖掘方法，以帮助读者更好地理解数据挖掘中的这两种技术。

一、关联规则挖掘技术1.1基本概念关联规则挖掘是一种发现数据集中变量之间相互关联的方法，其目标是找出一组频繁出现在一起的物品或属性。

在关联规则挖掘中，我们可以使用频繁项集和支持度、置信度等指标来描述变量之间的关联规则。

1.2应用场景关联规则挖掘技术在市场营销、交叉销售、协同过滤等领域有着广泛的应用。

例如，在电商平台中，可以利用关联规则挖掘技术来分析用户购买行为，从而推荐相关商品或提供个性化的服务。

在医疗领域，可以利用关联规则挖掘技术来发现疾病之间的关联规律，从而辅助医生提出诊断和治疗方案。

1.3挖掘方法常见的关联规则挖掘方法包括Apriori算法、FP-growth算法等。

Apriori算法是一种基于候选集生成的方法，其基本思想是先找出频繁1项集，然后利用频繁1项集生成频繁2项集，再利用频繁2项集生成频繁3项集，依次类推。

FP-growth算法是一种基于条件模式基与频繁模式树的方法，其基本思想是利用频繁模式树来存储数据集，并通过条件模式基来高效地挖掘频繁项集。

二、序列模式挖掘技术2.1基本概念序列模式挖掘是一种发现数据序列中频繁出现的模式的方法，其目标是找出一组经常出现在一起的事件序列。

在序列模式挖掘中，我们可以使用频繁序列、支持度、长度等指标来描述事件序列之间的模式。

2.2应用场景序列模式挖掘技术在时间序列分析、生产流程优化、网络行为分析等领域有着广泛的应用。

例如，在生产流程中，可以利用序列模式挖掘技术来发现生产线上的优化模式，从而提高生产效率和节约成本。

在网络行为分析中，可以利用序列模式挖掘技术来发现用户在互联网上的行为模式，从而改善用户体验和提供个性化服务。

大数据分析中的关联规则挖掘算法研究

大数据分析中的关联规则挖掘算法研究第一章引言随着信息技术的迅猛发展，大数据分析逐渐成为一个热门话题。

大数据分析提供了对海量数据进行挖掘和分析的能力，能够揭示数据背后的关联和规律。

其中，关联规则挖掘算法作为一种重要的数据分析技术，在各个领域都发挥着重要作用。

本文将对大数据分析中的关联规则挖掘算法进行研究。

第二章关联规则挖掘概述2.1 关联规则挖掘的定义和应用关联规则挖掘是一种数据挖掘技术，用于发现数据集中的频繁项集和关联规则。

频繁项集是指在数据集中频繁出现的项的集合，而关联规则指的是项集之间的关联关系。

关联规则挖掘可以应用于市场篮子分析、网络流量分析、医药研究等领域。

2.2 关联规则挖掘的基本原理关联规则挖掘的基本原理包括支持度和置信度。

支持度是指某个项集在数据集中出现的频率，而置信度是指某个规则在项集中出现的概率。

关联规则挖掘通过设置支持度和置信度阈值，找出满足条件的频繁项集和关联规则。

第三章关联规则挖掘算法3.1 Apriori算法Apriori算法是一种经典的关联规则挖掘算法。

该算法通过迭代的方式搜索频繁项集，从而找到关联规则。

Apriori算法的核心思想是利用频繁项集的性质，通过剪枝操作，降低搜索空间，提高算法效率。

3.2 FP-growth算法FP-growth算法是一种基于频繁模式树的关联规则挖掘算法。

该算法通过构建频繁模式树，将数据集压缩至一个频繁模式树，从而提高算法的效率。

FP-growth算法不需要产生候选集，避免了候选集生成的开销，使得算法更加高效。

3.3 Eclat算法Eclat算法是一种基于垂直数据格式的关联规则挖掘算法。

该算法将事务数据集表示为一个垂直数据格式，通过递归的方式搜索频繁项集。

Eclat算法可以减少计算的开销，提高算法的效率。

第四章关联规则挖掘算法的性能评估4.1 支持度和置信度的选取在进行关联规则挖掘时，支持度和置信度的选取对算法的性能有着重要影响。

过高的支持度和置信度将导致挖掘结果过少，而过低的支持度和置信度将导致挖掘结果过多。

大数据分析中的关联规则挖掘技术详解

大数据分析中的关联规则挖掘技术详解在大数据时代，海量的数据对于企业和组织来说是一项无可估量的宝藏。

然而，这些数据本身并没有带来价值，而是需要通过分析和挖掘才能发现其中的潜在关联和规律。

关联规则挖掘技术正是为了解决这个问题而产生的。

关联规则挖掘技术是一种用于发现数据集中项集之间的相关性的数据科学技术。

它可以帮助我们识别出频繁出现在一起的事物，并根据这些关联规则提供决策支持和业务洞察。

其应用范围广泛，包括市场分析、推荐系统、医疗诊断等领域。

关联规则挖掘的基本概念是频繁项集和关联规则。

频繁项集是指在数据集中经常同时出现的项的集合。

例如，一个超市的购物数据中，经常一起出现的商品就可以构成一个频繁项集。

而关联规则则是频繁项集中项之间的关联关系。

例如，经常购买尿布的顾客也经常购买啤酒。

这条规则可以用“尿布->啤酒”的形式表示，其中箭头表示了两者之间的依赖关系。

实际上，关联规则并不仅仅局限于两个项之间的关系，而可以包含多个项。

例如，“尿布->啤酒->零食”就是一个包含三个项的关联规则。

关联规则一般有两个重要的度量指标，即支持度和置信度。

支持度用于衡量关联规则的频繁程度，而置信度用于衡量关联规则的可信程度。

常用的挖掘算法有Apriori和FP-growth。

关联规则挖掘技术在实际应用中有着广泛的价值。

首先，它可以帮助企业进行市场分析和销售策略制定。

通过分析顾客购买记录，可以发现潜在的关联规则，从而推测出顾客的需求和购买习惯。

根据这些规则，企业可以制定相应的促销活动和营销策略，提高销售额和客户满意度。

其次，关联规则挖掘技术在推荐系统中也有着重要的应用。

通过分析用户的历史行为和购买记录，可以挖掘出用户之间的潜在关联规则。

例如，在电商网站中，如果一个用户经常购买书籍和电子产品，那么可以向该用户推荐相关的产品。

这种个性化推荐不仅可以提高用户的购物体验，还可以增加网站的用户粘性和销售额。

此外，关联规则挖掘技术还可以应用于医疗诊断领域。

大数据分析中的关联规则挖掘研究

大数据分析中的关联规则挖掘研究随着互联网的发展和人们对数据分析的需求增加，大数据分析技术已经成为了当前应用最广泛的一种数据分析方法，其中关联规则挖掘技术是大数据分析领域中的一种常见方法。

关联规则挖掘是指在一组数据中找出相互之间存在关联性的规则，它是数据挖掘中的一个重要分支，通过挖掘关联规则，我们能够发现事物之间的内在联系，揭示隐含的知识和规律，从而为有效的决策和判断提供支持。

在实际的应用中，关联规则挖掘被广泛应用于市场营销、推荐系统、生物信息学、网络安全等领域。

关联规则挖掘技术中最关键的部分就是频繁项集的挖掘，频繁项集是指在一组事务数据中经常出现的项的集合。

在这个过程中，我们需要对数据进行预处理、筛选和过滤，得到频繁项集，再通过关联规则算法挖掘出哪些项集之间有关联性。

目前最常用的关联规则发现算法是Apriori算法，该算法的核心思想是利用先验信息，通过迭代的方式找到频繁项集。

在实际的应用中，我们需要根据不同的数据类型和应用需求来选择不同的关联规则挖掘算法。

例如，对于图像数据、时间序列数据等不同类型的数据，需要使用不同的数据预处理手段和算法来进行关联规则挖掘。

此外，在数据采集和预处理过程中，我们还需要注意数据的质量问题，避免对数据造成误判和误解。

除了关联规则挖掘技术之外，还有一些辅助工具和技术可以用来提高关联规则挖掘的效率和准确率，例如可视化分析、聚类分析、文本分析等技术。

这些技术可以帮助我们更好地理解数据，并从中挖掘出更多的有效信息和规律。

总之，关联规则挖掘技术是大数据分析领域中的一个非常重要的工具和方法，它可以帮助我们发现数据中的内在联系和规律，提高决策的准确性和效率。

在应用过程中，我们需要根据具体的应用场景和数据类型选择不同的算法和技术，并注意数据质量和有效性问题。

未来，随着技术的不断发展和应用领域的扩大，关联规则挖掘技术将会继续发挥着重要的作用。

流数据挖掘综述

博士生 , 研究方向为流数据金项目时空数据库的关键技术研究与实验 ( A BA 048) 的资助。孙玉芬类分析 ; 卢炎生教授 , 博导 , 研究方向为特种数据库、数据挖掘和软件测试。
1
在这 3 种模型中 , T urnstile 是最具一般性的数据流模型 , 其适用范围最广 , 也最难处理。流数据分类与聚类通常使用的是时序模型 , 它们将数据流中的每个数据项看作一个独立的对象。若将 A [ j ] 记为信号 j 出现的次数 , 则流数据频繁模式挖掘通常使用的是 Cash R eg ister 模型 , 只允许数据的插入。也有算法研究了同时存在数据插入和删除时的流数据频繁模式挖掘问题。此时 , 算法应用的是数据流的 T urnstile 模型。由于数据流是一个长期、动态的过程 , 部分算法在处理数据流时并不是将所有的数据流数据作为处理对象 , 而是根据应用需求选取某个时间范围内的数据进行处理。按算法处理数据流时所选取的时序范围 , 数据流模型可分为以下几类 [ 9] : ( 1) 快照模型 ( snapshot mo del) : 处理数据的范围限制在两个预定义的时间戳之间。 ( 2) 界标模型 ( landmar k model) : 处理数据的范围从某一个已知的初始时间点到当前时间点为止。 ( 3) 滑动窗口模型 ( sliding w indo w model) : 处理数据的范围由某个固定大小的滑动窗口确定 , 此滑动窗口的终点永远为当前时刻。其中 , 滑动窗口的大小可以由一个时间区间定义 , 也可以由窗口所包含的数据项数目定义。在这 3 种模型中 , 界标模型和滑动窗口模型是采用得比较多的模型。界标模型通常将数据流的起始点作为数据处理的初始时间点。此时 , 算法对数据流中所有数据进行处理 , 数据流上只存在插入操作。在滑动窗口模型中 , 窗口随着数据的流入向前滑动 , 窗口中存在数据的插入和删除。滑动窗口模型非常适用于只要求对最近时间段内的数据进行处理的应用。

关联规则挖掘算法的研究与应用

关联规则挖掘算法的研究与应用引言：关联规则挖掘算法作为数据挖掘领域的重要工具之一，在商业、医疗等领域有着广泛的应用。

通过挖掘数据集中的关联规则，可以发现数据之间的潜在关联关系，为决策提供支持与指导。

本文将对关联规则挖掘算法的研究和应用进行探讨，并分析其在实际问题中的应用效果。

一、关联规则挖掘算法的基本原理关联规则挖掘算法是通过寻找数据集中的频繁项集和关联规则来揭示数据之间的相关性。

算法的基本原理包括：支持度和置信度的计算、频繁项集的挖掘和关联规则的生成。

1. 支持度和置信度的计算：支持度表示一个项集在整个数据集中出现的频率，而置信度表示一个关联规则的可信度。

通过计算支持度和置信度，可以筛选出具有一定频率和可信度的项集和关联规则。

2. 频繁项集的挖掘：频繁项集是指在数据集中出现频率达到预定义阈值的项集。

挖掘频繁项集的常用算法有Apriori算法、FP-growth算法等。

Apriori算法是一种基于逐层搜索的算法，在每一层中利用候选项集生成频繁项集。

而FP-growth算法是一种基于树结构的算法，通过构建FP树和挖掘频繁模式来实现。

3. 关联规则的生成：在挖掘到频繁项集之后，可以利用这些频繁项集生成关联规则。

关联规则的生成常采用Apriori原理，即从频繁项集中根据最小置信度阈值生成关联规则。

二、关联规则挖掘算法的研究进展随着数据挖掘技术的发展，关联规则挖掘算法也得到了不断的改进与扩展。

研究者们提出了许多新的算法和改进方法，以提高关联规则的挖掘效果。

1. 改进的关联规则挖掘算法：针对传统算法在挖掘大规模数据时效率低下的问题，研究者们提出了一些改进的算法。

例如，有基于GPU加速的算法、并行化的算法以及基于增量挖掘的算法等。

这些算法通过利用硬件加速和并行计算技术，可以大幅提升挖掘速度。

2. 多维度关联规则挖掘：除了在单一维度上挖掘关联规则，研究者们还尝试在多维度上进行关联规则的挖掘。

多维关联规则挖掘算法可以同时挖掘多个维度中的关联规则，从而发现更加丰富和准确的关联关系。

关联规则挖掘Apriori算法研究综述

未来的发展趋势进行了预测和展望。
关键词：关联规则；海量数据；算法优化；发展趋势中图分类号：Ｐ１Ｔ３１文献标志码：Ａ文章编号：０６８２（００ — — ３１０ — ２８２１）９１０２１
ＡｒｖｅｅｉｗｏｓｏｉｔｖｒｅｍｉｎｇＡｐｒｏｉｌｒｔｆａｓｃａｉｅｕｌｎｉｉｒａｇｏｉｈｍ
ｆｕｅｅｅｏｍｅｔａｅｆｒｃｓｅｕｔｒｄｖｌｐｎｒｏｅａｔｄ．
Ｋｅｒｓａｓｃａｉｅｒｌｓ；ｍａｓｖａａ；ｏｔｉａｉｎ；ｄｖｌｐｎａｒｎｓｙｗｏｄ：ｓｏｉｔｖｕｅｓｉｅｄｔｐｉｚｔｍｏｅｅｏｍｅｔｌｔｅｄ
Ａｂｓｒｃ：Ｔｈａｓｃａｉｌｉｉｇｅｈｉｕｅｓａｉｏｔｎｅｈｑｅｎｄａａｍｉｉｇｒｓａｃ．ＡｐｉｒｌｏｉｍｉｌｓｉａｔａｔｅｓｏｉｔｖｅｒｅｍｎｎｔｃｎｑｉｎｍｐｒａｔｔｃｎｉｕｉｔｎｎｅｅｒｈｏｒｏｉｇｒｔａｈｓａｃａｓｃｌａｇｒｔｍｏａｓｃａｉｅｕｌｓＨｏｌｏｈｉｆｓｏｉｔｒｅ．ｖｗｔｄｇｕｔｒｌｓｆｈｅｓｏｉｔｄａａｅｆｏｏｉｏｔｈｅｕｅｏｔａｓｃａｅｄｔｓｔｒｍｔｅａａａｅｎｈＩｄｖｅｏｍｅｔｈｄｔｂｓｉｔｅＴｅｌｐｎｐｏｅｓｓｍｐｒａｔｒｃｓｉｉｏｔｎｗｉｉｃｅｓｎｏｍａｓｖｄｔｃｌｅｔｏａｄｔｒｇ．ＩｔｉｐｐｅｈｐｉｃｐｅａｄｐｉｚｔｏｉｅｏｈｔｎｒａｉｇｆｓｉｅａａｏｌｃｉｎｎｓｏａｅｎｈｓａｒｔｅｒｎｉｌｓｎｏｔｍｉａｉｎｄａｆＡｐｉｒａｇｒｔｍａｅｉｃｓｅａｄｅｅａｃａｓｃｌｐｉｉａｉｎｌｏｉｍｓｒａａｙｅａｔｅａｅｉ．Ｆｉａｌｔｅｒｎｓｆｒｏｉｌｏｈｉｒｄｓｕｓｄｎｓｖｒｌｌｓｉａｏｔｚｔｏａｇｒｔｍｈａｅｎｌｚｄｔｈｓｍｔｍｅｎｌｙｈｔｅｄｏ

大数据分析中的关联规则挖掘技术综述

大数据分析中的关联规则挖掘技术综述摘要：随着大数据时代的到来，企业和组织面临着海量数据的挑战。

为了从大数据中发现有价值的信息和知识，关联规则挖掘技术应运而生。

本文对大数据分析中的关联规则挖掘技术进行了综述，包括关联规则挖掘的基本概念、算法原理以及应用领域。

通过理解和掌握这些技术，企业和组织可以更好地利用大数据分析提供的洞察力，并在决策和业务中获得竞争优势。

1. 引言在大数据时代，人们面临着处理和分析海量数据的挑战。

大数据分析成为了企业和组织获取有价值信息和知识的重要手段。

关联规则挖掘技术是大数据分析中的一项关键技术，它可以帮助人们发现数据中隐藏的关联关系和模式。

本文将对关联规则挖掘技术进行综述，旨在提供关联规则挖掘技术在大数据分析中的应用价值和工作原理。

2. 关联规则挖掘的基本概念关联规则是在大数据分析中用于描述数据项之间的关联关系的一种方法。

关联规则通常采用“A -> B”的形式，表示前项A与后项B之间存在一定的关联性。

关联规则的两个重要指标是支持度（support）和置信度（confidence）。

支持度表示规则在数据集中出现的频率，而置信度表示规则的可靠性。

3. 关联规则挖掘的算法原理在大数据分析中，有许多关联规则挖掘算法可供选择。

其中最常用的算法包括Apriori算法、FP-growth算法和ECLAT算法。

Apriori算法是一种基于候选项生成和剪枝的算法，它通过迭代生成频繁项集来找到关联规则。

FP-growth算法是一种基于前缀树的频繁模式挖掘算法，它通过构建频繁模式树来发现频繁项集。

ECLAT算法是一种基于垂直数据存储格式的关联规则挖掘算法，它可以有效地处理高维数据。

4. 大数据分析中的关联规则挖掘应用关联规则挖掘技术在大数据分析中有广泛的应用。

其中之一是市场篮子分析，通过挖掘超市购物篮中不同商品之间的关联规则，可以帮助超市实现精准营销和商品推荐。

另一个应用是网络流量分析，通过关联规则挖掘可以发现网络中的异常行为和潜在威胁。

关联规则挖掘算法在数据分析中的应用研究

关联规则挖掘算法在数据分析中的应用研究随着大数据和人工智能的发展，数据分析成为了越来越重要的工作。

而关联规则挖掘算法则是其中的一种重要工具。

本文将探讨关联规则挖掘算法的基本原理、优缺点以及在数据分析中的具体应用。

一、关联规则挖掘算法的基本原理关联规则挖掘算法的基本原理是发现数据集中不同项之间的相关性，这些项可以是产品、服务、甚至网站的不同部分等。

关联规则挖掘算法的目的是发现这些项之间可能存在的关联关系，比如一些产品经常一起购买，或者一些顾客经常同时购买某些产品等。

关联规则挖掘算法的基本思想是找到频繁项集，即一些项同时出现的频率超过一定阈值的集合，然后进一步挖掘这些项之间的关联规则。

以购物者购买行为为例，频繁项集可能是{啤酒, 薯片, 肉干, 可乐}，进一步挖掘可以得到关联规则“啤酒和薯片经常一起购买”。

二、关联规则挖掘算法的优缺点1.优点（1）简单易懂：关联规则挖掘算法基于频繁项集和关联规则的概念，易于理解和解释。

（2）算法效率高：关联规则挖掘算法采用Apriori算法、FP-growth算法等高效的算法，可以处理大规模数据。

（3）适用范围广：关联规则挖掘算法广泛应用于不同领域，如零售行业、医疗保健、金融服务等。

2.缺点（1）结果存在低置信度问题：由于存在一定的随机性，关联规则挖掘算法的结果可能包含低置信度的规则，需要进一步筛选。

（2）存在问题的数据处理：关联规则挖掘算法要求输入数据为离散的、二元化的数据类型（比如0或1），如果原始数据为连续变量，则需要进行处理。

三、关联规则挖掘算法在数据分析中的应用1.营销分析关联规则挖掘算法可以帮助企业发现客户对产品的偏好和需求，从而进行精准营销。

例如，在连锁超市中，通过分析顾客的购物行为，发现一些产品经常被顾客一起购买，然后推出组合优惠等促销活动，提高销售额。

2.医疗分析关联规则挖掘算法可以用于医疗领域的分析。

例如，可以针对某种疾病的患者群体，分析他们的症状、用药情况等信息，进而挖掘出这些信息与患者预后或治愈相关的关联规则，为医生制定治疗方案提供参考。

大数据挖掘中的关联规则挖掘技术研究

大数据挖掘中的关联规则挖掘技术研究一、背景介绍随着互联网的快速发展、物联网技术的日益普及和物理设备的广泛部署，世界上的数据量正在以惊人的速度快速增长。

在这种大数据时代，如何在数据海洋中寻找价值成为一个挑战。

关联规则挖掘技术正是解决这个问题的一种有效方式。

二、关联规则挖掘技术的概念与基础1. 关联规则挖掘的定义关联规则挖掘是指在大规模数据集中查找项集之间显著关联或相关性的过程。

该过程通常遵循两个阶段：a. 生成候选项集在此阶段，我们要从大规模的数据集中生成可能存在相关性的所有项集。

例如，在购物篮中，任何两种商品之间的交叉可能都是一个项集。

b. 验证和产生关联规则该阶段是验证生成的项集是否是相关的。

当成对的项集之间的相关性得到确定时，就生成了关联规则。

2. Apriori算法Apriori算法是关联规则挖掘的常用算法之一。

其基本思想是通过使用候选集合来推断出其他的关联关系。

在Apriori算法中，所有的项集都在一个频繁项集的过程中找到。

如果成对的项集之间的相关性超过预先设定的阈值，则会形成关联规则。

三、关联规则挖掘技术的应用1. 市场分析商家可以通过关联规则挖掘技术分析客户的购买行为和偏好，了解哪些商品被消费者同时购买，从而根据这些信息进行营销活动。

2. 医疗领域医疗机构可以使用关联规则挖掘技术分析患者的病例信息和治疗结果，得出治疗的最佳方案。

3. 安全领域安全机构可以使用关联规则挖掘技术实现异常检测。

例如，通过分析网络安全事件的相关数据，可以发现与网络攻击有关的异常模式。

四、关联规则挖掘技术的挑战和解决方案1. 大规模数据集解决大规模数据集的挑战，可以采用分布式处理和并行计算的方式。

例如，可以使用MapReduce并行计算框架来处理大数据集。

2. 维度灾难在处理高维数据时，需要消除维度灾难。

可以采用特征选择或特征降维等技术来解决。

3. 数据稀疏性在数据集中，往往会存在大量的数据不相关。

可以使用稀疏矩阵来帮助解决问题。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

· 3202·
计算机应用研究
第 27 卷
则挖掘的方法必须适应其不断变化的数据分布，否则容易引起概念迁移问题
［7 ］
a）界标模型。它是在整个数据流的历史时间域上某个称之为界标的位置到当前这一时间跨度内挖掘所有的频繁项集。很多文献提出的算法是基于这一模型进行的
［8 ， 13 ］
由无限的事务块构成的序列。图 1 为时间的一个事务数据流，窗口下的事务数据块。其中每个元组块关联一个时间窗口［ ak ， bk ］，令 B 是最近的事务块。每个事务块 B 是由一组事
k Bb T1 ， T2 ， …， T m］，这里每个块的事务数不一务构成的集合， ak =［ bn an bk ak
Review of association rules mining in data streams
ZHU Xiao-dong1 ，SHEN Guo-hua2
（ 1 ． Institute of Information Management ＆ Electronic Business，Management School，University of Shanghai for Science ＆ Technology，Shanghai 200093 ，China； 2 ． College of Information Science ＆ Technology，Nanjing University of Aeronautics ＆ Astronautics，Nanjing 210016 ，China）
［14 ， 15 ］
无限和资源有限的矛盾，需要一种适应有限资源的挖掘机制，如考虑内存空间消耗和能量消耗等，否则挖掘结果的精度会降低。
1
频繁项集挖掘算法
关联规则的挖掘分为两个关键步骤：挖掘数据集上的频繁
。这一模型对新旧事务考
适用于老的事务对挖掘结果有影响、但是影响虑不同的权值，随着时间推移减小的应用领域。 c）滑动窗口模型。它在滑动窗口上发现和维持频繁项集。当数据流入时，只有滑动窗口中的一部分数据流被存储和处理
Abstract ： Vast realtime high speed streams data generate upon many engineering fields． Compared with traditional static data ，streams data analysis faces great challenge in terms of resources． Association rules mining in data streams attract much attention due to its significant application in industries． This papr presented related formal definitions of association rules and the basic algorithm for association rules mining in data streams． Based on systematic investigation of association rules mining researches on streams data，analyzed issues and how they were resolved in current literatures． Also discussed the future directions in association rules mining． Key words： data mining； data streams； association rules； frequent itemsets； frequent patterns； knowledge discovery
静态数据相比，流式数据上关联分析面临极大的资源挑战。提出了流式数据上关联规则的形式化定义和基本挖掘算法，系统地回顾了近年来流式数据上关联规则挖掘的研究进展，详细分析了目前挖掘算法研究中存在的主阐述了未来的研究方向。要问题和解决途径，关键词：数据挖掘；数据流；关联规则；频繁项集；频繁模式；知识发现中图分类号： TP311 文献标志码： A 文章编号： 1001-3695 （ 2010 ） 09-3201-05 doi： 10． 3969 / j． issn． 1001-3695． 2010． 09． 001
第 27 卷第 9 期 2010 年 9 月
计算机应用研究 Application Research of Computers
Vol． 27 No． 9 Sep． 2010
流式数据上关联规则挖掘研究综述
1 2 朱小栋，沈国华
*
（ 1．上海理工大学管理学院信息管理与电子商务研究所，上海 200093 ； 2．南京航空航天大学信息科学与技术学院，南京 210016 ）摘要：当前许多工程领域产生大量高速实时的流式数据，基于流式数据的关联规则挖掘应用广泛，与传统的
0
引言
近年来，数据流在金融、股市、电子商务网络交易、无线传
而是数据流处理的输入数据不是固定在磁盘或者存储器上的，连续的、大量的随机出现的数据流； b ）数据流的大小是潜在的无限大的，相比大量的数据流来说，主存或者磁盘空间的容量太小，不能作为数据流的存储器； c ）数据流是不断出现的，因此要不断地对数据流挖掘的结果进行实时更新，即提供连续的这些项目序结果； d）不能控制数据流的项目序列到来的顺序，列是以流的形式随机到来的。数据流的特征要求数据的分析处理是即时或在线的，对数据流的挖掘算法不能像传统数据挖掘那样可以多次扫描数据库，而且数据的存储方式也取代了原有的先存储到数据库中再进行处理的方式，而是要求在有限的内存空间内进行数据挖掘基于传统数据的关联规则算法已不能得到知识或规则。因此，适应数据流。总结流式数据关联规则挖掘面临的挑战如下： a ）对于在线数据流来说，没有足够的空间来存储所有的流式数据，压缩存储空间对于关联规则挖掘来说是必要的； b ）由于数据流连续、无边界、高速的特征，数据流上关联规则挖掘不允许重复扫描整个数据库或者像传统数据挖掘算法那样只要有更新就可以及计算机网络监视等许多领域中的广泛存在，带来数据流挖掘的研究热潮。不仅因为传统的静态数据挖掘技术不能适应这种新的数据形式，而且对数据流进行数据挖掘已成为这些领域的迫切需要。数据流里的数据称为流式数据，是一个随着时间推移不断出现的项目序列，与传统的静态数据相比，数据流是连续、潜在无边界的，通常高速地出现。面向数据流的数据采集与数据挖掘给计算机的存储空间、处理器、能源供应带来新的挑战。关联规则分析是数据挖掘的核心课题，起源于 20 世纪 90 年代
X 在时间窗口［a i ， b i］上是频繁项集，当且仅当 Σ σ （ X ） ≥ s ×
t = ai i | Bb 数据流上频繁项集挖掘问题 a i | 。所以给定一个最小支持度，
bi
规约到使用尽可能少的时间和空间消耗来发现一定时间域上所有的频繁项集。定义 2 关联规则是形如 X→Y 的蕴涵表达式。其中 X ∩ Y = 。关联规则的强度用支持度 s 和置信度 c 度量。
b 集，则称事务 t i 包括项集 X。事务块 B ak 上项集 X 的支持度计 k
的概念模型。这三种数据处理模型有各自的应用领域和特点，具体选择哪一种数据处理模型主要根据应用的需要。同时它们之间可如基于界标模型的算法可以通过对将要到来的数以进行转换，据流增加衰减函数转换到衰减模型，也可以通过在一个特定的滑动窗口上跟踪和处理数据转换到滑动窗口模型。 1. 2 概要数据结构在数据流处理中，由于数据流的数据量远远大于可用的系统内存，系统无法在内存中保存所有遍历过的数据，而与之矛盾的是，数据流查询与挖掘经常会要求读取这些数据。为了避数据流处理系统必须在内存维持一个免代价昂贵的磁盘存取，概要数据结构以保留遍历过的信息。目前，生成数据流概要数据结构的主要技术包括采样变换
［6 ］
与传统的静态数据不同，数据流有许多新的特征： a ）进行
收稿日期： 2010-03-21 ；修回日期： 2010-05-12
基金项目：上海理工大学博士科研启动经费资助项目（ 1D-10-303-002 ）；上海市第三期
本科教育高地建设资助项目 —上海理工大学电子商务交易教育高地子课题；国家自然科学基金资助项目（ 70973079 ）作者简介：朱小栋（ 1981-），男，安徽太湖人，博士，主要研究方向为数据工程与知识工程、流式数据管理（ zhuxd@ usst． edu． cn ）；沈国华（ 1976-），男，副教授，博士，主要研究方向为数据仓库、语义 Web 等．
［1 ］
，与基于统计回归等数学分析方法不同，关联规则的发
［2 ］
现显得隐蔽而难以发现。基于数据流的关联规则挖掘可应用到估计传感器网络中丢失的数据繁模式
［3 ］
、评估互联网数据包的频
［5 ］
、监视制造业数据流。
［4 ］
、发现数据流中的异常事件
等。基于 Web 日志数据流关联规则挖掘可预测失效或产生错误报告
定。挖掘的结果则依赖于数据流在滑动窗口跨度内最近产生的数据。在滑动窗口中所有的事务需要维护，在其超出滑动窗口的范围后要消除它们在当前挖掘结果上的影响。 Zhu 等人
［17 ］
在滑动窗口模型的基础上提出了提取流式数据关联规则
i2 ， …， i d ｝是事务数据流中单个项的集合，定相等。令 I = ｛ i1 ，每个事务 T i 包含的项集是 I 的子集。包括一个以上项的集合如果一个项集包含 k 个项，则称它为 k项集。事务称为项集，的宽度是事务 t i 中出现项的个数，如果项集 X 是事务 t i 的子