P2P网络中最大频繁项集挖掘算法研究

合集下载

金融交易数据挖掘中的频繁模式挖掘算法研究

金融交易数据挖掘中的频繁模式挖掘算法研究摘要：在金融交易数据挖掘过程中，频繁模式挖掘算法是一种重要的数据分析技术。

本文将深入探讨频繁模式挖掘算法在金融交易数据分析中的应用，并对几种常用的频繁模式挖掘算法进行研究和比较。

通过对金融交易数据中的频繁模式进行挖掘，可以帮助金融机构识别交易模式和行为特征，从而辅助决策和风险管理。

1. 引言金融交易数据是大数据时代的重要资源之一，其中包含了大量有价值的信息。

频繁模式挖掘算法是一种有效的数据分析技术，可用于从交易数据中挖掘出重复出现的模式和规律。

通过挖掘频繁模式，金融机构可以发现交易行为的规律，从而更好地理解市场情况和客户行为特征。

2. 相关工作频繁模式挖掘算法广泛应用于各个领域，包括市场篮子分析、网络流量分析、生物信息学等。

其中，Apriori算法是最经典的频繁模式挖掘算法之一。

Apriori算法通过逐层搜索交易数据集来发现频繁项集，但其存在大量的候选集生成和子集的重复计算问题。

为了解决这些问题，研究学者提出了多种改进的频繁模式挖掘算法，如FP-Growth算法、ECLAT算法等。

3. 频繁模式挖掘算法的应用实例金融交易数据中的频繁模式挖掘可用于多个应用场景，如欺诈检测、客户分群、市场策略等。

以欺诈检测为例，频繁模式挖掘算法可以挖掘出不同类型的欺诈交易模式，帮助金融机构及时发现和预防欺诈行为。

另外，通过挖掘客户交易数据中的频繁模式，金融机构可以将客户进行分群，并为不同群体设计个性化的金融产品和服务。

此外，频繁模式挖掘还可以用于市场策略的制定和优化决策，以提高交易效益和风险管理能力。

4. 频繁模式挖掘算法的比较和选择根据研究需求和数据特点，选择适合的频繁模式挖掘算法对于提高挖掘效果和效率至关重要。

在比较常用的频繁模式挖掘算法时，需考虑算法的挖掘速度、内存占用、支持度计算方法等因素。

FP-Growth算法由于其高效的挖掘速度和内存占用优势，在金融交易数据挖掘中得到了广泛应用。

一种最大频繁模式的快速挖掘算法

Ａｂｔａｔｓｒｃ：Ｍｉｉｇｍａｉｍｒｑｅｔａｔｒｓｓａｋｙｐｏｌｍａａｍｉｉｇｒｓａｃ，ＩｉｐｐｒｓａｇｒｈＤＭＦｎｎｘｍｕｆｕｎｔｎｅｒｂｅｉｄｔｎｎｅｅｒｈｎห้องสมุดไป่ตู้ｔｓａｅ，ａｆｔｌｏｔｍｅｐｅｉｎｈａｉＰｂｓｄｏｒｆｒｅｆｒｍｉｉｇｍａｉｍｒｑｅｔｐｔｒｓｉｒｐｓｄＰｅｘＴｅｔｒｓｉｆｒｔｎｉｉｈｙｃｍｐｃａｅｎＰｅｘＴｅｏｎｎｘｍｕｆｅｕｎａｔｎｓｐｏｏｅ．ｒｆｒｅｓｅｎｏｍａｉｎａｈｇｌｏａｔｉｅｉｏｏ
候选项集生成一筛选方法，必须耗费大量时间处理规模巨大的
１相关概念
１１最大频繁模式．
候选项集，多次扫描数据库对候选项集进行筛选。随后Ｈｎａ等人提出了Ｆ．ｒｅ和一种基于模式增长的挖掘算法Ｆ－ＰＴｅＰ
维普资讯
・
８６・
计算机应用研究
２００６正
一
种最大频繁模式的快速挖掘算法
王运鹏，胡修林阮幼林，。
（．１华中科技大学电子与信息工程系，湖北武汉４０７；３０４２中国石化江汉油田信息中心，湖北潜江４３２；３１４
ｏｆｍ，ＤＰｍｎｓｒｑｅｔａｅｓｉｄｐｈｆｓｏｄｒｎｉｃｌｉＰｅｘＴｅｙａｊｓｎｏｅｉｆａｏｎｏｅｒＭＦｉｅｅｕｎｔｒｅｔ－ｒｔｒｅａｄｄｅｔｒｆｒｅｂｄｔｇｎｄｎｒｔｎａｄｎｄｆｐｔｎｎｉｒｙｎｉｕｉｏｉｍ

P2P网络中的资源分配与搜索算法研究

P2P网络中的资源分配与搜索算法研究P2P网络，即点对点网络，是一种分布式计算模型，其中参与者同时充当资源的提供者和获取者。

在这个网络中，资源分配和搜索算法的研究被广泛探索，旨在提高网络效率、减少资源消耗并改善用户体验。

资源分配是P2P网络中一个重要而复杂的问题。

该网络是由大量的节点组成，每个节点都具有一定的存储和计算资源。

资源分配算法的目标是合理分配这些资源，并确保在整个网络中达到资源的高效利用。

以下是几种常见的资源分配算法：1. 基于排名的分配算法：该算法根据节点的性能、可用带宽等指标确定节点的排名，然后将资源分配给排名较高的节点。

这种算法可以确保资源被有效地分配给性能较好的节点，提高整个网络的效率。

2. 基于邻居节点的分配算法：该算法根据节点与其邻居节点的关系，例如物理距离、网络拓扑等信息，将资源分配给邻居节点。

这种算法考虑了节点间的局部关系，可以减少消息传输成本，并提高资源获取的效率。

3. 基于信任度的分配算法：该算法根据节点的信任度进行资源分配。

节点的信任度可以通过其他节点的评价或历史行为等信息确定。

该算法能够防止不可信节点获取过多资源，提高整个网络的安全性。

资源分配算法的设计需要综合考虑网络拓扑、节点性能、传输成本和安全性等因素。

因此，通过合理的算法设计，可以优化资源利用并提高P2P网络的性能。

同时，在P2P网络中，搜索算法也是一项关键技术。

搜索算法的目标是快速准确地找到所需的资源。

以下是几种常见的搜索算法：1. 基于关键字的搜索算法：该算法通过关键字匹配进行搜索。

用户可以输入关键字来搜索所需的资源，在网络中找到具有相同或相关关键字的资源。

这种算法是P2P网络中最常用的搜索方式之一。

2. 基于兴趣选择的搜索算法：该算法根据用户的兴趣进行搜索。

用户可以指定自己感兴趣的资源类型或主题，搜索算法会根据用户的兴趣选择相应的资源进行搜索。

这种算法可以提高搜索效率，使用户更容易找到满足需求的资源。

一种新的最大频繁项目集挖掘算法

Ｖｏ．６Ｎｏ１１２．１ＮＯＶ．２０ｏ６
种新的最大频繁项目集挖掘算法
马丽生，邓辉文，齐逸
（．１西南大学计算机与信息科学学院，重庆４０１；．０７５２西南大学逻辑与智能研究中心，重庆４０１）０７５
（ｌＯ＠ＳＵｅｕｃ）ｍｓ０Ｗ．ｄ．ｎｌ
摘
要：大频繁项目集挖掘是数据挖掘领域最重要的基本问题之一，分析已有算法的基础最在
上，出了一种新的挖掘最大频繁项目集的算法，提实验表明该算法在性能上优于已有的同类算法。
ｅｐｅｍｅｔｈｗｈａｈｅａｇｒｔｍｕｐｒｏｍｓｔｕｒｅｇｒｔｍｓｓｈａＡｘｍａｒｑｎｘｒｎｓｓｏｔｔｔｅｎｗｏｈｏｔｅｆｒｈｅｃｒｎｔａｏｈｕｃＭｉｌｉｌｉｓｉｌＦｅｕｅｔｈｅｍｓｔＡｌｏｔｍｒｅｇｒｈｆｉｏ
算法为基础，中Ｐｎｅ—ｅｒｈ和ＭａＭｎｒ是两种典型其ｉｃｒａｃＳｘｉｅ的算法。Ｐｎｅ．ｅｒｉｃｒａｈ利用（）Ｓｃ非频繁项目集的（）调性反单对候选项目集进行剪裁，ｘＭｉｅ采用动态排序的方法进行Ｍａｎｒ
ｔｅａａｙｉｆｔｅｅｉｔｇａｇｒｔｍｓａｎｗａｇｒｈｆｒｍａｉｌｒｑｅｔｉｍｓｔｍｉｉｇｗｓｐｅｅｔ．Ｃｍｐｒｔｅｈｎｌｓｓｏｈｘｓｉｏｈ，ｅｏｔｍｘｍａｆｕｎｔｅｓｎｌｉｌｉｏｅｅｎｎａｒｓｎｅｄｏａａｉｖ

高效频繁模式挖掘算法研究与优化

高效频繁模式挖掘算法研究与优化概述：频繁模式挖掘是数据挖掘领域的一个重要任务，旨在从大规模数据集中发现频繁出现的模式或项集。

这些频繁模式可以帮助我们理解数据集中的关联性，为决策支持、市场分析和资源管理提供支持。

然而，对于大规模数据集，挖掘频繁模式需要耗费大量的计算资源和时间。

因此，研究高效的频繁模式挖掘算法并进行优化是至关重要的。

一、频繁模式挖掘算法的基本原理频繁模式挖掘算法的核心思想是通过扫描数据集，统计每个项集的支持度，并筛选出频繁项集。

常用的频繁模式挖掘算法包括Apriori算法、FP-growth算法和Eclat算法。

1. Apriori算法Apriori算法是一种基于候选生成和剪枝策略的频繁模式挖掘算法。

该算法通过迭代的方式生成候选项集，并利用Apriori性质进行剪枝。

具体而言，Apriori算法首先扫描数据集获取候选1-项集，然后迭代生成候选k-项集，并利用Apriori原理进行剪枝。

最后，计算每个候选项集的支持度，筛选出频繁项集。

2. FP-growth算法FP-growth算法是一种基于前缀树和条件模式基的频繁模式挖掘算法。

该算法通过构建FP树（频繁模式树）来表示数据集。

通过建立FP树，可以快速获取频繁项集及其支持度。

FP-growth算法的主要步骤包括：构建FP树、从FP树中挖掘频繁项集。

3. Eclat算法Eclat算法是一种基于垂直数据格式的频繁模式挖掘算法。

该算法将事务数据库垂直化，对每个项构建条件垂直项目集索引，然后通过交集操作获取频繁项集。

Eclat算法的主要步骤包括：垂直化数据集、构建条件垂直项目集索引、交互操作获取频繁项集。

二、高效频繁模式挖掘算法的优化方法针对大规模数据集的频繁模式挖掘需要解决计算资源消耗大、时间复杂度高的问题，研究者们提出了一系列的优化方法，以提高算法的效率和性能。

1. 基于分布式计算的优化针对大规模数据集，可以将计算任务分布到多个计算节点上进行并行计算，以提高频繁模式挖掘的效率。

P2P网络上的优化搜索算法研究

P2P网络上的优化搜索算法研究随着互联网的普及和发展，P2P（点对点）网络已经成为一种重要的资源共享和传输方式。

P2P网络是一种去中心化的网络模型，它通过连接各种节点，使得用户可以共享和传输信息、文件和资源。

然而，在P2P网络中进行有效的搜索依然是一个挑战，因为网络拓扑的分布性和节点自身的动态性。

因此，对P2P网络上的搜索算法进行优化研究是至关重要的。

优化搜索算法可以提高搜索性能，减少搜索时间，并提供更准确和全面的搜索结果。

本文将讨论P2P网络上的优化搜索算法的研究现状、挑战和解决方案。

首先，P2P网络中的搜索算法需要克服网络拓扑的分布性。

P2P网络由许多对等节点组成，这些节点可能分布在整个网络中。

搜索算法需要确定哪些节点具有所需资源并与之进行通信。

传统的搜索算法如随机搜索和基于邻居的搜索无法有效地解决这个问题。

因此，研究人员提出了许多基于索引和超节点的搜索算法。

这些算法通过建立索引和维护超节点列表来提高搜索效率。

索引可以帮助节点快速确定哪些节点具有所需资源，而超节点列表可以提供更高效的路由选择。

这些优化算法在实际应用中取得了显著的效果。

其次，P2P网络中的搜索算法还需要应对节点自身的动态性。

在P2P网络中，节点的加入和离开是常见的情况。

传统的搜索算法无法有效地处理节点动态变化所引起的问题。

为了解决这个问题，研究人员提出了许多动态扩展的搜索算法。

这些算法通过动态维护邻居列表和路由表来适应节点的动态变化。

一些算法还利用节点之间的信任关系来提高搜索效率。

这些动态扩展的搜索算法能够有效地适应节点的动态变化，提高搜索的准确性和效率。

此外，隐私和安全性也是P2P网络上的搜索算法需要考虑的重要问题。

在搜索过程中，用户需要将自己的搜索请求传递给其他节点，以寻找所需的资源。

然而，这种信息传递可能会引起隐私泄露和数据安全问题。

为了解决这个问题，研究人员提出了许多隐私保护和安全搜索的算法。

这些算法通过加密和匿名化技术来保护用户的隐私和搜索数据的安全。

数据挖掘中频繁模式挖掘算法的使用教程

数据挖掘中频繁模式挖掘算法的使用教程数据挖掘是一种从大量数据中自动发现模式并提取有用信息的过程。

频繁模式挖掘算法是数据挖掘中常用的一种算法，它帮助我们发现数据集中出现频繁的项集或序列，从而揭示数据中潜在的关联性。

本文将介绍一些常用的频繁模式挖掘算法，并详细讨论它们的工作原理和使用方法。

1. Apriori算法Apriori算法是一种经典的频繁模式挖掘算法。

它基于一种称为“先验性质”的思想，通过迭代扫描数据集来发现频繁项集。

具体步骤如下：- 初始化频繁一项集集合，即单个项的集合；- 生成候选项集，并计算其支持度，筛选出频繁项集；- 基于频繁项集生成新的候选项集，重复上述步骤，直到无法继续生成新的候选项集。

Apriori算法的优点是简单易懂，但对大规模数据集的性能较差。

对于大型数据集，效率改进的Apriori改进算法，如FP-Growth算法，可以更快地挖掘频繁项集。

2. FP-Growth算法FP-Growth算法是一种基于频繁模式挖掘的高效算法。

与Apriori算法相比，FP-Growth算法通过构建FP树来表示数据集，避免了多次扫描数据集的开销，从而提升了性能。

具体步骤如下：- 构建FP树，同时记录每个项的频率；- 根据FP树构建条件模式基；- 递归地从条件模式基中构建FP树，并挖掘频繁项集。

FP-Growth算法的优点是在大规模数据集上具有较高的挖掘效率，但它需要占用较大的内存空间。

3. Eclat算法Eclat算法是一种基于集合的频繁模式挖掘算法。

它通过垂直数据格式表示数据集，并使用位图位级运算来计算频繁项集。

具体步骤如下：- 根据事务数据生成垂直数据格式；- 递归地计算出现频繁的项的集合；- 计算交集，生成更长的频繁项集。

Eclat算法的优点是在较小的数据集上表现良好，并且不需要占用大量的内存空间，但它在处理大规模数据集时性能较差。

4. PrefixSpan算法PrefixSpan算法是一种基于序列的频繁模式挖掘算法。

数据挖掘中的频繁模式挖掘算法

数据挖掘中的频繁模式挖掘算法随着互联网和物联网的发展，我们的生活中产生了大量的数据。

如何在这些数据中挖掘出有用的信息，是一个重要的研究领域。

频繁模式挖掘算法是数据挖掘中的一个重要分支，它可以从大量的数据中找到经常同时出现的模式。

在本文中，我们将介绍频繁模式挖掘算法的基本原理和常见的实现方法。

一、什么是频繁模式挖掘算法频繁模式挖掘算法是一种数据挖掘算法，它可以从大量的数据中发现经常同时出现的模式。

比如，在一组购物记录中，如果很多人同时购买了牛奶和面包，那么“牛奶”和“面包”就是一个频繁模式。

频繁模式挖掘算法可以在大量的数据中自动发现这样的频繁模式，从而提供有用的信息。

二、频繁模式挖掘算法的基本原理频繁模式挖掘算法的基本原理是：从大量的数据中找出经常同时出现的模式。

具体来说，它分为两个步骤：第一步是生成候选项集。

候选项集是指可能成为频繁项集的集合。

比如，在一组购物记录中，所有购买过的商品都可以作为候选项集。

生成候选项集的方法有很多种，比较常见的有Apriori算法、FP-growth算法等。

第二步是计算支持度。

支持度是指在所有的记录中，一个项集出现的次数。

比如，在一组购物记录中，如果“牛奶”和“面包”同时出现了100次，而总共有1000条记录，那么它的支持度就是10%。

支持度越大，说明这个项集越常出现，也就越有可能成为频繁项集。

计算支持度的方法有很多种，比较常见的有Apriori算法、FP-growth算法等。

最后，我们把支持度大于某个阈值的项集称为频繁项集。

比如，如果我们设定支持度的阈值为10%，那么所有支持度大于10%的项集都是频繁项集。

频繁项集可以提供有用的信息，比如在购物记录中经常同时出现的商品，或者在医学数据中经常同时出现的症状等等。

三、常见的频繁模式挖掘算法目前，频繁模式挖掘算法有很多种，比较常见的有以下几种：1. Apriori算法：是一种经典的频繁模式挖掘算法，也是最早提出的。

Apriori算法的核心思想是使用“先验知识”来减少搜索空间。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

v） / βL P（ u， v ） = α e － d（ u，
说明：算法 1 中 tail（ C ）表示按照某种顺序排在项集 C 后频繁项集的集合； MFI 为最大频繁项集集合； C 和 MFI 面的 1的初始值均为空集。 2. 2 静态网络环境下的最大频繁项集挖掘算法静态 P2P 网络环境下，最大频繁项集的挖掘如算法 2 所示。因为 P2P 网络中所有节点的地位相同，故只给出某个节点 N i 的运行情况，其他节点类似。算法 2 静态网络环境中的 P2PMaxSet 算法
频繁项集（模式）挖掘是数据挖掘研究中的一个重要内容，在关联规则、序列模式等方面有着广泛的应用
［1 ］
信开销，解决了第二个问题。为适应 P2P 网络的动态性，还讨论了算法的调整策略。实验结果表明，本文所提出的算法是快速和有效的。
。随着网
络技术的发展，数据趋向于以分布式的方式进行存储。特别是
第 27 卷第 9 期 2010 年 9 月
计算机应用研究 Application Research of Computers
Vol． 27 No． 9 Sep． 2010
P2P 网络中最大频繁项集挖掘算法研究 *
1 邓忠军，宋 2 1 3 威，郑雪峰，王少杰
（ 1．北京科技大学信息工程学院，北京 100083 ； 2．北方工业大学信息工程学院，北京 100144 ； 3．国家信息技术安全研究中心，北京 100094 ）摘要：为解决 P2P 网络频繁项集挖掘中存在的全体频繁项集数量过多和网络通信开销较大这两个问题，提出
［2 ］大规模 P2P 网络的兴起，为传统的频繁项集挖掘提出了新
的挑战。目前 P2P 网络中数据挖掘的主要工作集中于聚类算法人
［3 ， 4 ］［5 ］
1
1. 1
问题描述
最大频繁项集 i2 ， …， i m ｝为一组由 m 个不同的项（ item）组成设 IS = ｛ i1 ，
，而 P2P 网络中频繁项集的挖掘则鲜有研究。 Wolff 等
最先提出了 P2P 网络中的关联规则挖掘算法，然而，他们
［6 ， 7 ］
的方法基于多数投票策略直接挖掘关联规则，省去了频繁项集挖掘的过程。与分布式频繁项集挖掘 P2P 网络下的不同，挖掘往往需要考虑成百上千个分布于不同节点的数据库。因此，在 P2P 网络中挖掘频繁项集就难免要考虑如下两个关键因素： a）挖掘什么样的项集，众所周知，传统的频繁项集挖掘在 P2P 网络中更是如此； b ）最主要的问题之一就是结果过多，通信问题，节点间的消息传递会造成大量的通信开销。为解决这两个问题，本文提出了一种 P2P 网络中最大频繁项集的挖掘算法。首先，只挖掘远少于全体频繁项集的最大频繁项集
第9 期
1. 2 P2P 网络
邓忠军，等： P2P 网络中最大频繁项集挖掘算法研究
（ 13 ） goto （ 2 ）；（ 14 ） else 节点 N i 进入终止状态；
· 3491·
N i 上的数据 X i 令 N i （ 1 ≤i≤n ）为 P2P 网络中的节点， X， X 为整个 P2P 网络中所有数据称做 N i 上的局部数据；其中，的集合，称做全局数据。局部数据 X i （ 1 ≤ i ≤ n）与整个 P2P 网络上的全局数据 X 满足如下两个条件： a ） X1 ∪ X2 ∪ … ∪ X n = X； b）对 i ≠ j， X i ∩X j = 。每个与节点 N i 直接相连的节点称做 N i 的邻居节点，记做 δ（ N i ）。这样整个 P2P 网络可以看做是一个具有 n 个节点的无向连接图，每个节点都有一个 ID，通过一条边与它的邻居节点相连。为方便讨论，作如下假定： a）在任意时刻，每个节点 N i 的邻居节点的集合 δ （ N i ）是已知的。 b）网络中的消息传递是可靠的。 N i 向 N j （ N j ∈ δ （ N i ））所传递的消息均能确保到达，除非节点 N j 已被删除，或者不再是 N i 的邻居。本文所提出的 P2PMaxSet 算法旨在高效地从分布于不同最大程度地达到与在单节点的局部数据中发现最大频繁项集，一计算机上对全局数据挖掘最大频繁项集相同的效果。
来解决结果过多的问题。其次，网络节点只需与
其直接相邻的邻居节点进行数据交换，从而节省了大量网络通
收稿日期： 2010-02-04 ；修回日期： 2010-03-29 （ 2009D005002000009 ）
“863 ” 基金项目：国家计划资助项目（ 2007AA012474 ）；北京市优秀人才培养资助项目
作者简介：邓忠军（ 1963-），男，内蒙古赤峰人，高级工程师，博士，主要研究方向为网络安全、数据挖掘（ deng． zj@ 163． com）；宋威（ 1980-），男，讲师，博士，主要研究方向为数据挖掘；郑雪峰（ 1951-），男，教授，博导，主要研究方向为计算机网络、信息安全；王少杰（ 1976-），男，工程师，博士，主要研究方向为计算机网络．
Research on maximal frequent itemset mining algorithm over P2P network
DENG Zhong-jun1 ，SONG Wei2 ，ZHENG Xue-feng1 ，WANG Shao-jie3
（ 1 ． School of Information Engineering，University of Science ＆ Technology Beijing，Beijing 100083 ，China； 2 ． College of Information Engineering，North China University of Technology，Beijing 100144 ，China； 3 ． National Research Center for Information Technology Security，Beijing 100094 ，China）
2
2. 1
P2P 网络中最大频繁项集挖掘算法
最大频繁项集挖掘算法为方便说明，本节给出每个节点内部挖掘最大频繁项集的
算法。算法 1
maxSet（ C， MFI） if （（ sup（ C∪tail（ C）） ≥min_sup） and MFI 中不存在 C∪tail（ C）的超集） then C∪tail（ C） →MFI； return for tail（ C）中的每个 1频繁项集 i do C n = C∪i； if （ sup（ C n ） ≥min_sup） then MFI） maxSet（ C n ， if （ tail（ C） == ） the合。集合 XIS 称做项集（ itemset），称为 k项集。记 TDB 为事务（ transaction ） T 的集合，这里事务 T 是项集，且 TIS。定义 1 TDB 中若非空事务数据库 TDB 的总事务数为 N，则 X 的支持度为 S / N，记为 sup 包含项集 X 的事务数为 S，（ X）。如果 sup（ X） ≥ min_sup，其中 min_sup 为给定的最小支则 X 是频繁项集。持度阈值，定义 2 性质 1 对项集 M，若不存在项集 X 使得 M X，且 sup Apriori 性质［1］。频繁项集的所有非空子集也是（ X） ≥min_sup，则频繁项集 M 是最大频繁项集。频繁的；非频繁项集的所有超集也是非频繁的。
Abstract： The obstacles mainly lie in numerous frequent itemsets and huge communication cost． To solve the two problems， this paper proposed a maximal itemset mining algorithm P2PMaxSet． Firstly，only considered maximal itemset，which reduced the number of itemsets greatly． Secondly，only interchanged mining results between neighbor nodes，which saved communication cost． Finally， discussed adjust strategies for dynamic environment． Experimental results show P2PMaxSet is not only accurate but also with lower communication cost． Key words： data mining； P2P network； maximal frequent itemset； association rule
2. 3
动态网络环境下算法的调整由于 P2P 网络是动态变化的，本节分如下三种情况对算
法 2 进行调整。 1 ）节点失效若一个节点 N j 离开网络，其邻居节点 δ （ N j ）将会发现这一变化；同样，若某一条边出现故障，则与该边相连的两个节点将检测到这一变化。具体处理步骤如下： a ）若 N i 与某节点 N j 之间相连的链路需要拆除，则这两者之间的邻居关系就不存在 N i 需要把 N j 从 δ（ N i ）中删除， N j 也把 N i 从 δ （ N j ）中删除；了， b）若某节点 N j 离开网络时，其直接邻居节点 N i 通过查看 δ （ N i ）发现； c）若节点 N j ∈δ （ N i ）离开网络，则 N j 的邻居节点 δ （ N j ）成为 N i 新的邻居节点，并把各自的局部最大频繁项集发给节点 N i 。 2 ）增加节点其处理过程如下： a ） N j 内的若网络中增加了一个节点 N j ，数据执行算法 1 得到局部最大频繁项集 MFI j ； b ）按照算法 2 执行以下的流程。 3 ）节点数据发生变化其处理过程如当网络中某个节点 N i 的数据发生变化时，下： a）若 N i 处于非终止状态，则不需要改变方法； b）若 N i 处于则需要把 N i 重新激活，并执行算法 1 重新计算终止状态， MFI i ； c）若 N i 的邻居节点处于终止状态，则需要激活并且按照增加节点的过程进行相应的处理。