数据挖掘算法之关联规则
数据挖掘方法——关联规则(自己整理)

6
四、关联规则的分类
按照不同情况,关联规则可以进行分类如下: 1.基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。 布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值 型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动 态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。 例如:性别=“女”=>职业=“秘书” ,是布尔型关联规则;性别=“女”=>avg(收入)= 2300,涉及的收入是数值类型,所以是一个数值型关联规则。 2.基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。 在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而 在多层的关联规则中,对数据的多层性已经进行了充分的考虑。例如:IBM台式机=>Sony打 印机,是一个细节数据上的单层关联规则;台式机=>Sony打印机,是一个较高层次和细节层 次之间的多层关联规则。 3.基于规则中涉及到的数据的维数,关联规则可以分为单维关联规则和多维关联规则。 在单维的关联规则中,我们只涉及到数据的一个维,如用户购买的物品;而在多维的关联 规则中,要处理的数据将会涉及多个维。换成另一句话,单维关联规则是处理单个属性中的 一些关系;多维关联规则是处理各个属性之间的某些关系。例如:啤酒=>尿布,这条规则 只涉及到用户的购买的物品;性别=“女”=>职业=“秘书”,这条规则就涉及到两个字段 的信息,是两个维上的一条关联规则。
小结:Apriori算法可以分为频繁项集的生成和关联规则的生成两 大步骤;FP-Growth算法可以分成FP-Tree的生成,频繁项集的生成和 关联规则的生成3大步骤。
Copyright © 2009, MANAGEMENT SCIENCE ASSOCIATES, INC.
数据挖掘中的关联规则算法使用方法教程

数据挖掘中的关联规则算法使用方法教程数据挖掘是一门通过从大量数据中发现隐藏模式、关系和信息的技术。
关联规则算法是数据挖掘中的重要工具,用于发现数据集中的关联关系和规律。
本教程将介绍关联规则算法的基本概念、使用方法和常见问题。
一、关联规则算法概述关联规则算法主要用于发现数据集中的关联关系和规律,它可以帮助我们了解事物之间的相互关系,并通过这些关系进行预测和推断。
常见的应用场景包括购物篮分析、市场篮子分析、推荐系统等。
关联规则算法通过分析频繁项集和支持度,找到频繁项集之间的关联规则。
频繁项集是指在数据集中频繁出现的组合项集,支持度是指某个项集在数据集中出现的频率。
通过计算支持度和置信度,可以找到具有较高置信度的关联规则。
常用的关联规则算法包括Apriori算法、FP-Growth算法和Eclat算法。
接下来将逐一介绍这些算法的使用方法。
二、Apriori算法1. Apriori算法基本原理Apriori算法是关联规则算法中最常用的一种算法。
它通过迭代的方式逐步生成频繁项集,然后根据频繁项集生成关联规则。
Apriori算法的基本原理如下:- 生成频繁1项集;- 循环生成候选k项集,并计算支持度;- 剪枝:删除支持度低于阈值的项集,得到k频繁项集;- 生成关联规则,并计算置信度。
2. Apriori算法使用步骤使用Apriori算法进行关联规则挖掘的步骤如下:- 输入数据集:准备一份包含项集的数据集;- 设置支持度和置信度的阈值;- 生成频繁1项集;- 根据频繁1项集生成2频繁项集;- 通过剪枝操作得到k频繁项集;- 根据频繁项集生成关联规则,并计算置信度;- 输出频繁项集和关联规则。
三、FP-Growth算法1. FP-Growth算法基本原理FP-Growth算法是一种高效的关联规则挖掘算法,它通过构建频繁模式树来快速发现频繁项集和关联规则。
FP-Growth算法的基本原理如下:- 构建FP树:将数据集构造成FP树,每个节点表示一个项,每个路径表示一条事务;- 构建条件模式基:从FP树中抽取频繁1项集,并构建条件模式基;- 通过条件模式基递归构建FP树;- 根据FP树生成关联规则。
数据挖掘方法——关联规则(自己整理)

小结:Apriori算法可以分为频繁项集的生成和关联规则的生成两 大步骤;FP-Growth算法可以分成FP-Tree的生成,频繁项集的生成和 关联规则的生成3大步骤。
Copyright © 2009, MANAGEMENT SCIENCE ASSOCIATES, INC.
9
五、关联规则挖掘的相关算法
Copyright © 2009, MANAGEMENT SCIENCE ASSOCIATES, INC.
Copyright © 2009, MANAGEMENT SCIENCE ASSOCIATES, INC.
7
五、关联规则挖掘的相关算法
1.Apriori算法:使用候选项集找频繁项集 Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是 基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关 联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。 该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和 预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小 支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集 合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定 义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被 留下来。为了生成所有频集,使用了递推的方法。 Apriori算法可以产生相对较小的候选项目集,扫描数据库的次数由最大频繁 项目集的项目数决定。因此,该算法适合于最大频繁项目集相对较小的数据集中 的关联规则挖掘问题。 Apriori算法的两大缺点:1.可能产生大量的候选集;2.可能需要重复扫描数据库。
关联分析的目的:找出数据库中隐藏的关联网。一般用Support(支 持度)和Confidence(可信度)两个阀值来度量关联规则的相关性,引入 lift(提高度或兴趣度)、相关性等参数,使得所挖掘的规则更符合需求。
数据挖掘中的关联规则挖掘算法

数据挖掘中的关联规则挖掘算法随着大数据时代的来临,数据挖掘作为一种数据分析的方法,被越来越多的人所重视。
其中关联规则挖掘算法是其中的一种,今天我们就来探讨一下这种算法。
一、什么是关联规则挖掘算法?关联规则挖掘算法是一种在数据中发现变量之间关系的方法,其中涉及两个或两个以上的变量之间的关联。
例如,购物篮分析可以使用该算法,从中分析出消费者经常购买的商品组合。
该算法通常用于市场营销、产品建议等领域。
二、关联规则挖掘算法的优点1. 可以在大规模数据集上进行运算关联规则挖掘算法可以在大规模数据集上运算,因为它不需要预处理数据。
这种优点使得它在实践中非常有用,可以帮助人们更好地了解顾客或消费者行为。
2. 可以快速确定规则该算法可以快速确定规则,因为它可以使用较少的比较来确定规则。
这种快速的计算和确定规则的能力可以减轻与该算法的实施相关的工作。
3. 可以为制定实用的营销策略提供支持关联规则挖掘算法可以为制定实用的营销策略提供支持,因为它可以确定消费者对不同产品或服务的偏好和与之相关的属性。
这种知识可以为决策者制定更好的营销策略提供支持。
三、如何使用关联规则挖掘算法?1. 找到数据首先,为了使用关联规则挖掘算法,需要找到有关变量之间关系的数据。
2. 清洗数据然后需要对数据进行清洗。
清洗数据可以去掉无用的信息,以及错误的信息。
3. 建立模型接着需要建立模型。
建立模型包括确定变量和规则。
此过程可以使用统计学和机器学习的方法。
4. 评估模型一旦模型确定后,需要评估模型。
评估模型的目的是确定模型的准确性和应用范围。
一般使用统计学方法做模型评估。
5. 应用模型最后需要应用模型。
应用模型是指在实际数据中测试模型,判断该模型是否是有效的。
四、总结关联规则挖掘算法是一种用于确定数据集中变量之间关系的算法。
该算法在大规模数据集上拥有出色的表现,可以快速确定规则,在制定营销策略时非常有用。
使用关联规则挖掘算法的过程可以分为找到数据,清洗数据,建立模型,评估模型和应用模型。
《数据挖掘中关联规则算法研究》范文

《数据挖掘中关联规则算法研究》篇一一、引言随着信息技术和大数据时代的飞速发展,数据挖掘技术逐渐成为各个领域研究的重要课题。
关联规则算法作为数据挖掘的核心技术之一,能够从大量数据中提取出有价值的信息和知识。
本文将深入探讨数据挖掘中关联规则算法的研究现状、常用算法及其应用领域。
二、关联规则算法概述关联规则算法是一种在大规模数据集中寻找项集之间有趣关系的技术。
其主要目标是发现数据集中项集之间的关联性或因果结构,从而帮助人们更好地理解和利用数据。
关联规则算法通常用于购物篮分析、用户行为分析、生物信息学等领域。
三、常用关联规则算法1. Apriori算法:Apriori算法是一种经典的关联规则挖掘算法,其核心思想是通过寻找频繁项集来生成关联规则。
Apriori算法通过不断迭代,逐步找出满足最小支持度和最小置信度的规则。
2. FP-Growth算法:FP-Growth算法是一种改进的关联规则挖掘算法,它通过构建频繁模式树(FP-Tree)来发现数据集中的频繁项集和关联规则。
与Apriori算法相比,FP-Growth算法具有更高的效率。
3. Eclat算法:Eclat算法也是一种常用的关联规则挖掘算法,其基本思想是将数据库分割成若干个不相交的子集,然后对每个子集进行局部搜索,最后将局部搜索结果合并得到全局的关联规则。
四、关联规则算法的应用领域1. 购物篮分析:通过分析顾客的购物行为,发现商品之间的关联关系,从而帮助商家制定更有效的营销策略。
2. 用户行为分析:在互联网领域,通过分析用户的浏览、点击等行为数据,发现用户兴趣之间的关联关系,为个性化推荐等应用提供支持。
3. 生物信息学:在生物信息学领域,关联规则算法可以用于分析基因、蛋白质等生物分子之间的相互作用关系,从而揭示生物系统的复杂网络结构。
五、研究现状与展望目前,关联规则算法已经广泛应用于各个领域,并取得了显著的成果。
然而,随着数据规模的日益增大和复杂性的提高,传统的关联规则算法面临着诸多挑战。
数据挖掘中的关联规则算法

数据挖掘中的关联规则算法数据挖掘是伴随着信息技术的不断发展而产生的一种新的工具和方法。
它可以从大量的数据中挖掘出有用的信息,并为实际决策提供帮助。
关联规则算法是其中的一种重要方法,它可以找到项集之间的关系,并预测未来的行为或者趋势。
接下来,我们将对关联规则算法进行详细的介绍。
一、关联规则算法的定义关联规则算法是在数据挖掘中使用频率最广泛的算法之一。
其基本思想是通过寻找数据之间的关联,提取出频繁出现的项集以及项集之间的关系。
在实际应用中,关联规则算法可以广泛应用于市场营销、电子商务、人口统计学等领域。
它可以帮助用户挖掘到有用的信息,理清数据之间的关系,从而做出更明智的决策。
二、关联规则算法的原理关联规则算法有两个基本参数:支持度和置信度。
支持度是指指定的项集在总事务中出现的频率。
置信度则是指在满足条件A的前提下,出现B的概率。
关联规则算法通过计算这两个参数来判断各个项集之间的关系。
举个例子:假设我们想要了解一个超市的销售情况。
我们首先需要确定项集,比如说可乐和糖果在同一笔订单出现的概率。
如果我们设定支持度为50%,即一笔订单至少含有一种可乐和一种糖果,那么我们就可以通过统计数据得到可乐和糖果同时出现的频率。
如果这个频率高于50%,那么我们就可以得出这两个项集之间存在关联规则。
三、关联规则算法的应用关联规则算法可以应用于很多领域,如市场营销、电子商务、人口统计学等。
在市场营销方面,关联规则算法可以帮助企业挖掘到产品之间的关联性,从而了解顾客的需求和偏好,并制定相应的定价策略。
在电子商务中,关联规则算法可以根据用户购买历史记录来推荐相似的产品,提高用户的购买率。
在人口统计学方面,关联规则算法可以帮助政府了解不同人群之间的联系,从而制定更为精准的政策。
四、关联规则算法的优缺点优点:关联规则算法具有较高的算法效率,可以处理大规模数据。
其结果易于理解,可以呈现给用户。
同时,关联规则算法可以挖掘出隐藏在数据中的规律性,帮助用户发现新的信息。
关联规则算法过程

关联规则算法过程关联规则算法,又称为关联分析算法,是一种数据挖掘算法,用于发现数据集中项目之间的关联关系。
这些关联关系可以用于预测未来事件,或者用于制定更好的商业策略。
一、算法介绍关联规则算法的目的是发现数据集中项目之间的关系,这种关系可以用频繁项集来表示。
频繁项集是一个包含频繁项的项集,频繁项是在数据集中出现频率较高的项。
关联规则算法的基本思想是:在数据集中找出频繁项集,然后从频繁项集中生成关联规则。
关联规则是由一个前项和一个后项组成,前项和后项都是频繁项集。
关联规则的意义是:如果一个事物包含前项,则它也很可能包含后项。
关联规则可以用以下形式表示:前项→ 后项。
二、算法流程关联规则算法的流程如下:1. 扫描数据集,计算每个项的出现频率。
2. 选取阈值min_sup,过滤掉出现频率低于min_sup的项。
3. 构造长度为2的候选集,并扫描数据集,计算每个候选集的出现频率。
4. 选取阈值min_sup,过滤掉出现频率低于min_sup的候选集。
5. 根据长度为2的频繁项集,构造长度为3的候选集,并扫描数据集,计算每个候选集的出现频率。
6. 选取阈值min_sup,过滤掉出现频率低于min_sup的候选集。
7. 根据长度为3的频繁项集,构造长度为4的候选集,并扫描数据集,计算每个候选集的出现频率。
8. 重复上述步骤,直到不能生成更长的候选集为止。
9. 根据频繁项集生成关联规则。
10. 用关联规则进行预测或制定商业策略。
三、算法优化关联规则算法的时间复杂度很高,因为它需要在数据集中生成大量的候选集。
为了提高算法的效率,可以采用以下优化方法:1. 压缩数据集:对于出现频率较低的项,可以将它们从数据集中删除,从而减少候选集的数量。
2. 停止生长:当生成的候选集中有一个子集不是频繁项集时,就可以停止生成更长的候选集了。
3. 剪枝:当一个候选集的所有子集都是频繁项集时,它自己也是频繁项集,可以将它加入频繁项集中。
数据挖掘中的关联规则分析算法

数据挖掘中的关联规则分析算法数据挖掘是一种从大量数据中搜寻模式和隐藏信息的过程。
关联规则分析是数据挖掘中的一种常用算法,旨在找出数据集中存在的关联规则,即一组频繁同时出现的项目。
本文将介绍与关联规则分析算法相关的概念、方法和应用场景。
一、基本概念1. 支持度:支持度是指给定数据集中一个项目集的出现频率。
例如,支持度为10%表示项目集出现在数据集中的10%的事务中。
2. 置信度:置信度是指从包含给定项目集的事务中选择另一个项目时,选择该另一个项目的可能性。
例如,置信度为50%表示选择另一个项的时候,有50%的可能性该项与项目集一起出现。
3. 频繁项集:指在给定数据集中出现频率高于预定阈值的项集。
4. 关联规则:指一组频繁同时出现的项目的组合。
关联规则通常以形式“A→B”的规则呈现,其中A和B都是项目集。
二、算法流程1. 找出频繁项集:在给定数据集中寻找项集,其支持度高于预定阈值。
一个简单的方法是采用Apriori算法。
Apriori算法是一种基于遍历候选项并剪枝的算法。
该算法采用候选项和间隔查找技术来查找频繁项集。
2. 生成关联规则:从频繁项集中可以派生出关联规则。
对于生成的每个频繁项集,从中选择一个项,根据支持度和置信度的限制来判断该项是否应该从项集中删除。
3. 评估和筛选规则:评估确定的规则以确定它们的属实性。
使用给定支持度和置信度将每个分配的规则与数据集中的情况进行比较,来评估它的重要性。
(学习算法过程中需要使用训练数据)。
三、应用场景1. 购物篮分析关联规则分析可以用于购物篮分析,以确定哪些商品有更大的机会一起购买。
例如,当一个人购买了鸡蛋和面包时,可以推断出他们也可能购买牛奶。
2. 电子商务电子商务公司可以使用关联规则分析来推荐商品。
例如,当一个客户浏览了一件商品时,电子商务公司可以使用关联规则来推荐其他相关的商品。
3. 医疗诊断关联规则分析可以用于医疗诊断,以帮助医生快速识别疾病。
例如,当一个患者具有某种症状时,可以使用关联规则确定是否有其他相关症状,从而更快地诊断疾病。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘算法之-关联规则挖掘(Association Rule)(2009-09-20 21:59:23)转载标签:分类:DMdm在数据挖掘的知识模式中,关联规则模式是比较重要的一种。
关联规则的概念由Agrawal、Imielinski、Swami 提出,是数据中一种简单但很实用的规则。
关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。
一、关联规则的定义和属性考察一些涉及许多物品的事务:事务1 中出现了物品甲,事务2 中出现了物品乙,事务3 中则同时出现了物品甲和乙。
那么,物品甲和乙在事务中的出现相互之间是否有规律可循呢?在数据库的知识发现中,关联规则就是描述这种在一个事务中物品之间同时出现的规律的知识模式。
更确切的说,关联规则通过量化的数字描述物品甲的出现对物品乙的出现有多大的影响。
现实中,这样的例子很多。
例如超级市场利用前端收款机收集存储了大量的售货数据,这些数据是一条条的购买事务记录,每条记录存储了事务处理时间,顾客购买的物品、物品的数量及金额等。
这些数据中常常隐含形式如下的关联规则:在购买铁锤的顾客当中,有70 %的人同时购买了铁钉。
这些关联规则很有价值,商场管理人员可以根据这些关联规则更好地规划商场,如把铁锤和铁钉这样的商品摆放在一起,能够促进销售。
有些数据不像售货数据那样很容易就能看出一个事务是许多物品的集合,但稍微转换一下思考角度,仍然可以像售货数据一样处理。
比如人寿保险,一份保单就是一个事务。
保险公司在接受保险前,往往需要记录投保人详尽的信息,有时还要到医院做身体检查。
保单上记录有投保人的年龄、性别、健康状况、工作单位、工作地址、工资水平等。
这些投保人的个人信息就可以看作事务中的物品。
通过分析这些数据,可以得到类似以下这样的关联规则:年龄在40 岁以上,工作在A 区的投保人当中,有45 %的人曾经向保险公司索赔过。
在这条规则中,“年龄在40 岁以上”是物品甲,“工作在A 区”是物品乙,“向保险公司索赔过”则是物品丙。
可以看出来,A 区可能污染比较严重,环境比较差,导致工作在该区的人健康状况不好,索赔率也相对比较高。
设R= { I1,I2 ......Im} 是一组物品集,W 是一组事务集。
W 中的每个事务T 是一组物品,T R。
假设有一个物品集A,一个事务T,如果A T,则称事务T 支持物品集A。
关联规则是如下形式的一种蕴含:A→B,其中A、B 是两组物品,A I,B I,且A ∩B= 。
一般用四个参数来描述一个关联规则的属性:1.可信度(Confidence)设W 中支持物品集A 的事务中,有c %的事务同时也支持物品集B,c %称为关联规则A→B 的可信度。
简单地说,可信度就是指在出现了物品集A 的事务T 中,物品集B 也同时出现的概率有多大。
如上面所举的铁锤和铁钉的例子,该关联规则的可信度就回答了这样一个问题:如果一个顾客购买了铁锤,那么他也购买铁钉的可能性有多大呢?在上述例子中,购买铁锤的顾客中有70 %的人购买了铁钉, 所以可信度是70 %。
2.支持度(Support)设W 中有s %的事务同时支持物品集A 和B,s %称为关联规则A→B 的支持度。
支持度描述了A 和B 这两个物品集的并集C 在所有的事务中出现的概率有多大。
如果某天共有1000 个顾客到商场购买物品,其中有100 个顾客同时购买了铁锤和铁钉,那么上述的关联规则的支持度就是10 %。
3.期望可信度(Expected confidence)设W 中有e %的事务支持物品集B,e %称为关联规则A→B 的期望可信度度。
期望可信度描述了在没有任何条件影响时,物品集B 在所有事务中出现的概率有多大。
如果某天共有1000 个顾客到商场购买物品,其中有200 个顾客购买了铁钉,则上述的关联规则的期望可信度就是20 %。
4 .作用度(Lift)作用度是可信度与期望可信度的比值。
作用度描述物品集A 的出现对物品集B 的出现有多大的影响。
因为物品集B 在所有事务中出现的概率是期望可信度;而物品集B 在有物品集A 出现的事务中出现的概率是可信度,通过可信度对期望可信度的比值反映了在加入“物品集A 出现”的这个条件后,物品集B 的出现概率发生了多大的变化。
在上例中作用度就是70 %/20 %=3.5。
可信度是对关联规则的准确度的衡量,支持度是对关联规则重要性的衡量。
支持度说明了这条规则在所有事务中有多大的代表性,显然支持度越大,关联规则越重要。
有些关联规则可信度虽然很高,但支持度却很低,说明该关联规则实用的机会很小,因此也不重要。
期望可信度描述了在没有物品集A 的作用下,物品集B 本身的支持度;作用度描述了物品集A 对物品集B 的影响力的大小。
作用度越大,说明物品集B 受物品集A 的影响越大。
一般情况,有用的关联规则的作用度都应该大于1,只有关联规则的可信度大于期望可信度,才说明A 的出现对B 的出现有促进作用,也说明了它们之间某种程度的相关性,如果作用度不大于1,则此关联规则也就没有意义了。
二、关联规则的挖掘在关联规则的四个属性中,支持度和可信度能够比较直接形容关联规则的性质。
从关联规则定义可以看出,任意给出事务中的两个物品集,它们之间都存在关联规则,只不过属性值有所不同。
如果不考虑关联规则的支持度和可信度,那么在事务数据库中可以发现无穷多的关联规则。
事实上,人们一般只对满足一定的支持度和可信度的关联规则感兴趣。
因此,为了发现有意义的关联规则,需要给定两个阈值:最小支持度和最小可信度,前者规定了关联规则必须满足的最小支持度;后者规定了关联规则必须满足的最小可信度。
一般称满足一定要求的(如较大的支持度和可信度)的规则为强规则(Strong rules)。
在关联规则的挖掘中要注意以下几点:1、充分理解数据。
2、目标明确。
3、数据准备工作要做好。
能否做好数据准备又取决于前两点。
数据准备将直接影响到问题的复杂度及目标的实现。
4、选取恰当的最小支持度和最小可信度。
这依赖于用户对目标的估计,如果取值过小,那么会发现大量无用的规则,不但影响执行效率、浪费系统资源,而且可能把目标埋没;如果取值过大,则又有可能找不到规则,与知识失之交臂。
5、很好地理解关联规则。
数据挖掘工具能够发现满足条件的关联规则,但它不能判定关联规则的实际意义。
对关联规则的理解需要熟悉业务背景,丰富的业务经验对数据有足够的理解。
在发现的关联规则中,可能有两个主观上认为没有多大关系的物品,它们的关联规则支持度和可信度却很高,需要根据业务知识、经验,从各个角度判断这是一个偶然现象或有其内在的合理性;反之,可能有主观上认为关系密切的物品,结果却显示它们之间相关性不强。
只有很好的理解关联规则,才能去其糟粕,取其精华,充分发挥关联规则的价值。
发现关联规则要经过以下三个步骤:1、连接数据,作数据准备;2、给定最小支持度和最小可信度,利用数据挖掘工具提供的算法发现关联规则;3、可视化显示、理解、评估关联规则。
三、关联规则挖掘的过程关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets),第二阶段再由这些高频项目组中产生关联规则(Association Rules)。
关联规则挖掘的第一阶段必须从原始资料集合中,找出所有高频项目组(Large Itemsets)。
高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。
一项目组出现的频率称为支持度(Support),以一个包含A与B两个项目的2-itemset为例,我们可以经由公式(1)求得包含{A,B}项目组的支持度,若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时,则{A,B}称为高频项目组。
一个满足最小支持度的k-itemset,则称为高频k-项目组(Frequent k-itemset),一般表示为Large k或Frequent k。
算法并从Large k的项目组中再产生Large k+1,直到无法再找到更长的高频项目组为止。
关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。
从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小信赖度(Minimum Confidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。
从上面的介绍还可以看出,关联规则挖掘通常比较适用与记录中的指标取离散值的情况。
如果原始数据库中的指标值是取连续的数据,则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值),数据的离散化是数据挖掘前的重要环节,离散化的过程是否合理将直接影响关联规则的挖掘结果。
四、关联规则的分类按照不同情况,关联规则可以进行分类如下:1.基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。
布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。
例如:性别=“女”=>职业=“秘书” ,是布尔型关联规则;性别=“女”=>avg(收入)=2300,涉及的收入是数值类型,所以是一个数值型关联规则。
2.基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。
在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层的关联规则中,对数据的多层性已经进行了充分的考虑。
例如:IBM台式机=>Sony打印机,是一个细节数据上的单层关联规则;台式机=>Sony打印机,是一个较高层次和细节层次之间的多层关联规则。
3.基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。
在单维的关联规则中,我们只涉及到数据的一个维,如用户购买的物品;而在多维的关联规则中,要处理的数据将会涉及多个维。
换成另一句话,单维关联规则是处理单个属性中的一些关系;多维关联规则是处理各个属性之间的某些关系。
例如:啤酒=>尿布,这条规则只涉及到用户的购买的物品;性别=“女”=>职业=“秘书”,这条规则就涉及到两个字段的信息,是两个维上的一条关联规则。
5. 关联规则挖掘的相关算法1.Apriori算法:使用候选项集找频繁项集Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。
其核心是基于两阶段频集思想的递推算法。
该关联规则在分类上属于单维、单层、布尔关联规则。
在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。
该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。