关联规则挖掘

合集下载

关联规则挖掘

关联规则挖掘
▪ 兴趣度I不小于0。

▪ 设交易集D,经过对D的分析,得到表格:
买牛奶 不买牛奶
合计
买咖啡 20 70 90
不买咖啡
合计
5
25
5
75
10
100
所有可能的关联规则
Rules
S
C
1
买牛奶→买咖啡
0.2
0.8
2
买咖啡→买牛奶
0.2
0.22
3
买牛奶→不买咖啡
0.05
0.2
4
不买咖啡→买牛奶
0.05
0.5
▪ 定义2:规则的支持度。
Customer buys beer
▪ 支持度描述了A 和B 这两个物品集在所有的 事务中同时出现的概率有多大。
▪ 规则AB在数据库D中具有支持度S,即概
率P(AB),即:S(A B) P(AB) | AB |

|D|
▪ 其中|D|表示事务数据库D的个数,表示A、 B两个项集同时发生的事务个数。
2关联规则挖掘
▪ 在关联规则的三个属性中,支持度和可信 度能够比较直接形容关联规则的性质
▪ 事实上,人们一般只对满足一定的支持度 和可信度的关联规则感兴趣。
▪ 因此,为了发现有意义的关联规则,需要 由用户给定两个阈值:
最小支持度(min_sup)和最小可信度 (min_conf)
频繁项集
▪ 如果项集满足最小支持度,则它称之为 频繁项集(Frequent Itemset)。
▪ 更确切的说,关联规则通过量化的数字描述物 品甲的出现对物品乙的出现有多大的影响
现实中,这样的例子很多。
例如超级市场利用前端收款机收集存储了大量的售货数 据,这些数据是一条条的购买事务记录,每条记录存储 了

关联规则在数据挖掘中的应用

关联规则在数据挖掘中的应用
关联规则在数据挖 掘中的应用
-
1
2
目录
3
CONTENTS
4
5
引言 关联规则的定义 关联规则的挖掘过程 关联规则在数据挖掘中的应用
结论
1
引言
引言
关联规则是数据挖掘中的一种重要技术,主要 用于发现数据集中变量之间的有趣关系,如购
物篮分析中经常一起购买的商品组合
关联规则可以揭示数据集中变量之间的潜在关 联,从而帮助企业更好地理解客户需求、优化
5
结论
结论
关联规则在数据挖掘中 具有广泛的应用前景, 可以帮助企业更好地理 解客户需求、优化产品 组合、提高销售策略等
然而,关联规则挖掘也 存在一些挑战,如处理 大规模数据、处理高维 数据等
未来,随着技术的不断 发展,相信关联规则挖 掘将会在更多领域发挥 重要作用
-
谢谢观看
XXXXX
XXXXXX XXXXX
3
关联规则的挖掘过 程
关联规则的挖掘过程
关联规则的挖掘过程 通常包括以下步骤
关联规则的挖掘过程
数据准备
首先需要对数据进行预处理,包括数据清洗、数据转换等, 以便为后续的关联规则挖掘提供合适的数据格式和结构
关联规则生成
基于频繁项集,可以生成关联规则。这些规则可以表示为“如 果购买商品A,则购买商品B”的形式
商品或服务
03
金融欺诈检测
在金融领域,关联规 则可以用于检测欺诈 行为。通过对客户的 交易记录进行分析, 可以发现异常的交易 组合或模式,从而及
时发现欺诈行为
04
医疗诊断
在医疗领域,关联规 则可以用于辅助诊断。 通过对患者的症状和 病史进行分析,可以 发现疾病之间的关联 关系,从而为医生提

关联规则挖掘方法

关联规则挖掘方法

关联规则挖掘方法一、前言关联规则挖掘是数据挖掘中的一个重要领域,它可以帮助我们发现数据中隐藏的规律和关系,从而为商业决策和市场营销提供支持。

本文将介绍关联规则挖掘的方法和步骤,包括数据预处理、频繁项集生成、关联规则生成和评估等。

二、数据预处理在进行关联规则挖掘之前,我们需要对原始数据进行预处理。

首先,我们需要去除无用的属性和记录,并对缺失值进行处理。

其次,我们需要将离散型数据转换为数值型数据,并对连续型数据进行离散化。

最后,我们需要对异常值进行检测和处理。

三、频繁项集生成频繁项集是指在数据集中经常出现的一组物品集合。

频繁项集生成是关联规则挖掘的第一步,其目的是找到所有满足最小支持度阈值的频繁项集。

1. Apriori算法Apriori算法是最常用的频繁项集生成算法之一。

它基于两个重要性质:单调性和自由子集性质。

Apriori算法分为两个阶段:候选项集生成和剪枝。

2. FP-growth算法FP-growth算法是一种基于树结构的频繁项集生成算法。

它通过构建一棵FP树来发现频繁项集。

FP-growth算法相对于Apriori算法具有更快的速度和更小的空间复杂度。

四、关联规则生成在找到所有频繁项集之后,我们需要从中挖掘出有意义的关联规则。

关联规则是指形如X->Y的规则,其中X和Y都是物品集合,且X∩Y=∅。

1. 关联规则挖掘关联规则挖掘是指从频繁项集中挖掘出满足最小置信度阈值的关联规则。

置信度是指在条件X下出现Y的概率。

2. 关联规则评估关联规则评估是指对挖掘出来的关联规则进行评估和选择。

常用的评价指标包括支持度、置信度、提升度和全置信度等。

五、总结本文介绍了关联规则挖掘的方法和步骤,包括数据预处理、频繁项集生成、关联规则生成和评估等。

在实际应用中,我们需要根据具体情况选择不同的算法和参数,并进行优化和调整。

大数据分析中的关联规则挖掘技术详解

大数据分析中的关联规则挖掘技术详解

大数据分析中的关联规则挖掘技术详解在大数据时代,海量的数据对于企业和组织来说是一项无可估量的宝藏。

然而,这些数据本身并没有带来价值,而是需要通过分析和挖掘才能发现其中的潜在关联和规律。

关联规则挖掘技术正是为了解决这个问题而产生的。

关联规则挖掘技术是一种用于发现数据集中项集之间的相关性的数据科学技术。

它可以帮助我们识别出频繁出现在一起的事物,并根据这些关联规则提供决策支持和业务洞察。

其应用范围广泛,包括市场分析、推荐系统、医疗诊断等领域。

关联规则挖掘的基本概念是频繁项集和关联规则。

频繁项集是指在数据集中经常同时出现的项的集合。

例如,一个超市的购物数据中,经常一起出现的商品就可以构成一个频繁项集。

而关联规则则是频繁项集中项之间的关联关系。

例如,经常购买尿布的顾客也经常购买啤酒。

这条规则可以用“尿布->啤酒”的形式表示,其中箭头表示了两者之间的依赖关系。

实际上,关联规则并不仅仅局限于两个项之间的关系,而可以包含多个项。

例如,“尿布->啤酒->零食”就是一个包含三个项的关联规则。

关联规则一般有两个重要的度量指标,即支持度和置信度。

支持度用于衡量关联规则的频繁程度,而置信度用于衡量关联规则的可信程度。

常用的挖掘算法有Apriori和FP-growth。

关联规则挖掘技术在实际应用中有着广泛的价值。

首先,它可以帮助企业进行市场分析和销售策略制定。

通过分析顾客购买记录,可以发现潜在的关联规则,从而推测出顾客的需求和购买习惯。

根据这些规则,企业可以制定相应的促销活动和营销策略,提高销售额和客户满意度。

其次,关联规则挖掘技术在推荐系统中也有着重要的应用。

通过分析用户的历史行为和购买记录,可以挖掘出用户之间的潜在关联规则。

例如,在电商网站中,如果一个用户经常购买书籍和电子产品,那么可以向该用户推荐相关的产品。

这种个性化推荐不仅可以提高用户的购物体验,还可以增加网站的用户粘性和销售额。

此外,关联规则挖掘技术还可以应用于医疗诊断领域。

关联规则技术在数据挖掘中的应用

关联规则技术在数据挖掘中的应用

关联规则技术在数据挖掘中的应用
关联规则技术在数据挖掘中有广泛的应用,常见的应用包括:
1. 购物篮分析:关联规则被广泛应用于购物篮分析,可以帮助商家识别商品之间的关联性,帮助商家制定促销策略和优化产品布局。

2. 电信行业:关联规则在电信行业中可以用于分析用户的通话模式,识别不同用户群体之间的通话习惯,从而为用户提供更好的服务。

3. 医疗行业:关联规则可以用于医疗数据的分析,帮助医生识别疾病之间的关联性,提高疾病的诊断和治疗准确性。

4. 营销和广告:关联规则可以帮助营销人员了解消费者的购买模式和偏好,从而制定针对性的广告和推销策略,提高营销效果。

5. 网络安全:关联规则可以用于网络安全领域的入侵检测和异常行为识别,帮助识别和预测潜在的网络攻击。

6. 人员定位:关联规则可以应用于人员定位系统中,帮助识别人员之间的关联关系和行为模式,为人员定位和监控提供支持。

总之,关联规则技术在数据挖掘中可以帮助我们挖掘数据之间的关联性和模式,从而为各个领域提供更好的决策支持和业务优化。

机器学习中的关联规则挖掘方法简介

机器学习中的关联规则挖掘方法简介

机器学习中的关联规则挖掘方法简介机器学习中的关联规则挖掘是一种用于发现数据集中不同属性之间的关联关系的方法。

这些关联关系可以帮助我们理解属性之间的相互作用,从而能够更好地进行数据分析和决策制定。

在本文中,我们将介绍机器学习中常用的关联规则挖掘方法,包括Apriori算法和FP-growth算法。

1. Apriori算法Apriori算法是一种用于发现频繁项集的经典算法。

频繁项集是指在数据集中经常同时出现的一组项的集合。

Apriori算法基于“先验原理”,即如果一个项集是频繁的,那么它的所有子集也是频繁的。

该算法采用一种逐层的方式,从$k$-项集生成$k+1$-项集,直到不能再生成新的项集为止。

Apriori算法的时间复杂度较高,因为需要多次扫描数据集进行计数。

2. FP-growth算法FP-growth算法是一种用于发现频繁项集的高效算法。

该算法通过构建一个称为FP树的数据结构来实现。

FP树具有压缩数据集的能力,从而减少了扫描数据集的次数。

FP-growth算法的关键步骤包括:构建FP树、挖掘频繁项集和生成条件模式基。

首先,根据事务的频率对数据集进行排序,然后构建FP树,最后通过递归遍历FP树来挖掘频繁项集。

相比于Apriori算法,FP-growth算法的时间复杂度更低。

3. 频繁项集和关联规则在关联规则挖掘中,频繁项集是指在给定最小支持度阈值下出现频率很高的项集。

而关联规则是从频繁项集中通过设置最小置信度阈值而获得的一种形式化表示。

关联规则通常具有“A ⇒ B”的形式,其中A和B都是项集。

关联规则的置信度表示当项集A出现时,项集B同时出现的概率。

4. 关联规则挖掘的应用关联规则挖掘在实际应用中有着广泛的应用。

例如,在市场篮子分析中,关联规则可以帮助商家了解购物者的购买习惯,从而进行商品定价和促销策略的制定。

此外,关联规则挖掘还可以应用于网络流量分析、医学诊断、检测新闻事件等领域。

5. 关联规则挖掘的局限性和挑战尽管关联规则挖掘是一种有用的方法,但也存在一些局限性和挑战。

关联规则挖掘算法的研究与应用

关联规则挖掘算法的研究与应用

关联规则挖掘算法的研究与应用引言:关联规则挖掘算法作为数据挖掘领域的重要工具之一,在商业、医疗等领域有着广泛的应用。

通过挖掘数据集中的关联规则,可以发现数据之间的潜在关联关系,为决策提供支持与指导。

本文将对关联规则挖掘算法的研究和应用进行探讨,并分析其在实际问题中的应用效果。

一、关联规则挖掘算法的基本原理关联规则挖掘算法是通过寻找数据集中的频繁项集和关联规则来揭示数据之间的相关性。

算法的基本原理包括:支持度和置信度的计算、频繁项集的挖掘和关联规则的生成。

1. 支持度和置信度的计算:支持度表示一个项集在整个数据集中出现的频率,而置信度表示一个关联规则的可信度。

通过计算支持度和置信度,可以筛选出具有一定频率和可信度的项集和关联规则。

2. 频繁项集的挖掘:频繁项集是指在数据集中出现频率达到预定义阈值的项集。

挖掘频繁项集的常用算法有Apriori算法、FP-growth算法等。

Apriori算法是一种基于逐层搜索的算法,在每一层中利用候选项集生成频繁项集。

而FP-growth算法是一种基于树结构的算法,通过构建FP树和挖掘频繁模式来实现。

3. 关联规则的生成:在挖掘到频繁项集之后,可以利用这些频繁项集生成关联规则。

关联规则的生成常采用Apriori原理,即从频繁项集中根据最小置信度阈值生成关联规则。

二、关联规则挖掘算法的研究进展随着数据挖掘技术的发展,关联规则挖掘算法也得到了不断的改进与扩展。

研究者们提出了许多新的算法和改进方法,以提高关联规则的挖掘效果。

1. 改进的关联规则挖掘算法:针对传统算法在挖掘大规模数据时效率低下的问题,研究者们提出了一些改进的算法。

例如,有基于GPU加速的算法、并行化的算法以及基于增量挖掘的算法等。

这些算法通过利用硬件加速和并行计算技术,可以大幅提升挖掘速度。

2. 多维度关联规则挖掘:除了在单一维度上挖掘关联规则,研究者们还尝试在多维度上进行关联规则的挖掘。

多维关联规则挖掘算法可以同时挖掘多个维度中的关联规则,从而发现更加丰富和准确的关联关系。

数据挖掘的四大方法

数据挖掘的四大方法

数据挖掘的四大方法随着大数据时代的到来,数据挖掘在各行各业中的应用越来越广泛。

对于企业来说,掌握数据挖掘的技能可以帮助他们更好地分析数据、挖掘数据背后的价值,从而提升企业的竞争力。

数据挖掘有很多方法,在这篇文章中,我们将讨论四种常见的方法。

一、关联规则挖掘关联规则挖掘是数据挖掘中常用的方法之一。

它的基本思想是在一组数据中挖掘出两个或多个项目之间的相关性或关联性。

在购物中,关联规则挖掘可以被用来识别哪些产品常常被同时购买。

这样的信息可以帮助商家制定更好的促销策略。

关联规则挖掘的算法主要有 Apriori 和 FP-Growth 两种。

Apriori 算法是一种基于候选集搜索的方法,其核心思路是找到频繁项集,然后在频繁项集中生成关联规则。

FP-Growth 算法则是一种基于频繁模式树的方法,通过构建 FP-Tree 实现高效挖掘关联规则。

二、聚类分析聚类分析是另一种常用的数据挖掘方法。

它的主要目标是将数据集合分成互不相同的 K 个簇,使每个簇内的数据相似度较高,而不同簇内的数据相似度较低。

这种方法广泛应用于市场营销、医学、环境科学、地理信息系统等领域。

聚类分析的算法主要有 K-Means、二分 K-Means、基于密度的DBSCAN 等。

其中,K-Means 是一种较为简单的方法,通过随机初始化 K 个初始中心点,不断将数据点归类到最近的中心点中,最终形成 K 个簇。

DBSCAN 算法则是一种基于密度的聚类方法,而且在数据分布比较稀疏时表现较好。

三、分类方法分类方法是一种利用标记过的数据来训练一个分类模型,然后使用该模型对新样本进行分类的方法。

分类方法的应用非常广泛,例如将一封电子邮件分类为垃圾邮件或非垃圾邮件等。

常见的分类方法有决策树、朴素贝叶斯、支持向量机等。

决策树是一种易于理解、适用于大数据集的方法,通过分类特征为节点进行划分,构建一颗树形结构,最终用于样本的分类。

朴素贝叶斯是一种基于贝叶斯定理的分类方法,其核心思想是计算不同类别在给定数据集下的概率,从而进行分类决策。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Mart)拥有世上最大的数据仓库系统之一。为 了能够准确了解顾客在其门店的购买习惯,沃 尔玛对其顾客的购物行为进行了购物篮关联规 则分析,从而知道顾客经常一起购买的商品有 哪些。 跟尿不湿一起购买最多的商品竟是啤酒”!这 是数据挖掘技术对历史数据进行分析的结果, 反映的是数据的内在规律。 那么这个结果符合现实情况吗?是否是一个有 用的知识?是否有利用价值?
交易(transaction):定义I
T09
T10
B C M T
B M T
为所有商品的集合,在这个 例子中I={B C M T}。每个非 空的I子集都成为一个交易。 所有交易构成交易数据库D。
关联规则

I={i1,i2,…,im}是项(Item)的集合。记D 为事务(Transaction)的集合(事务数据库), 事务T是项的集合,并且TI。 设A是I中一个项集,如果AT,那么称事务T 包含A。
的出现对物品集B 的出现有多大的影响。
定义4:兴趣度:
I ( A B)
P ( AB) P ( A) P ( B)
公式反映了项集A与项集B的相关程度。 若
I ( A B) 1 即 P( AB) P( A) P( B)
表示项集A出现和项集B是相互独立的。
若 I(A B ) <1
B:bread C:cream M:milk T:tea
项目(item):其中的B C M
T 都称作item。
项集(itemset):item的集合,
例如{B C}、{C M T}等,每 个顾客购买的都是一个项集。 其中,项集中item的个数称为 项集的长度,含有k个item的 项集成为K-itemset.

4
美国折扣零售商塔吉特与怀孕预测
美国一名男子闯入他家附近的一家
美国零售连锁超市Target店铺(美国 第三大零售商塔吉特)进行抗议: “你们竟然给我17岁的女儿发婴儿尿 片和童车的优惠券。”
店铺经理立刻向来者承认错误,但
是其实该经理并不知道这一行为是 总公司运行数据挖掘的结果。如图 所示。一个月后,这位父亲来道歉, 因为这时他才知道他的女儿的确怀 孕了。Target比这位父亲知道他女儿 怀孕的时间足足早了一个月。
为弱关联规则。
数据挖掘主要就是对强规则的挖掘。
3. 关联规则挖掘过程
关联规则的挖掘一般分为两个过程:
(1)找出所有的频繁项集:找出支持度大 于最小支持度的项集,即频繁项集。 (2)由频繁项集产生(强)关联规则:根 据定义,这些规则必须满足最小支持度和 最小可信度。
中,物品集B 也同时出现的概率 规则AB具有可信度C,表示C是条件概 率P(B|A),即: | AB |

C (A B) P( B | A) |A|
其中
| A|
表示数据库中包含项集A的事务
个数。
小结
可信度是对关联规则的准确度的衡量,支
持度是对关联规则重要性的衡量。支持度 说明了这条规则在所有事务中有多大的代 表性。
买的人数占总人数的比例,即800/10000=8%,有8%的用户 同时购买了A和B两个产品;
可信度
可信度指的是在购买了一个产品之后购买另外一个产品的可能
性,如购买了A产品之后购买B产品的可信度=800/1000=80%
作用度(兴趣度)
讨论两种事务的比较关系

AB
作用度是两种可能性的比较,描述物品集A
6
大数据分析核心手段、技术
数据处理 数据挖掘 模型预测
概念
数据挖掘(Data Mining) 是通过分析每个数据,从大量
数据中寻找其规律的技术,主要有数据准备、规律寻找 和规律表示3个步骤。 数据挖掘的任务有关联分析、聚类分析、分类分析、异 常分析、特异群组分析和演变分析等。
关联分析是指如果两个或多个事物之间存在一定的关联,
显然支持度越大,关联规则越重要。有些 关联规则可信度虽然很高,但支持度却很 低,说明该关联规则实用的机会很小,因
此也不重要。
理解:关联分析中的三个重要的概念
支持度
举例:
10000个人购买了产品,其中购买A产品的人是1000个,购买 B产品的人是2000个,AB同时购买的人是800个。 支持度指的是关联的产品(假定A产品和B产品关联)同时购
2关联规则挖掘
在关联规则的三个属性中,支持度和可信
度能够比较直接形容关联规则的性质
事实上,人们一般只对满足一定的支持度
和可信度的关联规则感兴趣。
因此,为了发现有意义的关联规则,需要 由用户给定两个阈值:
最小支持度(min_sup)和最小可信度
(min_conf)
频繁项集
如果项集满足最小支持度,则它称之为
3
尿不湿和啤酒

经过大量实际调查和分析,他们揭示了一个隐藏在“尿不湿与啤酒” 背后的美国消费者的一种行为模式: 在美国,到超市去买婴儿尿不湿是一些年轻的父亲下班后的日常工 作,而他们中有30%~40%的人同时也会为自己买一些啤酒。产生 这一现象的原因是:美国的太太们常叮嘱她们的丈夫不要忘了下班 后为小孩买尿不湿,而丈夫们在买尿不湿后又随手带回了他们喜欢 的啤酒。另一种情况是丈夫们在买啤酒时突然记起他们的责任,又 去买了尿不湿。既然尿不湿与啤酒一起被购买的机会很多,那么沃 尔玛就在他们所有的门店里将尿不湿与啤酒并排摆放在一起,结果 是得到了尿不湿与啤酒的销售量双双增长。 按常规思维,尿不湿与啤酒风马牛不相及,若不是借助数据挖掘技 术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内这一 有价值的规律的。
频繁项集(Frequent Itemset)。
强规则
定义5:强关联规则。
同时满足最小支持度(min_sup)和最小可 信度(min_conf)的规则称之为强关联规 则,即 S (A B) min_sup 且C(A B) min_conf
成立时,规则称之为强关联规则,否则称
支持度描述了A 和B 这两个物品集在所有的 事务中同时出现的概率有多大。
规则AB在数据库D中具有支持度S,即概
率P(AB),即: S (A B) P(AB) | AB |
|D|
其中|D|表示事务数据库D的个数,表示A、
B两个项集同时发生的事务个数。
可信度
定义3:规则的可信度 可信度就是指在出现了物品集A 的事务T
S
C
I
1 2 3 4 5 6 7 8
0.2 0.2 0.05 0.05 0.7 0.7 0.05 0.05
0.8 0.22 0.2 0.5 0.93 0.78 0.067 0.2
0.89 0.89 2 2 1.037 1.037 0.67 0.87
讨论I1﹑I2﹑I3﹑I6共4条规则: 由于I1,I2<1, 在实际中它的价值不大; I3,I6>1,规则才有价值。
识模式。
更确切的说,关联规则通过量化的数字描述物 品甲的出现对物品乙的出现有多大的影响
现实中,这样的例子很多。
例如超级市场利用前端收款机收集存储了大量的售货数
据,这些数据是一条条的购买事务记录,每条记录存储 了
事务处理时间, 顾客购买的物品、 物品的数量及金额等。

这些数据中常常隐含形式如下的关联规则:在购买铁 锤的顾客当中,有70 %的人同时购买了铁钉。 这些关联规则很有价值,商场管理人员可以根据这些 关联规则更好地规划商场,如把铁锤和铁钉这样的商品 摆放在一起,能够促进销售。
5Leabharlann 美国折扣零售商塔吉特与怀孕预测
塔吉特公司能在不被清楚告知的情况下预测出一个女性
的怀孕情况 该公司找出了大概20多种与怀孕的关联物,给顾客进行 “怀孕趋势”评分 这些数据甚至使得零售商能够比较准确地预测预产期, 这样就能够在孕期的每个阶段给客户寄送相应的优惠券 Target能够通过分析女性客户购买记录,“猜出”哪些 是孕妇。他们从Target的数据仓库中挖掘出25项与怀孕 高度相关的商品,制作“怀孕预测”指数。比如他们发 现女性会在怀孕四个月左右,大量购买无香味乳液。以 此为依据推算出预产期后,就抢先一步将孕妇装、婴儿 床等折扣券寄给客户来吸引客户购买。
兴趣度I不小于0。

设交易集D,经过对D的分析,得到表格:
买咖啡
买牛奶 不买牛奶 合计 20 70 90
不买咖啡
5 5 10
合计
25 75 100
所有可能的关联规则
Rules
买牛奶→买咖啡 买咖啡→买牛奶 买牛奶→不买咖啡 不买咖啡→买牛奶 不买牛奶→买咖啡 买咖啡→不买牛奶 不买牛奶→不买咖啡 不买咖啡→不买牛奶
关联规则挖掘(Association Rule)
在数据挖掘的知识模式中,关联规则模式是比 较重要的一种。
关联规则的概念由Agrawal、Imielinski、Swami
提出,是数据中一种简单但很实用的规则。
在数据库的知识发现中,关联规则就是描述这 种在一个事务中物品之间同时出现的规律的知
表示A出现和B出现是负相关的。
若 I(A B ) >1
表示A出现和B出现是正相关的。意味着A的出现 蕴含B的出现。
一条规则的兴趣度越大于1说明我们对这条规
则越感兴趣(即其实际利用价值越大);
一条规则的兴趣度越小于1说明我们对这条规
则的反面规则越感兴趣(即其反面规则的实际 利用价值越大);
关联规则分析拓展
1)商业销售上,如何通过交叉销售得到更大的收



入? 2)保险方面,如何分析索赔要求发现潜在的欺诈 行为? 3)银行方面,如何分析顾客消费行业,以便有针 对性地向其推荐感兴趣的服务? 4)哪些制造零件和设备设置与故障事件关联? 5)哪些病人和药物属性与结果关联? 6)哪些商品是已经购买商品A的人最有可能购买 的?
相关文档
最新文档