数据挖掘方法——关联规则(自己整理)

合集下载

数据挖掘中的关联规则方法

数据挖掘中的关联规则方法

数据挖掘中的关联规则方法则 A?B。

挖掘关联规则关键在于寻找频繁项集。

引言0 定理设 A,B 是数据集 DB 中的项目集,若 A 包含 B, 则 A的支持度大于 B 的支持度,若 A 包含于 B,且 A 是非频繁模式关联规则是数据挖掘的典型方法,它是描述在一个交易中集,则 A 也是非频繁模式集,若 A 包含于 B,且 B 是频繁模式物品之间同时出现的规律的知识模式。

更确切地说,关联规则集,则 A 也是频繁模式集。

是通过量化的数字描述物品 X 出现对物品 Y 的出现有多大的影响。

同时满足最小可信度阈值和最小支持度阈值的关联规则2 关联规则的种类为强关联规则。

基于规则中处理的变量的类别2.1关联规则可以分为布尔型和数值型。

布尔型关联规则处理 1 关联规则的基本概念的位都是离散的、种类化的,它显示了这些变量之间的关系,数关联规则描述了交易数据集 DB 中两组不同项目之间存值型关联规则可以和多维关联或多层关联规则结合起来,对数在的某种关联关系。

关联规则定义的形式化描述如下, 值型字段进行处理,将其进行动态的分割,或者直接对原始的给定一个交易数据库 DB,I={I,I,…I}为 DB 中 m 个不同 12m数据进行处理,而数值型关联规则中也可以包含种类变量。

交易事务集合,其中每个事务 T 是项的集合,使得 T哿I。

每一 2.2 基于规则中数据的抽象层次个交易事务有一个唯一的标识,记作 TID。

关联规则可以分为单层关联规则和多层关联规则。

在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多定义 1 k 项集定义为项集中包含的项的个数, {A, 集合1个不同层次的,而在多层的关联规则中,对数据的多层性已经A,… ,A}称为 k 项集。

2k进行了充分的考虑。

定义 2 若 A,B 为项集 ,A奂I,B奂I, 并且A?B=Φ, 则形 2.3 基于规则中涉及到的数据的维数如的表达式称为关联规则。

A?B 关联规则可以分为单维的关联规则和多维的关联规则。

数据挖掘中的关联规则算法使用方法教程

数据挖掘中的关联规则算法使用方法教程

数据挖掘中的关联规则算法使用方法教程数据挖掘是一门通过从大量数据中发现隐藏模式、关系和信息的技术。

关联规则算法是数据挖掘中的重要工具,用于发现数据集中的关联关系和规律。

本教程将介绍关联规则算法的基本概念、使用方法和常见问题。

一、关联规则算法概述关联规则算法主要用于发现数据集中的关联关系和规律,它可以帮助我们了解事物之间的相互关系,并通过这些关系进行预测和推断。

常见的应用场景包括购物篮分析、市场篮子分析、推荐系统等。

关联规则算法通过分析频繁项集和支持度,找到频繁项集之间的关联规则。

频繁项集是指在数据集中频繁出现的组合项集,支持度是指某个项集在数据集中出现的频率。

通过计算支持度和置信度,可以找到具有较高置信度的关联规则。

常用的关联规则算法包括Apriori算法、FP-Growth算法和Eclat算法。

接下来将逐一介绍这些算法的使用方法。

二、Apriori算法1. Apriori算法基本原理Apriori算法是关联规则算法中最常用的一种算法。

它通过迭代的方式逐步生成频繁项集,然后根据频繁项集生成关联规则。

Apriori算法的基本原理如下:- 生成频繁1项集;- 循环生成候选k项集,并计算支持度;- 剪枝:删除支持度低于阈值的项集,得到k频繁项集;- 生成关联规则,并计算置信度。

2. Apriori算法使用步骤使用Apriori算法进行关联规则挖掘的步骤如下:- 输入数据集:准备一份包含项集的数据集;- 设置支持度和置信度的阈值;- 生成频繁1项集;- 根据频繁1项集生成2频繁项集;- 通过剪枝操作得到k频繁项集;- 根据频繁项集生成关联规则,并计算置信度;- 输出频繁项集和关联规则。

三、FP-Growth算法1. FP-Growth算法基本原理FP-Growth算法是一种高效的关联规则挖掘算法,它通过构建频繁模式树来快速发现频繁项集和关联规则。

FP-Growth算法的基本原理如下:- 构建FP树:将数据集构造成FP树,每个节点表示一个项,每个路径表示一条事务;- 构建条件模式基:从FP树中抽取频繁1项集,并构建条件模式基;- 通过条件模式基递归构建FP树;- 根据FP树生成关联规则。

数据挖掘关联规则

数据挖掘关联规则
5
基本概念
支持度s D中包含A和 B 的事务数与总的事务数的比

s( A B) || {T D | A B T}|| || D ||
规则 AB 在数据集D中的支持度为s, 其中s 表
示D中包含AB (即同时包含A和B)的事务的 百分率.
6
基本概念
可信度 c D中同时包含A和B的事务数与只包含A的事务 数的比值
c( A B) || {T D | A B T}|| || {T D | A T}||
规则 AB 在数据集D中的可信度为c, 其中c表示D
中包含A的事务中也包含B的百分率.即可用条件概率
P(B|A)表示. confidence(A B )=P(B|A) 条件概率 P(B|A) 表示A发生的条件下B也发生的
频繁模式: 数据库中出现频繁的模式 (项集,序列,等等)
3
基本概念
项集
I {i1, i2 ,..., im}
Transacti on-id
事务
TI
10
20
关联规则 A B
30
A I , B I , A B 40
Items bought A, B, C
A, C A, D B, E, F
证明:设n为事务数.假设A是l个事务的子集,若 A’ A , 则A’ 为l’ (l’ l )个事务的子集.因此, l/n ≥s(最小支持度), l’/n ≥s也成立.
9
Apriori 算法
Apriori算法是一种经典的生成布尔型关联规则的频 繁项集挖掘算法.算法名字是缘于算法使用了频繁项 集的性质这一先验知识.
事务数据集 (例如右图) D
事务标识 TID: 每一个事务关联着一个标识
4

数据挖掘4关联规则

数据挖掘4关联规则
l1[1]= l2[1]∧ l1[2]=l2[2]∧„„∧l1[k-2]=l2[k-2] ∧l1[k-1]<l2[k-1]
则 Lk-1 的元素 l1 和 l2 是可连接的。连接 l1 和 l2 产生的结果的项集 是 l1[1]l1[2]„„l1[k-1]l2[k-1]。
How to receive Lk from Lk-1?
例如人寿保险,一份保单就是一个事务。保险公司在接受保险前, 往往需要记录投保人详尽的信息,有时还要到医院做身体检查。保单 上记录有投保人的年龄、性别、健康状况、工作单位、工作地址、工 资水平等。这些投保人的个人信息就可以看作事务中的物品。通过分 析这些数据,可以得到类似以下这样的关联规则:
年龄在40岁以上,工作在A区的投保人当中,有45%的人曾经向 保险公司索赔过。在这条规则中,“年龄在40岁以上”是物品甲, “工作在A区”是物品乙,“向保险公司索赔过”则是物品丙。 可以看出来,A区可能污染比较严重,环境比较差,导致工作在 该区的人健康状况不好,索赔率也相对比较高。
4.1 关联规则概述 4.2 经典的关联规则挖掘算法
4.3 从事物数据库中挖掘多层关联规则
What Is Frequent Pattern Analysis?
Frequent pattern: a pattern (a set of items, subsequences, substructures, etc.) that occurs frequently in a data set First proposed by Agrawal, Imielinski, and Swami [AIS93] in the context of
1-项集,记为L1。
L1:面包,黄油

第4章-数据挖掘的主要方法---关联规则

第4章-数据挖掘的主要方法---关联规则
“如何将Apriori性质用于算法?” 为理解这一点,我们必须看看如何用Lk-1找Lk。 下面的两步过程由连接和剪枝组成。 1.连接步:为找Lk,通过Lk-1与自己连接产生候选k-项集的集合。该候选项集的集合 记作Ck。 2.剪枝步:Ck是Lk的超集;即,它的成员可以是,也可以不是频繁的,但所有的频 繁k-项集都包含在Ck中。 注意,Apriori算法使用逐层搜索技术,给定k-项集,我们只需要检查它们的(k-1)-子 集是否频繁。
10
关联规则挖掘路线
(3)根据规则描述内容所涉及的抽象层次进行分类划分 有些关联规则挖掘方法可以在不同的抽象层发现关联规则。 规则中涉及多个不同的抽象层,称所挖掘的规则集由多层关联规则组成。
Age(X,”30...34”) - >buys(X,”notebook_ computer”) Age(X,”30...34”) - >buys(X,”c规则所处理的具体值进行分类划分 如果规则考虑的关联是数据项的在与不在,则这种关联规则是一个布尔关联规则。 Computer- > financial_management_software [support=2%,confidence=60%] 如果规则描述的是定量数据项或属性之间的关联,则它是一个定量关联规则。在这 种规则中,数据项或属性的定量数值可以划分为区间范围。 age(X,"30...34") ∩income(X,"42K...48K") - > buys(X,“computer“)
6
关联规则简介
“如何由大型数据库挖掘关联规则?” 关联规则的挖掘是一个两步的过程: 1.找出所有频繁项集:根据定义,这些项集出现的频繁性至少和预定义的最小支持计 数一样。 2.由频繁项集产生强关联规则:根据定义,这些规则必须满足最小支持度和最小置信 度。 如果愿意,也可以使用附加的兴趣度度量。这两步中,第二步最容易。挖掘关联规 则的总体性能由第一步决定。

数据挖掘中的关联规则挖掘方法原理解析

数据挖掘中的关联规则挖掘方法原理解析

数据挖掘中的关联规则挖掘方法原理解析在当今信息爆炸的时代,数据已经成为了一种重要的资源。

然而,海量的数据中蕴藏着大量有价值的信息,如何从这些数据中提取出有用的知识成为了一个亟待解决的问题。

数据挖掘作为一种从大规模数据中自动发现隐藏模式、关系和规律的技术,逐渐成为了解决这个问题的有效手段之一。

其中,关联规则挖掘方法是数据挖掘中的一种重要技术,本文将对其原理进行解析。

关联规则挖掘方法是一种用于发现数据集中项之间的关联关系的技术。

它的核心思想是通过分析数据集中的频繁项集,来发现项之间的关联规则。

在关联规则中,一般由两个部分组成:前项和后项。

前项是关联规则中的条件,而后项是关联规则中的结论。

例如,在一个超市的购物记录中,{牛奶} -> {面包}就是一个关联规则,表示购买了牛奶的顾客也有很大可能购买面包。

关联规则挖掘方法的核心是发现频繁项集。

频繁项集指的是在数据集中经常同时出现的一组项的集合。

通过发现频繁项集,我们可以得到频繁项集的所有子集,从而构建关联规则。

关联规则挖掘方法一般包括两个步骤:生成候选项集和计算支持度。

在生成候选项集的过程中,我们需要遍历数据集中的所有项,找出所有可能的项集组合。

假设数据集中有n个项,那么在生成候选项集的过程中,我们需要遍历的项集数目将会是2的n次方减去1。

这个过程非常耗时,因此需要采用一些优化策略来减少计算量。

生成候选项集之后,我们需要计算每个候选项集的支持度。

支持度指的是一个项集在数据集中出现的频率。

通过计算支持度,我们可以筛选出频繁项集,即出现频率高于预设阈值的项集。

在计算支持度的过程中,我们可以利用一些数据结构和算法来加速计算,如哈希表和Apriori算法等。

通过上述步骤,我们可以得到频繁项集,从而构建关联规则。

在构建关联规则时,我们需要利用频繁项集的所有子集。

例如,对于频繁项集{牛奶, 面包},我们可以构建以下关联规则:{牛奶} -> {面包}和{面包} -> {牛奶}。

基于关联规则的数据挖掘方法

基于关联规则的数据挖掘方法数据挖掘是一种从大量数据中提取有用信息的过程,而关联规则是数据挖掘中常用的方法之一。

关联规则分析能够发现数据集中的频繁项集以及它们之间的关系,从而帮助我们理解数据背后的模式和规律。

本文将介绍基于关联规则的数据挖掘方法,并探讨其应用和局限性。

一、关联规则的基本概念关联规则是一种描述事物之间关系的规则,它通常采用“如果...那么...”的形式。

在关联规则中,一个项集被称为“前项”,另一个项集被称为“后项”,而规则的置信度则表示前项和后项之间的关联程度。

例如,假设我们有一个超市的交易数据集,其中包含了顾客购买的商品清单。

一条关联规则可以是:“如果顾客购买了牛奶和面包,那么他们也有可能购买黄油”。

在这个例子中,牛奶和面包是前项,黄油是后项,而规则的置信度则表示购买牛奶和面包的顾客中有多少比例也购买了黄油。

二、关联规则的挖掘过程关联规则的挖掘过程主要包括两个步骤:发现频繁项集和生成关联规则。

首先,我们需要找出频繁项集,即在数据集中经常出现的项集。

这一步骤通常采用Apriori算法,它通过迭代地生成候选项集,并使用支持度来筛选出频繁项集。

支持度表示一个项集在数据集中出现的频率,超过预设的最小支持度阈值的项集被认为是频繁项集。

接下来,我们可以根据频繁项集生成关联规则。

生成关联规则的过程涉及到计算规则的置信度,并根据预设的最小置信度阈值筛选出满足要求的规则。

一般来说,置信度高的规则更有意义,因为它们表示前项和后项之间的关联程度更强。

三、关联规则的应用关联规则的应用非常广泛,尤其在市场营销和推荐系统中有着重要的作用。

在市场营销中,关联规则可以帮助企业了解消费者的购买行为和偏好。

通过挖掘交易数据,企业可以发现哪些商品经常被一起购买,从而进行商品的搭配销售和促销活动。

例如,超市可以根据关联规则推荐给顾客购买牛奶的同时购买黄油,从而提高销售额。

在推荐系统中,关联规则可以用于个性化推荐。

通过分析用户的历史购买记录,系统可以挖掘出用户的偏好和习惯,然后根据这些关联规则向用户推荐相关的商品或服务。

数据挖掘中的关联规则挖掘算法

数据挖掘中的关联规则挖掘算法数据挖掘是通过对大量数据的分析和处理,发现其中隐藏的模式、关系和规律的过程。

而关联规则挖掘算法就是其中的一种重要方法,它帮助我们发现数据集中的频繁项集和关联规则。

一、关联规则挖掘算法简介关联规则挖掘算法是指在事务型数据中挖掘频繁项集和关联规则的方法。

频繁项集指的是在一组数据事务中频繁出现的项集,而关联规则则是指形如{A}→{B}的规则,其中A和B为项集。

常用的关联规则挖掘算法包括Apriori算法和FP-growth算法。

二、Apriori算法Apriori算法是最早被提出和广泛应用的关联规则挖掘算法之一。

它基于频繁项集的性质,使用候选集和剪枝策略来逐步生成频繁项集。

1. 候选集生成Apriori算法的第一步是生成候选集,即通过扫描数据集来获取初始的候选项集C1。

然后根据C1生成候选项集C2,再根据C2生成C3,以此类推,直到生成不再增长的候选集。

2. 剪枝策略在生成候选集的过程中,Apriori算法采用了一种称为“Apriori性质”的剪枝策略,即如果一个项集不是频繁的,那么它的超集也不是频繁的。

这样可以减少不必要的计算。

3. 频繁项集生成通过候选集生成步骤得到的候选集,通过扫描数据集来计算支持度,并筛选出频繁项集,即满足最小支持度阈值的项集。

4. 关联规则生成根据频繁项集,生成关联规则。

对于每个频繁项集,可以根据置信度阈值来筛选出满足条件的关联规则。

三、FP-growth算法FP-growth算法是一种用于挖掘频繁项集的高效算法。

它通过构建一种称为FP树的数据结构,显著减少了候选项集的生成和扫描数据集的次数。

1. 构建FP树FP-growth算法首先通过扫描数据集构建FP树。

FP树是一种前缀树,它通过链接相似的项集,将频繁项集的信息压缩到了树中。

2. 构建条件模式基通过FP树,可以获取每个项集的条件模式基。

条件模式基是指以某个项集为后缀的路径集合。

3. 递归挖掘频繁项集利用条件模式基,可以递归地挖掘频繁项集。

数据挖掘中的关联规则与分类算法

数据挖掘中的关联规则与分类算法在当今信息爆炸的时代,数据量呈指数级增长,对海量数据的处理成为了一项重要的任务。

数据挖掘技术应运而生,成为了解决大数据分析和应用的重要手段之一。

而在数据挖掘的领域中,关联规则与分类算法是两个常用且核心的技术。

一、关联规则关联规则是数据挖掘中用于发现不同变量之间关联关系的方法。

其核心思想是通过挖掘数据集中的频繁项集,进而发现项集之间的关联规则。

关联规则通常由两个部分组成:前项和后项。

例如,在超市购物数据中,一条关联规则可以表示为“牛奶→面包”,其中“牛奶”为前项,而“面包”为后项。

关联规则的发现对于销售策略的制定具有重要意义。

根据关联规则的挖掘结果,超市可以制定相关的促销措施,比如在购买牛奶的同时推荐购买面包。

关联规则的挖掘需要通过计算支持度和置信度来确定其有效性。

支持度表示几个项同时出现的概率,而置信度则表示包含前项的项集中同时包含后项的概率。

通过设定支持度和置信度的阈值,可以筛选出具有一定关联性的规则。

二、分类算法分类算法是数据挖掘中用于根据已知类别的样本数据来构建分类模型的方法。

分类模型可以根据样本的特征向量来判断其所属类别。

分类算法通过将样本数据划分到不同的类别中,从而实现对未知样本的分类预测。

常见的分类算法包括决策树、朴素贝叶斯、支持向量机等。

决策树是一种通过根据样本的特征来进行判断的树状结构。

它根据样本数据的属性值创建一系列判定条件,通过不断划分样本空间,最终得到一个判定类别的模型。

朴素贝叶斯算法则基于贝叶斯定理和特征之间的条件独立性假设,利用样本数据的概率分布来判断其所属类别。

支持向量机算法通过将样本映射到高维空间,构建超平面实现对不同类别的判别。

分类算法的选择需要根据实际应用场景和数据特点来确定。

不同的算法在不同的数据集上的表现也会有所不同。

因此,在进行分类算法选择的时候,需要充分考虑数据的特性和问题需求。

三、关联规则与分类算法的应用关联规则和分类算法在实际应用中可以相互结合,发挥出更大的作用。

数据挖掘关联规则算法

数据挖掘关联规则算法一、前言数据挖掘是当今信息时代的重要技术之一,其应用范围涉及到金融、医疗、电商等多个领域。

关联规则算法是其中的一种经典算法,能够从大量数据中挖掘出有用的关联规则,为决策提供依据。

本文将详细介绍关联规则算法的相关知识和应用。

二、概述1. 关联规则算法定义关联规则算法是指在大量数据中寻找出现频率较高的事件之间的关系,并以此形成一组规则。

这些规则可以帮助我们了解事物之间的联系,从而更好地进行决策。

2. 关联规则算法原理关联规则算法主要包含两个步骤:频繁项集生成和关联规则生成。

频繁项集生成是指在数据集中寻找出现频率较高的项集;而关联规则生成是指根据频繁项集生成满足置信度要求的强关联规则。

3. 关联规则算法应用关联规则算法在市场营销、商品推荐、医学诊断等领域都有广泛应用。

例如,在电商平台上,通过分析用户购买行为,可以挖掘出用户的购买偏好,从而推荐相关商品。

三、频繁项集生成1. Apriori算法Apriori算法是关联规则算法中最经典的一种算法。

该算法采用迭代的方式,从单个项开始逐步生成频繁项集。

具体步骤如下:(1)扫描数据集,统计每个项的支持度。

(2)对于支持度大于等于阈值的项,将其组成一个频繁1-项集。

(3)根据频繁1-项集生成候选2-项集,并统计其支持度。

(4)对于支持度大于等于阈值的2-项集,将其组成一个频繁2-项集。

(5)重复以上步骤,直到不能再生成更多的频繁k-项集为止。

2. FP-growth算法FP-growth算法是一种基于树结构的快速关联规则挖掘算法。

该算法通过构建一个FP树来实现高效地挖掘频繁模式。

具体步骤如下:(1)扫描数据集,统计每个项的支持度,并按照支持度降序排列。

(2)基于排序后的数据集构建FP树。

(3)从FP树中选取出现次数最多的项作为条件模式基,生成条件FP 树。

(4)递归地对条件FP树进行构建,直到不能再生成更多的频繁项集为止。

四、关联规则生成1. 置信度置信度是指在一个规则中,前提发生的情况下结论发生的概率。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
两个或两个以上变量的取值之间存在某种规律性,就称为关联。 数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为 简单关联、时序关联和因果关联。
关联分析的目的:找出数据库中隐藏的关联网。一般用Support(支 持度)和Confidence(可信度)两个阀值来度量关联规则的相关性,引入 lift(提高度或兴趣度)、相关性等参数,使得所挖掘的规则更符合需求。
2、由频繁项集产生强关联规则(Association Rules ),根据定义,这些规则 必须满足最小支持度和最小置信度。
关联规则挖掘的第一阶段必须从原始资料集合中,找出所有高频项 目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有 记录而言,必须达到某一水平。一项目组出现的频率称为支持度(Suppor t),以一个包含A与B两个项目的2-itemset为例,我们可以经由公式(1)求得 包含{A,B}项目组的支持度,若支持度大于等于所设定的最小支持度(Min imum Support)门槛值时,则{A,B}称为高频项目组。一个满足最小支持度 的k-itemset,则称为高频k-项目组(Frequent k-itemset),一般表示为Large k 或Frequent k。算法并从Large k的项目组中再产生Large k+1,直到无法再 找到更长的高频项目组为止。
注:关联规则挖掘通常比较适用与记录中的指标取离散值的情况。 如果原始数据库中的指标值是取连续的数据,则在关联规则挖掘之 前应该进行适当的数据离散化(实际上就是将某个区间的值对应于 某个值),数据的离散化是数据挖掘前的重要环节,离散化的过程 是否合理将直接影响关联规则的挖掘结果。
四、关联规则的分类
按照不同情况,关联规则可以进行分类如下:
三、关联规则挖掘的过程
关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。从 高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规 则,在最小信赖度(Minimum Confidence)的条件门槛下,若一规则所 求得的信赖度满足最小信赖度,称此规则为关联规则。例如:经由 高频k-项目组{A,B}所产生的规则AB,其信赖度可经由公式(2)求得, 若信赖度大于等于最小信赖度,则称AB为关联规则。
Confidence=p(condition and result)/p(condition)。
(2)
如:If B and C then A。则它的可信度Confidence=p(B and C and A)/p(B and C)。 把满足最小支持度阈值和最小置信度阈值的规则成为强规则。项的集合
称为项集(itemset),包含K个项集称为K-项集,如果项集满足最小支持 度,则称它为频繁项集。
另外,关联规则也可以服务于Cross-sale。服务业的激烈竞争使得公司留住老 顾客和吸引新顾客一样重要。通过分析老顾客的购买记录,了解他们的产品消费 偏好,给他们提供其它产品的优惠及服务,这样不但能留住他们还可以使他们逐 渐熟悉另外的产品,公司从而以尽快的速度获得利润。 Cross-sale就是试图让一 种产品的固定购买客户购买另一种产品。但大公司的顾客购买数据库很大,人工 分析是很难的,关联规则挖掘技术可以结合专家从大型数据库中发现有用知识, 来帮助领域专家做出决策。
一、关联规则概念
规则就是一个条件和一个结果的和:If condition then result。
1. Support(支持度):是一个元组在整个数据ion and result )。
(1)
如 :if A then B。则它的支持度Support=P(A and B) 2. Confidence(可信度):它是针对规则而言的。
关联技术不但在商业分析中得到了广泛的应用,在其它领域也得到了应用, 包括工程、医疗保健、金融证券分析、电信和保险业的错误校验等。
三、关联规则挖掘的过程
关联规则的挖掘可以发现大量数据中数据项集之间有趣的关联。而核 心就是识别或发现所有频繁项目集。
关联规则的挖掘是一个两步的过程:
1、找出所有频繁项集(Frequent Itemsets);
二、关联规则应用领域
目前,关联技术的主要应用领域是商业,它的主要挖掘对象是事务数据库。 利用关联技术从交易数据库发现规则的过程称为购物篮分析(Market Basket Analysis)。通过对商业数据库中的海量销售记录进行分析,提取出反映顾客购 物习惯和偏好的有用规则(或知识),可以决定商品的降价、摆放以及设计优惠 券等。当然也可以把得到的信息应用到促销和广告中,例如,关联规则中所有后 项为“Diet Coke”的规则可能会给商店提供出信息:什么会促使Diet Coke大量售 出。
3. Lift(提高率或兴趣度):使得所挖掘的规则更符合需求。
Lift=p(condition and result)/(p(condition)*p(result))。
(3)
当Lift大于1的时候,这条规则就是比较好的;当Lift小于1的时候,这条规则 就是没有很大意义的。 Lift越大,规则的实际意义就越好。
1.基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。
布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值 型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行 动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变 量。例如:性别=“女”=>职业=“秘书” ,是布尔型关联规则;性别=“女”=>avg(收 入)=2300,涉及的收入是数值类型,所以是一个数值型关联规则。
一、关联规则概念 二、关联规则应用领域 三、关联规则挖掘的过程 四、关联规则的分类 五、关联规则挖掘的相关算法 六、关联规则的优缺点
一、关联规则概念
关联分析(Association analysis):就是从给定的数据集发现频繁出 现的项集模式知识(又称为关联规则,association rules)。
相关文档
最新文档