商务智能理论与应用7-关联规则

合集下载

商务智能方法与应用

商务智能方法与应用

1 数据挖掘概述1.1数据挖掘的概念数据挖掘(Data Mining) 是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测。

它是一个多步骤的对大量数据进行分析的过程,它在自身发展的过程中,吸收了数据库、数理统计和人工智能中的大量技术,是一种利用信息资源的有效方法。

数据挖掘的功能用于指定数据挖掘任务中要找的模式类型。

一般来说数据挖掘任务可被分成描述和预测两类:“描述性挖掘任务刻划数据库中数据的一般特性;预测性任务则在当前数据上进行推断,以进行预测。

”一般通过概念分类描述、关联分析、分类和预测、聚类分析等方法去实现。

1.2 数据挖掘的方法利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。

1.2.1 分类分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。

它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。

1.2.2 回归分析回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。

它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。

1.2.3 聚类分析聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。

它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。

2019商务智能原理与基础之关联规则-精品文档

2019商务智能原理与基础之关联规则-精品文档

标识TID。对于任意非空项集A(A I ),如果记录T包含
A,则称记录T支持项集A。如果项集A中包含k个项目,则 称其为k项集。
标识TID 苹果,橘子,香 蕉,梨,西瓜 1 2 3 2019/3/12 项目子集 苹果 橘子,香蕉 梨,西瓜,香蕉
版权所有,不得翻印
橘子
梨,香蕉
第5页
商务智能原理与方法
……
购买羽毛球拍的顾客通常也购买浴巾,这种关联关系可以用:羽毛球拍=>浴巾这样的 关联规则来表示,这样的规则在数据库中是否有代表性,重要性及有用性,需要多个 步骤来评判。 2019/3/12
版权所有,不得翻印
第4页
商务智能原理与方法
关联规则的基本概念(1)

设I={i1, i2,…, im}为所有项目的集合,D为事务数据库,事 务T是一个项目子集(TI)。每一个事务具有唯一的事务

2019/3/12
版权所有,不得翻印
第10页
商务智能原理与方法
发现关联规则需要经历两个步骤,每一个步骤都对应规则生成过程中两大问题 种的一个
发现关联规则需要经 历两个步骤
找出所有频繁项集。这 项工作极具挑战性。
频繁项集生成满足最 小信任度阈值的规则
规则的生成过程存在两个大问题 规则数量问题 2019/3/12
6/9 2/9
1/9
4/9
2019/3/12
版权所有,不得翻印
第9页
商务智能原理与方法
案例总结

如果指定一对项集X和Y,并且要求验证X=>Y在数据集T上 是否为一个合格关联规则,那么人们可以直接根据上述定义 来计算X=>Y的支持度和置信度,并且通过与给定的阈值进行 比较来判断。 这与很多模型驱动的方法类似,比如给定一个线性回归模型: Y=a+bX+ ε ,人们可以通过已经知道的数据来判断模型与数 据的符合程度。

商务智能理论与应用7-关联规则

商务智能理论与应用7-关联规则

19
2019/11/30
1、算法所需要的前置统计量:
关联规则计算虽然容易但由于规则太多容易 形成“组合爆炸”,因此,需要对这些规则 进行筛选,筛选需要的统计量如下:
最小支持度:规则必须符合的最小支持度阀 值。
最小置信度:计算规则所必须符合的最低置 信度阀值。
如果关联规则满足最小支持度和最小置信度 ,可以说该规则是有趣的。
20
2019/11/30
2、频繁项集
项的集合称为项集(itemset) 包含k个项的项集称为k-项集。集合{计算
机,金融管理软件}就是一个2-项集。 项集出现频数是包含项集的事务数,简称
为项集的频数、支持计数或计数。
21
2019/11/30
如果项集满足最小支持度或满足min_sup 与数据库中事务总数的乘积(即最小支持 计数),则称它为频繁项集(frequent itemset)。
合计
10 540 460
1000
8
规则“夹克→球鞋”的计算
sup( X 21 Y11) P( X 21
Y11)

400 1000

40%
confidence( X 21 Y11) P(Y11 | X 21) P( X 21 Y11) 400 74.1%
P( X 21) 540
例:L3={abc, abd, acd, ace, bcd} 连接: L3*L3
abcd from abc and abd acde from acd and ace
修剪:
acde is removed because ade is not in L3
C4={abcd}

关于商务智能复习题

关于商务智能复习题

一、选择题(本题共5道小题,每小题2分,共10分)1. 数据仓库是随着时间变化的,下面的描述不正确的是( C )。

A. 数据仓库随时间的变化不断增加新的数据内容B. 捕捉到的新数据会覆盖原来的快照C. 数据仓库随事件变化不断删去旧的数据内容D. 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合2. 有关数据仓库的开发特点,不正确的描述是( B )。

A. 数据仓库使用的需求在开发初期就要明确B. 数据仓库开发要从数据出发C. 数据仓库的开发是一个不断循环的过程,是启发式的开发D. 在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式3. 在有关数据仓库测试,下列说法不正确的是( D )。

A. 在完成数据仓库的实施过程中,需要对数据仓库进行各种测试。

测试工作中要包括单元测试和系统测试。

B. 当数据仓库的每个单独组件完成后,就需要对他们进行单元测试。

C. 系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试。

D. 在测试之前没必要制定详细的测试计划。

4. 关于基本数据的元数据是指( D )。

A. 基本元数据与数据源、数据仓库、数据集市和应用程序等结构相关的信息B. 基本元数据包括与企业相关的管理方面的数据和信息C. 基本元数据包括日志文件和简历执行处理的时序调度信息D. 基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息6. 下面关于数据粒度的描述不正确的是( C )。

A. 粒度是指数据仓库小数据单元的详细程度和级别B. 数据越详细,粒度就越小,级别也就越高C. 数据综合度越高,粒度也就越大,级别也就越高D. 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量6. 关于OLAP的特性,下面正确的是:( D )(1)快速性(2)可分析性(3)多维性(4)信息性(5)共享性A. (1) (2) (3)B. (2) (3) (4)C. (1) (2) (3) (4)D. (1) (2) (3) (4) (5)7. 关于OLAP和OLTP的区别描述,不正确的是:( C )A. OLAP主要是关于如何理解聚集的大量不同的数据,它与OTAP应用程序不同。

商务智能复习资料(必读)

商务智能复习资料(必读)

商务智能复习纲要第1章 商务智能概述1.1 商业决策需要商务智能一、数据、信息和知识1、数据:符号、事实和数字 信息:有用的数据 关系:信息是经过某种加工处理后的数据,是反映客观事物规律的一些数据。

数据是信息的载体,信息是对数据的解释。

知识:对信息内容进行提炼、比较、挖掘、分析、概括、判断和推论。

2、决策离不开信息、知识①决策需要信息,更离不开知识;知识更多地表现为经验--学习的结晶;学习的过程是不断地对信息加工处理;信息的收集、加工、传输与利用贯穿着决策各阶段的工作过程。

②信息已成为企业经营中重要性仅次于人才的第二大要素。

③决策=信息+经验+冒险④商务智能是对企业信息的科学管理。

3、商务智能支持商业决策商务智能如何创造知识和价值1.2 商务智能简介商务智能这一术语1996年由 Gartner 公司的分析师Howard Dresner 首次提出,他提出商务智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。

一、商务智能概念事物运动 数据 信息记录解释商务智能是整合了先进信息技术与创新管理理念的结合体,集成了企业内外的数据,进行加工并从中提取能够创造商业价值的信息,面向企业战略并服务于管理层、业务层,指导企业经营决策,提升企业竞争力,涉及企业战略、管理思想、业务整合和技术体系等层面,促进信息到知识再到利润的转变,从而实现更好的绩效。

①先进信息技术:商务智能是多项技术的综合应用;②集成了企业内外的数据,进行加工并从中提取能够创造商业价值的信息:商务智能的层次;③企业战略:商务智能服务于企业战略;④管理层、业务层:商务智能用户多样性;⑤更好的绩效:商务智能提升企业绩效。

二、商务智能的价值1、在商务智能背后有一些商业驱动力,如:①增加收入,减少费用和更有效地竞争的需求。

②管理和模拟当前商业环境复杂性的需求。

③减少IT费用和利用已有公司业务信息的需求。

2、商务智能的价值①制定合适的市场营销策略;②改善顾客智能;③经营成本与收入分析;④提高风险管理能力;⑤改善业务洞察力;⑥提高市场响应能力。

06 商务智能 关联规则

06 商务智能 关联规则

商务智能洪志令大纲1、关联规则简介2、关联规则的挖掘原理3、关联规则的挖掘过程4、关联规则的兴趣度5、Apriori算法的基本思想6、Apriori算法程序7、Apriori算法的缺陷8、基于FP-tree的关联规则挖掘算法9、关联规则的可视化1、关联规则简介•集合论原理用于关联规则挖掘时,是计算数据项(如商品)集在整个集合中和相关集合中所占的比例,大于阈值(支持度和可信度)时构成数据项之间关联规则。

•关联规则(Association Rule)挖掘是发现大量数据库中项集之间的关联关系。

•从大量商业事务中发现有趣的关联关系,可以帮助许多商业决策的制定,如分类设计、交叉购物等。

•Agrawal等人于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题。

2、关联规则的挖掘原理•关联规则是发现交易数据库中不同商品(项)之间的联系,这些规则找出顾客购买行为模式。

–例1:在购买铁锤的顾客当中,有70%的人同时购买了铁钉。

–例2:年龄在40 岁以上,工作在A区的投保人当中,有45%的人曾经向保险公司索赔过。

•基本原理:设I={i1,i2,…,i m}是项(Item)的集合。

记D为事务(Transaction)的集合(事务数据库),事务T是项的集合,并且T⊆I。

定义1:关联规则是形如A →B的蕴涵式,这里A ⊂I,B ⊂I,并且A ∩B=Φ。

定义2:规则的支持度规则A →B在数据库D中具有支持度S,表示S是D中事务同时包含AB的百分比,它是概率P(AB),即:其中|D|表示事务数据库D的个数,表示A、B两个项集同时发生的事务个数。

定义3:规则的可信度规则A →B具有可信度C,表示C是包含A项集的同时也包含B项集,相对于包含A 项集的百分比,这是条件概率P(B|A),即:其中表示数据库中包含项集A的事务个数。

|D ||AB |P(AB)B) (A ==→S |A ||AB |)|()B A (==→A B P C定义4:阈值在事务数据库中找出有用的关联规则,需要由用户确定两个阈值:最小支持度(min_sup)和最小可信度(min_conf)。

【精品推荐】数据挖掘与商务智能 关联规则PPT 课件教案讲义(获奖作品) 图文

3.设定最小提升度的阈值。对第2)步进行计算,求出满足提升度条件的强关 联规则,作为最后的关联规则的模型结果。
Apriori算法的R代码
library(arules) data(Groceries) inspect(Groceries) #查看数据内容 freq=eclat(Groceries,parameter = list(support=0.05,maxlen=10)) inspect(freq) #查看频繁项集情况 model=apriori(Groceries,parameter=list(support=0.01,confidence=0.5)) summary(model) inspect(model) inspect(sort(model,by="support")[1:10]) inspect(subset(model,subset=rhs%in%"whole milk"&lift>=2.2))# 被 关 联 项 是 whole
关联规则主要用来发现Pattern,最经典的应用是购物篮分析,当然 其他类似于购物篮交易数据的案例也可以应用关联规则进行模式发 现,如电影推荐、约会网站或者药物间的相互副作用。
【原创】定制代写开发
r/python/spss/matlab/W
EKA/sas/sql/C++/stata/e
views/Computer science assignment代写/代做 Project/数据挖掘和统计 分析可视化调研报告/ 程序/PPT等/爬虫数据采 集服务(附代码数据), 登陆官网:
/datablog
一般在数据挖掘中当提升度
大于3时,我们才承认挖掘出 的关联规则是有价值的。

商务智能方法与应用(信管)教学大纲

《商务智能方法与应用》课程教学大纲课程代码:040642711课程英文名称:Business intelligence methods and Applications课程总学时:32 讲课:24 实验:8 上机:0适用专业:信息管理与信息系统大纲编写(修订)时间:2017.06一、大纲使用说明(一)课程的地位及教学目标商务智能方法与应用是信息管理与信息系统专业开设的一门培养学生商务智能能力的专业必修课,主要讲授商务智能基本理论、常用的商务智能方法、数据预处理技术、数据仓库概念和技术、多维数据模型技术及OLAP理论及工具,结合实例,介绍了商业智能在行业中的应用状况、案例与主流工具。

本课程在教学内容方面除基本知识、基本理论和基本方法的教学外,通过实例介绍、讨论和实验,着重培养信息时代下学生的商务智能能力。

通过本课程的学习,学生将达到以下要求:1. 掌握商务智能基本理论2. 掌握数据仓库概念和技术3. 掌握常用的商务智能方法4. 掌握多维数据模型技术及OLAP理论及工具5. 熟悉商务智能领域主流产品及工具6. 能够运用本课所学知识,使用商务智能技术辅助业务分析(二)知识、能力及技能方面的基本要求本课程要求学生掌握商务智能的最基本内容,包括商务智能内涵、数据仓库模型、在线分析处理、决策树、聚类、关联分析等知识,初步具备利用商务智能技术进行业务分析的技能。

(三)实施说明1.教学方法:课堂讲授中要重点对基本概念、基本方法的讲解;采用启发式教学、案例教学,培养学生思考问题、分析问题和解决问题的能力;引导和鼓励学生通过实践和自学获取知识,培养学生的自学能力和动手能力;通过实验巩固理论知识。

2.教学手段:在教学中采用电子教案、商务智能系统等先进教学手段,以确保在有限的学时内把课程最基本的内容介绍给学生。

(四)对先修课的要求考虑到商务智能的跨学科性(统计学、人工智能和数据库),学习本课程前需要有一定的统计学、数据库系统等课程基础。

商务智能填空题

填空题(5*2,10分)
1.商务智能涉及企业战略、组织、功能、技术、业务五个层面。

2.商务智能的价值体现在它应用于管理过程,并对企业的日常运营产生积极的影响。

3.数据仓库是一个面向主题的、集成的、时变得、不可更新的用于进行管理决策的数据集合。

4.数据进入数据仓库主要分为3个步骤提取、清洗和转换、装载。

5.OLAP技术有两个主要的特点:在线性、多维分析。

6.聚类和分类都是对数据进行分组,不同的是分类是有指导的学习,而聚类是无指导的学习。

7.关联规则挖掘是指发现大量数据中的项集之间有趣的关联,它被大量应用于购物篮分析。

8.商务智能的分析应该是自顶向下的。

9.商务智能的实施是为了实现企业的商业目标,所以应该针对企业的关键商业问题来实施。

10.商务智能产品选择的原则是适用性优先、考虑总成本、服务与产品同等重要。

商务智能原理及方法-商务智能简介


潜在新颖性:商务智能通过数据挖 掘所获得的知识是非显见的,而且 是新颖的。
知识有用性:通过商务智能得到的 知识是用于业务运作和管理决策的。 也就是说,所发现的知识的有用性 通常与应用环境有关。
商务智能原理与方法
目 录
一. 引言
1. 商务智能简介
2. 商务智能与信息社会
3. 商务智能与企业管理
4. 商务智能与数据挖掘 5. 商务智能与新技术融合 6. 小结及练习
Gartner Group
微软
Oracle
商务智能就是在核实的时间提供核实的数据访问以制定正确的决策
课本
商务智能是一个从大规模(海量)数据中发现潜在的、新颖的、有用的知识的过程, 旨在支持组织的业务运作和管理决策。
商务智能原理与方法
企业对信息资源开发与利用要求的提升,促使了商务智能的发展。
1、数据应当得到有效的管理和组织,才能通过系统化得应 用,服务于组织的管理和决策 信息资源的开发与利用包含两个层面的 含义 2、对信息资源的利用存着一个由浅入深,由单一到综合的 过程
商务智能原理与方法
新兴技术与新兴应用的不断涌现,创造了一个动态变化的商务环境,在这样的 形势下,商务智能领域的创新业不断加速,并越来越与企业系统、电子商务系 统、知识管理系统、web2.0等各种类型的技术及应用融合在一起(1)
商务智能原理与方法
与新技术融合(2)
商务智能原理与方法
与新技术融合(3)
1
基于目标的管理:能计算跨组织的绩效目标
2
基于异常的管理:检测实际指标与计划目标之间的偏差
3
基于事实的管理:将企业目标与事实结合
4
基于智能协同的管理:实现企业内部与外部资源的协同
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如,日本7-11相当著名的“七五三”规则。即是说 如果一天当中温度相差7度、今天和昨天的温度 差到5度、湿度差大于30%的话,代表感冒的人会 增加,药店就要考虑把感冒药、温度计和口罩之 类的用品上架。
2020/9/2
三、 关联规则的挖掘
2020/9/2
(一)关联规则挖掘的步骤
第一步:找出所有频繁项集:根据定义, 这些项集出现的频繁性(支持度)至少和 预定义的最小支持度一样。
2020/9/2
二、关联规则的分类与作用
1、关联规则的分类
2020/9/2
布尔型关联规则与数值型关联规则
布尔型关联规则处理的值都是离散的、种类化的,它 显示了这些变量之间的关系;
数值型关联规则可以和多维关联或多层关联规则结合 起来,对数值型字段进行处理,将其进行动态的分割 ,或者直接对原始的数据进行处理,当然数值型关联 规则中也可以包含种类变量。
买啤酒的 客户
买尿布的客户
A
A∩B B
二者都买 20的20/9客/2 户
1、置信度
置信度confidence(.):是指购物篮分析 中有了左边商品,同时又有右边商品的交 易次数百分比,也就是说在所有的购买了 左边商品的交易中,同时又购买了右边商 品的交易概率。
2020/9/2
2、支持度
支持度sup(.):表示在购物篮分析中同时 包含关联规则左右两边物品的交易次数百 分比,即支持这个规则的交易的次数百分 比。
最小支持度:规则必须符合的最小支持度阀 值。
最小置信度:计算规则所必须符合的最低置 信度阀值。
➢如果关联规则满足最小支持度和最小置信度 ,可以说该规则是有趣的。
2020/9/2
2、频繁项集
项的集合称为项集(itemset) 包含k个项的项集称为k-项集。集合{计算
机,金融管理软件}就是一个2-项集。 项集出现频数是包含项集的事务数,简称
2020/9/2
表3
运动鞋Y1
单独 购买
合计
球鞋Y11 慢跑鞋Y12
衬衣X1
10 10
上衣X 外套 夹克X21
1
X2 滑雪衫X22
1
0
0
1
898Leabharlann 0 899单独购买 合计0
90
0 90
2
988
10 1000
存在的问题:
1.高置信度,低支持度: 夹克球鞋”的置信度高达100%,但因
为只有一人买了球鞋,这条关联规则支持 度只有千分之一。 2.支持度、置信度都比较高,但几乎是没 有作用的规则。 “买方便面则买牛奶”,“买牙刷则买牛 奶”,“喜欢野外休闲则会买牛奶”。
第二步:由频繁项集产生强关联规则:根 据定义,这些规则必须满足最小支持度和 最小置信度。
2020/9/2
(二)Apriori演算法
➢ 对于一个给定的候选数据集,项集的数目呈指数增长 。
2020/9/2
1、算法所需要的前置统计量:
➢关联规则计算虽然容易但由于规则太多容易 形成“组合爆炸”,因此,需要对这些规则进 行筛选,筛选需要的统计量如下:
真正可取的规则具备的条件
并非所有的规则在符合阀值限制后都是有意义 的,这样的规则还分为: 有用的规则:包含高品质的有效情报 常识 无法解释的结果
关联规则真正可取的是具备以下两个条件的规 则: 人们常识之外、意料之外的关联 该规则必须具有潜在的作用
2020/9/2
5、案例
2020/9/2
2020/9/2
如果关联规则中的项或属性每个只涉及一个维,则 它是单维关联规则;反之,为多维关联规则。 如,计算机→财务软件; 年龄30~39岁、月收入4000元以上→高清电视
如果在给定的规则集中,规则不涉及不同抽象层的 项或属性,就称单层关联规则;反之,称多层。
2020/9/2
2、关联规则的作用
2020/9/2
例:
➢对于规则A C
➢support = support({A, C}) = 50% ➢confidence = support({A, C})/support({A}) = 66.6%
2020/9/2
表1
交易项目 夹克,球鞋 滑雪衫,球鞋 夹克,滑雪衫,球鞋 球鞋 慢跑鞋 夹克,慢跑鞋 滑雪衫,慢跑鞋 衬衣 夹克 滑雪衫 合计
关联规则与时序规则相结合(不能匿名,适合会员制)。
先找出来哪些事务总是同时发生的关联规则,再加入时间的 因素,找出哪些事务总是会先后发生的潜在规律。
2020/9/2
另外,只有同一个购物篮的商品信息能够分析的项 目也很有限,因此,可以将气象资讯(温度、湿度 、降雨)等转换为虚拟的商品项目,并入到购物篮 中进行关联规则的分析。
21001030个候选集
多次扫描数据库:
如果最长的模式是n的话,则需要(n+1)次数据库扫描
2020/9/2
(四)负关联规则挖掘
正确吗?
2020/9/2
为项集的频数、支持计数或计数。
2020/9/2
如果项集满足最小支持度或满足min_sup 与数据库中事务总数的乘积(即最小支持 计数),则称它为频繁项集(frequent itemset)。
频繁k-项集的集合通常记作Lk。
2020/9/2
例:
最小支持度 50% 最小可信度 50%
对于A C:
成交次数 300 100 100 50 40 100 200 10 40 60 1000
上衣 X
表2
衬衣X1 夹克X21
外套X2 滑雪衫 X22
单独购买
合计
运动鞋Y1
球鞋Y11
慢跑鞋 Y12
400
100
200
200
50
40
650
340
单独 购买
10 40 60
合计
10 540 460
1000
规则“夹克→球鞋”的计算
2020/9/2
(三)Apriori够快了吗? —性能瓶颈
Apriori算法的核心:
用频繁的(k– 1)-项集生成候选的频繁k-项集 用数据库扫描和模式匹配计算候选集的支持度
Apriori的瓶颈:候选集生成
巨大的候选集:
104个频繁1-项集要生成107个候选2-项集 要找尺寸为100的频繁模式,如{a1,a2, …,a100},你必须先产生
➢ 购物篮分析:关联规则就是要找出哪些产品总是会同时出 现在客户的购物篮中。
商品摆放,基于商店不同的经营理念,如果将会经常一起 购买的东西较近摆放,客户会比较方便购买,如果有意放 在购物通道的两端,顾客寻找的过程中可以增加其他物品 销售的可能性。
关联规则可以处理所谓的匿名消费。(一张发票就是一个 购物篮——与决策树和类神经网络不同。)
为什么只 有一项?
C3
扫描D L3
2020/9/2
Apriori——剪枝 频繁项集的任何子集也一定是频繁的。
例:L3={abc, abd, acd, ace, bcd} 连接: L3*L3
abcd from abc and abd
acde from acd and ace
修剪:
acde is removed because ade is not in L3
商务智能理论与应用7关联规则
2020/9/2
一、关联规则的定义
关联规则一般用以发现事务数据库中 不同商品(项)之间的联系,用这些 规则找出顾客的购买行为模式。
这种规则可以应用于超市商品货架设 计、货物摆放以及根据购买模式对用 户进行分类 。
2020/9/2
二、关联规则:基本概念
(一)支持度与置信度
它使用一种称作逐层搜索的迭代方法,k-项集用 于探索(k+1)-项集。首先,找出频繁1-项集的集合 。该集合记作L1。 L1用于找频繁2-项集的集合L2 ,而L2用于找L3,如此下去,直到不能找到频繁k项集。找每个Lk需要一次数据库扫描。
2020/9/2
例1
数据库D C1
L1
扫描D
C2
C2
L2
扫描D
2020/9/2
以例3为例,看其中一个频繁项集l={I1,I2,I5},可 以由l产生哪些关联规则?l的非空子集有 {I1,I2}{I1,I5}{I2,I5}{I1}{I2}{I5}。结果关联规则如 下,每个都列出了置信度。
如果最小置信度阀值为70%,则只有第2、3和最后 一个规则可以输出。
2020/9/2
C4={abcd}
2020/9/2
例3:
3、Apriori算法的实现过程
2020/9/2
4、由频繁项集产生关联规则
一旦找出频繁项集,再通过最小置信度产生关联 规则。
关联规则的产生步骤如下: 对于每个频繁项集l,产生l的所有非空子集。 对于l的每个非空子集s,如果
则输出规则“s→(l-s)”。
support = support({A、C}) = 50% confidence = support({A、C})/support({A}) = 66.6%
2020/9/2
4、Apriori算法:使用候选项集找频繁项集
Apriori算法是一种最有影响的挖掘布尔关联规则 频繁项集的算法。
算法的名字基于这样的事实:算法使用频繁项集 性质的先验知识。
相关文档
最新文档