第4章_关联规则

合集下载

python数据分析课后习题精选全文完整版

python数据分析课后习题精选全文完整版

python数据分析课后习题B. 数据合并按照合并轴⽅向主要分为左连接、右连接、内连接和外连接C. 预处理过程主要包括数据清洗、数据合并、数据标准化和数据转换,它们之间存在交叉,没有严格的先后关系D. 数据标准化的主要对象是类别型的特征3. (单选题)以下关于缺失值检测的说法中,正确的是(B)。

A. null 和 notnull 可以对缺失值进⾏处理B. dropna⽅法既可以删除观测记录,亦可以删除特征C. fillna⽅法中⽤来替换缺失值的值只能是数据框D. pandas 库中的interpolate 模块包含了多种插值⽅法4. (单选题)关于标准差标准化,下列说法中错误的是(B)。

A. 经过该⽅法处理后的数据均值为0,标准差为1B. 可能会改变数据的分布情况C.Python中可⾃定义该⽅法实现函数:def StandardScaler(data):data=(data-data.mean())/data.std()return dataD. 计算公式为X*=(X-`X)/σ5. (单选题)以下关于pandas数据预处理说法正确的是(D)。

A. pandas没有做哑变量的函数B. 在不导⼈其他库的情况下,仅仅使⽤pandas 就可实现聚类分析离散化C. pandas 可以实现所有的数据预处理操作D. cut 函数默认情况下做的是等宽法离散化6. (单选题)以下关于异常值检测的说法中错误的是(D)。

A. 3σ原则利⽤了统计学中⼩概率事件的原理B. 使⽤箱线图⽅法时要求数据服从或近似服从正态分布C. 基于聚类的⽅法可以进⾏离群点检测D. 基于分类的⽅法可以进⾏离群点检测7. (单选题)有⼀份数据,需要查看数据的类型,并将部分数据做强制类型转换,以及对数值型数据做基本的描述性分析。

下列的步骤和⽅法正确的是(A)。

A. dtypes 查看类型,astype 转换类别,describe 描述性统计B. astype 查看类型,dtypes转换类别,describe描述性统计C. describe查看类型,astype转换类别,dtypes描述性统计D. dtypes 查看类型,describe 转换类别,astype 描述性统计8. (单选题)下列与标准化⽅法有关的说法中错误的是(A)。

机器学习知到章节答案智慧树2023年三亚学院

机器学习知到章节答案智慧树2023年三亚学院

机器学习知到章节测试答案智慧树2023年最新三亚学院第一章测试1.下面哪句话是正确的()参考答案:增加模型的复杂度,总能减小训练样本误差2.评估模型之后,得出模型存在偏差,下列哪种方法可能解决这一问题()参考答案:向模型中增加更多的特征3.以垃圾微信识别为例,Tom Mitchell的机器学习的定义中,任务T是什么?()参考答案:T是识别4.如何在监督式学习中使用聚类算法()?参考答案:在应用监督式学习算法之前,可以将其类别ID作为特征空间中的一个额外的特征;首先,可以创建聚类,然后分别在不同的集群上应用监督式学习算法5.想要训练一个ML模型,样本数量有100万个,特征维度是5000,面对如此大数据,如何有效地训练模型()?参考答案:对训练集随机采样,在随机采样的数据上建立模型;使用PCA算法减少特征维度;尝试使用在线机器学习算法6.机器学习兴起于()。

参考答案:1990年;1980年7.监督学习包括是()。

参考答案:分类;回归8.机器学习可以对电子商务产品评价进行好评与差评分类。

()参考答案:对9.机器学习必备知识包括数学基础、心理学基础、算法设计基础、商业模式基础。

()参考答案:错10.机器学习是一门多学科交叉专业,涵盖____、____、近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式,并将现有内容进行知识结构划分来有效提高学习效率。

参考答案:null第二章测试1.关于k-NN算法,以下哪个选项是正确的?参考答案:可用于分类和回归2.k-NN算法在测试时间而不是训练时间上进行了更多的计算。

参考答案:对3.假设算法是k最近邻算法,在下面的图像中,____将是k的最佳值。

参考答案:104.一个kNN分类器,该分类器在训练数据上获得100%的准确性。

而在客户端上部署此模型时,发现该模型根本不准确。

以下哪项可能出错了?注意:模型已成功部署,除了模型性能外,在客户端没有发现任何技术问题参考答案:可能是模型过拟合5.以下是针对k-NN算法给出的两条陈述,其中哪一条是真的?1、我们可以借助交叉验证来选择k的最优值2、欧氏距离对每个特征一视同仁参考答案:1和26.你给出了以下2条语句,发现在k-NN情况下哪个选项是正确的?1、如果k的值非常大,我们可以将其他类别的点包括到邻域中。

基于关联规则挖掘的用户购物行为分析

基于关联规则挖掘的用户购物行为分析

基于关联规则挖掘的用户购物行为分析第一章:引言随着电商的崛起,越来越多的人开始选择在网上购物。

这为商家提供了更多的销售渠道和更多机会获取用户数据。

而随着数据的积累和增长,很多商家已经意识到了这些数据所携带的信息和价值。

因此,在商家中广泛地运用了数据挖掘技术去挖掘其中的有用信息,以获得更好的商业价值。

本文基于关联规则挖掘技术,对用户购物行为进行分析。

第二章:相关技术介绍关联规则是一种常用的挖掘技术,它可以用来发现数据中的相关关系。

关联规则挖掘可以将不同的数据集中有用的关联规则挖掘出来,以发现数据信息的潜在关联。

关联规则挖掘可帮助企业更好地理解顾客行为,或发现组合方案或垂直潜在的市场机会,并可在竞争中获取更可观的利润。

第三章:数据来源本文所分析的数据集来源于某电商网站的销售数据,数据包含用户ID、购买商品ID、购买日期、购买数量等信息。

第四章:数据预处理与分析针对数据预处理,采用的方法主要有以下两个方面:1. 数据清洗在本文中,由于存在一些大量的异常数据,所以需要进行数据清洗。

具体的,本文采用了数据清洗方法删除掉了一定范围内的异常数据并对不规范的数据进行了清洗和处理。

2. 数据分析经过数据清理后,本文分别对购买量前十的商品以及购买次数前十的用户进行了分析。

结果如下所示:购买量前十的商品:编号商品名称购买量1 商品1 2002 商品2 1503 商品3 1004 商品4 805 商品5 606 商品6 507 商品7 408 商品8 309 商品9 2010 商品10 10购买次数前十的用户:编号用户ID 购买次数1 用户1 502 用户2 303 用户3 204 用户4 105 用户5 56 用户6 37 用户7 28 用户8 19 用户9 110 用户10 1通过上述两个表格可以得出,购买量前十的商品和购买次数前十的用户和WEB网站普遍情况一致,都是集中在比较少的几个商品和比较少的几个用户。

第五章:关联规则分析为了找出数据集中潜在的关联规则,用Apriori算法对数据进行处理。

数据挖掘概念与技术原书第3版课后练习题含答案

数据挖掘概念与技术原书第3版课后练习题含答案

数据挖掘概念与技术原书第3版课后练习题含答案前言《数据挖掘概念与技术》(Data Mining: Concepts and Techniques)是一本经典的数据挖掘教材,已经推出了第3版。

本文将为大家整理并提供第3版课后习题的答案,希望对大家学习数据挖掘有所帮助。

答案第1章绪论习题1.1数据挖掘的基本步骤包括:1.数据预处理2.数据挖掘3.模型评价4.应用结果习题1.2数据挖掘的主要任务包括:1.描述性任务2.预测性任务3.关联性任务4.分类和聚类任务第2章数据预处理习题2.3数据清理包括以下几个步骤:1.缺失值处理2.异常值检测处理3.数据清洗习题2.4处理缺失值的方法包括:1.删除缺失值2.插补法3.不处理缺失值第3章数据挖掘习题3.1数据挖掘的主要算法包括:1.决策树2.神经网络3.支持向量机4.关联规则5.聚类分析习题3.6K-Means算法的主要步骤包括:1.首先随机选择k个点作为质心2.将所有点分配到最近的质心中3.重新计算每个簇的质心4.重复2-3步,直到达到停止条件第4章模型评价与改进习题4.1模型评价的方法包括:1.混淆矩阵2.精确率、召回率3.F1值4.ROC曲线习题4.4过拟合是指模型过于复杂,学习到了训练集的噪声和随机变化,导致泛化能力不足。

对于过拟合的处理方法包括:1.增加样本数2.缩小模型规模3.正则化4.交叉验证结语以上是《数据挖掘概念与技术》第3版课后习题的答案,希望能够给大家的学习带来帮助。

如果大家还有其他问题,可以在评论区留言,或者在相关论坛等平台提出。

电子商务专业导论知到章节答案智慧树2023年天津商业大学

电子商务专业导论知到章节答案智慧树2023年天津商业大学

电子商务专业导论知到章节测试答案智慧树2023年最新天津商业大学第一章测试1.下列不属于商务活动范畴的是( )。

参考答案:借用物品2.以下不属于电子商务企业的是( )。

参考答案:格力电器3.基于Web的电子商务系统可划分为三层结构,分别是( )。

参考答案:软件支撑平台;电子商务应用层;基础设施层4.电子商务已融入国民经济方方面面,按领域可划分为()。

参考答案:产业电商;零售电商;生活服务电商;跨境电商5.我国颁布和实施与电子商务活动相关的法律与法规有()。

参考答案:关于加强网络信息保护的决定;电子签名法;电子商务法;关于维护互联网安全的决定第二章测试1.电子数据交换技术主要负责()。

参考答案:数据安全2.京东商城后台核心技术是()。

参考答案:电子交换技术3.目前,大多数电子商务网站采用的开发技术是()。

参考答案:C++4.京东商城提供的应用场景包括()。

参考答案:第三方电商平台;订单管理;物流配送;自营品牌5.京东商城提供的产品形态包括()。

参考答案:Web商城;手机APP;营销战略;微店第三章测试1.大数据背景下,电子商务企业成功的三步是()。

参考答案:数据--分析--价值2.下列哪个不属于大数据存储技术()。

参考答案:虚拟化技术3.产品分析中根据用户的购买活动进行()分析,从而个性化推荐,精准营销。

参考答案:时间序列;预测;关联规则4.电子商务大数据分析后能优化企业运营体系,如()。

参考答案:促销设计;店铺设计;竞争对手分析5.对于电商行业来讲,数据分析的核心公式是销售额=流量*转化率*客单价,其中流量是电商的生命和根本。

参考答案:对第四章测试1.日本“黑袋子”案例的主要创新点是()。

参考答案:客户精准分析2.供应链管控的工作主要包括()。

参考答案:供应商管理;风险管控;产品采购;物流合作3.运营策划的工作主要包括()。

参考答案:产品策略设计;平台策略设计;营销策略设计4.电子商务专业相关课程中会涉及到的开发语言包括()。

(完整版)数据挖掘概念课后习题答案

(完整版)数据挖掘概念课后习题答案

(完整版)数据挖掘概念课后习题答案第 1 章1.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使⽤你熟悉的现实⽣活的数据库,给出每种数据挖掘功能的例⼦。

特征化是⼀个⽬标类数据的⼀般特性或特性的汇总。

例如,学⽣的特征可被提出,形成所有⼤学的计算机科学专业⼀年级学⽣的轮廓,这些特征包括作为⼀种⾼的年级平均成绩(GPA:Grade point a ve r s ge) 的信息,还有所修的课程的最⼤数量。

区分是将⽬标类数据对象的⼀般特性与⼀个或多个对⽐类对象的⼀般特性进⾏⽐较。

例如,具有⾼GPA 的学⽣的⼀般特性可被⽤来与具有低GPA 的⼀般特性⽐较。

最终的描述可能是学⽣的⼀个⼀般可⽐较的轮廓,就像具有⾼GPA 的学⽣的75%是四年级计算机科学专业的学⽣,⽽具有低GPA 的学⽣的65%不是。

关联是指发现关联规则,这些规则表⽰⼀起频繁发⽣在给定数据集的特征值的条件。

例如,⼀个数据挖掘系统可能发现的关联规则为:m a j or(X,“c omput i ng s c i e nc e”) ?owns(X, “pe r s ona l c omput e r”)[s uppor t=12%,c on f i d e nc e=98%]其中,X 是⼀个表⽰学⽣的变量。

这个规则指出正在学习的学⽣,12%(⽀持度)主修计算机科学并且拥有⼀台。

个⼈计算机。

这个组⼀个学⽣拥有⼀台个⼈电脑的概率是98%(置信度,或确定度)分类与预测不同,因为前者的作⽤是构造⼀系列能描述和区分数据类型或概念的模型(或,⽽后者是建⽴⼀个模型去预测缺失的或⽆效的、并且通常是数字的数据值。

它们的功能)相似性是他们都是预测的⼯具:分类被⽤作预测⽬标数据的类的标签,⽽预测典型的应⽤是预测缺失的数字型数据的值。

聚类分析的数据对象不考虑已知的类标号。

对象根据最⼤花蕾内部的相似性、最⼩化类之间的相似性的原则进⾏聚类或分组。

形成的每⼀簇可以被看作⼀个对象类。

模式识别与数据挖掘期末总结

模式识别与数据挖掘期末总结

模式识别与数据挖掘期末总结第一章概述1.数据分析是指采用适当的统计分析方法对收集到的数据进行分析、概括和总结,对数据进行恰当地描述,提取出有用的信息的过程。

2.数据挖掘(Data Mining,DM) 是指从海量的数据中通过相关的算法来发现隐藏在数据中的规律和知识的过程。

3.数据挖掘技术的基本任务主要体现在:分类与回归、聚类、关联规则发现、时序模式、异常检测4.数据挖掘的方法:数据泛化、关联与相关分析、分类与回归、聚类分析、异常检测、离群点分析、5.数据挖掘流程:(1)明确问题:数据挖掘的首要工作是研究发现何种知识。

(2)数据准备(数据收集和数据预处理):数据选取、确定操作对象,即目标数据,一般是从原始数据库中抽取的组数据;数据预处理一般包括:消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换。

(3)数据挖掘:确定数据挖掘的任务,例如:分类、聚类、关联规则发现或序列模式发现等。

确定了挖掘任务后,就要决定使用什么样的算法。

(4)结果解释和评估:对于数据挖掘出来的模式,要进行评估,删除冗余或无关的模式。

如果模式不满足要求,需要重复先前的过程。

6.分类(Classification)是构造一个分类函数(分类模型),把具有某些特征的数据项映射到某个给定的类别上。

7.分类过程由两步构成:模型创建和模型使用。

8.分类典型方法:决策树,朴素贝叶斯分类,支持向量机,神经网络,规则分类器,基于模式的分类,逻辑回归9.聚类就是将数据划分或分割成相交或者不相交的群组的过程,通过确定数据之间在预先指定的属性上的相似性就可以完成聚类任务。

划分的原则是保持最大的组内相似性和最小的组间相似性10.机器学习主要包括监督学习、无监督学习、半监督学习等1.(1)标称属性(nominal attribute):类别,状态或事物的名字(2):布尔属性(3)序数属性(ordinal attribute):尺寸={小,中,大},军衔,职称【前面三种都是定性的】(4)数值属性(numeric attribute): 定量度量,用整数或实数值表示●区间标度(interval-scaled)属性:温度●比率标度(ratio-scaled)属性:度量重量、高度、速度和货币量●离散属性●连续属性2.数据的基本统计描述三个主要方面:中心趋势度量、数据分散度量、基本统计图●中心趋势度量:均值、加权算数平均数、中位数、众数、中列数(最大和最小值的平均值)●数据分散度量:极差(最大值与最小值之间的差距)、分位数(小于x的数据值最多为k/q,而大于x的数据值最多为(q-k)/q)、说明(特征化,区分,关联,分类,聚类,趋势/跑偏,异常值分析等)、四分位数、五数概括、离群点、盒图、方差、标准差●基本统计图:五数概括、箱图、直方图、饼图、散点图3.数据的相似性与相异性相异性:●标称属性:d(i,j)=1−m【p为涉及属性个数,m:若两个对象匹配为1否则p为0】●二元属性:d(i,j)=p+nm+n+p+q●数值属性:欧几里得距离:曼哈顿距离:闵可夫斯基距离:切比雪夫距离:●序数属性:【r是排名的值,M是排序的最大值】●余弦相似性:第三章数据预处理1.噪声数据:数据中存在着错误或异常(偏离期望值),如:血压和身高为0就是明显的错误。

数据挖掘——探索数据的奥秘智慧树知到课后章节答案2023年下青岛工学院

数据挖掘——探索数据的奥秘智慧树知到课后章节答案2023年下青岛工学院

数据挖掘——探索数据的奥秘智慧树知到课后章节答案2023年下青岛工学院青岛工学院第一章测试1.数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

()A:对 B:错答案:对2.下面哪些是时空数据的应用()。

A:气象学家使用人造卫星和雷达观察飓风 B:从多媒体数据库中发现有趣的模式 C:机动车辆管理者把GPS安装在汽车上,以便更好地监管和引导车辆 D:动物学家把遥感设备安装在野生动物身上,以便分析生态行为答案:气象学家使用人造卫星和雷达观察飓风;机动车辆管理者把GPS安装在汽车上,以便更好地监管和引导车辆;动物学家把遥感设备安装在野生动物身上,以便分析生态行为3.数据挖掘生命周期的数据理解阶段,起于原始数据收集,止于熟悉数据、识别数据质量问题。

()A:对 B:错答案:错4.以下关于数据挖掘规律的描述中,不正确的是()。

A:业务知识是数据挖掘过程每一步的中心 B:对所有领域的每个数据挖掘问题,总有模式可循。

C:数据准备超过数据挖掘过程的3/4 D:给定应用的正确模型只能通过实验发现答案:数据准备超过数据挖掘过程的3/45.关于数据挖掘生命周期的部署阶段,说法正确的是()。

A:部署阶段要完成模型的创建 B:执行部署步骤的通常是数据分析师 C:部署通常是数据挖掘项目的终点 D:建立模型的目的不能仅仅是增加对数据的了解答案:部署阶段要完成模型的创建6.“8,000”和“10,000”表示:()。

A:数据 B:信息 C:知识 D:智慧答案:数据7.“8,000米是飞机飞行最大高度”与“10,000米的高山”表示:()。

A:数据 B:知识 C:信息 D:智慧答案:信息8.“飞机无法飞过高山”表示:()。

A:知识 B:智慧 C:数据 D:信息答案:知识9.数据取样时,除了要求抽样时严把质量关外,还要求抽样数据必须在足够范围内有代表性。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2015-4-16 数据仓库与数据挖掘 11
4.2 引例


定义4.8 关联规则的最小支持度和最小可信 度 关联规则的最小支持度也就是衡量频繁集 的最小支持度 (Minimum Support) ,记为 supmin,它用于衡量规则需要满足的最低 重 要 性 。 规 则 的 最 小 可 信 度 (Minimum Confidence)记为confmin,它表示关联规 则需要满足的最低可靠性。
2015-4-16
数据仓库与数据挖掘
25
4.3.2 FP-growth算法

函 数 insert_tree([p|P] , T) 的 运 行 如 下 。 如 果 T 有 一 个 子 结 点 N , 其 中 N.itemname=p.item-name ,则将 N 的 count 域值 加 1 ;否则,创建一个新节点 N ,使它的 count为1,使它的父节点为T,并且使它的 node_link和那些具有相同item_name的域 串起来。如果P非空,则递归调用 insert_tree(P,N)。
2015-4-16

数据仓库与数据挖掘
3
4.1 概述




关联规则 (Association Rule Mining)挖掘 是数据挖掘中最活跃的研究方法之一 最早是由R.Agrawal等人提出的 其目的是为了发现超市交易数据库中不同 商品之间的关联关系。 一个典型的关联规则的例子是: 70% 购买 了牛奶的顾客将倾向于同时购买面包。 经典的关联规则挖掘算法: Apriori 算法和 FP-growth算法
数据仓库与数据挖掘 12
2015-4-16
4.2 引例
定义4.7 关联规则的可信度 对于关联规则 R:XY,其中XI,YI, 并 且 XY= , 规 则 R 的 可 信 度 (Confidence) 是指包含 X 和 Y 的交易数 与包含X的交易数之比

support(X Y) confidence (X Y) support(X)
数据仓库与数据挖掘 7
2015-4-16
4.2 引例
定义4.3 项集的支持度 对于项集X,XI,设定count(XT)为 交易集D中包含X的交易的数量


项集 X 的支持度 support(X) 就是项集 X 出现的概率,从而描述了X的重要性。
count(X T ) support(X) |D|
2015-4-16
4.2 引例
定义4.1 项目与项集 设 I={i1,i2,…,im} 是 m 个不同项目的集 合,每个ik(k=1,2,……,m)称为一 个项目(Item)。 项目的集合 I 称为项目集合 (Itemset) , 简称为项集。其元素个数称为项集的 长度,长度为 k 的项集称为 k- 项集 (kItemset)。

2015-4-16
数据仓库与数据挖掘
23
4.3.2 FP-growth算法

针对Apriori算法的固有缺陷,J. Han等提出了不 产生候选挖掘频繁项集的方法:FP-树频集算法。 采用分而治之的策略,在经过第一遍扫描之后, 把数据库中的频集压缩进一棵频繁模式树(FPtree),同时依然保留其中的关联信息,随后再 将FP-tree分化成一些条件库,每个库和一个长度 为1的频集相关,然后再对这些条件库分别进行挖 掘。当原始数据量很大的时候,也可以结合划分 的方法,使得一个FP-tree可以放入主存中。实验 表明,FP-growth对不同长度的规则都有很好的 适应性,同时在效率上较之Apriori算法有巨大的 提高。
4.4.2 SQL Server 2005中的关联 规则挖掘
定义4.13 频繁项头表 每个项前缀子树(Item Prefix Subtree)的节点有三个域: item-name,count,node_link。item-name记录了该 节点所代表的项的名字。count记录了所在路径代表的交 易中包含此节点项目的交易个数。node_link指向下一个 具有同样的item-name域的节点,要是没有这样一个节点, 就为null。

2015-4-16
数据仓库与数据挖掘
22
4.3.2 FP-growth算法


定义4.12 频繁项头表 频繁项头表(Head Table)的每个表项由两个域组成:项目 名称item-name和指针node_link。node_link指向FPtree中具有与该表项相同item-name的第一个节点。
数据仓库与数据挖掘 9
2015-4-16
4.2 引例
定义4.5 关联规则 关联规则(Association Rule)可以表示 为一个蕴含式: R:XY

2015-4-16
数据仓库与数据挖掘
10
4.2 引例
定义4.6 关联规则的支持度 对于关联规则 R:XY,其中XI,YI, 并 且 XY= , 规 则 R 的 的 支 持 度 (Support) 是交易集中同时包含 X 和 Y 的交易数与所有交易数之比。 count(X Y) support(X Y) |D|
数据仓库与数据挖掘 24
2015-4-16
4.3.2 FP-growth算法


第一部分:根据一个输入交易记录集建立一棵FP-tree, 其操作步骤如图4.4所示。 输 入:交易记录集D,最小支持度supmin。 输 出:FP-tree。(1)扫描数据库D一遍,得到频繁项 的集合F和每个频繁项的支持度。把F按支持度递降排序, 结果记为L。(2)创建FP-tree的根节点,记为T,并且 标记为“null”。然后对DB中的每个交易做如下的步骤: 根据L中的顺序,选出并排序Trans中的频繁项。把Trans 中排好序的频繁项列表记为[p|P],其中p是第一个元素, P是列表的剩余部分。调用insert_tree([p|P],T)。
2015-4-16 数据仓库与数据挖掘 13
关联规则的简单例子
2015-4-16
数据仓库与数据挖掘
14

顾客购买记录的数据库D,包含6个事务。 项集I={网球拍,网球,运动鞋,羽毛球}。考虑 关联规则(频繁二项集):网球拍与网球, 事务1,2,3,4,6包含网球拍,事务1,2,6同时 包含网球拍和网球,支持度(X^Y)/D=0.5, 置信度(X^Y)/X=0.6。若给定最小支持度α = 0.5,最小置信度β = 0.6,认为购买网球 拍和购买网球之间存在关联。
2015-4-16
数据仓库与数据挖掘
15
4.2 引例


定义4.9 强关联规则 如 果 规 则 XY 满 足 : support(XY)supmin 且 confidence(XY)confmin ,称关联规则 XY为强关联规则,否则称关联规则XY 为弱关联规则。在挖掘关联规则时,产生 的关联规则要经过 supmin 和 confmin 的衡 量,筛选出来的强关联规则才能用于指导 商家的决策。
数据仓库与数据挖掘 26
2015-4-16
4.4 相关研究与应用
分类: 基于规则中涉及到的数据的维数,关 联规则可以分为单维的和多维的。 基于规则中数据的抽象层次,可以分 为单层关联规则和多层关联规则。 基于规则中处理的变量的类型不同, 关联规则可以分为布尔型和数值型。

2015-4-16 数据仓库与数据挖掘 27
数据仓库与数据挖掘 4
2015-4-16
4.2 引例

假定某超市销售的商品包括:bread、 bear、cake、cream、milk和tea
交易号TID T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 顾 客 购 买 商 品Items bread cream milk tea bread cream milk cake milk milk tea bread cake milk bread tea beer milk tea bread tea bread cream milk tea bread milk tea 数据仓库与数据挖掘 5
数据仓库与数据挖掘 18
2015-4-16
4.3.1 Apriori算法
2015-4-16
数据仓库与数据挖掘
19
4.3.1 Apriori算法

apriori_gen(Lk-1, supmin)算法
2015-4-16
数据仓库与数据挖掘
20
4.3.1 Apriori算法

has_infrequent_subset(c, Lk-1)算法

2015-4-16 数据仓库与数据挖掘 6
4.2 引例





定义4.2 交易 每笔交易 T(Transaction) 是项集 I 上的一个 子集,即TI,但通常TI。 对应每一个交易有一个唯一的标识 —— 交 易号,记作TID 交易的全体构成了交易数据库D,或称交易 记录集D,简称交易集D。 交易集D中包含交易的个数记为|D|。
数据仓库与数据挖掘
第4章 关联规则
数理学院 唐志刚
2015-4-16
1
啤酒与尿布的故事说起

按常规思维,尿布与啤酒风马牛不相 及,若不是借助数据挖掘技术对海量 交易数据进行挖掘和分析,沃尔玛是 不可能发现数据内在这一有价值的规 律的。
2015-4-16
数据仓库与数据挖掘
2

在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。 但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个 笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家 所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确 了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物 篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里 集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上, 沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发 现是:"跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和 分析,揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式: 在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们 中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因 是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们 在买尿布后又随手带回了他们喜欢的啤酒。
相关文档
最新文档