数据挖掘考试题目——关联分析知识讲解
数据挖掘中的关联分析方法(九)

数据挖掘中的关联分析方法数据挖掘是一门利用统计学、机器学习和数据库技术来发现模式和趋势的学科。
在大数据时代,数据挖掘变得尤为重要,因为海量的数据蕴含着无限的商业价值和科学意义。
而关联分析方法作为数据挖掘的重要技术之一,在市场分析、商品推荐、医疗诊断等领域有着广泛的应用。
关联分析方法是指在大规模数据集中发现变量之间的关联关系,并且用这些关联关系构建模型,以便做出预测或者发现隐藏的信息。
其中,最为典型的例子就是购物篮分析。
通过分析顾客购物篮中的商品组合,商家可以发现哪些商品具有相关性,并且做出相应的销售策略。
首先,关联分析方法中最为经典的算法就是Apriori算法。
Apriori算法是一种用于发现频繁项集的算法,它的核心思想就是通过迭代的方法来挖掘频繁项集。
具体地说,算法首先扫描数据集,找出数据集中的频繁1项集;然后通过频繁1项集来生成候选2项集,并再次扫描数据集,找出频繁2项集;如此循环下去,直至无法生成更多的频繁项集为止。
而这些频繁项集就是具有关联关系的商品组合,商家可以根据这些关联关系来进行商品的搭配销售,以提高销售额。
其次,关联分析方法中还有一种常用的算法叫做FP-Growth算法。
FP-Growth算法是一种用于挖掘频繁项集的算法,与Apriori算法相比,FP-Growth算法在性能上有着更好的表现。
其核心思想是通过构建FP树(频繁模式树)来高效地发现频繁项集。
FP树是一种用来存储数据集中元素项的树形结构,通过构建FP树,我们可以高效地发现频繁项集。
因此,在实际应用中,FP-Growth算法常常被用来挖掘大规模数据集中的频繁项集。
除了这两种经典的算法之外,关联分析方法中还有很多其他的技术和方法。
例如基于模式增长的方法、基于随机抽样的方法、基于模糊关联规则的方法等等。
这些方法各有其特点,适用于不同的应用场景。
而在实际应用中,人们可以根据具体的数据集和问题,选择合适的关联分析方法来进行数据挖掘。
大数据挖掘导论与案例课件:关联分析概念与方法

根据数据的抽象层次,关联规则可以分为单层关联规则和多层关联规则。在单层关联
规则中,没有考虑现实数据的多层次性。多层关联规则是指在规则挖掘中,对数据的
多层性进行了充分考虑。
6.2
关联分析的方法
6.2.1 先验原理
大数据挖掘导论与案例
由此可见,在生成规则的过程中,一旦有低置信度的规则出现,就可以利用它进行剪枝,
此过程称为基于置信度的剪枝(confidence-based pruning),如下图所示。
采用剪枝策略可有效降低关联规则生成的计算复杂度。
6.2.3 Apriori算法生成关联规则
基于置信度的剪枝
大数据挖掘导论与案例
6.2.4 Apriori算法效率提升
任何具有反单调性的度量都能够直接结合到挖掘算法中,对候选项集的指数搜索空间有
效地进行剪枝,以降低生成频繁项集的计算代价。
6.2.2 Apriori算法产生频繁项集
大数据挖掘导论与案例
Apriori算法是关联规则挖掘的经典算法,它开创性地使用了基于支持度的剪枝技术来控
制候选项集的指数增长。此处以下表所示的事务数据集为例,展示Apriori算法挖掘频繁
大数据挖掘导论与案例
在对购物篮数据进行关联分析时,需要处理两个关键问题:第一,计算复杂度问题。从
大型事务数据集中发现有意义的规则在计算上要付出很高的代价;第二,规则的筛选问
题。所发现的某些规则可能是虚假的或不令人感兴趣的,因为它们可能是偶然发生的或
者是已经被研究者所熟知的。
除了购物篮分析外,关联分析也被应用于公共管理、生物信息学、医疗诊断、网页挖掘
和推荐系统等领域。
《数据挖掘》试题与答案

一、解答题(满分30分,每小题5分)1。
怎样理解数据挖掘和知识发现的关系?请详细阐述之首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。
知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式.流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。
2。
时间序列数据挖掘的方法有哪些,请详细阐述之时间序列数据挖掘的方法有:1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。
例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型.2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。
若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测.3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。
由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。
假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测.3. 数据挖掘的分类方法有哪些,请详细阐述之分类方法归结为四种类型:1)、基于距离的分类方法:距离的计算方法有多种,最常用的是通过计算每个类的中心来完成,在实际的计算中往往用距离来表征,距离越近,相似性越大,距离越远,相似性越小。
数据挖掘技术关联性分析

I1,I2,I5
I2,I4 I2,I3 I1,I2,I4 I1,I3 I2,I3 I1,I3 I1,I2,I3,I5 I1,I2,I3
例:最小支持度阈值 为2 C1 项集 支持度 计数 L1
比较候选支持 度计数与最小 支持度计数
项集 {I1} {I2} {I3} {I4} {I5}
支持度计 数 6 7 6 2 2
Example of Generating Candidates
L3={abc, abd, acd, ace, bcd} Self-joining: L3*L3 abcd acde Pruning: from abc and abd from acd and ace
4
4 2 4 2 2
{I2,I4}, {I2,I5}} =
{{I1,I2,I3}, {I1,I2,I5}, {I1,I3,I5}, {I2,I3,I4}, {I2,I3,I4}, {I2,I3,I5} ,{I2,I4,I5}}
剪枝: {I1,I2,I3}的2-项子集是{I1,I2}, {I1,I3}和{I2,I3}。 {I1,I2,I3}的所有2-项子集都是L2的元素。因此,保留 {I1,I2,I3}在C3中。
识识又称依赖关系依赖关系关联规则挖掘关联规则挖掘就是从大量的数据中挖掘出有价值描述就是从大量的数据中挖掘出有价值描述数据项数据项之间相互联系之间相互联系的有关知识的有关知识关联规则关联规则发现的主要对象是发现的主要对象是交易型数据库交易型数据库一个交易一个交易一般由交易处理时间一组顾客购买的物品有时一般由交易处理时间一组顾客购买的物品有时也有顾客标识号也有顾客标识号如信用卡号如信用卡号组成
}
The Apriori Algorithm — Example
数据挖掘关联分析

数据挖掘关联分析1 引言在大型数据库中,关联规则挖掘是最常见的数据挖掘任务之一.关联规则挖掘就是从大量数据中发现项集之间的相关联系.Apriori 算法,前者采用逐层搜索的迭代策略,先产生候选集,再对候选集进行筛选,然后产生该层的频繁集。
2 Apriori 算法Apriori 算法是关联规则挖掘中最基本也是最常见的算法.它是由Agrawal 等人于1993年提出的一种最有影响的挖掘布尔关联规则频繁项集的算法,主要用来在大型数据库上进行快速挖掘关联规则。
2.1 算法基本思想Apriori 算法采用逐层迭代搜索方法,使用候选项集来找频繁项集。
其基本思想是: 首先找出所有频繁1-项集的集合L l,L1用于找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁k-项集。
并利用事先设定好的最小支持度阈值进行筛选,将小于最小支持度的候选项集删除,再进行下一次的合并生成该层的频繁项集。
经过筛选可减少候选项集数,从而加快关联规则挖掘的速度。
2.2 算法的挖掘如果一个项集是频繁的,那么它的所有子集都是频繁的先验原理成立的原因:XsYY⊆∀⇒X≥,YX()())s(:一个项集的支持度不会超过其任何子集的支持度该性质称作支持度的反单调性质2.2.1候选项集的生成Apriori 算法使用了Apriori性质来产生候选项集.任何非频繁的( k-1 )项集都不可能是频繁k-项集的子集.因此,如果一个候选k-项集的( k-1 )-子集不在L k -1中,则该候选项集也不可能是频繁的,从而可以从C k中删除.2.2.2由L k-1 生成L k设定k=1扫描事务数据库一次,生成频繁的1-项集如果存在两个或以上频繁k-项集,重复下面过程:[候选产生] 由长度为k的频繁项集生成长度为k+1的候选项集[候选前剪枝] 对每个候选项集,若其具有非频繁的长度为k的子集,则删除该候选项集[支持度计算] 扫描事务数据库一次,统计每个余下的候选项集的支持度[候选后剪枝] 删除非频繁的候选项集,仅保留频繁的(k+1)-项集,设定k = k+1Apriori流程图2.2.3候选项集的支持度计算1)扫描事务数据库,决定每个候选项集的支持度。
数据挖掘之关联分析-PPT精选文档

数据关联
经典案例:沃尔玛的啤酒和尿布的故事
关 联 规 则
基于用户行为分析的关联推荐
更有利于发现用户的潜在需求,帮助用户更好的选择它们需要 的产品,并由用户决定是否购买,也就是所谓的“拉式”营销 。通过向用户推荐产品或服务,激发用户的潜在需求,促使用 户消费,更加符合“以用户为中心”的理念。 以电子商务网站为例来说明一下关联规则的具体实现: 目前大部分电子商务网站都提供用户注册的功能,而购物 的用户一般都是基于登录的条件下完成的,所以这里为用户识 别提供了最为有效的标示符——用户ID;同时网站会把所有 用户的购物数据储存在自己的运营数据库里面,这个为用户行 为分析提供了数据基础——用户历史购物数据。
数据挖掘の关联) 是通过分析每个数据,从大量 数据中寻找其规律的技术,主要有数据准备、规律 寻找和规律表示3个步骤。 数据挖掘的任务有关联分析、聚类分析、分类分析、 异常分析、特异群组分析和演变分析等。 关联分析是指如果两个或多个事物之间存在一定的关 联,那么其中一个事物就能通过其他事物进行预测.它 的目的是为了挖掘隐藏在数据间的相互关系 。
那么这类的推荐是怎么得到的呢???
数据关联
关联推荐在营销上被分为两类:
向上营销(Up Marketing):根据既有客户过去的消费喜 好,提供更高价值或者其他用以加强其原有功能或 者用途的产品或服务。 交叉营销(Cross Marketing):从客户的购买行为中发现客 户的多种需求,向其推销相关的产品或服务。
关联推荐在实现方式上也可以分为两种:
以产品分析为基础的关联推荐 以用户分析为基础的关联推荐
数据关联
关 联 规 则
基于用户分析的推荐是通过分析用户的历 史行为数据,可能会发现购买了《Web Analytics》的很多用户也买了《The Elements of User Experience》这本书, 那么就可以基于这个发现进行推荐。
关联分析考试题及答案
关联分析考试题及答案一、单项选择题(每题2分,共20分)1. 关联分析中,用于衡量项集支持度的度量是()。
A. 置信度B. 支持度C. 覆盖度D. 兴趣度答案:B2. Apriori算法的核心思想是()。
A. 频繁项集的子集必定是频繁的B. 非频繁项集的超集必定是非频繁的C. 频繁项集的超集必定是频繁的D. 非频繁项集的子集必定是非频繁的答案:A3. 以下哪个算法不是用于关联分析的()。
A. Apriori算法B. FP-Growth算法C. K-Means算法D. FP-Trie算法答案:C4. 在关联分析中,如果一个规则的置信度为0.8,这意味着()。
A. 规则的前项和后项同时出现的概率是0.8B. 规则的前项出现时,后项出现的概率是0.8C. 规则的后项出现时,前项出现的概率是0.8D. 规则的前项和后项同时不出现的概率是0.8答案:B5. 以下哪个选项不是关联规则挖掘的步骤()。
A. 寻找频繁项集B. 寻找非频繁项集C. 生成强规则D. 验证规则答案:B6. FP-Growth算法中,用于存储频繁项集的树结构是()。
A. FP-TreeB. FP-GraphC. FP-ListD. FP-Set答案:A7. 在关联分析中,如果一个项集的支持度低于最小支持度阈值,则()。
A. 该项集是频繁的B. 该项集是非频繁的C. 该项集是强规则D. 该项集是弱规则答案:B8. 以下哪个选项不是关联分析中常用的度量标准()。
A. 支持度B. 置信度C. 覆盖度D. 相关性答案:D9. 在关联分析中,如果一个规则的置信度低于最小置信度阈值,则()。
A. 该规则是强规则B. 该规则是弱规则C. 该规则是有效的D. 该规则是无效的答案:B10. 关联分析中,挖掘出的频繁项集必须满足()。
A. 支持度大于等于最小支持度阈值B. 置信度大于等于最小置信度阈值C. 覆盖度大于等于最小覆盖度阈值D. 兴趣度大于等于最小兴趣度阈值答案:A二、多项选择题(每题3分,共15分)11. 关联分析中,以下哪些是衡量规则强度的指标()。
数据挖掘第6章 关联规则
项ID
支持度 计数
结点链
f
4
f:4
c:1
c
4
a
3
c:3
b:1
b:1
b
3
m
3
p
3
l
2
o
2
a:3
o:1
p:1
m:2
b:1
p:2
m:1
l:1
l:1
o:1
31 of 64
6.3 FP-growth算法
第六章 关联规则
6.3.2挖掘FP树
(1)对FP树的项头表从表尾向表头逆序逐一扫描,当扫描到某个频繁1项ij时,由其结点链得 到FP树中以ij结尾的前缀路径。
利用先验性质,我们在使用频繁(k-1)项集的集合Lk-1寻找频繁k项集的集合Lk时分两个 过程:连接步和剪枝步。 (1)连接步:
Lk-1与其自身进行连接,产生候选k项集的集合Ck。Lk-1中某个元素与其中另一个元素 可以执行连接操作的前提是它们中有(k-2)个项是相同的,也就是只有一个项是不同的。例 如:项集{I1,I2}与{I1,I5}有共同的I1,连接之后产生的项集是{I1,I2,I5},反之,项集{I1,I2}与 {I3,I4},没有1个共同的项集,不能进行连接操作。 (2)剪枝步:
第六章 关联规则
24 of 64
6.3 FP-growth算法
6.3.1构造FP树
第六章 关联规则
25 of 64
6.3 FP-growth算法
6.3.1构造FP树
第六章 关联规则
(1)
(2)
26 of 64
6.3 FP-growth算法
6.3.1构造FP树
第六章 关联规则
数据挖掘——第三章关联规则挖掘(2)
因此,从C3中删除{ I1, I2, I4}、{ I1, I3, I4}、{ I1, I3, I5}、 { I2, I3, I4}得:
可以改写如下所示的关联规则:
buys(X,”computer”)
buys(X,”antivirus_software”)
例5-2:闭的和极大的频繁项集。
假定事务数据库只有两个事务: { a1,a2, … ,a100 };{a1,a2, … ,a50}
最小支持度计数阀值min_sup=1。我们发现两个闭频繁项集和 他们的支持度,即C={{ a1,a2, … ,a100 }:1;{a1,a2, … ,a50}:2} 只有一个极大频繁项集:M={{ a1,a2, … ,a100 }:1}
集是不是频繁项集!
return Ck;
}
Prodedure has_infrequent_subset (c:candidate k-itemset;Lk-1:frequent(k-1)-itemsets) { //从第k项侯选项集Ck中,看它的(k-1)项子集是不是
第(k-1)项频繁项集中的项;
5.2.1Apriori算法:使用侯选产生发现频繁 项集;
5.2.2由频繁项集产生关联规则; 5.2.3提高Apriori算法的效率; 5.2.4不侯选产生挖掘频繁项集; 5.2.5使用垂直数据格式挖掘频繁项集;
1.2.1Apriori算法:使用侯选产生发现 频繁项集
1.Apriori性质:频繁项集的所有非空子集也必须是频繁的。
数据挖掘期末考试试题及答案详解
数据挖掘期末考试试题及答案详解一、选择题(每题2分,共20分)1. 数据挖掘中,关联规则分析主要用于发现数据中的哪种关系?A. 因果关系B. 相关性C. 聚类关系D. 顺序关系答案:B2. 在决策树算法中,哪个指标用于评估特征的重要性?A. 信息增益B. 支持度C. 置信度D. 覆盖度答案:A3. 以下哪个是数据挖掘的常用方法?A. 线性回归B. 逻辑回归C. 神经网络D. 所有选项答案:D4. K-means聚类算法中,K值的选择是基于什么?A. 数据的维度B. 聚类中心的数量C. 数据的分布情况D. 数据的规模答案:B5. 以下哪个是数据挖掘中常用的数据预处理技术?A. 数据清洗B. 数据转换C. 数据归一化D. 所有选项答案:D...(此处省略其他选择题)二、简答题(每题10分,共30分)1. 简述什么是数据挖掘,并列举其主要的应用领域。
答案:数据挖掘是从大量数据中自动或半自动地发现有趣模式的过程。
它主要应用于市场分析、风险管理、欺诈检测、客户关系管理等领域。
2. 解释什么是朴素贝叶斯分类器,并说明其在数据挖掘中的应用。
答案:朴素贝叶斯分类器是一种基于贝叶斯定理的分类算法,它假设特征之间相互独立。
在数据挖掘中,朴素贝叶斯分类器常用于文本分类、垃圾邮件检测等任务。
3. 描述K-means聚类算法的基本原理,并举例说明其在实际问题中的应用。
答案:K-means聚类算法是一种基于距离的聚类方法,其目标是将数据点划分到K个簇中,使得每个数据点与其所属簇的中心点的距离之和最小。
例如,在市场细分中,K-means聚类可以用来将客户根据购买行为划分为不同的群体。
三、计算题(每题25分,共50分)1. 给定一组数据点:{(1,2), (2,3), (3,4), (4,5)},请使用K-means算法将这些点分为两个簇,并计算簇的中心点。
答案:首先随机选择两个点作为初始中心点,然后迭代地将每个点分配到最近的中心点,接着更新中心点。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘考试题目——关联分析
一、10个选择
1.以下属于关联分析的是()
A.CPU性能预测B.购物篮分析
C.自动判断鸢尾花类别D.股票趋势建模
2.维克托▪迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。
其中,数据之间的相关关系可以通过以下哪个算法直接挖掘()
A.K-means B.Bayes Network
C.C4.5 D.Apriori
3.置信度(confidence)是衡量兴趣度度量()的指标。
A.简洁性B.确定性
C.实用性D.新颖性
4.Apriori算法的加速过程依赖于以下哪个策略()
A.抽样B.剪枝
C.缓冲D.并行
5.以下哪个会降低Apriori算法的挖掘效率()
A.支持度阈值增大B.项数减少
C.事务数减少D.减小硬盘读写速率
6.Apriori算法使用到以下哪些东东()
A.格结构、有向无环图B.二叉树、哈希树
C.格结构、哈希树D.多叉树、有向无环图
7.非频繁模式()
A.其置信度小于阈值B.令人不感兴趣
C.包含负模式和负相关模式D.对异常数据项敏感
8.对频繁项集、频繁闭项集、极大频繁项集的关系描述正确的是()[注:分别以1、2、3代表之]
A.3可以还原出无损的1 B.2可以还原出无损的1
C.3与2是完全等价的D.2与1是完全等价的
9.Hash tree在Apriori算法中所起的作用是()
A.存储数据B.查找
C.加速查找D.剪枝
10.以下不属于数据挖掘软件的是()
A.SPSS Modeler B.Weka
C.Apache Spark D.Knime
二、10个填空
1.关联分析中表示关联关系的方法主要有:和。
2.关联规则的评价度量主要有:和。
3.关联规则挖掘的算法主要有:和。
4.购物篮分析中,数据是以的形式呈现。
5.一个项集满足最小支持度,我们称之为。
6.一个关联规则同时满足最小支持度和最小置信度,我们称之为。
7.在回归与相关分析中,因变量值随自变量值的增大(减小)而减小(增大)的现象叫做。
8.极大频繁项集不能无损还原出频繁项集,是因为它不包含频繁项集的信息。
9.经典的Apriori算法是逐层扫描的,也就是说它是 (选:深度/宽度)优先的。
10.数据挖掘大概步骤包括:输入数据→预处理→挖掘→后处理→输出知识。
其中,输出的知识可以有很多种表示形式,两种极端的形式是:①内部结构难以被理解的黑匣子,比如说人工神经网络训练得出的网络;②模式结构清晰的匣子,这种结构容易被人理解,比如说决策树产生的树。
那么,关联分析中输出的知识的表示形式主要是 (选:黑匣子/清晰结构)。
三、10个判断
()1.啤酒与尿布的故事是聚类分析的典型实例。
()2.Apriori算法是一种典型的关联规则挖掘算法。
()3.支持度是衡量关联规则重要性的一个指标。
()4.可信度是对关联规则的准确度的衡量。
()5.给定关联规则A→B,意味着:若A发生,B也会发生。
()6.频繁闭项集可用来无损压缩频繁项集。
()7.关联规则可以用枚举的方法产生。
()8.Apriori算法产生的关联规则总是确定的。
()9.不满足给定评价度量的关联规则是无趣的。
()10.对于项集来说,置信度没有意义。
四、5个简答
1.简述关联规则产生的两个基本步骤。
2.Apriori算法是从事务数据库中挖掘布尔关联规则的常用算法,该算法利用频繁项集性质的先验知识,从候选项集中找到频繁项集。
请简述Apriori算法的基本原理。
3.简述Apriori算法的优点和缺点。
4.针对Apriori算法的缺点,可以做哪些方面的改进?
5.强关联规则一定是有趣的吗?为什么?
数据挖掘考试题目+参考答案
一、10个选择
1.以下属于关联分析的是( B )
A.CPU性能预测B.购物篮分析
C.自动判断鸢尾花类别D.股票趋势建模
2.维克托▪迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。
其中,数据之间的相关关系可以通过以下哪个算法直接挖掘( D )
A.K-means B.Bayes Network
C.C4.5 D.Apriori
3.置信度(confidence)是衡量兴趣度度量( B )的指标。
A.简洁性B.确定性
C.实用性D.新颖性
4.Apriori算法的加速过程依赖于以下哪个策略( B )
A.抽样B.剪枝
C.缓冲D.并行
5.以下哪个会降低Apriori算法的挖掘效率( D )
A.支持度阈值增大B.项数减少
C.事务数减少D.减小硬盘读写速率
6.Apriori算法使用到以下哪些东东( C )
A.格结构、有向无环图B.二叉树、哈希树
C.格结构、哈希树D.多叉树、有向无环图
7.非频繁模式( D )
A.其置信度小于阈值B.令人不感兴趣
C.包含负模式和负相关模式D.对异常数据项敏感
8.对频繁项集、频繁闭项集、极大频繁项集的关系描述正确的是( B )[注:分别以1、2、3代表之]
A.3可以还原出无损的1 B.2可以还原出无损的1
C.3与2是完全等价的D.2与1是完全等价的
9.Hash tree在Apriori算法中所起的作用是( C )
A.存储数据B.查找
C.加速查找D.剪枝
10.以下不属于数据挖掘软件的是( C )
A.SPSS Modeler B.Weka
C.Apache Spark D.Knime
二、10个填空
1.关联分析中表示关联关系的方法主要有:项集和关联规则。
2.关联规则的评价度量主要有:支持度和置信度。
3.关联规则挖掘的算法主要有: Apriori 和 FP-Growth 。
4.购物篮分析中,数据是以不对称二元变量的形式呈现。
5.一个项集满足最小支持度,我们称之为频繁项集。
6.一个关联规则同时满足最小支持度和最小置信度,我们称之为强规则。
7.在回归与相关分析中,因变量值随自变量值的增大(减小)而减小(增大)的现象叫做负相关。
8.极大频繁项集不能无损还原出频繁项集,是因为它不包含频繁项集的支持度信息。
9.经典的Apriori算法是逐层扫描的,也就是说它是宽度 (选:深度/宽度)优先的。
10.数据挖掘大概步骤包括:输入数据→预处理→挖掘→后处理→输出知识。
其中,输出的知识可以有很多种表示形式,两种极端的形式是:①内部结构难以被理解的黑匣子,比如说人工神经网络训练得出的网络;②模式结构清晰的匣子,这种结构容易被人理解,比如说决策树产生的树。
那么,关联分析中输出的知识的表示形式主要是清晰结构 (选:黑匣子/清晰结构)。
三、10个判断
(✘)1.啤酒与尿布的故事是聚类分析的典型实例。
(✔)2.Apriori算法是一种典型的关联规则挖掘算法。
(✔)3.支持度是衡量关联规则重要性的一个指标。
(✔)4.可信度是对关联规则的准确度的衡量。
(✘)5.给定关联规则A→B,意味着:若A发生,B也会发生。
(✔)6.频繁闭项集可用来无损压缩频繁项集。
(✔)7.关联规则可以用枚举的方法产生。
(✔)8.Apriori算法产生的关联规则总是确定的。
(✘)9.不满足给定评价度量的关联规则是无趣的。
(✔)10.对于项集来说,置信度没有意义。
四、5个简答
1.简述关联规则产生的两个基本步骤。
答:关联规则产生的两个基本步骤为:①根据给定的支持度从项集中产生频繁项集;②根据给定的置信度从频繁项集中产生关联规则。
2.Apriori算法是从事务数据库中挖掘布尔关联规则的常用算法,该算法利用频繁项集性质的先验知识,从候选项集中找到频繁项集。
请简述Apriori算法的基本原理。
答:关联规则的产生并不依赖于Apriori算法,Apriori算法用来加速规则的产生过程。
Apriori算法的加速过程依赖于这样一个先验原理:“频繁项集的子集是频繁的”。
3.简述Apriori算法的优点和缺点。
答:Apriori算法的优点:结构简单、易于理解。
Apriori算法的缺点:产生大量的候选项集,I/O开销较大。
4.针对Apriori算法的缺点,可以做哪些方面的改进?
答:Apriori算法的缺点主要是产生的候选项集较多,从而导致I/O开销较大。
由此,可以将庞大的数据集划分为可以装进内存的数据块,利用“频繁项集至少在一个分区中是频繁的”原理合并各个数据块产生的频繁项集得到最终的频繁项集。
5.强关联规则一定是有趣的吗?为什么?
答:不一定。
因为:规则的评价标准有很多,可以是客观的也可以是主观的。
另外,强规则也可能是负相关的,即因变量值随自变量值的增大(减小)而减小(增大)的现象。