数据挖掘考试题目关联分析

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据挖掘考试题目——关联分析

一、10个选择

1.以下属于关联分析的是（）

A．CPU性能预测 B．购物篮分析

C．自动判断鸢尾花类别 D．股票趋势建模

2.维克托?迈尔-舍恩伯格在《大数据时代：生活、工作与思维的大变革》一书中，持续强调了一个观点：大数据时代的到来，使我们无法人为地去发现数据中的奥妙，与此同时，我们更应该注重数据中的相关关系，而不是因果关系。其中，数据之间的相关关系可以通过以下哪个算法直接挖掘（）

A．K-means B．Bayes Network

C．C4.5 D．Apriori

3.置信度(confidence)是衡量兴趣度度量（）的指标。

A．简洁性 B．确定性

C．实用性 D．新颖性

4.Apriori算法的加速过程依赖于以下哪个策略（）

A．抽样 B．剪枝

C．缓冲 D．并行

5.以下哪个会降低Apriori算法的挖掘效率（）

A．支持度阈值增大 B．项数减少

C．事务数减少 D．减小硬盘读写速率

6.Apriori算法使用到以下哪些东东（）

A．格结构、有向无环图 B．二叉树、哈希树

C．格结构、哈希树 D．多叉树、有向无环图

7.非频繁模式（）

A．其置信度小于阈值 B．令人不感兴趣

C．包含负模式和负相关模式 D．对异常数据项敏感

8.对频繁项集、频繁闭项集、极大频繁项集的关系描述正确的是（）]3代表之1、2、[注：分别以A．3可以还原出无损的1 B．2可以还原出无损的1

C．3与2是完全等价的 D．2与1是完全等价的

9.Hash tree在Apriori算法中所起的作用是（）

A．存储数据 B．查找

C．加速查找 D．剪枝

10.以下不属于数据挖掘软件的是（）

A．SPSS Modeler B．Weka

C．Apache Spark D．Knime

二、10个填空

1.关联分析中表示关联关系的方法主要有：和。

2.关联规则的评价度量主要有：和。

3.关联规则挖掘的算法主要有：和。

4.购物篮分析中，数据是以的形式呈现。

5.一个项集满足最小支持度，我们称之为。

6.一个关联规则同时满足最小支持度和最小置信度，我们称之为。

7.在回归与相关分析中，因变量值随自变量值的增大（减小）而减小（增大）的现象叫做。

8.极大频繁项集不能无损还原出频繁项集，是因为它不包含频繁项集的信息。

9.经典的Apriori算法是逐层扫描的，也就是说它是 (选:深度/宽度)优先的。

10.数据挖掘大概步骤包括：输入数据?预处理?挖掘?后处理?输出知识。其中，输出的知识可以有很多种表示形式，两种极端的形式是：①内部结构难以被理解的黑匣子，比如说人工神经网络训练得出的网络；②模式结构清晰的匣子，这种结构容易被人理解，比如说决策树产生的树。那么，关联分析中输出的知识的表示形式主要是 (选:黑匣子/清晰结构)。

三、10个判断

（）1.啤酒与尿布的故事是聚类分析的典型实例。

（）2.Apriori算法是一种典型的关联规则挖掘算法。

（）3.支持度是衡量关联规则重要性的一个指标。

（）4.可信度是对关联规则的准确度的衡量。

（）5.给定关联规则A?B，意味着：若A发生，B也会发生。

（）6.频繁闭项集可用来无损压缩频繁项集。

（）7.关联规则可以用枚举的方法产生。

（）8.Apriori算法产生的关联规则总是确定的。

（）9.不满足给定评价度量的关联规则是无趣的。

（）10.对于项集来说，置信度没有意义。

四、5个简答

1.简述关联规则产生的两个基本步骤。

2.Apriori算法是从事务数据库中挖掘布尔关联规则的常用算法，该算法利用频繁项集性质的先验知识，从候选项集中找到频繁项集。请简述Apriori算法的基本原理。

3.简述Apriori算法的优点和缺点。

4.针对Apriori算法的缺点，可以做哪些方面的改进？

强关联规则一定是有趣的吗？为什么？5.

数据挖掘考试题目+参考答案

一、10个选择

1.以下属于关联分析的是（ B ）

A．CPU性能预测 B．购物篮分析

C．自动判断鸢尾花类别 D．股票趋势建模

2.维克托?迈尔-舍恩伯格在《大数据时代：生活、工作与思维的大变革》一书中，持续强调了一个观点：大数据时代的到来，使我们无法人为地去发现数据中的奥妙，与此同时，我们更应该注重数据中的相关关系，而不是因果关系。其中，数据之间的相关关系可以通过以下哪个算法直接挖掘（ D ）

A．K-means B．Bayes Network

C．C4.5 D．Apriori

3.置信度(confidence)是衡量兴趣度度量（ B ）的指标。

A．简洁性 B．确定性

C．实用性 D．新颖性

4.Apriori算法的加速过程依赖于以下哪个策略（ B ）

A．抽样 B．剪枝

C．缓冲 D．并行

5.以下哪个会降低Apriori算法的挖掘效率（ D ）

A．支持度阈值增大 B．项数减少

C．事务数减少 D．减小硬盘读写速率

6.Apriori算法使用到以下哪些东东（ C ）

A．格结构、有向无环图 B．二叉树、哈希树

C．格结构、哈希树 D．多叉树、有向无环图

7.非频繁模式（ D ）

A．其置信度小于阈值 B．令人不感兴趣

C．包含负模式和负相关模式 D．对异常数据项敏感

8.对频繁项集、频繁闭项集、极大频繁项集的关系描述正确的是（ B ）]3代表之1、2、[注：分别以A．3可以还原出无损的1 B．2可以还原出无损的1

C．3与2是完全等价的 D．2与1是完全等价的

9.Hash tree在Apriori算法中所起的作用是（ C ）

A．存储数据 B．查找

C．加速查找 D．剪枝

10.以下不属于数据挖掘软件的是（ C ）

A．SPSS Modeler B．Weka

C．Apache Spark D．Knime

二、10个填空

1.关联分析中表示关联关系的方法主要有：项集和关联规则。

2.关联规则的评价度量主要有：支持度和置信度。

3.关联规则挖掘的算法主要有： Apriori 和 FP-Growth 。

4.购物篮分析中，数据是以不对称二元变量的形式呈现。

5.一个项集满足最小支持度，我们称之为频繁项集。

6.一个关联规则同时满足最小支持度和最小置信度，我们称之为强规则。

7.在回归与相关分析中，因变量值随自变量值的增大（减小）而减小（增大）的现象叫做负