最新《数据挖掘》课程作业答案

浙江大学远程教育学院《数据挖掘》课程作业答案

第一章引言

一、填空题

（1）数据清理，数据集成，数据选择，数据变换，数据挖掘，模式评估，4

知识表示

（2）算法的效率、可扩展性和并行处理

（3）统计学、数据库技术和机器学习

（4）一些与数据的一般行为或模型不一致的孤立数据

二、简答题

（1）什么是数据挖掘？

答：数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、11

隐含的、先前未知的和可能有用的模式或知识。

（2）一个典型的数据挖掘系统应该包括哪些组成部分？

答：一个典型的数据挖掘系统应该包括以下部分：

数据库、数据仓库或其他信息库

数据库或数据仓库服务器

知识库

数据挖掘引擎

模式评估模块

图形用户界面

（3）Web挖掘一般包括以下步骤：

数据清理: (这个可能要占全过程60％的工作量)

数据集成

将数据存入数据仓库

建立数据立方体

选择用来进行数据挖掘的数据

数据挖掘（选择适当的算法来找到感兴趣的模式）

展现挖掘结果

将模式或者知识应用或者存入知识库

（4）请列举数据挖掘应用常见的数据源。

（或者说，我们都在什么样的数据上进行数据挖掘）

答：常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库32

系统和信息库。其中高级数据库系统和信息库包括：空间数据库、时间数据库33

和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据34

库、异种数据库和遗产(legacy)数据库、文本数据库和万维网(WWW)等。

第二章认识数据

一、填空题

（1）5/13

(2）极差、分位数、四分位数、百分位数、四分位数极差和标准差

（3）出落在至少高于第三个四分位数或低于第一个四分位数1.5×IQR处40

的值

二、单选题

（1）C；（2）C；

三、简答题

（1）什么是基于像素的可视化技术？它有什么缺点？

答：对于一个m维数据集，基于像素的可视化技术在屏幕上创建m个窗口，46

每维一个。记录的m个维值映射到这些窗口对应位置上的m个像素。像素的颜47

色反映对应的值。基于像素的可视化技术的缺点：难以呈现多维空间的数据分48

布，不显示数据子空间中是否存在稠密区域。

（2）对称的和不对称的二元属性有什么区别？

答：对称的二元属性指变量的两个状态具有同等价值或相同权重；而不对51

称的二元属性中，变量的两个状态的重要性是不同的。

对称的二元属性可以使用简单匹配系数评估它们的相异度；不对称的二元53

属性使用Jaccard系数评估它们的相异度。

第三章数据预处理

一、填空题

（1）数据清理、数据集成、数据变换、数据规约

（2）沿概念分层向上概化

（3）有损压缩，无损压缩

（4）线性回归方法，多元回归，对数线性模型

二、简答题

（1）常用的数值属性概念分层的方法有哪些？

答：常用的数值属性概念分层的方法有分箱、直方图分析、聚类分析、基63

于熵的离散化和通过自然划分分段。

（2）主成份分析步骤为：

a、规范化输入的数据：所有属性落在相同的区间内；

b、计算k个标准正交向量，即主成分；

c、每个输入数据的向量都是这k个主成分向量的线性组合；

d、主成分按照重要程度降序排序。

（3）在现实世界的数据中，元组在某些属性上缺少值是常有的。描述处理70

该问题的各种方法。

答：处理空缺值的方法有：

（1）忽略元组。当类标号缺少时通常这么做（假定挖掘任务设计分类或描73

述），当每个属性缺少值的百分比变化很大时，它的效果非常差。

（2）人工填写空缺值。这种方法工作量大，可行性低

（3）使用一个全局变量填充空缺值：比如使用unknown或-∞

（4）使用属性的平均值填充空缺值

（5）使用与给定元组属同一类的所有样本的平均值

（6）使用最可能的值填充空缺值。如使用像Bayesian公式或判定树这样79

的基于推断的方法

（4）常见的数据归约策略包括哪些？

答：数据归约策略包括：

（1）数据立方体聚集

（2）维归约

（3）数据压缩

（4）数值归约

（5）离散化和概念分层产生

第六—七章挖掘频繁模式、关联和相关

一、填空题

（1）支持度和置信度

（2）连接和剪枝

（3）包含项集的事务数

（4）找出所有频繁项集、由频繁项集产生强关联规则

（5）布尔关联规则、量化关联规则

（6）频繁项集的所有非空子集也必须是频繁的

（7）频繁谓词集

二、简答题

（1）简述在多层关联规则挖掘中，在不同的层使用一致的支持度的优缺点。

答：优点：搜索时容易采用优化策略，即一个项如果不满足最小支持度，99

它的所有子项都可以不用搜索。缺点：最小支持度值设置困难：太高则将丢掉100

出现在较低抽象层中有意义的关联规则；太低则会在较高层产生太多的无兴趣101

的规则。

102

（2）如何提高Apriori算法的有效性？有哪些常见方法？

103

可以使用以下几个思路提升Apriori算法有效性：减少对数据的扫描次数；104

缩小产生的候选项集；改进对候选项集的支持度计算方法。常见方法包括：a、105

基于hash表的项集计数；b、事务压缩（压缩进一步迭代的事务数）c、划分；106

d、选样（在给定数据的一个子集挖掘）；

e、动态项集计数。

107

第八章分类

108

一、填空题

109

（1）分类规则、决策树、数学公式

110

（2）类条件独立

111

二、简答题

112

（1）在判定树归纳中，为什么树剪枝是有用的？

113

答：决策树建立时，许多分枝反映的是训练数据中的噪声和离群点点，树114

剪枝可以识别并剪去这种分枝，以提高对未知数据分类的准确性。

115

（2）为什么朴素贝叶斯分类称为“朴素”的？简述朴素贝叶斯分类优缺116

点。

117

答：基于贝叶斯定理的推断需要大量训练数据以覆盖类条件概率空间，引118

入了很大开销。朴素贝叶斯分类做了类条件独立假设，大幅降低了计算开销。119

他的优点是容易实现并在大多数情况下可以取得较好的结果；他的缺陷是类条120

件独立在实际应用中缺乏准确性，因为变量之间经常存在依赖关系；这种依赖121

关系影响了朴素贝叶斯分类器的准确性。

122

（3）分类方法的常用评估度量都有哪些？

123

精度（Precision）：标记为正类的元组实际为正类所占的百分比召回率：124

正元组标记为正的百分比

125

F 度量：精度和召回率的调和评估指标

126

准确率（accuracy），识别率：测试数据中被正确分类的元组所占的百分127

比；

128

灵敏度（Sensitivity ）：真正例（识别）率

129

特效性（Specificity ）：真负例率

130

（4）简述数据分类的两步过程。

131

第一步，建立模型:建立描述预先定义的数据类或概念集的分类器；

132