《数据挖掘》课程作业答案

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

浙江大学远程教育学院《数据挖掘》课程作业答案

第一章引言

一、填空题

（1）数据清理，数据集成，数据选择，数据变换，数据挖掘，模式评估，知识表示

（2）算法的效率、可扩展性和并行处理

（3）统计学、数据库技术和机器学习

（4）一些与数据的一般行为或模型不一致的孤立数据

二、简答题

（1）什么是数据挖掘？

答：数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。

（2）一个典型的数据挖掘系统应该包括哪些组成部分？

答：一个典型的数据挖掘系统应该包括以下部分：

数据库、数据仓库或其他信息库

数据库或数据仓库服务器

知识库

数据挖掘引擎

模式评估模块

图形用户界面

（3）Web挖掘一般包括以下步骤：

数据清理: (这个可能要占全过程60％的工作量)

数据集成

将数据存入数据仓库

建立数据立方体

选择用来进行数据挖掘的数据

数据挖掘（选择适当的算法来找到感兴趣的模式）

展现挖掘结果

将模式或者知识应用或者存入知识库

（4）请列举数据挖掘应用常见的数据源。

（或者说，我们都在什么样的数据上进行数据挖掘）

答：常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。其中高级数据库系统和信息库包括：空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文本数据库和万维网(WWW)等。

第二章认识数据

一、填空题

（1）5/13

(2）极差、分位数、四分位数、百分位数、四分位数极差和标准差

（3）出落在至少高于第三个四分位数或低于第一个四分位数1.5×IQR处的值

二、单选题

（1）C；（2）C；

三、简答题

（1）什么是基于像素的可视化技术？它有什么缺点？

答：对于一个m维数据集，基于像素的可视化技术在屏幕上创建m个窗口，每维一个。记录的m个维值映射到这些窗口对应位置上的m个像素。像素的颜色反映对应的值。基于像素的可视化技术的缺点：难以呈现多维空间的数据分布，不显示数据子空间中是否存在稠密区域。

（2）对称的和不对称的二元属性有什么区别？

答：对称的二元属性指变量的两个状态具有同等价值或相同权重；而不对称的二元属性中，变量的两个状态的重要性是不同的。

对称的二元属性可以使用简单匹配系数评估它们的相异度；不对称的二元属性使用Jaccard 系数评估它们的相异度。

第三章数据预处理

一、填空题

（1）数据清理、数据集成、数据变换、数据规约

（2）沿概念分层向上概化

（3）有损压缩，无损压缩

（4）线性回归方法，多元回归，对数线性模型

二、简答题

（1）常用的数值属性概念分层的方法有哪些？

答：常用的数值属性概念分层的方法有分箱、直方图分析、聚类分析、基于熵的离散化和通过自然划分分段。

（2）主成份分析步骤为：

a、规范化输入的数据：所有属性落在相同的区间内；

b、计算k个标准正交向量，即主成分；

c、每个输入数据的向量都是这k个主成分向量的线性组合；

d、主成分按照重要程度降序排序。

（3）在现实世界的数据中，元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。

答：处理空缺值的方法有：

（1）忽略元组。当类标号缺少时通常这么做（假定挖掘任务设计分类或描述），当每个属性缺少值的百分比变化很大时，它的效果非常差。

（2）人工填写空缺值。这种方法工作量大，可行性低

（3）使用一个全局变量填充空缺值：比如使用unknown或-∞

（4）使用属性的平均值填充空缺值

（5）使用与给定元组属同一类的所有样本的平均值

（6）使用最可能的值填充空缺值。如使用像Bayesian公式或判定树这样的基于推断的方法

（4）常见的数据归约策略包括哪些？

答：数据归约策略包括：

（1）数据立方体聚集

（2）维归约

（3）数据压缩

（4）数值归约

（5）离散化和概念分层产生

第六—七章挖掘频繁模式、关联和相关

一、填空题

（1）支持度和置信度

（2）连接和剪枝

（3）包含项集的事务数

（4）找出所有频繁项集、由频繁项集产生强关联规则

（5）布尔关联规则、量化关联规则

（6）频繁项集的所有非空子集也必须是频繁的

（7）频繁谓词集

二、简答题

（1）简述在多层关联规则挖掘中，在不同的层使用一致的支持度的优缺点。

答：优点：搜索时容易采用优化策略，即一个项如果不满足最小支持度，它的所有子项都可以不用搜索。缺点：最小支持度值设置困难：太高则将丢掉出现在较低抽象层中有意义的关联规则；太低则会在较高层产生太多的无兴趣的规则。

（2）如何提高Apriori算法的有效性？有哪些常见方法？

可以使用以下几个思路提升Apriori算法有效性：减少对数据的扫描次数；缩小产生的候选项集；改进对候选项集的支持度计算方法。常见方法包括：a、基于hash表的项集计数；b、事务压缩（压缩进一步迭代的事务数）c、划分；d、选样（在给定数据的一个子集挖掘）；

e、动态项集计数。

第八章分类

一、填空题

（1）分类规则、决策树、数学公式

（2）类条件独立

二、简答题

（1）在判定树归纳中，为什么树剪枝是有用的？

答：决策树建立时，许多分枝反映的是训练数据中的噪声和离群点点，树剪枝可以识别并剪去这种分枝，以提高对未知数据分类的准确性。

（2）为什么朴素贝叶斯分类称为“朴素”的？简述朴素贝叶斯分类优缺点。

答：基于贝叶斯定理的推断需要大量训练数据以覆盖类条件概率空间，引入了很大开销。朴素贝叶斯分类做了类条件独立假设，大幅降低了计算开销。他的优点是容易实现并在大多数情况下可以取得较好的结果；他的缺陷是类条件独立在实际应用中缺乏准确性，因为变量之间经常存在依赖关系；这种依赖关系影响了朴素贝叶斯分类器的准确性。

（3）分类方法的常用评估度量都有哪些？

精度（Precision）：标记为正类的元组实际为正类所占的百分比召回率：正元组标记为正的百分比

F 度量：精度和召回率的调和评估指标

准确率（accuracy），识别率：测试数据中被正确分类的元组所占的百分比；