(完整word版)数据挖掘概念与技术原书第3版(范明、孟小峰绎)第一章课后习题

合集下载

数据挖掘_概念与技术(第三版)部分习题答案

1.4数据仓库和数据库有何不同？有哪些相似之处？答：区别：数据仓库是面向主题的，集成的，不易更改且随时间变化的数据集合，用来支持管理人员的决策，数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成，是面向操作型的数据库，是组成数据仓库的源数据。

它用表组织数据，采用ER数据模型。

相似：它们都为数据挖掘提供了源数据，都是数据的组合。

1.3定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。

答：特征化是一个目标类数据的一般特性或特性的汇总。

例如，学生的特征可被提出，形成所有大学的计算机科学专业一年级学生的轮廓，这些特征包括作为一种高的年级平均成绩(GPA：Gradepointaversge)的信息，还有所修的课程的最大数量。

??区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如，具有高GPA的学生的一般特性可被用来与具有低GPA的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA的学生的75%是四年级计算机科学专业的学生，而具有低GPA的学生的65%不是。

??关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如，一个数据挖掘系统可能发现的关联规则为：major(X,“computingscience”)?owns(X,“personalcomputer”)[support=12%,confidence=98%]其中，X是一个表示学生的变量。

这个规则指出正在学习的学生，12%（支持度）主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%（置信度，或确定度）。

??分类与预测不同，因为前者的作用是构造一系列能描述和区分数据类型或概念的模型（或功能），而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

它们的相似性是他们都是预测的工具：分类被用作预测目标数据的类的标签，而预测典型的应用是预测缺失的数字型数据的值。

数据挖掘概念与技术_课后题答案

数据挖掘概念与技术_课后题答案数据挖掘⼀⼀概念概念与技术Data MiningConcepts andTechniques习题答案第1章引⾔1.1什么是数据挖掘？在你的回答中，针对以下问题：1.2 1.6定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。

使⽤你熟悉的现实⽣活的数据库，给岀每种数据挖掘功能的例⼦。

解答：特征化是⼀个⽬标类数据的⼀般特性或特性的汇总。

例如，学⽣的特征可被提岀，形成所有⼤学的计算机科学专业⼀年级学⽣的轮廓，这些特征包括作为⼀种⾼的年级平均成绩（GPA: Grade point aversge）的信息，还有所修的课程的最⼤数量。

区分是将⽬标类数据对象的⼀般特性与⼀个或多个对⽐类对象的⼀般特性进⾏⽐较。

例如，具有⾼GPA的学⽣的⼀般特性可被⽤来与具有低GPA的⼀般特性⽐较。

最终的描述可能是学⽣的⼀个⼀般可⽐较的轮廓，就像具有⾼GPA的学⽣的75%是四年级计算机科学专业的学⽣，⽽具有低GPA的学⽣的65%不是。

关联是指发现关联规则，这些规则表⽰⼀起频繁发⽣在给定数据集的特征值的条件。

例如，⼀个数据挖掘系统可能发现的关联规则为：major（X, Computi ng scie nee” S own s（X, personalcomputer ” [support=12%, confid en ce=98%]其中，X是⼀个表⽰学⽣的变量。

这个规则指出正在学习的学⽣，12% （⽀持度）主修计算机科学并且拥有⼀台个⼈计算机。

这个组⼀个学⽣拥有⼀台个⼈电脑的概率是98% （置信度，或确定度）。

分类与预测不同，因为前者的作⽤是构造⼀系列能描述和区分数据类型或概念的模型（或功能），⽽后者是建⽴⼀个模型去预测缺失的或⽆效的、并且通常是数字的数据值。

它们的相似性是他们都是预测的⼯具：分类被⽤作预测⽬标数据的类的标签，⽽预测典型的应⽤是预测缺失的数字型数据的值。

聚类分析的数据对象不考虑已知的类标号。

数据挖掘概念与技术原书第3版课后练习题含答案

数据挖掘概念与技术原书第3版课后练习题含答案前言《数据挖掘概念与技术》（Data Mining: Concepts and Techniques）是一本经典的数据挖掘教材，已经推出了第3版。

本文将为大家整理并提供第3版课后习题的答案，希望对大家学习数据挖掘有所帮助。

答案第1章绪论习题1.1数据挖掘的基本步骤包括：1.数据预处理2.数据挖掘3.模型评价4.应用结果习题1.2数据挖掘的主要任务包括：1.描述性任务2.预测性任务3.关联性任务4.分类和聚类任务第2章数据预处理习题2.3数据清理包括以下几个步骤：1.缺失值处理2.异常值检测处理3.数据清洗习题2.4处理缺失值的方法包括：1.删除缺失值2.插补法3.不处理缺失值第3章数据挖掘习题3.1数据挖掘的主要算法包括：1.决策树2.神经网络3.支持向量机4.关联规则5.聚类分析习题3.6K-Means算法的主要步骤包括：1.首先随机选择k个点作为质心2.将所有点分配到最近的质心中3.重新计算每个簇的质心4.重复2-3步，直到达到停止条件第4章模型评价与改进习题4.1模型评价的方法包括：1.混淆矩阵2.精确率、召回率3.F1值4.ROC曲线习题4.4过拟合是指模型过于复杂，学习到了训练集的噪声和随机变化，导致泛化能力不足。

对于过拟合的处理方法包括：1.增加样本数2.缩小模型规模3.正则化4.交叉验证结语以上是《数据挖掘概念与技术》第3版课后习题的答案，希望能够给大家的学习带来帮助。

如果大家还有其他问题，可以在评论区留言，或者在相关论坛等平台提出。

数据挖掘概念与技术习题答案-第1章

数据挖掘概念与技术（原书第3版）第一章课后习题及解答1.9习题1.1什么是数据挖掘？在你的回答中，强调以下问题：(a）它是又一种广告宣传吗？（b)它是一种从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用吗?(c)我们提出了一种观点，说数据挖掘是数据库技术进化的结果。

你认为数据挖掘也是机器学习研究进化的结果吗？你能基于该学科的发展历史提出这一观点吗？针对统计学和模式识别领域，做相同的事。

(d)当把数据挖掘看做知识发现过程时，描述数据挖掘所涉及的步骤。

答：狭义的数据挖掘是知识发现过程中的一个步骤,广义的数据挖掘通常用来表示整个知识发现过程,我们一般采用广义的观点:数据挖掘是从大量数据中挖掘有趣模式和知识的过程。

数据源包括数据库、数据仓库、WEB、其他信息存储库或动态地流入系统的数据。

a.它不是一种广告宣传，它基于实际的需求，提供从数据中发现知识的工具。

b。

数据挖掘不是从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用，它可以看做是信息技术的自然进化，是一些相关学科和应用领域的交汇点.c。

数据挖掘是数据库技术进化的结果，也是机器学习、统计学和模式识别领域技术进化的结果。

机器学习是一个快速成长的学科,这一领域中的监督学习、无监督学习、半监督学习和主动学习问题，与数据挖掘高度相关，数据挖掘和机器学习有许多相似之处,对于分类和聚类任务，机器学习研究通常关注模型的准确率。

除准确率之外，数据挖掘研究非常强调挖掘方法在大型数据集上的有效性和可伸缩性，以及处理复杂数据类型的方法，开发新的非传统的方法.统计学研究数据的收集、分析、解释和表示。

数据挖掘和统计学具有天然联系。

（1）统计模型是一组数学函数，它们利用随机变量及其概率分布刻画目标类对象的行为，可以是数据挖掘的结果，也可以是数据挖掘任务的基础。

（2)统计学研究开发一些使用数据和统计模型进行预测和预报的工具，描述统计可以帮助理解数据；推理统计学用某种方式对数据建模，可以解释观测中的随机性和确定性，并用来提取关于所考察的过程中或总体的结论.（3）统计假设检验使用实验数据进行统计判决,可以用来验证数据挖掘结果。

数据挖掘_概念与技术(第三版)部分习题答案

它用表组织数据，采用ER数据模型。

相似：它们都为数据挖掘提供了源数据，都是数据的组合。

1.3定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。

答：特征化是一个目标类数据的一般特性或特性的汇总。

??区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如，具有高GPA的学生的一般特性可被用来与具有低GPA的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA的学生的75%是四年级计算机科学专业的学生，而具有低GPA的学生的65%不是。

??关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如，一个数据挖掘系统可能发现的关联规则为：major(X,“computingscience”)?owns(X,“personalcomputer”)[support=12%,confidence=98%]其中，X是一个表示学生的变量。

这个规则指出正在学习的学生，12%（支持度）主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%（置信度，或确定度）。

??分类与预测??聚类分析层结构，把类似的事件组织在一起。

??80~11044―――――――――――――――――――――――――――――――――――――计算数据的近似中位数值。

(完整word版)数据挖掘_概念与技术(第三版)部分习题答案(word文档良心出品)

1.4 数据仓库和数据库有何不同？有哪些相似之处？答：区别：数据仓库是面向主题的，集成的，不易更改且随时间变化的数据集合，用来支持管理人员的决策，数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成，是面向操作型的数据库，是组成数据仓库的源数据。

它用表组织数据，采用ER数据模型。

相似：它们都为数据挖掘提供了源数据，都是数据的组合。

1.3 定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。

答：特征化是一个目标类数据的一般特性或特性的汇总。

例如，学生的特征可被提出，形成所有大学的计算机科学专业一年级学生的轮廓，这些特征包括作为一种高的年级平均成绩(GPA：Grade point aversge)的信息，还有所修的课程的最大数量。

区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如，具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA 的学生的75%是四年级计算机科学专业的学生，而具有低GPA 的学生的65%不是。

关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如，一个数据挖掘系统可能发现的关联规则为：major(X, “computing science”) ⇒ owns(X, “personal computer”)[support=12%, confidence=98%] 其中，X 是一个表示学生的变量。

这个规则指出正在学习的学生，12%（支持度）主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%（置信度，或确定度）。

分类与预测不同，因为前者的作用是构造一系列能描述和区分数据类型或概念的模型（或功能），而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

数据挖掘概念与技术_课后题答案汇总汇总

数据挖掘——概念概念与技术Data MiningConcepts and T echniques习题答案第1章引言1.1 什么是数据挖掘？在你的回答中，针对以下问题：1.2 1.6 定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。

解答：�特征化是一个目标类数据的一般特性或特性的汇总。

例如，学生的特征可被提出，形成所有大学的计算机科学专业一年级学生的轮廓，这些特征包括作为一种高的年级平均成绩(GPA：Grade pointaversge)的信息，还有所修的课程的最大数量。

�区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如，具有高 GPA 的学生的一般特性可被用来与具有低 GPA 的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓，就像具有高 GPA 的学生的75%是四年级计算机科学专业的学生，而具有低GPA 的学生的65%不是。

�关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如，一个数据挖掘系统可能发现的关联规则为：major(X, “computing s cience”) ⇒ owns(X, “personalcomputer”) [support=12%, confid ence=98%]其中，X 是一个表示学生的变量。

这个规则指出正在学习的学生，12%（支持度）主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%（置信度，或确定度）。

�分类与预测不同，因为前者的作用是构造一系列能描述和区分数据类型或概念的模型（或功能），而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

它们的相似性是他们都是预测的工具：分类被用作预测目标数据的类的标签，而预测典型的应用是预测缺失的数字型数据的值。

�聚类分析的数据对象不考虑已知的类标号。

数据挖掘_概念与技术(第三版)部分习题答案

它用表组织数据，采用ER数据模型。

相似：它们都为数据挖掘提供了源数据，都是数据的组合。

1.3定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。

答：特征化是一个目标类数据的一般特性或特性的汇总。

??区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如，具有高GPA的学生的一般特性可被用来与具有低GPA的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA的学生的75%是四年级计算机科学专业的学生，而具有低GPA的学生的65%不是。

??关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如，一个数据挖掘系统可能发现的关联规则为：major(X,“computingscience”)?owns(X,“personalcomputer”)[support=12%,confidence=98%]其中，X是一个表示学生的变量。

这个规则指出正在学习的学生，12%（支持度）主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%（置信度，或确定度）。

它们的相似性是他们都是预测的工具：分类被用作预测目标数据的类的标签，而预测典型的应用是预测缺失的数字型数据的值。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1.9习题
1.1 什么是数据挖掘？在你的回答中，强调以下问题：
（a）它是又一种广告宣传吗？
（b）它是一种从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用吗？
（c）我们提出了一种观点，说数据挖掘是数据库技术进化的结果。

你认为数据挖掘也是机器学习研究进化的结果吗？你能基于该学科的发展历史提出这一观点吗？针对统计学和模式识别领域，做相同的事。

（d）当把数据挖掘看做知识发现过程时，描述数据挖掘所涉及的步骤。

答：简单地说，数据挖掘其实就是从大量的数据中发现有用的信息，它是从大量数据中挖掘有趣模式和知识的过程。

数据挖掘不是一种广告宣传，而是身处在信息时代数据如此庞大的今天，我们对由海量的数据转化为有用信息的迫切需要，所以它是信息技术自然进化的结果，而不是一种广告宣传。

数据挖掘也不是一种从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用，它涉及到了很多领域的技术，比如统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、神经网络、高性能计算、算法以及许多应用领域的大量技术。

数据挖掘起始于20世纪下半叶，是在当时多个学科发展的基础上发展起来的。

随着数据库技术的发展应用，数据的积累不断膨胀，导致简单的查询和统计已经无法满足企业的商业需求，所以急需一种新型的技术去获取有用的信息，当时计算机领域的人工智能也取得了巨大进展，进入了机器学习的阶段，人们就将两者结合起来，用数据库管理系统存储数据，用计算机分析数据，这两者的结合就促就以这一门新兴的学科，所以数据挖掘不是机器学习研究进化的结果，而是结合了机器学。

数据挖掘的步骤包括：（1）数据收集；（2）数据清洗、脱敏；（3）数据存储；（4）数据分析；（5）数据可视化。

1.2数据仓库与数据库有何不同？他们有哪相似之处？
答：数据库是按照数据结构来组织、存储和管理数据的仓库，它是以一定方式储存在一起、能为多个用户共享、具有尽可能小的冗余度的特点、是与应用程序彼此独立的数据集合。

数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。

它是单个数据存储，出于分析性报告和决策支持目的而创建。

不同处：（1）数据库是面向事务的设计，数据仓库是面向主题设计的。

（2）数据库一般存储在线交易数据，数据仓库存储的一般是历史数据。

（3）数据库设计是尽量避免冗余，数据仓库在设计是有意引入冗余。

（4）数据库是为捕获数据而设计，数据仓库是为分析数据而设计。

相似处：两者都是数据的集合。

1.3定义下列数据挖掘功能：特征化、区分、关联和相关性分析、分类、回归、聚类、离群点分析。

使用你熟悉的现实生活中的数据库，给出每种数据挖掘功能的例子答：特征化：目标类数据的一般特性或特征的汇总。

例如：汇总某年级学生的基本特征，结果可能会高分段成绩信息，是否挂科等信息。

区分：将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如：购买化妆品的顾客70%在20~40岁之间，受过大学教育，而不经常购买化妆品的
顾客60%要么年龄太小要么年龄太大，没有受过大学教育。

关联和相关性：两个变量之间的相关性，从给定的数据集中发现频繁出现的频繁模式知识。

例如：超市将啤酒和尿不湿放到一起。

分类：找出和区分数据类或概念地模型，以便能够使用模型预测类标号未知的对象的类标号。

例如：学生的成绩分为高等、中等、低等。

回归：用来预测缺失或难以获得的数值数据值，而不是离散的类标号。

例如：商品质量与用户满意度之间的因果关系。

聚类：将观测组织成类分层结构，把类似的事件组织在一起。

例如：将一些特征相似的症状结合起来可能预示一种特定的疾病。

离群点分析：数据集中可能包含一些数据对象，它们与数据的一般行为或模型不一致，这些数据对象是离群点，离群点数据的分析就是离群点分析。

例如：将正常的付款数额与一个消费数额极大的账号进行离群点分析，可能发现信用卡诈骗。

1.4给出一个例子，其中数据挖掘对于工商企业的成功是至关重要的。

该工商企业需要什么数据挖掘功能（例如，考虑可以挖掘何种类型的模式）？这种模式能够通过简单的查询处理或统计分析得到吗？
答：如淘宝网，需要根据消费者的性别、年龄、职业、收入水平、兴趣爱好等进行关联性分析，给不同的消费者推荐不同类型，不同类别的商品。

可以考虑关联和相关性的数据挖掘方法。

这种模式不能通过简单的查询处理或统计分析获得，因为每天人们在淘宝网上浏览的信息都非常多，如果仅仅通过简单的查询处理或统计分析，是不能够完成这项工作的。

1.5 解释区分和分类、特征化和类聚、分类和回归的区别与相似处。

（1）区分和分类的区别与相似处
区别：区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较，而分类是找出和区分数据类或概念地模型，以便能够使用模型预测类标号未知的对象的类标号。

相似处：都是都数据分析的方法
（2）特征化和类聚的区别与相似处
区别：特征化是目标类数据的一般特性或特征的汇总。

聚类是将观测组织成类分层结构，把类似的事件组织在一起。

特征化强调的是对数据进行汇总，而聚类强调把类似的事件组织在一起，而不是将其汇总在一起。

相似处：处理的数据都要是有相似之处的。

（3）分类和回归的区别与相似处
区别：分类是找出和区分数据类或概念地模型，以便能够使用模型预测类标号未知的对象的类标号。

回归是用来预测缺失或难以获得的数值数据值，而不是离散的类标号。

分类预测类别是离散的、无序的标号，而回归是建立连续值函数模型。

相似处：都是对数据进行预测。

1.6根据你的观察，描述一个可能的知识类型，它需要由数据挖掘方法发现，但未在本章中列出。

它需要一种不同于本章列举的数据挖掘技术吗？
答：建立一个周期性的知识类型，在不同的时间段，数据都会进行更新，修改，变化等，这个就需要一种新的数据挖掘技术。

1.7离群点经常被当做噪声丢弃。

然而，一个人的垃圾可能是另一个人的宝贝。

列如，信用
卡交易中的异常可能帮助我们检测信用卡的欺诈使用。

以欺诈检测为例，提出两种可以用来检测离群点的方法，并讨论哪种方法更可靠。

（1）基于近邻性的检验方法，包括基于距离和基于密度的方法，如果一个人的信用卡消费情况与他近邻的消费情况差异太大，这说明他是离群点。

（2）基于类聚的方法，基于类聚的方法通过考察对象与簇之间的关系检测离群点，离群点是一个对象，它属于小的偏远簇，或不属于任何一个簇，如果一个人的消费情况与所有人的消费情况不一样，则说明这个人就是信用卡诈骗。

1.8描述三个关于数据挖掘方法和用户交互问题的数据挖掘挑战。

（1）数据挖掘的过程是高度交互的，用户访问网页非常灵活，这就需要构建灵活的用户界面和探索式挖掘环境。

（2）结合背景知识：应该把背景知识、约束、规则和关于所研究领域的其他信息结合到发现过程中。

（3）数据挖掘结果的表示和可视化：数据挖掘系统如何生动、灵活地提供数据挖掘结果，使所发现的知识容易理解，也是数据挖掘的一大挑战
1.9与挖据少量数据（例如，几百个元祖的数据集合）相比，挖掘海量数据（例如，数十亿个元祖）的主要挑战是什么？
（1）可伸缩性；在处理大量的数据时，必定要求算法等技术的可伸缩性。

（2）高维性；随着数据的不断膨胀，数据的属性也在不断地增加，具有时间和空间分量的数据集也趋向于高维度，这也需要数据分析的方法更加地复杂。

（3）异种数据和复杂数据；随州信息技术的不断进步，人们接触的数据也越来越多样化和复杂化。

（4）数据的安全性也是挖掘海量数据的一大挑战。

1.10概述在诸如流/传感器数据分析、时空数据分析或生物信息学等某个特定应用领域中的数据挖掘的主要挑战。

主要挑战：由于现有的技术条件有限，对于流/传感器的数据分析、时空数据分析、生物信息学等领域的数据挖掘来说，如何找寻挖掘这些数据的技术和方法，如何处理、分析这些数据对于数据挖掘来说是一项巨大的挑战。