(完整版)数据挖掘概念课后习题答案

合集下载

数据挖掘概念与技术原书第3版课后练习题含答案

数据挖掘概念与技术原书第3版课后练习题含答案前言《数据挖掘概念与技术》（Data Mining: Concepts and Techniques）是一本经典的数据挖掘教材，已经推出了第3版。

本文将为大家整理并提供第3版课后习题的答案，希望对大家学习数据挖掘有所帮助。

答案第1章绪论习题1.1数据挖掘的基本步骤包括：1.数据预处理2.数据挖掘3.模型评价4.应用结果习题1.2数据挖掘的主要任务包括：1.描述性任务2.预测性任务3.关联性任务4.分类和聚类任务第2章数据预处理习题2.3数据清理包括以下几个步骤：1.缺失值处理2.异常值检测处理3.数据清洗习题2.4处理缺失值的方法包括：1.删除缺失值2.插补法3.不处理缺失值第3章数据挖掘习题3.1数据挖掘的主要算法包括：1.决策树2.神经网络3.支持向量机4.关联规则5.聚类分析习题3.6K-Means算法的主要步骤包括：1.首先随机选择k个点作为质心2.将所有点分配到最近的质心中3.重新计算每个簇的质心4.重复2-3步，直到达到停止条件第4章模型评价与改进习题4.1模型评价的方法包括：1.混淆矩阵2.精确率、召回率3.F1值4.ROC曲线习题4.4过拟合是指模型过于复杂，学习到了训练集的噪声和随机变化，导致泛化能力不足。

对于过拟合的处理方法包括：1.增加样本数2.缩小模型规模3.正则化4.交叉验证结语以上是《数据挖掘概念与技术》第3版课后习题的答案，希望能够给大家的学习带来帮助。

如果大家还有其他问题，可以在评论区留言，或者在相关论坛等平台提出。

数据挖掘概念与技术习题答案-第1章

数据挖掘概念与技术（原书第3版）第一章课后习题及解答1.9习题1.1什么是数据挖掘？在你的回答中，强调以下问题：(a）它是又一种广告宣传吗？（b)它是一种从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用吗?(c)我们提出了一种观点，说数据挖掘是数据库技术进化的结果。

你认为数据挖掘也是机器学习研究进化的结果吗？你能基于该学科的发展历史提出这一观点吗？针对统计学和模式识别领域，做相同的事。

(d)当把数据挖掘看做知识发现过程时，描述数据挖掘所涉及的步骤。

答：狭义的数据挖掘是知识发现过程中的一个步骤,广义的数据挖掘通常用来表示整个知识发现过程,我们一般采用广义的观点:数据挖掘是从大量数据中挖掘有趣模式和知识的过程。

数据源包括数据库、数据仓库、WEB、其他信息存储库或动态地流入系统的数据。

a.它不是一种广告宣传，它基于实际的需求，提供从数据中发现知识的工具。

b。

数据挖掘不是从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用，它可以看做是信息技术的自然进化，是一些相关学科和应用领域的交汇点.c。

数据挖掘是数据库技术进化的结果，也是机器学习、统计学和模式识别领域技术进化的结果。

机器学习是一个快速成长的学科,这一领域中的监督学习、无监督学习、半监督学习和主动学习问题，与数据挖掘高度相关，数据挖掘和机器学习有许多相似之处,对于分类和聚类任务，机器学习研究通常关注模型的准确率。

除准确率之外，数据挖掘研究非常强调挖掘方法在大型数据集上的有效性和可伸缩性，以及处理复杂数据类型的方法，开发新的非传统的方法.统计学研究数据的收集、分析、解释和表示。

数据挖掘和统计学具有天然联系。

（1）统计模型是一组数学函数，它们利用随机变量及其概率分布刻画目标类对象的行为，可以是数据挖掘的结果，也可以是数据挖掘任务的基础。

（2)统计学研究开发一些使用数据和统计模型进行预测和预报的工具，描述统计可以帮助理解数据；推理统计学用某种方式对数据建模，可以解释观测中的随机性和确定性，并用来提取关于所考察的过程中或总体的结论.（3）统计假设检验使用实验数据进行统计判决,可以用来验证数据挖掘结果。

(完整word版)数据挖掘_概念与技术(第三版)部分习题答案(word文档良心出品)

1.4 数据仓库和数据库有何不同？有哪些相似之处？答：区别：数据仓库是面向主题的，集成的，不易更改且随时间变化的数据集合，用来支持管理人员的决策，数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成，是面向操作型的数据库，是组成数据仓库的源数据。

它用表组织数据，采用ER数据模型。

相似：它们都为数据挖掘提供了源数据，都是数据的组合。

1.3 定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。

答：特征化是一个目标类数据的一般特性或特性的汇总。

例如，学生的特征可被提出，形成所有大学的计算机科学专业一年级学生的轮廓，这些特征包括作为一种高的年级平均成绩(GPA：Grade point aversge)的信息，还有所修的课程的最大数量。

区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如，具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA 的学生的75%是四年级计算机科学专业的学生，而具有低GPA 的学生的65%不是。

关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如，一个数据挖掘系统可能发现的关联规则为：major(X, “computing science”) ⇒ owns(X, “personal computer”)[support=12%, confidence=98%] 其中，X 是一个表示学生的变量。

这个规则指出正在学习的学生，12%（支持度）主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%（置信度，或确定度）。

分类与预测不同，因为前者的作用是构造一系列能描述和区分数据类型或概念的模型（或功能），而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

数据挖掘习题及参考答案

实际生活的例子：
①电信行业中利用数据挖掘技术进行客户行为分析，包含客户通话记录、通话时间、所开通的服务等，据此进行客户群体划分以及客户流失性分析。
②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析，帮助天文学家发现其他未知星体。
③制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。
第 4 页共 27 页
(b)对于数据平滑，其它方法有： (1)回归：可以用一个函数(如回归函数)拟合数据来光滑数据； (2)聚类：可以通过聚类检测离群点，将类似的值组织成群或簇。直观地，落在簇集合之外的值视为离群点。
2.6 使用习题 2.5 给出的 age 数据，回答以下问题： (a) 使用 min-max 规范化，将 age 值 35 转换到[0.0，1.0]区间。 (b) 使用 z-score 规范化转换 age 值 35，其中，age 的标准偏差为 12.94 年。 (c) 使用小数定标规范化转换 age 值 35。 (d) 指出对于给定的数据，你愿意使用哪种方法。陈述你的理由。
回归来建模，或使用时间序列分析。 (7) 是，需要建立正常心率行为模型，并预警非正常心率行为。这属于数据挖掘领域
的异常检测。若有正常和非正常心率行为样本，则可以看作一个分类问题。 (8) 是，需要建立与地震活动相关的不同波形的模型，并预警波形活动。属于数据挖
掘领域的分类。 (9) 不是，属于信号处理。
1.6 根据你的观察，描述一个可能的知识类型，它需要由数据挖掘方法发现，但本章未列出。它需要一种不同于本章列举的数据挖掘技术吗？
答：建立一个局部的周期性作为一种新的知识类型，只要经过一段时间的偏移量在时间序列中重复发生，那么在这个知识类型中的模式是局部周期性的。需要一种新的数据挖掘技术解决这类问题。

完整word版数据挖掘课后答案

第一章6．1 数据特征化是目标类数据的一般特性或特征的汇总。

（1）岁、有工5040—元以上的顾客特征的汇总描述是：年龄在例如，在某商店花费1000 作和很好的信誉等级。

数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比）（2 较。

由可与低平均分数的学生的一般特点进行比较。

例如，高平均分数的学生的一般特点，％的学生是大四的计算机科学专业75此产生的可能是一个相当普遍的描述，如平均分高达的学生则不是。

的学生，而平均分低于65% ）关联和相关分析是指在给定的频繁项集中寻找相关联的规则。

（3”X，）=>拥有（X 例如，一个数据挖掘系统可能会发现这样的规则：专业（，“计算机科学”是一个变量，代表一个学生，该规，其中Xconfidence = 98％]％，个人电脑“）[support= 12的置信度或可信性表示，如果一个学生是属于计算机科学专业的，则拥有个人则表明，98%显示属于计算机科学专的支持度意味着所研究的所有事务的12%98%。

12%电脑的可能性是业的学生都会拥有个人电脑。

（4）分类和预测的不同之处在于前者是构建了一个模型（或函数），描述和区分数据类或概念，而后者则建立了一个模型来预测一些丢失或不可用的数据，而且往往是数值，数据集的预测。

它们的相似之处是它们都是为预测工具：分类是用于预测的数据和预测对象的类标签，预测通常用于预测缺失值的数值数据。

例如：某银行需要根据顾客的基本特征将顾客的信誉度区分为优良中差几个类别，此时用到的则是分类；当研究某只股票的价格走势时，会根据股票的历史价格来预测股票的未来价格，此时用到的则是预测。

（5）聚类分析数据对象是根据最大化类内部的相似性、最小化类之间的相似性的原则进行聚类和分组。

聚类还便于分类法组织形式，将观测组织成类分层结构，把类似的事件组织在一起。

例如：世界上有很多种鸟，我们可以根据鸟之间的相似性，聚集成n类，其中n可以认为规定。

数据挖掘习题及解答-完美版

Data Mining Take Home Exam学号: xxxx 姓名: xxx（1）计算整个数据集的Gini指标值。

（2)计算属性性别的Gini指标值（3）计算使用多路划分属性车型的Gini指标值(4）计算使用多路划分属性衬衣尺码的Gini指标值（5）下面哪个属性更好，性别、车型还是衬衣尺码？为什么？^2}＊1/2］＊2=0.48(3)—(8/8）^2-(0/8)^2}＊8/20+｛1—（1/8）^2—(7/8）^2｝*8/20=26/160=0。

16254/7)^2}＊7/20+［｛1—(2/4）^2—(2/4)^2}*4/20］＊2=8/25+6/35=0。

4914（5)比较上面各属性的Gini值大小可知，车型划分Gini值0。

1625最小，即使用车型属性更好。

2。

（（1）将每个事务ID视为一个购物篮,计算项集{e}，｛b，d｝和{b,d,e｝的支持度。

（2）使用（1）的计算结果,计算关联规则{b，d｝→｛e}和｛e}→{b,d｝的置信度.(3）将每个顾客ID作为一个购物篮，重复（1)。

应当将每个项看作一个二元变量（如果一个项在顾客的购买事务中至少出现一次，则为1，否则，为0）. （4)使用(3）的计算结果，计算关联规则｛b，d｝→{e｝和｛e｝→{b,d}的置信度。

答：（1）由上表计数可得｛ｅ｝的支持度为8/10=0。

8;{ｂ，ｄ｝的支持度为2/10=0。

2；｛b,d，e｝的支持度为2/10=0。

2。

（2)c［{b,d｝→{e｝］=2/8=0.25; c［｛e｝→{b,d｝]=8/2=4。

（3）同理可得：｛e｝的支持度为4/5=0.8，｛b,d｝的支持度为5/5=1，｛b,d，e｝的支持度为4/5=0.8。

（4)c[{b，d｝→{e｝]=5/4=1.25,c[{e}→{b，d}］=4/5=0。

8。

3. （20分）以下是多元回归分析的部分R输出结果。

> ls1=lm(y～x1+x2）〉anova(ls1）Df Sum Sq Mean Sq F value Pr（〉F）x1 1 10021.2 10021.2 62。

(完整版)数据挖掘_概念与技术(第三版)部分习题答案

它用表组织数据，采用ER数据模型。

相似：它们都为数据挖掘提供了源数据，都是数据的组合。

1.3 定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。

答：特征化是一个目标类数据的一般特性或特性的汇总。

区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如，具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA 的学生的75%是四年级计算机科学专业的学生，而具有低GPA 的学生的65%不是。

关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。

这个规则指出正在学习的学生，12%（支持度）主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%（置信度，或确定度）。

(完整版)数据挖掘概念课后习题答案

�步骤3：计算每个等频箱的算数均值。
�步骤4：用各箱计算出的算数均值替换每箱中的每个值。
箱1：44/3，44/3，44/3箱2：55/3，55/3，55/3箱3：21，21，21
箱4：24，24，24箱5：80/3，80/3，80/3箱6：101/3，101/3，101/3
箱7：35，35，35箱8：121/3，121/3，121/3箱9：56，56，56
major(X,“computingscience”)⇒owns(X,“personalcomputer”)[support=12%,confidence=98%]
其中，X是一个表示学生的变量。这个规则指出正在学习的学生，12%（支持度）主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%（置信度，或确定度）。
(a)为该数据仓库画出雪花形模式图。
(b)(b)由基本方体[student,course,semester,instructor]开始，为列出BigUniversity每个学生的CS课程的平均成绩，应当使用哪些特殊的OLAP操作。
(c)如果每维有5层（包括all），如“student<major<status<university<all”，该立方体包含多少方体？
(g)分位数—分位数图与分位数图的不同之处是什么？分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样，他可以展示所有数的分位数信息，而为独立变量测得的值（纵轴）相对于它们的分位数（横轴）被描绘出来。但分位数—分位数图用纵轴表示一种单变量分布的分位数，用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域，且点按照两种分布分位数值展示。一条线（y=x）可画到图中，以增加图像的信息。落在该线以上的点表示在y轴上显示的值的分布比x轴的相应的等同分位数对应的值的分布高。反之，对落在该线以下的点则低。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

�松散耦合：数据挖掘系统不与数据库或数据仓库集成，除了使用被挖掘的初始数据集的源数据和存储挖掘结果。这样，这种构架能得到数据库和数据仓库提供的灵活、高效、和特征的优点。但是，在大量的数据集中，由松散耦合得到高可测性和良好的性能是非常困难的，因为许多这种系统是基于内存的。
�半紧密耦合：一些数据挖掘原语，如聚合、分类、或统计功能的预计算，可在数据库或数据仓库系统有效的执行，以便数据挖掘系统在挖掘-查询过程的应用。另外，一些经常用到的中间挖掘结果能被预计算并存储到数据库或数据仓库系统中，从而增强了数据挖掘系统的性能。
(a)该数据的均值是什么？中位数是什么？
(b)该数据的众数是什么？讨论数据的峰（即双峰、三峰等）。
(c)数据的中列数是什么？
(d)你能（粗略地）找出数据的第一个四分位数（Q1）和第三个四分位数（Q3）吗？
�分类与预测不同，因为前者的作用是构造一系列能描述和区分数据类型或概念的模型（或功能），而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具：分类被用作预测目标数据的类的标签，而预测典型的应用是预测缺失的数字型数据的值。
�聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式，将观测组织成类分层结构，把类似的事件组织在一起。
合，因为它是松散耦合和紧密耦合的折中。
第2章数据预处理
2.2假设给定的数据集的值已经分组为区间。区间和对应的频率如下。
年龄
频率
1~5
200
5~15
450
15~20
300
20~50
1500
50~80
700
80~110
44
计算数据的近似中位数值。
2.4假定用于分析的数据包含属性age。数据元组的age值（以递增序）是：13，15，16，16，19，20，20，21，22，22，25，25，25，25，30，33，33，35，35，35，35，36，40，45，46，52，70。
�模式兴趣度度量：这种原语允许用户指定功能，用于从知识中分割不感兴趣的模式，并且被用来指导挖掘过程，也可评估发现的模式。这样就允许用户限制在挖掘过程返回的不感兴趣的模式的数量，因为一种数据挖掘系统可能产生大量的模式。兴趣度测量能被指定为简易性、确定性、适用性、和新颖性的特征。
�发现模式的可视化：这种原语述及发现的模式应该被显示出来。为了使数据挖掘能有效地将知识传给用户，数据挖掘系统应该能将发现的各种形式的模式展示出来，正如规则、表格、饼或条形图、决策树、立方体或其它视觉的表示。
1.41.13描述以下数据挖掘系统与数据库或数据仓库集成方法的差别：不耦合、松散耦合、半紧耦合和紧密耦合。你认为哪种方法最流行，为什么？
解答：数据挖掘系统和数据库或数据仓库系统的集成的层次的差别如下
�不耦合：数据挖掘系统用像平面文件这样的原始资料获得被挖掘的原始数据集，因为没有数据库系统或数据仓库系统的任何功能被作为处理过程的一部分执行。因此，这种构架是一种糟糕的设计。
�挖掘的数据类型：这种原语指明了所要执行的特定数据挖掘功能，如特征化、区分、关联、分类、聚类、或演化分析。同样，用户的要求可能更特殊，并可能提供所发现的模式必须匹配的模版。这些模版或超模式（也被称为超规则）能被用来指导发现过程。
�背景知识：这种原语允许用户指定已有的关于挖掘领域的知识。这样的知识能被用来指导知识发现过程，并且评估发现的模式。关于数据中关系的概念分层和用户信念是背景知识的形式。
�紧密耦合：数据库或数据仓库系统被完全整合成数据挖掘系统的一部份，并且因此提供了优化的数据查询处理。这样的话，数据挖掘子系统被视为一个信息系统的功能组件。这是一中高度期望的结构，因为它有利于数据挖掘功能、高系统性能和集成信息处理环境的有效实现。
从以上提供的体系结构的描述看，紧密耦合是最优的，没有值得顾虑的技术和执行问题。但紧密耦合系统所需的大量技术基础结构仍然在发展变化，其实现并非易事。因此，目前最流行的体系结构仍是半紧密耦
major(X,“computingscience”)⇒owns(X,“personalcomputer”)[support=12%,confidence=98%]
其中，X是一个表示学生的变量。这个规则指出正在学习的学生，12%（支持度）主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%（置信度，或确定度）。
�区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如，具有高GPA的学生的一般特性可被用来与具有低GPA的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA的学生的75%是四年级计算机科学专业的学生，而具有低GPA的学生的65%不是。
�关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。例如，一个数据挖掘系统可能发现的关联规则为：
�数据延边分析描述和模型化随时间变化的对象的规律或趋势，尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测，这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析
1.9列举并描述说明数据挖掘任务的五种原语。
五种原语是：
�任务相关数据：这种原语指明给定挖掘所处理的数据。它包括指明数据库、数据库表、或数据仓库，其中包括包含关系数据、选择关系数据的条件、用于探索的关系数据的属性或维、关于修复的数据排序和分组。
第1章
1.6定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。
�特征化是一个目标类数据的一般特性或特性的汇总。例如，学生的特征可被提出，形成所有大学的计算机科学专业一年级学生的轮廓，这些特征包括作为一种高的年级平均成绩(GPA：Gradepointaversge)的信息，还有所修的课程的最大数量。

(完整版)数据挖掘概念课后习题答案

数据挖掘概念与技术原书第3版课后练习题含答案

数据挖掘概念与技术习题答案-第1章

(完整word版)数据挖掘_概念与技术(第三版)部分习题答案(word文档良心出品)

数据挖掘 习题及参考答案

完整word版数据挖掘课后答案

数据挖掘习题及解答-完美版

(完整版)数据挖掘_概念与技术(第三版)部分习题答案

(完整版)数据挖掘概念课后习题答案

数据挖掘习题及参考答案