数据挖掘第三版第六章课后习题答案
(完整word版)数据挖掘_概念与技术(第三版)部分习题答案

1。
4 数据仓库和数据库有何不同?有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据.它用表组织数据,采用ER数据模型。
相似:它们都为数据挖掘提供了源数据,都是数据的组合.1。
3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。
使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。
答:特征化是一个目标类数据的一般特性或特性的汇总。
例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。
区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。
例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较.最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。
关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件.例如,一个数据挖掘系统可能发现的关联规则为:major(X,“computing science”) ⇒owns(X,“personal computer”)[support=12%, confidence=98%] 其中,X 是一个表示学生的变量。
这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。
这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。
分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值.它们的相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值.聚类分析的数据对象不考虑已知的类标号。
数据挖掘-概念与技术(第三版)部分习题答案

1.4 数据仓库和数据库有何不同?有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。
它用表组织数据,采用ER数据模型。
相似:它们都为数据挖掘提供了源数据,都是数据的组合。
1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。
使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。
答:特征化是一个目标类数据的一般特性或特性的汇总。
例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。
区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。
例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。
最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。
关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。
例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ⇒owns(X, “personal computer”)[support=12%, confidence=98%] 其中,X 是一个表示学生的变量。
这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。
这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。
分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。
数据挖掘智慧树知到课后章节答案2023年下山东建筑大学

数据挖掘智慧树知到课后章节答案2023年下山东建筑大学山东建筑大学第一章测试1.下列属于大数据时代特征的是:答案:非结构化数据越来越多;数据类型越来越复杂;大人群产生了大量数据2.对数据挖掘内涵描述正确的是答案:数据挖掘的对象一般是大量的不完整的数据;挖掘的结果可以是出乎意料的规则和内容3.聚类分析是预测型的数据挖掘,而关联分析是描述型的。
答案:错4.描述“性别”的属性是二元分类属性。
答案:对5.下列是分类型属性的是:答案:信用等级:3(级别为1-5,数值越高信用级别越高);邮政编码:250101 6.区间属性可以计算两个属性之间的倍数。
答案:错7.具有有限个值的属性才是离散属性。
答案:错8.定量属性可以取整数值。
答案:对9.关于连续属性与离散属性,下列说法正确的是:答案:连续属性的比率不一定有意义;连续属性有无限个取值10.连续属性可以进行离散转化成离散属性。
答案:对第二章测试1.和数据库中的数据一样,数据仓库中的数据也可以进行修改和删除。
答案:错2.以下哪项是元数据的包含的内容?答案:数据的更新频率;数据所做的转换;数据元素的含义;数据的来源3.事实表中存储的是维度。
答案:错4.数据仓库的数据是面向主题的,主题与业务系统中的数据库是一一对应的。
答案:错5.下列哪项不是OLAP多维分析操作?答案:透视6.维的层次越高,数据的粒度越大。
答案:对7.在OLAP多维分析操作中,旋转操作不改变数据,只是改变了数据集的展示方位。
答案:对8.星型模型不能表达维度的层次。
答案:对9.OLTP系统中的数据是数据仓库数据的主要来源。
答案:对10.数据仓库中不存储早期细节的数据。
答案:错第三章测试1.Mondrian中Schema是以XML文件的形式定义的。
Cube由维度构建出来的多维空间,是一系列Dimension Measure的集合区域,它们共用一个事实表。
答案:对2.维度表是事实表的一部分。
答案:错3.事实表是维表的一部分。
数据挖掘概念与技术原书第3版课后练习题含答案

数据挖掘概念与技术原书第3版课后练习题含答案前言《数据挖掘概念与技术》(Data Mining: Concepts and Techniques)是一本经典的数据挖掘教材,已经推出了第3版。
本文将为大家整理并提供第3版课后习题的答案,希望对大家学习数据挖掘有所帮助。
答案第1章绪论习题1.1数据挖掘的基本步骤包括:1.数据预处理2.数据挖掘3.模型评价4.应用结果习题1.2数据挖掘的主要任务包括:1.描述性任务2.预测性任务3.关联性任务4.分类和聚类任务第2章数据预处理习题2.3数据清理包括以下几个步骤:1.缺失值处理2.异常值检测处理3.数据清洗习题2.4处理缺失值的方法包括:1.删除缺失值2.插补法3.不处理缺失值第3章数据挖掘习题3.1数据挖掘的主要算法包括:1.决策树2.神经网络3.支持向量机4.关联规则5.聚类分析习题3.6K-Means算法的主要步骤包括:1.首先随机选择k个点作为质心2.将所有点分配到最近的质心中3.重新计算每个簇的质心4.重复2-3步,直到达到停止条件第4章模型评价与改进习题4.1模型评价的方法包括:1.混淆矩阵2.精确率、召回率3.F1值4.ROC曲线习题4.4过拟合是指模型过于复杂,学习到了训练集的噪声和随机变化,导致泛化能力不足。
对于过拟合的处理方法包括:1.增加样本数2.缩小模型规模3.正则化4.交叉验证结语以上是《数据挖掘概念与技术》第3版课后习题的答案,希望能够给大家的学习带来帮助。
如果大家还有其他问题,可以在评论区留言,或者在相关论坛等平台提出。
第6章 方差分析课后练习参考答案

第6章 方差分析6.1 从三个总体中各抽取容量不同的样本数据,得到如下资料。
检验3个总体的均值之间是否有显著差异?(0.01α=)样本1 样本2 样本3 158 148 161 154 169153 142 156 149169 158 180解:提出假设:01231123::,,H H μμμμμμ==不完全相等方差分析 差异源 SS df MS F P-value F crit 组间618.91672309.45834.65740.0408778.021517组内 598 9 66.44444总计1216.91711因F=4.6547<8.021517,故不拒绝原假设,表明三个总体均值之间没有显著差异。
因P-value=0.040877>0.01, 故不拒绝原假设,表明三个总体均值之间没有显著差异。
6.2某家电制造公司准备购进一批5#电池,现有A 、B 、C 三个电池生产企业愿意供货,为比较它们生产的电池质量,从每个企业各随机抽取5只电池,经试验得其寿命(小时)数据如下:试分析三个企业生产的电池的平均寿命之间有无显著差异?(0.05α=)如果有差异,用LSD 方法检验哪些企业之间有差异?解:01231123::,,H H μμμμμμ==不完全相等方差分析差异源 SS df MS F P-value F crit 组间 615.6 2 307.8 17.06839 0.00031 3.885294 组内 216.4 12 18.03333 总计 832 14因F=17.06839>3.885294,故拒绝原假设,表明三个总体均值之间存在显著差异。
因P-value=0.0031<0.05, 故拒绝原假设,表明三个总体均值之间存在显著差异。
由表中,红色标注可知相对应的P 值<0.05,故可知A 与B ,B 与C 企业之间存在显著差异。
6.3 某企业准备用三种方法组装一种新的产品,为确定哪种方法每小时生产的产品数量最多,随机抽取了30名工人,并指定每个人使用其中的一种方法。
数据库原理与应用教程(第三版)第六章课后习题答案

6.学生选课(学号,姓名,所在系,性别,课程号,课程名,学分,成绩)(1)候选码(学号,课程号)(2)该关系模式是第一范式(3)因为存在部分函数依赖关系((学号,课程号)—P—>姓名),所以要进行关系模式的规范化R1(学号,姓名,所在系,性别)主码:学号R2(课程号,课程名,学分)主码:课程号R3(学号,课程号,成绩)主码:(学号,课程号)学号是引用了R1关系模式的外码,课程号是引用了R2的外码因为每个关系模式此时已经是不含有依赖函数关系了,所以也是第三范式了7.学生(学号,姓名,所在系,班号,班主任,系主任)(1)候选码(学号,班号)(2)第一范式(3)因为存在部分函数依赖关系((学号,班号)—P—>姓名),所以要进行关系模式的规范化R1(学号,姓名,所在系,系主任)R2(班号,班主任)R3(学号,班号)(删去)因为每个关系模式此时是含有依赖函数关系了学号—f—>所在系,所在系—f—>系主任所以:R1(学号,姓名,所在系)主码:学号所在系是引用了R3中“所在系”的外码R2(班号,班主任)主码:班号R3(所在系,系主任)主码:所在系8.教师授课(课程号,课程名,学分,授课教师号,教师名,授课时数)(1)候选码(课程号,授课教师号)(2)第一范式(3)因为存在部分函数依赖关系((课程号,授课教师号)—P—>姓名),所以要进行关系模式的规范化(4)R1(课程号,课程名,学分)主码:课程号R2(授课教师号,教师名)主码:教师名R3(课程号,授课教师号,授课时数)主码:(课程号,授课教师号)课程号是引用了R1中的“课程号”的外码,授课教师号引用了R2的“授课教师号”的外码因为每个关系模式此时已经是不含有依赖函数关系了,所以也是第三范式了。
数据挖掘导论 第六章 中文答案

第六章数据挖掘导论1。
对于每个下列问题,提供一个关联规则的一个例子从市场购物篮域,满足下列条件。
同样,这些规则是主观地描述是否有趣。
(一)一个规则,具有较高的支持和高的信心。
答:牛奶−→面包。
这种明显的规则往往是无趣的。
(b)规则,有相当高的支持,但信心不足。
答:牛奶−→金枪鱼。
而出售金枪鱼和牛奶可能是高于阈值,并不是所有的事务,包含牛奶也包含金枪鱼。
这种低规则往往是无趣的。
(c)一个规则,低的支持和信心不足。
答:食用油−→洗衣粉。
如此低的信心规则往往是无趣的。
(d)规则,低支持和高的信心。
答:伏特加−→鱼子酱。
这样的规则往往是有趣的2。
考虑到数据集显示于表格6.1。
(一)计算支持项集{ e },{ b、d },{ b、d、e }通过治疗每个事务ID作为一个市场购物篮。
答:(b) Use the results in part (a) to compute the confidence for the association rules {b, d} −→{e} and {e} −→{b, d}. Is confidence a symmetric measure?c、重复部分(一)通过将每个客户ID作为一个市场购物篮。
每个项目应被视为一个二进制变量(1如果一个项目出现在至少有一个交易购买的顾客,和0否则。
)de 没有明显关系s1,s2,c1和c2所以c2有最低的置信度4、因为年代(A,B,C)≤年代(A,B)和max(s(一个),s(B),s(C))≥max(s(一个),s(B)), 因此ζ({ A、B })≥ζ({ A,B,C })。
(b)因为s(A,B,C)≤s(A,B)和最小(s(A,B),s(A,C),s(B,C))≤min(s(一个),s(B),s(C))≤min(s(一个),s(B))、η({ A,B,C })可以大于或小于η({ A、B })。
因此,这些措施是单调。
(一)的最大数量,可以提取关联规则从这个数据(包括规则,零支持)?答:有六项数据集。
数据挖掘 习题及参考答案

①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所 开通的服务等,据此进行客户群体划分以及客户流失性分析。
②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文 学家发现其他未知星体。
③制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。
第 4 页 共 27 页
(b)对于数据平滑,其它方法有: (1)回归:可以用一个函数(如回归函数)拟合数据来光滑数据; (2)聚类:可以通过聚类检测离群点,将类似的值组织成群或簇。直观地,落在簇集合 之外的值视为离群点。
2.6 使用习题 2.5 给出的 age 数据,回答以下问题: (a) 使用 min-max 规范化,将 age 值 35 转换到[0.0,1.0]区间。 (b) 使用 z-score 规范化转换 age 值 35,其中,age 的标准偏差为 12.94 年。 (c) 使用小数定标规范化转换 age 值 35。 (d) 指出对于给定的数据,你愿意使用哪种方法。陈述你的理由。
回归来建模,或使用时间序列分析。 (7) 是,需要建立正常心率行为模型,并预警非正常心率行为。这属于数据挖掘领域
的异常检测。若有正常和非正常心率行为样本,则可以看作一个分类问题。 (8) 是,需要建立与地震活动相关的不同波形的模型,并预警波形活动。属于数据挖
掘领域的分类。 (9) 不是,属于信号处理。
1.6 根据你的观察,描述一个可能的知识类型,它需要由数据挖掘方法发现,但本章未列出。 它需要一种不同于本章列举的数据挖掘技术吗?
答:建立一个局部的周期性作为一种新的知识类型,只要经过一段时间的偏移量在时间序列 中重复发生,那么在这个知识类型中的模式是局部周期性的。需要一种新的数据挖掘技 术解决这类问题。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
唯一性:描述数据是否存在重复记录。
在习题中,属性age包括如下值(以递增序):13、15、16、16、19、20、20、21、22、22、22、25、25、25、25、30、33、33、35、35、35、35、36、40、45、46、52、70(a)使用深度为3的箱,用箱均值光滑以上数据。说明你的步骤,讨论这种技术对给定数据的效果。
分箱方法通过考察数据的“近邻”来光滑有序数据值,进而去掉“噪声”,即去掉被测量的变量的随机误差或方差。(b)如何确定该数据的离群点?
答:可以通过聚类来检测离群点。即将类似的值组织成群或“簇”,直观地,落在簇集合之外的值被视为离群点。
(c)还有什么方法来光滑数据?
答:另外的方法是回归:用函数拟合数据来光滑数据。这种技术被称为回归。线性回归涉及找出拟合两个属性(或变量)的“最佳”直线,使得一个属性可以用来预测另一个。
5, 10, 11ቤተ መጻሕፍቲ ባይዱ 13, 15, 35, 50, 55, 72, 92, 204, 215
使用如下个方法将它们划分成三个箱。
(a)等频(等深)划分
箱1:5,10,11,,13
箱2:15,35,50,55
箱3:72,92,204,215
(b)等宽划分
箱1:5,10,11,13,15,35,50
箱2:55,72,92
箱3:204,215
(a)使用最小-最大规范化将age值35变换到[,]区间。
答:
(b)使用z分数规范化变换age值35,其中age的标准差为岁。
答:均值为
计算得
(c)使用小数定标规范化变换age值35
答:
(d)指出对于给定的数据,你愿意使用哪种方法。陈述你的理由。答:我更喜欢用z分数规范化,因为z分数不受离群点影响
假设12个销售价格记录已经排序,如下所示:
答:划分为(等频的)箱:
箱1:13、15、16、16、19、20、20、21、22
箱2:22、25、25、25、25、30、33、33、35
箱3:35、35、35、36、40、45、46、52、70
用箱均值光滑:
箱1:18、18、18、18、18、18、18、18、18
箱2:、、、、、、、、
箱3:、、、、、、、、
答:精确性:描述数据是否与其对应的客观实体的特征相一致。
完整性:描述数据是否存在缺失记录或缺失字段。
一致性:描述同一实体的同一属性的值在不同的系统或数据集中是否一致。
数据质量依赖于数据的应用。对于给定的数据库,两个不同的用户可能有完全不同的评估。例如,市场分析人员可能访问公司的销售事务数据库(该数据库里面并非是所有的顾客信息都是可以得到的。其他数据没有包含在内,可能只是因为输入时认为是不重要的,相关的数据没有记录可能是由于理解错误,或者因为设备故障),得到顾客地址的列表。有些地址已经过时或不正确,但毕竟还有80%的地址是正确的。市场分析人员考虑到对于目标市场营销而言,这是一个大型顾客数据库,因此对该数据库的准确性还算满意,尽管作为销售的经理,你发现数据是不正确的。
如下规范化方法的值域是什么?
(a)最小-最大规范化
答:[new_min, new_max]
(b)Z分数规范化
答:[(old_min-mean)/σ,(old_max-mean)/σ]
(c)Z分数规范化,使用均值绝对偏差而不是标准差、
答:(-∞,+∞)
(d)小数定标规范化
答:(-,
使用习题给出的age数据,回答以下问题: