数据挖掘导论习题答案(中文版)

合集下载

数据挖掘试题参考答案

大学课程《数据挖掘》试题参考答案范围：∙ 1.什么是数据挖掘？它与传统数据分析有什么区别？定义：数据挖掘（Data Mining，DM）又称数据库中的知识发现（Knowledge Discover in Database，KDD），是目前人工智能和数据库领域研究的热点问题，所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。

数据挖掘是一种决策支持过程，它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，高度自动化地分析企业的数据，做出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，做出正确的决策。

区别：（1）数据挖掘的数据源与以前相比有了显著的改变；数据是海量的；数据有噪声；数据可能是非结构化的；（2）传统的数据分析方法一般都是先给出一个假设然后通过数据验证，在一定意义上是假设驱动的；与之相反，数据挖掘在一定意义上是发现驱动的，模式都是通过大量的搜索工作从数据中自动提取出来。

即数据挖掘是要发现那些不能靠直觉发现的信息或知识，甚至是违背直觉的信息或知识，挖掘出的信息越是出乎意料，就可能越有价值。

在缺乏强有力的数据分析工具而不能分析这些资源的情况下，历史数据库也就变成了“数据坟墓”－里面的数据几乎不再被访问。

也就是说，极有价值的信息被“淹没”在海量数据堆中，领导者决策时还只能凭自己的经验和直觉。

因此改进原有的数据分析方法，使之能够智能地处理海量数据，即演化为数据挖掘。

∙ 2.请根据CRISP-DM（Cross Industry Standard Process for Data Mining）模型，描述数据挖掘包含哪些步骤？CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段.1: business understanding: 即商业理解. 在第一个阶段我们必须从商业的角度上面了解项目的要求和最终目的是什么. 并将这些目的与数据挖掘的定义以及结果结合起来.2.data understanding: 数据的理解以及收集,对可用的数据进行评估.3: data preparation: 数据的准备,对可用的原始数据进行一系列的组织以及清洗,使之达到建模需求.4:modeling: 即应用数据挖掘工具建立模型.5:evaluation: 对建立的模型进行评估,重点具体考虑得出的结果是否符合第一步的商业目的.6: deployment: 部署,即将其发现的结果以及过程组织成为可读文本形式.(数据挖掘报告)∙ 3.请描述未来多媒体挖掘的趋势随着多媒体技术的发展，人们接触的数据形式不断地丰富，多媒体数据库的日益增多，原有的数据库技术已满足不了应用的需要，人们希望从这些媒体数据中得到一些高层的概念和模式，找出蕴涵于其中的有价值的知识。

数据挖掘原理与应用---试题及答案试卷十二答案精选全文完整版

数据挖掘原理与应用试题及答案试卷一、（30分，总共30题，每题答对得1分，答错得0分）单选题1、在ID3算法中信息增益是指（ D ）A、信息的溢出程度B、信息的增加效益C、熵增加的程度最大D、熵减少的程度最大2、下面哪种情况不会影响K-means聚类的效果？（ B ）A、数据点密度分布不均B、数据点呈圆形状分布C、数据中有异常点存在D、数据点呈非凸形状分布3、下列哪个不是数据对象的别名 ( C )A、样品B、实例C、维度D、元组4、人从出生到长大的过程中，是如何认识事物的？ ( D )A、聚类过程B、分类过程C、先分类，后聚类D、先聚类，后分类5、决策树模型中应如何妥善处理连续型属性：（ C ）A、直接忽略B、利用固定阈值进行离散化C、根据信息增益选择阈值进行离散化D、随机选择数据标签发生变化的位置进行离散化6、假定用于分析的数据包含属性age。

数据元组中age的值如下（按递增序）：13，15，16，16，19，20，20，21，22，22，25，25，25，30，33，33，35，35，36，40，45，46，52，70。

问题：使用按箱平均值平滑方法对上述数据进行平滑，箱的深度为3。

第二个箱子值为：( A )A、18.3B、22.6C、26.8D、27.97、建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？( C )A、根据内容检索B、建模描述C、预测建模D、寻找模式和规则8、如果现在需要对一组数据进行样本个体或指标变量按其具有的特性进行分类，寻找合理的度量事物相似性的统计量，应该采取（ A ）A、聚类分析B、回归分析C、相关分析D、判别分析9、时间序列数据更适合用（ A ）做数据规约。

A、小波变换B、主成分分析C、决策树D、直方图10、下面哪些场景合适使用PCA？（ A ）A、降低数据的维度，节约内存和存储空间B、降低数据维度，并作为其它有监督学习的输入C、获得更多的特征D、替代线性回归11、数字图像处理中常使用主成分分析（PCA）来对数据进行降维，下列关于PCA算法错误的是：（ C ）A、PCA算法是用较少数量的特征对样本进行描述以达到降低特征空间维数的方法；B、PCA本质是KL-变换；C、PCA是最小绝对值误差意义下的最优正交变换；D、PCA算法通过对协方差矩阵做特征分解获得最优投影子空间，来消除模式特征之间的相关性、突出差异性；12、将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？（ C ）A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘13、假设使用维数降低作为预处理技术，使用PCA将数据减少到k维度。

（完整版）数据挖掘概念课后习题答案

（完整版）数据挖掘概念课后习题答案第 1 章1.6 定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。

使⽤你熟悉的现实⽣活的数据库，给出每种数据挖掘功能的例⼦。

特征化是⼀个⽬标类数据的⼀般特性或特性的汇总。

例如，学⽣的特征可被提出，形成所有⼤学的计算机科学专业⼀年级学⽣的轮廓，这些特征包括作为⼀种⾼的年级平均成绩(GPA：Grade point a ve r s ge) 的信息，还有所修的课程的最⼤数量。

区分是将⽬标类数据对象的⼀般特性与⼀个或多个对⽐类对象的⼀般特性进⾏⽐较。

例如，具有⾼GPA 的学⽣的⼀般特性可被⽤来与具有低GPA 的⼀般特性⽐较。

最终的描述可能是学⽣的⼀个⼀般可⽐较的轮廓，就像具有⾼GPA 的学⽣的75%是四年级计算机科学专业的学⽣，⽽具有低GPA 的学⽣的65%不是。

关联是指发现关联规则，这些规则表⽰⼀起频繁发⽣在给定数据集的特征值的条件。

例如，⼀个数据挖掘系统可能发现的关联规则为：m a j or(X,“c omput i ng s c i e nc e”) ?owns(X, “pe r s ona l c omput e r”)[s uppor t=12%,c on f i d e nc e=98%]其中，X 是⼀个表⽰学⽣的变量。

这个规则指出正在学习的学⽣，12%（⽀持度）主修计算机科学并且拥有⼀台。

个⼈计算机。

这个组⼀个学⽣拥有⼀台个⼈电脑的概率是98%（置信度，或确定度）分类与预测不同，因为前者的作⽤是构造⼀系列能描述和区分数据类型或概念的模型（或，⽽后者是建⽴⼀个模型去预测缺失的或⽆效的、并且通常是数字的数据值。

它们的功能）相似性是他们都是预测的⼯具：分类被⽤作预测⽬标数据的类的标签，⽽预测典型的应⽤是预测缺失的数字型数据的值。

聚类分析的数据对象不考虑已知的类标号。

对象根据最⼤花蕾内部的相似性、最⼩化类之间的相似性的原则进⾏聚类或分组。

形成的每⼀簇可以被看作⼀个对象类。

(完整word版)数据挖掘课后答案

第一章1．6(1)数据特征化是目标类数据的一般特性或特征的汇总。

例如，在某商店花费1000元以上的顾客特征的汇总描述是：年龄在40—50岁、有工作和很好的信誉等级。

（2）数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如,高平均分数的学生的一般特点,可与低平均分数的学生的一般特点进行比较.由此产生的可能是一个相当普遍的描述，如平均分高达75％的学生是大四的计算机科学专业的学生，而平均分低于65%的学生则不是.（3)关联和相关分析是指在给定的频繁项集中寻找相关联的规则.例如，一个数据挖掘系统可能会发现这样的规则：专业（X，“计算机科学”)=〉拥有(X，”个人电脑“）[support= 12％，confidence = 98%]，其中X是一个变量，代表一个学生，该规则表明，98％的置信度或可信性表示,如果一个学生是属于计算机科学专业的，则拥有个人电脑的可能性是98%。

12％的支持度意味着所研究的所有事务的12％显示属于计算机科学专业的学生都会拥有个人电脑。

（4)分类和预测的不同之处在于前者是构建了一个模型(或函数），描述和区分数据类或概念，而后者则建立了一个模型来预测一些丢失或不可用的数据，而且往往是数值，数据集的预测。

它们的相似之处是它们都是为预测工具：分类是用于预测的数据和预测对象的类标签，预测通常用于预测缺失值的数值数据。

例如：某银行需要根据顾客的基本特征将顾客的信誉度区分为优良中差几个类别，此时用到的则是分类;当研究某只股票的价格走势时，会根据股票的历史价格来预测股票的未来价格，此时用到的则是预测。

（5）聚类分析数据对象是根据最大化类内部的相似性、最小化类之间的相似性的原则进行聚类和分组。

聚类还便于分类法组织形式,将观测组织成类分层结构，把类似的事件组织在一起。

例如：世界上有很多种鸟，我们可以根据鸟之间的相似性，聚集成n类，其中n可以认为规定. (6）数据演变分析描述行为随时间变化的对象的规律或趋势，并对其建模。

《数据挖掘》试题与答案[精品文档]

一、解答题（满分30分，每小题5分）1. 怎样理解数据挖掘和知识发现的关系？请详细阐述之首先从数据源中抽取感兴趣的数据，并把它组织成适合挖掘的数据组织形式；然后，调用相应的算法生成所需的知识；最后对生成的知识模式进行评估，并把有价值的知识集成到企业的智能系统中。

知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程，其最终目标是掌握数据的模式。

流程步骤：先理解要应用的领域、熟悉相关知识，接着建立目标数据集，并专注所选择的数据子集；再作数据预处理，剔除错误或不一致的数据；然后进行数据简化与转换工作；再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型；最后经过解释和评价成为有用的信息。

2. 时间序列数据挖掘的方法有哪些，请详细阐述之时间序列数据挖掘的方法有：1）、确定性时间序列预测方法:对于平稳变化特征的时间序列来说，假设未来行为与现在的行为有关，利用属性现在的值预测将来的值是可行的。

例如，要预测下周某种商品的销售额，可以用最近一段时间的实际销售量来建立预测模型。

2）、随机时间序列预测方法:通过建立随机模型，对随机时间序列进行分析，可以预测未来值。

若时间序列是平稳的，可以用自回归(Auto Regressive，简称AR)模型、移动回归模型(Moving Average，简称MA)或自回归移动平均(Auto Regressive Moving Average，简称ARMA)模型进行分析预测。

3）、其他方法:可用于时间序列预测的方法很多，其中比较成功的是神经网络。

由于大量的时间序列是非平稳的，因此特征参数和数据分布随着时间的推移而变化。

假如通过对某段历史数据的训练，通过数学统计模型估计神经网络的各层权重参数初值，就可能建立神经网络预测模型，用于时间序列的预测。

3. 数据挖掘的分类方法有哪些，请详细阐述之分类方法归结为四种类型：1）、基于距离的分类方法:距离的计算方法有多种，最常用的是通过计算每个类的中心来完成，在实际的计算中往往用距离来表征，距离越近，相似性越大，距离越远，相似性越小。

大数据分析与挖掘课后习题参考答案

（1）使用等深划分时，将其划分为四个箱，16 在第几个箱？
（2）使用等宽划分时，将其划分为四个箱，16 在第几个箱？
（3）利用等深分箱法，将其划分为 3 个箱，平均值平滑法进行平滑处理，第
2 个箱的取值为多少？
（4）利用等宽分箱法，将其划分为 3 个箱，边界平滑法进行平滑处理，第 2
个箱内数据值为多少？
数据清洗：负责解决填充空缺值、识别孤立点、去掉噪声和无关数据等问
题；
数据集成：负责解决不同数据源的数据变换：将原始数据转换为适合数据挖掘的形式。包括数据的汇总、聚
集、概化、规范化，同时可能需要对属性进行重构；
数据归约：负责搜小数据的取值范围，使其更适合数据挖掘算法的需要。
df=spark.createDataFrame([(Vectors.dense(3.2,1.78,130,6000),),
(Vectors.dense(3.5,1.76,122,7000),),
(Vectors.dense(3,1.73,135,5500),),
(Vectors.dense(2.8,1.80,120,4000),),
model.transform(df).show()
print('MinMax')
miScaler=MinMaxScaler(inputCol='Features',outputCol='Feature_MinMax')
model_=miScaler.fit(df)
model.transform(df).show()
7000
3
3
1.73
135
5500
4
2.8
1.80
120

数据挖掘导论习题答案(中文版)

内容。

1 Introduction 52 Data 53 Exploring Data 194 Classification: Basic Concepts, Decision Trees, and Model24 Evaluation 245 Classification: Alternative Techniques 446 Association Analysis: Basic Concepts and Algorithms 717 Association Analysis: Advanced Concepts 958 Cluster Analysis: Basic Concepts and Algorithms 1259 Cluster Analysis: Additional Issues and Algorithms 14510 Anomaly Detection 153三1介绍1.讨论是否执行下列每项活动的是一种数据miningtask。

(a)把客户的公司根据他们的性别。

否。

这是一种简单的数据库查询。

(b)把客户的公司根据他们的盈利能力。

第这是一种会计计算、应用程序的门限值。

然而,预测盈利的一种新的客户将数据挖掘。

(c)计算的总销售公司。

否。

这又是简单的会计工作。

(d)排序的学生数据库基于学生的身份证号码。

第再次,这是一种简单的数据库查询。

(e)预测结果丢(公平)的一对骰子。

否。

既然死是公正的,这是一种概率的计算。

如果死是不公平的,我们需要估计的概率对每个结果的数据,那么这更象研究的问题数据挖掘。

然而,在这种特定的情况下,要解决这一问题是由数学家很长一段时间前,因此,我们不认为它是数据挖掘。

(f)预测未来股价的公司使用。

数据挖掘习题及参考答案

实际生活的例子：
①电信行业中利用数据挖掘技术进行客户行为分析，包含客户通话记录、通话时间、所开通的服务等，据此进行客户群体划分以及客户流失性分析。
②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析，帮助天文学家发现其他未知星体。
③制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。
第 4 页共 27 页
(b)对于数据平滑，其它方法有： (1)回归：可以用一个函数(如回归函数)拟合数据来光滑数据； (2)聚类：可以通过聚类检测离群点，将类似的值组织成群或簇。直观地，落在簇集合之外的值视为离群点。
2.6 使用习题 2.5 给出的 age 数据，回答以下问题： (a) 使用 min-max 规范化，将 age 值 35 转换到[0.0，1.0]区间。 (b) 使用 z-score 规范化转换 age 值 35，其中，age 的标准偏差为 12.94 年。 (c) 使用小数定标规范化转换 age 值 35。 (d) 指出对于给定的数据，你愿意使用哪种方法。陈述你的理由。
回归来建模，或使用时间序列分析。 (7) 是，需要建立正常心率行为模型，并预警非正常心率行为。这属于数据挖掘领域
的异常检测。若有正常和非正常心率行为样本，则可以看作一个分类问题。 (8) 是，需要建立与地震活动相关的不同波形的模型，并预警波形活动。属于数据挖
掘领域的分类。 (9) 不是，属于信号处理。
1.6 根据你的观察，描述一个可能的知识类型，它需要由数据挖掘方法发现，但本章未列出。它需要一种不同于本章列举的数据挖掘技术吗？
答：建立一个局部的周期性作为一种新的知识类型，只要经过一段时间的偏移量在时间序列中重复发生，那么在这个知识类型中的模式是局部周期性的。需要一种新的数据挖掘技术解决这类问题。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

内容。

(a)把客户的公司根据他们的性别。

否。

这是一种简单的数据库查询。

(b)把客户的公司根据他们的盈利能力。

第这是一种会计计算、应用程序的门限值。

然而,预测盈利的一种新的客户将数据挖掘。

(c)计算的总销售公司。

否。

这又是简单的会计工作。

(d)排序的学生数据库基于学生的身份证号码。

第再次,这是一种简单的数据库查询。

(e)预测结果丢(公平)的一对骰子。

否。

既然死是公正的,这是一种概率的计算。

如果死是不公平的,我们需要估计的概率对每个结果的数据,那么这更象研究的问题数据挖掘。

然而,在这种特定的情况下,要解决这一问题是由数学家很长一段时间前,因此,我们不认为它是数据挖掘。

(f)预测未来股价的公司使用。

historicalrecords是的。

我们将试图创建的模型,可以预测未来的持续价值的股票价格。

这是一例的2 第1章介绍领域的数据挖掘预测模型。

我们可以使用回归分析。

这一建模,尽管研究人员在许多领域已经开发了多种技术来预测时间序列。

(g)监控在患者心率异常。

是的。

我们将构建一种型号的正常行为的心率和提高报警当寻常心的行为发生。

这将涉及领域的数据挖掘被称为异常检测。

这也可以看作是一种分类的问题如果我们的例子两个正常和不正常的心的行为。

(h)监测地震波地震活动。

是的。

在这种情况下,我们将构建模型的不同类型的地震波的行为与地震活动和提高报警时,这些不同类型的地震活动。

这一例子说明,在区域的数据挖掘已知的分级。

(i)解压的频率的声音波形。

否。

这是信号处理。

2.假设您是作为一种数据挖掘咨询顾问的互联网搜索引擎公司。

介绍如何将数据挖掘可以帮助该公司的具体的例子,说明技术,如群集、分类、关联规则挖掘和异常检测可以被应用。

下面的示例将可能的答案。

•群集可以组的结果与类似的主题和现在的他们的用户以更精简的形式,例如,报告了10个最常见的词集。

•分类可以将结果以预定义的类别如“体育”、“政治”等。

•连续的关联分析可以检测到这种特定的查询按照某些其他的查询使用的概率很高,从而更有效的高速缓存。

•异常检测技术可以发现不寻常的模式的用户流量,例如,一主题已突然变得更受欢迎。

广告策略可以调整,以利用这种事态发展。

33.对于下面的每个数据集说明数据是否privacyis一项重要的问题。

(a)普查数据的收集从1900年—1950年。

无(b)IP地址和访问次数的Web用户访问你的网站。

单击“是”(c)图像从地球轨道运行的卫星。

无(d)名字和地址的人从电话通讯簿。

无(e)姓名和电子邮件地址收集网。

无2数据1.在最初的例子第2章、统计师说:“是的,字段2和3基本上是相同的。

"您能告诉我从三条线的样本数据所显示的为什么她说吗?7对所显示的值。

虽然它可以是危险的结论从这样的小样本,两个字似乎包含基本相同的信息。

2.分类以下属性为Binary、离散或连续的。

还将其归为质量(名义或序数)或数量(时间间隔或比例)。

某些情况下可能会有多个解释,简要说明你的理由如果您认为可能有某些含糊不清之处。

例如: 年龄。

答: 独立的、定量的、比率(a)时间在上午或下午。

Binary、定性、序号(b)亮度计测量光度计。

持续不断的、定量的、比率(c)亮度测量人的判决。

离散的、定性的、序号(d)角度以度为单位0◦和360◦。

持续不断的、定量的、比率(e)铜牌、银牌和金牌颁发的奖项在奥运会上。

离散的、定性的、序号(f)高度海平面以上。

持续不断的、定量的、间隔/比例(取决于海一级被认为是一种任意的来源)。

(g)多的病人在医院里。

离散的、定量的、比率(h)ISBN号的书籍。

(查找格式在Web上的)离散的、定性的、名义上的(ISBN号码没有订单信息,虽然)第2章数据(i)可以通过指示灯的以下值:不透明、半透明、透明。

离散的、定性的、序号(j)军衔。

离散的、定性的、序号(k)中心的距离园区。

持续不断的、定量的、间隔/比例(取决于)(l)密度的物质以克每立方厘米。

离散的、定量的、比率(m)检查涂层的编号。

(当你参加活动,你可以常常giveyour衣的人将为您提供的号码,您可以使用要求您的外套当你离开。

)离散的、定性的、名义3.您接触的营销总监,当地一家公司,他认为他已设计出一种简易的方法来衡量客户的满意度。

他解释了他的计划:“它是如此的简单,我不相信没有人想过。

我只是保持跟踪客户投诉的每个产品。

我读的是数据挖掘的图书,计数率的属性,因此,我国的产品满意度必须是比特性。

但当我的产品都是基于我的新的客户满意度测量和显示出他们对我的老板,他告诉我,我忽略了很明显的,我的措施是毫无价值的。

我认为他是疯了,因为我们最畅销的产品,最满意的,因为它的投诉最多。

你可以帮我把他直吗?”(a)谁是谁的营销总监或老板吗? 如果您的回答,,hisboss你将如何修复措施的满意度?老板是正确的。

一种更好的衡量标准是由投诉的产品满意地注意到产品)= ”。

总数销售的产品(b)你能说什么关于属性的类型的原始productsatisfaction属性?没有什么可以说的属性类型的原始度量。

例如,两个产品具有相同的客户满意度的级别会有不同的投诉数目和反之亦然。

4.几个月后,你会再次接触相同的营销directoras行使3。

这一次,他已经设计出一种更好的方法来衡量在多大程度上对客户更喜欢一种产品在其他类似的产品。

他解释说,“当我们开发新的产品,我们通常要创建几个变量和评估这一客户的喜欢。

我们的标准程序,以使我们的测试主体所有的产品变化在一段时间,然后让他们排的变型产品。

然而,我们的测试科目有很优柔寡断的,尤其是当有两个以上的产品。

结果,测试永远需要的。

我建议,我们执行的比较成对的然后使用这些比较获得的排名。

因此,如果我们有三个产品的变化,我们的客户比较不同1和2、2和3,和最后3和1。

我们的测试时间与我的新程序是第三,什么是旧的程序,但雇员在测试的抱怨说他们无法拿出排名的结果。

和我的老板想要的最新的产品的评价,昨天。

我还要提到的是他的人了老产品的评价办法。

您能帮助我吗?”(a)是营销总监的麻烦吗? 将他的方法工作的生成顺序排列的变型产品的客户的首选项? 解释一下。

是的,营销总监是有麻烦了。

客户可能会不稳定的排名。

例如,客户可能更喜欢1,2,2,3,但3到1。

(b)有什么方法可以修复的营销总监的做法? 更普遍的是,你能说什么来创建顺序测量基于规模的成对比较的吗?解决方案之一:三个项目,只做前两个比较。

一种更通用的解决方案:将选择的客户之一,订购产品,但仍然只允许配对比较的。

总的创建顺序测量基于规模的成对比较是很困难的,因为可能的矛盾之处。

(c)对于原来的产品评估计划的整体排名eachproduct变化中发现的计算其平均在所有测试的科目。

评论你是否认为这是一种合理的办法。

有什么其他的办法可能您考虑吗?第一,存在的问题是分摊比额表是不可能有时间间隔或比例分摊比额表。

但实际上,平均可能不够好。

更重要的是,少数几个极端的评级可能会导致在总的评级,是一种误导。

因此,中值或修剪指(请参阅第3章)可能是更好的选择。

5.您能想到的情况的识别号码将usefulfor预测吗?例如:学生ID是一种良好的“调头预警”功能的毕业日期。

6.一名教育心理学家想要使用关联分析方法来分析。

testresults 测试包括100个问题有四个可能的答案。

第2章数据(a)你将如何将此类数据转换成适合于associationanalysis吗?关联规则分析工程使用binary属性,因此您必须将原始数据转化为Binary格式如下所示:400不对称的二元属性。

7.以下哪一项的数量很可能会表现出更多的时间自动关联:雨量或每日的温度吗? 为什么?一种功能显示的空间自动关联如果位置更接近每个其他的更多的类似的值的功能比位置更远的地方。

这是更为常见的物理关闭位置有类似的温度比类似的降雨量降雨量以来可以非常本地化;,即降雨量可更改突然从一处向另一处。

因此,每日温度显示了更多的空间自相关性然后每天的降雨量。

8.讨论为什么有的文档的列表是一种数据集hasasymmetric离散或连续的非对称性的特点。

Ijth的项的文档的列表的次数,长期j 出现在我的文档”。

大多数文档所包含的只是一小部分的所有可能的条件,因此,零条目并没有很大的意义,不论是在描述或比较文档。

因此,文档的矩阵有不对称的离散特性。

如果我们应用了TFIDF正常化的条件和归档到二级缓存的规范1、然后这将会创建一个文档矩阵与连续的功能。

然而,功能仍然是不对称的,因为这些变化并不创建非零的条目中的所有条目,以前是0,因此,零条目仍没有很大的意义。

9.许多科学依赖于观察而不是(或除了)设计实验。

比较的数据质量问题的参与观测的科学与实验科学和数据挖掘。

观测科学的问题,不能够完全控制数据的质量,他们获得的。

例如,直到地球轨道运行的卫星,测量,海洋表面的温度依赖的测量船。

同样的,天气的测量往往采取从站位于城镇或城市。

因此,有必要与所提供的数据,而不是数据从精心设计的实验。

在这种意义上说,数据分析的科学观测类似的数据挖掘。

10.讨论之间的差值的精度测量和termssingle和双精度,因为它们是用来在计算机科学中,通常为代表的浮点数字,需要32位和64位的分别。

精度的浮点数字的最大精度。

更明确地规定,精度通常表示的有效数字的位数来表示的值。

因此,单精度数只能代表值与多达32位、≈9位小数位数的精确。

然而,往往的精度值使用32位(64 bits)是远远少于32位数(64位)。

数据挖掘导论习题答案(中文版)

数据挖掘试题参考答案

数据挖掘原理与应用---试题及答案试卷十二答案精选全文完整版

（完整版）数据挖掘概念课后习题答案

(完整word版)数据挖掘课后答案

《数据挖掘》试题与答案[精品文档]

大数据分析与挖掘课后习题参考答案

数据挖掘导论习题答案(中文版)

数据挖掘 习题及参考答案

数据挖掘习题及参考答案