数据挖掘离线作业答案

合集下载

数据挖掘试题及答案

数据挖掘试题及答案数据挖掘是一门利用数据分析技术从大量的数据集中发现规律、模式和知识的过程。

它对我们理解和利用数据提供了有力的支持，被广泛应用于商业、科学研究等领域。

下面是一些常见的数据挖掘试题及其答案。

试题一：什么是数据挖掘？答案：数据挖掘是指利用计算机技术和统计学方法，从大规模数据集中发现隐藏在其中的有价值的信息和知识的过程。

它包括数据预处理、特征选择、模型构建以及模式识别和知识发现等步骤。

试题二：数据挖掘的主要任务有哪些？答案：数据挖掘的主要任务包括分类、聚类、关联规则挖掘和异常检测等。

分类是指将数据集中的样本划分到不同的类别中；聚类是将数据集划分为若干个相似的组；关联规则挖掘是找出数据中项之间的关联关系；异常检测是识别与正常模式不符的数据。

试题三：数据挖掘中常用的算法有哪些？答案：数据挖掘中常用的算法包括决策树、聚类算法、关联规则算法和神经网络等。

决策树算法通过对数据集进行划分，构建一棵树形结构用于分类；聚类算法根据相似度将数据集分为不同的簇；关联规则算法用于发现数据集中项之间的关联关系；神经网络模拟人脑的神经元网络结构，用于数据分类和预测。

试题四：数据挖掘的应用场景有哪些？答案：数据挖掘的应用场景非常广泛。

在商业领域，它可以帮助企业进行市场分析、客户关系管理和产品推荐等；在科学研究中，它能够帮助科学家从大量的实验数据中发现新的知识和规律；在医疗领域，它可以辅助医生进行疾病诊断和治疗方案选择等。

试题五：数据挖掘存在的挑战有哪些？答案：数据挖掘存在一些挑战，包括数据质量不高、维度灾难、算法性能和可解释性等方面。

数据质量不高可能导致挖掘结果不准确；维度灾难是指当数据特征数量很多时，算法的计算复杂度急剧增加；算法性能要求高，对大规模数据集的挖掘需要高效的算法；可解释性是指挖掘结果是否易于被理解和解释。

以上是一些常见的数据挖掘试题及其答案。

通过理解和掌握数据挖掘的基本概念、任务、算法和应用场景，可以帮助我们更好地运用数据挖掘技术，从海量数据中提取有价值的信息和知识，为决策和创新提供支持。

数据挖掘试题参考答案

大学课程《数据挖掘》试题参考答案范围：∙ 1.什么是数据挖掘？它与传统数据分析有什么区别？定义：数据挖掘（Data Mining，DM）又称数据库中的知识发现（Knowledge Discover in Database，KDD），是目前人工智能和数据库领域研究的热点问题，所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。

数据挖掘是一种决策支持过程，它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，高度自动化地分析企业的数据，做出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，做出正确的决策。

区别：（1）数据挖掘的数据源与以前相比有了显著的改变；数据是海量的；数据有噪声；数据可能是非结构化的；（2）传统的数据分析方法一般都是先给出一个假设然后通过数据验证，在一定意义上是假设驱动的；与之相反，数据挖掘在一定意义上是发现驱动的，模式都是通过大量的搜索工作从数据中自动提取出来。

即数据挖掘是要发现那些不能靠直觉发现的信息或知识，甚至是违背直觉的信息或知识，挖掘出的信息越是出乎意料，就可能越有价值。

在缺乏强有力的数据分析工具而不能分析这些资源的情况下，历史数据库也就变成了“数据坟墓”－里面的数据几乎不再被访问。

也就是说，极有价值的信息被“淹没”在海量数据堆中，领导者决策时还只能凭自己的经验和直觉。

因此改进原有的数据分析方法，使之能够智能地处理海量数据，即演化为数据挖掘。

∙ 2.请根据CRISP-DM（Cross Industry Standard Process for Data Mining）模型，描述数据挖掘包含哪些步骤？CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段.1: business understanding: 即商业理解. 在第一个阶段我们必须从商业的角度上面了解项目的要求和最终目的是什么. 并将这些目的与数据挖掘的定义以及结果结合起来.2.data understanding: 数据的理解以及收集,对可用的数据进行评估.3: data preparation: 数据的准备,对可用的原始数据进行一系列的组织以及清洗,使之达到建模需求.4:modeling: 即应用数据挖掘工具建立模型.5:evaluation: 对建立的模型进行评估,重点具体考虑得出的结果是否符合第一步的商业目的.6: deployment: 部署,即将其发现的结果以及过程组织成为可读文本形式.(数据挖掘报告)∙ 3.请描述未来多媒体挖掘的趋势随着多媒体技术的发展，人们接触的数据形式不断地丰富，多媒体数据库的日益增多，原有的数据库技术已满足不了应用的需要，人们希望从这些媒体数据中得到一些高层的概念和模式，找出蕴涵于其中的有价值的知识。

《数据挖掘》试题与答案(2021年整理精品文档)

《数据挖掘》试题与答案编辑整理：尊敬的读者朋友们：这里是精品文档编辑中心，本文档内容是由我和我的同事精心编辑整理后发布的，发布之前我们对文中内容进行仔细校对，但是难免会有疏漏的地方，但是任然希望（《数据挖掘》试题与答案）的内容能够给您的工作和学习带来便利。

同时也真诚的希望收到您的建议和反馈，这将是我们进步的源泉，前进的动力。

本文可编辑可修改，如果觉得对您有帮助请收藏以便随时查阅，最后祝您生活愉快业绩进步，以下为《数据挖掘》试题与答案的全部内容。

一、解答题（满分30分,每小题5分）1. 怎样理解数据挖掘和知识发现的关系？请详细阐述之首先从数据源中抽取感兴趣的数据，并把它组织成适合挖掘的数据组织形式;然后，调用相应的算法生成所需的知识;最后对生成的知识模式进行评估，并把有价值的知识集成到企业的智能系统中。

知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程，其最终目标是掌握数据的模式。

流程步骤:先理解要应用的领域、熟悉相关知识，接着建立目标数据集，并专注所选择的数据子集；再作数据预处理,剔除错误或不一致的数据；然后进行数据简化与转换工作；再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。

2. 时间序列数据挖掘的方法有哪些，请详细阐述之时间序列数据挖掘的方法有：1）、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。

例如，要预测下周某种商品的销售额，可以用最近一段时间的实际销售量来建立预测模型。

2）、随机时间序列预测方法：通过建立随机模型，对随机时间序列进行分析，可以预测未来值.若时间序列是平稳的，可以用自回归(Auto Regressive，简称AR）模型、移动回归模型（Moving Average，简称MA)或自回归移动平均（Auto Regressive Moving Average,简称ARMA）模型进行分析预测。

浙江大学数据挖掘在线作业答案

您的本次作业分数为：100分1.【第001章】孤立点挖掘适用于下列哪种场合？A 目标市场分析B 购物篮分析C 模式识别D 信用卡欺诈检测正确答案:D2.【第01章】根据顾客的收入和职业情况，预测他们在计算机设备上的花费，所使用的相应数据挖掘功能是（）。

A 关联分析B 分类和预测C 演变分析D 概念描述正确答案:B3.【第01章】数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于（）。

A 所涉及的算法的复杂性B 所涉及的数据量C 计算结果的表现形式D 是否使用了人工智能技术正确答案:B4.【第01章】下列几种数据挖掘功能中，（）被广泛的应用于股票价格走势分析。

A 关联分析B 分类和预测C 聚类分析D 演变分析正确答案:D5.【第01章】下列几种数据挖掘功能中，（）被广泛的用于购物篮分析。

A 关联分析B 分类和预测C 聚类分析D 演变分析正确答案:A6.【第01章】帮助市场分析人员从客户的基本信息库中发现不同的客户群，通常所使用的数据挖掘功能是（）。

A 关联分析B 分类和预测C 聚类分析D 孤立点分析E 演变分析正确答案:C7.【第01章】下面的数据挖掘的任务中，（）将决定所使用的数据挖掘功能。

A 选择任务相关的数据B 选择要挖掘的知识类型C 模式的兴趣度度量D 模式的可视化表示正确答案:B8.【第01章】假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述，通常所使用的数据挖掘功能是（）。

A 关联分析B 分类和预测C 孤立点分析D 演变分析E 概念描述正确答案:E9.【第02章】下列哪种可视化方法可用于发现多维数据中属性之间的两两相关性？A 空间填充曲线B 散点图矩阵C 平行坐标D 圆弓分割正确答案:B10.【第02章】计算一个单位的平均工资，使用哪个中心趋势度量将得到最合理的结果？A 算术平均值B 截尾均值C 中位数D 众数正确答案:B11.【第02章】字段Size = {small, medium, large}属于那种属性类型？A 标称属性B 二元属性C 序数属性D 数值属性正确答案:C12.【第02章】字段Hair_color = {auburn, black, blond, brown, grey, red, white}属于那种属性类型？A 标称属性B 二元属性C 序数属性D 数值属性正确答案:A13.【第03章】哪种数据变换的方法将数据沿概念分层向上汇总？A 平滑B 聚集C 数据概化D 规范化正确答案:C14.【第03章】下面哪种数据预处理技术可以用来平滑数据，消除数据噪声？A 数据清理B 数据集成C 数据变换D 数据归约正确答案:A15.【第03章】（）通过将属性域划分为区间，从而减少给定连续值的个数。

数据挖掘第三版第二章课后习题答案

1.1什么是数据‎挖掘？（a）它是一种广告‎宣传吗？（d）它是一种从数‎据库、统计学、机器学和模式‎识别发展而来‎的技术的简单‎转换或应用吗‎？（c）我们提出一种‎观点，说数据挖掘是‎数据库进化的‎结果，你认为数据挖‎掘也是机器学‎习研究进化的‎结果吗？你能结合该学‎科的发展历史‎提出这一观点‎吗？针对统计学和‎模式知识领域‎做相同的事（d）当把数据挖掘‎看做知识点发‎现过程时，描述数据挖掘‎所涉及的步骤‎答：数据挖掘比较‎简单的定义是‎：数据挖掘是从‎大量的、不完全的、有噪声的、模糊的、随机的实际数‎据中，提取隐含在其‎中的、人们所不知道‎的、但又是潜在有‎用信息和知识‎的过程。

数据挖掘不是‎一种广告宣传‎，而是由于大量‎数据的可用性‎以及把这些数‎据变为有用的‎信息的迫切需‎要，使得数据挖掘‎变得更加有必‎要。

因此，数据挖掘可以‎被看作是信息‎技术的自然演‎变的结果。

数据挖掘不是‎一种从数据库‎、统计学和机器‎学习发展的技‎术的简单转换‎，而是来自多学‎科，例如数据库技‎术、统计学，机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像和信号处‎理以及空间数‎据分析技术的‎集成。

数据库技术开‎始于数据收集‎和数据库创建‎机制的发展，导致了用于数‎据管理的有效‎机制，包括数据存储‎和检索，查询和事务处‎理的发展。

提供查询和事‎务处理的大量‎的数据库系统‎最终自然地导‎致了对数据分‎析和理解的需‎要。

因此，出于这种必要‎性，数据挖掘开始‎了其发展。

当把数据挖掘‎看作知识发现‎过程时，涉及步骤如下‎：数据清理，一个删除或消‎除噪声和不一‎致的数据的过‎程；数据集成，多种数据源可‎以组合在一起‎；数据选择，从数据库中提‎取与分析任务‎相关的数据；数据变换，数据变换或同‎意成适合挖掘‎的形式，如通过汇总或‎聚集操作；数据挖掘，基本步骤，使用智能方法‎提取数据模式‎；模式评估，根据某种兴趣‎度度量，识别表示知识‎的真正有趣的‎模式；知识表示，使用可视化和‎知识表示技术‎，向用户提供挖‎掘的知识1.3定义下列数‎据挖掘功能：特征化、区分、关联和相关性‎分析、分类、回归、聚类、离群点分析。

数据挖掘(练习)考试答案

数据挖掘（练习）1、(单选，4分)以下哪项不属于知识发现的过程？( )A、数据清理B、数据挖掘C、知识可视化表达D、数据测试答案：D2、(单选，4分)以下哪些不属于数据挖掘的内容？（）A、分类B、聚类C、离群点检测D、递归分析答案：D3、(单选，4分)以下哪个不是常见的属性类型？（）A、A．标称属性B、数值属性C、高维属性D、序数属性答案：C4、(单选，4分)以下哪个度量属于数据散度的描述？（）A、均值B、中位数C、标准差D、众数答案：C5、(单选，4分)以下哪个度量不属于数据中心趋势度描述？（D ）A、A．均值B、中位数C、众数D、四分位数答案：D6、(单选，4分)对数据进行数据清理、集成、变换、规约是数据挖掘哪个步骤的任务？( )A、频繁模式挖掘B、分类和预测C、数据预处理D、噪声检测答案：C7、(单选，4分)聚类分析是数据挖掘的一种重要技术，以下哪个算法不属于聚类算法？( )A、K-MeansB、DBSCANC、SVMD、EM 答案：C8、(单选，4分)建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？( )A、根据内容检索B、建模描述C、预测建模D、寻找模式和规则答案：C9、(单选，4分)当不知道数据所带标签时. 可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？( )A、分类B、聚类C、关联分析D、隐马尔可夫链答案：B10、(单选，4分)在构造决策树时，以下哪种不是选择属性的度量的方法？( )A、信息增益B、信息增益率C、基尼指数D、距离答案：D11、(单选，4分)知识发现流程最核心的步骤是什么？( )A、数据挖掘B、数据预处理C、模式评估D、知识表示答案：A12、(单选，4分)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？( )A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘答案：C13、(单选，4分)以下哪个度量属于数据中心性的描述？（）A、均值B、极差C、众数D、标准差答案：A14、(单选，4分)类分析是数据挖掘的一种重要技术，以下哪个算法不属于聚类算法？( )A、K-MeansB、DBSCANC、KNND、EM 答案：C15、(单选，4分)某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？( ) A、关联规则发现B、聚类C、分类D、自然语言处理答案：A16、(单选，4分)以下哪些算法是分类算法？( ) A、DBSCAN B、C4.5 C、K-Mean D、EM 答案：B17、(单选，4分)K-means算法的缺点不包括？( ) A、K必须是事先给定的B、选择初始聚类中心C、对于“噪声”和孤立点数据是敏感的D、可伸缩、高效答案：D18、(单选，4分)机器学习中，下面哪些方法不可以避免分类中的过拟合问题？（）A、增加样本数量B、增加模型复杂度C、去除噪声D、正则化答案：B19、(单选，4分)下面那个不属于知识发现过程。

（完整版）数据挖掘概念课后习题答案

（完整版）数据挖掘概念课后习题答案第 1 章1.6 定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。

使⽤你熟悉的现实⽣活的数据库，给出每种数据挖掘功能的例⼦。

特征化是⼀个⽬标类数据的⼀般特性或特性的汇总。

例如，学⽣的特征可被提出，形成所有⼤学的计算机科学专业⼀年级学⽣的轮廓，这些特征包括作为⼀种⾼的年级平均成绩(GPA：Grade point a ve r s ge) 的信息，还有所修的课程的最⼤数量。

区分是将⽬标类数据对象的⼀般特性与⼀个或多个对⽐类对象的⼀般特性进⾏⽐较。

例如，具有⾼GPA 的学⽣的⼀般特性可被⽤来与具有低GPA 的⼀般特性⽐较。

最终的描述可能是学⽣的⼀个⼀般可⽐较的轮廓，就像具有⾼GPA 的学⽣的75%是四年级计算机科学专业的学⽣，⽽具有低GPA 的学⽣的65%不是。

关联是指发现关联规则，这些规则表⽰⼀起频繁发⽣在给定数据集的特征值的条件。

例如，⼀个数据挖掘系统可能发现的关联规则为：m a j or(X,“c omput i ng s c i e nc e”) ?owns(X, “pe r s ona l c omput e r”)[s uppor t=12%,c on f i d e nc e=98%]其中，X 是⼀个表⽰学⽣的变量。

这个规则指出正在学习的学⽣，12%（⽀持度）主修计算机科学并且拥有⼀台。

个⼈计算机。

这个组⼀个学⽣拥有⼀台个⼈电脑的概率是98%（置信度，或确定度）分类与预测不同，因为前者的作⽤是构造⼀系列能描述和区分数据类型或概念的模型（或，⽽后者是建⽴⼀个模型去预测缺失的或⽆效的、并且通常是数字的数据值。

它们的功能）相似性是他们都是预测的⼯具：分类被⽤作预测⽬标数据的类的标签，⽽预测典型的应⽤是预测缺失的数字型数据的值。

聚类分析的数据对象不考虑已知的类标号。

对象根据最⼤花蕾内部的相似性、最⼩化类之间的相似性的原则进⾏聚类或分组。

形成的每⼀簇可以被看作⼀个对象类。

国开电大《大数据技术》形考任务2答案

国开电大《大数据技术》形考任务2答案
题目如为随机抽题请用CTRL+F来搜索试题
形考任务二
数据分片是由( ）完成的。

正确答案是：Hadoop
虽然约简后的数据集变小了，而且不能保持原始数据的完整性，但在这样的数据集上挖掘，仍然能够获得与约简前相同的分析结果。

（）
正确答案是：“错”。

数据挖掘主要注重解决分类、聚类、关联和定量定性预测等问题，其重点不是寻找未知的模式与规律。

正确答案是：“错”。

回归分析是研究现象之间是否存在某种依存关系，并对有依存关系的现象，探讨其相关方向以及相关程度相关分析是一种统计判别的分组技术，根据就一定数
量样本和相应的其他多元变量的已知信息进行判别分组。

（）
正确答案是：“错”。

每一次计算请求称为（）
正确答案是：作业
离线计算模式中的已知数据存储于彩蛋
正确答案是：硬盘
批量计算技术属于( ）计算技术。

正确答案是：离线
MapReduce模型适于（）计算。

正确答案是：离线
离线计算模式中的已知数据存储于（）
正确答案是：硬盘
批量计算技术属于（）计算技术
正确答案是：离线。

（完整word版）数据挖掘题目及答案

（完整word版）数据挖掘题⽬及答案⼀、何为数据仓库？其主要特点是什么？数据仓库与KDD的联系是什么？数据仓库是⼀个⾯向主题的（Subject Oriented）、集成的（Integrate）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，⽤于⽀持管理决策。

特点：1、⾯向主题操作型数据库的数据组织⾯向事务处理任务，各个业务系统之间各⾃分离，⽽数据仓库中的数据是按照⼀定的主题域进⾏组织的。

2、集成的数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加⼯、汇总和整理得到的，必须消除源数据中的不⼀致性，以保证数据仓库内的信息是关于整个企业的⼀致的全局信息。

3、相对稳定的数据仓库的数据主要供企业决策分析之⽤，⼀旦某个数据进⼊数据仓库以后，⼀般情况下将被长期保留，也就是数据仓库中⼀般有⼤量的查询操作，但修改和删除操作很少，通常只需要定期的加载、刷新。

4、反映历史变化数据仓库中的数据通常包含历史信息，系统记录了企业从过去某⼀时点(如开始应⽤数据仓库的时点)到⽬前的各个阶段的信息，通过这些信息，可以对企业的发展历程和未来趋势做出定量分析和预测。

所谓基于数据库的知识发现（KDD）是指从⼤量数据中提取有效的、新颖的、潜在有⽤的、最终可被理解的模式的⾮平凡过程。

数据仓库为KDD提供了数据环境，KDD从数据仓库中提取有效的，可⽤的信息⼆、数据库有4笔交易。

设minsup=60%，minconf=80%。

TID DATE ITEMS_BOUGHTT100 3/5/2009 {A, C, S, L}T200 3/5/2009 {D, A, C, E, B}T300 4/5/2010 {A, B, C}T400 4/5/2010 {C, A, B, E}使⽤Apriori算法找出频繁项集，列出所有关联规则。

解：已知最⼩⽀持度为60%，最⼩置信度为80%1）第⼀步，对事务数据库进⾏⼀次扫描，计算出D中所包含的每个项⽬出现的次数，⽣成候选1-项集的集合C1。

(完整word版)数据挖掘课后答案

第一章1．6(1)数据特征化是目标类数据的一般特性或特征的汇总。

例如，在某商店花费1000元以上的顾客特征的汇总描述是：年龄在40—50岁、有工作和很好的信誉等级。

（2）数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如,高平均分数的学生的一般特点,可与低平均分数的学生的一般特点进行比较.由此产生的可能是一个相当普遍的描述，如平均分高达75％的学生是大四的计算机科学专业的学生，而平均分低于65%的学生则不是.（3)关联和相关分析是指在给定的频繁项集中寻找相关联的规则.例如，一个数据挖掘系统可能会发现这样的规则：专业（X，“计算机科学”)=〉拥有(X，”个人电脑“）[support= 12％，confidence = 98%]，其中X是一个变量，代表一个学生，该规则表明，98％的置信度或可信性表示,如果一个学生是属于计算机科学专业的，则拥有个人电脑的可能性是98%。

12％的支持度意味着所研究的所有事务的12％显示属于计算机科学专业的学生都会拥有个人电脑。

（4)分类和预测的不同之处在于前者是构建了一个模型(或函数），描述和区分数据类或概念，而后者则建立了一个模型来预测一些丢失或不可用的数据，而且往往是数值，数据集的预测。

它们的相似之处是它们都是为预测工具：分类是用于预测的数据和预测对象的类标签，预测通常用于预测缺失值的数值数据。

例如：某银行需要根据顾客的基本特征将顾客的信誉度区分为优良中差几个类别，此时用到的则是分类;当研究某只股票的价格走势时，会根据股票的历史价格来预测股票的未来价格，此时用到的则是预测。

（5）聚类分析数据对象是根据最大化类内部的相似性、最小化类之间的相似性的原则进行聚类和分组。

聚类还便于分类法组织形式,将观测组织成类分层结构，把类似的事件组织在一起。

例如：世界上有很多种鸟，我们可以根据鸟之间的相似性，聚集成n类，其中n可以认为规定. (6）数据演变分析描述行为随时间变化的对象的规律或趋势，并对其建模。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

答：（1）数据仓库的时间范围比操作数据库系统要长的多。操作数据库系统主要保存当前数据，而数据仓库从历史的角度提供信息（比如过去5-10年）。
（2）数据仓库中的每一个关键结构都隐式或显式地包含时间元素，而操作数据库中的关键结构可能就不包括时间元素。
（3）试述对于多个异种信息源的集成，为什么许多公司宁愿使用更新驱动的方法（update-driven），而不愿使用查询驱动（query-driven）的方法？
答：基于贝叶斯定理的推断需要大量训练数据以覆盖类条件概率空间，引入了很大开销。朴素贝叶斯分类做了类条件独立假设，大幅降低了计算开销。他的优点是容易实现并在大多数情况下可以取得较好的结果；他的缺陷是类条件独立在实际应用中缺乏准确性，因为变量之间经常存在依赖关系；这种依赖关系影响了朴素贝叶斯分类器的准确性。
（4）简述数据分类的两步过程。
第一步，建立模型:建立描述预先定义的数据类或概念集的分类器；
第二步，在独立测试集上评估模型的预测准确率，通过测试后再使用模型，对新的数据进行分类。
四、算法题
判定树buys_PCGame如下所示：
第十章聚类分析
一、填空题
（1）划分方法、层次方法、基于密度的方法
（2）数据分布的情况
(2)两者有着不同的功能
操作数据库支持多事务的并行处理，而数据仓库往往只是对数据记录进行只读访问；这时如果将事务处理的并行机制和恢复机制用于这种OLAP操作，就会显著降低OLAP的性能。
(3)两者有着不同的数据
数据仓库中存放历史数据；日常操作数据库中存放的往往只是最新的数据。
（2）为什么说数据仓库具有随时间而变化的特征？
（2）对称的和不对称的二元属性有什么区别？
答：对称的二元属性指变量的两个状态具有同等价值或相同权重；而不对称的二元属性中，变量的两个状态的重要性是不同的。对称的二元属性可以使用简单匹配系数评估它们的相异度；不对称的二元属性使用Jaccard系数评估它们的相异度。
第三章数据预处理
一、填空题
（1）数据清理、数据集成、数据变换、数据规约
答：因为对于多个异种信息源的集成，查询驱动方法需要复杂的信息过滤和集成处理，并且与局部数据源上的处理竞争资源，是一种低效的方法，并且对于频繁的查询，特别是需要聚集操作的查询，开销很大。而更新驱动方法为集成的异种数据库系统带来了高性能，因为数据被处理和重新组织到一个语义一致的数据存储中，进行查询的同时并不影响局部数据源上进行的处理。此外，数据仓库存储并集成历史信息，支持复杂的多维查询。
（3）面向主题、数据集成、随时间而变化和数据不易丢失
（4）事务操作，只读查询
（5）分布的、代数的和整体的
（6）自顶向下视图、数据源视图、数据仓库视图、商务查询视图
（7）关系OLAP服务器(ROLAP)、多维OLAP服务器(MOLAP)和混合OLAP服务器(HOLAP)
（8）分布的
（9）海量数据，有限的内存和时间
（2）沿概念分层向上概化
（3）有损压缩，无损压缩
（4）线性回归方法，多元回归，对数线性模型
二、简答题
（1）常用的数值属性概念分层的方法有哪些？
答：常用的数值属性概念分层的方法有分箱、直方图分析、聚类分析、基于熵的离散化和通过自然划分分段。
（2）主成份分析步骤为：
a、规范化输入的数据：所有属性落在相同的区间内；
（3）数据变换：将数据由历史或主机的格式转化为数据仓库的格式
（4）装载：排序、汇总、合并、计算视图，检查完整性，并建立索引和分区
（5）刷新：将数据源的更新传播到数据仓库中
二、简答题
（1）为什么在进行联机分析处理(OLAP)时，我们需要一个独立的数据仓库，而不是直接在日常操作的数据库上进行。
答：使用一个独立的数据仓库进行OLAP处理是为了以下目的：
(1)提高两个系统的性能
操作数据库是为OLTP而设计的，没有为OLAP操作优化，同时在操作数据库上处理OLAP查询，会大大降低操作任务的性能；而数据仓库是为OLAP而设计，为复杂的OLAP查询,多维视图，汇总等OLAP功能提供了优化。
浙江大学远程教育学院
《数据挖掘》课程作业答案
第一章引言
一、填空题
（1）数据清理，数据集成，数据选择，数据变换，数据挖掘，模式评估，知识表示
（2）算法的效率、可扩展性和并行处理
（3）统计学、数据库技术和机器学习
（4）一些与数据的一般行为或模型不一致的孤立数据
二、简答题
（1）什么是数据挖掘？
答：数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。
（2）人工填写空缺值。这种方法工作量大，可行性低
（3）使用一个全局变量填充空缺值：比如使用unknown或-∞
（4）使用属性的平均值填充空缺值
（5）使用与给定元组属同一类的所有样本的平均值
（6）使用最可能的值填充空缺值。如使用像Bayesian公式或判定树这样的基于推断的方法
（4）常见的数据归约策略包括哪些？
划分准则是同一个聚类中的对象尽可能的接近或相关，不同聚类中的对象尽可能的原理或不同。
（2）列举离群点挖掘的常见应用。
答：离群点检测的应用很多，列举一些如下：
a、欺诈检测；
b、网络入侵；
c、故障诊断；
d、可疑金融交易监控。
第四章数据仓库与OLAP技术
一、填空题
（1）星形模式、雪花模式和事实星座模式
（2）不物化、部分物化和全物化
（2）如何提高Apriori算法的有效性？有哪些常见方法？
可以使用以下几个思路提升Apriori算法有效性：减少对数据的扫描次数；缩小产生的候选项集；改进对候选项集的支持度计算方法。常见方法包括：a、基于hash表的项集计数；b、事务压缩（压缩进一步迭代的事务数）c、划分；d、选样（在给定数据的一个子集挖掘）；e、动态项集计数。
（3）分类方法的常用评估度量都有哪些？
精度（Precision）：标记为正类的元组实际为正类所占的百分比
召回率：正元组标记为正的百分比
F度量：精度和召回率的调和评估指标
准确率（accuracy），识别率：测试数据中被正确分类的元组所占的百分比；
灵敏度（Sensitivity）：真正例（识别）率
特效性（Specificity）：真负例率
切块：通过对两个或多个维执行选择，定义子方；
转轴：转动数据的视角，提供数据的替代表示；
钻过：执行涉及多个事实表的查询；
钻透：使用关系SQL机制，钻到数据立方体的底层，到后端关系表
（5）为什么说相对于日常的应用数据库，数据仓库中的数据更加不容易丢失？
答：（1）尽管数据仓库中的数据来自于操作数据库，但它们却是在物理上分离保存的，操作数据库的更新操作不会出现在数据仓库环境下。
第二章认识数据
一、填空题
（1）5/13
（2）极差、分位数、四分位数、百分位数、四分位数极差和标准差
（3）出落在至少高于第三个四分位数或低于第一个四分位数1.5×IQR处的值
二、单选题
（1）C；（2）C；
三、简答题
（1）什么是基于像素的可视化技术？它有什么缺点？
答：对于一个m维数据集，基于像素的可视化技术在屏幕上创建m个窗口，每维一个。记录的m个维值映射到这些窗口对应位置上的m个像素。像素的颜色反映对应的值。基于像素的可视化技术的缺点：难以呈现多维空间的数据分布，不显示数据子空间中是否存在稠密区域。
（3）高类内相似度、低类间相似度
（4）数据矩阵和相似度矩阵
（5）处理数度快
二、简答题
（1）简述基于划分的聚类方法。划分的准则是什么？
答：基于划分的聚类方法：给定一个n个对象或元组的数据库，一个划分方法构建数据的k个划分，每个划分表示一个簇，并且k<=n。划分方法要求每个组至少包含一个对象并且每个对象属于且仅属于一个组。聚类目标可以是最优化某种度量，比如最小化数据点与类中心的距离平方和等。
（2）一个典型的数据挖掘系统应该包括哪些组成部分？
答：一个典型的数据挖掘系统应该包括以下部分：
数据库、数据仓库或其他信息库
数据库或数据仓库服务器
知识库
数据挖掘引擎
模式评估模块
图形用户界面
（3）Web挖掘一般包括以下步骤：
数据清理: (这个可能要占全过程60％的工作量)
数据集成
将数据存入数据仓库
建立数据立方体
第八章分类
一、填空题
（1）分类规则、决策树、数学公式
（2）类条件独立
二、简答题
（1）在判定树归纳中，为什么树剪枝是有用的？
答：决策树建立时，许多分枝反映的是训练数据中的噪声和离群点点，树剪枝可以识别并剪去这种分枝，以提高对未知数据分类的准确性。
2）数据仓库不需要事务处理，恢复，和并发控制等机制。
（3）数据仓库只需要两种数据访问：数据的初始转载和数据访问（读操作）。
（6）在数据仓库中，元数据的主要用途包括哪些？
答：在数据仓库中，元数据的主要用途包括：
（1）用作目录，帮助决策支持系统分析者对数据仓库的内容定义
（2）作为数据仓库和操作性数据库之间进行数据转换时的映射标准
b、计算k个标准正交向量，即主成分；
c、每个输入数据的向量都是这k个主成分向量的线性组合；
d、主成分按照重要程度降序排序。
（3）在现实世界的数据中，元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。
答：处理空缺值的方法有：
（1）忽略元组。当类标号缺少时通常这么做（假定挖掘任务设计分类或描述），当每个属性缺少值的百分比变化很大时，它的效果非常差。
（7）频繁谓词集
二、简答题
（1）简述在多层关联规则挖掘中，在不同的层使用一致的支持度的优缺点。
答：优点：搜索时容易采用优化策略，即一个项如果不满足最小支持度，它的所有子项都可以不用搜索。缺点：最小支持度值设置困难：太高则将丢掉出现在较低抽象层中有意义的关联规则；太低则会在较高层产生太多的无兴趣的规则。