第6章大数据分析与挖掘习题答案

合集下载

《大数据时代下数据挖掘》试题与答案..

大数据时代下数据挖掘试题与答案什么是数据挖掘？数据挖掘是从大量数据中自动或半自动的发现知识和信息的过程。

数据挖掘算法可以用于分类、聚类、预测和关联分析等领域。

随着大数据时代的到来，数据挖掘的应用越来越广泛，已成为数据科学家必备的技能之一。

数据挖掘的步骤数据挖掘一般需要经过以下步骤：1.数据预处理：包括数据清洗、数据集成、数据变换和数据规约等步骤，目的是去除噪声和错误，增加数据的质量。

2.特征选择：根据算法的需求选择样本的特定特征，去除无关特征和冗余特征。

3.算法选择：根据数据类型和建模需求选择相应的数据挖掘算法。

4.数据建模：将预处理后的数据输入到选择的算法中进行数据建模，得到模型。

5.模型评价：评估模型的准确率和可靠性，以改进模型和提高预测精度。

6.模型应用：将模型应用到新的数据中进行预测或分类等任务。

常用的数据挖掘算法1.KNN算法：K近邻算法是基于样本相似度进行分类的，分类时采用与待分类样本相似度最高的K个样本作为参照，根据它们的类别多数表决决定待分类样本的类别。

2.决策树算法：决策树算法通过对样本的不断划分，建立起一棵决策树，用于分类和预测。

3.聚类分析算法：聚类分析是将样本划分为不同的组或类别，使组内的样本相似度较高，组间的相似度较低，用于无监督学习。

4.关联分析算法：关联分析算法用于挖掘多个特征之间的关系和规律，常用于购物篮分析和客户分群等领域。

大数据时代下的数据挖掘挑战随着大数据的不断增长和数据种类的丰富多样，数据挖掘面临着以下挑战：1.数据质量问题：大数据中存在很多杂乱和不一致的数据，也存在许多错误和缺失，挖掘这些数据需要解决数据质量问题。

2.算法效率问题：由于大数据量和高复杂性，传统的算法可能无法处理这些数据，需要开发高效率和高并行度的算法。

3.隐私安全问题：随着数据的不断增长，数据隐私和安全问题日益严重，如何保证数据的安全性成为挖掘大数据的必要条件。

数据挖掘的应用场景数据挖掘的应用场景十分广泛，下面列出常见的场景：1.金融领域：货币流向分析、风险控制和金融市场预测等。

数据挖掘试题参考答案

大学课程《数据挖掘》试题参考答案范围：∙ 1.什么是数据挖掘？它与传统数据分析有什么区别？定义：数据挖掘（Data Mining，DM）又称数据库中的知识发现（Knowledge Discover in Database，KDD），是目前人工智能和数据库领域研究的热点问题，所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。

数据挖掘是一种决策支持过程，它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，高度自动化地分析企业的数据，做出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，做出正确的决策。

区别：（1）数据挖掘的数据源与以前相比有了显著的改变；数据是海量的；数据有噪声；数据可能是非结构化的；（2）传统的数据分析方法一般都是先给出一个假设然后通过数据验证，在一定意义上是假设驱动的；与之相反，数据挖掘在一定意义上是发现驱动的，模式都是通过大量的搜索工作从数据中自动提取出来。

即数据挖掘是要发现那些不能靠直觉发现的信息或知识，甚至是违背直觉的信息或知识，挖掘出的信息越是出乎意料，就可能越有价值。

在缺乏强有力的数据分析工具而不能分析这些资源的情况下，历史数据库也就变成了“数据坟墓”－里面的数据几乎不再被访问。

也就是说，极有价值的信息被“淹没”在海量数据堆中，领导者决策时还只能凭自己的经验和直觉。

因此改进原有的数据分析方法，使之能够智能地处理海量数据，即演化为数据挖掘。

∙ 2.请根据CRISP-DM（Cross Industry Standard Process for Data Mining）模型，描述数据挖掘包含哪些步骤？CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段.1: business understanding: 即商业理解. 在第一个阶段我们必须从商业的角度上面了解项目的要求和最终目的是什么. 并将这些目的与数据挖掘的定义以及结果结合起来.2.data understanding: 数据的理解以及收集,对可用的数据进行评估.3: data preparation: 数据的准备,对可用的原始数据进行一系列的组织以及清洗,使之达到建模需求.4:modeling: 即应用数据挖掘工具建立模型.5:evaluation: 对建立的模型进行评估,重点具体考虑得出的结果是否符合第一步的商业目的.6: deployment: 部署,即将其发现的结果以及过程组织成为可读文本形式.(数据挖掘报告)∙ 3.请描述未来多媒体挖掘的趋势随着多媒体技术的发展，人们接触的数据形式不断地丰富，多媒体数据库的日益增多，原有的数据库技术已满足不了应用的需要，人们希望从这些媒体数据中得到一些高层的概念和模式，找出蕴涵于其中的有价值的知识。

大数据分析与挖掘复习题集附答案

大数据分析与挖掘复习题集附答案大数据分析与挖掘复习题集附答案一、选择题1. 数据挖掘的主要任务是：A. 模式发现和模型评估B. 数据收集和整理C. 数据分析和可视化D. 数据传输和存储答案：A2. 在数据挖掘过程中，数据预处理的目的是：A. 提取有价值的信息B. 去除异常值和噪声C. 构建合适的模型D. 优化数据存储结构答案：B3. 关联规则挖掘是指：A. 发现不同属性之间的关联关系B. 预测未来事件的发生C. 分析数据的变化趋势D. 构建数据的分类模型答案：A4. 在数据挖掘中，分类和聚类的主要区别在于：A. 数据来源的不同B. 目标的不同C. 算法的不同D. 结果的不同答案：B5. 大数据分析的核心挑战是：A. 数据存储和处理速度B. 数据质量和准确性C. 数据安全和隐私保护D. 数据可视化和展示答案：A二、填空题1. __________是指通过对海量数据进行深入分析和挖掘，从中发现有价值的信息。

答案：大数据分析与挖掘2. 在数据挖掘过程中，将数据按照一定的规则进行重新排列，以便更方便地进行分析和挖掘，这个过程称为__________。

答案：数据预处理3. 数据挖掘中的分类算法主要是通过对已有的样本进行学习和训练，从而预测新的样本所属的__________。

答案：类别4. 聚类算法是将相似的数据样本归为一类，不需要事先知道数据的__________。

答案：类别5. 在大数据分析中，数据的__________对于结果的准确性和可靠性至关重要。

答案：质量三、简答题1. 请简要说明大数据分析与挖掘的步骤和流程。

答：大数据分析与挖掘的步骤主要包括数据收集与清洗、数据预处理、模式发现、模型评估和应用。

首先，需要从各个数据源收集所需数据，并对数据进行清洗，去除异常值和噪声。

然后，通过数据预处理，对数据进行规范化、离散化等处理，以便于后续的分析和挖掘。

接着，利用合适的算法和技术，进行模式发现，例如关联规则挖掘、分类和聚类等。

数据挖掘习题答案

数据挖掘习题答案数据挖掘习题答案数据挖掘作为一门重要的技术和方法，广泛应用于各个领域。

在学习数据挖掘的过程中，习题是不可或缺的一部分。

通过解答习题，我们可以更好地理解和掌握数据挖掘的原理和应用。

以下是一些常见的数据挖掘习题及其答案，供大家参考。

一、选择题1. 数据挖掘的目标是什么？A. 发现隐藏在大数据中的模式和关联B. 提供数据存储和管理的解决方案C. 分析数据的趋势和变化D. 优化数据的存储和传输速度答案：A. 发现隐藏在大数据中的模式和关联2. 下列哪个不是数据挖掘的主要任务？A. 分类B. 聚类C. 回归D. 排序答案：D. 排序3. 数据挖掘的过程包括以下几个步骤，哪个是第一步？A. 数据清洗B. 数据集成C. 数据转换D. 数据选择答案：B. 数据集成4. 下列哪个不是数据挖掘中常用的算法？A. 决策树B. 支持向量机C. 朴素贝叶斯D. 深度学习答案：D. 深度学习5. 下列哪个不是数据挖掘的应用领域？A. 金融B. 医疗C. 娱乐D. 政治答案：D. 政治二、填空题1. 数据挖掘是从大量数据中发现________和________。

答案：模式，关联2. 数据挖掘的主要任务包括分类、聚类、回归和________。

答案：预测3. 数据挖掘的过程包括数据集成、数据清洗、数据转换和________。

答案：模式识别4. 决策树是一种常用的________算法。

答案：分类5. 数据挖掘可以应用于金融、医疗、娱乐等多个________。

答案：领域三、简答题1. 请简要介绍数据挖掘的主要任务和应用领域。

答：数据挖掘的主要任务包括分类、聚类、回归和预测。

分类是将数据集划分为不同的类别，聚类是将数据集中相似的样本归为一类，回归是根据已有的数据预测未知数据的值，预测是根据已有的数据预测未来的趋势和变化。

数据挖掘的应用领域非常广泛，包括金融、医疗、娱乐等。

在金融领域，数据挖掘可以用于信用评估、风险管理等方面；在医疗领域，数据挖掘可以用于疾病诊断、药物研发等方面；在娱乐领域，数据挖掘可以用于推荐系统、用户行为分析等方面。

数据仓库与数据挖掘课后习题答案

数据仓库与数据挖掘第一章课后习题一：填空题1）数据库中存储的都是数据，而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据。

2）数据仓库中的数据分为四个级别：早起细节级、当前细节级、轻度综合级、高度综合级。

3）数据源是数据仓库系统的基础，是整个系统的数据源泉，通常包括业务数据和历史数据。

4）元数据是“关于数据的数据”。

根据元数据用途的不同将数据仓库的元数据分为技术元数据和业务元数据两类。

5）数据处理通常分为两大类：联机事务处理和联机事务分析6）Fayyad过程模型主要有数据准备，数据挖掘和结果分析三个主要部分组成。

7）如果从整体上看数据挖掘技术，可以将其分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。

8）那些与数据的一般行为或模型不一致的数据对象称做孤立点。

9）按照挖掘对象的不同，将Web数据挖掘分为三类：web内容挖掘、web结构挖掘和web 使用挖掘。

10）查询型工具、分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层，它们各自的侧重点不同，因此适用范围和针对的用户也不相同。

二：简答题1）什么是数据仓库？数据仓库的特点主要有哪些？数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。

主要特点：面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用2）简述数据挖掘的技术定义。

从技术角度看，数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中，提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。

3）什么是业务元数据？业务元数据从业务角度描述了数据仓库中的数据，它提供了介于使用者和实际系统之间的语义层，使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据4）简述数据挖掘与传统分析方法的区别。

本质区别是：数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。

数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。

数据挖掘习题及参考答案

实际生活的例子：
①电信行业中利用数据挖掘技术进行客户行为分析，包含客户通话记录、通话时间、所开通的服务等，据此进行客户群体划分以及客户流失性分析。
②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析，帮助天文学家发现其他未知星体。
③制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。
第 4 页共 27 页
(b)对于数据平滑，其它方法有： (1)回归：可以用一个函数(如回归函数)拟合数据来光滑数据； (2)聚类：可以通过聚类检测离群点，将类似的值组织成群或簇。直观地，落在簇集合之外的值视为离群点。
2.6 使用习题 2.5 给出的 age 数据，回答以下问题： (a) 使用 min-max 规范化，将 age 值 35 转换到[0.0，1.0]区间。 (b) 使用 z-score 规范化转换 age 值 35，其中，age 的标准偏差为 12.94 年。 (c) 使用小数定标规范化转换 age 值 35。 (d) 指出对于给定的数据，你愿意使用哪种方法。陈述你的理由。
回归来建模，或使用时间序列分析。 (7) 是，需要建立正常心率行为模型，并预警非正常心率行为。这属于数据挖掘领域
的异常检测。若有正常和非正常心率行为样本，则可以看作一个分类问题。 (8) 是，需要建立与地震活动相关的不同波形的模型，并预警波形活动。属于数据挖
掘领域的分类。 (9) 不是，属于信号处理。
1.6 根据你的观察，描述一个可能的知识类型，它需要由数据挖掘方法发现，但本章未列出。它需要一种不同于本章列举的数据挖掘技术吗？
答：建立一个局部的周期性作为一种新的知识类型，只要经过一段时间的偏移量在时间序列中重复发生，那么在这个知识类型中的模式是局部周期性的。需要一种新的数据挖掘技术解决这类问题。

大数据挖掘技术练习(习题卷6)

大数据挖掘技术练习(习题卷6)第1部分：单项选择题，共51题，每题只有一个正确答案,多选或少选均不得分。

1.[单选题]基于输入的用户信息,通过模型的训练学习,找出数据中的规律和趋势,以确定未来目标数据的预测值()A)聚类B)分类C)预测D)关联答案:C解析:2.[单选题]使用pip工具升级科学计算扩展库numpy的完整命令是（）A)pip install --upgrade numpyB)pip list --upgrade numpyC)upgrade numpyD)upg numpy--pip install答案:A解析:3.[单选题]在一个表中有字段“专业”,要查找包含“信息”两个字的记录,正确的表达式是______。

A)LEFT(专业, 2)="信息"B)LIKE "%信息%"C)LIKE "_信息_"D)RIGHT(专业, 2)="信息"答案:B解析:4.[单选题]两台路由器成为OSPF邻居关系的必要条件不包括A)两台路由器的Hello时间一致B)两台路由器的Dead时间一致C)两台路由器的Router ID一致D)两台路由器所属区域一致答案:C解析:5.[单选题]自动化高级分析实验室,实现与统一数据资源库互联,实现数据的自助组表、自助分析功能,满足不同层级、不同水平的用户需求的是( )A)初级分析;B)综合分析C)典型分析D)高级分析答案:D解析:6.[单选题]关于 K 均值和 DBSCAN 的比较，以下说法不正确的是( )。

A)KB)KC)KD)K答案:A解析:7.[单选题]属于定量的属性类型是A)标称B)序数C)区间D)相异答案:C解析:8.[单选题]终端支持的频段，在下列哪个流程中会得以体现A)ATTACHB)DETACHC)切换流程D)呼叫流程答案:A解析:9.[单选题]概念分层图是____图。

A)无向无环B)有向无环C)有向有环D)无向有环答案:B解析:10.[单选题]关于OLAP和OLTP的区别描述,不正确的是:A)OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同.B)与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.C)OLAP的特点在于事务量大,但事务内容比较简单且重复率高.D)OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的.答案:C解析:11.[单选题]在FP-GROWTH算法中，已构造FP-Tree如图则项 I3 的条件模式基为A)<(I1,I2:2)>、I2:2、 I1:2B)<(I2,I1:2)>、I2:1、 I1:1C)<(I2,I1:2)>、I2:2、 I1:2D)<(I2,I1:1)>、I2:2、 I1:2答案:C解析:12.[单选题]下面的代码其功能为（）>>> x = [range(3*i, 3*i+5) for i in range(2)]>>> x = list(map(list, x))>>> x = list(map(list, zip(*x)))A)首先生成一个随机的列表，然后生成矩阵B)首先生成一个包含列表的列表，然后生成矩阵C)首先生成一个包含列表的列表，然后模拟矩阵转置D)首先排序列表，然后模拟矩阵转置答案:C解析:13.[单选题]下述方法不属于聚类方法的是( )A)K-均值B)K-中心性C)DBSCAN算法D)神经网络答案:D解析:14.[单选题]设有一个回归方程为y=2-2.5x,则变量x增加一个单位时()A)y平均增加2.5个单位B)y平均增加2个单位C)y平均减少2.5个单位D)y平均减少2个单位答案:C解析:15.[单选题]JSON 中的中括号一般来表示( )。

大数据分析与挖掘课后习题参考答案

dataFrame=spark.createDataFrame(df)
splits=[min(df['f1']),4.8,5.4,max(df['f1'])]
bucketizer = Bucketizer(splits=splits, inputCol='f1', outputCol='Buc_f1')
其中分层抽样更适合微信小程序受众人群的调查。首先对于某微信小程
序，受程序功能的影响，在不同特征上例如性别，年龄，兴趣等可能存在一定
程度的偏斜。按分层抽样的原理，可以根据不同的特征将总体分成子组，然后
从这些子组中选择样本进一步调查。
8
相对于第二种的随机抽样，第一种按比例分组抽样，所得各组样本的比
例为：
后数据的取值范围。
如题表 2-1 所示，从某个毕业班抽取出的 10 个同学的个人情况数据，包含
4 项特征：成绩绩点、身高、体重、工作月薪。利用两种以上的方法对每个
特征进行预处理。
题表 2-1
序号成绩绩点身高（m）体重（斤）工作月薪（元/月）
1
3.2
1.78
130
6000
2
3.5
1.76
122
第 2 章习题
1.
2.
3.
4.
5.
6.
7.
8.
如果在没经过预处理的数据集合上进行数据挖掘的话，会有哪些问题？
假设原始数据服从正态分布，那么经过 z -score 变换后的标准分大于 3 的概
率有多大？
试分析 Spark 预处理 MaxabsScaler、MinMaxScaler 的处理方法，并给出处理

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

（1）请阐述什么是大数据分析。

大数据分析的主要任务主要有：第一类是预测任务，目标是根据某些属性的值，预测另外一些特定属性的值。

被预测的属性一般称为目标变量或因变量，被用来做预测的属性称为解释变量和自变量；第二类是描述任务，目标是导出概括数据中潜在联系的模式，包括相关、趋势、聚类、轨迹和异常等。

描述性任务通常是探查性的，常常需要后处理技术来验证和解释结果。

具体可分为分类、回归、关联分析、聚类分析、推荐系统、异常检测、链接分析等几种。

（2）大数据分析的类型有哪些？
大数据分析主要有描述性统计分析、探索性数据分析以及验证性数据分析等。

（3）举例两种数据挖掘的应用场景？
（1）电子邮件系统中垃圾邮件的判断
电子邮件系统判断一封Email是否属于垃圾邮件。

这应该属于文本挖掘的范畴，通常会采用朴素贝叶斯的方法进行判别。

它的主要原理就是，根据电子邮件中的词汇，是否经常出现在垃圾邮件中进行判断。

例如，如果一份电子邮件的正文中包含“推广”、“广告”、“促销”等词汇时，该邮件被判定为垃圾邮件的概率将会比较大。

（2）金融领域中金融产品的推广营销
针对商业银行中的零售客户进行细分，基于零售客户的特征变量（人口特征、资产特征、负债特征、结算特征），计算客户之间的距离。

然后，按照距离的远近，把相似的客户聚集为一类，从而有效地细分客户。

将全体客户划分为诸如：理财偏好者、基金偏好者、活期偏好者、国债偏好者等。

其目的在于识别不同的客户群体，然后针对不同的客户群体，精准地进行产品设计和推送，从而节约营销成本，提高营销效率。

（4）简述数据挖掘的分类算法及应用。

K-Means算法也叫作k均值聚类算法，它是最著名的划分聚类算法，由于简洁和效率使得它成为所有聚类算法中最广泛使用的。

决策树算法是一种能解决分类或回归问题的机器学习算法，它是一种典型的分类方法，最早产生于上世纪60年代。

决策树算法首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析，因此在本质上决策树是通过一系列规则对数据进行分类的过程。

KNN算法也叫作K最近邻算法，是数据挖掘分类技术中最简单的方法之一。

所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。

遗传算法模拟了自然选择和遗传中发生的繁殖、交配和基因突变现象，是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。

神经网络可以指向两种，一个是生物神经网络，一个是人工神经网络。

在这里专指人工神经网络。

它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。