数据挖掘-题库带答案

合集下载

数据挖掘考试题及答案

数据挖掘考试题及答案

数据挖掘考试题及答案### 数据挖掘考试题及答案#### 一、选择题(每题2分,共20分)1. 数据挖掘的目的是发现数据中的:- A. 错误- B. 模式- C. 异常- D. 趋势答案:B2. 以下哪项不是数据挖掘的常用算法:- A. 决策树- B. 聚类分析- C. 线性回归- D. 神经网络答案:C3. 关联规则挖掘中,Apriori算法用于发现:- A. 频繁项集- B. 异常值- C. 趋势- D. 聚类答案:A4. K-means算法是一种:- A. 分类算法- B. 聚类算法- C. 预测算法- D. 关联规则挖掘算法答案:B5. 以下哪个指标用于评估分类模型的性能:- A. 准确率- B. 召回率- C. F1分数- D. 所有以上答案:D#### 二、简答题(每题10分,共30分)1. 描述数据挖掘中的“过拟合”现象,并给出避免过拟合的策略。

答案:过拟合是指模型对训练数据拟合得过于完美,以至于失去了泛化能力。

避免过拟合的策略包括:使用交叉验证、正则化技术、减少模型复杂度、获取更多的训练数据等。

2. 解释什么是“数据清洗”以及它在数据挖掘中的重要性。

答案:数据清洗是指从原始数据中识别并纠正(或删除)错误、重复或不完整的数据的过程。

它在数据挖掘中至关重要,因为脏数据会导致分析结果不准确,影响最终的决策。

3. 描述“特征选择”在数据挖掘中的作用。

答案:特征选择是数据挖掘中用来降低数据维度、提高模型性能和减少计算成本的过程。

通过选择最有信息量的特征,可以去除冗余或无关的特征,从而提高模型的准确性和效率。

#### 三、应用题(每题25分,共50分)1. 假设你正在分析一个电子商务网站的用户购买行为,描述你将如何使用数据挖掘技术来识别潜在的营销机会。

答案:首先,我会使用聚类分析来识别不同的用户群体。

然后,通过关联规则挖掘来发现不同用户群体的购买模式。

接着,利用分类算法来预测用户可能感兴趣的产品。

数据挖掘考试题

数据挖掘考试题

数据挖掘考试题一.选择题1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( )2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。

“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。

A 分类B 预测 C关联规则分析 D聚类4.关于K均值和DBSCAN的比较,以下说法不正确的是( )A.K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。

B.K均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。

C.K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇D.K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇’s Method说法错误的是:( )C.对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差D.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似6.下列关于层次聚类存在的问题说法正确的是:( )A.具有全局优化目标函数B.Group Average擅长处理球状的簇C.可以处理不同大小簇的能力D.Max对噪声点和离群点很敏感7.下列关于凝聚层次聚类的说法中,说法错误的事:( )A.一旦两个簇合并,该操作就不能撤销2m O8.规则{牛奶,尿布}→{啤酒}的支持度和置信度分别为:( )TID项 集 12345{面包,牛奶} {面包,尿布,啤酒,鸡蛋} {牛奶,尿布,啤酒,可乐} {面包,牛奶,尿布,啤酒} {面包,牛奶,尿布,可乐}9.下列( )是属于分裂层次聚类的方法。

10.对下图数据进行凝聚聚类操作,簇间相似度使用MAX 计算,第二步是哪两个簇合并:( )A.在{3}和{l,2}合并B.{3}和{4,5}合并C.{2,3}和{4,5}合并D. {2,3}和{4,5}形成簇和{3}合并二.填空题:1. 属性包括的四种类型: 、 、 、 。

数据挖掘原理与应用---试题及答案试卷十二答案精选全文完整版

数据挖掘原理与应用---试题及答案试卷十二答案精选全文完整版

数据挖掘原理与应用 试题及答案试卷一、(30分,总共30题,每题答对得1分,答错得0分)单选题1、在ID3算法中信息增益是指( D )A、信息的溢出程度B、信息的增加效益C、熵增加的程度最大D、熵减少的程度最大2、下面哪种情况不会影响K-means聚类的效果?( B )A、数据点密度分布不均B、数据点呈圆形状分布C、数据中有异常点存在D、数据点呈非凸形状分布3、下列哪个不是数据对象的别名 ( C )A、样品B、实例C、维度D、元组4、人从出生到长大的过程中,是如何认识事物的? ( D )A、聚类过程B、分类过程C、先分类,后聚类D、先聚类,后分类5、决策树模型中应如何妥善处理连续型属性:( C )A、直接忽略B、利用固定阈值进行离散化C、根据信息增益选择阈值进行离散化D、随机选择数据标签发生变化的位置进行离散化6、假定用于分析的数据包含属性age。

数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70。

问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。

第二个箱子值为:( A )A、18.3B、22.6C、26.8D、27.97、建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( C )A、根据内容检索B、建模描述C、预测建模D、寻找模式和规则8、如果现在需要对一组数据进行样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量,应该采取( A )A、聚类分析B、回归分析C、相关分析D、判别分析9、时间序列数据更适合用( A )做数据规约。

A、小波变换B、主成分分析C、决策树D、直方图10、下面哪些场景合适使用PCA?( A )A、降低数据的维度,节约内存和存储空间B、降低数据维度,并作为其它有监督学习的输入C、获得更多的特征D、替代线性回归11、数字图像处理中常使用主成分分析(PCA)来对数据进行降维,下列关于PCA算法错误的是:( C )A、PCA算法是用较少数量的特征对样本进行描述以达到降低特征空间维数的方法;B、PCA本质是KL-变换;C、PCA是最小绝对值误差意义下的最优正交变换;D、PCA算法通过对协方差矩阵做特征分解获得最优投影子空间,来消除模式特征之间的相关性、突出差异性;12、将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( C )A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘13、假设使用维数降低作为预处理技术,使用PCA将数据减少到k维度。

数据挖掘练习题附答案

数据挖掘练习题附答案

数据挖掘练习题A一、简答题1. 数据对象之间的相似性可用距离来衡量,常见的距离形式有哪些?答:曼哈顿距离,欧几里得距离,切比雪夫距离,闵可夫斯基距离,杰卡德距离2. 简述朴素贝叶斯分类的基本思想。

答:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个概率最大,就认为此待分类项属于哪个类别。

1)设x={a!,a",…,a#}为一个待分类项,a为x的特征属性;2)有类别集合C={y!,y",…,y$}3) 计算p(y!|x),p(y"|x),… p(y$|x)4) 如果p(y%|x)=max {p(y!|x),p(y"|x),…,p(y%|x)},则x∈y%3. 在做数据清洗时,如何处理缺失值?答:处理缺失值的方法有3种:1)忽略元组;2)数据补齐,包括人工填写、特殊值填充、平均值填充、使用最可能的值填充;3)不处理。

4. 简述K-means算法的基本步骤。

答:1)任意选择k个对象作为初始的簇中心;2)计算其它对象与这k个中心的距离,然后把每个对象归入离它“最近”的簇;3)计算各簇中对象的平均值,然后选择簇中心(离平均值“最近”的簇);4)重复第2步到第3步直到簇中心不再变化为止。

5. 在关联规则中,支持度(support)和置信度(confidence)的含义分别是什么?答:支持度support(x->y)=p(x,y),表示项集中同时含有x和y的概率。

置信度confidence(x->y)=p(y/x),表示在关联规则的先决条件x发生的条件下,关联结果y发生的概率,即含有x的项集中,同时含有y的可能性。

二、计算题1.假定属性A的取值x在[x_min,x_max]之间,其中x_min和x_max分别为属性A的最小值和最大值,请利用最小-最大规范化方法(也称离差标准化,是对原始数据的线性变化),将x转化到新的区间[y_min,y_max]中,结果用x’表示。

数据挖掘考试题库及答案

数据挖掘考试题库及答案

数据挖掘考试题库及答案一、选择题1. 数据挖掘是从大量数据中提取有价值信息的过程,以下哪项不是数据挖掘的主要任务?A. 预测B. 分类C. 聚类D. 数据可视化答案:D2. 以下哪种技术不属于数据挖掘的常用方法?A. 决策树B. 支持向量机C. 关联规则D. 数据仓库答案:D3. 数据挖掘中,以下哪项技术常用于分类和预测?A. 神经网络B. K-均值聚类C. 主成分分析D. 决策树答案:D4. 在数据挖掘中,以下哪个概念表示数据集中的属性?A. 数据项B. 数据记录C. 数据属性D. 数据集答案:C5. 数据挖掘中,以下哪个算法用于求解关联规则?A. Apriori算法B. ID3算法C. K-Means算法D. C4.5算法答案:A二、填空题6. 数据挖掘的目的是从大量数据中提取______信息。

答案:有价值7. 在数据挖掘中,分类任务分为有监督学习和______学习。

答案:无监督8. 决策树是一种用于分类和预测的树形结构,其核心思想是______。

答案:递归划分9. 关联规则挖掘中,支持度表示某个项集在数据集中的出现频率,置信度表示______。

答案:包含项集的记录中同时包含结论的记录的比例10. 数据挖掘中,聚类分析是将数据集划分为若干个______的子集。

答案:相似三、判断题11. 数据挖掘只关注大量数据中的异常值。

()答案:错误12. 数据挖掘是数据仓库的一部分。

()答案:正确13. 决策树算法适用于处理连续属性的分类问题。

()答案:错误14. 数据挖掘中的聚类分析是无监督学习任务。

()答案:正确15. 关联规则挖掘中,支持度越高,关联规则越可靠。

()答案:错误四、简答题16. 简述数据挖掘的主要任务。

答案:数据挖掘的主要任务包括预测、分类、聚类、关联规则挖掘、异常检测等。

17. 简述决策树算法的基本原理。

答案:决策树算法是一种自顶向下的递归划分方法。

它通过选择具有最高信息增益的属性进行划分,将数据集划分为若干个子集,直到满足停止条件。

数据挖掘汇总(题库含答案)

数据挖掘汇总(题库含答案)

单选
单选 单选 单选
单选
单选 单选 单选 单选 单选
关于OLAP和OLTP的说法,下列不正确的是: ()
A
如果规则集R中不存在两条规则被同一条记录触发, 则称规则集R中的规则为()
C
通过聚集多个分类器的预测来提高分类准确率的技术 称为 ()
A
简单地将数据对象集划分成不重叠的子集,使得每个 数据对象恰在一个子集中,这种聚类类型称作( )
在抽样方法中,当合适的样本容量很难确定时,可以 使用的抽样方法是: ()
D
17 15155460
单选
关于基本数据的元数据是指: ()
D
18 15155460
19 15155460 20 15155460 21 15155460
22 15155461
23 15155461 24 15155461 25 15155461 26 15155461 27 15155461
多选
关于TCP协议,描述正确的是哪些?
A;C
多选
多选 多选 多选 多选
下面SNMP协议,下面哪两个表述是正确的?
A;D
TD-SCDMA系统中功率控制步长可为
A;B;C
通过数据挖掘过程所推倒出的关系和摘要经常被称 为:()
A;B
以下哪些学科和数据挖掘有密切联系?()
A;D
在聚类分析当中,( 簇。
)等技术可以处理任意形状的 A;D
)的时候,
A
BIRCH是一种( )
B
下面列出的条目中,哪些是数据仓库的基本特征: A;C;D
下面哪些属于可视化高维数据技术 ()
A;B;C;E
对于OSPF协议,你认为哪些是正确的?

《数据挖掘》试题与答案

《数据挖掘》试题与答案

一、解答题(满分30 分,每题 5 分)1.如何理解数据发掘和知识发现的关系?请详尽论述之第一从数据源中抽取感兴趣的数据,并把它组织成适合发掘的数据组织形式;而后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到公司的智能系统中。

知识发现是一个指出数据中有效、崭新、潜伏的、有价值的、一个不行忽略的流程,其最终目标是掌握数据的模式。

流程步骤:先理解要应用的领域、熟习有关知识,接着成立目标数据集,并专注所选择的数据子集;再作数据预办理,剔除错误或不一致的数据;而后进行数据简化与变换工作;再经过数据发掘的技术程序成为模式、做回归剖析或找出分类模型;最后经过解说和评论成为实用的信息。

2.时间序列数据发掘的方法有哪些,请详尽论述之时间序列数据发掘的方法有:1)、确立性时间序列展望方法 : 对于安稳变化特点的时间序列来说,假定未来行为与此刻的行为有关,利用属性此刻的值展望未来的值是可行的。

比如,要展望下周某种商品的销售额,能够用近来一段时间的实质销售量来成立展望模型。

2)、随机时间序列展望方法 :经过成立随机模型,对随机时间序列进行剖析,能够展望未来值。

若时间序列是安稳的,能够用自回归(Auto Regressive,简称AR) 模型、挪动回归模型(Moving Average,简称MA) 或自回归挪动均匀(Auto Regressive Moving Average,简称 ARMA) 模型进行剖析展望。

3)、其余方法 : 可用于时间序列展望的方法好多,此中比较成功的是神经网络。

因为大批的时间序列是非安稳的,所以特点参数和数据散布跟着时间的推移而变化。

若是经过对某段历史数据的训练,经过数学统计模型预计神经网络的各层权重参数初值,便可能成立神经网络展望模型,用于时间序列的展望。

3.数据发掘的分类方法有哪些,请详尽论述之分类方法归纳为四种种类:1)、鉴于距离的分类方法 : 距离的计算方法有多种,最常用的是经过计算每个类的中心来达成,在实质的计算中常常用距离来表征,距离越近,相像性越大,距离越远,相像性越小。

数据挖掘 习题及参考答案

数据挖掘 习题及参考答案
实际生活的例子:
①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所 开通的服务等,据此进行客户群体划分以及客户流失性分析。
②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文 学家发现其他未知星体。
③制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。
第 4 页 共 27 页
(b)对于数据平滑,其它方法有: (1)回归:可以用一个函数(如回归函数)拟合数据来光滑数据; (2)聚类:可以通过聚类检测离群点,将类似的值组织成群或簇。直观地,落在簇集合 之外的值视为离群点。
2.6 使用习题 2.5 给出的 age 数据,回答以下问题: (a) 使用 min-max 规范化,将 age 值 35 转换到[0.0,1.0]区间。 (b) 使用 z-score 规范化转换 age 值 35,其中,age 的标准偏差为 12.94 年。 (c) 使用小数定标规范化转换 age 值 35。 (d) 指出对于给定的数据,你愿意使用哪种方法。陈述你的理由。
回归来建模,或使用时间序列分析。 (7) 是,需要建立正常心率行为模型,并预警非正常心率行为。这属于数据挖掘领域
的异常检测。若有正常和非正常心率行为样本,则可以看作一个分类问题。 (8) 是,需要建立与地震活动相关的不同波形的模型,并预警波形活动。属于数据挖
掘领域的分类。 (9) 不是,属于信号处理。
1.6 根据你的观察,描述一个可能的知识类型,它需要由数据挖掘方法发现,但本章未列出。 它需要一种不同于本章列举的数据挖掘技术吗?
答:建立一个局部的周期性作为一种新的知识类型,只要经过一段时间的偏移量在时间序列 中重复发生,那么在这个知识类型中的模式是局部周期性的。需要一种新的数据挖掘技 术解决这类问题。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘-题库带答案1、最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡()答案:正确2、决策将日益基于数据和分析而作出,而并非基于经验和直觉()答案:错误解析:决策将日益基于数据和分析而作出,而并非基于经验和直觉3、2011年被许多国外媒体和专家称为“大数据元年”()答案:错误解析:2013年被许多国外媒体和专家称为“大数据元年”4、我国网民数量居世界之首,每天产生的数据量也位于世界前列()答案:正确5、商务智能的联机分析处理工具依赖于数据库和数据挖掘。

()答案:错误解析:商务智能的联机分析处理工具依赖于数据仓库和多维数据挖掘。

6、数据整合、处理、校验在目前已经统称为 EL()答案:错误解析:数据整合、处理、校验在目前已经统称为 ETL7、大数据时代的主要特征()A、数据量大B、类型繁多C、价值密度低D、速度快时效高答案: ABCD8、下列哪项不是大数据时代的热门技术()A、数据整合B、数据预处理C、数据可视化D、 SQL答案: D9、()是一种统计或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。

A、预测B、分析C、预测分析D、分析预测答案: C10、大数据发展的前提?答案:解析:硬件成本的降低,网络带宽的提升,云计算的兴起,网络技术的发展,智能终端的普及,电子商务、社交网络、电子地图等的全面应用,物联网的兴起11、调研、分析大数据发展的现状与应用领域。

?答案:解析:略12、大数据时代的主要特征?答案:解析:数据量大(Volume)第一个特征是数据量大。

大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。

类型繁多(Variety)第二个特征是数据类型繁多。

包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。

价值密度低(Value)第三个特征是数据价值密度相对较低。

如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。

速度快、时效高(Velocity)第四个特征是处理速度快,时效性要求高。

这是大数据区分于传统数据挖掘最显著的特征。

13、列举大数据时代的主要技术?答案:解析:预测分析: 预测分析是一种统计或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。

可为预测、优化、预报和模拟等许多其他用途而部署。

随着现在硬件和软件解决方案的成熟,许多公司利用大数据技术来收集海量数据、训练模型、优化模型,并发布预测模型来提高业务水平或者避免风险;当前最流行的预测分析工具当属IBM公司的SPSS,SPSS这个软件大家都已经很熟悉了,它集数据录入、整理、分析功能于一身。

用户可以根据实际需要和计算机的功能选择模块,SPSS的分析结果清晰、直观、易学易用,而且可以直接读取EXCEL及DBF数据文件,现已推广到多种各种操作系统的计算机上。

NoSQL数据库:非关系型数据库包括Key-value型(Redis)数据库、文档型(MonogoDB)数据库、图型(Neo4j)数据库;虽然NoSQL流行语火起来才短短一年的时间,但是不可否认,现在已经开始了第二代运动。

尽管早期的堆栈代码只能算是一种实验,然而现在的系统已经更加的成熟、稳定。

搜索和认知商业:当今时代大数据与分析已经发展到一个新的高度,那就是认知时代,认知时代不再是简单的数据分析与展示,它更多的是上升到一个利用数据来支撑人机交互的一种模式,例如前段时间的围棋大战,就是一个很好的应用、现已经逐步推广到机器人的应用上面,也就是下一个经济爆发点--人工智能,互联网人都比较熟悉国内的BAT,以及国外的apple、google、facebook、IBM、微软、亚马逊等等;可以大致看一下他们的商业布局,未来全是往人工智能方向发展,当然目前在认知商业这一块IBM当属领头羊,特别是当前主推的watson这个产品,以及取得了非常棒的效果;关于更多认知商业资料流式分析:目前流式计算是业界研究的一个热点,最近Twitter、LinkedIn等公司相继开源了流式计算系统Storm、Kafka等,加上Yahoo!之前开源的S4,流式计算研究在互联网领域持续升温,流式分析可以对多个高吞吐量的数据源进行实时的清洗、聚合和分析;对存在于社交网站、博客、电子邮件、视频、新闻、电话记录、传输数据、电子感应器之中的数字格式的信息流进行快速处理并反馈的需求。

内存数据结构:通过动态随机内存访问(DRAM)、Flash和SSD等分布式存储系统提供海量数据的低延时访问和处理;分布式存储系统:分布式存储是指存储节点大于一个、数据保存多副本以及高性能的计算网络;利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。

当前开源的HDFS还是非常不错数据可视化:数据可视化技术是指对各类型数据源(包括hadoop上的海量数据以及实时和接近实时的分布式数据)进行显示;当前国内外数据分析展示的产品很多,如果是企业单位以及政府单位建议使用 cognos ,安全、稳定、功能强大、支持大数据、非常不错的选择。

数据整合:通过亚马逊弹性MR(EMR)、Hive、Pig、Spark、MapReduce、Couchbase、Hadoop和MongoDB等软件进行业务数据整合;数据预处理:数据整合是指对数据源进行清洗、裁剪,并共享多样化数据来加快数据分析;数据校验:对分布式存储系统和数据库上的海量、高频率数据集进行数据校验,去除非法数据,补全缺失。

数据整合、处理、校验在目前已经统称为 ETL ,ETL过程可以把结构化数据以及非结构化数据进行清洗、抽取、转换成你需要的数据、同时还可以保障数据的安全性以及完整性、关于ETL的产品推荐使用 datastage 就行、对于任何数据源都可以完美处理。

14、数据挖掘就是知识发现的过程()答案:错误解析:数据挖掘是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤15、数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程()答案:正确16、Data Mining有相当大的比重是由高等统计学中的多变量分析所支撑()答案:正确17、现实意义中的数据挖掘分析对象是真实的海量数据;这些数据之间存在一定的逻辑关系;数据大多是模糊的、随机的、不完整的、无意义的噪声数据()答案:错误解析:现实意义中的数据挖掘分析对象是真实的海量数据;这些数据之间没有一定的逻辑关系;数据大多是模糊的、随机的、不完整的、无意义的噪声数据18、数据挖掘主要构建四大类模型包括:分类、聚类、预测和关联()答案:正确19、基于事物发展的延续性和随机性预测事物未来的发展属于时间序列分析()答案:正确20、数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

A、大量的B、不完全的C、有噪声的D、模糊的答案: ABCD21、下列哪个领域没有应用数据挖掘技术A、农业B、金融C、教育D、以上全部应用答案: D22、依据历史数据形成刻画用户特征的类标识,进而可以预测未来数据的归类情况,属于()A、聚类B、分类C、预测D、关联答案: B23、在事先不知道数据分类的情况下,根据数据之间的相似程度进行划分,目的是使得同类别的数据对象之间的差别尽可能的小,不同类别的数据对象之间的差别尽可能的大。

属于()A、聚类B、分类C、预测D、关联答案: A24、基于输入的用户信息,通过模型的训练学习,找出数据中的规律和趋势,以确定未来目标数据的预测值()A、聚类B、分类C、预测D、关联答案: C25、从购物篮商品集中找出商品与商品之间的关系,有助于发丌同商品之间的联系()A、聚类B、分类C、预测D、关联答案: D26、阐述数据挖掘与数据分析的区别?答案:27、数据挖掘就是知识发现的过程()答案:错误28、数据挖掘被认为是从数据中发现有用知识的整个过程()答案:错误解析:知识发现 (KDD) 被认为是从数据中发现有用知识的整个过程29、数据挖掘被认为是KDD 过程中的一个特定步骤, 它是用专门算法从数据中抽取模式。

答案:正确30、知识发现的原始数据,可以是结构化的,如数据库中的数据; 也可以是半结构化的,如文本、图形和图像数据;但不能是异构型数据()答案:错误解析:可以是结构化的,如数据库中的数据; 也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。

31、发现知识的方法可以是数学的, 也可以是非数学的; 可以是演绎的, 也可以是归纳的()答案:正确32、从大量的数据中经过深层分析, 获得有利于商业运作、提高竞争力的信息, 就像从矿石中淘金一样, 数据挖掘也因此而得名()答案:正确33、CRISP-DM过程是正确的顺序是:商业理解--数据准备--理解数据--建立模型--模型评估--结果发布()答案:错误解析:商业理解--理解数据--数据准备--建立模型--模型评估--结果发布34、CRISP-DM是“跨行业数据挖掘标准过程”的简写()答案:正确35、整个挖掘过程是一个不断反馈的过程____答案:对选择题;36、知识发现的英文简写是()A、 DKDB、 KDDC、 DMD、 DA答案: B37、数据挖掘的英文简写是()A、 DKDB、 KDDC、 DMD、 DA答案: C38、CRISP-DM过程模型过程包括()个阶段A、 5B、 6C、 7D、 8答案: B39、CRISP-DM是哪个术语的简写()A、跨行业数据挖掘标准过程B、数据分析C、数据挖掘标准D、数据挖掘过程答案: A40、下面哪个CRISP-DM过程是正确的()A、商业理解--理解数据--数据准备--模型评估--建立模型--结果发布B、商业理解--理解数据--建立模型--数据准备--模型评估--结果发布C、商业理解--理解数据--数据准备--建立模型--模型评估--结果发布D、商业理解--数据准备--理解数据--建立模型--模型评估--结果发布答案: C41、KDD过程主要包括()A、数据准备B、数据挖掘C、结果表达D、结果表示答案: ABCD42、判断题:SPSS M中的一个图标代表一个操作()答案:正确43、判断题:单击选项板上的节点,自动把新节点连接到数据流区域中的“中心”节点上()答案:错误解析:双击选项板上的节点,自动把新节点连接到数据流区域中的“中心”节点上44、源节点是连接到初始数据源的节点,源节点只能发送数据()答案:正确45、终端节点是生成输出、图形、表格和模型的节点,可以连接到任何节点()答案:错误解析:终端节点是生成输出、图形、表格和模型的节点,不能从终端节点连接到任何节点46、填空题:一系列连接在一起的节点被称作____答案:解析:工作流47、____用来将数据读入SPSS Modeler 中答案:解析:源节点48、SPSS Modeler 可以运行在____和____两种模式下答案:解析:SPSS Modeler 可以运行在客户端和服务器端两种模式下11.当节点在选项板中被选中后,会变成()A. 红色B. 黄色C. 淡蓝色D. 绿色49、在选项板上()节点,自动放置节点到数据流区域A、单击B、双击D、右键单击答案: B50、SPSS M中所有的节点都放在()A、数据流区B、项目窗口C、工具栏D、选项板区答案: D51、在Modeler中数据使用下列类型()A、连续型:用于描述数值。

相关文档
最新文档