数据挖掘试题
数据挖掘考试题及答案

数据挖掘考试题及答案### 数据挖掘考试题及答案#### 一、选择题(每题2分,共20分)1. 数据挖掘的目的是发现数据中的:- A. 错误- B. 模式- C. 异常- D. 趋势答案:B2. 以下哪项不是数据挖掘的常用算法:- A. 决策树- B. 聚类分析- C. 线性回归- D. 神经网络答案:C3. 关联规则挖掘中,Apriori算法用于发现:- A. 频繁项集- B. 异常值- C. 趋势- D. 聚类答案:A4. K-means算法是一种:- A. 分类算法- B. 聚类算法- C. 预测算法- D. 关联规则挖掘算法答案:B5. 以下哪个指标用于评估分类模型的性能:- A. 准确率- B. 召回率- C. F1分数- D. 所有以上答案:D#### 二、简答题(每题10分,共30分)1. 描述数据挖掘中的“过拟合”现象,并给出避免过拟合的策略。
答案:过拟合是指模型对训练数据拟合得过于完美,以至于失去了泛化能力。
避免过拟合的策略包括:使用交叉验证、正则化技术、减少模型复杂度、获取更多的训练数据等。
2. 解释什么是“数据清洗”以及它在数据挖掘中的重要性。
答案:数据清洗是指从原始数据中识别并纠正(或删除)错误、重复或不完整的数据的过程。
它在数据挖掘中至关重要,因为脏数据会导致分析结果不准确,影响最终的决策。
3. 描述“特征选择”在数据挖掘中的作用。
答案:特征选择是数据挖掘中用来降低数据维度、提高模型性能和减少计算成本的过程。
通过选择最有信息量的特征,可以去除冗余或无关的特征,从而提高模型的准确性和效率。
#### 三、应用题(每题25分,共50分)1. 假设你正在分析一个电子商务网站的用户购买行为,描述你将如何使用数据挖掘技术来识别潜在的营销机会。
答案:首先,我会使用聚类分析来识别不同的用户群体。
然后,通过关联规则挖掘来发现不同用户群体的购买模式。
接着,利用分类算法来预测用户可能感兴趣的产品。
数据挖掘试题(单选)

单项选择题1.某商场研究销售纪录数据后发现,买啤酒的人很大体率也会购置尿布,这类属于数据发掘的哪种问题 (A)A. 关系规则发现C. 分类B. 聚类D. 自然语言办理2. 以下两种描绘分别对应哪两种对分类算法的评论标准(A)(a)警察抓小偷,描绘警察抓的人中有多少个是小偷的标准。
(b)描绘有多少比率的小偷给警察抓了的标准。
A. Precision,RecallB. Recall,PrecisionA. Precision,ROC D. Recall,ROC3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务A. 屡次模式发掘B. 分类和展望C. 数据预办理D. 数据流发掘(C)4.当不知道数据所带标签时,能够使用哪一种技术促进带同类标签的数据与带其余标签的数据相分别 (B)A. 分类B. 聚类C. 关系剖析D. 隐马尔可夫链5.什么是 KDD (A)A. 数据发掘与知识发现B. 领域知识发现C. 文档知识发现D. 动向知识发现6.使用交互式的和可视化的技术,对数据进行探究属于数据发掘的哪一类任务(A)A. 探究性数据剖析B. 建模描绘C. 展望建模D. 找寻模式和规则7.为数据的整体散布建模;把多维空间区分红组等问题属于数据发掘的哪一类任务(B)A. 探究性数据剖析B. 建模描绘C. 展望建模D. 找寻模式和规则8.成立一个模型,经过这个模型依据已知的变量值来展望其余某个变量值属于数据发掘的哪一类任务 (C)A. 依据内容检索B. 建模描绘C. 展望建模D. 找寻模式和规则9.用户有一种感兴趣的模式而且希望在数据集中找到相像的模式,属于数据发掘哪一类任务(A)A. 依据内容检索B. 建模描绘C. 展望建模D. 找寻模式和规则11.下边哪一种不属于数据预办理的方法(D)A 变量代换B失散化 C齐集 D 预计遗漏值12. 假定 12 个销售价钱记录组已经排序以下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215使用以下每种方法将它们区分红四个箱。
《数据挖掘》试题与答案

一、解答题(满分30分,每小题5分)1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。
知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。
流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。
2. 时间序列数据挖掘的方法有哪些,请详细阐述之时间序列数据挖掘的方法有:1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。
例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。
2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。
若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。
3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。
由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。
假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。
3. 数据挖掘的分类方法有哪些,请详细阐述之分类方法归结为四种类型:1)、基于距离的分类方法:距离的计算方法有多种,最常用的是通过计算每个类的中心来完成,在实际的计算中往往用距离来表征,距离越近,相似性越大,距离越远,相似性越小。
数据挖掘试题(单选)

单选题1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。
(b)描述有多少比例的小偷给警察抓了的标准。
A. Precision, RecallB. Recall, PrecisionA. Precision, ROC D. Recall, ROC3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)A. 分类B. 聚类C. 关联分析D. 隐马尔可夫链5. 什么是KDD? (A)A. 数据挖掘与知识发现B. 领域知识发现C. 文档知识发现D. 动态知识发现6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则11.下面哪种不属于数据预处理的方法? (D)A变量代换 B离散化 C 聚集 D 估计遗漏值12. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。
数据挖掘试题(150道)

.法是一种在已知后验概率与类条件概率地情况下地模式分类方法,待分样本地分类结果取决于各类域中样本地全体. (错)
.分类模型地误差大致分为两种:训练误差()和泛化误差(). (对)
.在决策树中,随着树中结点数变得太大,即使模型地训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足地问题.(错)
.是这样一个分类器,他寻找具有最小边缘地超平面,因此它也经常被称为最小边缘分类器()(错)
.在聚类分析当中,簇内地相似性越大,簇间地差别越大,聚类地效果就越差.(错)
.聚类分析可以看作是一种非监督地分类.(对)
.均值是一种产生划分聚类地基于密度地聚类算法,簇地个数由算法自动地确定.(错
.给定由两次运行均值产生地两个不同地簇集,误差地平方和最大地那个应该被视为较优.(错)
.选择一个算法过程使评分函数最优
.决定用什么样地数据管理原则以高效地实现算法.
.数据挖掘地预测建模任务主要包括哪几大类问题?( )
.分类.回归.模式发现.模式匹配
.数据挖掘算法地组件包括:( )
.模型或模型结构.评分函数.优化和搜索方法.数据管理策略
.以下哪些学科和数据挖掘有密切联系?( )
.统计.计算机组成原理.矿产挖掘.人工智能
.数据仓库地主要目标就是帮助分析,做长期性地战略制定
.数据仓库在技术上地工作过程是:()
.数据地抽取.存储和管理.数据地表现个人收集整理勿做商业用途
.数据仓库设计.数据地表现
.联机分析处理包括以下哪些基本分析功能?()
.聚类.切片.转轴.切块.分类
.利用算法计算频繁项集可以有效降低计算频繁集地时间复杂度.在以下地购物篮中产生支持度不小于地候选项集,在候选项集中需要剪枝地是()
数据挖掘考试题库及答案

数据挖掘考试题库及答案一、选择题1. 数据挖掘是从大量数据中提取有价值信息的过程,以下哪项不是数据挖掘的主要任务?A. 预测B. 分类C. 聚类D. 数据可视化答案:D2. 以下哪种技术不属于数据挖掘的常用方法?A. 决策树B. 支持向量机C. 关联规则D. 数据仓库答案:D3. 数据挖掘中,以下哪项技术常用于分类和预测?A. 神经网络B. K-均值聚类C. 主成分分析D. 决策树答案:D4. 在数据挖掘中,以下哪个概念表示数据集中的属性?A. 数据项B. 数据记录C. 数据属性D. 数据集答案:C5. 数据挖掘中,以下哪个算法用于求解关联规则?A. Apriori算法B. ID3算法C. K-Means算法D. C4.5算法答案:A二、填空题6. 数据挖掘的目的是从大量数据中提取______信息。
答案:有价值7. 在数据挖掘中,分类任务分为有监督学习和______学习。
答案:无监督8. 决策树是一种用于分类和预测的树形结构,其核心思想是______。
答案:递归划分9. 关联规则挖掘中,支持度表示某个项集在数据集中的出现频率,置信度表示______。
答案:包含项集的记录中同时包含结论的记录的比例10. 数据挖掘中,聚类分析是将数据集划分为若干个______的子集。
答案:相似三、判断题11. 数据挖掘只关注大量数据中的异常值。
()答案:错误12. 数据挖掘是数据仓库的一部分。
()答案:正确13. 决策树算法适用于处理连续属性的分类问题。
()答案:错误14. 数据挖掘中的聚类分析是无监督学习任务。
()答案:正确15. 关联规则挖掘中,支持度越高,关联规则越可靠。
()答案:错误四、简答题16. 简述数据挖掘的主要任务。
答案:数据挖掘的主要任务包括预测、分类、聚类、关联规则挖掘、异常检测等。
17. 简述决策树算法的基本原理。
答案:决策树算法是一种自顶向下的递归划分方法。
它通过选择具有最高信息增益的属性进行划分,将数据集划分为若干个子集,直到满足停止条件。
《数据挖掘》试题与答案[精品文档]
![《数据挖掘》试题与答案[精品文档]](https://img.taocdn.com/s3/m/a29e0b8b08a1284ac8504393.png)
一、解答题(满分30分,每小题5分)1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。
知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。
流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。
2. 时间序列数据挖掘的方法有哪些,请详细阐述之时间序列数据挖掘的方法有:1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。
例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。
2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。
若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。
3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。
由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。
假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。
3. 数据挖掘的分类方法有哪些,请详细阐述之分类方法归结为四种类型:1)、基于距离的分类方法:距离的计算方法有多种,最常用的是通过计算每个类的中心来完成,在实际的计算中往往用距离来表征,距离越近,相似性越大,距离越远,相似性越小。
数据挖掘试题

数据挖掘试题1. 解释什么是数据挖掘(Data Mining)。
答:数据挖掘是通过应用统计学、机器学习和模式识别等技术,从大量数据中发现隐藏在其中的模式、关联和规律的过程。
它可以帮助人们从原始数据中提取有价值的信息,以支持决策、预测和优化等任务。
2. 请说明数据挖掘的主要任务。
答:数据挖掘的主要任务包括以下几个方面:- 分类:根据已有的数据标签和特征构建分类模型,将新的数据实例分到预定义的类别中。
- 聚类:根据数据的相似性将其分组,以发现隐藏的数据群体和类别。
- 关联规则挖掘:发现数据项之间的关联和依赖关系,如购物篮分析中发现常一起购买的商品。
- 预测分析:通过已有的数据建立预测模型,用于预测未来的趋势、结果或行为。
- 回归分析:根据数据的特征和标签之间的关系建立回归模型,用于预测连续值的结果。
- 异常检测:发现与正常模式不符的异常数据点,如欺诈检测。
- 文本挖掘:从大量的文本数据中提取有意义的信息和知识,如情感分析、主题提取等。
- 图像和视频挖掘:从图片和视频数据中提取有价值的信息和特征。
3. 请列举常用的数据挖掘算法。
答:常用的数据挖掘算法包括:- 决策树算法(Decision Tree)- 支持向量机算法(Support Vector Machine)- 贝叶斯分类算法(Naive Bayes)- 逻辑回归算法(Logistic Regression)- 人工神经网络算法(Artificial Neural Networks)- 随机森林算法(Random Forest)- 聚类算法(K-means,DBSCAN等)- 关联规则挖掘算法(Apriori,FP-Growth等)- 主成分分析算法(Principal Component Analysis)- 线性回归算法(Linear Regression)4. 数据预处理在数据挖掘中的作用是什么?答:数据预处理是数据挖掘的一个重要步骤,其作用主要有以下几个方面:- 数据清洗:处理缺失值、异常值和噪声,以确保数据的完整性和质量。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
单选题1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)A. 分类B. 聚类C. 关联分析D. 隐马尔可夫链6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则11.下面哪种不属于数据预处理的方法?(D)A变量代换B离散化 C 聚集 D 估计遗漏值12. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。
等频(等深)划分时,15在第几个箱子内?(B)A 第一个B 第二个C 第三个D 第四个13.上题中,等宽划分时(宽度为50),15又在哪个箱子里?(A)A 第一个B 第二个C 第三个D 第四个16. 只有非零值才重要的二元属性被称作:( C )A 计数属性B 离散属性C非对称的二元属性 D 对称属性17. 以下哪种方法不属于特征选择的标准方法:(D)A嵌入 B 过滤 C 包装 D 抽样18.下面不属于创建新属性的相关方法的是:(B)A特征提取B特征修改C映射数据到新的空间D特征构造22. 假设属性income的最大最小值分别是12000元和98000元。
利用最大最小规范化的方法将属性的值映射到0至1的范围内。
对属性income的73600元将被转化为:(D)A 0.821B 1.224C 1.458D 0.71623.假定用于分析的数据包含属性age。
数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。
第二个箱子值为:(A)A 18.3B 22.6C 26.8D 27.928. 数据仓库是随着时间变化的,下面的描述不正确的是(C)A. 数据仓库随时间的变化不断增加新的数据内容;B. 捕捉到的新数据会覆盖原来的快照;C. 数据仓库随事件变化不断删去旧的数据内容;D. 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合.29. 关于基本数据的元数据是指: (D)A. 基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B. 基本元数据包括与企业相关的管理方面的数据和信息;C. 基本元数据包括日志文件和简历执行处理的时序调度信息;D. 基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息.30. 下面关于数据粒度的描述不正确的是: (C)A. 粒度是指数据仓库小数据单元的详细程度和级别;B. 数据越详细,粒度就越小,级别也就越高;C. 数据综合度越高,粒度也就越大,级别也就越高;D. 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量.33. OLAP技术的核心是: (D)A. 在线性;B. 对用户的快速响应;C. 互操作性.D. 多维分析;34. 关于OLAP的特性,下面正确的是: (D)(1)快速性(2)可分析性(3)多维性(4)信息性(5)共享性A. (1) (2) (3)B. (2) (3) (4)C. (1) (2) (3) (4)D. (1) (2) (3) (4) (5)35. 关于OLAP和OLTP的区别描述,不正确的是: (C)A. OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同.B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.C. OLAP的特点在于事务量大,但事务内容比较简单且重复率高.D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的.37. 关于OLAP和OLTP的说法,下列不正确的是: (A)A. OLAP事务量大,但事务内容比较简单且重复率高.B. OLAP的最终数据来源与OLTP不一样.C. OLTP面对的是决策人员和高层管理人员.D. OLTP以应用为核心,是应用驱动的.38. 设X={1,2,3}是频繁项集,则可由X产生__(C)__个关联规则。
A、4B、5C、6D、740. 概念分层图是__(B)__图。
A、无向无环B、有向无环C、有向有环D、无向有环41. 频繁项集、频繁闭项集、最大频繁项集之间的关系是:(C)A、频繁项集频繁闭项集=最大频繁项集B、频繁项集= 频繁闭项集最大频繁项集C、频繁项集频繁闭项集最大频繁项集D、频繁项集= 频繁闭项集= 最大频繁项集44. 在图集合中发现一组公共子结构,这样的任务称为( B )A、频繁子集挖掘B、频繁子图挖掘C、频繁数据项挖掘D、频繁模式挖掘48. 以下哪些算法是分类算法,A,DBSCAN B,C4.5 C,K-Mean D,EM (B)50. 决策树中不包含一下哪种结点,A,根结点(root node) B,内部结点(internal node)C,外部结点(external node)D,叶结点(leaf node)(C)53. 以下哪项关于决策树的说法是错误的(C)A. 冗余属性不会对决策树的准确率造成不利的影响B. 子树可能在决策树中重复多次C. 决策树算法对于噪声的干扰非常敏感D. 寻找最佳决策树是NP完全问题54. 在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为(B)A. 基于类的排序方案B. 基于规则的排序方案C. 基于度量的排序方案D. 基于规格的排序方案。
57. 如果对属性值的任一组合,R中都存在一条规则加以覆盖,则称规则集R中的规则为(B) A, 无序规则B,穷举规则C,互斥规则D,有序规则58. 如果规则集中的规则按照优先级降序排列,则称规则集是(D)A, 无序规则B,穷举规则C,互斥规则D,有序规则61. 以下关于人工神经网络(ANN)的描述错误的有(A)A,神经网络对训练数据中的噪声非常鲁棒B,可以处理冗余特征C,训练ANN是一个很耗时的过程D,至少含有一个隐藏层的多层神经网络二、多选题1. 通过数据挖掘过程所推倒出的关系和摘要经常被称为:(A B)A. 模型B. 模式C. 模范D. 模具2 寻找数据集中的关系是为了寻找精确、方便并且有价值地总结了数据的某一特征的表示,这个过程包括了以下哪些步骤?(A B C D)A. 决定要使用的表示的特征和结构B. 决定如何量化和比较不同表示拟合数据的好坏C. 选择一个算法过程使评分函数最优D. 决定用什么样的数据管理原则以高效地实现算法。
4. 数据挖掘算法的组件包括:(A B C D)A. 模型或模型结构B. 评分函数C. 优化和搜索方法D. 数据管理策略5. 以下哪些学科和数据挖掘有密切联系?(A D)A. 统计B. 计算机组成原理C. 矿产挖掘D. 人工智能6. 在现实世界的数据中,元组在某些属性上缺少值是常有的。
描述处理该问题的各种方法有:(ABCDE)A忽略元组C使用一个全局常量填充空缺值B使用属性的平均值填充空缺值D使用与给定元组属同一类的所有样本的平均值E使用最可能的值填充空缺值8. 对于数据挖掘中的原始数据,存在的问题有:(ABCDE)A 不一致B重复C不完整 D 含噪声E 维度高12. 下面列出的条目中,哪些是数据仓库的基本特征:(ACD)A. 数据仓库是面向主题的B. 数据仓库的数据是集成的C. 数据仓库的数据是相对稳定的D. 数据仓库的数据是反映历史变化的E. 数据仓库是面向事务的13. 以下各项均是针对数据仓库的不同说法,你认为正确的有(BCDE )。
A.数据仓库就是数据库B.数据仓库是一切商业智能系统的基础C.数据仓库是面向业务的,支持联机事务处理(OLTP)D.数据仓库支持决策而非事务处理E.数据仓库的主要目标就是帮助分析,做长期性的战略制定14. 数据仓库在技术上的工作过程是:(ABCD)A. 数据的抽取B. 存储和管理C. 数据的表现D. 数据仓库设计E. 数据的表现15. 联机分析处理包括以下哪些基本分析功能?(BCD)A. 聚类B. 切片C. 转轴D. 切块E. 分类16. 利用Apriori算法计算频繁项集可以有效降低计算频繁集的时间复杂度。
在以下的购物篮中产生支持度不小于3的候选3-项集,在候选2-项集中需要剪枝的是(BD)ID 项集1 面包、牛奶2 面包、尿布、啤酒、鸡蛋3 牛奶、尿布、啤酒、可乐4 面包、牛奶、尿布、啤酒5 面包、牛奶、尿布、可乐A、啤酒、尿布B、啤酒、面包C、面包、尿布D、啤酒、牛奶18. Apriori算法的计算复杂度受__(ABCD)?__影响。
A、支持度阀值B、项数(维度)C、事务数D、事务平均宽度19. 非频繁模式__(AD)__A、其支持度小于阈值B、都是不让人感兴趣的C、包含负模式和负相关模式D、对异常数据项敏感22. 贝叶斯信念网络(BBN)有如下哪些特点,A,构造网络费时费力B,对模型的过分问题非常鲁棒C,贝叶斯网络不适合处理不完整的数据D,网络结构确定后,添加变量相当麻烦(AB)三、判断题1. 数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。
(对)2. 数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。
(对)3. 图挖掘技术在社会网络分析中扮演了重要的角色。
(对)4. 模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。
(错)5. 寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。
(错)6. 离群点可以是合法的数据对象或者值。
(对)7. 离散属性总是具有有限个值。
(错)8. 噪声和伪像是数据错误这一相同表述的两种叫法。
(错)9. 用于分类的离散化方法之间的根本区别在于是否使用类信息。
(对)10. 特征提取技术并不依赖于特定的领域。
(错)12. 定量属性可以是整数值或者是连续值。
(对)14. DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。
(对)15. OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术发展之后迅猛发展起来的一种新技术。