大数据的挖掘考试的题目
数据挖掘考试题及答案

数据挖掘考试题及答案### 数据挖掘考试题及答案#### 一、选择题(每题2分,共20分)1. 数据挖掘的目的是发现数据中的:- A. 错误- B. 模式- C. 异常- D. 趋势答案:B2. 以下哪项不是数据挖掘的常用算法:- A. 决策树- B. 聚类分析- C. 线性回归- D. 神经网络答案:C3. 关联规则挖掘中,Apriori算法用于发现:- A. 频繁项集- B. 异常值- C. 趋势- D. 聚类答案:A4. K-means算法是一种:- A. 分类算法- B. 聚类算法- C. 预测算法- D. 关联规则挖掘算法答案:B5. 以下哪个指标用于评估分类模型的性能:- A. 准确率- B. 召回率- C. F1分数- D. 所有以上答案:D#### 二、简答题(每题10分,共30分)1. 描述数据挖掘中的“过拟合”现象,并给出避免过拟合的策略。
答案:过拟合是指模型对训练数据拟合得过于完美,以至于失去了泛化能力。
避免过拟合的策略包括:使用交叉验证、正则化技术、减少模型复杂度、获取更多的训练数据等。
2. 解释什么是“数据清洗”以及它在数据挖掘中的重要性。
答案:数据清洗是指从原始数据中识别并纠正(或删除)错误、重复或不完整的数据的过程。
它在数据挖掘中至关重要,因为脏数据会导致分析结果不准确,影响最终的决策。
3. 描述“特征选择”在数据挖掘中的作用。
答案:特征选择是数据挖掘中用来降低数据维度、提高模型性能和减少计算成本的过程。
通过选择最有信息量的特征,可以去除冗余或无关的特征,从而提高模型的准确性和效率。
#### 三、应用题(每题25分,共50分)1. 假设你正在分析一个电子商务网站的用户购买行为,描述你将如何使用数据挖掘技术来识别潜在的营销机会。
答案:首先,我会使用聚类分析来识别不同的用户群体。
然后,通过关联规则挖掘来发现不同用户群体的购买模式。
接着,利用分类算法来预测用户可能感兴趣的产品。
大数据的挖掘考试的题目

数据挖掘考试题一.选择题1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( )A.分类B.聚类C.关联分析D.主成分分析2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。
A.MIN(单链)B.MAX(全链)C.组平均D.Ward方法3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。
A 分类B 预测 C关联规则分析 D聚类4.关于K均值和DBSCAN的比较,以下说法不正确的是( )A.K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。
B.K均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。
C.K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇D.K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇5.下列关于Ward’s Method说法错误的是:( )A.对噪声点和离群点敏感度比较小B.擅长处理球状的簇C.对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差D.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似6.下列关于层次聚类存在的问题说法正确的是:( )A.具有全局优化目标函数B.Group Average擅长处理球状的簇C.可以处理不同大小簇的能力D.Max对噪声点和离群点很敏感7.下列关于凝聚层次聚类的说法中,说法错误的事:( )A.一旦两个簇合并,该操作就不能撤销B.算法的终止条件是仅剩下一个簇C.空间复杂度为()2m OD.具有全局优化目标函数8.规则{牛奶,尿布}→{啤酒}的支持度和置信度分别为:( ) TID项 集 12345{面包,牛奶} {面包,尿布,啤酒,鸡蛋} {牛奶,尿布,啤酒,可乐} {面包,牛奶,尿布,啤酒} {面包,牛奶,尿布,可乐} A.0.4,0.4 B.0.67,0.67 C.0.4,0.67 D.0.67,0.49.下列( )是属于分裂层次聚类的方法。
大数据分析与挖掘复习 题集附答案

大数据分析与挖掘复习题集附答案大数据分析与挖掘复习题集附答案一、选择题1. 数据挖掘的主要任务是:A. 模式发现和模型评估B. 数据收集和整理C. 数据分析和可视化D. 数据传输和存储答案:A2. 在数据挖掘过程中,数据预处理的目的是:A. 提取有价值的信息B. 去除异常值和噪声C. 构建合适的模型D. 优化数据存储结构答案:B3. 关联规则挖掘是指:A. 发现不同属性之间的关联关系B. 预测未来事件的发生C. 分析数据的变化趋势D. 构建数据的分类模型答案:A4. 在数据挖掘中,分类和聚类的主要区别在于:A. 数据来源的不同B. 目标的不同C. 算法的不同D. 结果的不同答案:B5. 大数据分析的核心挑战是:A. 数据存储和处理速度B. 数据质量和准确性C. 数据安全和隐私保护D. 数据可视化和展示答案:A二、填空题1. __________是指通过对海量数据进行深入分析和挖掘,从中发现有价值的信息。
答案:大数据分析与挖掘2. 在数据挖掘过程中,将数据按照一定的规则进行重新排列,以便更方便地进行分析和挖掘,这个过程称为__________。
答案:数据预处理3. 数据挖掘中的分类算法主要是通过对已有的样本进行学习和训练,从而预测新的样本所属的__________。
答案:类别4. 聚类算法是将相似的数据样本归为一类,不需要事先知道数据的__________。
答案:类别5. 在大数据分析中,数据的__________对于结果的准确性和可靠性至关重要。
答案:质量三、简答题1. 请简要说明大数据分析与挖掘的步骤和流程。
答:大数据分析与挖掘的步骤主要包括数据收集与清洗、数据预处理、模式发现、模型评估和应用。
首先,需要从各个数据源收集所需数据,并对数据进行清洗,去除异常值和噪声。
然后,通过数据预处理,对数据进行规范化、离散化等处理,以便于后续的分析和挖掘。
接着,利用合适的算法和技术,进行模式发现,例如关联规则挖掘、分类和聚类等。
数据挖掘考试题库及答案

数据挖掘考试题库及答案一、选择题1. 数据挖掘是从大量数据中提取有价值信息的过程,以下哪项不是数据挖掘的主要任务?A. 预测B. 分类C. 聚类D. 数据可视化答案:D2. 以下哪种技术不属于数据挖掘的常用方法?A. 决策树B. 支持向量机C. 关联规则D. 数据仓库答案:D3. 数据挖掘中,以下哪项技术常用于分类和预测?A. 神经网络B. K-均值聚类C. 主成分分析D. 决策树答案:D4. 在数据挖掘中,以下哪个概念表示数据集中的属性?A. 数据项B. 数据记录C. 数据属性D. 数据集答案:C5. 数据挖掘中,以下哪个算法用于求解关联规则?A. Apriori算法B. ID3算法C. K-Means算法D. C4.5算法答案:A二、填空题6. 数据挖掘的目的是从大量数据中提取______信息。
答案:有价值7. 在数据挖掘中,分类任务分为有监督学习和______学习。
答案:无监督8. 决策树是一种用于分类和预测的树形结构,其核心思想是______。
答案:递归划分9. 关联规则挖掘中,支持度表示某个项集在数据集中的出现频率,置信度表示______。
答案:包含项集的记录中同时包含结论的记录的比例10. 数据挖掘中,聚类分析是将数据集划分为若干个______的子集。
答案:相似三、判断题11. 数据挖掘只关注大量数据中的异常值。
()答案:错误12. 数据挖掘是数据仓库的一部分。
()答案:正确13. 决策树算法适用于处理连续属性的分类问题。
()答案:错误14. 数据挖掘中的聚类分析是无监督学习任务。
()答案:正确15. 关联规则挖掘中,支持度越高,关联规则越可靠。
()答案:错误四、简答题16. 简述数据挖掘的主要任务。
答案:数据挖掘的主要任务包括预测、分类、聚类、关联规则挖掘、异常检测等。
17. 简述决策树算法的基本原理。
答案:决策树算法是一种自顶向下的递归划分方法。
它通过选择具有最高信息增益的属性进行划分,将数据集划分为若干个子集,直到满足停止条件。
大数据技术与数据挖掘管理考试 选择题 62题

1. 大数据的“4V”特性不包括以下哪一项?A. 体积(Volume)B. 速度(Velocity)C. 多样性(Variety)D. 价值(Value)答案:D2. 以下哪个不是数据挖掘的主要任务?A. 分类B. 回归C. 聚类D. 排序答案:D3. Hadoop生态系统中,用于数据处理的框架是?A. HBaseB. HiveC. MapReduceD. Pig答案:C4. 在数据挖掘中,关联规则挖掘的目的是什么?A. 发现数据集中的频繁项集B. 预测未来的数据趋势C. 分类数据D. 聚类数据答案:A5. 以下哪个算法是监督学习算法?A. K-均值B. 决策树C. 层次聚类D. 关联规则答案:B6. 数据仓库的主要目的是什么?A. 实时数据处理B. 数据分析和报告C. 数据存储D. 数据清洗答案:B7. 在数据挖掘过程中,数据预处理的主要步骤不包括以下哪一项?A. 数据清洗B. 数据集成C. 数据变换D. 数据加密答案:D8. 以下哪个工具不是用于大数据处理的?A. Apache SparkB. Microsoft ExcelC. Apache FlinkD. Apache Kafka答案:B9. 在数据挖掘中,以下哪个步骤通常是最后进行的?A. 数据预处理B. 模型评估C. 数据收集D. 数据分析答案:B10. 以下哪个不是NoSQL数据库的类型?A. 键值存储B. 文档存储C. 关系数据库D. 图形数据库答案:C11. 在数据挖掘中,以下哪个算法用于异常检测?A. K-均值B. 支持向量机C. 孤立森林D. 朴素贝叶斯答案:C12. 以下哪个是大数据分析的常见应用场景?A. 社交媒体分析B. 文本编辑C. 图形设计D. 音频编辑答案:A13. 在数据挖掘中,以下哪个步骤通常是首先进行的?A. 数据预处理B. 模型评估C. 数据收集D. 数据分析答案:C14. 以下哪个不是数据挖掘的挑战?A. 数据质量B. 数据安全C. 数据存储D. 数据可视化答案:D15. 在数据挖掘中,以下哪个算法用于分类?A. K-均值B. 决策树C. 层次聚类D. 关联规则答案:B16. 以下哪个是大数据技术的关键组成部分?A. 数据仓库B. 数据湖C. 数据集市D. 数据中心答案:B17. 在数据挖掘中,以下哪个步骤通常是第二步?A. 数据预处理B. 模型评估C. 数据收集D. 数据分析答案:A18. 以下哪个不是大数据处理平台?A. Apache HadoopB. Apache SparkC. Microsoft AccessD. Apache Flink答案:C19. 在数据挖掘中,以下哪个算法用于聚类?A. K-均值B. 决策树C. 支持向量机D. 朴素贝叶斯答案:A20. 以下哪个是数据挖掘的常见应用?A. 客户细分B. 文本编辑C. 图形设计D. 音频编辑答案:A21. 在数据挖掘中,以下哪个步骤通常是第三步?A. 数据预处理B. 模型评估C. 数据收集D. 数据分析答案:D22. 以下哪个不是数据挖掘的步骤?A. 数据预处理B. 模型评估C. 数据收集D. 数据加密答案:D23. 在数据挖掘中,以下哪个算法用于回归分析?A. K-均值B. 决策树C. 线性回归D. 关联规则答案:C24. 以下哪个是大数据技术的优势?A. 数据存储B. 数据分析C. 数据安全D. 数据可视化答案:B25. 在数据挖掘中,以下哪个步骤通常是第四步?A. 数据预处理B. 模型评估C. 数据收集D. 数据分析答案:B26. 以下哪个不是数据挖掘的工具?A. R语言B. PythonC. Microsoft WordD. SAS答案:C27. 在数据挖掘中,以下哪个算法用于关联规则挖掘?A. K-均值B. 决策树C. 支持向量机D. Apriori算法答案:D28. 以下哪个是大数据技术的挑战?A. 数据质量B. 数据安全C. 数据存储D. 数据可视化答案:A29. 在数据挖掘中,以下哪个步骤通常是第五步?A. 数据预处理B. 模型评估C. 数据收集D. 数据分析答案:B30. 以下哪个不是数据挖掘的应用领域?A. 金融B. 医疗C. 教育D. 游戏设计答案:D31. 在数据挖掘中,以下哪个算法用于文本挖掘?A. K-均值B. 决策树C. 支持向量机D. 朴素贝叶斯答案:D32. 以下哪个是大数据技术的应用?A. 社交媒体分析B. 文本编辑C. 图形设计D. 音频编辑答案:A33. 在数据挖掘中,以下哪个步骤通常是第六步?A. 数据预处理B. 模型评估C. 数据收集D. 数据分析答案:B34. 以下哪个不是数据挖掘的挑战?A. 数据质量B. 数据安全C. 数据存储D. 数据可视化答案:D35. 在数据挖掘中,以下哪个算法用于时间序列分析?A. K-均值B. 决策树C. 支持向量机D. ARIMA模型答案:D36. 以下哪个是大数据技术的优势?A. 数据存储B. 数据分析C. 数据安全D. 数据可视化答案:B37. 在数据挖掘中,以下哪个步骤通常是第七步?A. 数据预处理B. 模型评估C. 数据收集D. 数据分析答案:B38. 以下哪个不是数据挖掘的工具?A. R语言B. PythonC. Microsoft ExcelD. Microsoft Word答案:D39. 在数据挖掘中,以下哪个算法用于图像挖掘?A. K-均值B. 决策树C. 支持向量机D. 卷积神经网络答案:D40. 以下哪个是大数据技术的挑战?A. 数据质量B. 数据安全C. 数据存储D. 数据可视化答案:A41. 在数据挖掘中,以下哪个步骤通常是第八步?A. 数据预处理B. 模型评估C. 数据收集D. 数据分析答案:B42. 以下哪个不是数据挖掘的应用领域?A. 金融B. 医疗C. 教育D. 游戏设计答案:D43. 在数据挖掘中,以下哪个算法用于网络挖掘?A. K-均值B. 决策树C. 支持向量机D. 社交网络分析答案:D44. 以下哪个是大数据技术的应用?A. 社交媒体分析B. 文本编辑C. 图形设计D. 音频编辑答案:A45. 在数据挖掘中,以下哪个步骤通常是第九步?A. 数据预处理B. 模型评估C. 数据收集D. 数据分析答案:B46. 以下哪个不是数据挖掘的挑战?A. 数据质量B. 数据安全C. 数据存储D. 数据可视化答案:D47. 在数据挖掘中,以下哪个算法用于推荐系统?A. K-均值B. 决策树C. 支持向量机D. 协同过滤答案:D48. 以下哪个是大数据技术的优势?A. 数据存储B. 数据分析C. 数据安全D. 数据可视化答案:B49. 在数据挖掘中,以下哪个步骤通常是第十步?A. 数据预处理B. 模型评估C. 数据收集D. 数据分析答案:B50. 以下哪个不是数据挖掘的工具?A. R语言B. PythonC. Microsoft ExcelD. Microsoft Word答案:D51. 在数据挖掘中,以下哪个算法用于序列挖掘?A. K-均值B. 决策树C. 支持向量机D. 序列模式挖掘答案:D52. 以下哪个是大数据技术的挑战?A. 数据质量B. 数据安全C. 数据存储D. 数据可视化答案:A53. 在数据挖掘中,以下哪个步骤通常是第十一步?A. 数据预处理B. 模型评估C. 数据收集D. 数据分析答案:B54. 以下哪个不是数据挖掘的应用领域?A. 金融B. 医疗C. 教育D. 游戏设计答案:D55. 在数据挖掘中,以下哪个算法用于生物信息学?A. K-均值B. 决策树C. 支持向量机D. 基因表达分析答案:D56. 以下哪个是大数据技术的应用?A. 社交媒体分析B. 文本编辑C. 图形设计D. 音频编辑答案:A57. 在数据挖掘中,以下哪个步骤通常是第十二步?A. 数据预处理B. 模型评估C. 数据收集D. 数据分析答案:B58. 以下哪个不是数据挖掘的挑战?A. 数据质量B. 数据安全C. 数据存储D. 数据可视化答案:D59. 在数据挖掘中,以下哪个算法用于市场篮分析?A. K-均值B. 决策树C. 支持向量机D. 关联规则答案:D60. 以下哪个是大数据技术的优势?A. 数据存储B. 数据分析C. 数据安全D. 数据可视化答案:B61. 在数据挖掘中,以下哪个步骤通常是第十三步?A. 数据预处理B. 模型评估C. 数据收集D. 数据分析答案:B62. 以下哪个不是数据挖掘的工具?A. R语言B. PythonC. Microsoft ExcelD. Microsoft Word答案:D答案1. D2. D3. C4. A5. B6. B7. D8. B9. B10. C11. C12. A13. C14. D15. B16. B17. A18. C19. A20. A21. D22. D23. C24. B25. B26. C27. D28. A29. B30. D31. D32. A33. B34. D35. D36. B37. B38. D39. D40. A41. B42. D43. D44. A45. B46. D47. D48. B49. B50. D51. D52. A53. B54. D55. D56. A57. B58. D59. D60. B61. B62. D。
2023年数据挖掘大赛赛题

大数据挖掘培训测试题
一、单选题
1、大数据挖掘的产出是()[单选题]*
A、数据
B、报告
C、信息和知识
D、报表
2、大数据挖掘通用路径的第一步是()[单选题]*
A、数据信息化
B、业务数据化
C、信息策略化
D、数据报表化
3、数据分析常见的产出是()[单选题]*
A、分析报告
B、机器学习模型
C、微观操作策略
D、都不是
4、大数据挖掘通用流程中数据层的任务不包括()[单选题]*
A、数据获取
B、模型训练
C、数据整理
D、数据清洗
5、数据分析基本过程的第一步是()[单选题]*
A、明确目标和思路
B、数据采集
C、数据预处理
D、数据清洗
6、下列哪些不是数据分析中数据预处理阶段的动作()[单选题]*
A、数据清洗
B、数据集成
C、数据派生
D、数据探索
7、数据分析报告通常采用下列哪种结构()[单选题]*
A、总-分-总
B、分-总-分
C、总-分-分
D、分-分-总
8、把复杂问题拆解成简单项的数据分析思维方法是()[单选题]*
A、5W2H方法
B、二八原则方法
C、逻辑树拆解法
D、假设验证法
9、精准营销过程数据分析通常使用下列哪种思维方法()[单选题]*
A、5W2H方法
B、6R准则
C、矩阵分析法
D、漏洞分析法
10、列联分析中,用下列哪种方法来评价因子之间的影响显著性()[单选题]*
A、相关系数大小
B、方差大小
C、包裹法
D、卡方验证。
大数据挖掘技术练习(试卷编号291)

大数据挖掘技术练习(试卷编号291)1.[单选题]( ),用于显示树状结构数据。
A)矩形式树状结构图;B)平行结构树C)垂直结构树答案:A解析:2.[单选题]HDFS存储数据时,默认存储为( )份A)1B)2C)3D)4答案:C解析:3.[单选题]有关朴素贝叶斯分类算法的叙述中正确的是( )A)朴素贝叶斯分类算法是一种精确的分类算法B)采用朴素贝叶斯分类算法将一个样本分到某个类别中,表示它100%属于该类别C)朴素贝叶斯分类算法是一种基于概率的分类算法D)以上都不对答案:C解析:4.[单选题]KNN算法流程中不正确的有()A)计算已知类别数据集中的点与当前点之间的距离,按照距离递增次序排序;B)选取与当前点距离最小的k个点;C)确定前k个点所在类别对应的出现频率;D)返回前k个点出现频率最低的类别作为当前点的预测分类。
答案:D解析:5.[单选题]在SQL 中,创建数据库用的命令是()A)CREATE SCHEMAB)CREATE TABLEC)CREATE VIEWD)CREATE DATABASE答案:D6.[单选题]用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?A)根据内容检索B)建模描述C)预测建模D)寻找模式和规则答案:A解析:7.[单选题]在SELECT语句中,DISTINCT子句的作用是______。
A)对查询结果进行分组B)消除重复出现的查询记录C)按条件显示部分查询记录D)删除查询结果中符合条件的记录答案:B解析:8.[单选题]考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是 )A)2B)3C)3.5D)5答案:C解析:9.[单选题]对于任一个频繁项集X和它的一个非空真子集Y, S=X-Y,规则S→Y成立的条件是( )。
A)confidence( →S)≥minconfB)confidence( →Y)<minconfC)confidence( →S)<minconfD)confidence(S→Y)≥minconf答案:D解析:10.[单选题]sklearn.linear_model中的()可实现线性回归A)LinearAlgebraB)LinearActuatorC)LinearRegressionD)LinearCausation答案:C解析:A)K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。
大数据技术与数据挖掘技术测试 选择题 61题

1. 大数据的“4V”特征不包括以下哪一项?A. VolumeB. VelocityC. VarietyD. Visibility2. Hadoop的核心组件包括哪些?A. HDFS和MapReduceB. HDFS和YARNC. MapReduce和YARND. HDFS、MapReduce和YARN3. 在数据挖掘中,分类和聚类的主要区别是什么?A. 分类有监督,聚类无监督B. 分类无监督,聚类有监督C. 分类和聚类都是无监督D. 分类和聚类都是有监督4. 下列哪个不是数据仓库的特征?A. 面向主题B. 集成性C. 时变性D. 实时性5. 在数据挖掘中,关联规则挖掘的目的是什么?A. 发现数据集中的频繁项集B. 预测未来数据C. 分类数据D. 聚类数据6. 下列哪个算法是用于分类的?A. K-MeansB. AprioriC. Naive BayesD. PCA7. 在Hadoop中,HDFS的主要作用是什么?A. 数据处理B. 数据存储C. 资源管理D. 任务调度8. 数据挖掘中的“异常检测”主要用于什么?A. 发现数据中的异常模式B. 数据分类C. 数据聚类D. 数据关联9. 下列哪个工具不是用于大数据处理的?A. Apache SparkB. Apache FlinkC. Microsoft ExcelD. Apache Kafka10. 在数据挖掘中,决策树算法属于哪一类?A. 有监督学习B. 无监督学习C. 半监督学习D. 强化学习11. 下列哪个不是NoSQL数据库的类型?A. 键值存储B. 文档存储C. 关系型数据库D. 图形数据库12. 在数据挖掘中,支持度(Support)是用来衡量什么的?A. 规则的置信度B. 规则的普遍性C. 规则的准确性D. 规则的相关性13. 下列哪个算法是用于聚类的?A. K-Nearest NeighborsB. K-MeansC. Naive BayesD. Decision Tree14. 在Hadoop生态系统中,Hive的主要作用是什么?A. 数据存储B. 数据处理C. SQL查询D. 资源管理15. 数据挖掘中的“回归分析”主要用于什么?A. 预测数值型数据B. 分类数据C. 聚类数据D. 关联分析16. 下列哪个不是大数据处理框架?A. Apache HadoopB. Apache SparkC. Apache FlinkD. Apache Tomcat17. 在数据挖掘中,置信度(Confidence)是用来衡量什么的?A. 规则的普遍性B. 规则的置信度C. 规则的准确性D. 规则的相关性18. 下列哪个算法是用于关联规则挖掘的?A. AprioriB. K-MeansC. Naive BayesD. Decision Tree19. 在Hadoop中,YARN的主要作用是什么?A. 数据存储B. 数据处理C. 资源管理D. 任务调度20. 数据挖掘中的“时间序列分析”主要用于什么?A. 预测未来数据B. 分类数据C. 聚类数据D. 关联分析21. 下列哪个不是大数据的存储解决方案?A. HDFSB. Amazon S3C. Google Cloud StorageD. Microsoft SQL Server22. 在数据挖掘中,PCA(主成分分析)主要用于什么?A. 数据降维B. 数据分类C. 数据聚类D. 数据关联23. 下列哪个算法是用于异常检测的?A. Isolation ForestB. K-MeansC. Naive BayesD. Decision Tree24. 在Hadoop生态系统中,Pig的主要作用是什么?A. 数据存储B. 数据处理C. SQL查询D. 资源管理25. 数据挖掘中的“文本挖掘”主要用于什么?A. 分析文本数据B. 分类数据C. 聚类数据D. 关联分析26. 下列哪个不是大数据分析工具?A. TableauB. Power BIC. Microsoft WordD. QlikView27. 在数据挖掘中,SVM(支持向量机)主要用于什么?A. 数据分类B. 数据聚类C. 数据关联D. 数据降维28. 下列哪个算法是用于时间序列分析的?A. ARIMAB. K-MeansC. Naive BayesD. Decision Tree29. 在Hadoop生态系统中,HBase的主要作用是什么?A. 数据存储B. 数据处理C. SQL查询D. 资源管理30. 数据挖掘中的“推荐系统”主要用于什么?A. 个性化推荐B. 分类数据C. 聚类数据D. 关联分析31. 下列哪个不是大数据的计算框架?A. Apache HadoopB. Apache SparkC. Apache FlinkD. Apache Maven32. 在数据挖掘中,LDA(潜在狄利克雷分配)主要用于什么?A. 文本主题建模B. 数据分类C. 数据聚类D. 数据关联33. 下列哪个算法是用于推荐系统的?A. Collaborative FilteringB. K-MeansC. Naive BayesD. Decision Tree34. 在Hadoop生态系统中,Flume的主要作用是什么?A. 数据存储B. 数据处理C. 数据采集D. 资源管理35. 数据挖掘中的“社交网络分析”主要用于什么?A. 分析社交网络数据B. 分类数据C. 聚类数据D. 关联分析36. 下列哪个不是大数据的分析方法?A. 描述性分析B. 预测性分析C. 规范性分析D. 主观性分析37. 在数据挖掘中,GBDT(梯度提升决策树)主要用于什么?A. 数据分类B. 数据聚类C. 数据关联D. 数据回归38. 下列哪个算法是用于社交网络分析的?A. PageRankB. K-MeansC. Naive BayesD. Decision Tree39. 在Hadoop生态系统中,Sqoop的主要作用是什么?A. 数据存储B. 数据处理C. 数据迁移D. 资源管理40. 数据挖掘中的“图像挖掘”主要用于什么?A. 分析图像数据B. 分类数据C. 聚类数据D. 关联分析41. 下列哪个不是大数据的存储技术?A. HDFSB. CassandraC. MySQLD. Amazon DynamoDB42. 在数据挖掘中,CNN(卷积神经网络)主要用于什么?A. 图像识别B. 数据分类C. 数据聚类D. 数据关联43. 下列哪个算法是用于图像挖掘的?A. CNNB. K-MeansC. Naive BayesD. Decision Tree44. 在Hadoop生态系统中,Oozie的主要作用是什么?A. 数据存储B. 数据处理C. 工作流调度D. 资源管理45. 数据挖掘中的“语音识别”主要用于什么?A. 分析语音数据B. 分类数据C. 聚类数据D. 关联分析46. 下列哪个不是大数据的处理技术?A. MapReduceB. SparkC. FlinkD. Docker47. 在数据挖掘中,RNN(循环神经网络)主要用于什么?A. 序列数据分析B. 数据分类C. 数据聚类D. 数据关联48. 下列哪个算法是用于语音识别的?A. RNNB. K-MeansC. Naive BayesD. Decision Tree49. 在Hadoop生态系统中,ZooKeeper的主要作用是什么?A. 数据存储B. 数据处理C. 协调服务D. 资源管理50. 数据挖掘中的“情感分析”主要用于什么?A. 分析文本情感B. 分类数据C. 聚类数据D. 关联分析51. 下列哪个不是大数据的分析平台?A. Google BigQueryB. Amazon RedshiftC. Microsoft Azure SQL DatabaseD. Oracle Database52. 在数据挖掘中,LSTM(长短期记忆网络)主要用于什么?A. 序列数据分析B. 数据分类C. 数据聚类D. 数据关联53. 下列哪个算法是用于情感分析的?A. LSTMB. K-MeansC. Naive BayesD. Decision Tree54. 在Hadoop生态系统中,Kafka的主要作用是什么?A. 数据存储B. 数据处理C. 消息队列D. 资源管理55. 数据挖掘中的“生物信息学分析”主要用于什么?A. 分析生物数据B. 分类数据C. 聚类数据D. 关联分析56. 下列哪个不是大数据的分析技术?A. 数据可视化B. 数据挖掘C. 数据清洗D. 数据加密57. 在数据挖掘中,GAN(生成对抗网络)主要用于什么?A. 数据生成B. 数据分类C. 数据聚类D. 数据关联58. 下列哪个算法是用于生物信息学分析的?A. BLASTB. K-MeansC. Naive BayesD. Decision Tree59. 在Hadoop生态系统中,Mahout的主要作用是什么?A. 数据存储B. 数据处理C. 机器学习D. 资源管理60. 数据挖掘中的“网络安全分析”主要用于什么?A. 分析网络安全数据B. 分类数据C. 聚类数据D. 关联分析61. 下列哪个不是大数据的安全技术?A. 数据加密B. 数据脱敏C. 数据备份D. 数据压缩答案:1. D3. A4. D5. A6. C7. B8. A9. C10. A11. C12. B13. B14. C15. A16. D17. B18. A19. C20. A21. D22. A23. A24. B25. A26. C27. A28. A29. A30. A31. D32. A33. A34. C35. A36. D37. D38. A39. C40. A41. C42. A43. A44. C45. A46. D47. A48. A49. C50. A51. D53. A54. C55. A56. D57. A58. A59. C60. A61. D。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘考试题一.选择题1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( )A.分类B.聚类C.关联分析D.主成分分析2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。
A.MIN(单链)B.MAX(全链)C.组平均D.Ward方法3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。
A 分类B 预测C关联规则分析D聚类4.关于K均值和DBSCAN的比较,以下说法不正确的是( )A.K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。
B.K均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。
C.K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇D.K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇5.下列关于Ward’s Method说法错误的是:( )A.对噪声点和离群点敏感度比较小B.擅长处理球状的簇C.对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差D.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似6.下列关于层次聚类存在的问题说确的是:( )A.具有全局优化目标函数B.Group Average擅长处理球状的簇C.可以处理不同大小簇的能力D.Max对噪声点和离群点很敏感7.下列关于凝聚层次聚类的说法中,说法错误的事:( )A.一旦两个簇合并,该操作就不能撤销B.算法的终止条件是仅剩下一个簇C.空间复杂度为()2m OD.具有全局优化目标函数8.规则{牛奶,尿布}→{啤酒}的支持度和置信度分别为:( )A.0.4,0.4B.0.67,0.67C.0.4,0.67D.0.67,0.49.下列( )是属于分裂层次聚类的方法。
A.MinB.MaxC.Group AverageD.MST10.对下图数据进行凝聚聚类操作,簇间相似度使用MAX计算,第二步是哪两个簇合并:( )A.在{3}和{l,2}合并B.{3}和{4,5}合并C.{2,3}和{4,5}合并D. {2,3}和{4,5}形成簇和{3}合并二.填空题:1.属性包括的四种类型:、、、。
2.是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。
3. 基本凝聚层次聚类算法空间复杂度,时间复杂度,如果某个簇到其他所有簇的距离存放在一个有序表或堆中,层次聚类所需要的时间复杂度将为。
4. 聚类中,定义簇间的相似度的方法有(写出四个):、、、。
5. 层次聚类技术是第二类重要的聚类方法。
两种层次聚类的基本方法:、。
6. 组平均是一种界于和之间的折中方法。
7. 相似度矩阵可以用相识度表示还可以用表示。
8. 全链在处理大小不同的簇时,可能使破裂,并且偏好。
9. 单链技术擅长于处理,但对和很敏感。
10. 聚类分析可以看做是一种的分类。
(有监督、无监督)三.判断题1.从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。
()2.数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。
()3.在聚类分析当中,簇的相似性越大,簇间的差别越大,聚类的效果就越差。
()4.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似。
()5.DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。
()6.属性的性质不必与用来度量他的值的性质相同。
()7.全链对噪声点和离群点很敏感。
()8.对于非对称的属性,只有非零值才是重要的。
()9.K均值可以很好的处理不同密度的数据。
()10.单链技术擅长处理椭圆形状的簇。
()四.综合题1. 何为层次聚类?它用哪两种图表示?2. 两种层次聚类的基本方法?两种方法的定义?3.分别写出Min、Max和组平均的优缺点?4.写出基本凝聚层次聚类的算法?5.由下图已给出的距离矩阵,将Max用于6个点样本数据集,画出层次聚类的树状图?考试题+答案一.选择题1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)A.分类B.聚类C.关联分析D.主成分分析2. (C)将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。
A.MIN(单链)B.MAX(全链)C.组平均D.Ward方法3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了(C )数据挖掘方法。
A 分类B 预测C关联规则分析D聚类4.关于K均值和DBSCAN的比较,以下说法不正确的是(A)A.K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。
B.K均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。
C.K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇D.K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇5.下列关于Ward’s Method说法错误的是:(C)A.对噪声点和离群点敏感度比较小B.擅长处理球状的簇C.对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差D.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似7.下列关于层次聚类存在的问题说确的是:(B)A具有全局优化目标函数B.Group Average擅长处理球状的簇C.可以处理不同大小簇的能力D.Max对噪声点和离群点很敏感7.下列关于凝聚层次聚类的说法中,说法错误的事:(D)A.一旦两个簇合并,该操作就不能撤销B.算法的终止条件是仅剩下一个簇C.空间复杂度为()2m OD.具有全局优化目标函数8.规则{牛奶,尿布}→{啤酒}的支持度和置信度分别为:(C)5 {面包,牛奶,尿布,可乐}A.0.4,0.4B.0.67,0.67C.0.4,0.67D.0.67,0.4 9.下列( D )是属于分裂层次聚类的方法。
A.MinB.MaxC.Group AverageD.MST10.对下图数据进行凝聚聚类操作,簇间相似度使用MAX 计算,第二步是哪两个簇合并:(B )A.在{3}和{l,2}合并B.{3}和{4,5}合并C.{2,3}和{4,5}合并D. {2,3}和{4,5}形成簇和{3}合并二.填空题:1.属性包括的四种类型:标称、序数、区间、比率。
2.组平均是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。
3. 基本凝聚层次聚类算法空间复杂度()2m O ,时间复杂度()3m O ,如果某个簇到其他所有簇的距离存放在一个有序表或堆中,层次聚类所需要的时间复杂度将为()m m O log 2。
4. 聚类中,定义簇间的相似度的方法有(写出四个):MIN (单链)、MAX (全链)、组平均、Ward 方法。
5. 层次聚类技术是第二类重要的聚类方法。
两种层次聚类的基本方法:凝聚层次聚类、分裂层次聚类。
6.组平均是一种界于单链和全链之间的折中方法。
7. 相似度矩阵可以用相识度表示还可以用距离表示。
8. 全链在处理大小不同的簇时,可能使大的簇破裂,并且偏好球形。
9. 单链技术擅长于处理非椭圆形状的簇,但对噪声点和离群点很敏感。
10. 聚类分析可以看做是一种无监督的分类。
(有监督、无监督)三.判断题:1. 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。
(×)2. 数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。
(√)3. 在聚类分析当中,簇的相似性越大,簇间的差别越大,聚类的效果就越差。
(×)4. 当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似。
(√)5. DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。
(√)6. 属性的性质不必与用来度量他的值的性质相同。
(√)7. 全链对噪声点和离群点很敏感。
(×)8. 对于非对称的属性,只有非零值才是重要的。
(√)9. K均值可以很好的处理不同密度的数据。
(×)10.单链技术擅长处理椭圆形状的簇。
(×)四.综合题1. 何为层次聚类?它用哪两种图表示?层次聚类为嵌套簇的聚集,组成一棵层次数。
两种主要图的表示:树状图和嵌套簇图。
2. 两种层次聚类的基本方法?两种方法的定义?凝聚层次聚类和分裂层次聚类凝聚的:从点作为个体簇开始,每一步合并两个最接近的簇。
分裂的:从包含所有点的某个簇开始,每一步分裂一个簇,直到仅剩下单点簇。
3.分别写出Min、Max和组平均的优缺点?4.写出基本凝聚层次聚类的算法?算法步骤:(1)计算邻近度矩阵(2)Repeat(3) 合并最邻近的两个簇(4) 更新邻近度矩阵,以反映新的簇与原来的簇之间的邻近度(5)Until 仅剩下一个簇5.由下图已给出的距离矩阵,将Max用于6个点样本数据集,画出层次聚类的树状图?P1 P2 P3 P4 P5 P6P1 0.00 0.24 0.22 0.37 0.34 0.23P2 0.24 0.00 0.14 0.20 0.13 0.25P3 0.22 0.14 0.00 0.15 0.28 0.11P4 0.37 0.20 0.15 0.00 0.29 0.22P5 0.34 0.13 0.28 0.29 0.00 0.39P6 0.23 0.25 0.11 0.22 0.39 0.00这是告诉你的计算过程,现在不要写了。
P3和P6最近所以36结合,P2和P5较近,所以25结合,现在是{3,6}、{2,5}、{1}和{4},Dist({3,6},{4}) = max(dist(3,4),dist(6,4))= max(0.15,0.22)=0.22Dist({3,6},{2,5}) = max(dist(3,2),dist(6,2),dist(3,5),dist(6,5))=max(0.14,0.25,0.28,0.39)=0.39Dist({3,6},{1})=max(dist(3,1),dist(6,1))=max(0.22,0.23)=0.23所以{3,6}和{4}结合。
实用标准文案现在还剩{3,6,4}、{2,5}和{1}Dist({3,6,4},{2,5})=max(dist(3,2),dist{3,5},dist(6,2),dist(6,5),dist(4,2),dist(4, 5))=max(0.14,0.28,0.25,0.39,0.20,0.29)=0.39Dist({3,6,4},{1})=max(dist(3,1),dist(6,1),dist(4,1))=max(0.22,0.23,0.37)=0.3 7Dist({2,5},{1})=max(dist(2,1),dist(5,1))=max(0.24,0.34)=0.34所以{2,5}和{1}结合Dist({3,6,4},{2,5,1})=0.39精彩文档。