数据挖掘一些面试题总结

合集下载

数据岗位招聘面试题与参考回答(某大型集团公司)

数据岗位招聘面试题与参考回答(某大型集团公司)

招聘数据岗位面试题与参考回答(某大型集团公司)面试问答题(总共10个问题)第一题题目:请简要描述您对数据岗位的理解,以及您认为自己具备哪些与数据岗位相关的技能和经验?答案:1.理解描述:•数据岗位,顾名思义,是指专门负责数据收集、整理、分析、处理和解读的岗位。

它要求从业者不仅要有扎实的数据分析能力,还要具备良好的数据敏感度和逻辑思维能力。

•在我看来,数据岗位不仅仅是简单地处理数据,更是通过数据来发现规律、预测趋势、辅助决策的重要角色。

它需要将数据转化为有价值的信息,从而为企业的战略规划和运营管理提供支持。

2.相关技能和经验:•数据分析技能:熟练掌握Excel、SQL、Python等数据分析工具,能够进行数据清洗、整理、分析和可视化。

•编程能力:具备一定的编程基础,能够使用Python、R等编程语言进行数据挖掘和机器学习。

•统计学知识:了解统计学的基本原理和方法,能够运用统计模型进行数据分析和预测。

•逻辑思维:具备良好的逻辑思维能力,能够从海量数据中提炼出有价值的信息。

•沟通能力:能够清晰、准确地表达分析结果,为决策者提供有针对性的建议。

解析:这道题目考察应聘者对数据岗位的理解程度以及自身技能和经验的匹配度。

在回答时,应聘者应首先阐述自己对数据岗位的理解,然后结合自己的实际情况,详细列举自己具备的相关技能和经验。

以下是一些回答时的注意事项:1.结合自身情况:回答时,要结合自己的实际经验,避免空洞的理论描述。

2.突出重点:在列举技能和经验时,要突出与数据岗位相关的关键能力,如数据分析、编程、统计学等。

3.具体实例:可以结合具体的项目或案例,展示自己运用相关技能解决问题的能力。

4.持续学习:强调自己对于新技能和知识的持续学习态度,以适应不断变化的数据岗位需求。

第二题题目:请描述一下您在数据分析项目中遇到过的一个挑战,以及您是如何解决这个挑战的。

答案:在之前的一个数据分析项目中,我面临的挑战是处理一个包含大量缺失值的数据集。

数据挖掘面试题

数据挖掘面试题

数据挖掘面试题数据挖掘是一门重要的技术领域,其在各个行业中的应用越来越广泛。

作为一名数据挖掘工程师,掌握面试题目相关的知识和技能非常重要。

本文将介绍一些常见的数据挖掘面试题,以帮助读者更好地应对数据挖掘的面试。

一、什么是数据挖掘?数据挖掘是一种通过发现数据中的模式和规律,从而提取有价值的信息和知识的过程。

它涉及到多个领域,包括统计学、机器学习、数据库和人工智能等。

数据挖掘的目标是揭示隐藏在数据背后的信息,帮助企业做出更明智的决策,提高效率和竞争力。

二、数据挖掘的主要任务有哪些?1. 分类(Classification):根据已有的标签或类别将数据实例划分到不同的类别中。

2. 回归(Regression):预测连续变量的值,例如根据历史销售数据预测未来销售额。

3. 聚类(Clustering):将数据分为不同的群组,使得同一组内的数据具有较高的相似性,不同组之间的数据具有较大的差异性。

4. 关联规则挖掘(Association Rule Mining):发现数据集中的频繁项集和关联规则,例如购物篮分析中的商品关联。

5. 异常检测(Anomaly Detection):识别与其他数据实例显著不同的异常值。

三、数据挖掘中常见的算法有哪些?1. 决策树(Decision Tree):通过构建树形结构来进行分类和预测。

2. 支持向量机(Support Vector Machine):将数据映射到高维空间,找到能够将不同类别分开的超平面。

3. 朴素贝叶斯(Naive Bayes):基于贝叶斯定理和特征条件独立性假设,进行分类。

4. 随机森林(Random Forest):使用多个决策树进行分类或回归,并综合它们的结果。

5. 神经网络(Neural Network):通过模拟人脑神经元的连接方式,学习输入和输出之间的模式。

四、数据挖掘的评估指标有哪些?在进行数据挖掘任务时,评估模型的性能至关重要。

常见的评估指标包括:1. 准确率(Accuracy):分类任务中正确预测的样本比例。

数据岗位招聘面试题与参考回答

数据岗位招聘面试题与参考回答

招聘数据岗位面试题与参考回答面试问答题(总共10个问题)第一题题目:请您描述一下您对数据分析师这一岗位的理解,以及您认为作为一名优秀的数据分析师应该具备哪些核心能力?答案:作为一名数据分析师,我认为我的主要职责是从大量数据中提取有价值的信息,通过数据挖掘、统计分析等方法,帮助公司或团队做出更加明智的决策。

以下是我认为优秀的数据分析师应具备的核心能力:1.数据分析技能:熟练掌握至少一种数据分析软件(如Excel、SPSS、R、Python等),能够进行数据清洗、数据预处理、数据分析、数据可视化等工作。

2.统计知识:具备扎实的统计学基础,能够正确运用各种统计方法,如描述性统计、推断性统计、假设检验等。

3.业务理解:对所从事的行业有深入的理解,能够将数据分析与业务需求相结合,提出有针对性的分析建议。

4.沟通能力:能够清晰、准确地表达分析结果,无论是通过书面报告还是口头汇报,都要确保信息传递的有效性。

5.解决问题的能力:面对复杂的问题时,能够运用逻辑思维和创造性思维找到解决方案。

6.持续学习:数据分析和统计方法在不断进步,优秀的数据分析师应具备持续学习的态度,不断更新自己的知识库。

解析:这一题旨在考察应聘者对数据分析师岗位的理解程度,以及对所需能力的自我评估。

优秀的数据分析师不仅需要具备扎实的技术能力,还需要具备良好的业务敏感度和沟通技巧。

答案中提到的各项能力都是数据分析师岗位的关键要求,通过这样的回答,面试官可以初步判断应聘者的专业背景和综合素质。

第二题题目:请描述一下您在过去的工作或项目中,如何处理过一次数据清洗的难题?您遇到了哪些挑战,又是如何克服这些挑战的?答案:在过去的一个项目中,我负责对一家大型电商平台的用户数据进行清洗和分析。

在数据清洗过程中,我遇到了以下挑战:1.数据质量问题:原始数据中存在大量的缺失值、异常值和重复数据。

2.数据格式不一致:不同来源的数据格式不统一,给数据整合带来了困难。

大数据挖掘面试题

大数据挖掘面试题

大数据挖掘面试题在当今信息时代,大数据的崛起为企业提供了强大的竞争优势。

而在大数据应用的背后,大数据挖掘作为一门重要的技术也逐渐受到广泛关注。

针对这一领域的需求,大数据挖掘的面试题也成为各大企业选拔人才的重要环节。

本文将介绍一些常见的大数据挖掘面试题,旨在帮助准备面试的读者了解和熟悉这些问题,并为其提供一些参考答案。

面试题一:请解释什么是大数据挖掘?大数据挖掘是指通过利用大数据技术挖掘数据中隐藏的模式、关联和异常,并用来辅助决策、发现新机会或提供更好的服务。

它主要包括数据预处理、特征提取、模型建立和模型评估等步骤,以帮助企业从海量数据中获取有价值的信息。

面试题二:请描述一下大数据处理的流程?大数据处理的流程主要包括数据采集、数据存储、数据预处理、数据挖掘和结果应用等环节。

具体而言,首先需要从各种数据源采集数据,然后将数据存储在分布式存储系统中。

接下来,需要对数据进行预处理,包括数据清洗、数据集成、数据变换和数据规约等操作。

在完成预处理后,可以使用各种数据挖掘算法对数据进行分析和挖掘,最后将挖掘结果应用到实际业务中。

面试题三:请介绍一下常见的大数据挖掘算法?常见的大数据挖掘算法包括聚类分析、分类分析、关联分析和异常检测等。

聚类分析用于将相似的数据对象分成集合,比如将消费者分为不同的消费群体;分类分析是将数据对象分到预定义的类别中,比如将电子邮件分为垃圾邮件和正常邮件;关联分析则是发现数据集中的关联规则,比如购买尿布的人也可能购买啤酒;异常检测则用于发现与正常模式不符的数据对象,比如信用卡交易中的异常交易。

面试题四:请解释一下什么是数据挖掘模型评估?数据挖掘模型评估是指对已构建的数据挖掘模型进行评估和验证。

其主要包括模型的准确性、稳定性、可解释性和可扩展性等方面的评估。

一般来说,模型的准确性可以通过计算预测值与实际值之间的差异来衡量;稳定性指模型对数据集变化的稳定程度;可解释性指模型对结果的解释能力;可扩展性则指模型对新数据的适应能力和可扩展性。

数据挖掘 算法面试题

数据挖掘 算法面试题

数据挖掘算法面试题一、介绍数据挖掘是一种从大规模数据集中提取出有用模式和信息的技术。

在当今信息爆炸的时代,数据挖掘技术的应用越来越广泛。

在数据科学领域,算法面试题是评估一个数据挖掘工程师技能水平的重要环节。

本篇文章将介绍一些常见的数据挖掘算法面试题,并分享解答思路和算法实现。

二、分类算法面试题1. 决策树决策树是一种常用的分类算法。

面试中,可能会遇到以下问题:面试题1:请解释决策树算法的基本原理。

面试题2:如何选择最佳的划分特征?面试题3:如何处理连续型特征?面试题4:如何处理缺失值?2. 朴素贝叶斯朴素贝叶斯是一种基于贝叶斯定理的简单概率分类器。

面试中,可能会遇到以下问题:面试题1:请解释朴素贝叶斯算法的基本原理。

面试题2:朴素贝叶斯算法的假设是什么?面试题3:如何处理连续型特征?面试题4:如何处理缺失值?3. 支持向量机支持向量机是一种二分类模型,通过构建最优超平面实现分类。

面试中,可能会遇到以下问题:面试题1:请解释支持向量机算法的基本原理。

面试题2:如何处理多类分类问题?面试题3:支持向量机算法是否适用于处理大规模数据集?面试题4:如何处理缺失值?三、聚类算法面试题1. K均值聚类K均值聚类是一种常用的聚类算法。

面试中,可能会遇到以下问题:面试题1:请解释K均值聚类算法的基本原理。

面试题2:如何选择最佳的簇数K?面试题3:K均值聚类算法是否对初始聚类中心敏感?面试题4:如何处理缺失值?2. 层次聚类层次聚类是一种自底向上(或自顶向下)的聚类算法。

面试中,可能会遇到以下问题:面试题1:请解释层次聚类算法的基本原理。

面试题2:如何选择合适的聚类簇数?面试题3:层次聚类算法的时间复杂度如何?面试题4:如何处理缺失值?四、关联规则挖掘面试题1. 频繁项集挖掘频繁项集挖掘是一种用于发现数据集中频繁出现的物品组合的方法。

面试中,可能会遇到以下问题:面试题1:请解释频繁项集挖掘算法的基本原理。

面试题2:如何选择最佳的最小支持度阈值?面试题3:频繁项集挖掘算法的时间复杂度如何?面试题4:如何处理缺失值?2. 关联规则挖掘关联规则挖掘是基于频繁项集的结果,发现物品间的关联关系。

数据挖掘岗面试题目(3篇)

数据挖掘岗面试题目(3篇)

第1篇一、基础知识1. 请简述数据挖掘的基本概念和目的。

2. 请列举数据挖掘的主要应用领域。

3. 请说明数据挖掘的流程和步骤。

4. 请解释什么是数据预处理,其重要性是什么?5. 请列举数据预处理的主要方法。

6. 请解释什么是特征工程,其重要性是什么?7. 请列举特征工程的主要方法。

8. 请解释什么是机器学习,请列举几种常见的机器学习算法。

9. 请解释什么是监督学习、无监督学习和半监督学习。

10. 请解释什么是分类、回归和聚类。

11. 请解释什么是模型评估,请列举几种常见的模型评估指标。

12. 请解释什么是决策树,请列举决策树的分类方法。

13. 请解释什么是随机森林,请列举随机森林的优点。

14. 请解释什么是支持向量机(SVM),请列举SVM的分类方法。

15. 请解释什么是神经网络,请列举神经网络的分类方法。

16. 请解释什么是深度学习,请列举深度学习的应用领域。

17. 请解释什么是K-means算法,请列举K-means算法的优缺点。

18. 请解释什么是层次聚类,请列举层次聚类的分类方法。

19. 请解释什么是关联规则挖掘,请列举关联规则挖掘的算法。

20. 请解释什么是时间序列分析,请列举时间序列分析的方法。

二、编程能力1. 请用Python实现以下功能:(1)读取CSV文件,提取其中指定列的数据;(2)对提取的数据进行排序;(3)将排序后的数据写入新的CSV文件。

2. 请用Python实现以下功能:(1)使用Pandas库对数据集进行数据预处理;(2)使用NumPy库对数据进行特征工程;(3)使用Scikit-learn库对数据进行分类。

3. 请用Python实现以下功能:(1)使用TensorFlow库实现一个简单的神经网络模型;(2)使用PyTorch库实现一个简单的神经网络模型;(3)对模型进行训练和评估。

4. 请用Python实现以下功能:(1)使用Scikit-learn库实现一个SVM分类器;(2)对分类器进行训练和评估;(3)调整SVM分类器的参数,以提高分类效果。

数据挖掘常见面试题与参考答案简析

数据挖掘常见面试题与参考答案简析

数据挖掘常见⾯试题与参考答案简析机器学习⽅⾯:1、⽀撑平⾯-和⽀持向量交互的平⾯,分割平⾯---⽀持平⾯中间⾯也就是最优分类平⾯2、SVM不是定义损失,⽽是定义⽀持向量之间的距离⽬标函数3、正则化参数对⽀持向量数的影响1、LR的形式:h(x)=g(f(x)) 其中x为原数据,f(x)为线性/⾮线性回归得到的值,也叫判定边界 g()为Sigmod函数,最终h(x)输出的范围为(0,1)LR对样本分布敏感LR是loss最优化求出的 NB是跳过统计Loss最优,直接得出权重的 NB⽐LR多了⼀个条件独⽴假设 LR属于判别模型 NB是⽣成模型两者都可以处理⾮线性的问题;LR和SVM最初都是针对⼆分类问题的,SVM最⼤化间隔平⾯,LR极⼤似然估计,SVM只能输出类别,不能输出概率,两者LOSS function 不同,LR的可解释性更强,SVM⾃带有约束的正则化LR只能⽤于处理⼆分类,⽽Sigmod对于所有的输⼊,得到的输出接近0或者 1Sigmod存在的问题,梯度消失、他的输出不是关于原点对称的导致收敛速度⾮常慢,计算⾮常耗时间Tanh激活桉树存在的问题:梯度消失,计算耗时,但是其输出的是中⼼对称的Relu:其输出不关于原点对称:反向传播时,输⼊的神经元⼩于0时,会有梯度消失问题,当x=0是,该点的梯度不存在(没有定义) Relu问题:权重初始化不当,出事学习率设置的⾮常⼤SVM对偶问题的获得⽅法:将原问题的⽬标函数L和约束条件构造拉格朗⽇函数,再对L中原参数和lambda、miu分别求导,并且三种导数都等于0;再将等于0的三个导数带⼊原⽬标函数中,即可获得对偶问题的⽬标函数关系:原问题的最⼤值相对于对偶问题的最⼩值KKT条件是思考如何把约束优化转化为⽆约束优化à进⽽求约束条件的极值点决策树对训练属性有很好的分类能⼒;但对位置的测试数据未必有好的分类能⼒,泛化能⼒弱,即发⽣过拟合防⽌过拟合的⽅法:剪枝(把⼀些相关的属性归为⼀个⼤类,减少决策树的分叉);随机森林L1正则化可以实现稀疏(即截断),使训练得到的权重为0;l1正则会产⽣稀疏解,正则化就是对loss进⾏惩罚(加了正则化项之后,使loss不可能为0,lambda越⼤惩罚越⼤-->lambda较⼩时,约束⼩,可能仍存在过拟合;太⼤时,使loss值集中于正则化的值上)正则化使⽤⽅法:L1/L2/L1+L2如果是离线的话,L1正则可以有稀疏解,batch⼤点应该也有帮助,在线的解决思路有ftrl,rds,robots,还有阿⾥的mlr。

北京数据挖掘面试题目(3篇)

北京数据挖掘面试题目(3篇)

第1篇一、基础知识1. 简述数据挖掘的定义及其主要任务。

数据挖掘是一种跨学科的技术,它结合了统计学、机器学习、数据库、人工智能等领域,旨在从大量数据中提取有价值的信息和知识。

主要任务包括数据预处理、特征选择、模式识别、关联规则挖掘、分类、聚类、预测等。

2. 解释什么是特征工程,并举例说明其在数据挖掘中的作用。

特征工程是数据挖掘过程中的重要步骤,它涉及从原始数据中提取或构造出对挖掘任务有用的特征。

特征工程可以提高模型性能,减少数据冗余,降低计算复杂度。

例如,在文本挖掘中,将文本数据转换为词频向量或TF-IDF向量,有助于模型更好地理解文本内容。

3. 列举三种常用的数据预处理方法,并简要说明其作用。

(1)数据清洗:去除重复数据、处理缺失值、修正错误数据等,提高数据质量。

(2)数据转换:将不同类型的数据转换为同一类型,如将分类数据转换为数值型数据。

(3)数据归一化:将数据缩放到一个特定范围,如[0,1]或[-1,1],便于模型处理。

4. 解释什么是K-最近邻(KNN)算法,并说明其优缺点。

K-最近邻算法是一种简单的分类算法,其基本思想是:如果一个样本在特征空间中的K个最近邻中大多数属于某个类别,则该样本也属于这个类别。

优点是简单易实现,对异常值不敏感;缺点是计算量大,对噪声数据敏感,难以处理高维数据。

5. 简述决策树算法的原理及其在数据挖掘中的应用。

决策树算法是一种基于树的结构来学习数据分类的算法。

其原理是通过一系列的特征选择,将数据集划分成若干个子集,直到满足停止条件。

决策树在数据挖掘中广泛应用于分类、回归和聚类任务。

二、机器学习1. 解释什么是线性回归,并说明其在数据挖掘中的应用。

线性回归是一种预测连续值的算法,其基本思想是找到一个线性模型来描述因变量与自变量之间的关系。

线性回归在数据挖掘中广泛应用于预测股票价格、房屋价格等连续值。

2. 列举三种常用的分类算法,并简要说明其原理。

(1)支持向量机(SVM):通过找到一个最优的超平面,将不同类别的数据分开。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘一些面试题总结(Data Mining)摘录一段企业面对海量数据应如何具体实施数据挖掘,使之转换成可行的结果/模型?首先进行数据的预处理,主要进行数据的清洗,数据清洗,处理空缺值,数据的集成,数据的变换和数据规约。

请列举您使用过的各种数据仓库工具软件(包括建模工具,ETL工具,前端展现工具,OLAP Server、数据库、数据挖掘工具)和熟悉程度。

ETL工具:Ascential DataStage ,IBM warehouse MANAGER、Informatica公司的PowerCenter、Cognos 公司的DecisionStream市场上的主流数据仓库存储层软件有:SQL SERVER、SYBASE、ORACLE、DB2、TERADATA 请谈一下你对元数据管理在数据仓库中的运用的理解。

元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。

具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。

数据挖掘对聚类的数据要求是什么?(1)可伸缩性(2)处理不同类型属性的能力(3)发现任意形状的聚类(4)使输入参数的领域知识最小化(5)处理噪声数据的能力(6)对于输入顺序不敏感(7)高维性(8)基于约束的聚类(9)可解释性和可利用性简述Apriori算法的思想,谈谈该算法的应用领域并举例。

思想:其发现关联规则分两步,第一是通过迭代,检索出数据源中所有烦琐项集,即支持度不低于用户设定的阀值的项即集,第二是利用第一步中检索出的烦琐项集构造出满足用户最小信任度的规则,其中,第一步即挖掘出所有频繁项集是该算法的核心,也占整个算法工作量的大部分。

在商务、金融、保险等领域皆有应用。

在建筑陶瓷行业中的交叉销售应用,主要采用了Apriori 算法通过阅读该文挡,请同学们分析一下数据挖掘在电子商务领域的应用情况(请深入分析并给出实例,切忌泛泛而谈)?单选题1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。

(b)描述有多少比例的小偷给警察抓了的标准。

A. Precision, RecallB. Recall, PrecisionA. Precision, ROC D. Recall, ROC3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)A. 分类B. 聚类C. 关联分析D. 隐马尔可夫链5. 什么是KDD? (A)A. 数据挖掘与知识发现B. 领域知识发现C. 文档知识发现D. 动态知识发现6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则11.下面哪种不属于数据预处理的方法? (D)A变量代换 B离散化 C 聚集 D 估计遗漏值12. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。

等频(等深)划分时,15在第几个箱子内? (B)A 第一个B 第二个C 第三个D 第四个13.上题中,等宽划分时(宽度为50),15又在哪个箱子里? (A)A 第一个B 第二个C 第三个D 第四个14.下面哪个不属于数据的属性类型:(D)A 标称B 序数C 区间 D相异15. 在上题中,属于定量的属性类型是:(C)A 标称B 序数 C区间 D 相异16. 只有非零值才重要的二元属性被称作:( C )A 计数属性B 离散属性 C非对称的二元属性 D 对称属性17. 以下哪种方法不属于特征选择的标准方法: (D)A嵌入 B 过滤 C 包装 D 抽样18.下面不属于创建新属性的相关方法的是: (B)A特征提取 B特征修改 C映射数据到新的空间 D特征构造19. 考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是 (C)A 2B 3C 3.5D 520. 下面哪个属于映射数据到新的空间的方法? (A)A 傅立叶变换 B特征加权 C 渐进抽样 D维归约21. 熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是: (B)A 1比特B 2.6比特C 3.2比特D 3.8比特22. 假设属性income的最大最小值分别是12000元和98000元。

利用最大最小规范化的方法将属性的值映射到0至1的范围内。

对属性income的73600元将被转化为:(D)A 0.821B 1.224C 1.458D 0.71623.假定用于分析的数据包含属性age。

数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。

第二个箱子值为:(A)A 18.3B 22.6C 26.8D 27.924. 考虑值集{12 24 332 4 55 68 26},其四分位数极差是:(A)A 31B 24C 55D 325. 一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。

则年级属性的众数是: (A)A 一年级 B二年级 C 三年级 D 四年级26. 下列哪个不是专门用于可视化时间空间数据的技术: (B)A 等高线图 B饼图 C 曲面图 D 矢量场图27. 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: (D)A 有放回的简单随机抽样 B无放回的简单随机抽样 C分层抽样 D 渐进抽样28. 数据仓库是随着时间变化的,下面的描述不正确的是 (C)A. 数据仓库随时间的变化不断增加新的数据内容;B. 捕捉到的新数据会覆盖原来的快照;C. 数据仓库随事件变化不断删去旧的数据内容;D. 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合.29. 关于基本数据的元数据是指:(D)A. 基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B. 基本元数据包括与企业相关的管理方面的数据和信息;C. 基本元数据包括日志文件和简历执行处理的时序调度信息;D. 基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息.30. 下面关于数据粒度的描述不正确的是: (C)A. 粒度是指数据仓库小数据单元的详细程度和级别;B. 数据越详细,粒度就越小,级别也就越高;C. 数据综合度越高,粒度也就越大,级别也就越高;D. 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量.31. 有关数据仓库的开发特点,不正确的描述是: (A)A. 数据仓库开发要从数据出发;B. 数据仓库使用的需求在开发出去就要明确;C. 数据仓库的开发是一个不断循环的过程,是启发式的开发;D. 在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式32. 在有关数据仓库测试,下列说法不正确的是: (D)A. 在完成数据仓库的实施过程中,需要对数据仓库进行各种测试.测试工作中要包括单元测试和系统测试.B. 当数据仓库的每个单独组件完成后,就需要对他们进行单元测试.C. 系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试.D. 在测试之前没必要制定详细的测试计划.33. OLAP技术的核心是: (D)A. 在线性;B. 对用户的快速响应;C. 互操作性.D. 多维分析;34. 关于OLAP的特性,下面正确的是: (D)(1)快速性 (2)可分析性 (3)多维性 (4)信息性 (5)共享性A. (1) (2) (3)B. (2) (3) (4)C. (1) (2) (3) (4)D. (1) (2) (3) (4) (5)35. 关于OLAP和OLTP的区别描述,不正确的是: (C)A. OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同.B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.C. OLAP的特点在于事务量大,但事务内容比较简单且重复率高.D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的.36. OLAM技术一般简称为”数据联机分析挖掘”,下面说法正确的是: (D)A. OLAP和OLAM都基于客户机/服务器模式,只有后者有与用户的交互性;B. 由于OLAM的立方体和用于OLAP的立方体有本质的区别.C. 基于WEB的OLAM是WEB技术与OLAM技术的结合.D. OLAM服务器通过用户图形借口接收用户的分析指令,在元数据的知道下,对超级立方体作一定的操作.37. 关于OLAP和OLTP的说法,下列不正确的是: (A)A. OLAP事务量大,但事务内容比较简单且重复率高.B. OLAP的最终数据来源与OLTP不一样.C. OLTP面对的是决策人员和高层管理人员.D. OLTP以应用为核心,是应用驱动的.38. 设X={1,2,3}是频繁项集,则可由X产生__(C)__个关联规则。

A、4B、5C、6D、740. 概念分层图是__(B)__图。

A、无向无环B、有向无环C、有向有环D、无向有环41. 频繁项集、频繁闭项集、最大频繁项集之间的关系是: (C)A、频繁项集频繁闭项集 =最大频繁项集B、频繁项集 = 频繁闭项集最大频繁项集C、频繁项集频繁闭项集最大频繁项集D、频繁项集 = 频繁闭项集 = 最大频繁项集42. 考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含(C)A、1,2,3,4B、1,2,3,5C、1,2,4,5D、1,3,4,543.下面选项中t不是s的子序列的是 ( C )A、s=<{2,4},{3,5,6},{8}>t=<{2},{3,6},{8}>B、s=<{2,4},{3,5,6},{8}>t=<{2},{8}>C、s=<{1,2},{3,4}>t=<{1},{2}>D、s=<{2,4},{2,4}>t=<{2},{4}>44. 在图集合中发现一组公共子结构,这样的任务称为 ( B )A、频繁子集挖掘B、频繁子图挖掘C、频繁数据项挖掘D、频繁模式挖掘45. 下列度量不具有反演性的是(D)A、系数B、几率C、Cohen度量D、兴趣因子46. 下列__(A)__不是将主观信息加入到模式发现任务中的方法。

相关文档
最新文档