20130928百度2014校园招聘机器学习数据挖掘笔试题

合集下载

数据挖掘考试题

数据挖掘考试题

数据挖掘考试题一.选择题1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( )A.分类B.聚类C.关联分析D.主成分分析2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。

A.MIN(单链)B.MAX(全链)C.组平均D.Ward方法3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。

A 分类B 预测C关联规则分析D聚类4.关于K均值和DBSCAN的比较,以下说法不正确的是( )A.K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。

B.K均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。

C.K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇D.K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇5.下列关于Ward’s Method说法错误的是:( )A.对噪声点和离群点敏感度比较小B.擅长处理球状的簇C.对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差D.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似6.下列关于层次聚类存在的问题说法正确的是:( )A.具有全局优化目标函数B.Group Average擅长处理球状的簇C.可以处理不同大小簇的能力D.Max对噪声点和离群点很敏感7.下列关于凝聚层次聚类的说法中,说法错误的事:( )A.一旦两个簇合并,该操作就不能撤销B.算法的终止条件是仅剩下一个簇C.空间复杂度为()2m OD.具有全局优化目标函数8.规则{牛奶,尿布}→{啤酒}的支持度和置信度分别为:( )TID项集12345{面包,牛奶}{面包,尿布,啤酒,鸡蛋}{牛奶,尿布,啤酒,可乐}{面包,牛奶,尿布,啤酒}{面包,牛奶,尿布,可乐}A.0.4,0.4B.0.67,0.67C.0.4,0.67D.0.67,0.49.下列( )是属于分裂层次聚类的方法。

数据挖掘考试题库

数据挖掘考试题库

3、 名词解释 1. 数据仓库:是一种新的数据处理体系结构,是面向主题的、集
成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数 据集合,为企业决策支持系统提供所需的集成信息。 2. 孤立点:指数据库中包含的一些与数据的一般行为或模型不一 致的异常数据。 3. OLAP:OLAP是在OLTP的基础上发展起来的,以数据仓库为基础 的数据分析处理,是共享多维信息的快速分析,是被专门设计 用于支持复杂的分析操作,侧重对分析人员和高层管理人员的 决策支持。 4. 粒度:指数据仓库的数据单位中保存数据细化或综合程度的级 别。粒度影响存放在数据仓库中的数据量的大小,同时影响数 据仓库所能回答查询问题的细节程度。 5. 数据规范化:指将数据按比例缩放(如更换大单位),使之落入 一个特定的区域(如0-1)以提高数据挖掘效率的方法。规范 化的常用方法有:最大-最小规范化、零-均值规范化、小数 定标规范化。 6. 关联知识:是反映一个事件和其他事件之间依赖或相互关联的 知识。如果两项或多项属性之间存在关联,那么其中一项的属 性值就可以依据其他属性值进行预测。 7. 数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的 数据中,提取隐含在其中的、人们事先不知道的、但又是潜在 有用的信息和知识的过程。 8. OLTP:OLTP为联机事务处理的缩写,OLAP是联机分析处理的缩 写。前者是以数据库为基础的,面对的是操作人员和低层管理 人员,对基本数据进行查询和增、删、改等处理。 9. ROLAP:是基于关系数据库存储方式的,在这种结构中,多维 数据被映像成二维关系表,通常采用星型或雪花型架构,由一 个事实表和多个维度表构成。 10. MOLAP:是基于类似于“超立方”块的OLAP存储结构,由许多 经压缩的、类似于多维数组的对象构成,并带有高度压缩的索 引及指针结构,通过直接偏移计算进行存取。 11. 数据归约:缩小数据的取值范围,使其更适合于数据挖掘算法 的需要,并且能够得到和原始数据相同的分析结果。 12. 广义知识:通过对大量数据的归纳、概括和抽象,提炼出带有 普遍性的、概括性的描述统计的知识。

数据挖掘笔试题

数据挖掘笔试题

数据挖掘算法笔试题目(30分钟)
说明:函数设计题可用任意语言或伪代码完成
1.程序的类名形如RadioAudioTrack,数据库对应的表名形如radio_audio_track,
请设计一个函数,把类名字符串转换成对应表名格式的字符串
d efin
e chage():
2.现在荔枝FM需要保存一批六位数的波段号(100000-999999),运营要求保
留:a.四连号(123478),b.四同号(666678),c.含两组同样格式号码(679067),
d.开头或结尾三同号(879888),
e. 对称号(123321),请估算它们的数量之
和。

6*100*3+10*100*3+100*100+1000*10*2+1000*2=36800
3.现在后台有一批ID和分值的键值对,形如{“11155”:1.3, “77881”:1.4,
“99765”:1.2…},请设计一个函数,要求能以ID对应分值正比的概率随机从这批键值对中取出一个ID。

4.现在有范围a-b之间的连续整数(int),请设计一个函数,从这批连续整数中
随机挑选出不重复的n个数。

数据挖掘 机器学习 考试简答题

数据挖掘 机器学习 考试简答题

1.何谓数据挖掘?它有哪些方面的功能?答:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘;(3分)数据挖掘的功能包括:概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等(3分)2.列举4种监督式学习算法?答:K-近邻算法(k-Nearest Neighbors)(1分)线性回归(Linear Regression)(1分)逻辑回归(Logistic Regression)(1分)支持向量机(1分)(备注:列出任意4种即可得分)3.过拟合问题产生的原因有哪些以及解决过拟合的办法有哪些?答:产生的原因:(1)使用的模型比较复杂,学习能力过强。

(1分)(2)有噪声存在(1分)(3)数据量有限(1分)解决过拟合的办法:(1)提前终止(当验证集上的效果变差的时候)(1分)(2)数据集扩增(1分)(3)寻找最优参数(1分)4.支持向量机有哪些优缺点?答:优势:(1)在高维空间非常高效(1分)(2)即使在数据维度比样本大的情况下仍然有效(1分)(3)在决策函数中使用训练集的子集,因此它也是高效利用内存的(1分) 缺点:(1)如果特征数量比样本数量大得多,在选择核函数时要避免过拟合(1分) (2)支持向量机通过寻找支持向量找到最优分割平面,是典型的二分类问题,因此无法解决多分类问题。

(1分)(3)不直接提供概率估计(1分)5、数据挖掘的两大目标分为预测和描述,监督学习和无监督学习分别对应哪类目标?监督学习和无监督学习的定义是什么?分别从监督类学习和无监督类学习中找一类算法的实例应用进行举例说明。

答:1.监督学习对应预测,无监督学习对应描述2.监督学习:从标记的训练数据来推断一个功能的机器学习任务无监督学习:根据类别未知(没有标记)的训练样本解决模式识别中的各种问题。

3.监督学习举例:分类算法,利用分类算法进行垃圾电子邮件的分类。

数据挖掘考试题库及答案

数据挖掘考试题库及答案

数据挖掘考试题库及答案一、选择题1. 数据挖掘是从大量数据中提取有价值信息的过程,以下哪项不是数据挖掘的主要任务?A. 预测B. 分类C. 聚类D. 数据可视化答案:D2. 以下哪种技术不属于数据挖掘的常用方法?A. 决策树B. 支持向量机C. 关联规则D. 数据仓库答案:D3. 数据挖掘中,以下哪项技术常用于分类和预测?A. 神经网络B. K-均值聚类C. 主成分分析D. 决策树答案:D4. 在数据挖掘中,以下哪个概念表示数据集中的属性?A. 数据项B. 数据记录C. 数据属性D. 数据集答案:C5. 数据挖掘中,以下哪个算法用于求解关联规则?A. Apriori算法B. ID3算法C. K-Means算法D. C4.5算法答案:A二、填空题6. 数据挖掘的目的是从大量数据中提取______信息。

答案:有价值7. 在数据挖掘中,分类任务分为有监督学习和______学习。

答案:无监督8. 决策树是一种用于分类和预测的树形结构,其核心思想是______。

答案:递归划分9. 关联规则挖掘中,支持度表示某个项集在数据集中的出现频率,置信度表示______。

答案:包含项集的记录中同时包含结论的记录的比例10. 数据挖掘中,聚类分析是将数据集划分为若干个______的子集。

答案:相似三、判断题11. 数据挖掘只关注大量数据中的异常值。

()答案:错误12. 数据挖掘是数据仓库的一部分。

()答案:正确13. 决策树算法适用于处理连续属性的分类问题。

()答案:错误14. 数据挖掘中的聚类分析是无监督学习任务。

()答案:正确15. 关联规则挖掘中,支持度越高,关联规则越可靠。

()答案:错误四、简答题16. 简述数据挖掘的主要任务。

答案:数据挖掘的主要任务包括预测、分类、聚类、关联规则挖掘、异常检测等。

17. 简述决策树算法的基本原理。

答案:决策树算法是一种自顶向下的递归划分方法。

它通过选择具有最高信息增益的属性进行划分,将数据集划分为若干个子集,直到满足停止条件。

机器学习与数据挖掘考试试题及答案

机器学习与数据挖掘考试试题及答案

机器学习与数据挖掘考试试题及答案一、选择题1. 以下哪种算法常用于分类问题?A. 线性回归B. 支持向量机C. 聚类分析D. 主成分分析答案:B. 支持向量机2. 数据集划分为训练集和测试集的目的是什么?A. 增加模型的复杂度B. 验证模型的性能C. 加速模型训练过程D. 提高数据的可视化效果答案:B. 验证模型的性能3. 常见的神经网络结构不包括:A. 多层感知器(MLP)B. 卷积神经网络(CNN)C. 循环神经网络(RNN)D. 支持向量机(SVM)答案:D. 支持向量机(SVM)4. 在数据挖掘中,关联规则用来描述:A. 哪些属性是关键属性B. 哪些实例之间存在相似性C. 哪些属性之间存在相关性D. 哪些属性可以被忽略答案:C. 哪些属性之间存在相关性5. 在集成学习中,袋装法(Bagging)常用的基分类器是:A. 决策树B. 朴素贝叶斯C. K近邻D. 支持向量机答案:A. 决策树二、简答题1. 请简要解释什么是过拟合(Overfitting),并提供防止过拟合的方法。

过拟合指的是模型在训练集上表现良好,但在测试集或新数据上表现不佳的现象。

过拟合的原因是模型过度学习了训练集的噪声或细节,将其误认为普遍规律。

防止过拟合的方法包括:- 增加训练数据量,以使模型接触到更多的样本,减少过拟合的可能性。

- 使用正则化技术,如L1正则化或L2正则化,对模型参数进行约束,减小参数的影响。

- 采用特征选择或降维方法,去除冗余或不重要的特征,减少模型在噪声上的过拟合。

- 使用交叉验证技术,将数据集划分为多个训练集和验证集,选择最优模型,降低过拟合的风险。

2. 请简述决策树算法的基本原理,并说明如何进行特征选择。

决策树算法通过构建一棵树形结构来进行分类或回归。

其基本原理是根据属性的划分规则将样本逐步分到不同的节点,直到达到终止条件(如叶子节点纯度满足一定要求或树的深度达到一定限制等)。

特征选择是决策树算法中非常重要的一部分,常用的特征选择方法包括:- 信息增益(Information Gain):选择能够获得最大信息增益的属性作为划分属性。

数据挖掘考试题目 简答题

数据挖掘考试题目简答题数据挖掘考试题目-简答题数据挖掘考试题目――简答题(1)什么就是数据挖掘?什么就是科学知识辨认出?答:数据挖掘是在大型数据存储库中,自动地发现有用的信息的过程。

科学知识辨认出就是将未加工的数据切换为有价值信息的整个过程。

(2)数据挖掘要解决的问题包括哪五项?请问:可以伸缩式、高维性、异种数据和繁杂数据、数据的所有权与原产、非传统的分析。

(3)数据的属性分别包括哪几种类型?分别可执行什么操作?答:标称(nomial)二者异性=和≠序数(ordinal)序、≥区间(interval)乘法+、-比率(ratio)乘法×、÷(4)数据中遗漏值的处理策略包括哪几种?请问:1、删掉数据对象或属性,例如遗漏数据对象很少2、估算遗漏值,例如插值或最近邻法3、在分析时忽略遗漏值,如忽略属性计算相似度(5)数据预处理的工作可以包含哪两类?请问:1、挑选分析所须要的数据对象和属性2、创建或改变属性(6)涌入的目的就是什么?请问:1、数据约减至2、发生改变尺度3、提高数据的稳定性(7)有效率样本的定义就是什么?答:1、如果样本是有代表性的,则使用样本与使用整个数据集的效果几乎一样2、样本具备足够多的代表性的前提就是它对数地具备与原数据集相同的感兴趣的性质(8)维归约的目的是什么?答:1、避免维灾难2、增加数据挖掘算法的时间与空间开支3、易于模型的认知与数据的可视化4、删除无关特征并降低噪声(9)特征子集的挑选方法中,除了基于领域科学知识和穷举法,还包括三种方法?恳请列出并简要说明请问:1、内嵌法:特征子集挑选算法做为数据挖掘算法的一部分自然存有2、过滤法:使用某种独立于数据挖掘任务的方法,在数据挖掘算法运行前进行特征选择3、包装法:将目标数据挖掘算法做为黑盒,采用相似理想算法的方法,但并不枚举所有可能将(10)当满足什么性质时,距离可以称为度量?请问:1、非负性,d(p,q)>=0,当且仅当p=q时d(p,q)=02、对称性,d(p,q)=d(q,p)3、三角不等式:d(p,r)<=d(p,q)+d(q,r)同时满足以上三个性质的距离称为度量。

2013年百度校园招聘笔试题及个人答案

2013年百度校园招聘笔试题及个人答案我不是大神,百度题毕竟比较难,所以写出来只是给刷大公司的人提供一点儿信息以供搜索到。

也可以和爱好编程者相互探讨。

一:简答题(30)1:数据库以及线程发生死锁的原理及必要条件,如何避免死锁(操作系统书上有)2:面向对象的三个基本元素,五个基本原则(继承,封装,多态,基本原则没答上)3:windows内存管理的机制以及优缺点(分页,分段,虚拟内存管理....)二:程序设计题(40)1:公司里面有1001个员工,现在要在公司里面找到最好的羽毛球选手,也就是第一名,每个人都必须参赛,问至少要比赛多少次才能够找到最好的羽毛球员工。

(含伪代码)--------(个人觉得,两两比赛,分成500组剩下一人,类似于归并排序的方式,比出冠军后,让冠军之间再比,主要是要想想多余的那一个选手如何处理,必然要在第一次决出冠军后加入比赛组)2:现在有100个灯泡,每个灯泡都是关着的,第一趟把所有的灯泡灯泡打开,第二趟把偶数位的灯泡制反(也就是开了的关掉,关了的打开),第三趟让第3,6,9....的灯泡制反.......第100趟让第100个灯泡制反,问经过一百趟以后有多少灯泡亮着-----(觉得这个应该是最好做的编程题了,首先定义一个数组vist[100],初始化为0,我们假设已经达到第i个灯泡了,要判断第i个灯泡最后是开着还是灭了的,要要知道它被开关了多少次用temp存放,也就是说是偶数还是奇数,偶数显然最后是关着的,奇数则开着,让i除以比它小的数字,如果余数为0就躺temp++,最后再根据temp的值确定vist[i 是0还是1,最后扫描整个vist数组)3:有20个数组,每个数组有500个元素,并且是有序排列好的,现在在这20*500个数中找出排名前500的数(可以用归并排序,最后找到500个元素的值,也可以这样首先找到每个数组的最大值和最小值,然后存放在一个结构体里面,如果一个数组里面的最小值大于某一个数组的最大值,那么某一个数组就被kill掉,然后提取剩余数组的最大值----当然每个数组的元素放生变化了,因为每次提取走了最大值,然后改变结构体里面的最大值和最小值,重复以上操作,直到找到前五百个数)三:系统设计题(30)现在有一个手机,手机上的键盘上有这样的对应关系,2对应abc ,3对应def .....手机里面有一个userlist用户列表,当我们输入942的时候出来拼音的对应可能是xia ,zha ,xi ,yi 等,当我们输入9264的时候出来是yang,可能是样,杨,往等,现在我们输入一个字符串数字,比如926等,要在电话簿userlist 中查找出对应的用户名和电话号码并返回结果。

数据挖掘工程师招聘笔试题与参考答案(某大型国企)

招聘数据挖掘工程师笔试题与参考答案(某大型国企)(答案在后面)一、单项选择题(本大题有10小题,每小题2分,共20分)1、下列哪种技术是专门用于处理大规模数据集的复杂性分析和模式发现的?A、数据质量管理技术B、数据备份与恢复技术C、机器学习技术D、关系数据库管理技术2、在数据挖掘过程中,以下哪个步骤不属于数据预处理阶段?A、数据清洗B、数据集成C、数据选择D、数据关联3、在数据挖掘中,以下哪项技术不属于数据预处理阶段?A. 数据清洗B. 数据集成C. 数据转换D. 机器学习算法4、在处理高维数据时,以下哪种方法可以有效地减少数据维度?A. 主成分分析(PCA)B. 决策树C. 支持向量机(SVM)D. 聚类算法5、在数据挖掘过程中,利用聚类分析技术,可以将数据集划分成多个组别,使得同一组内的数据相似度更高而不同组间的相似度更低。

以下哪种算法属于聚类算法之一?A、线性回归B、决策树C、K-MeansD、神经网络6、在数据挖掘过程中,关联规则学习主要是用来找出项集之间有趣的关联关系,同时也考虑到规则的 ____ 和 ____ 。

请选择正确的填空项。

A、准确度、覆盖率B、可信度、支持度C、召回率、精度D、覆盖率、支持度7、某大型国企在进行市场分析时,从海量的销售数据中筛选出具有高增长潜力的商品,以下哪种算法最适用于此类场景?A. 决策树B. K-Means聚类C. 主成分分析D. 支持向量机8、在数据挖掘项目中,数据预处理步骤的重要性体现在以下哪个方面?A. 提高算法的效率和准确性B. 减少处理时间和计算资源C. 提高模型的解释性D. 增加模型的复杂性9、题干:在数据挖掘过程中,以下哪种算法适用于处理分类问题?A. 聚类算法B. 关联规则算法C. 聚类算法和关联规则算法都不适用D. 决策树算法 10、题干:以下哪个指标通常用于评估分类模型的性能?A. 精确度B. 召回率C. F1分数D. 以上都是二、多项选择题(本大题有10小题,每小题4分,共40分)1、在数据挖掘中,常见的关联规则挖掘算法有哪些?A. FP-growthB. DBSCANC. AprioriD. K-means2、下列哪些技术可以用来优化数据挖掘中的模型训练?A. DropoutB. Grid SearchC. LassoD. BaggingE. Boosting3、以下哪些算法属于无监督学习算法?()A、决策树B、聚类算法C、K-最近邻D、线性回归4、在数据挖掘过程中,以下哪些技术可以用于数据预处理?()A、数据清洗B、数据集成C、数据变换D、数据归一化5、以下哪些技术或工具是数据挖掘工程师在处理大数据分析时常用的?()A、HadoopB、SparkC、MySQLD、Python6、在数据挖掘项目中,以下哪些步骤是数据预处理阶段必须完成的?()A、数据清洗B、数据集成C、数据变换D、数据归一化E、数据抽样7、以下哪些工具和技术是数据挖掘工程师在处理大规模数据集中常用的?()A、Hadoop和HDFSB、Spark和Spark SQLC、NoSQL数据库(如MongoDB)D、Python的Pandas库E、R语言的ggplot2包8、以下哪些特征是评价一个数据挖掘模型重要性的指标?()A、准确率(Accuracy)B、召回率(Recall)C、F1分数(F1 Score)D、混淆矩阵(Confusion Matrix)E、模型复杂度(Complexity of Model)9、以下哪些技术或工具是数据挖掘工程师在处理数据时常用的?()A、Python的Pandas库B、R语言的ggplot2包C、Hadoop生态系统D、Spark SQLE、MySQL数据库 10、在数据挖掘过程中,以下哪些阶段是必要的?()A、数据预处理B、特征选择C、模型训练D、模型评估E、模型部署三、判断题(本大题有10小题,每小题2分,共20分)1、在数据挖掘中,特征选择(特征筛选)的技术仅包括递归特征消除法(RFE)。

数据挖掘考试题

数据挖掘考试题一.选择题1。

当不知道数据所带标签时,可以使用哪种技术促使带同类标签得数据与带其她标签得数据相分离?( )A.分类B、聚类 C.关联分析D。

主成分分析2. ( )将两个簇得邻近度定义为不同簇得所有点对邻近度得平均值,它就是一种凝聚层次聚类技术。

A。

MIN(单链) B。

MAX(全链) C、组平均 D.Ward方法3、数据挖掘得经典案例“啤酒与尿布试验”最主要就是应用了( )数据挖掘方法、A 分类B 预测C关联规则分析D聚类4。

关于K均值与DBSCAN得比较,以下说法不正确得就是( )A.K均值丢弃被它识别为噪声得对象,而DBSCAN一般聚类所有对象。

B、K均值使用簇得基于原型得概念,DBSCAN使用基于密度得概念。

C。

K均值很难处理非球形得簇与不同大小得簇,DBSCAN可以处理不同大小与不同形状得簇D.K均值可以发现不就是明显分离得簇,即便簇有重叠也可以发现,但就是DBSCAN会合并有重叠得簇5、下列关于Ward'sMethod说法错误得就是:( )A、对噪声点与离群点敏感度比较小B、擅长处理球状得簇C。

对于Ward方法,两个簇得邻近度定义为两个簇合并时导致得平方误差D。

当两个点之间得邻近度取它们之间距离得平方时,Ward方法与组平均非常相似6.下列关于层次聚类存在得问题说法正确得就是:( )A.具有全局优化目标函数B.GroupAverage擅长处理球状得簇C.可以处理不同大小簇得能力D.Max对噪声点与离群点很敏感7。

下列关于凝聚层次聚类得说法中,说法错误得事:( )A。

一旦两个簇合并,该操作就不能撤销B、算法得终止条件就是仅剩下一个簇C.空间复杂度为D。

具有全局优化目标函数8。

规则{牛奶,尿布}→{啤酒}得支持度与置信度分别为:( )TID 项集12345{面包,牛奶}{面包,尿布,啤酒,鸡蛋}{牛奶,尿布,啤酒,可乐}{面包,牛奶,尿布,啤酒}{面包,牛奶,尿布,可乐}A。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、简答题30分
1、静态数据库和动态数据库的优缺点?10分
2、轮询任务调度和抢占式任务调度?10分
3、n折交叉验证的思想?10分
二、算法与程序题45分
1、对一个正整数,找到比它大的最小的不重复数,其中不重复数就是相临的两个数不同,比如1101 是重复数,1231不是重复数?15分
2、很长的一串字符串,求最长回文子串。

15分
3、数组a[0],a[1]…a[n-1]是数轴上从左到右的n个数字点,长为L的绳子最多能覆盖几个点?15分
三、系统设计25分
记不清了!!好像如下:
查询q,将样本分为两类xi和xj两个集合,yi和yj是对应相关函数,yi比yj更相关则记为xi>xj;fi(xi)和fj(xj),定义损失函数为
L=log(1+e^(fj-fi));xi>xj
1,求L关于fj,fi的导数;
2.损失函数的缺陷,重新设计。

相关文档
最新文档