大数据应知应会试题及答案
大数据知识竞赛试题

大数据知识竞赛试题学院队名一、单选题(每题1分)1、小米摄像头记录下来的10分钟视频属于哪类数据:A、结构化数据B、半结构化数据C、非结构化数据2、结构化数据具备哪种特征:A、具备明确逻辑关系B、不具备明确逻辑关系C、不一定具备明确逻辑关系3、指纹打卡的数据属于哪些数据:A、传感数据B、交互数据C、交易数据4、大数据擅长处理哪个级别的数据?A、MBB、GBC、TBD、PB5、电子邮件是什么类型数据:A、非结构化数据B、结构化数据C、半结构化数据6、网络新闻是什么类型数据:A、非结构化数据B、结构化数据C、半结构化数据7、下列属于结构化数据的是:A、图片B、一卡通学生信息C、简历8、表1属于几维列表?姓名性别学号年级成绩张三男2016130133 2016 80 李四女2016131038 2016 60表1A、二维B、三维C、四维D、五维9、图1中的警衔级别属于哪种属性?图1A、标称属性B、二元属性C、序数属性D、数值属性10、关系型数据库中所谓的“关系”是指什么A、数据库中的数据彼此间存在任意关联B、数据模型满足一定条件的二维表格式C、两个数据库之间有一定的关联11、下列哪种数据类型不适合MySQL存储:A、EXCEL报表B、图片和声音C、数据库里的财务数据12、以下不属于ACID原则的是:A、原子性B、相对性C、隔离性D、持久性13、淘宝自主设计的自动化分布式存储系统是:A、MongoDBB、HBaseC、Oceanbase14、BeansDB 是一个由我国哪个公司网站自主开发的:A、淘宝B、豆瓣社区C、优酷D、视觉中国15、下列不是NewSQL数据库的是:A、SybaseB、MemSQLC、TokuDB16、下列不是NoSQL数据库的是:A、BigtableB、DynamoC、DB217、下列不是传统关系型数据库的是:A、MySQLB、HBaseC、Sybase18、下面关于数据挖掘的说法哪些是错误的:A、数据挖掘涉及数据融合、数据分析和决策分析和决策支持等内容B、数据源必须是真实的、大量的、含有噪声的和用户感兴趣的数据C、所有发现的知识都是绝对的19、下列不属于数据挖掘知识的方法A、数学方法B、归纳方法C、实验方法20、一般情况下,舆情监测内容不包含:A、对主流门户网站、国内外主流论坛、主流媒体、主流搜索引擎等站点进行全景扫描B、对单位相关刑事、民事、行政案件与信息进行全面收集、精确分析、清晰归类和个性统计C、对个人或家成员庭银行帐户及个人财产情况进行全面收集、分析和统计21、科学可视化、信息可视化和可视分析三者之间如何区分:A、三者从属关系B、三者属于递进关系C、三者之间没有清晰边界22、下列哪个不属于可视化的作用:A、信息传播与协调B、支持对信息的推理和分析C、对信息进行筛选和储存23、下图为百度地图显示某地区的加油站,此图为哪类可视化:A、层次与网络可视化B、时空数据可视化C、多变量数据可视化24、下图为伦敦地铁图,此图为哪类可视化:A、层次与网络可视化B、时空数据可视化C、多变量数据可视化25、下图为大数据标签云,此图为哪类可视化:A、多变量数据可视化B、时空数据可视化C、非结构化数据可视化26、目前在全球云计算市场份额占有率最高的公司是:A、谷歌B、亚马逊C、微软D、IBM27、在大数据背景下,电子商务的价值创造方式呈现出新的变化,下列说法错误的是:A、电子商务营销精准化和实时化B、产品和服务高度差异化和个性化C、价值链上企业运作差异化和静态化D、新型增值服务模式不断涌现28、下列哪个不是大数据下互联网广告的特点A、广告内容更有针对性B、提高广告决策效率C、广告以平面媒体为主D、广告传播模式的改变29、微信朋友圈的FEED流广告的推广更为准确描述是:A、大数据会使受众与产品的距离更贴近B、对于目标受众的划分更加精细C、大数据最本质的应用就在于预测D、随意投放的广告30、啤酒与尿布的营销案例应用了零售行业的哪种方法:A、发现关联购买行为B、客户群体细分C、供应链管理二、多选题(每题2分)1.Hadoop1.0平台最核心的两个项目(组件)是:A、HDFSB、HIVEC、HBaseD、MapReduce2.以下平台属于Apache软件基金会项目的是:A、HadoopB、SparkC、StormD、MongoDB3.以下属于大数据挖掘算法的是:A、决策树B、支持向量机C、极差规格化D、朴素贝叶斯4.以下属于Spark平台特点的是:A、共享变量B、离线处理C、内存计算D、弹性分布式数据集5.在分布式云计算平台中,分布式文件系统的块文件的大小可以是:A、28MB、64MC、100MD、128M三、判断题(每题1分)1.Newsql是一种新兴的非关系型数据库。
2024四川继续教育公需科目应知应会考试题及答案

2024四川继续教育公需科目应知应会考试题及答案学校:________班级:________姓名:________考号:________一、单选题(20题)1.长三角一体化发展的规划中,以()等地区为中国自由贸易试验区新片区,打造与国际通行规则相衔接、更具国际市场影响力和竞争力的特殊经济功能区。
A.江苏无锡B.上海临港C.浙江嘉兴D.安徽池州2.根据《关于深化人才发展体制机制改革的意见》,“打破户籍、地域、身份、学历、人事关系等制约”属于()方面的措施内容。
A.健全人才顺畅流动机制B.创新人才评价机制C.强化人才创新创业激励机制D.改进人才培养支持机制3.“四个面向”不包括()。
A.面向世界科技前沿B.面向文化主战场C.面向国家重大需求D.面向人民生命健康4.()是一个经济学概念,对数据要素市场相对准确、清晰的认识和界定,是探索和培育数据要素市场模式和方向的重要前提,也是值得各界商榷的难点所在。
A.数据要素B.数据资源C.数据资产D.数据要素市场5.()是载荷或记录信息的按一定规则排列组合的物理符号的集合。
可以是数字、文字、图像,也可以是计算机代码的集合A.数据要素B.数据资源C.数据资产D.数据要素市场6.我们的目标是:到2025年,在()领域拥有一大批战略科技人才、一流科技领军人才和创新团队。
A.技术创新B.基础研究C.关键核心技术D.战略科技创新7.作品完毕()年内,未经单位批准,作者不得许可第三人以与单位使用的相同方式使用该作品。
A.1.0B.2.0C.3.0D.4.08.著作权的保护期规定自然人死后()年A.10.0B.30.0C.50.0D.100.09.广西深入实施()战略,开展增品种提品质创品牌专项行动,为全国市场提供更加多样、更高品质的供给。
①质量强桂;②品牌强桂;③产量强桂;④创意强桂。
A.①②B.①②③C.①②③④D.②④10.加快建设世界重要人才中心和创新高地,促进人才区域合理布局和()发展,着力形成人才国际竞争的比较优势。
2024年度北京继续教育公需科目应知应会题及答案

2024年度北京继续教育公需科目应知应会题及答案学校:________班级:________姓名:________考号:________一、单选题(20题)1.大数据“4V”特征中()是表示数据量大A.规模性B.多样性C.价值性D.高速性2.《关于充分发挥市场作用促进人才顺畅有序流动的意见》提出,把()和社会组织人才开发纳入各级政府人才发展规划,一视同仁、平等对待。
A.公有制经济组织B.非公有制经济组织C.中外合资经济组织D.外资经济组织3.从2009年云计算进入中国以来,我国云计算发展过程经历了()个阶段A.2B.3C.4D.54.加快建设世界重要人才中心和创新高地,促进人才区域合理布局和()发展,着力形成人才国际竞争的比较优势。
A.均衡B.协调C.高速D.平稳5.(),通俗地说就是数据的中心A.大数据B.数据中心C.物联网D.工业互联网6.改变作品,创作出具有()的新作品的权利?A.独占性B.非独占性C.独创性D.非独创性7.《关于支持和鼓励事业单位专业技术人员创新创业的指导意见》提出,在事业单位设置(),有助于充分发挥高校、科研院所等事业单位人力资源和技术资源优势,加快推动科技创新。
A.流动岗位B.技术岗位C.管理岗位D.创新岗位8.著作权中的领接权不涉及?()A.表演者权者权B.录制者权C.广播者权D.著作财产权9.完善党委统一领导,组织部门牵头抓总,职能部门各司其职、密切配合,社会力量广泛参与的()A.引进B.人才发展格局C.人才工作格局D.人才管理格局10.我国目前较成熟的云计算行业中的()已完成了对全国31个省级行政区的覆盖,帮助增加政府服务便利性,降低运行成本A.政务云B.金融云C.交通云D.能源云11.单位或个人接受其他单位或个人委托所完毕的发明发明,若没关于专利权归属的协议,则申请专利权的权利属于()。
A.委托人B.受托人C.委托人和受托人D.双方均不能申请专利12.《长江三角洲区域一体化发展规划纲要》中指出,到2025年,高技术产业产值占规模以上工业总产值比重达到()。
大数据前沿知识复试题及答案

大数据前沿知识复试题及答案一、选择题1. 大数据的4V特性指的是()A. Volume, Velocity, Variety, VeracityB. Volume, Velocity, Variety, ValueC. Volume, Velocity, Veracity, ValueD. Variety, Velocity, Value, Veracity答案:B2. 在大数据处理中,Hadoop的核心组件是()A. MapReduceB. SparkC. HiveD. HBase答案:A3. 下列哪个不是NoSQL数据库的特点?()A. 非结构化数据存储B. 高性能C. 易扩展性D. 固定模式答案:D二、简答题1. 简述大数据技术在商业智能中的应用。
答:大数据技术在商业智能中的应用主要体现在以下几个方面:- 用户行为分析:通过分析用户的行为数据,企业可以更好地了解用户需求,优化产品和服务。
- 市场趋势预测:利用大数据分析工具,企业可以预测市场趋势,制定更有效的市场策略。
- 风险管理:大数据分析有助于企业识别潜在风险,及时采取措施进行规避。
- 供应链优化:通过分析供应链数据,企业可以优化库存管理,降低成本。
2. 描述Hadoop和Spark在大数据处理中的主要区别。
答:Hadoop和Spark都是大数据处理框架,它们的主要区别包括: - 处理速度:Spark比Hadoop的MapReduce更快,因为它采用了内存计算技术。
- 易用性:Spark提供了更丰富的API,支持多种编程语言,使用起来更加方便。
- 数据处理方式:Hadoop采用批处理方式,而Spark支持流处理,可以处理实时数据。
三、论述题1. 论述大数据在医疗健康领域的应用及其潜在的伦理问题。
答:大数据在医疗健康领域的应用包括:- 疾病预测:通过分析患者的医疗记录和生活习惯,预测疾病的发生。
- 个性化治疗:利用患者的遗传信息和医疗数据,提供个性化的治疗方案。
2020年智慧树知道网课《大数据分析及应用》课后章节测试满分答案

第一章测试1【单选题】(2分)大数据的英文描述是()A.HeavydataB.LargedataC.GreatdataD.Bigdata2【单选题】(2分)下面最大的储存单位是()A.KBB.TBC.GBD.PB3【单选题】(2分)大数据之父是()A.詹姆斯·高斯林B.姚期智C.查尔斯·巴赫曼D.维克托·迈尔-舍恩伯格4【多选题】(2分)大数据的特点包括()A.VelocityB.ValueC.VolumeD.Variety5【多选题】(2分)第一次正式提出大数据概念和第一次用社会调查的方式分析大数据对人们生活影响的期刊是()和()A.PNASB.ScienceC.NatureD.Cell6【判断题】(2分)大数据是只和互联网相关的计算机技术。
A.错B.对7【判断题】(2分)企业中大部分的数据都是非结构化数据。
A.错B.对8【判断题】(2分)大数据技术的基础是由阿里巴巴首先提出的。
A.错B.对9【判断题】(2分)大数据人才需要数学、统计学、数学分析、商业分析和自然语言处理的多方面的学习。
A.对B.错10【判断题】(2分)大数据对网络安全没有威胁。
A.对B.错第二章测试1【单选题】(2分)目前,企业的数据架构存在的最大比例问题是()A.运营成本高B.拓展性差C.高耗能D.资源利用率低2【判断题】(2分)目前,企业数据分析处理面临的主要问题是缺少数据全方位分析方法。
A.对B.错3【单选题】(2分)地图导航根据以往的行程记录,绘制了最优路程,标明了可能堵车的地点,这表现了大数据分析理念中的()A.注重全体而不是局部B.注重相关性而不是因果性C.注重效率而不是准确D.注重相对性而不是绝对性4【单选题】(2分)最早提出大数据研发计划的国家是()A.中国B.美国C.法国D.日本5【多选题】(2分)大数据可能被运用的行业有()A.金融B.农业C.医疗D.教育6【判断题】(2分)2015年9月18日云南省启动我国首个大数据综合试验区的建设工作。
大数据知识竞赛试题

大数据知识竞赛试题学院队名一、单选题(每题1分)1、小米摄像头记录下来的10分钟视频属于哪类数据:A、结构化数据B、半结构化数据C、非结构化数据2、结构化数据具备哪种特征:A、具备明确逻辑关系B、不具备明确逻辑关系C、不一定具备明确逻辑关系3、指纹打卡的数据属于哪些数据:A、传感数据B、交互数据C、交易数据4、大数据擅长处理哪个级别的数据?A、MBB、GBC、TBD、PB5、电子邮件是什么类型数据:A、非结构化数据B、结构化数据C、半结构化数据6、网络新闻是什么类型数据:A、非结构化数据B、结构化数据C、半结构化数据7、下列属于结构化数据的是:A、图片B、一卡通学生信息C、简历8、表1属于几维列表?姓名性别学号年级成绩张三男2016130133 2016 80 李四女2016131038 2016 60表1A、二维B、三维C、四维D、五维9、图1中的警衔级别属于哪种属性?图1A、标称属性B、二元属性C、序数属性D、数值属性10、关系型数据库中所谓的“关系”是指什么A、数据库中的数据彼此间存在任意关联B、数据模型满足一定条件的二维表格式C、两个数据库之间有一定的关联11、下列哪种数据类型不适合MySQL存储:A、EXCEL报表B、图片和声音C、数据库里的财务数据12、以下不属于ACID原则的是:A、原子性B、相对性C、隔离性D、持久性13、淘宝自主设计的自动化分布式存储系统是:A、MongoDBB、HBaseC、Oceanbase14、BeansDB 是一个由我国哪个公司网站自主开发的:A、淘宝B、豆瓣社区C、优酷D、视觉中国15、下列不是NewSQL数据库的是:A、SybaseB、MemSQLC、TokuDB16、下列不是NoSQL数据库的是:A、BigtableB、DynamoC、DB217、下列不是传统关系型数据库的是:A、MySQLB、HBaseC、Sybase18、下面关于数据挖掘的说法哪些是错误的:A、数据挖掘涉及数据融合、数据分析和决策分析和决策支持等内容B、数据源必须是真实的、大量的、含有噪声的和用户感兴趣的数据C、所有发现的知识都是绝对的19、下列不属于数据挖掘知识的方法A、数学方法B、归纳方法C、实验方法20、一般情况下,舆情监测内容不包含:A、对主流门户网站、国内外主流论坛、主流媒体、主流搜索引擎等站点进行全景扫描B、对单位相关刑事、民事、行政案件与信息进行全面收集、精确分析、清晰归类和个性统计C、对个人或家成员庭银行帐户及个人财产情况进行全面收集、分析和统计21、科学可视化、信息可视化和可视分析三者之间如何区分:A、三者从属关系B、三者属于递进关系C、三者之间没有清晰边界22、下列哪个不属于可视化的作用:A、信息传播与协调B、支持对信息的推理和分析C、对信息进行筛选和储存23、下图为百度地图显示某地区的加油站,此图为哪类可视化:A、层次与网络可视化B、时空数据可视化C、多变量数据可视化24、下图为伦敦地铁图,此图为哪类可视化:A、层次与网络可视化B、时空数据可视化C、多变量数据可视化25、下图为大数据标签云,此图为哪类可视化:A、多变量数据可视化B、时空数据可视化C、非结构化数据可视化26、目前在全球云计算市场份额占有率最高的公司是:A、谷歌B、亚马逊C、微软D、IBM27、在大数据背景下,电子商务的价值创造方式呈现出新的变化,下列说法错误的是:A、电子商务营销精准化和实时化B、产品和服务高度差异化和个性化C、价值链上企业运作差异化和静态化D、新型增值服务模式不断涌现28、下列哪个不是大数据下互联网广告的特点A、广告内容更有针对性B、提高广告决策效率C、广告以平面媒体为主D、广告传播模式的改变29、微信朋友圈的FEED流广告的推广更为准确描述是:A、大数据会使受众与产品的距离更贴近B、对于目标受众的划分更加精细C、大数据最本质的应用就在于预测D、随意投放的广告30、啤酒与尿布的营销案例应用了零售行业的哪种方法:A、发现关联购买行为B、客户群体细分C、供应链管理二、多选题(每题2分)1.Hadoop1.0平台最核心的两个项目(组件)是:A、HDFSB、HIVEC、HBaseD、MapReduce2.以下平台属于Apache软件基金会项目的是:A、HadoopB、SparkC、StormD、MongoDB3.以下属于大数据挖掘算法的是:A、决策树B、支持向量机C、极差规格化D、朴素贝叶斯4.以下属于Spark平台特点的是:A、共享变量B、离线处理C、内存计算D、弹性分布式数据集5.在分布式云计算平台中,分布式文件系统的块文件的大小可以是:A、28MB、64MC、100MD、128M三、判断题(每题1分)1.Newsql是一种新兴的非关系型数据库。
2024继续教育公需科目应知应会题库及答案

2024继续教育公需科目应知应会题库及答案学校:班级:姓名:考号:一、单选题(20题)1.()“大数据“第一次写入政府工作报告,标志着我国对大数据产业顶层设计的开始A.2014年B.2015年C.2016年D.2017年2.下列选项中仅属于对自然规律结识的是()。
A.科学发现B.产品发明C.方法发明D.实用新型3.著作权中的领接权不涉及?()A.表演者权者权B.录制者权C.广播者权D.著作财产权4.《世界知识产权组织成立公约》第二条第八项不涉及其中哪一项?OA.文学、艺术和科学作品B.人类一切活动领域的发明C.表演艺术家的表演以及唱片和广播节目D.天气预报5.完善党委统一领导,组织部门牵头抓总,职能部门各司其职、密切配合,社会力量广泛参与的0A.引进B.人才发展格局C.人才工作格局D.人才管理格局6.我国数据要素市场发展的现状在0,以联邦学习、安全多方计算、数据沙箱为主的新技术不断助力我国数据要素市场发展。
A.技术融合层面B.区域发展层面C.技术发展层面D.区域融合层面7.瞄准东盟市场需求,强化与大湾区产业链上下游深度对接和分工协作,加快构建()跨区域跨境产业链供应链。
A.“两国双园”B.“北部湾经济区“粤港澳大湾区一北部湾经济区一东盟”D.粤港澳大湾区8.2021年9月27日至28日中央人才工作会议在0召开。
A.北京B.上海C.武汉D.广州9.知识产权法的表现形式不涉及?()A.宪法B.法律C.道德D.国际条约1。
.做好人才工作必须坚持(),不断加强和改进知识分子工作,鼓励人才深怀爱国之心、砥砺报国之志,主动担负起时代赋予的使命责任。
A.正确政治方向B.正确思想路线C.经济效益导向D.科研成果导向11.电影作品和以类似摄制电影的方法创作的作品、摄影作品,其发表权、著作财产权的权利的保护期为O年。
A.30.0B.40.0C.50.0D.60.012.()年12月1日,国务院正式印发《长江三角洲区域一体化发展规划纲要》。
2024年大数据应用及处理技术能力知识考试题库与答案

2024年大数据应用及处理技术能力知识考试题库与答案一、单选题1.当图像通过信道传输时,噪声一般与()无关。
A、信道传输的质量B、出现的图像信号C、是否有中转信道的过程D、图像在信道前后的处理参考答案:B2.在留出法、交叉验证法和自助法三种评估方法中,()更适用于数据集较小、难以划分训练集和测试集的情况。
A、留出法B、交叉验证法C、自助法D、留一法参考答案:C3.在数据科学中,通常可以采用()方法有效避免数据加工和数据备份的偏见。
A、A/B测试B、训练集和测试集的划分C、测试集和验证集的划分D、图灵测试参考答案:A4.下列不属于深度学习内容的是(_)oA、深度置信网络B、受限玻尔兹曼机C、卷积神经网络D、贝叶斯学习参考答案:D5.在大数据项目中,哪个阶段可能涉及使用数据工程师来优化数据查询性能?A、数据采集B、数据清洗C、数据存储与管理D、数据分析与可视化参考答案:C6.假定你现在训练了一个线性SVM并推断出这个模型出现了欠拟合现象,在下一次训练时,应该采取下列什么措施()A、增加数据点B、减少数据点C、增加特征D、减少特征参考答案:C7.两个变量相关,它们的相关系数r可能为0?这句话是否正确0A、正确B、错误参考答案:A8.一幅数字图像是()。
A、一个观测系统B、一个由许多像素排列而成的实体C、一个2-D数组中的元素D、一个3-D空间中的场景参考答案:C9.以下说法正确的是:()。
一个机器学习模型,如果有较高准确率,总是说明这个分类器是好的如果增加模型复杂度,那么模型的测试错误率总是会降低如果增加模型复杂度,那么模型的训练错误率总是会降低A、1B、2C、3D、land3参考答案:c10.从网络的原理上来看,结构最复杂的神经网络是0。
A、卷积神经网络B、长短时记忆神经网络C、GRUD、BP神经网络参考答案:B11.LSTM中,(_)的作用是确定哪些新的信息留在细胞状态中,并更新细胞状态。
A、输入门B、遗忘门G输出门D、更新门参考答案:A12.Matplotiib的核心是面向()。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据应知应会试题及答案一、大数据(单选)I、题目:大数据是指不用随机分析法这样的捷径,而采用0的方法[单选题]*A.所有数据(正确答案B.绝大部分数据C.适量数据D.少量数据2、题目:大数据环境下的隐私担忧,主要表现为0 [单选题]*A.个人信息的被识别与暴露三礁答案)B.用户画像的生成C.恶意广告的推送D.病毒入侵3、题目:大数据基于云计算进行数据的分析,那么云计算按照提供的服务类型进行分类,包括laaS、PaaS、()[单选题]*A.XenB.SaaSiIE 确答案.)C.KVMD.Docker4、题目:以下哪个不是海量大数据的常用处理工具()[单选题1*B.Excel正确答案)C.SparkD.Hive 5、题目:当前社会中,最为突出的大数据环境是()[单选题]*A.互联网(正确答案।B.物联网C.综合国力D.自然资源6、题目:根据电信客户的特征对客户进行打标分类主要用到()算法[单选题]*A.分类B.聚类(正确答案)C.降维D.回归7、题目:以下哪一项属于非结构化数据()[单选题]*A.视频监控数据(正确答案)B.企业ERP数据C.财务系统数据D.日志数据8、题目:大数据的起源是()[单选题]*A.金融B.电信C互联网(正确答案)9、题目:统计分组时,若某标志值刚好等于相邻两组上下限数值时()[单选题]*A.将此数值归入上限所在组B.将此数值归入下限所在组(正确空案।C.归入这两组中任意一组均可D.另立一组10、题目:有200家公司每位职工的工资资料,如果要调查这200家区水泥总产量的80%的五个大型水泥厂的生产情况进行调查,这种调查方式是()。
[单选题]*A.普查B.典型调查C抽样调查D.重点调查(正确答案)11、题目:某连续变量数列,其末组为开口组,下限为200,又知其邻组的组中值为170,则末组组中值为()[单选题]*A.260B.215C.230 IZ确答案)D.185 12、题目:当一组数据属于左偏分布时.则()[单选题]*A.平均数、中位数与众数是合而为一的B.众数在左边、平均数在右边C.众数的数值较小,平均数的数值较大D.众数在右边、平均数在左边王礁答案)13、题目:要通过移动平均法消除季节变动得到趋势值,则移动平均项数()[单选题]*A.应选择奇数B.应和季节周期长度一致三确空案)C.应选择偶数D.可取4或1214、题目:不重复抽样平均误差()。
[单选题]*A.总是大于重复抽样平均误差B.总是小于重复抽样平均误差E确答案।C.总是等于重复抽样平均误差D.以上情况都可能发生15、题目:如果你的业务是销售运动衫,哪一种运动衫号码的度量对你更为有用0 [单选题1*A.均值B.中位数C.众数(正确答案)D.四分位数16、题目:某年末某地区城市人均居住面积为20平方米,标准差为8.4平方米,乡村人均居住面积为30平方米,标准差为11.6平方米,则该地区城市和乡村居民居住面积的离散程度0【单选题1*A.乡村较大B.城市较大正确答案।C.城市和乡村一样D.不能比较17、题目:重点调查的实施条件是()[单选题]*A.被调查的单位总数相当多B.存在少数举足轻重的单位(正确答案।C.调查结果能够用于推算总体数据D.被调查的现象总量在各总体单位之间的分布极其不均匀18、题目:抽样平均误差与极限误差间的关系是()【单选题1*A.抽样平均误差大于极限误差B.抽样平均误差等于极限误差C抽样平均误差小于极限误差D.抽样平均误差可能大于、等于或小于极限误差[确笔案।19、题目:进行单侧检验时,利用P值进行判断,拒绝原假设的条件是0 [单选题]*A.P值(正确答案)B.P 值,C.P值D.P 值>220、题目:假设检险中,第二类错误的概率表示()【单选题1*A.为真时拒绝的概率B.为真时接受的概率C.不真时拒绝的概率D.不真时接受的概率(正确答案)21、题目:时间序列在长时期内呈现出来的某种持续向上或持续下降的变动称为0 [单选题1*A.趋势:王碓答案)B.季节性C周期性D.随机性22、题目:根据各处的季度数据计算季节指数,各季节指数的平均数应等于() [单选题]*A.100%正确答案)B.400%C.25%D.023、题目:如下哪些不是最近邻分类器的特点。
()[单选题]*A.它使用具体的训练实例进行预测,不必维护源自数据的模型B.分类一个测试样例开销很大C.最近邻分类器基于全局信息进行预测:案।D.可以生产任意形状的决策边界24、题目:推荐系统为客户推荐商品,自动完成个性化选择商品的过程、满足客户的个性化需求,推荐基于网站最热卖商品、客户所处城市、()、推测客户将来可能的购买行为。
[单选题]*A.客户的朋友B.客户的个人信息C.客户的兴趣爱好D.客户过去的购买行为和购买记录(王确答案)25、题目:()的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要, 并且能够得到和原始数据相同的分析结果。
【单选题1*A.数据清洗B.数据集成C.数据变换D.数据归约(正确答案26、题目:某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()[单选题]*A.关联规则发现正哨答案)B.聚类C.分类D.自然语言处理27、题目:以下两种描述分别对应哪两种对分类算法的评价标准?()(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。
(b)描述有多少比例的小偷给警察抓了的标准。
[单选题]*A. Precision,Recall IE确答案)B.RecalLPrecisionC.Precision,ROCD.RecalLROC28、题目:将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?0 [单选题1*A.频繁模式挖掘B.分类和预测C.数据预处理(正确答案)D.数据流挖掘29、题目:当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?0 [单选题]*A.分类B.聚类(正确答案)C.关联分析D.隐马尔可夫链30、题目:建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?0【单选题1*A.根据内容检索B.建模描述C.预测建模(正确答案)D.寻找模式和规则31、题目:下面哪种不属于数据预处理的方法?()[单选题]*A.变量代换B.离散化C.聚集D.估计遗漏值确答案)32、题目:假设12个销售价格记录组已经排序如下:5, 10, 11, 13,15,35,50,55,72, 92, 204, 215使用如下每种方法将它们划分成四个箱。
等频(等深)划分时,15在第几个箱子内?0 [单选题1*A.第一个B.第二个(正确答案)C.第三个D.第四个33、题目:下面哪个不属于数据的属性类型()[单选题]*A.标称B.序数C.区间D.相异(正确答案)34、题目:只有非零值才重要的二元属性被称作()[单选题]*A.计数属性B.离散属性C.非对称的二元属性E确答案।D.对称属性35、题目:以下哪种方法不属于特征选择的标准方法:()[单选题]*A.嵌入B.过滤C包装D.抽样(正确答案)36、题目:下面不属于创建新属性的相关方法的是:()[单选题]*A.特征提取B.特征修改C.映射数据到新的空间D.特征构造(正确答案)37、题目:下面哪个属于映射数据到新的空间的方法?()[单选题]*A.傅立叶变换ZZ碓答案)B.特征加权C.渐进抽样D.维归约38、题目:假设属性income的最大最小值分别是12000元和98000元。
利用最大最小规范化的方法将属性的值映射到。
至1的范围内。
对属性income的73600元将被转化为:()[单选题]*A.0821(正确答案)B.1.224C.1.458D.0.71639、题目:一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。
则年级属性的众数是:()|单选题]*A.一年级,正确答案B.二年级C.三年级D.四年级40、题目:下列哪个不是专门用于可视化时间空间数据的技术()[单选题]*A.等高线图B.饼图(正确答案)C.曲面图D.矢量场图41、题目:在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是0 [单选题1*A.有放回的简单随机抽样B.无放回的简单随机抽样C.分层抽样D.D渐进抽样(正确答案)42、题目:数据仓库是随着时间变化的.下面的描述不正确的是()[单选题]*A.数据仓库随时间的变化不断增加新的数据内容B.捕捉到的新数据会覆盖原来的快照C.数据仓库随事件变化不断删去旧的数据内容।正确笔案।D.数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合43、题目:下面关于数据粒度的描述不正确的是()[单选题1*A.粒度是指数据仓库小数据单元的详细程度和级别B.数据越详细,粒度就越小,级别也就越高C.数据综合度越高,粒度也就越大,级别也就越高IZ峰空案।D.粒度的具体划分将直接影响数据仓库中的数据量以及查询质量44、题目:有关数据仓库的开发特点.不正确的描述是:0 [单选题]*A.数据仓库开发要从数据出发正确答案)B.数据仓库使用的需求在开发出去就要明确C.数据仓库的开发是一个不断循环的过程、是启发式的开发D.在数据仓库环境中、并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活.且没有固定的模式45、题目:关于OLAP的特性,下面正确的是()[单选题]*A.(l)(2) (3)B.(2) (3) (4)C.(D (2) (3) (4)D.(l)(2) (3) (4) (5)(正确答案)46、题目:关于OLAP和OLTP的区别描述,不正确的是:()[单选题]*A.OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同B.与OLAP应用程序不同QLTP应用程序包含大量相对简单的事务C.OLAP的特点在于事务量大,但事务内容比较简单且重复率高—D.OLAP是以数据仓库为基础的.但其最终数据来源与OLTP一样均来自底层的数据库系统.两者面对的用户是相同的47、题目:关于OLAP和OLTP的说法,下列不正确的是:()[单选题]*A.OLAP事务量大,但事务内容比较简单且重复率高确丝案)B.OLAP的最终数据来源与OLTP不一样C.OLTP面对的是决策人员和高层管理人员D.OLTP以应用为核心,是应用驱动的48、题目:设X={1, 2, 3}是频繁项集,则可由X产生()个关联规则。
()[单选题]*A.4B.5C.6E确答案)D.749、题目:考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有 5 个项,采用合并策略,由候选产生过程得到4-项集不包含()[单选题]*A. 1,2,3,4B.1,2,3,5C.1,2,4,5(正确答案)D. 1,3,4,550、题目:在图集合中发现一组公共子结构,这样的任务称为()[单选题]*A.频繁子集挖掘B.频繁子图挖掘(正确答案)C.频繁数据项挖掘D.频繁模式挖掘51、题目:下列度量不具有反演性的是()[单选题1*A.系数B.几率C.Cohen 度量D.兴趣因子正确答案)二、大数据(多选)1、题目:数据质量的问题体现在()*A.完整性正确答案B.一致性正确答案C.合法性正确答案)D.精确性(正确答案2、题目:大数据平台建设原则为()*A.统一数据入湖:全网数据统一采集到大数据湖,利用大数据分布式计算、存储能力实现跨域数据处理正确答案)B.统一技术架构:采用全网统一的PaaS架构构建大数据平台,统一组件标准,通过全网统一调度管控两级资源正确答案)C.统一数据服务:对外提供统一数据服务,通过API、标签、模型、指标、卡片等方式全网开放使用(正确答案)D.统一开发平台:提供基于专区、AI、跨域数据的统一开发平台,打造全网生态化大数据应用敏捷开发生态正二角答案)3、题目:大数据平台的业务目标为()*A.全面、客观、真实、及时反映业务运营情况,为各级领导提供企业经营的决策依据正确答案)B.快速支撑精确管理、精准营销、精细服务等各类需求正确答案)c.实现企业数据和应用的有效共享,降本增效(E确答案)D.建立数据全生命周期的安全保障体系,降低数据泄露的风险已匕然;案।4、题目:下列指标属于离散变量的有()*A.客户移动上网流量B.员工年龄正确答案)C.基站电费D.基站数量(正确答案5、题目:目前中国电信企业级大数据平台包含()等架构()*A.大数据平台采集系统王礁答案)B.大数据平台基础能力系统正确答案)C.大数据平台核心处理能力系统E烧答案।D.大数据平台安全管理系统正确答案IE.大数据应用三确答案)6、题目:大数据在电信行业有哪些应用()*A.网络运维优化一确空案।B.网络规划建设;正确”案)C.太空通信D.市场推送(正确答案)7、题目:以下关于非频繁模式说法,正确的是()*A.其支持度小于阈值正确答案)B.都是不让人感兴趣的C.包含负模式和负相关模式D.对异常数据项敏感8、题目:以下属于分类器评价或比较尺度的有:()*A.预测准确度工确答案।B.召回率(正确答案)C.模型描述的简洁度D.计算复杂度工确答案)9、题目:贝叶斯信念网络(BBN)有如下哪些特点。