2019年大数据测试答案

合集下载

大数据应用竞赛复习题

大数据应用竞赛复习题

大数据应用竞赛复习题136、云是网络的一种比喻说法,传统架构图中用来表示电信网,后续扩展到表示互联网和底层基础设施。

用户通过()等方式接入云数据中心,按自己的需求进行数据处理。

*A台式机(正确答案)B笔记本(正确答案)C手机(正确答案)D服务器137、在数据缺失严重时,会对分析结果造成较大的影响,因此剔除的异常值和缺失值,要采用合理的方法进行填补,常用的方法有()。

*A平均值填充(正确答案)B.K最近邻距离法(正确答案)C回归法(正确答案)D极大似然估计(正确答案)E多重插补法(正确答案)138、在数据资产质量管理中,同一责任人产生的同一数据项一年内出现两次以上质量问题需要进行问责,以下说法正确的是()。

*A体现了数据资产质量管理遵循“谁产生、谁负责”的原则(正确答案)B.对责任单位予以通报批评(正确答案)C.按照公司员工奖惩规定第十二条追究相关人员责任(正确答案)D.具体惩处按照公司员工违规违纪行为惩处细则第十三条执行(正确答案)139、在网络爬虫的爬行策略中,应用最为基础的是() *A深度优先遍历策略(正确答案)B广度优先遍历策略(正确答案)C高度优先遍历策略D反向链接策略E大站优先策略140、在重大活动保电工作准备期间应超前谋划部署,加强对公司重要数据管控,加强漏洞隐患排查整改,妥善做好涉密数据传递及应用有关工作,综合运用()等手段,构建全方位、立体式监管与防护体系。

深 *A人防(正确答案)B物防(正确答案)C技防(正确答案)D监管(正确答案)141、噪声数据的产生原因主要有()。

*A数据采集设备有问题(正确答案)B在数据录入过程中发生了人为或计算机错误(正确答案)C数据传输过程中发生错误(正确答案)D由于命名规则或数据代码不同而引起的不一致(正确答案)142、正在推动能源行业变革的技术有哪些? *A.电网运行技术(正确答案)B.互联网技术C.用户侧技术(正确答案)D.信息技术(正确答案)E.能源技术(正确答案)143、中国大数据产业特征包括()。

2019年高考语文《关于“大数据”》现代文阅读试题及答案汇编

2019年高考语文《关于“大数据”》现代文阅读试题及答案汇编

2019年高考语文《关于“大数据”》现代文阅读试题及答案汇编学校:___________姓名:___________班级:___________考号:___________一、现代文阅读阅读下面的文字,完成后面问题。

近年来伴随着不少国家的宽带化战略的实施、云计算服务的起步、物联网应用的铺开和移动互联网的崛起,数据量与时俱增,数据处理能力也发展迅速,数据量积累到一定程度其资源属性越加明晰,显示出开发的价值。

同时,社会的节奏越来越快,要求快速的反应和精细的管理,急需借助对数据的分析来科学决策,催生了对大数据开发的需求,大数据被称为将引发生活、工作和思维变革的一次革命。

大数据是相对于一般数据而言的,目前对大数据尚缺权威的严格定义,但较普遍的解释是指“难以用常规的软件工具在容许的时间内对其内容进行抓取、管理和处理的数据集合”。

规模大是大数据的标志之一,但大数据之所以难处理不仅在于规模大,更大的挑战是其随时间的变化快和类型的多样性,根据可否用表格或关系数据库的表和视图来表示而区分为结构型和非结构型数据,照片和视频等就是典型的非结构数据。

随时间和类型的变化增加了大数据的复杂性但也同时丰富了大敷据的内涵。

通常用4V (VolumE.Velocity、Variety、Value)来反映大数据的特征,即量大、增长快、多样性和高价值。

从这一点来看,对大数据仅仅冠以“大”这一形容词是不全面的,只不过在大数据的4V中,规模相对于变化和类型这两个特征容易定量,而且即便是单一类型的数据集(例如文本文件),只要有足够的规模也能称得上大数据。

数据的规模越大,通常对数据挖掘所得到的事物演变规律越可信,数据分析的结果也越有代表性,因此对大数据这一词汇突出其规模大这一特征也是可理解的。

大数据不仅是一种资源,也是一种方法,伴随大数据产生数据密集型科学,有人将它称为是继实验科学、理论科学和计算科学之后的第四种科学研究模式,这一研究模式的特点表象为不在意数据的杂乱,但强调数据的量;不要求数据精准,但看重其代表性;不刻意追求因果关系,但重视规律总结。

2019年人工智能考试答案

2019年人工智能考试答案

一、判断题(每题2分)1.智慧养老从老年人本身出发,能够满足老年人不同层面的需求。

正确错误2.智慧养老应把服务需求和供给有效结合,为服务平台提供了生长空间。

正确错误3.根据《大数据在医疗领域的应用》,当今时代信息技术进一步推动了经济的增长和社会的发展,推动了知识传播应用进程的变化。

正确错误4.大数据需要云计算,大数据就等于云计算建设。

正确错误5.“互联网+”医疗服务体系鼓励医疗机构应用互联网等信息技术拓展医疗服务空间和内容,构建一体化医疗服务体系。

正确错误6.2016年9月,国务院印发《促进大数据发展行动纲要》,10月,十八届六中全会将大数据上升为国家战略。

正确错误7.大数据时代要求架构云化,这对网络安全没有威胁。

正确错误8.大数据应用很大程度上是沙里淘金、废品利用、大海捞鱼。

正确错误9.Hadoop分布式文件系统被设计成合适运行在通用硬件(commodity hardware)上的集中式文件系统。

正确错误10.医疗大数据主要来源于制药企业、临床数据、社保基金利用率和患者的数据。

正确错误11.美国在人工智能方面取得了较好的成果。

正确错误12.人工智能在国际关系方面提出了新要求和挑战。

正确错误13.GDPR是人工智能在隐私保护方面典型法律之一。

正确错误14.韩国第四次工业革命在举行的第四次会议上,通过了人工智能研发战略。

正确错误15.1978年,全国科学大会在北京召开,钱学森发表了“科学技术是生产力”的重要讲话。

正确错误16.人工智能在医疗领域还存在一些问题。

正确错误17.对于在医疗领域的AI,我国应提出加大推动创新人工智能应用评估和保障机制、加大政策扶持力度等建议。

正确错误18.中国学者的研究影响力超过了美国,但人工智能领域的论文数量方面尚不及美国和英国同行。

正确错误19.加强人工智能相关法律、伦理和社会问题研究,建立保障人工智能健康发展的法律法规和伦理道德框架。

正确错误20.2016年9月开始,微软的技术与研发部门和人工智能(AI)研究部门相互分离,各司其职。

2019继续教育大数据创新实践考试

2019继续教育大数据创新实践考试

大数据创新实践考试返回上一级单选题(共30题,每题2分)1 . HDFS默认Block Size:∙A.16M∙B.32M∙C.64M∙D.128M我的答案: C参考答案:C答案解析: 64M2 .信息时代的三大定律不包括:∙A.牛顿定理∙B.摩尔定律∙C.麦特卡尔夫定律∙D.吉尔德定律我的答案: A参考答案:A答案解析:牛顿定理3 .美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。

这体现了大数据分析理念中的:∙A.在数据基础上倾向于全体数据而不是抽样数据∙B.在分析方法上更注重相关分析而不是因果分析∙C.在分析效果上更追究效率而不是绝对精确∙D.在数据规模上强调相对数据而不是绝对数据我的答案: B参考答案:B答案解析:在分析方法上更注重相关分析而不是因果分析4 .下列关于网络用户行为的说法中,错误的是:∙A.网络公司能够捕捉到用户在其网站上的所有行为∙B.用户离散的交互痕迹能够为企业提升服务质量提供参考∙C.数字轨迹用完即自动删除∙D.用户的隐私安全很难得以规范保护我的答案: C参考答案:C答案解析:数字轨迹用完即自动删除5 .智能手环的应用开发,体现了()的数据采集技术的应用。

∙A.网络爬虫∙B.API接口∙C.传感器∙D.统计报表我的答案: C参考答案:C答案解析:传感器6 .在Bigtable中,()主要用来存储子表数据以及一些日志文件。

∙A.GFS∙B.MapReduce∙C.SStable∙D.Chubby我的答案: A参考答案:A答案解析: GFS7 .当前社会中,最为突出的大数据环境是:∙A.互联网∙B.自然环境∙C.综合国力∙D.物联网我的答案: A参考答案:A答案解析:互联网8 .以下哪些可以属于智慧城市的范畴:∙A.智慧政务∙B.智慧交通∙C.智慧医疗∙D.智慧公共安全∙E.以上都是我的答案: E参考答案:E答案解析:以上都是9 .人类利用信息的历史,经历了()次革命,促生了数据大爆炸。

2019大数据机器学习答案2

2019大数据机器学习答案2

一:单选题(每小题5分)1:模型复杂度越大,训练误差__________ ,测试误差__________A增大减小B增大增大C减小增大D 减小减小A B C D∙答案:C∙正确2:支持向量机的学习策略是__________A间隔最小化B间隔最大化C间隔平均化D间隔随机化A B C D∙答案:B∙正确3:条件随机场采用__________ 计算方法A递归B一次迭代C二次迭代D递进A B C D∙答案:A∙正确4:_______年,在CMU召开的第一次ICML会议,标志机器学习的诞生。

A 1970B 1979C 1980 D1983A B C D∙答案:C∙正确5:概率图推断方法可以被分为__________ 类A 2B 3C 4D 5A B C D∙答案:A∙正确6:EM算法的引入是因为概率模型中包含__________A观测变量B隐变量C随机变量D固定值A B C D∙答案:B∙正确7:学习算法的输入是__________A概念类B假设空间C训练集D以上三种全是A B C D∙答案:C∙错误8:机器学习最重要的应用领域是__________ 。

A预测算法B拟人应用C计算机视觉D深度学习A B C D∙答案:C∙错误9:决策树具有________ 种特点A 3B 4C 5D 6A B C D∙答案:C∙错误10:Adaboost算法的提出是在__________ 年A 1990B 1993C 1995D 1996A B C D∙答案:C∙错误二:判断题(每小题5分)11:序列最小最优化算法在1998年由Platt提出。

A:对B:错∙答案:A∙正确12:监督学习的目的学习一个由输出到输入的映射。

A:对B:错∙答案:B∙错误13:条件随机场的定义是在给定随机变量X条件下,随机变量Y的马尔科夫随机场A:对B:错∙答案:A∙正确14:所有的目标概念所构成的集合称为概念类A:对B:错∙答案:A∙正确15:Adaboost算法的学习算法是前向分布算法的三分类学习算法A:对B:错∙答案:B∙正确三:多选题(每小题5分)16:精确推断法主要包括__________A变量消去法B信念传播法C MCMC采样D变分推断法A B C D∙答案:AB∙正确17:监督学习方法分为__________A预测方法B生成方法C判别方法D总结方法A B C D∙答案:BC∙正确18:半监督学习的正则化方法有__________A 多任务学习B对抗训练C参数绑定和参数共享D稀疏表示A B C D∙答案:ABCD∙错误19:HMM的主要应用__________A人脸识别B语音识别C入侵检测D拟人应用A B C D∙答案:ABC∙正确20:模型学习的最优化算法__________A梯度下降法B迭代尺度法C牛顿法D拟牛顿法A B C D∙答案:ABCD∙正确。

2019继续教育公需科目大数据技术及应用试题答案

2019继续教育公需科目大数据技术及应用试题答案

2019年度大数据技术及应用试题单选题:1、本课程提到,近年来,我国(A)在GDP中占的比例逐年增大。

A互联网经济B信息经济C数码消费D电子商务2、法律大数据演示的结果表明,针对“酒驾”这一查询,相关刑罚中主要的是(A)A以上都是B拘役C罚金D有期徒刑3、根据本课程,取得成功的关键是要从(A)出发A数据B技术C设备D问题4、1965年英特尔公司创始人之一摩尔先生,提出来在之后的十几年里,半导体处理器的性能,比如容量、计算速度和复杂程度每18个月左右可以翻一番,这被称为(摩尔定律)5、21世纪初,关于查询结果排序我们找到了一种新的方法。

(大数据方法:用户的点击数据)6、根据本课程,(查询结果)排序是一个在搜索引擎中处于核心位置的工作。

7、今天,随着信息科学技术的高速发展,人类对数据的收集和分享能力空前强大,其中,(互联网)可以收集虚拟世界的数据。

8、根据本课程,交通数据采集的来源不包括(A)A通讯信号B视频监控C微波采集D车载RFID9、根据本课程,(实时分析)希望能够全面突破搜索引擎框架所蕴含的3个假设,使得我们能以很快的速度对互联网上出现的数据进行分析,从而发掘出相关的高阶知识,满足用户的信息需求。

10、六度分割理论认为,世界上任何两个人通过最多(六)个人就可以相互认识。

11、新经验主义是用经验数据解决问题,但是这些经验是(群体性的经验)。

12、根据本课程,科学家们认为,2013年全世界储存的大数据容量是(1.2ZB)13、本课程提到,当前(云计算)服务的逐渐成熟,为大数据发展提供了有利的基础设施支撑。

14、(RFID)是一种标签,可以把一个物体身上的各种特征和信息都收集起来。

15、本课程提出,搜索引擎是一个搜索框,输一些关键词,然后出来一些页面的列表,需要用户点开看,这种架构蕴含的基本假设不包括(A)A这些文档彼此不是独立的B这些文档是静态的C假设用户找一个文档,而不是找一个答案D这些文档是独立的16、根据本课程,以下哪项不属于智慧城市的特点(C)A更广泛的互联互通B更深入的智慧化C更传统的方式D更透彻的感知17、“十二五”期间,我国数据总量年均增长率达到了(50%)18、二十世纪五十年代初,阿兰.麦席森.图灵提出(图灵测试)概念,用来测试计算机的智能程度。

2019大数据机器学习答案1

2019大数据机器学习答案1

1:感知机学习算法原始形式迭代是________的。

A震荡B发散C约束D收敛A B C D•答案:D•正确2:机器学习的理论基础是__________A统计论B概率论C计算学习理论D推断论A B C D•答案:C•错误3:PR曲线中P代表的是__________A预测出正例的保证性B预测出正例的正确率A B•答案:B•错误4:支持向量机的学习策略是__________A间隔最小化B间隔最大化C间隔平均化D间隔随机化A B C D•答案:B•正确5:模型复杂度越大,训练误差__________ ,测试误差__________A增大减小B增大增大C减小增大D 减小减小A B C D•答案:C•错误6:多维缩放的主要特点有_______种A 2B 3C 4D 5A B C D•答案:B•正确7:EM算法的引入是因为概率模型中包含__________A观测变量B隐变量C随机变量D固定值A B C D•答案:B•正确8:神经网络作为一个计算模型的理论是在__________ 年提出的A 1941B 1942C 1943D 1944A B C D•答案:C•正确9:介绍了__________种自适应学习率算法A 3B 4C 5D 6A B C D•答案:A•错误10:概率图推断方法可以被分为__________ 类A 2B 3C 4D 5A B C D•答案:A•错误11:概率模型是一种将学习任务归结于计算变量的概率分布的描述框架A:对B:错•答案:A•正确12:没有免费的午餐定理原理称为“如无必要,勿增实体”。

A:对B:错•答案:B•错误13:神经网络的全称是人工神经网络A:对B:错•答案:A•正确14:流形学习可被用于可视化A:对B:错•答案:A•正确15:所有可能概念或模型的集合称为假设类A:对B:错•答案:B•错误16:机器学习方法三要素为__________A模型B策略C空间D算法A B C D•答案:ABD•正确17:隐马尔可夫模型的的三个基本问题__________A概率计算问题B迭代尺度问题C模型学习问题D预测问题A B C D•答案:ABD•错误18:贝叶斯网络是由__________ 结合而成的描述多元统计关系模型A图论B空间论C逼近论D概率论A B C D•答案:AD•正确19:监督学习方法分为__________A预测方法B生成方法C判别方法D总结方法A B C D•答案:BC•错误20:精确推断法主要包括__________A变量消去法B信念传播法C MCMC采样D变分推断法A B C D•答案:AB•错误。

智慧树知到《大趋势》2019章节测试答案

智慧树知到《大趋势》2019章节测试答案
B.提高效率
C.改变资源配置方式
D.改变消费习惯
E.文化优势
答案:势网民大国优势,后发优势,制度优势
第三章
1、十九大报告提岀来,要推动什么信息技术和实体经济深度融合?
A.互联网
B.大数据
C.人工智能
D.云计算
答案:ABC
2、全球市值最大的前20位的互联网公司主要分布在哪两个国家?
A.美国
B.中国
C.德国
D.日本 答案:AB
3、智能制造包括以下哪些方面?
A.产品的智能化
B.装备的智能化
C.生产的智能化
D.管理的智能化
E.服务的智能化
答案:ABCDE
4、新一轮产业革命或是智能制造的内在的逻辑是什么
A.优化资源的配置是目标
B.数据的自动流动是关键
C.工业软件是核心
D.新型能力培育是主线
E.平台生态是竞争制高点答案:ABCDE
D.该怎么做
答案:ABCD
10、工业互联网构成的三个方而:
A.网络是基础
B.标准是支撑
C.平台是核心
D.安全是保障
答案:ACD
第四章
1、哪个部门制定了大数据发展战略?
A.工信部
B.国务院
C.商务部
D.科技部
答案:C
2、1950年到1990年互联网基木在政府内部使用,英文简称是什么?
A.G2B
B.G2C
充分说明了什么的重要性?A
A.人才
B.技术
C.资本
D.土地
答案:
8、我们把规律模型化、模型算法化、算法代码化、代码软件化, 再用软件化去优化,构建起了三个世界:
A.数字世界
B.意识世界
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

智慧健康医疗1、CAD在医疗健康领域的英文全称是()Computer Aided Diagnosis2、不属于AI健康医疗生态系统的是()制药生态3、不属于慢性疾病的是()艾滋病4、AI院前管理包括()预测和干预5、AI医疗健康技术体系的基础层不包括()芯片6、AI医疗健康发展的核心要素是()数据7、我国首次研发的AI医疗系统是面向()中医8、第3次AI浪潮的到来主要依赖于()深度学习9、目前AI医疗健康市场最成熟的是()辅助医疗影像诊断10、我国慢性疾病增加,与老龄化加剧的关系()强相关11、AI医疗健康的核心技术体系主要包括()传感器技术存储技术传输技术12、AI辅助诊断属于()院中管理13、婴幼儿时期的环境暴露不会影响个体后期的身体健康。

错误14、以下不属于大数据时代特征的是()数据处理速度迅速提升15、以下哪一项不是人工智能发展的必要条件()机器学习16、以下哪一项不属于健康医疗大数据来源()购物数据17、以下不属于机器学习研究范畴的是()专家系统18、以下属于人工智能在医疗领域应用的是()多选疾病预测辅助诊断药物个性化推荐19、以下对大数据描述正确的是()大数据本质在于数据的关联分析20、以下不属于弱人工智能特点的是()自适应能力21、人工智能技术发展出现几次低潮的原因包括()多选算法研究瓶颈计算能力瓶颈数据有限22、以下说法正确的是()人工智能就是深度学习23、以下说法正确的是()健康医疗领域数据存在孤岛现象24、以下说法正确的是()即使在大数据时代,统计分析仍然具有重要的作用25、以下关于人工智能、机器学习和深度学习说法正确的是()机器学习或深度学习是实现人工智能的一种方法大数据应用1、大数据起源于()互联网2、第一个提出大数据概念的公司是()麦肯锡3、)规模巨大且复杂,用现有的数据处理工具难以获取、整理、管理以及处理。

大数据4、大数据的本质是()洞察价值5、大数据的最显著特征()数据规模大6、海军人员通过对前人航海日志的分析,绘制了新的航海路线图,标明大风与洋流可能发生的地点。

这一操作体现大数据思维中的()在分析方法上更注重相关分析而不是因果分析7、下列对大数据特点的说法中,错误的是()数据价值密度高8、当前社会中,最为突出的大数据环境是()互联网9、下列关于大数据中计算机存储容量单位的说法中,错误的是()容纳一个英文字符需要2个字节10、计算机存储容量单位换算中,错误的是()1TB=1024MB11、大数据时代,数据使用的关键是()数据再利用12、下列论据中,能够支撑“大数据无所不能”的观点是()“互联网+医疗”打破传通的观念和行为13、支撑大数据业务的基础是()数据应用14、下列关于数据生命周期管理的核心认识中,错误的是()数据生命周期管理最终关注的是社会效益15、当前大数据技术的基础是由()首先提出的谷歌16、大数据处理流程不包括()数据业务统计17、数据清洗清洗的方法不包括()重复数据记录处理18、数据仓库的最终目的是()为用户和业务部门提供决策支持19、当前大数据技术的基础不包括()关系型数据库20、云计算使用信息的存储是一个()的方式,它会大大地节约网络成本。

分布式21、大数据应用能够实现一场新的革命,提高综合管理水平的原因不包括()从精细化管理走向开放式管理22、医疗健康大数据的基本情况不包括以下哪项()公共安全数据23、医疗健康领域中大数据应用产业不包括()用户行为分析24、智能健康手环的应用开发,体现了()的数据采集技术应用传感器25、假设一种基因同时导致两件事:(1)使人喜欢酗酒,(2)使这个人和肝癌就是()关系,而酗酒和肝癌是()因果相关AI+医疗1、两像素位置分别为(x,y)和(s,t),则两像素间的欧氏距离是()2、下列哪个变换矩阵代表对像素坐标进行旋转变换()3、54、在机器学习领域中,按照数据有无标签分为监督学习和无监督学习,那么聚类任务属于()无标签的无监督学习5、医学影像是指为了医疗或医学研究,对人体或者人体某部分,以非侵入方式去的内部组织影响的技术与处理过程,其中CT是一种重要的影像诊断检查技术,下列哪项不是CT的优点()没有辐射量6、给定一个数据集,对于某一个待分类数据点,找出距离该点最近的K个样本,若它们当中大多数属于A类,则把该数据点也归类为A,这种方法称为K-means算法()错误7、两像素位置分别为(x,y)和(s,t),则两像素间的城区距离是()8、下列哪个变换矩阵代表对像素坐标进行旋转变换()9、在机器学习领域中,按照数据有无标签分为监督学习和非监督学习,那么分类、回归任务属于()有标签的监督学习10、如右图所示,有两类不同的样本数据,分别用小正方形和小三角形表示,现在,我们不知道中间那个圆形的数据是从属于哪一类(正方形或三角形),此时若采用KNN(K近邻)算法解决这个问题,当选取K=3时,圆形待分类点该被判定为();当选取K=5时,圆形待分类点该被判定为()三角形;正方形11、两像素位置分别为(x,y)和(s,t),则两像素间的棋盘距离是()C、12、下图是哪种像素邻域表示()8-邻域13、将下图所示的图像输入到2*2的均值pooling(池化)层(即,取模板内像素灰度值的平均值),stride(步长)为2,则输出值应为()14、操作中属于图像平滑处理的是()中值滤波15、下列机器学习常用算法中哪个是聚类算法而不属于分类算法(C)K-means16、下图是哪种像素邻域表示()8-邻域17、下列哪个变换矩阵代表对像素坐标进行平移变换()18、1119、在有标签数据集上,经常采用简单的线性回归、分类任务从数据中学习获取信息。

在回归任务中,Y变量(预测变量)为(),分类任务中Y变量(预测变量)为()连续型;离散型20、边缘检测的原理:模板(分别代表X和Y方向)在图像上移动并在每个位置计算对应中心像素的灰度值,一般来说,在某个目标(背景)内部计算出的灰度值(),在边缘位置时计算出的灰度值()较小;较大21、下图是哪种像素邻域表示()对角邻域22、下列哪项图像处理操作使用了灰度映射技术()以上都是23、将下图所示的图像输入到2*2的最大值pooling(池化)层(即,取模板内像素灰度值的最大值),stride(步长)为2,则输出值应为()A、C、24、下列算法中属于图像平滑处理的是()均值滤波25、在神经网络中,经常根据特定任务采用不同的激活函数,下图所示的是两个经常使用的激活函数,请分别指出两个函数图像分别是()sigmoid;relu信息检索1、所有检索策略都包含三个要素,以下选项中不属于三要素的一项是()排序函数2、在向量模型中,不可以通过()来衡量文档和查询之间的相似度。

向量间正切值3、T1、T2、T3表示特征项,D1、D2、D3、D4为文档向量,Q为查询向量,其中,D1=4T1+2T2+3T3,D2=T1+4T2+2T3,D3=5T1+2T3,D4= T2+3T3,Q=T1+0T2+2T3 。

以上文档中和Q最大可能相关的是()D14、以下选项中属于概率模型的优点的是()模型具有内在的相关反馈机制,将文档根据相关概率按递减顺序排列5、信息检索模型中,神经网络模型属于()向量模型6、以下关于网络爬虫的描述中,错误的一项是()爬虫程序会抓取所有网页,以保证搜索正确性7、在实际的搜索引擎系统中,通过存储()来存储文档信息文档编号差值8、下面方法中,不是建立索引的方法的是()HITS9、关于PageRank标准算法与简化算法正确的是()PageRank简化算法对G中的每一个节点n,设定其初始值均为1/n10、关于HITS算法描述正确的是(C)、HITS算法核心思想是对网页两个方面的权威程度进行评价,一个是内容权威度,另一个是链接权威度,两者具有相互增强的关系11、网页重定向属于下列哪种作弊方式(C)隐藏作弊12、对网页进行两次抓取,第一次是正常的搜索引擎爬虫抓取,第二次以模拟人工访问页面的方式抓取,如果两次抓取到的内容差异较大,则认为是作弊页面,这属于()识别页面隐藏13、以下不是搜索引擎的主要功能模块的一项是()PageRank14、以下选项中描述不正确的是()根据具体应用的不同,可以将爬虫分为两种类型,即增量型爬虫和垂直型爬虫15、以下选项中描述正确的是()机器学习的四个步骤中,文档特征抽取是指利用抽取算法抽取查询词TF/IDF信息、文档长度、网页PageRank值、网页入链/出链数量等16、以下关于推荐系统和搜索引擎的说法中,错误的是()推荐系统是由用户主导的17、下列关于推荐系统评测中在线实验的说法,错误的是()成本较低,容易部署18、为了覆盖用户的不同兴趣领域,我们需要提高推荐结果的()多样性19、下列各项中为工业界更关注的评测指标的是()点击率20、从商家角度看,推荐系统受欢迎的原因有()可以增加用户信任度和粘性,增加营收21、下列选项中是显性反馈数据的是()用户对某个视频的评分22、下列关于基于用户的协同过滤算法的说法中,错误的是()基于用户的协同过滤算法相对于基于物品的协同过滤算法来说更个性化,反映了用户自己的兴趣传承23、下列关于推荐算法的说法中,错误的是()使用基于内容的推荐算法进行个性化推荐时,由于非结构化特征难以利用,我们通常直接将其舍弃24、针对用户冷启动问题,下列选项中做法错误的是()利用用户手机中其它应用的日志文件分析用户的兴趣点25、下列选项中不是冷启动问题解决方案的是()推荐冷门物品给用户数据挖掘1、以下哪项不属于知识发现的过程?( ) 数据测试2、以下哪些不属于数据挖掘的内容?()递归分析3、以下哪个不是常见的属性类型?()高维属性4、以下哪个度量属于数据散度的描述?()标准差5、以下哪个度量不属于数据中心趋势度描述?(D )四分位数6、对数据进行数据清理、集成、变换、规约是数据挖掘哪个步骤的任务?( ) 数据预处理7、聚类分析是数据挖掘的一种重要技术,以下哪个算法不属于聚类算法?( ) SVM8、建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( ) 预测建模9、当不知道数据所带标签时. 可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( ) 聚类10、在构造决策树时,以下哪种不是选择属性的度量的方法?( ) 距离11、知识发现流程最核心的步骤是什么?( ) 数据挖掘12、将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( ) 数据预处理13、以下哪个度量属于数据中心性的描述?()均值14、类分析是数据挖掘的一种重要技术,以下哪个算法不属于聚类算法?( ) KNN15、某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?( ) 关联规则发现16、以下哪些算法是分类算法?( ) C4.517、K-means算法的缺点不包括?( ) 可伸缩、高效18、机器学习中,下面哪些方法不可以避免分类中的过拟合问题?()增加模型复杂度19、下面那个不属于知识发现过程。

相关文档
最新文档