智慧树知到大数据工具应用章节测试答案

合集下载

大数据解析与应用导论知到章节答案智慧树2023年浙江大学

大数据解析与应用导论知到章节测试答案智慧树2023年最新浙江大学第一章测试1.下列属于多元统计方法的为（）参考答案:回归分析;主元分析2.多元统计分析的图表示法有（）参考答案:散布图矩阵;调和曲线图;轮廓图;雷达图3.完整的数据分析过程，包括数据采集、数据清洗和数据分析。

（）参考答案:对4.下列场景适用于回归分析的是 ( )参考答案:天气预报5.下面哪一句体现了主元分析的思想（）参考答案:牵牛要牵牛鼻子第二章测试1.一般常见的缺失值处理的方法有（）参考答案:回归填充法;最近邻插补填充法;插值填充;替换填充法2.一般常见的数据归一化的方法有（）参考答案:最小最大规范化;零均值规范化3.少量的异常值完全不会影响数据分析。

（）参考答案:错4.下列哪种方法不是数据填补的手段 ( )参考答案:均值标准化5.主成分分析的英文名是（）。

参考答案:Principal Component Analysis第三章测试1.下面哪个是SVM在实际生活中的应用（）参考答案:图片分类;邮件分类2.以下说法正确的有哪些（）参考答案:SVM是一种线性方法;软间隔的引入可以解决轻度线性不可分问题3.拉格朗日乘子法可用于线性可分SVM的模型求解。

（）参考答案:对4.SVM的中文全称叫什么？（）参考答案:支持向量机5.SVM算法的最小时间复杂度是O（n²），基于此，以下哪种规格的数据集并不适该算法？（）参考答案:大数据集第四章测试1.一元线性回归有哪些基本假定？（）参考答案:解释变量X是确定性变量，Y是随机变量；;随机误差项和解释变量X不相关；;随机误差项服从零均值、同方差的正态分布。

;随机误差项具有零均值、同方差和序列不相关的性质；2.最典型的两种拟合不佳的情况是（）。

参考答案:欠拟合;过拟合3.岭回归适用于样本很少，但变量很多的回归问题。

（）参考答案:对4.最小二乘方法的拟合程度衡量指标是（）。

参考答案:残差平方和5.关于最小二乘法，下列说法正确的是。

Spark大数据技术与应用智慧树知到课后章节答案2023年下山西职业技术学院

Spark大数据技术与应用智慧树知到课后章节答案2023年下山西职业技术学院山西职业技术学院绪论单元测试1.大数据的起源是以下哪个领域（）A:互联网 B:金融 C:公共管理 D:电信答案:互联网第一章测试1.与MapReduce相比，Spark更适合处理以下哪种类型的任务（）A:较少迭代次数的长任务 B:较少迭代次数的短任务 C:较多迭代次数的短任务 D:较多迭代次数的长任务答案:较多迭代次数的短任务2.Standalone模式下配置Spark集群时，master节点的工作端口号需要在conf文件夹下的哪个文件指明（）A:regionserver B:slaves C:spark-defaults.conf D:spark-env.sh答案:spark-env.sh3.以下关于SPARK中的spark context，描述错误的是：（）A:可以控制dagsheduler组件 B:可以控制task scheduler组件 C:控制整个application的生命周期 D:SparkContext为Spark的主要入口点答案:控制整个application的生命周期4.以下对Spark中Work的主要工作描述错误的是（）A:不会运行业务逻辑代码 B:会运行业务逻辑代码 C:管理当前节点内存 D:接收master分配过来的资源指令答案:会运行业务逻辑代码5.配置Standalone模式下的Spark集群，Worker节点需要在conf文件夹下的哪个文件中指明（）A:spark-env.sh B:spark-defaults.conf C:slaves D:regionserver答案:slaves6.Spark支持的分布式部署方式中哪个是错误的（）A:Spark on local B:spark on YARN C:spark on mesos D:standalone答案:Spark on local7.Spark单机伪分布式模式，它的特点是在一台节点上既有Master服务，又有Worker服务（）A:对 B:错答案:对8.在部署Spark独立模式时，配置spark内部通信的端口为（）A:16010 B:7070 C:9870 D:7077答案:70779.在部署Spark独立模式时，配置spark的web端口为（）A:7077 B:8080 C:9870 D:4040答案:707710.Spark的bin目录是spark运行脚本目录，该目录中包含了加载spark的配置信息，提交作业等执行命令的脚本（）A:错 B:对答案:对第二章测试1.valrdd=sc.parallelize(1 to 10).filter(_%2== 0)rdd.collect上述代码的执行结果为（）A:Array(1, 3, 5,7,9) B:Array(2, 4, 6, 8, 10) C:Array(1,2,3,4,5,6,7,8,9,10)D:Array(1,10)答案:Array(2, 4, 6, 8, 10)2.下面哪个操作是窄依赖（）A:filter B:sort C:group D:join答案:filter3.下面哪个操作肯定是宽依赖（）A:map B:sample C:flatMap D:reduceByKey答案:reduceByKey4.以下操作中，哪个不是Spark RDD编程中的操作。

云计算与大数据技术知到章节答案智慧树2023年北京联合大学

云计算与大数据技术知到章节测试答案智慧树2023年最新北京联合大学绪论单元测试1.下列哪些应用属于大数据技术的应用（）。

参考答案:音视频网站上通过分析注册用户的浏览习惯，为用户推送感兴趣的音视频。

;手机银行或网上银行在用户画像基础上，对用户群进行定位，挖掘潜在金融服务需求。

;政务领域中的智慧城市建设，如智慧交通、智慧医疗、智慧教育等。

;电商网站上对注册用户浏览信息记录、分析、挖掘，为用户推送感兴趣的商品。

2.日常我们用到的云服务器、钉钉办公软件、百度网盘等应用都是云计算服务厂商提供的云计算服务。

（）参考答案:对第一章测试1.云计算的服务模式包括（）。

参考答案:平台即服务;软件即服务;基础设施即服务2.云计算的劣势有（）。

参考答案:风险被集中;数据泄密的环节增多;严重依赖网络3.云计算部署模型有（）。

参考答案:公有云;私有云;混合云4.云计算是把有形的产品（网络设备、服务器、存储设备、各种软件等）转化为服务产品（IaaS，PaaS，SaaS），并通过网络让人们远程在线使用。

（）参考答案:对5.云计算是一种计算模式，能够提供随时随地、便捷的、随需应变的网络接入，访问可配置的计算资源共享池。

（）参考答案:对第二章测试1.虚拟化技术主要用于云计算物理资源的池化，物理资源不包括（）。

参考答案:操作系统2.虚拟技术特性有（）。

参考答案:隔离;封装;分区;相对于硬件独立3.虚拟化的益处包括（）。

参考答案:实现节能减排;实现动态负载均衡;实现资源最优利用;通过系统自愈功能提升可靠性4.个人PC上使用比较多的虚拟化工具有（）。

参考答案:Virtual Box;VMware Workstation5.虚拟化是一项技术，而云是一种环境或服务。

（）参考答案:对6.虚拟化的主要功能是把单个资源抽象成多个给用户使用，而云计算则是帮助不同部门或公司访问一个自动置备的资源池。

（）参考答案:对第三章测试1.开放系统的存储类型分为内置存储和外挂存储，其中外挂存储可分为（）。

2020年智慧树知道网课《大数据分析及应用》课后章节测试满分答案

第一章测试1【单选题】(2分)大数据的英文描述是（）A.HeavydataB.LargedataC.GreatdataD.Bigdata2【单选题】(2分)下面最大的储存单位是（）A.KBB.TBC.GBD.PB3【单选题】(2分)大数据之父是（）A.詹姆斯·高斯林B.姚期智C.查尔斯·巴赫曼D.维克托·迈尔-舍恩伯格4【多选题】(2分)大数据的特点包括（）A.VelocityB.ValueC.VolumeD.Variety5【多选题】(2分)第一次正式提出大数据概念和第一次用社会调查的方式分析大数据对人们生活影响的期刊是（）和（）A.PNASB.ScienceC.NatureD.Cell6【判断题】(2分)大数据是只和互联网相关的计算机技术。

A.错B.对7【判断题】(2分)企业中大部分的数据都是非结构化数据。

A.错B.对8【判断题】(2分)大数据技术的基础是由阿里巴巴首先提出的。

A.错B.对9【判断题】(2分)大数据人才需要数学、统计学、数学分析、商业分析和自然语言处理的多方面的学习。

A.对B.错10【判断题】(2分)大数据对网络安全没有威胁。

A.对B.错第二章测试1【单选题】(2分)目前，企业的数据架构存在的最大比例问题是（）A.运营成本高B.拓展性差C.高耗能D.资源利用率低2【判断题】(2分)目前，企业数据分析处理面临的主要问题是缺少数据全方位分析方法。

A.对B.错3【单选题】(2分)地图导航根据以往的行程记录，绘制了最优路程，标明了可能堵车的地点，这表现了大数据分析理念中的（）A.注重全体而不是局部B.注重相关性而不是因果性C.注重效率而不是准确D.注重相对性而不是绝对性4【单选题】(2分)最早提出大数据研发计划的国家是（）A.中国B.美国C.法国D.日本5【多选题】(2分)大数据可能被运用的行业有（）A.金融B.农业C.医疗D.教育6【判断题】(2分)2015年9月18日云南省启动我国首个大数据综合试验区的建设工作。

智慧树知到《大数据算法》章节测试答案

3.大数据算法的()特点,使其与大数据算法密切相关的。答案：速度快数据量大 A、数据量大 B、基于高度分析的新价值 C、速度快 D、多样性、复杂性 4.为解决单个计算机难以保存全部数据的问题,通常会采用并行处理的技术,此技术会涉及到时间亚线性算法。× 1.5 1.大数据算法涉及到外存的时候,通常要分析()。答案：IO 复杂性 A、时间空间复杂性 B、IO 复杂性 C、结果质量 D、通讯复杂性 2.下列选项中,属于智能仿生算法的是()。答案：遗传算法模拟退火算法 A、遗传算法 B、近似算法 C、模拟退火算法 D、数据流算法 3.在线算法/数据流算法是面向大数据速度快的特点提出的。()√ 4.对于数据流算法或在线算法,经常要分析结果的近似比。()× 5.随机算法是利用随机化的方法来进行大数据处理,是大数据算法设计技术之一。 ()√ 2.1
()√ 4.在频繁元素计算算法中,当数据流中元素的总个数远大于估计值与真实值相差的最多值时,可以得到频繁项一个好的估计。√ 3.3 1. 时间亚线性算法的思想是:利用特定子图联通分量的数量估计最小生成树的()。答案：权重 A、近似值 B、精确值 C、权重 D、界限 2.求最小生成树是一个贪心法,可以用()算法来解决。答案：Prime A、Prime B、并行 C、MG D、内存 3.对联通分量个数的估计可以利用随机化方法。√ 3.4 1. 对于输入 n 个数的数组(x1,x2,x3,……,xn),输出:这个数组是否有序。远离意味着必须删除大于()个元素才能保证剩下的元素有序。答案：n A、-n B、n C、/n
D、(1-)-近似 2.利用平面图的直径近似算法得到的解,在最坏情况下,也不会小于最优解的()。答案：二分之一 A、二分之一 B、三分之一 C、四分之一 D、十分之一 3.采用平面图的直径近似算法的动机是无法在要求的时间内得到()。答案：精确解 A、相似解 B、完整解 C、精确解 D、近似解 4.在平面图的直径近似算法中,要求点之间的距离满足三角不等式是指在 i、j、k 三个点中,i 到 j 的距离加上 j 到 k 的距离小于 i 到 k 的距离。× 5.近似算法能给出一个优化问题的优化解。× 6.RatioBound 越大,则近似解越坏。()√ 2.4 1. 在判定问题的近似中,对于近似解需要区分的是()。答案：差得很远是 A、是 B、否 C、差不离 D、差得很远

大数据导论智慧树知到答案2024年商丘工学院

大数据导论商丘工学院智慧树知到答案2024年第一章测试1.大数据的前沿技术是（）。

A:数据定义B:数据结构.C:数据处理D:数据分析答案:D2.大数据赖以生存的土壤是（）。

A:互联网B:前沿技术C:物联网D:网络信息答案:A3.第三次信息化浪潮的标志是哪些技术的兴起？( )A:云计算B:大数据C:个人计算机D:物联网答案:ABD4.以下是大数据存储面临的挑战的选项是( )。

A:数据问题B:管理问题C:应用问题D:系统问题答案:BCD5.信息科技为大数据时代提供哪些技术支撑？( )A:网络带宽不断增加B:CPU 处理能力大幅提升C:存储设备容量不断增加D:数据量不断增大答案:ABC6.大数据产业指的是什么（）。

A:一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合B:提供分布式计算、数据挖掘、统计分析等服务的各类企业C:提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业D:提供数据分享平台、数据分析平台、数据租售平台等服务的企业答案:A7.万维网之父是 ( )。

A:蒂姆●伯纳斯-李B:彼得●德鲁克C:舍恩伯格D:斯科特布朗答案:A8.以下哪一项不属于大数据的特征（）。

A:数据价值密度高B:单位处理数据的速度高C:数据类型复杂D:数据量大答案:A9.大数据存储的特点与挑战有( )。

A:成本问题B:容量问题C:安全问题D:延迟问题答案:ABCD10.大数据可以帮助发现规律，大数据可以帮助解释现象，大数据可以帮助预测未来。

（）A:对 B:错答案:A第二章测试1.大数据的最显著特征是( )。

A:数据类型多样B:数据价值密度高C:数据处理速度快D:数据规模大答案:D2.下列不属于 Google云计算平台技术架构的是（）。

A:结构化数据表 BigTableB:分布式锁 ChubbyC:并行数据处理 MapReduceD:弹性云计算 EC2答案:D3.物联网的全球发展形势可能提前推动人类进入“智能时代”，也称（）。

智慧树知到大数据分析与应用章节测试答案

第一章单元测试1、单选题：大数据泛指巨量的（）。

选项：A:数组集B:数字集C:数据集D:字符集答案: 【数据集】2、单选题：数据分析指的是用适当的（）对收集来的大量数据进行分析，提取有用信息并形成结论。

选项：A:统计分析方法B:定性与定量方法C:概率分析方法D:系统分析方法答案: 【统计分析方法】3、单选题：浏览数据这一步骤可以通过对大数据进行（）来实现。

选项：A:流程化B:分析化C:简易化D:可视化答案: 【可视化】4、多选题：Gartner将大数据定义为是需要新处理模式才能具有更强的（）以及高增长率和多样化的信息资产。

选项：A:流程优化能力B:数据处理能力C:决策力D:洞察发现力答案: 【流程优化能力;决策力;洞察发现力】5、多选题：我们通常用“4V”来反映大数据的特点，4V是指（）。

选项：A:VelocityB:VarietyC:VariousD:Valid答案: 【Velocity;Variety】6、多选题：大数据分析可以应用在那些领域（）。

选项：A:商业领域B:医疗卫生领域C:交通运输领域D:农业领域答案: 【商业领域;医疗卫生领域;交通运输领域;农业领域】7、多选题：大数据分析的过程包括（）。

选项：A:数据理解B:数据处理C:数据优化D:数据准备答案: 【数据理解;数据准备】8、判断题：数据只要有足够的规模就可以称为大数据。

（）选项：A:对B:错答案: 【对】9、判断题：大数据分析是大数据到知识，再到信息的关键步骤。

（）选项：A:错B:对答案: 【错】10、判断题：大数据分析模型用于描述数据之间的关系。

如确定自变量、因变量，进而通过聚类、回归等方法确定其关系。

（）选项：A:对B:错答案: 【对】第二章单元测试1、单选题：数据仓库的定义于哪一年提出（）。

选项：A:1991B:2015C:1902D:2002答案: 【1991】2、单选题：符合选择建立数据仓库平台的公认标准的是（）。

选项：A:是否提供支持少量数据的数据加载B:是否支持对数据库的管理C:是否支持串联操作D:数据库对大数据量的支持能力答案: 【数据库对大数据量的支持能力】3、单选题：建立数据仓库的首要步骤是（）。

智慧树知到《大数据工具应用》章节测试答案

绗竴绔?1銆?011骞撮害鑲敗鐮旂┒闄㈡彁鍑虹殑澶ф暟鎹畾涔夋槸锛氬ぇ鏁版嵁鏄寚鍏跺ぇ灏忚秴鍑轰簡甯歌鏁版嵁搴撳伐鍏疯幏鍙栥€佸偍瀛樸€佺鐞嗗拰锛? 锛夎兘鍔涚殑鏁版嵁闆嗐€?A:璁＄畻B:璁块棶C:搴旂敤D:鍒嗘瀽绛旀: 鍒嗘瀽2銆佺敤4V鏉ユ鎷ぇ鏁版嵁鐨勭壒鐐圭殑璇濓紝涓€鑸槸鎸囷細Value銆乂elocity 銆乂olume鍜岋紙锛夈€?A:VarietyB:VainlyC:VagaryD:Valley绛旀: Variety3銆佸ぇ鏁版嵁鍒嗘瀽鍥涗釜鏂归潰鐨勫伐浣滀富瑕佹槸锛氭暟鎹垎绫汇€侊紙锛夈€佸叧鑱旇鍒欐寲鎺樺拰鏃堕棿搴忓垪棰勬祴銆?A:鏁版嵁缁熻B:鏁版嵁璁＄畻C:鏁版嵁鑱氱被D:鏁版嵁娓呮礂绛旀: 鏁版嵁鑱氱被4銆佹柊娴拰浜笢鑱斿悎鎺ㄥ嚭鐨勫ぇ鏁版嵁鍟嗗搧鎺ㄨ崘锛屾槸鐢变含涓滅洸鐩帹閫佸埌褰撳墠娴忚鏂版氮缃戠珯鐨勭敤鎴风殑椤甸潰涓婄殑銆?A:瀵?B:閿?绛旀: 閿?5銆佺洰鍓嶇殑澶ф暟鎹鐞嗘妧鏈彧鑳藉鐞嗙粨鏋勫寲鏁版嵁銆?A:瀵?B:閿?绛旀: 閿?绗簩绔?1銆佹垜浠父鐢ㄧ殑寰蒋Office濂椾欢涓殑Access鏁版嵁搴撹蒋浠剁殑鏁版嵁搴撴枃浠舵牸寮忓悗缂€鍚嶆槸锛? 锛夈€?A:mdfB:mdbC:dbfD:xls绛旀: mdb2銆佸ぇ澶氭暟鏃ュ織鏂囦欢鐨勫悗缂€鍚嶆槸锛? 锛夈€?A:txtB:csvC:xmlD:log绛旀: log3銆佹湰璇剧▼閲嶇偣浠嬬粛鐨剋eka杞欢鐨勪笓鏈夋枃浠舵牸寮忔槸锛? 锛夈€?A:MongoDBB:ARFFC:valueD:key map绛旀: ARFF4銆佹暟鎹竻娲楀伐浣滅殑鐩殑涓昏鏄瑙ｅ喅鏁版嵁鐨勫畬鏁存€с€佸敮涓€鎬с€佸悎娉曟€у拰锛? 锛夈€?A:涓撲笟鎬?B:鎺掍粬鎬?C:涓€鑷存€?D:鍏变韩鎬?绛旀: 涓€鑷存€?5銆佸叓鐖奔杞欢鐨勨€滆嚜瀹氫箟閲囬泦鈥濆伐浣滄柟寮忎笅锛岄渶瑕佸湪杞欢閲岃緭鍏ヤ竴涓紙锛夋潵浣滀负閲囬泦鐨勭洰鏍囥€?A:鐢佃瘽鍙风爜B:鍏抽敭璇?C:缃戦〉鍦板潃D:鐢ㄦ埛鍚?绛旀: 缃戦〉鍦板潃6銆佸叓鐖奔杞欢鐨勯噰闆嗚鍒欏彲浠ラ€氳繃鏂囦欢鐨勫舰寮忔潵瀵煎叆鎴栬€呭鍑猴紝杩欑鏂囦欢鐨勫悗缂€鍚嶆槸锛? 锛夈€?A:otdB:jpgC:pngD:gif绛旀: otd7銆丒xcel鍙互閫氳繃鈥滄暟鎹湁鏁堟€р€濇寜閽搷浣滄潵瑙勮寖鏁版嵁杈撳叆鐨勮寖鍥淬€?A:瀵?B:閿?绛旀: 瀵?8銆丒xcel涓嶈兘瀵煎叆txt鎴朿sv鏍煎紡鐨勬枃浠躲€?A:瀵?B:閿?绛旀: 閿?9銆佸叓鐖奔杞欢鍙兘瀵硅蒋浠跺唴寤轰簡鈥滅畝鏄撻噰闆嗏€濊鍒欑殑缃戠珯閲囬泦鏁版嵁銆?A:瀵?B:閿?绛旀: 閿?10銆佸叓鐖奔杞欢杩涜鑷畾涔夐噰闆嗘椂锛岄渶瑕佷簡瑙ｅ缃戦〉鐨勯〉闈㈢粨鏋勩€?A:瀵?B:閿?绛旀: 瀵?绗笁绔?1銆佷娇鐢―BSCAN绠楁硶瀵归涪灏捐姳鏁版嵁闆嗭紙Iris.arff锛夎繘琛岃仛绫伙紝灏唀psilon鍙傛暟璁剧疆涓?.2锛? minPoints鍙傛暟璁剧疆涓?锛屽拷鐣lass灞炴€э紝閭ｄ箞灏嗗舰鎴愶紙锛変釜绨囥€?A: 1B: 2C: 3D: 4绛旀: 32銆佷娇鐢‥M绠楁硶瀵瑰ぉ姘旀暟鎹泦锛坵eather.numeric.arff锛夎繘琛岃仛绫伙紝灏唍umClusters璁剧疆涓?锛屽嵆绨囨暟涓?锛屽叾浠栧弬鏁颁繚鎸侀粯璁ゅ€硷紝蹇界暐class灞炴€э紝浠庣粨鏋滀腑鍙煡锛屼笅鍒楅€夐」涓紝锛? 锛夋槸閿欒鐨勩€?A: 妯″瀷鐨勬渶澶т技鐒朵及璁″€兼槸-7.18B: 杩欑粍鏁版嵁鐢ㄧ畻娉曡凯浠?5娆?C: 绗洓涓皣鐨勫厛楠屾鐜囨槸0.14D: 绗洓涓皣鐨勫疄渚嬫暟涓?绛旀: 绗洓涓皣鐨勫疄渚嬫暟涓?3銆佷娇鐢⊿impleKMeans绠楁硶瀵瑰ぉ姘旀暟鎹泦锛坵eather.numeric.arff锛夎繘琛岃仛绫伙紝淇濇寔榛樿鍙傛暟锛屽嵆3涓皣浠ュ強娆ф皬璺濈銆傞€夋嫨play灞炴€т负蹇界暐灞炴€э紝浠庣粨鏋滀腑鍙煡锛屼笅鍒楅€夐」涓紝锛? 锛夋槸閿欒銆?A: 杩欑粍鏁版嵁鐢ㄧ畻娉曡凯浠ｅ洓娆?B: 浜х敓浜嗕笁涓腑蹇冪偣C: 鑱氬悎涓?涓皣锛屽垎鍒湁7锛?锛?涓疄渚?D: 骞虫柟鍜岃宸负8.928绛旀: 杩欑粍鏁版嵁鐢ㄧ畻娉曡凯浠ｅ洓娆?4銆佷娇鐢ㄧ嚎鎬у洖褰掞紙LinearRegression锛夊垎绫诲櫒鍜岀敤M5P鍒嗙被鍣ㄥcpu.arff鍒嗗埆杩涜鍒嗙被锛岀敱鍏惰緭鍑虹殑璇樊鎸囨爣鍙煡锛? 锛夈€?A: LinearRegression鐨勬爣鍑嗚宸瘮M5P鐨勬爣鍑嗚宸皬B: LinearRegression鐨勫钩鍧囩粷瀵硅宸瘮M5P鐨勫钩鍧囩粷瀵硅宸皬C: LinearRegression鐨勭浉瀵硅宸瘮M5P鐨勭浉瀵硅宸皬D: LinearRegression鐨勫钩鍧囨柟鏍硅宸瘮M5P鐨勫钩鍧囨柟鏍硅宸ぇ绛旀: LinearRegression鐨勫钩鍧囨柟鏍硅宸瘮M5P鐨勫钩鍧囨柟鏍硅宸ぇ5銆佸垹鍘籧pu.arff鏁版嵁鏂囦欢涓殑CACH灞炴€у悗锛屼娇鐢∕5P鍒嗙被鍣ㄦ瀯寤烘柟妗堬紝鍦ㄧ粨鏋滀腑锛屽埌杈綥M2鐨勫疄渚嬫暟鏈夛紙锛変釜銆?A: 165B: 21C: 23D: 30绛旀: 216銆佹牴鎹甁48鍒嗙被鍣ㄨ缁僿eather.nominal.arff鎵€鐢熶骇鐨勫喅绛栨爲锛屽綋outlook=sunny锛泃emperature=cool锛沨umidity =high锛泈indy=TRUE鏃讹紝鍒嗙被鐨勭粨鏋滄槸锛?锛夈€?A: YesB: NoC: 娌℃湁缁撴灉D: 鏃犳硶鍒嗙被绛旀: No7銆佹牴鎹甁48鍒嗙被鍣ㄨ缁僫ris.arff鎵€鐢熶骇鐨勫喅绛栨爲锛屽綋sepallength=4.4锛泂epalwidth=3.0锛沺etallength=1.3锛沺etalwidth=0.2鏃讹紝鍒嗙被鐨勭粨鏋滄槸锛? 锛夈€?A: Iris-setosaB: Iris-versicolorC: Iris-virginicaD: 鏃犳硶鍒嗙被绛旀: Iris-setosa8銆佸叧浜嶹eka绂绘暎鍖栬鏄庢纭殑鏄紙锛夈€?A: 绂绘暎鍖栨槸灏嗘暟鍊煎睘鎬ц浆鎹负瀛楃涓插瀷灞炴€?B: 鏈夌洃鐫ｇ鏁ｅ寲鏈変袱绉嶇瓑瀹藉拰绛夐鏂规硶C: 绛夊绂绘暎鍖栨槸浣垮疄渚嬪垎甯冨潎鍖€鐨?D: 绂绘暎鍖栧寘鎷棤鐩戠潱绂绘暎鍖栧拰鏈夌洃鐫ｇ鏁ｅ寲绛旀: 绂绘暎鍖栧寘鎷棤鐩戠潱绂绘暎鍖栧拰鏈夌洃鐫ｇ鏁ｅ寲9銆佷互涓嬶紙锛変笉鏄疻eka鐨勬暟鎹被鍨嬨€?A: numericB: nominalC: stringD: decimal绛旀: decimal10銆佸叧浜嶹eka鐨勬枃浠剁被鍨嬫弿杩伴敊璇殑鏄紙锛夈€?A: Weka鍙互鎵撳紑鏂囦欢鏍煎紡鏈?arff銆?csv銆?xlsxB: Weka澶勭悊鐨勬暟鎹泦绫讳技浜庡叧绯绘暟鎹簱妯瀹炰緥锛岀珫琛屽睘鎬?C: arff鏄疉SCII鏂囦欢锛屽彲浠ョ敤Word绛夋枃鏈紪杈戝櫒鎵撳紑鏌ョ湅D: @relation 瀹氫箟鏁版嵁闆嗗悕绉帮紝@data涔嬪悗鍛堢幇瀹炰緥锛屾瘡涓€琛屽氨鏄竴涓疄渚?绛旀: Weka鍙互鎵撳紑鏂囦欢鏍煎紡鏈?arff銆?csv銆?xlsx11銆佷互涓嬪睘浜庡叧鑱斿垎鏋愮殑鏄紙锛夈€?A: CPU鎬ц兘棰勬祴B: 璐墿绡垎鏋?C: 鑷姩鍒ゆ柇楦㈠熬鑺辩被鍒?D: 鑲＄エ瓒嬪娍寤烘ā绛旀: 璐墿绡垎鏋?12銆佸ぇ鏁版嵁鏃朵唬鐨勫埌鏉ワ紝浣挎垜浠棤娉曚汉涓哄湴鍘诲彂鐜版暟鎹腑鐨勫ゥ濡欙紝涓庢鍚屾椂锛屾垜浠洿搴旇娉ㄩ噸鏁版嵁涓殑鐩稿叧鍏崇郴锛岃€屼笉鏄洜鏋滃叧绯汇€傚叾涓紝鏁版嵁涔嬮棿鐨勭浉鍏冲叧绯诲彲浠ラ€氳繃浠ヤ笅锛? 锛夌畻娉曠洿鎺ユ寲鎺樸€?A: K-meansB: Bayes NetworkC: C4.5D: Apriori绛旀: Apriori13銆佹煇瓒呭競鐮旂┒閿€鍞邯褰曟暟鎹悗鍙戠幇锛屼拱鍟ら厭鐨勪汉寰堝ぇ姒傜巼涔熶細璐拱灏垮竷锛岃繖绉嶅睘浜庢暟鎹寲鎺樼殑锛? 锛夐棶棰樸€?A: 鍏宠仈瑙勫垯鍙戠幇B: 鑱氱被C: 鍒嗙被D: 鑷劧璇█澶勭悊绛旀: 鍏宠仈瑙勫垯鍙戠幇14銆佸湪杩涜鑷姩閫夋嫨灞炴€ф椂锛屽繀椤昏绔嬩袱涓璞★紝鍏朵腑纭畾浣跨敤浠€涔堟柟娉曚负姣忎釜灞炴€у瓙闆嗗垎閰嶄竴涓瘎浼板€肩殑瀵硅薄鏄笅闈㈢殑锛? 锛夈€?A: 鎼滅储鏂规硶B: 灞炴€ц瘎浼板櫒C: 鍏冨垎绫诲櫒D: 瑙勫垯鎸栨帢绛旀: 灞炴€ц瘎浼板櫒15銆佷互涓嬪睘浜庡睘鎬х┖闂寸殑鎼滅储鏂规硶鐨勬槸锛?锛夈€?A: GainRatioAttributeEvalB: BestFirstC: PrincipalComponentsD: SymmetricalUncertAttributeEval绛旀: BestFirst16銆佸湪weka杞欢鎺㈢储鑰呯晫闈腑锛屽埄鐢╒isualize鏍囩椤甸€氳繃鏇存敼鍚勪釜鍙傛暟鏉ヨ繘琛屾暟鎹泦鐨勫彲瑙嗗寲灞炴€ц缃悗锛岄渶瑕佸崟鍑讳互涓嬶紙锛夋寜閽紝鎵€鏈夋洿鏀规墠浼氱敓鏁堛€?A: Select AttributeB: SubSampleC: UpdateD: Fast scrolling绛旀: Update17銆佺粰瀹氬叧鑱旇鍒橝B锛屾剰鍛崇潃锛氳嫢A鍙戠敓锛孊涔熶細鍙戠敓銆?A:瀵?B:閿?绛旀: 閿?18銆佹敮鎸佸害鏄閲忓叧鑱旇鍒欓噸瑕佹€х殑涓€涓寚鏍囥€?A:瀵?B:閿?绛旀: 瀵?19銆丷anker鏂规硶鏃㈠彲浠ョ敤浜庡崟涓睘鎬ц瘎浼板櫒锛屽張鍙互鐢ㄤ簬灞炴€у瓙闆嗚瘎浼板櫒銆?A:瀵?B:閿?绛旀: 閿?20銆佸埄鐢╳eka杞欢杩涜鏁版嵁鍙鍖栨椂锛岀敤鎴峰彲浠ラ€夋嫨绫诲埆灞炴€у鏁版嵁鐐圭潃鑹诧紝濡傛灉绫诲埆灞炴€ф槸鏍囩О鍨嬶紝鍒欐樉绀轰负褰╄壊鏉°€?A:瀵?B:閿?绛旀: 閿?绗洓绔?1銆佽礉鍙舵柉缃戠粶涓殑鑺傜偣浠ｈ〃锛? 锛夈€?A:鍙橀噺B:闅忔満杩囩▼C:闅忔満鍙橀噺D:闅忔満鍑芥暟绛旀: 闅忔満鍙橀噺2銆佽礉鍙舵柉缃戠粶涓紝鑺傜偣闇€缁欏嚭姒傜巼鍒嗗竷鎻忚堪锛屽浜庣鏁ｅ瀷闅忔満鍙橀噺鑰岃█锛屽彲浠ョ敤锛? 锛夌殑褰㈠紡琛ㄧず銆?A:鏉′欢姒傜巼瀵嗗害鍑芥暟B:姝ｆ€佸垎甯?C:鏉′欢姒傜巼琛?D: 鍧囧寑鍒嗗竷绛旀: 鏉′欢姒傜巼琛?3銆佽礉鍙舵柉缃戠粶涓妭鐐逛箣闂寸殑杈逛唬琛紙锛夈€? A:闅忔満鍏崇郴B:姒傜巼鍥犳灉C:缁勫悎鍏崇郴D:闅忔満缁撴灉绛旀: 闅忔満鍏崇郴4銆佽礉鍙舵柉缃戠粶淇濆瓨鐨勬枃浠舵牸寮忔槸( )銆?A:XML BIFB:DOCXC: TXTD:XLS绛旀: XML BIF5銆佷笅闈紙锛変笉鏄弽鍚戜紶鎾缁忕綉缁滅殑缁撴瀯銆? A:杈撳叆灞?B:闅愬惈灞?C:璁＄畻灞?D:杈撳嚭灞?绛旀: 璁＄畻灞?6銆佺缁忕綉缁滀腑鐨勮妭鐐逛唬琛紙锛夈€?A:婵€鍔卞彉閲?B:婵€鍔卞嚱鏁?C:闅忔満鍙橀噺D:闅忔満鍑芥暟绛旀: 婵€鍔卞嚱鏁?7銆佷笅鍒楋紙锛変笉鏄父瑙佺殑婵€鍔卞嚱鏁般€?A:绾挎€у嚱鏁?B:Sigmoid鍑芥暟C:闃堝€煎嚱鏁?D:姝ｅ鸡鍑芥暟绛旀: 姝ｅ鸡鍑芥暟8銆佸湪璐濆彾鏂綉缁滅紪杈戠晫闈㈡椂锛屽鏋滆妭鐐圭殑鍚嶇О娌℃硶瀹屽叏鏄剧ず锛岄渶瑕佷粠锛? 锛夎彍鍗曢」杩涜璋冩暣銆?A:Tools|SetDataB:View|Zoom OutC:View|Zoom InD:Tools|Layout绛旀: Tools|Layout9銆乄EKA涓€夋嫨绁炵粡缃戠粶鍒嗙被鍣ㄦ搷浣滄椂锛屽簲璇ラ€夋嫨锛? 锛夈€?A:rules鏉＄洰涓嬬殑PARTB:functions鏉＄洰涓嬬殑SGD鍒嗙被鍣?C:functions鏉＄洰涓嬬殑MultilayerPerceptron鍒嗙被鍣?D:榛樿鐨勫垎绫诲櫒绛旀: functions鏉＄洰涓嬬殑MultilayerPerceptron鍒嗙被鍣?10銆佷笅闈㈠叧浜嶱ackage Manager瀹夎鍚庣殑鐩綍璇存槑涓嶆纭殑鏄紙锛夈€?A:doc瀛愮洰褰曞瓨鏀続PI鏂囨。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第一章1、2011年麦肯锡研究院提出的大数据定义是：大数据是指其大小超出了常规数据库工具获取、储存、管理和（）能力的数据集。

A:计算B:访问C:应用D:分析答案: 分析2、用4V来概括大数据的特点的话，一般是指：Value、Velocity、Volume和（）。

A:VarietyB:VainlyC:VagaryD:Valley答案: Variety3、大数据分析四个方面的工作主要是：数据分类、（）、关联规则挖掘和时间序列预测。

A:数据统计B:数据计算C:数据聚类D:数据清洗答案: 数据聚类4、新浪和京东联合推出的大数据商品推荐，是由京东盲目推送到当前浏览新浪网站的用户的页面上的。

A:对B:错答案: 错5、目前的大数据处理技术只能处理结构化数据。

A:对B:错答案: 错第二章1、我们常用的微软Office套件中的Access数据库软件的数据库文件格式后缀名是（）。

A:mdfB:mdbC:dbfD:xls: mdb 答案、大多数日志文件的后缀名是（。

）2A:txtB:csvC:xmlD:log: log 答案。

weka3、本课程重点介绍的软件的专有文件格式是（）A:MongoDBB:ARFFC:valueD:key map4、数据清洗工作的目的主要是要解决数据的完整性、唯一性、合法性和（）。

A:专业性B:排他性C:一致性D:共享性答案: 一致性5、八爪鱼软件的“自定义采集”工作方式下，需要在软件里输入一个（）来作为采集的目标。

A:电话号码B:关键词C:网页地址D:用户名答案: 网页地址6、八爪鱼软件的采集规则可以通过文件的形式来导入或者导出，这种文件的后缀名是（）。

A:otdB:jpgC:pngD:gif答案: otd可以通过“数据有效性”按钮操作来规范数据输入的范围。

Excel、7．A:对B:错8、Excel不能导入txt或csv格式的文件。

A:对B:错答案: 错9、八爪鱼软件只能对软件内建了“简易采集”规则的网站采集数据。

A:对B:错答案: 错10、八爪鱼软件进行自定义采集时，需要了解对网页的页面结构。

A:对B:错答案: 对第三章1、使用DBSCAN算法对鸢尾花数据集（Iris.arff）进行聚类，将epsilon参数设置为0.2，minPoints参数设置为5，忽略class属性，那么将形成（）个簇。

A: 1B: 2C: 3D: 4答案: 32、使用EM算法对天气数据集（weather.numeric.arff）进行聚类，将numClusters设置为4，即簇数为4，其他参数保持默认值，忽略class属性，从结果中可知，下列选项中，（）是错误的。

A: 模型的最大似然估计值是-7.18B: 这组数据用算法迭代15次C: 第四个簇的先验概率是0.14D: 第四个簇的实例数为4答案: 第四个簇的实例数为43、使用SimpleKMeans算法对天气数据集（weather.numeric.arff）进行聚类，保持默认参数，即3个簇以及欧氏距离。

选择play属性为忽略属性，从结果中可知，下列选项中，（）是错误。

A: 这组数据用算法迭代四次B: 产生了三个中心点C: 聚合为3个簇，分别有7，3，4个实例D: 平方和误差为8.928答案: 这组数据用算法迭代四次4、使用线性回归（LinearRegression）分类器和用M5P分类器对cpu.arff分别进行分类，由其输出的误差指标可知（）。

A: LinearRegression的标准误差比M5P的标准误差小B: LinearRegression的平均绝对误差比M5P的平均绝对误差小C: LinearRegression的相对误差比M5P的相对误差小D: LinearRegression的平均方根误差比M5P的平均方根误差大答案: LinearRegression的平均方根误差比M5P的平均方根误差大分类器构建方案，在结果中，到达M5P属性后，使用CACH数据文件中的cpu.arff、删去5．LM2的实例数有（）个。

A: 165B: 21C: 23D: 30答案: 216、根据J48分类器训练weather.nominal.arff所生产的决策树，当outlook=sunny；temperature=cool；humidity =high；windy=TRUE时，分类的结果是（）。

A: YesB: NoC: 没有结果D: 无法分类答案: No7、根据J48分类器训练iris.arff所生产的决策树，当sepallength=4.4；sepalwidth=3.0；petallength=1.3；petalwidth=0.2时，分类的结果是（）。

A: Iris-setosaB: Iris-versicolorC: Iris-virginicaD: 无法分类答案: Iris-setosa8、关于Weka离散化说明正确的是（）。

A: 离散化是将数值属性转换为字符串型属性B: 有监督离散化有两种等宽和等频方法C: 等宽离散化是使实例分布均匀的D: 离散化包括无监督离散化和有监督离散化答案: 离散化包括无监督离散化和有监督离散化9、以下（）不是Weka的数据类型。

A: numericB: nominalC: stringD: decimal答案: decimal10、关于Weka的文件类型描述错误的是（）。

A: Weka可以打开文件格式有.arff、.csv、.xlsxB: Weka处理的数据集类似于关系数据库横行实例，竖行属性C: arff是ASCII文件，可以用Word等文本编辑器打开查看D: @relation 定义数据集名称，@data之后呈现实例，每一行就是一个实例答案: Weka可以打开文件格式有.arff、.csv、.xlsx11、以下属于关联分析的是（）。

A: CPU性能预测B: 购物篮分析C: 自动判断鸢尾花类别D: 股票趋势建模答案: 购物篮分析12、大数据时代的到来，使我们无法人为地去发现数据中的奥妙，与此同时，我们更应该注）算重数据中的相关关系，而不是因果关系。

其中，数据之间的相关关系可以通过以下（．法直接挖掘。

A: K-meansB: Bayes NetworkC: C4.5D: Apriori答案: Apriori13、某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的（）问题。

A: 关联规则发现B: 聚类C: 分类D: 自然语言处理答案: 关联规则发现14、在进行自动选择属性时，必须设立两个对象，其中确定使用什么方法为每个属性子集分配一个评估值的对象是下面的（）。

A: 搜索方法B: 属性评估器C: 元分类器D: 规则挖掘答案: 属性评估器15、以下属于属性空间的搜索方法的是（）。

A: GainRatioAttributeEvalB: BestFirstC: PrincipalComponentsD: SymmetricalUncertAttributeEval答案: BestFirst16、在weka软件探索者界面中，利用Visualize标签页通过更改各个参数来进行数据集的可视化属性设置后，需要单击以下（）按钮，所有更改才会生效。

A: Select AttributeB: SubSampleC: UpdateD: Fast scrolling答案: Update17、给定关联规则AB，意味着：若A发生，B也会发生。

A:对B:错答案: 错18、支持度是衡量关联规则重要性的一个指标。

A:对B:错答案: 对19、Ranker方法既可以用于单个属性评估器，又可以用于属性子集评估器。

A:对B:错答案: 错如果类别属性用户可以选择类别属性对数据点着色，软件进行数据可视化时，weka利用、20．是标称型，则显示为彩色条。

A:对B:错答案: 错第四章1、贝叶斯网络中的节点代表（）。

A:变量B:随机过程C:随机变量D:随机函数答案: 随机变量2、贝叶斯网络中，节点需给出概率分布描述，对于离散型随机变量而言，可以用（）的形式表示。

A:条件概率密度函数B:正态分布C:条件概率表均匀分布D:条件概率表答案:）。

3、贝叶斯网络中节点之间的边代表（随机关系A:B:概率因果组合关系C:随机结果D:答案: 随机关系4、贝叶斯网络保存的文件格式是( )。

A:XML BIFB:DOCXC: TXTD:XLS答案: XML BIF5、下面（）不是反向传播神经网络的结构。

A:输入层B:隐含层C:计算层D:输出层答案: 计算层6、神经网络中的节点代表（）。

A:激励变量B:激励函数C:随机变量D:随机函数答案: 激励函数7、下列（）不是常见的激励函数。

A:线性函数函数B:SigmoidC:阈值函数D:正弦函数答案: 正弦函数8、在贝叶斯网络编辑界面时，如果节点的名称没法完全显示，需要从（）菜单项进行调整。

A:rules条目下的PARTB:functions条目下的SGD分类器C:functions条目下的MultilayerPerceptron分类器D:默认的分类器答案: functions条目下的MultilayerPerceptron分类器10、下面关于Package Manager安装后的目录说明不正确的是（）。

API文档A:doc子目录存放子目录存放包所需要的说明文件B:libC:sample-data子目录存放数据集文件D:src子目录存放源代码文件答案: lib子目录存放包所需要的说明文件第五章．1、Tableau是一款定位于数据可视化敏捷开发和实现（）展现工具。

Tableau 连续第 6 年在Gartner 分析和商业智能魔力象限中蝉联领导者殊荣。

A:商务智能B:商业行为C:商务计算D:商业统计答案: 商务智能2、以下（）不是Tableau的数据类型？A:BooleanB:DateC:StringD:Decimal答案: Decimal3、Tableau可以用来实现交互的、（）的分析和仪表板应用，从而帮助我们快速地认识和理解数据。

A:连续性B:离散性C:智能化D:可视化答案: 可视化4、下列说法错误的是（）。

A:Tableau通过内存数据引擎，可以直接查询外部数据库同时动态的从数据仓库抽取实时数据，极大的提高了数据访问和查询效率B:用户仅需要通过轻点鼠标和简单拖放就可以迅速创建出智能、精美、直观和具有强交互性的报表和仪表盘C:Tableau允许从多个数据源访问数据，包括带分隔符的文本文件、Excel文件、SQL数据库、Oracle数据库和多维数据库等D:Tableau不提供应用编程接口答案:5、度量往往是（）字段，度量是我们的指标。