大数据导论: 阶段作业2

合集下载

大数据技术与应用作业二

大数据技术与应用作业二参考答案在文档最后面一、单项选择题1. 数据库设计过程中，第一步通常是（）A. 概念设计B. 需求分析C. 逻辑设计D. 物理设计2. 在数据库设计中，用于描述实体及实体间联系的模型是（）A. 关系模型B. 层次模型C. 网状模型D. 以上都是3. 大数据分析中，“数据清洗”的主要目的是（）A. 提高数据质量B. 减少数据量C. 改变数据类型D. 加密数据4. 以下哪种不是大数据分析的常用工具（）A. ExcelB. HadoopC. PythonD. Word5. 数据库设计的逻辑设计阶段主要任务是（）A. 建立E-R 图B. 将E-R 图转换为关系模式C. 确定存储结构和存取方法D. 收集和分析用户需求6. 大数据分析框架中的“数据存储”通常不包括（）A. 关系型数据库B. 分布式文件系统C. 内存数据库D. 纸质文档7. 在数据库设计中，消除数据冗余主要在（）阶段完成。

A. 需求分析B. 概念设计C. 逻辑设计D. 物理设计8. 大数据分析的第一步是（）A. 数据收集B. 数据清洗C. 数据分析D. 结果展示9. 以下哪个不是数据库设计的基本原则（）A. 规范化B. 完整性C. 复杂性D. 安全性10. 大数据分析框架中的“数据预处理”不包括（）A. 数据清洗B. 数据集成C. 数据挖掘D. 数据转换二、多项选择题11. 数据库表设计的步骤包括（）A. 明确需求，整理需求B. 根据需求，整理出需要的表及字段C. 确定表间关系，确定联结字段D. 利用工具建模生成或手写SQL语句12. 大数据分析的特点包括（）A. 数据量大B. 数据类型多样C. 处理速度快D. 价值密度低E. 准确性高13. 数据库概念设计阶段常用的方法有（）A. 自顶向下B. 自底向上C. 逐步扩张D. 混合策略E. 随机设计14. 以下属于大数据分析框架中“数据收集”方法的有（）A. 传感器B. 网络爬虫C. 数据库D. 文件系统E. 人工录入15. 数据库逻辑设计的成果通常包括（）A. 关系模式B. 视图定义C. 存储过程D. 索引定义E. 完整性约束16. 大数据分析的常用技术包括（）A. 数据挖掘B. 机器学习C. 统计分析D. 可视化分析E. 云计算17. 数据库物理设计的主要内容包括（）A. 确定数据库的存储结构B. 选择合适的存储介质C. 确定索引策略D. 设计备份和恢复策略E. 定义数据库的安全性策略18. 大数据分析框架中的“数据分析”方法有（）1-5.DBADB 6-10.DCACC 11.ABCD 12.ABCD 13.ABCD 14.ABCDE 15.BD 16.ABCDE 17.ABCD 18.ABCD 19.ABCDE 20.BD。

《大数据导论》期末试卷二(含答案)

《大数据导论》考试试卷二《大数据导论》试卷二答案及评分标准一、单项选择题（每题2分，共20分）1、D2、C3、C4、D5、D6、D7、C8、D9、B 10、B二、判断题（每题1分，共8分）1、×2、√3、√4、√5、×6、√7、√8、×三、名词解释（每题3分，共12分）1、物联网——是指通过各种信息传感器，射频识别技术，全球定位系统，红外感应器，激光扫描器等各种装置与技术，实时采集任何需要监控、连接、互动的物体或过程。

物联网作为信息时代信息领域的一个关键词，其本质是传感器技术进步的产物。

2、网络爬虫——是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，是搜索引擎的重要组成。

3、可视分析学——是通过交互式可视化界面促进分析推理的一门科学，尤其关注的是意会和推理。

4、云存储——是一种网上在线存储的模式，即把数据存放在由第三方托管的多台虚拟服务器中。

托管公司营运大型的数据中心，需要数据存储托管的人向数据中心购买或租赁存储空间来满足数据存储的需求；数据中心营运商根据客户的需求，在后端准备存储虚拟化的资源，并将其以存储资源池的方式提供给客户。

四、简答题（第1、2题各7分，第3、4题各8分，共30分）1、参考答案：（1）硬件性价比的提高。

体现在计算机性价比的提高和磁盘价格的下降。

（2分）（2）软件技术的进步，主要是大规模数据分布式处理技术Hadoop的诞生。

（2分）（3）云计算的普及，使得大数据的处理环境在很多情况下不一定要自行搭建了。

（3分）2、参考答案：第一个转变就是，在大数据时代，我们可以分析更多的数据，有时候甚至可以处理和某个特别现象相关的所有数据，而不再是只依赖于随机采样。

（2分）第二个转变就是，研究数据如此之多，以至于我们不再热衷于追求精确度。

当我们测量事物的能力受限时，关注最重要的事情和获取最精确的结果是可取的。

（3分）第三个转变即我们不再热衷于寻找因果关系。

大数据导论：大数据交易单元测试与答案

大数据导论：大数据交易单元测试与答案在当今数字化的时代，大数据已经成为了一种极其重要的资源，其价值日益凸显。

大数据交易作为大数据应用的一个重要领域，也受到了越来越多的关注。

为了更好地理解和掌握大数据交易的相关知识，我们进行了本次单元测试。

以下是本次测试的题目以及对应的答案。

一、选择题（每题 5 分，共 30 分）1、以下哪项不是大数据的特点？（）A 数据量大B 数据类型多样C 数据价值密度高D 处理速度快答案：C解析：大数据的特点包括数据量大、数据类型多样、处理速度快，但数据价值密度通常较低，需要通过有效的分析和挖掘才能获取有价值的信息。

2、大数据交易的主要模式包括（）A 在线交易B 离线交易C 平台交易D 以上都是答案：D解析：大数据交易的模式多种多样，包括在线交易、离线交易和通过专门的平台进行交易等。

3、大数据交易中，数据的质量主要包括（）A 准确性B 完整性C 一致性D 以上都是答案：D解析：数据的质量涵盖准确性、完整性和一致性等多个方面，这些因素都会影响数据的可用性和价值。

4、以下哪种数据不属于大数据交易的范畴？（）A 个人隐私数据B 企业生产数据C 政府公开数据D 社交媒体数据答案：A解析：个人隐私数据受到法律保护，通常不允许进行交易。

5、大数据交易的风险主要包括（）A 数据泄露风险B 法律合规风险C 数据质量风险D 以上都是答案：D解析：大数据交易面临着多种风险，如数据泄露、法律合规以及数据质量等方面的风险。

6、促进大数据交易发展的关键因素是（）A 完善的法律法规B 先进的技术支持C 数据标准化D 以上都是答案：D解析：完善的法律法规能保障交易的合法性和规范性，先进的技术支持能确保交易的安全和高效，数据标准化则有利于数据的流通和交易。

二、填空题（每题 5 分，共 20 分）1、大数据交易的流程通常包括数据准备、＿____、交易撮合和交易结算。

答案：数据定价解析：数据定价是确定数据价值和交易价格的重要环节。

南开24秋学期《大数据导论》作业参考二

24秋学期《大数据导论》作业参考1.基础设施即服务的英文简称是选项A：IaaS选项B：PaaS选项C：SaaS参考答案：A2.用于描述数据分散情况的是()选项A：分布图选项B：箱式图选项C：饼图选项D：折线图参考答案：B3.数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段( )。

选项A：运营式系统阶段选项B：用户原创内容阶段选项C：感知式系统阶段参考答案：A4.数据仓库是随着时间变化的,下列不正确的是()选项A：数据仓库随时间变化不断增加新内容选项B：捕捉到的新数据会覆盖原来的快照选项C：数据仓库随事件变化不断删去旧的数据内容选项D：数据仓库中包含大量的综合数据，这些综合数据会随时间的变化不断进行重新综合参考答案：C5.下列哪个R语言扩展包可以制作一系列的图像并将它们串联起来做成动画()选项A：ggplot2选项B：network选项C：ggmaps选项D：animation参考答案：D6.以下不是数据仓库基本特征的是()选项A：数据仓库是面向主题的选项B：数据仓库是面向事务的选项C：数据仓库的数据是相对稳定的选项D：数据仓库的数据是反映历史变化的参考答案：B7.购物篮问题是##的典型案例选项A：数据变换选项B：关联规则挖掘选项C：数据分类参考答案：B8.PaaS是()的简称选项A：软件即服务选项B：平台即服务选项C：基础设施即服务选项D：硬件即服务参考答案：B9.DAS代表的意思是()选项A：两个异步存储选项B：数据归档软件选项C：连接一个可选的存储选项D：直连存储参考答案：D10.IaaS是()的简称。

大数据导论习题及答案

第1章1.简述什么是大数据？答：大数据（big data）是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

2.大数据的数据有什么特点？答：数据量大（Volume）、数据类型复杂（Variety）、数据产生速度快（Velocity）、价值密度低（Value）。

3.大数据对科学研究有什么影响？答：促进了科学研究的第四范式产生和交叉学科的发展。

4.大数据有哪些数据类型？答：有结构化数据、非结构化数据和半结构化数据。

5.大数据有哪些应用？答：大数据可以在众多领域创造巨大的衍生价值：实现数据的资源化，帮助企业抢占市场，提供个性化服务，指定有效方针等；与云计算深度结合；可能会改变数据世界里的很多算法和基础理论，实现科学技术上的突破第2章1.简述什么是云计算？答：①云计算是一种动态扩展的计算模式，通过网络将虚拟化的资源作为服务提供给用户。

②云计算是一种无处不在的、便捷的通过互联网访问的一个可定制的IT资源（IT资源包括网络、服务器、存储、应用软件和服务）共享池，是一种按使用量付费的模式。

它能够通过最少量的管理或与服务供应商的互动实现计算资源的迅速供给和释放2.云计算有什么特点？答：①具有大规模并行计算能力②资源虚拟化和弹性调度③数据量巨大并且增速迅猛产生了典型的大数据处理技术3.请简述云计算的三种主要部署模式。

答：①公有云：提供面向社会大众、公共群体的云计算服务②私有云：提供面向应用行业/组织内的云计算服务③混合云：是把公有云和私有云进行整合，吸纳二者的优点，给企业带来真正意义上的云计算服务4.请简述云计算的三种主要服务模式。

答：1.基础设施即服务（IaaS）①主要用户是系统管理员②直接利用云提供的资源进行业务的部署或简单的开发③服务提供商提供给用户的服务是计算和存储基础设施④用户不管理或控制任何云计算基础设施，但能控制操作系统的选择⑤关键技术及解决方案是虚拟化技术2.平台即服务（PaaS）①主要用户是开发人员②把应用服务的运行和开发环境作为一种服务提供的商业模式即PaaS是把二次开发的平台以服务形式提供给开发软件的用户使用③开发人员不需要管理或控制底层的云计算基础设施，但可以方便地使用很多在构建应用时的必要服务④两个关键技术：分布式的并行计算和大文件分布式存储3.软件即服务（SaaS）①主要用户是普通用户②服务提供商提供给用户的服务是运行在云计算基础设施上的应用程序，用户只需要通过终端设备接入使用即可，简单方便，不需要用户进行软件开发，也无需管理底层资源③关键技术是多租户技术，使资源能够更好的共享5.请画出云计算基础设施Google平台的基础架构图。

南开19春学期《大数据导论》在线作业

【奥鹏】[南开大学]19春学期（1709、1803、1809、1903）《大数据导论》在线作业试卷总分:100 得分:100第1题,IaaS是()的简称A、软件即服务B、平台即服务C、基础设施即服务D、硬件即服务正确答案:第2题,下面哪一项不是中国发展大数据产业的基础()。

A、信息化积累了丰富的数据资源B、大数据技术创新取得明显突破C、大数据应用推动势头良好D、大数据产业支撑薄弱正确答案:第3题,用于描述数据分散情况的是()A、分布图B、箱式图C、饼图D、折线图正确答案:第4题,PaaS是()的简称A、软件即服务B、平台即服务C、基础设施即服务D、硬件即服务正确答案:第5题,GFS中的文件切分成()的块进行存储A、32MBB、64MBC、128MBD、1G正确答案:第6题,大数据的最显着特征是() 。

A、数据规模大B、数据类型多样C、数据处理速度快D、数据价值密度高正确答案:第7题,SAN是一种()A、存储设备B、专为数据存储而设计构建的网络C、光纤交换机D、HBA正确答案:第8题,用于描述相等时间间隔下连续数据随时间变化趋势的是()A、折线图B、散点图C、条形图D、饼图正确答案:第9题,下列哪个R语言扩展包可以制作一系列的图像并将它们串联起来做成动画()A、ggplot2B、networkC、ggmapsD、animation正确答案:第10题,医疗健康数据的基本情况不包括以下哪项A、诊疗数据B、个人健康管理数据C、公共安全数据D、健康档案数据正确答案:第11题,以下哪项不是数据可视化工具的特性()A、实时性B、简单操作C、更丰富的展现D、仅需一种数据支持方式即可正确答案:第12题,数据仓库是随着时间变化的,下列不正确的是()A、数据仓库随时间变化不断增加新内容B、捕捉到的新数据会覆盖原来的快照C、数据仓库随事件变化不断删去旧的数据内容D、数据仓库中包含大量的综合数据，这些综合数据会随时间的变化不断进行重新综合正确答案:第13题,DAS代表的意思是()A、两个异步存储B、数据归档软件C、连接一个可选的存储D、直连存储正确答案:第14题,大数据的特点不包含A、数据体量大B、价值密度高C、处理速度快D、数据不统一正确答案:第15题,下列哪个R语言扩展包可以创建带有点和边的网络图()A、ggplot2B、networkC、ggmapsD、animation正确答案:第16题,大数据的技术支撑有()A、计算速度加快B、存储成本下降C、机器智能化D、数据量增加正确答案:,B,C第17题,医疗领域如何利用大数据A、临床决策支持B、个性化医疗C、社保资金安全D、用户行为分析正确答案:,B,C,D第18题,大数据时代预测人类移动行为的数据来源有A、志愿者定位数据B、装有导航设备的出租车轨迹数据C、手机终端定位于通讯记录D、社会网络签到数据正确答案:,B,C,D第19题,互连网上出现的海量信息可以划分为三种,分别为( )A、结构化信息B、非结构化信息C、半结构化信息D、特殊化信息正确答案:,B,C第20题,大数据在社交网络中的应用A、用户偏好、情感、社交网络结构B、用户画像、精准推荐C、舆情监控、突发事件预警D、预测外部趋势正确答案:,B,C,D第21题,数据工厂包括A、低能耗数据中心B、超大规模讲分布式架构C、新一代智能自动化运维D、超强云安全正确答案:,B,C,D第22题,可使用##,##,##进行光滑。

《大数据导论》简答题与答案

《大数据导论》简答题与答案1.人类社会的数据产生方式经历了哪些阶段？简述各阶段的特点。

人类历史上从未有哪个时代和今天一样产生如此海量的数据，人类社会的数据产生方式大致经历了3个阶段：运营式系统、用户原创内容阶段、感知式系统阶段。

（1）运营式系统：数据库的出现使得数据管理的复杂度大大降低，实际中数据库大都为运营系统所采用，作为运营系统的数据管理子系统，如超市的销售记录系统、银行的交易记录系统、医院病人的医疗记录等。

人类社会数据量第一次大的飞跃正是建立在运营式系统广泛使用数据库开始，这些数据规范、有秩序、强调数据的一致性，且这些数据的产生方式是被动的。

（2）用户原创内容阶段：互联网的诞生促使人类社会数据量出现第二次大的飞跃，但真正的数据爆发产生于Web2.0时代，其重要标志就是用户原创内容。

以博客、微博为代表的新型社交网络的出现和快速发展，使得用户产生数据的意愿更加强烈；新型移动设备出现，易携带、全天候接入网络的移动设备使得人员在网上发现自己意见的途径更为便捷数据结构复杂，无秩序，不强调数据的一致性或只强调弱一致性，这些数据的产生方式是主动的。

（3）感知式系统：人类社会数据量第三次大的飞跃最终导致了大数据的产生，这次飞跃的根本原因在于感知式系统的广泛使用。

微小带着处理功能的传感器设备广泛布置于社会的各个角落，通过这些设备对整个社会的运转进行监控，这些设备会源源不断地产生新数据，这些数据的产生方式是自动的，数据呈现多源异构、分布广泛、动态演化等。

简单来说，数据产生经历了被动、主动和自动三个阶段，这些被动、主动和自动的数据共同构成了大数据的数据来源。

2. 大数据处理的关键技术都有哪些？并做简要描述。

大数据处理的关键技术主要包括：数据采集和预处理、数据存储、数据计算处理、数据分析和挖掘、数据可视化展示等。

1).数据采集，又称数据获取，是大数据生命周期的第一个环节，通过RFID射频识别技术、传感器、交互型社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。

20春学期《大数据导论》在线作业

20春学期（1709、1803、1809、1903、1909、2003）《大数据导论》在线作业
PaaS是()的简称
A:软件即服务
B:平台即服务
C:基础设施即服务
D:硬件即服务
答案：B
基础设施即服务的英文简称是
A:IaaS
B:PaaS
C:SaaS
答案：A
数据清洗的方法不包括
A:缺失值处理
B:噪声数据清除
C:一致性检查
D:重复数据记录处理
答案：D
下列哪个R语言扩展包可以创建带有点和边的网络图()
A:ggplot2
B:network
C:ggmaps
D:animation
答案：B
下列哪个R语言扩展包可以制作一系列的图像并将它们串联起来做成动画() A:ggplot2
B:network
C:ggmaps
D:animation
答案：D
GFS中的文件切分成()的块进行存储
A:32MB
B:64MB
C:128MB
D:1G
答案：B
数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段( )。

A:运营式系统阶段
B:用户原创内容阶段
C:感知式系统阶段
答案：B
下列不属于商业大数据类型的是
A:传统企业数据
B:机器和传感器数据
C:社交数据
D:电子商务数据
答案：B。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

8.
1.MapReduce的工作流程可分为三个阶段：Map、Shuffle、Reduce；而shuffle又可分为Map端的shuffle和Reduce端的shuffle
2.Map阶段：通过InputFormat的getSplits()方法，从HDFS上获取数据，然后对获取的文件进行切片，分三片，每片128M，然后根据CreateRecordReader()方法返回一行行的数据，每读取返回一行数据，调用一次map
3.KEYOUT：是我们映射类型所产生的key的类型，String；
4.VALUEOUT：是我们映射类型所产生的value的类型，Integer；
知识点:
阶段作业2
学生答案:
[A;B;C;D;]
标准答案:
A;B;C;D
得分:
[5]
试题分值:
5.0
提示:
2.错误
知识点:
阶段作业2
学生答案:
[A;]
标准答案:
A
得分:
[5]
试题分值:
5.0
提示:
3.
Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架，MapReduce充分借鉴了分而治之的思想，将一个数据处理过程拆分成Map（映射）与Reduce（归约）两步。
4.
1.正确
2.错误
知识点:
阶段作业2
学生答案:
[A;]
标准答案:
A
得分:
[5]
试题分值:
5.0
提示:
5.
FSDataOutputStream，这个类重载了很多write方法，用于写入很多类型的数据：比如字节数组，long，int，char等等。
6.
1.正确
2.错误
知识点:
阶段作业2
学生答案:
[A;]
5.Reduce：排序完成后将文件扔到Reduce上，然后将结果存储到HDFS中
biner只有在输入和输出格式一样的情况下才可以使用
知识点:
阶段作业2
学生答案:
[A;B;C;D;E;F;]
标准答案:
A;B;C;D;E;F
得分:
[5]
试题分值:
5.0
提示:
9.
HDFS客户端JavaAPI查询目录信息的方法是？
一、判断题（共10道小题，共50.0分）
1.
MapReduce运行的时候，会通过Mapper运行的任务读取HDFS中的数据文件，然后调用自己的方法，处理数据，最后输出。Reducer任务会接收Mapper任务输出的数据，作为自己的输入数据，调用自己的方法，最后将结果输出到HDFS的文件中。
2.
1.正确
3.Map端的shuffle：调用map后，数据持续写入到环形缓冲区内，缓冲区大小默认为100M，阈值为80%，当数据达到80%时，系统会自动开启Spill线程，然后对数据进行分区，排序和Combiner，最后溢写到磁盘，数据写入完成后，会将环形缓冲区内的数据也拉到磁盘中，生成新的文件
4.Reduce端的Shuffle：Reduce端会将Map端生成的所有新文件copy过来，然后对这些数据进行合并，形成一个大的文件，再对这个文件排序
A;B;D
得分:
[5]
试题分值:
5.0
提示:
18.
列出hdfs文件系统根目录下的所有目录和文件。
19.
1.hdfs dfs -ls -R /
2.hdfs dfs -ls /
3.hadoop fs -ls -R /
4.hadoop fs -ls /
知识点:
阶段作业2
学生答案:
[A;C;]
标准答案:
A;C
10.
11.
1.正确
2.错误
知识点:
阶段作业2
学生答案:
[A;]
标准答案:
A
得分:
[5]
试题分值:
5.0
提示:
12.
BufferedReader有一个很特别的方法：readLine()，使用起来特别方便，每次读回来的数据都是一行。
13.
1.正确
2.错误
知识点:
阶段作业2
学生答案:
[A;]
标准答案:
A
得分:
[5]
试题分值:
5.0
提示:
14.
Shuffle意义在于将不同map处理后的数据进行合理分配，让reduce处理，从而产生了排序、分区。
15.
1.正确
2.错误
知识点:
阶段作业2
学生答案:
[A;]
标准答案:
A
得分:
[5]
试题分值:
5.0
提示:
16.
在MapReduce里，Reduce处理的是原始数据，自然是杂乱无章的，每条数据之间互相没有关系，到了Map阶段，数据是以key后面跟着若干个value来组织的，这些value有相关性，至少它们都在一个key下面，于是就符合函数式语言里map和reduce的基本思想了。
得分:
[5]
试题分值:
5.0
提示:
20.
Map阶段开发需要继承Mapper接口，有四个泛型需要理解，下列说法正确的是？
21.
1.KEYIN：是mapTask读取到的数据中key（一行一行的数据中的起始偏移量）的类型，Long；
2.VALUEIN：是mapTask读取到的数据中value(一行一行的数据的内容)的类型，String；
标准答案:
A
得分:
[5]
试题分值:
5.0
提示:
7.
FileSystem.get()构造了一个访问HDFS的工具对象，他的内部封装了HDFS集群的URI、客户端的参数、客户端的用户名。
8.
1.正确
2.错误
知识点:
阶段作业2
学生答案:
[A;]
标准答案:
A
得分:
[5]
试题分值:
5.0
提示:
9.
BufferedReader的readLine()方法是阻塞式的,如果到达流末尾,就返回null。
13.
1.12345
2.41235
3.14235
4.24135
知识点:
阶段作业2
学生答案:
[B;D;]
标准答案:
B;D
得分:
[5]
试题分值:
5.0
提示:
14.
以下哪些存储系统可以存储日志文件等数据？
15.
1.HDFS
2.Logstash
3.Mysql
4.ElasticSearch
知识点:
阶段作业2
学生答案:
知识点:
阶段作业2
学生答案:
[A;B;C;D;]
标准答案:
A;B;C;D
得分:
[5]
试题分值:
5.0
提示:
3.
FileSystem对象中的哪些方法返回的是FSDataOutputStream对象？
4.
1.fs.append()
2.fs.open()
3.fs.create()
4.fs.close()
知识点:
[A;]
标准答案:
A
得分:
[5]
试题分值:
5.0
提示:
20.
使用hadoop的jar包命令可以是hadoop jar或者java jar。
21.
1.正确
2.错误
知识点:
阶段作业2
学生答案:
[B;]
标准答案:
B
得分:
[5]
试题分值:
5.0
提示:
二、多项选择题（共10道小题，共50.0分）
1.
对hadoop中Combiner的作用说法正确的是？
17.
1.正确
2.错误
知识点:
阶段作业2
学生答案:
[B;]
标准答案:
B
得分:
[5]
试题分值:
5.0
提示:
18.
HDFS客户端JavaAPI按行读取数据的方法：new BufferedReader(new InputStreamReader(open))。
19.
1.正确
2.错误
知识点:
阶段作业2
学生答案:
阶段作业2
学生答案:
[A;C;]
标准答案:
A;C
得分:
[5]
试题分值:
5.0
提示:
5.
在Map阶段读取数据时，缓冲区达到阈值就会溢写到磁盘，此处的阈值为多少？
6.
1.60%
2.70%
3.80%
4.90%
知识点:
阶段作业2
学生答案:
[C;]
标准答案:
C
得分:
[5]
试题分值:
5.0
提示:
7.
对MapReduce的工作流程说法正确的是：
2.
biner是reduce的实现，在map端运行计算任务，减少map端的输出数据
2.作用是优化
3.在MapReduce编程模型中，Mapper和Reducer之间有一个非常重要的组件，它解决了性能瓶颈问题，它就是Combiner
biner的使用场景是mapreduce的map和reduce输入输出一样
10.
1.fs.create()
2.fs.listFiles()
3.fs.listStatus()
4.fs.mkdirs()
知识点:
阶段作业2
学生答案:
[C;]