hadoop练习题--带答案

合集下载

Hadoop试题试题库完整

1.以下哪一项不属于Hadoop 可以运行的模式 C 。

A.单机（本地）模式B.伪分布式模式C.互联模式D.分布式模式2.Hadoop 的作者是下面哪一位 B 。

A.Martin FowlerB.Doug cuttingC.Kent BeckD.Grace Hopper3.下列哪个程序通常与NameNode 在同一个节点启动 D 。

A.TaskTrackerB.DataNodeC.SecondaryNameNodeD.Jobtracker4.HDFS 默认 Block Size 的大小是 B 。

A.32MBB.64MBC.128MBD.256M5.下列哪项通常是集群的最主要瓶颈 C 。

A.CPUB.网络C.磁盘 IOD.内存6.下列关于MapReduce 说法不正确的是C_ 。

A.MapReduce 是一种计算框架B.MapReduce 来源于 google 的学术论文C.MapReduce 程序只能用 java 语言编写D.MapReduce 隐藏了并行计算的细节，方便使用8.HDFS 是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、D 。

高可扩展性、高吞吐率等特征，适合的读写任务是A．一次写入，少次读B．多次写入，少次读C．多次写入，多次读D．一次写入，多次读9.HBase 依靠 A 存储底层数据。

A.HDFSB.HadoopC.MemoryD.MapReduce10.HBase 依赖 D 提供强大的计算能力。

A.ZookeeperB.ChubbyC.RPCD.MapReduce11.HBase 依赖 A 提供消息通信机制A.ZookeeperB.ChubbyC.RPCD.Socket12.下面与HDFS 类似的框架是 C ？A.NTFSB.FAT32C.GFSD.EXT313.关于 SecondaryNameNode 下面哪项是正确的 C 。

A.它是 NameNode 的热备B.它对内存没有要求C.它的目的是帮助NameNode 合并编辑日志，减少NameNode 启动时间D.SecondaryNameNode 应与 NameNode 部署到一个节点14.大数据的特点不包括下面哪一项 D 。

Hadoop应用开发与案例实战课后习题参考答案1-10章全书章节练习题答案题库

习题一、选择题1．下列有关 Hadoop 的说法正确的是( ABCD )。

A ．Hadoop 最早起源于 NutchB ．Hadoop 中HDFS 的理念来源于谷歌发表的分布式文件系统( GFS )的论文C ．Hadoop 中 MapReduce 的思想来源于谷歌分布式计算框架 MapReduce 的论文D．Hadoop 是在分布式服务器集群上存储海量数据并运行分布式分析应用的一个开源的软件框架2．使用 Hadoop 的原因是( ABCD )。

A．方便：Hadoop 运行在由普通商用机器构成的大型集群上或者云计算服务上B．稳健：Hadoop 致力于在普通商用硬件上运行，其架构假设硬件会频繁失效，Hadoop 可以从容地处理大多数此类故障C ．可扩展：Hadoop 通过增加集群节点，可以线性地扩展以处理更大的数据集D．简单：Hadoop 允许用户快速编写高效的并行代码3．Hadoop 的作者是( B )。

A ．Martin FowlerB ．Doug CuttingC ．Kent BeckD ．Grace Hopper4．以下关于大数据特点的描述中，不正确的是( ABC )。

A ．巨大的数据量B ．多结构化数据C ．增长速度快D ．价值密度高二、简答题1．Hadoop 是一个什么样的框架？答：Hadoop 是一款由Apache 基金会开辟的可靠的、可伸缩的分布式计算的开源软件。

它允许使用简单的编程模型在跨计算机集群中对大规模数据集进行分布式处理。

2．Hadoop 的核心组件有哪些？简单介绍每一个组件的作用。

答：核心组件有 HDFS 、MapReduce 、YARN 。

HDFS ( Hadoop Distributed File Sy，st doop 分布式文件系统)是 Hadoop 的核心组件之一，作为最底层的分布式存储服务而存在。

它是一个高度容错的系统，能检测和应对硬件故障，可在低成本的通用硬件上运行。

hadoop考试试题

hadoop考试试题您的姓名： [填空题] *_________________________________1.Spark是用一下哪种编程语言实现的？（） [单选题] *A.CB.C++;C.JAVA;(正确答案)D.Scala2.FusionInsight Manager对服务的管理操作，下面说法错误的是？（） [单选题] *A.可对服务进行启停重启操作；B.可以添加和卸载服务;C.可设置不常用的服务隐藏或显示;(正确答案)D.可以查看服务的当前状态;3.FusionInsight HD集群升级，一下描述正确的是？（） *A.升级过程中不可以操作准备OMS倒换;(正确答案)B.集群内所有主机的root账户密码要保持一致;(正确答案)C.保持网络通畅，避免网络问题导致升级异常;(正确答案)D.观察期不能做扩容;(正确答案)4.FusionInsight HD Loader 在创建作业时，连接器(Connector)有什么用？（） [单选题] *A.确定有哪些转化步骤;B.提供优化参数，提高数据导出性能;C.配置数据如何与外部数据进行连接;(正确答案)D.配置数据如何与内部数据进行连接;5.下列哪个HDFS命令可用于检测数据块的完整性？（） [单选题] *A.hdfs fsck /;(正确答案)B.hdfs fsck / -delete;C.hdfs dfsadmin -report;D.hdfs balancer -threshold 1;6.YARN中设置队列QueueA最大使用资源里，需要配置哪个参数？（） [单选题] *A.yarn scheduler capacty root QueueA user-limit-factor;B.yarn scheduler capacty root QueueA minimum-user-limit-percent;C.yarn scheduler capacty root QueueA state;D.yarn scheduler capacty root QueueA maximum-capacity;(正确答案)7.Flume的数据流可以根据headers的信息发送到不同的channel中。

Hadoop大数据技术基础智慧树知到答案2024年河北软件职业技术学院

Hadoop大数据技术基础河北软件职业技术学院智慧树知到答案2024年第一章测试1.HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。

（）A:对 B:错答案:A2.Hadoop既适合超大数据集存储,也适合小数据集的存储。

（）A:错 B:对答案:A3.HDFS为海量的数据提供了存储,而MapReduce为海量的数据提供了计算。

（）A:错 B:对答案:B4.Hadoop起始于以下哪个阶段？（）A:2003年，Google发布了GFS论文。

B:2004年，Nutch的开发者开发了NDFS。

C:2004年，Google发表了关于MapReduce的论文。

D:2002年，Apach项目的Nutch。

答案:D5.Hadoop集群具有以下哪个优点?（）A:高可靠性 B:高成本性 C:高扩展性 D:高容错性答案:ACD第二章测试1.在本次课程里，Linux发行版本我们选择（）。

A:ubuntu B:RedHat C:Centos7 D:Centos8答案:C2.从哪一个Hadoop历史版本引入了yarn（）。

A:1.x版本系列 B:3.x版本系列 C:4.x版本系列 D:2.x版本系列答案:B3.Hadoop部署方式分三种（）。

A:伪集群模式 B:伪分布式模式 C:单机模式 D:分布式模式答案:BCD4.商业版Hadoop是指由第三方商业公司在社区版Hadoop基础上进行了一些修改、整合以及各个服务组件兼容性测试而发行的版本。

（）A:对 B:错答案:A5.Hadoop一般是安装在Windows服务器上的。

（）A:错 B:对答案:A第三章测试1.Hadoop 的安装部署的模式属于伪分布模式（）。

A:Hadoop守护进程运行在由多台主机搭建的集群上，是真正的生产环境。

B:默认的模式，无需运行任何守护进程（daemon），所有程序都在单个JVM 上执行。

C:全分布式模式的一个特例，Hadoop的守护进程运行在一个节点上。

Hadoop基础(习题卷8)

Hadoop基础(习题卷8)第1部分：单项选择题，共54题，每题只有一个正确答案,多选或少选均不得分。

1.[单选题]在Java中，<? version="1.0" encoding=”UTF-8”>这行声明该文档采用了什么编码标准A)GB2312B)ANSIC)ISO-8859-1D)UTF-8答案:D解析:2.[单选题]关于hadoop集群描述正确的是（）A)hadoop集群组件之间通过RPC通信协议B)hadoop集群NameNode节点越多越好C)hadoop集群使用Namenode存储元数据D)以上都正确答案:A解析:3.[单选题]HDFS 默认 Block SizeA)32MBB)64MBC)128MBD)240MB答案:B解析:4.[单选题]下面属于Hadoop特点的是（）A)低价值密度B)低吞吐量C)高容错D)高成本答案:C解析:5.[单选题]编写MapReduce必须继承（）类A)ConfiguredB)DonfiguredC)AonfiguredD)Writable答案:A解析:6.[单选题]在Java中，File类提供的方法中，哪个方法可以获取一个目录下所有子文件对象D)listFiles()答案:D解析:7.[单选题]HDFS结构不包括________。

A)Master体系结构B)主从服务器C)元数据服务器D)存储服务器答案:A解析:8.[单选题]下列哪一项不属于数据库事务具有ACID四性？A)间断性B)原子性C)一致性D)持久性答案:A解析:9.[单选题]客户端从Zookeeper获取Region的存储位置信息后，直接在_______上读写数据。

A)ZookeeperB)HMasterC)Region ServerD)HLog答案:C解析:10.[单选题]对NodeManager服务描述不正确的是( )A)NodeManager负责单节点资源管理和使用B)NodeManager管理当前节点的ContainerC)向ResourceManager汇报本节点上的资源使用情况D)NodeManager服务器不需要与ResourceManager通信答案:D解析:11.[单选题]下面对分区描述的过程正确的是( )A)merge是将多个溢写文件合并到一个文件B)merge过程不可能有Combiner处理C)缓冲区的作用不大D)以上都不正确答案:A解析:12.[单选题]云计算发展对产业的影响对一般企业和机构来说主要是（）。

Hadoop基础(试卷编号151)

Hadoop基础(试卷编号151)1.[单选题]下列关于Hadoop和Spark说法错误的是（）。

A)二者都支持流式计算B)二者都支持批量计算C)二者都支持机器学习D)二者都支持SQL语句查询答案:A解析:2.[单选题]测试 Sqoop 是否能够正常连接 MySQL 数据库命令是( )A)sqoop list-database --connect jdbc:mysql://127.0.0.1:3306/ --username root - PB)sqoop list-databases --connection jdbc:mysql://127.0.0.1:3306/ --username root - PC)sqoop list-databases --connect jdbc:mysql://127.0.0.1:3306/ --username root -LD)sqoop list-databases --connect jdbc:mysql://127.0.0.1:3306/ --username root - P答案:D解析:3.[单选题]下面哪个命令是用来定义shell的全局变量：A)exportfsB)aliasC)exportsD)export答案:D解析:4.[单选题]关于Hadoop下列说法错误的是（）A)HDFS采用了Master/Slave的架构模型B)Namenode负责维护文件系统的命名空间C)Datanode执行比如打开、关闭、重命名文件操作D)HDFS暴露了文件系统的命名空间，允许用户以文件的形式在上面存储数据答案:C解析:5.[单选题]关干HiveSQL运行原理，描述不正确的选项有?(A)C)对于selectcount（*）fromtable操作，一定会启reduce任务D)对于select*fromtable语句不会启MapReduce答案:A解析:6.[单选题]调用Zookeeper对象创建的节点,不包括()。

Hadoop试题试题库

1. 以下哪一项不属于Hadoop可以运行的模式___C___。

A. 单机（本地）模式B. 伪分布式模式C. 互联模式D. 分布式模式2. Hadoop的作者是下面哪一位__B____。

A. Martin FowlerB. Doug cuttingC. Kent BeckD. Grace Hopper3. 下列哪个程序通常与NameNode 在同一个节点启动__D___。

A. TaskTrackerB. DataNodeC. SecondaryNameNodeD. Jobtracker4. HDFS 默认Block Size的大小是___B___。

A.32MBB.64MBC.128MBD.256M5. 下列哪项通常是集群的最主要瓶颈____C__。

A. CPUB. 网络C. 磁盘IOD. 内存6. 下列关于MapReduce说法不正确的是_____C_。

A. MapReduce是一种计算框架B. MapReduce来源于google的学术论文C. MapReduce程序只能用java语言编写D. MapReduce隐藏了并行计算的细节，方便使用8. HDFS是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是__D____。

A．一次写入，少次读B．多次写入，少次读C．多次写入，多次读D．一次写入，多次读9. HBase依靠__A____存储底层数据。

A. HDFSB. HadoopC. MemoryD. MapReduce10. HBase依赖___D___提供强大的计算能力。

A. ZookeeperB. ChubbyC. RPCD. MapReduce11. HBase依赖___A___提供消息通信机制A. ZookeeperB. ChubbyC. RPCD. Socket12. 下面与HDFS类似的框架是___C____？A. NTFSB. FAT32C. GFSD. EXT313. 关于SecondaryNameNode 下面哪项是正确的___C___。

hadoop练习题--带答案

Hadoop 练习题姓名：分数：单项选择题1.下面哪个程序负责HDFS数据存储。

a)NameNodeb)Jobtrackerc)Datanode √d)secondaryNameNodee)tasktracker2.HDfS中的block默认保存几份？a)3份√b)2份c)1份d)不确定3.下列哪个程序通常与NameNode在一个节点启动？a)SecondaryNameNodeb)DataNodec)TaskTrackerd)Jobtracker√4.Hadoop作者a)Martin Fowlerb)Kent Beckc)Doug cutting√5.HDFS默认Block Sizea)32MBb)64MB√c)128MB6.下列哪项通常是集群的最主要的性能瓶颈a)CPUb)网络c)磁盘√d)内存7.关于SecondaryNameNode哪项是正确的？a)它是NameNode的热备b)它对内存没有要求c)它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间√d)SecondaryNameNode应与NameNode部署到一个节点8.一个gzip文件大小75MB，客户端设置Block大小为64MB，请我其占用几个Block？a) 1b)2√c) 3d) 49.HDFS有一个gzip文件大小75MB，客户端设置Block大小为64MB。

当运行mapreduce任务读取该文件时input split大小为？a)64MBb)75MB√c)一个map读取64MB，另外一个map读取11MB10.HDFS有一个LZO（with index）文件大小75MB，客户端设置Block大小为64MB。

当运行mapreduce任务读取该文件时input split大小为？a)64MBb)75MBc)一个map读取64MB，另外一个map读取11MB√多选题：11.下列哪项可以作为集群的管理工具a)Puppet√b)Pdsh√c)Cloudera Manager√d)Rsync + ssh + scp√12.配置机架感知的下面哪项正确a)如果一个机架出问题，不会影响数据读写√b)写入数据的时候会写到不同机架的DataNode中√c)MapReduce会根据机架获取离自己比较近的网络数据√13.Client端上传文件的时候下列哪项正确a)数据经过NameNode传递给DataNodeb)Client端将文件以Block为单位，管道方式依次传到DataNode√c)Client只上传数据到一台DataNode，然后由NameNode负责Block复制工作d)当某个DataNode失败，客户端会继续传给其它DataNode √14.下列哪个是Hadoop运行的模式a)单机版√b)伪分布式√c)分布式√15.Cloudera提供哪几种安装CDH的方法a)Cloudera manager√b)Tar ball√c)Yum√d)Rpm√判断题：（全部错）16.Ganglia不仅可以进行监控，也可以进行告警。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Hadoop 练习题姓名：分数：
单项选择题
1.下面哪个程序负责HDFS数据存储。

a)NameNode
b)Jobtracker
c)Datanode √
d)secondaryNameNode
e)tasktracker
2.HDfS中的block默认保存几份？
a)3份√
b)2份
c)1份
d)不确定
3.下列哪个程序通常与NameNode在一个节点启动？
a)SecondaryNameNode
b)DataNode
c)TaskTracker
d)Jobtracker√
4.Hadoop作者
a)Martin Fowler
b)Kent Beck
c)Doug cutting√
5.HDFS默认Block Size
a)32MB
b)64MB√
c)128MB
6.下列哪项通常是集群的最主要的性能瓶颈
a)CPU
b)网络
c)磁盘√
d)内存
7.关于SecondaryNameNode哪项是正确的？
a)它是NameNode的热备
b)它对内存没有要求
c)它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间√
d)SecondaryNameNode应与NameNode部署到一个节点
8.一个gzip文件大小75MB，客户端设置Block大小为64MB，请我其占用几个Block？
a) 1
b)2√
c) 3
d) 4
9.HDFS有一个gzip文件大小75MB，客户端设置Block大小为64MB。

当运行mapreduce
任务读取该文件时input split大小为？
a)64MB
b)75MB√
c)一个map读取64MB，另外一个map读取11MB
10.HDFS有一个LZO（with index）文件大小75MB，客户端设置Block大小为64MB。

当运
行mapreduce任务读取该文件时input split大小为？
a)64MB
b)75MB
c)一个map读取64MB，另外一个map读取11MB√
多选题：
11.下列哪项可以作为集群的管理工具
a)Puppet√
b)Pdsh√
c)Cloudera Manager√
d)Rsync + ssh + scp√
12.配置机架感知的下面哪项正确
a)如果一个机架出问题，不会影响数据读写√
b)写入数据的时候会写到不同机架的DataNode中√
c)MapReduce会根据机架获取离自己比较近的网络数据√
13.Client端上传文件的时候下列哪项正确
a)数据经过NameNode传递给DataNode
b)Client端将文件以Block为单位，管道方式依次传到DataNode√
c)Client只上传数据到一台DataNode，然后由NameNode负责Block复制工作
d)当某个DataNode失败，客户端会继续传给其它DataNode √
14.下列哪个是Hadoop运行的模式
a)单机版√
b)伪分布式√
c)分布式√
15.Cloudera提供哪几种安装CDH的方法
a)Cloudera manager√
b)Tar ball√
c)Yum√
d)Rpm√
判断题：（全部错）
16.Ganglia不仅可以进行监控，也可以进行告警。

（）
17.Nagios不可以监控Hadoop集群，因为它不提供Hadoop支持。

（）
18.如果NameNode意外终止，SecondaryNameNode会接替它使集群继续工作。

（）
19.Cloudera CDH是需要付费使用的。

（）
20.Hadoop是Java开发的，所以MapReduce只支持Java语言编写。

（）
21.Hadoop支持数据的随机写。

（）
Node负责管理metadata，client端每次读写请求，它都会从磁盘中读取或则会写
入metadata信息并反馈client端。

（）
Node本地磁盘保存了Block的位置信息。

（）
24.Slave节点要存储数据，所以它的磁盘越大越好。

（）
25.Hadoop默认调度器策略为FIFO，并支持多个Pool提交Job。

（）
26.集群内每个节点都应该配RAID，这样避免单磁盘损坏，影响整个节点运行。

（）
27.因为HDFS有多个副本，所以NameNode是不存在单点问题的。

（）
28.每个map槽就是一个线程。

（）
29.Mapreduce的input split就是一个block。

（）
30.Hadoop环境变量中的HADOOP_HEAPSIZE用于设置所有Hadoop守护线程的内存。

它默
认是200MB。

（）
31.DataNode首次加入cluster的时候，如果log中报告不兼容文件版本，那需要NameNode
执行“hadoop namenode -format”操作格式化磁盘。

（）
32.Hadoop1.0和2.0都具备完善的HDFS HA策略。

（）
33.GZIP压缩算法比LZO更快。

（）
34.PIG是脚本语言，它与mapreduce无关。

（）。