hadoop练习题--带答案资料
Hadoop试题试题库完整

1.以下哪一项不属于Hadoop 可以运行的模式 C 。
A.单机(本地)模式B.伪分布式模式C.互联模式D.分布式模式2.Hadoop 的作者是下面哪一位 B 。
A.Martin FowlerB.Doug cuttingC.Kent BeckD.Grace Hopper3.下列哪个程序通常与NameNode 在同一个节点启动 D 。
A.TaskTrackerB.DataNodeC.SecondaryNameNodeD.Jobtracker4.HDFS 默认 Block Size 的大小是 B 。
A.32MBB.64MBC.128MBD.256M5.下列哪项通常是集群的最主要瓶颈 C 。
A.CPUB.网络C.磁盘 IOD.内存6.下列关于MapReduce 说法不正确的是C_ 。
A.MapReduce 是一种计算框架B.MapReduce 来源于 google 的学术论文C.MapReduce 程序只能用 java 语言编写D.MapReduce 隐藏了并行计算的细节,方便使用8.HDFS 是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、D 。
高可扩展性、高吞吐率等特征,适合的读写任务是A.一次写入,少次读B.多次写入,少次读C.多次写入,多次读D.一次写入,多次读9.HBase 依靠 A 存储底层数据。
A.HDFSB.HadoopC.MemoryD.MapReduce10.HBase 依赖 D 提供强大的计算能力。
A.ZookeeperB.ChubbyC.RPCD.MapReduce11.HBase 依赖 A 提供消息通信机制A.ZookeeperB.ChubbyC.RPCD.Socket12.下面与HDFS 类似的框架是 C ?A.NTFSB.FAT32C.GFSD.EXT313.关于 SecondaryNameNode 下面哪项是正确的 C 。
A.它是 NameNode 的热备B.它对内存没有要求C.它的目的是帮助NameNode 合并编辑日志,减少NameNode 启动时间D.SecondaryNameNode 应与 NameNode 部署到一个节点14.大数据的特点不包括下面哪一项 D 。
Hadoop试题试题库

1. 以下哪一项不属于Hadoop可以运行的模式___C___。
A. 单机(本地)模式B. 伪分布式模式C. 互联模式D. 分布式模式2. Hadoop的作者是下面哪一位__B____。
A. Martin FowlerB. Doug cuttingC. Kent BeckD. Grace Hopper3. 下列哪个程序通常与NameNode 在同一个节点启动__D___。
A. TaskTrackerB. DataNodeC. SecondaryNameNodeD. Jobtracker4. HDFS 默认Block Size的大小是___B___。
A.32MBB.64MBC.128MBD.256M5. 下列哪项通常是集群的最主要瓶颈____C__。
A. CPUB. 网络C. 磁盘IOD. 内存6. 下列关于MapReduce说法不正确的是_____C_。
A. MapReduce是一种计算框架B. MapReduce来源于google的学术论文C. MapReduce程序只能用java语言编写D. MapReduce隐藏了并行计算的细节,方便使用8. HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是__D____。
A.一次写入,少次读B.多次写入,少次读C.多次写入,多次读D.一次写入,多次读9. HBase依靠__A____存储底层数据。
A. HDFSB. HadoopC. MemoryD. MapReduce10. HBase依赖___D___提供强大的计算能力。
A. ZookeeperB. ChubbyC. RPCD. MapReduce11. HBase依赖___A___提供消息通信机制A. ZookeeperB. ChubbyC. RPCD. Socket12. 下面与HDFS类似的框架是___C____?A. NTFSB. FAT32C. GFSD. EXT313. 关于SecondaryNameNode 下面哪项是正确的___C___。
(完整版)hadoop常见笔试题答案

Hadoop测试题一.填空题,1分(41空),2分(42空)共125分1.(每空1分) datanode 负责HDFS数据存储。
2.(每空1分)HDFS中的block默认保存 3 份。
3.(每空1分)ResourceManager 程序通常与NameNode 在一个节点启动。
4.(每空1分)hadoop运行的模式有:单机模式、伪分布模式、完全分布式。
5.(每空1分)Hadoop集群搭建中常用的4个配置文件为:core-site.xml 、hdfs-site.xml、mapred-site.xml 、yarn-site.xml 。
6.(每空2分)HDFS将要存储的大文件进行分割,分割后存放在既定的存储块中,并通过预先设定的优化处理,模式对存储的数据进行预处理,从而解决了大文件储存与计算的需求。
7.(每空2分)一个HDFS集群包括两大部分,即namenode 与datanode 。
一般来说,一个集群中会有一个namenode 和多个datanode 共同工作。
8.(每空2分) namenode 是集群的主服务器,主要是用于对HDFS中所有的文件及内容数据进行维护,并不断读取记录集群中datanode 主机情况与工作状态,并通过读取与写入镜像日志文件的方式进行存储。
9.(每空2分) datanode 在HDFS集群中担任任务具体执行角色,是集群的工作节点。
文件被分成若干个相同大小的数据块,分别存储在若干个datanode 上,datanode 会定期向集群内namenode 发送自己的运行状态与存储内容,并根据namnode 发送的指令进行工作。
10.(每空2分) namenode 负责接受客户端发送过来的信息,然后将文件存储位置信息发送给client ,由client 直接与datanode 进行联系,从而进行部分文件的运算与操作。
11.(每空1分) block 是HDFS的基本存储单元,默认大小是128M 。
(完整版)hadoop常见笔试题答案

(完整版)hadoop常见笔试题答案Hadoop测试题一.填空题,1分(41空),2分(42空)共125分1.(每空1分) datanode 负责HDFS数据存储。
2.(每空1分)HDFS中的block默认保存 3 份。
3.(每空1分)ResourceManager 程序通常与NameNode 在一个节点启动。
4.(每空1分)hadoop运行的模式有:单机模式、伪分布模式、完全分布式。
5.(每空1分)Hadoop集群搭建中常用的4个配置文件为:core-site.xml 、hdfs-site.xml、mapred-site.xml 、yarn-site.xml 。
6.(每空2分)HDFS将要存储的大文件进行分割,分割后存放在既定的存储块中,并通过预先设定的优化处理,模式对存储的数据进行预处理,从而解决了大文件储存与计算的需求。
7.(每空2分)一个HDFS集群包括两大部分,即namenode 与datanode 。
一般来说,一个集群中会有一个namenode 和多个datanode 共同工作。
8.(每空2分) namenode 是集群的主服务器,主要是用于对HDFS 中所有的文件及内容数据进行维护,并不断读取记录集群中datanode 主机情况与工作状态,并通过读取与写入镜像日志文件的方式进行存储。
9.(每空2分) datanode 在HDFS集群中担任任务具体执行角色,是集群的工作节点。
文件被分成若干个相同大小的数据块,分别存储在若干个datanode 上,datanode 会定期向集群内namenode 发送自己的运行状态与存储内容,并根据namnode 发送的指令进行工作。
10.(每空2分) namenode 负责接受客户端发送过来的信息,然后将文件存储位置信息发送给client ,由client 直接与datanode 进行联系,从而进行部分文件的运算与操作。
11.(每空1分) block 是HDFS的基本存储单元,默认大小是128M 。
(完整版)hadoop习题册

第一章大数据概述1.互联网的发展分为______个阶段。
A.一 B.三 C.二 D.四2.下列不属于大数据特点的是()。
A.种类和来源多样化B.数据量巨大C.分析处理速度快D.价值密度高3.互联网发展的第_____个时代为智能互联网。
A.3.0B.4.0C.1.0D.2.04.关于大数据叙述不正确的一项是()。
A.大数据=“海量数据”+“复杂类型的数据”B.大数据是指在一定时间对内容抓取、管理和处理的数据集合C.大数据可以及时有效的分析海量的数据D.数据包括结构化数据、半结构化数据、结构化数据。
5.下列数据换算正确的一项为()。
A.1YB=1024EBB.1TB=1024MBC.1PB==1024EBD.1024ZB=1EB6.结构化数据的表现形式为______。
A.文本B.视图C.二维表D.查询7.结构化的数据,先有________,再有_________.A.数据结构B.结构数据C.内容结构D.结构内容8.结构化的数据,先有________,再有_________.A.数据结构B.结构数据C.内容结构D.结构内容9.软件是大数据的_________。
A.核心B.部件C.引擎D.集合10.大数据技术不包括( )。
A.数据计算B.数据存储C.数据冗余D.数据采集11.大数据的特点不包括()。
A.数量大B.类型少C.速度快D.价值高第二章Hadoop简介1.下列对云栈架构层数不正确的一项为________。
A.三层云栈架构B.四层云栈架构C.五层云栈架构D.六层云栈架构2.下列______不是云计算三层架构的概括。
A.IaaSB.PaaSC.SaaPD.SaaS3.IaaS基础设施及服务可以称为______。
A.弹性计算B.效用计算C.有效计算D.随需应用4.四层云栈模式,是将三层模式中的_________进行分解,分为两层,一层为硬件层,一层为虚拟资源层。
A.硬件部分B.虚拟化部分C.基础设施D.平台5.五层云栈模式,第五层为______。
Hadoop基础(习题卷18)

Hadoop基础(习题卷18)第1部分:单项选择题,共53题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]下列不属于Python中Flask框架特点的是?A)内置开发服务器和调试器B)与Python单元测试功能无缝衔接C)使用Jinja2模板D)端口号固定为5000,且无法修改答案:D解析:2.[单选题]在Java中,方法resume( )负责重新开始▁▁线程的执行A)被stop( )方法停止B)被sleep( )方法停止C)被wait( )方法停止D)被suspend( )方法停止答案:D解析:3.[单选题]在Java中,假如电脑上E盘没有xxx目录,则下面程序功能描述正确是_x000D_File file1=new File("e:\\xxx\\yyy"); file1.mkdir()A)在当前目录下生成子目录:\xxx\yyyB)在E盘自动创建xxx/yyy目录C)在当前目录下生成文件xxx.yyyD)代码执行后E盘不会产生任何目录答案:D解析:4.[单选题]在Hadoop上提交Job时不涉及哪个实体()A)客户端B)HDFSC)SecondaryNodeD)JobTracker答案:C解析:5.[单选题]下面哪些不是引起 Spark 负载不均的原因?( )A)Spark 读入的数据源是倾斜的B)Shuffle 阶段 Key 值过于集中C)在数据过滤阶段需要处理的数据量差异D)Spark 的运行方式差异答案:D解析:6.[单选题]配置Hadoop时,JAVA_HOME包含在哪一个配置文件中?A)hadoop-default.xmlC)hadoop-site.xmlD)configuration.xml答案:B解析:7.[单选题]在 hadoop 配置中 yarn-site.xml 作用是( )A)用于定义系统级别的参数B)用于名称节点和数据节点的存放位置C)用于配置 JobHistory Server 和应用程序参数D)配置 ResourceManager,NodeManager 的通信端口答案:D解析:8.[单选题]HDFS中的block默认保存____份。
Hadoop试题试题库完整

Hadoop试题试题库完整1. 以下哪⼀项不属于Hadoop可以运⾏的模式___C___。
A. 单机(本地)模式B. 伪分布式模式C. 互联模式D. 分布式模式2. Hadoop的作者是下⾯哪⼀位__B____。
A. Martin FowlerB. Doug cuttingC. Kent BeckD. Grace Hopper3. 下列哪个程序通常与 NameNode 在同⼀个节点启动__D___。
A. TaskTrackerB. DataNodeC. SecondaryNameNodeD. Jobtracker4. HDFS 默认 Block Size的⼤⼩是___B___。
A.32MBB.64MBC.128MBD.256M5. 下列哪项通常是集群的最主要瓶颈____C__。
A. CPUB. ⽹络C. 磁盘IOD. 内存6. 下列关于MapReduce说法不正确的是_____C_。
A. MapReduce是⼀种计算框架B. MapReduce来源于google的学术论⽂C. MapReduce程序只能⽤java语⾔编写D. MapReduce隐藏了并⾏计算的细节,⽅便使⽤8. HDFS是基于流数据模式访问和处理超⼤⽂件的需求⽽开发的,具有⾼容错、⾼可靠性、⾼可扩展性、⾼吞吐率等特征,适合的读写任务是 __D____。
A.⼀次写⼊,少次读C.多次写⼊,多次读D.⼀次写⼊,多次读9. HBase依靠__A____存储底层数据。
A. HDFSB. HadoopC. MemoryD. MapReduce10. HBase依赖___D___提供强⼤的计算能⼒。
A. ZookeeperB. ChubbyC. RPCD. MapReduce11. HBase依赖___A___提供消息通信机制A. ZookeeperB. ChubbyC. RPCD. Socket12. 下⾯与HDFS类似的框架是___C____?A. NTFSB. FAT32C. GFSD. EXT313. 关于 SecondaryNameNode 下⾯哪项是正确的___C___。
Hadoop基础(习题卷3)

Hadoop基础(习题卷3)第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]大数据的简单算法与小数据的复杂算法相比()A)更有效B)相当C)不具备可比性D)无效答案:A解析:2.[单选题]下列选项中,不是CouchDB的复制中的特点是:A)使用优先列表B)复制过程是逐步进行C)允许分区复制D)支持智能文档模式答案:A解析:3.[单选题]从HDFS下载文件,正确的shell命令是()。
A)-getB)-appendToFileC)-putD)-copyFromLocal答案:A解析:4.[单选题]关于HDFS集群中的DataNode的描述不正确的是?A)存储客户端上传的数据的数据块B)一个DataNode上存储的所有数据块可以有相同的C)DataNode之间可以互相通信D)响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑答案:B解析:5.[单选题]在Java中,一个线程如果调用了sleep()方法,能唤醒它的方法是A)notify()B)resume()C)run()D)以上都不是,时间到了会自动继续执行答案:D解析:6.[单选题]软件是大数据的_________。
A)核心解析:7.[单选题]_______模式,只适合于Hive简单试用及单元测试。
A)单用户模式B)多用户模式C)多用户远程模式D)单用户远程模式答案:A解析:8.[单选题]下列关于Hive描述错误的是()。
A)hive学习成本低,支持标准的SQL语法B)hive运行效率低,延迟高C)HQL的表达能力有限D)Hive支持迭代计算答案:D解析:9.[单选题]下面哪个选项不是我们需要Hadoop的主要原因()A)我们需要处理PB级别的数据B)为每个应用建立一个可靠的系统是很昂贵的C)几乎每天都有结点坏掉D)把一个任务分割成多个子任务的方式是不好的答案:D解析:10.[单选题]为了让集群中的机器能够正常通信,所有集群的IP必须设置成静态IP,防止机器重启之后而找不到机器的情况,那么IP地址配置需要修改那个文件()A)ifcfg-loB)network-functionsC)ifcfg-ens33D)network-functions-ipv6答案:C解析:11.[单选题]Spark生态系统组件Spark Streaming的应用场景是?A)基于历史数据的数据挖掘B)图结构数据的处理C)基于历史数据的交互式查询D)基于实时数据流的数据处理答案:D解析:12.[单选题]关于HDFS集群中的DataNode的描述不正确的是?A)DataNode之间都是独立的,相互之间不会有通信B)存储客户端上传的数据的数据块C)响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑13.[单选题]Hadoop2.x版本中的数据块大小默认是多少? ()A)64MB)128MC)256MD)512M答案:B解析:14.[单选题]HDFS分布式文件系统的特点为____________。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
h a d o o p练习题--带
答案
Hadoop 练习题姓名:分数:
单项选择题
1.下面哪个程序负责HDFS数据存储。
a)NameNode
b)Jobtracker
c)Datanode √
d)secondaryNameNode
e)tasktracker
2.HDfS中的block默认保存几份?
a)3份√
b)2份
c)1份
d)不确定
3.下列哪个程序通常与NameNode在一个节点启动?
a)SecondaryNameNode
b)DataNode
c)TaskTracker
d)Jobtracker√
4.Hadoop作者
a)Martin Fowler
b)Kent Beck
c)Doug cutting√
5.HDFS默认Block Size
a)32MB
b)64MB√
c)128MB
6.下列哪项通常是集群的最主要的性能瓶颈
a)CPU
b)网络
c)磁盘√
d)内存
7.关于SecondaryNameNode哪项是正确的?
a)它是NameNode的热备
b)它对内存没有要求
c)它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间√
d)SecondaryNameNode应与NameNode部署到一个节点
8.一个gzip文件大小75MB,客户端设置Block大小为64MB,请我其占用几个Block?
a) 1
b)2√
c) 3
d) 4
9.HDFS有一个gzip文件大小75MB,客户端设置Block大小为64MB。
当运行mapreduce
任务读取该文件时input split大小为?
a)64MB
b)75MB√
c)一个map读取64MB,另外一个map读取11MB
10.HDFS有一个LZO(with index)文件大小75MB,客户端设置Block大小为64MB。
当运
行mapreduce任务读取该文件时input split大小为?
a)64MB
b)75MB
c)一个map读取64MB,另外一个map读取11MB√
多选题:
11.下列哪项可以作为集群的管理工具
a)Puppet√
b)Pdsh√
c)Cloudera Manager√
d)Rsync + ssh + scp√
12.配置机架感知的下面哪项正确
a)如果一个机架出问题,不会影响数据读写√
b)写入数据的时候会写到不同机架的DataNode中√
c)MapReduce会根据机架获取离自己比较近的网络数据√
13.Client端上传文件的时候下列哪项正确
a)数据经过NameNode传递给DataNode
b)Client端将文件以Block为单位,管道方式依次传到DataNode√
c)Client只上传数据到一台DataNode,然后由NameNode负责Block复制工作
d)当某个DataNode失败,客户端会继续传给其它DataNode √
14.下列哪个是Hadoop运行的模式
a)单机版√
b)伪分布式√
c)分布式√
15.Cloudera提供哪几种安装CDH的方法
a)Cloudera manager√
b)Tar ball√
c)Yum√
d)Rpm√
判断题:(全部错)
16.Ganglia不仅可以进行监控,也可以进行告警。
()
17.Nagios不可以监控Hadoop集群,因为它不提供Hadoop支持。
()
18.如果NameNode意外终止,SecondaryNameNode会接替它使集群继续工作。
()
19.Cloudera CDH是需要付费使用的。
()
20.Hadoop是Java开发的,所以MapReduce只支持Java语言编写。
()
21.Hadoop支持数据的随机写。
()
Node负责管理metadata,client端每次读写请求,它都会从磁盘中读取或则会写
入metadata信息并反馈client端。
()
Node本地磁盘保存了Block的位置信息。
()
24.Slave节点要存储数据,所以它的磁盘越大越好。
()
25.Hadoop默认调度器策略为FIFO,并支持多个Pool提交Job。
()
26.集群内每个节点都应该配RAID,这样避免单磁盘损坏,影响整个节点运行。
()
27.因为HDFS有多个副本,所以NameNode是不存在单点问题的。
()
28.每个map槽就是一个线程。
()
29.Mapreduce的input split就是一个block。
()
30.Hadoop环境变量中的HADOOP_HEAPSIZE用于设置所有Hadoop守护线程的内存。
它默
认是200MB。
()
31.DataNode首次加入cluster的时候,如果log中报告不兼容文件版本,那需要
NameNode执行“hadoop namenode -format”操作格式化磁盘。
()
32.Hadoop1.0和2.0都具备完善的HDFS HA策略。
()
33.GZIP压缩算法比LZO更快。
()
34.PIG是脚本语言,它与mapreduce无关。
()。