(完整版)hadoop常见笔试题答案

合集下载

Hadoop试题试题库

1. 以下哪一项不属于Hadoop可以运行的模式___C___。

A. 单机（本地）模式B. 伪分布式模式C. 互联模式D. 分布式模式2. Hadoop的作者是下面哪一位__B____。

A. Martin FowlerB. Doug cuttingC. Kent BeckD. Grace Hopper3. 下列哪个程序通常与NameNode 在同一个节点启动__D___。

A. TaskTrackerB. DataNodeC. SecondaryNameNodeD. Jobtracker4. HDFS 默认Block Size的大小是___B___。

A.32MBB.64MBC.128MBD.256M5. 下列哪项通常是集群的最主要瓶颈____C__。

A. CPUB. 网络C. 磁盘IOD. 内存6. 下列关于MapReduce说法不正确的是_____C_。

A. MapReduce是一种计算框架B. MapReduce来源于google的学术论文C. MapReduce程序只能用java语言编写D. MapReduce隐藏了并行计算的细节，方便使用8. HDFS是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是__D____。

A．一次写入，少次读B．多次写入，少次读C．多次写入，多次读D．一次写入，多次读9. HBase依靠__A____存储底层数据。

A. HDFSB. HadoopC. MemoryD. MapReduce10. HBase依赖___D___提供强大的计算能力。

A. ZookeeperB. ChubbyC. RPCD. MapReduce11. HBase依赖___A___提供消息通信机制A. ZookeeperB. ChubbyC. RPCD. Socket12. 下面与HDFS类似的框架是___C____？A. NTFSB. FAT32C. GFSD. EXT313. 关于SecondaryNameNode 下面哪项是正确的___C___。

Hadoop笔试题

原创Hadoop基础题库1.//Hadoop基础2.Doug Cutting所创立的项目的名称都受到其家人的启发，以下项目不是由他创立的项目是3.A． Hadoop4.B． Nutch5.C． Lucene6.D． Solr7.答案：D8.9.配置Hadoop时，JAVA_HOME包含在哪一个配置文件中10.A． hadoop-default.xml11.B． hadoop-env.sh12.C． hadoop-site.xml13.D． configuration.xsl14.答案：B15.知识点：hadoop配置16.17.Hadoop配置文件中，hadoop-site.xml显示覆盖hadoop-default.xml里的内容。

在版本0.20中，hadoop-site.xml被分离成三个XML文件，不包括18.A． conf-site.xml19.B． mapred-site.xml20.C． core-site.xml21.D． hdfs-site.xml22.答案：A23.知识点：hadoop配置24.25.HDFS默认的当前工作目录是/user/$USER，的值需要在哪个配置文件内说明26. A. mapred-site.xml27. B. core-site.xml28. C. hdfs-site.xml29. D. 以上均不是30.答案：B31.知识点：hadoop配置32.33.关于Hadoop单机模式和伪分布式模式的说法，正确的是34.A．两者都起守护进程，且守护进程运行在一台机器上35.B．单机模式不使用HDFS，但加载守护进程36.C．两者都不与守护进程交互，避免复杂性37.D．后者比前者增加了HDFS输入输出以及可检查内存使用情况38.答案：D39.知识点：hadoop配置40.41.下列关于Hadoop API的说法错误的是42.A． Hadoop的文件API不是通用的，只用于HDFS文件系统43.B． Configuration类的默认实例化方法是以HDFS系统的资源配置为基础的44.C． FileStatus对象存储文件和目录的元数据45.D． FSDataInputStream是java.io.DataInputStream的子类46.答案：A47.48.//HDFS49.HDFS的NameNode负责管理文件系统的命名空间，将所有的文件和文件夹的元数据保存在一个文件系统树中，这些信息也会在硬盘上保存成以下文件：50.A．日志51.B．命名空间镜像52.C．两者都是53.答案：C54.知识点：55.56.HDFS的namenode保存了一个文件包括哪些数据块，分布在哪些数据节点上，这些信息也存储在硬盘上。

大数据hadoop云平台日常运维知识考试

大数据hadoop云平台日常运维知识考试1. IT公司所有（）应系统为单位配备二线运维现场值班、备班（非现场）人员，确保系统出现故障后第一时间处理。

[单选题] *A.业务系统B.核心系统(正确答案)C.重要系统D.一般系统答案解析：《中移（动）信息技术有限公司IT系统运维质量管理办法》第六章第二十八条核心系统二线运维值班备班管理要求。

IT公司所有核心系统应以系统为单位配备二线运维现场值班、备班（非现场）人员，确保系统出现故障后第一时间处理。

2. 二线运维备班人员应保持7×24小时实时待命状态，确保系统出现故障后（）分钟内可接入生产系统开展运维处置工作。

[单选题] *A.30分钟B.20分钟C.15分钟D.10分钟(正确答案)答案解析：《中移（动）信息技术有限公司IT系统运维质量管理办法》第六章第二十八条二线运维备班人员应保持7×24小时实时待命状态，确保系统出现故障后10分钟内可接入生产系统开展运维处置工作。

3. 根据公司割接管理要求，下列哪项不属于“四个必须”管理要求。

[单选题] *A.割接实施过程中涉及的关键步骤、关键动作，必须做到有人复核、有人验证。

B.割接方案经过评审后，方可实施。

涉及或潜在影响多部门或外单位的割接，必须通过割接工单或其它形式提前告知。

C.割接工作涉及或潜在影响其他系统的，必须请相关系统的主体运营部门参与方案评审。

D.各部门应对割接方案进行评审，项目经理作为割接工作的第一责任人，必须要对割接方案进行审核。

(正确答案)答案解析：《中移（动）信息技术有限公司IT系统运维质量管理办法》第七章割接报备管理第三十三条割接管理须遵循“四个必须”管理要求（一）各部门应对割接方案进行评审，部门领导作为割接工作的第一责任人，必须要对割接方案进行审核。

（二）割接工作涉及或潜在影响其他系统的，必须请相关系统的主体运营部门参与方案评审。

（三）割接方案经过评审后，方可实施。

Hadoop试题试题库

1. 以下哪一项不属于Hadoop可以运行的模式___C___。

A. 单机（本地）模式B. 伪分布式模式C. 互联模式D. 分布式模式2. Hadoop的作者是下面哪一位__B____。

A. Martin FowlerB. Doug cuttingC. Kent BeckD. Grace Hopper3. 下列哪个程序通常与 NameNode 在同一个节点启动__D___。

A. TaskTrackerB. DataNodeC. SecondaryNameNodeD. Jobtracker4. HDFS 默认 Block Size的大小是___B___。

A.32MBB.64MBC.128MBD.256M5. 下列哪项通常是集群的最主要瓶颈____C__。

A. CPUB. 网络C. 磁盘IOD. 内存6. 下列关于MapReduce说法不正确的是_____C_。

A．一次写入，少次读B．多次写入，少次读C．多次写入，多次读D．一次写入，多次读9. HBase依靠__A____存储底层数据。

A. HDFSB. HadoopC. MemoryD. MapReduce10. HBase依赖___D___提供强大的计算能力。

A. ZookeeperB. ChubbyC. RPCD. MapReduce11. HBase依赖___A___提供消息通信机制A. ZookeeperB. ChubbyC. RPCD. Socket12. 下面与HDFS类似的框架是___C____？A. NTFSB. FAT32C. GFSD. EXT313. 关于 SecondaryNameNode 下面哪项是正确的___C___。

hadoop考试试题

hadoop 考试一试题您的姓名：[填空题 ] *_________________________________1.Spark 是用一下哪一种编程语言实现的？[单项选择题 ] *（）A.CB.C++;C.JAVA; (正确答案 )D.Scala2.FusionInsight Manager对服务的管理操作，下边说法错误的选项是？（）[ 单项选择题 ] *A.可对服务进行启停重启操作；B.能够增添和卸载服务 ;C.可设置不常用的服务隐蔽或显示;(正确答案 )D.能够查察服务的目前状态;3.FusionInsight HD 集群升级，一下描绘正确的选项是？（）*A. 升级过程中不可以够操作准备OMS 倒换 ;(正确答案 )B.集群内全部主机的root 账户密码要保持一致 ;(正确答案 )C.保持网络畅达，防止网络问题致使升级异样;(正确答案 )D.察看期不可以做扩容 ;(正确答案 )4.FusionInsight HD Loader 在创立作业时，连结器(Connector)有什么用？（）[单项选择题 ] *A. 确立有哪些转变步骤 ;B.供给优化参数，提高数据导出性能;C.配置数据怎样与外面数据进行连结;(正确答案 )D.配置数据怎样与内部数据进行连结;5.以下哪个 HDFS 命令可用于检测数据块的完好性？（）[ 单项选择题 ] *A.hdfs fsck /;(正确答案 )B.hdfs fsck / -delete;C.hdfs dfsadmin -report;D.hdfs balancer -threshold 1;6.YARN 中设置行列 QueueA 最大使用资源里，需要配置哪个参数？（）[单项选择题 ]*A.yarn scheduler capacty root QueueA user-limit-factor;B.yarn scheduler capacty root QueueA minimum-user-limit-percent;C.yarn scheduler capacty root QueueA state;D.yarn scheduler capacty root QueueA maximum-capacity;(正确答案 )7.Flume 的数据流能够依据headers的信息发送到不一样的channel中。

Hadoop常见面试笔试题目与参考答案小结

Hadoop常见⾯试笔试题⽬与参考答案⼩结1. namenode的重要性是什么?namenode的作⽤在Hadoop中⾮常重要。

它是Hadoop的⼤脑，主要负责管理系统上的分配块，还为客户提出请求时的数据提供特定地址2. 当NameNode关闭时会发⽣什么?如果NameNode关闭，⽂件系统将脱机。

3. 是否可以在不同集群之间复制⽂件?如果是的话，怎么能做到这⼀点?是的，可以在多个Hadoop集群之间复制⽂件，这可以使⽤分布式复制来完成。

Distcp是⼀个Hadoop复制⼯具，主要⽤于执⾏MapReduce作业来复制数据。

Hadoop环境中的主要挑战是在各集群之间复制数据，distcp也将提供多个datanode来并⾏复制数据。

4. 什么是检查点?对⽂件数据的修改不是直接写回到磁盘的，很多操作是先缓存到内存的Buffer中，当遇到⼀个检查点Checkpoint时，系统会强制将内存中的数据写回磁盘，当然此时才会记录⽇志，从⽽产⽣持久的修改状态。

因此，不⽤重放⼀个编辑⽇志，NameNode可以直接从FsImage加载到最终的内存状态，这肯定会降低NameNode启动时间5. 什么是机架感知?这是⼀种决定如何根据机架定义放置块的⽅法。

Hadoop将尝试限制存在于同⼀机架中的datanode之间的⽹络流量。

为了提⾼容错能⼒，名称节点会尽可能把数据块的副本放到多个机架上。

综合考虑这两点的基础上Hadoop设计了机架感知功能。

6. 投机性执⾏如果⼀个节点正在执⾏⽐主节点慢的任务。

那么就需要在另⼀个节点上冗余地执⾏同⼀个任务的⼀个实例。

所以⾸先完成的任务会被接受，另⼀个可能会被杀死。

这个过程被称为“投机执⾏”。

7. 是否可以在Windows上运⾏Hadoop?可以，但是最好不要这么做，Red Hat Linux或者是Ubuntu才是Hadoop的最佳操作系统。

在Hadoop安装中，Windows通常不会被使⽤，因为会出现各种各样的问题。

Hadoop基础(习题卷18)

Hadoop基础(习题卷18)第1部分：单项选择题，共53题，每题只有一个正确答案,多选或少选均不得分。

1.[单选题]下列不属于Python中Flask框架特点的是？A)内置开发服务器和调试器B)与Python单元测试功能无缝衔接C)使用Jinja2模板D)端口号固定为5000，且无法修改答案:D解析:2.[单选题]在Java中，方法resume( )负责重新开始▁▁线程的执行A)被stop( )方法停止B)被sleep( )方法停止C)被wait( )方法停止D)被suspend( )方法停止答案:D解析:3.[单选题]在Java中，假如电脑上E盘没有xxx目录，则下面程序功能描述正确是_x000D_File file1=new File("e:\\xxx\\yyy"); file1.mkdir()A)在当前目录下生成子目录:\xxx\yyyB)在E盘自动创建xxx/yyy目录C)在当前目录下生成文件xxx.yyyD)代码执行后E盘不会产生任何目录答案:D解析:4.[单选题]在Hadoop上提交Job时不涉及哪个实体（）A)客户端B)HDFSC)SecondaryNodeD)JobTracker答案:C解析:5.[单选题]下面哪些不是引起 Spark 负载不均的原因？（）A)Spark 读入的数据源是倾斜的B)Shuffle 阶段 Key 值过于集中C)在数据过滤阶段需要处理的数据量差异D)Spark 的运行方式差异答案:D解析:6.[单选题]配置Hadoop时，JAVA_HOME包含在哪一个配置文件中?A)hadoop-default.xmlC)hadoop-site.xmlD)configuration.xml答案:B解析:7.[单选题]在 hadoop 配置中 yarn-site.xml 作用是( )A)用于定义系统级别的参数B)用于名称节点和数据节点的存放位置C)用于配置 JobHistory Server 和应用程序参数D)配置 ResourceManager,NodeManager 的通信端口答案:D解析:8.[单选题]HDFS中的block默认保存____份。

Hadoop试题试题库完整

Hadoop试题试题库完整1. 以下哪⼀项不属于Hadoop可以运⾏的模式___C___。

A. 单机（本地）模式B. 伪分布式模式C. 互联模式D. 分布式模式2. Hadoop的作者是下⾯哪⼀位__B____。

A. Martin FowlerB. Doug cuttingC. Kent BeckD. Grace Hopper3. 下列哪个程序通常与 NameNode 在同⼀个节点启动__D___。

A. TaskTrackerB. DataNodeC. SecondaryNameNodeD. Jobtracker4. HDFS 默认 Block Size的⼤⼩是___B___。

A.32MBB.64MBC.128MBD.256M5. 下列哪项通常是集群的最主要瓶颈____C__。

A. CPUB. ⽹络C. 磁盘IOD. 内存6. 下列关于MapReduce说法不正确的是_____C_。

A. MapReduce是⼀种计算框架B. MapReduce来源于google的学术论⽂C. MapReduce程序只能⽤java语⾔编写D. MapReduce隐藏了并⾏计算的细节，⽅便使⽤8. HDFS是基于流数据模式访问和处理超⼤⽂件的需求⽽开发的，具有⾼容错、⾼可靠性、⾼可扩展性、⾼吞吐率等特征，适合的读写任务是 __D____。

A．⼀次写⼊，少次读C．多次写⼊，多次读D．⼀次写⼊，多次读9. HBase依靠__A____存储底层数据。

A. HDFSB. HadoopC. MemoryD. MapReduce10. HBase依赖___D___提供强⼤的计算能⼒。

A. ZookeeperB. ChubbyC. RPCD. MapReduce11. HBase依赖___A___提供消息通信机制A. ZookeeperB. ChubbyC. RPCD. Socket12. 下⾯与HDFS类似的框架是___C____？A. NTFSB. FAT32C. GFSD. EXT313. 关于 SecondaryNameNode 下⾯哪项是正确的___C___。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Hadoop测试题一．填空题，1分（41空），2分（42空）共125分1.(每空1分) datanode 负责HDFS数据存储。

2.(每空1分)HDFS中的block默认保存 3 份。

3.(每空1分)ResourceManager 程序通常与NameNode 在一个节点启动。

4.(每空1分)hadoop运行的模式有：单机模式、伪分布模式、完全分布式。

5.(每空1分)Hadoop集群搭建中常用的4个配置文件为：core-site.xml 、hdfs-site.xml、mapred-site.xml 、yarn-site.xml 。

6.(每空2分)HDFS将要存储的大文件进行分割，分割后存放在既定的存储块中，并通过预先设定的优化处理，模式对存储的数据进行预处理，从而解决了大文件储存与计算的需求。

7.(每空2分)一个HDFS集群包括两大部分，即namenode 与datanode 。

一般来说，一个集群中会有一个namenode 和多个datanode 共同工作。

8.(每空2分) namenode 是集群的主服务器，主要是用于对HDFS中所有的文件及内容数据进行维护，并不断读取记录集群中datanode 主机情况与工作状态，并通过读取与写入镜像日志文件的方式进行存储。

9.(每空2分) datanode 在HDFS集群中担任任务具体执行角色，是集群的工作节点。

文件被分成若干个相同大小的数据块，分别存储在若干个datanode 上，datanode 会定期向集群内namenode 发送自己的运行状态与存储内容，并根据namnode 发送的指令进行工作。

10.(每空2分) namenode 负责接受客户端发送过来的信息，然后将文件存储位置信息发送给client ，由client 直接与datanode 进行联系，从而进行部分文件的运算与操作。

11.(每空1分) block 是HDFS的基本存储单元，默认大小是128M 。

12.(每空1分)HDFS还可以对已经存储的Block进行多副本备份，将每个Block至少复制到3 个相互独立的硬件上，这样可以快速恢复损坏的数据。

13.(每空2分)当客户端的读取操作发生错误的时候，客户端会向namenode 报告错误，并请求namenode 排除错误的datanode 后，重新根据距离排序，从而获得一个新的的读取路径。

如果所有的datanode 都报告读取失败，那么整个任务就读取失败。

14.(每空2分)对于写出操作过程中出现的问题，FSDataOutputStream 并不会立即关闭。

客户端向Namenode报告错误信息，并直接向提供备份的datanode 中写入数据。

备份datanode 被升级为首选datanode ，并在其余2个datanode 中备份复制数据。

NameNode对错误的DataNode进行标记以便后续对其进行处理。

15.(每空1分)格式化HDFS系统的命令为：hdfs namenode –format 。

16.(每空1分)启动hdfs的shell脚本为：start-dfs.sh 。

17.(每空1分)启动yarn的shell脚本为：start-yarn.sh 。

18.(每空1分)停止hdfs的shell脚本为：stop-dfs.sh 。

19.(每空1分)hadoop创建多级目录（如：/a/b/c）的命令为：hadoop fs –mkdir –p /a/b/c 。

20.(每空1分)hadoop显示根目录命令为：hadoop fs –lsr 。

21.(每空1分)hadoop包含的四大模块分别是：Hadoop common 、HDFS 、Mapreduce 、yarn 。

22.(每空1分)namenode默认的WebUI访问端口号为：50070 。

23.(每空1分)ResourceManager默认的WebUI访问端口号为：8088 。

24.(每空1分)historyServer默认的WebUI访问端口号为：19888 。

25.(每空1分)修改blocksize大小的属性是：dfs.blocksize ，在hdfs-site.xml 配置文件里。

26.(每空1分)HDFS中namenode的RPC端口号为：8021 ，其作用是：接收Client连接的RPC端口，用于获取文件系统metadata信息。

27.(每空2分)Mapper类中有 4 个函数。

28.(每空1分)默认NameNode周期性从DataNode接收心跳信号的时间间隔为：3s 。

29.(每空1分)hadoop集群默认机架感知是启用的。

是否正确：错误。

30.(每空2分)Hadoop Map/Reduce Shuffle过程：inputsplit-->map函数—>内存缓冲区→Partition→sort→combine→spill--> map端merge -->reduce端copy—>merge→reduce函数。

31.(每空2分)一个NodeManager能够同时运行最大reduce任务数（默认）： 2 。

32.(每空2分)默认情况下，一个同时运行了namenode，secondarynamenode和ResourceManager的主节点，所使用的内存容量为3000 M。

33.(每空2分)Hadoop集群中有三种作业调度算法，分别为FIFO调度，计算能力调度和公平调度。

34.(每空1分)HA产生的背景是：为了解决单NN可能出现宕机导致集群不可用或数据丢失的问题。

35.(每空1分)通过Zookeeper 管理两个或者多个NameNode，使一个NameNode为active 状态，并且同步每个NN的元数据，如果active 状态的NN宕机后马上启用状态为standby 状态的备用节点。

36.(每空1分) job 是客户端需要执行的一个工作单元。

37.(每空1分)Hadoop将作业分成若干个task 来执行，其中包括：maptask 和reducetask 。

38.(每空2分)combiner是通过Reducer 类来定义的。

39.(每空2分)map任务将其输出写入到本地磁盘。

40.(每空2分)reduce的输出通常存储在HDFS 中以实现可靠存储。

41.(每空2分)HDFS会对写入的所有数据计算校验和，并在读取数据时验证校验和。

42.(每空2分)序列化用于分布式数据处理的两大领域为：进程间通信和永久存储。

43.(每空2分)hadoop使用自己的序列化格式为：Writable 。

二．简答题，3分（17题），5分（5题）共75分1.(3分)简要描述如何安装配置apache的一个开源hadoop，只描述即可，无需列出具体步骤，列出具体步骤更好。

答：1使用root账户登录2 修改IP3 修改host主机名4 配置SSH免密码登录5 关闭防火墙6 安装JDK7 解压hadoop安装包8 配置hadoop的核心文件hadoop-env.sh，core-site.xml , mapred-site.xml ，hdfs-site.xml9 配置hadoop环境变量10 格式化hadoop namenode -format11 启动节点start-all.sh2.(3分)请列出正常的hadoop集群中hadoop都分别需要启动哪些进程，他们的作用分别都是什么，请尽量列的详细一些。

答：namenode：管理集群，存储数据的原信息，并管理记录datanode中的文件信息。

secondarynamenode：它是namenode的一个快照，会根据configuration中设置的值来决定多少时间周期性的去cp一下namenode，记录namenode中的metadata及其它数据。

Datanode：存储数据ResourceManager：ResourceManager负责集群中所有资源的统一管理和分配，它接收来自各个节点（NodeManager）的资源汇报信息，并把这些信息按照一定的策略分配给各个应用程序（实际上是ApplicationManager）NodeManager：是YARN中每个节点上的代理，它管理Hadoop集群中单个计算节点(3分)请写出以下的shell命令（1）杀死一个job（2）删除hdfs上的/tmp/aaa目录（3）加入一个新的存储节点和删除一个节点需要执行的命令答：（1）mapred job -list得到job的id，然后执行mapred job –kill jobId就可以杀死一个指定jobId的job工作了。

（2）hadoop fs -rmr /tmp/aaa或者hdfs dfs –rmr /tmp/aaa（3）增加一个新的节点在新的节点上执行hadoop-daemon.sh start datanode然后在主节点中执行hdfs dfsadmin -refreshNodes删除一个节点的时候，只需要在主节点执行hdfs dfsadmin –refreshnodes3.(3分)请简述mapreduce中的combine和partition的作用答：combiner是发生在map的最后一个阶段，其原理也是一个小型的reducer，主要作用是减少输出到reduce的个数，减少reducer的输入，提高reducer的执行效率。

Partition的主要作用就是指定输出到reduce的个数的。

4.(3分)hdfs的体系结构答：HDFS采用了主从（Master/Slave）结构模型，一个HDFS集群是由一个NameNode和若干个DataNode组成的。

其中NameNode作为主服务器，管理文件系统的命名空间和客户端对文件的访问操作；集群中的DataNode管理存储的数据5.(3分)三个datanode中当有一个datanode出现错误时会怎样？答：当有一个datanode出现错误的时候，namenode会将那个datanode上的数据拷贝到其他的节点去进行存储。

6.(3分)文件大小默认为64M，改为128M 有什么影响？答：更改文件的block块大小，需要根据我们的实际生产中来更改block的大小，如果block 定义的太小，大的文件都会被切分成太多的小文件，减慢用户上传效率，如果block定义的太大，那么太多的小文件可能都会存到一个block块中，虽然不浪费硬盘资源，可是还是会增加namenode的管理内存压力。

7.(3分)NameNode与SecondaryNameNode的区别与联系？答：secondaryNameNode更像是Namenode的一个冷备份，当namenode宕机之后，可以从SecondaryNamenode上面恢复部分数据。