hadoop常见笔试题答案

(完整版)hadoop常见笔试题答案

Hadoop测试题一．填空题，1分（41空），2分（42空）共125分1.(每空1分) datanode 负责HDFS数据存储。

2.(每空1分)HDFS中的block默认保存 3 份。

3.(每空1分)ResourceManager 程序通常与NameNode 在一个节点启动。

4.(每空1分)hadoop运行的模式有：单机模式、伪分布模式、完全分布式。

5.(每空1分)Hadoop集群搭建中常用的4个配置文件为：core-site.xml 、hdfs-site.xml、mapred-site.xml 、yarn-site.xml 。

6.(每空2分)HDFS将要存储的大文件进行分割，分割后存放在既定的存储块中，并通过预先设定的优化处理，模式对存储的数据进行预处理，从而解决了大文件储存与计算的需求。

7.(每空2分)一个HDFS集群包括两大部分，即namenode 与datanode 。

一般来说，一个集群中会有一个namenode 和多个datanode 共同工作。

8.(每空2分) namenode 是集群的主服务器，主要是用于对HDFS中所有的文件及内容数据进行维护，并不断读取记录集群中datanode 主机情况与工作状态，并通过读取与写入镜像日志文件的方式进行存储。

9.(每空2分) datanode 在HDFS集群中担任任务具体执行角色，是集群的工作节点。

文件被分成若干个相同大小的数据块，分别存储在若干个datanode 上，datanode 会定期向集群内namenode 发送自己的运行状态与存储内容，并根据namnode 发送的指令进行工作。

10.(每空2分) namenode 负责接受客户端发送过来的信息，然后将文件存储位置信息发送给client ，由client 直接与datanode 进行联系，从而进行部分文件的运算与操作。

11.(每空1分) block 是HDFS的基本存储单元，默认大小是128M 。

hadoop练习题带答案

hadoop练习题带答案hadoop练习题--带答案Hadoop练习姓名：分数：单选题1.下面哪个程序负责hdfs数据存储。

a） namenodeb）工作追踪者c)datanode√d）第二名（nodee）任务跟踪器2.hdfs中的block默认保存几份？a） 3份√ b） 2份C）1份d）不确定3.下列哪个程序通常与namenode在一个节点启动？a） secondarynamenodeb）datanodec）tasktrackerd）jobtracker√4.hadoop作者a）马丁福勒布）肯特贝克c)dougcutting√5.HDFS默认块大小a)32mbb)64mb√c)128mb6.以下哪项通常是集群的主要性能瓶颈a)cpub)网络c)磁盘√d)内存7.关于secondarynamenode，以下哪项是正确的？a)它是namenode的热备b)它对内存没有要求c）其目的是帮助namenode合并和编辑日志，减少namenode的启动时间√ d）secondarynamenode应部署到与namenode相同的节点8.一个gzip文件大小75mb，客户端设置block大小为64mb，请我其占用几个block？a）一,b)2√c)3d)49.HDFS的gzip文件大小为75mb，客户端将块大小设置为64MB。

运行MapReduce时任务读取该文件时inputsplit大小为？a)64mbb)75mb√c）一张地图显示64MB，另一张地图显示11mb10.hdfs有一个lzo（withindex）文件大小75mb，客户端设置block大小为64mb。

当运MapReduce任务读取文件时，inputplit大小为？a） 64MB）75mbc)一个map读取64mb，另外一个map读取11mb√多项选择题：11.下列哪项可以作为集群的管理工具a）木偶√b）pdsh√c)clouderamanager√d)rsync+ssh+scp√12.以下哪项对于配置机架感知是正确的a)如果一个机架出问题，不会影响数据读写√b）写入数据时，数据将被写入不同机架的数据节点√c)mapreduce会根据机架获取离自己比较近的网络数据√13.在客户端上传文件时，以下哪项是正确的a)数据经过namenode传递给datanodeb）客户端以块和管道模式将文件传输到datanode√c)client只上传数据到一台datanode，然后由namenode负责block复制工作d)当某个datanode失败，客户端会继续传给其它datanode√14.以下哪项是Hadoop的运行模式a)单机版√b)伪分布式√c)分布式√15.cloudera提供了哪些安装CDH的方法a)clouderamanager√b)tarball√c)yum√d)rpm√判断问题：（全部错）16.神经节不仅能监测，还能报警。

hadoop考试试题

hadoop 考试一试题您的姓名：[填空题 ] *_________________________________1.Spark 是用一下哪一种编程语言实现的？[单项选择题 ] *（）A.CB.C++;C.JAVA; (正确答案 )D.Scala2.FusionInsight Manager对服务的管理操作，下边说法错误的选项是？（）[ 单项选择题 ] *A.可对服务进行启停重启操作；B.能够增添和卸载服务 ;C.可设置不常用的服务隐蔽或显示;(正确答案 )D.能够查察服务的目前状态;3.FusionInsight HD 集群升级，一下描绘正确的选项是？（）*A. 升级过程中不可以够操作准备OMS 倒换 ;(正确答案 )B.集群内全部主机的root 账户密码要保持一致 ;(正确答案 )C.保持网络畅达，防止网络问题致使升级异样;(正确答案 )D.察看期不可以做扩容 ;(正确答案 )4.FusionInsight HD Loader 在创立作业时，连结器(Connector)有什么用？（）[单项选择题 ] *A. 确立有哪些转变步骤 ;B.供给优化参数，提高数据导出性能;C.配置数据怎样与外面数据进行连结;(正确答案 )D.配置数据怎样与内部数据进行连结;5.以下哪个 HDFS 命令可用于检测数据块的完好性？（）[ 单项选择题 ] *A.hdfs fsck /;(正确答案 )B.hdfs fsck / -delete;C.hdfs dfsadmin -report;D.hdfs balancer -threshold 1;6.YARN 中设置行列 QueueA 最大使用资源里，需要配置哪个参数？（）[单项选择题 ]*A.yarn scheduler capacty root QueueA user-limit-factor;B.yarn scheduler capacty root QueueA minimum-user-limit-percent;C.yarn scheduler capacty root QueueA state;D.yarn scheduler capacty root QueueA maximum-capacity;(正确答案 )7.Flume 的数据流能够依据headers的信息发送到不一样的channel中。

Hadoop常见面试笔试题目与参考答案小结

Hadoop常见⾯试笔试题⽬与参考答案⼩结1. namenode的重要性是什么?namenode的作⽤在Hadoop中⾮常重要。

它是Hadoop的⼤脑，主要负责管理系统上的分配块，还为客户提出请求时的数据提供特定地址2. 当NameNode关闭时会发⽣什么?如果NameNode关闭，⽂件系统将脱机。

3. 是否可以在不同集群之间复制⽂件?如果是的话，怎么能做到这⼀点?是的，可以在多个Hadoop集群之间复制⽂件，这可以使⽤分布式复制来完成。

Distcp是⼀个Hadoop复制⼯具，主要⽤于执⾏MapReduce作业来复制数据。

Hadoop环境中的主要挑战是在各集群之间复制数据，distcp也将提供多个datanode来并⾏复制数据。

4. 什么是检查点?对⽂件数据的修改不是直接写回到磁盘的，很多操作是先缓存到内存的Buffer中，当遇到⼀个检查点Checkpoint时，系统会强制将内存中的数据写回磁盘，当然此时才会记录⽇志，从⽽产⽣持久的修改状态。

因此，不⽤重放⼀个编辑⽇志，NameNode可以直接从FsImage加载到最终的内存状态，这肯定会降低NameNode启动时间5. 什么是机架感知?这是⼀种决定如何根据机架定义放置块的⽅法。

Hadoop将尝试限制存在于同⼀机架中的datanode之间的⽹络流量。

为了提⾼容错能⼒，名称节点会尽可能把数据块的副本放到多个机架上。

综合考虑这两点的基础上Hadoop设计了机架感知功能。

6. 投机性执⾏如果⼀个节点正在执⾏⽐主节点慢的任务。

那么就需要在另⼀个节点上冗余地执⾏同⼀个任务的⼀个实例。

所以⾸先完成的任务会被接受，另⼀个可能会被杀死。

这个过程被称为“投机执⾏”。

7. 是否可以在Windows上运⾏Hadoop?可以，但是最好不要这么做，Red Hat Linux或者是Ubuntu才是Hadoop的最佳操作系统。

在Hadoop安装中，Windows通常不会被使⽤，因为会出现各种各样的问题。

Hadoop基础(试卷编号151)

Hadoop基础(试卷编号151)1.[单选题]下列关于Hadoop和Spark说法错误的是（）。

A)二者都支持流式计算B)二者都支持批量计算C)二者都支持机器学习D)二者都支持SQL语句查询答案:A解析:2.[单选题]测试 Sqoop 是否能够正常连接 MySQL 数据库命令是( )A)sqoop list-database --connect jdbc:mysql://127.0.0.1:3306/ --username root - PB)sqoop list-databases --connection jdbc:mysql://127.0.0.1:3306/ --username root - PC)sqoop list-databases --connect jdbc:mysql://127.0.0.1:3306/ --username root -LD)sqoop list-databases --connect jdbc:mysql://127.0.0.1:3306/ --username root - P答案:D解析:3.[单选题]下面哪个命令是用来定义shell的全局变量：A)exportfsB)aliasC)exportsD)export答案:D解析:4.[单选题]关于Hadoop下列说法错误的是（）A)HDFS采用了Master/Slave的架构模型B)Namenode负责维护文件系统的命名空间C)Datanode执行比如打开、关闭、重命名文件操作D)HDFS暴露了文件系统的命名空间，允许用户以文件的形式在上面存储数据答案:C解析:5.[单选题]关干HiveSQL运行原理，描述不正确的选项有?(A)C)对于selectcount（*）fromtable操作，一定会启reduce任务D)对于select*fromtable语句不会启MapReduce答案:A解析:6.[单选题]调用Zookeeper对象创建的节点,不包括()。

Hadoop基础(习题卷3)

Hadoop基础(习题卷3)第1部分：单项选择题，共54题，每题只有一个正确答案,多选或少选均不得分。

1.[单选题]大数据的简单算法与小数据的复杂算法相比（）A)更有效B)相当C)不具备可比性D)无效答案:A解析:2.[单选题]下列选项中，不是CouchDB的复制中的特点是：A)使用优先列表B)复制过程是逐步进行C)允许分区复制D)支持智能文档模式答案:A解析:3.[单选题]从HDFS下载文件，正确的shell命令是（）。

A)-getB)-appendToFileC)-putD)-copyFromLocal答案:A解析:4.[单选题]关于HDFS集群中的DataNode的描述不正确的是?A)存储客户端上传的数据的数据块B)一个DataNode上存储的所有数据块可以有相同的C)DataNode之间可以互相通信D)响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑答案:B解析:5.[单选题]在Java中，一个线程如果调用了sleep()方法，能唤醒它的方法是A)notify()B)resume()C)run()D)以上都不是，时间到了会自动继续执行答案:D解析:6.[单选题]软件是大数据的_________。

A)核心解析:7.[单选题]_______模式，只适合于Hive简单试用及单元测试。

A)单用户模式B)多用户模式C)多用户远程模式D)单用户远程模式答案:A解析:8.[单选题]下列关于Hive描述错误的是（）。

A)hive学习成本低，支持标准的SQL语法B)hive运行效率低，延迟高C)HQL的表达能力有限D)Hive支持迭代计算答案:D解析:9.[单选题]下面哪个选项不是我们需要Hadoop的主要原因（）A)我们需要处理PB级别的数据B)为每个应用建立一个可靠的系统是很昂贵的C)几乎每天都有结点坏掉D)把一个任务分割成多个子任务的方式是不好的答案:D解析:10.[单选题]为了让集群中的机器能够正常通信，所有集群的IP必须设置成静态IP，防止机器重启之后而找不到机器的情况，那么IP地址配置需要修改那个文件（）A)ifcfg-loB)network-functionsC)ifcfg-ens33D)network-functions-ipv6答案:C解析:11.[单选题]Spark生态系统组件Spark Streaming的应用场景是？A)基于历史数据的数据挖掘B)图结构数据的处理C)基于历史数据的交互式查询D)基于实时数据流的数据处理答案:D解析:12.[单选题]关于HDFS集群中的DataNode的描述不正确的是？A)DataNode之间都是独立的，相互之间不会有通信B)存储客户端上传的数据的数据块C)响应客户端的所有读写数据请求，为客户端的存储和读取数据提供支撑13.[单选题]Hadoop2.x版本中的数据块大小默认是多少? ()A)64MB)128MC)256MD)512M答案:B解析:14.[单选题]HDFS分布式文件系统的特点为____________。

hadoop大数据技术与应用考试题

1、Hadoop生态系统中的分布式存储系统是什么？A. HDFSB. HBaseC. HiveD. Mahout（答案：A，HDFS是Hadoop Distributed File System的缩写，是Hadoop的分布式存储系统）2、Hadoop集群中的NameNode主要负责什么功能？A. 数据存储B. 数据处理C. 元数据管理D. 资源调度（答案：C，NameNode负责Hadoop集群中的元数据管理）3、以下哪个工具常用于Hadoop集群的资源管理和作业调度？A. YARNB. HDFSC. ZookeeperD. Sqoop（答案：A，YARN是Yet Another Resource Negotiator的缩写，用于Hadoop集群的资源管理和作业调度）4、Hadoop中的MapReduce编程模型主要包括哪两个阶段？A. Map和ShuffleB. Map和ReduceC. Reduce和SortD. Sort和Combine（答案：B，MapReduce包括Map和Reduce两个阶段）5、HBase是Hadoop生态系统中的哪个组件？A. 分布式文件系统B. 分布式数据库C. 数据仓库D. 机器学习库（答案：B，HBase是Hadoop生态系统中的分布式数据库）6、以下哪个组件通常用于在Hadoop中进行大规模数据处理和分析？A. PigB. SqoopC. FlumeD. Zookeeper（答案：A，Pig是一个高级平台，用于在Hadoop中进行大规模数据处理和分析）7、Hadoop集群中的DataNode主要负责什么？A. 存储和管理数据块B. 处理数据计算C. 管理集群元数据D. 监控集群状态（答案：A，DataNode主要负责存储和管理数据块）8、以下哪个是Hadoop生态系统中的数据挖掘和机器学习库？A. MahoutB. HiveC. PigD. Oozie（答案：A，Mahout是Hadoop生态系统中的数据挖掘和机器学习库）。

hadoop练习题--带答案

Hadoop 练习题姓名：分数：单项选择题1.下面哪个程序负责HDFS数据存储。

a)NameNodeb)Jobtrackerc)Datanode √d)secondaryNameNodee)tasktracker2.HDfS中的block默认保存几份？a)3份√b)2份c)1份d)不确定3.下列哪个程序通常与NameNode在一个节点启动？a)SecondaryNameNodeb)DataNodec)TaskTrackerd)Jobtracker√4.Hadoop作者a)Martin Fowlerb)Kent Beckc)Doug cutting√5.HDFS默认Block Sizea)32MBb)64MB√c)128MB6.下列哪项通常是集群的最主要的性能瓶颈a)CPUb)网络c)磁盘√d)内存7.关于SecondaryNameNode哪项是正确的？a)它是NameNode的热备b)它对内存没有要求c)它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间√d)SecondaryNameNode应与NameNode部署到一个节点8.一个gzip文件大小75MB，客户端设置Block大小为64MB，请我其占用几个Block？a) 1b)2√c) 3d) 49.HDFS有一个gzip文件大小75MB，客户端设置Block大小为64MB。

当运行mapreduce任务读取该文件时input split大小为？a)64MBb)75MB√c)一个map读取64MB，另外一个map读取11MB10.HDFS有一个LZO（with index）文件大小75MB，客户端设置Block大小为64MB。

当运行mapreduce任务读取该文件时input split大小为？a)64MBb)75MBc)一个map读取64MB，另外一个map读取11MB√多选题：11.下列哪项可以作为集群的管理工具a)Puppet√b)Pdsh√c)Cloudera Manager√d)Rsync + ssh + scp√12.配置机架感知的下面哪项正确a)如果一个机架出问题，不会影响数据读写√b)写入数据的时候会写到不同机架的DataNode中√c)MapReduce会根据机架获取离自己比较近的网络数据√13.Client端上传文件的时候下列哪项正确a)数据经过NameNode传递给DataNodeb)Client端将文件以Block为单位，管道方式依次传到DataNode√c)Client只上传数据到一台DataNode，然后由NameNode负责Block复制工作d)当某个DataNode失败，客户端会继续传给其它DataNode √14.下列哪个是Hadoop运行的模式a)单机版√b)伪分布式√c)分布式√15.Cloudera提供哪几种安装CDH的方法a)Cloudera manager√b)Tar ball√c)Yum√d)Rpm√判断题：（全部错）16.Ganglia不仅可以进行监控，也可以进行告警。