hadoop常见笔试题答案

合集下载

(完整版)hadoop常见笔试题答案

(完整版)hadoop常见笔试题答案

Hadoop测试题一.填空题,1分(41空),2分(42空)共125分1.(每空1分) datanode 负责HDFS数据存储。

2.(每空1分)HDFS中的block默认保存 3 份。

3.(每空1分)ResourceManager 程序通常与NameNode 在一个节点启动。

4.(每空1分)hadoop运行的模式有:单机模式、伪分布模式、完全分布式。

5.(每空1分)Hadoop集群搭建中常用的4个配置文件为:core-site.xml 、hdfs-site.xml、mapred-site.xml 、yarn-site.xml 。

6.(每空2分)HDFS将要存储的大文件进行分割,分割后存放在既定的存储块中,并通过预先设定的优化处理,模式对存储的数据进行预处理,从而解决了大文件储存与计算的需求。

7.(每空2分)一个HDFS集群包括两大部分,即namenode 与datanode 。

一般来说,一个集群中会有一个namenode 和多个datanode 共同工作。

8.(每空2分) namenode 是集群的主服务器,主要是用于对HDFS中所有的文件及内容数据进行维护,并不断读取记录集群中datanode 主机情况与工作状态,并通过读取与写入镜像日志文件的方式进行存储。

9.(每空2分) datanode 在HDFS集群中担任任务具体执行角色,是集群的工作节点。

文件被分成若干个相同大小的数据块,分别存储在若干个datanode 上,datanode 会定期向集群内namenode 发送自己的运行状态与存储内容,并根据namnode 发送的指令进行工作。

10.(每空2分) namenode 负责接受客户端发送过来的信息,然后将文件存储位置信息发送给client ,由client 直接与datanode 进行联系,从而进行部分文件的运算与操作。

11.(每空1分) block 是HDFS的基本存储单元,默认大小是128M 。

hadoop练习题 带答案

hadoop练习题  带答案

hadoop练习题带答案hadoop练习题--带答案Hadoop练习姓名:分数:单选题1.下面哪个程序负责hdfs数据存储。

a) namenodeb)工作追踪者c)datanode√d)第二名(nodee)任务跟踪器2.hdfs中的block默认保存几份?a) 3份√ b) 2份C)1份d)不确定3.下列哪个程序通常与namenode在一个节点启动?a) secondarynamenodeb)datanodec)tasktrackerd)jobtracker√4.hadoop作者a)马丁福勒布)肯特贝克c)dougcutting√5.HDFS默认块大小a)32mbb)64mb√c)128mb6.以下哪项通常是集群的主要性能瓶颈a)cpub)网络c)磁盘√d)内存7.关于secondarynamenode,以下哪项是正确的?a)它是namenode的热备b)它对内存没有要求c)其目的是帮助namenode合并和编辑日志,减少namenode的启动时间√ d)secondarynamenode应部署到与namenode相同的节点8.一个gzip文件大小75mb,客户端设置block大小为64mb,请我其占用几个block?a)一,b)2√c)3d)49.HDFS的gzip文件大小为75mb,客户端将块大小设置为64MB。

运行MapReduce时任务读取该文件时inputsplit大小为?a)64mbb)75mb√c)一张地图显示64MB,另一张地图显示11mb10.hdfs有一个lzo(withindex)文件大小75mb,客户端设置block大小为64mb。

当运MapReduce任务读取文件时,inputplit大小为?a) 64MB)75mbc)一个map读取64mb,另外一个map读取11mb√多项选择题:11.下列哪项可以作为集群的管理工具a)木偶√b)pdsh√c)clouderamanager√d)rsync+ssh+scp√12.以下哪项对于配置机架感知是正确的a)如果一个机架出问题,不会影响数据读写√b)写入数据时,数据将被写入不同机架的数据节点√c)mapreduce会根据机架获取离自己比较近的网络数据√13.在客户端上传文件时,以下哪项是正确的a)数据经过namenode传递给datanodeb)客户端以块和管道模式将文件传输到datanode√c)client只上传数据到一台datanode,然后由namenode负责block复制工作d)当某个datanode失败,客户端会继续传给其它datanode√14.以下哪项是Hadoop的运行模式a)单机版√b)伪分布式√c)分布式√15.cloudera提供了哪些安装CDH的方法a)clouderamanager√b)tarball√c)yum√d)rpm√判断问题:(全部错)16.神经节不仅能监测,还能报警。

hadoop考试试题

hadoop考试试题

hadoop 考试一试题您的姓名:[填空题 ] *_________________________________1.Spark 是用一下哪一种编程语言实现的?[单项选择题 ] *()A.CB.C++;C.JAVA; (正确答案 )D.Scala2.FusionInsight Manager对服务的管理操作,下边说法错误的选项是?()[ 单项选择题 ] *A.可对服务进行启停重启操作;B.能够增添和卸载服务 ;C.可设置不常用的服务隐蔽或显示;(正确答案 )D.能够查察服务的目前状态;3.FusionInsight HD 集群升级,一下描绘正确的选项是?()*A. 升级过程中不可以够操作准备OMS 倒换 ;(正确答案 )B.集群内全部主机的root 账户密码要保持一致 ;(正确答案 )C.保持网络畅达,防止网络问题致使升级异样;(正确答案 )D.察看期不可以做扩容 ;(正确答案 )4.FusionInsight HD Loader 在创立作业时,连结器(Connector)有什么用?()[单项选择题 ] *A. 确立有哪些转变步骤 ;B.供给优化参数,提高数据导出性能;C.配置数据怎样与外面数据进行连结;(正确答案 )D.配置数据怎样与内部数据进行连结;5.以下哪个 HDFS 命令可用于检测数据块的完好性?()[ 单项选择题 ] *A.hdfs fsck /;(正确答案 )B.hdfs fsck / -delete;C.hdfs dfsadmin -report;D.hdfs balancer -threshold 1;6.YARN 中设置行列 QueueA 最大使用资源里,需要配置哪个参数?()[单项选择题 ]*A.yarn scheduler capacty root QueueA user-limit-factor;B.yarn scheduler capacty root QueueA minimum-user-limit-percent;C.yarn scheduler capacty root QueueA state;D.yarn scheduler capacty root QueueA maximum-capacity;(正确答案 )7.Flume 的数据流能够依据headers的信息发送到不一样的channel中。

Hadoop常见面试笔试题目与参考答案小结

Hadoop常见面试笔试题目与参考答案小结

Hadoop常见⾯试笔试题⽬与参考答案⼩结1. namenode的重要性是什么?namenode的作⽤在Hadoop中⾮常重要。

它是Hadoop的⼤脑,主要负责管理系统上的分配块,还为客户提出请求时的数据提供特定地址2. 当NameNode关闭时会发⽣什么?如果NameNode关闭,⽂件系统将脱机。

3. 是否可以在不同集群之间复制⽂件?如果是的话,怎么能做到这⼀点?是的,可以在多个Hadoop集群之间复制⽂件,这可以使⽤分布式复制来完成。

Distcp是⼀个Hadoop复制⼯具,主要⽤于执⾏MapReduce作业来复制数据。

Hadoop环境中的主要挑战是在各集群之间复制数据,distcp也将提供多个datanode来并⾏复制数据。

4. 什么是检查点?对⽂件数据的修改不是直接写回到磁盘的,很多操作是先缓存到内存的Buffer中,当遇到⼀个检查点Checkpoint时,系统会强制将内存中的数据写回磁盘,当然此时才会记录⽇志,从⽽产⽣持久的修改状态。

因此,不⽤重放⼀个编辑⽇志,NameNode可以直接从FsImage加载到最终的内存状态,这肯定会降低NameNode启动时间5. 什么是机架感知?这是⼀种决定如何根据机架定义放置块的⽅法。

Hadoop将尝试限制存在于同⼀机架中的datanode之间的⽹络流量。

为了提⾼容错能⼒,名称节点会尽可能把数据块的副本放到多个机架上。

综合考虑这两点的基础上Hadoop设计了机架感知功能。

6. 投机性执⾏如果⼀个节点正在执⾏⽐主节点慢的任务。

那么就需要在另⼀个节点上冗余地执⾏同⼀个任务的⼀个实例。

所以⾸先完成的任务会被接受,另⼀个可能会被杀死。

这个过程被称为“投机执⾏”。

7. 是否可以在Windows上运⾏Hadoop?可以,但是最好不要这么做,Red Hat Linux或者是Ubuntu才是Hadoop的最佳操作系统。

在Hadoop安装中,Windows通常不会被使⽤,因为会出现各种各样的问题。

Hadoop基础(试卷编号151)

Hadoop基础(试卷编号151)

Hadoop基础(试卷编号151)1.[单选题]下列关于Hadoop和Spark说法错误的是()。

A)二者都支持流式计算B)二者都支持批量计算C)二者都支持机器学习D)二者都支持SQL语句查询答案:A解析:2.[单选题]测试 Sqoop 是否能够正常连接 MySQL 数据库命令是( )A)sqoop list-database --connect jdbc:mysql://127.0.0.1:3306/ --username root - PB)sqoop list-databases --connection jdbc:mysql://127.0.0.1:3306/ --username root - PC)sqoop list-databases --connect jdbc:mysql://127.0.0.1:3306/ --username root -LD)sqoop list-databases --connect jdbc:mysql://127.0.0.1:3306/ --username root - P答案:D解析:3.[单选题]下面哪个命令是用来定义shell的全局变量:A)exportfsB)aliasC)exportsD)export答案:D解析:4.[单选题]关于Hadoop下列说法错误的是()A)HDFS采用了Master/Slave的架构模型B)Namenode负责维护文件系统的命名空间C)Datanode执行比如打开、关闭、重命名文件操作D)HDFS暴露了文件系统的命名空间,允许用户以文件的形式在上面存储数据答案:C解析:5.[单选题]关干HiveSQL运行原理,描述不正确的选项有?(A)C)对于selectcount(*)fromtable操作,一定会启reduce任务D)对于select*fromtable语句不会启MapReduce答案:A解析:6.[单选题]调用Zookeeper对象创建的节点,不包括()。

Hadoop基础(习题卷3)

Hadoop基础(习题卷3)

Hadoop基础(习题卷3)第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。

1.[单选题]大数据的简单算法与小数据的复杂算法相比()A)更有效B)相当C)不具备可比性D)无效答案:A解析:2.[单选题]下列选项中,不是CouchDB的复制中的特点是:A)使用优先列表B)复制过程是逐步进行C)允许分区复制D)支持智能文档模式答案:A解析:3.[单选题]从HDFS下载文件,正确的shell命令是()。

A)-getB)-appendToFileC)-putD)-copyFromLocal答案:A解析:4.[单选题]关于HDFS集群中的DataNode的描述不正确的是?A)存储客户端上传的数据的数据块B)一个DataNode上存储的所有数据块可以有相同的C)DataNode之间可以互相通信D)响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑答案:B解析:5.[单选题]在Java中,一个线程如果调用了sleep()方法,能唤醒它的方法是A)notify()B)resume()C)run()D)以上都不是,时间到了会自动继续执行答案:D解析:6.[单选题]软件是大数据的_________。

A)核心解析:7.[单选题]_______模式,只适合于Hive简单试用及单元测试。

A)单用户模式B)多用户模式C)多用户远程模式D)单用户远程模式答案:A解析:8.[单选题]下列关于Hive描述错误的是()。

A)hive学习成本低,支持标准的SQL语法B)hive运行效率低,延迟高C)HQL的表达能力有限D)Hive支持迭代计算答案:D解析:9.[单选题]下面哪个选项不是我们需要Hadoop的主要原因()A)我们需要处理PB级别的数据B)为每个应用建立一个可靠的系统是很昂贵的C)几乎每天都有结点坏掉D)把一个任务分割成多个子任务的方式是不好的答案:D解析:10.[单选题]为了让集群中的机器能够正常通信,所有集群的IP必须设置成静态IP,防止机器重启之后而找不到机器的情况,那么IP地址配置需要修改那个文件()A)ifcfg-loB)network-functionsC)ifcfg-ens33D)network-functions-ipv6答案:C解析:11.[单选题]Spark生态系统组件Spark Streaming的应用场景是?A)基于历史数据的数据挖掘B)图结构数据的处理C)基于历史数据的交互式查询D)基于实时数据流的数据处理答案:D解析:12.[单选题]关于HDFS集群中的DataNode的描述不正确的是?A)DataNode之间都是独立的,相互之间不会有通信B)存储客户端上传的数据的数据块C)响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑13.[单选题]Hadoop2.x版本中的数据块大小默认是多少? ()A)64MB)128MC)256MD)512M答案:B解析:14.[单选题]HDFS分布式文件系统的特点为____________。

hadoop大数据技术与应用考试题

hadoop大数据技术与应用考试题

1、Hadoop生态系统中的分布式存储系统是什么?A. HDFSB. HBaseC. HiveD. Mahout(答案:A,HDFS是Hadoop Distributed File System的缩写,是Hadoop的分布式存储系统)2、Hadoop集群中的NameNode主要负责什么功能?A. 数据存储B. 数据处理C. 元数据管理D. 资源调度(答案:C,NameNode负责Hadoop集群中的元数据管理)3、以下哪个工具常用于Hadoop集群的资源管理和作业调度?A. YARNB. HDFSC. ZookeeperD. Sqoop(答案:A,YARN是Yet Another Resource Negotiator的缩写,用于Hadoop集群的资源管理和作业调度)4、Hadoop中的MapReduce编程模型主要包括哪两个阶段?A. Map和ShuffleB. Map和ReduceC. Reduce和SortD. Sort和Combine(答案:B,MapReduce包括Map和Reduce两个阶段)5、HBase是Hadoop生态系统中的哪个组件?A. 分布式文件系统B. 分布式数据库C. 数据仓库D. 机器学习库(答案:B,HBase是Hadoop生态系统中的分布式数据库)6、以下哪个组件通常用于在Hadoop中进行大规模数据处理和分析?A. PigB. SqoopC. FlumeD. Zookeeper(答案:A,Pig是一个高级平台,用于在Hadoop中进行大规模数据处理和分析)7、Hadoop集群中的DataNode主要负责什么?A. 存储和管理数据块B. 处理数据计算C. 管理集群元数据D. 监控集群状态(答案:A,DataNode主要负责存储和管理数据块)8、以下哪个是Hadoop生态系统中的数据挖掘和机器学习库?A. MahoutB. HiveC. PigD. Oozie(答案:A,Mahout是Hadoop生态系统中的数据挖掘和机器学习库)。

hadoop练习题--带答案

hadoop练习题--带答案

Hadoop 练习题姓名:分数:单项选择题1.下面哪个程序负责HDFS数据存储。

a)NameNodeb)Jobtrackerc)Datanode √d)secondaryNameNodee)tasktracker2.HDfS中的block默认保存几份?a)3份√b)2份c)1份d)不确定3.下列哪个程序通常与NameNode在一个节点启动?a)SecondaryNameNodeb)DataNodec)TaskTrackerd)Jobtracker√4.Hadoop作者a)Martin Fowlerb)Kent Beckc)Doug cutting√5.HDFS默认Block Sizea)32MBb)64MB√c)128MB6.下列哪项通常是集群的最主要的性能瓶颈a)CPUb)网络c)磁盘√d)内存7.关于SecondaryNameNode哪项是正确的?a)它是NameNode的热备b)它对内存没有要求c)它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间√d)SecondaryNameNode应与NameNode部署到一个节点8.一个gzip文件大小75MB,客户端设置Block大小为64MB,请我其占用几个Block?a) 1b)2√c) 3d) 49.HDFS有一个gzip文件大小75MB,客户端设置Block大小为64MB。

当运行mapreduce任务读取该文件时input split大小为?a)64MBb)75MB√c)一个map读取64MB,另外一个map读取11MB10.HDFS有一个LZO(with index)文件大小75MB,客户端设置Block大小为64MB。

当运行mapreduce任务读取该文件时input split大小为?a)64MBb)75MBc)一个map读取64MB,另外一个map读取11MB√多选题:11.下列哪项可以作为集群的管理工具a)Puppet√b)Pdsh√c)Cloudera Manager√d)Rsync + ssh + scp√12.配置机架感知的下面哪项正确a)如果一个机架出问题,不会影响数据读写√b)写入数据的时候会写到不同机架的DataNode中√c)MapReduce会根据机架获取离自己比较近的网络数据√13.Client端上传文件的时候下列哪项正确a)数据经过NameNode传递给DataNodeb)Client端将文件以Block为单位,管道方式依次传到DataNode√c)Client只上传数据到一台DataNode,然后由NameNode负责Block复制工作d)当某个DataNode失败,客户端会继续传给其它DataNode √14.下列哪个是Hadoop运行的模式a)单机版√b)伪分布式√c)分布式√15.Cloudera提供哪几种安装CDH的方法a)Cloudera manager√b)Tar ball√c)Yum√d)Rpm√判断题:(全部错)16.Ganglia不仅可以进行监控,也可以进行告警。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关文档
最新文档