信息系统集成及服务项目管理人员继续教育习题hadoop

合集下载

（完整版）hadoop例题

（完整版）hadoop例题选择题1、关于MapReduce的描述错误的是（）A、MapReduce框架会先排序map任务的输出B、通常，作业的输入输出都会被存储在文件系统中C、通常计算节点和存储节点是同一节点D、一个Task通常会把输入集切分成若干独立的数据块2、关于基于Hadoop的MapReduce编程的环境配置，下面哪一步是不必要的（）A、安装linux或者在Windows下安装CgywinB、安装javaC、安装MapReduceD、配置Hadoop参数3、关于基于Hadoop的MapReduce编程的环境配置，下面哪一步是不必要的（）A、配置java环境变量B、配置Hadoop环境变量C、配置EclipseD、配置ssh4、下列说法错误的是（）A、MapReduce中maperconbiner reducer 缺一不可B、在JobConf中InputFormat参数可以不设C、在JobConf中MapperClass参数可以不设D、在JobConf中OutputKeyComparator参数可以不设5、下列关于mapreduce的key/value对的说法正确的是（）A、输入键值对不需要和输出键值对类型一致B、输入的key类型必须和输出的key类型一致C、输入的value类型必须和输出的value类型一致D、输入键值对只能映射成一个输出键值对6、在mapreduce任务中，下列哪一项会由hadoop系统自动排序（）A、keys of mapper's outputB、values of mapper's outputC、keys of reducer's outputD、values of reducer's output7、关于mapreduce框架中一个作业的reduce任务的数目，下列说法正确的是（）A、由自定义的Partitioner来确定B、是分块的总数目一半C、可以由用户来自定义，通过JobConf.setNumReducetTask(int)来设定一个作业中reduce的任务数目D、由MapReduce随机确定其数目8、MapReduce框架中，在Map和Reduce之间的combiner 的作用是（）A、对Map的输出结果排序B、对中间过程的输出进行本地的聚集C、对中间结果进行混洗D、对中间格式进行压缩9、MapReduce框架分为Map和Reduce，下列对Reduce阶段叙述正确的是（）A、主要分为shuffle和sort这2个阶段B、这个阶段过程中，key的分组规则是不可更改的C、其中的shuffle 和sort是同时进行的D、Reduce 数目的增加不会增加系统的开销10、Hadoop中，Reducer的三个阶段是（）A、Shuffle——Sort——ReduceB、Shuffle——Reduce——SortC、Reduce——Shuffle——SortD、Sort——Shuffle——Reduce11、请问在Hadoop体系结构中，按照由下到上顺序，排列正确的是（）Pig Hive Crunch都是运行在MapReduce , Spark ,或者Tez之上的处理框架Avro是一个克服了Writable部分不足的序列化系统A、Common Hive HDFSB、Common MapReduce PigC、HDFS MapReduceHBaseD、HDFS Avro HBase12、关于Hadoop下列说法错误的是（）A、HDFS采用了Master/Slave的架构模型B、Namenode负责维护文件系统的命名空间C、Datanode执行比如打开、关闭、重命名文件操作D、HDFS暴露了文件系统的命名空间，允许用户以文件的形式在上面存储数据13、下面哪个选项不是我们需要Hadoop的主要原因（）A、我们需要处理PB级别的数据B、为每个应用建立一个可靠的系统是很昂贵的C、几乎每天都有结点坏掉D、把一个任务分割成多个子任务的方式是不好的14、hadoop中下面哪项操作是不需要记录进日志的（）A、打开文件B、重命名C、编译文件D、删除操作15、hadoop中，下面关于向文件系统中添加一个文件的过程，错误的是（）A、需要创建路径的父目录B、需要创建一个新的INode文件C、将新的INode文件加入到name space中去D、将所有操作记录到EditLog中去16、在安装配置好Hadoop集群后，查看Namenode节点的端口是以下哪个（）A、50030B、50070C、60010D、6003017、下面哪个不是Hadoop的输出数据格式（）A、文本输出B、二进制输出C、单一输出D、多输出18、要在HDFS的根目录中建立一个叫hadoo的目录，下面哪一条命令是正确的（）A、mkdirhadooB、mkdir /hadooC、hadoopmkdirhadooD、hadoop fs –mkdir /hadoo19、下面有关NameNode 安全模式(safe mode)说法错误的是（）A、name space处于安全模式时只能被读取B、NameNode 启动时自动进入安全模式C、调用setSafeMode()函数能够打开或关闭安全模式D、安全模式下不能够复制或删除文件中的数据块20、以下情况除哪项发生时balancer便会自动退出（）A、集群平衡或者没有数据块可以移动B、在连续三次迭代中没有块移动C、与namenode传输时发生异常D、另一个balancer在运行21、下列说法错误的是（）A、Partitioner负责控制map输出结果key的分割B、Reporter用于MapReduce应用程序报告进度C、OutputCollector收集Mapper或Reducer输出数据D、Reduce的数目不可以是022、下列说法错误的是（）A、JobServer是用户作业和JobTracker交互的主要接口B、JobClient为用户提供提交作业功能C、JobClient提供访问子任务报告和日志功能D、JobClient提供获取MapReduce集群状态信息功能23、Hadoop的哪个包的功能是表示层，将各种数据编码/解码，方便在网络上传输（）A、fsB、ipcC、ioD、net24、Hadoop的哪个包的功能是根据DDL（数据描述语言）自动生成他们的编解码函数（）A、recordB、metricsC、utilD、tool25、hadoop中什么类提供了连接到HDFS系统并执行文件操作的基本功能（）A、FSDirectoryB、DFSClientC、ClientProtocolD、FSInputStream26、MapReduce程序最基本的组成部分不包括（）A、Mapper类B、Reducer类C、创建JobConf的执行程序D、Conbiner类27、下列关于Hadoop中Shell类说法错误的是（）A、Shell类是一个继承类B、Shell类定义了如何在当前文件系统环境中，通过命令进行交互C、Shell类定义了静态的字符串命令D、Shell类定义了与实现命令的执行相关的属性28、如果想在hadoop文件系统中通过键盘输入来创建一个文件，你应该使用下列哪种方法（）A、copy()B、copyFromStdin()C、printT oStdout()D、copyFromLocal()29、关于FsShell的说法，下面哪一项是正确的（）A、FsShell和UNIX系统中的shell一样功能强大B、FsShell实际上是一个Java应用程序C、可以在FsShell中执行HDFS文件系统中的可执行文件D、FsShell实际上是调用UNIX的shell命令来实现复制操作30、当__时，HDFS启动balancer（）A、threshold =<ratio(datanode)-ratio(rack)< p="">B、threshold=<ratio(datanode)-ratio(rack)< p="">C、threshold< ratio(Rack) -ratio(Datanode)D、threshold >=|ratio(Datanode)-ratio(Rack)31、执行数据块复制的任务时，是什么和什么在进行通信（）A、client and namenodeB、client and datanodeC、namenode and datanodeD、datanode and datanode32、关于NameNode和Secondary NameNode的说法错误的是（）A、NameNode上实现的NamenodeProtocol用于二者命令通信B、数据的通信使用的是ftp协议（http协议）C、数据通信使用的是http协议D、协议的容器是jetty33、关于Secondary NameNode的说法错误的是（）A、main方法是Secondary NameNode的入口，它启动线程执行runB、启动前的构造过程主要是创建和NameNode通信的接口和启动HTTP 服务器C、run方法每隔一段时间执行doCheckpoint()D、main方法从NameNode上取下FSImage和日志，和本地合并再传回NameNode （应该是run方法完成）34、Hadoop中节点之间的进程通信是通过什么协议来实现的（）A、HTTPB、SMTPC、SSHD、RPC35、下面有关NameNode和secondary NameNode通信协议说法错误的是（）A、secondary NameNode使用NamenodeProtocol协议与NameNode 进行通信B、如果文件系统处于安全模式，那么关闭当前日志并打开新的日志操作会失败C、如果旧的编辑日志丢失了，那么滚动fsImage 日志会失败D、secondary NameNode 可以从NameNode中得到任何datanode的块及其位置36、下面有关NameNode 和 DataNode 之间的Hearbeat说法错误的是（）A、DataNode 通过发送Heartbeat 告诉NameNode自己还"活着"，并且工作正常B、HeatBeat包含DataNode状态相关信息C、NameNode回复HeartBeat 一些DatanodeCommandD、如果NameNode在某一固定时间内没有收到Datanode的Heatbeat，那么它会要求 DataNode发送Heartbeat37、下面哪个协议用于Datanode和Namenode之间的通信（）A、DatanodeProtocolB、NamenodeProcotolC、ClientProtocolD、ClientDatanodeProtocol38、下面哪个协议用于Secondary Namenode和Namenode之间的通信（）A、DatanodeProtocolB、NamenodeProcotolC、ClientProtocolD、ClientDatanodeProtocol39、在Hadoop上提交Job时不涉及哪个实体（）A、客户端B、HDFSC、SecondaryNodeD、JobTracker40、MapReduce处理流程中Reduce如何获取Map端结果（）A、Map端发送B、Reduce端获取C、Map端发送到中间管理节点，Reduce统一获取D、随机发送</ratio(datanode)-ratio(rack)<></ratio(datanode)-ratio(rack)<>。

系统集成继续教育hadoop

系统集成继续教育hadoop1、关于capacity scheduler，说法正确的是A由yahoo！开源的共享集群调度器B每个队列内部采用1FIFO 调度策略C只能配置一个队列D可限制每个用户使用资源量2、部署hadoop时，需要在系统中心创建哪些属于hadoop组的用户A hdfsB mapredC mysqldD daemon3、关于main函数编写，说话正确的是A每个应用程序对应一个main函数B main函数中需设置mapper和reducer的实现类C Main函数中需指定输出数据的类型D main函数中需指定输入输出目录的位置4、关于hadoop设置ssh免密码登录，下列说话错误的是？A在分布式模式下，启动所有服务的，必须设置免密码陆B免密码登陆可以设置，也可以不设置C设置免密码登录是为了在一个节点上可通过ssh启用所有节点上的服务D设置ssh免密码登陆是为了让各个服务之间正常通信5、编写一个简单的mapreduce程序，通常需要实现哪些模块？A mapperB reducerC main 函数6、安装hadoop之前的准备工作有哪些？A准备Linux系统B安装jdk C、设置环境变量D准备hadoop 源代码7、关于mapreduce任务调度器，说法正确的是？A它的基本作用是根据节点资源使用情况和作业的要求，将人物调度到各个节点上执行B他是不可插拔的，只有一个C他需要考虑的因素很多，包括作业优先级、作业提交时间等Dhadoop提供了多种任务调度器8、hadoop生态系统中大量使用了哪些网络接口做为RPC和IPC?Aavro B C D9、关于dfs.replication参数，说法正确的是A表示hdfs中的文件副本数B默认情况下，参数值为3C、伪分布模式下，必须调整为1 D分布模式下，可以调整大于1的值10、关于hadoopsteraming程序的测试，说法正确的是？A直接通过linux piper方式调试B不同语言编写的程序，调试方式，基本一致C不同语言编写的程序，调试方式完全不同D以上均不正确1、Hadoop及其生态系统，可以部署在？A LinuxB OS/2C DOSD UNIX正确答案AD2、下列关于Hive说法正确的是？A 使用HQL作为查询接口。

信息系统集成及服务项目管理人员延续登记继续教育课程14习题及答案新选.

一、单选题。

每道题只有一个正确答案。

1、以下哪项不是常用的数据交换格式？A 格式B 格式C 格式D 纯文本格式正确答案B2、关于说法错误的是？A 是轻量级的模式解析库。

B 它不支持文档验证和。

C 能读取。

D 能写文档。

正确答案D21、以下对于和协议说法错误的是？A 是的缩写，即超文体传输协议。

B 1.1协议共定义了八种请求方法：、、、、、、和。

C 和不支持使用X.509数字认证，如果需要的话用户可以确认发送者是谁。

D 是，即安全超文本传输协议，是超文本传输协议和的组合，提供加密通讯及对网络服务器身份的鉴定。

正确答案C2、网络通信技术属于分层架构中的哪一层？A 表示层B 业务逻辑层C 数据持久层D 信息系统层正确答案C31、关于说法错误的是？A 技术是一种通过协议提供服务，保证不同平台的应用服务可以互操作。

为客户端程序提供相同的服务。

B 类似的技术一直不断问世，如：的（远程方法调用），的（企业级）、（公共对象请求代理体系结构）和微软的等。

C 是使客户端的程序能够通过协议调用服务器端上的函数或方法。

D 简单对象访问协议（，全写为）是交换数据的一种协议规范，使用在计算机网络服务（）中，交换带结构信息。

正确答案A二、多选题。

每道题有两个或两个以上的正确答案。

1、下列描述正确的是？A 技术是一种通过协议提供服务，保证不同平台的应用服务可以互操作。

B 类似的技术一直不断问世，如：的（远程方法调用），的（企业级）、（公共对象请求代理体系结构）和微软的等。

C 是使客户端的程序能够通过协议调用服务器端上的函数或方法。

D 简单对象访问协议（）是交换数据的一种协议规范，使用在计算机网络服务（）中，交换带结构信息。

正确答案41、下列关于框架的概念描述有误的是？A 框架是优秀的第三方的框架。

B 框架支持 X和下的开发。

C 框架不支持参数。

D 框架在下开发配置最便捷。

正确答案D二、多选题。

每道题有两个或两个以上的正确答案。

Hadoop基础(习题卷3)

Hadoop基础(习题卷3)第1部分：单项选择题，共54题，每题只有一个正确答案,多选或少选均不得分。

1.[单选题]大数据的简单算法与小数据的复杂算法相比（）A)更有效B)相当C)不具备可比性D)无效答案:A解析:2.[单选题]下列选项中，不是CouchDB的复制中的特点是：A)使用优先列表B)复制过程是逐步进行C)允许分区复制D)支持智能文档模式答案:A解析:3.[单选题]从HDFS下载文件，正确的shell命令是（）。

A)-getB)-appendToFileC)-putD)-copyFromLocal答案:A解析:4.[单选题]关于HDFS集群中的DataNode的描述不正确的是?A)存储客户端上传的数据的数据块B)一个DataNode上存储的所有数据块可以有相同的C)DataNode之间可以互相通信D)响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑答案:B解析:5.[单选题]在Java中，一个线程如果调用了sleep()方法，能唤醒它的方法是A)notify()B)resume()C)run()D)以上都不是，时间到了会自动继续执行答案:D解析:6.[单选题]软件是大数据的_________。

A)核心解析:7.[单选题]_______模式，只适合于Hive简单试用及单元测试。

A)单用户模式B)多用户模式C)多用户远程模式D)单用户远程模式答案:A解析:8.[单选题]下列关于Hive描述错误的是（）。

A)hive学习成本低，支持标准的SQL语法B)hive运行效率低，延迟高C)HQL的表达能力有限D)Hive支持迭代计算答案:D解析:9.[单选题]下面哪个选项不是我们需要Hadoop的主要原因（）A)我们需要处理PB级别的数据B)为每个应用建立一个可靠的系统是很昂贵的C)几乎每天都有结点坏掉D)把一个任务分割成多个子任务的方式是不好的答案:D解析:10.[单选题]为了让集群中的机器能够正常通信，所有集群的IP必须设置成静态IP，防止机器重启之后而找不到机器的情况，那么IP地址配置需要修改那个文件（）A)ifcfg-loB)network-functionsC)ifcfg-ens33D)network-functions-ipv6答案:C解析:11.[单选题]Spark生态系统组件Spark Streaming的应用场景是？A)基于历史数据的数据挖掘B)图结构数据的处理C)基于历史数据的交互式查询D)基于实时数据流的数据处理答案:D解析:12.[单选题]关于HDFS集群中的DataNode的描述不正确的是？A)DataNode之间都是独立的，相互之间不会有通信B)存储客户端上传的数据的数据块C)响应客户端的所有读写数据请求，为客户端的存储和读取数据提供支撑13.[单选题]Hadoop2.x版本中的数据块大小默认是多少? ()A)64MB)128MC)256MD)512M答案:B解析:14.[单选题]HDFS分布式文件系统的特点为____________。

Hadoop基础(习题卷1)

Hadoop基础(习题卷1)说明：答案和解析在试卷最后第1部分：单项选择题，共145题，每题只有一个正确答案,多选或少选均不得分。

1.[单选题]以下哪一项不属于Hadoop可以运行的模式（）A)单机模式B)伪分布式模式C)互联模式D)分布式模式2.[单选题]下列哪一个不属于Hadoop的大数据层的功能？A)数据挖掘B)离线分析C)实时计算D)BI分析3.[单选题]用于检查节点自身的健康状态的进程是（）A)ResourceManagerB)NodeManagerC)NameNodeD)DataNode4.[单选题]下面与Zookeeper类似的框架是？A)ProtobufB)JavaC)KafkaD)Chubby5.[单选题]哪个不是HDFS的特点？A)高容错B)高吞吐量C)低延迟读取D)大文件存储6.[单选题]在mapreduce任务中，下列哪一项会由hadoop系统自动排序（）A)keys of mapper's outputB)values of mapper's outputC)keys of reducer's outputD)values of reducer's output7.[单选题]HDFS的是基于流数据模式访问和处理超大文件的需求而开发的，默认的最基本的存储单位是64M，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是？A)一次写入，多次读写B)一次写入，少次读写C)多次写入，少次读写D)多次写入，多次读写8.[单选题]下列哪项通常是集群的最主要的性能瓶颈? ()A)CPUB)网络C)磁盘D)内存9.[单选题]以下选项中，哪种类型间的转换是被Hive查询语言所支持的（）A)Double-NumberB)BigInt-DoubleC)Int-BigIntD)String--Double10.[单选题]下面哪个选项中的Daemon总是运行在同一台主机上()A)Name Node & Job TrackerB)Secondary Name Node & Job TrackerC)Name Node & Secondary Name NodeD)Data Node & Task Tracker11.[单选题]2003年，Google公司发表了主要讲解海量数据的可靠存储方法的论文是？A)“TheGoogleFileSystem”B)“MapReduce:SimplifiedDataProcessingonLargeClusters”C)“Bigtable:ADistributedStorageSystemforStructuredData”D)“TheHadoopFileSystem”12.[单选题]下列_______通常与NameNode在一个节点启动。

Hadoop基础(习题卷11)

Hadoop基础(习题卷11)第1部分：单项选择题，共54题，每题只有一个正确答案,多选或少选均不得分。

1.[单选题]在文件属性中，文件的权限用第( )列字符表示。

A)1-5B)2-10C)3-9D)1-8答案:B解析:2.[单选题]下列______不是云计算三层架构的概括。

A)IaaSB)PaaSC)SaaPD)SaaS答案:C解析:3.[单选题]验证java运行环境是否安装成功，使用哪个命令查看java版本，若出现版本号则表示安装成功（）A)java-versionB)java-ipconfigC)java-editionD)java-Release答案:A解析:4.[单选题]在Hadoop官方的示例程序包hadoop-maprecduceexamples-2.6.4.jar中，封装了一些常用的测试模块。

可以获得文件中单词长度的中位数的模块是(C)。

A)wordcountB)wordmeanC)wordmedianD)wordstandarddeviation答案:C解析:5.[单选题]在 MapReduce 中 Shuffle 的主要作用是（）A)将数据进行拆分B)对映射后的数据进行排序, 然后输入到 ReducerC)经过映射后的输出数据会被排序，然后每个映射器会进行分区D)通过实现自定义的 Partitioner 来指定哪些数据进入哪个Reducer答案:B解析:B)HTTPSC)SSHD)ClientProtocol答案:C解析:7.[单选题]关于ApplicationMaster组件描述错误的是（）。

A)与资源管理器协商获取资源B)与节点管理器通信以启动或停止具体的任务C)监控应用程序所有任务的状态D)定时向资源管理器汇报资源使用情况答案:A解析:8.[单选题]SecondaryNameNode 是对主NameNode的一个补充，他会定期地执行对HDFS元数据的检查点。

当前设计仅允许每个HDFS只有（）SecondaryNameNode节点。

hadoop考试题目及答案

hadoop考试题目及答案1. Hadoop是由哪家公司开发的？A. GoogleB. YahooC. IBMD. Facebook答案：B. Yahoo2. Hadoop的两个主要组件是什么？A. HDFS和MapReduceB. HBase和SparkC. Hive和PigD. YARN和HDFS答案：A. HDFS和MapReduce3. Hadoop中的HDFS代表什么？A. Hadoop Distributed File SystemB. Hadoop Distributed File ServiceC. Hadoop Distributed File StorageD. Hadoop Distributed File Structure答案：A. Hadoop Distributed File System4. 在Hadoop中，NameNode的主要功能是什么？A. 存储实际数据B. 管理文件系统的命名空间和控制对文件的访问C. 执行数据压缩D. 执行数据的备份和恢复答案：B. 管理文件系统的命名空间和控制对文件的访问5. MapReduce中的Map阶段的主要任务是什么？A. 排序输入数据B. 过滤无效数据C. 处理输入数据并生成中间键值对D. 合并输出结果答案：C. 处理输入数据并生成中间键值对6. Hadoop生态系统中，哪个组件用于数据仓库功能？A. HBaseB. HiveC. PigD. Flume答案：B. Hive7. YARN在Hadoop中扮演什么角色？A. 负责数据存储B. 负责资源管理和作业调度C. 负责数据压缩D. 负责数据备份答案：B. 负责资源管理和作业调度8. Hadoop中的Pig是什么？A. 数据存储系统B. 数据处理框架C. 数据库管理系统D. 数据传输工具答案：B. 数据处理框架9. 在Hadoop中，以下哪个不是HDFS的特性？A. 高可靠性B. 高吞吐量C. 低延迟D. 可扩展性答案：C. 低延迟10. Hadoop支持哪些类型的数据存储格式？A. 文本文件B. 二进制文件C. 序列化文件D. 所有上述选项答案：D. 所有上述选项。

完整版hadoop习题册

第一章大数据概述1.互联网的发展分为______个阶段。

A．一B.三 C.二 D.四2.下列不属于大数据特点的是（）。

A.种类和来源多样化B.数据量巨大C.分析处理速度快D.价值密度高互联网发展的第_____个时代为智能互联网。

3. C.1.0 D.2.0A.3.0 B.4.0）。

4.关于大数据叙述不正确的一项是（+“复杂类型的数据”A.大数据=“海量数据”B.大数据是指在一定时间对内容抓取、管理和处理的数据集合 C.大数据可以及时有效的分析海量的数据 D.数据包括结构化数据、半结构化数据、结构化数据。

）。

5.下列数据换算正确的一项为（A.1YB=1024EBB.1TB=1024MBC.1PB==1024EBD.1024ZB=1EB 。

6.结构化数据的表现形式为______ 查询C.二维表 D.A.文本 B.视图_________.7.结构化的数据，先有________,再有结构A.数据结构B. 数据C.内容结构D.结构内容结构化的数据，先有________,再有_________.8.结构A.数据结构数据B. 结构内容C. 内容D.结构_________。

9.软件是大数据的集合 C.引擎D. A.核心B.部件) 。

10.大数据技术不包括(D.数据采集A.数据计算B.数据存储C.数据冗余）。

大数据的特点不包括（11.D.C.速度快价值高数量大A. B.类型少第二章Hadoop简介1.下列对云栈架构层数不正确的一项为________。

A.三层云栈架构B.四层云栈架构C.五层云栈架构D.六层云栈架构不是云计算三层架构的概括。

______下列2.A.IaaSB.PaaSC.SaaPD.SaaS3.IaaS基础设施及服务可以称为______。

A.弹性计算B.效用计算C.有效计算D.随需应用4.四层云栈模式，是将三层模式中的_________进行分解，分为两层，一层为硬件层，一层为虚拟资源层。

A.硬件部分B.虚拟化部分C.基础设施D.平台5.五层云栈模式，第五层为______。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

信息系统集成及服务项目管理人员继续教育习题hadoop
1.Hadoop作者Doug Cutting
2.Hadoop的基本概念：
分布式存储文件系统HDFS
分布式计算map/reduce
3.Hadoop 解决的问题
移动计算、化整为零、分片处理
本地化计算、并行IO，降低网络通信
4.meta元数据，用来管理数据的数据。

Namenode存放元数据DataNode存储真实数据
5.hadoop生态系统：
Hive sql/mr S QL/MR编译器
Pig pig-Latin/MR编译器
Zookeeper 分布式协同
Avro 接口开发工具
Hbase分布式NOSQL
Flume/NG/Scribe日志流汇总
Mahout 基于MR的算法库
Drill/lmpala 内存SQL引擎
Thrift 接口开发
Sqoop ETL工具
Qozie 工作流
6.hadoop集群监控cacti
7.集群配置注意事项
将完整的/etc/hosts文件放在每台服务器上，域名和IP转换需用用到hosts文件
确保端口没有被防火墙所拦截
确保网络正常
配置文件洗了正确的主机名和IP地址
8．集群配置core-site.xml hdfs-site.xml mapred-site.xml
9.hadoop的安装部署Xadoop
运维工具pha cacti ganglia
10.HDFS是google File System（GFS）论文的开源实现，
设计原则文件块预设64m linux4k
每个区块至少分到三台datanode上
单一maste（namenode）来协调存储元数据
HDFS适合存储并管理pb及数据，处理非结构化数据，注重数据处理的吞吐量，应用模式为write once read many存取模式不适合存储小文件，不适合随机读，不支持修改文件
1、Hadoop的标志物是？
A 大象
B 长颈鹿
C 羚羊
D 鲨鱼正确答案A
1、BigTable对应Apache开源项目中的？
A Hive
B Pig
C Sqoop
D HBase正确答案D
1、Hadoop生态系统中，被作为ETL使用的软件是？
A Sqoop
B Bigtop
C Autoconf
D Oracle正确答案A
1、Hadoop生态系统中，由Facebook开源，使用SQL语言进行离线分析的软件是？
A Pig
B Pheonix
C Shark
1、Hadoop是由何种语言编写的？
A Scala
B Erlang
C Java
D Python正确答案C
1、下列哪些服务是在安装Hadoop时需要临时关闭？
A Bluetoothd
B Avahi
C Fuse
D Iptables正确答案D
1、HBase内置的分布式协同调度和锁叫做？
A Bookeeper
B Zookeeper
C Chubby
D Kafka正确答案B
1、Hadoop及其生态系统，可以部署在？
A Linux
B OS/2
C DOS
D UNIX正确答案AD
1、当一个文件向HDFS上传时，首先需要访问的是？
A Datanode
B Namenode
C Jobtracker
D SecondaryNamenode正确答案B
2、通常来说一个map子进程对应几个数据块？
A 一个
B 二个
C 三个
1、文件上传到HDFS时，文件切分成数据块的工作是在？
A Namenode完成的
B Datanode完成的
C client完成的
D SecondaryNamenode完成的正确答案C
2、在执行任务时，Jobtracker首先会访问？
A Datanode
B Namenode
C Tasktracker
D SecondaryNamenode正确答案B
1、Hive中所使用的查询语言通常称之为？
A HQL
B SQL
C AQL
D QueryPlan正确答案A
二、多选题。

每道题有两个或两个以上的正确答案。

1、下列关于Hive说法正确的是？
A 使用HQL作为查询接口。

B 使用HDFS作为底层存储。

C 使用MapRed作为执行层。

D 以上说法都正确。

正确答案ABCD
1、关于ALTER TABLE page_view DROP PARTITION （dt=‘2008-08-08’,country =‘us’)；下列说法正确的是？
A 增加分区
B 删除表
C 重命名表
D 修改字段正确答案B
二、多选题。

每道题有两个或两个以上的正确答案。

1、下列关于合并小文件说法有误的是？
A 会给HDFS带来压力。

B 不会影响处理效率。

C 通过合并Map和Reduce的结果文件来消除影响。

D 会对电脑系统造成损坏。

正确答案ACD
1、下列关于合并小文件说法正确的是？
A 会给HDFS带来压力。

B 不会影响处理效率。

C 通过合并Map和Reduce的结果文件来消除影响。

D 会对电脑系统造成损坏。

正确答案B
2、Hive和sql对比下列正确的是？
A Hive不支持索引
B sql不支持数据更新
C Hive扩展性好
D sql执行延迟高正确答案C
1、Pig的主要操作--store 操作_____。

A 循环指定数据集中的所有数据。

B 将制定数据集存储至指定目录。

C 联合操作，和sql中的union功能一致。

D join操作，和sql中的join功能一致。

正确答案B
二、多选题。

每道题有两个或两个以上的正确答案。

1、以下软件中，哪些是日志流的汇总工具？
A FlumeNG
B Scribe
C Rsync
D FTP正确答案AB
1、dfs.block.size - 数据块大小，默认是？
A 16M
B 32M
C 64M
D 128M正确答案C
2、io.sort.record.percent 索引空间所在比例，默认为（）。

A 0.05
B 0.01
C 0.1
D 0.5正确答案A
、RUP的业务限制因素分析是指？
A 建立业务限制因素到软件非功能目标的转化。

B 建立业务需求到软件质量标准的转化。

C 建立业务目标到软件功能目标的转化。

D 建立限制因素与功能目标的转化。

正确答案A
1、软件需求分析的任务不应包括？
A 问题分析
B 信息域分析
C 结构化设计
D 确定逻辑模型正确答案C
1、用例的实现细节不会在中描述。

A 用例说明
B 用例图
C 活动图
D 顺序图正确答案B
1、结构化分析（SA）是软件开发需求阶段所使用的方法，不是SA所使用的工具。

A DFD图
B PAD图
C 数据结构
D 控制结构正确答案C
1、结构化分析方法（SA）最为常见的图形工具是？
A 程序流程图
B 实体联系图
C 数据流图
D 结构图
正确答案C
1、ER图是表示概念模型的有效工具之一，在ER图中的菱形框表示？
A 联系
B 实体
C 实体的属性
D 联系的属性正确答案A
1、在ER图中，用长方形和椭圆分别表示？
A 联系、属性
B 属性、实体
C 实体、属性
D 什么也不代表、实体正确答案C
1、用例图中，通信关联是指？
A 参与关联
B 使用关联
C 扩展关联
D 以上三种都是正确答案D
1、以下关于面向对象方法的叙述中，正确的是？
A 问题空间与解决问题的方法空间不一致。

B 继承是组装结构的重要特征。

C 类是对象的抽象。

D 数据和功能相割裂。

正确答案C。