信息系统集成及服务项目管理人员继续教育习题hadoop
(完整版)hadoop例题

(完整版)hadoop例题选择题1、关于MapReduce的描述错误的是()A、MapReduce框架会先排序map任务的输出B、通常,作业的输入输出都会被存储在文件系统中C、通常计算节点和存储节点是同一节点D、一个Task通常会把输入集切分成若干独立的数据块2、关于基于Hadoop的MapReduce编程的环境配置,下面哪一步是不必要的()A、安装linux或者在Windows下安装CgywinB、安装javaC、安装MapReduceD、配置Hadoop参数3、关于基于Hadoop的MapReduce编程的环境配置,下面哪一步是不必要的()A、配置java环境变量B、配置Hadoop环境变量C、配置EclipseD、配置ssh4、下列说法错误的是()A、MapReduce中maperconbiner reducer 缺一不可B、在JobConf中InputFormat参数可以不设C、在JobConf中MapperClass参数可以不设D、在JobConf中OutputKeyComparator参数可以不设5、下列关于mapreduce的key/value对的说法正确的是()A、输入键值对不需要和输出键值对类型一致B、输入的key类型必须和输出的key类型一致C、输入的value类型必须和输出的value类型一致D、输入键值对只能映射成一个输出键值对6、在mapreduce任务中,下列哪一项会由hadoop系统自动排序()A、keys of mapper's outputB、values of mapper's outputC、keys of reducer's outputD、values of reducer's output7、关于mapreduce框架中一个作业的reduce任务的数目,下列说法正确的是()A、由自定义的Partitioner来确定B、是分块的总数目一半C、可以由用户来自定义,通过JobConf.setNumReducetTask(int)来设定一个作业中reduce的任务数目D、由MapReduce随机确定其数目8、MapReduce框架中,在Map和Reduce之间的combiner 的作用是()A、对Map的输出结果排序B、对中间过程的输出进行本地的聚集C、对中间结果进行混洗D、对中间格式进行压缩9、MapReduce框架分为Map和Reduce,下列对Reduce阶段叙述正确的是()A、主要分为shuffle和sort这2个阶段B、这个阶段过程中,key的分组规则是不可更改的C、其中的shuffle 和sort是同时进行的D、Reduce 数目的增加不会增加系统的开销10、Hadoop中,Reducer的三个阶段是()A、Shuffle——Sort——ReduceB、Shuffle——Reduce——SortC、Reduce——Shuffle——SortD、Sort——Shuffle——Reduce11、请问在Hadoop体系结构中,按照由下到上顺序,排列正确的是()Pig Hive Crunch都是运行在MapReduce , Spark ,或者Tez之上的处理框架Avro是一个克服了Writable部分不足的序列化系统A、Common Hive HDFSB、Common MapReduce PigC、HDFS MapReduceHBaseD、HDFS Avro HBase12、关于Hadoop下列说法错误的是()A、HDFS采用了Master/Slave的架构模型B、Namenode负责维护文件系统的命名空间C、Datanode执行比如打开、关闭、重命名文件操作D、HDFS暴露了文件系统的命名空间,允许用户以文件的形式在上面存储数据13、下面哪个选项不是我们需要Hadoop的主要原因()A、我们需要处理PB级别的数据B、为每个应用建立一个可靠的系统是很昂贵的C、几乎每天都有结点坏掉D、把一个任务分割成多个子任务的方式是不好的14、hadoop中下面哪项操作是不需要记录进日志的()A、打开文件B、重命名C、编译文件D、删除操作15、hadoop中,下面关于向文件系统中添加一个文件的过程,错误的是()A、需要创建路径的父目录B、需要创建一个新的INode文件C、将新的INode文件加入到name space中去D、将所有操作记录到EditLog中去16、在安装配置好Hadoop集群后,查看Namenode节点的端口是以下哪个()A、50030B、50070C、60010D、6003017、下面哪个不是Hadoop的输出数据格式()A、文本输出B、二进制输出C、单一输出D、多输出18、要在HDFS的根目录中建立一个叫hadoo的目录,下面哪一条命令是正确的()A、mkdirhadooB、mkdir /hadooC、hadoopmkdirhadooD、hadoop fs –mkdir /hadoo19、下面有关NameNode 安全模式(safe mode)说法错误的是()A、name space处于安全模式时只能被读取B、NameNode 启动时自动进入安全模式C、调用setSafeMode()函数能够打开或关闭安全模式D、安全模式下不能够复制或删除文件中的数据块20、以下情况除哪项发生时balancer便会自动退出()A、集群平衡或者没有数据块可以移动B、在连续三次迭代中没有块移动C、与namenode传输时发生异常D、另一个balancer在运行21、下列说法错误的是()A、Partitioner负责控制map输出结果key的分割B、Reporter用于MapReduce应用程序报告进度C、OutputCollector收集Mapper或Reducer输出数据D、Reduce的数目不可以是022、下列说法错误的是()A、JobServer是用户作业和JobTracker交互的主要接口B、JobClient为用户提供提交作业功能C、JobClient提供访问子任务报告和日志功能D、JobClient提供获取MapReduce集群状态信息功能23、Hadoop的哪个包的功能是表示层,将各种数据编码/解码,方便在网络上传输()A、fsB、ipcC、ioD、net24、Hadoop的哪个包的功能是根据DDL(数据描述语言)自动生成他们的编解码函数()A、recordB、metricsC、utilD、tool25、hadoop中什么类提供了连接到HDFS系统并执行文件操作的基本功能()A、FSDirectoryB、DFSClientC、ClientProtocolD、FSInputStream26、MapReduce程序最基本的组成部分不包括()A、Mapper类B、Reducer类C、创建JobConf的执行程序D、Conbiner类27、下列关于Hadoop中Shell类说法错误的是()A、Shell类是一个继承类B、Shell类定义了如何在当前文件系统环境中,通过命令进行交互C、Shell类定义了静态的字符串命令D、Shell类定义了与实现命令的执行相关的属性28、如果想在hadoop文件系统中通过键盘输入来创建一个文件,你应该使用下列哪种方法()A、copy()B、copyFromStdin()C、printT oStdout()D、copyFromLocal()29、关于FsShell的说法,下面哪一项是正确的()A、FsShell和UNIX系统中的shell一样功能强大B、FsShell实际上是一个Java应用程序C、可以在FsShell中执行HDFS文件系统中的可执行文件D、FsShell实际上是调用UNIX的shell命令来实现复制操作30、当__时,HDFS启动balancer()A、threshold =<ratio(datanode)-ratio(rack)< p="">B、threshold=<ratio(datanode)-ratio(rack)< p="">C、threshold< ratio(Rack) -ratio(Datanode)D、threshold >=|ratio(Datanode)-ratio(Rack)31、执行数据块复制的任务时,是什么和什么在进行通信()A、client and namenodeB、client and datanodeC、namenode and datanodeD、datanode and datanode32、关于NameNode和Secondary NameNode的说法错误的是()A、NameNode上实现的NamenodeProtocol用于二者命令通信B、数据的通信使用的是ftp协议(http协议)C、数据通信使用的是http协议D、协议的容器是jetty33、关于Secondary NameNode的说法错误的是()A、main方法是Secondary NameNode的入口,它启动线程执行runB、启动前的构造过程主要是创建和NameNode通信的接口和启动HTTP 服务器C、run方法每隔一段时间执行doCheckpoint()D、main方法从NameNode上取下FSImage和日志,和本地合并再传回NameNode (应该是run方法完成)34、Hadoop中节点之间的进程通信是通过什么协议来实现的()A、HTTPB、SMTPC、SSHD、RPC35、下面有关NameNode和secondary NameNode通信协议说法错误的是()A、secondary NameNode使用NamenodeProtocol协议与NameNode 进行通信B、如果文件系统处于安全模式,那么关闭当前日志并打开新的日志操作会失败C、如果旧的编辑日志丢失了,那么滚动fsImage 日志会失败D、secondary NameNode 可以从NameNode中得到任何datanode的块及其位置36、下面有关NameNode 和 DataNode 之间的Hearbeat说法错误的是()A、DataNode 通过发送Heartbeat 告诉NameNode自己还"活着",并且工作正常B、HeatBeat包含DataNode状态相关信息C、NameNode回复HeartBeat 一些DatanodeCommandD、如果NameNode在某一固定时间内没有收到Datanode的Heatbeat,那么它会要求 DataNode发送Heartbeat37、下面哪个协议用于Datanode和Namenode之间的通信()A、DatanodeProtocolB、NamenodeProcotolC、ClientProtocolD、ClientDatanodeProtocol38、下面哪个协议用于Secondary Namenode和Namenode之间的通信()A、DatanodeProtocolB、NamenodeProcotolC、ClientProtocolD、ClientDatanodeProtocol39、在Hadoop上提交Job时不涉及哪个实体()A、客户端B、HDFSC、SecondaryNodeD、JobTracker40、MapReduce处理流程中Reduce如何获取Map端结果()A、Map端发送B、Reduce端获取C、Map端发送到中间管理节点,Reduce统一获取D、随机发送</ratio(datanode)-ratio(rack)<></ratio(datanode)-ratio(rack)<>。
系统集成继续教育hadoop

系统集成继续教育hadoop1、关于capacity scheduler,说法正确的是A由yahoo!开源的共享集群调度器B每个队列内部采用1FIFO 调度策略C只能配置一个队列D可限制每个用户使用资源量2、部署hadoop时,需要在系统中心创建哪些属于hadoop组的用户A hdfsB mapredC mysqldD daemon3、关于main函数编写,说话正确的是A每个应用程序对应一个main函数B main函数中需设置mapper和reducer的实现类C Main函数中需指定输出数据的类型D main函数中需指定输入输出目录的位置4、关于hadoop设置ssh免密码登录,下列说话错误的是?A在分布式模式下,启动所有服务的,必须设置免密码陆B免密码登陆可以设置,也可以不设置C设置免密码登录是为了在一个节点上可通过ssh启用所有节点上的服务D设置ssh免密码登陆是为了让各个服务之间正常通信5、编写一个简单的mapreduce程序,通常需要实现哪些模块?A mapperB reducerC main 函数6、安装hadoop之前的准备工作有哪些?A准备Linux系统B安装jdk C、设置环境变量D准备hadoop 源代码7、关于mapreduce任务调度器,说法正确的是?A它的基本作用是根据节点资源使用情况和作业的要求,将人物调度到各个节点上执行B他是不可插拔的,只有一个C他需要考虑的因素很多,包括作业优先级、作业提交时间等Dhadoop提供了多种任务调度器8、hadoop生态系统中大量使用了哪些网络接口做为RPC和IPC?Aavro B C D9、关于dfs.replication参数,说法正确的是A表示hdfs中的文件副本数B默认情况下,参数值为3C、伪分布模式下,必须调整为1 D分布模式下,可以调整大于1的值10、关于hadoopsteraming程序的测试,说法正确的是?A直接通过linux piper方式调试B不同语言编写的程序,调试方式,基本一致C不同语言编写的程序,调试方式完全不同D以上均不正确1、Hadoop及其生态系统,可以部署在?A LinuxB OS/2C DOSD UNIX正确答案AD2、下列关于Hive说法正确的是?A 使用HQL作为查询接口。
信息系统集成及服务项目管理人员延续登记继续教育课程14习题及答案新选.

一、单选题。
每道题只有一个正确答案。
1、以下哪项不是常用的数据交换格式?A 格式B 格式C 格式D 纯文本格式正确答案B2、关于说法错误的是?A 是轻量级的模式解析库。
B 它不支持文档验证和。
C 能读取。
D 能写文档。
正确答案D21、以下对于和协议说法错误的是?A 是的缩写,即超文体传输协议。
B 1.1协议共定义了八种请求方法:、、、、、、和。
C 和不支持使用X.509数字认证,如果需要的话用户可以确认发送者是谁。
D 是,即安全超文本传输协议,是超文本传输协议和的组合,提供加密通讯及对网络服务器身份的鉴定。
正确答案C2、网络通信技术属于分层架构中的哪一层?A 表示层B 业务逻辑层C 数据持久层D 信息系统层正确答案C31、关于说法错误的是?A 技术是一种通过协议提供服务,保证不同平台的应用服务可以互操作。
为客户端程序提供相同的服务。
B 类似的技术一直不断问世,如:的(远程方法调用),的(企业级)、(公共对象请求代理体系结构)和微软的等。
C 是使客户端的程序能够通过协议调用服务器端上的函数或方法。
D 简单对象访问协议(,全写为)是交换数据的一种协议规范,使用在计算机网络服务()中,交换带结构信息。
正确答案A二、多选题。
每道题有两个或两个以上的正确答案。
1、下列描述正确的是?A 技术是一种通过协议提供服务,保证不同平台的应用服务可以互操作。
B 类似的技术一直不断问世,如:的(远程方法调用),的(企业级)、(公共对象请求代理体系结构)和微软的等。
C 是使客户端的程序能够通过协议调用服务器端上的函数或方法。
D 简单对象访问协议()是交换数据的一种协议规范,使用在计算机网络服务()中,交换带结构信息。
正确答案41、下列关于框架的概念描述有误的是?A 框架是优秀的第三方的框架。
B 框架支持 X和下的开发。
C 框架不支持参数。
D 框架在下开发配置最便捷。
正确答案D二、多选题。
每道题有两个或两个以上的正确答案。
Hadoop基础(习题卷3)

Hadoop基础(习题卷3)第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]大数据的简单算法与小数据的复杂算法相比()A)更有效B)相当C)不具备可比性D)无效答案:A解析:2.[单选题]下列选项中,不是CouchDB的复制中的特点是:A)使用优先列表B)复制过程是逐步进行C)允许分区复制D)支持智能文档模式答案:A解析:3.[单选题]从HDFS下载文件,正确的shell命令是()。
A)-getB)-appendToFileC)-putD)-copyFromLocal答案:A解析:4.[单选题]关于HDFS集群中的DataNode的描述不正确的是?A)存储客户端上传的数据的数据块B)一个DataNode上存储的所有数据块可以有相同的C)DataNode之间可以互相通信D)响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑答案:B解析:5.[单选题]在Java中,一个线程如果调用了sleep()方法,能唤醒它的方法是A)notify()B)resume()C)run()D)以上都不是,时间到了会自动继续执行答案:D解析:6.[单选题]软件是大数据的_________。
A)核心解析:7.[单选题]_______模式,只适合于Hive简单试用及单元测试。
A)单用户模式B)多用户模式C)多用户远程模式D)单用户远程模式答案:A解析:8.[单选题]下列关于Hive描述错误的是()。
A)hive学习成本低,支持标准的SQL语法B)hive运行效率低,延迟高C)HQL的表达能力有限D)Hive支持迭代计算答案:D解析:9.[单选题]下面哪个选项不是我们需要Hadoop的主要原因()A)我们需要处理PB级别的数据B)为每个应用建立一个可靠的系统是很昂贵的C)几乎每天都有结点坏掉D)把一个任务分割成多个子任务的方式是不好的答案:D解析:10.[单选题]为了让集群中的机器能够正常通信,所有集群的IP必须设置成静态IP,防止机器重启之后而找不到机器的情况,那么IP地址配置需要修改那个文件()A)ifcfg-loB)network-functionsC)ifcfg-ens33D)network-functions-ipv6答案:C解析:11.[单选题]Spark生态系统组件Spark Streaming的应用场景是?A)基于历史数据的数据挖掘B)图结构数据的处理C)基于历史数据的交互式查询D)基于实时数据流的数据处理答案:D解析:12.[单选题]关于HDFS集群中的DataNode的描述不正确的是?A)DataNode之间都是独立的,相互之间不会有通信B)存储客户端上传的数据的数据块C)响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑13.[单选题]Hadoop2.x版本中的数据块大小默认是多少? ()A)64MB)128MC)256MD)512M答案:B解析:14.[单选题]HDFS分布式文件系统的特点为____________。
Hadoop基础(习题卷1)

Hadoop基础(习题卷1)说明:答案和解析在试卷最后第1部分:单项选择题,共145题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]以下哪一项不属于Hadoop可以运行的模式()A)单机模式B)伪分布式模式C)互联模式D)分布式模式2.[单选题]下列哪一个不属于Hadoop的大数据层的功能?A)数据挖掘B)离线分析C)实时计算D)BI分析3.[单选题]用于检查节点自身的健康状态的进程是( )A)ResourceManagerB)NodeManagerC)NameNodeD)DataNode4.[单选题]下面与Zookeeper类似的框架是?A)ProtobufB)JavaC)KafkaD)Chubby5.[单选题]哪个不是HDFS的特点?A)高容错B)高吞吐量C)低延迟读取D)大文件存储6.[单选题]在mapreduce任务中,下列哪一项会由hadoop系统自动排序()A)keys of mapper's outputB)values of mapper's outputC)keys of reducer's outputD)values of reducer's output7.[单选题]HDFS的是基于流数据模式访问和处理超大文件的需求而开发的,默认的最基本的存储单位是64M,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是?A)一次写入,多次读写B)一次写入,少次读写C)多次写入,少次读写D)多次写入,多次读写8.[单选题]下列哪项通常是集群的最主要的性能瓶颈? ()A)CPUB)网络C)磁盘D)内存9.[单选题]以下选项中,哪种类型间的转换是被Hive查询语言所支持的()A)Double-NumberB)BigInt-DoubleC)Int-BigIntD)String--Double10.[单选题]下面哪个选项中的Daemon总是运行在同一台主机上()A)Name Node & Job TrackerB)Secondary Name Node & Job TrackerC)Name Node & Secondary Name NodeD)Data Node & Task Tracker11.[单选题]2003年,Google公司发表了主要讲解海量数据的可靠存储方法的论文是?A)“TheGoogleFileSystem”B)“MapReduce:SimplifiedDataProcessingonLargeClusters”C)“Bigtable:ADistributedStorageSystemforStructuredData”D)“TheHadoopFileSystem”12.[单选题]下列_______通常与NameNode在一个节点启动。
Hadoop基础(习题卷11)

Hadoop基础(习题卷11)第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]在文件属性中, 文件的权限用第( )列字符表示。
A)1-5B)2-10C)3-9D)1-8答案:B解析:2.[单选题]下列______不是云计算三层架构的概括。
A)IaaSB)PaaSC)SaaPD)SaaS答案:C解析:3.[单选题]验证java运行环境是否安装成功,使用哪个命令查看java版本,若出现版本号则表示 安装成功()A)java-versionB)java-ipconfigC)java-editionD)java-Release答案:A解析:4.[单选题]在Hadoop官方的示例程序包hadoop-maprecduceexamples-2.6.4.jar中,封装了一些常用的测试模块。
可以获得文件中单词长度的中位数的模块是(C)。
A)wordcountB)wordmeanC)wordmedianD)wordstandarddeviation答案:C解析:5.[单选题]在 MapReduce 中 Shuffle 的主要作用是( )A)将数据进行拆分B)对映射后的数据进行排序, 然后输入到 ReducerC)经过映射后的输出数据会被排序, 然后每个映射器会进 行分区D)通过实现自定义的 Partitioner 来指定哪些数据进入哪个Reducer答案:B解析:B)HTTPSC)SSHD)ClientProtocol答案:C解析:7.[单选题]关于ApplicationMaster组件描述错误的是()。
A)与资源管理器协商获取资源B)与节点管理器通信以启动或停止具体的任务C)监控应用程序所有任务的状态D)定时向资源管理器汇报资源使用情况答案:A解析:8.[单选题]SecondaryNameNode 是对主NameNode的一个补充,他会定期地执行对HDFS元数据的检查点。
当前设计仅允许每个HDFS只有()SecondaryNameNode节点。
hadoop考试题目及答案

hadoop考试题目及答案1. Hadoop是由哪家公司开发的?A. GoogleB. YahooC. IBMD. Facebook答案:B. Yahoo2. Hadoop的两个主要组件是什么?A. HDFS和MapReduceB. HBase和SparkC. Hive和PigD. YARN和HDFS答案:A. HDFS和MapReduce3. Hadoop中的HDFS代表什么?A. Hadoop Distributed File SystemB. Hadoop Distributed File ServiceC. Hadoop Distributed File StorageD. Hadoop Distributed File Structure答案:A. Hadoop Distributed File System4. 在Hadoop中,NameNode的主要功能是什么?A. 存储实际数据B. 管理文件系统的命名空间和控制对文件的访问C. 执行数据压缩D. 执行数据的备份和恢复答案:B. 管理文件系统的命名空间和控制对文件的访问5. MapReduce中的Map阶段的主要任务是什么?A. 排序输入数据B. 过滤无效数据C. 处理输入数据并生成中间键值对D. 合并输出结果答案:C. 处理输入数据并生成中间键值对6. Hadoop生态系统中,哪个组件用于数据仓库功能?A. HBaseB. HiveC. PigD. Flume答案:B. Hive7. YARN在Hadoop中扮演什么角色?A. 负责数据存储B. 负责资源管理和作业调度C. 负责数据压缩D. 负责数据备份答案:B. 负责资源管理和作业调度8. Hadoop中的Pig是什么?A. 数据存储系统B. 数据处理框架C. 数据库管理系统D. 数据传输工具答案:B. 数据处理框架9. 在Hadoop中,以下哪个不是HDFS的特性?A. 高可靠性B. 高吞吐量C. 低延迟D. 可扩展性答案:C. 低延迟10. Hadoop支持哪些类型的数据存储格式?A. 文本文件B. 二进制文件C. 序列化文件D. 所有上述选项答案:D. 所有上述选项。
完整版hadoop习题册

第一章大数据概述1.互联网的发展分为______个阶段。
A.一B.三 C.二 D.四2.下列不属于大数据特点的是()。
A.种类和来源多样化B.数据量巨大C.分析处理速度快D.价值密度高互联网发展的第_____个时代为智能互联网。
3. C.1.0 D.2.0A.3.0 B.4.0)。
4.关于大数据叙述不正确的一项是(+“复杂类型的数据”A.大数据=“海量数据”B.大数据是指在一定时间对内容抓取、管理和处理的数据集合 C.大数据可以及时有效的分析海量的数据 D.数据包括结构化数据、半结构化数据、结构化数据。
)。
5.下列数据换算正确的一项为(A.1YB=1024EBB.1TB=1024MBC.1PB==1024EBD.1024ZB=1EB 。
6.结构化数据的表现形式为______ 查询C.二维表 D.A.文本 B.视图_________.7.结构化的数据,先有________,再有结构A.数据结构B. 数据C.内容结构D.结构内容结构化的数据,先有________,再有_________.8.结构A.数据结构数据B. 结构内容C. 内容D.结构_________。
9.软件是大数据的集合 C.引擎D. A.核心B.部件) 。
10.大数据技术不包括(D.数据采集A.数据计算B.数据存储C.数据冗余)。
大数据的特点不包括(11.D.C.速度快价值高数量大A. B.类型少第二章Hadoop简介1.下列对云栈架构层数不正确的一项为________。
A.三层云栈架构B.四层云栈架构C.五层云栈架构D.六层云栈架构不是云计算三层架构的概括。
______下列2.A.IaaSB.PaaSC.SaaPD.SaaS3.IaaS基础设施及服务可以称为______。
A.弹性计算B.效用计算C.有效计算D.随需应用4.四层云栈模式,是将三层模式中的_________进行分解,分为两层,一层为硬件层,一层为虚拟资源层。
A.硬件部分B.虚拟化部分C.基础设施D.平台5.五层云栈模式,第五层为______。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息系统集成及服务项目管理人员继续教育习题hadoop
1.Hadoop作者Doug Cutting
2.Hadoop的基本概念:
分布式存储文件系统HDFS
分布式计算map/reduce
3.Hadoop 解决的问题
移动计算、化整为零、分片处理
本地化计算、并行IO,降低网络通信
4.meta元数据,用来管理数据的数据。
Namenode存放元数据DataNode存储真实数据
5.hadoop生态系统:
Hive sql/mr S QL/MR编译器
Pig pig-Latin/MR编译器
Zookeeper 分布式协同
Avro 接口开发工具
Hbase分布式NOSQL
Flume/NG/Scribe日志流汇总
Mahout 基于MR的算法库
Drill/lmpala 内存SQL引擎
Thrift 接口开发
Sqoop ETL工具
Qozie 工作流
6.hadoop集群监控cacti
7.集群配置注意事项
将完整的/etc/hosts文件放在每台服务器上,域名和IP转换需用用到hosts文件
确保端口没有被防火墙所拦截
确保网络正常
配置文件洗了正确的主机名和IP地址
8.集群配置core-site.xml hdfs-site.xml mapred-site.xml
9.hadoop的安装部署Xadoop
运维工具pha cacti ganglia
10.HDFS是google File System(GFS)论文的开源实现,
设计原则文件块预设64m linux4k
每个区块至少分到三台datanode上
单一maste(namenode)来协调存储元数据
HDFS适合存储并管理pb及数据,处理非结构化数据,注重数据处理的吞吐量,应用模式为write once read many存取模式不适合存储小文件,不适合随机读,不支持修改文件
1、Hadoop的标志物是?
A 大象
B 长颈鹿
C 羚羊
D 鲨鱼正确答案A
1、BigTable对应Apache开源项目中的?
A Hive
B Pig
C Sqoop
D HBase正确答案D
1、Hadoop生态系统中,被作为ETL使用的软件是?
A Sqoop
B Bigtop
C Autoconf
D Oracle正确答案A
1、Hadoop生态系统中,由Facebook开源,使用SQL语言进行离线分析的软件是?
A Pig
B Pheonix
C Shark
1、Hadoop是由何种语言编写的?
A Scala
B Erlang
C Java
D Python正确答案C
1、下列哪些服务是在安装Hadoop时需要临时关闭?
A Bluetoothd
B Avahi
C Fuse
D Iptables正确答案D
1、HBase内置的分布式协同调度和锁叫做?
A Bookeeper
B Zookeeper
C Chubby
D Kafka正确答案B
1、Hadoop及其生态系统,可以部署在?
A Linux
B OS/2
C DOS
D UNIX正确答案AD
1、当一个文件向HDFS上传时,首先需要访问的是?
A Datanode
B Namenode
C Jobtracker
D SecondaryNamenode正确答案B
2、通常来说一个map子进程对应几个数据块?
A 一个
B 二个
C 三个
1、文件上传到HDFS时,文件切分成数据块的工作是在?
A Namenode完成的
B Datanode完成的
C client完成的
D SecondaryNamenode完成的正确答案C
2、在执行任务时,Jobtracker首先会访问?
A Datanode
B Namenode
C Tasktracker
D SecondaryNamenode正确答案B
1、Hive中所使用的查询语言通常称之为?
A HQL
B SQL
C AQL
D QueryPlan正确答案A
二、多选题。
每道题有两个或两个以上的正确答案。
1、下列关于Hive说法正确的是?
A 使用HQL作为查询接口。
B 使用HDFS作为底层存储。
C 使用MapRed作为执行层。
D 以上说法都正确。
正确答案ABCD
1、关于ALTER TABLE page_view DROP PARTITION (dt=‘2008-08-08’,country =‘us’);下列说法正确的是?
A 增加分区
B 删除表
C 重命名表
D 修改字段正确答案B
二、多选题。
每道题有两个或两个以上的正确答案。
1、下列关于合并小文件说法有误的是?
A 会给HDFS带来压力。
B 不会影响处理效率。
C 通过合并Map和Reduce的结果文件来消除影响。
D 会对电脑系统造成损坏。
正确答案ACD
1、下列关于合并小文件说法正确的是?
A 会给HDFS带来压力。
B 不会影响处理效率。
C 通过合并Map和Reduce的结果文件来消除影响。
D 会对电脑系统造成损坏。
正确答案B
2、Hive和sql对比下列正确的是?
A Hive不支持索引
B sql不支持数据更新
C Hive扩展性好
D sql执行延迟高正确答案C
1、Pig的主要操作--store 操作_____。
A 循环指定数据集中的所有数据。
B 将制定数据集存储至指定目录。
C 联合操作,和sql中的union功能一致。
D join操作,和sql中的join功能一致。
正确答案B
二、多选题。
每道题有两个或两个以上的正确答案。
1、以下软件中,哪些是日志流的汇总工具?
A FlumeNG
B Scribe
C Rsync
D FTP正确答案AB
1、dfs.block.size - 数据块大小,默认是?
A 16M
B 32M
C 64M
D 128M正确答案C
2、io.sort.record.percent 索引空间所在比例,默认为()。
A 0.05
B 0.01
C 0.1
D 0.5正确答案A
、RUP的业务限制因素分析是指?
A 建立业务限制因素到软件非功能目标的转化。
B 建立业务需求到软件质量标准的转化。
C 建立业务目标到软件功能目标的转化。
D 建立限制因素与功能目标的转化。
正确答案A
1、软件需求分析的任务不应包括?
A 问题分析
B 信息域分析
C 结构化设计
D 确定逻辑模型正确答案C
1、用例的实现细节不会在中描述。
A 用例说明
B 用例图
C 活动图
D 顺序图正确答案B
1、结构化分析(SA)是软件开发需求阶段所使用的方法,不是SA所使用的工具。
A DFD图
B PAD图
C 数据结构
D 控制结构正确答案C
1、结构化分析方法(SA)最为常见的图形工具是?
A 程序流程图
B 实体联系图
C 数据流图
D 结构图
正确答案C
1、ER图是表示概念模型的有效工具之一,在ER图中的菱形框表示?
A 联系
B 实体
C 实体的属性
D 联系的属性正确答案A
1、在ER图中,用长方形和椭圆分别表示?
A 联系、属性
B 属性、实体
C 实体、属性
D 什么也不代表、实体正确答案C
1、用例图中,通信关联是指?
A 参与关联
B 使用关联
C 扩展关联
D 以上三种都是正确答案D
1、以下关于面向对象方法的叙述中,正确的是?
A 问题空间与解决问题的方法空间不一致。
B 继承是组装结构的重要特征。
C 类是对象的抽象。
D 数据和功能相割裂。
正确答案C。