大数据题库
![大数据题库](https://img.360docs.net/imga9/1jqzhltgknf6kgvuiiy06iul27mmcyf3-91.webp)
![大数据题库](https://img.360docs.net/imga9/1jqzhltgknf6kgvuiiy06iul27mmcyf3-12.webp)
大数据题库
共50题,每题2分,总分100分。考试时间25分钟。
第一部分:简单题
1. spark是用以下哪种编程语言实现的 [单选题] *
A、c
B、c++
C、java
D、Scala(正确答案)
2. FusionInsight Manger 对服务的管理操作,下面说法错误的是? [单选题] *
A、可以对服务进行启停重启操作
B、可以添加和卸载服务
C、可设置不常用的服务
隐藏和显示(正确答案)
D、观察期不能做扩容
3. FusionInsight hd集群升级,以下描述正确的有 *
A、升级过程中不可以手工操作主备 OMS倒换(正确答案)
B、集群内所有主机的root账户密码要保持一致(正确答案)
C、保持网络畅通。避免因网络问题导致升级异常(正确答案)
D、观察期不能做扩容(正确答案)
4. FusionInsight HD的Loader 在创建作业时。连接器(connector)有什么用? [单选题] *
A、、确定有哪些转换步骤
B、提供有话参数。提高
数据导入导出性能
C、配置作业如何与外部
数据源进行连接(正确答
案)
D、配置作业如何与内部
数据源进行连接
5. 下列哪个HDFS命令可用于检测数据块的完整性? [单选题] *
A、hdfs fack/(正确答案)
B、hdfs fack/-delete
C、hdfs dfsadmin-report
D、hdfs balancer-
threshold1
6. YARN中设置队伍QueueA的最大使用资源量。需要配置哪个参数 [单选题] *
A、
yarn.scheduler.capacity.root .QueueA-user-limit-factor B、
yarn.scheduler.capacity.root
.QueueA.minimum-user-
limit-percent
C、
yarn.scheduler.capacity.root
.QueueA.state
D、
yarn.scheduler.capacity.root
.QueueA.maximum-
capacity(正确答案)
7. Flume的数据流可以根据headers的信息发送到不同的channel中 [单选题] *
A、正确(正确答案)
B、错误
8. FusionInsight HD与外部管理平台对接时,支持哪些接口? *
A、SNMP(正确答案)
B、vpn
C、BGP
D、Syslog(正确答案)
9. Hbase的数据文件HFile中一个Keyvalue格式包括哪些信息? *
A、key(正确答案)
B、value(正确答案)
C、Timestamp(正确答案)
D、Key Type(正确答案)
10. FusionInsight HD集群规划设计时,集群有150个节点,并且采用双平面组网部署,对于该集群网络宽带要求的描述,下列描述正确的有? *
A、业务平面所有节点都使用10GE网络(正确答案)
B、管理平面控制节点都使用10GE网络
C、管理平面数据节点都使用1GE网络(正确答案)
D、业务平面控制节点都使用1GE网络
E、管理平面管理节点都使用10GE网络(正确答案)
11. FusionInsiht系统中Hive支持的储存格式包括? *
A、HFile
B、TextFile(正确答案)
C、sequenceFile(正确答案)
D、RCFile(正确答案)
12. Spark任务的每个Stage可划分为job,划分的标记是shu [单选题] *
A、对
B、错(正确答案)
13. FusionInsight Manger对服务的配置功能说法不正确的是? [单选题] *
A、服务级别的配置可对所有实例生效
B、实例级别的配置只针
对本实例生效
C、实例级别的配置对其
他实例也生效(正确答案)
D、配置保存后需要重启
服务才能生效
14. FusionInsight hd部署solr时如果选择索引存放在本地磁盘建议给每个solrsever 实例的数据目录单独挂载磁盘,并且磁盘配置为RAID0或RAID5 [单选题] *
A、对(正确答案)
B、错
15. 关于 FusionInsight HD安装流程正确的是? [单选题] *
A、安装manager-执行preinstall-LLD工具进行配置-安装集群-安装manger-
B、LLD工具进行配置-执
行preinstall-安装manger-
安装集群-安装后检查-安
装后配置(正确答案)
C、安装manager-LLD工
具进行配置-执行
preinstall-安装集群-安装后
检查-安装后配置
D、LLD工具进行配置-执行preinstall-安装集群-安装manger-安装后检查-安
装后配置
16. 关于kerberos的部署,描述正确的是? [单选题] *
A、kerberos仅有一个角色
B、kerberos服务在同一个
节点上有两个实例(正确答
案)
C、kerberos服务采用主备
模式部署
D、kerberos服务必须和
LDAP服务部署在同一个
节点上
17. 某银行规划的 FusionInsight HD集群中有90个节点。如果控制节点就规划了三个那集群中的数据节点规划几个最为合理? [单选题] *
A、87(正确答案)
B、85
C、990
D、86
18. 安装 FusionInsight HD软件包钱必须在本节点/etc/hosts文件中配置集群中所有节点的主机名称与业务IP的映射关系 [单选题] *
A、对(正确答案)
B、错
19. 客户IT系统中 FusionInsight HD集群中有150个节点,每个节点12块磁盘(不做Raid 不包括OS盘),每块磁盘大小1T,只安装HDFS,按照默认配置最大可储存多少数据? [单选题] *
A、1764tb
B、1800tb
C、600tb
D、588tb(正确答案)
20. FusionInsight HD节点不支持哪种主机操作系统? [单选题] *
A、Suse11.1
B、RedHat6.5
C、CentOS6.4
D、Ubuntu11.04(正确答
案)
21. FusionInsight HD中如果需要查看当前登录Hbase的用户和权限组,可以在Hbase shell中执行什么命令? [单选题] *
A、use-permissio
B、whoami(正确答案)
C、who
D、get_user
22. FusionInsight HD产品在部署kerberos和LDAP服务时以下描述正确的是? *
A、部署kerberos服务之前,必须先部署LDAP服务(正确答案)
B、LDAP服务必须和kerberos服务部署在同一节点
C、kerberos服务和LDAP服务部署到同一个节点上利于数据的访问,有助于性能的提升(正确答案)
D、LDAP服务可以多个集群共享
23. 23. Fusionsight HD manager界面Hive日志收集,哪个选项不正确? [单选题] *
A、可指定实例进行日志收集,比如制定单独收集METASTORE的日志
B、可指定时间段进行日志收集,比如只收集2016-1-1 到2016-1-10的日志
C、可指定节点IP进行日志收集,例如仅下载某个IP的日志
D、可指定特定用户进行日志收集,例如仅下载userA用户产生的日志(正确答案)
24. 24.华为Fusionsight HD集群中,spark服务可以从以下哪些服务读取数据? *
A、YARN
B、HDFS(正确答案)
C、Hive(正确答案)
D、Hbase(正确答案)
25. 25.如果YARN集群中只有Dafault、QueuA和QueueB子队列,那么允许将他们的容量分别设置为60%、25%和22% [单选题] *
A、正确
B、错误(正确答案)
26. 26、Fusionsight HD系统中,关于solr索引的存储部署,以下说法正确的有? *
A、利用HDFS数据存储可靠性和易于扩容的特点选择索引存储与HDFS(正确答案)
B、不论solr索引存储在HDFS上还是存储在本地磁盘,在同一节点上都必须要部署5个solr实例根据ip和不同的端口号来区分不同的solr实例
C、当对实时索引录入速度要求较高时,可选择索引存放在本地磁盘(正确答案)
D、当索引数据存放在HDFS上,solrserver实例与Datanode实例部署在同一节点(正确答案)
27. 27. FusionInsight HD 三层组网适合多少节点的集群规模? [单选题] *
A、30 节点以下
B、100 节点以下
C、100-200 节点
D、200 节点以上(正确答案)
28. 28、FusionInsight HD系统中,kerberos仅用于组件间服务安全认证 [单选题] *
A、正确
B、错误(正确答案)
29. 29、FusionInsight HD支持大规模集群得到安装部署、监控、告警、用户管理、权限管理、审计、服务管理、健康检查、问题定位、升级和补丁 [单选题] *
A、正确(正确答案)
B、错误
30. 30.Hadoop系统中关于客户端向HDFS文件系统上传文件说法正确的是? [单选题] *
A.客户端的文件数据经过NameNode传递给DataNode
B.客户端将文件划分为多个Block,根据DataNode的地址信息,按顺序写入每一个DataNode中(正确答案)
C.客户端个根据DataNode的地址信息,按顺序将整个文件写入每一个,然后由DataNode将文件划分为多个Block
D.客户端只上传数据到一个DataNode,然后由NataNode,然后由NameNode负责Block复制。
31. 31.Fusionlnsight HD系统中Hbase的最小处理单元是Region,User Region和RegionServer之间的路由信息是保存在哪? [单选题] *
A.ZooKeeper
B.HDFS
C.Master
D.meta表(正确答案)
32. 32 Hbase集群定时执行Compaction的目的是什么? *
A.减少同一个Region,同一个ColumnFamily下的文件数目(正确答案)
B.提升数据读取性能(正确答案)
C.减少同一个ColumnFamily的文件数据
D.减少同一个Region的文件数目
33. 33Fusionlnsight Manager会定时备份哪些数据? *
A.NameNode(正确答案)
B.LDAP(正确答案)
C.OMs(正确答案)
D.DBService(正确答案)
34. 34. 通过 FusionInsight Manager 不能完成以下哪个操作? [单选题] *
A、安装部署
B、性能监控
C、权限管理
D、虚拟机分配(正确答案)
35. 35.Kafka是一个分布式的消息发布订阅系统,它只是进行消息的转发,并不会保存消息。 [单选题] *
A.正确
B.错误(正确答案)
36. 36.以下哪些是Spark服务的常驻进程? *
A.JobHistory(正确答案)
B.JDBCServer(正确答案)
C.SparkResource
D.NodeManager
37. 37.Fusionlnsight HD的 Steraming是基于开源Apache Storm 开发的,Storm是一个分布式的离线计算框架。 [单选题] *
A.正确
B.错误(正确答案)
38. 38.Fusionlnsight HD 系统中一个集群可以管理多个服务,每个服务可以管理多个角色,每个角色只能管理一个实例。 [单选题] *
A.正确
B.错误(正确答案)
39. 39. 关于 Hbase 的 Region 分裂流程 split 的描述不正确的是? [单选题] *
A、Split 过程中并没有真正的将文件分开,仅仅是创建了引用文件
B、Split 为了减少 region 中数据大小,从而将一个 region 分裂成两个 region
C、Split 过程中该表会暂停服务(正确答案)
D、Split 过程中被分裂的 region 会暂停服务
40. 40.Hadoop的HDFS是一种分布式文件系统,适合以下哪种场景的数据存储和管理? *
A.大量小文件存储
B.高容错、高吞吐量(正确答案)
C.低延迟读取
D.流式数据访问(正确答案)
41. 41.如果 FusionInsight HD 集群节点数不足以使数据节点单独部署的
情况下,可以采用管理节点&控制节点&数据节点合一部署方案,但性能会受到
限制。 [单选题] *
A.正确(正确答案)
B.错误
42. 42.Hadoop的NameNode用于存储文件系统的元数据。 [单选题] *
A.正确(正确答案)
B.错误
43. 43. 关于FusionInsight Manager关键特性,说法正确的是? [单选题] *
A.能够针对整个集群,某个服务器进行健康检查,不能够针对节点进行健康检查
B.Manager引入角色的概念,采用RBAC的方式对系统进行权限管理(正确答案)
C.整个系统使用Kerberos管理用户,使用Ldap进行认证,通过CAS实现单点登录
D.对于健康检查结果,不能够导出检查报告,只能够在线查看
44. 44.查看kafka某topic的partition详细信息时,使用如下哪个命令? [单选题] *
A. bin/kafka-topics.sh –create
B. bin/kafka-topics.sh –list
C. bin/kafka-topics.sh -describe(正确答案)
D. bin/kafka-topics.sh -delete
45. 45. FusionInsight Hadoop 集群中,在某个节点上通过 df-hT 查询,看到的分区包含以下几个:
/var/log
/srv/BigData
/srv/BigData/hadoop/data5
/srv/BigData/solr/solrserver3
/srv/BigData/dbdata_om
这些分区所对应磁盘最佳 Raid 级别的规划组合是? [单选题] *
A、Raid0、Raid1、Raid0、Non-Raid、Raid-1
B、Raid1、Raid1、Non-Raid、Non-Raid、Raid1(正确答案)
C、Raid0、Raid0、Raid0、Raid0
D、Non-Raid、Non-Raid、Non-Raid、Non-Raid、Raid1
46. 46. FusionInsigh HD 系统中 HDFS 默认 Block Size 是多少? [单选题] *
A、32M
B、64M
C、128M(正确答案)
D、256M
47. 47. FusionInsigh HD部署时,同一集群内的Flume server节点建议至少部署几个? [单选题] *
A、1
B、2(正确答案)
C、3
D、4
48. 48. FusionInsight HD 系统设计日志不可以记录下面那些操作? [单选题] *
A、手动清除告警
B、启停服务实例
C、删除服务实例
D、查询历史监控(正确答案)
49. 49.基于 Hadoop 开源大数据平台主要提供了针对数据分布式计算和存储能力,如下属于分布式存储组件的有?(多选) *
A、MR
B、Spark
C、HDFS(正确答案)
D、Hbase(正确答案)
50. 50.Hadoop的HBase不适合哪些数据类型的应用场景? [单选题] *
A.大文件应用场景(正确答案)
B. 海量数据应用场景
C. 高吞吐率应用场景
D. 半结构化数据应用场景
51. 51.FusionInsight 集群组网设计中,二层组网指集群内二层交换,集
群节点在一个子网里,适用节点数小于 200 的集群场景 [单选题] *
A.正确(正确答案)
B.错误
52. 52.FusionInsight HD 中的 Loader 作业提交到 Yarn 后,作业不能手工停止 [单选题] *
A.正确
B.错误(正确答案)
53. 53. 安装 FusionInsight HD 的 Streaming 组件时,Nimbus 角色要求安装几个节点? [单选题] *
A、1
B、2(正确答案)
C、3
D、4
54. 54. 关于FusionInsight HD 中Loader作业描述正确的是? [单选题] *
A.Loader将作业提交到Yam执行后,如果Loader服务出现异常,则此作业执行失败
B.Loader将作业提交到Yame执行后,如果某个Mapper执行失败,能够自动进行重试(正确答案)
C.Loader作业执行失败,将会产生垃圾数据,需要用户手动清除
D.Loader将作业提交到Yam执行后,在该作业执行完成前,不能再提交其他作业
55. 55. 关于大数据的主要特征理解和描述正确的有? *
A、来源多,格式多(正确答案)
B、增长速度快,处理速度快(正确答案)
C、存储量大,计算量大(正确答案)
D、数据的价值密度较低(正确答案)
56. 56. Hadoop 平台中,要查看 YARN 服务中一个 application 的信息,通常需要使用什么命令? [单选题] *
A、container
B、applicationattempt
C、jar
D、application(正确答案)
57. 57.在FusionInsight集群规划部署时,建议管理节点最好部署()个,控制节点最少部署(),数据节点最少部署()个。 [单选题] *
A. 1,2,2
B. 1,3,2
C. 2,3,1
D. 2,3,3(正确答案)
58. 58. FusionInsight Manager 界面上,当收到 Kafka 磁盘容量不足告警,且该告警的原因已经排除硬盘硬件故障时,系统管理员需要考虑扩容解决此问题。 [单选题] *
A.正确(正确答案)
B.错误
59. 59.FusionInsight HD安装过程中,执行preinstall不能完成哪项功能? [单选题] *
A.修改OS配置,确保OS满足FusionInsight HD的安装要求
B.安装Manager(正确答案)
C.格式化分区
D.安装OS缺失的RPM包
60. 60.SolrCloud模式是集群模式,在此模式下Solr服务强依赖于以下哪个服务?[单选题] *
A.HBase
B.HDFS
C.ZooKeeper(正确答案)
D.Yarn
61. 61.Spark on YARN 模式下的driver只能运行在客户端。 [单选题] *
A.正确
B.错误(正确答案)
62. 62. Hadoop 的 MapReduce 组件擅长处理哪些场景的计算任务? [单选题] *
A、迭代计算
B、离线计算(正确答案)
C、实时交互计算
D、流式计算
63. 63.某高校的FusionInsight HD集群中有230个节点,在进行集群规划时,下列哪些进程应该部署在数据节点上? *
A.Data Node(正确答案)
https://www.360docs.net/doc/a610807357.html,Node
C.NodeManager(正确答案)
D.RegionServer(正确答案)
E.DBServer
F.SolrServer(正确答案)
64. 64. FusionInsight HD集群中的节点只安装了一块网卡,也可以采用双平面隔离组网方案。 [单选题] *
A.正确
B.错误(正确答案)
65. 65. Hadoop 系统中,如果文件系统的备份因子是 3,那么每次 mapreduce 任务运行的 task 所需要的文件都要从 3 个有副本的机器上传输需要处理的文件。 [单选题] *
A.正确
B.错误(正确答案)
66. 66.YARN上有两个同级队列Q1与Q2,容量都是50,Q1上已经有10个任务共占用了40的容量,Q2上有2个任务共占用了30的容量,那么由于Q1的任务数多,调度器会优先将资源分配给Q1。 [单选题] *
A.正确
B.错误(正确答案)
67. 67.以下哪些数据不属于半结构化数据? [单选题] *
A.HTML
B.XML
C.二维表(正确答案)
D.JSON
68. 68.关于FusionInsight HD Streaming 客户端的Supervisor描述正确的是? [单选题] *
A、Supervisor负责资源分配和资源调度
B、Supervisor负责接管 Nimbus 分配的任务,启动和停止属于自己管理的worker 进程(正确答案)
C、Supervisor 是运行具体处理逻辑的进程
D、Supervisor是一个Topology中接收数据然后执行处理的组件
69. 69. HDFS 的 Client 写入文件时,数据的第一副本写入位置是由 NameNode 确定,
其他副本的写入位置是由 DataNode 确定 [单选题] *
A.正确
B.错误(正确答案)
70. 70. 关于FusionInsight Manager,说法错误的是? [单选题] *
A、NTP sever/client负责集群内各节点的时钟同步
B、通过FusionInsight Manager,可以对HDFS进行启停控制、配置参数
C、FusionInsight Manager所有维护操作只能够通过WebUI来完成,没有提供Shell 维护命令(正确答案)
D、通过FusionInsight Manager,可以向导式安装集群,缩短集群部署时间
71. 71.RDD可以从Hadoop兼容的文件系统生成,生成之后可以通过调用RDD的算子对RDD的数据进行部分更新。 [单选题] *
A.正确(正确答案)
B.错误
72. 72.HDFS支持大文件存储,同时支持多个用户对同一个文件的写操作,以及在文件任意位置进行修改。 [单选题] *
A.正确
B.错误(正确答案)
73. 73. 下列哪些 OS 版本被推荐可以用来搭建 FusionInsight V1R2C60 集群? *
A、SUSE 11 SP1/SP2/SP3 for AMD64 & Intel64(正确答案)
B、CentOS-6.6(正确答案)
C、RedHat-6.4-x86_64(正确答案)
D、RedHat-6.5-x86_64(正确答案)
E、RedHat-6.7-x86_64(正确答案)
F、Ubuntu6.3
74. 74. FusionInsight HD 系统中如果修改了服务的配置项,不进行服务重启,该服务的配置状态是什么状态? [单选题] *
A、SYNCHRONIZED
B、EXPIRED(正确答案)
C、CONFIGURING
D、UNKNOWN
75. 75. FusionInsight HD 用户管理系统仅支持管理人机帐号 [单选题] *
A.正确
B.错误(正确答案)
76. 76.Flume的properties.properties配置文件中可以配置多个channle来传输数据。[单选题] *
A.正确(正确答案)
B.错误
77. 77. FusionInsight HD部署过程中,执行precheck检查每一个节点时必须调用checkNodes.Configd配置文件。 [单选题] *
A.正确(正确答案)
B.错误
78. 78. FusionInsight HD 系统中,如果发现 Solr 服务不可用,可以从哪些方面分析定位问题? *
A.查看其依赖的 ZooKeeper 服务是否正常(正确答案)
B.查看 HDFS 服务是否正确(正确答案)
C.登录 SolrServerAdmin 所在节点,确认该节点与另外一个 SolrServerAdmin 实例节点网络是否连通(正确答案)
D.登录 FusionInsight Manager 界面,下载 Solr 服务不可用期间的相关日志,进行进一步定位(正确答案)
79. 79. Spark 是基于内存的计算,所有 Spark 程序运行过程中的数据只能存储在内存中。 [单选题] *
A.正确
B.错误(正确答案)
80. 80. Spark应用在运行时, Stage划分的依据是哪个? [单选题] *
A、task
B、taskSet
C、action
D、shuffle(正确答案)
81. 81. FusionInsight HD 安装前准备,包括哪些步骤? *
A、完成硬件安装(正确答案)
B、完成节点主机操作系统安装(正确答案)
C、准备工具和软件。例如 PuTTY,LLD,FusionInsight HD 软件包等(正确答案)
D、准备规划数据。例如网络参数和角色部署位置(正确答案)
82. 82. FusionInsight HD系统中HBase支持动态扩展列。 [单选题] *
A.正确(正确答案)
B.错误
83. 83. FusionInsight HD 的 Streaming 对于 zookeeper 弱依赖,即使zookeeper 故障streaming 也可以正常提供服务。 [单选题] *
A.正确
B.错误(正确答案)
84. 84. 采用 Flume 传输数据过程中,为了防止因 Flume 进程重启而丢失数据,推荐使用以下哪种 channel 类型? [单选题] *
A、Memory Channel
B、File Channel(正确答案)
C、JDBC Channel
D、HDFS Channel
85. 85.Loader的作业执行失败,则此作业运行过程中导入的数据不会被删除,必须手动删除。 [单选题] *
A.正确
B.错误(正确答案)
86. 86.Loader提供了哪些方式或接口实现作业管理? *
A.Web UI(正确答案)
B.Linux 命令行(正确答案)
C.Rest 接口(正确答案)
D.java API(正确答案)
87. 87. 以下选项中,对华为 FusionInsight HD 系统中备用 NameNode 的作用描述准确的有?(多选) *
A、主 NameNode 的热备(正确答案)
B、备 NameNode 对内存没有要求
C、帮助主 NameNode 合并编辑日志,减少主 NameNode 启动时间(正确答案)
D、备 NameNode 应与主 NameNode 部署到一个节点
88. 88. FusionInsight HD集群中,集群规模有300个节点,如果采用推荐部署方案,控制节点上一定不会存在哪些分区? *
A./
B.//srv/BigData/dbdata_om(正确答案)
C./srv/BigData
D.//srv/ BigData/ jurnalnode
E. //srv/BigData/hadoop/data5(正确答案)
89. 89. FusionInsight HD 的 Hbase 中一张表包含以下几个
Region[10,20),[20,30),[30,+∞),分别编号为①,②,③,那么,11,20,222 分别属于哪个 Region? [单选题] *
A、①①③
B、①②③
C、①②②(正确答案)
D、①①②
90. 90、关于Hive建表基本操作描述正确的是? [单选题] *
A.创建外部表时需要指定external关键字(正确答案)
B.一旦表创建好,不可再修改表名
C.一旦表创建好,不可再修改列名
D.一旦表创建好,不可再增加新列
91. 91、FusionInsight HG 系统中,在创建Kafka的 Topic 时必须设置 Partition 个数和副本个数,设置多副本可以增强Kafka服务的容灾能力。 [单选题] *
A.正确(正确答案)
B.错误
92. 92、FusionInsight HD 部署时,如果 Solr 索引默认存放在HDFS上时,以下理解正确的有? [单选题] *
A、不需要考虑各solrserver实例上创建了多少shard
B、为保证数据可靠性,创建索引时必须创建多Replica
C、通过HDFS读取索引时占用磁盘IO,因此不建议Solr实例与DataNode部署在同一节点上
D、当Solr服务参数INDEX_STORED_ON_HDFS值为HDFS时,创建Collection 的索引就默认存储在HDFS上。(正确答案)