hadoop面试题总结1讲课讲稿
hadoop面试题总结

hadoop⾯试题总结1、hadoop常⽤端⼝号hadoop2.x Hadoop3.x访问HDFS端⼝50070 9870访问MR执⾏情况端⼝8088 8088历史服务器19888 19888客户端访问集群端⼝9000 80202、hadoop集群搭建hadoop搭建流程概述:(1)准备三个客户端,master,node1,node2(2)安装jdk 配置免密 ssh-keygen -t rsa 分发秘钥 ssh-copy-id master ssh-copy-id node1 ssh-copy-id node2(3)配置环境变量 source ⼀下(4)主要有 hadoop环境配置⽂件:hadoop-env.sh hadoop核⼼配置⽂件 core-site.xml yarn配置⽂件 yarn-site.xml mapreduce核⼼配置⽂件 mapred-site.xml hdfs配置⽂件 hdfs-site.xml(5)分发集群⽂件 scp -r /usr/local....... 格式化 hdfs namenode-format 启动集群 start-all.sh 访问hdfs页⾯查看是否搭建成功3、环境配置⽂件主要内容(1)hadoop-env.sh : Hadoop 环境配置⽂件vim hadoop-env.sh修改JAVA_HOMEexport JAVA_HOME=/usr/local/soft/jdk1.8.0_171(2)core-site.xml : hadoop核⼼配置⽂件vim core-site.xml在configuration中间增加以下内容<property><name>fs.defaultFS</name><value>hdfs://master:9000</value></property><property><name>hadoop.tmp.dir</name><value>/usr/local/soft/hadoop-2.7.6/tmp</value></property><property><name>fs.trash.interval</name><value>1440</value></property>(3)hdfs-site.xml : hdfs配置⽂件vim hdfs-site.xml在configuration中间增加以下内容<property><name>dfs.replication</name><value>1</value></property><property><name>dfs.permissions</name><value>false</value></property>(4)yarn-site.xml: yarn配置⽂件vim yarn-site.xml在configuration中间增加以下内容<property><name>yarn.resourcemanager.hostname</name><value>master</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.log-aggregation-enable</name><value>true</value></property><property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value></property><property><name>yarn.nodemanager.resource.memory-mb</name><value>20480</value></property><property><name>yarn.scheduler.minimum-allocation-mb</name><value>2048</value></property><property><name>yarn.nodemanager.vmem-pmem-ratio</name><value>2.1</value></property>(5)mapred-site.xml: mapreduce配置⽂件重命名mv mapred-site.xml.template mapred-site.xmlvim mapred-site.xml在configuration中间增加以下内容<property><name></name><value>yarn</value></property><property><name>mapreduce.jobhistory.address</name><value>master:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>master:19888</value></property>3、hdfs读写流程写流程:1)客户端向namenode请求上传⽂件,namenode检查⽬标⽂件是否已存在,⽗⽬录是否存在。
hadoop常见面试问题

hadoop常见面试问题
以下是一些Hadoop常见的面试问题:
1. Hadoop是什么?它在大数据领域中的作用是什么?
2. Hadoop的核心组件有哪些?它们各自的作用是什么?
3. HDFS是什么?它有哪些特点和优势?
4. MapReduce是什么?它是如何工作的?
5. YARN是什么?它在Hadoop中的作用是什么?
6. 在Hadoop中如何处理数据倾斜?有哪些常见的数据倾斜问题需要避免?
7. Hadoop集群的部署和配置需要注意哪些问题?
8. 如何优化Hadoop集群的性能?有哪些常见的性能调优方法?
9. 在Hadoop中如何进行数据迁移?有哪些常见的迁移策略?
10. 如何进行Hadoop的安全性配置和管理?有哪些常见的安全措施需要采取?
11. Hadoop和Spark的区别和联系是什么?在什么情况下应该选择Hadoop或Spark?
12. 在Hadoop中如何进行数据清洗和预处理?有哪些常用的工具和库可以使用?
13. 如何使用Hadoop进行机器学习和数据挖掘?有哪些常见的算法和应用场景?
14. Hadoop的版本演进和兼容性问题需要注意哪些方面?
15. 你如何在Hadoop上进行大数据实时流处理?有哪些常用的流处理框架可以选择和使用?。
Hadoop最全面试题整理(附目录)

Hadoop面试题目及答案(附目录)选择题1.下面哪个程序负责HDFS 数据存储。
a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker答案C datanode2. HDfS 中的block 默认保存几份?a)3 份b)2 份c)1 份d)不确定答案A 默认3 份3.下列哪个程序通常与NameNode 在一个节点启动?a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker答案D分析:hadoop 的集群是基于master/slave 模式,namenode 和jobtracker 属于master,datanode 和tasktracker 属于slave,master 只有一个,而slave 有多个SecondaryNameNode 内存需求和NameNode 在一个数量级上,所以通常secondaryNameNode(运行在单独的物理机器上)和NameNode 运行在不同的机器上。
JobTracker 和TaskTrackerJobTracker 对应于NameNode,TaskTracker 对应于DataNode,DataNode 和NameNode 是针对数据存放来而言的,JobTracker 和TaskTracker 是对于MapReduce 执行而言的。
mapreduce 中几个主要概念,mapreduce 整体上可以分为这么几条执行线索:jobclient,JobTracker 与TaskTracker。
1、JobClient 会在用户端通过JobClient 类将应用已经配置参数打包成jar 文件存储到hdfs,并把路径提交到Jobtracker,然后由JobTracker 创建每一个Task(即MapTask 和ReduceTask)并将它们分发到各个TaskTracker 服务中去执行。
大数据Hadoop面试题(附答案解析)

大数据Hadoop面试题(附答案解析)在大数据开发岗位的需求下,工资待遇水涨船高,不少编程人员在面对职业瓶颈期的时候,会选择转编程方向发展。
你是否已经意识这是你人生中的一个重要转机?能不能抓住这个时代的机遇,就在于你对大数据信息的应用和获取。
而如何成为大数据时代的弄潮儿,掌握当下最紧缺的软件技能是关键!谷歌、阿里巴巴、百度、京东都在急需掌握hadoop技术的大数据人才!无论你精通大数据的哪一项类,都将在未来职场脱颖而出!传智播客上海校区为大家准备了一些面试问题,希望可以帮助到大家更多大数据知识请关注传智播客上海校区或登录传智播客官网了解更多视频01单选题1、下面哪个程序负责HDFS数据存储?a)NameNodeb)Jobtrackerc)Datanoded)econdaryNameNodee)taktracker答案Cdatanode2、HDfS中的block默认保存几份?a)3份b)2份c)1份d)不确定答案A默认3份a)MartinFowlerb)KentBeckc)Dougcutting答案CDougcutting4、下列哪个程序通常与NameNode在一个节点启动?a)SecondaryNameNodeb)DataNodeb)DataNodec)TakTrackerd)Jobtrac ker答案:D此题分析:hadoop的集群是基于mater/lave模式,namenode和jobtracker属于mater,datanode和taktracker属于lave,mater只有一个,而lave 有多个SecondaryNameNode内存需求和NameNode在一个数量级上,所以通常econdary,NameNode(运行在单独的物理机器上)和NameNode运行在不同的机器上。
JobTracker和TakTracker,JobTracker对应于NameNode,TakTracker对应于DataNode,DataNode和NameNode是针对数据存放来而言的,JobTracker和TakTracker是对于MapReduce执行而言的,mapreduce中几个主要概念,mapreduce整体上可以分为这么几条执行线索:obclient,JobTracker与TakTracker。
Hadoop面试题目及答案

Hadoop面试题目及答案Hadoop面试45个题目及答案1.Hadoop集群可以运行的3个模式?单机(本地)模式伪分布式模式全分布式模式2. 单机(本地)模式中的注意点?在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。
这里同样没有DFS,使用的是本地文件系统。
单机模式适用于开发过程中运行MapReduce程序,这也是最少使用的一个模式。
3. 伪分布模式中的注意点?伪分布式(Pseudo)适用于开发和测试环境,在这个模式中,所有守护进程都在同一台机器上Hadoop被安装在cd/usr/lib/hadoop-0.20/。
8. Namenode、Job tracker和task tracker 的端口号是?Namenode,70;Job tracker,30;Task tracker,60。
9. Hadoop的核心配置是什么?Hadoop的核心配置通过两个xml文件来完成:1,hadoop-default.xml;2,hadoop-site.xml。
这些文件都使用xml格式,因此每个xml中都有一些属性,包括名称和值,但是当下这些文件都已不复存在。
10. 那当下又该如何配置?Hadoop现在拥有3个配置文件:1,core-site.xml;2,hdfs-site.xml;3,mapred-site.xml。
这些文件都保存在conf/子目录下。
11. RAM的溢出因子是?溢出因子(Spill factor)是临时文件中储存文件的大小,也就是Hadoop-temp目录。
12. fs.mapr.working.dir只是单一的目录?fs.mapr.working.dir只是一个目录。
13. hdfs-site.xml的3个主要属性?.dir决定的是元数据存储的路径以及DFS的存储方式(磁盘或是远端)dfs.data.dir决定的是数据存储的路径fs.checkpoint.dir用于第二Namenode 14. 如何退出输入模式?退出输入的方式有:1,按ESC;2,键入:q(如果你没有输入任何当下)或者键入:wq(如果你已经输入当下),并且按下Enter。
大数据面试题总结

大数据面试题总结一、基础概念类。
大数据这个概念可太火啦。
那面试的时候呢,基础概念肯定会被问到。
比如说啥是大数据呀?简单来讲呢,就是数据量特别特别大,大到普通的处理方式都搞不定啦。
就像大海里的水,你不能用小杯子去量一样。
还有数据的4V特性呢,这个也很重要哦。
Volume(大量)就像刚刚说的,数据超级多;Velocity(高速)就是数据产生得特别快,像潮水一样涌过来;Variety(多样)那可太丰富了,有结构化的像表格里的数据,还有非结构化的,像图片、视频啥的;Value(价值)呢,虽然数据量又大又乱,但是里面藏着很多有用的东西,就像宝藏一样,要挖掘出来才有价值。
二、技术工具类。
说到大数据,肯定离不开那些技术工具啦。
Hadoop可是个老大哥呢。
人家就是专门用来处理大数据的框架。
HDFS(Hadoop Distributed File System)这个你得知道,就像一个超级大的文件仓库,能把数据分散存起来,还不怕数据丢了。
MapReduce也很有趣呢。
你可以把它想象成一个分工明确的小团队。
Map负责把大任务分解成一个个小任务,就像把一个大蛋糕切成小块。
Reduce呢,再把这些小任务的结果汇总起来,就像把小块蛋糕又拼成一个完整的蛋糕啦。
还有Spark呢,它比Hadoop在某些方面更快更灵活哦。
就像是一辆跑车,在处理数据的赛场上跑得飞快。
Spark的RDD(弹性分布式数据集)这个概念有点绕,不过你就想它是一种可以在不同机器上灵活处理的数据形式,像变形金刚一样,可以根据需要变换形态。
三、数据挖掘与分析类。
数据挖掘和分析在大数据里也是超级重要的部分呢。
面试的时候经常会问一些算法相关的问题。
比如说决策树,这个就像一个树状的流程图。
从根节点开始,根据不同的条件分支,最后得到结果。
就像你在森林里找路一样,按照不同的岔路口走,最后到达目的地。
聚类算法也很有意思。
就像是把一群小动物按照它们的相似性分类,比如兔子和兔子在一起,猴子和猴子在一起。
Hadoop 100道面试题及答案解析

3.6误)3.7Hadoop支持数据的随机读写。
(错) (8)NameNode负责管理metadata,client端每次读写请求,它都会从磁盘中3.8读取或则会写入metadata信息并反馈client端。
(错误) (8)NameNode本地磁盘保存了Block的位置信息。
(个人认为正确,欢迎提出其它意见) (9)3.93.10 3.11DataNode通过长连接与NameNode保持通信。
(有分歧) (9)Hadoop自身具有严格的权限管理和安全措施保障集群正常运行。
(错误)93.12 3.13 3.14Slave节点要存储数据,所以它的磁盘越大越好。
(错误) (9)hadoop dfsadmin–report命令用于检测HDFS损坏块。
(错误) (9)Hadoop默认调度器策略为FIFO(正确) (9)100道常见Hadoop面试题及答案解析目录1单选题 (5)1.1 1.2 1.3 1.4 1.5 1.6 1.7下面哪个程序负责HDFS数据存储。
(5)HDfS中的block默认保存几份? (5)下列哪个程序通常与NameNode在一个节点启动? (5)Hadoop作者 (6)HDFS默认Block Size (6)下列哪项通常是集群的最主要瓶颈: (6)关于SecondaryNameNode哪项是正确的? (6)2 3多选题 (7)2.12.22.32.42.5下列哪项可以作为集群的管理? (7)配置机架感知的下面哪项正确: (7)Client端上传文件的时候下列哪项正确? (7)下列哪个是Hadoop运行的模式: (7)Cloudera提供哪几种安装CDH的方法? (7)判断题 (8)3.13.23.3Ganglia不仅可以进行监控,也可以进行告警。
(正确) (8)Block Size是不可以修改的。
(错误) (8)Nagios不可以监控Hadoop集群,因为它不提供Hadoop支持。
Hadoop常见面试笔试题目与参考答案小结

Hadoop常见⾯试笔试题⽬与参考答案⼩结1. namenode的重要性是什么?namenode的作⽤在Hadoop中⾮常重要。
它是Hadoop的⼤脑,主要负责管理系统上的分配块,还为客户提出请求时的数据提供特定地址2. 当NameNode关闭时会发⽣什么?如果NameNode关闭,⽂件系统将脱机。
3. 是否可以在不同集群之间复制⽂件?如果是的话,怎么能做到这⼀点?是的,可以在多个Hadoop集群之间复制⽂件,这可以使⽤分布式复制来完成。
Distcp是⼀个Hadoop复制⼯具,主要⽤于执⾏MapReduce作业来复制数据。
Hadoop环境中的主要挑战是在各集群之间复制数据,distcp也将提供多个datanode来并⾏复制数据。
4. 什么是检查点?对⽂件数据的修改不是直接写回到磁盘的,很多操作是先缓存到内存的Buffer中,当遇到⼀个检查点Checkpoint时,系统会强制将内存中的数据写回磁盘,当然此时才会记录⽇志,从⽽产⽣持久的修改状态。
因此,不⽤重放⼀个编辑⽇志,NameNode可以直接从FsImage加载到最终的内存状态,这肯定会降低NameNode启动时间5. 什么是机架感知?这是⼀种决定如何根据机架定义放置块的⽅法。
Hadoop将尝试限制存在于同⼀机架中的datanode之间的⽹络流量。
为了提⾼容错能⼒,名称节点会尽可能把数据块的副本放到多个机架上。
综合考虑这两点的基础上Hadoop设计了机架感知功能。
6. 投机性执⾏如果⼀个节点正在执⾏⽐主节点慢的任务。
那么就需要在另⼀个节点上冗余地执⾏同⼀个任务的⼀个实例。
所以⾸先完成的任务会被接受,另⼀个可能会被杀死。
这个过程被称为“投机执⾏”。
7. 是否可以在Windows上运⾏Hadoop?可以,但是最好不要这么做,Red Hat Linux或者是Ubuntu才是Hadoop的最佳操作系统。
在Hadoop安装中,Windows通常不会被使⽤,因为会出现各种各样的问题。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
hadoop面试题总结1a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker答案C datanodea)3 份 b)2 份c)1 份d)不确定答案A默认3分a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker答案D分析:hadoop的集群是基于master/slave模式,namenode和jobtracker属于master,datanode和tasktracker属于slave,master只有一个,而slave有多个SecondaryNameNode内存需求和NameNode在一个数量级上,所以通常secondary NameNode(运行在单独的物理机器上)NameNode运行在不同的机器上。
JobTracker和TaskTrackerJobTracker 对应于 NameNodeTaskTracker 对应于 DataNodeDataNode 和NameNode 是针对数据存放来而言的JobTracker和TaskTracker是对于MapReduce执行而言的mapreduce中几个主要概念,mapreduce整体上可以分为这么几条执行线索:jobclient,JobTracker与TaskTracker。
并把路径提交到Jobtracker,然后由JobTracker创建每一个Task(即MapTask和ReduceTask)并将它们分发到各个TaskTracker服务中去执行并监控它们,如果发现有失败的task就重新运行它。
一般情况应该把JobTracker部署在单独的机器上。
TaskTracker都需要运行在HDFS的DataNode上a)Martin Fowler b)Kent Beck c)Doug cutting答案C Doug cuttinga)32MB b)64MB c)128MB答案:B(因为版本更换较快,这里答案只供参考)a)CPU b)网络 c)磁盘IO d)内存答案:C磁盘处理能力强2.内存够大所以集群的瓶颈不可能是a和d3.网络是一种稀缺资源,但是并不是瓶颈。
4.由于大数据面临海量数据,读写数据都需要io,然后还要冗余数据,hadoop一般备3份数据,所以IO就会打折扣。
同样可以参考下面内容(磁盘IO:磁盘输出输出)对于磁盘IO:当我们面临集群作战的时候,我们所希望的是即读即得。
可是面对大数据,读取数据需要经过IO,这里可以把IO理解为水的管道。
管道越大越强,我们对于T 级的数据读取就越快。
所以IO的好坏,直接影响了集群对于数据的处理。
集群瓶颈:磁盘IO必读集群瓶颈为什么磁盘ioa)它是 NameNode 的热备 b)它对内存没有要求c)它的目的是帮助 NameNode 合并编辑日志,减少NameNode 启动时间d)SecondaryNameNode 应与 NameNode 部署到一个节点答案C。
D答案可以参考第三题多选题:a)Puppet b)Pdsh c)Cloudera Manager d)Zookeeper答案1:ABD具体可查看什么是Zookeeper,Zookeeper的作用是什么,在Hadoop 及hbase中具体作用是什么修改后答案:ABC分析:A:puppetpuppet是一种Linux、Unix、windows平台的集中配置管理系统B:pdsh可以实现在在多台机器上执行相同的命令详细参考:集群管理小工具介绍-pdshC:可以参考Cloudera Manager四大功能【翻译】首先这里给管理下一个定义:部署、配置、调试、监控,属于管理因为zookeeper不满足上面要求,所以不纳入管理范围。
a)如果一个机架出问题,不会影响数据读写b)写入数据的时候会写到不同机架的 DataNode 中c)MapReduce 会根据机架获取离自己比较近的网络数据答案ABC具体可以参考hadoop机架感知--加强集群稳固性,该如何配置hadoop 机架感知a)数据经过 NameNode 传递给 DataNodeb)Client 端将文件切分为 Block,依次上传c)Client 只上传数据到一台DataNode,然后由NameNode 负责 Block 复制工作答案B分析:Client向NameNode发起文件写入的请求。
NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。
Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。
HDFS体系结构简介及优缺点11. 下列哪个是 Hadoop 运行的模式a)单机版 b)伪分布式 c)分布式答案ABC12. Cloudera 提供哪几种安装 CDH 的方法a)Cloudera manager b)Tarball c)Yum d)Rpm答案:ABCD具体可以参考Hadoop CDH四种安装方式总结及实例指导13. Ganglia 不仅可以进行监控,也可以进行告警。
( 正确)分析:此题的目的是考Ganglia的了解。
严格意义上来讲是正确。
ganglia作为一款最常用的Linux环境中的监控软件,它擅长的的是从节点中按照用户的需求以较低的代价采集数据。
但是ganglia在预警以及发生事件后通知用户上并不擅长。
最新的ganglia已经有了部分这方面的功能。
但是更擅长做警告的还有Nagios。
Nagios,就是一款精于预警、通知的软件。
通过将Ganglia和Nagios组合起来,把Ganglia 采集的数据作为Nagios的数据源,然后利用Nagios来发送预警通知,可以完美的实现一整套监控管理的系统。
具体可以查看完美集群监控组合ganglia和nagios它是可以被修改的Hadoop的基础配置文件是,默认建立一个Job的时候会建立Job的Config,Config首先读入的配置,然后再读入的配置(这个文件初始的时候配置为空),中主要配置需要覆盖的的系统级配置。
具体配置可以参考下//block的大小,单位字节,后面会提到用处,必须是512的倍数,因为采用crc作文件完整性校验,默认配置512是checksum的最小单元。
51XX0The default block size for new files.分析:Nagios是集群监控工具,而且是云计算三大利器之一分析:SecondaryNameNode是帮助恢复,而不是替代,如何恢复,可以查看hadoop 根据SecondaryNameNode恢复Namenode分析:第一套付费产品是Cloudera Enterpris,Cloudera Enterprise在美国加州举行的Hadoop 大会(Hadoop Summit) 上公开,以若干私有管理、监控、运作工具加强Hadoop 的功能。
收费采取合约订购方式,价格随用的Hadoop 叢集大小变动。
分析:rhadoop是用R语言开发的,MapReduce是一个框架,可以理解是一种思想,可以使用其他语言开发。
具体可以查看Hadoop简介(1):什么是Map/Reduce分析:lucene是支持随机读写的,而hdfs只支持随机读。
但是HBase可以来补救。
HBase提供随机读写,来解决Hadoop不能处理的问题。
HBase自底层设计开始即聚焦于各种可伸缩性问题:表可以很“高”,有数十亿个数据行;也可以很“宽”,有数百万个列;水平分区并在上千个普通商用机节点上自动复制。
表的模式是物理存储的直接反映,使系统有可能提高高效的数据结构的序列化、存储和检索。
修改后分析:分析:NameNode 不需要从磁盘读取 metadata,所有数据都在内存中,硬盘上的只是序列化的结果,只有每次 namenode 启动的时候才会读取。
1)文件写入Client向NameNode发起文件写入的请求。
NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。
Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。
2)文件读取Client向NameNode发起文件读取的请求。
NameNode返回文件存储的DataNode的信息。
Client读取文件信息。
具体查看hadoop中NameNode、DataNode和Client三者之间协作关系分析:DataNode是文件存储的基本单元,它将Block存储在本地文件系统中,保存了Block的Meta-data,同时周期性地将所有存在的Block信息发送给NameNode。
具体同样查看hadoop中NameNode、DataNode和Client三者之间协作关系这个有分歧:具体正在找这方面的有利资料。
下面提供资料可参考。
首先明确一下概念:(1).长连接Client方与Server方先建立通讯连接,连接建立后不断开,然后再进行报文发送和接收。
这种方式下由于通讯连接一直存在,此种方式常用于点对点通讯。
(2).短连接Client方与Server每进行一次报文收发交易时才进行通讯连接,交易完毕后立即断开连接。
此种方式常用于一点对多点通讯,比如多个Client连接一个Server.具体可查看hadoop安全性需不断加强分析:一旦Slave节点宕机,数据恢复是一个难题分析:hadoop dfsadmin -report用这个命令可以快速定位出哪些节点down掉了,HDFS 的容量以及使用了多少,以及每个节点的硬盘使用情况。
当然NameNode有个http页面也可以查询,但是这个命令的输出更适合我们的脚本监控dfs的使用状况Configured Capacity: 77209395855360 ( TB)Present Capacity: 76079914600683 ( TB)DFS Remaining: 60534707015680 ( TB)DFS Used: 15545207585003 ( TB)DFS Used%: %------------------------------------------------- Datanodes available: 107 (109 total, 2 dead) Name: :50010Rack: /lg/dminterface0Decommission Status : NormalConfigured Capacity: 1259272216576 ( TB)DFS Used: 185585852416 ( GB)Non DFS Used: 39060951040 ( GB)DFS Remaining: 1034625413120( GB)DFS Used%: %DFS Remaining%: %Last contact: Wed Nov 18 10:19:44 CST XXName: :50010Rack: /lg/dminterface2Decommission Status : NormalConfigured Capacity: 661261402112 ( GB)DFS Used: 123147280384 ( GB)Non DFS Used: 8803852288 ( GB)DFS Remaining: 529310269440( GB)DFS Used%: %DFS Remaining%: %Last contact: Wed Nov 18 10:19:46 CST XX具体参考Hadoop集群三种作业调度算法介绍分析:首先明白什么是RAID,可以参考百科磁盘阵列。