hadoop集群安装_鲁德性能测试
Hadoop技术的性能测试与优化

Hadoop技术的性能测试与优化Hadoop是一个非常流行的分布式文件系统和分布式计算框架,它可以将一个大型的数据集分成许多小的文件块,并且将这些文件块分别存储在不同的计算机节点上,通过MapReduce算法在这些节点上进行数据处理,从而实现分布式计算。
随着数据的规模不断增大,Hadoop的性能测试和优化变得越来越重要,本文将介绍Hadoop的性能测试和优化方法。
一、Hadoop的性能测试性能测试是评估Hadoop系统工作效能的关键,它可以帮助用户了解Hadoop系统的各项指标,例如数据吞吐量、响应时间、并发用户数和资源占用情况等等。
以下是一些常见的性能测试工具:1. Hadoop Benchmark SuiteHadoop Benchmark Suite是Hadoop自己提供的一套性能测试工具,它可以测试HDFS(分布式文件系统)的读写速度、MapReduce(分布式计算框架)的性能,以及HBase(分布式数据库)的性能。
用户可以通过Hadoop Benchmark Suite测试不同场景下的Hadoop系统性能,例如多节点情况下的数据吞吐量、响应时间、任务失败率等等指标。
2. Yahoo! Cloud Serving BenchmarkYahoo! Cloud Serving Benchmark(YCSB)是一个流行的分布式数据存储和检索性能测试工具。
它可以测试不同的分布式存储系统,包括Hadoop的分布式数据库HBase。
用户可以通过YCSB 测试Hadoop系统在高并发和大数据量情况下的性能。
3. TeraByte SortTeraByte Sort是一种经典的分布式排序算法,它可以测试Hadoop系统在大规模数据排序时的性能。
用户可以通过TeraByte Sort测试Hadoop系统在不同节点数量和不同数据量下的排序速度和资源占用情况。
二、Hadoop的性能优化性能测试可以帮助用户了解Hadoop系统的工作效能,但只有通过对Hadoop系统的性能瓶颈进行优化,才能真正提升系统的工作效率。
Hoop集群测试报告

H o o p集群测试报告 Prepared on 24 November 2020测试报告一、集群设置1.服务器配置磁盘44T磁盘吞吐预计100M/s2.Had oop服务部署HADOOP-12-151 NameNode、Balancer、Hive Gateway、Spark Gateway、ResourceManager、Zk ServerHADOOP-12-152 DataNode、SNN、HFS、Hive Gateway、WebHCat、Hue、Impala Deamon、CMServer Monitor、CM Activity Monitor、CM Host Monitor、CM Event Server、CMAl ert Publisher、Oozie Server、Spark History Server、Spark Gateway、NodeManager、JobHistory Server、Zk ServerHADOOP-12-153 DataNode、Hive Gateway、HiveMetastore、HiveServer2、Impala Catal og、Impala StateStore、Impala Deamon、Spark Gateway、NodeManager、Zk Server HADOOP-12-154 DataNode、Hive Gateway、Impala Deamon、Spark Gateway、NodeManager、Sqoop2HADOOP-12-155 DataNode、Hive Gateway、Impala Deamon、Spark Gateway、NodeManager、Zk ServerHADOOP-12-156 DataNode、Hive Gateway、Impala Deamon、Spark Gateway、NodeManager、Zk Server3.had oop参数设置yarn-allocation-mb 32768-allocation-mb 4096-vcores 24-pmem-ratiomapreduce40968192307261441536100151555dfs3二、基准测试1.HDFS读写的吞吐性能连续10次执行如下写操作,其性能见图示:cd /opt/clouderahdfsadmin hadoopTestDFSIO -write -nrFiles 10 -fileSize 1000 -resFile /tmp/其具体数据见表格:HDFS写文件吞吐均值:/S平均执行时间:占用带宽:/S结论:HDFS写,其磁盘吞吐基本上处于理想状态,且在此吞吐水平上其网络带宽占用较少,没有造成明显的带宽负载。
hadoop性能测试学习_鲁德性能测试

hadoop性能测试学习一、背景由于以前没有细看Hadoop提供的测试工具,只是在关注hadoop本身的内容,所以很多的性能测试都忽略了。
最近花了一周的时间准备做个性能测试,但是都是采用自己的方法得出的抽象值。
今天看淘宝的博客,提到hadoop自带的测试工具,遂试了一把,记录一下,供以后参考。
二、使用我做基准测试主要是用了hadoop-0.20.2-test.jar这个工具jar包。
主要是做了I/O的测试。
在网上也找了一些资料,抄抄谢谢记录如下:DFSCIOTest测试libhdfs中的分布式I/O的基准。
Libhdfs是一个为C/C++应用程序提供HDFS文件服务的共享库。
DistributedFSCheck文件系统一致性的分布式检查。
TestDFSIO分布式的I/O基准。
目前我就做了这个测试。
输入参数:hadoop jar hadoop-0.20.2-test.jar TestDFSIO -write -nrFiles 10 -fileSize 1000,结果在同级目录下会有一个TestDFSIO_results.log,查看就可以了。
完事记得执行hadoop jar hadoop-0.20.2-test.jar TestDFSIO -cleanclustertestdfs对分布式文件系统的伪分布式测试。
dfsthroughput测量HDFS的吞吐量。
filebenchSequenceFileInputFormat和SequenceFileOutputFormat的基准,这包含BLOCK压缩,RECORD压缩和非压缩的情况。
TextInputFormat和TextOutputFormat的基准,包括压缩和非压缩的情况。
loadgen通用的MapReduce加载产生器。
mapredtestMapReduce作业的测试和检测。
mrbench创建大量小作业的MapReduce基准。
nnbenchNameNode的性能基准。
Hadoop集群安装详细步骤

Hadoop集群安装详细步骤|Hadoop安装配置文章分类:综合技术Hadoop集群安装首先我们统一一下定义,在这里所提到的Hadoop是指Hadoop Common,主要提供DFS(分布式文件存储)与Map/Reduce的核心功能。
Hadoop在windows下还未经过很好的测试,所以笔者推荐大家在linux(cent os 5.X)下安装使用。
准备安装Hadoop集群之前我们得先检验系统是否安装了如下的必备软件:ssh、rsync和Jdk1.6(因为Hadoop需要使用到Jdk中的编译工具,所以一般不直接使用Jre)。
可以使用yum install rsync来安装rsync。
一般来说ssh是默认安装到系统中的。
Jdk1.6的安装方法这里就不多介绍了。
确保以上准备工作完了之后我们就开始安装Hadoop软件,假设我们用三台机器做Hadoop集群,分别是:192.168.1.111、192.168.1.112和192.168.1.113(下文简称111,112和113),且都使用root用户。
下面是在linux平台下安装Hadoop的过程:在所有服务器的同一路径下都进行这几步,就完成了集群Hadoop软件的安装,是不是很简单?没错安装是很简单的,下面就是比较困难的工作了。
集群配置根据Hadoop文档的描述“The Hadoop daemons are N ameNode/DataNode and JobTracker/TaskTracker.”可以看出Hadoop核心守护程序就是由NameNode/DataNode 和JobTracker/TaskTracker这几个角色构成。
Hadoop的DFS需要确立NameNode与DataNode角色,一般NameNode会部署到一台单独的服务器上而不与DataNode共同同一机器。
另外Map/Reduce服务也需要确立JobTracker和TaskTracker的角色,一般JobTracker与NameNode共用一台机器作为master,而TaskTracker与DataNode同属于slave。
hadoop集群安装配置的主要操作步骤-概述说明以及解释

hadoop集群安装配置的主要操作步骤-概述说明以及解释1.引言1.1 概述Hadoop是一个开源的分布式计算框架,主要用于处理和存储大规模数据集。
它提供了高度可靠性、容错性和可扩展性的特性,因此被广泛应用于大数据处理领域。
本文旨在介绍Hadoop集群安装配置的主要操作步骤。
在开始具体的操作步骤之前,我们先对Hadoop集群的概念进行简要说明。
Hadoop集群由一组互联的计算机节点组成,其中包含了主节点和多个从节点。
主节点负责调度任务并管理整个集群的资源分配,而从节点则负责实际的数据存储和计算任务执行。
这种分布式的架构使得Hadoop可以高效地处理大规模数据,并实现数据的并行计算。
为了搭建一个Hadoop集群,我们需要进行一系列的安装和配置操作。
主要的操作步骤包括以下几个方面:1. 硬件准备:在开始之前,需要确保所有的计算机节点都满足Hadoop的硬件要求,并配置好网络连接。
2. 软件安装:首先,我们需要下载Hadoop的安装包,并解压到指定的目录。
然后,我们需要安装Java开发环境,因为Hadoop是基于Java 开发的。
3. 配置主节点:在主节点上,我们需要编辑Hadoop的配置文件,包括核心配置文件、HDFS配置文件和YARN配置文件等。
这些配置文件会影响到集群的整体运行方式和资源分配策略。
4. 配置从节点:与配置主节点类似,我们也需要在每个从节点上进行相应的配置。
从节点的配置主要包括核心配置和数据节点配置。
5. 启动集群:在所有节点的配置完成后,我们可以通过启动Hadoop 集群来进行测试和验证。
启动过程中,我们需要确保各个节点之间的通信正常,并且集群的各个组件都能够正常启动和工作。
通过完成以上这些操作步骤,我们就可以成功搭建一个Hadoop集群,并开始进行大数据的处理和分析工作了。
当然,在实际应用中,还会存在更多的细节和需要注意的地方,我们需要根据具体的场景和需求进行相应的调整和扩展。
Hadoop集群的搭建方法与步骤

Hadoop集群的搭建方法与步骤随着大数据时代的到来,Hadoop作为一种分布式计算框架,被广泛应用于数据处理和分析领域。
搭建一个高效稳定的Hadoop集群对于数据科学家和工程师来说至关重要。
本文将介绍Hadoop集群的搭建方法与步骤。
一、硬件准备在搭建Hadoop集群之前,首先要准备好适合的硬件设备。
Hadoop集群通常需要至少三台服务器,一台用于NameNode,两台用于DataNode。
每台服务器的配置应该具备足够的内存和存储空间,以及稳定的网络连接。
二、操作系统安装在选择操作系统时,通常推荐使用Linux发行版,如Ubuntu、CentOS等。
这些操作系统具有良好的稳定性和兼容性,并且有大量的Hadoop安装和配置文档可供参考。
安装操作系统后,确保所有服务器上的软件包都是最新的。
三、Java环境配置Hadoop是基于Java开发的,因此在搭建Hadoop集群之前,需要在所有服务器上配置Java环境。
下载最新版本的Java Development Kit(JDK),并按照官方文档的指引进行安装和配置。
确保JAVA_HOME环境变量已正确设置,并且可以在所有服务器上运行Java命令。
四、Hadoop安装与配置1. 下载Hadoop从Hadoop官方网站上下载最新的稳定版本,并将其解压到一个合适的目录下,例如/opt/hadoop。
2. 编辑配置文件进入Hadoop的安装目录,编辑conf目录下的hadoop-env.sh文件,设置JAVA_HOME环境变量为Java的安装路径。
然后,编辑core-site.xml文件,配置Hadoop的核心参数,如文件系统的默认URI和临时目录。
接下来,编辑hdfs-site.xml文件,配置Hadoop分布式文件系统(HDFS)的相关参数,如副本数量和数据块大小。
最后,编辑mapred-site.xml文件,配置MapReduce框架的相关参数,如任务调度器和本地任务运行模式。
hadoop集群搭建

Hadoop集群的安装与应用一、Hadoop、Hive、Sqoop 简介1.Hadoop介绍Hadoop是由Apache基金会开发的分布式基础架构,Hadoop框架的核心设计由HDFS 和MapReduce组成。
HDFS是Hadoop Distribute File System 的简称,也就是Hadoop的一个分布式文件系统。
HDFS集群是由一个NameNode、SecondaryNameNode和多个DataNode组成。
✓NameNodeNameNode是一个中心服务器,负责管理整个文件系统的目录信息、文件信息及块信息,是所有HDFS元数据的支配者和管理者。
✓SecondaryNameNodeSecondaryNameNode是NameNode的一个备份,会周期性的备份NameNode镜像文件及日志信息。
✓DataNodeDataNode负责管理它所在节点上的存储,处理文件系统客户端的读写请求,用于存储Block块文件(BLOCK块是HDFS最小存储单位,一块默认是64MB)。
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。
MapReduce由Jobtracker和Tasktracker 组成。
✓JobtrackerJobtracker由作业控制器和资源管理器组成:在hadoop中每个应用程序被表示成一个作业,每个作业又被分成多个任务,JobTracker负责作业的分解和任务状态监控。
TasktrackerTaskTracker是运行在多个节点上的slaver服务。
TaskTracker主动与JobTracker通信,接收作业,并负责直接执行每一个任务。
2.Hive 简介Hive是建立在Hadoop 上的数据仓库基础构架,这是一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制。
Hive 定义了SQL 查询语言,称为HQL,它允许熟悉SQL 的用户查询数据。
Hadoop性能测试

Hadoop性能测试一.引言ApacheHadoop 是对Google 的GFS(Google File System)BigTable的一个开源实现,具有高扩展性、高效性、高容错性、低成本以及易于虚拟化等特性,是目前行业事实的应用标准。
大数据基准测试作用。
1)它能提升大数据领域的技术、理论和算法,并挖掘出大数据的潜在价值和知识。
2)它能帮助系统开发人员设计系统功能、调优系统性能、提升部署方法[5]。
3)它容许用户比较不同系统的性能,帮助选购产品。
二.大数据基准测试标准化现状和测试工具2014年,TPC发布了基准测试标准TPCx-HS和配套的测试工具,测试重点主要是性能验证、性价比、功耗和可用性。
三.性能测试内容HDFS读写,MapReduce执行情况和NoSQL数据库能力。
TestDFSIO基准测试:进行大文件读写,衡量指标为单个文件吞吐量和执行时间;Yarn基准测试:(1)使用Wordcount统计输入数据中每个单词的出现次数,输入数据使用Hadoop RandomWriter产生随机数据,衡量指标为执行时间,(2)使用Sort对大数据进行排序,输入数据使用Hadoop RandomTextWriter 生成,衡量标准为执行时间,(3)使用Terasort对大数据进行排序,输入数据由Hadoop TeraGen 产生,衡量标准是时间;Hive基准测试:对表进行简单查询操作、连接操作、插入操作、分组操作和map连接操作,衡量标准是执行时间。
d四.性能测试工具1. 自带工具TestDFSIO主要用于HDFS基准性能测试,Sort工具用于MapReduce负载测试,PerformanceEvaluation工具主要用于Hbase 性能测试,MRbench检验小型作业的快速响应能力,NNBench测试Namenode硬件加载过程,Gridmix 可以通过模拟Hadoop Cluster中的实际负载来评测Hadoop性能。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
hadoop集群安装要想深入的学习hadoop集群数据分析技术,首要的任务是必须要将hadoop集群环境搭建起来,可以将hadoop简化地想象成一个小软件,通过在各个物理节点上安装这个小软件,然后将其运行起来,就是一个hadoop分布式集群了。
说来简单,但是应该怎么做呢?不急,本文的主要目的就是让新手看了之后也能够亲自动手实施这些过程。
由于本人资金不充裕,只能通过虚拟机来实施模拟集群环境,虽然说是虚机模拟,但是在虚机上的hadoop的集群搭建过程也可以使用在实际的物理节点中,思想是一样的。
也如果你有充裕的资金,自己不介意烧钱买诸多电脑设备,这是最好不过的了。
也许有人想知道安装hadoop集群需要什么样的电脑配置,这里只针对虚拟机环境,下面介绍下我自己的情况:CPU:Intel酷睿双核2.2Ghz内存: 4G硬盘: 320G系统:xp老实说,我的本本配置显然不够好,原配只有2G内存,但是安装hadoop集群时实在是很让人崩溃,本人亲身体验过后实在无法容忍,所以后来再扩了2G,虽然说性能还是不够好,但是学习嘛,目前这种配置还勉强可以满足学习要求,如果你的硬件配置比这要高是最好不过的了,如果能达到8G,甚至16G内存,学习hadoop表示无任何压力。
说完电脑的硬件配置,下面说说本人安装hadoop的准备条件:1安装Vmware WorkStation软件有些人会问,为何要安装这个软件,这是一个VM公司提供的虚拟机工作平台,后面需要在这个平台上安装linux操作系统。
具体安装过程网上有很多资料,这里不作过多的说明。
2在虚拟机上安装linux操作系统在前一步的基础之上安装linux操作系统,因为hadoop一般是运行在linux平台之上的,虽然现在也有windows版本,但是在linux上实施比较稳定,也不易出错,如果在windows安装hadoop集群,估计在安装过程中面对的各种问题会让人更加崩溃,其实我还没在windows 上安装过,呵呵~在虚拟机上安装的linux操作系统为ubuntu10.04,这是我安装的系统版本,为什么我会使用这个版本呢,很简单,因为我用的熟^_^其实用哪个linux系统都是可以的,比如,你可以用centos, redhat, fedora等均可,完全没有问题。
在虚拟机上安装linux的过程也在此略过,如果不了解可以在网上搜搜,有许多这方面的资料。
3准备3个虚拟机节点其实这一步骤非常简单,如果你已经完成了第2步,此时你已经准备好了第一个虚拟节点,那第二个和第三个虚拟机节点如何准备?可能你已经想明白了,你可以按第2步的方法,再分别安装两遍linux系统,就分别实现了第二、三个虚拟机节点。
不过这个过程估计会让你很崩溃,其实还有一个更简单的方法,就是复制和粘贴,没错,就是在你刚安装好的第一个虚拟机节点,将整个系统目录进行复制,形成第二和第三个虚拟机节点。
简单吧!~~很多人也许会问,这三个结点有什么用,原理很简单,按照hadoop集群的基本要求,其中一个是master结点,主要是用于运行hadoop程序中的namenode、secondorynamenode和jobtracker任务。
用外两个结点均为slave结点,其中一个是用于冗余目的,如果没有冗余,就不能称之为hadoop了,所以模拟hadoop集群至少要有3个结点,如果电脑配置非常高,可以考虑增加一些其它的结点。
slave结点主要将运行hadoop程序中的datanode和tasktracker 任务。
所以,在准备好这3个结点之后,需要分别将linux系统的主机名重命名(因为前面是复制和粘帖操作产生另两上结点,此时这3个结点的主机名是一样的),重命名主机名的方法:Vim /etc/hostname通过修改hostname文件即可,这三个点结均要修改,以示区分。
以下是我对三个结点的ubuntu系统主机分别命名为:master, node1, node2基本条件准备好了,后面要干实事了,心急了吧,呵呵,别着急,只要跟着本人的思路,一步一个脚印地,一定能成功布署安装好hadoop集群的。
安装过程主要有以下几个步骤:一、配置hosts文件二、建立hadoop运行XX三、配置ssh免密码连入四、下载并解压hadoop安装包五、配置namenode,修改site文件六、配置hadoop-env.sh文件七、配置masters和slaves文件八、向各节点复制hadoop九、格式化namenode十、启动hadoop十一、用jps检验各后台进程是否成功启动十二、通过查看集群情况下面我们对以上过程,各个击破吧!~~一、配置hosts文件先简单说明下配置hosts文件的作用,它主要用于确定每个结点的IP地址,方便后续master结点能快速查到并访问各个结点。
在上述3个虚机结点上均需要配置此文件。
由于需要确定每个结点的IP地址,所以在配置hosts文件之前需要先查看当前虚机结点的IP地址是多少,可以通过ifconfig命令进行查看,如本实验中,master结点的IP地址为:如果IP地址不对,可以通过ifconfig命令更改结点的物理IP地址,示例如下:通过上面命令可以将IP改为192.168.1.100。
将每个结点的IP地址设置完成后,就可以配置hosts文件了,hosts文件路径为;/etc/hosts,我的hosts文件配置如下,大家可以参考自己的IP地址以及相应的主机名完成配置二、建立hadoop运行XX即为hadoop集群专门设置一个用户组及用户,这部分比较简单,参考示例如下:sudo groupadd hadoop//设置hadoop用户组sudo useradd –s /bin/bash –d /home/zhm –m zhm –g hadoop –G admin//添加一个zhm用户,此用户属于hadoop用户组,且具有admin权限。
sudo passwd zhm//设置用户zhm登录密码su zhm//切换到zhm用户中上述3个虚机结点均需要进行以上步骤来完成hadoop运行XX的建立。
三、配置ssh免密码连入这一环节最为重要,而且也最为关键,因为本人在这一步骤裁了不少跟头,走了不少弯路,如果这一步走成功了,后面环节进行的也会比较顺利。
SSH主要通过RSA算法来产生公钥与私钥,在数据传输过程中对数据进行加密来保障数据的安全性和可靠性,公钥部分是公共部分,网络上任一结点均可以访问,私钥主要用于对数据进行加密,以防他人盗取数据。
总而言之,这是一种非对称算法,想要破解还是非常有难度的。
Hadoop集群的各个结点之间需要进行数据的访问,被访问的结点对于访问用户结点的可靠性必须进行验证,hadoop采用的是ssh的方法通过密钥验证及数据加解密的方式进行远程安全登录操作,当然,如果hadoop对每个结点的访问均需要进行验证,其效率将会大大降低,所以才需要配置SSH免密码的方法直接远程连入被访问结点,这样将大大提高访问效率。
OK,废话就不说了,下面看看如何配置SSH免密码登录吧!~~(1)每个结点分别产生公私密钥。
键入命令:以上命令是产生公私密钥,产生目录在用户主目录下的.ssh目录中,如下:Id_dsa.pub为公钥,id_dsa为私钥,紧接着将公钥文件复制成authorized_keys文件,这个步骤是必须的,过程如下:用上述同样的方法在剩下的两个结点中如法炮制即可。
(2)单机回环ssh免密码登录测试即在单机结点上用ssh进行登录,看能否登录成功。
登录成功后注销退出,过程如下:注意标红圈的指示,有以上信息表示操作成功,单点回环SSH登录及注销成功,这将为后续跨子结点SSH远程免密码登录作好准备。
用上述同样的方法在剩下的两个结点中如法炮制即可。
(3)让主结点(master)能通过SSH免密码登录两个子结点(slave)为了实现这个功能,两个slave结点的公钥文件中必须要包含主结点的公钥信息,这样当master就可以顺利安全地访问这两个slave结点了。
操作过程如下:如上过程显示了node1结点通过scp命令远程登录master结点,并复制master的公钥文件到当前的目录下,这一过程需要密码验证。
接着,将master结点的公钥文件追加至authorized_keys文件中,通过这步操作,如果不出问题,master结点就可以通过ssh远程免密码连接node1结点了。
在master结点中操作如下:由上图可以看出,node1结点首次连接时需要,“YES”确认连接,这意味着master结点连接node1结点时需要人工询问,无法自动连接,输入yes后成功接入,紧接着注销退出至master 结点。
要实现ssh免密码连接至其它结点,还差一步,只需要再执行一遍ssh node1,如果没有要求你输入”yes”,就算成功了,过程如下:如上图所示,master已经可以通过ssh免密码登录至node1结点了。
对node2结点也可以用同样的方法进行,如下图:Node2结点复制master结点中的公钥文件Master通过ssh免密码登录至node2结点测试:第一次登录时:第二次登录时:表面上看,这两个结点的ssh免密码登录已经配置成功,但是我们还需要对主结点master 也要进行上面的同样工作,这一步有点让人困惑,但是这是有原因的,具体原因现在也说不太好,据说是真实物理结点时需要做这项工作,因为jobtracker有可能会分布在其它结点上,jobtracker有不存在master结点上的可能性。
对master自身进行ssh免密码登录测试工作:至此,SSH免密码登录已经配置成功。
四、下载并解压hadoop安装包关于安装包的下载就不多说了,不过可以提一下目前我使用的版本为hadoop-0.20.2,这个版本不是最新的,不过学习嘛,先入门,后面等熟练了再用其它版本也不急。
而且《hadoop 权威指南》这本书也是针对这个版本介绍的。
注:解压后hadoop软件目录在/home/zhm/hadoop下五、配置namenode,修改site文件在配置site文件之前需要作一些准备工作,下载java最新版的JDK软件,可以从oracle 官网上下载,我使用的jdk软件版本为:jdk1.7.0_09,我将java的JDK解压安装在/opt/jdk1.7.0_09目录中,接着配置JAVA_HOME宏变量及hadoop路径,这是为了方便后面操作,这部分配置过程主要通过修改/etc/profile文件来完成,在profile文件中添加如下几行代码:然后执行:让配置文件立刻生效。
上面配置过程每个结点都要进行一遍。
到目前为止,准备工作已经完成,下面开始修改hadoop的配置文件了,即各种site文件,文件存放在/hadoop/conf下,主要配置core-site.xml、hdfs-site.xml、mapred-site.xml这三个文件。