hadoop集群安装_鲁德性能测试

合集下载

Hadoop技术的性能测试与优化

Hadoop技术的性能测试与优化Hadoop是一个非常流行的分布式文件系统和分布式计算框架，它可以将一个大型的数据集分成许多小的文件块，并且将这些文件块分别存储在不同的计算机节点上，通过MapReduce算法在这些节点上进行数据处理，从而实现分布式计算。

随着数据的规模不断增大，Hadoop的性能测试和优化变得越来越重要，本文将介绍Hadoop的性能测试和优化方法。

一、Hadoop的性能测试性能测试是评估Hadoop系统工作效能的关键，它可以帮助用户了解Hadoop系统的各项指标，例如数据吞吐量、响应时间、并发用户数和资源占用情况等等。

以下是一些常见的性能测试工具：1. Hadoop Benchmark SuiteHadoop Benchmark Suite是Hadoop自己提供的一套性能测试工具，它可以测试HDFS（分布式文件系统）的读写速度、MapReduce（分布式计算框架）的性能，以及HBase（分布式数据库）的性能。

用户可以通过Hadoop Benchmark Suite测试不同场景下的Hadoop系统性能，例如多节点情况下的数据吞吐量、响应时间、任务失败率等等指标。

2. Yahoo! Cloud Serving BenchmarkYahoo! Cloud Serving Benchmark（YCSB）是一个流行的分布式数据存储和检索性能测试工具。

它可以测试不同的分布式存储系统，包括Hadoop的分布式数据库HBase。

用户可以通过YCSB 测试Hadoop系统在高并发和大数据量情况下的性能。

3. TeraByte SortTeraByte Sort是一种经典的分布式排序算法，它可以测试Hadoop系统在大规模数据排序时的性能。

用户可以通过TeraByte Sort测试Hadoop系统在不同节点数量和不同数据量下的排序速度和资源占用情况。

二、Hadoop的性能优化性能测试可以帮助用户了解Hadoop系统的工作效能，但只有通过对Hadoop系统的性能瓶颈进行优化，才能真正提升系统的工作效率。

Hoop集群测试报告

H o o p集群测试报告 Prepared on 24 November 2020测试报告一、集群设置1.服务器配置磁盘44T磁盘吞吐预计100M/s2.Had oop服务部署HADOOP-12-151 NameNode、Balancer、Hive Gateway、Spark Gateway、ResourceManager、Zk ServerHADOOP-12-152 DataNode、SNN、HFS、Hive Gateway、WebHCat、Hue、Impala Deamon、CMServer Monitor、CM Activity Monitor、CM Host Monitor、CM Event Server、CMAl ert Publisher、Oozie Server、Spark History Server、Spark Gateway、NodeManager、JobHistory Server、Zk ServerHADOOP-12-153 DataNode、Hive Gateway、HiveMetastore、HiveServer2、Impala Catal og、Impala StateStore、Impala Deamon、Spark Gateway、NodeManager、Zk Server HADOOP-12-154 DataNode、Hive Gateway、Impala Deamon、Spark Gateway、NodeManager、Sqoop2HADOOP-12-155 DataNode、Hive Gateway、Impala Deamon、Spark Gateway、NodeManager、Zk ServerHADOOP-12-156 DataNode、Hive Gateway、Impala Deamon、Spark Gateway、NodeManager、Zk Server3.had oop参数设置yarn-allocation-mb 32768-allocation-mb 4096-vcores 24-pmem-ratiomapreduce40968192307261441536100151555dfs3二、基准测试1.HDFS读写的吞吐性能连续10次执行如下写操作，其性能见图示：cd /opt/clouderahdfsadmin hadoopTestDFSIO -write -nrFiles 10 -fileSize 1000 -resFile /tmp/其具体数据见表格：HDFS写文件吞吐均值：／S平均执行时间：占用带宽：／S结论：HDFS写，其磁盘吞吐基本上处于理想状态，且在此吞吐水平上其网络带宽占用较少，没有造成明显的带宽负载。

hadoop性能测试学习_鲁德性能测试

hadoop性能测试学习一、背景由于以前没有细看Hadoop提供的测试工具，只是在关注hadoop本身的内容，所以很多的性能测试都忽略了。

最近花了一周的时间准备做个性能测试，但是都是采用自己的方法得出的抽象值。

今天看淘宝的博客，提到hadoop自带的测试工具，遂试了一把，记录一下，供以后参考。

二、使用我做基准测试主要是用了hadoop-0.20.2-test.jar这个工具jar包。

主要是做了I/O的测试。

在网上也找了一些资料，抄抄谢谢记录如下：DFSCIOTest测试libhdfs中的分布式I/O的基准。

Libhdfs是一个为C/C++应用程序提供HDFS文件服务的共享库。

DistributedFSCheck文件系统一致性的分布式检查。

TestDFSIO分布式的I/O基准。

目前我就做了这个测试。

输入参数：hadoop jar hadoop-0.20.2-test.jar TestDFSIO -write -nrFiles 10 -fileSize 1000，结果在同级目录下会有一个TestDFSIO_results.log，查看就可以了。

完事记得执行hadoop jar hadoop-0.20.2-test.jar TestDFSIO -cleanclustertestdfs对分布式文件系统的伪分布式测试。

dfsthroughput测量HDFS的吞吐量。

filebenchSequenceFileInputFormat和SequenceFileOutputFormat的基准，这包含BLOCK压缩，RECORD压缩和非压缩的情况。

TextInputFormat和TextOutputFormat的基准，包括压缩和非压缩的情况。

loadgen通用的MapReduce加载产生器。

mapredtestMapReduce作业的测试和检测。

mrbench创建大量小作业的MapReduce基准。

nnbenchNameNode的性能基准。

Hadoop集群安装详细步骤

Hadoop集群安装详细步骤|Hadoop安装配置文章分类:综合技术Hadoop集群安装首先我们统一一下定义，在这里所提到的Hadoop是指Hadoop Common，主要提供DFS（分布式文件存储）与Map/Reduce的核心功能。

Hadoop在windows下还未经过很好的测试，所以笔者推荐大家在linux（cent os 5.X）下安装使用。

准备安装Hadoop集群之前我们得先检验系统是否安装了如下的必备软件：ssh、rsync和Jdk1.6（因为Hadoop需要使用到Jdk中的编译工具，所以一般不直接使用Jre）。

可以使用yum install rsync来安装rsync。

一般来说ssh是默认安装到系统中的。

Jdk1.6的安装方法这里就不多介绍了。

确保以上准备工作完了之后我们就开始安装Hadoop软件，假设我们用三台机器做Hadoop集群，分别是：192.168.1.111、192.168.1.112和192.168.1.113（下文简称111，112和113），且都使用root用户。

下面是在linux平台下安装Hadoop的过程：在所有服务器的同一路径下都进行这几步，就完成了集群Hadoop软件的安装，是不是很简单？没错安装是很简单的，下面就是比较困难的工作了。

集群配置根据Hadoop文档的描述“The Hadoop daemons are N ameNode/DataNode and JobTracker/TaskTracker.”可以看出Hadoop核心守护程序就是由NameNode/DataNode 和JobTracker/TaskTracker这几个角色构成。

Hadoop的DFS需要确立NameNode与DataNode角色，一般NameNode会部署到一台单独的服务器上而不与DataNode共同同一机器。

另外Map/Reduce服务也需要确立JobTracker和TaskTracker的角色，一般JobTracker与NameNode共用一台机器作为master，而TaskTracker与DataNode同属于slave。

hadoop集群安装配置的主要操作步骤-概述说明以及解释

hadoop集群安装配置的主要操作步骤-概述说明以及解释1.引言1.1 概述Hadoop是一个开源的分布式计算框架，主要用于处理和存储大规模数据集。

它提供了高度可靠性、容错性和可扩展性的特性，因此被广泛应用于大数据处理领域。

本文旨在介绍Hadoop集群安装配置的主要操作步骤。

在开始具体的操作步骤之前，我们先对Hadoop集群的概念进行简要说明。

Hadoop集群由一组互联的计算机节点组成，其中包含了主节点和多个从节点。

主节点负责调度任务并管理整个集群的资源分配，而从节点则负责实际的数据存储和计算任务执行。

这种分布式的架构使得Hadoop可以高效地处理大规模数据，并实现数据的并行计算。

为了搭建一个Hadoop集群，我们需要进行一系列的安装和配置操作。

主要的操作步骤包括以下几个方面：1. 硬件准备：在开始之前，需要确保所有的计算机节点都满足Hadoop的硬件要求，并配置好网络连接。

2. 软件安装：首先，我们需要下载Hadoop的安装包，并解压到指定的目录。

然后，我们需要安装Java开发环境，因为Hadoop是基于Java 开发的。

3. 配置主节点：在主节点上，我们需要编辑Hadoop的配置文件，包括核心配置文件、HDFS配置文件和YARN配置文件等。

这些配置文件会影响到集群的整体运行方式和资源分配策略。

4. 配置从节点：与配置主节点类似，我们也需要在每个从节点上进行相应的配置。

从节点的配置主要包括核心配置和数据节点配置。

5. 启动集群：在所有节点的配置完成后，我们可以通过启动Hadoop 集群来进行测试和验证。

启动过程中，我们需要确保各个节点之间的通信正常，并且集群的各个组件都能够正常启动和工作。

通过完成以上这些操作步骤，我们就可以成功搭建一个Hadoop集群，并开始进行大数据的处理和分析工作了。

当然，在实际应用中，还会存在更多的细节和需要注意的地方，我们需要根据具体的场景和需求进行相应的调整和扩展。

Hadoop集群的搭建方法与步骤

Hadoop集群的搭建方法与步骤随着大数据时代的到来，Hadoop作为一种分布式计算框架，被广泛应用于数据处理和分析领域。

搭建一个高效稳定的Hadoop集群对于数据科学家和工程师来说至关重要。

本文将介绍Hadoop集群的搭建方法与步骤。

一、硬件准备在搭建Hadoop集群之前，首先要准备好适合的硬件设备。

Hadoop集群通常需要至少三台服务器，一台用于NameNode，两台用于DataNode。

每台服务器的配置应该具备足够的内存和存储空间，以及稳定的网络连接。

二、操作系统安装在选择操作系统时，通常推荐使用Linux发行版，如Ubuntu、CentOS等。

这些操作系统具有良好的稳定性和兼容性，并且有大量的Hadoop安装和配置文档可供参考。

安装操作系统后，确保所有服务器上的软件包都是最新的。

三、Java环境配置Hadoop是基于Java开发的，因此在搭建Hadoop集群之前，需要在所有服务器上配置Java环境。

下载最新版本的Java Development Kit（JDK），并按照官方文档的指引进行安装和配置。

确保JAVA_HOME环境变量已正确设置，并且可以在所有服务器上运行Java命令。

四、Hadoop安装与配置1. 下载Hadoop从Hadoop官方网站上下载最新的稳定版本，并将其解压到一个合适的目录下，例如/opt/hadoop。

2. 编辑配置文件进入Hadoop的安装目录，编辑conf目录下的hadoop-env.sh文件，设置JAVA_HOME环境变量为Java的安装路径。

然后，编辑core-site.xml文件，配置Hadoop的核心参数，如文件系统的默认URI和临时目录。

接下来，编辑hdfs-site.xml文件，配置Hadoop分布式文件系统（HDFS）的相关参数，如副本数量和数据块大小。

最后，编辑mapred-site.xml文件，配置MapReduce框架的相关参数，如任务调度器和本地任务运行模式。

hadoop集群搭建

Hadoop集群的安装与应用一、Hadoop、Hive、Sqoop 简介1.Hadoop介绍Hadoop是由Apache基金会开发的分布式基础架构，Hadoop框架的核心设计由HDFS 和MapReduce组成。

HDFS是Hadoop Distribute File System 的简称,也就是Hadoop的一个分布式文件系统。

HDFS集群是由一个NameNode、SecondaryNameNode和多个DataNode组成。

✓NameNodeNameNode是一个中心服务器，负责管理整个文件系统的目录信息、文件信息及块信息，是所有HDFS元数据的支配者和管理者。

✓SecondaryNameNodeSecondaryNameNode是NameNode的一个备份，会周期性的备份NameNode镜像文件及日志信息。

✓DataNodeDataNode负责管理它所在节点上的存储，处理文件系统客户端的读写请求，用于存储Block块文件(BLOCK块是HDFS最小存储单位，一块默认是64MB)。

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。

MapReduce由Jobtracker和Tasktracker 组成。

✓JobtrackerJobtracker由作业控制器和资源管理器组成：在hadoop中每个应用程序被表示成一个作业，每个作业又被分成多个任务，JobTracker负责作业的分解和任务状态监控。

TasktrackerTaskTracker是运行在多个节点上的slaver服务。

TaskTracker主动与JobTracker通信，接收作业，并负责直接执行每一个任务。

2.Hive 简介Hive是建立在Hadoop 上的数据仓库基础构架，这是一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制。

Hive 定义了SQL 查询语言，称为HQL，它允许熟悉SQL 的用户查询数据。

Hadoop性能测试

Hadoop性能测试一．引言ApacheHadoop 是对Google 的GFS(Google File System)BigTable的一个开源实现，具有高扩展性、高效性、高容错性、低成本以及易于虚拟化等特性，是目前行业事实的应用标准。

大数据基准测试作用。

1)它能提升大数据领域的技术、理论和算法，并挖掘出大数据的潜在价值和知识。

2)它能帮助系统开发人员设计系统功能、调优系统性能、提升部署方法[5]。

3)它容许用户比较不同系统的性能，帮助选购产品。

二．大数据基准测试标准化现状和测试工具2014年，TPC发布了基准测试标准TPCx-HS和配套的测试工具，测试重点主要是性能验证、性价比、功耗和可用性。

三．性能测试内容HDFS读写，MapReduce执行情况和NoSQL数据库能力。

TestDFSIO基准测试：进行大文件读写，衡量指标为单个文件吞吐量和执行时间；Yarn基准测试：（1）使用Wordcount统计输入数据中每个单词的出现次数，输入数据使用Hadoop RandomWriter产生随机数据，衡量指标为执行时间，（2）使用Sort对大数据进行排序，输入数据使用Hadoop RandomTextWriter 生成，衡量标准为执行时间，（3）使用Terasort对大数据进行排序，输入数据由Hadoop TeraGen 产生，衡量标准是时间；Hive基准测试：对表进行简单查询操作、连接操作、插入操作、分组操作和map连接操作，衡量标准是执行时间。

d四．性能测试工具1. 自带工具TestDFSIO主要用于HDFS基准性能测试，Sort工具用于MapReduce负载测试，PerformanceEvaluation工具主要用于Hbase 性能测试，MRbench检验小型作业的快速响应能力，NNBench测试Namenode硬件加载过程，Gridmix 可以通过模拟Hadoop Cluster中的实际负载来评测Hadoop性能。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

hadoop集群安装要想深入的学习hadoop集群数据分析技术，首要的任务是必须要将hadoop集群环境搭建起来，可以将hadoop简化地想象成一个小软件，通过在各个物理节点上安装这个小软件，然后将其运行起来，就是一个hadoop分布式集群了。

说来简单，但是应该怎么做呢？不急，本文的主要目的就是让新手看了之后也能够亲自动手实施这些过程。

由于本人资金不充裕，只能通过虚拟机来实施模拟集群环境，虽然说是虚机模拟，但是在虚机上的hadoop的集群搭建过程也可以使用在实际的物理节点中，思想是一样的。

也如果你有充裕的资金，自己不介意烧钱买诸多电脑设备，这是最好不过的了。

也许有人想知道安装hadoop集群需要什么样的电脑配置，这里只针对虚拟机环境，下面介绍下我自己的情况：CPU：Intel酷睿双核2.2Ghz内存: 4G硬盘: 320G系统：xp老实说，我的本本配置显然不够好，原配只有2G内存，但是安装hadoop集群时实在是很让人崩溃，本人亲身体验过后实在无法容忍，所以后来再扩了2G，虽然说性能还是不够好，但是学习嘛，目前这种配置还勉强可以满足学习要求，如果你的硬件配置比这要高是最好不过的了，如果能达到8G，甚至16G内存，学习hadoop表示无任何压力。

说完电脑的硬件配置，下面说说本人安装hadoop的准备条件：1安装Vmware WorkStation软件有些人会问，为何要安装这个软件，这是一个VM公司提供的虚拟机工作平台，后面需要在这个平台上安装linux操作系统。

具体安装过程网上有很多资料，这里不作过多的说明。

2在虚拟机上安装linux操作系统在前一步的基础之上安装linux操作系统，因为hadoop一般是运行在linux平台之上的，虽然现在也有windows版本，但是在linux上实施比较稳定，也不易出错，如果在windows安装hadoop集群，估计在安装过程中面对的各种问题会让人更加崩溃，其实我还没在windows 上安装过，呵呵~在虚拟机上安装的linux操作系统为ubuntu10.04，这是我安装的系统版本，为什么我会使用这个版本呢，很简单，因为我用的熟^_^其实用哪个linux系统都是可以的，比如，你可以用centos, redhat, fedora等均可，完全没有问题。

在虚拟机上安装linux的过程也在此略过，如果不了解可以在网上搜搜，有许多这方面的资料。

3准备3个虚拟机节点其实这一步骤非常简单，如果你已经完成了第2步，此时你已经准备好了第一个虚拟节点，那第二个和第三个虚拟机节点如何准备？可能你已经想明白了，你可以按第2步的方法，再分别安装两遍linux系统，就分别实现了第二、三个虚拟机节点。

不过这个过程估计会让你很崩溃，其实还有一个更简单的方法，就是复制和粘贴，没错，就是在你刚安装好的第一个虚拟机节点，将整个系统目录进行复制，形成第二和第三个虚拟机节点。

简单吧！~~很多人也许会问，这三个结点有什么用，原理很简单，按照hadoop集群的基本要求，其中一个是master结点，主要是用于运行hadoop程序中的namenode、secondorynamenode和jobtracker任务。

用外两个结点均为slave结点，其中一个是用于冗余目的，如果没有冗余，就不能称之为hadoop了，所以模拟hadoop集群至少要有3个结点，如果电脑配置非常高，可以考虑增加一些其它的结点。

slave结点主要将运行hadoop程序中的datanode和tasktracker 任务。

所以，在准备好这3个结点之后，需要分别将linux系统的主机名重命名（因为前面是复制和粘帖操作产生另两上结点，此时这3个结点的主机名是一样的），重命名主机名的方法：Vim /etc/hostname通过修改hostname文件即可，这三个点结均要修改，以示区分。

以下是我对三个结点的ubuntu系统主机分别命名为：master, node1, node2基本条件准备好了，后面要干实事了，心急了吧，呵呵，别着急，只要跟着本人的思路，一步一个脚印地，一定能成功布署安装好hadoop集群的。

安装过程主要有以下几个步骤：一、配置hosts文件二、建立hadoop运行XX三、配置ssh免密码连入四、下载并解压hadoop安装包五、配置namenode,修改site文件六、配置hadoop-env.sh文件七、配置masters和slaves文件八、向各节点复制hadoop九、格式化namenode十、启动hadoop十一、用jps检验各后台进程是否成功启动十二、通过查看集群情况下面我们对以上过程，各个击破吧！~~一、配置hosts文件先简单说明下配置hosts文件的作用，它主要用于确定每个结点的IP地址，方便后续master结点能快速查到并访问各个结点。

在上述3个虚机结点上均需要配置此文件。

由于需要确定每个结点的IP地址，所以在配置hosts文件之前需要先查看当前虚机结点的IP地址是多少，可以通过ifconfig命令进行查看，如本实验中，master结点的IP地址为：如果IP地址不对，可以通过ifconfig命令更改结点的物理IP地址，示例如下：通过上面命令可以将IP改为192.168.1.100。

将每个结点的IP地址设置完成后，就可以配置hosts文件了，hosts文件路径为;/etc/hosts，我的hosts文件配置如下，大家可以参考自己的IP地址以及相应的主机名完成配置二、建立hadoop运行XX即为hadoop集群专门设置一个用户组及用户，这部分比较简单，参考示例如下：sudo groupadd hadoop//设置hadoop用户组sudo useradd –s /bin/bash –d /home/zhm –m zhm –g hadoop –G admin//添加一个zhm用户，此用户属于hadoop用户组，且具有admin权限。

sudo passwd zhm//设置用户zhm登录密码su zhm//切换到zhm用户中上述3个虚机结点均需要进行以上步骤来完成hadoop运行XX的建立。

三、配置ssh免密码连入这一环节最为重要，而且也最为关键，因为本人在这一步骤裁了不少跟头，走了不少弯路，如果这一步走成功了，后面环节进行的也会比较顺利。

SSH主要通过RSA算法来产生公钥与私钥，在数据传输过程中对数据进行加密来保障数据的安全性和可靠性，公钥部分是公共部分，网络上任一结点均可以访问，私钥主要用于对数据进行加密，以防他人盗取数据。

总而言之，这是一种非对称算法，想要破解还是非常有难度的。

Hadoop集群的各个结点之间需要进行数据的访问，被访问的结点对于访问用户结点的可靠性必须进行验证，hadoop采用的是ssh的方法通过密钥验证及数据加解密的方式进行远程安全登录操作，当然，如果hadoop对每个结点的访问均需要进行验证，其效率将会大大降低，所以才需要配置SSH免密码的方法直接远程连入被访问结点，这样将大大提高访问效率。

OK，废话就不说了，下面看看如何配置SSH免密码登录吧！~~(1)每个结点分别产生公私密钥。

键入命令：以上命令是产生公私密钥，产生目录在用户主目录下的.ssh目录中，如下：Id_dsa.pub为公钥，id_dsa为私钥，紧接着将公钥文件复制成authorized_keys文件，这个步骤是必须的，过程如下：用上述同样的方法在剩下的两个结点中如法炮制即可。

(2)单机回环ssh免密码登录测试即在单机结点上用ssh进行登录，看能否登录成功。

登录成功后注销退出，过程如下：注意标红圈的指示，有以上信息表示操作成功，单点回环SSH登录及注销成功，这将为后续跨子结点SSH远程免密码登录作好准备。

用上述同样的方法在剩下的两个结点中如法炮制即可。

(3)让主结点(master)能通过SSH免密码登录两个子结点（slave）为了实现这个功能，两个slave结点的公钥文件中必须要包含主结点的公钥信息，这样当master就可以顺利安全地访问这两个slave结点了。

操作过程如下：如上过程显示了node1结点通过scp命令远程登录master结点，并复制master的公钥文件到当前的目录下，这一过程需要密码验证。

接着，将master结点的公钥文件追加至authorized_keys文件中，通过这步操作，如果不出问题，master结点就可以通过ssh远程免密码连接node1结点了。

在master结点中操作如下：由上图可以看出，node1结点首次连接时需要，“YES”确认连接，这意味着master结点连接node1结点时需要人工询问，无法自动连接，输入yes后成功接入，紧接着注销退出至master 结点。

要实现ssh免密码连接至其它结点，还差一步，只需要再执行一遍ssh node1，如果没有要求你输入”yes”，就算成功了，过程如下：如上图所示，master已经可以通过ssh免密码登录至node1结点了。

对node2结点也可以用同样的方法进行，如下图：Node2结点复制master结点中的公钥文件Master通过ssh免密码登录至node2结点测试：第一次登录时：第二次登录时：表面上看，这两个结点的ssh免密码登录已经配置成功，但是我们还需要对主结点master 也要进行上面的同样工作，这一步有点让人困惑，但是这是有原因的，具体原因现在也说不太好，据说是真实物理结点时需要做这项工作，因为jobtracker有可能会分布在其它结点上，jobtracker有不存在master结点上的可能性。

对master自身进行ssh免密码登录测试工作：至此，SSH免密码登录已经配置成功。

四、下载并解压hadoop安装包关于安装包的下载就不多说了，不过可以提一下目前我使用的版本为hadoop-0.20.2，这个版本不是最新的，不过学习嘛，先入门，后面等熟练了再用其它版本也不急。

而且《hadoop 权威指南》这本书也是针对这个版本介绍的。

注：解压后hadoop软件目录在/home/zhm/hadoop下五、配置namenode,修改site文件在配置site文件之前需要作一些准备工作，下载java最新版的JDK软件，可以从oracle 官网上下载，我使用的jdk软件版本为：jdk1.7.0_09，我将java的JDK解压安装在/opt/jdk1.7.0_09目录中，接着配置JAVA_HOME宏变量及hadoop路径，这是为了方便后面操作，这部分配置过程主要通过修改/etc/profile文件来完成，在profile文件中添加如下几行代码：然后执行：让配置文件立刻生效。

上面配置过程每个结点都要进行一遍。

到目前为止，准备工作已经完成，下面开始修改hadoop的配置文件了，即各种site文件，文件存放在/hadoop/conf下，主要配置core-site.xml、hdfs-site.xml、mapred-site.xml这三个文件。