hadoop-lzo安装文档

合集下载

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu_CentOS

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS本教程讲述如何配置Hadoop 集群，默认读者已经掌握了Hadoop 的单机伪分布式配置，否则请先查看Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置。

本教程由厦门大学数据库实验室出品，转载请注明。

本教程适合于原生Hadoop 2，包括Hadoop 2.6.0, Hadoop 2.7.1 等版本，主要参考了官方安装教程，步骤详细，辅以适当说明，保证按照步骤来，都能顺利安装并运行Hadoop。

另外有Hadoop安装配置简略版方便有基础的读者快速完成安装。

为了方便新手入门，我们准备了两篇不同系统的Hadoop 伪分布式配置教程。

但其他Hadoop 教程我们将不再区分，可同时适用于Ubuntu 和CentOS/RedHat 系统。

例如本教程以Ubuntu 系统为主要演示环境，但对Ubuntu/CentOS 的不同配置之处、CentOS 6.x 与CentOS 7 的操作区别等都会尽量给出注明。

环境本教程使用Ubuntu 14.04 64位作为系统环境，基于原生Hadoop 2，在Hadoop 2.6.0 (stable)版本下验证通过，可适合任何Hadoop 2.x.y 版本，例如Hadoop 2.7.1，Hadoop 2.4.1 等。

本教程简单的使用两个节点作为集群环境: 一个作为Master 节点，局域网IP 为192.168.1.121；另一个作为Slave 节点，局域网IP 为192.168.1.122。

准备工作Hadoop 集群的安装配置大致为如下流程:1.选定一台机器作为Master2.在Master 节点上配置hadoop 用户、安装SSH server、安装Java 环境3.在Master 节点上安装Hadoop，并完成配置4.在其他Slave 节点上配置hadoop 用户、安装SSH server、安装Java 环境5.将Master 节点上的/usr/local/hadoop 目录复制到其他Slave 节点上6.在Master 节点上开启Hadoop配置hadoop 用户、安装SSH server、安装Java 环境、安装Hadoop 等过程已经在Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置中有详细介绍，请前往查看，不再重复叙述。

Hadoop的安装与部署（分布式+非高可用）

Hadoop的安装与部署（分布式+⾮⾼可⽤）* 全⽂的命令都是在登录root账号的情况下执⾏。

⼀、硬件环境假设有3台机，IP及主机名如下：192.168.100.105 c1192.168.100.110 c2192.168.100.115 c3⼆、软件环境操作系统：Ubuntu Server 18.04JDK：1.8.0Hadoop：3.3.0/3.3.1* 这⾥的ZooKeeper、Hadoop根⽬录都放在/home/⽬录下三、系统运⾏环境配置四、部署Hadoop* 以下操作在每台机都要执⾏⼀次1.下载Hadoop安装包2.解压安装包这⾥假定下载的是hadoop-3.3.1.tar.gz⽂件，解压到/usr/bin/⽬录tar -xvf hadoop-3.3.1.tar.gz -C /usr/local/把⽬录名也改⼀下mv /usr/local/hadoop-3.3.1 /usr/local/hadoop3.创建⽬录cd /usr/local/hadoopsudo mkdir hdfssudo mkdir hdfs/datanodesudo mkdir hdfs/namenodesudo mkdir hadoop/logssudo mkdir yarnsudo mkdir yarn/logs4.配置环境变量vim ~/.bashrc添加内容export HADOOP_HOME=/usr/local/hadoopexport PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbinexport HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoopexport HADOOP_COMMON_HOME=$HADOOP_HOMEexport HADOOP_MAPRED_HOME=$HADOOP_HOMEexport HADOOP_HDFS_HOME=$HADOOP_HOMEexport YARN_HOME=$HADOOP_HOMEexport HDFS_NAMENODE_USER=rootexport HDFS_DATANODE_USER=rootexport HDFS_SECONDARYNAMENODE_USER=root更新环境变量source ~/.bashrc测试hadoop version5.修改Hadoop的配置(1) 进⼊Hadoop的配置⽂件⽬录cd $HADOOP_CONF_DIR或cd /usr/local/hadoop/etc/hadoop/(2) 编辑hadoop-env.sh⽂件vim hadoop-env.sh查看以下内容，如果没有就加上，如果已有就不⽤改。

Hadoop的安装.pptx

Host-Only 在Host-Only模式下，虚拟网络是一个全封闭的网络，它唯一能够访问的就是主机。其实Host-Only网络和NAT网络很相似，不同的地方就是Host-Only网络没有NAT服务，所以虚拟网络不能连接到Internet。主机和虚拟机之间的通信是通过VMware Network Adepter VMnet1虚拟网卡来实现的。
5.Hadoop的安装
成都信息工程大学并行计算实验室
安装前的准备软件
▪ VMware Workstation ▪ Cent OS 6.5 ▪ jdk-xxxx-linux-xxx.gz ▪ hadoop-2.7.2.tar.gz
常用linux命令
Hadoop的部署方式
▪ 单机模式 ▪ 伪分布模式 ▪ 集群模式（完全分布式）
伪分布式安装
三、格式化namenode
hadoop命令：hadoop namenode –format 为namenode 分配PID，hadoop启动时namenode的PID会与datanode绑定
四、启动Hadoop
start-dfs.sh
▪ 使用jps命令查看java进程
▪ 通过Web页面查看HDFS
单机安装
▪ 安装JDK、配置环境变量
▪ ~/.bashrc ▪ /etc/profile
▪ 解压hadoop包、配置hadoop环境变量
伪分布式安装
一、设置SSH免密码登录 SSH(Secure Shell)，由 IETF 的网络工作小组（Network Working Group）
所制定；SSH 为建立在应用层和传输层基础上的安全协议。SSH 是目前较可靠，专为远程登录会话和其他网络服务提供安全性的协议。

Hadoop、HBase、Zk、Hive安装手册

环境变量 export HADOOPROOT=/opt/sxt export HADOOP_HOME=$HADOOPROOT/hadoop export ZOOKEEPER_HOME=$HADOOPROOT/zookeeper export HBASE_HOME=$HADOOPROOT/hbase export HIVE_HOME=$HADOOPROOT/hive12 export HCAT_HOME=$HIVE_HOME/hcatalog export KYLIN_HOME=$HADOOPROOT/kylin export CATALINA_HOME=$KYLIN_HOME/tomcat export hive_dependency=$HIVE_HOME/conf:$HIVE_HOME/lib/*:$HCAT_HOME/share/hcatalog/hive-hcatalog-core-1.2.1.jar PATH=$PATH:$HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$ZOOKEEPER_HOME/bin PATH=$PATH:$HBASE_HOME/bin:$FLUME_HOME/bin:$HIVE_HOME/bin:$HCAT_HOME/bin PATH=$PATH:$CATALINA_HOME/bin:$KYLIN_HOME/bin export PATH
2、core-site.xml <?xml version="1.0" encoding="UTF-8"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with the License. You may obtain a copy of the License at

Hadoop的安装与配置

Hadoop的安装与配置建立一个三台电脑的群组，操作系统均为Ubuntu，三个主机名分别为wjs1、wjs2、wjs3。

1、环境准备：所需要的软件及我使用的版本分别为：Hadoop版本为0.19.2，JDK版本为jdk-6u13-linux-i586.bin。

由于Hadoop要求所有机器上hadoop的部署目录结构要相同，并且都有一个相同的用户名的帐户。

所以在三台主机上都设置一个用户名为“wjs”的账户，主目录为/home/wjs。

a、配置三台机器的网络文件分别在三台机器上执行：sudo gedit /etc/network/interfaceswjs1机器上执行：在文件尾添加：auto eth0iface eth0 inet staticaddress 192.168.137.2gateway 192.168.137.1netmask 255.255.255.0wjs2和wjs3机器上分别执行：在文件尾添加：auto eth1iface eth1 inet staticaddress 192.168.137.3（wjs3上是address 192.168.137.4）gateway 192.168.137.1netmask 255.255.255.0b、重启网络：sudo /etc/init.d/networking restart查看ip是否配置成功：ifconfig{注：为了便于“wjs”用户能够修改系统设置访问系统文件，最好把“wjs”用户设为sudoers（有root权限的用户），具体做法：用已有的sudoer登录系统，执行sudo visudo -f /etc/sudoers,并在此文件中添加以下一行：wjsALL=(ALL)ALL,保存并退出。

}c、修改三台机器的/etc/hosts,让彼此的主机名称和ip都能顺利解析，在/etc/hosts中添加：192.168.137.2 wjs1192.168.137.3 wjs2192.168.137.4 wjs3d、由于Hadoop需要通过ssh服务在各个节点之间登陆并运行服务，因此必须确保安装Hadoop的各个节点之间网络的畅通，网络畅通的标准是每台机器的主机名和IP地址能够被所有机器正确解析（包括它自己）。

Hadoop的安装及配置

Hadoop的安装及配置Hadoop的安装及配置单节点环境搭配（一）安装JDK。

版本1.7以上。

1、java -version查看是否已经安装2、sudo apt-get update3、sudo apt-get install default-jdk4、java -version 确认安装情况5、which java显示安装路径附：java安装方法：1、源码包准备；2、解压源码包通过终端在/usr/local目录下新建java文件夹，命令行：sudomkdir /usr/local/java然后将下载到压缩包拷贝到java文件夹中，命令行：进入jdk源码包所在目录cp jdk-U161-linux-x64.tar.gz /usr/local/java然后进入java目录，命令行：cd /usr/local/java解压压缩包，命令行：sudo tar xvf jdk-u161-linux-x64.tar.gz然后可以把压缩包删除，命令行：sudo rm jdk-u161-linux-x64.tar.gz3、设置jdk环境变量这里采用全局设置方法，它是是所有用户的共用的环境变量sudogedit ~/.bashrc打开之后在末尾添加//注意每行前后不要有多余的空格export JAVA_HOME=/usr/local/java/jdk1.8.0_161 export JRE_HOME=${JAVA_HOME}/jreexport CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib export PATH=${JAVA_HOME}/bin:$PATH4、java -version看看是否安装成功（二）设置SSH无密码登录1、sudo apt-get install ssh2、sudo apt-get install rsync3、ssh-keygen -t rsa4、ll ~/.ssh 查看生成的密钥（三）hadoop下载安装1、在apache官方网站下载hadoop2、解压tar -zxvf hadoop-2.6.5.tar.gz3、sudo mv hadoop-2.6.5 /usr/local/hadoop4、ll /usr/local/hadoop 查看安装情况（四）hadoop环境变量的设置1、sudogedit ~/.bashrc2、添加下列设置设置HADOOP_HOME为Hadoop的安装路径export HADOOP_HOME=/usr/local/hadoop设置PATHexport PATH=$PATH:$HADOOP_HOME/binexport PATH=$PATH:$HADOOP_HOME/sbin3、Hadoop其他环境变量设置export HADOOP_MAPRED_HOME=$HADOOP_HOMEexport HADOOP_COMMON_HOME=$HADOOP_HOMEexport HADOOP_HDFS_HOME=$HADOOP_HOMEexport YARN_HOME=$HADOOP_HOMEexportHADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/na tiveexport HADOOP_OPTS="-DJava.library.path=$HADOOP_HOME/lib"exportJAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native:$JAVA_LIBRA RY_PATH4、source ~/.bashrc(五)修改Hadoop配置文件1、设置hadoop-env.sh配置文件sudogedit /usr/local/hadoop/etc/hadoop/hadoop-env.sh修改export JAVA_HOME=/usr/local/java/jdk1.8.0_1612、修改core-site.xmlsudo vim /usr/local/hadoop/etc/hadoop/core-site.xml/doc/eb13635280.html,hdfs://localhost:9000。

Hadoop安装手册_Hadoop2.0-v1.6

Hadoop2.0安装手册目录第1章安装VMWare Workstation 10 (4)第2章VMware 10安装CentOS 6 (10)2.1 CentOS系统安装 (10)2.2 安装中的关键问题 (13)2.3 克隆HadoopSlave (17)2.4 windows中安装SSH Secure Shell Client传输软件 (19)第3章CentOS 6安装Hadoop (23)3.1 启动两台虚拟客户机 (23)3.2 Linux系统配置 (24)3.2.1软件包和数据包说明 (25)3.2.2配置时钟同步 (25)3.2.3配置主机名 (26)3.2.5使用setup 命令配置网络环境 (27)3.2.6关闭防火墙 (29)3.2.7配置hosts列表 (30)3.2.8安装JDK (31)3.2.9免密钥登录配置 (32)3.3 Hadoop配置部署 (34)3.3.1 Hadoop安装包解压 (34)3.3.2配置环境变量hadoop-env.sh (34)3.3.3配置环境变量yarn-env.sh (35)3.3.4配置核心组件core-site.xml (35)3.3.5配置文件系统hdfs-site.xml (35)3.3.6配置文件系统yarn-site.xml (36)3.3.7配置计算框架mapred-site.xml (37)3.3.8 在master节点配置slaves文件 (37)3.3.9 复制到从节点 (37)3.4 启动Hadoop集群 (37)3.4.1 配置Hadoop启动的系统环境变量 (38)3.4.2 创建数据目录 (38)3.4.3启动Hadoop集群 (38)第4章安装部署Hive (44)4.1 解压并安装Hive (44)4.2 安装配置MySQL (45)4.3 配置Hive (45)4.4 启动并验证Hive安装 (46)第5章安装部署HBase (49)5.1 解压并安装HBase (49)5.2 配置HBase (50)5.2.1 修改环境变量hbase-env.sh (50)5.2.2 修改配置文件hbase-site.xml (50)5.2.3 设置regionservers (51)第1章安装VMWare Workstation 105.2.4 设置环境变量 (51)5.2.5 将HBase安装文件复制到HadoopSlave节点 (51)5.3 启动并验证HBase (51)第6章安装部署Mahout (54)6.1 解压并安装Mahout (54)6.2 启动并验证Mahout (55)第7章安装部署Sqoop (57)7.1 解压并安装Sqoop (57)7.2 配置Sqoop (58)7.2.1 配置MySQL连接器 (58)7.2.2配置环境变量 (58)7.3 启动并验证Sqoop (59)第8章安装部署Spark (61)8.1 解压并安装Spark (61)8.2 配置Hadoop环境变量 (62)8.3 验证Spark安装 (62)第9章安装部署Storm (66)安装Storm依赖包 (66)9.1安装ZooKeeper集群 (66)9.1.1解压安装 (66)9.1.2配置ZooKeeper属性文件 (67)9.1.3 将Zookeeper安装文件复制到HadoopSlave节点 (68)9.1.3启动ZooKeeper集群 (68)9.2安装Storm (69)9.2.1 解压安装 (69)9.2.2修改storm.yaml配置文件 (70)9.2.3 将Storm安装文件复制到HadoopSlave节点 (70)9.2.4启动Storm集群 (70)9.2.5向Storm集群提交任务 (71)第10章安装部署Kafka (73)10.1. 安装Kafka (73)10.1.1下载Kafka安装文件 (73)10.2. 配置Kafka (73)10.3. 启动Kafka (74)第1章安装VMWare Workstation 10第1章安装VMWare 10主要内容安装VMWare Workstation 10第1章安装VMWare Workstation 10 在软件包中找到“software\vmware”目录并进入该目录，如下所示：点击“VMware-workstation-full-10.0.0-1295980.exe”安装2等待安装软件检测和解压以后，出现如下界面，直接单击下一步即可。

Hadoop完全分布式安装教程

Hadoop完全分布式安装教程⼀、软件版本Hadoop版本号：hadoop-2.6.0.tar；VMWare版本号：VMware-workstation-full-11.0.0-2305329Ubuntu版本号：ubuntu-14.04.1-desktop-i386 其他版本也可Jdk版本号：jdk-6u45-linux-i586.bin后三项对版本要求不严格，如果使⽤Hbase1.0.0版本，需要JDK1.8以上版本。

⼆、安装教程1、VMWare安装教程VMWare虚拟机是个软件，安装后可⽤来创建虚拟机，在虚拟机上再安装系统，在这个虚拟系统上再安装应⽤软件，所有应⽤就像操作⼀台真正的电脑，请直接到VMWare官⽅⽹站下载相关软件以上链接如果因为官⽅⽹站变动发⽣变化，可以直接在搜索引擎中搜索VMWare来查找其下载地址，建议不要在⾮官⽅⽹站下载。

安装试⽤版后有30天的试⽤期。

2、Ubuntu安装教程打开VMWare点击创建新的虚拟机选择典型点击浏览选择ubuntu暂时只建两个虚拟机，注意分别给两个虚拟机起名为Ubuntu1和Ubuntu2；也可以按照⾃⼰的习惯取名，但是后续的许多配置⽂件要相应更改，会带来⼀些⿇烦。

密码也请记牢，后⾯会经常使⽤。

3、安装VMWare-ToolsUbuntu中会显⽰有光盘插⼊了光驱双击打开光盘将光盘中VMwareTools-9.6.1-1378637.tar.gz复制到桌⾯，复制⽅法类似windows系统操作。

点击Extract Here从菜单打开Ubuntu的控制终端cd Desktop/vmware-tools-distrib/sudo ./vmware-install.pl输⼊root密码，⼀路回车，重启系统注意： ubuntu安装后， root ⽤户默认是被锁定了的，不允许登录，也不允许“ su” 到 root 。

允许 su 到 root⾮常简单，下⾯是设置的⽅法：注意：ubuntu安装后要更新软件源：cd /etc/aptsudo apt-get update安装各种软件⽐较⽅便4、⽤户创建创建hadoop⽤户组： sudo addgroup hadoop创建hduser⽤户：sudo adduser -ingroup hadoop hduser注意这⾥为hduser⽤户设置同主⽤户相同的密码为hadoop⽤户添加权限：sudo gedit /etc/sudoers，在root ALL=(ALL) ALL下添加hduser ALL=(ALL) ALL。

Hadoop安装与配置

配置单节点伪集群1.安装JDK(进入terminal后，输入如下命令，系统可自动安装JDK，记得转换成root权限：sudo passwd root 然后输入原密码，再输入新密码两遍即可)Enter the following command:# java -versionIf you see something like this:java version "1.6.0_20"Then you have JDK installed, otherwise enter the following command to install it:1.在usr下面新建一个文件夹Java,然后将jdk复制过来（也可直接mv过来）#mkdir /usr/java#cp /home/wyj/jdk-6u37-linux-i86.bin /usr/java(随后又发现jdk1.6.0_37于是#cp /home/wyj/jdk1.6.0_37 /usr/java但是返回cp:omitting directory于是执行：#cp –r /home/wyj/jdk1.6.0_37 /usr/java成功)2、进入到Java目录下，改变文件权限为可执行#cd /usr/Java# chmod u+x jdk-6u37-linux-i586.bin3、执行安装# ./ jdk-6u37-linux-i586.bin(现象为Unpacking....加一连串解压信息）2.安装Hadoop（需要将Hadoop压缩包从window系统拷入linux系统中，安装一个vmware player 工具：cd 至执行文件目录然后./filename。

Hadoop压缩包无法放到根目录下的。

可自行放入）1、将hadoop-1.0.3.tar.gz复制到usr下面的local文件夹内（也可mv）# cp (hadoop的路径)/home/wyj/hadoop-1.0.3.tar.gz /usr/local2、进入到local目录下，解压hadoop0.21.0.tar.gz#cd /usr/local# tar -xzf hadoop-1.0.3.tar.gz3、为了方便管理，将解压后的文件夹名改为hadoop# mv hadoop-1.0.3 hadoop3、创建一个名为hadoop的用户和用户组1、创建一个名为hadoop的用户组# addgroup hadoop2、创建一个名为hadoop的用户，归到hadoop用户组下# adduser --ingroup hadoop hadoop(注1：前一个hadoop为用户组名，后面的是用户名，之所以名字一样是为了方便统一管理注2：执行后会有一些信息需要填写，可以不填，都敲回车，用系统默认的即可，大概5个吧)3、用gedit打开etc下的sudoers文件#sudo gedit /etc/sudoers4、在 root ALL=(ALL:ALL) ALL 下面添加如下一行，然后保存关闭gedithadoop ALL=(ALL:ALL) ALL（注1：网上有文档上是说先切换到root用户，然后修改sudoers的权限，再打开添加hadoop ALL=(ALL) ALL ，然后再将权限改回为只读，这样就要特别注意一定要将权限改回为只读，不然“sudo”命令就无法使用了，很悲剧的说注2：添加 hadoop ALL=(ALL) ALL 的意义在于能让hadoop用户使用“sudo”命令）配置阶段：1、配置环境变量1、用gedit打开etc下的profile文件sudo gedit /etc/profile2、在文件最后加入如下几行exportCLASSPATH=.:/usr/Java/jdk1.6.0_37/lib:/usr/Java/jdk1.6.0_37/jre/lib:$ CLASSPATHexportPATH=.:/usr/Java/jdk1.6.0_37/bin:/usr/Java/jdk1.6.0_37/jre/bin:/usr/l ocal/hadoop/bin:$PATH(注1：以上所有jre项都不是必需的，可以不要注2：在win中环境变量的值是以“;”号隔开的，而这里是“:”注3：等号后面有个“.”别丢了，它表示当前目录）3、保存后关闭gedit，并重启机器sudo reboot（注：网上也有说用source命令使环境变量立即生效的，但是本人在实际操作时出了几次问题，所以建议重启机器最保险)4、重启后用hadoop用户登录，验证配置是否成功java -version (此语句执行后如显示了jdk版本的话说明配置成功，如果没有则需检查profile中路径是否正确）返回”1.6.0_37”（注：最好是用hadoop用户登录，因为以下步骤都是以此为前提的）2、创建ssh-key1、确保网络通畅，然后装载ssh服务# apt-get install openssh-server（注：如果此语句执行失败且结果为“....包被占用”的话，那么应该是ubuntu 的“更新管理器”正在后台更新，你可以选择等待或者关闭更新，更新管理器在“系统”菜单中，具体位置忘了.....）2、创建ssh-key，为rsa （网上文档中也有dsa的）#ssh-keygen -t rsa --P（注1：此语句网上文档为 ssh-keygen -t rsa -P "" ，效果一样注2：此语句执行后会要你填写key的保存位置，直接照着系统给出的那个默认位置填，也就是括号里的那个路径，如果全都照此文档操作的话那么括号中路径应该为"/home/hadoop/.ssh/id_rsa"）而我配置的出现：/root/.ssh/id_rsa3、将此ssh-key添加到信任列表中，并启用此ssh-key# cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys # exitConfiguration done. Try:# ssh localhost3、配置hadoop1、进入到hadoop目录下，配置conf目录下的hadoop-env.sh中的JAVA_HOME#cd /usr/local/hadoop#sudo gedit conf/hadoop-env.sh（打开后在文档的上部某行有“#export JAVA_HOME=...”字样的地方，去掉“#”，然后在等号后面填写你的jdk路径，完全按此文档来的话应改为 "export JAVA_HOME=/usr/Java/jdk1.6.0_37" )2、配置conf目录下的core-site.xmlsudo gedit conf/core-site.xml（打开后标签<configuration> </configuration>中是空的，所以在空的地方加入如下配置）Xml代码1.<property>2.<name></name>3.<value>hdfs://localhost:9000</value>4.</property>5.6.<property>7.<name>dfs.replication</name>8.<value>1</value>9.</property>10.11.<property>12.<name>hadoop.tmp.dir</name>13.<value>/home/hadoop/tmp</value>14.</property>3、配置conf目录下的mapred-site.xml#sudo gedit conf/mapred-site.xml（打开后标签<configuration> </configuration>中也是空的，添加如下配置）Xml代码1.<property>2.<name>mapred.job.tracker</name>3.<value>localhost:9001</value>4.</property>运行测试阶段:1、格式化namenode (首次运行必需滴)1、保证此时在hadoop目录下，如不在请先进入hadoop目录#cd /usr/local/hadoop2、格式化namenode#bin/hadoop namenode -format2、启动hadoop1、修改hadoop文件夹的权限，保证hadoop用户能正常访问其中的文件#sudo chown -hR hadoop /usr/local/hadoop2、启动hadoop#bin/start-all.sh3、验证hadoop是否正常启动#jpsYou should see something like this:8211 DataNode7803 NameNode8547 TaskTracker8620 Jps8422 JobTracker8354 SecondaryNameNode（这个若出问题便是之前的三个核心配置文件没有配置好）（此语句执行后会列出已启动的东西NameNode,JobTracker,SecondaryNameNode...如果NameNode没有成功启动的话就要先执行"bin/stop-all.sh"停掉所有东西，然后重新格式化namenode，再启动）3、跑wordcount1、准备需要进行wordcount的文件#sudo gedit /tmp/test.txt(打开后随便输入一些内容，如"mu ha ha ni da ye da ye da"，然后保存退出）2、将准备的测试文件上传到dfs文件系统中的firstTest目录下#bin/hadoop dfs -copyFromLocal /tmp/test.txt firstTest（注：如dfs中不包含firstTest目录的话就会自动创建一个，关于查看dfs 文件系统中已有目录的指令为"hadoop dfs -ls")3、执行wordcount#bin/hadoop jar hadoop-mapred-example0.21.0.jar wordcount firstTest result（注：此语句意为“对firstTest下的所有文件执行wordcount，将统计结果输出到result文件夹中”，若result文件夹不存在则会自动创建一个）4、查看结果#bin/hadoop dfs -cat result/part-r-00000（注：结果文件默认是输出到一个名为“part-r-*****”的文件中的，可用指令“hadoop dfs -ls result”查看result目录下包含哪些文件）至此单节点环境搭建完成！10. 停止Hadoop# bin/stop-all.sh。

hadoop2.7.2安装指导

hadoop2.7.2安装指导由于hadoop安装方式有三种，并且三种安装方式都可以在前面的基础上继续配置，分别是：∙本地模式∙伪分布∙分布式###############################################1.准备安装jdk1.7参考测试：Java -version没有安装jdk的，下载安装jdk。

安装ssh检查是否安装了ssh:rpm –qa | grep ssh没有安装的，则安装ssh：yum install ssh免密码登录设置：ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsacat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys最后达到无密码登录设置hostname1.在/etc/sysconfig/network修改HOSTNAME并保存，以永久修改主机名。

文件内容如下所示；NETWORKING=yesHOSTNAME=hadoop1802.重启network服务使修改生效。

service network restart注：使用hostname查看主机名，返回的依然是旧的，需要重新登陆。

首先去Apache下载最新的安装包吧/Download hadoopRelease2.安装解压安装文件：Tar –zxvf hadoop-2.7.2.tar.gz进入配置文件目录我这里是/home/crh/hadoop-2.7.2/etc/hadoop修改配置文件：etc/hadoop/hadoop-env.sh修改了JAVA_HOMEexport JAVA_HOME=/usr/java/jdk1.7.0_79配置环境变量/etc/profile增加hadoop配置将下面添加到变量PATH中PATH=/home/crh/hadoop-2.7.2/bin:/home/crh/hadoop-2.7.2/sbin:$PATH########################################################3.本地模式验证[可忽略]所谓的本地模式：在运行程序的时候，比如wordcount是在本地磁盘运行的上面已经配置完毕，我们对其测试，分别执行面命令：注意： bin/hadoop的执行条件是在hadoop_home中，我这里是1.$ mkdir input2.1.$ cp etc/hadoop/*.xml input1.$bin/hadoop jarshare/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.0.jar grepinput output 'dfs[a-z.]+'1.$ cat output/*上面本地模式，我们知道就可以，我们下面继续配置伪分布模式4.伪分布模式我这里的全路径：/home/crh/hadoop-2.7.2/etc/hadoop修改文件etc/hadoop/core-site.xml添加如下内容：含义：接收Client连接的RPC端口，用于获取文件系统metadata信息。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

gcc autoconf automake libtool
二、安装 Hadoop-LZO 这里下载的是 Twitter hadoop-lzo，可以用 Maven(如何安装 Maven 请参照本博客的《 Linux
命令行下安装 Maven 与配置》 )进行编译。 Java 代码 1. 1 [wyp@master ~]$ wget https:///twitter/hadoop-lzo/archive/t
配置 hbase lzo 将 hadoop-lzo-0.4.18-SNAPSHOT.jar 放入$HBASE_HOME/lib 下,需要重启 hbase
创建 hbase 表
Java 代码 1. create 'test_lzo',{NAME=>'f',COMPRESSION=>'LZO'}
Java 代码 1. alter 'dirktt',{NAME=>'f',COMPRESSION=>'LZO'}
10. </property>
11. <property> 12. 13. 15. 16. 添加到 core-site.xml 17. 18. <property> 19. <name>pression.codecs</name> 20. <value>press.DefaultCodec,pr ess.GzipCodec,press.BZip2Codec,pressio n.lzo.LzopCodec</value> 21. </property> 22. <property> 23. 24. <name>pression.codec.lzo.class</name> <value>pression.lzo.LzoCodec</value> <name>mapred.child.env</name> <value>LD_LIBRARY_PATH=/usr/local/hadoop/lzo/lib</value>
4. row format delimited fields terminated by '\t' 5. collection items terminated by ',' 6. lines terminated by '\n' 7. STORED AS INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat' 8. OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' 9. location '/user/hive/warehouse/dirk.db/test';
一、下载、解压并编译 lzo 包
Java 代码 1. 1 2. 2 3. 3 4. 4 5. 5 o/ 6. 6 [wyp@master ~]$ make && sudo make install [wyp@master [wyp@master [wyp@master [wyp@master [wyp@master ~]$ wget /opensource/lzo/download/l ~]$ tar -zxvf lzo-2.06.tar.gz ~]$ cd lzo-2.06 ~]$ export CFLAGS=-m64 ~]$ ./configure -enable-shared -prefix=/usr/local/hadoop/lz
Java 代码 1. 1 2. 2 g> 3. 3 4. 4 5. 5 <hadoop.current.version>2.2.0</hadoop.current.version> <hadoop.old.version>1.0.4</hadoop.old.version> </properties> <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncodin
Java 代码 1. 添加到 maper-site.xml 2. 3. <property> 4. 5. 6. 7. 8. 9. <name>press.map.output</name> <value>true</value> </property> <property> <name>pression.codec</name> <value>pression.lzo.LzoCodec</value>
然后进入 hadoop-lzo-master 目录，依次执行下面的命令
Java 代码 1. 01 2. 02 3. 03 4. 04 5. 05 6. 06 e 7. 07 8. 08 9. 09 10. 10 r 11. 11 [wyp@master [wyp@master [wyp@master [wyp@master \ $HADOOP_HOME/share/hadoop/common/ hadoop-lzo-master]$ cd target/native/Linux-amd64-64 Linux-amd64-64]$ tar -cBf - -C lib . | tar -xBvf - -C ~ ~]$cp ~/libgplcompression* $HADOOP_HOME/lib/native/ hadoop-lzo-master]$cp target/hadoop-lzo-0.4.18-SNAPSHOT.ja [wyp@master [wyp@master zo/lib hadoop-lzo-master]$ mvn clean package -Dmaven.test.skip=tru [wyp@master [wyp@master [wyp@master hadoop-lzo-master]$ export CFLAGS=-m64 hadoop-lzo-master]$ export CXXFLAGS=-m64 hadoop-lzo-master]$ export C_INCLUDE_PATH= \ /usr/local/hadoop/lzo/include hadoop-lzo-master]$ export LIBRARY_PATH=/usr/local/hadoop/l
将/usr/local/hadoop/lzo 目录下的所有文件打包，并同步到集群中的所有机器上。（我没这么做）---这步步不用做在编译 lzo 包的时候，需要一些环境，可以用下面的命令安装好 lzo 编译环境
Java 代码 1. 1 2. 2 [wyp@master ~]$ yum -y install zlib-devel lzo-devel \
14. </property>
25. </property>
使用 LZO 压缩 1.mr 输出压缩文件：
Java 代码 1. Configuration conf = new Configuration(); Codec"); 3. conf.set("press", "true");
zo-2.06.tar.gz
编译完 lzo 包之后，会在/usr/local/hadoop/lzo/生成一些文件，目录结构如下：
Java 代码 1. 1 2. 2 3. 3 4. 4 5. 5 [wyp@master total 12 drwxr-xr-x 3 root root 4096 Mar 21 17:23 include drwxr-xr-x 2 root root 4096 Mar 21 17:23 lib drwxr-xr-x 3 root root 4096 Mar 21 17:23 share /usr/local/hadoop/lzo]$ ls -l
其中~目录下的 libgplcompression.so 和 libgplcompression.so.0 是链接文件，指向 libgplcompression.so.0.0.0，将刚刚生成的 libgplcompression*和 target/hadoop-lzo-0.4.18-SNAPSHOT.jar 同步到集群中的所有机器对应的目录（这个同步是必须的，否则或找不到 jar 包和执行错误）分别渠道 lib/native 和 /share/Hadoop/common 配置 hadoop
2. conf.set("pression.codec", "pression.lzo.Lzop
2.hive 创建压缩表
Java 代码 1. 2. 3. CREATE EXTERNAL TABLE test( key string , params string , )
er.zip
下载后的文件名是 master，它是一个 zip 格式的压缩包，可以进行解压：
Java 代码 1. 1 [wyp@master ~]$ unzip master
hadoop-lzo 中的 pom.xml 依赖了 hadoop2.1.0-beta，由于我们这里用到的是 Hadoop 2.2.0，所以建议将 hadoop 版（我用的 2.3,2.4,2.5 也可以用）