Hadoop HBase完全分布式环境搭建步骤

Hadoop分布式环境搭建

一、安装软件准备

由于资源限制，本文档的Hadoop的节点环境均部署在虚拟的linux上，使用的虚拟机和linux的版本如下：

VMware-workstation-full-8.0.2-591240.exe

[红帽企业.Linux.5].TLF-SOFT-RedHat.Enterprise.Linux.5.Update.2-XiSO.iso

Hadoop及其相关包版本如下：

hadoop-1.1.2.tar.gz

hbase-0.94.7-security.tar.gz

其他软件包版本如下：

jdk-6u24-linux-i586.bin

二、linux环境准备

1.安装VMware Workstation

安装步骤省略

2.创建一个虚拟机

这里需要说明的是虚拟机的Network Adapter选择Host-only方式，并且保证VMware Network Adapter VMnet1为打开状态。

关于Network Adapter 的几种桥接方式的区别如下，这里由于宿主机和客户机都在同一个电脑上，所以采用Host-only 的方式。

宿主机(windows)与客户机(安装在虚拟机中的Linux)网络连接方式: (1) host-only 宿主机与客户机单独组网。优点：网络隔离

缺点：虚拟机与其他服务器之间不能通信 (2)bridge 客户机与宿主机在同一个局域网中。优点：都在同一个局域网，可以互相访问坏处：不安全

3.安装RedHat Linux

安装时，对于网卡的设置，采用默认的DHCP方式，后面再进行ip设置。

RedHat_Linux_5.1_安装步骤详解.rar

4.RedHat 环境准备

4.1关闭防火墙和关闭防火墙的自动运行

1. 关闭防火墙

执行命令：service iptables stop

验证：service iptables status

2. 关闭防火墙的自动运行

执行命令：chkconfig iptables off

验证：chkconfig --list | grep iptables

4.2 安装jdk

JDK同一安装在/opt/java/jdk1.6.0_24目录下，具体的安装和设置步骤省略

HXGZ-部署手册-LSGFSS-V1.0.0.rar

4.3 设置Linux的字符编码(非必须)

4.4 建立专门的运行hadoop的用户

三、Hadoop分布式环境搭建

1 克隆Linux虚拟机环境

(1)选中将被复制的linux虚拟机，单击菜单“VM”-->“Manage”-->“Clone”

(2)按照步骤即可复制一个Linux虚拟机环境。

注意：

2 设置各个虚拟机IP

1.查看windows下VMware1的ip地址和子网掩码

2.分别设置三个节点的ip地址、子网掩码和网关。

重启网卡，执行命令service network restart，让其立即生效。

测试：在三个节点虚拟机中分别输入ping 192.168.75.10,ping 192.168.75.20,ping 192.168.75.30 3 配置各个主机名

(1)查看当前虚拟机的主机名：hostname

(2)修改当前会话中的主机名，执行命令hostname hadoop

但此种方式只对当前会话有效

(3)修改配置文件中的主机名，执行命令vi /etc/sysconfig/network

验证：重启reboot

4 配置各个hosts文件

对三个节点分别执行命令：vi /etc/hosts,均增加三行行内容，如下：

192.168.75.10 hadoop1

192.168.75.20 hadoop2

192.168.75.30 hadoop3

验证：ping hadoop1, ping hadoop2, ping hadoop3

5 配置各个SSH免密码登录

5.1 ssh原理

客户端向服务器端发出连接请求

服务器端向客户端发出自己的公钥

客户端使用服务器端的公钥加密通讯密钥然后发给服务器端

如果通讯过程被截获，由于窃听者即使获知公钥和经过公钥加密的内容，但不拥有私钥依然无法解密（RSA算法）

服务器端接收到密文后，用私钥解密，获知通讯密钥

ssh-keygen命令给服务器端产生公私钥密钥对，cp命令将服务器端公钥复制到客户端（注意在伪分布模式下服务器端和客户端是同一台机器），因此客户端本身就拥有了服务器端公钥，可以直接进行免密码接入

5.2 ssh配置

注意要以grid用户登录，在grid用户的主目录下进行操作！

每个节点作相同操作

(1)进入用户主目录，cd ~,执行命令ssh-keygen -t rsa 产生秘钥，位于~/.ssh文件夹中

(2)执行命令cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

(3)验证：ssh hadoop2（由于公钥还未分发到各个节点，所以这里只能ssh 本机）

5.3 ssh配置前后对比ssh配置前，这里以hadoop3为例：

ssh配置后，这里以hadoop2为例：

5.4生成known_hosts文件

对于每个节点，对集群中包括自己在内的所有节点均进行ssh登录，知道生成known_hosts 文件未知，known_hosts文件中应该包括集群中所有节点的登录信息

注意：每次ssh登录其他节点以后，要执行logout命令退回到本身的节点。

如：ssh hadoop2

logout

6 分发ssh公钥

把各个节点的authorized_keys的内容互相拷贝加入到对方的此文件中，然后就可以免密码彼此ssh连入

验证：在hadoop1中执行ssh hadoop2，ssh hadoop3 看是否需要输入密码

在hadoop2中执行ssh hadoop1，ssh hadoop3 看是否需要输入密码

在hadoop3中执行ssh hadoop1，ssh hadoop2 看是否需要输入密码

7 安装并配置hadoop

(1) 用grid用户上传并解压hadoop-1.1.2.tar.gz，执行命令：tar zxvf hadoop-1.1.2.tar.gz

(2)将生成的hadoop-1.1.2拷贝至/home/grid/目录下

(3)用root用户修改环境变量：vi /etc/profile ，在grid用户下，其为只读文件

(4)修改hadoop-env.sh文件

取消掉第9行的注释，并配置自己的JA V A_HOME

export JA VA_HOME=/opt/java/jdk1.6.0_24

(5)修改core-site.xml文件

覆盖

https://www.360docs.net/doc/3d7582284.html,

hdfs://hadoop1:9000

change your own hostname

注意：这里https://www.360docs.net/doc/3d7582284.html,的值为要将作为NameNode的节点的IP,本示例中使用hadoop1作为NameNode，故设置为hadoop1:9000,其他的节点的该配置文件中该值也是hadoop1:9000

(6)修改hdfs-site.xml文件

覆盖

dfs.replication

dfs.permissions

false

(7)修改mapred-site.xml文件

覆盖

mapred.job.tracker

hadoop1:9001

change your own JobTracker hostname

注意：这里mapred.job.tracker的值为要将作为JobTracker的节点的IP,本示例中使用hadoop1作为JobTracker，故设置为hadoop1:9001,其他的节点的该配置文件中该值也是hadoop1:9001

(8)修改masters和slaves文件

masters中设置的是namenode、jobtracker、SecondaryNameNode所在的节点

Slaves中设置的是datanode和tasktracker所在的节点

8 向各节点复制hadoop

（1）执行命令scp -r ./hadoop-1.1.2 hadoop2:/home/grid/

scp -r ./hadoop-1.1.2 hadoop3:/home/grid/

9 格式化分布式文件系统

执行命令hadoop namenode -format 对hadoop进行格式化

格式化成功后将在/tmp目录下生成hadoop-grid目录NameNode进程没有启动成功可能的因素？

(1)没有格式化

(2)配置文件只copy，不修改自己的hostname

(3)hostname与ip没有绑定

(4)SSH的免密码登录没有配置成功

注意：多次格式化hadoop也是错误的

解决办法：删除/tmp/*文件夹后，重新格式化

10 启动并检测守护进程

10.1 启动守护进程

进入hadoop1/$HADOOP_HOME/bin(namenode和jobtracker所在的节点)，执行start-all.sh命令启动守护进程，即可启动所有的服务

停止守护进程命令：stop-all.sh

10.2检测守护进程启动情况

hadoop1、hadoop2、hadoop3节点下分别执行jps命令：

四、Hbase完全分布式环境搭建

1. 解压hbase安装包

用grid用户上传并解压hbase-0.94.7-security.tar.gz，执行命令：tar zxvf hbase-0.94.7-security.tar.gz，将解压后目录hbase-0.94.7-security 复制到/home/grid/目录下，并重命名为hbase-0.94.7

注意：选择hbase的版本的时候最好百度下，找到与已经安装的hadoop版本兼容的hbase 版本，这里hadoop-1.1.2与hbase-0.94.7兼容。

2. 配置环境变量

切换到root账户，修改/etc/profile文件，新增如下两句：

执行source /etc/profile使其生效，执行hbase version命令查看安装版本

3. 修改conf/hbase-env.sh脚本，设置环境变量

#Java环境

export JA V A_HOME=/opt/java/jdk1.6.0_24

#通过hadoop的配置文件找到hadoop集群

export HBASE_CLASSPA TH=/home/grid/hadoop-1.1.2/conf

如下图：

4. 编辑hbase-site.xml进行配置

hbase.rootdir

hdfs://hadoop1:9000/hbase

hbase.cluster.distributed

true

hbase.master

hadoop1:60000

hbase.zookeeper.quorum

hadoop1,hadoop2,hadoop3,hadoop4

hbase.rootdir指定Hbase数据存储目录,如果/hbase目录不存在，则需要在namenode 节点中通过hadoop fs -mkdir /hbase创建该目录

hbase.cluster.distributed 指定是否是完全分布式模式，单机模式和伪分布式模式需要将该值设为false

hbase.master指定Master的位置

hbase.zookeeper.quorum 指定zooke的集群，多台机器以逗号分隔

5. 编辑regionservers文件

将所有的slavenode添加到这个文件，类似与hadoop中slaves文件，该文件原本为localhost，如下是我添加的内容，两台slavenode机器的域名（hosts文件中已做解析）：hadoop2

hadoop3

hadoop4

6 解决版本、jar包冲突

(1)将/home/grid/hbase-0.94.7/lib/hadoop-core-1.0.4.jar改为hadoop-core-1.0.4.jar.bak

(2)将/home/grid/hadoop-1.1.2/hadoop-core-1.1.2.jar拷贝到/home/grid/hbase-0.94.7/lib/

7. 复制Hbase到其它节点

scp -r /home/grid/ hbase-0.94.7 hadoop2:/home/grid/

scp -r /home/hadoop/ hbase-0.94.7 hadoop3:/home/grid/

scp -r /home/hadoop/ hbase-0.94.7 hadoop4:/home/grid/

6. 启动Hbase并验证Hmaster已经启动

启动hbase之前必须保证hadoop已经正常启动

启动hbase命令：start-hbase.sh

启动验证：

master节点输入jps

Slaves节点输入jps

或者在浏览器上输入http://192.168.75.10:60010/master-status

停止hbase命令：stop-hbase.sh

启动顺序：先启动Hadoop-》hbase，如果使用自己安装的zookeeper启动顺序是：Hadoop->zookeeper->hbase

停止顺序：hbase->zookeeper->hadoop

7. 进入hbase shell

进入hbase的shell客户端：cd $HBASE_HOME/bin hbase shell

退出hbase的shell客户端：quit

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu_CentOS

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS 本教程讲述如何配置Hadoop 集群，默认读者已经掌握了Hadoop 的单机伪分布式配置，否则请先查看Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置。本教程由厦门大学数据库实验室出品，转载请注明。本教程适合于原生Hadoop 2，包括Hadoop 2.6.0, Hadoop 2.7.1 等版本，主要参考了官方安装教程，步骤详细，辅以适当说明，保证按照步骤来，都能顺利安装并运行Hadoop。另外有Hadoop安装配置简略版方便有基础的读者快速完成安装。为了方便新手入门，我们准备了两篇不同系统的Hadoop 伪分布式配置教程。但其他Hadoop 教程我们将不再区分，可同时适用于Ubuntu 和CentOS/RedHat 系统。例如本教程以Ubuntu 系统为主要演示环境，但对Ubuntu/CentOS 的不同配置之处、CentOS 6.x 与CentOS 7 的操作区别等都会尽量给出注明。环境本教程使用Ubuntu 14.04 64位作为系统环境，基于原生Hadoop 2，在Hadoop 2.6.0 (stable)版本下验证通过，可适合任何Hadoop 2.x.y 版本，例如Hadoop 2.7.1，Hadoop 2.4.1 等。本教程简单的使用两个节点作为集群环境: 一个作为Master 节点，局域网IP 为192.168.1.121；另一个作为Slave 节点，局域网IP 为192.168.1.122。准备工作 Hadoop 集群的安装配置大致为如下流程: 1.选定一台机器作为Master 2.在Master 节点上配置hadoop 用户、安装SSH server、安装Java 环境 3.在Master 节点上安装Hadoop，并完成配置 4.在其他Slave 节点上配置hadoop 用户、安装SSH server、安装Java 环境 5.将Master 节点上的/usr/local/hadoop 目录复制到其他Slave 节点上 6.在Master 节点上开启Hadoop 配置hadoop 用户、安装SSH server、安装Java 环境、安装Hadoop 等过程已经在Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置中有详细介绍，请前往查看，不再重复叙述。继续下一步配置前，请先完成上述流程的前 4 个步骤。网络配置假设集群所用的节点都位于同一个局域网。如果使用的是虚拟机安装的系统，那么需要更改网络连接方式为桥接（Bridge）模式，才能实现多个节点互连，例如在VirturalBox 中的设置如下图。此外，如果节点的系统是在虚拟机中直接复制的，要确保各个节点的Mac 地址不同（可以点右边的按钮随机生成MAC 地址，否则IP 会冲突）：

hadoop2.7.2 伪分布式安装

hadoop：建立一个单节点集群伪分布式操作安装路径为：/opt/hadoop-2.7.2.tar.gz 解压hadoop: tar -zxvf hadoop-2.7.2.tar.gz 配置文件 1. etc/hadoop/hadoop-env.sh export JAVA_HOME=/opt/jdk1.8 2. etc/hadoop/core-site.xml fs.defaultFS hdfs://localhost:9000 hadoop.tmp.dir file:/opt/hadoop-2.7.2/tmp 3. etc/hadoop/hdfs-site.xml https://www.360docs.net/doc/3d7582284.html,.dir file:/opt/hadoop-2.7.2/dfs/name dfs.datanode.data.dir file:/opt/hadoop-2.7.2/dfs/data dfs.replication 1 dfs.webhdfs.enabled true

hadoop伪分布式搭建2.0

1. virtualbox安装 1. 1. 安装步骤 1. 2. virtualbox安装出错情况 1. 2.1. 安装时直接报发生严重错误 1. 2.2. 安装好后，打开Vitualbox报创建COM对象失败，错误情况1 1. 2.3. 安装好后，打开Vitualbox报创建COM对象失败，错误情况2 1. 2.4. 安装将要成功，进度条回滚，报“setup wizard ended prematurely”错误 2. 新建虚拟机 2. 1. 创建虚拟机出错情况 2. 1.1. 配制好虚拟光盘后不能点击OK按钮 3. 安装Ubuntu系统 3. 1. 安装Ubuntu出错情况 3. 1.1. 提示VT-x/AMD-V硬件加速在系统中不可用 4. 安装增强功能 4. 1. 安装增强功能出错情况 4. 1.1. 报未能加载虚拟光盘错误 5. 复制文件到虚拟机 5. 1. 复制出错情况 5. 1.1. 不能把文件从本地拖到虚拟机 6. 配置无秘登录ssh 7. Java环境安装 7. 1. 安装Java出错情况 7. 1.1. 提示不能连接 8. hadoop安装 8. 1. 安装hadoop的时候出错情况 8. 1.1. DataNode进程没启动 9. 开机自启动hadoop 10. 关闭服务器（需要时才关） 1. virtualbox安装 1. 1. 安装步骤 1.选择hadoop安装软件中的VirtualBox-6.0.8-130520-Win

2.双击后进入安装界面，然后直接点击下一步 3.如果不想把VirtualBox安装在C盘，那么点击浏览

Hadoop试题题库

1.以下哪一项不属于 A. 单机（本地）模式 B. 伪分布式模式 C. 互联模式 D. 分布式模式 Hadoop 可以运行的模式 2. Hado op 的作者是下面哪一位 A. Marti n Fowler B. Doug cutt ing C. Kent Beck D. Grace Hopper A. TaskTracker B. DataNode C. Secon daryNameNode D. Jobtracker 4. HDFS 默认Block Size 的大小是 A. 32MB B. 64MB C. 128MB D. 256M 5.下列哪项通常是集群的最主要瓶颈 A. CPU 8. HDFS 是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是 _D ______ o 3.下列哪个程序通常与 NameNode 在同一个节点启动 B. C. D. 网络磁盘IO 内存 6. F 列关于 A. Map Reduce B. Map Reduce C. Map Reduce D. Map Reduce Map Reduce 说法不正确的是 _ 是一种计算框架来源于google 的学术论文程序只能用 java 语言编写隐藏了并行计算的细节，方便使用

A.—次写入， B.多次写入， C.多次写入， D.—次写入，少次读少次读

7. HBase依靠 A ________ 存储底层数据。 A. HDFS B.Hadoop C.Memory D. Map Reduce 8. HBase依赖 D 提供强大的计算能力。 A. Zookeeper B.Chubby C.RPC D. Map Reduce 9. HBase依赖 A 提供消息通信机制 A.Zookeeper B.Chubby C. RPC D. Socket 10.下面与 HDFS类似的框架是 A. NTFS B. FAT32 C. GFS D. EXT3 11.关于 SecondaryNameNode 下面哪项是正确的 A.它是NameNode的热备 B.它对内存没有要求 C.它的目的是帮助 NameNode合并编辑日志，减少NameNode启动时间 D.SecondaryNameNode 应与 NameNode 部署到一个节点 12.大数据的特点不包括下面哪一项巨大的数据量多结构化数据 A. B. C. D. 增长速度快价值密度高

Hadoop云计算平台搭建最详细过程(共22页)

Hadoop云计算平台及相关组件搭建安装过程详细教程 ——Hbase+Pig+Hive+Zookeeper+Ganglia+Chukwa+Eclipse等一．安装环境简介根据官网，Hadoop已在linux主机组成的集群系统上得到验证，而windows平台是作为开发平台支持的，由于分布式操作尚未在windows平台上充分测试，所以还不作为一个生产平台。Windows下还需要安装Cygwin，Cygwin是在windows平台上运行的UNIX模拟环境，提供上述软件之外的shell支持。实际条件下在windows系统下进行Hadoop伪分布式安装时，出现了许多未知问题。在linux系统下安装，以伪分布式进行测试，然后再进行完全分布式的实验环境部署。Hadoop完全分布模式的网络拓补图如图六所示：（1）网络拓补图如六所示：图六完全分布式网络拓补图（2）硬件要求：搭建完全分布式环境需要若干计算机集群，Master和Slaves 处理器、内存、硬盘等参数要求根据情况而定。（3）软件要求操作系统64位版本:

并且所有机器均需配置SSH免密码登录。二． Hadoop集群安装部署目前，这里只搭建了一个由三台机器组成的小集群，在一个hadoop集群中有以下角色：Master和Slave、JobTracker和TaskTracker、NameNode和DataNode。下面为这三台机器分配IP地址以及相应的角色： ——master，namenode，jobtracker——master（主机名） ——slave，datanode，tasktracker——slave1（主机名） ——slave，datanode，tasktracker——slave2（主机名）实验环境搭建平台如图七所示：

在windows下安装hadoop

在windows下通过安装cygwin模拟linux环境，然后再安装hadoop，是一种简单方便的方式。首先是搭建cygwin环境：一、安装cygwin 二、安装sshd服务三、启动sshd服务四、配置ssh无密码登录一、此处无话可说，按照网上的文档，选择必要的组件即可。二、 1 以管理员身份运行cygwin 2 输入：ssh-host-config 有关键的两步：*** Query: Do you want to use a different name? (yes/no)选择yes *** Query: Create new privileged user account 'cyg_server'? (yes/no) 选择yes 创建的用户名最好为新的用户名，密码最好与windows用户的密码一致三、在开始菜单运ervices.msc或其他手段进入服务列表，找到cygwin sshd服务，查看属性是否为上一步的用户名登陆的，否则更改之。此时可能不能启动，需要在计算机右击“管理”，用户和组的管理中将上面的用户加入管理员的组，即授予管理员权限。四、此时使用ssh服务，即输入：ssh localhost会要求输入密码，若显示为“last login:......”则说明已经正确安装ssh服务并且可以启动。接下来是配置ssh的无密码登陆： 1输入：ssh-keygen （一直回车，一般是三次回车） 2 输入：cd ~/.ssh 3 输入：cp id_rsa.pub authorized_keys 此时输入exit退出cygwin，再次以管理员身份进入cygwin，输入ssh localhost，若没有要求输入密码便显示“last login.....”则说明成功了。接下来是安装Hadoop：一、安装JDK 二、下载hadoop及配置hadoop环境三、格式化namenode 四、启动hadoop

Hadoop试题试题库

1. 以下哪一项不属于Hadoop可以运行的模式___C___。 A. 单机（本地）模式 B. 伪分布式模式 C. 互联模式 D. 分布式模式 2. Hadoop 的作者是下面哪一位__B____。 A. Martin Fowler B. Doug cutting C. Kent Beck D. Grace Hopper 3. 下列哪个程序通常与NameNode 在同一个节点启动__D___。 A. TaskTracker B. DataNode C. SecondaryNameNode D. Jobtracker 4. HDFS 默认Block Size 的大小是___B___。 A.32MB B.64MB C.128MB D.256M 5. 下列哪项通常是集群的最主要瓶颈____C__。 A. CPU B. 网络 C. 磁盘IO D. 内存 6. 下列关于MapReduce说法不正确的是_____C_。 A. MapReduce 是一种计算框架 B. MapReduce 来源于google 的学术论文 C. MapReduce 程序只能用java 语言编写 D. MapReduce 隐藏了并行计算的细节，方便使用 8. HDFS 是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是__D____。 A．一次写入，少次读 B．多次写入，少次读 C．多次写入，多次读 D．一次写入，多次读

7. HBase 依靠__A____存储底层数据。 A. HDFS B. Hadoop C. Memory D. MapReduce 8. HBase 依赖___D___提供强大的计算能力。 A. Zookeeper B. Chubby C. RPC D. MapReduce 9. HBase 依赖___A___提供消息通信机制 A. Zookeeper B. Chubby C. RPC D. Socket 10. 下面与HDFS类似的框架是___C____？ A. NTFS B. FAT32 C. GFS D. EXT3 11. 关于SecondaryNameNode 下面哪项是正确的___C___。 A. 它是NameNode 的热备 B. 它对内存没有要求 C. 它的目的是帮助NameNode 合并编辑日志，减少NameNode 启动时间 D. SecondaryNameNode 应与NameNode 部署到一个节点 12. 大数据的特点不包括下面哪一项___D___。 A. 巨大的数据量 B. 多结构化数据 C. 增长速度快 D. 价值密度高 HBase测试题 9. HBase 来源于哪一项？ C

Hadoop入门—Linux下伪分布式计算的安装与wordcount的实例展示

开始研究一下开源项目hadoop，因为根据本人和业界的一些分析，海量数据的分布式并行处理是趋势，咱不能太落后，虽然开始有点晚，呵呵。首先就是安装和一个入门的小实例的讲解，这个恐怕是我们搞软件开发的，最常见也最有效率地入门一个新鲜玩意的方式了，废话不多说开始吧。本人是在ubuntu下进行实验的，java和ssh安装就不在这里讲了，这两个是必须要安装的，好了我们进入主题安装hadoop： 1.下载hadoop-0.20.1.tar.gz： https://www.360docs.net/doc/3d7582284.html,/dyn/closer.cgi/hadoop/common/ 解压：$ tar –zvxf hadoop-0.20.1.tar.gz 把Hadoop 的安装路径添加到环/etc/profile 中: export HADOOP_HOME=/home/hexianghui/hadoop-0.20.1 export PATH=$HADOOP_HOME/bin:$PATH 2.配置hadoop hadoop 的主要配置都在hadoop-0.20.1/conf 下。 (1)在conf/hadoop-env.sh 中配置Java 环境(namenode 与datanode 的配置相同)： $ gedit hadoop-env.sh $ export JAVA_HOME=/home/hexianghui/jdk1.6.0_14 3.3)配置conf/core-site.xml, conf/hdfs-site.xml 及conf/mapred-site.xml(简单配置，datanode 的配置相同) core-site.xml: hadoop.tmp.dir /home/yangchao/tmp A base for other temporary directories. https://www.360docs.net/doc/3d7582284.html, hdfs://localhost:9000 hdfs-site.xml:( replication 默认为3，如果不修改，datanode 少于三台就会报错)

实验3 Hadoop安装与配置2-伪分布式

实验报告封面课程名称： Hadoop大数据处理课程代码： JY1124 任课老师：宁穗实验指导老师: 宁穗实验报告名称：实验3 Hadoop安装与配置2 学生：学号：教学班：递交日期：签收人：我申明，本报告的实验已按要求完成，报告完全是由我个人完成，并没有抄袭行为。我已经保留了这份实验报告的副本。申明人(签名): 实验报告评语与评分：评阅老师签名：

一、实验名称：Hadoop安装与配置二、实验日期：2015年9 月25 日三、实验目的： Hadoop安装与配置。四、实验用的仪器和材料：安装环境:以下两个组合之一 1.硬件环境：存ddr3 4G及以上的x86架构主机一部系统环境：windows 、linux或者mac os x 软件环境：运行vmware或者virtualbox (2) 存ddr 1g及以上的主机两部及以上五、实验的步骤和方法：本次实验重点在ubuntu中安装jdk以及hadoop。一、关闭防火墙 sudo ufw disable iptables -F 二、jdk的安装 1、普通用户下添加grid用户

2、准备jdk压缩包，把jdk压缩包放到以上目录（此目录可自行设置） 3、将jdk压缩包解压改名改名为jdk：mv jdk1.7.0_45 jdk 移动到/usr目录下：mv jdk /usr（此目录也可自行设置，但需与配置文件一致）4、设置jdk环境变量此采用全局设置方法，更改/etc/profile文件 sudo gedit /etc/profile 添加（根据情况自行设置） export JA VA_HOME=/usr/jdk export JRE_HOME=/usr/ jdk/jre export CLASSPATH=.:$JA V A_HOME/lib:$JRE_HOME/lib:$CLASSPATH export PA TH=$JA V A_HOME/bin: $JRE_HOME/ bin: $PATH 然后保存。 5、检验是否安装成功 java -version 二、ssh免密码 1、退出root用户，su grid 生成密钥 ssh-keygen –t rsa

hadoop安装最终版

一．在Microsoft Windows XP操作系统下,安装Ubuntu 8.04 lts server版本+ xubuntu桌面到VMware虚拟机上 1.下载ubuntu server 及xubuntu 1)Ubuntu 8.04 server: http://119.147.41.16/down?cid=A97349CDC5DF51672F26FCABACBF5BC5AF9AF89D &t=2&fmt=&usrinput=ubuntu 8.04&dt=1&ps=0_0&rt=0kbs&plt=0 2)Xubuntu: 可不下，不用桌面 http://119.147.41.16/down?cid=DADD7F929F5F442A7881C2B382865468B70B8AA5 &t=2&fmt=&usrinput=xubuntu&dt=1002002&ps=0_0&rt=0kbs&plt=0 3)VMware http://119.147.41.16/down?cid=9BAA5720718DE23B4F7312C915E8028E71779B39 &t=2&fmt=-1&usrinput=Vmware&dt=2056000&redirect=no 2.本人硬件环境(参考) CPU: 2 core 4.12G Memory: 2G ddr3 Mainboard Chip : Intel p43d3 Graphic Chip : N Geoforce 9600gs0 3.本人软件环境(参考) OS : Microsoft windows xp sp3 VM: vmware5.5.1.19175 Linux: Ubuntu linux 8.04 lts server(iso) + xubuntu (ISO) 4.设置虚拟环境 1)安装VMware ：略(出现警告仍然继续，sn: E8HFE-5MD6N-F25DC-4WRNQ, 可不汉化) 2)打开VMware Workstation软件，点击“file”菜单，选择“new”－“virtual machine” 命令 3)弹出新建虚拟机向导，点击“下一步”按钮 4)在“virtual machine configuration”中，选择第二项“custom”单选项目，点击 “下一步”按钮 5)在“virtual machine format”中，选择第一项“new - Workstation 5”单选项目，点击“下一步”按钮 6)之后将询问虚拟机的操作系统，我们在“guest operating system”中选择“Linux”，在下面的版本中选择“Ubuntu”，点击“下一步”按钮 7)这时询问虚拟机的名称和保存目录，请根据自己的需要进行设置。在此我使用 d:\\My Virtual Machines\Ubuntu，点击“下一步”按钮 8)虚拟处理器数，选择“one”，点击“下一步”按钮。（我是双核心处理器，所以有这个项目） 9)这时提示分配虚拟机内存，请根据自己物理内存实际情况进行设置，建议至少分配128MB内存，如果物理内存数量允许，推荐设置256MB内存。我的物理内存是2GB，在此我使用虚拟机推荐的内存数量384MB，点击“下一步”按钮 10)网络连接类型。如果不想让虚拟机访问，请选择“不使用网络连接”。如果需要访问网络，请根据自己的情况设置，在此我推荐使用第二项“NAT”，这个选项让虚拟机使用宿主计算机的IP访问网络，宿主计算机将共享网络给虚拟机。点击“下一步”按钮

Hadoop2.2.0+Hbase0.98.1+Sqoop1.4.4+Hive0.13完全安装手册

Hadoop2.2.0+Hbase0.98.1+Sqoop1.4.4+Hive0.13 完全安装手册

前言： (3) 一. Hadoop安装（伪分布式） (4) 1. 操作系统 (4) 2. 安装JDK (4) 1> 下载并解压JDK (4) 2> 配置环境变量 (4) 3> 检测JDK环境 (5) 3. 安装SSH (5) 1> 检验ssh是否已经安装 (5) 2> 安装ssh (5) 3> 配置ssh免密码登录 (5) 4. 安装Hadoop (6) 1> 下载并解压 (6) 2> 配置环境变量 (6) 3> 配置Hadoop (6) 4> 启动并验证 (8)

前言：网络上充斥着大量Hadoop1的教程，版本老旧，Hadoop2的中文资料相对较少，本教程的宗旨在于从Hadoop2出发，结合作者在实际工作中的经验，提供一套最新版本的Hadoop2相关教程。为什么是Hadoop2.2.0，而不是Hadoop2.4.0 本文写作时，Hadoop的最新版本已经是2.4.0，但是最新版本的Hbase0.98.1仅支持到Hadoop2.2.0，且Hadoop2.2.0已经相对稳定，所以我们依然采用2.2.0版本。

一. Hadoop安装（伪分布式） 1. 操作系统 Hadoop一定要运行在Linux系统环境下，网上有windows下模拟linux环境部署的教程，放弃这个吧，莫名其妙的问题多如牛毛。 2. 安装JDK 1> 下载并解压JDK 我的目录为：/home/apple/jdk1.8 2> 配置环境变量打开/etc/profile，添加以下内容： export JAVA_HOME=/home/apple/jdk1.8 export PATH=$PATH:$JAVA_HOME/bin export CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar 执行source /etc/profile ，使更改后的profile生效。执行以下命令，赋予JDK运行的权限： chmod 777 /home/apple/jdk1.8/bin/* chmod 777 /home/apple/jdk1.8/lib/*

hadoop伪分布式安装方法

hadoop 伪分布式安装方法 [日期：2014-04-30] 来源：51CTO 作者：晓晓 [字体：大中小] 接触Hadoop 也快两年了，也一直没自己总结过安装教程，最近又要用hadoop ，需要自己搭建一个集群来进行试验，所以就利用这个机会来写个教程以备以后自己使用，也用来和大家一起探讨。要安装Hadoop 先安装其辅助环境 java Ubuntu 下java 的安装与配置将java 安装在指定路径方便以后查找使用。 Java 安装 1）在/home/xx （也就是当前用户）目录下，新建java1.xx 文件夹：mkdir /home/xx/java1.xx （文件名上表明版本号，方便日后了解java 版本） 2）进入/home/xx/java1.xx 目录下，运行安装指令：sudo /home/xx /jdk-6u26-linux-i586.bin ，则生成文件夹jdk1.6.0_26，如果感觉名字太长，可以对其重命名：mv jdk1.6.0_26 jdk 也可以使用sudoapt-get install 软件包来安装java 。如果想卸载java 使用命令sudo rm -rf /home/x x/java1.6/jdk1.6（安装目录）配置环境变量进入profile 文件添加环境配置，命令为sudo gedit /etc/profile 在文件的末尾添加 1 2 3 4 5 6 7 JAVA_HOME=/home/xx/java1.xx/jdk JRE_HOME=/home/xx /java1.xx/jdk/jre PATH=$JAVA_HOME/bin:$JRE_HOME/bin: $PATH export JAVA_HOME export JRE_HOME export CLASSPATH export PATH 完成以上配置后重启电脑然后检验java 是否安装成功在终端输入java –version 后显示说明java 安装成功。 Java 安装成功后接着进入正题进行Hadoop 的安装，本文先进行Hadoop 的伪分布安装随后会继续更新完全分布的安装过程。本文使用的Hadoop 版本是hadoop-0.20.2，将hadoop-0.20.2.tar.gz 移至当前用户目录下进行解压t ar –zxvf hadoop-0.20.2.tar.gz 然后配置hadoop 的环境变量，其配置方法和java 的配置方法一样，在profile 中写入HADOOP_HOME =/home/xx/hadoop Java 和hadoop 的配好的环境变量如图

虚拟机环境下Hadoop伪分布式平台搭建详细过程

大数据技术平台搭建之Hadoop 1. Hadoop(伪分布式)平台搭建详细过程 1.1 工具 ?VMware12 ?CentOS 6.4 ?JDK-6u24-Linux-i586.bin ?Hadoop-1.1.2.tar.gz ?Scala-2.9.3.tgz ?Spark-1.4.0-bin-hadoop1.tgz ?Win10系统环境 1.2 详细搭建过程 1.2.1 安装虚拟机VMware Workstation 12 Pro 图1.1 VMware Workstation 12 Pro软件开始界面1.2.2 在虚拟机环境上安装Linux系统（1）点击创建新的虚拟机按钮选择典型配置安装图1.2 新建虚拟机向导

（2）选择Linux镜像文件，开始虚拟安装图1.3 选择安装镜像文件（3）为新建的虚拟机命名，并选择安装目录图1.4 命名、选择安装目录（4）指定虚拟机磁盘大小图1.5 指定磁盘大小

（5）设置硬件、网络类型等虚拟机配置图1.6 自定义虚拟机硬件（6）点击完成按钮完成虚拟机安装图1.7 CentOS_Linux虚拟机系统安装成功

1.2.3 配置Linux环境，为安装Hadoop做准备（1）关闭防火墙执行命令 service iptables status可以查看防火墙状态执行命令 service iptables stop 关闭防火墙图1.8 关闭防火墙并检验执行命令chkconfig iptables off，关闭防火墙某些功能自启动图1.9 关闭防火墙自启功能并检验（2）设置网络连接宿主机（Windows）和客户机（虚拟机中的Linux）采用host-only方式建立网络连接，具体步骤：右击桌面右上角网络连接图标，选择编辑网络连接，如下图1.10 虚拟机网络设置窗口接着点击按钮，设置IPv4地址，注意要和主机IP在同一网段 192.168.80.X 图1.11 设置ip窗口

hadoop + zookeeper +hive + hbase安装学习-12页文档资料

伪分布式安装Hadoop+zookeeper+hive+hbase安装配置 1.安装JDK,配置环境JAVA环境变量 export JAVA_HOME=/usr/lib/java-1.6.0/jdk1.6.0_37 export PATH=$PATH:$JAVA_HOME/bin export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib export HADOOP_INSTALL=/usr/hadoop/hadoop-1.0.3 export PATH=$PATH:$HADOOP_INSTALL/bin export JAVA_HOME=/user/local/jdk1.6.0_27 export JRE_HOME=/user/local/jdk1.6.0_27/jre export ANT_HOME=/user/local/apache-ant-1.8.2 export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH 2.安装Hadoop-1.0.3 2.1.下载hadoop文件，地址为：https://www.360docs.net/doc/3d7582284.html,/coases.html，下载完成后解压hadoop-1.0.3.tar.gz sudo tar -xzf hadoop-1.0.3.tar.gz 2.2.配置Hadoop环境变量 export HADOOP_INSTALL=/user/local/hadoop-1.0.3 export PATH=$PATH:$HADOOP_INSTALL/bin 激活profile文件： [root@localhost etc]# chmod +x profile [root@localhost etc]# source profile [root@localhost etc]# hadoop version 2.3.查看hadoop版本 [root@localhost ~]# hadoop version Hadoop 1.0.3 Subversion https://https://www.360docs.net/doc/3d7582284.html,/repos/asf/hadoop/common/branches/branch-1.0 -r 1335192 Compiled by hortonfo on Tue May 8 20:31:25 UTC 2012 From source with checksum e6b0c1e23dcf76907c5fecb4b832f3be 输入 hadoop version命令后输入下图，则安装hadoop成功 2.4.修改配置文件 a)解压hadoop-1.0.3/hadoop-core-1.0.3.jar b)去解压后的hadoop-core-1.0.3文件夹下,复制文件core-default.xml，hdfs-default.xml，mapred-default.xml三个文件到hadoop-1.0.3/conf/下,删除hadoop-1.0.3/conf/文件夹下的core-site.xml，hdfs-site.xml，mapred-site.xml，将复制过来的三个文件的文件名中的default修改为site

Hadoop题库

A. 单机（本地）模式 B. 伪分布式模式 C. 互联模式 D. 分布式模式 2. Hadoop的作者是下面哪一位__B____。 A. Martin Fowler B. Doug cutting C. Kent Beck D. Grace Hopper 3. 下列哪个程序通常与 NameNode 在同一个节点启动__D___。 A. TaskTracker B. DataNode C. SecondaryNameNode D. Jobtracker 4. HDFS 默认 Block Size的大小是___B___。 5. 下列哪项通常是集群的最主要瓶颈____C__。 A. CPU B. 网络 C. 磁盘IO D. 内存 6. 下列关于MapReduce说法不正确的是_____C_。 A. MapReduce是一种计算框架 B. MapReduce来源于google的学术论文 C. MapReduce程序只能用java语言编写 D. MapReduce隐藏了并行计算的细节，方便使用 8. HDFS是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是 __D____。 A．一次写入，少次读 B．多次写入，少次读 C．多次写入，多次读 D．一次写入，多次读 9. HBase依靠__A____存储底层数据。

A. HDFS B. Hadoop C. Memory D. MapReduce 10. HBase依赖___D___提供强大的计算能力。 A. Zookeeper B. Chubby C. RPC D. MapReduce 11. HBase依赖___A___提供消息通信机制 A. Zookeeper B. Chubby C. RPC D. Socket 12. 下面与HDFS类似的框架是___C____？ A. NTFS B. FAT32 C. GFS D. EXT3 13. 关于 SecondaryNameNode 下面哪项是正确的___C___。 A. 它是 NameNode 的热备 B. 它对内存没有要求 C. 它的目的是帮助 NameNode 合并编辑日志，减少 NameNode 启动时间 D. SecondaryNameNode 应与 NameNode 部署到一个节点 14. 大数据的特点不包括下面哪一项___D___。 A. 巨大的数据量 B. 多结构化数据 C. 增长速度快 D. 价值密度高 HBase测试题 1. HBase来源于哪一项？ C A The Google File System

hadoop.集群搭建详解

hadoop2.2.0集群搭建 PS：apache提供的hadoop-2.2.0的安装包是在32位操作系统编译的，因为hadoop依赖一些C++的本地库，所以如果在64位的操作上安装 hadoop-2.2.0就需要重新在64操作系统上重新编译 1.准备工作:(参考伪分布式搭建) 1.1修改Linux主机名 1.2修改IP 1.3修改主机名和IP的映射关系 1.4关闭防火墙 1.5ssh免登陆 1.6.安装JDK，配置环境变量等 2.集群规划：

PS：在hadoop2.0中通常由两个NameNode组成，一个处于active 状态，另一个处于standby状态。Active NameNode对外提供服务，而Standby NameNode则不对外提供服务，仅同步active namenode 的状态，以便能够在它失败时快速进行切换。 hadoop2.0官方提供了两种HDFS HA的解决方案，一种是NFS，另一种是QJM。这里我们使用简单的QJM。在该方案中，主备NameNode之间通过一组JournalNode同步元数据信息，一条数据只要成功写入多数JournalNode即认为写入成功。通常配置奇数个JournalNode

这里还配置了一个zookeeper集群，用于ZKFC （DFSZKFailoverController）故障转移，当Active NameNode挂掉了，会自动切换Standby NameNode为standby状态3.安装步骤： 3.1.安装配置zooekeeper集群 3.1.1解压 tar -zxvf zookeeper-3.4.5.tar.gz -C /cloud/ 3.1.2修改配置 cd /cloud/zookeeper-3.4.5/conf/ cp zoo_sample.cfg zoo.cfg vim zoo.cfg 修改：dataDir=/cloud/zookeeper-3.4.5/tmp 在最后添加： server.1=hadoop01:2888:3888 server.2=hadoop02:2888:3888 server.3=hadoop03:2888:3888 保存退出然后创建一个tmp文件夹

hadoopq集群搭建

疑难小结 1：HDFS进入安全模式: Name node is in safemode mode 退出安全模式, 执行命令: hadoop dfsadmin -safemode leave 2：INFO util.NativeCodeLoader - Unable to load native-hadoop library for your platform... using builtin-Java classes where applicable -- hadoop的本地库加载失败。检查native库的版本信息，32bit的版本和64bit的版本在不匹配的机器上会加载失败，检查的命令是file native库依赖的glibc的版本问题。如果在高版本gcc（glibc）的机器上编译的native库，放到低版本的机器上使用，会由于glibc版本不一致导致该错误。 3： maps to localhost, but this does not map back 解决：原因: 因为DNS服务器把 192.168.x.x 的地址都反向解析成 localhost ，而DNS服务器不是自己的，不能改。办法: 编辑ssh 客户端的 /etc/hosts 文件，把出问题的IP 地址和主机名加进去，就不会报这样的错了。 4： jps命令正常，但是8088端口的WEB页面无法访问解决方案：检查一下防火墙和selinux状态, 将防火墙和selinux关闭防火墙: service iptables status 永久修改：修改/etc/selinux/config文件中设置SELINUX=disabled ，然后重启服务器。 5： 8088端口访问正常，但是看不到datanode节点解决方案：可能出现的问题和解决方案: 1.8080端口没有打开, 手动启动yarn 2.8080端口被其他进程占用, kill掉占用该端口的进程, 然后重启yarn

Hadoop试题题库

1. 以下哪一项不属于Hadoop 可以运行的模式___C A. 单机（本地）模式 B. 伪分布式模式 C. 互联模式 D. 分布式模式 2. Hadoop 的作者是下面哪一位__B A. Martin Fowler B. Doug cutting C. Kent Beck D. Grace Hopper 3. 下列哪个程序通常与NameNode 在同一个节点启动__D A. TaskTracker B. DataNode C. SecondaryNameNode D. Jobtracker 4. HDFS 默认Block Size 的大小是___B A. 32MB B. 64MB C. 128MB D. 256M 5. 下列哪项通常是集群的最主要瓶颈 ________ C A. CPU B. 网络 C. 磁盘IO D. 内存 6. ___________________________________ 下列关于MapReduce 说法不正确的是 __________________________________________ C_。 A. MapReduce 是一种计算框架 B. MapReduce 来源于google 的学术论文 C. MapReduce 程序只能用java 语言编写 D. MapReduce 隐藏了并行计算的细节，方便使用 8. HDFS 是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是__D ___ 。 A. —次写入，少次读 B. 多次写入，少次读

C. 多次写入，多次读 D. —次写入，多次读 9. HBase 依靠A 存储底层数据。 A. HDFS B. Hadoop C. Memory D. MapReduce 10. HBase 依赖—D—供强大的计算能力。 A. Zookeeper B. Chubby C. RPC D. MapReduce 11. HBase 依赖A 提供消息通信机制 A. Zookeeper B. Chubby C. RPC D. Socket 12. _____________________________ 下面与HDFS 类似的框架是___C ？ A. NTFS B. FAT32 C. GFS D. EXT3 13. 关于SecondaryNameNode 下面哪项是正确的_______ C 。 A. 它是NameNode 的热备 B. 它对内存没有要求 C. 它的目的是帮助NameNode 合并编辑日志，减少NameNode 启动时间 D. SecondaryNameNode 应与NameNode 部署到一个节点 14. 大数据的特点不包括下面哪一项 A. 巨大的数据量 B. 多结构化数据 C. 增长速度快 D. 价值密度高