Hadoop云计算平台搭建方案2.1(20200515180949)

Hadoop云计算平台搭建方案

一、平台搭建概述

总体思路

针对于电网企业在营销服务领域展开的大数据分析处理,搭建Hadoop云计算平台进行海量数据存储,并作深层次加工、处理,挖掘出无法简单直观便可得到的新的模式,为电力企业

的决策提供指导。平台采用作为海量数据存储和分析工具,将其部署在4个物理计算机节点上,搭建Hadoop集群,其中1个节点作为master节点,其余3个作为slave节点。为了获取更好的稳定性,平台搭建在Linux系统()环境下。

软件列表

软件描述版本

VMware Workstation虚拟化软件VMware Workstation

操作系统

JDK Java的软件开发工具包

开源的云计算基础框架

分布式数据存储系统

可靠协调系统

数据迁移工具

平台搭建总流程和节点信息一览表

在平台搭建前,给出实现的总流程图和节点信息一览表,从而对平台搭建过程和各节点信息

有一个全局的认识,平台搭建总流程如下图所示。

创建虚拟机master,完成JDK、

Hadoop等应用的安装和配置

对虚拟机master进行克隆,得到的

虚拟机分别作为slave1、slave2和

完成Zookeeper、HBase等其它分布

式服务的部署,搭建Hadoop集群

运行并测试Hadoop集群系统

各节点信息如下表所示:

机器名IP地址用户名充当角色

master、Namenode

slave1、Datanode

slave2、Datanode

slave3、Datanode

二、基础平台的搭建步骤

此次大数据存储和处理平台的搭建,需要4台物理节点来部署Hadoop平台环境。我们使用

虚拟机软件VMware Workstation创建4台虚拟机,承载平台搭建工作。另外,由于对4台

虚拟机的配置大部分是相同的,所以利用VMware Workstation的克隆功能,可以减少部署

的工作量。

安装虚拟机软件VMware Workstation

首先在4台PC机器上均安装虚拟化软件VMware Workstation,并输入相应的序列号。

在master节点上安装Linux系统Ubuntu

在设定为master PC节点上首先安装Linux系统(版本为),在安装过程中为提高后期安装

软件的兼容性和稳定性,在系统语言上选择英语。创建用户名为“hadoop”的普通用户,设

置统一的密码。安装完成后将系统的terminal命令窗口调出来,以便使用。

同时,为实现虚拟机的Ubuntu系统与本机的Windows系统之间方便快捷的文字复制粘贴以

及物理主机系统与虚拟机系统相互拖放文件进行共享,需要安装VMare Tools工具,具体操

作如下:

启动虚拟机,进入Ubuntu系统,在VM菜单栏“虚拟机(M)”的下拉菜单点击“安装VMare Tools(T)”后,会弹出一个“VMare Tools”文件夹,里面包含VMare Tools的安装包,将

该安装包拷贝到/home/hadoop目录下,输入命令进行解压安装:tar xzvf 此时在

/home/hadoop/目录下产生vmware-tools-distrib文件夹,进入该目录,通过在terminal

终端输入相应命令,运行脚本:

cd /home/hadoop/vmware-tools-distrib $JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH ocal/share/', but failed: No such

file or directory

(gedit:2949): Gtk-WARNING **: Attempting to store changes into

`/root/.local/share/', but failed: Failed to create file '/root/.local/share/': No such file or directory

(gedit:2949): Gtk-WARNING **: Attempting to set the permissions of

`/root/.local/share/', but failed: No such file or directory

解决方法:只需直接在终端中输入命令:sudo mkdir -p /root/.local/share/ ,创建

警告信息中所提示的目录即可。

若无视警告重启ubuntu后将会出现以下情况:输入密码无法进入系统,一直处于输入密码

后又跳转回输入密码的界面。此时的解决方法是:在输入密码界面同时按下alt+ctrl+F2

进入ubuntu命令模式,并使用root用户及对应密码登陆系统,然后键入:/usr/bin/vi

/etc/profile打开etc/profile文件,找到最近在末尾加上的hadoop配置文件,按delete

键删除这些行,然后键入命令:wq!(注意此处有冒号,不可省略)保存文件。然后同时按下

ctrl+alt+del重启系统即可使系统恢复正常登陆,然后按照上述方法重新配置。

目录设置

在普通用户hadoop下创建hadoop的数据存储目录(若使用root用户创建上述文件夹则会因权限问题导致无法向这些文件夹中写入并读取数据),可自行选择数据存储的路径,我们

选择在/home/hadoop/文件夹下创建dfs和tmp作为数据存储与交换的目录,并在dfs文件夹下创建name和data两个子文件夹。分别执行命令:

mkdir /home/hadoop/dfs/name

/description>

*

*

(4)配置文件,打开该文件,在文件末尾添加以下语句。

文件名打开文件后,在其末尾添加语句:

file:/home/hadoop/dfs/name

file:/home/hadoop/dfs/data

4

true

注意:需要在中配置属性时,属性指定HDFS中文件块复制的份数,其默认值为3,当datanode 节点少于3台便会报错。在一般情况下,当其属性值为3的时候,HDFS的部署策略是在本

地机柜中一个节点放置一个备份,在本地机柜的不同结点再放置一个备份,然后再在另一个机柜中的一个结点放置一个备份。

(5)配置文件。事实上在进行配置之前,文件默认并不存在,需要首先将该目录下的文件

进行复制,并重命名为,接下来打开,添加以下语句。

文件名打开文件后,在其末尾添加语句:

yarn

(6)配置文件,打开该文件,在文件末尾添加以下语句。

文件名打开文件后,在其末尾添加语句:

mapreduce_shuffle

(7)配置文件,打开该文件,检索“# export JAVA_HOME=/home/y/libexec/语句,在该语句下一行添加:

export JAVA_HOME=/home/hadoop/通过对上述文件的修改,完成对Hadoop的配置。事实上,配置过程并不复杂,一般而言,除了规定的端口、IP地址、文件的存储位置外,其他配置

都不是必须修改的,可以根据需要决定是采用默认配置还是自行修改。还有一点需要注意的

是以上配置都被默认为最终参数,这些参数都不可以在程序中被再次修改。

Hadoop集群的部署与各节点的通信

安装SSH服务

通过建立SSH无密码互访,可以实现Hadoop虚拟机群之间的无密码登录互访。在安装SSH

服务之前,首先需要更新软件源,并保证每台机器上都安装了SSH服务器,且都能正常启动。更新软件源命令为:sudo apt-get update

软件源更新完毕后,在terminal输入如下命令开始安装openssh-server:

sudo apt-get install openssh-server

输入如下命令,检查openssh-server是否成功安装:

which ssh

如显示/usr/bin/ssh表示ssh安装成功

which sshd

如显示/usr/bin/sshd表示sshd安装成功

如果以上二者都成功显示,表示open-server安装成功

克隆虚拟机作为Slave节点

将上面配置好的虚拟机作为master,关闭作为master的ubuntu系统,然后修改虚拟机的

网络连接设置,改为“桥接模式”,即在master虚拟机主界面点击“虚拟机—设置—硬件—

网络适配器”,在弹出的对话的“网络连接”项目下选择“桥接模式(B)”此举的目的在于使

主节点和各从节点都能连上网络,从而使各台机器之间能够互访。

接下来对master进行克隆,得到slave1、slave2、slave3的雏形,即点击VM菜单下的“虚拟机—管理—克隆”,进入克隆虚拟机的向导界面,根据向导提示,在“克隆类型”引导界

面选择“创建完整克隆”,具体设置如下图所示:

然后输入被克隆的虚拟机名称,先暂输入slave1,点击确认进行克隆,将克隆好的系统复

制到除master之外的三台PC节点上,用虚拟机VMware识别并将其启动,并在虚拟机启动

界面点击“虚拟机—设置—选项—常规”设置中,分别修改虚拟机名称为slave1、slave2和 slave3,如下图所示。

设置IP地址

在Hadoop平台上,各个节点之间的互访是基于TCP/IP协议的,所以要为各个节点分配IP 地址。在四个PC节点上,点击桌面右上角从左到右的第一个数据连接图标

在下拉菜单中选择最后一项“Edit Connections…”

在弹出的“Network Connections”框中选择“Edit…”,显示“Editing Ethernet connection1”框,点击“IPv4Settings”将弹出的Method选择框设置为Manual,然后添加IP地址。

添加同一网关内的IP地址、子网掩码、默认网关,目的是让各个节点机器能够互访。需要

注意的是在设置IP地址时,需要首先在DNS servers输入相应的IP地址,否则无法填写“Addresses”项内容。

因此,我们将DNS服务器(DNS servers)地址设置为:,接下来将master节点的IP地址(Address)设置为:,子网掩码(Netmask)设置为:,默认网关(Gateway)设置为:。

用同样的方法,将虚拟机salve1的IP地址设置为:(DNS服务器);(IP地址);(子网掩码);(网关),将slave2的IP地址设置为:(DNS服务器);(IP地址);(子网掩码);(网关),将slave3的IP地址设置为:(DNS服务器);(IP地址);(子网掩码);(网关)。

修改机器名

通过克隆得到的ubuntu系统有相同的机器名,所以要修改加载在各虚拟机中的系统名称,

来区分不同的节点,以便后期操作。

在master机器上打开etc/hostname文件,命令为:

sudo gedit /etc/hostname

将etc/hostname文件内容修改为master

用同样的方法分别在刚刚克隆得到的slave1、slave2和slave3上,修改其机器名:

将slave1的机器名修改为slave1

将slave2的机器名修改为slave2

将slave3的机器名修改为slave3

修改hosts文件

通过修改hosts文件可以实现机器名和IP地址之间的映射,在master节点上,打开文件/etc/hosts,命令为:

sudo gedit /etc/hosts

将/etc/hosts文件修改为

master

slave1

slave2

slave3

用同样的方法,在slave1、 slave2和slave3机器上修改如上hosts文件,映射配置与master 一致。配置完成后重启master和slave1、 slave2和slave3使其生效。

建立SSH无密码互访

通过建立SSH无密码互访,可以实现Hadoop虚拟机集群之间的无密码登陆互访。首先在4台机器上均生成秘钥对,并将slave1、slave2和slave3分别所生成的公钥进行重命名后发

送到master机器上,由master将自身所生成的公钥与其它三台slave节点发送过来的公钥合并到一个文件中,重新分发给三台slave节点。对于不同的机器执行对应的操作如下:

(1)master生成密钥对

ssh-keygen -t rsa sh/(隐藏的文件夹)下生成两个文件id_rsa 和

(2)slave1生成密钥对,重命名公钥,并将其发送到maser

在终端terminal输入如下命令:

ssh-keygen -t rsa sh/(隐藏的文件夹)下生成两个文件id_rsa 和,并重命名公钥为,执行命令:

scp ~/.ssh/

将重命名后的文件都复制到master机,命令如下:

scp ~/.ssh/ hadoop@master:/home/hadoop/.ssh/

(3)slave2生成密钥对,重命名公钥,并将其发送到maser

slave2执行与slave1类似的命令:

ssh-keygen -t rsa sh/ hadoop@master:/home/hadoop/.ssh/

(4)slave3生成密钥对,重命名公钥,并将其发送到maser

slave3也执行与slave1类似的操作:

ssh-keygen -t rsa sh/ hadoop@master:/home/hadoop/.ssh/

(5)master合并公钥,重新分发给各slave节点

在master机器的/home/hadoop/.ssh/文件夹中重命名秘钥文件,命令如下:

mv authorized_keys

然后把每台slave机器发过来的文件合并到authorized_keys,命令如下:

cat >> authorized_keys

cat >> authorized_keys

cat >> authorized_keys

最后把合成的authorized_keys发给每台slave机器:

scp authorized_keys hadoop@slave1:/home/hadoop/.ssh/authorized_keys

scp authorized_keys hadoop@slave2:/home/hadoop/.ssh/authorized_keys

scp authorized_keys hadoop@slave3:/home/hadoop/.ssh/authorized_keys

(6)节点间无密码互访测试

在任意机器上输入命令访问另一台机器,命令如下:

ssh slave1

如果返回”Agent admitted failure to sign using the key“,不能连接到slave1,此时可输入命令:

ssh-agent

使ssh-agent处于运行状态。再将id_rsa添加到ssh-agent中,命令为:

ssh-add id_rsa

启动Hadoop

启动HDFS

(1)初始化namenode

在运行Hadoop平台之前,要在master上格式化文件系统,建立HDFS。切换至hadoop用户,进入/home/hadoop/,初始化Namenode,执行命令如下:

cd /home/hadoop/ namenode –format Storage directory /home/hadoop/hdfs/name has been successfully formatted,则说明格式化HDFS成功,初始化完成之后会自动的在/home/hdoop/创建dfs/name/目录。

(2)测试启动HDFS

在hadoop用户下,启动namenode,执行命令: start namenode;启动datanode,执行命令: start datanode。当namenode与datanode均启动之后,可使用jps命令查看进程,命令如下:

jps

当同时看到下列进程时,标明hadoop正常运行:

3588 NameNode

3692 DataNode

3757 Jps

如上述进程启动过程正常,则可启动HFS。在hadoop用户下,切换至/home/hadoop/目录下,执行命令:

cd /home/hadoop/执行脚本./,启动HDFS

在上述目录下执行脚本文件,命令为:./,使用jps命令查看进程,终端显示:

4177 SecondaryNameNode

3588 NameNode

3692 DataNode

4285 Jps

其中master产生SecondaryNameNode和NameNode进程,slave节点产生DataNode进程。启动YARN

在hadoop用户下,切换至/home/hadoop/目录下,执行命令:

cd /home/hadoop/执行脚本./,启动YARN

在terminal终端输入命令:./,执行脚本文件,使用jps命令查看master节点进程时,终

端显示:

4177 SecondaryNameNode

4660 Jps

3588 NameNode

4411 ResourceManager

3692 DataNode

其中master产生ResourceManager、NameNode和SecondaryNameNode进程,同时输入jps 命令在slave节点进行进程查看时终端显示:

3329 DataNode

3670 Jps

3484 NodeManager

可知slave节点上产生DataNode和NodeManager进程。

异常处理2:

问题:Hadoop启动发生异常,有些进程不能被启动。

解决方法:执行命令./、./ 或直接执行./ 命令关闭进程后,清空/home/hadoop/dfs和/home/hadoop/dfs文件夹中的数据,并重新执行格式化,命令如下:

rm -rf /home/hadoop/dfs/

rm -rf /home/hadoop/tmp

hdfs namenode –format

异常处理3:

问题:slave 节点 DataNode 无法启动。

解决方法:

a、系统防火墙没有关闭:执行命令sudo ufw disable关闭防火墙;

b、所有节点 hosts 链表不统一,或有错误:重新检查IP地址与机器名之间的对应关系,

检查hadoop的配置文件中是否发生IP地址的书写错误;

c、多次 format namenode 造成 namenode 和 datanode 的 clusterID 不一致:更改slave Cluster ID 使其与master 相同,修改每一个datanode 上面的CID(位于home/hadoop/dfs/data/current/VERSION 文件夹中)使两者一致;删除所有节点/home/hadoop/dfs/data/下 curren目录,重新运行脚本即可。

Hadoop平台测试

在Hadoop平台搭建完成后,我们要对Hadoop平台进行测试。在Hadoop的安装目录下,提供了一个单词统计程序—WordCount。WordCount程序运行于Hadoop计算平台之上,充分利用了MapReduce和HDFS。它可以对文件中单词出现次数进行统计,然后给出统计结果。我

们通过运行WordCount程序,可以检测Hadoop平台是否能够正常运行。

(1)在HDFS上建立相应的目录和相应的文本文件

在/home/hadoop/目录下建立文件夹input,并进入文件夹input,执行命令如下:

mkdir /home/hadoop/input

cd /home/hadoop/input

建立文件file01和file02,并分别写入要统计的内容,命令如下:

echo "hello world bye world" > file01

ar,${}/lib,${}/lib/*.jar,${}/../lib/*.jar,/usr/lib/hadoop/*.jar,/home/hadoop/

(2)配置文件

打开/home/hadoop/下的文件,在文件中检索文本“,将等号“=”后的目录修改为:

/home/hadoop/,即配置:

此处的配置文件中不能用环境变量(比如$HADOOP_HOME

),必须用全路径。

jar包的拷贝与替换

(1)拷入需要用到的Oracle的jdbc包到相关目录

由于从Oracle等数据库向HBase、HDFS等Hadoop存储系统导入数据时,需要建立Oracle 与Sqoop的连接,这就需要用到一个Oracle驱动程序 jdbc的jar包,因此将下载好的包拷贝到以下两个Sqoop文件目录下:

/home/hadoop/ 到此,正常启动。

Hadoop云计算实验报告

Hadoop云计算实验报告

Hadoop云计算实验报告 1实验目的 在虚拟机Ubuntu上安装Hadoop单机模式和集群; 编写一个用Hadoop处理数据的程序,在单机和集群上运行程序。 2实验环境 虚拟机:VMware 9 操作系统:ubuntu-12.04-server-x64(服务器版),ubuntu-14.10-desktop-amd64(桌面版)Hadoop版本:hadoop 1.2.1 Jdk版本:jdk-7u80-linux-x64 Eclipse版本:eclipse-jee-luna-SR2-linux-gtk-x86_64 Hadoop集群:一台namenode主机master,一台datanode主机salve, master主机IP为10.5.110.223,slave主机IP为10.5.110.207。 3实验设计说明 3.1主要设计思路 在ubuntu操作系统下,安装必要软件和环境搭建,使用eclipse编写程序代码。实现大数据的统计。本次实验是统计软件代理系统操作人员处理的信息量,即每个操作人员出现的次数。程序设计完成后,在集成环境下运行该程序并查看结果。 3.2算法设计 该算法首先将输入文件都包含进来,然后交由map程序处理,map程序将输入读入后切出其中的用户名,并标记它的数目为1,形成的形式,然后交由reduce处理,reduce 将相同key值(也就是word)的value值收集起来,形成的形式,之后再将这些1值加起来,即为用户名出现的个数,最后将这个对以TextOutputFormat 的形式输出到HDFS中。 3.3程序说明 1) UserNameCountMap类继承了org.apache.hadoop.mapreduce.Mapper,4个泛型类 型分别是map函数输入key的类型,输入value的类型,输出key的类型,输出value 的类型。 2) UserNameCountReduce类继承了org.apache.hadoop.mapreduce.Reducer,4个泛 型类型含义与map类相同。 3) main函数通过addInputPath将数据文件引入该类,在通过setOutputPath将生成 结果转为一个文件,实现生成结果,即统计结果的查看。 FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); 程序具体代码如附件中源程序。

Hadoop、hive环境搭建详解

一、
Hadoop 环境搭建 首先在 Apache 官网下载 hadoop 的包 hadoop-0.20.2.tar.gz。 解压 hadoop-0.20.2.tar.gz 包,具体命令如下: tar zxvf hadoop-0.20.2.tar.gz 其中要注意的是,tar 包用 xvf ,gz 包用 zxvf。
在安装中,如果遇到识别问题,或者无法解压,很有可能是权限问题,解决方案 是修改此文件的使用权限,命令如下: chmod 777 hadoop-0.20.2.tar.gz 其中,777 为所有权限。 如果依然报错,如:Archive contains obsolescent base-64 headers;Error exit delayed from previous errors。 这种情况,一般是压缩包损坏的问题。因为大多数人会将包下载到 windows 环境,再通过 ftp 等方法上传到 Linux 环境。容易产生包损坏。建议大 家直接下载到 Linux 即可。具体命令如下: wget https://www.360docs.net/doc/d013368356.html,/apache-mirror/hadoop/core/hadoop-0.20.2/ hadoop-0.20.2.tar.gz 直接下载到当前目录。 当文件准备好之后,我们要修改配置,将 Hadoop 简单 run 起来。 首先,我们进入 hadoop-0.20.2/conf 目录当中,其中会存在如下配置文件: 首先修改 masters 和 slaves,这个是指定我们的 m 和 s 的 ip 地址,这里我们 就以单台机器为例子,在文件中直接输入当前机器的 IP。 之后我们修改 mapred-site.xml 文件,具体配置如下 Xml 代码 1. 2. 3.

Hadoop云计算平台实验报告V1.1

Hadoop云计算平台实验报告V1.1

目录 1实验目标 (3) 2实验原理 (4) 2.1H ADOOP工作原理 (4) 2.2实验设计 (6) 2.2.1可扩展性 (6) 2.2.2稳定性 (7) 2.2.3可靠性 (7) 3实验过程 (9) 3.1实验环境 (9) 3.1.1安装Linux操作系统 (10) 3.1.2安装Java开发环境 (14) 3.1.3安装SSH (15) 3.1.4配置网络 (15) 3.1.5创建SSH密钥安全联机 (19) 3.1.6配置Hadoop云计算系统 (19) 3.1.7配置Slaves节点 (23) 3.1.8格式化Hadoop系统 (23) 3.1.9启动Hadoop集群 (23) 3.22.实验过程 (25) 3.2.1可扩展性 (25) 3.2.1.1动态扩展 (25) 3.2.1.2动态缩减 (27) 3.2.2稳定性 (28) 3.2.3可靠性 (31) 3.2.4MapReduce词频统计测试 (32) 4实验总结 (35)

1. 掌握Hadoop安装过程 2. 理解Hadoop工作原理 3. 测试Hadoop系统的可扩展性 4. 测试Hadoop系统的稳定性 5. 测试Hadoop系统的可靠性

2.1Hadoop工作原理 Hadoop是Apache开源组织的一个分布式计算框架,可以在大量廉价的硬件设备组成集群上运行应用程序,为应用程序提供一组稳定可靠的接口,旨在构建一个具有高可靠性和良好扩展性的分布式系统。Hadoop框架中最核心的设计就是:MapReduce和HDFS。MapReduce 的思想是由Google的一篇论文所提及而被广为流传的,简单的一句话解释MapReduce就是“任务的分解与结果的汇总”。HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写,为分布式计算、存储提供了底层支持。 HDFS采用C/S架构,对外部客户机而言,HDFS就像一个传统的分级文件系统。可以对文件执行创建、删除、重命名或者移动等操作。HDFS中有三种角色:客户端、NameNode和DataNode。HDFS的结构示意图见图1。 NameNode是一个中心服务器,存放着文件的元数据信息,它负责管理文件系统的名字空间以及客户端对文件的访问。DataNode节点负责管理它所在节点上的存储。NameNode对外暴露了文件系统的名字空间,用户能够以文件的形式在上面存储数据。从内部看,文件被分成一个或多个数据块,这些块存储在一组DataNode上,HDFS通过块的划分降低了文件存储的粒度,通过多副本技术和数据校验技术提高了数据的高可靠性。NameNode执行文件系统的名字空间操作,比如打开、关闭、重命名文件或目录。它也负责确定数据块到具体DataNode节点的映射。DataNode负责存放数据块和处理文件系统客户端的读写请求。在NameNode的统一调度下进行数据块的创建、删除和复制。

win7+eclipse+hadoop开发环境搭建

Win7+eclipse+Ubuntu14虚拟机环境下搭建hadoop1.2.1单机模式的开发环境 1.虚拟机下安装ubuntu14操作系统。 **注:(我安装ubuntu的时候的用户名是zjp一下涉及到的所有的zjp都需要换成自己的用名) 2.Ctrl+Alt+t 快捷键可以打开终端。 3.激活root用户sudo passwd root 4.联网的情况下,可以用apt-get install samba命令下载以及安装samba服务器。这个主要是为了window向ubuntu中上传jdk以及hadoop的安装文件。(如果apt-get命令无法使用,先用apt-get update安装这个命令。如果主机联网了,但是ubuntn没有连上网,那么将虚拟机的网络适配器改为NA T模式,并且启动任务管理器。打开服务,查看VMware NAT service 和WMware DPCH service是否启动,如果没有启动那么就启动这两个服务。如果还不能联网那就在虚拟机的菜单栏中选择编辑->虚拟网络编辑器,恢复默认设置。重启一下电脑,如果还是不行,那就没办法了,自求多福!) 5.联网的情况下安装ssh协议apt-get install ssh 6.在/home/zjp 目录下创建两个文件夹1.share用于存放共享文件 2.mysoftware用于存放需要安装的软件 7.配置samba共享su root 切换至root用户gedit /etc/samba/smb.conf 编辑samba 的配置文件在文件的最后添加 [share] comment=sharedir path=/home/zjp/share read only=no browseable=yes guest ok=no 7.关闭防火墙ufw disable 8重启samba服务器service samba restart 9创建samba用户smbpasswd -a samba用户名eg:smbpasswd -a zkpk 10ifconfig查看ubuntu的ip地址。例如ip是192.168.30.128 11打开我的电脑,在地址栏中输入\\192.168.30.128不出意外的话会让你登录,就用创建的samba登录就可以了。然后把下载好的linux版本的jdk和hadoop的安装文件拷贝进去。12.再把传到share目录下面的两个文件拷贝到mysoftware中去。 这些准备工作都做好了,就可以安装jdk以及hadoop了 一.先安装jdk 1.在mysoftware目录下用tar -zxvf jdk-7u55-linux-x64.gz命令解压以及安装jdk。 2.配置环境变量 gedit /etc/profile 然后在文件的最末尾添加如下内容: JA V A_HOME=/home/xkl/mysof/jdk1.7.0_60 export PA TH=$PATH:$JA V A_HOME/bin OK注销一下Ubuntu然后在终端中输入java -version如果可以看见jdk的版本,说明jdk 安装成功。 二.安装hadoop

Hadoop云计算平台搭建最详细过程(共22页)

Hadoop云计算平台及相关组件搭建安装过程详细教程 ——Hbase+Pig+Hive+Zookeeper+Ganglia+Chukwa+Eclipse等 一.安装环境简介 根据官网,Hadoop已在linux主机组成的集群系统上得到验证,而windows平台是作为开发平台支持的,由于分布式操作尚未在windows平台上充分测试,所以还不作为一个生产平台。Windows下还需要安装Cygwin,Cygwin是在windows平台上运行的UNIX模拟环境,提供上述软件之外的shell支持。 实际条件下在windows系统下进行Hadoop伪分布式安装时,出现了许多未知问题。在linux系统下安装,以伪分布式进行测试,然后再进行完全分布式的实验环境部署。Hadoop完全分布模式的网络拓补图如图六所示: (1)网络拓补图如六所示: 图六完全分布式网络拓补图 (2)硬件要求:搭建完全分布式环境需要若干计算机集群,Master和Slaves 处理器、内存、硬盘等参数要求根据情况而定。 (3)软件要求 操作系统64位版本:

并且所有机器均需配置SSH免密码登录。 二. Hadoop集群安装部署 目前,这里只搭建了一个由三台机器组成的小集群,在一个hadoop集群中有以下角色:Master和Slave、JobTracker和TaskTracker、NameNode和DataNode。下面为这三台机器分配IP地址以及相应的角色: ——master,namenode,jobtracker——master(主机名) ——slave,datanode,tasktracker——slave1(主机名) ——slave,datanode,tasktracker——slave2(主机名) 实验环境搭建平台如图七所示:

Hadoop环境的搭建与管理 (1)

Hadoop环境的搭建与管理 1、Hadoop的安装与配置 HDFS在Master节点启动dfs和yarn服务时,需要自动启动Slave节点服务,HDFS需要通过ssh访问Slave节点机。HDFS需要搭建多台服务器组成分布式系统,节点机间需要无密码访问。本节任务是进行ssh的设置、用户的创建、hadoop参数的设置,完成HDFS分布式环境的搭建。 任务实施: 本节任务需要四台节点机组成集群,每个节点机上安装CentOS-6.5-x86_64系统。四台节点机使用的IP地址分别为:192.168.23.111、192.168.23.112、192.168.23.113、192.168.23.114,对应节点主机名为:node1、node2、node3、node4。节点机node1作为NameNode,其他作为DataNode。 创建hadoop用户,分别在四台节点机上创建用户hadoop,uid=660,密码分别为h1111, h2222, h3333, h4444。登录node1节点机,创建hadoop用户和设置密码。操作命令如下。 [root@node1 ~]# useradd -u 660 hadoop [root@node1 ~]# passwd hadoop 其他节点机的操作相同。 步骤2 设置master节点机ssh无密码登录slave节点机。 (1)在node1节点机上,以用户hadoop用户登录或者使用su – hadoop切换到hadoop 用户。操作命令如下。 [root@node1 ~]# su - hadoop (2)使用ssh-keygen生成证书密钥,操作命令如下。 [hadoop@node1 ~]$ssh-keygen -t dsa (3)使用ssh-copy-id分别拷贝证书公钥到node1,node2,node3,node4节点机上,操作命令如下。 [hadoop@node1 ~]$ ssh-copy-id -i .ssh/id_dsa.pub node1 [hadoop@node1 ~]$ ssh-copy-id -i .ssh/id_dsa.pub node2 [hadoop@node1 ~]$ ssh-copy-id -i .ssh/id_dsa.pub node3 [hadoop@node1 ~]$ ssh-copy-id -i .ssh/id_dsa.pub node4 (4)在node1节点机上使用ssh测试无密码登录node1节点机,操作命令如下。 [hadoop@node1 ~]$ ssh node1 Last Login: Mon Dec 22 08:42:38 2014 from node1 [hadoop@node1 ~]$ exit Logout Connection to node1 closed.

Hadoop云计算实验报告

云计算实验报告Hadoop 云计算实验报告Hadoop 实验目的1在虚拟机上安装单机模式和集群;Ubuntu Hadoop编写一个用处理数据的程序,在单机和集群上运行程序。Hadoop 实验环境2虚拟机:9VMware(桌面(服务器版),操作系统: -desktop--server-x64amd64ubuntu-14.10ubuntu-12.04 版)版本: 1.2.1hadoop Hadoop版本: x647u80-linuxJdk -jdk-版本:x86_64-gtk-jee-luna-SR2-linuxEclipse eclipse-,主机集群:一台主机,一台mastersalve datanodeHadoop namenode 。,主机为主机为master IP IP 10.5.110.22310.5.110.207slave 实验设计说明3 主要设计思路 3.1 eclipse编写程序代码。实现在ubuntu操作系统下,安装必要软件和环境搭建,使用大数据的统计。本次实验是统计软件代理系统操作人员处理的信息量,即每个操作人员出现的次数。程序设计完成后,在集成环境下运行该程序并查看结果。算法设计 3.2 程序将输入读入后该算法首先将输入文件都包含进来,然后交由map程序处理,map处理,切出其中的用户名,并标记它的数目为1,形成的形式,然后交由reduce值收集起来,形成的形式,(reduce将相同key值也就是word)的value1值加起来,即为用户名出现的个数,最后将这个对以之后再将这些中。的形式输出到HDFSTextOutputFormat 程序说明 3.3 4个泛型类类继承了1)UserNameCountMap org.apache.hadoop.mapreduce.Mapper,的类型,输出的类型,输入value的类型,输出key函数输入型分别是map key value的类型。个泛,4org.apache.hadoop.mapreduce.ReducerUserNameCountReduce2)类继承了 类相同。map型类型含义与

大数据处理与云计算教学大纲

大数据处理与云计算教学大纲 (总4页) -CAL-FENGHAI.-(YICAI)-Company One1 -CAL-本页仅作为文档封面,使用请直接删除

《大数据处理与云计算》教学大纲 课程类别:专业教育课课程名称:大数据处理与云计算 开课单位:信息与通信工程学院课程编号:N03050703 总学时:40 学分: 适用专业:信息工程专业 先修课程:无 一、课程在教学计划中的地位、作用 大数据处理与云计算是信息工程专业高年级学生开设的一门专业教育课。本课程主要学习大数据处理和云计算的相关原理和技术,根据实际需求,构建相应的大数据处理和云计算平台框架。 通过本课程学习,使学生掌握大数据的采集、传输、处理和应用的技术,了解Hadoop分布式系统基础架构,掌握HDFS和MapReduce技术。了解HBase、Hive、Zookeeper、Avro、Pig等相关大数据技术,与实际工程应用相结合,构建相应的云计算平台。教学应当结合实际实验条件,培养学生实践动手能力,了解大数据技术发展现状,促进大数据相关教学改革。 二、课程教学内容、要求及学时分配 第一章大数据与云计算概况 1、了解大数据概念 2、了解大数据的产生、应用和作用 3、了解云计算技术的概述 4、了解云计算的特点及技术分类 5、了解大数据与云计算、物联网之间的关系 第二章大数据处理与云计算的关键技术 1、理解大数据处理的基本流程 2、掌握大数据的关键技术 3、理解大数据的处理工具

4、了解大数据面临的挑战 5、理解云计算及关系型数据库 第三章 Hadoop 1、了解Hadoop概述 2、了解 Hadoop发展简史 3、理解Hadoop的功能与作用 4、了解 Hadoop的优缺点 5、了解Hadoop的应用现状和发展趋势 6、掌握Hadoop项目及其结构 7、掌握Hadoop的体系结构 8、掌握HDFS的体系结构 第四章 MaReduce 1、理解分布式并行编程 2、理解MapReduce模型概述 3、掌握Map和Reduce函数 4、掌握MapReduce工作流程 5、掌握并行计算的实现 6、掌握新的MapReduce框架:Yarn 7、理解新旧Hadoop MapReduce框架的对比第五章 HDFS 1、理解HDFS的假设与目标 2、理解HDFS的相关概念 3、掌握HDFS体系结构 4、掌握HDFS命名空间 5、掌握HDFS存储原理 6、掌握通讯协议 7、理解数据错误和异常 8、理解从HDFS看分布式文件系统的设计需求第六章 Zookeeper 1、了解Zookeeper简介

hadoop环境配置入门教程

ubuntu 下安装配置hadoop 1.0.4 第一次搞hadoop,折腾我2天,功夫不负有心人,终于搞好了,现在来分享下, 我的环境 操作系统:wmv虚拟机中的ubuntu12.04 hadoop版本:hadoop-1.0.4(听说是稳定版就下了) eclipse版本:eclipse-jee-indigo-SR2-win32 1.先安装好jdk,然后配置好jdk的环境变量,在这里我就不累赘了!网上多的是 2.安装ssh这个也不用说了 2.把hadoop-1.0.4.tar.gz拖到虚拟机中,解压,比如: /home/wys/Documents/hadoop-1.0.4/ (有的还单独建了个用户,为了舍去不必要的麻烦我都是用root用户来操作的) 3.修改hadoop-1.0.4/conf 下面的core-site.xml文件,如下: https://www.360docs.net/doc/d013368356.html, hdfs://192.168.116.128:9000 hadoop.tmp.dir /home/wys/Documents/tmp

192.168.116.128这个是虚拟机中ubuntu的ip,听说用localhost,127.0.0.1都不行,我没试过,直接写上ip地址了 tmp是预先创建的一个目录 4.修改hadoop-env.sh 把export JAVA_HOME=xxxxxx 这行的#号去掉,写上jdk的目录路径 5.修改hdfs-site.xml如下: dfs.replication 1 dfs.permissions false 说明:为了以后用eclipse开发出现各种问题,就把权限关了!

Hadoop安装配置超详细步骤

Hadoop的安装 1、实现linux的ssh无密码验证配置. 2、修改linux的机器名,并配置/etc/hosts 3、在linux下安装jdk,并配好环境变量 4、在windows下载hadoop 1.0.1,并修改hadoop-env.sh,core-site.xml, hdfs-site.xml, mapred-site.xml,masters,slaves文件的配置 5、创建一个给hadoop备份的文件。 6、把hadoop的bin加入到环境变量 7、修改部分运行文件的权限 8、格式化hadoop,启动hadoop 注意:这个顺序并不是一个写死的顺序,就得按照这个来。如果你知道原理,可以打乱顺序来操作,比如1、2、3,先哪个后哪个,都没问题,但是有些步骤还是得依靠一些操作完成了才能进行,新手建议按照顺序来。

一、实现linux的ssh无密码验证配置 (1)配置理由和原理 Hadoop需要使用SSH协议,namenode将使用SSH协议启动namenode和datanode进程,(datanode向namenode传递心跳信息可能也是使用SSH协议,这是我认为的,还没有做深入了解)。大概意思是,namenode 和datanode之间发命令是靠ssh来发的,发命令肯定是在运行的时候发,发的时候肯定不希望发一次就弹出个框说:有一台机器连接我,让他连吗。所以就要求后台namenode和datanode 无障碍的进行通信。 以namenode到datanode为例子:namenode作为客户端,要实现无密码公钥认证,连接到服务端datanode上时,需要在namenode上生成一个密钥对,包括一个公钥和一个私钥,而后将公钥复制到datanode上。当namenode通过ssh连接datanode时,datanode就会生成一个随机数并用namenode的公钥对随机数进行加密,并发送给namenode。namenode收到加密数之后再用私钥进行解密,并将解密数回传给datanode,datanode确认解密数无误之后就允许namenode 进行连接了。这就是一个公钥认证过程,其间不需要用户手工输入密码。重要过程是将客户端namenode公钥复制到datanode上。

Hadoop实验环境搭建

单机上通过虚拟机搭建Hadoop环境 (以下过程软件版本不固定,只能相互兼容就可以) 1.安装vmware workstation(1 2.1.0) 2.创建3个虚拟机(每个虚拟机512M内存,8G空间),每个虚拟机安装Ubuntu 桌面版 (11.10)(虚拟机需安装vmare tools,上网上式可设置为桥接方式:直接连接物理网络)。 一个虚拟机作为name node(master),两个虚拟机作为data node 1(slave1)和data node 2(slave2).三个虚拟机可以共享一个主机目录share,该目录在虚拟机上显示为/mnt/hgfs/share 对每个虚拟机: 修改root密码(sudo passwd root),然后用root用户登录。 3.通过如下配置master, slave1, slave2。 1)通过vi /etc/hostname修改主机名。 2)通过vi /etc/hosts修改/etc/hosts 文件,增加三台机器的ip和hostname的映射关系. 在/usr/src目录: 4.下载zlib(1.2.8)并解压安装 5.下载openssl(1.0.1)并解压安装 6.下载openssh(6.0p1)并解压安装 安装后运行命令ssh localhost,如果显示” Privilege separation user sshd does not exist”,解决方法: 修改/etc/passwd,在其中加入 sshd:x:74:74:Privilege-seperated SSH:/var/empty/sshd:/nologin 7.配置ssh无密码登录 在命令行输入:vi /etc/profile.d/hadoop.sh 在hadoop.sh加入以下命令: sudo ufw disable /usr/local/sbin/sshd 在name node: ssh-keygen –t dsa -P ‘’–f ~/.ssh/id_dsa 在data node 1: ssh-keygen –t dsa-P‘’–f ~/.ssh/id_dsa 在data node 2: ssh-keygen –t dsa -P‘’–f ~/.ssh/id_dsa 在name node: scp ~/.ssh/id_dsa.pub /mnt/hgfs/share/id_dsa0.pub 在data node 1: scp ~/.ssh/id_dsa.pub /mnt/hgfs/share/id_dsa1.pub 在data node 2: scp ~/.ssh/id_dsa.pub /mnt/hgfs/share/id_dsa2.pub

hadoop云计算实验指导书

计算机科学与技术学院 网络计算设计与实现 实验指导书

实验一SOCKET编程 【试验环境】 计算机、TCP/IP协议、VS2005 【实验目的】 1.理解基本TCP/IP协议编程原理; 2.掌握如何利用SOCKET编写网络程序; 3.掌握VS2005编程环境,多线程程序设计等。 【实验要求】 1.编写一个服务端的程序,接收来自客户端的访问请求,并返回相关信息; 2.编写一个客户端程序,向服务端发送连接请求,并显示返回的结果; 3.完善服务端程序,使它能够同时支持多个客户端的请求。 【预备知识】 p ublic Socket Accept ():为新建连接创建新的 Socket。 public void Bind (EndPoint localEP):使 Socket 与一个本地终结点 相关联。 public void Close ():关闭 Socket 连接并释放所有关联的资源。 public void Connect (EndPoint remoteEP):建立与远程主机的连接。 注意这个方法有重载方法。 public void Disconnect (bool reuseSocket):关闭套接字连接并是否 允许重用套接字。 public void Listen (int backlog):将 Socket 置于侦听状态。

public int Receive (byte[] buffer):接收来自绑定的 Socket 的数据。 注意这个方法有重载方法。 public int ReceiveFrom (byte[] buffer,ref EndPoint remoteEP):接 收数据报并存储源终结点。注意这个方法有重载方法。 public int Send (byte[] buffer):将数据发送到连接的 Socket。注意 这个方法有重载方法。 public void SendFile (string fileName):将文件和可选数据异步发送 到连接的 Socket。注意这个方法有重载方法。 public int SendTo (byte[] buffer,EndPoint remoteEP):将数据发送 到特定终结点。注意这个方法有重载方法。 public void Shutdown (SocketShutdown how):禁用某 Socket 上的发 送和接收。 因为在网络传输时传输的数据都是二进制形式的(表现为字节数组),所以如果要传输类似于中文这样的双字节字符就需要在传输之前用合适的编码转换成字节数组,然后接收方按照发送方的编码将接收到字节数组转换成字符串。 另外,注意接收数据的时候是先声明了一个字节数组,然后将接收到的数据保存到字节数组中,这个方法有个返回值表示实际接收了多少字节数据。【实验内容】 实现一个服务器端的面向连接的Socket用于接收客户端的请求的话,有如下步骤: 1.首先根据IP地址和端口号实例化一个Socket,注意端口要要大于1024并 且不要使用特殊端口号,要大于1024的原因是1024以下的端口号已经被

虚拟机环境下Hadoop伪分布式平台搭建详细过程

大数据技术平台搭建之Hadoop 1. Hadoop(伪分布式)平台搭建详细过程 1.1 工具 ?VMware12 ?CentOS 6.4 ?JDK-6u24-Linux-i586.bin ?Hadoop-1.1.2.tar.gz ?Scala-2.9.3.tgz ?Spark-1.4.0-bin-hadoop1.tgz ?Win10系统环境 1.2 详细搭建过程 1.2.1 安装虚拟机VMware Workstation 12 Pro 图1.1 VMware Workstation 12 Pro软件开始界面1.2.2 在虚拟机环境上安装Linux系统 (1)点击创建新的虚拟机按钮选择典型配置安装 图1.2 新建虚拟机向导

(2)选择Linux镜像文件,开始虚拟安装 图1.3 选择安装镜像文件(3)为新建的虚拟机命名,并选择安装目录 图1.4 命名、选择安装目录(4)指定虚拟机磁盘大小 图1.5 指定磁盘大小

(5)设置硬件、网络类型等虚拟机配置 图1.6 自定义虚拟机硬件 (6)点击完成按钮完成虚拟机安装 图1.7 CentOS_Linux虚拟机系统安装成功

1.2.3 配置Linux环境,为安装Hadoop做准备 (1)关闭防火墙 执行命令 service iptables status可以查看防火墙状态 执行命令 service iptables stop 关闭防火墙 图1.8 关闭防火墙并检验 执行命令chkconfig iptables off,关闭防火墙某些功能自启动 图1.9 关闭防火墙自启功能并检验 (2)设置网络连接 宿主机(Windows)和客户机(虚拟机中的Linux)采用host-only方式建立网络连接,具体步骤:右击桌面右上角网络连接图标,选择编辑网络连接,如下 图1.10 虚拟机网络设置窗口 接着点击按钮,设置IPv4地址,注意要和主机IP在同一网段 192.168.80.X 图1.11 设置ip窗口

云计算-Hadoop基础知识

https://www.360docs.net/doc/d013368356.html, 云计算-Hadoop基础知识 hadoop是什么? (1)Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任何数据形式最终会转化为key/value,key/value是基本数据单元。用函数式变成Mapreduce代替SQL,SQL是查询语句,而Mapreduce则是使用脚本和代码,而对于适用于关系型数据库,习惯SQL的Hadoop有开源工具hive代替。 (2)Hadoop就是一个分布式计算的解决方案. hadoop能做什么? hadoop擅长日志分析,facebook就用Hive来进行日志分析,2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析;淘宝搜索中的自定义筛选也使用的Hive;利用Pig还可以做高级的数据处理,包括Twitter、LinkedIn 上用于发现您可能认识的人,可以实现类似https://www.360docs.net/doc/d013368356.html,的协同过滤的推荐效果。淘宝的商品推荐也是!在Yahoo!的40%的Hadoop作业是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。(2012年8月25新更新,天猫的推荐系统是hive,少量尝试mahout!) 下面举例说明: 设想一下这样的应用场景. 我有一个100M 的数据库备份的sql 文件.我现在想在不导入到数据库的情况下直接用grep操作通过正则过滤出我想要的内容。例如:某个表中含有相同关键字的记录那么有几种方式,一种是直接用linux的命令 grep 还有一种就是通过编程来读取文件,然后对每行数据进行正则匹配得到结果好了现在是100M 的数据库备份.上述两种方法都可以轻松应对. 那么如果是1G , 1T 甚至 1PB 的数据呢 ,上面2种方法还能行得通吗?答案是不能.毕竟单台服务器的性能总有其上限.那么对于这种超大数据文件怎么得到我们想要的结果呢?有种方法就是分布式计算, 分布式计算的核心就在于利用分布式算法把运行在单台机器上的程序扩展到多台机器上并行运行.从而使数据处理能力成倍增加.但是这种分布式计算一般对编程人员要求很高,而且对服务器也有要求.导致了成本变得非常高. Haddop 就是为了解决这个问题诞生的.Haddop 可以很轻易的把很多linux的廉价pc 组成分布式结点,然后编程人员也不需要知道分布式算法之类,只需要根据mapreduce的规则定义好接口方法,剩下的就交给Haddop. 它会自动把相关的计算分布到各个结点上去,然后得出结果. 例如上述的例子: Hadoop 要做的事首先把 1PB的数据文件导入到 HDFS中, 然后编程人员定义好 map和reduce, 也就是把文件的行定义为key,每行的内容定义为value , 然后进行正则匹配,匹配成功则把结果通过reduce聚合起来返回.Hadoop 就会把这个程序分布到N 个结点去并行的操作.

hadoop20集群搭建详解

hadoop2.2.0集群搭建 PS:apache提供的hadoop-2.2.0的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装 hadoop-2.2.0就需要重新在64操作系统上重新编译 1.准备工作:(参考伪分布式搭建) 1.1修改Linux主机名 1.2修改IP 1.3修改主机名和IP的映射关系 1.4关闭防火墙 1.5ssh免登陆 1.6.安装JDK,配置环境变量等 2.集群规划: PS: 在hadoop2.0中通常由两个NameNode组成,一个处于active

状态, 另一个处于standby状态。Active NameNode对外提供服务, 而Standby NameNode则不对外提供服务,仅同步active namenode 的状态,以便能够在它失败时快速进行切换。 hadoop2.0官方提供了两种HDFS HA的解决方案,一种是NFS, QJM。这里我们使用简单的QJM。在该方案中,另一种是 主备NameNode之间通过一组JournalNode同步元数据信息, 一条数据只要成功写入多数JournalNode即认为写入成功。JournalNode 通常配置奇数个 这里还配置了一个zookeeper集群,用于ZKFC Active (DFSZKFailoverController)故障转移,当 NameNode挂 掉了,会自动切换Standby NameNode为standby状态3.安装步骤: 3.1.安装配置zooekeeper集群 解压3.1.1 tar -zxvf zookeeper-3.4.5.tar.gz -C /cloud/

educoder平台hadoop开发环境搭建

《一》配置开发环境- JavaJDK的配置 mkdir /app 回车 cd /opt 回车 ll 回车 tar -zxvf jdk-8u171-linux-x64.tar.gz 回车 mv jdk1.8.0_171/ /app 回车 vim /etc/profile 在最低下按i复制粘贴下面代码 JAVA_HOME=/app/jdk1.8.0_171 CLASSPATH=.:$JAVA_HOME/lib/tools.jar PATH=$JAVA_HOME/bin:$PATH export JAVA_HOME CLASSPATH PATH 退出wq source /etc/profile 回车 java -version 测评 *******************************************************************************《二》配置开发环境- Hadoop安装与伪分布式集群搭建 cd /opt 回车 ls 回车 echo $JAVA_HOME 回车 ls /app 回车 ls 回车 mkdir /app 回车 cp * /app 回车 cd /app 回车 ls 回车 tar -zxvf hadoop-3.1.0.tar.gz

ls tar -zxvf jdk-8u171-linux-x64.tar.gz 回车 ls 回车 mv hadoop-3.1.0 hadoop3.1 回车 cd jdk1.8.0_171/ 回车 pwd 回车 vim /etc/profile 最底下按i复制 export JAVA_HOME=/app/jdk1.8.0_171 export HADOOP_HOME=/app/hadoop3.1 export PATH=.:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$JAVA_HOME/bin:$PATH 退出wq source /etc/profile 回车 java -version 回车 cd /app 回车 ssh-keygen -t rsa -P '' 按回车 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 回车 chmod 600 ~/.ssh/authorized_keys 回车 vim /etc/ssh/sshd_config 找到#AuthorizedKeysFile %h/.ssh/authorized_keys把#删除 退出wq cd /app/hadoop3.1/etc/hadoop/ 回车 vim hadoop-env.sh 找到# JAVA_HOME=/usr/java/testing hdfs dfs -ls这一行按i在最后面回车,添加下面代码:export JAVA_HOME=/app/jdk1.8.0_171 退出wq vim yarn-env.sh 最底下按i回车 export JAVA_HOME=/app/jdk1.8.0_171 退出wq ————————1———————————————————————————————

Hadoop云计算平台搭建规划方案.docx

Hadoop 云计算平台搭建方案 一、平台搭建概述 总体思路 针对于电网企业在营销服务领域展开的大数据分析处理,搭建Hadoop 云计算平台进行海量数据存储,并作深层次加工、处理,挖掘出无法简单直观便可得到的新的模式,为电力企业 的决策提供指导。平台采用作为海量数据存储和分析工具,将其部署在 4 个物理计算机节点上,搭建 Hadoop 集群,其中 1 个节点作为master 节点,其余 3 个作为 slave 节点。为了获取更好的稳定性,平台搭建在Linux 系统()环境下。 软件列表 软件描述版本 VMware Workstation 虚拟化软件 VMware Workstation 操作系统 JDK Java 的软件开发工具包 开源的云计算基础框架 分布式数据存储系统 可靠协调系统 数据迁移工具 平台搭建总流程和节点信息一览表 在平台搭建前,给出实现的总流程图和节点信息一览表,从而对平台搭建过程和各节点信息有一个全局的认识,平台搭建总流程如下图所示。 创建虚拟机master ,完成 JDK、 Hadoop等应用的安装和配置 对虚拟机master 进行克隆,得到的 虚拟机分别作为slave1 、 slave2 和 完成 Zookeeper 、 HBase等其它分布 式服务的部署,搭建Hadoop 集群 运行并测试Hadoop 集群系统

各节点信息如下表所示: 机器名master slave1 slave2 slave3IP地址用户名充当角色 、 Namenode 、 Datanode 、 Datanode 、 Datanode 二、基础平台的搭建步骤 此次大数据存储和处理平台的搭建,需要虚拟机软件 VMware Workstation 创建虚拟机的配置大部分是相同的,所以利用 4 台物理节点来部署Hadoop平台环境。我们使用4 台虚拟机,承载平台搭建工作。另外,由于对 4 台 VMware Workstation的克隆功能,可以减少部署 的工作量。 安装虚拟机软件VMware Workstation 首先在 4 台 PC机器上均安装虚拟化软件VMware Workstation,并输入相应的序列号。 在master 节点上安装 Linux 系统 Ubuntu 在设定为 master PC节点上首先安装 Linux 系统(版本为),在安装过程中为提高后期安装 软件的兼容性和稳定性,在系统语言上选择英语。创建用户名为“hadoop ”的普通用户,设 置统一的密码。安装完成后将系统的terminal命令窗口调出来,以便使用。 同时,为实现虚拟机的Ubuntu 系统与本机的Windows 系统之间方便快捷的文字复制粘贴以 及物理主机系统与虚拟机系统相互拖放文件进行共享,需要安装VMare Tools 工具,具体操作如下: 启动虚拟机,进入 Ubuntu 系统,在 VM菜单栏“虚拟机 (M) ”的下拉菜单点击“安装VMare Tools(T) ”后,会弹出一个“ VMare Tools ”文件夹,里面包含VMare Tools的安装包,将该安装包拷贝到 /home/hadoop目录下,输入命令进行解压安装: tar xzvf此时在/home/hadoop/目录下产生 vmware-tools-distrib文件夹,进入该目录,通过在terminal 终端输入相应命令,运行脚本: cd/home/hadoop/vmware-tools-distrib $JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH ocal/share/',but failed:No such file or directory (gedit:2949):Gtk-WARNING**:Attempting to store changes into `/root/.local/share/',but failed:Failed to create file'/root/.local/share/':No such file or directory (gedit:2949):Gtk-WARNING**:Attempting to set the permissionsof `/root/.local/share/', but failed: No such file or directory 解决方法:只需直接在终端中输入命令:sudo mkdir-p/root/.local/share/,创建警告信息中所提示的目录即可。 若无视警告重启ubuntu 后将会出现以下情况:输入密码无法进入系统,一直处于输入密码 后又跳转回输入密码的界面。此时的解决方法是:在输入密码界面同时按下alt+ctrl+F2 进入 ubuntu 命令模式,并使用root用户及对应密码登陆系统,然后键入:/usr/bin/vi /etc/profile打开 etc/profile文件,找到最近在末尾加上的hadoop 配置文件,按 delete

相关文档
最新文档