Hadoop环境搭建

Hadoop环境搭建
Hadoop环境搭建

目前银行历史数据系统主要采用关系型数据库进行数据存储,如Oracle方式,此方法具有诸多限制,例如数据量积压到一定值后,将极大影响查询效率;数据库达到一定程度后,可扩展性降低,维护成本不断增加;只适合存储结构化数据,难以满足对半结构化和非结构化历史数据的处理。银行历史数据系统具有的“大数据”特征,我们探索采用当前广泛应用的大数据技术解决方案,基于Hadoop/HBase的技术架构,给出技术结果、分析关键技术及技术特性。

1、Hadoop/HBase简介

Hadoop是Apache软件基金会的一个开源项目,是为用户提供一个能够对大量数据进行分布式处理软件框架,具有可靠、高效、可伸缩等特点。HBase则是APache的Hadoop的子项目,在Hadoop之上提供高可靠性、高性能、可伸缩的分布式数据库系统。不同于一般的关系数据库,利用HBase技术可在廉价PC服务器上搭建起大规模结构化数据库集群系统。

HDFS是Hadoop分布式文件系统,为HBase提供了高可靠性的底层存储支持。MapReduce是Hadoop任务调度管理模块,为HBase提供了高性能的计算能力。Zookeeper是Hadoop的分布式协调服务,为HBase提供了稳定服务和容错机制。

2、系统架构

基于Hadoop/HBase历史数据查询系统逻辑结构如下图所示。

生产系统历史数据库磁带

生产系统

历史数据库

?历史数据获取,新技术方案由于技术架构的横向可扩展性,可以同时对生产数据库、历史数据库、磁带等多种数据源方式获取数据

?2.历史数据查询,历史数据查询模块实现交易查询,根据查询时间段,将查询结果反馈给前台用户。新技术方案由于具备大数据量处理能力,不但能够提高查询效率,而且历史查询时间范围能随着处理数据量扩展

而扩展,例如可以从以1年历史查询扩展到查询20年的历史数据,甚至更长时间

?3.历史数据挖掘分析,新技术架构由于具有天然大数据技术特性,可以做到综合多种生产数据来源,从海量历史数据中进一步挖掘分析出所需信息,例如用户行为分析等,以优化相关金融服务产品,提高用户体验、

防范风险

新技术方案系统架构如下图所示:

Zookeeper服务器集群:为HBase提供了稳定服务和容错机制,为应用提供数据库配置信息、命名、分布式协调服务。

HBase主服务器(HMaster):实现HBase集群初始化,负责数据表格、域分配管理;负责管理域服务器的负载均衡,调整域分布。数据资源层只有一台在线使用的HBase主服务器,但没有单点问题,HBase中可以启动多个HBase 主服务,通过Zookeeper保证总有一个HBase主服务运行。

HBase域服务器集群(HRegion):负责响应应用的数据I/O请求,向HDFS文件系统中读写数据,是HBase 中最核心的模块。所存储的数据以文件形式保存在本地盘中。

3、技术特性

采用Hadoop/HBase实现历史数据查询系统,能够满足海量历史数据高效的查询需求,具备如下技术特性。

高可靠性:Hadoop/HBase维护多个数据副本,确保能够针对失败的节点重新分布处理,其备份恢复机制以及计算任务监控机制保证了分布式处理的可靠性。高扩展性:Hadoop/HBase具备存储和计算可扩展性,为处理海量数据,可以很方便地将集群扩展到数以干计节点规模,处理规模能够达到PB级。高效性:Hadoop/HBase以并行的方式工作,处理速度高效。经济性:基于Hadoop/HBase的大数据处理都运行在廉价的PC服务器上,无需购置昂贵的小/大型机以及磁盘阵列设备。

4、主机部署

基于Hadoop/HBase历史数据查询系统平台由19台节点主机承担,每台主机内存为128G,CPU为16核(2*8),本次存储硬盘300G,外挂存储硬盘14块共28T(其中:sas 硬盘2块共4T,grid硬盘12块共24T)。

考虑Hadoop各服务之间的兼容性与影响性,其中OM、NameNode、DataNode、Zookeeper、应用服务需要单独主机部署,Hbase主要是对数据进行查询,且数据交互在数据节点,Hbase服务部署与DataNode主机共享,具体分

5、Hbase表建设

本次对两张交易表进行Hbase表建设,主要对这两张交易表进行历史数据查询,根据以上应用场景的需要,对这两张交易数据Hbase表结构设计如下:

?表属性:表压缩采用snappy算法,snappy主要针对64位X86服务器量身定做的压缩算法,有高的压缩效率,与更高的解压缩效率,最高可达每秒500M的压缩速度

?RowKey:散列原则采用reverse的方式反转方式,对以类似于时间戳的递增方式的客户号/账号做到更好的数据均衡与查询效率;字段以“客户号/账号+交易时间”建设,通过scan(startkey,endkey)的扫描方法查询数据效率更高

?列族设置:每张表建立一个列族,一个列族包括多列。过多的列族之间会相互影响

?列设置:交易查询比较固定,把经常一次查询的数据封装到一个列中,例如:交易金额、交易类型、交易币种等,这样不但提高查询效率,而且保障了数据均衡分布

?预分区设置:预分区设置可以集中存储数据,数据划分更细,增加Reduce的数目,提高并发量

6、设备要求

?主机设备:每台主机需要双网卡,且支持IB网络

?磁盘设备:每台主机挂载磁盘为裸盘,挂载多块磁盘,提高数据读写效率

?网络设备:Hadoop集群之间建立IB网络,对外服务通过IP网络

7、参数配置

?系统参数:ulimit 最大文件数等设置为最大640000

?系统内存:内个DataNode主机占用最大内存为总内存的80%

?副本设置:副本数设置为2

?

Hadoop、hive环境搭建详解

一、
Hadoop 环境搭建 首先在 Apache 官网下载 hadoop 的包 hadoop-0.20.2.tar.gz。 解压 hadoop-0.20.2.tar.gz 包,具体命令如下: tar zxvf hadoop-0.20.2.tar.gz 其中要注意的是,tar 包用 xvf ,gz 包用 zxvf。
在安装中,如果遇到识别问题,或者无法解压,很有可能是权限问题,解决方案 是修改此文件的使用权限,命令如下: chmod 777 hadoop-0.20.2.tar.gz 其中,777 为所有权限。 如果依然报错,如:Archive contains obsolescent base-64 headers;Error exit delayed from previous errors。 这种情况,一般是压缩包损坏的问题。因为大多数人会将包下载到 windows 环境,再通过 ftp 等方法上传到 Linux 环境。容易产生包损坏。建议大 家直接下载到 Linux 即可。具体命令如下: wget https://www.360docs.net/doc/164996687.html,/apache-mirror/hadoop/core/hadoop-0.20.2/ hadoop-0.20.2.tar.gz 直接下载到当前目录。 当文件准备好之后,我们要修改配置,将 Hadoop 简单 run 起来。 首先,我们进入 hadoop-0.20.2/conf 目录当中,其中会存在如下配置文件: 首先修改 masters 和 slaves,这个是指定我们的 m 和 s 的 ip 地址,这里我们 就以单台机器为例子,在文件中直接输入当前机器的 IP。 之后我们修改 mapred-site.xml 文件,具体配置如下 Xml 代码 1. 2. 3.

win7+eclipse+hadoop开发环境搭建

Win7+eclipse+Ubuntu14虚拟机环境下搭建hadoop1.2.1单机模式的开发环境 1.虚拟机下安装ubuntu14操作系统。 **注:(我安装ubuntu的时候的用户名是zjp一下涉及到的所有的zjp都需要换成自己的用名) 2.Ctrl+Alt+t 快捷键可以打开终端。 3.激活root用户sudo passwd root 4.联网的情况下,可以用apt-get install samba命令下载以及安装samba服务器。这个主要是为了window向ubuntu中上传jdk以及hadoop的安装文件。(如果apt-get命令无法使用,先用apt-get update安装这个命令。如果主机联网了,但是ubuntn没有连上网,那么将虚拟机的网络适配器改为NA T模式,并且启动任务管理器。打开服务,查看VMware NAT service 和WMware DPCH service是否启动,如果没有启动那么就启动这两个服务。如果还不能联网那就在虚拟机的菜单栏中选择编辑->虚拟网络编辑器,恢复默认设置。重启一下电脑,如果还是不行,那就没办法了,自求多福!) 5.联网的情况下安装ssh协议apt-get install ssh 6.在/home/zjp 目录下创建两个文件夹1.share用于存放共享文件 2.mysoftware用于存放需要安装的软件 7.配置samba共享su root 切换至root用户gedit /etc/samba/smb.conf 编辑samba 的配置文件在文件的最后添加 [share] comment=sharedir path=/home/zjp/share read only=no browseable=yes guest ok=no 7.关闭防火墙ufw disable 8重启samba服务器service samba restart 9创建samba用户smbpasswd -a samba用户名eg:smbpasswd -a zkpk 10ifconfig查看ubuntu的ip地址。例如ip是192.168.30.128 11打开我的电脑,在地址栏中输入\\192.168.30.128不出意外的话会让你登录,就用创建的samba登录就可以了。然后把下载好的linux版本的jdk和hadoop的安装文件拷贝进去。12.再把传到share目录下面的两个文件拷贝到mysoftware中去。 这些准备工作都做好了,就可以安装jdk以及hadoop了 一.先安装jdk 1.在mysoftware目录下用tar -zxvf jdk-7u55-linux-x64.gz命令解压以及安装jdk。 2.配置环境变量 gedit /etc/profile 然后在文件的最末尾添加如下内容: JA V A_HOME=/home/xkl/mysof/jdk1.7.0_60 export PA TH=$PATH:$JA V A_HOME/bin OK注销一下Ubuntu然后在终端中输入java -version如果可以看见jdk的版本,说明jdk 安装成功。 二.安装hadoop

Hadoop环境的搭建与管理 (1)

Hadoop环境的搭建与管理 1、Hadoop的安装与配置 HDFS在Master节点启动dfs和yarn服务时,需要自动启动Slave节点服务,HDFS需要通过ssh访问Slave节点机。HDFS需要搭建多台服务器组成分布式系统,节点机间需要无密码访问。本节任务是进行ssh的设置、用户的创建、hadoop参数的设置,完成HDFS分布式环境的搭建。 任务实施: 本节任务需要四台节点机组成集群,每个节点机上安装CentOS-6.5-x86_64系统。四台节点机使用的IP地址分别为:192.168.23.111、192.168.23.112、192.168.23.113、192.168.23.114,对应节点主机名为:node1、node2、node3、node4。节点机node1作为NameNode,其他作为DataNode。 创建hadoop用户,分别在四台节点机上创建用户hadoop,uid=660,密码分别为h1111, h2222, h3333, h4444。登录node1节点机,创建hadoop用户和设置密码。操作命令如下。 [root@node1 ~]# useradd -u 660 hadoop [root@node1 ~]# passwd hadoop 其他节点机的操作相同。 步骤2 设置master节点机ssh无密码登录slave节点机。 (1)在node1节点机上,以用户hadoop用户登录或者使用su – hadoop切换到hadoop 用户。操作命令如下。 [root@node1 ~]# su - hadoop (2)使用ssh-keygen生成证书密钥,操作命令如下。 [hadoop@node1 ~]$ssh-keygen -t dsa (3)使用ssh-copy-id分别拷贝证书公钥到node1,node2,node3,node4节点机上,操作命令如下。 [hadoop@node1 ~]$ ssh-copy-id -i .ssh/id_dsa.pub node1 [hadoop@node1 ~]$ ssh-copy-id -i .ssh/id_dsa.pub node2 [hadoop@node1 ~]$ ssh-copy-id -i .ssh/id_dsa.pub node3 [hadoop@node1 ~]$ ssh-copy-id -i .ssh/id_dsa.pub node4 (4)在node1节点机上使用ssh测试无密码登录node1节点机,操作命令如下。 [hadoop@node1 ~]$ ssh node1 Last Login: Mon Dec 22 08:42:38 2014 from node1 [hadoop@node1 ~]$ exit Logout Connection to node1 closed.

hadoop环境配置入门教程

ubuntu 下安装配置hadoop 1.0.4 第一次搞hadoop,折腾我2天,功夫不负有心人,终于搞好了,现在来分享下, 我的环境 操作系统:wmv虚拟机中的ubuntu12.04 hadoop版本:hadoop-1.0.4(听说是稳定版就下了) eclipse版本:eclipse-jee-indigo-SR2-win32 1.先安装好jdk,然后配置好jdk的环境变量,在这里我就不累赘了!网上多的是 2.安装ssh这个也不用说了 2.把hadoop-1.0.4.tar.gz拖到虚拟机中,解压,比如: /home/wys/Documents/hadoop-1.0.4/ (有的还单独建了个用户,为了舍去不必要的麻烦我都是用root用户来操作的) 3.修改hadoop-1.0.4/conf 下面的core-site.xml文件,如下: https://www.360docs.net/doc/164996687.html, hdfs://192.168.116.128:9000 hadoop.tmp.dir /home/wys/Documents/tmp

192.168.116.128这个是虚拟机中ubuntu的ip,听说用localhost,127.0.0.1都不行,我没试过,直接写上ip地址了 tmp是预先创建的一个目录 4.修改hadoop-env.sh 把export JAVA_HOME=xxxxxx 这行的#号去掉,写上jdk的目录路径 5.修改hdfs-site.xml如下: dfs.replication 1 dfs.permissions false 说明:为了以后用eclipse开发出现各种问题,就把权限关了!

Hadoop安装配置超详细步骤

Hadoop的安装 1、实现linux的ssh无密码验证配置. 2、修改linux的机器名,并配置/etc/hosts 3、在linux下安装jdk,并配好环境变量 4、在windows下载hadoop 1.0.1,并修改hadoop-env.sh,core-site.xml, hdfs-site.xml, mapred-site.xml,masters,slaves文件的配置 5、创建一个给hadoop备份的文件。 6、把hadoop的bin加入到环境变量 7、修改部分运行文件的权限 8、格式化hadoop,启动hadoop 注意:这个顺序并不是一个写死的顺序,就得按照这个来。如果你知道原理,可以打乱顺序来操作,比如1、2、3,先哪个后哪个,都没问题,但是有些步骤还是得依靠一些操作完成了才能进行,新手建议按照顺序来。

一、实现linux的ssh无密码验证配置 (1)配置理由和原理 Hadoop需要使用SSH协议,namenode将使用SSH协议启动namenode和datanode进程,(datanode向namenode传递心跳信息可能也是使用SSH协议,这是我认为的,还没有做深入了解)。大概意思是,namenode 和datanode之间发命令是靠ssh来发的,发命令肯定是在运行的时候发,发的时候肯定不希望发一次就弹出个框说:有一台机器连接我,让他连吗。所以就要求后台namenode和datanode 无障碍的进行通信。 以namenode到datanode为例子:namenode作为客户端,要实现无密码公钥认证,连接到服务端datanode上时,需要在namenode上生成一个密钥对,包括一个公钥和一个私钥,而后将公钥复制到datanode上。当namenode通过ssh连接datanode时,datanode就会生成一个随机数并用namenode的公钥对随机数进行加密,并发送给namenode。namenode收到加密数之后再用私钥进行解密,并将解密数回传给datanode,datanode确认解密数无误之后就允许namenode 进行连接了。这就是一个公钥认证过程,其间不需要用户手工输入密码。重要过程是将客户端namenode公钥复制到datanode上。

Hadoop实验环境搭建

单机上通过虚拟机搭建Hadoop环境 (以下过程软件版本不固定,只能相互兼容就可以) 1.安装vmware workstation(1 2.1.0) 2.创建3个虚拟机(每个虚拟机512M内存,8G空间),每个虚拟机安装Ubuntu 桌面版 (11.10)(虚拟机需安装vmare tools,上网上式可设置为桥接方式:直接连接物理网络)。 一个虚拟机作为name node(master),两个虚拟机作为data node 1(slave1)和data node 2(slave2).三个虚拟机可以共享一个主机目录share,该目录在虚拟机上显示为/mnt/hgfs/share 对每个虚拟机: 修改root密码(sudo passwd root),然后用root用户登录。 3.通过如下配置master, slave1, slave2。 1)通过vi /etc/hostname修改主机名。 2)通过vi /etc/hosts修改/etc/hosts 文件,增加三台机器的ip和hostname的映射关系. 在/usr/src目录: 4.下载zlib(1.2.8)并解压安装 5.下载openssl(1.0.1)并解压安装 6.下载openssh(6.0p1)并解压安装 安装后运行命令ssh localhost,如果显示” Privilege separation user sshd does not exist”,解决方法: 修改/etc/passwd,在其中加入 sshd:x:74:74:Privilege-seperated SSH:/var/empty/sshd:/nologin 7.配置ssh无密码登录 在命令行输入:vi /etc/profile.d/hadoop.sh 在hadoop.sh加入以下命令: sudo ufw disable /usr/local/sbin/sshd 在name node: ssh-keygen –t dsa -P ‘’–f ~/.ssh/id_dsa 在data node 1: ssh-keygen –t dsa-P‘’–f ~/.ssh/id_dsa 在data node 2: ssh-keygen –t dsa -P‘’–f ~/.ssh/id_dsa 在name node: scp ~/.ssh/id_dsa.pub /mnt/hgfs/share/id_dsa0.pub 在data node 1: scp ~/.ssh/id_dsa.pub /mnt/hgfs/share/id_dsa1.pub 在data node 2: scp ~/.ssh/id_dsa.pub /mnt/hgfs/share/id_dsa2.pub

虚拟机环境下Hadoop伪分布式平台搭建详细过程

大数据技术平台搭建之Hadoop 1. Hadoop(伪分布式)平台搭建详细过程 1.1 工具 ?VMware12 ?CentOS 6.4 ?JDK-6u24-Linux-i586.bin ?Hadoop-1.1.2.tar.gz ?Scala-2.9.3.tgz ?Spark-1.4.0-bin-hadoop1.tgz ?Win10系统环境 1.2 详细搭建过程 1.2.1 安装虚拟机VMware Workstation 12 Pro 图1.1 VMware Workstation 12 Pro软件开始界面1.2.2 在虚拟机环境上安装Linux系统 (1)点击创建新的虚拟机按钮选择典型配置安装 图1.2 新建虚拟机向导

(2)选择Linux镜像文件,开始虚拟安装 图1.3 选择安装镜像文件(3)为新建的虚拟机命名,并选择安装目录 图1.4 命名、选择安装目录(4)指定虚拟机磁盘大小 图1.5 指定磁盘大小

(5)设置硬件、网络类型等虚拟机配置 图1.6 自定义虚拟机硬件 (6)点击完成按钮完成虚拟机安装 图1.7 CentOS_Linux虚拟机系统安装成功

1.2.3 配置Linux环境,为安装Hadoop做准备 (1)关闭防火墙 执行命令 service iptables status可以查看防火墙状态 执行命令 service iptables stop 关闭防火墙 图1.8 关闭防火墙并检验 执行命令chkconfig iptables off,关闭防火墙某些功能自启动 图1.9 关闭防火墙自启功能并检验 (2)设置网络连接 宿主机(Windows)和客户机(虚拟机中的Linux)采用host-only方式建立网络连接,具体步骤:右击桌面右上角网络连接图标,选择编辑网络连接,如下 图1.10 虚拟机网络设置窗口 接着点击按钮,设置IPv4地址,注意要和主机IP在同一网段 192.168.80.X 图1.11 设置ip窗口

hadoop20集群搭建详解

hadoop2.2.0集群搭建 PS:apache提供的hadoop-2.2.0的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装 hadoop-2.2.0就需要重新在64操作系统上重新编译 1.准备工作:(参考伪分布式搭建) 1.1修改Linux主机名 1.2修改IP 1.3修改主机名和IP的映射关系 1.4关闭防火墙 1.5ssh免登陆 1.6.安装JDK,配置环境变量等 2.集群规划: PS: 在hadoop2.0中通常由两个NameNode组成,一个处于active

状态, 另一个处于standby状态。Active NameNode对外提供服务, 而Standby NameNode则不对外提供服务,仅同步active namenode 的状态,以便能够在它失败时快速进行切换。 hadoop2.0官方提供了两种HDFS HA的解决方案,一种是NFS, QJM。这里我们使用简单的QJM。在该方案中,另一种是 主备NameNode之间通过一组JournalNode同步元数据信息, 一条数据只要成功写入多数JournalNode即认为写入成功。JournalNode 通常配置奇数个 这里还配置了一个zookeeper集群,用于ZKFC Active (DFSZKFailoverController)故障转移,当 NameNode挂 掉了,会自动切换Standby NameNode为standby状态3.安装步骤: 3.1.安装配置zooekeeper集群 解压3.1.1 tar -zxvf zookeeper-3.4.5.tar.gz -C /cloud/

educoder平台hadoop开发环境搭建

《一》配置开发环境- JavaJDK的配置 mkdir /app 回车 cd /opt 回车 ll 回车 tar -zxvf jdk-8u171-linux-x64.tar.gz 回车 mv jdk1.8.0_171/ /app 回车 vim /etc/profile 在最低下按i复制粘贴下面代码 JAVA_HOME=/app/jdk1.8.0_171 CLASSPATH=.:$JAVA_HOME/lib/tools.jar PATH=$JAVA_HOME/bin:$PATH export JAVA_HOME CLASSPATH PATH 退出wq source /etc/profile 回车 java -version 测评 *******************************************************************************《二》配置开发环境- Hadoop安装与伪分布式集群搭建 cd /opt 回车 ls 回车 echo $JAVA_HOME 回车 ls /app 回车 ls 回车 mkdir /app 回车 cp * /app 回车 cd /app 回车 ls 回车 tar -zxvf hadoop-3.1.0.tar.gz

ls tar -zxvf jdk-8u171-linux-x64.tar.gz 回车 ls 回车 mv hadoop-3.1.0 hadoop3.1 回车 cd jdk1.8.0_171/ 回车 pwd 回车 vim /etc/profile 最底下按i复制 export JAVA_HOME=/app/jdk1.8.0_171 export HADOOP_HOME=/app/hadoop3.1 export PATH=.:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$JAVA_HOME/bin:$PATH 退出wq source /etc/profile 回车 java -version 回车 cd /app 回车 ssh-keygen -t rsa -P '' 按回车 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 回车 chmod 600 ~/.ssh/authorized_keys 回车 vim /etc/ssh/sshd_config 找到#AuthorizedKeysFile %h/.ssh/authorized_keys把#删除 退出wq cd /app/hadoop3.1/etc/hadoop/ 回车 vim hadoop-env.sh 找到# JAVA_HOME=/usr/java/testing hdfs dfs -ls这一行按i在最后面回车,添加下面代码:export JAVA_HOME=/app/jdk1.8.0_171 退出wq vim yarn-env.sh 最底下按i回车 export JAVA_HOME=/app/jdk1.8.0_171 退出wq ————————1———————————————————————————————

hadoop学习笔记(一、hadoop集群环境搭建)

Hadoop集群环境搭建1、准备资料 虚拟机、Redhat6.5、hadoop-1.0.3、jdk1.6 2、基础环境设置 2.1配置机器时间同步 #配置时间自动同步 crontab -e #手动同步时间 /usr/sbin/ntpdate https://www.360docs.net/doc/164996687.html, 1、安装JDK 安装 cd /home/wzq/dev ./jdk-*****.bin 设置环境变量 Vi /etc/profile/java.sh 2.2配置机器网络环境 #配置主机名(hostname) vi /etc/sysconfig/network #修第一台hostname 为master hostname master

#检测 hostname #使用setup 命令配置系统环境setup

#检查ip配置 cat /etc/sysconfig/network-scripts/ifcfg-eth0 #重新启动网络服务 /sbin/service network restart #检查网络ip配置 /sbin/ifconfig 2.3关闭防火墙

2.4配置集群hosts列表 vi /etc/hosts #添加一下内容到vi 中 2.5创建用户账号和Hadoop部署目录和数据目录 #创建hadoop 用户 /usr/sbin/groupadd hadoop

#分配hadoop 到hadoop 组中 /usr/sbin/useradd hadoop -g hadoop #修改hadoop用户密码 Passwd hadoop #创建hadoop 代码目录结构 mkdir -p /opt/modules/hadoop/ #修改目录结构权限拥有者为为hadoop chown -R hadoop:hadoop /opt/modules/hadoop/ 2.6生成登陆密钥 #切换到Hadoop 用户下 su hadoop cd /home/hadoop/ #在master、node1、node2三台机器上都执行下面命令,生成公钥和私钥 ssh-keygen -q -t rsa -N "" -f /home/hadoop/.ssh/id_rsa cd /home/hadoop/.ssh #把node1、node2上的公钥拷贝到master上 scp /home/hadoop/.ssh/ id_rsa.pub hadoop@master:/home/hadoop/.ssh/node1_pubkey scp /home/hadoop/.ssh/ id_rsa.pub hadoop@master:/home/hadoop/.ssh/node2_pubkey #在master上生成三台机器的共钥 cp id_rsa.pub authorized_keys cat node1_pubkey >> authorized_keys cat node2_pubkey >> authorized_keys rm node1_pubkey node2_pubkey #吧master上的共钥拷贝到其他两个节点上 scp authorized_keys node1: /home/hadoop/.ssh/ scp authorized_keys node1: /home/hadoop/.ssh/ #验证 ssh master ssh node1 ssh node2 没有要求输入密码登陆,表示免密码登陆成功

Eclipse搭建hadoop开发环境

Eclipse搭建hadoop开发环境 1、软件环境 a)Eclipse b)运行中的hadoop集群 2、eclipse上安装hadoop插件 a)首先将eclipse Hadoop的插件放置到eclipse/plugins目录下,重启eclipse b)如果插件安装成功,打开Windows—Preferences后,在窗口左侧会有Hadoop Map/Reduce选项,点击此选项,在窗口右侧设置Hadoop安装路径。 PS:这个路径是hadoop的路径,eclipse会从这里获取一定的jar包 如图: c)配置Map/Reduce Locations,打开Windows—Open Perspective—Other—Map/Reduce Locations—OK 如图:

d)点击新增hadoop 如图:

3、新建WordCount项目 a)上传两个文件到hadoop集群里面 b)分别写Mapper、Reducer、Main,如图所示:

c)运行WordCountMain.java,Run As-----Run Configurations,然后配置如图:

d)结果如图: 4、碰到的错误

a)Windows eclipse配置插件时候,碰到权限不够 (org.apache.hadoop.security.AccessControlException),导致不能连接到hadoop, 解决方案: 1、将windows的账户名和用户组都设置成hadoop启动的账号一样的名字 2、如果是自己的测试机器,可以关闭dfs的权限检测,在conf/hdfs-site.xml 将 dfs.permissions修改成false b)Exception in thread "main" java.io.IOException: Failed to set permissions of path: \tmp\hadoop-Administrator\mapred\staging\Administrator-519341271\.staging to 0700 这个是Windows下文件权限问题,在Linux下可以正常运行,不存在这样的问题。 解决方法是,修改hadoop-1.0.4/src/core/org/apache/hadoop/fs/FileUtil.java里面的checkReturnValue,注释掉即可(有些粗暴,在Window下,可以不用检查) 5、建议: 在Ubuntu下面运行eclipse

Windows环境下Hadoop开发环境配置

Windows环境下Hadoop开发环境配置 一、事先准备 1)Hadoop集群环境搭建 已经用三台虚拟机(操作系统为ubuntu 10.0.4)搭建完成一个hadoop分布式集群,分别是hadoop1: 192.168.201.104,hadoop2: 192.168.201.54和hadoop3: 192.168.201.100 ,其中hadoop1为namenode,其余为datanode。 2)windows安装JDK和eclipse 过程从略,需要注意应安装与hadoop集群所用JDK兼容的版本。本例中,hadoop集群安装的是64位的JDK-8.0.20,因此Windows下选择64位的JDK-8.0.65,eclipse版本为支持64位的Kepler Service Release 2。 3)hadoop安装包解压 将搭建hadoop集群的安装包拷贝并解压到windows开发机器的某个目录下,本例中的安装包为hadoop-2.6.1.tar.gz,解压到D:\hadoop-2.6.1目录。 4)hadoop for eclipse插件包下载 下载hadoop for eclipse插件。由于本例中hadoop集群为hadoop2,插件也必须是2.x 版本。本例中插件包为:hadoop-eclipse-plugin-2.2.0。 二、配置eclipse 1)拷贝插件包 将插件包拷贝至eclipse安装目录的plugin目录下,然后重启eclipse。 2)配置hadoop安装路径 打开"Window"--"Prefrences",此时左侧会出现"Hadoop Map/Reduce"选项,将其配置为hadoop安装包解压后的目录。 3)配置Map/Reduce Locations 打开"Window"--"Perspectives"--"Open Perspective"--"Other ...",在弹出窗口中选择"Map/Reduce",点击"OK"。

hadoop搭建与eclipse开发环境设置

hadoop搭建与eclipse开发环境设置 ――罗利辉 1.前言 1.1 目标 目的很简单,为进行研究与学习,部署一个hadoop运行环境,并搭建一个hadoop开发与测试环境。 具体目标是: ?在ubuntu系统上部署hadoop ?在windows 上能够使用eclipse连接ubuntu系统上部署的hadoop进行开发与测试1.2 软硬件要求 注意: Hadoop版本和Eclipse版本请严格按照要求。 现在的hadoop最新版本是hadoop-0.20.203,我在windows上使用eclipse(包括3.6版本和3.3.2版本)连接ubuntu上的hadoop-0.20.203环境一直没有成功。但是开发测试程序是没有问题的,不过需要注意权限问题。 如果要减少权限问题的发生,可以这样做:ubuntu上运行hadoop的用户与windows 上的用户一样。

1.3 环境拓扑图 ubuntu 192.168.69.231 ubuntu2 192.168.69.233 ubuntu1 192.168.69.232

2.Ubuntu 安装 安装ubuntu11.04 server系统,具体略。 我是先在虚拟机上安装一个操作系统,然后把hadoop也安装配置好了,再克隆二份,然后把主机名与IP修改,再进行主机之间的SSH配置。 如果仅作为hadoop的运行与开发环境,不需要安装太多的系统与网络服务,或者在需要的时候通过apt-get install进行安装。不过SSH服务是必须的。 3.Hadoop 安装 以下的hadoop安装以主机ubuntu下进行安装为例。 3.1 下载安装jdk1.6 安装版本是:jdk-6u26-linux-i586.bin,我把它安装拷贝到:/opt/jdk1.6.0_26 3.2 下载解压hadoop 安装包是:hadoop-0.20.2.tar.gz。 3.3 修改系统环境配置文件 切换为根用户。 ●修改地址解析文件/etc/hosts,加入

Hadoop搭建全过程

Hadoop搭建全过程【千锋】 Hadoop主要应用于数据量大、海量计算、数据挖掘、一次写入多次读取、非高实时性要求的场景。Hadoop可以作为分布式存储框架存储大规模数据,数据的价值越来越被企业重视,被称为是21世纪的石油。下面是千锋教育给出的Hadoop搭建教程: 1、安装虚拟机环境 VMware,收费产品,占内存较大。 2、安装操作系统 Ubuntu,操作简单,方便,界面友好。 3、安装一些常用的软件 在每台linux虚拟机上,安装:vim,ssH sudo apt-get install vim sudo apt-get install ssH 在客户端,也就是win7上,安装SecureCRT,Winscp或putty,这几个程序,都是依靠ssH服务来操作的,所以前提必须安装ssH服务。

service ssH status 查看ssH状态。如果关闭使用service ssH start开启服务。 SecureCRT,可以通过ssH远程访问linux虚拟机。 winSCP或putty,可以从win7向linux上传文件。 4、修改主机名和网络配置 主机名分别为:master,Host2,Host3,Host4。 sudo vim /etc/Hostname 网络配置,包括ip地址,子网掩码,DNS服务器。 5、修改/etc/Hosts文件。 修改每台电脑的Hosts文件。 Hosts文件和windows上的功能是一样的。存储主机名和ip地址的映射。 在每台linux上,sudo vim /etc/Hosts 编写Hosts文件。将主机名和ip 地址的映射填写进去。 6、配置ssH,实现无密码登陆 无密码登陆,效果也就是在master上,通过ssH Host2 或ssH Host3 或ssH Host4 就可以登陆到对方计算机上。而且不用输入密码。 四台虚拟机上,使用ssH-keygen -t rsa 一路按回车就行了 7、上传jdk,并配置环境变量。 通过winSCP将文件上传到linux中。将文件放到/usr/lib/java中,四个linux都要操作。 解压缩:tar -zxvf jdk1.7.0_21.tar 设置环境变量sudo vim ~/.basHrc

Hadoop云计算平台搭建最详细过程(共22页)

Hadoop云计算平台及相关组件搭建安装过程详细教程 ——Hbase+Pig+Hive+Zookeeper+Ganglia+Chukwa+Eclipse等 一.安装环境简介 根据官网,Hadoop已在linux主机组成的集群系统上得到验证,而windows平台是作为开发平台支持的,由于分布式操作尚未在windows平台上充分测试,所以还不作为一个生产平台。Windows下还需要安装Cygwin,Cygwin是在windows平台上运行的UNIX模拟环境,提供上述软件之外的shell支持。 实际条件下在windows系统下进行Hadoop伪分布式安装时,出现了许多未知问题。在linux系统下安装,以伪分布式进行测试,然后再进行完全分布式的实验环境部署。Hadoop完全分布模式的网络拓补图如图六所示: (1)网络拓补图如六所示: 图六完全分布式网络拓补图 (2)硬件要求:搭建完全分布式环境需要若干计算机集群,Master和Slaves 处理器、内存、硬盘等参数要求根据情况而定。 (3)软件要求 操作系统64位Ubuntu12.04.4 JDK版本:jdk-7u51-linux-x64.tar.gz

并且所有机器均需配置SSH免密码登录。 二.Hadoop集群安装部署 目前,这里只搭建了一个由三台机器组成的小集群,在一个hadoop集群中有以下角色:Master和Slave、JobTracker和TaskTracker、NameNode和DataNode。下面为这三台机器分配IP地址以及相应的角色: 192.168.100.90——master,namenode,jobtracker——master(主机名) 192.168.100.105——slave,datanode,tasktracker——slave1(主机名) 192.168.100.106——slave,datanode,tasktracker——slave2(主机名)

hadoop 2.6.0详细安装过程和实例(有截图)

Hadoop 环境搭建 时间:2015-07-26 作者:周乐相 环境搭建之前准备工作 我的笔记本配置: 硬盘:500G (实际上用不完) CPU: Intel(R) Core(TM) i5-2450M CPU @ 2.50GHz 内存:10G 操作系统:WIN7 (64位) 软件准备 1). 虚拟机软件:vmwareworkstation64.exe ( VMware work station 64 bit V 11.0) 2). Linux 版本: Red Hat Enterprise Linux Server release 6.5 (Santiago) (rhel-server-6.5-x86_64-dvd.iso) 3). hadoop 版本: hadoop-2.6.0.tar.gz 4). JAVA 版本:java version "1.6.0_32" (jdk-6u32-linux-x64.bin) 安装VMware 软件 傻瓜操作下一步。。。。。。 安装Linux操作系统 傻瓜操作下一步。。。。。 安装完成。 1). 创建hadoop操作系统安装hadoop的用户第一台操作系统命主机名为: master 2) 拷贝该虚拟机master 分别为node01 、node02 两个节点数 3) 分别对拷贝的node01 、node02 修改IP和主机名称

主机名: IP master : 192.168.2.50 node01: 192.168.2.51 node02: 192.168.2.52 jdk安装 并设置好环境变量 ## 设置JAVA_HOME环境变量 配置ssh 免密码通信三台服务器SSH关系

Hadoop详细安装配置过程

1.下载并安装ubuntukylin-15.10-desktop-amd64.iso 2.安装ssh sudo apt-get install openssh-server openssh-client 3.搭建vsftpd #sudo apt-get update #sudo apt-get install vsftpd 配置参考 .linuxidc./Linux/2015-01/111970.htm jingyan.baidu./article/67508eb4d6c4fd9ccb1ce470.html zhidao.baidu./link?url=vEmPmg5sV6IUfT4qZqivtiHtXWUoAQalGAL7bOC5XrTum pLRDfa-OmFcTzPetNZUqAi0hgjBGGdpnldob6hL5IhgtGVWDGSmS88iLvhCO4C vsftpd的开始、关闭和重启 $sudo /etc/init.d/vsftpd start #开始 $sudo /etc/init.d/vsftpd stop #关闭 $sudo /etc/init.d/vsftpd restart #重启 4.安装jdk1.7 sudo chown -R hadoop:hadoop /opt cp /soft/jdk-7u79-linux-x64.gz /opt sudo vi /etc/profile alias untar='tar -zxvf' sudo source /etc/profile source /etc/profile untar jdk* 环境变量配置 # vi /etc/profile ●在profile文件最后加上 # set java environment export JAVA_HOME=/opt/jdk1.7.0_79 export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export PATH=$JAVA_HOME/bin:$PATH 配置完成后,保存退出。 ●不重启,更新命令 #source /etc/profile ●测试是否安装成功 # Java –version 其他问题:

hadoop伪分布式环境搭建

Cookbook of hadoop 之环境搭建 Hadoop 是一个实现了MapReduce的开源分布式并行计算框架,借助hadoop我们轻松的编写分布式并行程序,完成海量数据的计算。随着业务的发展,数据量的增长,hadoop的使用越来越广泛,近期接手了一个运行于云梯的hadoop程序,而每次编写完代码都要打包成jar文件,上传到云梯调试也是极其不方便的(想想开发web应用,如果每次都要打包成war文件,然后部署到tomcat/jetty运行,后面的我就不多说了.....),因此就在本地部署一个hadoop的伪分布式环境,并配置了eclipse插件便于开发调试,本文分享了在win7上面搭建hadoop开发环境的过程,作为抛砖引玉之用,方便大家交流学习。 准备工作: 1,安装jdk,配置环境变量。(推荐版本1.6) 2,安装cygwin,同时安装openssh程序,配置环境变量。 3,安装ant,配置环境变量(因为后面需要手工编译hadoop-eclipse插件)。(推荐版本1.8)4,安装hadoop,配置环境变量。(云梯使用0.19.2版本,我本地选择0.20.2版本) 以上所有程序都可以在官网获得。 1,安装&配置jdk(略)。 2,安装cygwin,注意勾选openssh。 3,将cygwin加入环境变量。

4,配置ssh,执行以下命令。 安装sshd:$ ssh-host-config 启动sshd服务:$ net start sshd 配置免密码登录用户:$ ssh-user-config 检查可登录localhost:$ ssh localhost 成功画面如下

相关主题
相关文档
最新文档