Hadoop环境搭建

目前银行历史数据系统主要采用关系型数据库进行数据存储，如Oracle方式，此方法具有诸多限制，例如数据量积压到一定值后，将极大影响查询效率；数据库达到一定程度后，可扩展性降低，维护成本不断增加；只适合存储结构化数据，难以满足对半结构化和非结构化历史数据的处理。银行历史数据系统具有的“大数据”特征，我们探索采用当前广泛应用的大数据技术解决方案，基于Hadoop/HBase的技术架构，给出技术结果、分析关键技术及技术特性。

1、Hadoop/HBase简介

Hadoop是Apache软件基金会的一个开源项目，是为用户提供一个能够对大量数据进行分布式处理软件框架，具有可靠、高效、可伸缩等特点。HBase则是APache的Hadoop的子项目，在Hadoop之上提供高可靠性、高性能、可伸缩的分布式数据库系统。不同于一般的关系数据库，利用HBase技术可在廉价PC服务器上搭建起大规模结构化数据库集群系统。

HDFS是Hadoop分布式文件系统，为HBase提供了高可靠性的底层存储支持。MapReduce是Hadoop任务调度管理模块，为HBase提供了高性能的计算能力。Zookeeper是Hadoop的分布式协调服务，为HBase提供了稳定服务和容错机制。

2、系统架构

基于Hadoop/HBase历史数据查询系统逻辑结构如下图所示。

生产系统历史数据库磁带

生产系统

历史数据库

?历史数据获取，新技术方案由于技术架构的横向可扩展性，可以同时对生产数据库、历史数据库、磁带等多种数据源方式获取数据

?2．历史数据查询，历史数据查询模块实现交易查询，根据查询时间段，将查询结果反馈给前台用户。新技术方案由于具备大数据量处理能力，不但能够提高查询效率，而且历史查询时间范围能随着处理数据量扩展

而扩展，例如可以从以1年历史查询扩展到查询20年的历史数据，甚至更长时间

?3．历史数据挖掘分析，新技术架构由于具有天然大数据技术特性，可以做到综合多种生产数据来源，从海量历史数据中进一步挖掘分析出所需信息，例如用户行为分析等，以优化相关金融服务产品，提高用户体验、

防范风险

新技术方案系统架构如下图所示：

Zookeeper服务器集群：为HBase提供了稳定服务和容错机制，为应用提供数据库配置信息、命名、分布式协调服务。

HBase主服务器(HMaster)：实现HBase集群初始化，负责数据表格、域分配管理；负责管理域服务器的负载均衡，调整域分布。数据资源层只有一台在线使用的HBase主服务器，但没有单点问题，HBase中可以启动多个HBase 主服务，通过Zookeeper保证总有一个HBase主服务运行。

HBase域服务器集群（HRegion）：负责响应应用的数据I/O请求，向HDFS文件系统中读写数据，是HBase 中最核心的模块。所存储的数据以文件形式保存在本地盘中。

3、技术特性

采用Hadoop/HBase实现历史数据查询系统，能够满足海量历史数据高效的查询需求，具备如下技术特性。

高可靠性：Hadoop/HBase维护多个数据副本，确保能够针对失败的节点重新分布处理，其备份恢复机制以及计算任务监控机制保证了分布式处理的可靠性。高扩展性：Hadoop/HBase具备存储和计算可扩展性，为处理海量数据，可以很方便地将集群扩展到数以干计节点规模，处理规模能够达到PB级。高效性：Hadoop/HBase以并行的方式工作，处理速度高效。经济性：基于Hadoop/HBase的大数据处理都运行在廉价的PC服务器上，无需购置昂贵的小/大型机以及磁盘阵列设备。

4、主机部署

基于Hadoop/HBase历史数据查询系统平台由19台节点主机承担，每台主机内存为128G，CPU为16核（2*8），本次存储硬盘300G，外挂存储硬盘14块共28T（其中：sas 硬盘2块共4T，grid硬盘12块共24T）。

考虑Hadoop各服务之间的兼容性与影响性，其中OM、NameNode、DataNode、Zookeeper、应用服务需要单独主机部署，Hbase主要是对数据进行查询，且数据交互在数据节点，Hbase服务部署与DataNode主机共享，具体分

5、Hbase表建设

本次对两张交易表进行Hbase表建设，主要对这两张交易表进行历史数据查询，根据以上应用场景的需要，对这两张交易数据Hbase表结构设计如下：

?表属性：表压缩采用snappy算法，snappy主要针对64位X86服务器量身定做的压缩算法，有高的压缩效率，与更高的解压缩效率，最高可达每秒500M的压缩速度

?RowKey：散列原则采用reverse的方式反转方式，对以类似于时间戳的递增方式的客户号/账号做到更好的数据均衡与查询效率；字段以“客户号/账号+交易时间”建设，通过scan(startkey,endkey)的扫描方法查询数据效率更高

?列族设置：每张表建立一个列族，一个列族包括多列。过多的列族之间会相互影响

?列设置：交易查询比较固定，把经常一次查询的数据封装到一个列中，例如：交易金额、交易类型、交易币种等，这样不但提高查询效率，而且保障了数据均衡分布

?预分区设置：预分区设置可以集中存储数据，数据划分更细，增加Reduce的数目，提高并发量

6、设备要求

?主机设备：每台主机需要双网卡，且支持IB网络

?磁盘设备：每台主机挂载磁盘为裸盘，挂载多块磁盘，提高数据读写效率

?网络设备：Hadoop集群之间建立IB网络，对外服务通过IP网络

7、参数配置

?系统参数：ulimit 最大文件数等设置为最大640000

?系统内存：内个DataNode主机占用最大内存为总内存的80%

?副本设置：副本数设置为2

Hadoop、hive环境搭建详解

一、
Hadoop 环境搭建首先在 Apache 官网下载 hadoop 的包 hadoop-0.20.2.tar.gz。解压 hadoop-0.20.2.tar.gz 包，具体命令如下： tar zxvf hadoop-0.20.2.tar.gz 其中要注意的是，tar 包用 xvf ，gz 包用 zxvf。
在安装中，如果遇到识别问题，或者无法解压，很有可能是权限问题，解决方案是修改此文件的使用权限，命令如下： chmod 777 hadoop-0.20.2.tar.gz 其中，777 为所有权限。如果依然报错，如：Archive contains obsolescent base-64 headers;Error exit delayed from previous errors。这种情况，一般是压缩包损坏的问题。因为大多数人会将包下载到 windows 环境，再通过 ftp 等方法上传到 Linux 环境。容易产生包损坏。建议大家直接下载到 Linux 即可。具体命令如下： wget https://www.360docs.net/doc/164996687.html,/apache-mirror/hadoop/core/hadoop-0.20.2/ hadoop-0.20.2.tar.gz 直接下载到当前目录。当文件准备好之后，我们要修改配置，将 Hadoop 简单 run 起来。首先，我们进入 hadoop-0.20.2/conf 目录当中，其中会存在如下配置文件：首先修改 masters 和 slaves，这个是指定我们的 m 和 s 的 ip 地址，这里我们就以单台机器为例子，在文件中直接输入当前机器的 IP。之后我们修改 mapred-site.xml 文件，具体配置如下 Xml 代码 1. 2. 3.

win7+eclipse+hadoop开发环境搭建

Win7+eclipse+Ubuntu14虚拟机环境下搭建hadoop1.2.1单机模式的开发环境 1.虚拟机下安装ubuntu14操作系统。 **注:（我安装ubuntu的时候的用户名是zjp一下涉及到的所有的zjp都需要换成自己的用名） 2.Ctrl+Alt+t 快捷键可以打开终端。 3.激活root用户sudo passwd root 4.联网的情况下，可以用apt-get install samba命令下载以及安装samba服务器。这个主要是为了window向ubuntu中上传jdk以及hadoop的安装文件。(如果apt-get命令无法使用，先用apt-get update安装这个命令。如果主机联网了，但是ubuntn没有连上网，那么将虚拟机的网络适配器改为NA T模式，并且启动任务管理器。打开服务，查看VMware NAT service 和WMware DPCH service是否启动，如果没有启动那么就启动这两个服务。如果还不能联网那就在虚拟机的菜单栏中选择编辑->虚拟网络编辑器，恢复默认设置。重启一下电脑，如果还是不行，那就没办法了，自求多福！) 5.联网的情况下安装ssh协议apt-get install ssh 6.在/home/zjp 目录下创建两个文件夹1.share用于存放共享文件 2.mysoftware用于存放需要安装的软件 7.配置samba共享su root 切换至root用户gedit /etc/samba/smb.conf 编辑samba 的配置文件在文件的最后添加 [share] comment=sharedir path=/home/zjp/share read only=no browseable=yes guest ok=no 7.关闭防火墙ufw disable 8重启samba服务器service samba restart 9创建samba用户smbpasswd -a samba用户名eg:smbpasswd -a zkpk 10ifconfig查看ubuntu的ip地址。例如ip是192.168.30.128 11打开我的电脑，在地址栏中输入\\192.168.30.128不出意外的话会让你登录，就用创建的samba登录就可以了。然后把下载好的linux版本的jdk和hadoop的安装文件拷贝进去。12.再把传到share目录下面的两个文件拷贝到mysoftware中去。这些准备工作都做好了，就可以安装jdk以及hadoop了一．先安装jdk 1.在mysoftware目录下用tar -zxvf jdk-7u55-linux-x64.gz命令解压以及安装jdk。 2.配置环境变量 gedit /etc/profile 然后在文件的最末尾添加如下内容: JA V A_HOME=/home/xkl/mysof/jdk1.7.0_60 export PA TH=$PATH:$JA V A_HOME/bin OK注销一下Ubuntu然后在终端中输入java -version如果可以看见jdk的版本，说明jdk 安装成功。二.安装hadoop

Hadoop环境的搭建与管理 (1)

Hadoop环境的搭建与管理 1、Hadoop的安装与配置 HDFS在Master节点启动dfs和yarn服务时，需要自动启动Slave节点服务，HDFS需要通过ssh访问Slave节点机。HDFS需要搭建多台服务器组成分布式系统，节点机间需要无密码访问。本节任务是进行ssh的设置、用户的创建、hadoop参数的设置,完成HDFS分布式环境的搭建。任务实施：本节任务需要四台节点机组成集群，每个节点机上安装CentOS-6.5-x86_64系统。四台节点机使用的IP地址分别为：192.168.23.111、192.168.23.112、192.168.23.113、192.168.23.114，对应节点主机名为：node1、node2、node3、node4。节点机node1作为NameNode，其他作为DataNode。创建hadoop用户，分别在四台节点机上创建用户hadoop，uid=660，密码分别为h1111, h2222, h3333, h4444。登录node1节点机，创建hadoop用户和设置密码。操作命令如下。 [root@node1 ~]# useradd -u 660 hadoop [root@node1 ~]# passwd hadoop 其他节点机的操作相同。步骤2 设置master节点机ssh无密码登录slave节点机。（1）在node1节点机上，以用户hadoop用户登录或者使用su – hadoop切换到hadoop 用户。操作命令如下。 [root@node1 ~]# su - hadoop （2）使用ssh-keygen生成证书密钥，操作命令如下。 [hadoop@node1 ~]$ssh-keygen -t dsa （3）使用ssh-copy-id分别拷贝证书公钥到node1，node2，node3，node4节点机上，操作命令如下。 [hadoop@node1 ~]$ ssh-copy-id -i .ssh/id_dsa.pub node1 [hadoop@node1 ~]$ ssh-copy-id -i .ssh/id_dsa.pub node2 [hadoop@node1 ~]$ ssh-copy-id -i .ssh/id_dsa.pub node3 [hadoop@node1 ~]$ ssh-copy-id -i .ssh/id_dsa.pub node4 （4）在node1节点机上使用ssh测试无密码登录node1节点机，操作命令如下。 [hadoop@node1 ~]$ ssh node1 Last Login: Mon Dec 22 08:42:38 2014 from node1 [hadoop@node1 ~]$ exit Logout Connection to node1 closed.

hadoop环境配置入门教程

ubuntu 下安装配置hadoop 1.0.4 第一次搞hadoop，折腾我2天，功夫不负有心人，终于搞好了，现在来分享下，我的环境操作系统：wmv虚拟机中的ubuntu12.04 hadoop版本：hadoop-1.0.4(听说是稳定版就下了) eclipse版本：eclipse-jee-indigo-SR2-win32 1.先安装好jdk，然后配置好jdk的环境变量，在这里我就不累赘了！网上多的是 2.安装ssh这个也不用说了 2.把hadoop-1.0.4.tar.gz拖到虚拟机中，解压,比如: /home/wys/Documents/hadoop-1.0.4/ (有的还单独建了个用户,为了舍去不必要的麻烦我都是用root用户来操作的) 3.修改hadoop-1.0.4/conf 下面的core-site.xml文件，如下： https://www.360docs.net/doc/164996687.html, hdfs://192.168.116.128:9000 hadoop.tmp.dir /home/wys/Documents/tmp

192.168.116.128这个是虚拟机中ubuntu的ip,听说用localhost，127.0.0.1都不行，我没试过，直接写上ip地址了 tmp是预先创建的一个目录 4.修改hadoop-env.sh 把export JAVA_HOME=xxxxxx 这行的#号去掉，写上jdk的目录路径 5.修改hdfs-site.xml如下： dfs.replication 1 dfs.permissions false 说明：为了以后用eclipse开发出现各种问题，就把权限关了！

Hadoop安装配置超详细步骤

Hadoop的安装 1、实现linux的ssh无密码验证配置. 2、修改linux的机器名，并配置/etc/hosts 3、在linux下安装jdk，并配好环境变量 4、在windows下载hadoop 1.0.1，并修改hadoop-env.sh，core-site.xml， hdfs-site.xml， mapred-site.xml，masters，slaves文件的配置 5、创建一个给hadoop备份的文件。 6、把hadoop的bin加入到环境变量 7、修改部分运行文件的权限 8、格式化hadoop，启动hadoop 注意：这个顺序并不是一个写死的顺序，就得按照这个来。如果你知道原理，可以打乱顺序来操作，比如1、2、3，先哪个后哪个，都没问题，但是有些步骤还是得依靠一些操作完成了才能进行，新手建议按照顺序来。

一、实现linux的ssh无密码验证配置（1）配置理由和原理 Hadoop需要使用SSH协议，namenode将使用SSH协议启动namenode和datanode进程，(datanode向namenode传递心跳信息可能也是使用SSH协议，这是我认为的，还没有做深入了解)。大概意思是，namenode 和datanode之间发命令是靠ssh来发的，发命令肯定是在运行的时候发，发的时候肯定不希望发一次就弹出个框说：有一台机器连接我，让他连吗。所以就要求后台namenode和datanode 无障碍的进行通信。以namenode到datanode为例子：namenode作为客户端，要实现无密码公钥认证，连接到服务端datanode上时，需要在namenode上生成一个密钥对，包括一个公钥和一个私钥，而后将公钥复制到datanode上。当namenode通过ssh连接datanode时，datanode就会生成一个随机数并用namenode的公钥对随机数进行加密，并发送给namenode。namenode收到加密数之后再用私钥进行解密，并将解密数回传给datanode，datanode确认解密数无误之后就允许namenode 进行连接了。这就是一个公钥认证过程，其间不需要用户手工输入密码。重要过程是将客户端namenode公钥复制到datanode上。

Hadoop实验环境搭建

单机上通过虚拟机搭建Hadoop环境（以下过程软件版本不固定，只能相互兼容就可以） 1.安装vmware workstation（1 2.1.0） 2.创建3个虚拟机（每个虚拟机512M内存，8G空间），每个虚拟机安装Ubuntu 桌面版 (11.10)（虚拟机需安装vmare tools，上网上式可设置为桥接方式：直接连接物理网络）。一个虚拟机作为name node(master),两个虚拟机作为data node 1(slave1)和data node 2(slave2).三个虚拟机可以共享一个主机目录share,该目录在虚拟机上显示为/mnt/hgfs/share 对每个虚拟机：修改root密码（sudo passwd root），然后用root用户登录。 3.通过如下配置master, slave1, slave2。 1)通过vi /etc/hostname修改主机名。 2)通过vi /etc/hosts修改/etc/hosts 文件，增加三台机器的ip和hostname的映射关系. 在/usr/src目录： 4.下载zlib(1.2.8)并解压安装 5.下载openssl(1.0.1)并解压安装 6.下载openssh(6.0p1)并解压安装安装后运行命令ssh localhost，如果显示” Privilege separation user sshd does not exist”,解决方法：修改/etc/passwd,在其中加入 sshd:x:74:74:Privilege-seperated SSH:/var/empty/sshd:/nologin 7.配置ssh无密码登录在命令行输入：vi /etc/profile.d/hadoop.sh 在hadoop.sh加入以下命令： sudo ufw disable /usr/local/sbin/sshd 在name node: ssh-keygen –t dsa -P ‘’–f ~/.ssh/id_dsa 在data node 1: ssh-keygen –t dsa-P‘’–f ~/.ssh/id_dsa 在data node 2: ssh-keygen –t dsa -P‘’–f ~/.ssh/id_dsa 在name node: scp ~/.ssh/id_dsa.pub /mnt/hgfs/share/id_dsa0.pub 在data node 1: scp ~/.ssh/id_dsa.pub /mnt/hgfs/share/id_dsa1.pub 在data node 2: scp ~/.ssh/id_dsa.pub /mnt/hgfs/share/id_dsa2.pub

虚拟机环境下Hadoop伪分布式平台搭建详细过程

大数据技术平台搭建之Hadoop 1. Hadoop(伪分布式)平台搭建详细过程 1.1 工具 ?VMware12 ?CentOS 6.4 ?JDK-6u24-Linux-i586.bin ?Hadoop-1.1.2.tar.gz ?Scala-2.9.3.tgz ?Spark-1.4.0-bin-hadoop1.tgz ?Win10系统环境 1.2 详细搭建过程 1.2.1 安装虚拟机VMware Workstation 12 Pro 图1.1 VMware Workstation 12 Pro软件开始界面1.2.2 在虚拟机环境上安装Linux系统（1）点击创建新的虚拟机按钮选择典型配置安装图1.2 新建虚拟机向导

（2）选择Linux镜像文件，开始虚拟安装图1.3 选择安装镜像文件（3）为新建的虚拟机命名，并选择安装目录图1.4 命名、选择安装目录（4）指定虚拟机磁盘大小图1.5 指定磁盘大小

（5）设置硬件、网络类型等虚拟机配置图1.6 自定义虚拟机硬件（6）点击完成按钮完成虚拟机安装图1.7 CentOS_Linux虚拟机系统安装成功

1.2.3 配置Linux环境，为安装Hadoop做准备（1）关闭防火墙执行命令 service iptables status可以查看防火墙状态执行命令 service iptables stop 关闭防火墙图1.8 关闭防火墙并检验执行命令chkconfig iptables off，关闭防火墙某些功能自启动图1.9 关闭防火墙自启功能并检验（2）设置网络连接宿主机（Windows）和客户机（虚拟机中的Linux）采用host-only方式建立网络连接，具体步骤：右击桌面右上角网络连接图标，选择编辑网络连接，如下图1.10 虚拟机网络设置窗口接着点击按钮，设置IPv4地址，注意要和主机IP在同一网段 192.168.80.X 图1.11 设置ip窗口

hadoop20集群搭建详解

hadoop2.2.0集群搭建 PS：apache提供的hadoop-2.2.0的安装包是在32位操作系统编译的，因为hadoop依赖一些C++的本地库，所以如果在64位的操作上安装 hadoop-2.2.0就需要重新在64操作系统上重新编译 1.准备工作:(参考伪分布式搭建) 1.1修改Linux主机名 1.2修改IP 1.3修改主机名和IP的映射关系 1.4关闭防火墙 1.5ssh免登陆 1.6.安装JDK，配置环境变量等 2.集群规划： PS：在hadoop2.0中通常由两个NameNode组成，一个处于active

状态，另一个处于standby状态。Active NameNode对外提供服务，而Standby NameNode则不对外提供服务，仅同步active namenode 的状态，以便能够在它失败时快速进行切换。 hadoop2.0官方提供了两种HDFS HA的解决方案，一种是NFS， QJM。这里我们使用简单的QJM。在该方案中，另一种是主备NameNode之间通过一组JournalNode同步元数据信息，一条数据只要成功写入多数JournalNode即认为写入成功。JournalNode 通常配置奇数个这里还配置了一个zookeeper集群，用于ZKFC Active （DFSZKFailoverController）故障转移，当 NameNode挂掉了，会自动切换Standby NameNode为standby状态3.安装步骤： 3.1.安装配置zooekeeper集群解压3.1.1 tar -zxvf zookeeper-3.4.5.tar.gz -C /cloud/

educoder平台hadoop开发环境搭建

《一》配置开发环境- JavaJDK的配置 mkdir /app 回车 cd /opt 回车 ll 回车 tar -zxvf jdk-8u171-linux-x64.tar.gz 回车 mv jdk1.8.0_171/ /app 回车 vim /etc/profile 在最低下按i复制粘贴下面代码 JAVA_HOME=/app/jdk1.8.0_171 CLASSPATH=.:$JAVA_HOME/lib/tools.jar PATH=$JAVA_HOME/bin:$PATH export JAVA_HOME CLASSPATH PATH 退出wq source /etc/profile 回车 java -version 测评 *******************************************************************************《二》配置开发环境- Hadoop安装与伪分布式集群搭建 cd /opt 回车 ls 回车 echo $JAVA_HOME 回车 ls /app 回车 ls 回车 mkdir /app 回车 cp * /app 回车 cd /app 回车 ls 回车 tar -zxvf hadoop-3.1.0.tar.gz

ls tar -zxvf jdk-8u171-linux-x64.tar.gz 回车 ls 回车 mv hadoop-3.1.0 hadoop3.1 回车 cd jdk1.8.0_171/ 回车 pwd 回车 vim /etc/profile 最底下按i复制 export JAVA_HOME=/app/jdk1.8.0_171 export HADOOP_HOME=/app/hadoop3.1 export PATH=.:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$JAVA_HOME/bin:$PATH 退出wq source /etc/profile 回车 java -version 回车 cd /app 回车 ssh-keygen -t rsa -P '' 按回车 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 回车 chmod 600 ~/.ssh/authorized_keys 回车 vim /etc/ssh/sshd_config 找到#AuthorizedKeysFile %h/.ssh/authorized_keys把#删除退出wq cd /app/hadoop3.1/etc/hadoop/ 回车 vim hadoop-env.sh 找到# JAVA_HOME=/usr/java/testing hdfs dfs -ls这一行按i在最后面回车，添加下面代码：export JAVA_HOME=/app/jdk1.8.0_171 退出wq vim yarn-env.sh 最底下按i回车 export JAVA_HOME=/app/jdk1.8.0_171 退出wq ————————1———————————————————————————————

hadoop学习笔记(一、hadoop集群环境搭建)

Hadoop集群环境搭建1、准备资料虚拟机、Redhat6.5、hadoop-1.0.3、jdk1.6 2、基础环境设置 2.1配置机器时间同步 #配置时间自动同步 crontab -e #手动同步时间 /usr/sbin/ntpdate https://www.360docs.net/doc/164996687.html, 1、安装JDK 安装 cd /home/wzq/dev ./jdk-*****.bin 设置环境变量 Vi /etc/profile/java.sh 2.2配置机器网络环境 #配置主机名(hostname) vi /etc/sysconfig/network #修第一台hostname 为master hostname master

#检测 hostname #使用setup 命令配置系统环境setup

#检查ip配置 cat /etc/sysconfig/network-scripts/ifcfg-eth0 #重新启动网络服务 /sbin/service network restart #检查网络ip配置 /sbin/ifconfig 2.3关闭防火墙

2.4配置集群hosts列表 vi /etc/hosts #添加一下内容到vi 中 2.5创建用户账号和Hadoop部署目录和数据目录 #创建hadoop 用户 /usr/sbin/groupadd hadoop

#分配hadoop 到hadoop 组中 /usr/sbin/useradd hadoop -g hadoop #修改hadoop用户密码 Passwd hadoop #创建hadoop 代码目录结构 mkdir -p /opt/modules/hadoop/ #修改目录结构权限拥有者为为hadoop chown -R hadoop:hadoop /opt/modules/hadoop/ 2.6生成登陆密钥 #切换到Hadoop 用户下 su hadoop cd /home/hadoop/ #在master、node1、node2三台机器上都执行下面命令，生成公钥和私钥 ssh-keygen -q -t rsa -N "" -f /home/hadoop/.ssh/id_rsa cd /home/hadoop/.ssh #把node1、node2上的公钥拷贝到master上 scp /home/hadoop/.ssh/ id_rsa.pub hadoop@master:/home/hadoop/.ssh/node1_pubkey scp /home/hadoop/.ssh/ id_rsa.pub hadoop@master:/home/hadoop/.ssh/node2_pubkey #在master上生成三台机器的共钥 cp id_rsa.pub authorized_keys cat node1_pubkey >> authorized_keys cat node2_pubkey >> authorized_keys rm node1_pubkey node2_pubkey #吧master上的共钥拷贝到其他两个节点上 scp authorized_keys node1: /home/hadoop/.ssh/ scp authorized_keys node1: /home/hadoop/.ssh/ #验证 ssh master ssh node1 ssh node2 没有要求输入密码登陆，表示免密码登陆成功

Eclipse搭建hadoop开发环境

Eclipse搭建hadoop开发环境 1、软件环境 a)Eclipse b)运行中的hadoop集群 2、eclipse上安装hadoop插件 a)首先将eclipse Hadoop的插件放置到eclipse/plugins目录下，重启eclipse b)如果插件安装成功，打开Windows—Preferences后，在窗口左侧会有Hadoop Map/Reduce选项，点击此选项，在窗口右侧设置Hadoop安装路径。 PS：这个路径是hadoop的路径，eclipse会从这里获取一定的jar包如图： c)配置Map/Reduce Locations，打开Windows—Open Perspective—Other—Map/Reduce Locations—OK 如图：

d)点击新增hadoop 如图：

3、新建WordCount项目 a)上传两个文件到hadoop集群里面 b)分别写Mapper、Reducer、Main，如图所示：

c)运行WordCountMain.java，Run As-----Run Configurations，然后配置如图：

d)结果如图： 4、碰到的错误

a)Windows eclipse配置插件时候，碰到权限不够（org.apache.hadoop.security.AccessControlException），导致不能连接到hadoop，解决方案： 1、将windows的账户名和用户组都设置成hadoop启动的账号一样的名字 2、如果是自己的测试机器，可以关闭dfs的权限检测，在conf/hdfs-site.xml 将 dfs.permissions修改成false b)Exception in thread "main" java.io.IOException: Failed to set permissions of path: \tmp\hadoop-Administrator\mapred\staging\Administrator-519341271\.staging to 0700 这个是Windows下文件权限问题，在Linux下可以正常运行，不存在这样的问题。解决方法是，修改hadoop-1.0.4/src/core/org/apache/hadoop/fs/FileUtil.java里面的checkReturnValue，注释掉即可（有些粗暴，在Window下，可以不用检查） 5、建议：在Ubuntu下面运行eclipse

Windows环境下Hadoop开发环境配置

Windows环境下Hadoop开发环境配置一、事先准备 1)Hadoop集群环境搭建已经用三台虚拟机(操作系统为ubuntu 10.0.4)搭建完成一个hadoop分布式集群，分别是hadoop1: 192.168.201.104，hadoop2: 192.168.201.54和hadoop3: 192.168.201.100 ，其中hadoop1为namenode，其余为datanode。 2)windows安装JDK和eclipse 过程从略，需要注意应安装与hadoop集群所用JDK兼容的版本。本例中，hadoop集群安装的是64位的JDK-8.0.20，因此Windows下选择64位的JDK-8.0.65，eclipse版本为支持64位的Kepler Service Release 2。 3)hadoop安装包解压将搭建hadoop集群的安装包拷贝并解压到windows开发机器的某个目录下，本例中的安装包为hadoop-2.6.1.tar.gz，解压到D:\hadoop-2.6.1目录。 4)hadoop for eclipse插件包下载下载hadoop for eclipse插件。由于本例中hadoop集群为hadoop2，插件也必须是2.x 版本。本例中插件包为：hadoop-eclipse-plugin-2.2.0。二、配置eclipse 1)拷贝插件包将插件包拷贝至eclipse安装目录的plugin目录下，然后重启eclipse。 2)配置hadoop安装路径打开"Window"--"Prefrences"，此时左侧会出现"Hadoop Map/Reduce"选项，将其配置为hadoop安装包解压后的目录。 3)配置Map/Reduce Locations 打开"Window"--"Perspectives"--"Open Perspective"--"Other ..."，在弹出窗口中选择"Map/Reduce"，点击"OK"。

hadoop搭建与eclipse开发环境设置

hadoop搭建与eclipse开发环境设置 ――罗利辉 1.前言 1.1 目标目的很简单，为进行研究与学习，部署一个hadoop运行环境，并搭建一个hadoop开发与测试环境。具体目标是： ?在ubuntu系统上部署hadoop ?在windows 上能够使用eclipse连接ubuntu系统上部署的hadoop进行开发与测试1.2 软硬件要求注意： Hadoop版本和Eclipse版本请严格按照要求。现在的hadoop最新版本是hadoop-0.20.203，我在windows上使用eclipse（包括3.6版本和3.3.2版本）连接ubuntu上的hadoop-0.20.203环境一直没有成功。但是开发测试程序是没有问题的，不过需要注意权限问题。如果要减少权限问题的发生，可以这样做：ubuntu上运行hadoop的用户与windows 上的用户一样。

1.3 环境拓扑图 ubuntu 192.168.69.231 ubuntu2 192.168.69.233 ubuntu1 192.168.69.232

2.Ubuntu 安装安装ubuntu11.04 server系统，具体略。我是先在虚拟机上安装一个操作系统，然后把hadoop也安装配置好了，再克隆二份，然后把主机名与IP修改，再进行主机之间的SSH配置。如果仅作为hadoop的运行与开发环境，不需要安装太多的系统与网络服务，或者在需要的时候通过apt-get install进行安装。不过SSH服务是必须的。 3.Hadoop 安装以下的hadoop安装以主机ubuntu下进行安装为例。 3.1 下载安装jdk1.6 安装版本是：jdk-6u26-linux-i586.bin，我把它安装拷贝到：/opt/jdk1.6.0_26 3.2 下载解压hadoop 安装包是：hadoop-0.20.2.tar.gz。 3.3 修改系统环境配置文件切换为根用户。 ●修改地址解析文件/etc/hosts，加入

Hadoop搭建全过程

Hadoop搭建全过程【千锋】 Hadoop主要应用于数据量大、海量计算、数据挖掘、一次写入多次读取、非高实时性要求的场景。Hadoop可以作为分布式存储框架存储大规模数据，数据的价值越来越被企业重视，被称为是21世纪的石油。下面是千锋教育给出的Hadoop搭建教程： 1、安装虚拟机环境 VMware，收费产品，占内存较大。 2、安装操作系统 Ubuntu，操作简单，方便，界面友好。 3、安装一些常用的软件在每台linux虚拟机上，安装：vim，ssH sudo apt-get install vim sudo apt-get install ssH 在客户端，也就是win7上，安装SecureCRT，Winscp或putty，这几个程序，都是依靠ssH服务来操作的，所以前提必须安装ssH服务。

service ssH status 查看ssH状态。如果关闭使用service ssH start开启服务。 SecureCRT，可以通过ssH远程访问linux虚拟机。 winSCP或putty，可以从win7向linux上传文件。 4、修改主机名和网络配置主机名分别为：master，Host2，Host3，Host4。 sudo vim /etc/Hostname 网络配置，包括ip地址，子网掩码，DNS服务器。 5、修改/etc/Hosts文件。修改每台电脑的Hosts文件。 Hosts文件和windows上的功能是一样的。存储主机名和ip地址的映射。在每台linux上，sudo vim /etc/Hosts 编写Hosts文件。将主机名和ip 地址的映射填写进去。 6、配置ssH，实现无密码登陆无密码登陆，效果也就是在master上，通过ssH Host2 或ssH Host3 或ssH Host4 就可以登陆到对方计算机上。而且不用输入密码。四台虚拟机上，使用ssH-keygen -t rsa 一路按回车就行了 7、上传jdk，并配置环境变量。通过winSCP将文件上传到linux中。将文件放到/usr/lib/java中，四个linux都要操作。解压缩：tar -zxvf jdk1.7.0_21.tar 设置环境变量sudo vim ~/.basHrc

Hadoop云计算平台搭建最详细过程(共22页)

Hadoop云计算平台及相关组件搭建安装过程详细教程 ——Hbase+Pig+Hive+Zookeeper+Ganglia+Chukwa+Eclipse等一．安装环境简介根据官网，Hadoop已在linux主机组成的集群系统上得到验证，而windows平台是作为开发平台支持的，由于分布式操作尚未在windows平台上充分测试，所以还不作为一个生产平台。Windows下还需要安装Cygwin，Cygwin是在windows平台上运行的UNIX模拟环境，提供上述软件之外的shell支持。实际条件下在windows系统下进行Hadoop伪分布式安装时，出现了许多未知问题。在linux系统下安装，以伪分布式进行测试，然后再进行完全分布式的实验环境部署。Hadoop完全分布模式的网络拓补图如图六所示：（1）网络拓补图如六所示：图六完全分布式网络拓补图（2）硬件要求：搭建完全分布式环境需要若干计算机集群，Master和Slaves 处理器、内存、硬盘等参数要求根据情况而定。（3）软件要求操作系统64位Ubuntu12.04.4 JDK版本:jdk-7u51-linux-x64.tar.gz

并且所有机器均需配置SSH免密码登录。二．Hadoop集群安装部署目前，这里只搭建了一个由三台机器组成的小集群，在一个hadoop集群中有以下角色：Master和Slave、JobTracker和TaskTracker、NameNode和DataNode。下面为这三台机器分配IP地址以及相应的角色： 192.168.100.90——master，namenode，jobtracker——master（主机名） 192.168.100.105——slave，datanode，tasktracker——slave1（主机名） 192.168.100.106——slave，datanode，tasktracker——slave2（主机名）

hadoop 2.6.0详细安装过程和实例(有截图)

Hadoop 环境搭建时间：2015-07-26 作者：周乐相环境搭建之前准备工作我的笔记本配置：硬盘：500G (实际上用不完) CPU： Intel(R) Core(TM) i5-2450M CPU @ 2.50GHz 内存：10G 操作系统：WIN7 (64位) 软件准备 1). 虚拟机软件：vmwareworkstation64.exe ( VMware work station 64 bit V 11.0) 2). Linux 版本： Red Hat Enterprise Linux Server release 6.5 (Santiago) （rhel-server-6.5-x86_64-dvd.iso） 3). hadoop 版本： hadoop-2.6.0.tar.gz 4). JAVA 版本：java version "1.6.0_32" （jdk-6u32-linux-x64.bin）安装VMware 软件傻瓜操作下一步。。。。。。安装Linux操作系统傻瓜操作下一步。。。。。安装完成。 1). 创建hadoop操作系统安装hadoop的用户第一台操作系统命主机名为: master 2) 拷贝该虚拟机master 分别为node01 、node02 两个节点数 3) 分别对拷贝的node01 、node02 修改IP和主机名称

主机名: IP master : 192.168.2.50 node01: 192.168.2.51 node02: 192.168.2.52 jdk安装并设置好环境变量 ## 设置JAVA_HOME环境变量配置ssh 免密码通信三台服务器SSH关系

Hadoop详细安装配置过程

1.下载并安装ubuntukylin-15.10-desktop-amd64.iso 2.安装ssh sudo apt-get install openssh-server openssh-client 3.搭建vsftpd #sudo apt-get update #sudo apt-get install vsftpd 配置参考 .linuxidc./Linux/2015-01/111970.htm jingyan.baidu./article/67508eb4d6c4fd9ccb1ce470.html zhidao.baidu./link?url=vEmPmg5sV6IUfT4qZqivtiHtXWUoAQalGAL7bOC5XrTum pLRDfa-OmFcTzPetNZUqAi0hgjBGGdpnldob6hL5IhgtGVWDGSmS88iLvhCO4C vsftpd的开始、关闭和重启 $sudo /etc/init.d/vsftpd start #开始 $sudo /etc/init.d/vsftpd stop #关闭 $sudo /etc/init.d/vsftpd restart #重启 4.安装jdk1.7 sudo chown -R hadoop:hadoop /opt cp /soft/jdk-7u79-linux-x64.gz /opt sudo vi /etc/profile alias untar='tar -zxvf' sudo source /etc/profile source /etc/profile untar jdk* 环境变量配置 # vi /etc/profile ●在profile文件最后加上 # set java environment export JAVA_HOME=/opt/jdk1.7.0_79 export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export PATH=$JAVA_HOME/bin:$PATH 配置完成后，保存退出。 ●不重启，更新命令 #source /etc/profile ●测试是否安装成功 # Java –version 其他问题：

hadoop伪分布式环境搭建

Cookbook of hadoop 之环境搭建 Hadoop 是一个实现了MapReduce的开源分布式并行计算框架，借助hadoop我们轻松的编写分布式并行程序，完成海量数据的计算。随着业务的发展，数据量的增长，hadoop的使用越来越广泛，近期接手了一个运行于云梯的hadoop程序，而每次编写完代码都要打包成jar文件，上传到云梯调试也是极其不方便的（想想开发web应用，如果每次都要打包成war文件，然后部署到tomcat/jetty运行，后面的我就不多说了.....），因此就在本地部署一个hadoop的伪分布式环境，并配置了eclipse插件便于开发调试，本文分享了在win7上面搭建hadoop开发环境的过程，作为抛砖引玉之用，方便大家交流学习。准备工作： 1，安装jdk，配置环境变量。（推荐版本1.6） 2，安装cygwin，同时安装openssh程序，配置环境变量。 3，安装ant，配置环境变量（因为后面需要手工编译hadoop-eclipse插件）。（推荐版本1.8）4，安装hadoop，配置环境变量。（云梯使用0.19.2版本，我本地选择0.20.2版本）以上所有程序都可以在官网获得。 1，安装&配置jdk（略）。 2，安装cygwin，注意勾选openssh。 3，将cygwin加入环境变量。

4，配置ssh，执行以下命令。安装sshd:$ ssh-host-config 启动sshd服务：$ net start sshd 配置免密码登录用户：$ ssh-user-config 检查可登录localhost：$ ssh localhost 成功画面如下