超详细hadoop与eclipse开发环境设置

hadoop搭建与eclipse开发环境设置

――罗利辉

1.前言

1.1 目标

目的很简单，为进行研究与学习，帮忙初学者快速搭建hadoop环境，部署一个hadoop 运行环境，并搭建一个hadoop开发与测试环境。

具体目标是：

?在ubuntu系统上部署hadoop

?在windows 上能够使用eclipse连接ubuntu系统上部署的hadoop进行开发与测试1.2 软硬件要求

注意：

机器的台数最好为奇数，偶数的话有可能遇到不可预知的问题！

Hadoop版本和Eclipse版本请严格按照要求。

现在的hadoop最新版本是hadoop-0.20.203，我在windows上使用eclipse（包括3.6版本和3.3.2版本）连接ubuntu上的hadoop-0.20.203环境一直没有成功。但是开发测试程序是没有问题的，不过需要注意权限问题。

如果要减少权限问题的发生，可以这样做：ubuntu上运行hadoop的用户与windows 上的用户一样。

1.3 环境拓扑图

ubuntu 192.168.69.231

ubuntu2

192.168.69.233 ubuntu1

192.168.69.232

2.Ubuntu 安装

安装ubuntu11.04 server系统，具体略。

我是先在虚拟机上安装一个操作系统，然后把hadoop也安装配置好了，再克隆二份，然后把主机名与IP修改，再进行主机之间的SSH配置。

如果仅作为hadoop的运行与开发环境，不需要安装太多的系统与网络服务，或者在需要的时候通过apt-get install进行安装。不过SSH服务是必须的。

3.Hadoop 安装

以下的hadoop安装以主机ubuntu下进行安装为例。

3.1 下载安装jdk1.6

安装版本是：jdk-6u26-linux-i586.bin，我把它安装拷贝到：/opt/jdk1.6.0_26

3.2 下载解压hadoop

安装包是：hadoop-0.20.2.tar.gz。

3.3 修改系统环境配置文件

切换为根用户。

3.4 修改hadoop的配置文件

切换为hadoop用户。

●修改hadoop目录下的conf/hadoop-env.sh文件

●把hadoop目录下的conf/core-site.xml文件修改成如下：

hadoop.tmp.dir

/hadoop

A base for other temporary directories.

https://www.360docs.net/doc/e610471356.html,

hdfs://ubuntu:9000

The name of the default file system. A URI whose scheme and authority determine the FileSystem implementation. The uri's scheme determines the config property (fs.SCHEME.impl) naming the FileSystem implementation class. The uri's authority is used to determine the host, port, etc. for a filesystem.

dfs.hosts.exclude

excludes

https://www.360docs.net/doc/e610471356.html,.dir

●把hadoop目录下的conf/ hdfs-site.xml文件修改成如下：

dfs.data.dir

/hadoop/data

Determines where on the local filesystem an DFS data node should store its blocks. If this is a comma-delimited list of directories, then data will be stored in all named directories, typically on different devices. Directories that do not exist are ignored.

dfs.replication

Default block replication. The actual number of replications can be specified when the file is created. The default is used if replication is not specified in create time.

●把hadoop目录下的conf/ mapred-site.xml文件修改成如下：

注意：

别忘了hadoop.tmp.dir，https://www.360docs.net/doc/e610471356.html,.dir，dfs.data.dir参数，hadoop存放数据文件，名字空间等的目录，格式化分布式文件系统时会格式化这个目录。

这里指向了/hadoop，所以也要创建这个目录，并且用户归属也是hadoop:hadoop。

3.5 分发hadoop安装文件

我使用VMWare的克隆功能，将主机ubuntu完全克隆两份:ubuntu1和ubuntu2，并修改相应的主机名和IP地址，这样就可以简单地保持hadoop环境基本配置相同。

如果是安装在实体物理机上，把在ubuntu安装的jdk，系统配置文件/etc/host，/etc/profile，hadoop安装目录拷贝到ubuntu1和ubuntu2相应的目录。

3.6 SSH配置无密码验证配置

然后一直按[Enter]键，按默认的选项生成密钥对保存在.ssh/id_rsa文件中。

从ubuntu向ubuntu1和ubuntu2发起SSH连接，第一次登录时需要输入密码，以后就不需要了。

我们只需要配置从master向slaves发起SSH连接不需要密码就可以了，但这样只能在master（即在主机ubuntu）启动或关闭hadoop服务。

3.7 运行hadoop

使用Hadoop用户。

首先说明，hadoop命令和参数都是大小写敏感的，该用大写时用大写，用小写时用小写，否则会执行错误。

停止hadoop守护进程是：

在ubuntu1上查看运行的进程：

其它命令请参考相关资料。

在windows上通过WEB查看hadoop相关信息。

访问：http://ubuntu:50030可以查看JobTracker的运行状态：

访问：http://ubuntu:50070可以查看NameNode及整个分布式文件系统的状态等：

3.8 运行WordCount实例

WordCount是hadoop自带的实例，统计一批文本文件中各单词出现的资料，输出到指

4.Windows下eclipse开发环境配置

4.1 系统环境配置

在windows上通过WEB查看hadoop相关信息。

4.2 安装开发hadoop插件

将hadoop安装包hadoop\contrib\eclipse-plugin\hadoop-0.20.2-eclipse-plugin.jar拷贝到eclipse的插件目录plugins下。

需要注意的是插件版本（及后面开发导入的所有jar包）与运行的hadoop一致，否则可能会出现EOFException异常。

重启eclipse，打开windows->open perspective->other->map/reduce 可以看到map/reduce开发视图。

4.3 设置连接参数

打开windows->show view->other-> map/reduce Locations视图，在点击大象后弹出的对话框（General tab）进行参数的添加：

参数说明如下：

Location name:任意

map/reduce master：与mapred-site.xml里面mapred.job.tracker设置一致。

DFS master：与core-site.xml里https://www.360docs.net/doc/e610471356.html,设置一致。

User name: 服务器上运行hadoop服务的用户名。

然后是打开“Advanced parameters”设置面板，修改相应参数。上面的参数填写以后，也会反映到这里相应的参数：

主要关注下面几个参数：

https://www.360docs.net/doc/e610471356.html,：与core-site.xml里https://www.360docs.net/doc/e610471356.html,设置一致。

mapred.job.tracker：与mapred-site.xml里面mapred.job.tracker设置一致。

dfs.replication：与hdfs-site.xml里面的dfs.replication一致。

hadoop.tmp.dir：与core-site.xml里hadoop.tmp.dir设置一致。

hadoop.job.ugi：并不是设置用户名与密码。是用户与组名，所以这里填写hadoop,hadoop。

说明：第一次设置的时候可能是没有hadoop.job.ugi和dfs.replication参数的，不要紧，确认保存。打开Project Explorer中DFS Locations目录，应该可以年看到文件系统中的结构了。但是在/hadoop/mapred/system下却没有查看权限，如下图：

而且删除文件的时候也会报错：

这个原因是我使用地本用户Administrator（我是用管理员用户登陆来地windows系统的）进行远程hadoop系统操作，没有权限。

此时再打开“Advanced parameters”设置面板，应该可以看到hadoop.job.ugi了，这个参数默认是本地操作系统的用户名，如果不幸与远程hadoop用户不一致，那就要改过来了，将hadoop加在第一个，并用逗号分隔。如：

保存配置后，重新启动eclipse。/hadoop/mapred/system下就一目了然了，删除文件

4.4 运行hadoop程序

首先将hadoop安装包下面的所有jar包都导到eclipse工程里。

然后建立一个类：DFSOperator.java，该类写了四个基本方法：创建文件，删除文件，把文件内容读为字符串，将字符串写入文件。同时有个main函数，可以修改测试:

package com.kingdee.hadoop;

import java.io.BufferedReader;

import java.io.IOException;

import java.io.InputStream;

import java.io.InputStreamReader;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FSDataOutputStream;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

/**

* The utilities to operate file on hadoop hdfs.

* @author luolihui 2011-07-18

public class DFSOperator {

private static final String ROOT_PATH = "hdfs:///";

private static final int BUFFER_SIZE = 4096;

* construct.

public DFSOperator(){}

/**

* Create a file on hdfs.The root path is /.

* for example: DFSOperator.createFile("/lory/test1.txt", true);

* @param path the file name to open

* @param overwrite if a file with this name already exists, then if true, the file will be

* @return true if delete is successful else IOException.

* @throws IOException

public static boolean createFile(String path, boolean overwrite) throws IOException

{

//String uri = "hdfs://192.168.1.100:9000";

//FileSystem fs1 = FileSystem.get(URI.create(uri), conf);

Configuration conf = new Configuration();

FileSystem fs = FileSystem.get(conf);

Path f = new Path(ROOT_PATH + path);

fs.create(f, overwrite);

fs.close();

return true;

}

/**

* Delete a file on hdfs.The root path is /.

* for example: DFSOperator.deleteFile("/user/hadoop/output", true);

* @param path the path to delete

* @param recursive if path is a directory and set to true, the directory is deleted else throws an exception. In case of a file the recursive can be set to either true or false.

* @return true if delete is successful else IOException.

* @throws IOException

public static boolean deleteFile(String path, boolean recursive) throws IOException

{

//String uri = "hdfs://192.168.1.100:9000";

//FileSystem fs1 = FileSystem.get(URI.create(uri), conf);

Configuration conf = new Configuration();

FileSystem fs = FileSystem.get(conf);

Path f = new Path(ROOT_PATH + path);

fs.delete(f, recursive);

fs.close();

return true;

}

/**

* Read a file to string on hadoop hdfs. From stream to string.

* for example: System.out.println(DFSOperator.readDFSFileToString("/user/hadoop/input/test3.txt"));

* @param path the path to read

* @return true if read is successful else IOException.

* @throws IOException

public static String readDFSFileToString(String path) throws IOException

{

Configuration conf = new Configuration();

FileSystem fs = FileSystem.get(conf);

Path f = new Path(ROOT_PATH + path);

InputStream in = null;

String str = null;

StringBuilder sb = new StringBuilder(BUFFER_SIZE);

if (fs.exists(f))

{

in = fs.open(f);

BufferedReader bf = new BufferedReader(new InputStreamReader(in));

while ((str = bf.readLine()) != null)

{

sb.append(str);

sb.append("\n");

}

in.close();

bf.close();

fs.close();

return sb.toString();

}

else

{

return null;

}

/**

* Write string to a hadoop hdfs file.

* for example: DFSOperator.writeStringToDFSFile("/lory/test1.txt", "You are a bad man.\nReally!\n");

* @param path the file where the string to write in.

* @param string the context to write in a file.

* @return true if write is successful else IOException.

* @throws IOException

public static boolean writeStringToDFSFile(String path, String string) throws IOException

{

Configuration conf = new Configuration();

FileSystem fs = FileSystem.get(conf);

FSDataOutputStream os = null;

Path f = new Path(ROOT_PATH + path);

os = fs.create(f,true);

os.writeBytes(string);

os.close();

fs.close();

return true;

}

public static void main(String[] args)

{

try {

DFSOperator.createFile("/lory/test1.txt", true);

DFSOperator.deleteFile("/dfs_operator.txt", true);

DFSOperator.writeStringToDFSFile("/lory/test1.txt", "You are a bad man.\nReally?\n");

System.out.println(DFSOperator.readDFSFileToString("/lory/test1.txt"));

} catch (IOException e) {

// TODO Auto-generated catch block

e.printStackTrace();

}

System.out.println("===end===");

}

然后Run As→Run on Hadoop→Choose an exitsing server from the list below→finish.

也可以运行hadoop自带的WorkCount程序，找到其源代码导进来，然后设置输入输出参数，然后同样“Run on hadoop”。具体步骤不再示范。

每“Run on hadoop”都会在workspace\.metadata\.plugins\org.apache.hadoop.eclipse下生成临时jar包。不过第一次需要Run on hadoop，以后只需要点击那运行的绿色按钮了。

5.错误及处理

5.1 安全模式问题

我在eclipse上删除DFS上的文件夹时，出现下面错误：

错误提示说得也比较明示，是NameNode在安全模式中，其解决方案也一并给出。

类似的运行hadoop程序时，有时候会报以下错误：

org.apache.hadoop.dfs.SafeModeException: Cannot delete /user/hadoop/input. Name node is in safe mode

解除安全模式：

bin/hadoop dfsadmin -safemode leave

用户可以通过dfsadmin -safemode value 来操作安全模式，参数value的说明如下：enter - 进入安全模式

leave - 强制NameNode离开安全模式

get - 返回安全模式是否开启的信息

wait - 等待，一直到安全模式结束。

5.2 开发时报错Permission denied

解决方法是，在“Advanced parameters”设置面板，设置hadoop.job.ugi参数，将hadoop用户加上去。

变为：

然后重新在运行中”Run on hadoop”。

另一方法是改变要操作的文件的权限。

上面的意思是：test1.txt文件的访问权限是rw-r--r--，归属组是supergroup，归属用户是hadoop，现在使用Administrator用户对test1.txt文件进行WRITE方式访问，被拒绝了。

当然使用-chown命令也可以。

Hadoop大数据平台架构与实践--基础篇

Hadoop大数据平台架构与实践--基础篇大数据时代已经到来，越来越多的行业面临着大量数据需要存储以及分析的挑战。Hadoop，作为一个开源的分布式并行处理平台，以其高扩展、高效率、高可靠等优点，得到越来越广泛的应用。本课旨在培养理解Hadoop的架构设计以及掌握Hadoop的运用能力。导师简介 Kit_Ren，博士，某高校副教授，实战经验丰富，曾担任过大型互联网公司的技术顾问，目前与几位志同道合的好友共同创业，开发大数据平台。课程须知本课程需要童鞋们提前掌握Linux的操作以及Java开发的相关知识。对相关内容不熟悉的童鞋，可以先去《Linux达人养成计划Ⅰ》以及《Java入门第一季》进行修炼～～你能学到什么？ 1、Google的大数据技术 2、Hadoop的架构设计 3、Hadoop的使用 4、Hadoop的配置与管理大纲一览第1章初识Hadoop 本章讲述课程大纲，授课内容，授课目标、预备知识等等，介绍Hadoop的前世今生，功能与优势第2章 Hadoop安装本章通过案例的方式，介绍Hadoop的安装过程，以及如何管理和配置Hadoop 第3章 Hadoop的核心-HDFS简介本章重点讲解Hadoop的组成部分HDFS的体系结构、读写流程，系统特点和HDFS

的使用。第4章 Hadoop的核心-MapReduce原理与实现本章介绍MapReduce的原理，MapReduce的运行流程，最后介绍一个经典的示例WordCount 第5章开发Hadoop应用程序本章介绍在Hadoop下开发应用程序，涉及多个典型应用，包括数据去重，数据排序和字符串查找。课程地址：https://www.360docs.net/doc/e610471356.html,/view/391

Hadoop、hive环境搭建详解

一、
Hadoop 环境搭建首先在 Apache 官网下载 hadoop 的包 hadoop-0.20.2.tar.gz。解压 hadoop-0.20.2.tar.gz 包，具体命令如下： tar zxvf hadoop-0.20.2.tar.gz 其中要注意的是，tar 包用 xvf ，gz 包用 zxvf。
在安装中，如果遇到识别问题，或者无法解压，很有可能是权限问题，解决方案是修改此文件的使用权限，命令如下： chmod 777 hadoop-0.20.2.tar.gz 其中，777 为所有权限。如果依然报错，如：Archive contains obsolescent base-64 headers;Error exit delayed from previous errors。这种情况，一般是压缩包损坏的问题。因为大多数人会将包下载到 windows 环境，再通过 ftp 等方法上传到 Linux 环境。容易产生包损坏。建议大家直接下载到 Linux 即可。具体命令如下： wget https://www.360docs.net/doc/e610471356.html,/apache-mirror/hadoop/core/hadoop-0.20.2/ hadoop-0.20.2.tar.gz 直接下载到当前目录。当文件准备好之后，我们要修改配置，将 Hadoop 简单 run 起来。首先，我们进入 hadoop-0.20.2/conf 目录当中，其中会存在如下配置文件：首先修改 masters 和 slaves，这个是指定我们的 m 和 s 的 ip 地址，这里我们就以单台机器为例子，在文件中直接输入当前机器的 IP。之后我们修改 mapred-site.xml 文件，具体配置如下 Xml 代码 1. 2. 3.

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu_CentOS

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS 本教程讲述如何配置Hadoop 集群，默认读者已经掌握了Hadoop 的单机伪分布式配置，否则请先查看Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置。本教程由厦门大学数据库实验室出品，转载请注明。本教程适合于原生Hadoop 2，包括Hadoop 2.6.0, Hadoop 2.7.1 等版本，主要参考了官方安装教程，步骤详细，辅以适当说明，保证按照步骤来，都能顺利安装并运行Hadoop。另外有Hadoop安装配置简略版方便有基础的读者快速完成安装。为了方便新手入门，我们准备了两篇不同系统的Hadoop 伪分布式配置教程。但其他Hadoop 教程我们将不再区分，可同时适用于Ubuntu 和CentOS/RedHat 系统。例如本教程以Ubuntu 系统为主要演示环境，但对Ubuntu/CentOS 的不同配置之处、CentOS 6.x 与CentOS 7 的操作区别等都会尽量给出注明。环境本教程使用Ubuntu 14.04 64位作为系统环境，基于原生Hadoop 2，在Hadoop 2.6.0 (stable)版本下验证通过，可适合任何Hadoop 2.x.y 版本，例如Hadoop 2.7.1，Hadoop 2.4.1 等。本教程简单的使用两个节点作为集群环境: 一个作为Master 节点，局域网IP 为192.168.1.121；另一个作为Slave 节点，局域网IP 为192.168.1.122。准备工作 Hadoop 集群的安装配置大致为如下流程: 1.选定一台机器作为Master 2.在Master 节点上配置hadoop 用户、安装SSH server、安装Java 环境 3.在Master 节点上安装Hadoop，并完成配置 4.在其他Slave 节点上配置hadoop 用户、安装SSH server、安装Java 环境 5.将Master 节点上的/usr/local/hadoop 目录复制到其他Slave 节点上 6.在Master 节点上开启Hadoop 配置hadoop 用户、安装SSH server、安装Java 环境、安装Hadoop 等过程已经在Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置中有详细介绍，请前往查看，不再重复叙述。继续下一步配置前，请先完成上述流程的前 4 个步骤。网络配置假设集群所用的节点都位于同一个局域网。如果使用的是虚拟机安装的系统，那么需要更改网络连接方式为桥接（Bridge）模式，才能实现多个节点互连，例如在VirturalBox 中的设置如下图。此外，如果节点的系统是在虚拟机中直接复制的，要确保各个节点的Mac 地址不同（可以点右边的按钮随机生成MAC 地址，否则IP 会冲突）：

Hadoop环境的搭建与管理 (1)

Hadoop环境的搭建与管理 1、Hadoop的安装与配置 HDFS在Master节点启动dfs和yarn服务时，需要自动启动Slave节点服务，HDFS需要通过ssh访问Slave节点机。HDFS需要搭建多台服务器组成分布式系统，节点机间需要无密码访问。本节任务是进行ssh的设置、用户的创建、hadoop参数的设置,完成HDFS分布式环境的搭建。任务实施：本节任务需要四台节点机组成集群，每个节点机上安装CentOS-6.5-x86_64系统。四台节点机使用的IP地址分别为：192.168.23.111、192.168.23.112、192.168.23.113、192.168.23.114，对应节点主机名为：node1、node2、node3、node4。节点机node1作为NameNode，其他作为DataNode。创建hadoop用户，分别在四台节点机上创建用户hadoop，uid=660，密码分别为h1111, h2222, h3333, h4444。登录node1节点机，创建hadoop用户和设置密码。操作命令如下。 [root@node1 ~]# useradd -u 660 hadoop [root@node1 ~]# passwd hadoop 其他节点机的操作相同。步骤2 设置master节点机ssh无密码登录slave节点机。（1）在node1节点机上，以用户hadoop用户登录或者使用su – hadoop切换到hadoop 用户。操作命令如下。 [root@node1 ~]# su - hadoop （2）使用ssh-keygen生成证书密钥，操作命令如下。 [hadoop@node1 ~]$ssh-keygen -t dsa （3）使用ssh-copy-id分别拷贝证书公钥到node1，node2，node3，node4节点机上，操作命令如下。 [hadoop@node1 ~]$ ssh-copy-id -i .ssh/id_dsa.pub node1 [hadoop@node1 ~]$ ssh-copy-id -i .ssh/id_dsa.pub node2 [hadoop@node1 ~]$ ssh-copy-id -i .ssh/id_dsa.pub node3 [hadoop@node1 ~]$ ssh-copy-id -i .ssh/id_dsa.pub node4 （4）在node1节点机上使用ssh测试无密码登录node1节点机，操作命令如下。 [hadoop@node1 ~]$ ssh node1 Last Login: Mon Dec 22 08:42:38 2014 from node1 [hadoop@node1 ~]$ exit Logout Connection to node1 closed.

1 VISUAL C 集成开发环境(IDE)介绍

【实验准备】一、Visual C++集成开发环境（IDE）介绍集成开发环境（IDE）是一个将程序编辑器、编译器、调试工具和其他建立应用程序的工具集成在一起的用于开发应用程序的软件系统。Visual C++软件包中的Developer Studio就是一个集成开发环境，它集成了各种开发工具和VC编译器。程序员可以在不离开该环境的情况下编辑、编译、调试和运行一个应用程序。IDE中还提供大量在线帮助信息协助程序员做好开发工作。Developer Studio中除了程序编辑器、资源编辑器、编译器、调试器外，还有各种向导（如AppWizard 和ClassWizard），以及MFC类库，这些都可以帮助程序员快速而正确地开发出应用程序。向导(Wizard)：向导是一个通过一步步的帮助引导你工作的工具。Developer Studio中包含三个向导，用来帮助程序员开发简单的Windows程序，它们是： AppWizard：用来创建一个Windows程序的基本框架结构。AppWizard向导会一步步向程序员提出问题，询问他所创建的项目的特征，然后AppWizard会根据这些特征自动生成一个可以执行的程序框架，程序员然后可以在这个框架下进一步填充内容。AppWizard支持三类程序：基于视图/文档结构的单文档应用、基于视图/文档结构的多文档应用程序和基于对话框的应用程序。也可以利用AppWizard生成最简单的控制台应用程序（类似于DOS下用字符输入输出的程序）。ClassWizard：用来定义AppWizard所创建的程序中的类。可以利用ClassWizard在项目中增加类、为类增加处理消息的函数等。ClassWizard也可以管理包含在对话框中的控件，它可以将MFC 对象或者类的成员变量与对话框中的控件联系起来。ActiveX Control Wizard：用于创建一个ActiveX控件的基本框架结构。ActiveX控件是用户自定义的控件，它支持一系列定义的接口，可以作为一个可再利用的组件。 MFC库：库（library）是可以重复使用的源代码和目标代码的集合。MFC（Microsoft Fundamental Casses）是Visual C++开发环境所带的类库，在该类库中提供了大量的类，可以帮助开发人员快速建立应用程序。这些类可以提供程序框架、进行文件和数据库操作、建立网络连接、进行绘图和打印等各种通用的应用程序操作。使用MFC库开发应用程序可以减少很多工作量。二、项目开发过程在一个集成的开发环境中开发项目非常容易。一个用C++开发的项目的通用开发过程可以用

Hadoop大数据平台介绍

Hadoop是什么 Apache Hadoop is an open source software framework for storage and large scale processing of data-sets on clusters of commodity hardware

Hadoop名字的由来 Hadoop was created by Doug Cutting and Mike Cafarella in 2005 Named the project after son's toy elephant

从移动数据到移动算法

Hadoop的核心设计理念?可扩展性 ?可靠性

相对于传统的BI 架构转变数据仓库电子表格视觉化工具数据挖掘集成开发工具数据集市企业应用工具传统文件日志社交& 网络遗留系统结构化非结构化音视频数据应用非关系型数据库内存数据库NO SQL 应用 Nod e Nod e Nod e Hadoop * Web Apps MashUps 导出/导入INSIGHTS 消费Create Map 存储/计算实时数据处理通道（Spark,Storm)数据交换平台数据存储计算平台数据访问层Kafka Flume Goldengat e Shareplex ..传感器传感器

hadoop 的适用场景小数据+ 小计算量OLTP 业务系统：ERP/CRM/EDA 大数据+ 小计算量如全文检索，传统的ETL 小数据+大计算量D a t a Compute 数据计算实时性

win7+eclipse+hadoop开发环境搭建

Win7+eclipse+Ubuntu14虚拟机环境下搭建hadoop1.2.1单机模式的开发环境 1.虚拟机下安装ubuntu14操作系统。 **注:（我安装ubuntu的时候的用户名是zjp一下涉及到的所有的zjp都需要换成自己的用名） 2.Ctrl+Alt+t 快捷键可以打开终端。 3.激活root用户sudo passwd root 4.联网的情况下，可以用apt-get install samba命令下载以及安装samba服务器。这个主要是为了window向ubuntu中上传jdk以及hadoop的安装文件。(如果apt-get命令无法使用，先用apt-get update安装这个命令。如果主机联网了，但是ubuntn没有连上网，那么将虚拟机的网络适配器改为NA T模式，并且启动任务管理器。打开服务，查看VMware NAT service 和WMware DPCH service是否启动，如果没有启动那么就启动这两个服务。如果还不能联网那就在虚拟机的菜单栏中选择编辑->虚拟网络编辑器，恢复默认设置。重启一下电脑，如果还是不行，那就没办法了，自求多福！) 5.联网的情况下安装ssh协议apt-get install ssh 6.在/home/zjp 目录下创建两个文件夹1.share用于存放共享文件 2.mysoftware用于存放需要安装的软件 7.配置samba共享su root 切换至root用户gedit /etc/samba/smb.conf 编辑samba 的配置文件在文件的最后添加 [share] comment=sharedir path=/home/zjp/share read only=no browseable=yes guest ok=no 7.关闭防火墙ufw disable 8重启samba服务器service samba restart 9创建samba用户smbpasswd -a samba用户名eg:smbpasswd -a zkpk 10ifconfig查看ubuntu的ip地址。例如ip是192.168.30.128 11打开我的电脑，在地址栏中输入\\192.168.30.128不出意外的话会让你登录，就用创建的samba登录就可以了。然后把下载好的linux版本的jdk和hadoop的安装文件拷贝进去。12.再把传到share目录下面的两个文件拷贝到mysoftware中去。这些准备工作都做好了，就可以安装jdk以及hadoop了一．先安装jdk 1.在mysoftware目录下用tar -zxvf jdk-7u55-linux-x64.gz命令解压以及安装jdk。 2.配置环境变量 gedit /etc/profile 然后在文件的最末尾添加如下内容: JA V A_HOME=/home/xkl/mysof/jdk1.7.0_60 export PA TH=$PATH:$JA V A_HOME/bin OK注销一下Ubuntu然后在终端中输入java -version如果可以看见jdk的版本，说明jdk 安装成功。二.安装hadoop

Hadoop-0.20.2详细安装及疑难问题

安装 2011年4月4日 10:13 Hadoop-0.20.2安装使用 1、Cygwin 安装 ssh 2、按照以下的文档配置ssh 在Windows上安装Ha doop教程.pdf 3、几个配置文件的配置 3.1、conf/core-site.xml https://www.360docs.net/doc/e610471356.html, hdfs://localhost:9000 true hadoop.tmp.dir /workspace/temp/hadoop/tmp/hadoop- ${https://www.360docs.net/doc/e610471356.html,} true 3.2、conf/hdfs-site.xml dfs.replication 1 true https://www.360docs.net/doc/e610471356.html,.dir /workspace/temp/hadoop/data/hadoop/name true

dfs.data.dir /workspace/temp/hadoop/data/hadoop/data true 3.3、conf/mapred-site.xml mapred.job.tracker localhost:9001 true 3.4、conf/hadoop-env.sh export JAVA_HOME=D:/workspace/tools/jdk1.6 4、解决启动的时候 ClassNotFound： org.apache.hadoop.util.PlatformName 将 %hadoop_home%\bin\hadoop-config.sh中的第190行修改为如下： JAVA_PLATFORM=`CLASSPATH=${CLASSPATH} ${JAVA} -Xmx32m -classpath ${HADOOP_COMMON_HOME}/hadoop-common-0.21.0.jar org.apache.hadoop.util.PlatformName | sed -e "s/ /_/g"` 5、命令

Hadoop大数据平台-测试报告及成功案例

Hadoop大数据平台测试报告及成功案例

目录 1技术规范书应答书 ................................. 错误！未定义书签。2技术方案建议 ......................................... 错误！未定义书签。3测试及验收 ............................................. 错误！未定义书签。4项目实施与管理 ..................................... 错误！未定义书签。5人员资质与管理 ..................................... 错误！未定义书签。6技术支持及保修 ..................................... 错误！未定义书签。7附录 ......................................................... 错误！未定义书签。

1.1 大数据平台测试报告 1.1.1某银行Cloudera CDH 性能测试测试某银行现有HODS在支撑行内业务方面已经遇到瓶颈。希望通过搭建基于Hadoop 的历史数据平台(新HODS)，以提升平台运行效率及数据覆盖面，支撑未来大数据应用，满足未来业务发展需求。本次POC测试的主要目的是验证Hadoop商业发行版(EDH) 是否可以满足某银行HODS应用特点，主要考察点包括： ?验证产品本身的易用性、可扩展性，主要涉及集群的部署、运维、监控、升级等； ?验证产品对安全性的支持，包括认证、授权、审计三大方面； ?验证产品对资源分配的控制与调度； ?验证Hadoop基本功能，包括可靠性、稳定性、故障恢复等； ?验证Hadoop子系统(包括HDFS、HBase、Hive、Impala等) 的性能、使用模式、设计思想、迁移代价等。 1.1.1.1基础设施描述 1.1.1.1.1硬件配置硬件配置分为两类：管理节点(master node) 与计算节点(worker node)。管理节点配置(2) CPU Intel? Xeon? E5-2650 v3 2.3GHz,25M Cache,9.60GT/s QPI,Turbo,HT,10C/20T (105W) Max Mem 2133MHz (40 vcore) 内存16GB RDIMM, 2133MT/s, Dual Rank, x4 Data Width (128GB) 网络Intel X520 DP 10Gb DA/SFP+ Server Adapter, with SR Optics

centos下hadoop2.6.0配置

Hadoop-2.6.0配置前面的部分跟配置Hadoop-1.2.1的一样就可以，什么都不用变，完全参考文档1即可。下面的部分就按照下面的做就可以了。 hadoop-2.6.0的版本用张老师的。下面的配置Hadoop hadoop-2.6.0的部分 1.修改hadoop- 2.6.0/etc/hadoop/hadoop-env.sh，添加JDK支持： export JAVA_HOME=/usr/java/jdk1.6.0_45 如果不知道你的JDK目录，使用命令echo $JAVA_HOME查看。 2.修改hadoop-2.6.0/etc/hadoop/core-site.xml 注意：必须加在节点内 hadoop.tmp.dir /home/hadoop/hadoop-2.6.0/tmp Abase for other temporary directories. https://www.360docs.net/doc/e610471356.html, hdfs://master:9000 3.修改hadoop-2.6.0/etc/hadoop/hdfs-site.xml https://www.360docs.net/doc/e610471356.html,.dir /home/hadoop/hadoop-2.6.0/dfs/name Path on the local filesystem where the NameNode stores the namespace and transactions logs persistently. dfs.data.dir /home/hadoop/hadoop-2.6.0/dfs/data Comma separated list of paths on the local filesystem of a DataNode where it should store its blocks. dfs.replication 1 4.修改hadoop-2.6.0/etc/hadoop/mapred-site.xml

集成开发环境的配置及使用说明

集成开发环境的配置及使用说明本文讲解如何编写MSBuild脚本文件执行编译系统、运行FxCop检查代码、运行NUnit以及NCover进行单元测试、运行SandCastle生成帮助文档四项功能，并如何在集成开发环境中使用。一、集成开发环境的配置 1.1 工具软件准备 1.1.1 MSBuild 只要安装过VS2005或VS2008后，就可以是路径C:\WINDOWS\https://www.360docs.net/doc/e610471356.html,\Framework中看到MSBuild的三人版本，本例中使用V3.5。另外还得从下面的网站下载一个https://www.360docs.net/doc/e610471356.html,munity.Tasks.msi文件，里面有MSBuild的已经编写好的各种任务。下载地址如下： https://www.360docs.net/doc/e610471356.html,/ 1.1.2 NCover NCover现有网上使用的主要有两个版本NCover3.1和NCover1.5.8，但由于后者是免费版本，所以本例中使用NCover1.5.8版本，下载地址如下：https://www.360docs.net/doc/e610471356.html,/download/community 1.1.3 其它软件其它软件如下所示： NUnit 2.5.1 FxCop 1.36 HTML Help Compiler Sandcastle Help File Builder v 1.8.0.2 以上包括1.1.1和1.1.2的软件均可在Redmine项目管理的集成开发环境的配置的文件管理中下载，此处就不一一给链接了。下载后均按默认安装即可。但因为要在命令行中使用MSBuild和FxCopcmd命令，所在在环境变量Path中加入： C:\WINDOWS\https://www.360docs.net/doc/e610471356.html,\Framework\v3.5; C:\Program Files\Microsoft FxCop 1.36; 另外再增加两个新变量： DXROOT C:\Program Files\Sandcastle和 HHCEXE C:\Program Files\HTML Help Workshop

hadoop2.6基于yarn安装配置详解

Hadoop2.6配置详解在hadoop2.0中通常由两个NameNode组成，一个处于active状态，另一个处于standby状态。Active NameNode对外提供服务，而Standby NameNode则不对外提供服务，仅同步active namenode的状态，以便能够在它失败时快速进行切换。这里还配置了一个zookeeper集群，用于ZKFC（DFSZKFailoverController）故障转移，当Active NameNode挂掉了，会自动切换Standby NameNode为standby状态hadoop-2.2.0中依然存在一个问题，就是ResourceManager只有一个，存在单点故障，hadoop-2.6解决了这个问题，有两个ResourceManager，一个是Active，一个是Standby，状态由zookeeper进行协调 hadoop2.0官方提供了两种HDFS HA的解决方案，一种是NFS，另一种是QJM（由cloudra提出，原理类似zookeeper）。这里我使用QJM完成。主备NameNode之间通过一组JournalNode同步元数据信息，一条数据只要成功写入多数JournalNode即认为写入成功。通常配置奇数个JournalNode 1安装前准备 1.1示例机器 192.168.0.10 hadoop1 192.168.0.20 hadoop2 192.168.0.30 hadoop3 192.168.0.40 hadoop4 每台机器都有一个hadoop用户，密码是hadoop 所有机器上安装jdk1.7。在hadoop2，hadoop3，hadoop4上安装Zookeeper3.4集群。 1.2配置ip与hostname 用root用户修改每台机器的hosts

hadoop3安装和配置

hadoop3.0.0安装和配置1.安装环境硬件：虚拟机操作系统：Centos 7 64位 IP：192.168.0.101 主机名：dbp JDK：jdk-8u144-linux-x64.tar.gz Hadoop：hadoop-3.0.0-beta1.tar.gz 2.关闭防火墙并配置主机名 [root@dbp]#systemctl stop firewalld #临时关闭防火墙 [root@dbp]#systemctl disable firewalld #关闭防火墙开机自启动 [root@dbp]#hostnamectl set-hostname dbp 同时修改/etc/hosts和/etc/sysconfig/network配置信息 3.配置SSH无密码登陆 [root@dbp]# ssh-keygen -t rsa #直接回车 [root@dbp]# ll ~/.ssh [root@dbp .ssh]# cp id_rsa.pub authorized_keys [root@dbp .ssh]# ssh localhost #验证不需要输入密码即可登录

4.安装JDK 1、准备jdk到指定目录 2、解压 [root@dbp software]# tar–xzvf jdk-8u144-linux-x64.tar.gz [root@dbp software]# mv jdk1.8.0_144/usr/local/jdk #重命名4、设置环境变量 [root@dbp software]# vim ~/.bash_profile 5、使环境变量生效并验证 5.安装Hadoop3.0.0 1、准备hadoop到指定目录 2、解压

IntelliJ IDEA——Java 集成开发环境介绍

最智能的Java IDE 使用Java、Scala和Groovy进行极其出色的企业、移动和web开发，提供所有即开即用式的最新现代技术和框架 IntelliJ IDEA 关键概述 IntelliJ IDEA 这款屡获殊荣的Java IDE 旨在提高开发人员的生产力。其智能的编辑器、代码分析器和一组强大的重构功能支持大量编程语言、框架和技术，而且能够立即投入使用。 IntelliJ IDEA 主要优点 ?允许开发人员在确保所有例程任务顺利进行的同时专注于开发。 ?让编写、调试、重构、测试和代码了解都变得轻松简单。 ?无缝处理异构式的Java、Ruby、Groovy、Python 和Scala 代码库。 ?自动维护代码质量。 ?跟踪和修复所有级别的错误——从语句到整个架构。 ?以最短的时间生成简洁、快速的执行代码。 ?适用于所有规模的项目——从个人级别项目到企业级别项目。 ?支持所有主要语言、技术和框架。 ?适用于流行的版本控制系统和持续集成服务器TeamCity。 IntelliJ IDEA 重要功能智能编码辅助 ?智能完成代码 ?600 多种代码检查和即时代码分析功能 ?智能的快速修复 ?自动代码生成和样式设置语言、技术和应用程序服务器的一致支持 ?为使用以下语言和技术进行的开发提供出色的支持，包括Java、 JavaScript/ ActionScript /Flex、HTML/XHTML/CSS、XML/XSL、PHP、 Ruby/JRuby、Groovy、SQL、FreeMarker/Velocity、JSP、JSF 和 JSF 2.0、EJB、AJAX、GWT、GWT 2.0、Google App Engine、Struts、 Struts 2、JBoss Seam、Spring、Spring 2.5 和3.0、Spring Security 2.0、Hibernate/JPA 和JPA 2.0、Tapestry、Web Beans、Bean Validation、

基于Hadoop的大数据平台实施——整体架构设计

基于Hadoop的大数据平台实施——整体架构设计大数据的热度在持续的升温，继云计算之后大数据成为又一大众所追捧的新星。我们暂不去讨论大数据到底是否适用于您的公司或组织，至少在互联网上已经被吹嘘成无所不能的超级战舰。好像一夜之间我们就从互联网时代跳跃进了大数据时代!关于到底什么是大数据，说真的，到目前为止就和云计算一样，让我总觉得像是在看电影《云图》——云里雾里的感觉。或许那些正在向你推销大数据产品的公司会对您描绘一幅乌托邦似的美丽画面，但是您至少要保持清醒的头脑，认真仔细的慎问一下自己，我们公司真的需要大数据吗? 做为一家第三方支付公司，数据的确是公司最最重要的核心资产。由于公司成立不久，随着业务的迅速发展，交易数据呈几何级增加，随之而来的是系统的不堪重负。业务部门、领导、甚至是集团老总整天嚷嚷的要报表、要分析、要提升竞争力。而研发部门能做的唯一事情就是执行一条一条复杂到自己都难以想象的SQL语句，紧接着系统开始罢工，内存溢出，宕机........简直就是噩梦。OMG!please release me!!! 其实数据部门的压力可以说是常人难以想象的，为了把所有离散的数据汇总成有价值的报告，可能会需要几个星期的时间或是更长。这显然和业务部门要求的快速响应理念是格格不入的。俗话说，工欲善其事，必先利其器。我们也该鸟枪换炮了......。网上有一大堆文章描述着大数据的种种好处，也有一大群人不厌其烦的说着自己对大数据的种种体验，不过我想问一句，到底有多少人多少组织真的在做大数据?实际的效果又如何?真的给公司带来价值了?是否可以将价值量化?关于这些问题，好像没看到有多少评论会涉及，可能是大数据太新了(其实底层的概念并非新事物，老酒装新瓶罢了)，以至于人们还沉浸在各种美妙的YY中。做为一名严谨的技术人员，在经过短暂盲目的崇拜之后，应该快速的进入落地应用的研究中，这也是踩着“云彩”的架构师和骑着自行车的架构师的本质区别。说了一些牢骚话，

Hadoop详细安装配置过程

1.下载并安装安装ssh sudo apt-get install openssh-server openssh-client 3.搭建vsftpd #sudo apt-get update #sudo apt-get install vsftpd 配置参考的开始、关闭和重启 $sudo /etc/vsftpd start #开始 $sudo /etc/vsftpd stop #关闭 $sudo /etc/vsftpd restart #重启 4.安装 sudo chown -R hadoop:hadoop /opt cp /soft/ /opt sudo vi /etc/profile alias untar='tar -zxvf' sudo source /etc/profile source /etc/profile untar jdk* 环境变量配置 # vi /etc/profile ●在profile文件最后加上 # set java environment export JAVA_HOME=/opt/ export CLASSPATH=.:$JAVA_HOME/lib/:$JAVA_HOME/lib/ export PATH=$JAVA_HOME/bin:$PATH 配置完成后，保存退出。 ●不重启，更新命令 #source /etc/profile ●测试是否安装成功 # Java –version 其他问题：出现unable to resolve host 解决方法参考开机时停在Starting sendmail 不动了的解决方案参考安装软件时出现E: Unable to locate package vsftpd 参考vi/vim 使用方法讲解参考分类: Hadoop

集成开发环境

集成开发环境（简称IDE）软件是用于程序开发环境的应用程序，一般包括代码编辑器、编译器、调试器和图形用户界面工具。就是集成了代码编写功能、分析功能、编译功能、debug 功能等一体化的开发软件套。所有具备这一特性的软件或者软件套（组）都可以叫做IDE。如微软的Visual Studio系列，Borland的C++ Builder,Delphi系列等。该程序可以独立运行，也可以和其它程序并用。例如，BASIC语言在微软办公软件中可以使用，可以在微软Word 文档中编写WordBasic程序。 IDE为用户使用Visual Basic、Java和PowerBuilder等现代编程语言提供了方便。不同的技术体系有不同的IDE。比如visual https://www.360docs.net/doc/e610471356.html,可以称为C++、VB、C#等语言的集成开发环境，所以visual https://www.360docs.net/doc/e610471356.html,可以叫做IDE。同样，Borland的JBuilder也是一个IDE，它是Java的IDE。zend studio、editplus、ultra edit这些，每一个都具备基本的编码、调试功能，所以每一个都可以称作IDE。 IDE多被用于开发HTML应用软件。例如，许多人在设计网站时使用IDE（如HomeSite、DreamWeaver、FrontPage，等等），因为很多项任务会自动生成。IDE集成代码编辑，代码生成，界面设计，调试，编译等功能，目前还融合了建模功能。 Mylyn 简介 Mylyn（旧称Mylar）是eclipse的一个插件，用于将任务管理和上下文管理无缝集成到Eclipse中。首先它是一个高度集成到ECLIPSE中的任务管理工具。把任务列表与具体的代码联系到了一起。你只要激活一个任务，之相关的所有文件、函数将被突出的显示在ECLIPSE界面的每个“角落”――Package Explorer，Open Type, Open Resource，Debug View…… 相信很多人都有过这样的经验，改一个东西可能就几分钟，但找到在哪改、会影响到什么地方，却要花半小时。有了这个工具，让我们在非常大的项目里，在文件和代码的海洋里能马上找到所要关注的部分。有的人说，我有CTRL+SHIFT+T，可是你能记住几年前一个项目里的类名吗？而查阅文字描述的任务却要容易得多。 Mylyn是如何做到任务与代码的关联呢？你唯一要做的就是，在完成一个编码任务前，激活相应的任务！这样，随后你的编辑、访问各种元素的操作都被Mylyn记录，它会根据你的访问频率分析相关程度。当你的任务成百上千，或者你过一段时间再回头来修改代码时，只要激活相应的任务，它就会自动将相关的文件窗口打开，并在各种查找、显示界面里根据当初的记录突出显示相应元素。 1. 安装下载相应的Mylyn zip包，解压缩开就是两个文件夹：features和plugins，以及一个XML文件：site.xml。将这两个文件夹拷入或者以配置方式导入合适版本的Eclipse中就可以了。 2. 使用重启Eclipse，Window的preference配置窗口里就多了一个Task的菜单，用于对Mylyn的配置。点击Window>show view> other（我的eclipse是英文版本），弹出的对话框中可以找到Mylyn的选项，它下面有两个View可供选择：Task List和Task Repositories。把两个view 都打开，可以看到Task List里是空的列表，因为还没和任何存储库建立查询联接。Mylyn的文档中说可以与Bugzilla, Trac 和JIRA等存储库集成，由于没有Trac和JIRA环境，

(完整word版)hadoop安装教程

1、VMware安装我们使用Vmware 14的版本，傻瓜式安装即可。（只要）双击如过 2.安装xshell 双击 3.安装镜像：解压centos6.5-empty解压双击打开CentOS6.5.vmx 如果打不开，在cmd窗口中输入：netsh winsock reset 然后重启电脑。进入登录界面，点击other 用户名：root 密码：root 然后右键open in terminal 输入ifconfig 回车查看ip地址

打开xshell

点击链接如果有提示，则接受输入用户名：root 输入密码：root 4.xshell连接虚拟机打开虚拟机，通过ifconfig查看ip

5.安装jkd 1.解压Linux版本的JDK压缩包 mkdir：创建目录的命令 rm -rf 目录/文件删除目录命令 cd 目录进入指定目录 rz 可以上传本地文件到当前的linux目录中（也可以直接将安装包拖到xshell窗口） ls 可以查看当前目录中的所有文件 tar 解压压缩包（Tab键可以自动补齐文件名）

pwd 可以查看当前路径文档编辑命令: vim 文件编辑命令 i:进入编辑状态 Esc（左上角）：退出编辑状态 :wq 保存并退出 :q! 不保存退出 mkdir /home/software #按习惯用户自己安装的软件存放到/home/software目录下 cd /home/software #进入刚刚创建的目录 rz 上传jdk tar包 #利用xshell的rz命令上传文件(如果rz命令不能用，先执行yum install lrzsz -y ，需要联网) tar -xvf jdk-7u51-linux-x64.tar.gz #解压压缩包 2.配置环境变量 1）vim /etc/profile 2）在尾行添加 #set java environment JAVA_HOME=/home/software/jdk1.8.0_65 JAVA_BIN=/home/software/jdk1.8.0_65/bin PATH=$JAVA_HOME/bin:$PATH CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export JAVA_HOME JAVA_BIN PATH CLASSPATH Esc 退出编辑状态 :wq #保存退出注意JAVA_HOME要和自己系统中的jdk目录保持一致，如果是使用的rpm包安