zookeeper单节点安装和伪分布式集群安装和完全分布式集群安装

合集下载

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu_CentOS

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS本教程讲述如何配置Hadoop 集群，默认读者已经掌握了Hadoop 的单机伪分布式配置，否则请先查看Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置。

本教程由厦门大学数据库实验室出品，转载请注明。

本教程适合于原生Hadoop 2，包括Hadoop 2.6.0, Hadoop 2.7.1 等版本，主要参考了官方安装教程，步骤详细，辅以适当说明，保证按照步骤来，都能顺利安装并运行Hadoop。

另外有Hadoop安装配置简略版方便有基础的读者快速完成安装。

为了方便新手入门，我们准备了两篇不同系统的Hadoop 伪分布式配置教程。

但其他Hadoop 教程我们将不再区分，可同时适用于Ubuntu 和CentOS/RedHat 系统。

例如本教程以Ubuntu 系统为主要演示环境，但对Ubuntu/CentOS 的不同配置之处、CentOS 6.x 与CentOS 7 的操作区别等都会尽量给出注明。

环境本教程使用Ubuntu 14.04 64位作为系统环境，基于原生Hadoop 2，在Hadoop 2.6.0 (stable)版本下验证通过，可适合任何Hadoop 2.x.y 版本，例如Hadoop 2.7.1，Hadoop 2.4.1 等。

本教程简单的使用两个节点作为集群环境: 一个作为Master 节点，局域网IP 为192.168.1.121；另一个作为Slave 节点，局域网IP 为192.168.1.122。

准备工作Hadoop 集群的安装配置大致为如下流程:1.选定一台机器作为Master2.在Master 节点上配置hadoop 用户、安装SSH server、安装Java 环境3.在Master 节点上安装Hadoop，并完成配置4.在其他Slave 节点上配置hadoop 用户、安装SSH server、安装Java 环境5.将Master 节点上的/usr/local/hadoop 目录复制到其他Slave 节点上6.在Master 节点上开启Hadoop配置hadoop 用户、安装SSH server、安装Java 环境、安装Hadoop 等过程已经在Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置中有详细介绍，请前往查看，不再重复叙述。

Hadoop集群的三种方式

Hadoop集群的三种⽅式1,Local(Standalone) Mode 单机模式$ mkdir input$ cp etc/hadoop/*.xml input$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar grep input output 'dfs[a-z.]+'$ cat output/*解析$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar grep input output 'dfs[a-z.]+'input 夹下⾯的⽂件：capacity-scheduler.xml core-site.xml hadoop-policy.xml hdfs-site.xml httpfs-site.xml yarn-site.xml bin/hadoop hadoop 命令jar 这个命令在jar包⾥⾯share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar 具体位置grep grep 函数input grep 函数的⽬标⽂件夹output grep 函数结果的输出⽂件夹'dfs[a-z.]+' grep 函数的匹配正则条件直译：将input⽂件下⾯的⽂件中包含 'dfs[a-z.]+' 的字符串给输出到output ⽂件夹中输出结果：part-r-00000 _SUCCESScat part-r-00000：1 dfsadmin在hadoop-policy.xml 存在此字符串2,Pseudo-Distributed Operation 伪分布式在 etc/hadoop/core.site.xml 添加以下属性<configuration><property><name>fs.defaultFS</name><value>hdfs://:8020</value> 是主机名，已经和ip相互映射</property>还需要覆盖默认的设定,mkdir -p data/tmp<property><name>hadoop.tmp.dir</name><value>/opt/modules/hadoop-2.5.0/data/tmp</value> 是主机名，已经和ip相互映射</property>垃圾箱设置删除⽂件保留时间（分钟）<property><name>fs.trash.interval</name><value>10080</value></property></configuration>etc/hadoop/hdfs-site.xml: 伪分布式1个备份<configuration><property><name>dfs.replication</name><value>1</value></property>配置从节点<property><name>node.secondary.http-address</name><value>主机名:50090</value></property></configuration>格式化元数据，进⼊到安装⽬录下bin/hdfs namenode -format启动namenode,所有的命令都在sbin下，通过ls sbin/ 可以查看sbin/hadoop-daemon.sh start namenode hadoop 的守护线程启动(主数据)sbin/hadoop-daemon.sh start datanode 启动datanode（从数据）nameNode都有个web⽹页,端⼝50070创建hdfs ⽂件夹，创建在⽤户名下⾯bin/hdfs dfs -mkdir -p /user/chris查看⽂件夹bin/hdfs dfs -ls -R / 回调查询本地新建⽂件夹mkdir wcinput mkdir wcoutput vi wc.input创建wc.input⽂件，并写⼊内容hdfs⽂件系统新建⽂件夹bin/hdfs dfs -mkdir -p /user/chris/mapreduce/wordcount/input本地⽂件上传hdfs⽂件系统bin/hdfs dfs -put wcinput/wc.input /user/chris/mapreduce/wordcount/input/在hdfs⽂件系统上使⽤mapreduce$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar wordcount /user/chris/mapreduce/wordcount/input /user/chris/mapreduce/wordcount/output红⾊代表：读取路径蓝⾊代表：输出路径所以mapreduce的结果已经写到了hdfs的输出⽂件⾥⾯去了Yarn on a Single Node/opt/modules/hadoop-2.5.0/etc/hadoop/yarn-site.xml 在hadoop的安装路径下<configuration><property><name>yarn.resourcemanager.hostname</name><value></value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property></configuration>yarn 的配置已经完成在同⼀⽬录下slave⽂件上添加主机名或者主机ip,默认是localhostyarn-env.sh 和 mapred-env.sh把JAVA_HOME 更改下，防⽌出错export JAVA_HOME=/home/chris/software/jdk1.8.0_201将mapred-site.xml.template 重命名为mapred-site.xml,同时添加以下配置<configuration><property><name></name><value>yarn</name></property></configuration>先将/user/chris/mapreduce/wordcount/output/删除再次执⾏$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jarwordcount /user/chris/mapreduce/wordcount/input /user/chris/mapreduce/wordcount/output伪分布式执⾏完毕，mapreduce 执⾏在了yarn 上3，完全分布式基于伪分布式，配置好⼀台机器后，分发⾄其它机器step1: 配置ip 和 hostname 映射vi /etc/hosts192.168.178.110 hella-hadoop192.168.178.111 hella-hadoop02192.168.178.112 hella-hadoop03同时在window以下路径也得设置C:\Windows\System32\drivers\etc\hosts192.168.178.110 hella-hadoop192.168.178.111 hella-hadoop02192.168.178.112 hella-hadoop03具体可参考linux ip hostname 映射step2:部署（假设三台机器）不同机器配置不同的节点部署：hella-hadoop hella-hadoop02 hella-hadoop03HDFS:NameNodeDataNode DataNode DataNodeSecondaryNameNodeYARN:ResourceManagerNodeManager NodeManager NodeManager MapReduce:JobHistoryServer配置：* hdfshadoop-env.shcore.site.xmlhdfs-site.xmlslaves*yarnyarn-env.shyarn-site.xmlslaves*mapreducemapred-env.shmapred-site.xmlstep3:修改配置⽂件core.xml<configuration><property><name>fs.defaultFS</name><value>hdfs://:8020</value></property><property><name>hadoop.tmp.dir</name><value>/opt/app/hadoop-2.5.0/data/tmp</value></property><property><name>fs.trash.interval</name><value>10080</value></property></configuration>hdfs-site.xml<configuration><property><name>node.secondary.http-address</name><value>:50090</value></property></configuration>slavesyarn-site.xml<configuration><property><name>yarn.resourcemanager.hostname</name><value></value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.nodemanager.resource.memory-mb</name><value>4096</value></property><property><name>yarn.nodemanager.resource.cpu-vcores</name><value>4</value></property><property><name>yarn.log-aggregation-enable</name><value>true</value></property><property><name>yarn.log-aggregation-retain-seconds</name><value>640800</value></property></configuration>mapred-site.xml<configuration><property><name></name><value>yarn</value></property><property><name>mapreduce.jobhistory.address</name><value>:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>:19888</value></property></configurationstep4:集群的配置路径在各个机器上要⼀样，⽤户名⼀样step5: 分发hadoop 安装包⾄各个机器节点scp -p 源节点⽬标节点使⽤scp 命令需要配置ssh ⽆密钥登陆，博⽂如下：step6:启动并且test mapreduce可能会有问题No route to Host 的Error，查看hostname 以及 ip 配置，或者是防⽕墙有没有关闭防⽕墙关闭，打开，状态查询，请参考以下博⽂：4，完全分布式+ HAHA全称：HDFS High Availability Using the Quorum Journal Manager 即 HDFS⾼可⽤性通过配置分布式⽇志管理HDFS集群中存在单点故障（SPOF）,对于只有⼀个NameNode 的集群，若是NameNode 出现故障，则整个集群⽆法使⽤，知道NameNode 重新启动。

zookeeper、ZK安装、ZK配置、ZK使用

zookeeper、ZK安装、ZK配置、ZK使⽤-----------------------------⽬录-----------------------------------第⼀部分：zookeeper简介第⼆部分：zookeeper环境搭建 1、单机环境 2、集群环境第三部分：zookeeper基本使⽤ 1、java原⽣zk客户端api操作 2、zkClient客户端操作（推荐） 3、curator客户端操作（推荐）第四部分：zookeeper应⽤场景第五部分：zookeeper深⼊进阶第六部分：zookeeper源码分析-----------------------------⽬录-----------------------------------第⼀部分：zookeeper简介1、 zookeeper基本概念zookeeper是⼀个开源的分布式协调服务，其设计⽬标是将那些复杂并且容易出差错的分布式⼀致性服务封装起来，构成⼀个⾼效可靠的原语集，并提供给⽤户⼀些简单的接⼝，zookeeper是⼀个典型的分布式⼀致性的解决⽅案（CP模式），分布式应⽤程序可以基于它实现数据订阅/发布、负载均衡，命名服务、集群管理、分布式锁和分布式队列等功能。

2、基本概念@1、集群⾓⾊通常在分布式系统中，构成⼀个集群中的每⼀台机器都有⾃⼰的⾓⾊，典型的是master/slave模式（主备模式），这种情况下能够处理写操作的机器成为master机器，把所有通过⼀步复制⽅式获取最新数据并且提供服务的机器为slave机器。

在zookeeper中没有是⽤主备模式，引⼊了Leader、Follower、Observer三种⾓⾊，在zk集群中所有的机器通过Leader选举来选Leader，Leader服务器为客户端提供读写服务，Follower和Observer都能提供读服务，唯⼀的区别是Observer不参与Leader选举，不参与写操作的过半写成功。

Hadoop伪分布式安装

Hadoop伪分布式安装1.安装Hadoop（伪分布式）
上传Hadoop
将hadoop-2.9.2.tar.gz 上传到该目录
解压
ls
将Hadoop添加到环境变量
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
保存并退出vim
验证环境变量是否正确hadoop version
修改配置文件hadoop-env.sh
保存并退出vim
修改配置文件core-site.xml
保存并退出vim
修改配置文件hdfs-site.xml
</property>
保存并退出vim
格式化HDFS
hdfs namenode -format
格式化成功的话，在/bigdata/data目录下可以看到dfs目录
启动NameNode
启动DataNode
查看NameNode管理界面
在windows使用浏览器访问http://bigdata:50070可以看到HDFS的管理界面
如果看不到，(1)检查windows是否配置了hosts;
位于C:\Windows\System32\drivers\etc\hosts
关闭HDFS的命令
2.配置SSH免密登录生成密钥
回车四次即可生成密钥
复制密钥，实现免密登录
根据提示需要输入“yes”和root用户的密码
新的HDFS启停命令
免密登录做好以后，可以使用start-dfs.sh和stop-dfs.sh命令启停HDFS，不再需要使用hadoop-daemon.sh脚本
stop-dfs.sh
注意：第一次用这个命令可能还是需要输入yes，按提示输入即可。

在Docker中部署ZooKeeper集群的详细教程

在Docker中部署ZooKeeper集群的详细教程一、介绍Docker是一种流行的容器化技术，允许开发人员将应用程序和其依赖项打包到一个可移植的容器中，实现软件环境的一致性和可移植性。

而ZooKeeper是一个开源的协调服务，用于分布式系统中的配置管理，命名服务和分布式锁等功能。

本文将详细介绍如何在Docker中部署ZooKeeper集群。

二、准备工作首先，需要在系统上安装Docker和Docker Compose。

具体的安装过程可以参考Docker和Docker Compose的官方文档。

安装完成后，确保Docker和Docker Compose正确运行。

三、创建Docker Compose文件在部署ZooKeeper集群之前，需要创建一个Docker Compose文件来定义集群中的容器。

创建一个新文件，命名为docker-compose.yml，并在其中输入以下内容：version: "3"services:zoo1:image: zookeeper:3.4.14restart: alwaysports:- "2181:2181"environment:ZOO_MY_ID: 1ZOO_SERVERS: server.1=zoo1:2888:3888 server.2=zoo2:2888:3888 server.3=zoo3:2888:3888volumes:- ./data/zoo1:/datazoo2:image: zookeeper:3.4.14restart: alwaysenvironment:ZOO_MY_ID: 2ZOO_SERVERS: server.1=zoo1:2888:3888 server.2=zoo2:2888:3888 server.3=zoo3:2888:3888volumes:- ./data/zoo2:/datazoo3:image: zookeeper:3.4.14restart: alwaysenvironment:ZOO_MY_ID: 3ZOO_SERVERS: server.1=zoo1:2888:3888 server.2=zoo2:2888:3888 server.3=zoo3:2888:3888volumes:- ./data/zoo3:/data在这个文件中，我们定义了三个ZooKeeper节点：zoo1、zoo2和zoo3。

hadoop集群搭建实训报告

实训项目名称：搭建Hadoop集群项目目标：通过实际操作，学生将能够搭建一个基本的Hadoop集群，理解分布式计算的概念和Hadoop生态系统的基本组件。

项目步骤：1. 准备工作介绍Hadoop和分布式计算的基本概念。

确保学生已经安装了虚拟机或者物理机器，并了解基本的Linux命令。

下载Hadoop二进制文件和相关依赖。

2. 单节点Hadoop安装在一台机器上安装Hadoop，并配置单节点伪分布式模式。

创建Hadoop用户，设置环境变量，编辑Hadoop配置文件。

启动Hadoop服务，检查运行状态。

3. Hadoop集群搭建选择另外两台或更多机器作为集群节点，确保网络互通。

在每个节点上安装Hadoop，并配置集群节点。

编辑Hadoop配置文件，包括core-site.xml、hdfs-site.xml、mapred-site.xml等。

配置SSH无密码登录，以便节点之间能够相互通信。

4. Hadoop集群启动启动Hadoop集群的各个组件，包括NameNode、DataNode、ResourceManager、NodeManager 等。

检查集群状态，确保所有节点都正常运行。

5. Hadoop分布式文件系统（HDFS）操作使用Hadoop命令行工具上传、下载、删除文件。

查看HDFS文件系统状态和报告。

理解HDFS的数据分布和容错机制。

6. Hadoop MapReduce任务运行编写一个简单的MapReduce程序，用于分析示例数据集。

提交MapReduce作业，观察作业的执行过程和结果。

了解MapReduce的工作原理和任务分配。

7. 数据备份和故障恢复模拟某一节点的故障，观察Hadoop集群如何自动进行数据备份和故障恢复。

8. 性能调优（可选）介绍Hadoop性能调优的基本概念，如调整副本数、调整块大小等。

尝试调整一些性能参数，观察性能改善情况。

9. 报告撰写撰写实训报告，包括项目的目标、步骤、问题解决方法、实验结果和总结。

在linux中安装Hadoop教程-伪分布式配置-Hadoop2.6.0-Ubuntu14.04

在linux中安装Hadoop教程-伪分布式配置-Hadoop2.6.0-Ubuntu14.04注：该教程转⾃厦门⼤学⼤数据课程学习总结装好了 Ubuntu 系统之后，在安装 Hadoop 前还需要做⼀些必备⼯作。

创建hadoop⽤户如果你安装 Ubuntu 的时候不是⽤的 “hadoop” ⽤户，那么需要增加⼀个名为 hadoop 的⽤户。

⾸先按 ctrl+alt+t 打开终端窗⼝，输⼊如下命令创建新⽤户 : sudo useradd -m hadoop -s /bin/bash这条命令创建了可以登陆的 hadoop ⽤户，并使⽤ /bin/bash 作为 shell。

sudo命令本⽂中会⼤量使⽤到sudo命令。

sudo是ubuntu中⼀种权限管理机制，管理员可以授权给⼀些普通⽤户去执⾏⼀些需要root权限执⾏的操作。

当使⽤sudo命令时，就需要输⼊您当前⽤户的密码.密码在Linux的终端中输⼊密码，终端是不会显⽰任何你当前输⼊的密码，也不会提⽰你已经输⼊了多少字符密码。

⽽在windows系统中,输⼊密码⼀般都会以“*”表⽰你输⼊的密码字符接着使⽤如下命令设置密码，可简单设置为 hadoop，按提⽰输⼊两次密码： sudo passwd hadoop可为 hadoop ⽤户增加管理员权限，⽅便部署，避免⼀些对新⼿来说⽐较棘⼿的权限问题： sudo adduser hadoop sudo最后注销当前⽤户（点击屏幕右上⾓的齿轮，选择注销），返回登陆界⾯。

在登陆界⾯中选择刚创建的 hadoop ⽤户进⾏登陆。

更新apt⽤ hadoop ⽤户登录后，我们先更新⼀下 apt，后续我们使⽤ apt 安装软件，如果没更新可能有⼀些软件安装不了。

按 ctrl+alt+t 打开终端窗⼝，执⾏如下命令： sudo apt-get update后续需要更改⼀些配置⽂件，我⽐较喜欢⽤的是 vim（vi增强版，基本⽤法相同） sudo apt-get install vim安装SSH、配置SSH⽆密码登陆集群、单节点模式都需要⽤到 SSH 登陆（类似于远程登陆，你可以登录某台 Linux 主机，并且在上⾯运⾏命令），Ubuntu 默认已安装了SSH client，此外还需要安装 SSH server： sudo apt-get install openssh-server安装后，配置SSH⽆密码登陆利⽤ ssh-keygen ⽣成密钥，并将密钥加⼊到授权中： exit # 退出刚才的 ssh localhost cd ~/.ssh/ # 若没有该⽬录，请先执⾏⼀次ssh localhost ssh-keygen -t rsa # 会有提⽰，都按回车就可以 cat ./id_rsa.pub >> ./authorized_keys # 加⼊授权此时再⽤ssh localhost命令，⽆需输⼊密码就可以直接登陆了。

单节点的zookeeper环境搭建及sqoop数据迁移工具笔记

单节点的zookeeper环境搭建及sqoop数据迁移工具笔记1:sqoop的简介是一款开源的工具，主要用于在hadoop(Hive、Hbase)与传统的数据库(mysql)间数据的迁移。

是Apache的一个子项目(底层是mapreduce,但只有map的过程)！2：数据迁移的意义如果原先的历史数据量过大，数据库无法对数据进行有效分析，可以将数据迁移到hdfs中，使用hadoop来分析数据。

3：安装和配置sqoop安装：安装在一台节点上就可以了。

①将压缩包上传到Linux系统上，解压压缩包到指定目录②如果本台机器上，指定了reducemanage 和nodemanage在什么地方，不需要做任何配置③在添加sqoop到环境变量④将数据库连接驱动拷贝到$SQOOP_HOME/lib里4：使用第一类：数据库中的数据导入到HDFS上数据库url字符串数据库名数据库用户名数据库密码数据导出的数据表(表名) 导入数据的列名sqoop import --connect jdbc:mysql://192.168.1.10:3306/itcast --username root --password 123 --table trade_detail --columns 'id, account, income, expenses'指定输出路径、指定数据分隔符username root --password 123 --table trade_detail --target-dir '/sqoop/td' --fields-terminated-by '\t'指定Map数量 -msqoop import --connect jdbc:mysql://192.168.1.10:3306/itcast --username root --password 123 --table trade_detail --target-dir '/sqoop/td1' --fields-terminated-by '\t' -m 2增加where条件, 注意：条件必须用引号引起来sqoop import --connect jdbc:mysql://192.168.1.10:3306/itcast --username root --password 123 --table trade_detail --where 'id>3' --target-dir'/sqoop/td2'增加query语句(使用 \ 将语句换行)注意：如果使用--query这个命令的时候，需要注意的是where后面的参数，AND $CONDITIONS这个参数必须加上而且存在单引号与双引号的区别，如果--query后面使用的是双引号，那么需要在$CONDITIONS前加上\即\$CONDITIONS如果设置map数量为1个时即-m 1，不用加上--split-by ${tablename.column}，否则需要加上sqoop import --connect jdbc:mysql://192.168.1.10:3306/itcast --username root --password 123 \--query 'SELECT * FROM trade_detail where id > 2 AND $CONDITIONS'--split-by trade_detail.id --target-dir '/sqoop/td3'第二类：将HDFS上的数据导出到数据库中(不要忘记指定分隔符)username root --password 123 --export-dir '/td3' --table td_bak -m 1 --fields-terminated-by ','5：配置mysql远程连接GRANT ALL PRIVILEGES ON itcast.* TO 'root'@'192.168.1.201' IDENTIFIED BY '123' WITH GRANT OPTION;FLUSH PRIVILEGES;GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY '123' WITH GRANT OPTION;FLUSH PRIVILEGES单节点配置zookeeper1.上传zk安装包2.解压3.配置（先在一台节点上配置）3.1添加一个zoo.cfg配置文件$ZOOKEEPER/confmv zoo_sample.cfg zoo.cfg3.2修改配置文件（zoo.cfg）dataDir=/itcast/zookeeper-3.4.5/dataserver.5=itcast05:2888:3888server.6=itcast06:2888:3888server.7=itcast07:2888:38883.3在（dataDir=/itcast/zookeeper-3.4.5/data）创建一个myid文件，里面内容是server.N中的N（server.2里面内容为2）echo "5" > myid3.4将配置好的zk拷贝到其他节点scp -r /itcast/zookeeper-3.4.5/ itcast06:/itcast/scp -r /itcast/zookeeper-3.4.5/ itcast07:/itcast/3.5注意：在其他节点上一定要修改myid的内容在itcast06应该讲myid的内容改为6 （echo "6" > myid）在itcast07应该讲myid的内容改为7 （echo "7" > myid）4.启动集群分别启动zk./zkServer.sh start。

Zookeeper分布式系统开发实战

Zookeeper分布式系统开发实战ZooKeeper是Hadoop的开源子项目，在分布式系统架构中大量的被运用，从而减少分布式架构的复杂度；典型的运用场景包括：数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、分布式锁、分布式队列。

本课程通过从对zookeeper的基本操作，到内部实现原理讲解的方式让学员能够从操作层面以及理论层面全面掌握zookeeper，从而可以借助zookeeper轻松的构建自己的分布式系统。

本课程以实操为主，讲解的核心内容包括：系统模型、客户端的使用、选举算法、集群安装/部署、zookeeper的运维、watcher课程大纲：第1课：Zookeeper熟悉和用途综述Zookeeper基础知识、体系结构、数据模型、常见的应用场景第2课：Zookeeper安装配置、命令行操作单机，集群搭建和测试命令行客户端操作Stat第3课：Watches、Node、API介绍、Java Client开发Watches、Node详解API介绍Java Client开发第4课：开源客户端zkclient curator通过别的开源api实现对zookeeper的操作，提升对zookeeper的开发效率第5课：分布式系统及集群与zookeeper分布式介绍及面临的问题集群介绍及面临的问题zookeeper的运用场景第6课：zookeeper的选举机制及数据一致性服务器角色选举算法数据一致性介绍数据版本第7课：zookeeper深度分析数据访问安全通信协议会话请求处理数据与存储第8课：实战案例开发一之配置管理配置管理的案例开发第9课：实战案例开发二分布式锁/选主实现分布式锁的原理及实现第10课：运维指南及注意事项日常维护注意事项配置参数详解4字命令详解第11课：运维和监控Web平台搭建和使用Taokeeper搭建和使用TaoKeeper提供Web界面，可对Zookeeper集群进行多方面监控，如连接数、Watcher数、集群运行状态、磁盘内存CPU使用率等全方位监控，并提供告警接口。

Hadoop完全分布式详细安装过程

Hadoop详细安装过程一、本文思路1、安装虚拟化PC工具VMware，用于支撑Linux系统。

2、在VMware上安装Ubuntu系统。

3、安装Hadoop前的准备工作：安装JDK和SSH服务。

4、配置Hadoop。

5、为了方便开发过程，需安装eclipse。

6、运行一个简单的Hadoop程序：WordCount.java注：在win7系统上，利用虚拟工具VMware建立若干个Linux系统，每个系统为一个节点，构建Hadoop集群。

先在一个虚拟机上将所有需要配置的东西全部完成，然后再利用VMware 的克隆功能，直接生成其他虚拟机，这样做的目的是简单。

二、所需软件1、VMware：VMware Workstation，直接百度下载（在百度软件中心下载即可）。

2、Ubuntu系统：ubuntu-15.04-desktop-amd64.iso，百度网盘：/s/1qWxfxso注：使用15.04版本的Ubuntu（其他版本也可以），是64位系统。

3、jdk：jdk-8u60-linux-x64.tar.gz，网址：/technetwork/java/javase/downloads/jdk8-downloads-2133151.html注：下载64位的Linux版本的jdk。

4、Hadoop：hadoop-1.2.1-bin.tar.gz，网址：/apache/hadoop/common/hadoop-1.2.1/注：选择1.2.1版本的Hadoop。

5、eclipse：eclipse-java-mars-1-linux-gtk-x86_64.tar.gz，网址：/downloads/?osType=linux注：要选择Linux版本的，64位，如下：6、hadoop-eclipse-plugin-1.2.1.jar，这是eclipse的一个插件，用于Hadoop的开发，直接百度下载即可。

三、安装过程1、安装VMware。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

zookeeper集群搭建：1. zookeeper介绍ZooKeeper是一个为分布式应用所设计的分布的、开源的协调服务，它主要是用来解决分布式应用中经常遇到的一些数据管理问题，简化分布式应用协调及其管理的难度，提供高性能的分布式服务。

ZooKeeper本身可以以Standalone模式安装运行，不过它的长处在于通过分布式ZooKeeper集群（一个Leader，多个Follower），基于一定的策略来保证ZooKeeper 集群的稳定性和可用性，从而实现分布式应用的可靠性。

ZooKeeper是作为分布式协调服务，是不需要依赖于Hadoop的环境，也可以为其他的分布式环境提供服务。

2. zookeeper单节点安装Standalones模式创建目录在home目录下创建app/zookeeper目录，并将zookeeper-3.4.5.tar.gz移到zookeeper下，并在zookeeper下创建zkdata和zkdataLog子目录,也可以根据个人习惯创建目录。

目录结构：├──home│├──app││├──zookeeper││| ├──zkdata││| ├──zkdataLog││| |——zookeeper-3.4.5| | | | |——conf| | | | |——bin进入到cd /home/app/zookeeper/zookeeper-3.4.5/conf/,备份该文件cp zoo_sample.cfg zoo.cfg , 修改配置文件conf/zoo.cfg# vi conf/zoo.cfgckTime=2000initLimit=10syncLimit=5dataDir=/home/app/zookeeper/zkdata#dataLogDir=/home/app/zookeeper/zkdataLogclientPort=2181非常简单，我们已经配置好了的zookeeper单节点启动zookeeper# bin/zkServer.shJMX enabled by defaultUsing config: /home/app/zookeeper/zookeeper-3.4.5/bin/../conf/zoo.cfgUsage: bin/zkServer.sh {start|start-foreground|stop|restart|status|upgrade|print-cmd}conan@conan:~/zookeeper/zookeeper-3.4.5$ bin/zkServer.sh startJMX enabled by defaultUsing config: /home/app/zookeeper/zookeeper-3.4.5/bin/../conf/zoo.cfgStarting zookeeper ... STARTED#zk的服务显示为QuorumPeerMain# jps 或#ps -ef|grep java5321 QuorumPeerMain5338 Jps#查看运行状态~ bin/zkServer.sh statusJMX enabled by defaultUsing config: /home/app/zookeeper/zookeeper-3.4.5/bin/../conf/zoo.cfgMode: standalone节点的时，Mode会显示为standalone停止ZooKeeper服务# bin/zkServer.sh stopJMX enabled by defaultUsing config: /home/app/zookeeper/zookeeper-3.4.5//bin/../conf/zoo.cfgStopping zookeeper ... STOPPED3. zookeeper伪分布式集群安装所谓“伪分布式集群”就是在，在一台PC中，启动多个ZooKeeper的实例。

“完全分布式集群”是每台PC，启动一个ZooKeeper实例。

由于我的测试环境PC数量有限，所以在一台PC中，启动3个ZooKeeper的实例。

创建环境目录~ mkdir /home/app/zookeeper/zkdata1~ mkdir /home/app/zookeeper/zkdata2~ mkdir /home/app/zookeeper/zkdata3#新建myid文件~ echo "1" > /home/app/zookeeper/zkdata1/myid~ echo "2" > /home/app/zookeeper/zkdata2/myid~ echo "3" > /home/app/zookeeper/zkdata3/myid分别修改配置文件修改：dataDir,clientPort两个参数增加：集群的实例，server.X，”X”表示每个目录中的myid的值~ vi /home/app/zookeeper/zookeeper-3.4.5/conf/zoo1.cfgckTime=2000initLimit=10syncLimit=5dataDir=/home/app/zookeeper/zkdata1clientPort=2181server.1=192.168.1.108:2888:3888server.2=192.168.1.108:2889:3889server.3=192.168.1.108:2890:3890~ vi /home/app/zookeeper/zookeeper-3.4.5/conf/zoo2.cfgckTime=2000initLimit=10syncLimit=5dataDir=/home/app/zookeeper/zkdata2clientPort=2182server.1=192.168.1.108:2888:3888server.2=192.168.1.108:2889:3889server.3=192.168.1.108:2890:3890~ vi /home/app/zookeeper/zookeeper-3.4.5/conf/zoo3.cfgtickTime=2000initLimit=10syncLimit=5dataDir=/home/app/zookeeper/zkdata3clientPort=2183server.1=192.168.1.108:2888:3888server.2=192.168.1.108:2889:3889server.3=192.168.1.108:2890:38903个节点的ZooKeeper集群配置完成，接下来我们的启动服务。

启动集群~ /home/app/zookeeper/zookeeper-3.4.5/bin/zkServer.sh start zoo1.cfg~ /home/app/zookeeper/zookeeper-3.4.5/bin/zkServer.sh start zoo2.cfg~ /home/app/zookeeper/zookeeper-3.4.5/bin/zkServer.sh start zoo3.cfg~ jps5422 QuorumPeerMain5395 QuorumPeerMain5463 QuorumPeerMa#查看节点状态--如果在当前目录下无法查看，则要用全路径查看~ /home/app/zookeeper/zookeeper-3.4.5/bin/zkServer.sh status zoo1.cfgMX enabled by defaultJUsing config: /home/app/zookeeper/zookeeper-3.4.5/bin/../conf/zoo1.cfgMode: follower~ /home/app/zookeeper/zookeeper-3.4.5/bin/zkServer.sh status zoo2.cfgMX enabled by defaultJUsing config: /home/app/zookeeper/zookeeper-3.4.5/bin/../conf/zoo2.cfgMode: leader~ /home/app/zookeeper/zookeeper-3.4.5/bin/zkServer.sh status zoo3.cfgMX enabled by defaultJUsing config: /home/app/zookeeper/zookeeper-3.4.5/bin/../conf/zoo3.cfgMode: follower我们可以看到zoo2是leader，zoo1和zoo3是follower(主，接收和响应客户端的读写请求，向从改善数据)和follower（从leader同步数据和当leader服务停止后投票从新选择leader）4. zookeeper完全分布式集群安装所谓“伪分布式集群”就是在，在一台PC中，启动多个ZooKeeper的实例。

“完全分布式集群”是每台PC，启动一个ZooKeeper实例。

我们现在有3台服务器，分别是：192.168.0.105，192.168.0.106，192.168.0.107。

每台服务器创建相同的环境目录~ mkdir /home/app/zookeeper/zkdata#新建myid文件192.168.0.105服务器：~ echo "1" > /home/app/zookeeper/zkdata/myid192.168.0.106服务器：~ echo "2" > /home/app/zookeeper/zkdata/myid192.168.0.107服务器：~ echo "3" > /home/app/zookeeper/zkdata/myid分别修改配置文件增加：集群的实例，server.X，”X”表示每个目录中的myid的值一、192.168.0.105服务器上：~ vi /home/app/zookeeper/zookeeper-3.4.5/conf/zoo.cfgtickTime=2000initLimit=10syncLimit=5dataDir=/home/app/zookeeper/zkdata#dataLogDir=/home/app/zookeeper/zkdataLogclientPort=2181server.1=192.168.0.105:2888:3888server.2=192.168.0.106:2888:3888server.3=192.168.0.107:2888:3888二、192.168.0.106服务器上：~ vi /home/app/zookeeper/zookeeper-3.4.5/conf/zoo.cfgtickTime=2000initLimit=10syncLimit=5dataDir=/home/app/zookeeper/zkdata#dataLogDir=/home/app/zookeeper/zkdataLogclientPort=2181server.1=192.168.0.105:2888:3888server.2=192.168.0.106:2888:3888server.3=192.168.0.107:2888:3888三、192.168.0.107服务器上：~ vi /home/app/zookeeper/zookeeper-3.4.5/conf/zoo.cfgtickTime=2000initLimit=10syncLimit=5dataDir=/home/app/zookeeper/zkdata#dataLogDir=/home/app/zookeeper/zkdataLogclientPort=2181server.1=192.168.0.105:2888:3888server.2=192.168.0.106:2888:3888server.3=192.168.0.107:2888:3888启动和查看节点状态参照第3点伪分布式集群的启动和查看。