07 hadoop完全分布式安装第七步：zookeeper分布式配置

合集下载

zookeeper基本操作命令

zookeeper基本操作命令ZooKeeper是一个分布式的开源协调服务，用于管理大规模分布式系统的配置信息、命名服务、分布式锁等。

作为一个基础设施工具，ZooKeeper提供了一组简单易用的命令来进行基本操作。

本文将介绍一些常用的ZooKeeper基本操作命令。

1. 创建节点（create）在ZooKeeper中，节点是组织和存储数据的基本单元。

使用create命令可以在指定的路径下创建节点，并设置节点的值和特性。

命令格式：```create path data [acl]```其中，path表示节点的路径，data表示节点的值，acl表示节点的访问控制列表（可选）。

2. 获取节点数据（get）使用get命令可以获取指定节点的数据。

命令格式：```get path```其中，path表示节点的路径。

3. 设置节点数据（set）使用set命令可以设置指定节点的数据。

命令格式：```set path data [version]```其中，path表示节点的路径，data表示节点的新值，version表示节点的版本号（可选）。

4. 列出子节点（ls）使用ls命令可以列出指定节点的所有子节点。

命令格式：```ls path```其中，path表示节点的路径。

5. 删除节点（delete）使用delete命令可以删除指定节点及其所有子节点。

命令格式：```delete path [version]```其中，path表示节点的路径，version表示节点的版本号（可选）。

6. 监听节点变化（getWatches）使用getWatches命令可以查看当前会话中设置的所有节点监听。

命令格式：```getWatches```7. 添加节点监听（watches）使用watches命令可以在指定节点上添加监听。

命令格式：```watches path```其中，path表示节点的路径。

8. 检查节点是否存在（exists）使用exists命令可以检查指定节点是否存在。

《Hadoop大数据技术》课程理论教学大纲

《Hadoop大数据技术》课程教学大纲一、课程基本情况课程代码：1041139083课程名称（中/英文）：Hadoop大数据技术/Hadoop Big Data Technology课程类别：专业必修课学分：3.5总学时：56理论学时：32实验/实践学时：24适用专业：数据科学与大数据技术适用对象：本科先修课程：JA V A程序设计、Linux基础教学环境：课堂、多媒体、实验机房二、课程简介《Hadoop大数据技术》课程是数据科学与大数据技术专业的专业必修课程。

《Hadoop大数据技术》主要学习当前广泛使用的大数据Hadoop平台及其主要组件的作用及使用。

通过学习Hadoop 平台框架，学会手动搭建Hadoop环境，掌握Hadoop平台上存储及计算的原理、结构、工作流程，掌握基础的MapReduce编程，掌握Hadoop生态圈常用组件的作用、结构、配置和工作流程，并具备大数据的动手及问题分析能力，使用掌握的知识应用到实际的项目实践中。

课程由理论及实践两部分组成，课程理论部分的内容以介绍Hadoop平台主要组件的作用、结构、工作流程为主，对Hadoop 平台组件的作用及其工作原理有比较深入的了解；课程同时为各组件设计有若干实验，使学生在学习理论知识的同时，提高实践动手能力，做到在Hadoop的大数据平台上进行大数据项目开发。

三、课程教学目标2.课程教学目标及其与毕业要求指标点、主要教学内容的对应关系四、教学内容（一）初识Hadoop大数据技术1.主要内容：掌握大数据的基本概念、大数据简史、大数据的类型和特征、大数据对于企业带来的挑战。

了解对于大数据问题，传统方法、Google的解决方案、Hadoop框架下的解决方案，重点了解Google的三篇论文。

掌握Hadoop核心构成、Hadoop生态系统的主要组件、Hadoop发行版本的差异及如何选择；了解Hadoop典型应用场景；了解本课程内容涉及到的Java语言基础；了解本课程实验涉及到的Linux基础。

zookeeper、ZK安装、ZK配置、ZK使用

zookeeper、ZK安装、ZK配置、ZK使⽤-----------------------------⽬录-----------------------------------第⼀部分：zookeeper简介第⼆部分：zookeeper环境搭建 1、单机环境 2、集群环境第三部分：zookeeper基本使⽤ 1、java原⽣zk客户端api操作 2、zkClient客户端操作（推荐） 3、curator客户端操作（推荐）第四部分：zookeeper应⽤场景第五部分：zookeeper深⼊进阶第六部分：zookeeper源码分析-----------------------------⽬录-----------------------------------第⼀部分：zookeeper简介1、 zookeeper基本概念zookeeper是⼀个开源的分布式协调服务，其设计⽬标是将那些复杂并且容易出差错的分布式⼀致性服务封装起来，构成⼀个⾼效可靠的原语集，并提供给⽤户⼀些简单的接⼝，zookeeper是⼀个典型的分布式⼀致性的解决⽅案（CP模式），分布式应⽤程序可以基于它实现数据订阅/发布、负载均衡，命名服务、集群管理、分布式锁和分布式队列等功能。

2、基本概念@1、集群⾓⾊通常在分布式系统中，构成⼀个集群中的每⼀台机器都有⾃⼰的⾓⾊，典型的是master/slave模式（主备模式），这种情况下能够处理写操作的机器成为master机器，把所有通过⼀步复制⽅式获取最新数据并且提供服务的机器为slave机器。

在zookeeper中没有是⽤主备模式，引⼊了Leader、Follower、Observer三种⾓⾊，在zk集群中所有的机器通过Leader选举来选Leader，Leader服务器为客户端提供读写服务，Follower和Observer都能提供读服务，唯⼀的区别是Observer不参与Leader选举，不参与写操作的过半写成功。

大数据应用开发赛项规程

全国职业院校技能大赛赛项规程赛项名称：大数据应用开发英文名称： Big Data Application Development 赛项组别：高等职业教育（师生同赛）赛项编号： GZ033一、赛项信息二、竞赛目标“十四五”时期，大数据产业对经济社会高质量发展的赋能作用更加突显，大数据已成为催生新业态、激发新模式、促进新发展的技术引擎。

习近平总书记指出“大数据是信息化发展的新阶段”，“加快数字化发展，建设数字中国”成为《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》的重要篇章。

本赛项旨在落实国家“建设数字中国”战略，协同推动大数据相关产业的创新与发展，大力推进大数据技术及相关专业的技术技能型人才培养，全面提升相关专业毕业生的综合能力，展现选手团队合作、工匠精神等职业素养，赋能经济社会高质量发展。

竞赛内容结合当前大数据相关产业中的新技术、新要求如数据湖、OLAP 数据库应用等，全面检验参赛选手的工程实践能力和创新能力，推进教学过程与生产过程对接、课程内容与职业标准对接、专业设置与产业需求对接，促进职普融通、产教融合、科教融汇，引领专业建设和教学改革。

竞赛内容围绕大数据相关产业岗位的实际技能要求进行设计，通过竞赛搭建校企合作的平台，强化竞赛成果转化，促进相关教材、资源、师资、认证、实习就业等方面的全方位建设，满足产教协同育人目标，为国家战略规划提供大数据领域高素质技能型人才。

三、竞赛内容本赛项涉及的典型工作任务包括大数据平台搭建（容器环境）、离线数据处理、数据挖掘、数据采集与实时计算、数据可视化、综合分析、职业素养，引入行业内较为前沿的数据湖架构作为创新、创意的范围与方向，考查的技术技能如下：（一）大数据平台搭建（容器环境）：Docker容器基础操作、Hadoop完全分布式安装配置、Hadoop HA安装配置、Spark on Yarn 安装配置、Flink on Yarn安装配置、Hive安装配置、Flume安装配置、ZooKeeper安装配置、Kafka安装配置、HBase分布式安装配置、Cli ckHouse单节点安装配置、Hudi安装配置。

Hadoop的安装与配置及示例wordcount的运行

Hadoop的安装与配置及示例程序wordcount的运行目录前言 (1)1 机器配置说明 (2)2 查看机器间是否能相互通信（使用ping命令） (2)3 ssh设置及关闭防火墙 (2)1）fedora装好后默认启动sshd服务，如果不确定的话可以查一下[garon@hzau01 ~]$ service sshd status (3)2）关闭防火墙（NameNode和DataNode都必须关闭） (3)4 安装jdk1.6(集群中机子都一样) (3)5 安装hadoop(集群中机子都一样) (4)6 配置hadoop (4)1）配置JA V A环境 (4)2）配置conf/core-site.xml、conf/hdfs-site.xml、conf/mapred-site.xml文件 (5)3）将NameNode上完整的hadoop拷贝到DataNode上，可先将其进行压缩后直接scp 过去或是用盘拷贝过去 (7)4）配置NameNode上的conf/masters和conf/slaves (7)7 运行hadoop (7)1）格式化文件系统 (7)2）启动hadoop (7)3）用jps命令查看进程，NameNode上的结果如下： (8)4）查看集群状态 (8)8 运行Wordcount.java程序 (8)1）先在本地磁盘上建立两个文件f1和f2 (8)2）在hdfs上建立一个input目录 (9)3）将f1和f2拷贝到hdfs的input目录下 (9)4）查看hdfs上有没有f1,f2 (9)5)执行wordcount（确保hdfs上没有output目录） (9)6）运行完成，查看结果 (9)前言最近在学习Hadoop，文章只是记录我的学习过程，难免有不足甚至是错误之处，请大家谅解并指正！Hadoop版本是最新发布的Hadoop-0.21.0版本，其中一些Hadoop命令已发生变化，为方便以后学习，这里均采用最新命令。

Hadoop的安装与配置

Hadoop的安装与配置建立一个三台电脑的群组，操作系统均为Ubuntu，三个主机名分别为wjs1、wjs2、wjs3。

1、环境准备：所需要的软件及我使用的版本分别为：Hadoop版本为0.19.2，JDK版本为jdk-6u13-linux-i586.bin。

由于Hadoop要求所有机器上hadoop的部署目录结构要相同，并且都有一个相同的用户名的帐户。

所以在三台主机上都设置一个用户名为“wjs”的账户，主目录为/home/wjs。

a、配置三台机器的网络文件分别在三台机器上执行：sudo gedit /etc/network/interfaceswjs1机器上执行：在文件尾添加：auto eth0iface eth0 inet staticaddress 192.168.137.2gateway 192.168.137.1netmask 255.255.255.0wjs2和wjs3机器上分别执行：在文件尾添加：auto eth1iface eth1 inet staticaddress 192.168.137.3（wjs3上是address 192.168.137.4）gateway 192.168.137.1netmask 255.255.255.0b、重启网络：sudo /etc/init.d/networking restart查看ip是否配置成功：ifconfig{注：为了便于“wjs”用户能够修改系统设置访问系统文件，最好把“wjs”用户设为sudoers（有root权限的用户），具体做法：用已有的sudoer登录系统，执行sudo visudo -f /etc/sudoers,并在此文件中添加以下一行：wjsALL=(ALL)ALL,保存并退出。

}c、修改三台机器的/etc/hosts,让彼此的主机名称和ip都能顺利解析，在/etc/hosts中添加：192.168.137.2 wjs1192.168.137.3 wjs2192.168.137.4 wjs3d、由于Hadoop需要通过ssh服务在各个节点之间登陆并运行服务，因此必须确保安装Hadoop的各个节点之间网络的畅通，网络畅通的标准是每台机器的主机名和IP地址能够被所有机器正确解析（包括它自己）。

Hadoop完全分布式详细安装过程

Hadoop详细安装过程一、本文思路1、安装虚拟化PC工具VMware，用于支撑Linux系统。

2、在VMware上安装Ubuntu系统。

3、安装Hadoop前的准备工作：安装JDK和SSH服务。

4、配置Hadoop。

5、为了方便开发过程，需安装eclipse。

6、运行一个简单的Hadoop程序：WordCount.java注：在win7系统上，利用虚拟工具VMware建立若干个Linux系统，每个系统为一个节点，构建Hadoop集群。

先在一个虚拟机上将所有需要配置的东西全部完成，然后再利用VMware 的克隆功能，直接生成其他虚拟机，这样做的目的是简单。

二、所需软件1、VMware：VMware Workstation，直接百度下载（在百度软件中心下载即可）。

2、Ubuntu系统：ubuntu-15.04-desktop-amd64.iso，百度网盘：/s/1qWxfxso注：使用15.04版本的Ubuntu（其他版本也可以），是64位系统。

3、jdk：jdk-8u60-linux-x64.tar.gz，网址：/technetwork/java/javase/downloads/jdk8-downloads-2133151.html注：下载64位的Linux版本的jdk。

4、Hadoop：hadoop-1.2.1-bin.tar.gz，网址：/apache/hadoop/common/hadoop-1.2.1/注：选择1.2.1版本的Hadoop。

5、eclipse：eclipse-java-mars-1-linux-gtk-x86_64.tar.gz，网址：/downloads/?osType=linux注：要选择Linux版本的，64位，如下：6、hadoop-eclipse-plugin-1.2.1.jar，这是eclipse的一个插件，用于Hadoop的开发，直接百度下载即可。

三、安装过程1、安装VMware。

hadoop安装以及配置启动命令

hadoop安装以及配置启动命令本次安装使⽤的Hadoop⽂件是badou学院的Hadoop1.2.1.tar.gz，以下步骤都是在此版本上进⾏。

1、安装，通过下载tar.gz⽂件安装到指定⽬录2、安装好后需要配置Hadoop集群配置信息：在hadoop的conf路径中的masters中添加master(集群机器主的hostname)在slaves中添加集群的slave的hostname名称名称对应的是各⾃机器的hostname这样通过hosts⽂件中配置的域名地址映射可以直接找到对应的机器 a、core-site.xml 在xml⽂件中添加<property><name>hadoop.tmp.dir</name><value>/usr/local/src/hadoop.1.2.1/tmp</value></property> <property><name></name><value>hdfs://192.168.79.10:9000</value></property> c、hdfs-site.xml 在⽂件中添加<property><name>dfs.replication</name><value>3</value></property> d、hadoop-env.xml 在⽂件中添加export JAVA_HOME=/usr/local/src/jdk1.6.0_45 步骤2配置好后将当前hadoop⽂件夹复制到集群中其他机器上，只需要在对应机器上修改其对应的ip、port、jdk路径等信息即可搭建集群3、配置好Hadoop环境后需要测试环境是否可⽤： a、⾸先进⼊Hadoop的安装⽬录，进⼊bin⽬录下，先将Hadoop环境初始化，命令：./hadoop namenode -format b、初始化之后启动Hadoop,命令:./start_all.sh c、查看Hadoop根⽬录下的⽂件，命令:./hadoop fs -ls/ d、上传⽂件，命令:./hadoop fs -put ⽂件路径 e、查看⽂件内容，命令：./hadoopo fs -cat hadoop⽂件地址注意：在安装Hadoop环境时先安装好机器集群，使得⾄少3台以上（含3台）机器之间可以免密互相登录（可以查看上⼀篇的linux的ssh免密登录）执⾏Python⽂件时的部分配置/usr/local/src/hadoop-1.2.1/bin/hadoop/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

实验七 zookeeper分布式的配置
tar -zxvf zookeeper-3.4.5.tar.gz
mv zookeeper-3.4.5 zookeeper
cd zookeeper
mkdir data
mkdir logs
三、集群模式
集群模式就是在不同主机上安装zookeeper然后组成集群的模式；下边以在192.168.1.1，192.168.1.2，192.168.1.3三台主机为例。

zookeeper 配置
1.Zookeeper服务集群规模不小于三个节点，要求各服务之间系统时间要保持一致。

2.在master的/home/chenlijun目录下，解压缩zookeeper（执行命令tar –zvxf zooke eper.tar.gz）
3.设置环境变量
打开/etc/profile文件！内容如下：
1.#set java & hadoop
2.
3.export JAVA_HOME=/home/chenlijun/java/
4.
5.export HADOOP_HOME=/home/chenlijun/hadoop
6.
7.export ZOOKEEPER_HOME=/home/chenlijun/zookeeper
8.
9.export PATH=.:$HADOOP_HOME/bin:$ZOOKEEPER_HOME/bin:$JAVA_HOME/bin:$PATH
注：修改完后profile记得执行source /etc/profile
4.在解压后的zookeeper的目录下进入conf目录修改配置文件
更名操作：mv zoo_sample.cfg zoo.cfg
5.编辑zoo.cfg (vi zoo.cfg)
修改dataDir=/home/chenlijun/zookeeper/data/
新增server.0=master:2888:3888
server.1=slave1:2888:3888
server.2=slave2:2888:3888
文件如下：
1.# The number of milliseconds of each tick
2.
3.tickTime=2000
4.
5.# The number of ticks that the initial
6.
7.# synchronization phase can take
8.
9.initLimit=10
10.
11.# The number of ticks that can pass between
12.
13.# sending a request and getting an acknowledgement
14.
15.syncLimit=5
16.
17.# the directory where the snapshot is stored.
18.
19.# do not use /tmp for storage, /tmp here is just
20.
21.# example sakes.
22.
23.dataDir=/home/chenlijun/zookeeper/data
24.
25.# the port at which the clients will connect
26.
27.clientPort=2181
28.
29.#
30.
31.# Be sure to read the maintenance section of the
32.
33.# administrator guide before turning on autopurge.
34.
35.#
36.
37.# /doc/current/zookeeperAdmin.html#sc_maintenanc
e
38.
39.#
40.
41.# The number of snapshots to retain in dataDir
42.
43.#autopurge.snapRetainCount=3
44.
45.# Purge task interval in hours
46.
47.# Set to "0" to disable auto purge feature
48.
49.#autopurge.purgeInterval=1
50.
51.
52.
53.server.0=master:2888:3888
54.
55.server.1=slave1:2888:3888
56.
57.server.2=slave2:2888:3888
这三行为配置zookeeper集群的机器（master、slave1、slave2）分别用server.0和server.1、server.2标识，2888和3888为端口号（zookeeper集群包含一个leader(领导)和多个fllower(随从)，启动zookeeper集群时会随机分配端口号，分配的端口号为2888的为leader，端口号为3888的是fllower）
6.创建文件夹mkdir /home/chenlijun/zookeeper/data
7.在data目录下，创建文件myid，值为0 (0用来标识master这台机器的zookeeper )
到此为止 master上的配置就已经完成；接下来配置slave1和slave2.
8.把zookeeper目录复制到slave1和slave2中
scp –r /home/chenlijun/zookeeper chenlijun@slave1:/home/chenlijun/
scp –r /home/chenlijun/zookeeper chenlijun@slave2:/home/chenlijun/
9.把修改后的etc/profile文件复制到slave1和slave2中
（复制完后记得在slave1和slave2中执行命令source /etc/profile）
10.把slave1中相应的myid中的值改为1，slave2中相应的myid中的值改为2
11.启动，在三个节点上分别执行命令zkServer.sh start
12.检验，在三个节点上分别执行命令zkServer.sh status
bin/zkCli.sh 进入shell。