使用Ambari快速部署Hadoop大数据环境

合集下载

hadoop生态圈处理数据的流程

hadoop生态圈处理数据的流程Hadoop生态圈处理数据的流程一、引言Hadoop生态圈是目前最为流行的大数据处理平台之一，它由一系列开源工具和框架组成，可以高效地处理大规模数据。

本文将介绍Hadoop生态圈处理数据的流程。

二、数据采集数据采集是数据处理的第一步，Hadoop生态圈提供了多种方式来采集数据。

其中，最常用的方式是通过Hadoop的分布式文件系统HDFS来存储数据。

数据可以从各种来源采集，例如传感器、网站日志、数据库等。

三、数据存储数据存储是Hadoop生态圈的核心组件之一，它使用HDFS来存储数据。

HDFS将数据分割成多个块，并在集群中的多个节点上进行备份，以提高数据的容错性和可靠性。

此外，Hadoop还支持其他存储组件，如HBase和Hive，用于不同类型的数据存储需求。

四、数据处理数据处理是Hadoop生态圈的重要环节，它使用MapReduce来实现分布式计算。

MapReduce将数据分成若干个小任务，并在分布式集群中并行执行，最后将结果合并输出。

通过MapReduce，可以高效地处理大规模数据，并实现各种复杂的数据分析和挖掘操作。

五、数据查询与分析Hadoop生态圈提供了多种工具和框架来进行数据查询和分析。

其中，最常用的是Hive和Pig。

Hive提供了类似于SQL的查询语言，可以将结构化数据映射到Hadoop集群上，并进行复杂的查询和分析。

Pig则提供了一种类似于脚本的语言，可以用于数据的提取、转换和加载等操作。

六、数据可视化数据可视化是将处理后的数据以图形化的方式展示出来，以便更好地理解和分析数据。

Hadoop生态圈提供了多种工具和框架来实现数据可视化，如Tableau和D3.js等。

这些工具可以将数据转化为直观、易于理解的图表和图形，帮助用户更好地理解和分析数据。

七、数据存储与管理在数据处理过程中，需要对数据进行存储和管理。

Hadoop生态圈提供了多种存储和管理工具，如HBase和ZooKeeper等。

ambari中ranger的使用手册

《深入了解Ambari中Ranger的使用手册》作为一个开源的集成、管理和监控评台，Ambari已经成为了许多大数据评台的首选之一。

而在Ambari中，Ranger作为一款强大的访问管理工具，为用户提供了细粒度的访问控制和审计功能，极大地加强了集群的安全性。

本篇文章将深入探讨Ambari中Ranger的使用手册，帮助用户更好地理解和使用这一功能。

一、Ranger的概念和原理1. Ranger的作用Ranger作为一款集中式访问管理工具，主要用于管理Hadoop生态系统中的用户、组织和资源之间的访问控制和权限管理。

通过Ranger，用户可以定义资源的访问策略，包括谁可以访问资源、以及如何访问资源等。

这极大地加强了对集群的安全管理。

2. Ranger的核心组件Ranger包含四个核心组件：策略管理器、用户同步服务、审计服务和密钥管理服务。

这些组件共同协作，为用户提供了完善的访问管理功能。

3. Ranger的工作原理当用户尝试访问某个资源时，请求将会先经过Ranger，Ranger会根据预先定义的策略对请求进行鉴权和授权。

如果请求符合策略规则，则将被允许，否则将被拒绝。

Ranger也会记录所有的访问请求和结果，以便后续审计和分析。

二、Ranger的安装和配置1. 安装前的准备在安装Ranger之前，需要确保集群已经安装并运行了Ambari。

还需要确保集群中的Hadoop生态系统组件都已经安装并配置完成。

2. Ranger的安装在Ambari中，用户可以通过简单的界面操作来安装Ranger，无需进行复杂的命令行配置。

只需要在Ambari中选中Ranger并进行安装即可。

3. Ranger的配置安装完成后，用户需要对Ranger进行一些必要的配置，包括数据库连接、用户同步服务的配置、审计服务的配置等。

这些配置可以在Ambari的界面中完成，非常方便。

三、Ranger的使用和管理1. 策略管理在Ranger中，用户可以通过策略管理器来定义和管理访问策略。

Ambari系列(四)：基于Ambari做二次开发(DIY)

Ambari 系列（四）：基于 Ambari 做二次开发（DIY）前言 Ambari 能够搭建、管理 Hadoop 集群，这是一件很酷的事情，让集群管理变的 easy，但是有可能也有自己的一些需求，如果我想基于 Ambari 做二次开发 DIY，修改一下界面，增加一些功能，添加一个模块等等，这些都是没问题，首先 Ambari 是基于 ASF 协议，其次，开发也很方便，唯一不足的是官网基于此的开发文档不多。

我主要介绍下，怎么基于 Ambari 做二次开发，搭建开发环境，最后编译部署打包。

开发环境搭建在 windows 下安装 nodejs python 的编译运行环境比较复杂，主要是 nodejs 有些库文件是需要 C++ 、 ruby、 python 等一些语言进行编译，所以在 linux 上搭建这些环境简单，使用 samba 协议共享 Linux 中的文件，在 linux 上运行测试，在 windows 下进行代码修改。

（使用 samba 协议是一种连接 linux 和 windows 的方法，可以应用到很多场景，我觉得这是亮点）。

安装 samba 1）安装 samba:可以先检查下是否已经安装：rpm -qa | grep samba,没有的话自己安装下，这里介绍下基于 RPM 包的一种在线安装模式 yum。

yum 是一种快速安装模式，它会自动解决软件安装时的依赖问题并自动去特定的服务器下载相应的软件进行安装，命令十分简单： yum install samba，快捷方便的背后离不开程序员的辛苦啊！ 2） service smb restart 或者 /etc/init.d/smbd restart // 重启配置后几页说明 3） useradd samba // 在 Linux 上建立 samba 用户 4） smbpasswd -a samba // 创建 Smb 用户，此用户必须是 Linux 上已经建立的输入密码，完成即可。

先电大数据平台操作手册

先电大数据平台用户手册版本：先电发布日期：2017年02月21日南京第五十五所技术开发有限公司版本修订说明目录1 概述...................................................... 错误!未定义书签。

大数据简介........................................ 错误!未定义书签。

先电大数据平台简介................................ 错误!未定义书签。

2 基本环境配置.............................................. 错误!未定义书签。

配置主机名........................................ 错误!未定义书签。

修改hosts文件.................................... 错误!未定义书签。

修改yum源........................................ 错误!未定义书签。

配置ntp .......................................... 错误!未定义书签。

配置SSH .......................................... 错误!未定义书签。

禁用Transparent Huge Pages ........................ 错误!未定义书签。

安装配置JDK....................................... 错误!未定义书签。

3 配置ambari-server ........................................ 错误!未定义书签。

安装MariaDB数据库................................ 错误!未定义书签。

Hadoop集群监控工具推荐与使用技巧

Hadoop集群监控工具推荐与使用技巧随着大数据时代的到来，Hadoop已经成为了处理海量数据的主要工具之一。

然而，随着数据规模的不断增长，对Hadoop集群的监控变得愈发重要。

本文将介绍一些常用的Hadoop集群监控工具，并分享一些使用技巧，帮助读者更好地管理和监控自己的集群。

一、Hadoop集群监控工具推荐1. AmbariAmbari是一款由Apache开源的Hadoop集群管理工具，它提供了集群配置、部署、监控和管理等功能。

Ambari的优势在于它的用户友好性和可扩展性。

通过Ambari，用户可以方便地监控集群的状态、资源使用情况以及作业运行情况等。

2. GangliaGanglia是另一款常用的Hadoop集群监控工具，它主要用于实时监控集群的性能指标。

Ganglia通过采集集群各个节点的性能数据，并将其汇总展示在一个集中的监控平台上。

用户可以通过Ganglia监控集群的CPU利用率、内存使用情况、网络流量等指标，及时发现和解决潜在的性能问题。

3. NagiosNagios是一款广泛应用于各种IT系统的监控工具，它也可以用于监控Hadoop 集群。

Nagios提供了丰富的插件和扩展功能，可以监控集群的各个组件、服务和作业等。

通过配置Nagios，用户可以设置警报规则，及时获得集群的状态变化和异常情况。

二、Hadoop集群监控工具使用技巧1. 配置合适的监控指标在使用Hadoop集群监控工具时，需要根据自己的需求和集群的特点，选择合适的监控指标。

例如，如果集群的瓶颈在于网络带宽，那么监控网络流量指标将非常重要。

通过合适的监控指标，可以更准确地了解集群的状态和性能瓶颈，从而采取相应的优化措施。

2. 设置合理的警报规则监控工具的警报功能是非常重要的，它可以帮助用户及时发现和解决集群的异常情况。

然而，设置合理的警报规则并不是一件容易的事情。

过于敏感的警报规则可能导致频繁的误报，而过于迟钝的规则则可能延误问题的解决。

ambari中ranger的使用手册

ambari中ranger的使用手册【原创实用版】目录1.概述2.安装与配置3.使用方法4.常见问题5.总结正文一、概述Ambari 是一个用于管理和监控 Hadoop 集群的 web 应用程序。

通过 Ambari，用户可以轻松地管理 Hadoop 集群，例如进行 HDFS、YARN 和HBase 的操作。

Ranger 是一个基于角色的访问控制框架，用于保护Hadoop 生态系统中的数据和资源。

通过集成 Ranger，Ambari 可以提供更加完善的安全管理功能，确保用户数据和资源的安全性。

二、安装与配置在使用 Ambari 中的 Ranger 之前，需要确保已经正确安装了Ambari 和 Hadoop 集群。

接下来，按照以下步骤配置 Ranger：1.配置 Ranger 的属性文件。

在 Ranger 的安装目录下，找到ranger-env.sh 文件，并修改其中的属性值，例如 RANGER_ADMIN_USER、RANGER_ADMIN_PASSWORD 等。

2.启动 Ranger 的相关服务。

根据安装的 Ranger 版本，可能需要启动 Zookeeper、HBase、Solr 等服务。

3.配置 Ambari 以使用 Ranger。

在 Ambari 的配置文件ambari-site.xml 中，添加相应的配置项，例如：```<property><name>hadoop.security.authorization</name><value>Ranger</value></property>```保存配置文件后，重启 Ambari 服务。

三、使用方法在完成安装和配置后，可以通过以下方法在 Ambari 中使用 Ranger：1.登录 Ambari。

2.在左侧菜单中，展开“Security”选项，找到“Ranger”选项卡。

ambari安装配置

AMBARI安装配置详细版本目录1 HDP安装 (1)1.1 准备工作 (1)1.2 主机配置 (2)1.2.1 FQDN主机名 (2)1.2.2 ntp时间同步 (3)1.2.3防火墙 (3)1.2.4 ssh配置 (3)1.2.4内核参数 (4)1.2.5 yum本地仓库 (4)1.3 mysql安装 (7)1.4 ambari安装 (9)1.5 ambari web界面配置 (10)1 HDP安装1.1准备工作Centos6.8四台，配置如下host表：192.168.10.167 hadoop1192.168.10.168 hadoop2192.168.10.169 hadoop3192.168.10.170 hadoop4角色：Hadoop1:namenodeHadoop2:secondenamenodeHadoop3: datanodeHadoop4:mysql，yumrepo，webserver软件包：jdk-8u151-linux-x64.tar.gznginx-1.12.2.tar.gzambari-2.6.0.0-centos6.tar.gzHDP-2.6.0.3-centos6-rpm.tar.gzHDP-UTILS-1.1.0.21-centos6.tar.gzhdf-ambari-mpack-3.0.2.0-76.tar.gzHDF-3.0.2.0-centos6-rpm.tar.gzmysql-5.7.20.tar.gzmysql-boost-5.7.20.tar.gzmysql-connector-java-5.1.45.tar.gz1.2主机配置1.2.1 FQDN主机名修改四台主机的主机名，并添加到每台主机host表里，host 表如下127.0.0.1 localhost localhost.localdomain localhost4localhost4.localdomain4::1 localhost localhost.localdomain localhost6localhost6.localdomain6192.168.10.167 hadoop1192.168.10.168 hadoop2192.168.10.169 hadoop3192.168.10.170 hadoop4注意前面的两条系统自带的不需要删除，否则后期安装可能会出问题Hostname -f命令可以看到4台主机的名字为Hadoop[1-4]即设置成功。

ambari介绍及安装

ambari介绍及安装Ambari简介Ambari概述Apache Ambari是⼀种基于Web的⼯具，⽀持Apache Hadoop集群的创建、管理和监控。

Ambari已⽀持⼤多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等；除此之外，Ambari还⽀持Spark、Storm等计算框架及资源调度平台YARN。

Apache Ambari 从集群节点和服务收集⼤量信息，并把它们表现为容易使⽤的，集中化的接⼝：Ambari Web.Ambari Web显⽰诸如服务特定的摘要、图表以及警报信息。

可通过Ambari Web对Hadoop集群进⾏创建、管理、监视、添加主机、更新服务配置等；也可以利⽤Ambari Web执⾏集群管理任务，例如启⽤ Kerberos 安全以及执⾏Stack升级。

任何⽤户都可以查看Ambari Web特性。

拥有administrator-level ⾓⾊的⽤户可以访问⽐ operator-level 或 view-only 的⽤户能访问的更多选项。

例如，Ambari administrator 可以管理集群安全，⼀个 operator ⽤户可以监控集群，⽽ view-only ⽤户只能访问系统管理员授予他的必要的权限。

Ambari体系结构Ambari ⾃⾝也是⼀个分布式架构的软件，主要由两部分组成：Ambari Server 和 Ambari Agent。

简单来说，⽤户通过Ambari Server通知 Ambari Agent 安装对应的软件；Agent 会定时地发送各个机器每个软件模块的状态给 Ambari Server，最终这些状态信息会呈现在 Ambari 的 GUI，⽅便⽤户了解到集群的各种状态，并进⾏相应的维护。

Ambari Server 从整个集群上收集信息。

每个主机上都有 Ambari Agent, Ambari Server 通过 Ambari Agent 控制每部主机。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

作者:杨鑫奇前言做大数据相关的后端开发工作一年多来,随着Hadoop社区的不断发展,也在不断尝试新的东西,本文着重来讲解下Ambari,这个新的Apache的项目,旨在让大家能够方便快速的配置和部署Hadoop生态圈相关的组件的环境,并提供维护和监控的功能.作为新手,我讲讲我自己的学习经历,刚刚开始学习的时候,当然最简单的 Google 下Hadoop ,然后下载相关的包,在自己的虚拟机(CentOS 6.3) 上安装一个单机的Hadoop版本用来做测试,写几个测试类,然后做下CRUD测试之类的,跑跑Map/Reduce的测试,当然这个时候对于Hadoop还不是很了解,不断的看别人的文章,了解下整体的架构,自己所做的就是修改conf下的几个配置文件,让Hadoop能够正常的跑起来,这个时候几种在修改配置上,这个阶段之后,又用到了HBase,这个Hadoop生态圈的另外一个产品,当然还是修改配置,然后 start-all.sh , start-hbase.sh 把服务起起来,然后就是修改自己的程序,做测试,随着用Hbase 学了下 Zookeeper 和Hive等, 接着过了这个操作阶段了之后,开始研究Hadoop2.0看了董的博客的相关文章,还有CSDN上很多大牛的文章了之后, 算是对Hadoop的生态圈整体有一些了解,介于自己在公司所承担的开发所涉及到相关的技术仅仅就这些.但是作为一个爱好探索的人,是否想多了解下呢,它的性能怎么样? 它是具体如何运作的? 看大公司的那些PPT,人家(淘宝等大公司)动不动就是几十个,几百个,乃至几千个节点,人家是如何管理的,性能是怎么样的?看着PPT里面的那些性能测试的曲线,你是否也能够详细的了解,并且对自己的项目进行性能调优呢? 我貌似找到答案了,那就是 Ambari , 由HortonWorks开发的一个Hadoop相关的项目,具体可以上官方去了解.了解Hadoop生态圈现在我们经常看到的一些关键字有:HDFS,MapReduce,HBase,Hive,ZooKeeper,Pig,Sqoop,Oozie,Ganglia,Nagios,CDH3,CDH4,Flume,Scri be,Fluented,HttpFS等等,其实应该还有更多,Hadoop生态圈现在发展算是相当繁荣了,而在这些繁荣的背后又是谁在推动的呢? 读过Hadoop历史的朋友可能知道,Hadoop最早是始于Yahoo,但是现在主要是由 HortonWorks 和 Cloudera这2家公司在维护者,大部分的commiter 都属于这2家公司,所以现在市面上看到的主要有2个版本,CDH系列,和社区版, 我最早用的是社区版本,后来换到CDH3,现在又换回社区版,因为有Ambari.当然,用什么和不用什么,只要自己的技术到家,还是都能修改的跑的正常的.这里就不多说了. 讲了这么多废话了,开始讲 Ambari安装吧.开始部署首先了解下Ambari, 项目地址在:/ambari/安装文档在:/ambari/1.2.2/installing-hadoop-using-ambari/content/index.h tmlHortonWorks的人写的一篇介绍安装的文章我翻译了下:/scotoma/archive/2013/05/18/3085040.html安装的时候请大家先看下安装文档吧,安装文档必须认真看,结合自己当前所使用的系统版本,配置不同的源,而且安装过程中需要的时间相对比较长,所以需要认真的做好安装文档的每个步骤. 这里我就说我遇到的一些问题.以下说说我自己的安装过程.机器准备:我的测试环境采用 9 台 HP 的烂机器,分别是 cloud100 - cloud108 , cloud108做为管理节点.Ambari安装的环境路径:各台机器的安装目录:/usr/lib/hadoop/usr/lib/hbase/usr/lib/zookeeper/usr/lib/hcatalog/usr/lib/hiveLog路径, 这里需要看出错信息都可以在目录下找到相关的日志/var/log/hadoop/var/log/hbase配置文件的路径/etc/hadoop/etc/hbase/etc/hiveHDFS的存储路径/hadoop/hdfs安装过程需要注意的点:1, 安装的时候,需要做好每台机器的ssh免密码登陆,这个之前的文章/scotoma/archive/2012/09/18/2689902.html 中提到了,做好之后,从管理节点到各个集群节点之间,都能使用这个登陆.2, 如果你的机器之前安装过 Hadoop的相关服务,特别是Hbase 里面配置了 HBASE_HOME 的环境变量,需要 unset掉, 这个环境变量会影响,因为我之前把这些路径放到 /etc/profile 里面导致影响了HBase,因为Ambari安装的路径和你之前安装的可能不一样.3,在服务选择页面的时候, NameNode 和 SNameNode 需要布置在一起, 我之前尝试做 HA 而把他们分开,但是SNameNode一直起不来,导致整个启动失败,接下来时间需要花在HA上.4. JobTrakcer 不和Namenode在一起也会导致启动不起来.5. Datanode的节点不能少于 Block replication 中数, 基本都是需要 >= 3.6. Confirm Hosts 的时候,需要注意里面的 Warning 信息,把相关的Warning都处理掉,有一些Warning会导致安装出错.7. 记住安装中所新建的用户,接下来需要用到这些用户.8. Hive和HBase Master 部署在同一个节点,这里当然你也可以分开. 设置好后就开始安装了.9.如果安装失败的情况下,如何重新安装.首先,先删除掉系统已经安装的文件相关的目录,sh file_cp.sh cmd "rm -rf /usr/lib/hadoop && rm -rf /usr/lib/hbase && rm -rf/usr/lib/zookeeper"sh file_cp.sh cmd "rm -rf /etc/hadoop && rm -rf /etc/hbase && rm -rf /hadoop && rm -rf /var/log/hadoop"sh file_cp.sh cmd "rm -rf /etc/ganglia && rm -rf /etc/hcatalog && rm -rf /etc/hive && rm -rf /etc/nagios && rm -rf /etc/sqoop && rm -rf /var/log/hbase && rm -rf /var/log/nagios && rm -rf /var/log/hive && rm -rf /var/log/zookeeper && rm -rf /var/run/hadoop && rm -rf/var/run/hbase && rm -rf /var/run/zookeeper "再在Yum remove 掉安装的相关的包.sh file_cp.sh cmd "yum -y remove ambari-log4j hadoop hadoop-lzo hbase hive libconfuse nagios sqoop zookeeper"我这里使用到了自己写的Shell,方便在多台机器之间执行命令:https:///xinqiyang/opshell/tree/master/hadoop10.注意时间的同步,时间问题会导致regionserver起不来11. iptables 需要关闭,有的时候可能机器会重新启动,所以不单单需要 service stop 也需要chkconfig 关闭掉.最后安装完成后,登陆地址查看下服务的情况:http://管理节点ip:8080 , 比如我这里的: http://192.168.1.108:8080/ 登陆之后,需要设置之前在安装Ambari-server时候输入的账号和密码,进入查看 ganglia的监控查看 nagios 的监控测试安装完成后,看着这些都正常了,是否需要自己验证一下呢? 不过基本跑了冒烟测试后,正常的话,基本还是正常的,但是我们自己也得来操作下吧.验证HDFS验证Map/Reduce验证HBase验证Hive总结到这里,相关的 hadoop 及 hbase 及hive 的相关配置就都配置完成了,接下来需要做一些压力测试.还有其他方面的测试, 对于Ambari带的是 HortonWorks 打包的rpm版本的 Hadoop相关的源码,所以这里可能会和其他的版本有一些不同,但是作为开发环境来说,暂时还是没有很多大的影响的,但是现在还没有在生产上使用, 所以也不管说如何的稳定,接下来我会在开发项目的过程中,将所遇到的Bug给列出来. 总体来说Ambari还是很值得使用的,毕竟能够减少很多不必要的配置时间,而且相对在单机环境下, 在集群环境下更能贴近生产做一些相关的性能测试和调优测试等等,而且配置的ganglia和nagios的监控也能够发布的让我们查看到集群相关的数据,总体来说还是推荐使用的,新东西有Bug是在所难免的,但是在用的过程中我们会不断的完善. 接下来如果有时间,会对Ambariserver的功能进行扩展,添加诸如redis/nginx之类的常用的高性能模块的监控选项. 这个有时间在弄了. 总之,欢迎使用Ambari.分类: 基础配置, 云后端开发系列标签: Ambari, Hadoop集群快速安装, Ambari实践。