大数据学习环境搭建系列(一)大数据集群平台介绍

合集下载

CDH大数据集群环境搭建步骤

CDH大数据集群环境搭建步骤搭建CDH大数据集群环境需要进行以下步骤：1.准备硬件和操作系统：- 硬件要求：至少3台服务器，其中一台作为master节点，其他作为worker节点。

每台服务器至少具有4个CPU核心、16GB内存、100G以上硬盘空间。

- 操作系统要求：集群中的所有服务器需要运行相同的操作系统版本，推荐使用CentOS 7或者Red Hat Enterprise Linux 72.安装基础组件：- 使用root用户登录所有服务器，执行以下命令更新系统：`yum update -y`- 安装JDK：在每台服务器上执行以下命令安装JDK：`yum install-y java-1.8.0-openjdk-devel`- 安装其他依赖包：在每台服务器上执行以下命令安装其他依赖包：`yum install -y wget vim curl ntp`- 授予安装脚本执行权限：`chmod +x cloudera-manager-installer.bin`- 运行安装脚本：`./cloudera-manager-installer.bin`4.配置CDH集群管理器：- 打开Web浏览器，输入master节点的IP地址和端口号7180（默认）访问Cloudera Manager Web控制台。

- 在“Install a New Cluster”页面上，按照提示配置集群名称、选择操作系统等信息，并选择需要安装的组件（如HDFS、YARN、HBase 等）。

- 提供worker节点的主机名或IP地址，在设置完所有配置项后，点击“Continue”按钮。

5.配置集群节点：- 在“Choose Services”页面上，选择需要在集群中安装的服务。

- 在“Assign Roles”页面上，将角色分配给master节点和worker节点。

- 在“Check Configuration”页面上，检查配置项是否正确，如有错误，根据提示进行修改。

基于Hadoop的大数据分析系统设计与开发

基于Hadoop的大数据分析系统设计与开发一、引言随着互联网的快速发展和智能化技术的不断进步，大数据分析已经成为各行各业的重要组成部分。

在海量数据的背景下，如何高效地存储、处理和分析数据成为了企业发展的关键。

Hadoop作为一个开源的分布式计算框架，被广泛应用于大数据处理领域。

本文将介绍基于Hadoop的大数据分析系统设计与开发。

二、Hadoop简介Hadoop是一个由Apache基金会开发的分布式系统基础架构，可以有效地存储和处理大规模数据。

其核心包括Hadoop Distributed File System（HDFS）和MapReduce计算模型。

HDFS用于存储数据，而MapReduce则用于并行处理数据。

三、大数据分析系统架构设计1. 数据采集在设计大数据分析系统时，首先需要考虑数据采集的问题。

数据可以来自各种来源，包括传感器、日志文件、数据库等。

在数据采集阶段，需要确保数据的完整性和准确性。

2. 数据存储HDFS作为大数据存储的核心组件，具有高可靠性和可扩展性。

在设计大数据分析系统时，可以将原始数据存储在HDFS中，以便后续的处理和分析。

3. 数据处理MapReduce是Hadoop中用于并行处理大规模数据集的编程模型。

通过MapReduce编程，可以实现对数据的高效处理和计算。

在设计大数据分析系统时，需要合理地设计MapReduce任务，以提高计算效率。

4. 数据分析除了MapReduce之外，Hadoop还支持其他数据处理框架，如Spark、Hive等。

这些框架可以帮助用户进行更复杂和多样化的数据分析工作。

在设计大数据分析系统时，需要根据实际需求选择合适的数据分析工具。

四、大数据分析系统开发1. 环境搭建在进行大数据分析系统开发之前，需要搭建好Hadoop集群环境。

通过配置Hadoop集群，可以实现多台机器之间的协同工作，提高系统的稳定性和可靠性。

2. 数据处理流程编写根据设计阶段确定的数据处理流程，开发人员可以编写相应的MapReduce程序。

大数据平台安装实训报告

一、实训背景随着信息技术的飞速发展，大数据已成为国家战略资源。

为了培养具备大数据技术能力的人才，我国高校纷纷开设大数据相关课程。

本实训旨在通过实际操作，使学生掌握大数据平台的搭建与配置，为今后从事大数据相关工作打下坚实基础。

二、实训目标1. 熟悉大数据平台的基本概念、架构及常用技术。

2. 掌握Hadoop、Hive、HBase等大数据组件的安装与配置。

3. 熟悉大数据平台的集群部署与维护。

4. 提高动手实践能力，培养团队合作精神。

三、实训环境1. 操作系统：CentOS 72. 虚拟机软件：VMware Workstation3. 大数据组件：Hadoop 3.1.0、Hive 3.1.2、HBase 2.2.4四、实训内容1. 创建虚拟机与操作系统的安装（1）使用VMware Workstation创建虚拟机，并安装CentOS 7操作系统。

（2）配置虚拟机网络，实现虚拟机与主机之间的网络互通。

2. 集群主节点JDK和Hadoop的安装与配置（1）修改主机名，便于区分不同节点。

（2）进入hosts文件，配置IP地址及对应的主机名。

（3）配置本机网卡配置文件，确保网络连通性。

（4）测试网络连接是否正常。

（5）安装JDK 8，为Hadoop提供运行环境。

（6）安装Hadoop 3.1.0，并配置Hadoop环境变量。

（7）初始化Hadoop集群，确保集群正常运行。

3. 集群从节点JDK和Hadoop的实现（1）将集群主节点的配置文件分发到其他子节点上。

（2）在从节点上安装JDK 8和Hadoop 3.1.0。

（3）修改从节点的hosts文件，确保集群内节点之间可以相互通信。

4. Hive和HBase的搭建与配置（1）安装Hive 3.1.2和HBase 2.2.4。

（2）配置Hive环境变量，并启动Hive服务。

（3）配置HBase环境变量，并启动HBase服务。

5. 大数据平台的集群部署与维护（1）测试Hadoop集群的MapReduce、YARN等组件是否正常运行。

Cloudera大数据平台环境搭建(CDH5.13.1)傻瓜式说明书

Cloudera大数据平台环境搭建（CDH5.13.1版）目录Cloudera大数据平台环境搭建 (1)（CDH5.13.1版） (1)1.基础环境 (4)1.1.软件环境 (4)1.2.配置规划 (4)1.3.所需要的软件资源 (4)1.4.修改机器名（所有节点） (5)1.5.设置防火墙（所有节点） (6)1.6.配置免密码登录SSH (6)1.7.关闭SELINUX（所有节点） (8)1.8.修改Linux内核参数（所有节点） (8)1.9.其他安装与配置（所有节点） (10)1.10.配置NTP服务 (10)1.11.安装oracle JDK1.8 （所有节点） (12)1.12.Mysql安装（主节点） (13)2.安装CM (15)2.1.传包，解包 (15)2.2.创建数据库 (15)2.3.创建用户 (16)2.4.制作本地YUM源 (16)2.5.拷贝jar包 (17)2.6.修改cloudera-scm-agent配置 (17)2.7.启动CM Server和Agent (18)2.8.访问CM (18)3.安装CDH (18)3.1.登录后界面 (18)3.2.选择CM版本 (19)3.3.指定主机 (20)3.4.选择CDH版本 (21)3.4.1.出现“主机运行状态不良”错误 (22)3.5.检查主机正确性 (23)3.6.选择安装的服务 (23)3.7.角色分配 (24)3.8.数据库设置 (24)3.8.1.测试连接报错： (25)3.9.群集设置 (26)3.10.开始安装 (28)3.11.安装完成 (29)3.11.1.警告信息： (29)4.常见错误 (31)4.1.初始化数据库错误： (31)4.2.未能连接到Host Monitor (32)1.基础环境1.1.软件环境本文将介绍Centos7.4 离线安装CDH和Cloudera Manager过程，软件版本如下：1.2.配置规划本次安装共5台服务器，服务器配置及用途如下：1.3.所需要的软件资源1)JDK环境：JDK版本：1.8.0_151jdk-8u151-linux-x64.rpm下载地址：/technetwork/java/javase/downloads/jdk8-downloads-2133151.html2)CM包：CM版本：5.13.1cloudera-manager-centos7-cm5.13.1_x86_64.tar.gz下载地址：/cm5/cm/5/cloudera-manager-centos7-cm5.13.1_x86_64.tar.gz3)CDH包CDH版本：5.13.1，CDH-5.13.1-1.cdh5.13.1.p0.2-el7.parcel；CDH-5.13.1-1.cdh5.13.1.p0.2-el7.parcel.sha1；manifest.json下载地址：/cdh5/parcels/5.13.1/manifest.json/cdh5/parcels/5.13.1/CDH-5.13.1-1.cdh5.13.1.p0.2-el7.parcel.sha1 /cdh5/parcels/5.13.1/CDH-5.13.1-1.cdh5.13.1.p0.2-el7.parcel4)JDBC连接jar包：jar包版本：5.1.43，mysql-connector-java-5.1.43.jar下载地址：/maven2/mysql/mysql-connector-java/5.1.43/mysql-connector-java-5.1.43.jar1.4.修改机器名（所有节点）1)修改机器名称这种方式，在Centos7中可以永久性改变主机名称。

linuxxshelljdkhadoop（环境搭建）虚拟机安装（大数据搭建环境）

linuxxshelljdkhadoop（环境搭建）虚拟机安装（⼤数据搭建环境）【hadoop是2.6.5版本xshell是6版本jdk是1.8.0.131 虚拟机是CentOS-6.9-x86_64-bin-DVD1.iso vmware10】1.创建虚拟机第⼀步：在VMware中创建⼀台新的虚拟机。

如图2.2所⽰。

图2.2第⼆步：选择“⾃定义安装”，然后单击“下⼀步”按钮，如图2.3所⽰。

图2.3第三步：单击“下⼀步” 按钮，如图2.4所⽰。

图2.4第四步：选择“稍后安装操作系统”，然后单击“下⼀步” 按钮，如图2.5所⽰。

图2.5第五步：客户机操作系统选择Linux，版本选择“CentOS 64位”，然后单击“下⼀步” 按钮，如图2.6所⽰。

图2.6第六步：在这⾥可以选择“修改虚拟机名称”和“虚拟机存储的物理地址”，如图2.7所⽰。

图2.7第七步：根据本机电脑情况给Linux虚拟机分配“处理器个数”和每个处理器的“核⼼数量”。

注意不能超过⾃⼰电脑的核数，推荐处理数量为1，每个处理器的核⼼数量为1，如图2.8所⽰。

图2.8第⼋步：给Linux虚拟机分配内存。

分配的内存⼤⼩不能超过⾃⼰本机的内存⼤⼩，多台运⾏的虚拟机的内存总合不能超过⾃⼰本机的内存⼤⼩，如图2.9所⽰。

图2.9第九步：使⽤NAT⽅式为客户机操作系统提供主机IP地址访问主机拨号或外部以太⽹⽹络连接，如图2.10所⽰。

图2.10第⼗步：选择“SCSI控制器为LSI Logic(L)”，然后单击“下⼀步” 按钮，如图2.11所⽰。

图2.11第⼗⼀步：选择“虚拟磁盘类型为SCSI(S)”，然后单击“下⼀步” 按钮，如图2.12所⽰。

图2.12第⼗⼆步：选择“创建新虚拟磁盘”，然后单击“下⼀步” 按钮，如图2.13所⽰。

图2.13第⼗三步：根据本机的磁盘⼤⼩给Linux虚拟机分配磁盘，并选择“将虚拟机磁盘拆分为多个⽂件”，然后单击“下⼀步”按钮，如图2.14所⽰。

Hadoop平台搭建与应用(第2版)(微课版)项目1 认识大数据

Hadoop平台搭建与应用教案靠、高性能、分布式和面向列的动态模式数据库。

⑤ ZooKeeper（分布式协作服务）：其用于解决分布式环境下的数据管理问题，主要是统一命名、同步状态、管理集群、同步配置等。

⑥ Sqoop（数据同步工具）：Sqoop是SQL-to-Hadoop的缩写，主要用于在传统数据库和Hadoop之间传输数据。

⑦ Pig（基于Hadoop的数据流系统）：Pig的设计动机是提供一种基于MapReduce 的Ad-Hoc（计算在query时发生）数据分析工具。

⑧ Flume（日志收集工具）：Flume是Cloudera开源的日志收集系统，具有分布式、高可靠、高容错、易于定制和扩展的特点。

⑨ Oozie（作业流调度系统）：Oozie是一个基于工作流引擎的服务器，可以运行Hadoop的MapReduce和Pig任务。

⑩ Spark（大数据处理通用引擎）：Spark提供了分布式的内存抽象，其最大的特点就是快，是Hadoop MapReduce处理速度的100倍。

YARN（另一种资源协调者）：YARN是一种新的Hadoop资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

Kafka（高吞吐量的分布式发布订阅消息系统）：Kafka可以处理消费者规模的网站中的所有动作流数据。

任务1.1 认知大数据，完成系统环境搭建（1）安装CentOS系统（确保CentOS系统版本在7及以上，以便配合后续Docker 安装）。

①在VMware中设置CentOS 7镜像，进入后选择第一项安装CentOS 7，如图1-8所示。

②在新打开页面中设置时间(DATE&TIME)，分配磁盘(INSTALLATION DESTINATION)和网络设置(NETWORK&HOST NAME)等，如图1-9所示。

③单击“INSTALLATION DESTINATION”链接，在打开的界面中选择“I will configure partitioning”选项，然后单击“Done”按钮，跳转到分配磁盘页面即可进行磁盘分配，如图1-10所示。

大数据--Hadoop集群环境搭建

⼤数据--Hadoop集群环境搭建⾸先我们来认识⼀下HDFS， HDFS（Hadoop Distributed File System ）Hadoop分布式⽂件系统。

它其实是将⼀个⼤⽂件分成若⼲块保存在不同服务器的多个节点中。

通过联⽹让⽤户感觉像是在本地⼀样查看⽂件，为了降低⽂件丢失造成的错误，它会为每个⼩⽂件复制多个副本（默认为三个），以此来实现多机器上的多⽤户分享⽂件和存储空间。

Hadoop主要包含三个模块：HDFS模块：HDFS负责⼤数据的存储，通过将⼤⽂件分块后进⾏分布式存储⽅式，突破了服务器硬盘⼤⼩的限制，解决了单台机器⽆法存储⼤⽂件的问题，HDFS是个相对独⽴的模块，可以为YARN提供服务，也可以为HBase等其他模块提供服务。

YARN模块：YARN是⼀个通⽤的资源协同和任务调度框架，是为了解决Hadoop中MapReduce⾥NameNode负载太⼤和其他问题⽽创建的⼀个框架。

YARN是个通⽤框架，不⽌可以运⾏MapReduce，还可以运⾏Spark、Storm等其他计算框架。

MapReduce模块：MapReduce是⼀个计算框架，它给出了⼀种数据处理的⽅式，即通过Map阶段、Reduce阶段来分布式地流式处理数据。

它只适⽤于⼤数据的离线处理，对实时性要求很⾼的应⽤不适⽤。

多相关信息可以参考博客：。

本节将会介绍Hadoop集群的配置，⽬标主机我们可以选择虚拟机中的多台主机或者多台阿⾥云服务器。

注意：以下所有操作都是在root⽤户下执⾏的，因此基本不会出现权限错误问题。

⼀、Vmware安装VMware虚拟机有三种⽹络模式，分别是Bridged(桥接模式)、NAT(⽹络地址转换模式)、Host-only(主机模式)：桥接：选择桥接模式的话虚拟机和宿主机在⽹络上就是平级的关系，相当于连接在同⼀交换机上；NAT：NAT模式就是虚拟机要联⽹得先通过宿主机才能和外⾯进⾏通信；仅主机：虚拟机与宿主机直接连起来。

大数据技术架构

高效率。通过分发数据，Hadoop 可以在数据所在节点上进行并行处理，处理速度非常快。
可靠性。Hadoop 能自动维护数据的多份备份，并且在任务失败后能自动重新部署计算任务。
缺点
Hadoop 采用文件存储系统，所以读写时效性较差。
Hadoop 生态系统日趋复杂，组件之间的兼容性差，安装和维护比较困难。 Hadoop 的各个组件功能相对单一。
边缘计算。将计算分散到数据产生、存储和查询端，数据产生既符合 CDM 的要求，同时也传输给实时模型反馈，让客户端传送数据的同时马上进行反馈，而不需要所有事件都要到中央端处理之后再进行下发。
5.3 Hadoop 生态架构
Part 01
Hadoop 基本概念
1 Hadoop 基本概念
定义
Hadoop 是一个由 Apache 基金会开发的大数据分布式系统基础架构，实现高速运算和存储。Hadoop 是可扩展的，它可以方便地从单一服务器扩展到数千台服务器，每台服务器进行本地计算和存储。低成本、高可靠、高扩展、高有效、高容错等特性使 Hadoop 成为最流行的大数据分析系统之一。
定义
Spark 是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。
Part 02
Spark 生态系统
2 Spark 生态系统
Spark
生态系统
Part 03
Spark 主要特点
3 Spark 主要特点
Spark 主要特点
运行速度快。Spark 使用先进的 DAG 执行引擎，以支持循环数据流与内存计算，基于内存的执行速度可比 Hadoop MapReduce 快上百倍，基于磁盘的执行速度也能快 10 倍左右。容易使用。Spark 支持使用 Scala、Java、Python 和 R 语言进行编程，简洁的 API 设计有助于用户轻松构建并行程序，并且可以通过 Spark Shell 进行交互式编程。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

大数据集群平台介绍
掌握搭建大数据集群的方法是学习大数据技术的人需要具备的基础技能，因此我会通过接下来的三十余篇文章介绍大数据平台的搭建方法。

在本文中我将向小伙伴们介绍一下搭建大数据集群需要哪些知识以及我们接下来搭建的大数据集群平台架构，让大家对平台有个总体的认识并普及一些概念。

首先我们接触的是虚拟机，及在虚拟机中安装Linux操作系统
集群搭建完成后我们总共会有四个虚拟机，其中伪分布集群有一台虚拟机，虚拟机名称为single_node。

分布式集群有三个虚拟机名称分别为master、slave1、slave2。

各个虚拟机的IP配置及安装软件（含软件运行的模块）如下表所示。

注：hostname:每个节点的主机名称
IP:每个节点的IP地址
NN:NameNode
DN:DataNode
NM:NodeManager
RM:ResourceManager
SNN:SecondaryNameNode
/ ：表示不安装
分布式集群的架构如下图所示
slave1 192.168.***.12
slave2 192.168.***.13
Master
192.168.***.11
1、硬件
节点：我们后面会经常提到节点，分布式环境中一个服务器就是一个节点，在我们搭建的集群中服务器指的是通过VMware软件虚拟出来的虚拟机。

操作系统：服务器上运行的操作系统基本上都是Linux操作系统，当然虚拟机中安装的也是Linux系统。

网络：集群中的多个节点之间协同工作需要不断交换数据及状态、命令等信息，因此需要互通的网络环境。

我们的集群是通过虚拟机软件虚拟出来的，网络也是由虚拟机软件虚拟出的虚拟网卡来实现数据交换的。

2、软件
集群中的软件主要有hadoop、spark、hive、hbase、zookeeper这几个。

Hadoop
虽然大数据集群平台根据具体业务需求不同配置组成不同，但大部分集群都会以hadoop集群为基础。

例如大数据仓库Hive及分布式数据库Hbase的存储都会用到hadoop 集群的分布式文件系统HDFS，计算部分默认使用Hadoop原生的MapReduce计算框架。

分布式计算框架spark可以使用hadoop内置的通用资源管理模块yarn来提供统一的资源管理和调度。

hadoop大数据集群一般说来可以有单机模式、伪分布模式、分布式模式这三种模式。

分布式模式：是实际应用的一种模式，分布式集群由多个节点组成理论上集群中的节点越多，集群的性能也就越好。

单机模式：单机模式只在一个节点上运行，是一种默认的配置方式，无需进行其他配置即可运行，以单Java进程运行，方便进行调试，此时HDFS是不可用的。

伪分布式：此模式同样也是在单节点上运行的，与单机模式不同的是程序是以不同的Java 进程来运行的，节点即作为NameNode也作为DataNode，此时可以使用HDFS，是常用的开发测试模式。

Spark
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎，是目前比较流行的分布式计算框架。

Spark 主要有三个特点:
首先，高级API 剥离了对集群本身的关注，Spark 应用开发者可以专注于应用所要做的计算本身。

其次由于是基于内存的计算框架等原因，Spark 很快，支持交互式计算和复杂算法。

最后，Spark 是一个通用引擎，可用它来完成各种各样的运算，包括SQL 查询、文本处理、机器学习等，而在Spark 出现之前，我们一般需要学习各种各样的引擎来分别处理这些需求。

Hive
hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。

其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

Zookeeper
ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Hadoop和Hbase的重要组件。

它是一个为分布式应用提供一致性服务的软件，提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

Hbase
HBase是一个分布式的、面向列的开源数据库，HBase在Hadoop之上提供了类似于Bigtable的能力。

HBase是Apache的Hadoop项目的子项目。

HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。

另一个不同的是HBase基于列的而不是基于行的模式。

Sqoop
是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库(例如: MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。