大数据平台环境搭建傻瓜式说明书

合集下载

大数据分析平台的搭建与使用指南

大数据分析平台的搭建与使用指南大数据分析平台是利用大数据技术和分析算法，对海量数据进行处理、分析和挖掘的工具。

随着数据规模和复杂性的不断增加，大数据分析平台的需求日益增长。

本文将介绍如何搭建和使用一个高效的大数据分析平台。

一、搭建大数据分析平台的基础环境在搭建大数据分析平台之前，首先需要准备基础环境。

以下是一些基础环境的要素：1. 高性能服务器和存储系统：大数据分析平台需要有足够的计算能力和存储空间来处理海量数据。

选择适合的服务器和存储系统是关键。

2. 分布式计算框架：分布式计算框架能够实现系统吞吐量的提高，从而提升大数据分析的效率。

常用的分布式计算框架有Hadoop和Spark等。

3. 数据采集和清洗工具：在大数据分析平台中，数据采集和清洗是非常关键的步骤。

需要选择适合的工具来采集、清洗和预处理数据。

二、搭建大数据分析平台的步骤1. 数据采集与准备：在搭建大数据分析平台之前，需要根据需要采集和准备数据。

数据可以来自多个渠道，如传感器、日志、用户行为等。

数据准备包括数据清洗、去重、格式转换等。

2. 分布式存储设置：大数据分析平台需要使用分布式存储系统来存储海量数据，如Hadoop的HDFS。

配置分布式存储系统，确保数据的可靠性和持久性。

3. 分布式计算设置：选择适合自己需求的分布式计算框架，如Hadoop或Spark，并进行相应的配置。

设置高可用性和负载平衡等机制，提高计算效率和可靠性。

4. 数据处理与分析：在分布式计算框架上运行数据处理和分析任务。

通过编写合适的MapReduce或Spark程序，对数据进行处理和分析，如数据聚合、关联分析、机器学习等。

5. 数据可视化与报告：将分析结果以可视化的方式展示出来，帮助用户理解和探索数据。

可以使用数据可视化工具，如Tableau、PowerBI等，生成图表、报表和仪表板。

6. 平台监控和优化：持续监控大数据分析平台的性能和稳定性。

根据实际情况，进行优化，如调整分布式计算框架的配置、增加服务器的数量等。

大数据分析平台的部署与配置指南

大数据分析平台的部署与配置指南摘要：本文旨在为用户提供大数据分析平台的部署与配置指南。

大数据分析平台是基于大数据技术，旨在帮助用户实现高效的数据分析与处理。

本指南将从平台部署、配置环境、数据源接入以及用户权限管理等方面提供详细的步骤和操作指引，以帮助用户顺利搭建和配置大数据分析平台。

1. 平台部署1.1 硬件要求在开始部署大数据分析平台之前，首先需要确保服务器硬件符合要求。

通常情况下，大数据分析平台对硬件的要求较高，建议采用高性能的服务器配置，并确保服务器具备足够的存储空间和内存。

1.2 软件要求大数据分析平台的部署需要运行在分布式环境中，因此需要先安装和配置分布式计算框架，例如Apache Hadoop、Apache Spark等。

此外，还需要安装支持大数据分析的相关工具和库，如Hive、Pig、HBase等，以及数据库管理系统如MySQL、Oracle等。

2. 配置环境2.1 操作系统配置在部署大数据分析平台之前，需要对操作系统进行一些配置。

首先，需要关闭不必要的服务和进程，以释放系统资源。

其次，需要优化文件系统和网络配置，以提高整体性能。

2.2 网络配置大数据分析平台通常需要在多台服务器之间进行数据交互和协作，因此需要配置网络环境以确保服务器之间能够相互通信。

可以使用静态IP地址或者DNS来配置服务器的网络连接，以方便数据的传输和访问。

3. 数据源接入大数据分析平台需要接入各种数据源，如结构化数据、半结构化数据和非结构化数据等。

为了便于分析和处理，需要将这些数据源导入到平台中。

以下是一些常用的数据源接入方式：3.1 批量导入对于结构化数据和半结构化数据，可以使用批量导入的方式将其导入到大数据平台中。

可以使用工具如Sqoop等，将数据从关系型数据库中导出，并以批量的方式载入到大数据平台中。

3.2 实时流式数据接入对于需要实时分析的场景，可以使用流式数据接入的方式将数据实时地导入到大数据平台中。

生态环保大数据应用平台建设方案

生态环保大数据应用平台建设方案目录1. 生态环保大数据应用平台建设方案概述 (3)1.1 目的和意义 (3)1.2 建设背景和原则 (5)1.3 建设目标和预期效果 (6)2. 生态环保大数据应用平台的建设需求分析 (7)2.1 数据源分析 (8)2.2 业务需求分析 (10)2.3 功能需求分析 (10)2.4 性能需求分析 (11)2.5 安全需求分析 (12)3. 平台技术架构设计 (14)3.1 总体架构设计 (16)3.1.1 数据收集层 (17)3.1.2 数据处理层 (19)3.1.3 数据存储层 (20)3.1.4 应用支撑层 (21)3.1.5 用户访问层 (23)3.2 数据存储与管理 (24)3.3 数据处理与分析 (25)3.4 应用支撑系统 (26)3.5 用户界面与交互设计 (27)4. 平台建设关键技术分析 (29)4.1 数据采集与融合技术 (30)4.2 大数据处理技术 (32)4.3 数据存储技术 (33)4.4 数据分析与可视化技术 (35)4.5 系统安全与隐私保护技术 (36)5. 平台实施计划 (37)5.1 项目实施周期 (39)5.2 关键里程碑 (40)5.3 项目管理与人员配置 (40)5.4 资金预算与资金分配 (42)6. 平台运营与维护 (43)6.1 运营策略 (45)6.2 用户培训与服务 (45)6.3 系统升级与维护 (47)6.4 数据备份与灾难恢复 (49)7. 风险评估与应对策略 (50)7.1 项目风险分析 (51)7.2 法律与合规风险 (54)7.3 技术风险 (55)7.4 应对策略 (57)8. 保障措施 (58)8.1 组织保障 (60)8.2 法规保障 (62)8.3 资金保障 (63)8.4 技术保障 (64)8.5 环境保障 (65)1. 生态环保大数据应用平台建设方案概述为有效推进生态环境保护工作，提升环境监测分析能力，促进科学决策，特制定本“生态环保大数据应用平台建设方案”。

大数据分析平台的搭建与使用方法

大数据分析平台的搭建与使用方法随着计算机技术的不断发展和数据量的快速增长，大数据分析已经成为各个领域研究和决策的重要工具。

而要构建一个高效、可靠的大数据分析平台是实现这一目标的关键。

本文将介绍大数据分析平台的搭建与使用方法，从硬件和软件两方面进行详细说明。

一、硬件搭建1. 选择适合的服务器：搭建大数据分析平台的首要步骤是选择一台性能强大且稳定的服务器。

服务器的计算能力、存储容量和网络带宽需要与数据规模相匹配。

对于小规模数据分析，一台高性能的台式机或者笔记本电脑也可以胜任。

2. 网络环境和安全性：大数据分析平台需要快速而稳定的网络环境来传输和处理大量数据。

同时，考虑到数据的安全性，必须设置数据访问权限和防火墙等安全措施，以保护数据不被非法获取或篡改。

3. 存储系统：对于大数据分析平台来说，存储系统是非常关键的。

可以选择传统的硬盘存储或者更先进的固态硬盘（SSD）存储。

此外，还可以考虑使用网络存储设备（NAS）或者云存储服务来扩展存储容量。

4. 备份和恢复策略：为了确保数据的安全性，建议定期对数据进行备份，并建立完善的恢复机制。

备份数据可以存储在外部硬盘、网络存储设备或者云存储中。

二、软件搭建1. 操作系统选择：大数据分析平台可以选择各种不同的操作系统，如Linux、Unix或者Windows。

选择操作系统时，需要考虑到平台上的分析工具和应用程序的兼容性，以及操作系统的稳定性和安全性。

2. 大数据处理引擎：选择合适的大数据处理引擎是搭建大数据分析平台的核心。

目前，一些主流的大数据处理引擎包括Hadoop、Spark、Flink等。

它们可以处理大规模数据的分布式存储和计算，并提供了强大的数据处理和分析功能。

3. 数据库管理系统：数据分析平台需要一个高效的数据库管理系统来存储和管理数据。

主流的数据库管理系统包括MySQL、Oracle、MongoDB等。

根据需求，选择适合的数据库管理系统，并进行合理的数据库设计和优化。

大数据分析平台的建设与配置手册

大数据分析平台的建设与配置手册摘要：本文旨在为搭建和配置大数据分析平台的用户提供一份详尽的手册。

大数据分析平台作为一个结合了各种技术和工具的完整系统，可以实现对大量数据的采集、存储、处理和分析。

本手册将涵盖平台的搭建、配置、操作以及一些最佳实践等方面的内容，帮助用户有效地部署和管理大数据分析平台，从而提高数据分析的效率与准确性。

一、引言大数据分析平台的建设和配置是一个复杂的任务，需要进行适当的规划和设计。

本文将详细介绍大数据分析平台的搭建和配置步骤，包括硬件和软件环境准备，数据存储与处理工具选择，以及配置和管理等方面的内容。

二、环境准备1. 硬件环境准备在开始搭建大数据分析平台之前，您需要确保有足够的硬件资源来支持您的需求。

一般来说，大数据分析平台需要一台或多台具有较高计算能力和存储容量的服务器，以及稳定的网络连接。

2. 软件环境准备在选择软件环境时，您需要考虑到您的分析需求以及所选工具的兼容性和扩展性。

常用的大数据分析平台软件包括Hadoop、Spark、Hive和Pig等。

您需要确保所选平台与您的数据源兼容，并具备足够的处理能力。

三、数据存储与处理工具选择在搭建大数据分析平台时，选择适合的数据存储与处理工具非常重要。

以下是一些常用的工具及其特点：1. Hadoop：Hadoop是一个开源的分布式计算框架，适用于大规模数据存储和处理。

它主要由HDFS（Hadoop分布式文件系统）和MapReduce构成。

2. Spark：Spark是一个通用的大数据处理引擎，相比于Hadoop，它具备更好的性能和灵活性。

Spark支持多种数据处理模式，包括批处理、交互式查询和流式处理等。

3. Hive：Hive是一个基于Hadoop的数据仓库解决方案，它允许用户使用类似于SQL的查询语言进行数据分析。

Hive将SQL查询翻译成MapReduce任务来执行。

4. Pig：Pig是一个用于分析大型数据集的高级平台，它以脚本语言为基础，允许用户进行数据提取、转换和加载等操作。

大数据平台系统详细设计说明书(学习模板)

功能名称功能模块定义组织机构管理
角色管理
用户管理
交换监控/状态监控
功能说明定义并管理系统中各个功能模块；管理功能模块的路径信息；维护使用台的组织结构信息；可以增加、修改、删除一个组织结构；组织机构列表及详细信息展示；组织机构层级管理；角色列表及详细信息展示；角色的增、删、改、查操作；角色授权管理；
详细设计说明书
一、文档介绍
1.1文档目的
此文档用来描述市大数据台建设项目中的设计基准。文档主要给设计开发人员、实施人员参考使用，包括程序系统的基本处理流图、程序系统的组织结构、模块划分、功能分配、接口设计、运行设计、数据结构设计和安全性设计等。此文档同时还为市大数据台建设项目的测试方案和测试用例奠定基础。
三、系统详细需求分析
3.1基础软件 3.1.1统一权限认证管理系统
3.1.1.1概述
统一权限认证管理系统包括了整个台的管理功能和运维监控功能。具体包括对系统用户、权限划分、组织机构等进行模块化管理，实现用户与功能、用户与角色、角色与功能的高自由化组合配置等台基础的管理功能。
3.1.1.2需求描述
功能名称
交换监控/业务管理交换监控/节点管理交换监控/数据统计
功能说明系统异常数：对数据交换台中执行作业过程中出现异常的作业进行统计并展示；实时流量：通过统计曲线通过三种时间跨度来对数据交换台中的数据流量进行统计，分别为“过去一小时”、“过去一周”和“过去 30 天”；节点列表：显示当前所有正常运行的节点列表；作业管理：可以查看某个节点运行作业的情况，并可以停止作业、启动作业、删除作业以及查看作业日志；转换管理：可以查看某个节点运行转换的情况，并可以停止转换、启动转换、删除转换以及查看转换日志；调度管理：展示每个作业的调度信息，并且可以设置作业调度参数；

大数据分析平台搭建与使用流程指南

大数据分析平台搭建与使用流程指南随着数字化时代的到来，大数据分析已经成为各行业的标配，帮助企业提升效率、进行预测和决策。

为了实现有效的数据分析，搭建一个高效、稳定的大数据分析平台至关重要。

本文将向您介绍大数据分析平台的搭建与使用流程，帮助您快速上手并充分利用其功能。

一、需求分析与规划在搭建大数据分析平台之前，首先需要对自身的需求进行全面的分析和规划。

明确以下问题可以帮助您更好地选择适合的大数据分析平台：1. 你的数据规模是多大？需要处理的数据量大致有多少？2. 你需要进行的分析是实时的还是离线的？3. 你需要的分析功能是什么？比如数据可视化、机器学习等。

4. 你有多少人员和资源来维护这个平台？5. 你的预算是多少？二、选择适合的大数据分析平台根据需求分析的结果，选择适合的大数据分析平台非常重要。

以下是几个常见的大数据分析平台：1. Apache Hadoop：是一个开源的大数据处理框架，集成了分布式文件系统HDFS和分布式计算框架MapReduce。

2. Apache Spark：是一个高速、通用的集群计算系统，提供了内存级的计算速度和丰富的API。

3. Apache Flink：是一个开源的流处理和批处理框架，支持真正的流式计算。

4. AWS EMR：是亚马逊云计算服务中的一项，支持使用Hadoop、Spark和Flink等框架。

三、搭建大数据分析平台在选择好大数据分析平台之后，可以开始搭建平台。

以下是搭建过程中的几个关键步骤：1. 硬件规划：根据需求分析的结果，确定硬件设备的规模和配置。

大数据平台通常需要很高的计算和存储能力。

2. 软件安装：安装所选择的大数据分析平台的相关软件。

这个过程可能需要一些技术人员的操作和调试。

3. 数据采集：通过不同的方式采集数据，包括数据抓取、日志文件、传感器数据等。

可以利用数据采集工具或编写脚本来完成这一任务。

4. 数据清洗与转换：对采集到的数据进行清洗和转换，确保数据的质量和准确性。

大数据环境搭建步骤

大数据环境搭建步骤《大数据环境搭建步骤》一、基本动作要领1. 确定硬件资源首先呢，你得知道你要在什么样的硬件上搭建大数据环境。

这就好比盖房子，你得先有块地对吧。

如果是在自己的电脑上测试学习，那要看看电脑的配置，比如内存、CPU这些够不够用。

对于小的测试环境，一般8GB内存、i5左右的CPU可能勉强能行，但如果要处理大量数据，那肯定要更好的配置。

我之前就试过用一个配置很低的电脑搭建，那叫一个痛苦，各种卡。

2. 选择合适的操作系统接下来就是选个操作系统。

像Linux就很适合大数据环境搭建，特别是Ubuntu或者CentOS这种，它们就像是我们的建筑材料，不同的材料有不同的特性。

Ubuntu比较适合初学者，因为很多操作都很简便。

CentOS 在企业里用得比较多。

安装系统的时候可不能马虎哦，一定要按照步骤一步一步来，注意分区什么的。

我之前安装CentOS就因为分区没设置好，后来还得重新安装一次呢。

这一步很重要，记住了。

3. 安装Java环境大数据很多框架都是基于Java的，所以我们得先安装Java。

去Oracle 官网下载JDK（Java Development Kit），这个就像是给我们的大楼打好地基。

下载对应你操作系统版本的JDK，然后按照安装指南来安装。

安装好了之后呢，要设置环境变量，这个不设置好就像你有路没指示牌，程序找不到Java的路径。

我刚开始搞的时候就在这卡了好久，怎么运行都报错，后来才发现是环境变量没设对，设置的时候可千万要小心。

4. 安装Hadoop框架这是我们大数据环境的一个核心框架了。

首先去Hadoop官网下载稳定版本的Hadoop，解压它。

比如说我把它解压到/usr/local/hadoop这个目录下（你们可以根据自己情况选目录）。

然后要修改配置文件，这可是个细致活儿。

Hadoop主要的配置文件有core - 、hdfs - 还有mapred - 这些。

比如说在core - 里，你要设置Hadoop的文件系统相关的东西，像我的设置如下（简单示意下）：```xml<configuration><property><name></name><value>st:9000</value></property></configuration>```hdfs - 里要设置数据存储的路径等内容，像这样：```xml<configuration><property><name></name><value>1</value></property><property><name></name><value>/usr/local/hadoop/hadoop - data/namenode</value></property><property><name></name><value>/usr/local/hadoop/hadoop - data/datanode</value></property></configuration>```在改这些配置文件的时候一定要仔细，一个小标点或者字母弄错了都可能导致后面运行失败。

大数据平台架构设计说明书

大数据平台总体架构规格说明书V1.0版●目录●目录 (2)I.简介 (4)1.目的 (4)2.词汇表 (4)3.引用 (4)II.整体介绍 (5)1.系统环境 (5)2.软件介绍 (5)3.用途 (6)4.简介 (6)5.核心技术 (7)●大规模并行处理MPP (7)●行列混合存储 (8)●数据库内压缩 (8)●内存计算 (9)6.M ASTER N ODE (9)7.D ATA N ODE (9)III.MASTER NODE (10)1.简介 (10)2.C ONTROL 模块 (10)3.SQL模块 (10)4.A CTIVE-P ASSIVE SOLUTION (16)IV.DATA NODE (19)1.简介 (19)2.重要模块 (19)3.数据存储 (20)4.数据导入 (21)V.分布式机制 (23)1.概括 (23)2.数据备份和同步 (24)3.时间同步机制 (27)4.分布式LEASE机制查询过程备忘 (27)VI.内存管理机制 (29)VII.V3.0版的初步设计思路 (30)I.简介1.目的本文详细描述了DreamData数据库系统。

介绍了系统的目标、功能、系统接口、系统行为、系统约束以及系统如何响应。

本文面向系统参与者以及系统开发人员。

2.词汇表术语定义作者提交被审查文档的人。

为了防止多个作者的情况出现，这个术语指全程参与文档制作的主要作者。

3.引用II.整体介绍1.系统环境图 1 –系统环境2.软件介绍DreamData是在从分布式数据库的基础上发展而来，同时加入一些NoSQL的基因的新一代大数据实时分析分布式数据库，并且支持内存计算。

DreamData最大的特色就是大而快，它能极快地导入和处理海量的数据，并在这个基础上能极快地进行用户所需数据统计和分析。

相对传统数据库Oracle而言，DreamData的单机性能要高出50倍以上，并且随着节点数量的增加，整体性能会同步提升。

linuxxshelljdkhadoop（环境搭建）虚拟机安装（大数据搭建环境）

linuxxshelljdkhadoop（环境搭建）虚拟机安装（⼤数据搭建环境）【hadoop是2.6.5版本xshell是6版本jdk是1.8.0.131 虚拟机是CentOS-6.9-x86_64-bin-DVD1.iso vmware10】1.创建虚拟机第⼀步：在VMware中创建⼀台新的虚拟机。

如图2.2所⽰。

图2.2第⼆步：选择“⾃定义安装”，然后单击“下⼀步”按钮，如图2.3所⽰。

图2.3第三步：单击“下⼀步” 按钮，如图2.4所⽰。

图2.4第四步：选择“稍后安装操作系统”，然后单击“下⼀步” 按钮，如图2.5所⽰。

图2.5第五步：客户机操作系统选择Linux，版本选择“CentOS 64位”，然后单击“下⼀步” 按钮，如图2.6所⽰。

图2.6第六步：在这⾥可以选择“修改虚拟机名称”和“虚拟机存储的物理地址”，如图2.7所⽰。

图2.7第七步：根据本机电脑情况给Linux虚拟机分配“处理器个数”和每个处理器的“核⼼数量”。

注意不能超过⾃⼰电脑的核数，推荐处理数量为1，每个处理器的核⼼数量为1，如图2.8所⽰。

图2.8第⼋步：给Linux虚拟机分配内存。

分配的内存⼤⼩不能超过⾃⼰本机的内存⼤⼩，多台运⾏的虚拟机的内存总合不能超过⾃⼰本机的内存⼤⼩，如图2.9所⽰。

图2.9第九步：使⽤NAT⽅式为客户机操作系统提供主机IP地址访问主机拨号或外部以太⽹⽹络连接，如图2.10所⽰。

图2.10第⼗步：选择“SCSI控制器为LSI Logic(L)”，然后单击“下⼀步” 按钮，如图2.11所⽰。

图2.11第⼗⼀步：选择“虚拟磁盘类型为SCSI(S)”，然后单击“下⼀步” 按钮，如图2.12所⽰。

图2.12第⼗⼆步：选择“创建新虚拟磁盘”，然后单击“下⼀步” 按钮，如图2.13所⽰。

图2.13第⼗三步：根据本机的磁盘⼤⼩给Linux虚拟机分配磁盘，并选择“将虚拟机磁盘拆分为多个⽂件”，然后单击“下⼀步”按钮，如图2.14所⽰。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Cloudera大数据平台环境搭建（CDH5.13.1版）目录Cloudera大数据平台环境搭建 (1)（CDH5.13.1版） (1)1.基础环境 (4)1.1.软件环境 (4)1.2.配置规划 (4)1.3.所需要的软件资源 (4)1.4.修改机器名（所有节点） (5)1.5.设置防火墙（所有节点） (5)1.6.配置免密码登录SSH (6)1.7.关闭SELINUX（所有节点） (6)1.8.修改Linux内核参数（所有节点） (7)1.9.其他安装与配置（所有节点） (8)1.10.配置NTP服务 (8)1.11.安装oracle JDK1.8 （所有节点） (10)1.12.Mysql安装（主节点） (11)2.安装CM (12)2.1.传包，解包 (12)2.2.创建数据库 (12)2.3.创建用户 (13)2.4.制作本地YUM源 (13)2.5.拷贝jar包 (14)2.6.修改cloudera-scm-agent配置 (14)2.7.启动CM Server和Agent (14)2.8.访问CM (15)3.安装CDH (15)3.1.登录后界面 (15)3.2.选择CM版本 (16)3.3.指定主机 (17)3.4.选择CDH版本 (18)3.4.1.出现“主机运行状态不良”错误 (19)3.5.检查主机正确性 (19)3.6.选择安装的服务 (20)3.7.角色分配 (20)3.8.数据库设置 (21)3.8.1.测试连接报错： (22)3.9.群集设置 (23)3.10.开始安装 (24)3.11.安装完成 (25)3.11.1.警告信息： (25)4.常见错误 (27)4.1.初始化数据库错误： (27)4.2.未能连接到 Host Monitor (28)1.基础环境1.1.软件环境1.2.配置规划1.3.所需要的软件资源1)JDK环境：JDK版本：1.8.0_151jdk-8u151-linux-x64.rpm下载地址：2)CM包：CM版本：5.13.1cloudera-manager-centos7-cm5.13.1_x86_64.tar.gz下载地址：3)CDH包CDH版本：5.13.1，CDH-5.13.1-1.cdh5.13.1.p0.2-el7.parcel；CDH-5.13.1-1.cdh5.13.1.p0.2-el7.parcel.sha1；manifest.json下载地址：4)JDBC连接jar包：jar包版本：5.1.43，mysql-connector-java-5.1.43.jar下载地址：1.4.修改机器名（所有节点）这种方式，在Centos7中可以永久性改变主机名称。

1.5.设置防火墙（所有节点）注：为了简便，可以先关闭防所有节点火墙，安装完成后，再按照下面步骤设置。

防火墙常用命令：注意：需要在所有的节点上执行，因为涉及到的端口太多了，临时开放所有端口是为了安装起来方便，安装完毕后可以根据需要设置防火墙策略，保证集群安全。

1.6.配置免密码登录SSH将子节点设置为从主节点ssh无密码登陆（主节点访问从节点需要无密码互通，否则后面会出现问题）在主节点上执行：#cd~ //进入到根目录# ssh-keygen -t rsa一路回车，生成无密码的密钥对。

把公钥拷贝至node169服务器上：# scp /root/.ssh/id_rsa.pub root@node169:~ //输入node169机器上root用户密码拷备成功登录到node169服务器上：然后在node169服务器上，把公钥的内容追加到authorized_keys文件末尾（这个文件也在隐藏文件夹.ssh下，如果没有可以新建）：# cat id_rsa.pub >> ~/.ssh/authorized_keys如果提示下面信息，则需要创建./ssh目录：-bash: /root/.ssh/authorized_keys: No such directory//创建/.ssh目录,再追加公钥内容# mkdir ~/.ssh# cat id_rsa.pub >> ~/.ssh/authorized_keys并设置authorized_keys的访问权限：# chmod 600 ~/.ssh/authorized_keys测试：在node168点上执行ssh node169，正常情况下，不需要密码就能直接登陆进去了。

在node168节点出现下面表示成功登录node169节点：以同样的方式将公钥拷贝至其他节点服务器上。

1.7.关闭SELINUX（所有节点）关闭linux SELINUX安全内核内容增加：（在Centos7中遇到SELINUX无法关闭的问题，重新启动机器恢复正常）1.8.修改Linux内核参数（所有节点）为避免安装过程中出现的异常问题，首先调整Linux内核参数。

1)设置s，控制换出运行时内存的相对权重，Cloudera 建议将 s 设置为 10：自CentOS6版本开始引入了Transparent Huge Pages(THP)，从CentOS7版本开始，该特性默认就会启用。

尽管THP的本意是为提升内存的性能，不过某些数据库厂商还是建议直接关闭THP，否则可能会导致性能出现下降。

首先查看透明大页是否启用，[always] never表示已启用，always [never]表示已禁用：以上状态就说明是启用的。

临时关闭（重启机器会变回默认开启状态）：保存退出，然后赋予rc.local文件执行权限：#chmod +x /etc/rc.d/rc.local重启系统，以后再检查THP状态，显示状态被禁用了。

3)修改文件句柄数：//查看文件句柄数，显示1024，显然太小#ulimit -n1024//修改限制#vi /etc/security/limits.conf//在文件后加入下面内容：* soft no* hard no修改后需要重启机器。

1.9.其他安装与配置（所有节点）# yum -y install psmisc MySQL-python at bc bind-libs bind-utils cups-client cups-libs cyrus-sasl-gssapi cyrus-sasl-plain ed fuse fuse-libs httpd httpd-tools keyutils-libs-devel krb5-devel libcom_err-devel libselinux-devel libsepol-devellibverto-devel mailcap noarch mailx mod_ssl openssl-devel pcre-devel postgresql-libs python-psycopg2 redhat-lsb-coreredhat-lsb-submod-security x86_64 spax time zlib-devel#yum install -y python-lxml#yum install krb5-devel cyrus-sasl-gssapi cyrus-sasl-deve libxml2-devel libxslt-devel mysql mysql-devel openldap-develpython-devel python-simplejson sqlite-devel# chmod +x /etc/rc.d/rc.local# yum -y install rpcbind# systemctl start rpcbind# echo "systemctl start rpcbind" >> /etc/rc.d/rc.local1.10.配置NTP服务集群中所有主机必须保持时间同步，如果时间相差较大会引起各种问题。

具体建设过程如下：所有节点安装相关组件：# yum install ntp ntpdate -yNTP服务端（主节点）：1)查找时间同步服务器：打开网址，内容如下：2)编辑 /etc/ntp.conf：# vi /etc/ntp.conf//在文件中输入上面网页内容：server server server server 3)启动ntp服务：# systemctl start ntpd4)配置开机启动：# systemctl enable ntpd.service注意：如果ntpd 开机启动失效，有可能是因为安装了chronyd 并且是开机自启状态，所以导致ntpd开机自启失败。

# 查看chronyd设置状态#systemctl status chronyd显示如下：以面表明，chronyd显示为开机启动状态。

将chronyd设为禁用状态：#systemctl disable chronyd.service此时，NTP的服务开机自启动完成！# ntpq -p//更新时间#timedatectlNTP客户端（所有从节点）：6)远程客户端时间同步测试# date#ntpdate 172.16.3.168172.16.3.168是NTP服务端IP，显示如下信息，测试成功：#crontab -e//加入内容：0-59/30 * * * * /usr/sbin/ntpdate 172.16.3.168 && /sbin/hwclock -w//设置开机启动# systemctl enable crond.service//查看状态# systemctl status crond1.11.安装oracle JDK1.8 （所有节点）下载rpm 安装包jdk-8u151-linux-x64.rpm# rpm -qa | grep java# rpm -e –nodeps +包名# rpm -ivh jdk-8u151-linux-x64.rpm配置JAVA_HOME环境变量：# vi /etc/profile在profile文件最后，输入下面内容，保存并退出。

export JAVA_HOME=/usr/java/jdk1.8.0_151export PATH=$PATH:$JAVA_HOME/bin# source /etc/profile //使修改立即生效#echo $PATH //查看PATH值#echo $JAVA_HOME //查看JAVA_HOME值bashrc 文件配置环境变量：# vi /etc/bashrc//在文件最后加入：export JAVA_HOME=/usr/java/jdk1.8.0_151export PATH=$PATH:$JAVA_HOME/bin1.12.Mysql安装（主节点）到官网选择对应安装包：按common–>libs–>client–>server的顺序安装：2.安装CM2.1.传包，解包在主节点上下载相关软件包，这里将软件包下载到/data/ cdh/目录下。