大数据项目之电商数仓(4即席查询数据仓库)V6.3.0
大数据:数据仓库和数据集市的比较

大数据:数据仓库和数据集市的比较随着科技的发展,数据成为了当下最热门的话题之一。
随着互联网的普及和各行各业的信息化建设与发展,数据规模与数据类型也日益增加。
面对如此巨大的数据量,如何正确地处理和分析数据,如何从中发现有价值的信息,也日益成为了各个企业必须面对的挑战。
在处理这些大数据时,数据仓库和数据集市是两种常见的数据存储和分析方式。
本文将详细比较数据仓库和数据集市的优缺点。
一、数据仓库数据仓库是指将企业内部不同系统中的数据进行收集和汇总,形成一个一致且具有高性能的数据存储库,并且保证数据的一致性、可更新性和可查询性。
数据仓库的主要特点:1、定期批量更新数据:数据仓库通常会对企业内部的数据进行定期批量的更新,而且一般是在业务量相对较小时进行。
2、面向历史:数据仓库主要面向数据的历史信息,针对的是过去的数据。
3、专注于查询:在数据仓库中,主要对数据进行查询操作。
4、主题导向:数据仓库是围绕着业务主题进行组织的,它包含了企业整个业务的各个方面。
数据仓库的优点:1、高效性:基于数据仓库的数据分析拥有更高的业务性能,用于大量数据处理时更加简单、高效。
2、数据一致性好:由于数据仓库的数据集中存储,因此能够保证数据的一致性。
3、适用于大型企业:数据仓库的搭建需要较高的成本,会考虑到企业经营的全局信息。
数据仓库的缺点:1、对实时更新的需求差:数据仓库的数据一般是较为静态的,更新时延相对较高。
2、对数据的一致性要求高:数据仓库在数据插入、更新、删除等操作上的成本相对更高,因此数据的一致性也更加重视。
3、可变性不强:数据仓库在建库时便需要考虑到全局信息,所以数据的构建相对比较稳定。
二、数据集市数据集市是指将企业内部不同系统中的数据进行收集,然后根据需要进行分类、整合、清洗、分析等操作,组成具有相同语义的业务数据集合,提供给业务部门,以支持各个业务部门的分析需求和决策需要。
数据集市的主要特点:1、实时更新:数据集市需要及时更新数据,这样业务部门才能随时获取到最新的数据信息。
湖仓一体大数据平台解决方案相关两份资料

结果的合并,增加了运维成本
批处理 视图
增量处理 视图
即席查询
API服务 自助取数
实时计算数据流
增量处理结果
流处理
Lambda架构-数仓分层结构
ADS
Kafka
ES
DWS
S Q L
Kafka
DWD
S Q L
Kafka
S Q L
ODS
Kafka
Source
S
C
Q
D
L
C
Messae Queue
HBase
结论:实时计算支持主流数据库1500万/小时的数据处理能力,且资源占用较低
湖仓一体大数据平台产品未来支持功能-①增强SQL能力
更多语法与特性支持
更多数据源支持
任务自动调优
湖仓一体大数据平台产品未来支持功能-②精细化资源管理
Flink on K8s
自动扩容缩容
细粒度资源调度
4、Hudi数据湖典型应用场景
全链血缘
元数据检索 元数据分析
2. 湖仓一体数仓建设思路
传统数仓的问题
开发效率
实时指标烟囱式开发 效率低门槛高
技术架构
实时离线架构不统一 依赖离线T+1导出报表
平台管理
缺少实时元数据管理 未打通实时离线数据的联系
湖仓一体数仓建设思路
批流统一
统一数仓标准与元数据 基于SQL统一开发流程
宽表建设
引入Hudi加速宽表产出 基于Flink SQL 构建实时数仓
数据集成
DataX (批量同步)
Flink-CDC (流式写入)
API接口 (Restful)
文件直传
大数据平台湖仓一体平台 计算/分析引擎
电商数据库考试题及答案

电商数据库考试题及答案一、单项选择题(每题2分,共20分)1. 在数据库中,用于存储数据的文件称为()。
A. 数据文件B. 索引文件C. 系统文件D. 配置文件答案:A2. 关系数据库管理系统中,关系是指()。
A. 表B. 行C. 列D. 数据库答案:A3. SQL语言中的“SELECT”语句用于()。
A. 插入数据B. 更新数据C. 删除数据D. 查询数据答案:D4. 在数据库设计中,规范化的主要目的是()。
A. 提高查询速度B. 减少数据冗余C. 提高数据安全性D. 增加数据存储量答案:B5. 数据库中的主键(Primary Key)是()。
A. 可以有多个值的字段B. 可以为空的字段C. 表中任意的字段D. 唯一标识表中每条记录的字段答案:D6. 数据库事务的ACID属性中,D代表的是()。
A. 原子性B. 一致性C. 隔离性D. 持久性答案:D7. 在数据库中,外键用于()。
A. 存储数据B. 建立表之间的关系C. 提高查询速度D. 限制数据的输入答案:B8. 数据库中的索引用于()。
A. 存储数据B. 优化查询性能C. 限制数据的输入D. 增加数据的安全性答案:B9. 数据库备份的目的主要是()。
A. 提高查询速度B. 优化数据库性能C. 恢复数据D. 增加数据存储量答案:C10. 数据库中的视图(View)是一种()。
A. 存储数据的表B. 存储过程C. 虚拟表D. 数据库答案:C二、多项选择题(每题3分,共15分)11. 数据库管理系统(DBMS)的主要功能包括()。
A. 数据定义B. 数据操纵C. 数据控制D. 数据备份答案:ABCD12. 在关系数据库中,以下哪些操作是合法的()。
A. 插入一行数据B. 删除一列数据C. 更新一条记录D. 删除整个数据库答案:ACD13. 数据库设计过程中,实体-关系模型(ER Model)的主要组成部分包括()。
A. 实体B. 关系C. 属性D. 约束答案:ABCD14. 数据库中的触发器(Trigger)可以用于()。
数据仓库-数据集市-BI-数据分析-介绍

数据仓库-数据集市-BI-数据分析-介绍数据仓库数据集市BI数据分析介绍在当今数字化的时代,数据已经成为企业和组织最宝贵的资产之一。
如何有效地管理、分析和利用这些数据,以获取有价值的信息和洞察,成为了摆在众多企业面前的重要课题。
在这个过程中,数据仓库、数据集市、商业智能(BI)和数据分析等技术和概念发挥着至关重要的作用。
接下来,让我们一起深入了解一下这些概念。
数据仓库,简单来说,就是一个用于存储和管理企业数据的大型数据库系统。
它的目的是将来自不同数据源(如操作系统、数据库、文件等)的数据整合到一个统一的、一致的环境中,以便进行分析和决策支持。
数据仓库中的数据通常是经过清洗、转换和集成的,以确保数据的质量和一致性。
它采用了特定的架构和技术,如星型模式、雪花模式等,来优化数据的存储和查询性能。
数据仓库就像是一个大型的数据仓库,将各种各样的数据收集起来,经过整理和分类,以便后续的使用。
与数据仓库密切相关的是数据集市。
数据集市可以看作是数据仓库的一个子集,它专注于特定的业务领域或主题,例如销售数据集市、客户数据集市等。
数据集市的数据来源于数据仓库,经过进一步的筛选和加工,以满足特定业务部门或用户的需求。
数据集市的规模通常比数据仓库小,但更具针对性和灵活性,能够更快地提供相关的数据和分析结果。
接下来,我们谈谈商业智能(BI)。
BI 是一套用于将数据转化为有价值的信息和知识的技术和工具。
它包括数据报表、数据可视化、数据挖掘、联机分析处理(OLAP)等功能。
通过 BI 系统,用户可以以直观的方式查看和分析数据,从而发现数据中的趋势、模式和关系。
BI 帮助企业管理层做出更明智的决策,提高企业的竞争力和运营效率。
例如,通过数据报表,管理层可以清晰地了解企业的销售业绩、成本支出等情况;通过数据可视化,复杂的数据可以以图表、地图等形式展现,更容易理解和分析。
数据分析则是一个更广泛的概念,它涵盖了从数据收集、数据处理、数据分析到结果解释和报告的整个过程。
数仓基本知识

数仓基本知识数仓(Data Warehouse)是指企业或组织中用于存储和管理大量数据的系统。
在现代企业中,数据已经成为宝贵的资产和竞争优势的来源。
而数仓作为数据的集中存储和管理平台,发挥着至关重要的作用。
数仓的基本概念可以追溯到20世纪80年代,当时企业开始意识到数据的价值,并开始建立数据仓库用于支持决策和分析。
数仓的目标是将来自不同数据源的数据集成到一个统一的平台上,为企业决策提供准确、一致和可靠的数据。
数仓还会对数据进行清洗、整合、转换、聚合和存储,以便进行更高效的数据分析和挖掘。
数仓的架构通常包括以下几个关键组件:1. 数据源:数仓可以从多个数据源中获取数据,包括企业内部的各种业务系统、传感器、社交媒体等。
这些数据源可能包含结构化数据(如数据库表)和非结构化数据(如日志文件、文本文档)。
2. 数据抽取:数据抽取是将数据从源系统中提取出来并加载到数仓中的过程。
这一步骤通常需要进行数据清洗、转换和规整,以确保数据的质量和一致性。
3. 数据存储:数仓中的数据通常以多维模型的形式存储,例如星型模型或雪花模型。
这些模型可以更好地支持数据分析和查询。
4. 数据集成:数据集成是将来自不同数据源的数据整合到一起的过程。
这包括数据的聚合、关联和变换,以便进行更高级别的分析和挖掘。
5. 数据查询和分析:数仓提供了各种查询和分析工具,以便用户可以轻松地访问和分析数据。
这些工具可以是标准的SQL查询工具,也可以是更高级别的分析工具,如数据挖掘和机器学习工具。
6. 数据可视化:数据可视化是将数据以图表、报表和仪表盘等形式展示出来,以便用户可以更直观地理解和分析数据。
数据可视化可以帮助用户发现数据中的模式、趋势和异常情况。
数仓的建设和维护需要专业的团队和技术支持。
数仓团队通常由数据工程师、数据分析师、业务专家等组成,他们负责数仓的设计、构建、运维和优化工作。
数仓的好处不仅体现在数据分析和决策支持方面,还可以帮助企业提高运营效率、降低成本、改善客户体验等。
华为云数据仓库服务(DWS) 8.1.3.310 API 参考文档说明书

数据仓库服务(DWS) 8.1.3.310API参考文档版本01发布日期2023-03-30版权所有 © 华为云计算技术有限公司 2023。
保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
商标声明和其他华为商标均为华为技术有限公司的商标。
本文档提及的其他所有商标或注册商标,由各自的所有人拥有。
注意您购买的产品、服务或特性等应受华为云计算技术有限公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。
除非合同另有约定,华为云计算技术有限公司对本文档内容不做任何明示或暗示的声明或保证。
由于产品版本升级或其他原因,本文档内容会不定期进行更新。
除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。
目录1 使用前必读 (1)1.1 概述 (1)1.2 调用说明 (1)1.3 终端节点 (1)1.4 基本概念 (1)2 API概述 (3)3 如何调用API (5)3.1 构造请求 (5)3.2 认证鉴权 (8)3.3 返回结果 (9)4 快速入门 (11)5 API说明 (17)5.1 集群管理接口 (17)5.1.1 创建集群 (17)5.1.2 查询集群列表 (22)5.1.3 查询集群详情 (29)5.1.4 查询节点类型 (37)5.1.5 删除集群 (39)5.1.6 重启集群 (41)5.1.7 扩容集群 (42)5.1.8 重置密码 (44)5.1.9 集群工作负载管理 (46)5.1.9.1 查询工作负载管理计划列表 (46)5.1.9.2 查询工作负载管理计划 (49)5.1.9.3 切换工作负载计划阶段 (52)5.1.9.4 启动工作负载计划 (53)5.1.9.5 停止工作负载计划 (55)5.2 快照管理接口 (56)5.2.1 创建快照 (56)5.2.2 查询快照列表 (58)5.2.3 查询快照详情 (60)5.2.4 删除手动快照 (63)5.2.5 恢复集群 (64)5.3 数据库监控管理接口 (67)5.3.1 查询DWS集群状态 (67)5.3.2 查询DWS集群中数据库使用情况 (72)5.3.3 查询DWS集群各节点磁盘IO使用情况 (74)5.3.4 查询DWS集群各节点磁盘IO使用情况(聚合类型) (77)5.3.5 查询DWS集群各节点文件系统使用情况 (81)5.3.6 查询DWS集群各节点文件系统使用情况(聚合类型) (83)5.3.7 查询DWS集群节点各网卡流量 (87)5.3.8 查询DWS集群查询执行情况 (90)5.3.9 查询DWS集群会话执行情况 (94)5.3.10 查询DWS硬件资源使用情况 (96)5.3.11 查询DWS集群硬件资源使用情况(聚合类型) (99)6 附录 (103)6.1 状态码 (103)6.2 错误码 (105)6.3 创建VPC (113)6.4 获取资源集ID (113)6.5 获取租户ID (114)6.6 获取集群ID (114)6.7 获取Endpoint (115)1使用前必读1.1 概述欢迎使用数据仓库服务GaussDB(DWS)。
电商平台的数据仓库设计与实现

电商平台的数据仓库设计与实现随着互联网技术的不断发展,电子商务成为新的商业模式,电商平台已经成为企业和消费者交流的新平台。
然而,随着电商平台的不断发展,数据量也不断增加,如何管理和分析这些数据成为了电商平台所面临的挑战。
因此,为了更好的管理和分析大量数据,电商平台需要建立自己的数据仓库。
一、数据仓库简介数据仓库是为了满足企业分析和决策需要而建立的一种数据管理系统。
数据仓库具有决策支持和分析功能,是基于主题的、集成的、稳定的、随时间变化而更新的且支持管理决策的数据集合。
二、电商平台数据仓库的设计和实现1.需求分析在设计和实现电商平台数据仓库之前,首先需要进行需求分析。
需求分析的目的是确定数据仓库需要包含什么数据、数据的来源、数据存储方式以及数据的分析需求。
具体的需求分析包括以下几个方面:(1)确定数据仓库的主题和范围。
电商平台的数据包括交易记录、用户信息、商品信息、库存状态等信息,因此需要确定数据仓库的主题和范围。
(2)确定数据来源。
确定数据仓库的数据来源,包括各个系统的数据、外部数据源的数据等。
(3)确定数据存储方式。
确定数据存储方式,需要考虑到数据的规模、岛屿的数据集成以及数据的安全性等因素。
(4)确定数据的分析需求。
需求分析的关键是确定数据的分析需求,包括数据的分析维度、分析对象等。
2.数据集成数据集成是指将来自不同数据源的数据集成到数据仓库中。
因为电商平台的数据来源是多样的,包括终端设备、交易系统、物流系统等,因此需要进行数据集成。
数据集成的过程包括数据抽取、数据转换和数据加载三个步骤。
具体来说,数据抽取是将外部数据源中的数据抽取到本地数据库中;数据转换是将抽取的数据进行转换、清洗和质量控制;数据加载是将处理后的数据加载到数据仓库中。
3.数据建模数据建模是指利用数据建模工具将抽取的数据进行建模,分析其业务规则,形成数据模型。
在电商平台数据仓库的建模中,需要注意以下几个方面:(1)建立事实表和维度表。
电商平台数据分析平台使用手册

电商平台数据分析平台使用手册第1章系统概述 (4)1.1 数据分析平台简介 (4)1.2 系统功能与特点 (4)1.3 系统架构与模块划分 (4)第2章账户与权限管理 (5)2.1 账户注册与登录 (5)2.1.1 注册账户 (5)2.1.2 登录账户 (5)2.2 用户权限设置 (5)2.2.1 权限分配 (5)2.2.2 权限调整 (5)2.3 角色管理 (6)2.3.1 角色创建 (6)2.3.2 角色修改与删除 (6)2.4 修改密码与找回密码 (6)2.4.1 修改密码 (6)2.4.2 找回密码 (6)第3章数据源接入 (6)3.1 数据源类型与接入方式 (6)3.1.1 数据源类型 (6)3.1.2 接入方式 (7)3.2 数据源配置与接入流程 (7)3.2.1 数据源配置 (7)3.2.2 接入流程 (7)3.3 数据同步与更新策略 (7)3.3.1 数据同步 (7)3.3.2 更新策略 (8)第4章数据处理与清洗 (8)4.1 数据预处理操作 (8)4.1.1 数据导入 (8)4.1.2 数据整合 (8)4.1.3 数据规范 (8)4.2 数据清洗规则配置 (8)4.2.1 规则设置 (8)4.2.2 规则应用 (9)4.2.3 规则管理 (9)4.3 数据脱敏与加密 (9)4.3.1 数据脱敏 (9)4.3.2 数据加密 (9)4.4 数据质量监控 (9)4.4.1 监控指标设置 (9)4.4.3 异常处理 (9)第5章数据存储与管理 (9)5.1 数据仓库架构 (9)5.1.1 数据仓库分层 (9)5.1.2 数据仓库技术选型 (10)5.1.3 数据仓库扩展性与容错性 (10)5.2 数据表设计与优化 (10)5.2.1 数据表设计原则 (10)5.2.2 数据表设计方法 (10)5.2.3 数据表优化策略 (10)5.3 数据存储策略与压缩 (11)5.3.1 数据存储策略 (11)5.3.2 数据压缩 (11)5.4 数据备份与恢复 (11)5.4.1 数据备份 (11)5.4.2 数据恢复 (11)第6章数据分析模型与方法 (11)6.1 常用数据分析模型 (11)6.1.1 描述性分析模型 (11)6.1.2 关联分析模型 (12)6.1.3 聚类分析模型 (12)6.1.4 时间序列分析模型 (12)6.2 数据挖掘算法与应用 (12)6.2.1 决策树算法 (12)6.2.2 逻辑回归算法 (12)6.2.3 神经网络算法 (12)6.2.4 聚类算法 (12)6.3 数据可视化技术 (12)6.3.1 柱状图 (12)6.3.2 折线图 (13)6.3.3 饼图 (13)6.3.4 散点图 (13)6.4 用户行为分析模型 (13)6.4.1 RFM模型 (13)6.4.2 用户留存分析模型 (13)6.4.3 用户路径分析模型 (13)6.4.4 用户价值分析模型 (13)第7章报表与仪表盘 (13)7.1 报表类型与设计 (13)7.1.1 报表分类 (13)7.1.2 报表设计原则 (14)7.1.3 报表模板 (14)7.2 报表制作与发布 (14)7.2.2 发布报表 (14)7.3 仪表盘配置与展示 (14)7.3.1 仪表盘概述 (14)7.3.2 仪表盘配置 (14)7.3.3 仪表盘展示 (15)7.4 数据导出与打印 (15)7.4.1 数据导出 (15)7.4.2 数据打印 (15)第8章数据挖掘与预测 (15)8.1 数据挖掘任务创建与管理 (15)8.1.1 创建数据挖掘任务 (15)8.1.2 管理数据挖掘任务 (15)8.2 挖掘算法选择与参数设置 (16)8.2.1 挖掘算法选择 (16)8.2.2 参数设置 (16)8.3 模型评估与优化 (16)8.3.1 模型评估 (16)8.3.2 模型优化 (16)8.4 数据预测与决策支持 (16)8.4.1 数据预测 (17)8.4.2 决策支持 (17)第9章系统监控与维护 (17)9.1 系统功能监控 (17)9.1.1 功能监控概述 (17)9.1.2 功能监控指标 (17)9.1.3 功能监控工具 (17)9.2 数据安全与审计 (17)9.2.1 数据安全策略 (17)9.2.2 数据审计 (17)9.3 系统日志分析 (18)9.3.1 日志收集 (18)9.3.2 日志分析工具 (18)9.3.3 日志分析应用 (18)9.4 系统故障排查与恢复 (18)9.4.1 故障排查流程 (18)9.4.2 系统恢复 (18)9.4.3 预防措施 (18)第10章常见问题与解决方案 (19)10.1 数据分析常见问题解答 (19)10.1.1 如何处理数据缺失问题? (19)10.1.2 如何解决数据异常值问题? (19)10.1.3 如何提高数据分析模型的准确性? (19)10.2 系统使用技巧与建议 (19)10.2.1 如何快速创建数据分析报告? (19)10.2.2 如何实现多维度数据分析? (20)10.2.3 如何进行数据可视化展示? (20)10.3 技术支持与售后服务 (20)10.3.1 如何获取技术支持? (20)10.3.2 如何享受售后服务? (20)10.4 用户反馈与建议渠道 (20)10.4.1 如何提交反馈与建议? (20)第1章系统概述1.1 数据分析平台简介电商平台数据分析平台是为了满足电商企业在数据挖掘、分析及决策支持方面的需求而设计的一款高效、实用的数据分析工具。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据项目之电商数仓(即席查询)
版本:V4.0
第1章Presto
1.1 Presto简介
1.1.1 Presto概念
Presto概念
Presto是一个开源的分布式SQL查询引擎,数据量支持GB到PB字节,主要用来处理秒级查询的场景。
注意:虽然Presto可以解析SQL,但它不是一个标准的数据库。
不是MySQL、Oracle的代替品,也不能用来处理在线事务(OLTP)。
1
2
Presto 架构
Presto 由一个Coordinator 和多个Worker 组成。
Presto CLI
Hive Metastore
Presto Coordinator
Presto Worker
Presto Worker
Presto Worker
Hive Connector
Schema Table
Hive
Catalog
Kafka Connector
Schema
Table
Kafka
Catalog
Redis Connector
Schema Table
Redis
Catalog
1)由客户端提交查询,从Presto 命令行CLI 提交到Coordinator 。
2)Coordinator 解析查询计划,然后把任务分发给Worker 执行。
3)Worker 负责执行任务和处理数据
7)Coordinator 是负责从Worker 获5)Connector 是适配器,用于Presto 和数据源(如Hive 、Redis )的连接,类似于JDBC 。
4)Catolog 表示数据源。
一个Catelog 包含Schema 和Connector
6)Schema 类似于
Mysql 中数据库,Table 类似于MySQL 中表
1.1.3 Presto 优缺点
Presto 优缺点
1)优点
(1)Presto 基于内存运算,减少了硬盘IO ,计算更快。
(2)能够连接多个数据源,跨数据源连表查,如从Hive 查询大量网站访问记录,然后从Mysql 中匹配出设备信息。
2)缺点
Presto 能够处理PB 级别的海量数据分析,但Presto 并不是
把PB 级数据都放在内存中计算的。
而是根据场景,如Count ,A VG 等聚合运算,是边读数据边计算,再清内存,再读数据再计算,这种耗的内存并不高。
但是连表查,就可能产生大量的临时数据,因此速度会变慢,反而Hive 此时会更擅长。
1.1.4 Presto 、Impala 性能比较
s:/u012551524/article/details/79124532
测试结论:Impala 性能稍领先于Presto ,但是Presto 在数据源支持上非常丰富,包括Hive 、图数据库、传统关系型数据库、Redis 等。
1.2.1 Presto Server安装
0)官网地址
s:prestodb.github.io/
1)下载地址
s:/maven2/com/facebook/presto/presto-server/0.196/presto -server-0.196.tar.gz
2)将presto-server-0.196.tar.gz导入hadoop102的/opt/software目录下,并解压到/opt/module目录
[atguiguhadoop102 software]$ tar -zxvf presto-server-0.196.tar.gz -C /opt/module/
3)修改名称为presto
[atguiguhadoop102 module]$ mv presto-server-0.196/ presto
4)进入到/opt/module/presto目录,并创建存储数据文件夹
[atguiguhadoop102 presto]$ mkdir data
5)进入到/opt/module/presto目录,并创建存储配置文件文件夹
[atguiguhadoop102 presto]$ mkdir etc
6)配置在/opt/module/presto/etc目录下添加jvm.config配置文件
[atguiguhadoop102 etc]$ vim jvm.config
添加如下内容
-server
-Xmx16G
-XX:+UseG1GC
-XX:G1HeapRegionSize=32M
3
-XX:+UseGCOverheadLimit
-XX:+ExplicitGCInvokesConcurrent
-XX:+HeapDumpOnOutOfMemoryError
-XX:+ExitOnOutOfMemoryError
7)Presto可以支持多个数据源,在Presto里面叫catalog,这里我们配置支持Hive的数据源,配置一个Hive的catalog
[atguiguhadoop102 etc]$ mkdir catalog
[atguiguhadoop102 catalog]$ vim hive.properties
添加如下内容
=hive-hadoop2
hive.metastore.uri=thrift:hadoop102:9083
8)将hadoop102上的presto分发到hadoop103、hadoop104
[atguiguhadoop102 module]$ xsync presto
9)分发之后,分别进入hadoop102、hadoop103、hadoop104三台主机的/opt/module/presto/etc的路径。
配置node属性,node id每个节点都不一样。
[atguiguhadoop102 etc]$vim node.properties
node.environment=production
node.id=ffffffff-ffff-ffff-ffff-ffffffffffff
node.data-dir=/opt/module/presto/data
[atguiguhadoop103 etc]$vim node.properties
node.environment=production
node.id=ffffffff-ffff-ffff-ffff-fffffffffffe
node.data-dir=/opt/module/presto/data
4
[atguiguhadoop104 etc]$vim node.properties
node.environment=production
node.id=ffffffff-ffff-ffff-ffff-fffffffffffd
node.data-dir=/opt/module/presto/data
10)Presto是由一个coordinator节点和多个worker节点组成。
在hadoop102上配置成coordinator,在hadoop103、hadoop104上配置为worker。
(1)hadoop102上配置coordinator节点
[atguiguhadoop102 etc]$ vim config.properties
添加内容如下
coordinator=true
node-scheduler.include-coordinator=false
-server..port=8881
query.max-memory=50GB
discovery-server.enabled=true
discovery.uri=:hadoop102:8881
(2)hadoop103、hadoop104上配置worker节点
[atguiguhadoop103 etc]$ vim config.properties
添加内容如下
coordinator=false
-server..port=8881
query.max-memory=50GB
discovery.uri=:hadoop102:8881
[atguiguhadoop104 etc]$ vim config.properties
添加内容如下
5。