6数据仓库开发实例详解

合集下载

doris实践案例

Doris实践案例：基于Doris的数据分析平台建设背景随着大数据时代的到来，越来越多的企业开始关注如何利用海量的数据来进行深入的分析和洞察，以支持业务决策和优化运营。

然而，传统的数据仓库和分析平台往往面临着数据量大、处理速度慢、扩展性差等问题，无法满足业务的需求。

因此，很多企业开始采用新一代的数据分析平台，如Doris，来构建高效、可扩展的数据分析解决方案。

Doris是由百度公司开源的一款可扩展、高性能、高可靠的分布式列式存储和计算引擎。

它具有以下特点：•列式存储：Doris采用列式存储，可以大幅度提高查询性能，特别是在大规模数据查询时表现更为突出。

•实时计算：Doris支持实时数据的快速导入和实时计算，可以满足实时分析的需求。

•高可扩展性：Doris采用分布式架构，可以方便地进行水平扩展，支持PB 级别的数据存储和处理。

•高可靠性：Doris具有自动容错和自动恢复的能力，支持数据的高可靠性和持久性。

本案例将以某电商企业为例，介绍基于Doris的数据分析平台建设的过程和结果。

过程1. 需求分析与架构设计首先，我们与电商企业的业务团队进行需求沟通和分析，了解他们的数据分析需求和痛点。

通过与业务团队的交流，我们确定了以下需求：•实时分析：需要对实时的交易数据进行分析，以及时发现和解决问题。

•历史分析：需要对历史的销售数据进行深入的分析，以了解销售趋势和用户行为。

•高性能和可扩展性：需要一个高性能和可扩展的数据分析平台，能够支持PB级别的数据存储和处理。

基于以上需求，我们设计了以下架构：架构中的关键组件包括：•数据源：从电商企业的交易系统和其他数据源中获取数据，并实时导入到Doris中。

•数据导入：使用Doris提供的导入工具或自行开发的数据导入程序，将数据导入到Doris中。

•数据存储：Doris使用列式存储引擎存储数据，以提高查询性能。

•数据计算：Doris支持在线查询和离线计算，可以根据需求选择合适的计算方式。

第六章数据库与数据仓库--PZZ

《管理信息系统》山东大学管理学院信息管理系彭志忠
二级映射
为了能够在内部实现这三个抽象层次的联系和转换，数据库管理系统在这三级模式之间提供了两层映射：外模式—模式映射，模式—内模式映射。 ①外模式—模式映射外模式—模式映射定义了该外模式与模式之间的对应关系。这些映射定义通常包含在各自外模式的描述中。当模式改变时(例如增加新的属性、改变属性的数据类型时)，只要改变其映射，就可以使外模式保持不变，对应的应用程序也可保持不变(因为应用程序是依据外模式编写的)，从而保证了数据与应用程序的逻辑独立性。 ②模式—内模式映射
彭志忠
一、数据管理技术及其发展
（三）数据库系统阶段
20世纪60年代以来，出现了统一管理数据的专门软件系统—数据库管理系统(DBMS，DataBase Management System)。数据库阶段的数据管理特点是： 1、数据结构化。数据结构化是数据库与文件系统的根本区别。
2、较高的数据独立性。用户能以简单的逻辑结构操作数据而无需考虑数据的物理结构。
3、数据具有一定的独立性。
《管理信息系统》
山东大学管理学院信息管理系
彭志忠
传统文件处理系统
用户用户用户应用程序1 应用程序2 应用程序3 数据文件1 数据文件2 数据文件3
存在问题：
1、数据冗余与数据不一致性
2、数据联系弱 3、缺少数据字典，缺乏灵活性
《管理信息系统》
山东大学管理学院信息管理系
3、多媒体数据库
多媒体数据具有数据量大、结构复杂、数据传输的连续性等特点。因而，多媒体数据库需要有特殊的数据结构、存储技术、查询和处理方式。
4、数据仓库
数据仓库，就是一种长期数据存储，这些数据来自于多个异种数据源。通过数据仓库提供的联机分析处理(OLAP)工具，实现各种粒度的多维数据分析，以便向管理决策提供支持。

数据仓库与数据挖掘案例分析

数据仓库与数据挖掘案例分析在当今数字化的时代，数据已成为企业和组织最宝贵的资产之一。

如何有效地管理和利用这些海量数据，以获取有价值的信息和洞察，成为了摆在众多企业面前的重要课题。

数据仓库和数据挖掘技术的出现，为解决这一问题提供了有力的手段。

接下来，让我们通过一些具体的案例来深入了解这两项技术的应用和价值。

一、零售行业的数据仓库与数据挖掘以一家大型连锁超市为例，该超市每天都会产生大量的销售数据，包括商品的种类、价格、销售数量、销售时间、销售地点等。

通过建立数据仓库，将这些分散在不同系统和数据库中的数据整合起来，形成一个统一的、集成的数据源。

数据挖掘技术则可以帮助超市发现隐藏在这些数据中的模式和趋势。

例如，通过关联规则挖掘，可以发现哪些商品经常被一起购买，从而优化商品的摆放和促销策略。

如果顾客经常同时购买面包和牛奶，那么将这两种商品摆放在相邻的位置，或者推出面包和牛奶的组合促销活动，可能会提高销售额。

通过聚类分析，可以将顾客分为不同的群体，根据每个群体的消费习惯和偏好，进行个性化的营销。

比如，将经常购买高端进口食品的顾客归为一类，针对他们推送相关的新品推荐和优惠信息；而对于注重性价比的顾客群体，则推送一些打折促销的商品信息。

二、金融行业的数据仓库与数据挖掘在金融领域，银行和证券公司也广泛应用数据仓库和数据挖掘技术。

一家银行拥有大量的客户数据，包括客户的基本信息、账户交易记录、信用记录等。

利用数据仓库，银行可以对这些数据进行整合和管理，实现对客户的全面了解。

数据挖掘可以帮助银行进行客户细分，识别出高价值客户和潜在的流失客户。

对于高价值客户，提供个性化的服务和专属的金融产品，提高客户的满意度和忠诚度；对于潜在的流失客户，及时采取措施进行挽留，比如提供优惠政策或者改善服务质量。

在风险管理方面，数据挖掘可以通过建立信用评估模型，预测客户的违约风险。

通过分析客户的历史交易数据、收入情况、负债情况等因素，评估客户的信用等级，为贷款审批提供决策依据，降低不良贷款率。

数据仓库

23
数据仓库的数据模型
面向用户的需求
概念模型
细化层次
信息包图逻辑模型
星型图模型
物理数据模型更详细的技术细节
物理模型
24
概念模型

由于大多数商务数据是多维的，但传统的数据模型表示三维以上的数据有一定困难。概念模型简化了这个过程并且允许用户与开发者和其他用户建立联系：

源数据数据准备区
数据仓库
18
数据净化

当数据从源数据库中提取到数据准备区后，必须先进行数据净化才可以装载到数据仓库中去。数据净化主要指对数据字段的有效值检验。有效值的检验通常包括：范围检验、枚举字段取值和相关检验。范围检验要求数据保证落在预期的范围之内，通常对数据范围和日期范围进行检验，如对任何在指定范围之外的日期的发票都应删除。枚举字段取值指对一个记录在该字段的取值，若不在指定的值中，则应该删除。相关检验要求将一个字段中的值与另外一个字段中的值进行相关检验，即在数据库中某个字段应与另一个字段形成外键约束。
3
事务型处理数据和分析型处理数据的区别
特性 OLTP 计数据汇总视图工作单位存取关注操作访问记录数用户数 DB规模优先度量
操作处理事务办事员、DBA、数据库专业人员日常操作基于E-R，面向应用当前的；确保最新原始的，高度详细详细，一般关系短的、简单事务读/写数据进入主关键字上索引/散列数十个数千 100MB到GB 高性能，高可用性事务吞吐量
数据仓库
Data Warehouse
1
事务型处理

事务型处理：即操作型处理，是指对数据库的联机操作处理OLTP。事务型处理是用来协助企业对响应事件或事务的日常商务活动进行处理。它是事件驱动、面向应用的，通常是对一个或一组记录的增、删、改以及简单查询等（大量、简单、重复和例行性）。在事务型处理环境中，数据库要求能支持日常事务中的大量事务，用户对数据的存取操作频率高而每次操作处理的时间短。

项目6 Hive数据仓库-任务6.1 Hive概述

分析决策星形/雪花型模型，面向主题 >=TB
数据
最新的、细节的、二维的、分立的历史的、聚集的、多维的、集成的
存储模式读/写数条（甚至数百条）记录
读上百万条（甚至上亿条）记录
操作频度非常频繁（以秒计）
比较稀松（以小时甚至以周计）
工作单元严格的事务
复杂的查询
用户数数百个至数千万个
数个至数百个
查询语言数据存储位置
数据格式数据更新
事务执行延迟可扩展性数据规模
Hive
Hive QL HDFS
用户定义不支持不支持
高高大
MySQL
SQL 块设备、本地文件系统
系统决定支持支持低低小
Hive系统架构
Hive简介
Hive是底层封装了Hadoop的数据
仓库处理工具，运行在Hadoop基础上，其系统架构组成主要包含4部分，分别是用户接口、跨语言服务、底层驱动引擎及元数据存储系统。
Title Works About Help
Hive简介
Hive工作原理
Hive建立在Hadoop 系统之上，因此 Hive 底层工作依赖于 Hadoop 服务，Hive底层工作原理如下所示。
Title Works About Help
Hive简介
Hive数据模型
Hive中所有的数据都存储在HDFS中，它包含数据库（Database）、表（Table）、分区表（Partition）和桶表（Bucket）四种数据类型。
本章将针对Hive数据仓库工具的基本知识进行详细地讲解。
CONTENTS
PART 01
数据仓库简介
PART 02

数据仓库的设计与开发

02
在物理设计时，我们常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类，并将不同类的数据分别存储在不同的存储设备中。
01
重要程度高、经常存取并对响应时间要求高的数据就存放在高速存储设备上，如硬盘；
02
存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上，如磁盘或磁带。
03
10
主键
Product-Name
char
25
产品名称
Product-SKu
char
20库存单位ຫໍສະໝຸດ 销售员维表包括不同地区的所有销售员信息
Salpers-Key
integer
15
主键
Salpers-Name
char
30
销售员姓名
Territory
char
20
销售员所在区域
Region
char
20
所在地区
订单事实表
销售数据和维
销售数据
商品
促销
时间
部门
城市
地区
商店
图4.2 销售业务的多维数据
（4）确定数据汇总水平
（5）设计事实表和维表
按使用的DBMS和分析用户工具，证实设计方案的有效性根据系统使用的DBMS，确定事实表和维表的具体实现。由于不同的DBMS对数据存储有不同的要求，因此设计方案是否有效还要放在DBMS中进行检验
包括公司收到的所有订单
Order-Key
integer
10
订单键
Order-Name
char
20
订单名称
Product-ref
integer
10
参考产品主键

dwd dws 设计例子

dwd dws 设计例子设计师的任务是根据客户的需求和目标来创建引人注目的视觉作品。

在此例子中，我将介绍两个设计领域的例子，分别是数据仓库（DWD）设计和数据仓库服务（DWS）设计。

首先，让我们来讨论数据仓库设计（DWD）。

数据仓库是一个用于存储、组织和分析大量数据的系统。

在进行DWD设计时，设计师需要考虑数据的结构、存储方式以及数据的访问和查询需求。

一个例子是，一家电商公司想要建立一个数据仓库来跟踪客户的购买行为和销售趋势。

在DWD设计中，设计师需要创建适当的数据库结构，以便存储客户信息、产品信息和销售数据。

此外，设计师还需要制定有效的数据提取和加载策略，以确保数据在数据仓库中的准确性和及时性。

接下来，让我们转向数据仓库服务（DWS）设计。

数据仓库服务是指为了满足用户对数据仓库的需求而提供的服务。

在进行DWS设计时，设计师需要考虑用户界面设计、数据可视化和用户交互等方面。

一个例子是，一家市场调研公司正在寻找一种数据仓库服务来帮助他们分析和呈现大量的市场数据。

在DWS设计中，设计师需要创建直观且易于导航的用户界面，以便用户能够轻松地访问和查询数据。

此外，设计师还需要考虑如何通过数据可视化方式呈现数据，例如生成图表、图形和报表，以帮助用户更好地理解和分析数据。

总结而言，数据仓库设计（DWD）和数据仓库服务设计（DWS）在设计师的角度上呈现了不同的任务。

DWD设计侧重于数据库结构和数据存储方式，而DWS设计则侧重于用户界面和数据可视化。

通过合理的设计，设计师可以为客户提供高效、易用且有吸引力的数据仓库解决方案。

数据中心建设项目数据库设计开发方案及实施方案

数据中心建设项目数据库设计开发方案及实施方案本项目中, 数据库设计与建设包括用于数据中心进行数据存储、交换、应用的数据中心数据库, 和用于数据统计、分析、挖掘的数据仓库的设计与建设。

本数据中心数据库的建设要满足金信工程的相关设计要求, 满足上级工商、质监、知识产权等市场监管部门的工作要求。

数据中心顾名思义, 是专注于数据处理和服务的中心, 旨在建立数据采集、更新、管理、使用机制, 加快系统内部信息交流与反馈, 为公众服务和相关政府部门数据交换建立基础, 为工商、质监、知识产权部门各级管理人员提供决策支持服务。

1.1.数据中心应用功能与业务处理功能的不同之处在于数据中心是以数据为管理对象, 而业务应用系统以业务为管理对象。

数据中心将从业务应用系统采集到的数据进行清洗和统一存放, 根据不同的需求进行加工, 生成不同的数据产品供各系统使用。

数据中心独立于应用系统之外, 又与应用系统有密切的联系。

1.2.数据中心是存储市场监督管理局经过筛选、去重、整理后的核心业务、人员数据等信息, 整合了全市各类主体信息资源和市场主体、人员相关的信息资源, 并进行统一管理和维护；数据中心通过深入挖掘数据价值, 开发实现灵活、高效的数据查询、业务报表、数据共享和数据交换等功能, 为政务公开、业务协同、绩效考核、决策支持、公共服务等提供数据保障。

1.3.数据中心建设原则金信工程数据中心建设遵循如下原则:1.总体规划, 建立科学、完整的信息资源管理体系整体规划, 将以往分散的数据资源进行整合, 建立科学、完整的信息资源体系结构, 确保业务人员、技术开发人员等使用和维护信息资源的用户从整体上把握数据资源的情况, 方便、准确的利用信息资源和有效的维护、管理信息资源。

科学、完整的信息资源管控体系不但包括信息资源自身的完整性, 科学性, 也应包括信息采集、管理、共享、利用方式的规划, 以及数据模型、数据指标等规范化、标准化的考虑。

2.统一规划、集中管理各类信息资源统一规划数据资源, 不只是要对各类信息资源进行物理集中存储管理, 还要在对业务数据分析的基础上, 一体化规划并设计系统数据模型, 统一制定业务数据指标体系, 以管理服务对象为核心, 组织相关联的业务数据, 实现对内业务使用、对外服务应用的统一视图。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

说明作者编号图书编号
建立多维数据模型
图书作者关系
•
图书作者关系事实表只包含键值列，不包含度量值列，其目的是为了记录图书和作者之间的关系事实。 FactBookAuthor（中间事实表）属性名称键值列 book_id au_id 功能描述图书编号作者编号
建立多维数据模型
订单
作者
出版日期
属性名称 FullDate DateName Month MonthName Year
功能描述日期日期名月月名年
其中 FullDate、 Month、 MonthName 形成层次。
建立多维数据模型
出版社
销售日期
出版社
图书订单
书店
建立多维数据模型
出版社
字段名称说明
pub_id
pub_name city state country
图书编号
销售日期销售量销售额
建立多维数据模型
建立多维数据模型
作者
•
作者维度可以直接包含作者名等属性 DimAuthor 属性名称 au_id au_name 功能描述作者编号作者名 au_fname + au_lname
建立多维数据模型
图书作者关系
作者
出版日期
图书出版社订单
图书作者关系
书店
建立多维数据模型
图书作者关系
字段名称 au_id title_id
出版社编号
出版社名所在市所在州所在国
建立多维数据模型
出版社
•
出版社维度可以直接包含出版社名、市、州、国家等属性 DimPublisher 属性名称 pub_id pub_name pub_city pub_state 功能描述出版社编号出版社名称城市州国家其中 pub_name、 pub_city、 pub_state、 pub_country 形成层次。
其中 book_name、 book_type 形成层次结构。
book_name
book_type pubyear
图书名
图书类型出版年
建立多维数据模型
图书
•
图书型
作者
作者
出版日期
图书出版社订单
图书作者关系
书店
建立多维数据模型
作者
字段名称 au_id au_lname au_fname 说明作者编号作者名作者姓
收集项目需求
准备：研究选定的业务过程（术语、步骤、度量方法）采访：钻研选定的业务过程（理解使其运作所需的分析、数据模型和技术）
分析：业务过程相关的数据资源
归档
对于Pub公司：选定“销售”业务过程后，通过采访了解其与销售分析相关的问题，如通过什么方式销售、有哪些销售地区等。
收集项目需求
基本业务状况
图书
X
书店
X
销售日期
X
销售日期
出版社
图书订单
书店
建立多维数据模型
销售日期
销售日期
出版社
图书
订单
书店
建立多维数据模型
销售日期
• • •
日期维度的粒度级别通常为一天日期维度表需要专门生成（如利用Excel工具）日期维度表中的时间范围根据业务需求决定
建立多维数据模型
销售日期
•
日期维度至少要包含年、月、日期三个属性 DimDate
建立多维数据模型
订单
FactSales 属性名称 pub_id 来源 publishers表 stores表功能描述出版社编号书店编号
键值列
度量值列
stor_id
book_id
ord_date qty amount
titles表
sales表 sales表计算生成（qty*price）
图书出版社订单
图书作者关系
书店
建立多维数据模型
订单
字段名称 stor_id title_id qty 说明
ord_date
书店编号图书编号订购数量订购日期
建立多维数据模型
订单
•
订单事实表中要包含日期、出版社、书店、图书等键值列，还要包含销售额、销售量2个度量值列，其目的是为了记录销售事实。
数据仓库与OLAP
广东工业大学艾丹祥
数据仓库开发实例
案例背景
Pub是美国的一家图书出版公司，希望构建数据仓库。其中销售部门的需求比较急迫，希望能在短时间内实现对销售业绩的分析。
根据Pub公司的情况，考虑采用金博尔的 DMDW的开发模式，即先为销售部门设计一个数据集市，其他部门数据集市的设计可参照此模型。
pub_country
建立多维数据模型
书店
出版日期
出版社
图书订单
书店
建立多维数据模型
书店字段名称
stor_id
说明
书店编号
stor_name city state
书店名称所在市所在州
建立多维数据模型
书店
•
书店维度可以直接包含书店名、市、州等属性
建立多维数据模型
图书
出版日期
出版社
图书订单

Pub公司在美国各地均有出版社，出版社负责联系作者、出版图书，已出版的图书将由各地的代销书店进行销售。
收集项目需求
业务分析需求

销售部门最关心销售的业绩，主要通过销售额和销售量进行考核。
数据仓库开发实例
业务分析需求
希望针对每个出版社作图书销售业绩分析。希望针对每个国家的出版社作图书销售业绩分析。希望针对每个州的出版社作图书销售业绩分析。希望针对每城市的出版社作图书销售业绩分析。希望针对每本图书作销售业绩分析。希望针对每类图书做销售业绩分析。希望针对每年出版的图书做销售业绩分析。希望针对每位作者所编写的图书做销售业绩分析。希望针对每个书店作图书销售业绩分析。希望针对每个州的书店作图书销售业绩分析。希望针对每个城市的书店作图书销售业绩分析。希望针对年、月、日作销售业绩分析。
书店
建立多维数据模型
图书
字段名称 title_id pub_id title
type price pubdate
说明图书编号出版社编号图书名
图书类型图书单价出版日期
建立多维数据模型
图书
•
图书维度可以直接包含图书名、类型、出版年等属性 DimBook
属性名称 book_id
功能描述图书编号

数据仓库开发实例
销售业务的总线矩阵
业务实体业务过程销售出版社 X 图书 X 书店 X 出版日期 X
收集项目需求
数据资源状况

公司的业务数据库为Pubs数据库
收集项目需求
数据资源状况

Pubs中与销售业务有关的表
建立多维数据模型
根据总线矩阵建立模型气泡图
业务实体
业务过程
销售
出版社
X