数据仓库(多维数据库模型).共30页文档

数据仓库多维数据模型的设计

1、数据仓库基本概念1.1、主题（Subject）主题就是指我们所要分析的具体方面。

例如：某年某月某地区某机型某款App的安装情况。

主题有两个元素：一是各个分析角度（维度），如时间位置；二是要分析的具体量度，该量度一般通过数值体现，如App安装量。

1.2、维（Dimension）维是用于从不同角度描述事物特征的，一般维都会有多层（Level：级别），每个Level 都会包含一些共有的或特有的属性（Attribute），可以用下图来展示下维的结构和组成：以时间维为例，时间维一般会包含年、季、月、日这几个Level，每个Level一般都会有ID、NAME、DESCRIPTION这几个公共属性，这几个公共属性不仅适用于时间维，也同样表现在其它各种不同类型的维。

1.3、分层（Hierarchy）OLAP需要基于有层级的自上而下的钻取，或者自下而上地聚合。

所以我们一般会在维的基础上再次进行分层，维、分层、层级的关系如下图：每一级之间可能是附属关系（如市属于省、省属于国家），也可能是顺序关系（如天周年），如下图所示：1.4、量度量度就是我们要分析的具体的技术指标，诸如年销售额之类。

它们一般为数值型数据。

我们或者将该数据汇总，或者将该数据取次数、独立次数或取最大最小值等，这样的数据称为量度。

1.5、粒度数据的细分层度，例如按天分按小时分。

1.6、事实表和维表事实表是用来记录分析的内容的全量信息的，包含了每个事件的具体要素，以及具体发生的事情。

事实表中存储数字型ID以及度量信息。

维表则是对事实表中事件的要素的描述信息，就是你观察该事务的角度，是从哪个角度去观察这个内容的。

事实表和维表通过ID相关联，如图所示：1.7、星形/雪花形/事实星座这三者就是数据仓库多维数据模型建模的模式上图所示就是一个标准的星形模型。

雪花形就是在维度下面又细分出维度，这样切分是为了使表结构更加规范化。

雪花模式可以减少冗余，但是减少的那点空间和事实表的容量相比实在是微不足道，而且多个表联结操作会降低性能，所以一般不用雪花模式设计数据仓库。

数据仓库概述(概念、应用、体系结构)

使用浏览分析工具在数据仓库中寻找有用的信息；基于数据仓库，在数据仓库系统上建立应用，形成决策支持系统。
事务处理分析处理
DB
从数据 OLTP 数据
DW
从数据信息（知识） OLAP（DM、OLAM）
18
数据仓库与传统数据库的区别
19
OLTP和OLAP的区别

用户和系统的面向性:

转换描述从操作数据库到数据仓库的映射方法以及转换数据的算法访问权限备份历史存档历史信息传输历史数据获取历史数据访问等等29主题区和信息对象类型包括查询报表图像音频视频等支持数据仓库的其它信息例如信息传输系统包括的预约信息调度信息传送目标的详细描述商业查询对例如数据历史快照版本拥有权数据抽取的审计跟踪数据的使用方法30与数据访问和分析工具的集成31元数据库metadatarepository和工具32主要使用数据来源的物理结构信息企业数据模型和仓库数据模型最终用户最关心两类元数据
4
业务系统不适宜DSS应用

事务处理和分析处理的性能要求和特性不同

事务处理对数据的存取操作频率高而每次操作处理的时间短；在分析处理环境中，某个DSS应用程序可能需要连续几个小时，会消耗大量的系统资源。

数据集成问题历史数据问题数据的综合问题（更高粒度）
5
建立数据仓库的投资回报
数据模型：（1）逻辑数据结构，包括为有效进行数据
用的数据集合,是不同于DB的一种新的数据环境, 是DW 扩展后得到的一个混合形式。四个基本特点：面向主题的、集成的、可变的、当前或接近当前的。库处理由DBMS提供的操作和约束；（2）数据表示系统（例如，ER图和关系模型）。
25
元数据

数据仓库模型的设计

数据仓库模型的设计数据仓库模型的设计大体上可以分为以下三个层面的设计151:.概念模型设计;.逻辑模型设计;.物理模型设计;下面就从这三个层面分别介绍数据仓库模型的设计。

2.5.1概念模型设计进行概念模型设计所要完成的工作是:<1>界定系统边界<2>确定主要的主题域及其内容概念模型设计的成果是，在原有的数据库的基础上建立了一个较为稳固的概念模型。

因为数据仓库是对原有数据库系统中的数据进行集成和重组而形成的数据集合，所以数据仓库的概念模型设计，首先要对原有数据库系统加以分析理解，看在原有的数据库系统中“有什么”、“怎样组织的”和“如何分布的”等，然后再来考虑应当如何建立数据仓库系统的概念模型。

一方面，通过原有的数据库的设计文档以及在数据字典中的数据库关系模式，可以对企业现有的数据库中的内容有一个完整而清晰的认识;另一方面，数据仓库的概念模型是面向企业全局建立的，它为集成来自各个面向应用的数据库的数据提供了统一的概念视图。

概念模型的设计是在较高的抽象层次上的设计，因此建立概念模型时不用考虑具体技术条件的限制。

1.界定系统的边界数据仓库是面向决策分析的数据库，我们无法在数据仓库设计的最初就得到详细而明确的需求，但是一些基本的方向性的需求还是摆在了设计人员的面前:. 要做的决策类型有哪些?. 决策者感兴趣的是什么问题?. 这些问题需要什么样的信息?. 要得到这些信息需要包含原有数据库系统的哪些部分的数据?这样，我们可以划定一个当前的大致的系统边界，集中精力进行最需要的部分的开发。

因而，从某种意义上讲，界定系统边界的工作也可以看作是数据仓库系统设计的需求分析，因为它将决策者的数据分析的需求用系统边界的定义形式反映出来。

2，确定主要的主题域在这一步中，要确定系统所包含的主题域，然后对每个主题域的内容进行较明确数据仓库建模技术在电信行业中的应用的描述，描述的内容包括:. 主题域的公共码键;. 主题域之间的联系:. 充分代表主题的属性组。

数据仓库

7
LOGO
实施数据仓库的条件

数据积累已达到一定规模面临激烈的市场竞争在IT方面的资金能得到保障
8
LOGO
数据仓库(Data Warehouse)
A warehouse is a subject-oriented,integrated,time-variant and non-volatile collection of data in support of management’s decision making process. ——Bill Inmon 1990 A data warehouse is a copy of transaction data，specially restructured for queries and analysis.
数据挖掘解决的业务问题
OLAP 分析
业务人员
数据挖掘
访问工具投资组合分析投资组合分析 /KPI 平衡计分卡平衡记分卡
利润成本分析利润成本分析
资产分析
营销分析
LOGO
数据仓库流程
LOGO
BW基本原理
LOGO
LOGO
数据仓库系统的组成（1）
数据仓库系统的组成（1）源数据：数据仓库中的数据来源于多个数据源，它不仅可以是企业内部的关系型数据库，还包括非传统数据，如文件、HTML文档等。数据仓库管理系统：
元数据库及元数据管理部件：元数据库用来存储由定义部件生成的关于源数据、目标数据、提取规则、转换规则以及源数据与数据仓库之间的映射信息等。数据转换部件：该部件把数据从源数据中提取出来，依定义部件的规则将不同数据格式的源数据转换成数据仓库的数据格式并装载进数据仓库。数据集成部件：该部件根据定义部件的规则、统一各源数据的编码规则，并净化数据，根据元数据中定义的数据组织形式对数据进行汇总、聚合计算。数据仓库管理部件：它主要用于维护数据仓库中的数据，备份、恢复数据以及管理数据的安全权限问题。

数据仓库的设计和构建

数据仓库的设计和构建数据仓库（Data Warehouse）是指将组织机构内部各种分散的、异构的数据整合起来，形成一个共享的、一致的、易于查询和分析的数据环境。

数据仓库的设计和构建是数据管理和分析的重要环节。

本文将结合实践经验，介绍数据仓库的设计与构建过程。

一、需求分析数据仓库的设计与构建首先需要进行需求分析。

在需求分析阶段，我们需要明确以下几个问题：1. 数据来源：确定数据仓库所需要的数据来源，包括内部系统和外部数据源。

2. 数据维度：确定数据仓库中需要关注的维度，如时间、地理位置、产品等。

3. 数据粒度：确定数据仓库中的数据粒度，即需要对数据进行何种程度的聚合。

4. 数据可用性：确定数据仓库中数据的更新频率和可用性要求。

5. 分析需求：明确数据仓库所需满足的分析需求，如报表查询、数据挖掘等。

二、数据模型设计在数据仓库设计过程中，数据模型的设计尤为重要。

常用的数据模型包括维度建模和星型模型。

维度建模是基于事实表和维度表构建的，通过定义事实和维度之间的关系，建立多维数据结构。

星型模型则将事实表和各个维度表之间的关系表示为星型结构，有助于提高查询效率。

根据具体需求和数据特点，选择合适的数据模型进行设计。

三、数据抽取与转换数据仓库的构建过程中，需要从各个数据源中抽取数据，并进行清洗和转换。

数据抽取常用的方法包括全量抽取和增量抽取。

全量抽取是指将数据源中的全部数据抽取到数据仓库中，适用于数据量较小或变动频率较低的情况。

增量抽取则是在全量抽取的基础上，只抽取发生变动的数据，提高了数据抽取的效率。

数据在抽取到数据仓库之前还需要进行清洗和转换。

清洗的目标是去除数据中的错误、冗余和不一致之处，保证数据的准确性和完整性。

转换的目标是将数据格式进行统一，并进行必要的计算和整合，以满足数据仓库的需求。

四、数据加载与存储数据加载是指将抽取、清洗和转换后的数据加载到数据仓库中的过程。

数据加载的方式可以分为批量加载和实时加载。

数据仓库概述PPT(共 57张)

决策支持系统：需要花数小时甚至更长时间的处理、需要遍历数据库中的大部分数据，进行复杂的计算，需要消耗大量的系统资源。
16
细节的
操1作.型1.数3据两者数据处理模式的分析差型数别据
综合的，或提炼的
当前数据
历史数据
更新的
不可更新，只读的
生命周期符合SDLC （软件开发生命周期）
完全不同的生命周期
对性能要求高一个时刻操作一个单元事务驱动面向应用一次操作数据量小，计算简单支持日常操作
29
1.2 数据仓库的基本概念
数据仓库就是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合，通常用于企业的决策支持。
30
1.2.1 面向主题
主题：是一个抽象的概念，是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑上，它对应于企业中某一宏观分析领域所涉及的分析必须把分析数据从事务处理环境中提取出来，按照决策支持系统处理的需要进行重新组织，建立单独的分析型处理环境。数据仓库正是为了构建这种新的分析型处理环境而出现的一种数据存储和组织技术。
27
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
第1讲数据仓库概述
1
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
2
数据仓库概述
1.1 数据仓库产生的原因 1.1.1 操作型数据处理 1.1.2 分析型数据处理 1.1.3 两种数据处理模式的差异 1.1.4 数据库系统的局限性
对性能要求宽松一个时刻操作一个集合分析驱动面向分析一次操作数据量大，计算复杂支持管理需求

数据仓库的设计与开发

02
在物理设计时，我们常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类，并将不同类的数据分别存储在不同的存储设备中。
01
重要程度高、经常存取并对响应时间要求高的数据就存放在高速存储设备上，如硬盘；
02
存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上，如磁盘或磁带。
03
10
主键
Product-Name
char
25
产品名称
Product-SKu
char
20库存单位ຫໍສະໝຸດ 销售员维表包括不同地区的所有销售员信息
Salpers-Key
integer
15
主键
Salpers-Name
char
30
销售员姓名
Territory
char
20
销售员所在区域
Region
char
20
所在地区
订单事实表
销售数据和维
销售数据
商品
促销
时间
部门
城市
地区
商店
图4.2 销售业务的多维数据
（4）确定数据汇总水平
（5）设计事实表和维表
按使用的DBMS和分析用户工具，证实设计方案的有效性根据系统使用的DBMS，确定事实表和维表的具体实现。由于不同的DBMS对数据存储有不同的要求，因此设计方案是否有效还要放在DBMS中进行检验
包括公司收到的所有订单
Order-Key
integer
10
订单键
Order-Name
char
20
订单名称
Product-ref
integer
10
参考产品主键

数据仓库建设方案(DOC32页)

第1章数据仓库建设方案（DOC32页）1.1 数据仓库总体架构专家系统接收增购项目车辆TCMS或者其他子系统通过车地通信传输的实时或者离线数据，通过一系列综合诊断分析，以各类报表图形或者信息推送的形式向用户展示分析结果。

针对诊断出的车辆故障将给出专家建议处理措施，为车辆的故障根因修复提供必要的支持。

根据专家系统数据仓库建设目标，结合系统数据业务规范，包含数据采集频率、数据采集量等有关因素，设计专家系统数据仓库架构如下：数据仓库架构从层次结构上分为数据采集、数据存、数据分析、数据服务等几个方面的内容：数据采集：负责从各业务自系统中汇合信息数据，系统支撑Kafka、Storm、Flume 及传统的ETL采集工具。

数据存储：本系统提供Hdfs、Hbase及RDBMS相结合的存储模式，支持海量数据的分布式存储。

数据分析：数据仓库体系支持传统的OLAP分析及基于Spark常规机器学习算法。

数据服务总线：数据系统提供数据服务总线服务，实现对数据资源的统一管理与调度，并对外提供数据服务。

1.2 数据采集专家系统数据仓库数据采集包含两个部分内容：外部数据汇合、内部各层数据的提取与加载。

外部数据汇合是指从TCMS、车载子系统等外部信息系统汇合数据到专家数据仓库的操作型存储层（ODS）；内部各层数据的提取与加载是指数据仓库各存储层间的数据提取、转换与加载。

1.2.1外部数据汇合专家数据仓库数据源包含列车监控与检测系统（TCMS）、车载子系统等有关子系统，数据采集的内容分为实时数据采集与定时数据采集两大类，实时数据采集要紧关于各项检测指标数据；非实时采集包含日检修数据等。

根据项目信息汇合要求，列车指标信息采集具有采集数据量大，采集频率高的特点，考虑到系统后期的扩展，因此在数据数据采集方面，要求采集体系支持高吞吐量、高频率、海量数据采集，同时系统应该灵活可配置，可根据业务的需要进行灵活配置横向扩展。

本方案在数据采集架构使用Flume+Kafka+Storm的组合架构，使用Flume与ETL 工具作为Kafka的Producer，使用Storm作为Kafka的Consumer，Storm可实现对海量数据的实时处理，及时对问题指标进行预警。