BI_数仓整理学习

BI_数仓整理学习
BI_数仓整理学习

BI数据仓库学习整理

学习整理

1

BI

Business Intelligence,即商业智能,商务智能综合企业所有沉淀下来的信息,用科学的分析方法,为企业领导提供科学决策信息的过程。

BOSS业务运营支撑系

BPM企业绩效管理

BPR业务流程重整

CRM客户关系管理

CUBE立方体

DM(Datamart)数据集市数据仓库的子集,它含有较少的主题域且历史时间更短数据量更少,一般只能为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。

DM(DataMine)数据挖掘

DSS决策支持系统

EDM企业数据模型

3

ERP

Enterprise Resourse Planning企业资源规划。它是一个以管理会计为核心的信息系统,识别和规划企业资源,从而获取客户订单,完成加工和交付,最后得到客户付款。换言之,ERP将企业内部所有资源整合在一起,对八个采购、生产、成本、库存、分销、运输、财务、人力资源进行规划,从而达到最佳资源组合,取得最佳效益。

4

ETL

数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终

按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。

KDD数据库中知识发现

5 KPI

企业关键业绩指标(KPI:KeyProcessIndication)是通过对组织内部流程的输入端、输出端的关键参数进行设臵、取样、计算、分析,衡量流程绩效的一种目标式量化管理指标,是把企业的战略目标分解为可操作的工作目标的工具,是企业绩效管理的基础。

LDM逻辑数据模型

6 MDD

多维数据库(Multi Dimesional Database,MDD)可以简单地理解为:将数据存放在一个n维数组中,而不是像关系数据库那样以记录的形式存放。因此它存在大量稀疏矩阵,人们可以通过多维视图来观察数据。多维数据库增加了一个时间维,与关系数据库相比,它的优势在于可以提高数据处理速度,加快反应时间,提高查询效率。

Metadata(元数据),它是“关于数据的数据,其内容主要包括数据仓库的数据字典、数据的定义、数据的抽取规则、数据的转换规则、数据加载频率等信息。

MOLAP自行建立了多维数据库,来存放联机分析系统数据

7 ODS(四个特点)

(Oprational Data Store)操作型数据存储,是建立在数据准备区和数据仓库之间的一个部件。用来满足企业集成的、综合的操作型处理需要,操作数据存储是个可选的部件。对于一些准实时的业务数据库当中的数据的暂时存储,支持一些同时关连到历史数据与实时数据分析的数据暂时存储区域。

8 什么是数据集市DM

数据集市可以看作是数据仓库的一个子集,它含有较少的主题域且历史时间更短数据量更少,一般只能为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。

二数据仓库

DW

Datawarehouse,数据仓库是一个集合或过程,4要素面向主题,集成,时间相关(反映历史变化),(稳定)不可修改的数据集合。

数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。

下图是一个典型的企业数据仓库系统,通常包含数据源、数据存储与管理、数据的访问三个部分:

最为重要的一张图

这张图可以看出四个特点中,面向对象,集成,

数据源:是指企业操作型数据库中的各种生产运营数据即OLIP

数据的存储与管理:数据仓库的存储主要由元数据的存储及数据的存储两部分组

成。元数据是关于数据的数据,其内容主要包括数据仓库的数据字典、数据的定义、数

据的抽取规则、数据的转换规则、数据加载频率等信息。各操作数据库中的数据按照元

数据库中定义的规则,经过抽取、清理、转换、集成,按照主题重新组织,依照相应的

存储结构进行存储

数据的访问:由OLAP(联机分析处理)、数据挖掘、统计报表、即席查询等几部分组

成。例如OLAP:针对特定的分析主题,设计多种可能的观察形式,设计相应的分析主题结构(即进行事实表和维表的设计),使管理决策人员在多维数据模型的基础上进行快速、稳定和交互性的访问,并进行各种复杂的分析和预测工作。

按照存储方式来分,OLAP可以分成MOLAP以及ROLAP等方式,

MOLAP (Multi-Dimension OLAP)将OLAP分析所需的数据存放在多维数据库中。分析主题的数据可以形成一个或多个多维立方体。

ROLAP(Relational OLAP)将OLAP分析所需的数据存放在关系型数据库中。分析主题的数据以“事实表-维表”的星型模式组织。

三企业信息工厂

企业信息工厂(Corporate Information Factory,简称EIF)是一种构建数据仓库的架构。企业信息工厂主要包括五个集成转换层(I&T)、操作数据存储(ODS)、企业级数据仓

库(EDW)、数据集市(DM)、探索仓库(EW)等部件。这些部件有机的结合在一起,为企业提供信息服务。

企业级数据仓库是企业信息工厂的核心部件,用来保存整个企业的数据。一般,也

称数据仓库,是用来满足企业战略决策的需要。数据仓库的数据来自数据准备区和操作

数据存储。

数据集市

的数据来源是数据仓库。企业信息工厂中的数据集市一般来说是非规范化的、定制的和

汇总的。而多维体系架构中的数据集市分为两种,分别是原子数据集市和聚集数据集市。一般来说,企业信息工厂中的数据集市相当于多维体系架构中的聚集数据集市。

企业信息工厂中的数据流向一般是从源系统到数据准备区到操作数据存储到数据

仓库到数据集市

维Dimension

维,是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维。商店、时间和产品都是维。各个商店的集合是一个维,时间的集合是一个维,商品的集合也是一个维。

代理关键字(维ID)

代理关键字一般是指维度表中使用顺序(序列)分配的整数值作为主键,也称为“代理键”。代理关键字用于维度表和事实表的连接。

使用代理关键字可以用来处理缓慢变化维。维度表数据的历史变化信息的保存是

数据仓库设计的实施中非常重要的一部分。Kimball的缓慢变化维处理策略的核心就是

使用代理关键字。

优点

1缓冲

2性能

3建不存在的维度记录

4缓慢变化维处理

缓慢变化维(能力的体现)

随着时间的流失发生缓慢的变化

处理缓慢变化维的方法通常有三种方式:

第一种方式是直接覆盖原值。这样处理,最容易实现,但是没有保留历史数据,无

法分析历史变化信息。第一种方式通常简称为“TYPE 1”。

第二种方式是添加维度行。这样处理,需要代理键的支持。实现方式是当有维度属

性发生变化时,生成一条新的维度记录,主键是新分配的代理键,通过自然键可以和原

维度记录保持关联。第二种方式通常简称为“TYPE 2”。

第三种方式是添加属性列。这种处理的实现方式是对于需要分析历史信息的属性添

加一列,来记录该属性变化前的值,而本属性字段使用TYPE 1来直接覆盖。这种方式

的优点是可以同时分析当前及前一次变化的属性值,缺点是只保留了最后一次变化信

息。第三种方式通常简称为“TYPE 3”。

退化维度

事实表中的部分ID如订单号,但他没有对应的维度表,这编号称为退化维

微型维度

为了解决快变超大维度,解决的方法是,将分析频率比较高或者变化

频率比较大的字段提取出来,建立一个单独的维度表。这个单独的维度表就是微型维度表。

多维体系结构(MD)中的三个关键性概念,

一致性维度,总线架构(Bus Architecture)和一致性事实(Conformed Fact)

一致性维度

解决数据仓库的集成问题

在多维体系结构中,没有物理上的数据仓库,由物理上的数据集市组合成逻辑上的

数据仓库。而且数据集市的建立是可以逐步完成的,最终组合在一起,成为一个数据仓库。如果分步建立数据集市的过程出现了问题,数据集市就会变成孤立的集市,不能组

合成数据仓库,而一致性维度的提出正式为了解决这个问题。

一致性维度的范围是总线架构中的维

一致性维度建立的地点是多维体系结构的后台(Back Room),即数据准备区。

在同一个集市内,一致性维度的意思是两个维度如果有关系

事实表

,主要有三种事实表,分别是事务粒度事实表

(Transaction Grain Fact Table),周期快照粒度事实表(Periodic Snapshot Grain Fact Table)和累积快照粒度事实表(Accumulating Snapshot Grain Fact Table);从用途的不同来说,事实表可以分为三类,分别是原子事实表,聚集事实表和合并事实表。

粒度分类

事务事实表(Transaction fact table)记录的事务层面的事实,保存的是最原子的数据,也称“原子事实表”

周期快照事实表(Periodic snapshot fact table)以具有规律性的、可预见的时间间

隔来记录事实,时间间隔如每天、每月、每年等等

用途分类

聚集事实表(Aggregated Fact Table)是原子事实表上的汇总数据,也称为汇总事

实表如只有月度维,求和,平均值等

合并事实表

建立一个事实表,它的维度是两个或多个事实表的相同维度的集合

聚集事实表和合并事实表的主要差别是合并事实表一般是从多个事实表合并而来。

但是它们的差别不是绝对的,一个事实表既是聚集事实表又是合并事实表是很有可能

的。因为一般合并事实表需要按相同的维度合并,所以很可能在做合并的同时需要进行

聚集,即粒度变粗。

非重点

预连接聚集表(pre-joined aggregagte table)是通过对事实表和维度表的联合查询

而生成的一类汇总表。在预连接聚集表中,保存有维度表中的描述信息和事实表的事实值。

切片事实表

切片事实表的结构与相对应的基础表相同,数据来源于相对应的基础表。切片事实

表由于缩小了表中数据的记录数,所以查询的效率得到了很大的提高

蜈蚣事实表

)是指那些一张事实表中有太多维度的事实表事实表相关的维度在15个以下为正常,如果维度个数超过25个,就出现

了维度过多的蜈蚣事实表

一致性事实

一致性事实和一致性维度有些不同,一致性维度是由专人维护在后台(Back Room),发生修改时同步复制到每个数据集市,而事实表一般不会在多个数据集市间复制。需要

查询多个数据集市中的事实时,一般通过交叉探查(drill across)来实现。

1.5 数据集市

即席查询

即席查询的位臵通常是在关系型的数据仓库中

ODS:操作数据存储(ODS)

是面向主题的、集成的、可变的、反映当前数据值的和详细的数据的集合,用来满足企业综合的、集成的以及操作型的处理需求。

个人不建议ODS保存相当长周期的数据,同样

ODS中的数据也尽量不做转换,而是原封不动地与业务数据库保持一致。即ODS只是业务数据库的一个备份或者映像,目的是为了使数据仓库的处理和决策支持要求与OLTP系统相隔离,减少决策支持要求对OLTP系统的影响。

ODS的四个作用

1在业务系统和数据仓库之间形成一个隔离层

2分担转移一部分业务系统细节查询的功能

3完成数据仓库中不能完成的一些功能

ODS是细节数据仓库是汇总

元数据

随着数据仓库(DW)技术的不断成熟,企业的数据逐渐变成了决策的主要依据。

数据仓库中的数据是从许多业务处理系统中抽取、转换而来,对于这样一个复杂的企业数据环境,如何以安全、高效的方式来对它们进行管理和访问就变得尤为重要。解决这一问题的关键就是建立数据仓库元数据

ETL(重点)

ETL/BI=1/3, (BI的成败)

T/ETL=2/3

so T/Bi=2/9~~1/4

ETL是BI项目重要的一个环节。通常情况下,在BI项目中ETL会花掉整个项目的1/3的时间,ETL 设计的好坏直接关接到BI项目的成败。ETL三个部分中,花费时间最长的是“T”(Transform,清洗、转换)的部分,一般情况

下这部分工作量是整个ETL的2/3。就是整个项目的2/9差不多四分之一

ETL的实现有多种方法,常用的有三种。一种是借助ETL工具实现,一种是SQL方

式实现,另外一种是ETL工具和SQL相结合

数据抽取(三种情况)

1在DW数据库服务器和原业务系统之间建立直接的链接关系就可以写select语句直接访问2不同的数据源解决方法:ODBC的方式建立数据库链接或方法三

3 txt xml利用数据库工具将这些数据导入到指定的数据库,然后从指定的数据库中抽取

4增量更新的问题

数据清洗

1不完整的数据

2错误的数据

3重复的数据

数据转换

1不一致数据转换: 抽取过来之后统一转换成一个编码

2数据粒度的转换:业务系统数据按照数据仓库粒度进行聚合。

3商务规则的计算:ETL中将这些数据指标计算好了之后存储在数据仓库中,以供分析使用数据加载策略

1时间戳方式

2日志表方式

3全表比对方式upset

4全表删除插入方式

OLAP

On-Line Transaction Processing联机事务处理系统(OLTP)

也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。这样做的最大优点是可以即时地处理输入的数据,及时地回答。也称为实时系统(Real time System)。

OLAP (联机分析处理系统)多维数据分析工具的集合

联机分析处理是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入

了解的一类软件技术。

钻取(Drill) :它是改变维的层次,变换分析的粒度。钻取包含向下钻取(Drill-down)

和向上钻取(Drill-up)/上卷(Roll-up)操作,roll up是在某一维上将低层次的细节数据概

括到高层次的汇总数据,或者减少维数;而drill down则相反,它从汇总数据深入到细

节数据进行观察或增加新维。

OLAP的实现方法,根据存储数据的方式不同可以分为ROLAP、MOLAP、HOLAP

表示基于关系数据库的OLAP实现

ROLAP(事实表维度表的设计)

将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事

实表通过主关键字和外关键字联系在一起,形成了“星型模型”。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模型的扩展称为“雪花模型”。

MOLAP

表示基于多维数据组织的OLAP实现(Multidimensional OLAP)。以多维数据组织方式为核心,也就是说,MOLAP使用多维数组存储数据。多维数据在存储中将形成“立方块(Cube)”的结构,在MOLAP中对立方块的“旋转”、“切块”、“切片”是产生多维数据报表的主要技术。

旋转行列转换一条记录中的多个事实字段转化为多条记录

切块

切片的字段结构和相应的基础表完全相同,差别在于存储的记录的范围。切片事实表中保存记录的是相应基础表中记录的子集,记录数通常与某个维度记录数相同。

OLAP存储方式优缺点

一.多维存储方式(MOLAP)

MOLAP在服务器上对数据立方体数组及其管理技术的实现,可以所有的信息查询

都从MOLAP服务器上获得。

?优势

?性能好、响应速度快;

?支持高性能的决策支持计算;

?复杂的跨维计算;

?多用户的读写操作。

?缺点

?占用的存储空间较大

?难以达到TB 级数据量;

?需要进行预计算,可能导致数据爆炸;

?无法支持维的动态变化;

?缺乏数据模型和数据访问的标准。

二.关系数据库存储方式(ROLAP)

ROLAP充分利用关系数据库技术将明细数据和聚合数据存储在一个关系型结构中

的存储方式。

?优势

?没有大小限制;现有的关系数据库的技术可以沿用;

?可以通过SQL实现详细数据与概要数据的储存;

?现有关系型数据库已经对OLAP做了很多优化,包括并行存储、并行查询、位图索引、SQl 的OLAP扩展等大大提高了ROALP的速度;

?查询性能较不如MOLAP方式。

?占用的存储空间较少

?缺点

?一般比MDD响应速度慢;

?SQL无法完成部分计算,主要是无法完成多行的计算,无法完成维之间的计算。

三.混合存储方式(HOLAP)

将聚合存储到分析服务器计算机上的多维结构中,并将分区的源数据保留在它现有的关系型结构中的存储方式。

?特点

?查询性能介于以上两种方式之间

?占用的存储空间介于以上两种方式之间

?适用于在对基于大量基本数据的汇总进行查询时需要快速响应的多维数据集

数据仓库架构

数据仓库架构比较成熟并已经形成理论的主要有两个

一个是Corporate

Information Factory,简称CIF,中文一般翻译为企业信息工厂

简称MD,中文一般翻译为多维体系结构

企业信息工厂主要包括集成转换层(Integrated and Transformation Layer)、操作

数据存储(Operational Data Store)、数据仓库(Enterprise Data Warehouse)、数据集市(Data Mart)、探索仓库(Exploration Warehouse)等部件。

多维体系结构分为后台(Back Room)和前台(Front Room)两部分。后台主要负

责数据准备工作,称为数据准备区(Staging Area),前台主要负责数据展示工作,称为数据集市(Data Mart)。而数据仓库是一个虚拟的部件,它指的是全部数据集市的集合。

数据准备区:就是OLTP的更新数据

Staging区:对存储空间的要求是临时的,且是暂时存放每天从OLTP系统抽取的变更的数据。

ODS区,存放两部分数据,一部分是当前变更的数据,一部分是存放从OLTP抽取的历

史数据。

BaseLine区,该区存放经过转换后的细节数据。

DataMart区,该区存放汇总数据。

学习整理

相关主题
相关文档
最新文档