数据仓库设计与建模的数据仓库与数据集市比较

合集下载

操作数据存储ODS和数据集市详解ppt课件

在第一步中定义出来了企业范围内的高层数据视图，以及所收集到的各种业务系统的资料，在这一步中，需要对大的数据主题进行分解，并进行主题定义，直到每个主题能够直接对应一个主题数据模型为止。
在这个阶段，将把第一步生成的每个ER图中的实体进行分解，分解的结果仍以ER表示为佳。
13
3 建立ODS 3.1 ODS数据模型设计
数据延迟时间越短，ODS建设难度越高。其中I 类ODS的建设难度最高，建设成本也是最高的。而且由于I 类
ODS的实时性，对于技术的要求与其它类型ODS也有所不同，一般来讲需要用到EAI技术，但随着当前企业对数据仓库的实时性要求越来越高，相信I 类ODS会变得越来越重要。通常在企业应用架构中，ODS是一个可选件，但一旦需要用到ODS 的功能，那么ODS本身就将变得极为重要。目前应用的比较多的是IV 类ODS，因为一旦将决策分析结果加载到
定义主题
主题名称和含义，说明该主题主要包含哪些数据，用于什么分析；
主题所包含的维和度量；
主题的事实表，以及事实表的数据。
定义粒度
主题中事实表的数据粒度说明，这种粒度可以通过对维的层次限制加以说明，也可以通过对事实表数据的业务细节程度进行说明。
定义存储期限
主题中事实表中的数据存储周期。
7
ODS中，重要决策信息的高性能联机支持将成为可能。
2 DB-ODS-DW体系结构 2.1 简单结构
DB 应用
DB DB 操作型环境
ODS
特点：1)ODS的记录在DB中； 2)DW的记录在ODS中。
DW 分析型环境
8
2 DB-ODS-DW体系结构 2.2 复杂结构
ODS
Relational
Appl. Package

数据仓库概述(概念、应用、体系结构)

使用浏览分析工具在数据仓库中寻找有用的信息；基于数据仓库，在数据仓库系统上建立应用，形成决策支持系统。
事务处理分析处理
DB
从数据 OLTP 数据
DW
从数据信息（知识） OLAP（DM、OLAM）
18
数据仓库与传统数据库的区别
19
OLTP和OLAP的区别

用户和系统的面向性:

转换描述从操作数据库到数据仓库的映射方法以及转换数据的算法访问权限备份历史存档历史信息传输历史数据获取历史数据访问等等29主题区和信息对象类型包括查询报表图像音频视频等支持数据仓库的其它信息例如信息传输系统包括的预约信息调度信息传送目标的详细描述商业查询对例如数据历史快照版本拥有权数据抽取的审计跟踪数据的使用方法30与数据访问和分析工具的集成31元数据库metadatarepository和工具32主要使用数据来源的物理结构信息企业数据模型和仓库数据模型最终用户最关心两类元数据
4
业务系统不适宜DSS应用

事务处理和分析处理的性能要求和特性不同

事务处理对数据的存取操作频率高而每次操作处理的时间短；在分析处理环境中，某个DSS应用程序可能需要连续几个小时，会消耗大量的系统资源。

数据集成问题历史数据问题数据的综合问题（更高粒度）
5
建立数据仓库的投资回报
数据模型：（1）逻辑数据结构，包括为有效进行数据
用的数据集合,是不同于DB的一种新的数据环境, 是DW 扩展后得到的一个混合形式。四个基本特点：面向主题的、集成的、可变的、当前或接近当前的。库处理由DBMS提供的操作和约束；（2）数据表示系统（例如，ER图和关系模型）。
25
元数据

通俗易懂数仓建模—Inmon范式建模与Kimball维度建模

通俗易懂数仓建模—Inmon范式建模与Kimball维度建模在数据仓库领域，有两位大师，一位是“数据仓库”之父B i l l I n m o n，一位是数据仓库权威专家R a l p h K im ba l l，两位大师每人都有一本经典著作，I n m o n大师著作《数据仓库》及K im ba l l大师的《数仓工具箱》，两本书也代表了两种不同的数仓建设模式，这两种架构模式支撑了数据仓库以及商业智能近二十年的发展。

今天我们就来聊下这两种建模方式——范式建模和维度建模。

本文开始先简单理解两种建模的核心思想，然后根据一个具体的例子，分别使用这两种建模方式进行建模，大家便会一目了然！一、两种建模思想对于In mo n和K i m ba l l两种建模方式可以长篇大论叙述，但理论是很枯燥的，尤其是晦涩难懂的文字，大家读完估计也不会收获太多，所以我根据自己的理解用通俗的语言提炼出最核心的概念。

范式建模范式建模是数仓之父In mo n所倡导的，“数据仓库”这个词就是这位大师所定义的，这种建模方式在范式理论上符合3N F，这里的3N F与O L T P中的3N F还是有点区别的：关系数据库中的3N F是针对具体的业务流程的实体对象关系抽象，而数据仓库的3N F是站在企业角度面向主题的抽象。

I n m o n模型从流程上看是自上而下的，自上而下指的是数据的流向，“上”即数据的上游，“下”即数据的下游，即从分散异构的数据源-> 数据仓库-> 数据集市。

以数据源头为导向，然后一步步探索获取尽量符合预期的数据，因为数据源往往是异构的，所以会更加强调数据的清洗工作，将数据抽取为实体-关系模型，并不强调事实表和维度表的概念。

维度建模K i m b al l模型从流程上看是自下而上的，即从数据集市-> 数据仓库-> 分散异构的数据源。

K i mb a l l是以最终任务为导向，将数据按照目标拆分出不同的表需求，数据会抽取为事实-维度模型，数据源经E T L转化为事实表和维度表导入数据集市，以星型模型或雪花模型等方式构建维度数据仓库，架构体系中，数据集市与数据仓库是紧密结合的，数据集市是数据仓库中一个逻辑上的主题域。

数据仓库之数据建模理论

数据仓库之数据建模理论数据仓库建模理论就像⼤厦的地基，只有把建模理论理解清楚，在数据建模时才能有理有据。

作为⼀个数据仓库开发⼈员，数据建模理论是我们必须要掌握和理解的⼀部分，只要充分理解了数据建模理论知识，在建设数据仓库时我们就可轻松上⼿。

数据建模理论Kimball维度建模和 Inmon范式建模数据仓库的两⼤模式：Kimball维度建模和 Inmon范式建模⼀、Inmon范式建模1.1、什么是Inmon范式模型？数据仓库是商业智能的⼀部分，⼀家企业或公司只有⼀个数据仓库，数据集市的信息皆来源数据仓库。

现在的数据库⼤多数都是依据3FN范式来建⽴的，⽽依据范式的思想来进⾏数据仓库建模，就是范式建模。

数据仓库中的数据信息必须符合第三范式。

范式是关系型数据库的基本概念。

是指符合某些条件、符合某些规则的关系集合。

范式是分级的，每向上⼀级，条件和规则更加严格，每⼀级是下⼀级的⼦集。

范式最主要的⽬的是消除冗余，每⼀份信息必须存放⼀次，也只能存储⼀次。

数据的冗余不仅仅会造成存储资源的浪费，⽽且可能会引发数据的更新异常。

⼆、Kimball维度建模2.1、什么是Kimball维度建模？数据仓库是公司内部所有数据集市的集合，信息总是被存储在多维模型中。

是⾯向数据集市、数据主题的，⼀般采⽤星型模型建模。

依据星型模型，构建事实表和维度表，建⽴数据仓库模型的过程，就是维度建模。

Kimball的核⼼思想就是星型模型和维度建模。

2.2、什么是星型模型？所有的表直接与事实表关联，整个图解就像星星⼀样，该模型称为星型模型。

星型模型是⼀种⾮正规化的结构，是反范式的。

因为多维数据集的每⼀个维度都直接与事实表相连接，不存在渐变维度，所以数据有⼀定的冗余，星型模型2.3、事实表和维度表事实表描述业务过程的度量、以可加数据为主题，每⼀⾏代表⼀个可以观察的实体或事件。

主要的是发⽣了业务过程，如卖出⼀件商品，⽤户购买⼀件商品，这都触发了业务过程。

数据仓库与数据挖掘教程(第2版)陈文伟版课后答案

第一章数据仓库与数据挖掘概述1.数据库与数据仓库的本质差别是什么？答：数据库用于事务处理，数据仓库用于决策分析;数据库保持事务处理的当前状态，数据仓库既保存过去的数据又保存当前的数据;数据仓库的数据是大量数据库的集成;对数据库的操作比较明确，操作数据量少,对数据仓库操作不明确，操作数据量大。

数据库是细节的、在存取时准确的、可更新的、一次操作数据量小、面向应用且支持管理；数据仓库是综合或提炼的、代表过去的数据、不更新、一次操作数据量大、面向分析且支持决策。

6.说明OLTP与OLAP的主要区别。

答：OLTP针对的是细节性数据、当前数据、经常更新、一次性处理的数据量小、对响应时间要求高且面向应用，事务驱动； OLAP针对的是综合性数据、历史数据、不更新，但周期性刷新、一次处理的数据量大、响应时间合理且面向分析，分析驱动。

8.元数据的定义是什么？答：元数据（metadata）定义为关于数据的数据（data about data），即元数据描述了数据仓库的数据和环境。

9.元数据与数据字典的关系什么？答：在数据仓库中引入了“元数据”的概念，它不仅仅是数据仓库的字典，而且还是数据仓库本身信息的数据。

18.说明统计学与数据挖掘的不同。

答：统计学主要是对数量数据（数值）或连续值数据（如年龄、工资等），进行数值计算（如初等运算）的定量分析，得到数量信息。

数据挖掘主要对离散数据（如职称、病症等）进行定性分析（覆盖、归纳等），得到规则知识。

19.说明数据仓库与数据挖掘的区别与联系。

答：数据仓库是一种存储技术，它能适应于不同用户对不同决策需要提供所需的数据和信；数据挖掘研究各种方法和技术，从大量的数据中挖掘出有用的信息和知识。

数据仓库与数据挖掘都是决策支持新技术。

但它们有着完全不同的辅助决策方式。

在数据仓库系统的前端的分析工具中，数据挖掘是其中重要工具之一。

它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。

数据仓库和数据挖掘的结合对支持决策会起更大的作用。

数据仓库设计与建模的星座模型与星型模型比较(六)

数据仓库设计与建模的星座模型与星型模型比较随着信息时代的到来，数据的积累和分析成为企业决策和发展的重要依据。

数据仓库的建设成为了企业重要的信息系统之一。

在数据仓库的设计与建模中，星座模型和星型模型是常见的两种建模方法。

本文将对这两种建模方法进行比较，探讨它们的优缺点和适用范围。

一、星座模型星座模型，又称为雪花模型，是一种比较常见的数据仓库建模方法。

它通过将事实表和维度表进行规范化设计，降低了数据冗余和重复存储的问题。

在星座模型中，事实表是数据仓库中最重要的组成部分，它包含了与业务相关的度量和指标，例如销售额、利润等。

维度表则包含了业务特征或属性，例如时间、地域、产品等。

维度表通过主键与事实表进行关联，构成了一个星型结构。

星座模型的优点在于结构清晰、易于理解和维护。

由于事实表和维度表的规范化设计，数据冗余和存储问题得到了一定程度的解决。

同时，星座模型可以灵活地适应不同业务需求，可以根据需要进行维度的添加或删除，便于数据的扩展和更新。

然而，星座模型也存在一些不足之处。

首先，由于规范化设计，星座模型在处理复杂的关系和联接查询时，可能会导致性能的下降。

其次，星座模型对于多对多关系的处理比较困难，可能需要引入中间表来解决这个问题。

此外，由于维度表的数量较大，数据库的查询和维护会变得复杂，需要更多的时间和资源。

二、星型模型星型模型，是另一种常见的数据仓库建模方法。

它与星座模型的区别在于，星型模型将维度表进行了冗余存储，即将事实表和维度表通过冗余关系进行直接关联。

这种设计方法使得数据查询和联接更加简单和高效。

在星型模型中，事实表依然是数据仓库的核心，而维度表则通过冗余关系与事实表直接关联。

星型模型的优点在于简单、高效、易于理解和维护。

由于冗余关系的设计，星型模型的查询和联接操作更加方便和快速，适合处理复杂的关系和多对多的数据关联。

此外，星型模型的维护成本相对较低，由于维度表的冗余存储，减少了数据库查询和联接的负担。

数据仓库中的维度建模与事实表设计

数据仓库中的维度建模与事实表设计数据仓库是一个集成的、主题导向的、时间可变的、非易失性的数据存储，用于支持管理决策。

在数据仓库中，维度建模和事实表设计是非常重要的，它们是数据仓库设计的核心。

维度建模是指将数据仓库中的数据组织成一个统一的、易于理解的维度模型，而事实表设计则是指如何将业务过程和指标以一种易于查询和分析的方式存储到数据库中。

在本文中，我们将探讨数据仓库中的维度建模与事实表设计的相关内容。

一、维度建模维度建模是数据仓库设计的核心，它是数据仓库中维度和事实之间的关系模型。

维度模型由事实表和维度表组成，它们之间存在着一对多的关系。

维度模型是一个简单直观的模型，它将业务过程和指标以一种易于理解的方式组织起来。

1.维度表在维度建模中，维度表是非常重要的，它是用来描述业务对象的表。

维度表通常包含了多个属性字段，每个属性字段描述了业务对象的一个特定属性。

比如，在销售数据中，维度表可能包含了产品、时间、地点等属性字段。

2.事实表事实表是数据仓库中存储业务过程和指标的表，它包含了一个或多个度量字段，度量字段是用来度量业务活动的指标。

事实表和维度表之间通过外键关联起来，事实表中的度量字段通常是和维度表的外键字段关联的。

3.星型模式维度模型通常被称为星型模式，因为它的结构呈现出星型的形状。

在星型模式中，中心的事实表被围绕着多个维度表组织起来，形成了一个星型的结构。

4.雪花模式除了星型模式之外，还有一个常见的维度模型是雪花模式。

在雪花模式中，维度表的层次结构被规范化成多个维度表，这样可以节省存储空间，但也会增加查询复杂度。

5.维度层次维度表中的属性字段通常是按照层次结构组织起来的，比如在时间维度中，可以有年、季度、月、日等层次。

在维度建模中，采用自然层次结构的维度表是非常重要的，它可以帮助用户更加方便地进行查询和分析。

维度建模是数据仓库设计的核心，它可以帮助用户更加方便地理解业务过程和指标。

通过合理的维度建模，可以提高数据仓库的查询性能，减少数据冗余，提高数据的一致性和可靠性。

数据集市设计原则

数据集市设计原则数据集市(DM)这里我们先回忆一下数据仓库的定义，数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合用于支持管理决策。

更多关于数据仓库的可以参考数仓架构发展史,而且前面我们也介绍了大量关于数仓建模这一块的内容，具体可以参考我们的专栏数仓建模方法论。

今天我们介绍一个在数仓中非常常见的概念——数据集市，数仓定义中的五个特性都值得一一仔细品味，随着你对数仓的理解加深，你对这个五个特性的理解也会更加全面。

首先数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成，集成后按照主题进行了重组,并包含历史数据并且存放在数据仓库中的数据一般不再修改。

什么是数据集市(DM)这里有一个词是主题，那就是我们集成后的数据，又按照了主题进行了划分，而面向主题划分出来的部分就是数据集市，也就是说数据集市是数据仓库的一个子集或者说是集成后的子集。

数据集市通常是面向部门的或者是部门级业务，或者是面向部门的主题的，举个例子例如在金融领域可能会有结算部门的数据集市、风控部部门数据集市、市场部门的数据集市、运营部门的数据集市，这里的特点就是面向部门的，但是对于有的部门它的组织结构可能比较大，所以它所负责的业务线也有多个，这个时候就会出现，数据集市是面向部门的子业务，总之一句话，数据集市是面向主题的，一般公司的主题就是部门或者业务线。

这里还有一点要强调数据集市是作为我们数仓的一层，对外提供数据服务，当然提供服务的方式是有很多种的，但是最终我们是将数据集市层的数据提供出去的，也就是说这一层是面向用户的。

为什么要有数据集市上面了解了什么是数据集市，接下来我们就看看一下为什么要有数据集市，开始之前我们线回顾一下前面的数仓建模分层理论,我们知道了数仓最简单的就是ODS+DM，但为什么我们还要分层，在文章中我们解释了分层的意义是什么，如果你忘记了可以看一下前面的文章。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据仓库设计与建模的数据仓库与数据集市比较
数据仓库和数据集市是企业中常用的数据管理和分析工具，它们都可以用于存储和分析大量的数据。

虽然两者都具有相似的功能，但在设计和建模方面存在一些差异。

1. 数据仓库的设计与建模
数据仓库是一个用于存储和管理大量数据的系统。

它的设计和建模主要包括以下几个方面：
数据抽取和转换
在数据仓库中，数据的抽取和转换是一个重要的步骤。

数据仓库通常从多个异构的数据源中获取数据，并将其转换为可分析的格式。

这个过程需要考虑数据的粒度、数据的一致性以及数据抽取的效率等问题。

数据集成和聚合
数据仓库还需要将不同数据源的数据进行集成和聚合，以便进行综合的分析。

这个过程需要考虑数据的结构和格式的兼容性以及聚合规则的设计。

数据建模
数据仓库的数据建模是一个关键的步骤。

它决定了数据的组织结构、数据的关系以及数据的查询和分析方式。

数据建模常用的方法包
括星型模型、雪花模型和多维模型等。

2. 数据集市的设计与建模
数据集市是一个专门用于存储和管理某个特定领域的数据的系统。

与数据仓库不同，数据集市更加关注业务需求和用户需求，它的设计
和建模主要包括以下几个方面：
数据定义和分类
在数据集市中，数据的定义和分类是一个重要的步骤。

数据集市
需要根据业务需求和用户需求，定义和分类不同的数据对象和数据集合。

数据集成和转换
数据集市通常从数据仓库或其他数据源中获取数据，并将其转换
为用户可理解和可应用的格式。

这个过程需要考虑数据的一致性、数
据的完整性以及数据的转换规则等问题。

数据建模
数据集市的数据建模也是一个关键的步骤。

它决定了数据的组织
结构、数据的关系以及数据的查询和分析方式。

数据建模常用的方法
包括实体-关系模型和面向对象模型等。

3. 数据仓库与数据集市的比较
数据仓库和数据集市在设计和建模方面存在一些差异。

数据仓库
更加关注数据的整合和分析，它的设计和建模主要从数据的角度出发，强调数据的抽取、转换和聚合。

而数据集市更加关注业务需求和用户
需求，它的设计和建模主要从用户的角度出发，强调数据的分类、集
成和转换。

此外，数据仓库和数据集市在数据建模方面也有一些差异。

数据
仓库的数据建模常用的方法包括星型模型、雪花模型和多维模型等，
这些模型适合对大量的结构化数据进行分析。

而数据集市的数据建模
常用的方法包括实体-关系模型和面向对象模型等，这些模型适合对某
个特定领域的数据进行分析。

总之，数据仓库和数据集市都是重要的数据管理和分析工具。

它
们在设计和建模方面存在一些差异，但都可以用于存储和分析大量的
数据。

在实际应用中，企业可以根据具体的需求和场景选择合适的数
据管理和分析工具，以提高数据的价值和应用效果。