数据仓库建模方法论

合集下载

数据仓库建设方法论

数据仓库建设方法论数据仓库建设是一个复杂而又关键的过程，需要仔细的规划和实施。

在数据仓库建设过程中，需要遵循一定的方法论，以确保数据仓库能够达到预期的效果和价值。

1. 确定业务需求在数据仓库建设之前，需要对业务需求进行详细的分析和梳理。

这包括对业务流程、数据来源、数据结构、数据质量等方面进行全面的调研和了解。

只有深入了解业务需求，才能够确定数据仓库的建设方向和目标。

2. 设计数据模型在确定了业务需求后，需要对数据进行建模。

数据模型是一个抽象的概念，它描述了数据的结构和关系。

一个好的数据模型应该具有清晰的层次结构，易于维护和扩展，同时还需要考虑数据的性能和安全性。

3. 确定数据采集方式数据采集是数据仓库建设的第一步，也是最重要的步骤之一。

数据采集需要考虑数据来源、数据格式、数据质量等方面，同时还需要根据业务需求确定数据采集的频率和方式。

数据采集的过程需要严格遵循标准化流程，以确保数据的准确性和完整性。

4. 建立数据仓库架构数据仓库架构是数据仓库建设的核心，它包括数据仓库的物理结构、数据仓库管理系统、数据访问接口等方面。

在建立数据仓库架构时，需要考虑数据的安全性、可靠性、性能等方面，同时还需要根据业务需求进行合理的规划和设计。

5. 实施数据质量管理数据质量是数据仓库建设的关键问题之一，它直接关系到数据的可信度和有效性。

因此，在数据仓库建设过程中，需要实施严格的数据质量管理，包括数据清洗、数据标准化、数据验证等方面。

只有保证数据质量，才能够保证数据仓库的有效性和价值。

6. 实现数据分析和利用数据仓库建设的最终目的是为了实现数据的分析和利用。

在数据分析和利用过程中，需要采用先进的数据挖掘和分析技术，以提取数据中的有价值信息。

同时，还需要将数据与业务相结合，实现数据的价值最大化。

数据仓库建设是一个长期的过程，需要不断地调整和优化。

在建设过程中，需要深入了解业务需求，设计合理的数据模型，实施严格的数据质量管理，以实现数据的有效分析和利用。

基于本体论的数据仓库建模技术研究

基于本体论的数据仓库建模技术研究随着互联网的普及和信息化的发展，大数据的概念已经成为了社会各个领域关注的焦点。

而数据仓库作为一个大型的数据存储和管理体系，在大数据时代也发挥着越来越重要的作用。

在数据仓库建设过程中，数据建模是一个非常关键的环节，它直接影响到后续数据的查询、分析和应用。

传统的数据建模方法主要是基于关系模型进行建模的，但是在大数据时代，这种方法已经无法满足新的需求。

随着语义网和本体论的发展，基于本体论的数据建模方法也逐渐成为了数据仓库建模的一个热点研究方向。

本体论作为一种知识表示和共享的方法，可以描述事物之间的关系和属性，并为开发人员提供一种一致的数据模型。

在数据仓库建模中，基于本体论的建模方法可以将数据建模从数据本身转化为对数据的语义描述，从而实现数据的更加精确和全面地描述。

具体来说，基于本体论的数据建模方法可以通过以下几个方面来实现：1. 数据的语义表示传统的数据建模方法主要是基于属性和关系进行建模的，而基于本体论的建模方法则可以更加丰富地描述数据的语义信息。

在基于本体论的数据建模中，数据元素可以被描述为一条有实体、属性、关系、概念等信息组成的语句，这样可以更好地描述数据的含义和关系。

2. 数据分类与归纳基于本体论的数据建模方法还可以将数据根据其特征进行分类和归纳。

例如将不同种类的汽车按照其品牌、制造商、价格、引擎等属性进行分类，对于汽车的分类和查询等操作就变得更加方便。

3. 数据一致性检查基于本体论的数据建模方法可以通过本体的一致性检查，对数据模型进行质量控制。

例如，在建模过程中，可以通过本体的概念层次结构来检验数据模型是否具有一致的层次结构，可以检查实例数据是否符合预期等。

4. 数据的复用和共享基于本体论的数据建模方法可以支持数据的复用和共享。

本体论支持开发人员在不同应用程序、组织和场景中共享和复用语义，这样可以避免重复建模，节省开发成本并提高数据质量。

总结基于本体论的数据建模方法已经成为数据仓库建模的热点研究方向，其主要是基于语义网和本体论来实现对数据建模的方式。

数据仓库多维数据模型的设计

1、数据仓库基本概念1.1、主题（Subject）主题就是指我们所要分析的具体方面。

例如：某年某月某地区某机型某款App的安装情况。

主题有两个元素：一是各个分析角度（维度），如时间位置；二是要分析的具体量度，该量度一般通过数值体现，如App安装量。

1.2、维（Dimension）维是用于从不同角度描述事物特征的，一般维都会有多层（Level：级别），每个Level 都会包含一些共有的或特有的属性（Attribute），可以用下图来展示下维的结构和组成：以时间维为例，时间维一般会包含年、季、月、日这几个Level，每个Level一般都会有ID、NAME、DESCRIPTION这几个公共属性，这几个公共属性不仅适用于时间维，也同样表现在其它各种不同类型的维。

1.3、分层（Hierarchy）OLAP需要基于有层级的自上而下的钻取，或者自下而上地聚合。

所以我们一般会在维的基础上再次进行分层，维、分层、层级的关系如下图：每一级之间可能是附属关系（如市属于省、省属于国家），也可能是顺序关系（如天周年），如下图所示：1.4、量度量度就是我们要分析的具体的技术指标，诸如年销售额之类。

它们一般为数值型数据。

我们或者将该数据汇总，或者将该数据取次数、独立次数或取最大最小值等，这样的数据称为量度。

1.5、粒度数据的细分层度，例如按天分按小时分。

1.6、事实表和维表事实表是用来记录分析的内容的全量信息的，包含了每个事件的具体要素，以及具体发生的事情。

事实表中存储数字型ID以及度量信息。

维表则是对事实表中事件的要素的描述信息，就是你观察该事务的角度，是从哪个角度去观察这个内容的。

事实表和维表通过ID相关联，如图所示：1.7、星形/雪花形/事实星座这三者就是数据仓库多维数据模型建模的模式上图所示就是一个标准的星形模型。

雪花形就是在维度下面又细分出维度，这样切分是为了使表结构更加规范化。

雪花模式可以减少冗余，但是减少的那点空间和事实表的容量相比实在是微不足道，而且多个表联结操作会降低性能，所以一般不用雪花模式设计数据仓库。

onedata建模方法论

onedata建模方法论（原创版4篇）《onedata建模方法论》篇1OneData 是一种数据建模方法论，旨在帮助企业构建高质量的数据仓库。

该方法论包括以下主要内容：1. 数据仓库定义：OneData 将数据仓库定义为一个集成的、稳定的、易于访问的数据存储库，用于支持企业管理、决策和分析需求。

2. 数据建模流程：OneData 提出了一套完整的数据建模流程，包括需求分析、概念设计、逻辑设计、物理设计和实施等阶段。

在每个阶段，都有相应的方法和工具支持。

3. 数据模型设计：OneData 强调数据模型设计的重要性，提出了一些设计原则，如实体完整性、属性完整性、参照完整性和数据一致性等。

OneData 还提供了一些数据模型设计工具，如ER 图、数据字典和数据流图等。

4. 数据仓库实现：OneData 提供了一些数据仓库实现的技术和工具，如数据清洗、数据转换、数据加载、数据存储和数据查询等。

OneData 还强调了数据仓库的性能和安全性的重要性。

5. 数据仓库管理：OneData 提供了一些数据仓库管理方法和工具，如数据质量管理、数据备份和恢复、数据安全和数据审计等。

OneData 还强调了数据仓库的可用性和可扩展性的重要性。

《onedata建模方法论》篇2OneData 是一种数据仓库建模方法论，其核心思想是将数据仓库视为一个企业级的数据中心，通过建立一套完整的数据模型来实现数据的统一管理和运营。

OneData 方法论主要包括以下方面：1. 数据仓库概念模型设计：该阶段主要通过业务领域模型的设计，将企业的业务需求转化为数据模型，包括数据实体的定义、属性的设计以及实体之间的关系等。

2. 数据仓库逻辑模型设计：该阶段主要通过数据模型的逻辑设计，将概念模型转化为具体的数据表结构，包括数据表的定义、表之间的关系、索引的设计等。

3. 数据仓库物理模型设计：该阶段主要通过数据模型的物理设计，将逻辑模型转化为具体的数据存储结构，包括数据分区、数据备份、数据恢复等。

数据仓库建模方法论

数据仓库建模方法论数据仓库建模是指将数据仓库中的数据按照某种标准和规范进行组织和管理的过程。

数据仓库建模方法论包括了多种方法和技术，用于帮助用户理解和分析数据仓库中的数据，从而支持决策制定和业务分析。

一、维度建模方法维度建模方法是数据仓库建模的核心方法之一，它以维度为核心，将数据按照维度进行组织和管理，从而提供给用户灵活和高效的数据查询和分析能力。

1.1 星型模型星型模型是最常见和简单的维度建模方法，它将数据仓库中的事实表和多个维度表通过共享主键的方式进行关联。

事实表包含了衡量业务过程中的事件或指标，而维度表包含了用于描述和过滤事实记录的属性。

星型模型的结构清晰，易于理解和使用，适用于绝大部分的数据仓库场景。

1.2 雪花型模型雪花型模型是在星型模型的基础上进行扩展和优化的一种模型，它通过拆分维度表中的属性，将其拆分为多个维度表和子维度表，从而使得数据仓库更加灵活和高效。

雪花型模型适用于维度表中的属性比较复杂和层次结构比较多的情况。

1.3 天际线模型天际线模型是一种比较先进和复杂的维度建模方法，它通过将事实表和维度表按照一定的规则进行分组和划分，从而实现多个星型模型之间的关联。

天际线模型适用于数据仓库中包含多个相互关联的业务过程和多个不同的粒度的情况。

二、多维建模方法多维建模方法是在维度建模方法基础上进行进一步抽象和简化的一种方法，它通过创建多维数据立方体和维度层次结构来组织和管理数据。

2.1 数据立方体数据立方体是多维建模的核心概念，它将数据按照事实和维度进行组织和管理，从而提供给用户直观和高效的数据查询和分析能力。

数据立方体包含了多个维度和度量，用户可以通过选择和组合维度和度量进行数据分析和挖掘。

2.2 维度层次结构维度层次结构是多维建模的关键技术，它通过将维度进行分层和组织，从而实现维度之间的关联和上下级关系。

维度层次结构可以有效地减少数据的冗余和复杂性，提高数据仓库的查询和分析效率。

三、模式设计方法模式设计方法是在维度建模方法和多维建模方法的基础上进行进一步的抽象和规范的一种方法，它通过定义模式和规则来组织和管理数据仓库中的数据。

通俗易懂数仓建模—Inmon范式建模与Kimball维度建模

通俗易懂数仓建模—Inmon范式建模与Kimball维度建模在数据仓库领域，有两位大师，一位是“数据仓库”之父B i l l I n m o n，一位是数据仓库权威专家R a l p h K im ba l l，两位大师每人都有一本经典著作，I n m o n大师著作《数据仓库》及K im ba l l大师的《数仓工具箱》，两本书也代表了两种不同的数仓建设模式，这两种架构模式支撑了数据仓库以及商业智能近二十年的发展。

今天我们就来聊下这两种建模方式——范式建模和维度建模。

本文开始先简单理解两种建模的核心思想，然后根据一个具体的例子，分别使用这两种建模方式进行建模，大家便会一目了然！一、两种建模思想对于In mo n和K i m ba l l两种建模方式可以长篇大论叙述，但理论是很枯燥的，尤其是晦涩难懂的文字，大家读完估计也不会收获太多，所以我根据自己的理解用通俗的语言提炼出最核心的概念。

范式建模范式建模是数仓之父In mo n所倡导的，“数据仓库”这个词就是这位大师所定义的，这种建模方式在范式理论上符合3N F，这里的3N F与O L T P中的3N F还是有点区别的：关系数据库中的3N F是针对具体的业务流程的实体对象关系抽象，而数据仓库的3N F是站在企业角度面向主题的抽象。

I n m o n模型从流程上看是自上而下的，自上而下指的是数据的流向，“上”即数据的上游，“下”即数据的下游，即从分散异构的数据源-> 数据仓库-> 数据集市。

以数据源头为导向，然后一步步探索获取尽量符合预期的数据，因为数据源往往是异构的，所以会更加强调数据的清洗工作，将数据抽取为实体-关系模型，并不强调事实表和维度表的概念。

维度建模K i m b al l模型从流程上看是自下而上的，即从数据集市-> 数据仓库-> 分散异构的数据源。

K i mb a l l是以最终任务为导向，将数据按照目标拆分出不同的表需求，数据会抽取为事实-维度模型，数据源经E T L转化为事实表和维度表导入数据集市，以星型模型或雪花模型等方式构建维度数据仓库，架构体系中，数据集市与数据仓库是紧密结合的，数据集市是数据仓库中一个逻辑上的主题域。

数据仓库之数据建模理论

数据仓库之数据建模理论数据仓库建模理论就像⼤厦的地基，只有把建模理论理解清楚，在数据建模时才能有理有据。

作为⼀个数据仓库开发⼈员，数据建模理论是我们必须要掌握和理解的⼀部分，只要充分理解了数据建模理论知识，在建设数据仓库时我们就可轻松上⼿。

数据建模理论Kimball维度建模和 Inmon范式建模数据仓库的两⼤模式：Kimball维度建模和 Inmon范式建模⼀、Inmon范式建模1.1、什么是Inmon范式模型？数据仓库是商业智能的⼀部分，⼀家企业或公司只有⼀个数据仓库，数据集市的信息皆来源数据仓库。

现在的数据库⼤多数都是依据3FN范式来建⽴的，⽽依据范式的思想来进⾏数据仓库建模，就是范式建模。

数据仓库中的数据信息必须符合第三范式。

范式是关系型数据库的基本概念。

是指符合某些条件、符合某些规则的关系集合。

范式是分级的，每向上⼀级，条件和规则更加严格，每⼀级是下⼀级的⼦集。

范式最主要的⽬的是消除冗余，每⼀份信息必须存放⼀次，也只能存储⼀次。

数据的冗余不仅仅会造成存储资源的浪费，⽽且可能会引发数据的更新异常。

⼆、Kimball维度建模2.1、什么是Kimball维度建模？数据仓库是公司内部所有数据集市的集合，信息总是被存储在多维模型中。

是⾯向数据集市、数据主题的，⼀般采⽤星型模型建模。

依据星型模型，构建事实表和维度表，建⽴数据仓库模型的过程，就是维度建模。

Kimball的核⼼思想就是星型模型和维度建模。

2.2、什么是星型模型？所有的表直接与事实表关联，整个图解就像星星⼀样，该模型称为星型模型。

星型模型是⼀种⾮正规化的结构，是反范式的。

因为多维数据集的每⼀个维度都直接与事实表相连接，不存在渐变维度，所以数据有⼀定的冗余，星型模型2.3、事实表和维度表事实表描述业务过程的度量、以可加数据为主题，每⼀⾏代表⼀个可以观察的实体或事件。

主要的是发⽣了业务过程，如卖出⼀件商品，⽤户购买⼀件商品，这都触发了业务过程。

数仓建设方法论

数仓建设方法论随着大数据时代的到来，数据成为了企业决策的重要依据。

而数仓作为企业数据管理与分析的核心，成为了企业提升数据价值的关键。

本文将从数仓建设的方法论出发，探讨如何高效地构建一个优秀的数仓。

一、明确业务需求数仓的建设首先需要明确业务需求，只有深入了解业务过程和业务问题，才能够有针对性地建设数仓。

在明确业务需求时，可以采用以下方法：1.1 业务需求调研：通过与业务部门的沟通和交流，了解业务过程、数据来源、数据质量要求等方面的需求。

1.2 数据价值评估：评估不同数据对业务决策的价值，确定优先建设的数据主题。

1.3 业务流程建模：对业务流程进行建模，明确数据仓库中需要包含哪些数据，并定义数据间的关系。

二、数据采集与清洗数据采集与清洗是数仓建设过程中的重要环节，它直接影响到数仓数据的质量和可用性。

在数据采集与清洗过程中，可以采用以下方法：2.1 数据源对接：根据数据来源的不同，选择合适的数据采集方式，如API接口、数据库连接、日志文件等。

2.2 数据抽取与转换：通过ETL工具，对数据进行抽取、清洗和转换，使其符合数仓模型的要求。

2.3 数据质量控制：建立数据质量监控机制，对数据进行质量检查，确保数据的准确性和完整性。

三、数据建模与存储数据建模是数仓建设中的核心环节，它决定了数据在数仓中的组织方式和查询效率。

在数据建模与存储过程中，可以采用以下方法：3.1 维度建模：采用星型模型或雪花模型，将数据按照维度进行划分和组织，提高数据的可用性和查询效率。

3.2 数据分区：根据数据的特点和访问频率，将数据进行分区存储，提高查询性能和存储效率。

3.3 数据压缩：对数据进行压缩存储，减少存储空间的占用，提高数据的存储效率。

四、数据分析与应用数仓建设的最终目的是为了支持数据分析和业务应用。

在数据分析与应用过程中，可以采用以下方法：4.1 数据挖掘和分析：利用数据挖掘算法和工具，对数仓中的数据进行挖掘和分析，发现数据中隐藏的规律和价值。

数据模型基本概念及建模方法论

数据模型的基本概念及建模方法论
崔大强技术经理
NCR(中国)有限公司数据仓库事业部
内容安排
什么是数据模型数据模型相关术语数据模型方法论建模注意事项
2
什么是数据模型？
以数学的方式对现实事物的一种抽象表达,„ 特征：内容：描述了数据、及其之间的关系形式：反映了数据的组织与管理形式
设计人员：业务人员、IT人员
设计目标
设计蓝图，指导整个数据仓库系统的建设业务语言，业务人员与技术人员沟通的手段和方法业务视图，独立于数据库技术实现
设计内容：实体、关系和属性建模方法：3NF的设计方法后续工作：物理数据模型的输入
7
物理数据模型
Physical Data Model（PDM）物理数据模型
解
决方案集成
使用工具：
ERWin
交付项目：
物理数据模型（PDM）《物理数据模型说明书》《数据库描述语言DDL》
33
物理数据模型命名规范
序号主题
1 PARTY 2 OFFER
缩写
PAR OFR
中文
参与人产品策划
3 FINANCE
4 LOCATION 5 ADVERTISEMENT 6 EVENT 7 NETWORK 8 REFERENCE CODE
31
Step 5: 确认模型 (2)
1. 通过回答以下问题，持续地对模型的范围进行验证: • • 这一模型组件的含义、与业务的关系是什么？这一模型组件驱动的业务需求是什么？
2. 对模型是否已经满足所有业务需求、业务问题及限制条件等，进行验证 3. 绝对不要考虑任何与物理实施相关的问题！ 4. 当所有回答业务需求所必须的数据已经齐备时，停止对模型进行优化

数据仓库建设方法论

数据仓库建设方法论数据仓库建设是企业信息化建设的重要组成部分，也是企业业务决策的有力支撑。

数据仓库建设方法论是指建设数据仓库的一系列规范、流程、方法和技术，用于保证数据仓库的高可用性、高性能、高安全性和高可维护性，同时满足业务用户对数据的快速、准确和全面的需求。

数据仓库建设方法论主要包括以下方面：1.需求分析与设计：在数据仓库建设前，需要进行全面的业务需求分析，明确业务分析对象、分析方法、分析结果等要素，同时进行全面的数据分析，明确数据来源、数据清洗、数据转换、数据集成等要素，最终确定数据仓库的设计方案。

2.数据清洗与转换：在数据仓库建设前，需要对原始数据进行清洗和转换，消除数据中的噪声和冗余信息，同时将数据转换为可用于数据仓库的格式和结构。

3.数据集成与存储：在数据仓库建设过程中，需要将多个数据源的数据进行集成，将其存储到数据仓库中，同时保证数据的一致性和完整性。

4.数据质量管理：在数据仓库建设后，需要对数据进行质量管理，包括数据质量评估、数据质量监控和数据质量改进等环节，以保证数据仓库的数据质量。

5.数据安全管理：在数据仓库建设过程中，需要采取严格的数据安全管理措施，包括数据备份与恢复、数据安全防护、数据访问权限管理等，以保证数据的安全性和机密性。

6.数据性能优化：在数据仓库建设后，需要对数据仓库进行性能优化，包括查询性能优化、数据加载性能优化、数据存储性能优化等，以保证数据仓库的高性能和高可用性。

7.数据仓库维护与升级：在数据仓库建设后，需要对数据仓库进行维护和升级，包括数据仓库的备份和恢复、数据仓库的更新和迭代、数据仓库的版本控制等，以保证数据仓库的可维护性和可升级性。

综上所述，数据仓库建设方法论是指建设数据仓库的一系列规范、流程、方法和技术，能够保证数据仓库的高可用性、高性能、高安全性和高可维护性，同时满足业务用户对数据的快速、准确和全面的需求。

企业可以根据实际情况，结合自身业务需求和技术条件，选择适合自己的数据仓库建设方法论，以实现企业信息化建设的目标。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• 全局考虑，提炼需求，侧重业务规则理解
数据服务
• 存储细节的、整合的所有数据，为全面风险管理应用需求提供数据支撑，为实现高效、及时的风险管理报表自动化提供数据基础
• 为风险计量提供数据准备服务，并对风险计量结果进行整理和存储
• 外系统供数服务，实现统一的风险数据来源。
主题数据仓库概念数据仓库模型逻辑数据模型数据模型标准化工艺流程
•面向具体应用 •按需设计 •形式各异，依具体应用不同；
•针对业务目标、挖掘算法设计数据模型 • 一条记录表示一个观测 • 多条记录表示一个观测
重点
•理解源结构
•整体性 •一致性
• 业务理解 • 数据理解 • 数据准备 • 特定业务专题
用途
•业务原貌查询 •即时报表 •数据质量检查
主题数据仓库概念数据仓库数据架构逻辑数据模型数据模型标准化工艺流程
数据架构形态
各数据架构比较
数据集市类型
源系统 ODS
EDW
从属数据集市 Data Mart #1 Data Mart Conformed Dimensions and Conformed Facts Data Mart #2
数据仓库模型存放数据粒度级别为原子级别，原子级别可以任意组合。故可以支持将来未知需求。
数据仓库中的细节数据是与处理过程无关的，因此数据仓库的数据模型使得数据不一致的风险最小。支持数据挖掘、统计分析和即席查询总体目标是防止由于环境的后续构建、调整和优化而产生的高昂的代价。一个良好的数据仓库模型将为企业提供长久的服务，将提供如下回报：整个环境端到端一致性和集成性
持续维护
易于建立新的数据集市
加强现有数据集市数据仓库和有关数据集市的维护和可持续发展
OLTP与OLAP
On-Line Analytical Processing
针对特定问题的联机数据访问和数据分析技术满足对数据进行多角度、快速、一致、交互、深入观察使用预定义的多维数据视图对数据进行分析处理，支持对数据的切片、切块、钻取。多维数据库是一种以多维数据存储形式来组织数据的数据管理系统，在使用时需要将数据从关系数据库中转载到多维数据库中方可访问。
为什么需要逻辑数据模型
为复杂的数据仓库系统实施提供了规范和基础结构－蓝图
促进业务部门用户和IT分析人员之间的有效沟通明确业务需求解决业务问题
形成对重要业务定义和术语的统一认识
具备跨部门，能够表达所有的业务
LDM在数据仓库系统中的地位
风险引擎数据接口报表模型多维分析模型星型模型
企业数据仓库EDW
企业数据仓库定义：企业数据仓库作用：基于数据/信息来回答相关的业务详细交易及相关业务数据的集合�� 问题和提供决策支持，并确保：一包含必要的内部与外部信息�� 致、集成的数据存储�� 来自于多个数据源/业务操作系统�� 任意的数据粒度�� 保存一定的时间周期�� 在整个企业的业务范围�� 按照企业内业务规则所决定的模型来存储保持企业内一致的信息视图企业内一致的信息视图（Single Version of the Truth） >集成的企业信息（Integrated corporate information） >不针对特定应用（Application neutral） >无冗余（Non redundant） >用于报表和决策支持（Reporting and decision making）最详细的数据和信息（Detailed Data）任何时候，针对任意数据，提出任意业务问题（Ask any question, any data, any time）
OLTP与OLAP
OLTP
用户操作人员,低层管理人员
OLAP
决策人员,高级管理人员
功能 DB 设计
数据存取工作单位用户数 DB 大小
日常操作处理面向应用当前的, 最新的细节的, 二维的读/写数十条记录简单的事务上千个 100MB-GB
分析决策面向主题历史的, 聚集的, 多维的集成的, 统一的读上百万条记录复杂的查询上百个 100GB-TB
应用集市层
面向应用按需定制多维建模汇总数据
汇总层
数据挖掘模型
当事人资产协议
财务事件计量结果
产品
内部机构市场数据
整合模型层
面向整合主题设计提供规范和共享
技术缓冲层
核心系统对公信贷票据系统
…..
复杂交易
储蓄国债
市场数据
ETL专用的纯技术层完全与源系统结构一致
核心系统
数据仓库建模方法论
主题数据仓库概念数据仓库数据架构逻辑数据模型数据模型标准化工艺流程
数据仓库领域的两位大师
Ralph Kimball 数据仓库方面的知名学者理论：Mutildimensional Architecture(MD)
主要著作：《数据仓库工具箱－维度建模的完全指南》、
《数据仓库生命周期工具箱－设计、开发和部署数据仓库的专家方法》
Bill Inmon
数据仓库之父，数据仓库概念的创始人理论： Corporate Information Factory(CIF) 主要著作：《数据仓库》、《企业信息工厂》
对公信贷
票据系统
…..
近源模型层
复杂交易储蓄国债市场数据
基本依照源系统建模尽量保持业务系统原貌
设计思路比较
ODS
目标
•短期的，细节的，同源的数据存储； •直接提供基于源系统结构的简单原貌访问； •为BI环境中适合的业务需求提供支持 •简单处理，不考虑整合； •关注保留策略； •偏源系统模型； •根据支持应用情况可以保留短期历史
数据转载速度慢需要进行预计算，可能导致数据爆炸，维数有限，无法支持维的动态变化受操作系统平台文件大小限制，难以达到tb级
存储空间耗费小，维数没有限制
借助rdbms对数据存储，无文件大小限制
可以通过sql语句实现详细数据和概要数缺乏数据模型和数据访问的标准据的存储不支持预计算的读写操作无法完成维之间的运算无法完成多行计算支持高性能的决策支持计算复杂的跨维计算多用户读写操作行级计算
优先考虑业务单位范围关心业务部门的需求多维建模师以企业视角，建立一致性维度。实施方法采用自底向上的：如何快速的获取由用户控制的业务部门专有的数据，并最小限度的考虑整个企业的使用快速需求收集和实现过程使得为整个环境提供一致而可靠数据的任务变得复杂。
企业信息工厂体系结构
优先考虑企业总体范围从企业角度解决供应源数据的问题，但并不是整个企业的数据必须在项目第一个阶段都处理。相反而是选择企业所有数据的一个子集。实施方法是自顶向下的：企业数据利用业务需求将数据从数据源推至需要这些数据的地方，其核心问题是从最初的项目开始为任何数据集市的使用而集成企业数据。为了制定尽可能在整个企业范围内一致的主题域和业务数据需要增加模型开销，需要更多的时间和代价。但后续项目则需要较少时间和代价，尤其对于使用现有的、健全的主题域的业务单位更是如此。实现对存储空间最小需求，非冗余方式防止了在多个位臵存储数据。这种特性使更新或删除异常最小化或者消除。
数据仓库的特点
面向主题：操作型数据库的数据组织面向事物处理任务，各个业务系统之间各自分离，而数据仓库中的数据是按照一定的主题域进行组织的。例如：当事人、协议、机构、财务、事件、产品等主题。集成的：数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的，必须消除源数据中的不一致性，以保证数据仓库内的信息是关于整个企业的一致的全局信息。相对稳定的：数据仓库的数据主要供企业决策分析之用，所涉及的数据操作主要是数据查询，一旦某个数据进入数据仓库以后，一般情况下将被长期保留，也就是数据仓库中一般有大量的查询操作，但修改和删除操作很少，通常只需要定期的加载、刷新。
数据流
聚集数据集市：当业务过程发生变化，为了消除
易失性
数据仓库模型是与过程无关的，它摒弃了由于处理过程影响而带来的变化或减少对事实表重建，需要增加新的维或改变维。数据仓库模型的设计依赖于企业的业务规则，而不依赖与在其上将运行什么查询。原子数据集市：由于事实表可能包含几亿甚至更如果一个已经建好的数据集市需要改变或加强，可以根据存储在数据仓库中的细节数据合多的数据，重建将会带来严重后果理且快速地进行重建
灵活性复杂性功能性
多维设计是很多业务过程聚集在一起的结果。当处理请求发生变化时，多维数据库的设计未必能够适度地变化。数据集市模型易于业务人员理解。可以很容易构建数据集市，然而，当一个一个地建立数据集市时，由于数据的企业视图的复杂性，对于这种结构，完成更新时相当复杂的。为多维处理提供了理想环境，切片和切块、上钻和下钻等查询提供良好的性能
反映历史变化：数据仓库中的数据通常包含历史信息，系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息，通过这些信息，可以对企业的发展历程和未来趋势做出定量分析和预测。
企业信息工厂
数据仓库总线
企业总线
总线架构矩阵
多维体系结构与企业信息工厂体系结构比较
方面范围角度多维体系结构
• 整合全面风险相关业务系统ቤተ መጻሕፍቲ ባይዱ据，实现全面风险的完整视图，为未来业务拓展提供可扩展的架构。 • 通过集市数据模型处理，面向业务主题的模型设计，灵活易扩展。同时按照业务应用需求驱动，进行多维度、多粒度的加工汇总。
支撑银行全面风险管理
• 实现全面风险数据的统一管理和全景视图，为实现全面、高效、及时的风险计量、识别、报告提供数据基础，提升风险管理水平。