数据仓库建模方法论

合集下载

数据仓库建设方法论

数据仓库建设方法论数据仓库建设是一个复杂而又关键的过程，需要仔细的规划和实施。

在数据仓库建设过程中，需要遵循一定的方法论，以确保数据仓库能够达到预期的效果和价值。

1. 确定业务需求在数据仓库建设之前，需要对业务需求进行详细的分析和梳理。

这包括对业务流程、数据来源、数据结构、数据质量等方面进行全面的调研和了解。

只有深入了解业务需求，才能够确定数据仓库的建设方向和目标。

2. 设计数据模型在确定了业务需求后，需要对数据进行建模。

数据模型是一个抽象的概念，它描述了数据的结构和关系。

一个好的数据模型应该具有清晰的层次结构，易于维护和扩展，同时还需要考虑数据的性能和安全性。

3. 确定数据采集方式数据采集是数据仓库建设的第一步，也是最重要的步骤之一。

数据采集需要考虑数据来源、数据格式、数据质量等方面，同时还需要根据业务需求确定数据采集的频率和方式。

数据采集的过程需要严格遵循标准化流程，以确保数据的准确性和完整性。

4. 建立数据仓库架构数据仓库架构是数据仓库建设的核心，它包括数据仓库的物理结构、数据仓库管理系统、数据访问接口等方面。

在建立数据仓库架构时，需要考虑数据的安全性、可靠性、性能等方面，同时还需要根据业务需求进行合理的规划和设计。

5. 实施数据质量管理数据质量是数据仓库建设的关键问题之一，它直接关系到数据的可信度和有效性。

因此，在数据仓库建设过程中，需要实施严格的数据质量管理，包括数据清洗、数据标准化、数据验证等方面。

只有保证数据质量，才能够保证数据仓库的有效性和价值。

6. 实现数据分析和利用数据仓库建设的最终目的是为了实现数据的分析和利用。

在数据分析和利用过程中，需要采用先进的数据挖掘和分析技术，以提取数据中的有价值信息。

同时，还需要将数据与业务相结合，实现数据的价值最大化。

数据仓库建设是一个长期的过程，需要不断地调整和优化。

在建设过程中，需要深入了解业务需求，设计合理的数据模型，实施严格的数据质量管理，以实现数据的有效分析和利用。

基于本体论的数据仓库建模技术研究

基于本体论的数据仓库建模技术研究随着互联网的普及和信息化的发展，大数据的概念已经成为了社会各个领域关注的焦点。

而数据仓库作为一个大型的数据存储和管理体系，在大数据时代也发挥着越来越重要的作用。

在数据仓库建设过程中，数据建模是一个非常关键的环节，它直接影响到后续数据的查询、分析和应用。

传统的数据建模方法主要是基于关系模型进行建模的，但是在大数据时代，这种方法已经无法满足新的需求。

随着语义网和本体论的发展，基于本体论的数据建模方法也逐渐成为了数据仓库建模的一个热点研究方向。

本体论作为一种知识表示和共享的方法，可以描述事物之间的关系和属性，并为开发人员提供一种一致的数据模型。

在数据仓库建模中，基于本体论的建模方法可以将数据建模从数据本身转化为对数据的语义描述，从而实现数据的更加精确和全面地描述。

具体来说，基于本体论的数据建模方法可以通过以下几个方面来实现：1. 数据的语义表示传统的数据建模方法主要是基于属性和关系进行建模的，而基于本体论的建模方法则可以更加丰富地描述数据的语义信息。

在基于本体论的数据建模中，数据元素可以被描述为一条有实体、属性、关系、概念等信息组成的语句，这样可以更好地描述数据的含义和关系。

2. 数据分类与归纳基于本体论的数据建模方法还可以将数据根据其特征进行分类和归纳。

例如将不同种类的汽车按照其品牌、制造商、价格、引擎等属性进行分类，对于汽车的分类和查询等操作就变得更加方便。

3. 数据一致性检查基于本体论的数据建模方法可以通过本体的一致性检查，对数据模型进行质量控制。

例如，在建模过程中，可以通过本体的概念层次结构来检验数据模型是否具有一致的层次结构，可以检查实例数据是否符合预期等。

4. 数据的复用和共享基于本体论的数据建模方法可以支持数据的复用和共享。

本体论支持开发人员在不同应用程序、组织和场景中共享和复用语义，这样可以避免重复建模，节省开发成本并提高数据质量。

总结基于本体论的数据建模方法已经成为数据仓库建模的热点研究方向，其主要是基于语义网和本体论来实现对数据建模的方式。

onedata建模方法论

onedata建模方法论（原创版4篇）《onedata建模方法论》篇1OneData 是一种数据建模方法论，旨在帮助企业构建高质量的数据仓库。

该方法论包括以下主要内容：1. 数据仓库定义：OneData 将数据仓库定义为一个集成的、稳定的、易于访问的数据存储库，用于支持企业管理、决策和分析需求。

2. 数据建模流程：OneData 提出了一套完整的数据建模流程，包括需求分析、概念设计、逻辑设计、物理设计和实施等阶段。

在每个阶段，都有相应的方法和工具支持。

3. 数据模型设计：OneData 强调数据模型设计的重要性，提出了一些设计原则，如实体完整性、属性完整性、参照完整性和数据一致性等。

OneData 还提供了一些数据模型设计工具，如ER 图、数据字典和数据流图等。

4. 数据仓库实现：OneData 提供了一些数据仓库实现的技术和工具，如数据清洗、数据转换、数据加载、数据存储和数据查询等。

OneData 还强调了数据仓库的性能和安全性的重要性。

5. 数据仓库管理：OneData 提供了一些数据仓库管理方法和工具，如数据质量管理、数据备份和恢复、数据安全和数据审计等。

OneData 还强调了数据仓库的可用性和可扩展性的重要性。

《onedata建模方法论》篇2OneData 是一种数据仓库建模方法论，其核心思想是将数据仓库视为一个企业级的数据中心，通过建立一套完整的数据模型来实现数据的统一管理和运营。

OneData 方法论主要包括以下方面：1. 数据仓库概念模型设计：该阶段主要通过业务领域模型的设计，将企业的业务需求转化为数据模型，包括数据实体的定义、属性的设计以及实体之间的关系等。

2. 数据仓库逻辑模型设计：该阶段主要通过数据模型的逻辑设计，将概念模型转化为具体的数据表结构，包括数据表的定义、表之间的关系、索引的设计等。

3. 数据仓库物理模型设计：该阶段主要通过数据模型的物理设计，将逻辑模型转化为具体的数据存储结构，包括数据分区、数据备份、数据恢复等。

数据仓库建模方法论

数据仓库建模方法论数据仓库建模是指将数据仓库中的数据按照某种标准和规范进行组织和管理的过程。

数据仓库建模方法论包括了多种方法和技术，用于帮助用户理解和分析数据仓库中的数据，从而支持决策制定和业务分析。

一、维度建模方法维度建模方法是数据仓库建模的核心方法之一，它以维度为核心，将数据按照维度进行组织和管理，从而提供给用户灵活和高效的数据查询和分析能力。

1.1 星型模型星型模型是最常见和简单的维度建模方法，它将数据仓库中的事实表和多个维度表通过共享主键的方式进行关联。

事实表包含了衡量业务过程中的事件或指标，而维度表包含了用于描述和过滤事实记录的属性。

星型模型的结构清晰，易于理解和使用，适用于绝大部分的数据仓库场景。

1.2 雪花型模型雪花型模型是在星型模型的基础上进行扩展和优化的一种模型，它通过拆分维度表中的属性，将其拆分为多个维度表和子维度表，从而使得数据仓库更加灵活和高效。

雪花型模型适用于维度表中的属性比较复杂和层次结构比较多的情况。

1.3 天际线模型天际线模型是一种比较先进和复杂的维度建模方法，它通过将事实表和维度表按照一定的规则进行分组和划分，从而实现多个星型模型之间的关联。

天际线模型适用于数据仓库中包含多个相互关联的业务过程和多个不同的粒度的情况。

二、多维建模方法多维建模方法是在维度建模方法基础上进行进一步抽象和简化的一种方法，它通过创建多维数据立方体和维度层次结构来组织和管理数据。

2.1 数据立方体数据立方体是多维建模的核心概念，它将数据按照事实和维度进行组织和管理，从而提供给用户直观和高效的数据查询和分析能力。

数据立方体包含了多个维度和度量，用户可以通过选择和组合维度和度量进行数据分析和挖掘。

2.2 维度层次结构维度层次结构是多维建模的关键技术，它通过将维度进行分层和组织，从而实现维度之间的关联和上下级关系。

维度层次结构可以有效地减少数据的冗余和复杂性，提高数据仓库的查询和分析效率。

三、模式设计方法模式设计方法是在维度建模方法和多维建模方法的基础上进行进一步的抽象和规范的一种方法，它通过定义模式和规则来组织和管理数据仓库中的数据。

通俗易懂数仓建模—Inmon范式建模与Kimball维度建模

通俗易懂数仓建模—Inmon范式建模与Kimball维度建模在数据仓库领域，有两位大师，一位是“数据仓库”之父B i l l I n m o n，一位是数据仓库权威专家R a l p h K im ba l l，两位大师每人都有一本经典著作，I n m o n大师著作《数据仓库》及K im ba l l大师的《数仓工具箱》，两本书也代表了两种不同的数仓建设模式，这两种架构模式支撑了数据仓库以及商业智能近二十年的发展。

今天我们就来聊下这两种建模方式——范式建模和维度建模。

本文开始先简单理解两种建模的核心思想，然后根据一个具体的例子，分别使用这两种建模方式进行建模，大家便会一目了然！一、两种建模思想对于In mo n和K i m ba l l两种建模方式可以长篇大论叙述，但理论是很枯燥的，尤其是晦涩难懂的文字，大家读完估计也不会收获太多，所以我根据自己的理解用通俗的语言提炼出最核心的概念。

范式建模范式建模是数仓之父In mo n所倡导的，“数据仓库”这个词就是这位大师所定义的，这种建模方式在范式理论上符合3N F，这里的3N F与O L T P中的3N F还是有点区别的：关系数据库中的3N F是针对具体的业务流程的实体对象关系抽象，而数据仓库的3N F是站在企业角度面向主题的抽象。

I n m o n模型从流程上看是自上而下的，自上而下指的是数据的流向，“上”即数据的上游，“下”即数据的下游，即从分散异构的数据源-> 数据仓库-> 数据集市。

以数据源头为导向，然后一步步探索获取尽量符合预期的数据，因为数据源往往是异构的，所以会更加强调数据的清洗工作，将数据抽取为实体-关系模型，并不强调事实表和维度表的概念。

维度建模K i m b al l模型从流程上看是自下而上的，即从数据集市-> 数据仓库-> 分散异构的数据源。

K i mb a l l是以最终任务为导向，将数据按照目标拆分出不同的表需求，数据会抽取为事实-维度模型，数据源经E T L转化为事实表和维度表导入数据集市，以星型模型或雪花模型等方式构建维度数据仓库，架构体系中，数据集市与数据仓库是紧密结合的，数据集市是数据仓库中一个逻辑上的主题域。

数据仓库之数据建模理论

数据仓库之数据建模理论数据仓库建模理论就像⼤厦的地基，只有把建模理论理解清楚，在数据建模时才能有理有据。

作为⼀个数据仓库开发⼈员，数据建模理论是我们必须要掌握和理解的⼀部分，只要充分理解了数据建模理论知识，在建设数据仓库时我们就可轻松上⼿。

数据建模理论Kimball维度建模和 Inmon范式建模数据仓库的两⼤模式：Kimball维度建模和 Inmon范式建模⼀、Inmon范式建模1.1、什么是Inmon范式模型？数据仓库是商业智能的⼀部分，⼀家企业或公司只有⼀个数据仓库，数据集市的信息皆来源数据仓库。

现在的数据库⼤多数都是依据3FN范式来建⽴的，⽽依据范式的思想来进⾏数据仓库建模，就是范式建模。

数据仓库中的数据信息必须符合第三范式。

范式是关系型数据库的基本概念。

是指符合某些条件、符合某些规则的关系集合。

范式是分级的，每向上⼀级，条件和规则更加严格，每⼀级是下⼀级的⼦集。

范式最主要的⽬的是消除冗余，每⼀份信息必须存放⼀次，也只能存储⼀次。

数据的冗余不仅仅会造成存储资源的浪费，⽽且可能会引发数据的更新异常。

⼆、Kimball维度建模2.1、什么是Kimball维度建模？数据仓库是公司内部所有数据集市的集合，信息总是被存储在多维模型中。

是⾯向数据集市、数据主题的，⼀般采⽤星型模型建模。

依据星型模型，构建事实表和维度表，建⽴数据仓库模型的过程，就是维度建模。

Kimball的核⼼思想就是星型模型和维度建模。

2.2、什么是星型模型？所有的表直接与事实表关联，整个图解就像星星⼀样，该模型称为星型模型。

星型模型是⼀种⾮正规化的结构，是反范式的。

因为多维数据集的每⼀个维度都直接与事实表相连接，不存在渐变维度，所以数据有⼀定的冗余，星型模型2.3、事实表和维度表事实表描述业务过程的度量、以可加数据为主题，每⼀⾏代表⼀个可以观察的实体或事件。

主要的是发⽣了业务过程，如卖出⼀件商品，⽤户购买⼀件商品，这都触发了业务过程。

数仓建设方法论

数仓建设方法论随着大数据时代的到来，数据成为企业发展的重要资源。

为了更好地利用和管理数据，数仓建设成为企业信息化建设的重要环节。

数仓建设方法论是指在数仓建设过程中所采用的一系列方法和原则，旨在帮助企业高效、有序地构建数据仓库，实现数据价值最大化。

一、需求分析阶段在数仓建设的初期阶段，需求分析是关键的一步。

通过与业务部门的沟通和理解，明确企业的业务需求和数据需求，确定数仓的建设目标和规划。

在需求分析阶段，应注重以下几点：1. 充分了解业务需求：与业务部门进行深入交流，了解业务流程、数据来源和数据需求，明确业务指标和分析要求。

2. 定义数据模型：根据业务需求和数据特点，设计合适的数据模型，包括维度模型和事实模型。

数据模型的设计应符合规范，保证数据的准确性和一致性。

3. 制定数据采集计划：根据数据来源和数据质量要求，制定数据采集计划，明确数据的提取、清洗和转换等步骤，确保数据的完整性和可用性。

二、数据建模阶段数据建模是数仓建设的核心环节，它是将业务需求转化为数据模型的过程。

在数据建模阶段，应注意以下几点：1. 建立维度模型：根据需求分析阶段定义的数据模型，建立维度模型，包括维度表和事实表。

维度模型的设计应具有层次清晰、灵活性强的特点，方便后续的数据分析和查询。

2. 选择合适的ETL工具：ETL（Extract-Transform-Load）是将数据从源系统抽取、清洗和加载到数仓中的过程。

在选择ETL工具时，应根据数据量、数据质量和业务需求等因素进行评估，选择适合的工具。

3. 设计数据质量控制策略：数据质量是数仓建设的关键问题，对数据的准确性和一致性要求较高。

因此，在数据建模阶段应设计数据质量控制策略，包括数据清洗、数据校验和数据修复等措施，确保数据质量达到要求。

三、数据加载和存储阶段在数据建模完成后，需要将清洗好的数据加载到数仓中，并选择合适的存储方式进行数据存储。

在数据加载和存储阶段，应注意以下几点：1. 选择合适的存储方式：根据数据量、查询性能和成本等因素，选择合适的存储方式，包括关系型数据库、列式数据库和分布式存储等。

数仓建设方法论

数仓建设方法论随着大数据时代的到来，数据成为了企业决策的重要依据。

而数仓作为企业数据管理与分析的核心，成为了企业提升数据价值的关键。

本文将从数仓建设的方法论出发，探讨如何高效地构建一个优秀的数仓。

一、明确业务需求数仓的建设首先需要明确业务需求，只有深入了解业务过程和业务问题，才能够有针对性地建设数仓。

在明确业务需求时，可以采用以下方法：1.1 业务需求调研：通过与业务部门的沟通和交流，了解业务过程、数据来源、数据质量要求等方面的需求。

1.2 数据价值评估：评估不同数据对业务决策的价值，确定优先建设的数据主题。

1.3 业务流程建模：对业务流程进行建模，明确数据仓库中需要包含哪些数据，并定义数据间的关系。

二、数据采集与清洗数据采集与清洗是数仓建设过程中的重要环节，它直接影响到数仓数据的质量和可用性。

在数据采集与清洗过程中，可以采用以下方法：2.1 数据源对接：根据数据来源的不同，选择合适的数据采集方式，如API接口、数据库连接、日志文件等。

2.2 数据抽取与转换：通过ETL工具，对数据进行抽取、清洗和转换，使其符合数仓模型的要求。

2.3 数据质量控制：建立数据质量监控机制，对数据进行质量检查，确保数据的准确性和完整性。

三、数据建模与存储数据建模是数仓建设中的核心环节，它决定了数据在数仓中的组织方式和查询效率。

在数据建模与存储过程中，可以采用以下方法：3.1 维度建模：采用星型模型或雪花模型，将数据按照维度进行划分和组织，提高数据的可用性和查询效率。

3.2 数据分区：根据数据的特点和访问频率，将数据进行分区存储，提高查询性能和存储效率。

3.3 数据压缩：对数据进行压缩存储，减少存储空间的占用，提高数据的存储效率。

四、数据分析与应用数仓建设的最终目的是为了支持数据分析和业务应用。

在数据分析与应用过程中，可以采用以下方法：4.1 数据挖掘和分析：利用数据挖掘算法和工具，对数仓中的数据进行挖掘和分析，发现数据中隐藏的规律和价值。

数据模型基本概念及建模方法论

数据模型的基本概念及建模方法论
崔大强技术经理
NCR(中国)有限公司数据仓库事业部
内容安排
什么是数据模型数据模型相关术语数据模型方法论建模注意事项
2
什么是数据模型？
以数学的方式对现实事物的一种抽象表达,„ 特征：内容：描述了数据、及其之间的关系形式：反映了数据的组织与管理形式
设计人员：业务人员、IT人员
设计目标
设计蓝图，指导整个数据仓库系统的建设业务语言，业务人员与技术人员沟通的手段和方法业务视图，独立于数据库技术实现
设计内容：实体、关系和属性建模方法：3NF的设计方法后续工作：物理数据模型的输入
7
物理数据模型
Physical Data Model（PDM）物理数据模型
解
决方案集成
使用工具：
ERWin
交付项目：
物理数据模型（PDM）《物理数据模型说明书》《数据库描述语言DDL》
33
物理数据模型命名规范
序号主题
1 PARTY 2 OFFER
缩写
PAR OFR
中文
参与人产品策划
3 FINANCE
4 LOCATION 5 ADVERTISEMENT 6 EVENT 7 NETWORK 8 REFERENCE CODE
31
Step 5: 确认模型 (2)
1. 通过回答以下问题，持续地对模型的范围进行验证: • • 这一模型组件的含义、与业务的关系是什么？这一模型组件驱动的业务需求是什么？
2. 对模型是否已经满足所有业务需求、业务问题及限制条件等，进行验证 3. 绝对不要考虑任何与物理实施相关的问题！ 4. 当所有回答业务需求所必须的数据已经齐备时，停止对模型进行优化

数据仓库建设方法论

数据仓库建设方法论数据仓库建设是企业信息化建设的重要组成部分，也是企业业务决策的有力支撑。

数据仓库建设方法论是指建设数据仓库的一系列规范、流程、方法和技术，用于保证数据仓库的高可用性、高性能、高安全性和高可维护性，同时满足业务用户对数据的快速、准确和全面的需求。

数据仓库建设方法论主要包括以下方面：1.需求分析与设计：在数据仓库建设前，需要进行全面的业务需求分析，明确业务分析对象、分析方法、分析结果等要素，同时进行全面的数据分析，明确数据来源、数据清洗、数据转换、数据集成等要素，最终确定数据仓库的设计方案。

2.数据清洗与转换：在数据仓库建设前，需要对原始数据进行清洗和转换，消除数据中的噪声和冗余信息，同时将数据转换为可用于数据仓库的格式和结构。

3.数据集成与存储：在数据仓库建设过程中，需要将多个数据源的数据进行集成，将其存储到数据仓库中，同时保证数据的一致性和完整性。

4.数据质量管理：在数据仓库建设后，需要对数据进行质量管理，包括数据质量评估、数据质量监控和数据质量改进等环节，以保证数据仓库的数据质量。

5.数据安全管理：在数据仓库建设过程中，需要采取严格的数据安全管理措施，包括数据备份与恢复、数据安全防护、数据访问权限管理等，以保证数据的安全性和机密性。

6.数据性能优化：在数据仓库建设后，需要对数据仓库进行性能优化，包括查询性能优化、数据加载性能优化、数据存储性能优化等，以保证数据仓库的高性能和高可用性。

7.数据仓库维护与升级：在数据仓库建设后，需要对数据仓库进行维护和升级，包括数据仓库的备份和恢复、数据仓库的更新和迭代、数据仓库的版本控制等，以保证数据仓库的可维护性和可升级性。

综上所述，数据仓库建设方法论是指建设数据仓库的一系列规范、流程、方法和技术，能够保证数据仓库的高可用性、高性能、高安全性和高可维护性，同时满足业务用户对数据的快速、准确和全面的需求。

企业可以根据实际情况，结合自身业务需求和技术条件，选择适合自己的数据仓库建设方法论，以实现企业信息化建设的目标。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

为什么需要逻辑数据模型
为复杂的数据仓库系统实施提供了规范和基础结构－蓝图
促进业务部门用户和IT分析人员之间的有效沟通明确业务需求解决业务问题
形成对重要业务定义和术语的统一认识
具备跨部门，能够表达所有的业务
LDM在数据仓库系统中的地位
风险引擎数据接口报表模型多维分析模型星型模型
主题数据仓库概念数据仓库数据架构逻辑数据模型数据模型标准化工艺流程
数据架构形态
各数据架构比较
数据集市类型
源系统 ODS
EDW
从属数据集市 Data Mart #1 Data Mart Conformed Dimensions and Conformed Facts DataP
用户操作人员,低层管理人员
OLAP
决策人员,高级管理人员
功能 DB 设计
数据存取工作单位用户数 DB 大小
日常操作处理面向应用当前的, 最新的细节的, 二维的读/写数十条记录简单的事务上千个 100MB-GB
分析决策面向主题历史的, 聚集的, 多维的集成的, 统一的读上百万条记录复杂的查询上百个 100GB-TB
持续维护
易于建立新的数据集市
加强现有数据集市数据仓库和有关数据集市的维护和可持续发展
OLTP与OLAP
On-Line Analytical Processing
针对特定问题的联机数据访问和数据分析技术满足对数据进行多角度、快速、一致、交互、深入观察使用预定义的多维数据视图对数据进行分析处理，支持对数据的切片、切块、钻取。多维数据库是一种以多维数据存储形式来组织数据的数据管理系统，在使用时需要将数据从关系数据库中转载到多维数据库中方可访问。
数据仓库建模方法论
主题数据仓库概念数据仓库数据架构逻辑数据模型数据模型标准化工艺流程
数据仓库领域的两位大师
Ralph Kimball 数据仓库方面的知名学者理论：Mutildimensional Architecture(MD)
主要著作：《数据仓库工具箱－维度建模的完全指南》、
EDW
•长期的，细节的，整合的数据存储； •为BI环境中适合的业务需求提供支持
Data Mart
•服务特定应用
Data Mining
• 长期历史分析性指标汇总 • 为企业提供预测性、趋势分析性需求提供支持
原则形式
•面向全局，数据整合 •中性设计，灵活扩展 •提供规范和共享 •面向主题设计； •偏范式化； •长期保留历史 •主题定义 •框架设计 •整合策略 •实施方法 •灵活查询 •整合规则检查
数据转载速度慢需要进行预计算，可能导致数据爆炸，维数有限，无法支持维的动态变化受操作系统平台文件大小限制，难以达到tb级
存储空间耗费小，维数没有限制
借助rdbms对数据存储，无文件大小限制
可以通过sql语句实现详细数据和概要数缺乏数据模型和数据访问的标准据的存储不支持预计算的读写操作无法完成维之间的运算无法完成多行计算支持高性能的决策支持计算复杂的跨维计算多用户读写操作行级计算
独立数据集市 Data Mart #1 Non-conformed Dimensions and Facts Data Mart #2
风险数据集市数据架构
风险计算引擎监管报表多维分析
绩效衡量和资本分配合规性与披露信用风险防欺诈和反洗钱操作风险流动性风险市场风险风险引擎数据接口活期存款定期存款储蓄国债衍生品储蓄国债
应用集市层
面向应用按需定制多维建模汇总数据
汇总层
数据挖掘模型
当事人资产协议
财务事件计量结果
产品
内部机构市场数据
整合模型层
面向整合主题设计提供规范和共享
技术缓冲层
核心系统对公信贷票据系统
…..
复杂交易
储蓄国债
市场数据
ETL专用的纯技术层完全与源系统结构一致
核心系统
优先考虑业务单位范围关心业务部门的需求多维建模师以企业视角，建立一致性维度。实施方法采用自底向上的：如何快速的获取由用户控制的业务部门专有的数据，并最小限度的考虑整个企业的使用快速需求收集和实现过程使得为整个环境提供一致而可靠数据的任务变得复杂。
企业信息工厂体系结构
优先考虑企业总体范围从企业角度解决供应源数据的问题，但并不是整个企业的数据必须在项目第一个阶段都处理。相反而是选择企业所有数据的一个子集。实施方法是自顶向下的：企业数据利用业务需求将数据从数据源推至需要这些数据的地方，其核心问题是从最初的项目开始为任何数据集市的使用而集成企业数据。为了制定尽可能在整个企业范围内一致的主题域和业务数据需要增加模型开销，需要更多的时间和代价。但后续项目则需要较少时间和代价，尤其对于使用现有的、健全的主题域的业务单位更是如此。实现对存储空间最小需求，非冗余方式防止了在多个位臵存储数据。这种特性使更新或删除异常最小化或者消除。
应用层
报表模型
多维分析模型
星型模型风险缓释公共信息
零售信贷
公司信贷票据信息同业拆借
汇总层理财产品
会计单元
交易流水
市场数据
计量结果参与者债券投资
数据挖掘模型
风险计量结果返回 O D S
Enterprise Date Warehouse ODS
风险数据集市建设目标
数据整合，数据标准
•面向具体应用 •按需设计 •形式各异，依具体应用不同；
•针对业务目标、挖掘算法设计数据模型 • 一条记录表示一个观测 • 多条记录表示一个观测
重点
•理解源结构
•整体性 •一致性
• 业务理解 • 数据理解 • 数据准备 • 特定业务专题
用途
•业务原貌查询 •即时报表 •数据质量检查
企业数据仓库EDW
企业数据仓库定义：企业数据仓库作用：基于数据/信息来回答相关的业务详细交易及相关业务数据的集合�� 问题和提供决策支持，并确保：一包含必要的内部与外部信息�� 致、集成的数据存储�� 来自于多个数据源/业务操作系统�� 任意的数据粒度�� 保存一定的时间周期�� 在整个企业的业务范围�� 按照企业内业务规则所决定的模型来存储保持企业内一致的信息视图企业内一致的信息视图（Single Version of the Truth） >集成的企业信息（Integrated corporate information） >不针对特定应用（Application neutral） >无冗余（Non redundant） >用于报表和决策支持（Reporting and decision making）最详细的数据和信息（Detailed Data）任何时候，针对任意数据，提出任意业务问题（Ask any question, any data, any time）
对公信贷
票据系统
…..
近源模型层
复杂交易储蓄国债市场数据
基本依照源系统建模尽量保持业务系统原貌
设计思路比较
ODS
目标
•短期的，细节的，同源的数据存储； •直接提供基于源系统结构的简单原貌访问； •为BI环境中适合的业务需求提供支持 •简单处理，不考虑整合； •关注保留策略； •偏源系统模型； •根据支持应用情况可以保留短期历史
• 整合全面风险相关业务系统数据，实现全面风险的完整视图，为未来业务拓展提供可扩展的架构。 • 通过集市数据模型处理，面向业务主题的模型设计，灵活易扩展。同时按照业务应用需求驱动，进行多维度、多粒度的加工汇总。
支撑银行全面风险管理
• 实现全面风险数据的统一管理和全景视图，为实现全面、高效、及时的风险计量、识别、报告提供数据基础，提升风险管理水平。
数据仓库的特点
面向主题：操作型数据库的数据组织面向事物处理任务，各个业务系统之间各自分离，而数据仓库中的数据是按照一定的主题域进行组织的。例如：当事人、协议、机构、财务、事件、产品等主题。集成的：数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的，必须消除源数据中的不一致性，以保证数据仓库内的信息是关于整个企业的一致的全局信息。相对稳定的：数据仓库的数据主要供企业决策分析之用，所涉及的数据操作主要是数据查询，一旦某个数据进入数据仓库以后，一般情况下将被长期保留，也就是数据仓库中一般有大量的查询操作，但修改和删除操作很少，通常只需要定期的加载、刷新。
数据流
聚集数据集市：当业务过程发生变化，为了消除
易失性
数据仓库模型是与过程无关的，它摒弃了由于处理过程影响而带来的变化或减少对事实表重建，需要增加新的维或改变维。数据仓库模型的设计依赖于企业的业务规则，而不依赖与在其上将运行什么查询。原子数据集市：由于事实表可能包含几亿甚至更如果一个已经建好的数据集市需要改变或加强，可以根据存储在数据仓库中的细节数据合多的数据，重建将会带来严重后果理且快速地进行重建
On-Line Transaction Processing
也称为面向交易的处理系统，其基本特征是顾客的原始数据可以立即传送到计算中心进行处理，并在很短的时间内给出处理结果。这样做的最大优点是可以即时地处理输入的数据，及时地回答。也称为实时系统(Real time System)。衡量联机事务处理系统的一个重要性能指标是系统性能，具体体现为实时响应时间(Response Time)，即用户在终端上送入数据之后，到计算机对这个请求给出答复所需要的时间。 OLTP 数据库旨在使事务应用程序仅写入所需的数据，以便尽快处理单个事务。