3-4数据仓库设计-物理模型设计

合集下载

onedata建模方法论

onedata建模方法论（原创版4篇）《onedata建模方法论》篇1OneData 是一种数据建模方法论，旨在帮助企业构建高质量的数据仓库。

该方法论包括以下主要内容：1. 数据仓库定义：OneData 将数据仓库定义为一个集成的、稳定的、易于访问的数据存储库，用于支持企业管理、决策和分析需求。

2. 数据建模流程：OneData 提出了一套完整的数据建模流程，包括需求分析、概念设计、逻辑设计、物理设计和实施等阶段。

在每个阶段，都有相应的方法和工具支持。

3. 数据模型设计：OneData 强调数据模型设计的重要性，提出了一些设计原则，如实体完整性、属性完整性、参照完整性和数据一致性等。

OneData 还提供了一些数据模型设计工具，如ER 图、数据字典和数据流图等。

4. 数据仓库实现：OneData 提供了一些数据仓库实现的技术和工具，如数据清洗、数据转换、数据加载、数据存储和数据查询等。

OneData 还强调了数据仓库的性能和安全性的重要性。

5. 数据仓库管理：OneData 提供了一些数据仓库管理方法和工具，如数据质量管理、数据备份和恢复、数据安全和数据审计等。

OneData 还强调了数据仓库的可用性和可扩展性的重要性。

《onedata建模方法论》篇2OneData 是一种数据仓库建模方法论，其核心思想是将数据仓库视为一个企业级的数据中心，通过建立一套完整的数据模型来实现数据的统一管理和运营。

OneData 方法论主要包括以下方面：1. 数据仓库概念模型设计：该阶段主要通过业务领域模型的设计，将企业的业务需求转化为数据模型，包括数据实体的定义、属性的设计以及实体之间的关系等。

2. 数据仓库逻辑模型设计：该阶段主要通过数据模型的逻辑设计，将概念模型转化为具体的数据表结构，包括数据表的定义、表之间的关系、索引的设计等。

3. 数据仓库物理模型设计：该阶段主要通过数据模型的物理设计，将逻辑模型转化为具体的数据存储结构，包括数据分区、数据备份、数据恢复等。

2022年武汉工程大学邮电与信息工程学院计算机应用技术专业《数据库概论》科目期末试卷A(有答案)

2022年武汉工程大学邮电与信息工程学院计算机应用技术专业《数据库概论》科目期末试卷A（有答案）一、填空题1、若事务T对数据对象A加了S锁，则其他事务只能对数据A再加______，不能加______，直到事务T释放A上的锁。

2、使某个事务永远处于等待状态，得不到执行的现象称为______。

有两个或两个以上的事务处于等待状态，每个事务都在等待其中另一个事务解除封锁，它才能继续下去，结果任何一个事务都无法执行，这种现象称为______。

3、关系数据库中基于数学的两类运算是______________和______________。

4、设某数据库中有作者表（作者号，城市）和出版商表（出版商号，城市），请补全如下查询语句，使该查询语句能查询作者和出版商所在的全部不重复的城市。

SELECT城市FROM作者表_____SELECT城市FROM出版商表；5、采用关系模型的逻辑结构设计的任务是将E-R图转换成一组______，并进行______处理。

6、完整性约束条件作用的对象有属性、______和______三种。

7、安全性控制的一般方法有____________、____________、____________、和____________视图的保护五级安全措施。

8、数据仓库主要是供决策分析用的______，所涉及的数据操作主要是______，一般情况下不进行。

9、关系规范化的目的是______。

10、在RDBMS中，通过某种代价模型计算各种查询的执行代价。

在集中式数据库中，查询的执行开销主要包括______和______代价。

在多用户数据库中，还应考虑查询的内存代价开销。

二、判断题11、在SELECT语句中，需要对分组情况满足的条件进行判断时，应使用WHERE子句。

（）12、概念模型是对现实世界的第二层抽象。

（）13、有了外模式/模式映象，可以保证数据和应用程序之间的物理独立性。

（）14、在关系运算中，投影是最耗时的操作。

数据仓库模型的设计

数据仓库模型的设计数据仓库模型的设计大体上可以分为以下三个层面的设计151:.概念模型设计;.逻辑模型设计;.物理模型设计;下面就从这三个层面分别介绍数据仓库模型的设计。

2.5.1概念模型设计进行概念模型设计所要完成的工作是:<1>界定系统边界<2>确定主要的主题域及其内容概念模型设计的成果是，在原有的数据库的基础上建立了一个较为稳固的概念模型。

因为数据仓库是对原有数据库系统中的数据进行集成和重组而形成的数据集合，所以数据仓库的概念模型设计，首先要对原有数据库系统加以分析理解，看在原有的数据库系统中“有什么”、“怎样组织的”和“如何分布的”等，然后再来考虑应当如何建立数据仓库系统的概念模型。

一方面，通过原有的数据库的设计文档以及在数据字典中的数据库关系模式，可以对企业现有的数据库中的内容有一个完整而清晰的认识;另一方面，数据仓库的概念模型是面向企业全局建立的，它为集成来自各个面向应用的数据库的数据提供了统一的概念视图。

概念模型的设计是在较高的抽象层次上的设计，因此建立概念模型时不用考虑具体技术条件的限制。

1.界定系统的边界数据仓库是面向决策分析的数据库，我们无法在数据仓库设计的最初就得到详细而明确的需求，但是一些基本的方向性的需求还是摆在了设计人员的面前:. 要做的决策类型有哪些?. 决策者感兴趣的是什么问题?. 这些问题需要什么样的信息?. 要得到这些信息需要包含原有数据库系统的哪些部分的数据?这样，我们可以划定一个当前的大致的系统边界，集中精力进行最需要的部分的开发。

因而，从某种意义上讲，界定系统边界的工作也可以看作是数据仓库系统设计的需求分析，因为它将决策者的数据分析的需求用系统边界的定义形式反映出来。

2，确定主要的主题域在这一步中，要确定系统所包含的主题域，然后对每个主题域的内容进行较明确数据仓库建模技术在电信行业中的应用的描述，描述的内容包括:. 主题域的公共码键;. 主题域之间的联系:. 充分代表主题的属性组。

数据库建模：概念模型,逻辑模型和物理模型

数据库建模：概念模型,逻辑模型和物理模型概念模型设计 , 逻辑模型设计 , 物理模型设计是数据库及数据仓库模型设计的三个主要步骤1. 概念模型概念模型就是在了解了⽤户的需求 , ⽤户的业务领域⼯作情况以后 , 经过分析和总结 , 提炼出来的⽤以描述⽤户业务需求的⼀些概念的东西 ;如销售业务中的客户和定单 , 还有就是商品 , 业务员 , ⽤ USE CASE 来描述就是 : 业务员与客户就购买商品之事签定下定单 , 概念模型使⽤ E-R 图表⽰ , E-R 图主要是由实体 , 属性和联系三个要素构成的 , 该阶段需完成 :1. 该系统的商业⽬的是什么 , 要解决何种业务场景2. 该业务场景中 , 有哪些⼈或组织参与 , ⾓⾊分别是什么3. 该业务场景中 , 有哪些物件参与 ,4. 此外需要具备相关⾏业经验 , 如核⼼业务流程 , 组织架构 , ⾏业术语5. 5w1h , who , what , when , where , why, how2. 逻辑模型逻辑模型是将概念模型转化为具体的数据模型的过程 , 即按照概念结构设计阶段建⽴的基本 E-R 图 , 按选定的管理系统软件⽀持的数据模型(层次/⽹状/关系/⾯向对象) , 转换成相应的逻辑模型 , 这种转换要符合关系数据模型的原则 ;还以销售业务为例 : 客户信息基本上要包括 : 单位名称 , 联系⼈ , 联系电话 , 地址等属性商品信息基本上要包括 : 名称 , 类型 , 规格 , 单价等属性定单信息基本上要包括 : ⽇期和时间属性 ; 并且定单要与客户 , 业务员和商品明细关联 , 该阶段需完成 :1. 分多少个主题 , 每个主题包含的实体2. 每个实体的属性都有什么3. 各个实体之间的关系是什么4. 各个实体间是否有关系约束3. 物理模型物理模型就是针对上述逻辑模型所说的内容 , 在具体的物理介质上实现出来 , 系统需要建⽴⼏个数据表 : 业务员信息表 , 客户信息表 , 商品信息表 , 定单表 ; 系统要包括⼏个功能 : 业务员信息维护 , 客户信息维护 , 商品信息维护 , 建⽴销售定单 ; 表 , 视图 , 字段 , 数据类型 , 长度 , 主键, 外键 , 索引 , 约束 , 是否可为空 , 默认值 , 该阶段需完成 :1. 类型与长度的定义2. 字段的其他详细定义 , ⾮空 , 默认值3. 却准详细的定义 , 枚举类型字段 , 各枚举值具体含义4. 约束的定义 , 主键 , 外键这三个过程 , 就是实现⼀个数据库设计的三个关键的步骤 , 是⼀个从抽象到具体的⼀个不断细化完善的分析 , 设计和开发的过程 ;。

数据仓库设计方案

数据仓库设计方案【正文】一、引言数据驱动的决策已经成为企业中不可或缺的一部分。

为了有效地管理和分析海量的数据，数据仓库设计方案应运而生。

本文将介绍数据仓库的概念、设计原则和关键步骤，帮助企业构建高效可靠的数据仓库。

二、数据仓库概述数据仓库是指将各类数据整合、清洗、转化并存储于统一的数据存储区域，旨在为决策支持系统提供准确可靠的数据服务。

其设计方案需要考虑多个方面，包括数据源、数据的抽取与转换、数据建模和数据的加载等。

三、数据仓库设计原则1. 一致性：数据仓库应该保持与源系统的数据一致性，确保决策所依据的数据准确无误。

2. 高性能：数据仓库需要具备高性能的查询和分析能力，以满足用户对数据的实时性和响应性要求。

3. 安全性：严格管理数据仓库的访问权限，确保敏感数据的安全性和隐私保护。

4. 可扩展性：数据仓库需要具备良好的扩展能力，能够适应数据量的增长和业务需求的变化。

5. 可维护性：数据仓库的设计应该具备良好的可维护性，便于数据的更新、维护和监控。

四、数据仓库设计步骤1. 需求分析：明确数据仓库的功能和目标，分析业务需求和数据源的特点，为后续的设计提供指导。

2. 数据抽取与转换：根据需求分析的结果，选择合适的数据抽取方式，并进行数据的清洗、转换和集成。

3. 数据建模：根据业务需求和数据源的特点，设计数据仓库的物理和逻辑模型，并建立相应的维度表和事实表。

4. 数据加载：将清洗和转换后的数据加载到数据仓库中，并进行合理的存储和索引，以便进行后续的查询和分析。

5. 数据质量控制：定期监控数据仓库的数据质量，并进行必要的修复和优化，确保数据准确无误。

6. 安全管理：建立合适的权限控制机制，确保数据仓库的安全性和合规性。

五、数据仓库设计工具和技术1. ETL工具：ETL（Extract-Transform-Load）工具可以帮助实现数据的抽取、转换和加载，实现数据仓库的数据集成和清洗。

2. 数据建模工具：数据建模工具可以辅助设计数据仓库的物理和逻辑模型，提供建模、维护和文档化的功能。

概念数据模型设计与逻辑数据模型设计

概念数据模型设计与逻辑数据模型设计、物理数据模型设计是数据库及数据仓库模型设计的三个主要步骤。

在数据仓库领域有一个概念叫conceptual data model，中文一般翻译为“概念数据模型”。

概念数据模型是最终用户对数据存储的看法，反映了最终用户综合性的信息需求，它以数据类的方式描述企业级的数据需求，数据类代表了在业务环境中自然聚集成的几个主要类别数据。

概念数据模型的内容包括重要的实体及实体之间的关系。

在概念数据模型中不包括实体的属性，也不用定义实体的主键。

这是概念数据模型和逻辑数据模型的主要区别。

概念数据模型的目标是统一业务概念，作为业务人员和技术人员之间沟通的桥梁，确定不同实体之间的最高层次的关系。

在有些数据模型的设计过程中，概念数据模型是和逻辑数据模型合在一起进行设计的。

在数据仓库领域有一个概念叫logical data model，中文一般翻译为“逻辑数据模型”。

逻辑数据模型反映的是系统分析设计人员对数据存储的观点，是对概念数据模型进一步的分解和细化。

逻辑数据模型是根据业务规则确定的，关于业务对象、业务对象的数据项及业务对象之间关系的基本蓝图。

逻辑数据模型的内容包括所有的实体和关系，确定每个实体的属性，定义每个实体的主键，指定实体的外键，需要进行范式化处理。

逻辑数据模型的目标是尽可能详细的描述数据，但并不考虑数据在物理上如何来实现。

逻辑数据建模不仅会影响数据库设计的方向，还间接影响最终数据库的性能和管理。

如果在实现逻辑数据模型时投入得足够多，那么在物理数据模型设计时就可以有许多可供选择的方法。

在数据仓库领域有一个概念叫physical data model，中文一般翻译为“物理数据模型”。

物理数据模型是在逻辑数据模型的基础上，考虑各种具体的技术实现因素，进行数据库体系结构设计，真正实现数据在数据库中的存放。

物理数据模型的内容包括确定所有的表和列，定义外键用于确定表之间的关系，基于用户的需求可能进行发范式化等内容。

数据仓库设计物理模型设计

（2）对数据仓库的数据环境，尤其是业务数据的数量规模、使用频度、操作方式等方面的特点，要有全面的了解，以便采取有效措施，对系统时间和空间的使用效率进行平衡和优化。
（3）对数据仓库外部储存设备的特性，必须有足够的了解，如I/O接口的特性、数据分组的方法、RAID的种类与现实手段等。
3.4物理模型设计
为了保证数据仓库系统的效率，减少查询、备份、恢复等操作所需要的时间，降低数据过于集中而带来的风险，在设计事实表时，必须注意数据分割、粒度控制等环节，并合理设置每个事实表中列的数量，将过于复杂的表加以分解。
此外，还可以将历史数据归档到独立的事实表中，从而有效地Biblioteka 制表的大小。3.4物理模型设计
3.4.3维度表的设计
完成事实表的设计之后，就应当根据逻辑模型来设计维度的模型。
在设计事实表和维度表之间的关系时，应注意尽可能让维度表中的数据直接参考事实表，避免通过其他的中介而间接参考事实表的做法，以防止在查询中出现大量的表的相互关联，给系统的CPU、I/O 通道及存储设备增加太大的负担，这样才能保证系统具有较高的效率。
3.4.1物理模型设计要点
物理模型设计的主要内容，包括以下几个方面：
3.4物理模型设计
3.4.2事实表的设计
3.4物理模型设计
3.4.2事实表的设计
在数据仓库中，业务数据主要记录在事实中。因此，在物理模型的层次上看，事实表不仅是数据仓库的核心，也是构成数据仓库的所有类型的表中体积最大的表。
3.4物理模型设计
3.4.3维度表的设计
维度表的内容，是对所依附的事实表的某些信息的描述，这种描述应具有以下特征
3.4物理模型设计
3.4.4物理模型对数据仓库性能的影响

数据仓库

数据是信息的载体，信息是有价值有意义的数据。

数据库用于事务处理数据仓库用于决策分析数据仓库是面向主题的、集成的、稳定的，不同时间的数据集合，用于支持经营管理中决策制定过程。

数据仓库是一种管理技术，旨在通过通畅、合理、全面的信息管理，达到有效的决策支持。

数据仓库特点：（1）数据仓库是面向主题的（2）数据仓库是集成的（3）数据仓库是稳定的（4）数据仓库是随时间变化的（5）数据仓库的数据量很大（6）数据仓库软、硬件要求较高两者区别数据库：面向应用数据是详细的保持当前数据数据是可更新的对数据的操作是重复的操作需求是事先可知的一个操作存取一个记录数据非冗余操作比较频繁查询基本是原始数据事务处理需要的是当前数据很少有复杂的计算支持事务处理数据仓库：面向主题数据是综合的和历史的保存过去和现在的数据数据不更新对数据的操作是启发式的操作需求是临时决定的一个操作存取一个集合数据时常冗余操作相对不频繁查询基本是经过加工的数据决策分析需要过去和现在的数据有很多复杂的计算支持决策分析联机事物处理（On Line Transaction Processing，OLTP）是在网络环境下的事务处理工作，以快速的响应和频繁的数据修改为特征，使用户利用数据库能够快速地处理具体的业务。

OLTP是用户的数据可以立即传送到计算中心进行处理，并在很短的时间内给出处理结果。

也称为实时系统(Real time System)。

E.F.Codd在1993年提出了多维数据库和多维分析的概念，即联机分析处理（On Line Analytical Processing，OLAP）概念。

关系数据库是二维数据（平面），多维数据库是空间立体数据。

OLAP专门用于支持复杂的决策分析操作，侧重对分析人员和高层管理人员的决策支持，OLAP可以应分析人员的要求快速、灵活地进行大数据量的复杂处理，并且以一种直观易懂地形式将查询结果提供给决策制定人OLTP数据库数据细节性数据当前数据经常更新一次性处理的数据量小对响应时间要求高面向应用，事务驱动OLAP数据仓库数据综合性数据历史数据不更新，但周期性刷新一次处理的数据量大响应时间合理面向分析，分析驱动数据字典与元数据数据字典是描述数据库中各类数据的集合，包括：(1) 数据项(2) 数据结构(3) 数据流(4) 数据存储(5) 处理过程数据字典是数据库的元数据。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

可以先卸载索引再加载数据，最后重新生成索引
确定数据存放位置
数据的布局原则：
不要把经常需要连接的几张表放在同一存储设备上。如果几台服务器之间的连接会造成严重的网络业务量的问题，则要考虑服务器复制表格。考虑把整个企业共享的细节数据放在主机或其他集中式服务器上。别把表格和它们的索引放在同一设备上。一般可以将索引存放在高速存储设备上，而表格则存放在一般存储设备上，以加快数据的查询速度。
确定存储分配
存储分配的相关内容
表空间大小划分块的大小缓冲区的大小和个数
物理模型设计评审
物理设计评审的目标要确定：
物理模型在满足数据仓库使用的灵活性、性能、数据完整性、系统可用性、数据的当前性和用户的满意度等
具体的评审项目有：
表空间、分区、表格、数据压缩、控制表和引用表、索引、数据量、数据分布、线路通信量、数据仓库的更新、概况数据、预期变动和数据的文档化。
数据仓库的物理模型设计
设计工作前提
全面了解所选用的数据库管理系统，特别是存储结构和存取方法。了解数据环境、数据的使用频率、使用方式、数据规模以及响应时间要求等。了解外部存储设备的特征。
数据仓库设计的规范
保证数据仓库的设计、实施和管理保持稳定，不产生混乱，需要对物理数据模型中的实体、表、列等进行规范化处理。使整个数据仓库的物理数据模型能够保持一致。规范化内容主要有：
数据仓库的物理模型设计
内容提要
数据仓库的物理模型设计
索引的建立的测试数据仓库的应用支持与增强
数据仓库的物理模型设计
物理模型设计的工作：
表的数据结构类型；索引策略；数据存放位置；数据存储分配。
物理模型设计因素：
I/O存取时间；空间利用率；维护的代价。
不会受到系统失败等问题的影响，保证提供可靠的数据复制。只传送符合数据完整性规则的一致数据。可以优化传送过程，减少在捕获或修改数据和复制品作为结果传送之间的等待时间。
数据仓库的数据发行
技术和数据结构应保证数据发行系统完成以下的功能：
保证数据以适时和有效的方式发行。保证只发送被排序的数据。建立正确的和所需要的服务水平标准。
对数据仓库用户的支持
对数据仓库应用成功案例的推广初始阶段的支持技术人员、商业分析人员与用户一起讨论
数据仓库的使用方式
数据仓库的使用方式
信息处理分析处理数据挖掘
数据仓库使用中的数据刷新
从已有数据资源中获取更多数据从单位内部获取新的数据源获取新的或更多的行业数据源
数据仓库的增强
元数据库的局限性缺乏外部数据源数据仓库数据加载性能不能满足要求数据仓库应用范围的扩大数据仓库整体性能的调整数据仓库重新规划
数据仓库的测试
单元测试
单元测试的目的是寻找出存在于单个程序、存储过程和其它位于一些独立环境中模块的错误。
系统集成测试
测试目的是验证每个单元与数据仓库系统和子系统之间的接口是否完好，是否能够正常传递数据与执行系统的整体功能。
数据仓库的应用、支持和增强
数据仓库的用户培训及支持
用户的培训：
向用户解释清楚数据仓库的作用与原理；用各种案例向用户说明如何使用数据仓库
数据仓库的中间件设计
中间件种类
拷贝中间件网关中间件监控中间件
拷贝中间件包含的部件
代码发生器数据复制工具数据泵广义数据获取工具和设备
数据仓库的中间件设计
拷贝中间件所做的工作
拷贝中间件还应该能够进行数据清洁工作可对记录或列重组、去除业务数据、供给已丢失的字段值和检查数据的完整性和一致性对列值的解码和转换增加数据的时间戳数据的概括或者衍生值的计算
数据仓库的实施
实施过程中需要完成的工作：
建立数据仓库与业务处理系统的接口；数据仓库的体系结构建立；实现数据仓库物理仓库与元数据库；进行数据仓库的数据初次加载；完成数据仓库的中间件设计；进行数据仓库的测试。
数据仓库与业务处理系统接口的设计
接口应该具有这样一些功能：
从面向应用和操作环境生成完整的数据；数据基于时间的转换；数据的聚集；对现有数据系统的有效扫描，以便今后数据仓库的数据追加。
数据仓库的创建
关系型数据库、多维数据库和对象数据库创建数据仓库的工具：
MS SQL Server2000 Oracle9i Sybase Informix Red Brick Decision Server
数据仓库的数据加载、复制
数据加载之前，首先需要对准备加载的数据进行清理；复制技术，复制结构应完成以下的复杂任务：
完整清晰的数据定义；合适的数据格式等。
数据仓库中的每个组件或部件都确定相应的设计标准。
数据仓库索引的创建
索引创建策略
建立索引时，按照索引使用的频率，由高到低逐步添加。按主关键字和大多数外部关键字建立索引
事实表索引的创建
事实表中一定要设置主键可以设计多种索引结构
维表索引的创建数据加载索引的创建