数据仓库逻辑模型介绍
数据仓库的逻辑模型

数据仓库的逻辑模型介绍
数据仓库是一种面向主题的、集成的、稳定的、不同时间的数据集合,用于支持管理决策过程。
逻辑模型是数据仓库的核心,它描述了数据仓库中数据的组织和存储方式,以及数据仓库的结构和功能。
本文将介绍数据仓库的逻辑模型,包括数据仓库的数据源、数据存储、数据集市和数据访问。
一、数据源
数据仓库的数据源可以是多种类型的,包括关系数据库、OLAP 数据库、文件系统、外部数据源等。
不同的数据源具有不同的特点和优势,需要根据实际情况选择合适的数据源。
二、数据存储
数据仓库的数据存储是指将数据源中的数据加载到数据仓库中,并对数据进行处理和转换,以满足数据仓库的需求。
数据存储通常采用分布式存储架构,以支持大量数据的存储和查询。
三、数据集市
数据集市是数据仓库中面向特定主题的数据集合,它将数据仓库中的数据按照业务需求进行分类和组织。
数据集市通常包括多个表,每个表代表一个主题,例如销售、客户、产品等。
数据集市中的数据可以根据业务需求进行查询和分析。
四、数据访问
数据访问是指数据仓库中的数据如何被访问和使用。
数据仓库的数据访问通常采用OLAP(联机分析处理)和数据挖掘技术。
OLAP技术支持用户对数据仓库中的数据进行快速查询和分析,数据挖掘技术则可以帮助用户从大量数据中发现有价值的信息和规律。
总之,数据仓库的逻辑模型是数据仓库的核心,它描述了数据仓
库中数据的组织和存储方式,以及数据仓库的结构和功能。
数据仓库的数据源、数据存储、数据集市和数据访问是数据仓库逻辑模型的重要组成部分,它们共同构成了一个完整的数据仓库系统。
数据库逻辑模型和物理模型

数据库逻辑模型和物理模型数据库是一个组织数据的集合,可以用来存储和处理各种类型的数据。
在数据库设计过程中,逻辑模型和物理模型是非常重要的概念。
本文将详细介绍数据库逻辑模型和物理模型的定义、区别和应用。
一、数据库逻辑模型数据库逻辑模型是指数据库设计人员在数据库设计过程中所采用的一种抽象模型,用来描述数据之间的逻辑关系。
逻辑模型通常是由实体、属性、关系和约束条件组成。
其中,实体是指现实世界中的一个独立存在的事物,属性是指实体的特征或者属性,关系是指实体之间的联系,约束条件是指对数据的限制和要求。
常见的逻辑模型有层次模型、网状模型、关系模型等。
其中,关系模型是最常用的逻辑模型。
在关系模型中,数据被组织成表格的形式,每个表格代表一个实体,表格中的每一行代表实体的一个实例,每一列代表实体的一个属性。
逻辑模型的优点是可以清晰地描述数据之间的逻辑关系,方便数据库设计人员进行数据库设计和维护。
但是,逻辑模型并不考虑数据的存储方式和物理结构,因此在实际应用中,需要将逻辑模型转换为物理模型。
二、数据库物理模型数据库物理模型是指数据库设计人员在数据库设计过程中所采用的一种具体的模型,用来描述数据在计算机硬件中的存储方式和物理结构。
物理模型通常是由数据块、文件、索引和存储结构组成。
在物理模型中,数据被组织成数据块的形式,数据块是物理存储单元的最小粒度。
数据块可以被组织成文件的形式,文件是一组数据块的集合。
为了提高检索效率,需要对文件进行索引,索引是一种数据结构,可以加速数据的检索速度。
物理模型的优点是可以直接反映数据在计算机硬件中的存储方式和物理结构,方便数据库管理员进行数据库的管理和维护。
但是,物理模型并不考虑数据之间的逻辑关系,因此需要在设计过程中保持逻辑模型和物理模型的一致性。
三、逻辑模型和物理模型的区别逻辑模型和物理模型是两个不同的概念,其主要区别如下:1.定义不同:逻辑模型是用来描述数据之间的逻辑关系的一种抽象模型,而物理模型是用来描述数据在计算机硬件中的存储方式和物理结构的具体模型。
3-3数据仓库设计-逻辑模型

……
… …
……
……
数据概括表与事实表对应关系
概括表表.列 名 是否 导出 事实表.列 名 SPGYB.SP 商品编号 _ID SPGYB.G YS_ID 供应商编号 备注 SPGKB.SP_I 否 D SPGKB.GYS _ID SPGKB.SPG YZSL SPGKB.SPG YZJE …… 否 是 是
商 品
商品号
销 售 客 户
销售单号
客户号
数据仓库的实体定义
实体 容量 更新频率 每月对客户情况进行一次分析,更 新频率也为每月一次 大约有500种商品,商品的更新是每 月一次,数据更新也照此。 Customer 中等容量,有100个重点客户, 2000个跟踪客户 Product 小容量,500种商品
确定粒度的循环和反复
提高粒度的方法
当源数据置入数据仓库时,对它进行汇总。 当源数据置入数据仓库时,对它求平均或进行 计算。 把最大/最小的设定值置入数据仓库。 只把显然需要的数据置入数据仓库。 用条件逻辑选取记录的一个子集置入数据仓库。 对于数据怎样轻度汇总是没有限制的(限制只 存在于设计者的脑海里)。
Windows/Acces RSGL s …… ……
数据源抽取规则表
表.列名 过滤与连接 条件 比较值 50000 500 ‘AB’ …… 复合条件 AND AND OR …… 备注 采购商品数量 小于50000 采购商品数量 大于500 商品前两位 非’AB’ …… KHCG.CGSL < KHCG.CGSL > SPQK.SPID …… ≠ ……
第一次作业题目
请详细描述数据库应用系统与数据仓库 之间的区别。(越详细越好,越全面越 好) 下星期三以前交。
数据仓库设计——逻辑模型内Leabharlann 提要数据仓库的逻辑模型设计
金融业逻辑数据模型-数仓十大主题-LDM_当事人主题

金融业逻辑数据模型FS-LDM 当事人PARTY主题1 定义/准入原则当事人(Party)是指银行所服务的任意对象和感兴趣进行分析的各种对象。
如:个人或公司客户、同业客户、潜在客户、代理机构、雇员、分行、部门等,一个当事人可以同时是这当中的许多角色。
当事人是一个独立的人或者一组人组成的机构、团体等,可分为个人、机构和家庭,他们是和银行有往来或者出于市场营销、分析管理等各种需要而希望关心和分析的个体或人群。
从数据仓库模型角度考虑,可以包括以下当事人信息:⏹在银行登记注册开立账户的单位/企业客户⏹在银行登记注册开立账户的个人普通客户⏹和银行有业务往来的其他金融机构(如国内同业、海外代理行等)⏹登记注册使用某项特殊服务的客户(如基金注册登记机构、基金交易客户、银行卡特约单位、联名认同单位、电子银行缴费单位/个人、网银集团客户/贵宾企业/商户/学校、航空公司等)⏹机构的内部组织(如分支机构、部门、团队等)⏹机构的员工(如柜员、客户经理等)⏹外部机构提供清单(如人行征信系统、国家统计局等)上银行感兴趣的各种对象⏹为银行提供某项专业服务的当事人(如咨询公司、设备提供商、法律顾问等)2 唯一标识当事人的唯一标识是“当事人编号”,该字段可以直接取自原业务系统中的唯一客户编号(可能需要加工,区分对公、个人和机构等),也可以由数据仓库系统按照一定的规则自行编制一个唯一编号。
3 当事人分类当事人分为个人当事人、机构当事人、家庭三类,机构当事人又分为内部机构和外部机构,外部机构又细分成“商业组织机构(企业)”和“非盈利组织机构(协会)”。
此外,“当事人”实体还可以通过“潜在客户标志”、“提供商标志”等字段实现其他口径不排他的分类。
⏹提供商信息:记录提供商的信息,如法律顾问、咨询家、财务顾问等和银行往来的历史记录等;⏹潜在客户信息:该实体记录银行所感兴趣的各种潜在客户的信息;⏹机构名称历史:记录机构的名称的变更历史,包括过去的、现在的正式名称、简称等。
制造业数据仓库 逻辑模型

制造业数据仓库逻辑模型制造业数据仓库逻辑模型数据仓库是指将不同来源的数据进行整合、清洗和转换,以支持企业的决策分析和业务运营。
在制造业中,数据仓库的建立可以帮助企业更好地管理和分析生产过程中所涉及的各种数据,从而提高生产效率、降低成本、优化产品质量和增强市场竞争力。
制造业数据仓库的逻辑模型是指在数据仓库建设过程中,对于制造业特定的数据进行建模和设计的过程。
逻辑模型是数据仓库的核心,它定义了数据仓库中各个数据表之间的关系和属性,为数据仓库的实际构建提供了指导和依据。
1. 数据仓库的维度建模在制造业数据仓库的逻辑模型中,维度建模是非常重要的一部分。
维度是描述业务过程中的各个方面的属性,例如产品、时间、地点、客户等。
在制造业数据仓库中,常见的维度包括产品维度、时间维度、地点维度、客户维度、供应商维度等。
通过对这些维度进行建模,可以更好地了解制造业中各个环节的情况,从而进行决策分析和业务优化。
2. 事实表的设计事实表是制造业数据仓库逻辑模型中的另一个关键部分。
事实表是描述业务过程中所发生事件的表,例如销售订单、生产计划、库存变动等。
在制造业数据仓库中,常见的事实表包括销售事实表、生产事实表、库存事实表等。
事实表中的每一行代表一个特定的事件,行中的各个字段记录了该事件的属性和指标信息。
通过对事实表的设计,可以方便地进行各种分析和查询,从而帮助企业更好地了解和掌握制造过程中的各个环节和指标。
3. 星型模型和雪花模型星型模型和雪花模型是制造业数据仓库逻辑模型的两种常见的建模方法。
星型模型是一种简单的建模方式,其中只包含一个事实表和多个维度表,事实表和维度表之间通过外键进行关联。
星型模型的优点是结构简单、易于理解和查询。
雪花模型在星型模型的基础上进行了扩展,将维度表进一步细化,形成了多层级的关系。
雪花模型的优点是可以更好地表示业务过程中的复杂关系和层次结构。
4. 数据粒度的确定在制造业数据仓库的逻辑模型中,数据粒度的确定是非常重要的一步。
数据库逻辑模型

数据库逻辑模型数据库逻辑模型,又叫做逻辑数据模型,是数据库技术中一种重要的基本模型。
它处于物理数据存储和用户使用之间,它表示数据库信息和关系模型之间的映射。
它支持用户定义更通用的视图,可以分解成较低级别的视图,来支持与特定数据库之间的映射,从而扩展应用程序的功能,它可以使应用程序开发者更充分地表达自己的需求,以实现更丰富的应用。
数据库逻辑模型的构建是一种结构的设计,它是一种用于描述数据之间的关系以及如何从数据库中获取和整理信息的技术。
它包含了定义系统的属性,以及确定数据之间的关系的规则。
逻辑模型的最大特点在于它将数据从物理存储中分离出来,因此,在模型中可以实现复杂的关系,并可以更有效地持久化数据,并将其存储在指定的数据库中。
数据库逻辑模型分为三个基本结构,分别为实体,关系和属性。
实体表示一个可以创建或改变的独立的物理对象,它可以包括一个或多个概念或元素,以及可以定义实体之间的关系。
关系是一种映射关系,它定义了不同实体之间的联系,这样,数据库就可以实现数据之间的连接和查询。
最后,属性是实体的描述,可以定义实体的特性和特征,以及特定实体所具有的属性。
在实际应用中,数据库逻辑模型有很多优点。
它极大地提升了灵活性,可以大大降低维护成本,因为可以拆分数据,从而使其可以更容易地更新和维护,可以节省存储空间,减少重复存储的数据,并可以有效提高关系数据库的性能。
在数据库技术中,数据库逻辑模型是一种非常重要的模型,它把数据从物理存储中分离出来,提供了一种方便的方式来实现复杂的关系,有效利用存储空间,提高性能,降低维护成本,从而给企业应用和管理带来更大的便利,可以有效地支持企业更好地进行管控,降低企业的日常管理成本,产生更大的价值。
3-3数据仓库设计-逻辑模型

数据的行数 数据所占存储设备空间 数据所需要的索引空间
只能做数据级上的估算 从一方或多方收集信息进行合理估算
粗略估算数据量算法
双重粒度和单一粒度
表的行数是影响粒度划分主要的因素 将数据库的总行数与下表进行比较
确定粒度的循环和反复
选择合适的粒度级别是体系结构设计环境成功 的关键。 选择粒度级别的一般方法,是利用常识,建立 数据仓库的一小部分,并让用户去访问这些数 据。然后仔细聆听用户的意见,根据他们的反 馈意见适当调整粒度的级别。 最坏的想法是想要事先设计好所有的粒度级别, 再进行数据仓库的建造。 即使在最好的情况下,能使设计的5 0 %是正 确的就已经很不错的了。数据仓库环境的特点 就是只有当决策支持系统分析员实际看到了报 告之后,才能想像哪些是真正需要的。
……
… …
……
……
数据概括表与事实表对应关系
概括表表.列 名 是否 导出 事实表.列 名 SPGYB.SP 商品编号 _ID SPGYB.G YS_ID 供应商编号 备注 SPGKB.SP_I 否 D SPGKB.GYS _ID SPGKB.SPG YZSL SPGKB.SPG YZJE …… 否 是 是
例: 银 行 粒 度 设 计
例: 银 行 粒 度 设 计
数据分割
数据分片概念
水平分片 垂直分片 混合分片 导出分片
按时间进行数据分割是最普遍的 分割标准
数据量 数据分析处理的实际情况 简单易行 粒度划分策略
数据仓库的数据抽取模型
F2 KHCG F3 SPQK F4 ZGYJ
F1 数据抽取规则
确定粒度的循环和反复
提高粒度的方法
当源数据置入数据仓库时,对它进行汇总。 当源数据置入数据仓库时,对它求平均或进行 计算。 把最大/最小的设定值置入数据仓库。 只把显然需要的数据置入数据仓库。 用条件逻辑选取记录的一个子集置入数据仓库。 对于数据怎样轻度汇总是没有限制的(限制只 存在于设计者的脑海里)。
数据库建模:概念模型,逻辑模型和物理模型

数据库建模:概念模型,逻辑模型和物理模型概念模型设计 , 逻辑模型设计 , 物理模型设计是数据库及数据仓库模型设计的三个主要步骤1. 概念模型概念模型就是在了解了⽤户的需求 , ⽤户的业务领域⼯作情况以后 , 经过分析和总结 , 提炼出来的⽤以描述⽤户业务需求的⼀些概念的东西 ;如销售业务中的客户和定单 , 还有就是商品 , 业务员 , ⽤ USE CASE 来描述就是 : 业务员与客户就购买商品之事签定下定单 , 概念模型使⽤ E-R 图表⽰ , E-R 图主要是由实体 , 属性和联系三个要素构成的 , 该阶段需完成 :1. 该系统的商业⽬的是什么 , 要解决何种业务场景2. 该业务场景中 , 有哪些⼈或组织参与 , ⾓⾊分别是什么3. 该业务场景中 , 有哪些物件参与 ,4. 此外需要具备相关⾏业经验 , 如核⼼业务流程 , 组织架构 , ⾏业术语5. 5w1h , who , what , when , where , why, how2. 逻辑模型逻辑模型是将概念模型转化为具体的数据模型的过程 , 即按照概念结构设计阶段建⽴的基本 E-R 图 , 按选定的管理系统软件⽀持的数据模型(层次/⽹状/关系/⾯向对象) , 转换成相应的逻辑模型 , 这种转换要符合关系数据模型的原则 ;还以销售业务为例 : 客户信息基本上要包括 : 单位名称 , 联系⼈ , 联系电话 , 地址等属性商品信息基本上要包括 : 名称 , 类型 , 规格 , 单价等属性定单信息基本上要包括 : ⽇期和时间属性 ; 并且定单要与客户 , 业务员和商品明细关联 , 该阶段需完成 :1. 分多少个主题 , 每个主题包含的实体2. 每个实体的属性都有什么3. 各个实体之间的关系是什么4. 各个实体间是否有关系约束3. 物理模型物理模型就是针对上述逻辑模型所说的内容 , 在具体的物理介质上实现出来 , 系统需要建⽴⼏个数据表 : 业务员信息表 , 客户信息表 , 商品信息表 , 定单表 ; 系统要包括⼏个功能 : 业务员信息维护 , 客户信息维护 , 商品信息维护 , 建⽴销售定单 ; 表 , 视图 , 字段 , 数据类型 , 长度 , 主键, 外键 , 索引 , 约束 , 是否可为空 , 默认值 , 该阶段需完成 :1. 类型与长度的定义2. 字段的其他详细定义 , ⾮空 , 默认值3. 却准详细的定义 , 枚举类型字段 , 各枚举值具体含义4. 约束的定义 , 主键 , 外键这三个过程 , 就是实现⼀个数据库设计的三个关键的步骤 , 是⼀个从抽象到具体的⼀个不断细化完善的分析 , 设计和开发的过程 ;。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据集市
数据来源 OLTP 系统、外部数据 数据仓库
范围
企业级
部门级或工作组级
主题
企业主题
部门或特殊的分析主题
数据粒度 最细的粒度
较粗的粒度
数据结构 规范化结构(第 3范式)星型模式、雪花模式、或 两者混合
历史数据 大量的历史数据
适度的历史数据
优化
处理海量数据、数据 便于访问和分析、快速查
探索
询
8
一、概念 -3
11
一、概念 -5 ? (5)元数据
? 业务元数据从业务的角度描述了数据仓库中的数据。它提供 了介于使用者和实际系统之间的语义层,使得不懂计算机技 术的业务人员也能够“读懂”数据仓库中的数据。使用者的 业务术语所表达的数据模型、对象名和属性名;访问数据的 原则和数据的来源;系统所提供的分析方法以及公式和报表 的信息。
13
一、概念 -7
? (7)OLAP 及其相关
? OLAP 、维度、事实、度量值 ? 切片、切块、上钻、下钻、旋转 ? 星型模型、雪花模型
14
二、数据仓库实施方法论 -1
? (1)实施流程
?
需求分析
系统设计
系统开发
上线与维护
项目 前期 准备
业务调研(BD)
应用开发
业务 访谈
业务 需求 编写
业务 需求 分析
17
二、数据仓库实施方法论 -3
? (3)逻辑数据模型设计
? 了解业务流程 ? 分析源数据 ? 建立实体模型 ? 建立实体间依赖关系 ? 填写并完善实体属性
18
应用 概要 开发
应用 详细 设计
应用 模型
应用 开发
开发
数
据
挖
掘
服
逻辑 物理 系统
务
信息调研(ID)
数据 模型
数据 体系 ETL 模型 结构 开发
设计 设计 设计
系
元 数 据 管
理
统 软 件 硬 件 设 备 安
系 统 管 理 与 维
护
系 统 测 试 与 验
收
装
项目 结束 回顾
项目管理 (Project Management)
? 数据仓库是面向主题的、集成的、稳定的 (不可更新 )、反映 历史变化(不同时间)的数据集合,用以支持经营管理中的 决策制定过程。 (Inmon,1991)
? 数据集市也可叫做“小数据仓库”。如果说数据仓库是建立 在企业级的数据模型之上的话。那么数据集市就是企业级数 据仓库的一个子集,他主要面向部门级业务,并且只面向某 个特定的主题。数据集市可以在一定程度上缓解访问数据仓 库的瓶颈。
数据 ) 、计算和汇总指标数据。
9
一、概念 -4
? (4)数据加载策略
? 更新(Upsert 、delete/insert) ? 拉链(时间拉链 /自拉链, 历史) ? 追加(直接insert ,防止重复加载先 delete 当天) ? 当前表、历史表、流水表
10
一、概念 -5 ? (5)元数据
? 元数据为访问数据仓库提供了一个信息目录( information directory ),这个目录全面描述了数据仓库中都有什么数据、 这些数据怎么得到的、和怎么访问这些数据。它是数据仓库 运行和维护的中心,数据仓库服务器利用他来存贮和更新数 据,用户通过他来了解和访问数据。
12
一、概念 -6
? (6)数据粒度
一、概念 -1
? (1)为什么要建设数据仓库?
? 统一数据源 ? 统一数据标准
5
一、概念 -2
? (2) ODS、数据仓库、数据集市
? 操作数据存储 (Operational Data Store) 是一个面向主题的、 集成的、可变的、当前的细节数据集合,用于支持企业对于 即时性的、操作性的、集成的全体信息的需求。常常被作为 数据仓库的过渡,也是数据仓库项目的可选项之一。
? 粒度是指数据仓库的数据单位中保存数据的细化或综合程度 的级别(详细程度 )。细化程度越高,粒度级就越小;相反, 细化程度越低,粒度级就越大。
? 取决于:数据量大小 、存储设备的容量、查询分析的需要 ? 一定的时间窗内存放细的粒度数据,超过一定的时期,只提
供粗粒度的汇总数据,从而在性能与需求上达到一种平衡。
? (3)ETL
? ETL 是数据抽取( Extract )、转换( Transform )、清洗 (Cleansing )、装载( Load )的过程。
? 是构建数据仓库的重要一环,用户从数据源抽取出所需的数 据,经过数据清洗 ,最终按照预先定义好的数据仓库模型,将 数据加载到数据仓库中去。
? ETL 主要解决各源数据的异构性和低质量 (标准化、清除噪声
? 元数据:是描述数据仓库内数据的结构和建立方法的数据。 可将其按用途的不同分为两类,技术元数据和商业元数据。
? 技术元数据是数据仓库的设计和管理人员用于开发和日常管 理数据仓库时用的数据。包括:数据源信息;数据转换的描 述;数据仓库内对象和数据结构的定义;数据清理和数据更 新时用的规则;源数据到目标的数据映射;用户访问权限, 数据备份历史记录,数据导入历史记录,信息发布历史记录 等。
6
一、概念 -2
? ODS与数据仓库
? 共同点:面向主题的和集成的,需要进行转换、加工处理 ? 区别:主要体现数据的可变性和当前性上
ODS 实时的、可动态刷新的 当前运行系统的数据
明细数据
数据仓库 非实时的、静态的
除了保存当前数据,还需 要保存大量的历史数据 保存明细和汇总数据
7
一、概念 -2
数据仓库
15
二、数据仓库实施方法论 -2
? (2)信息调研
? 源系统调研 ? 数据源分析 ? 数据质量分析 ? 数据缺口分析 ? 数据更新周期及更新方式分析 ? 用户需求分析
内部培训 源系统介绍 数据字典整理 样本数据分析 表级和字段级分析
16
二、数据仓库实施方法论 -3
? (3)逻辑数据模型设计
? 基于概念数据模型 (CDM) ? 由一系列表和实体详细描述组成 ? 通用的业务语言 ? 便于业务与业务之间的功能理解 ? 集成当前和未来数据的蓝图 ? 独立于技术 ? 为物理数据库设计作准备 ? 是IT人员和业务人员沟通的工具
数据仓库逻辑模型介绍
数据仓库逻辑模型介绍
Tony 2010-3-15
内容
? 相关概念介绍 ? 数据仓库实施方法论 ? LDM介绍 ? 学习经验分享
2
一、概念 -1
? (1)为什么要建设数据仓库?
? 蜘蛛网问题
? 数据缺乏可信性 ? 数据处理效率低下 ? 难以将数据转化为信息
3
图1 蜘蛛网现象 4