制造业数据仓库 逻辑模型
数据仓库的逻辑模型

数据仓库的逻辑模型介绍
数据仓库是一种面向主题的、集成的、稳定的、不同时间的数据集合,用于支持管理决策过程。
逻辑模型是数据仓库的核心,它描述了数据仓库中数据的组织和存储方式,以及数据仓库的结构和功能。
本文将介绍数据仓库的逻辑模型,包括数据仓库的数据源、数据存储、数据集市和数据访问。
一、数据源
数据仓库的数据源可以是多种类型的,包括关系数据库、OLAP 数据库、文件系统、外部数据源等。
不同的数据源具有不同的特点和优势,需要根据实际情况选择合适的数据源。
二、数据存储
数据仓库的数据存储是指将数据源中的数据加载到数据仓库中,并对数据进行处理和转换,以满足数据仓库的需求。
数据存储通常采用分布式存储架构,以支持大量数据的存储和查询。
三、数据集市
数据集市是数据仓库中面向特定主题的数据集合,它将数据仓库中的数据按照业务需求进行分类和组织。
数据集市通常包括多个表,每个表代表一个主题,例如销售、客户、产品等。
数据集市中的数据可以根据业务需求进行查询和分析。
四、数据访问
数据访问是指数据仓库中的数据如何被访问和使用。
数据仓库的数据访问通常采用OLAP(联机分析处理)和数据挖掘技术。
OLAP技术支持用户对数据仓库中的数据进行快速查询和分析,数据挖掘技术则可以帮助用户从大量数据中发现有价值的信息和规律。
总之,数据仓库的逻辑模型是数据仓库的核心,它描述了数据仓
库中数据的组织和存储方式,以及数据仓库的结构和功能。
数据仓库的数据源、数据存储、数据集市和数据访问是数据仓库逻辑模型的重要组成部分,它们共同构成了一个完整的数据仓库系统。
3-3数据仓库设计-逻辑模型

……
… …
……
……
数据概括表与事实表对应关系
概括表表.列 名 是否 导出 事实表.列 名 SPGYB.SP 商品编号 _ID SPGYB.G YS_ID 供应商编号 备注 SPGKB.SP_I 否 D SPGKB.GYS _ID SPGKB.SPG YZSL SPGKB.SPG YZJE …… 否 是 是
商 品
商品号
销 售 客 户
销售单号
客户号
数据仓库的实体定义
实体 容量 更新频率 每月对客户情况进行一次分析,更 新频率也为每月一次 大约有500种商品,商品的更新是每 月一次,数据更新也照此。 Customer 中等容量,有100个重点客户, 2000个跟踪客户 Product 小容量,500种商品
确定粒度的循环和反复
提高粒度的方法
当源数据置入数据仓库时,对它进行汇总。 当源数据置入数据仓库时,对它求平均或进行 计算。 把最大/最小的设定值置入数据仓库。 只把显然需要的数据置入数据仓库。 用条件逻辑选取记录的一个子集置入数据仓库。 对于数据怎样轻度汇总是没有限制的(限制只 存在于设计者的脑海里)。
Windows/Acces RSGL s …… ……
数据源抽取规则表
表.列名 过滤与连接 条件 比较值 50000 500 ‘AB’ …… 复合条件 AND AND OR …… 备注 采购商品数量 小于50000 采购商品数量 大于500 商品前两位 非’AB’ …… KHCG.CGSL < KHCG.CGSL > SPQK.SPID …… ≠ ……
第一次作业题目
请详细描述数据库应用系统与数据仓库 之间的区别。(越详细越好,越全面越 好) 下星期三以前交。
数据仓库设计——逻辑模型内Leabharlann 提要数据仓库的逻辑模型设计
3-3数据仓库设计-逻辑模型

数据的行数 数据所占存储设备空间 数据所需要的索引空间
只能做数据级上的估算 从一方或多方收集信息进行合理估算
粗略估算数据量算法
双重粒度和单一粒度
表的行数是影响粒度划分主要的因素 将数据库的总行数与下表进行比较
确定粒度的循环和反复
选择合适的粒度级别是体系结构设计环境成功 的关键。 选择粒度级别的一般方法,是利用常识,建立 数据仓库的一小部分,并让用户去访问这些数 据。然后仔细聆听用户的意见,根据他们的反 馈意见适当调整粒度的级别。 最坏的想法是想要事先设计好所有的粒度级别, 再进行数据仓库的建造。 即使在最好的情况下,能使设计的5 0 %是正 确的就已经很不错的了。数据仓库环境的特点 就是只有当决策支持系统分析员实际看到了报 告之后,才能想像哪些是真正需要的。
……
… …
……
……
数据概括表与事实表对应关系
概括表表.列 名 是否 导出 事实表.列 名 SPGYB.SP 商品编号 _ID SPGYB.G YS_ID 供应商编号 备注 SPGKB.SP_I 否 D SPGKB.GYS _ID SPGKB.SPG YZSL SPGKB.SPG YZJE …… 否 是 是
例: 银 行 粒 度 设 计
例: 银 行 粒 度 设 计
数据分割
数据分片概念
水平分片 垂直分片 混合分片 导出分片
按时间进行数据分割是最普遍的 分割标准
数据量 数据分析处理的实际情况 简单易行 粒度划分策略
数据仓库的数据抽取模型
F2 KHCG F3 SPQK F4 ZGYJ
F1 数据抽取规则
确定粒度的循环和反复
提高粒度的方法
当源数据置入数据仓库时,对它进行汇总。 当源数据置入数据仓库时,对它求平均或进行 计算。 把最大/最小的设定值置入数据仓库。 只把显然需要的数据置入数据仓库。 用条件逻辑选取记录的一个子集置入数据仓库。 对于数据怎样轻度汇总是没有限制的(限制只 存在于设计者的脑海里)。
数据仓库建模方法论

数据仓库建模方法论数据仓库建模是指将数据仓库中的数据按照某种标准和规范进行组织和管理的过程。
数据仓库建模方法论包括了多种方法和技术,用于帮助用户理解和分析数据仓库中的数据,从而支持决策制定和业务分析。
一、维度建模方法维度建模方法是数据仓库建模的核心方法之一,它以维度为核心,将数据按照维度进行组织和管理,从而提供给用户灵活和高效的数据查询和分析能力。
1.1 星型模型星型模型是最常见和简单的维度建模方法,它将数据仓库中的事实表和多个维度表通过共享主键的方式进行关联。
事实表包含了衡量业务过程中的事件或指标,而维度表包含了用于描述和过滤事实记录的属性。
星型模型的结构清晰,易于理解和使用,适用于绝大部分的数据仓库场景。
1.2 雪花型模型雪花型模型是在星型模型的基础上进行扩展和优化的一种模型,它通过拆分维度表中的属性,将其拆分为多个维度表和子维度表,从而使得数据仓库更加灵活和高效。
雪花型模型适用于维度表中的属性比较复杂和层次结构比较多的情况。
1.3 天际线模型天际线模型是一种比较先进和复杂的维度建模方法,它通过将事实表和维度表按照一定的规则进行分组和划分,从而实现多个星型模型之间的关联。
天际线模型适用于数据仓库中包含多个相互关联的业务过程和多个不同的粒度的情况。
二、多维建模方法多维建模方法是在维度建模方法基础上进行进一步抽象和简化的一种方法,它通过创建多维数据立方体和维度层次结构来组织和管理数据。
2.1 数据立方体数据立方体是多维建模的核心概念,它将数据按照事实和维度进行组织和管理,从而提供给用户直观和高效的数据查询和分析能力。
数据立方体包含了多个维度和度量,用户可以通过选择和组合维度和度量进行数据分析和挖掘。
2.2 维度层次结构维度层次结构是多维建模的关键技术,它通过将维度进行分层和组织,从而实现维度之间的关联和上下级关系。
维度层次结构可以有效地减少数据的冗余和复杂性,提高数据仓库的查询和分析效率。
三、模式设计方法模式设计方法是在维度建模方法和多维建模方法的基础上进行进一步的抽象和规范的一种方法,它通过定义模式和规则来组织和管理数据仓库中的数据。
数据库建模:概念模型,逻辑模型和物理模型

数据库建模:概念模型,逻辑模型和物理模型概念模型设计 , 逻辑模型设计 , 物理模型设计是数据库及数据仓库模型设计的三个主要步骤1. 概念模型概念模型就是在了解了⽤户的需求 , ⽤户的业务领域⼯作情况以后 , 经过分析和总结 , 提炼出来的⽤以描述⽤户业务需求的⼀些概念的东西 ;如销售业务中的客户和定单 , 还有就是商品 , 业务员 , ⽤ USE CASE 来描述就是 : 业务员与客户就购买商品之事签定下定单 , 概念模型使⽤ E-R 图表⽰ , E-R 图主要是由实体 , 属性和联系三个要素构成的 , 该阶段需完成 :1. 该系统的商业⽬的是什么 , 要解决何种业务场景2. 该业务场景中 , 有哪些⼈或组织参与 , ⾓⾊分别是什么3. 该业务场景中 , 有哪些物件参与 ,4. 此外需要具备相关⾏业经验 , 如核⼼业务流程 , 组织架构 , ⾏业术语5. 5w1h , who , what , when , where , why, how2. 逻辑模型逻辑模型是将概念模型转化为具体的数据模型的过程 , 即按照概念结构设计阶段建⽴的基本 E-R 图 , 按选定的管理系统软件⽀持的数据模型(层次/⽹状/关系/⾯向对象) , 转换成相应的逻辑模型 , 这种转换要符合关系数据模型的原则 ;还以销售业务为例 : 客户信息基本上要包括 : 单位名称 , 联系⼈ , 联系电话 , 地址等属性商品信息基本上要包括 : 名称 , 类型 , 规格 , 单价等属性定单信息基本上要包括 : ⽇期和时间属性 ; 并且定单要与客户 , 业务员和商品明细关联 , 该阶段需完成 :1. 分多少个主题 , 每个主题包含的实体2. 每个实体的属性都有什么3. 各个实体之间的关系是什么4. 各个实体间是否有关系约束3. 物理模型物理模型就是针对上述逻辑模型所说的内容 , 在具体的物理介质上实现出来 , 系统需要建⽴⼏个数据表 : 业务员信息表 , 客户信息表 , 商品信息表 , 定单表 ; 系统要包括⼏个功能 : 业务员信息维护 , 客户信息维护 , 商品信息维护 , 建⽴销售定单 ; 表 , 视图 , 字段 , 数据类型 , 长度 , 主键, 外键 , 索引 , 约束 , 是否可为空 , 默认值 , 该阶段需完成 :1. 类型与长度的定义2. 字段的其他详细定义 , ⾮空 , 默认值3. 却准详细的定义 , 枚举类型字段 , 各枚举值具体含义4. 约束的定义 , 主键 , 外键这三个过程 , 就是实现⼀个数据库设计的三个关键的步骤 , 是⼀个从抽象到具体的⼀个不断细化完善的分析 , 设计和开发的过程 ;。
工业领域大数据中台的数仓分层维度建模的模型算法

工业领域大数据中台的数仓分层维度建模的模型算法随着工业领域大数据应用的不断深入,大数据中台的数仓分层维度建模成为工业数据处理的一项重要工作。
数仓分层维度建模是指将业务数据按照不同的维度进行分层建模,以便更好地支持数据分析和挖掘。
在工业领域中,数仓分层维度建模的模型算法有以下几种常用的方法。
1.维度建模理论维度建模理论是数仓分层维度建模的基础,它提出了一种将业务数据按照事实表和维度表进行建模的方法。
事实表是指记录具体业务事件发生的事实记录,而维度表则是描述事实记录中各种维度属性的表。
维度建模理论提供了一种将业务数据按照不同的维度进行分层建模的方法,以便更好地支持数据分析和挖掘。
2.数据挖掘算法数据挖掘算法是数仓分层维度建模中的关键技术之一,它们用于识别和挖掘数据中的模式和规律,以便更好地支持业务决策。
数据挖掘算法常用的有聚类算法、关联规则挖掘算法、分类算法和预测算法等。
这些算法能够帮助工业企业发现隐藏在海量数据中的有价值的知识和信息,从而帮助企业优化生产流程、提高产品质量和预测市场需求。
3.数据清洗和集成技术在工业领域,由于数据来源多样化、格式不一和质量差异化,因此数据清洗和集成技术非常重要。
数据清洗用于处理数据中的错误和不完整性,而数据集成则是将来自不同数据源的数据集成到一个一致的数据模型中。
数据清洗和集成技术能够帮助工业企业构建更加完整、准确和一致的数据仓库,从而为后续的数据分析和挖掘提供可靠的数据基础。
4. OLAP(联机分析处理)技术OLAP技术是一种用于多维数据分析的技术,它可以对数仓中的数据进行多维分析和交互式查询。
工业企业可以使用OLAP技术来分析生产过程中的关键指标(KPI)和趋势,以便更好地监控生产过程和进行实时决策。
OLAP技术提供了一种高效的数据分析手段,可以帮助企业从多个角度观察和分析生产过程中的数据。
5.数据可视化技术数据可视化技术是将大规模数据转换成图形化数据的技术,它可以帮助人们更直观地理解数据和发现数据中的规律。
EDW_(DM数据仓库数据建模)模型设计

大客户分析管理系统
企
运营报表 仪表盘
业
信
息 门 户 数据挖 掘引擎 数据挖 掘应用
保险数据模型
数据集市
元数据库
为什么需要企业模型?
数据集市之间数据一致性
包含全部历史的核心数据
一致的事实表和维度
EDW 数据模型在项目实施中的作用
DWM 数据仓库模型
业务量分析 数据集市
车险承保分析 通用承保分析
核心业务 财务系统 再保险系统 人意险系统 精算系统 aCRM 数据集市 客户关系 管理OCRM ALM 客户讯息 ECIF 财务分析 数据集市 外部数据 财务分析 应用 ALM应用 业务持续性 分析数据集市 风险管理 应用
监管报表
管理报表
“数据和信息集成平台” “统一的分析平台” “唯一的信息出口”
带anchor的实体
带status表的实体(Commercial agreement、Group agreement、Individual agreement、 Claim folder、Elementary claim) 不带status表的实体
除表的主键、type id、Partition key、Status、Status date、Status reason、 Valid from date、Valid to date、 Effective from date、Effective to date、 Population timestamp之外的所有字段 除表的主键、 type id、 Partition key、 Valid from date、Valid to date、Effective from date、Effective to date、 Population timestamp之外的所有字段
CDM & LDM & PDM

概念数据模型设计(CDM)与逻辑数据模型设计(LDM)、物理数据模型设计(PDM)是数据库及数据仓库模型设计的三个主要步骤。
在数据仓库领域有一个概念叫conceptual data model,中文一般翻译为“概念数据模型”。
概念数据模型是最终用户对数据存储的看法,反映了最终用户综合性的信息需求,它以数据类的方式描述企业级的数据需求,数据类代表了在业务环境中自然聚集成的几个主要类别数据。
概念数据模型的内容包括重要的实体及实体之间的关系。
在概念数据模型中不包括实体的属性,也不用定义实体的主键。
这是概念数据模型和逻辑数据模型的主要区别。
概念数据模型的目标是统一业务概念,作为业务人员和技术人员之间沟通的桥梁,确定不同实体之间的最高层次的关系。
在有些数据模型的设计过程中,概念数据模型是和逻辑数据模型合在一起进行设计的。
在数据仓库领域有一个概念叫logical data model,中文一般翻译为“逻辑数据模型”。
逻辑数据模型反映的是系统分析设计人员对数据存储的观点,是对概念数据模型进一步的分解和细化。
逻辑数据模型是根据业务规则确定的,关于业务对象、业务对象的数据项及业务对象之间关系的基本蓝图。
逻辑数据模型的内容包括所有的实体和关系,确定每个实体的属性,定义每个实体的主键,指定实体的外键,需要进行范式化处理。
逻辑数据模型的目标是尽可能详细的描述数据,但并不考虑数据在物理上如何来实现。
逻辑数据建模不仅会影响数据库设计的方向,还间接影响最终数据库的性能和管理。
如果在实现逻辑数据模型时投入得足够多,那么在物理数据模型设计时就可以有许多可供选择的方法。
在数据仓库领域有一个概念叫physical data model,中文一般翻译为“物理数据模型”。
物理数据模型是在逻辑数据模型的基础上,考虑各种具体的技术实现因素,进行数据库体系结构设计,真正实现数据在数据库中的存放。
物理数据模型的内容包括确定所有的表和列,定义外键用于确定表之间的关系,基于用户的需求可能进行发范式化等内容。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
制造业数据仓库逻辑模型
制造业数据仓库逻辑模型
数据仓库是指将不同来源的数据进行整合、清洗和转换,以支持企业的决策分析和业务运营。
在制造业中,数据仓库的建立可以帮助企业更好地管理和分析生产过程中所涉及的各种数据,从而提高生产效率、降低成本、优化产品质量和增强市场竞争力。
制造业数据仓库的逻辑模型是指在数据仓库建设过程中,对于制造业特定的数据进行建模和设计的过程。
逻辑模型是数据仓库的核心,它定义了数据仓库中各个数据表之间的关系和属性,为数据仓库的实际构建提供了指导和依据。
1. 数据仓库的维度建模
在制造业数据仓库的逻辑模型中,维度建模是非常重要的一部分。
维度是描述业务过程中的各个方面的属性,例如产品、时间、地点、客户等。
在制造业数据仓库中,常见的维度包括产品维度、时间维度、地点维度、客户维度、供应商维度等。
通过对这些维度进行建模,可以更好地了解制造业中各个环节的情况,从而进行决策分析和业务优化。
2. 事实表的设计
事实表是制造业数据仓库逻辑模型中的另一个关键部分。
事实表是描述业务过程中所发生事件的表,例如销售订单、生产计划、库存
变动等。
在制造业数据仓库中,常见的事实表包括销售事实表、生产事实表、库存事实表等。
事实表中的每一行代表一个特定的事件,行中的各个字段记录了该事件的属性和指标信息。
通过对事实表的设计,可以方便地进行各种分析和查询,从而帮助企业更好地了解和掌握制造过程中的各个环节和指标。
3. 星型模型和雪花模型
星型模型和雪花模型是制造业数据仓库逻辑模型的两种常见的建模方法。
星型模型是一种简单的建模方式,其中只包含一个事实表和多个维度表,事实表和维度表之间通过外键进行关联。
星型模型的优点是结构简单、易于理解和查询。
雪花模型在星型模型的基础上进行了扩展,将维度表进一步细化,形成了多层级的关系。
雪花模型的优点是可以更好地表示业务过程中的复杂关系和层次结构。
4. 数据粒度的确定
在制造业数据仓库的逻辑模型中,数据粒度的确定是非常重要的一步。
数据粒度是指数据仓库中事实表记录的粒度大小,也就是事实表中的每一行所代表的事件的具体细节。
在制造业数据仓库中,数据粒度的确定需要考虑到业务需求和数据的可用性。
粒度过细会导致数据量过大,查询和分析的效率低下;粒度过粗会丧失一些细节信息,影响决策的准确性。
因此,在确定数据粒度时需要权衡各方面的因素,以满足业务需求和数据可用性的要求。
5. 数据仓库的扩展和更新
制造业数据仓库的逻辑模型是一个动态的过程,随着业务的发展和需求的变化,需要对数据仓库进行扩展和更新。
扩展和更新数据仓库的逻辑模型需要考虑到数据的一致性和完整性,以及对已有数据的影响。
在进行扩展和更新时,需要仔细评估和规划,确保数据仓库的逻辑模型能够适应业务的发展和变化。
总结:
制造业数据仓库的逻辑模型是建立数据仓库的关键步骤之一。
逻辑模型通过对制造业特定的数据进行建模和设计,定义了数据仓库中各个数据表之间的关系和属性,为数据仓库的实际构建提供了指导和依据。
在制造业数据仓库的逻辑模型中,维度建模、事实表的设计、星型模型和雪花模型、数据粒度的确定以及数据仓库的扩展和更新都是需要考虑的重要因素。
通过合理的逻辑模型设计,制造业企业可以更好地管理和分析生产过程中的各种数据,从而提高生产效率、降低成本、优化产品质量和增强市场竞争力。