数据仓库及应用-数据模型-元数据
数据仓库主题设计及元数据设计

数据仓库主题设计及元数据设计3.4 明确仓库的对象:主题和元数据大多数商务数据都是多维的,所以采集和表示三维以上的数据不能完全借用业务数据库设计中的方法,必须有一种新的方法来表达多维数据。
现阶段流行的有2种方法,一是面向对象方法,即把商务数据抽象为对象,再使用Rational Rose等对象建模工具来表达这些对象;另一种方法就是使用信息包图,这是一种简便且高效的方法,在项目中使用的普及率很高。
信息包图实际上是自上而下数据建模方法的一个很好的工具。
自上而下的建模技术从用户的观点开始设计。
用户的观点是通过与用户交流得到的,可以进一步明确用户的信息需求。
自上而下的方法几乎考虑了所有的信息源,以及这些信息源影响商务活动的方式,它使得设计者可以围绕着一个通常的主题或商务领域进行信息包的开发。
下面就详述如何通过信息打包技术建立信息包图,从而确定数据仓库中的主题和元数据。
3.4.1 信息打包技术1.信息打包技术的基本使用信息打包法是一种自顶向下的设计方法,它从管理者的角度出发把焦点集中在企业的一个或几个主题上,着重分析主题所涉及数据的多维特性。
此法具体分4个阶段:(1)采用自顶向下的方法对商务数据的多维特性进行分析,用信息打包图表示维度和类别之间的传递和映射关系,建立概念模型。
其中类别是按一定的标准对一个维度的分类划分,如产品可按颜色、质地、产地和销地等不同标准分类。
(2)对企业的大量的指标实体数据进行筛选,提取出可利用的中心指标。
其中指标也称为关键性能指标和关键商务测量的值,是在维度空间衡量商务信息的一种方法。
比如产品收入金额、原材料消耗、补充新雇员或设备运行时间等都可以叫做指标。
(3)在信息打包图的基础上构造星形图,对其中的详细类别实体进行分析,进一步扩展为雪花图,建立逻辑模型。
(4)在星形图和雪花图的基础上,根据所定义数据标准,通过对实体、键标、非键标、数据容量、更新频率和实体特征进行定义,完成物理数据模型的设计。
数据仓库元数据管理

数据仓库元数据管理数据仓库元数据管理是指对数据仓库中的元数据进行管理和维护的过程。
元数据是描述数据的数据,它提供了关于数据的定义、结构、属性、关系以及数据的来源和用途等信息。
数据仓库中的元数据包括数据表、字段、索引、视图、存储过程等对象的描述信息,以及数据质量、数据血统、数据变化等相关信息。
数据仓库元数据管理的目标是保证数据仓库中的元数据准确、完整、一致和可靠。
通过对元数据的管理,可以提高数据仓库的可维护性、可扩展性和可重用性,进而提高数据仓库的价值和效用。
数据仓库元数据管理的主要任务包括元数据收集、元数据存储、元数据维护和元数据使用等。
1. 元数据收集:- 根据数据仓库的设计和需求,收集相关的元数据信息。
- 可以通过手工录入、自动抽取、数据字典等方式进行元数据的收集。
- 收集的元数据包括数据表、字段、索引、视图、存储过程等对象的描述信息,以及数据质量、数据血统、数据变化等相关信息。
2. 元数据存储:- 将收集到的元数据存储到元数据仓库中,以便后续的管理和使用。
- 元数据仓库可以使用关系型数据库、NoSQL数据库、文件系统等进行存储。
- 存储的元数据需要按照一定的结构进行组织和管理,以方便后续的检索和使用。
3. 元数据维护:- 对元数据进行定期的维护和更新,以保证其准确、完整、一致和可靠。
- 可以通过手工维护、自动抽取、数据字典同步等方式进行元数据的维护。
- 维护的内容包括元数据的新增、修改、删除等操作,以及元数据的版本管理和权限管理等。
4. 元数据使用:- 利用元数据提供的信息,支持数据仓库的各项管理和运维工作。
- 可以通过元数据进行数据质量管理、数据血统分析、数据变化跟踪等工作。
- 元数据还可以支持数据仓库的数据集成、数据查询、数据分析等应用。
数据仓库元数据管理的实施需要借助相应的工具和技术。
常用的工具包括元数据管理工具、数据建模工具、数据字典工具等。
常用的技术包括数据抽取、数据转换、数据加载(ETL)技术、数据建模技术、数据质量管理技术等。
关于元数据、资源目录、主数据、数据元、元数据管理、主数据管理解释

主数据、元数据、分级数据、非结构化数据、交易数据
Master Data Service(MDS)
主数据、元数据 变易数据、分析数据
InfoSphere MDM server
支持SOA 支持的业务实体 实施成本
是 SAP的所有业备实体
最高
三类业务实体中心
是 (Hub)客户、产品、位 中等 置 类似于IBM 的领域
元数据管理为数据质量管理 提供基础支撑,促进数据质 量标准管理
2021/8/8
元数据管理 元数据管理的范围
技术元数据
• 描述系统中技术领域相关概念、关系和规则的数据,主要包括 对数据结构、数据处理方面的特征描述,覆盖系统数据源接口、 数据仓库与数据集市存储、ETL、OLAP、数据封装和前端展现等 全部数据处理环节
标识符 数据元类型 数据格式
值域
数据元名称
数据库表中不展示内容, 英文名称
用于理解
中文全拼
同义名词
相关环境
定义
注册机构
提供者
数据库表中不展示内容, 源系统
用于管理
维护者
限制项
属性定义
CY010100001:CY 01 0100 001
船员 基本信息 登记 登记号
CrewRegNum 字符型 an9 代码结构如 C+9位整数数字,C表示船员, 数字表示编号。
的信息。 • 是关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义,
目标定义,转换规则等相关的关键数据。 • 描述数据的内容(what)、覆盖范围(where, when)、质量、管理方式、数据
的所有者(who)、数据的提供方式(how)等信息,是数据与数据用户之间的 桥梁;
数据仓库概述(概念、应用、体系结构)

事务处理 分析处理
DB
从数据 OLTP 数据
DW
从数据 信息(知识) OLAP(DM、OLAM)
18
数据仓库与传统数据库的区别
19
OLTP和OLAP的区别
用户和系统的面向性:
转换描述从操作数据库到数据仓库的映射方法以及转换数据的算法访问权限备份历史存档历史信息传输历史数据获取历史数据访问等等29主题区和信息对象类型包括查询报表图像音频视频等支持数据仓库的其它信息例如信息传输系统包括的预约信息调度信息传送目标的详细描述商业查询对例如数据历史快照版本拥有权数据抽取的审计跟踪数据的使用方法30与数据访问和分析工具的集成31元数据库metadatarepository和工具32主要使用数据来源的物理结构信息企业数据模型和仓库数据模型最终用户最关心两类元数据
4
业务系统不适宜DSS应用
事务处理和分析处理的性能要求和特性不同
事务处理对数据的存取操作频率高而每次操作处理的时 间短; 在分析处理环境中,某个DSS应用程序可能需要连续几 个小时,会消耗大量的系统资源。
数据集成问题 历史数据问题 数据的综合问题(更高粒度)
5
建立数据仓库的投资回报
数据模型:(1)逻辑数据结构,包括为有效进行数据
用的数据集合,是不同于DB的一种新的数据环境, 是DW 扩 展后得到的一个混合形式。四个基本特点:面向主题的、 集成的、可变的、 当前或接近当前的。 库处理由DBMS提供的操作和约束;(2)数据表示系统( 例如,ER图和关系模型)。
25
元数据
元数据和元模型

元数据和元模型1. 介绍在计算机科学和信息管理领域,元数据和元模型是两个重要的概念。
元数据指的是描述数据的数据,可以理解为数据的“数据”。
元模型则是对数据模型进行抽象的模型,定义了数据模型的特征和规则。
本文将详细探讨元数据和元模型的定义、作用、关系以及在实际应用中的应用案例。
2. 元数据2.1 定义元数据是用来描述数据的数据,它包含了对数据的定义、结构、格式以及使用方式等信息。
它从不同的维度描述了数据,并提供了查找、管理和使用数据的元信息。
元数据可以理解为对数据进行注释和解释的资源,它为数据的理解和使用提供了重要的帮助。
2.2 作用•数据管理和维护: 元数据记录了数据的来源、归属、更新时间等信息,使得数据管理和维护更加高效。
•数据查询和分析: 元数据描述了数据的结构和内容,可以帮助用户快速定位和查询感兴趣的数据,并进行分析和挖掘。
•数据共享和集成: 元数据提供了对数据的描述和定义,可以帮助不同系统之间的数据共享和集成,使得数据流动更加顺畅。
•数据安全和隐私: 元数据可以对数据进行分类、分级和权限管理,保护数据的安全和隐私。
2.3 元数据类型根据元数据的来源和使用范围,可以将元数据分为不同类型,包括:1.技术元数据: 描述了数据的物理特性和技术规范,如数据的存储格式、编码方式、备份策略等。
2.业务元数据: 描述了数据的业务含义和相关规则,如数据的名称、定义、关联关系等。
3.描述性元数据: 描述了数据的结构、格式和内容,如数据库表的字段名、类型、长度等。
4.结构化元数据: 描述了数据的组织结构和模式,如数据模型、数据字典等。
5.上下文元数据: 描述了数据的使用环境和上下文信息,如数据的质量、来源、权限等。
3. 元模型3.1 定义元模型是对数据模型进行抽象的模型,用来描述和定义数据模型的特征和规则。
它是一种元数据的抽象表示,通过元模型可以对数据模型的各个组成部分进行统一的描述和管理。
3.2 作用•数据模型的定义和验证: 元模型定义了数据模型的结构和规则,在设计和开发阶段可以对数据模型进行验证和检查。
数据仓库元数据管理

数据仓库元数据管理数据仓库元数据管理是指对数据仓库中的元数据进行有效管理和维护的过程。
元数据是描述数据的数据,它包含了数据的定义、结构、属性、关系以及数据之间的联系等信息。
通过对数据仓库元数据的管理,可以提高数据仓库的可维护性、可扩展性和可重用性,同时也能够提高数据仓库的查询效率和数据质量。
一、元数据管理的重要性1. 提高数据仓库的可维护性:通过对元数据的管理,可以清晰地了解数据仓库中各个数据表的含义、结构和关系,从而更好地进行数据仓库的维护和更新工作。
2. 提高数据仓库的可扩展性:元数据管理可以帮助我们了解数据仓库中的数据模型和数据结构,从而更好地进行数据仓库的扩展和升级。
3. 提高数据仓库的可重用性:通过对元数据的管理,可以清晰地了解数据仓库中的数据定义和数据结构,从而更好地进行数据仓库的重用和共享。
4. 提高数据仓库的查询效率:通过对元数据的管理,可以清晰地了解数据仓库中的数据模型和数据结构,从而更好地进行查询优化和索引设计,提高数据仓库的查询效率。
5. 提高数据仓库的数据质量:通过对元数据的管理,可以清晰地了解数据仓库中的数据定义和数据结构,从而更好地进行数据质量的监控和管理,提高数据仓库的数据质量。
二、元数据管理的主要内容1. 元数据定义和分类:对数据仓库中的元数据进行定义和分类,建立元数据的标准和规范,确保元数据的一致性和准确性。
2. 元数据采集和录入:通过采集工具和手工录入的方式,将数据仓库中的元数据进行采集和录入,包括数据表的定义、字段的定义、数据类型、数据长度、数据格式等信息。
3. 元数据存储和管理:将采集和录入的元数据存储到元数据仓库中,并进行管理和维护,包括元数据的更新、删除、备份和恢复等操作。
4. 元数据查询和检索:通过元数据查询和检索工具,可以根据需要查询和检索数据仓库中的元数据,包括数据表的定义、字段的定义、数据类型、数据长度、数据格式等信息。
5. 元数据共享和发布:将元数据共享给数据仓库的用户和开发人员,使其能够更好地了解数据仓库中的数据定义和数据结构,从而更好地进行数据仓库的开发和使用工作。
元数据、维度、指标、度量以及建模的基础概念

元数据、维度、指标、度量以及建模的基础概念元数据我们在操作数据仓库时,操作的都是元数据,⽽元数据分为技术元数据和业务元数据。
技术元数据:指数据仓库开发、管理、维护相关的数据,描述了数据的原信息,转换描述、数据映射、访问权限等;业务元数据:为管理层和业务分析⼈员服务,从业务的⾓度描述数据,包括⾏业术语、数据的可⽤性、数据的意义等;元数据的存储常⽤两种,⼀种是以数据集为基础,每⼀个数据集有对应的元数据⽂件,每⼀个元数据⽂件对应数据集的元数据内容;另⼀种是以数据库为基础,由若⼲项组成,每⼀项表⽰元数据的⼀个元素。
什么是数据模型数据模型是数据关系的⼀种映射,就是将业务之间的关系,⽤模型图形化展⽰出来,在设计数据仓库模型和架构的时候,我们需要懂具体的技术,也需要了解⾏业的知识和经验来帮助我们对业务进⾏抽象、处理,进⽽⽣成各阶段的模型。
对数据仓库建模的好处模型可以很好的帮我们分离出底层技术的实现和上层业务的展现,更清晰的看到数据之间内在的关联关系,从⽽建⽴起全⽅位的数据视⾓,并消灭信息孤岛和数据差异化问题,保证数据的⼀致性。
维度、度量、指标的含义维度:即数据观察的⾓度,从什么⾓度分析问题(指标)称为维度,⽐如:2019年北京地区华为⼿机的销售量,销售量就是我们要去看的⼀个指标,维度就是时间维度,地区维度和产品维度。
度量:事实表和维度交叉汇聚的点,度量和维度构成OLAP的主要概念,这⾥⾯对于在事实表或者⼀个多维⽴⽅体⾥⾯存放的数值型的、连续的字段,就是度量。
这符合上⾯的意思,有标准,⼀个指标:就是我们具体要分析的对象、分析的数据,⽐如销售收⼊、销售⽑利、采购成本、⼈均产出等数值类型的就是指标。
事实表和维度表事实表:存储有事实记录的表,如系统的⽇志、销售记录、⽤户访问⽇志等信息,事实表的纪录是动态增长的,所以体积⼤于维度表。
例:⽤户访问⽇志(事实表):⽤户名、url、时间…维度表:是与事实表相对应的表,这个表保存了维度的属性值,可以跟事实表做关联,相当于是将事实表中经常重复的数据抽取、规范出来⽤⼀张表管理,常见的有⽇期(⽇、周、⽉、季度等属性数据模型的建⽴过程业务模型➡ 领域模型➡ 逻辑模型➡ 物理模型业务模型:业务分解和程序化,确定好业务边界和业务流程,如订单、⽀付都是⼀个独⽴的业务模块。
数据模型-ETL-元数据

数据转换
原则上,数据转换只处理规律而重复性 大的数据聚合; 如汇总、取平均值、找最大最小值等, 而不用于复杂计算,以减少开发成本和 系统负载。
对于不规律而且复杂的计算,可由源系 统端将数据计算好。
数据加载——刷新
(1)刷新(Refresh):数据仓库数据表 中只包括最新的数据,每次加载均删除原 有数据,然后完全加载最新的源数据。 如大多数参数表的加载都采用这种模式。
表2 一些厂商提供的数据仓库工具
公司名称 IBM Oracle Sybase CA
ETL工具 Warehouse Manager Oracle ETL Server Replication Server PowerStage InfoPump
数据仓库管理工具 Visual Warehouse Enterprise Manager Warehouse Studio PLATINUM ERWin PLATINUM InfoPump Warehouse Administrator SQL Server
对于非计算机专业的用户而言,比较直 观
星型结构的缺点
当事务问题发生变化,原来的维不能满 足要求时,需要增加新的维,这种变化 带来数据变化将是非常复杂、非常耗时 的。
雪花模型
它是对星型模型的扩展,每一个维度都 可以向外连接多个详细类别表。
详细类别表对事实表在有关维进行详细 的描述,达到缩小事实表和提高查询效 率的目的。
维表:用于描述事实表,大多为文字描述、
种类、低于、时间、产品、客户等类型的 数据。
事实表的的主键由所有维表的主键组成
图2 零售业营销分析的星型图
星型结构的优点
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Operational Information
Data history (snapshots, versions); Data ownership; Data extract audit trail; Data usage data; Used by the load, management, and
Metadata
Metadata answers the following types of question: • What information is available, by subject area, and
when did we start collecting that data? • How was this summarization created? • What queries are available to access the data? • What business assumptions have been made? • How do I find the data I need? • How old is the data? • What does that value mean?
Metadata
Metadata can be classified into:
Technical metadata that contains information about data warehouse data for use by data warehouse designers and administrators when carrying out data warehouse development and management tasks.
Metadata is used throughout the DW, from extraction stage through the access stage.
Metadata is used throughout the DW, from extraction stage through the access stage.
Why Data Modeling Is Important
Visualization of the business world: Generally speaking, a model is an abstraction and reflection of the real world.
Metadata
Metadata contains detailed descriptions of the location, structure, and meaning of data; keys and indexes of the data; the algorithms and business rules used to transform and summarize datMetadata
Metadata is very important in the data warehouse environment. Metadata is often described as 'data about data'. Metadata contains information on the location, the structure, and meaning of data, mapping information, and a guide to the algorithms used for summarization between detail and summary data.
Business metadata contains information that gives users an easy-to-understand perspective of the information stored in the data warehouse.
Data warehouse operational information.
What is Data Modeling
Data modeling has been an art that first gained recognition since Dr. Peter Chen's 1976 article which illustrated his new-found approach called "Entity-Relationship Modeling." Since then it has become the standard approach used towards designing databases. By properly modeling an organization's data, the database designer can eliminate data redundancies which are a key source for inaccurate information and ineffective systems.
access processes for scheduling data loads or end user access.
Metadata Users
Choosing the Metadata Location
Where it is stored is product-specific, the metadata resides in the database and usually on the data warehouse server. This is the preferred method. Metadata may be located on a separate database on another machine.