(整理)数据仓库与元数据管理
数据仓库主题设计及元数据设计

数据仓库主题设计及元数据设计3.4 明确仓库的对象:主题和元数据大多数商务数据都是多维的,所以采集和表示三维以上的数据不能完全借用业务数据库设计中的方法,必须有一种新的方法来表达多维数据。
现阶段流行的有2种方法,一是面向对象方法,即把商务数据抽象为对象,再使用Rational Rose等对象建模工具来表达这些对象;另一种方法就是使用信息包图,这是一种简便且高效的方法,在项目中使用的普及率很高。
信息包图实际上是自上而下数据建模方法的一个很好的工具。
自上而下的建模技术从用户的观点开始设计。
用户的观点是通过与用户交流得到的,可以进一步明确用户的信息需求。
自上而下的方法几乎考虑了所有的信息源,以及这些信息源影响商务活动的方式,它使得设计者可以围绕着一个通常的主题或商务领域进行信息包的开发。
下面就详述如何通过信息打包技术建立信息包图,从而确定数据仓库中的主题和元数据。
3.4.1 信息打包技术1.信息打包技术的基本使用信息打包法是一种自顶向下的设计方法,它从管理者的角度出发把焦点集中在企业的一个或几个主题上,着重分析主题所涉及数据的多维特性。
此法具体分4个阶段:(1)采用自顶向下的方法对商务数据的多维特性进行分析,用信息打包图表示维度和类别之间的传递和映射关系,建立概念模型。
其中类别是按一定的标准对一个维度的分类划分,如产品可按颜色、质地、产地和销地等不同标准分类。
(2)对企业的大量的指标实体数据进行筛选,提取出可利用的中心指标。
其中指标也称为关键性能指标和关键商务测量的值,是在维度空间衡量商务信息的一种方法。
比如产品收入金额、原材料消耗、补充新雇员或设备运行时间等都可以叫做指标。
(3)在信息打包图的基础上构造星形图,对其中的详细类别实体进行分析,进一步扩展为雪花图,建立逻辑模型。
(4)在星形图和雪花图的基础上,根据所定义数据标准,通过对实体、键标、非键标、数据容量、更新频率和实体特征进行定义,完成物理数据模型的设计。
企业元数据管理_元数据梳理方法与实践

企业元数据管理_元数据梳理方法与实践企业元数据管理是一种管理企业信息资源的方法,通过对企业信息资源进行整理、分类和描述,方便企业管理和利用这些信息资源。
元数据是对数据的描述,包括数据的定义、结构、属性、关系等信息。
元数据梳理是指对企业的元数据进行整理和分类。
元数据梳理的方法与实践主要包括以下几个步骤:第二步,收集元数据。
收集元数据是梳理的基础,可以通过各种手段进行元数据的收集,如查阅文档、采访相关人员、分析系统日志等。
收集到的元数据可以分为结构化和非结构化两种类型,结构化的元数据可以通过数据库或电子表格进行整理,非结构化的元数据可以通过文档或笔记进行整理。
第四步,建立元数据仓库。
元数据仓库是存储和管理元数据的系统,可以通过元数据仓库对元数据进行管理、和浏览。
建立元数据仓库时,需要选择合适的工具和技术,如数据模型设计工具、数据字典工具等。
元数据梳理的实践中还需要注意一些问题:首先,明确梳理的目标和需求。
企业元数据往往非常庞大复杂,梳理所有的元数据是不现实的,需要明确梳理的目标和需求,集中资源进行梳理。
其次,合理利用现有资源。
企业往往已经有一些已经存在的元数据,如数据库、数据字典等,可以在梳理过程中合理利用这些资源,减少工作量和成本。
再次,建立合适的元数据管理制度。
在进行元数据梳理时,需要建立合适的管理制度,明确责任人和流程,确保元数据的质量和准确性。
最后,持续改进和优化。
元数据梳理是一个持续的过程,需要不断改进和优化,及时修正错误和不足,保证元数据的有效性和适用性。
总之,企业元数据管理是企业信息管理和利用的重要手段,元数据梳理是实施元数据管理的基础工作。
通过明确目标和范围、收集和整理元数据、建立元数据仓库、维护元数据等步骤,可以实现对企业元数据的有效管理。
数据仓库元数据管理

数据仓库元数据管理数据仓库元数据管理是指对数据仓库中的元数据进行管理和维护的过程。
元数据是描述数据的数据,它提供了关于数据的定义、结构、属性、关系以及数据的来源和用途等信息。
数据仓库中的元数据包括数据表、字段、索引、视图、存储过程等对象的描述信息,以及数据质量、数据血统、数据变化等相关信息。
数据仓库元数据管理的目标是保证数据仓库中的元数据准确、完整、一致和可靠。
通过对元数据的管理,可以提高数据仓库的可维护性、可扩展性和可重用性,进而提高数据仓库的价值和效用。
数据仓库元数据管理的主要任务包括元数据收集、元数据存储、元数据维护和元数据使用等。
1. 元数据收集:- 根据数据仓库的设计和需求,收集相关的元数据信息。
- 可以通过手工录入、自动抽取、数据字典等方式进行元数据的收集。
- 收集的元数据包括数据表、字段、索引、视图、存储过程等对象的描述信息,以及数据质量、数据血统、数据变化等相关信息。
2. 元数据存储:- 将收集到的元数据存储到元数据仓库中,以便后续的管理和使用。
- 元数据仓库可以使用关系型数据库、NoSQL数据库、文件系统等进行存储。
- 存储的元数据需要按照一定的结构进行组织和管理,以方便后续的检索和使用。
3. 元数据维护:- 对元数据进行定期的维护和更新,以保证其准确、完整、一致和可靠。
- 可以通过手工维护、自动抽取、数据字典同步等方式进行元数据的维护。
- 维护的内容包括元数据的新增、修改、删除等操作,以及元数据的版本管理和权限管理等。
4. 元数据使用:- 利用元数据提供的信息,支持数据仓库的各项管理和运维工作。
- 可以通过元数据进行数据质量管理、数据血统分析、数据变化跟踪等工作。
- 元数据还可以支持数据仓库的数据集成、数据查询、数据分析等应用。
数据仓库元数据管理的实施需要借助相应的工具和技术。
常用的工具包括元数据管理工具、数据建模工具、数据字典工具等。
常用的技术包括数据抽取、数据转换、数据加载(ETL)技术、数据建模技术、数据质量管理技术等。
元数据管理

元数据管理1. 什么是元数据管理元数据管理是对数据的描述、定义和管理,包括数据的属性、格式、来源、质量、关系等信息。
元数据通常被用于数据集成、数据分析、数据挖掘、数据治理、数据质量管理和数据安全等方面。
元数据可以提高数据资源的使用效率,促进应用系统的互操作性,提高数据的可信度和可重复性,降低数据管理成本,提高数据价值。
元数据管理可以分为三个层次:(1) 概念层元数据:描述数据的业务名义、业务规则、数据类别、数据的主体及其关系等。
(2) 逻辑层元数据:描述数据的逻辑模型、数据结构、数据和业务的关系等。
(3) 物理层元数据:描述数据的物理组织结构、存储方式、数据格式、访问方法等。
2. 元数据管理的价值元数据管理有助于提高数据资源的使用效率和数据管理的质量,其价值主要表现在以下几个方面:(1) 提高数据的可重复性和可信度元数据可以提供数据质量和数据来源的相关信息,使得数据的使用和转换能够更加准确地反映现实世界,提高数据的可信性和可重复性。
(2) 促进系统的互操作性元数据提供了关于数据之间相互关系的描述,可以促进不同系统之间的信息交流和协作,使系统更加互操作,便于数据资源的共享和利用。
(3) 降低数据管理的成本元数据可以提供数据的相关信息,使得数据的使用和管理更加高效,减少了重复性的工作量,降低了数据管理的成本,提高了数据资源的利用价值。
(4) 提供更加全面的数据支持元数据可以描述数据的特征、属性和约束条件等信息,涵盖了对数据的所有方面的考虑,使得数据资源对于业务的支持更加全面。
3. 元数据管理的应用场景元数据管理可以应用于以下几个方面:(1) 数据集成:元数据管理可以用于数据的集成,通过描述数据的属性和关系等信息使得数据能够在不同的系统之间交换和共享,促进数据的一体化管理。
(2) 数据分析:元数据管理可以提供数据质量、数据结构等信息,帮助用户对数据进行分析和挖掘,提高数据的分析效率。
(3) 数据治理:元数据管理可以用于数据的规范化和管理,描述数据的源头、质量等信息,保证数据的合法性和一致性。
数据仓库元数据管理

数据仓库元数据管理数据仓库元数据管理是指对数据仓库中的元数据进行有效管理和维护,以确保数据仓库的可靠性和准确性。
元数据是描述数据的数据,它包括数据的定义、结构、关系、来源、用途等信息。
数据仓库中的元数据管理是数据仓库管理的重要组成部分,它对于数据仓库的建设和运营具有重要意义。
一、元数据管理的意义1. 提高数据仓库的可理解性和可维护性:通过对元数据的管理,可以使数据仓库的结构和内容更加清晰和易于理解,从而提高数据仓库的可维护性和可理解性。
2. 提高数据仓库的数据质量:元数据管理可以对数据仓库中的数据进行监控和评估,及时发现数据质量问题,并采取相应的措施进行修复,从而提高数据仓库的数据质量。
3. 提高数据仓库的数据一致性:通过元数据管理,可以对数据仓库中的数据进行统一的定义和管理,确保数据仓库中的数据一致性,避免数据冗余和不一致的问题。
4. 提高数据仓库的数据可追溯性:元数据管理可以记录数据仓库中数据的来源、变更历史等信息,使数据的变更过程可追溯,方便数据仓库的审计和管理。
二、元数据管理的内容1. 元数据定义和标准化:对数据仓库中的元数据进行定义和标准化,明确元数据的含义和格式,确保元数据的准确性和一致性。
2. 元数据收集和录入:通过各种手段和工具,收集数据仓库中的元数据,并将其录入到元数据管理系统中,建立元数据的库存。
3. 元数据的分类和组织:对元数据进行分类和组织,建立元数据的层次结构和关系,方便元数据的检索和使用。
4. 元数据的维护和更新:定期对元数据进行维护和更新,及时反映数据仓库中数据的变化和更新。
5. 元数据的查询和检索:提供元数据查询和检索的功能,方便用户查找和使用数据仓库中的元数据。
6. 元数据的安全管理:对元数据进行安全管理,设置权限和访问控制,保护元数据的安全性和机密性。
7. 元数据的版本管理:对元数据进行版本管理,记录元数据的变更历史,方便进行数据仓库的版本控制和管理。
三、元数据管理的流程1. 元数据收集和录入流程:(1)确定元数据的收集范围和目标。
数据元与元数据、数据项区别

数据元与元数据、数据项区别引言概述:在数据管理领域,数据元、元数据以及数据项是三个重要的概念。
虽然它们之间有一定的联系,但是在定义和使用上却存在一些差异。
本文将从数据元与元数据、数据项的定义、特点和应用等方面进行详细比较和分析,以便更好地理解它们之间的区别。
一、数据元的定义、特点和应用:1.1 数据元的定义:数据元是数据的最小单位,是对现实世界中某个实体或属性的抽象表示。
它通常包含数据元名称、标识符、数据类型、长度等信息。
1.2 数据元的特点:数据元具有独立性、唯一性和不可再分性的特点。
它是数据管理的基本单位,可以被其他数据元组合成更复杂的数据结构。
1.3 数据元的应用:数据元在数据模型设计、数据库设计和数据标准化等方面起着重要作用。
通过对数据元的定义和管理,可以更好地组织和管理数据,提高数据的质量和可靠性。
二、元数据的定义、特点和应用:2.1 元数据的定义:元数据是描述数据的数据,是数据的补充信息。
它包括数据元的定义、属性、关系、来源等信息,用于描述数据的特性和结构。
2.2 元数据的特点:元数据具有描述性、管理性和可重用性的特点。
它可以帮助用户更好地理解数据的含义和用途,提高数据的可管理性和可维护性。
2.3 元数据的应用:元数据在数据仓库、数据集成、数据挖掘等领域中被广泛应用。
通过元数据的描述和管理,可以实现数据的共享和交换,提高数据的可用性和可访问性。
三、数据项的定义、特点和应用:3.1 数据项的定义:数据项是数据的基本单位,是对数据元的具体实例。
它包含具体的数值、文本或图像等信息,是数据的实际载体。
3.2 数据项的特点:数据项具有具体性、可变性和可操作性的特点。
它可以被用于数据的输入、输出、存储和处理等操作。
3.3 数据项的应用:数据项在数据交换、数据处理、数据分析等方面发挥着重要作用。
通过对数据项的定义和管理,可以实现数据的有效传递和利用,提高数据的效率和准确性。
四、数据元、元数据、数据项之间的联系和区别:4.1 数据元与元数据的联系:数据元是元数据的基本组成部分,元数据描述了数据元的属性和关系。
元数据管理及其在数据仓库中的应用研究

息 共 享 程 度
通 过 将企 业 分 散 在 多 个 应 用 系 统 中 的数 据 库 、 程 序 、 发文 档 和相 关 的业 务 流 程 文件 中 的元 数 据 开 集 中管 理 , 为企业 提 供 现有 系统 、 用 的完 整数据 现 应 状 视 图 , 向相关 人 员共 享 这些 数 据信 息 。 并
在通 常 的 系统 开 发 过 程 中 , 数 据 关 系 缺 乏规 元 范 的 、 一 的描 述 , 响 系统 管 理 和维 护 的效率 和质 统 影 量, 系统 开 发周 期长 。有 了元数 据 管理 , 系统开 发人 员 可合 理规 划 开发 计 划 和 确 定 工 作 难 点 , 改 造 和 对 升 级 等工作 进 行影 响 分 析 , 高 系 统 建 设 各 环节 的 提
数 据 管理 的构 建架 构 、 主要 内容和 应 注意 的 问题 。 关 键词 : 数 据 ; 元 元数 据管 理 ; 据仓 库 数 中图分 类 号 : 3 1 1 TP 1 . 3 文献标 识码 :A 文章编 号 :0 8 9 4 2 0 ) 4 1 0 3 1 0 —3 4 ( 0 6 0 —0 3 —0
( ) 保 企业数 据 的 准确 性 、 二 确 一致 性 、 完整 性 通 过 元数 据 的集 中管 理 和 控 制 , 现 其 中 的 问 发 题 并加 以 改正 , 确保 企业 数 据 的准 确性 、 致性 和完 一 整性 , 进而 提 升企业 的 数据 质量 。 ( ) 供 系统 开发 、 护 、 造与 升级 的支 持 三 提 维 改
元 数 据 管理 及 其在 数 据 仓 库 中 的应 用 研 究
平 静 平 林 瑞 。 ,
元数据管理:数据质量的核心要素

元数据管理:数据质量的核心要素元数据管理是现代数据管理中至关重要的一环,它承担着数据质量保证的核心要素角色。
元数据是描述数据的数据,是对数据资源及其特性的描述,可以帮助我们更好地理解数据的含义、结构、关系和来源。
通过对元数据的管理,可以有效地提高数据质量,确保数据的准确性、完整性、一致性和及时性。
在信息化发展的今天,数据质量已经成为企业发展和决策的关键因素之一,而元数据管理则成为保障数据质量的基石。
元数据管理的定义和作用元数据是指用于描述数据的数据,包括数据的定义、结构、属性、关系、存储方式、使用范围等信息。
元数据可以帮助我们理解数据的含义和背景,帮助我们更好地掌握和管理数据资源,提高数据分析和应用的效率。
元数据可以分为三种类型:技术元数据、业务元数据、管理元数据。
元数据管理是对元数据进行有效管理和维护的过程,主要包括元数据的采集、存储、维护、共享和应用等环节。
元数据管理在数据治理和数据管理中起着至关重要的作用,它可以帮助组织更好地理解和利用自己的数据资源,提高数据开发和分析的效率,确保数据质量和数据安全。
元数据管理与数据质量数据质量是数据管理的核心问题之一,它影响着数据的可信度和有效性。
而元数据管理作为数据质量保障的核心要素,也是确保数据质量的有效手段之一。
•数据准确性:通过元数据管理,可以确保数据的准确性,避免数据的误导性和错误性。
•数据完整性:元数据可以帮助我们了解数据的完整性要求,通过元数据管理可以检验数据的完整性,保证数据的有效性和完整性。
•数据一致性:通过元数据管理可以掌握数据在不同系统和环境中的一致性,避免数据不一致造成的问题。
•数据及时性:通过元数据管理可以了解数据的更新频率和时间,保证数据的及时性,使数据能够及时反映现实的变化。
元数据管理的实践如何进行元数据管理?以下是一些元数据管理的实践建议:•元数据采集:收集和录入数据的元数据信息,包括数据表结构、数据定义、数据更新时间等信息。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据仓库与元数据管理1. 前言在事务处理系统中的数据,主要用于记录和查询业务情况。
随着数据仓库(DW)技术的不断成熟,企业的数据逐渐变成了决策的主要依据。
数据仓库中的数据是从许多业务处理系统中抽取、转换而来,对于这样一个复杂的企业数据环境,如何以安全、高效的方式来对它们进行管理和访问就变得尤为重要。
解决这一问题的关键是对元数据进行科学有效的管理。
本文首先介绍了元数据的定义、作用和意义;然后讨论了数据仓库系统中元数据管理的现状和关于元数据的标准化情况;最后提出了建立元数据管理系统的步骤和实施方法。
2. 元数据2.1 元数据的概念按照传统的定义,元数据(Metadata)是关于数据的数据。
在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。
技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,它主要包括以下信息:●数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容;●业务系统、数据仓库和数据集市的体系结构和模式●汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定义的查询与报告;●由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全(用户授权和存取控制)。
业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。
业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息;具体包括以下信息:●企业概念模型:这是业务元数据所应提供的重要的信息,它表示企业数据模型的高层信息、整个企业的业务概念和相互关系。
以这个企业模型为基础,不懂数据库技术和SQL语句的业务人员对数据仓库中的数据也能做到心中有数。
●多维数据模型:这是企业概念模型的重要组成部分,它告诉业务分析人员在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。
这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式。
●业务概念模型和物理数据之间的依赖:以上提到的业务元数据只是表示出了数据的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据库中的表、字段、维、层次等之间的对应关系也应该在元数据知识库中有所体现。
2.2 元数据的作用与其说数据仓库是软件开发项目,还不如说是系统集成项目[1],因为它的主要工作是把所需的数据仓库工具集成在一起,完成数据的抽取、转换和加载,OLAP分析和数据挖掘等。
如图1所示,它的典型结构由操作环境层、数据仓库层和业务层等组成。
图1数据仓库系统的一般体系结构其中,第一层(操作环境层)是指整个企业内有关业务的OLTP系统和一些外部数据源;第二层是通过把第一层的相关数据抽取到一个中心区而组成的数据仓库层;第三层是为了完成对业务数据的分析而由各种工具组成的业务层。
图中左边的部分是元数据管理,它起到了承上启下的作用,具体体现在以下几个方面:(1) 元数据是进行数据集成所必需的数据仓库最大的特点就是它的集成性。
这一特点不仅体现在它所包含的数据上,还体现在实施数据仓库项目的过程当中。
一方面,从各个数据源中抽取的数据要按照一定的模式存入数据仓库中,这些数据源与数据仓库中数据的对应关系及转换规则都要存储在元数据知识库中;另一方面,在数据仓库项目实施过程中,直接建立数据仓库往往费时、费力,因此在实践当中,人们可能会按照统一的数据模型,首先建设数据集市,然后在各个数据集市的基础上再建设数据仓库。
不过,当数据集市数量增多时很容易形成“蜘蛛网”现象,而元数据管理是解决“蜘蛛网”的关键。
如果在建立数据集市的过程中,注意了元数据管理,在集成到数据仓库中时就会比较顺利;相反,如果在建设数据集市的过程中忽视了元数据管理,那么最后的集成过程就会很困难,甚至不可能实现。
(2) 元数据定义的语义层可以帮助最终用户理解数据仓库中的数据最终用户不可能象数据仓库系统管理员或开发人员那样熟悉数据库技术,因此迫切需要有一个“翻译”,能够使他们清晰地理解数据仓库中数据的含意。
元数据可以实现业务模型与数据模型之间的映射,因而可以把数据以用户需要的方式“翻译”出来,从而帮助最终用户理解和使用数据。
(3) 元数据是保证数据质量的关键数据仓库或数据集市建立好以后,使用者在使用的时候,常常会产生对数据的怀疑。
这些怀疑往往是由于底层的数据对于用户来说是不“透明”的,使用者很自然地对结果产生怀疑。
而借助元数据管理系统,最终的使用者对各个数据的来龙去脉以及数据抽取和转换的规则都会很方便地得到,这样他们自然会对数据具有信心;当然也可便捷地发现数据所存在的质量问题。
甚至国外有学者还在元数据模型的基础上引入质量维[6],从更高的角度上来解决这一问题。
(4) 元数据可以支持需求变化随着信息技术的发展和企业职能的变化,企业的需求也在不断地改变。
如何构造一个随着需求改变而平滑变化的软件系统,是软件工程领域中的一个重要问题。
传统的信息系统往往是通过文档来适应需求变化,但是仅仅依靠文档还是远远不够的。
成功的元数据管理系统可以把整个业务的工作流、数据流和信息流有效地管理起来,使得系统不依赖特定的开发人员,从而提高系统的可扩展性。
3. 数据仓库元数据管理现状由以上几节我们了解到元数据几乎可以被称为是数据仓库乃至商业智能(BI)系统的“灵魂”,正是由于元数据在整个数据仓库生命周期中有着重要的地位,各个厂商的数据仓库解决方案都提到了关于对元数据的管理。
但遗憾的是对于元数据的管理,各个解决方案都没有明确提出一个完整的管理模式;它们提供的仅仅是对特定的局部元数据的管理。
当前市场上与元数据有关的主要工具见图2。
图2当前市场与元数据有关的主要工具如图2所示,与元数据相关的数据仓库工具大致可分为四类:1.数据抽取工具:把业务系统中的数据抽取、转换、集成到数据仓库中,如Ardent的DataStage、CA(原Platinum)的Decision Base和ETI的Extract等。
这些工具仅提供了技术元数据,几乎没有提供对业务元数据的支持。
2.前端展现工具:包括OLAP分析、报表和商业智能工具等,如MicroStrategy的DSS Agent、Cognos的PowerPlay、Business Objects的BO,以及Brio等。
它们通过把关系表映射成与业务相关的事实和维来支持多维业务视图,进而对数据仓库中的数据进行多维分析。
这些工具都提供了业务元数据与技术元数据相对应的语义层。
3.建模工具:为非技术人员准备的业务建模工具,这些工具可以提供更高层的与特定业务相关的语义。
如CA的ERwin、Sysbase的PowerDesigner以、Rational 的Rose等。
4.元数据存储工具:元数据通常存储在专用的数据库中,该数据库就如同一个“黑盒子”,外部无法知道这些工具所用到和产生的元数据是如何存储的。
还有一类被称为元数据知识库(Metadata Repository)的工具,它们独立于其它工具,为元数据提供一个集中的存储空间。
这些工具包括微软的Repository,CA的Repository、Ardent的MetaStage和Sybase的WCC等。
4. 元数据管理的标准化没有规矩不成方圆。
元数据管理之所以困难,一个很重要的原因就是缺乏统一的标准。
在这种情况下,各公司的元数据管理解决方案各不相同。
近几年,随着元数据联盟MDC(Meta Data Coalition)的开放信息模型OIM(Open Information Model)和OMG 组织的公共仓库模型CWM(Common Warehouse Model)标准的逐渐完善,以及MDC 和OMG组织的合并,为数据仓库厂商提供了统一的标准,从而为元数据管理铺平了道路。
从元数据的发展历史不难看出,元数据管理主要有两种方法:(1) 对于相对简单的环境,按照通用的元数据管理标准建立一个集中式的元数据知识库。
(2) 对于比较复杂的环境,分别建立各部分的元数据管理系统,形成分布式元数据知识库,然后,通过建立标准的元数据交换格式,实现元数据的集成管理。
下面我们分别介绍数据仓库领域中两个最主要的元数据标准:MDC的OIM标准和OMG的CWM标准。
4.1 MDC的OIM存储模型MDC成立于1995年,是一个致力于建立与厂商无关的、不依赖于具体技术的企业元数据管理标准的非赢利技术联盟,该联盟有150多个会员,其中包括微软和IBM等著名软件厂商。
1999年7月MDC接受了微软的建议,将OIM作为元数据标准。
OIM的目的是通过公共的元数据信息来支持不同工具和系统之间数据的共享和重用。
它涉及了信息系统(从设计到发布)的各个阶段,通过对元数据类型的标准描述来达到工具和知识库之间的数据共享。
OIM所声明的元数据类型都采用统一建模语言UML(Universal Modeling Language)进行描述,并被组织成易于使用、易于扩展的多个主题范围(Subject Areas),这些主题范围包括:●分析与设计(Analysis and Design):主要用于软件分析、设计和建模。
该主题范围又进一步划分为:UML包(Package)、UML扩展包、通用元素(Generic Elements)包、公共数据类型(Common Data Types)包和实体关系建模(Entity Relationship Modeling)包等。
●对象与组件(Object and Component):涉及面向对象开发技术的方方面面。
该主题范围只包含组件描述建模(Component Description Modeling)包。
●数据库与数据仓库(Database and Warehousing):为数据库模式管理、复用和建立数据仓库提供元数据概念支持。
该主题范围进一步划分为:关系数据库模式(Relational Database Schema)包、OLAP模式(OLAP Schema)包、数据转换(Data Transformations)包、面向记录的数据库模式(Record-Oriented Database Schema)包、XML模式(XML Schema)包和报表定义(Report Definitions)包等。