数据仓库中元数据若干问题的讨论

合集下载

企业数据仓库中元数据的应用研究

企业数据仓库中元数据的应用研究

企业数据仓库 中元数据 的应用研究
于 千城
( 北方 民族 大学计算机 学院, 宁夏 银川 7 0 2 ) 5 0 1

要 : 着数据仓库的数据质量 问 随 题越来越 引 重视 , 起 更进一步让人们认识到 了 元数据管理和应用的重要 性。 文章首先
对元数据 管理和数据质量的依赖 关系做 了介绍 , 然后 阐述 了应 用元数据解 决数据质量 问题的几个应 用实例。
Abs r c : ih t e aa ta tW t h d t w ae us d t qu lt is e m or atnto r ho e a a aiy su s e te i n, m o e O t t e l r aie ha t e r S ha p ope e l t t h m ea aa z t—d t
元数 据是 “ 关于数据 的数据” 关 于数据的结构 或“ 化数据” 即关于数据 的内容、 , 质量 、 状况 和其他特性 的
信 息 。【 1
控制 B 系统 中数据的数据, I 对上层功能提供信息支撑。
1 数 据仓库 的数据质量 问题
基础数据 的正确性 、真实性直接影响到报表和分
21 数据血 缘 分析 。
・ 数据被错误理解 ・ 重要的事实错误传达
・ 不能判断商业变化造成的影响
・缺 乏工 具连 贯性 ・缺 乏查 帐索 引
辅助管理人员对 由 B 系统提供 的报表 、 I 指标的数 据项进行血缘分析 ,了解该指标或报表元素 由源系统
到 B 系统 , I 由数据仓库到前端显示或者报表系统的计
ma a e e t a d a pi a o f i o tn e h s a t l rt me a d t n g me ta d d t e e d n n t e q a t f n gm n n p l t n o ci mp r c .T i r c f s a i e i t— a ma a e n n a d p n e t o h u l o a a i y

数据仓库元数据管理

数据仓库元数据管理

数据仓库元数据管理数据仓库元数据管理是指对数据仓库中的元数据进行管理和维护的过程。

元数据是描述数据的数据,它提供了关于数据的定义、结构、属性、关系以及数据的来源和用途等信息。

数据仓库中的元数据包括数据表、字段、索引、视图、存储过程等对象的描述信息,以及数据质量、数据血统、数据变化等相关信息。

数据仓库元数据管理的目标是保证数据仓库中的元数据准确、完整、一致和可靠。

通过对元数据的管理,可以提高数据仓库的可维护性、可扩展性和可重用性,进而提高数据仓库的价值和效用。

数据仓库元数据管理的主要任务包括元数据收集、元数据存储、元数据维护和元数据使用等。

1. 元数据收集:- 根据数据仓库的设计和需求,收集相关的元数据信息。

- 可以通过手工录入、自动抽取、数据字典等方式进行元数据的收集。

- 收集的元数据包括数据表、字段、索引、视图、存储过程等对象的描述信息,以及数据质量、数据血统、数据变化等相关信息。

2. 元数据存储:- 将收集到的元数据存储到元数据仓库中,以便后续的管理和使用。

- 元数据仓库可以使用关系型数据库、NoSQL数据库、文件系统等进行存储。

- 存储的元数据需要按照一定的结构进行组织和管理,以方便后续的检索和使用。

3. 元数据维护:- 对元数据进行定期的维护和更新,以保证其准确、完整、一致和可靠。

- 可以通过手工维护、自动抽取、数据字典同步等方式进行元数据的维护。

- 维护的内容包括元数据的新增、修改、删除等操作,以及元数据的版本管理和权限管理等。

4. 元数据使用:- 利用元数据提供的信息,支持数据仓库的各项管理和运维工作。

- 可以通过元数据进行数据质量管理、数据血统分析、数据变化跟踪等工作。

- 元数据还可以支持数据仓库的数据集成、数据查询、数据分析等应用。

数据仓库元数据管理的实施需要借助相应的工具和技术。

常用的工具包括元数据管理工具、数据建模工具、数据字典工具等。

常用的技术包括数据抽取、数据转换、数据加载(ETL)技术、数据建模技术、数据质量管理技术等。

数据仓库管理面临的问题与解决方案

数据仓库管理面临的问题与解决方案

数据仓库管理面临的问题与解决方案随着数据的快速增长和企业对数据分析的需求不断增加,数据仓库管理成为了一个重要的话题。

然而,在实际操作中,数据仓库管理面临着一些问题。

本文将探讨这些问题,并提出相应的解决方案。

一、数据质量问题在数据仓库中,数据的质量是至关重要的。

然而,由于数据来源的多样性和数据收集的复杂性,数据质量问题经常出现。

其中一些问题包括数据不完整、数据冗余和数据不一致等。

解决方案:1. 数据清洗:对数据进行清洗,包括去除冗余数据、填充空缺数据和处理数据不一致性等,确保数据的准确性和完整性。

2. 数据标准化:制定有效的数据标准和规范,确保数据的一致性和可比性。

3. 数据监控:建立数据监控机制,及时发现和解决数据质量问题。

二、数据安全问题随着数据的增加和复杂性的提高,数据安全成为了数据仓库管理的一大挑战。

数据泄露、数据丢失和未经授权的访问等问题可能会导致严重的后果。

解决方案:1. 数据备份与恢复:定期对数据进行备份,并建立可靠的恢复机制,以应对数据丢失的情况。

2. 数据加密:使用数据加密技术,对敏感数据进行加密存储,确保数据的安全性。

3. 权限管理:建立严格的权限管理机制,限制用户对数据的访问权限,防止未经授权的访问。

三、性能问题数据仓库的性能问题也是管理者需要关注的重点。

数据查询速度慢、系统响应时间长等问题会影响用户的体验,降低数据仓库的效率。

解决方案:1. 硬件优化:使用高性能的硬件设备,包括存储设备、处理器和网络设备等,提升数据仓库的运行速度。

2. 数据模型设计优化:对数据模型进行优化,包括索引设计、数据分区和合理的数据压缩等,提高查询性能。

3. 查询优化:通过优化查询语句、使用缓存和预编译等技术,提高查询效率。

四、数据集成问题数据集成是数据仓库管理中的一个重要环节。

然而,由于数据来源的多样性和数据格式的差异,数据集成经常面临着困难和挑战。

解决方案:1. 数据提取与转换:建立强大的ETL(抽取、转换和加载)工具,对数据进行提取、清洗和转换,确保数据的一致性和准确性。

数据仓库元数据管理

数据仓库元数据管理

数据仓库元数据管理数据仓库元数据管理是指对数据仓库中的元数据进行有效管理和维护,以确保数据仓库的可靠性和准确性。

元数据是描述数据的数据,它包括数据的定义、结构、关系、来源、用途等信息。

数据仓库中的元数据管理是数据仓库管理的重要组成部分,它对于数据仓库的建设和运营具有重要意义。

一、元数据管理的意义1. 提高数据仓库的可理解性和可维护性:通过对元数据的管理,可以使数据仓库的结构和内容更加清晰和易于理解,从而提高数据仓库的可维护性和可理解性。

2. 提高数据仓库的数据质量:元数据管理可以对数据仓库中的数据进行监控和评估,及时发现数据质量问题,并采取相应的措施进行修复,从而提高数据仓库的数据质量。

3. 提高数据仓库的数据一致性:通过元数据管理,可以对数据仓库中的数据进行统一的定义和管理,确保数据仓库中的数据一致性,避免数据冗余和不一致的问题。

4. 提高数据仓库的数据可追溯性:元数据管理可以记录数据仓库中数据的来源、变更历史等信息,使数据的变更过程可追溯,方便数据仓库的审计和管理。

二、元数据管理的内容1. 元数据定义和标准化:对数据仓库中的元数据进行定义和标准化,明确元数据的含义和格式,确保元数据的准确性和一致性。

2. 元数据收集和录入:通过各种手段和工具,收集数据仓库中的元数据,并将其录入到元数据管理系统中,建立元数据的库存。

3. 元数据的分类和组织:对元数据进行分类和组织,建立元数据的层次结构和关系,方便元数据的检索和使用。

4. 元数据的维护和更新:定期对元数据进行维护和更新,及时反映数据仓库中数据的变化和更新。

5. 元数据的查询和检索:提供元数据查询和检索的功能,方便用户查找和使用数据仓库中的元数据。

6. 元数据的安全管理:对元数据进行安全管理,设置权限和访问控制,保护元数据的安全性和机密性。

7. 元数据的版本管理:对元数据进行版本管理,记录元数据的变更历史,方便进行数据仓库的版本控制和管理。

三、元数据管理的流程1. 元数据收集和录入流程:(1)确定元数据的收集范围和目标。

数据仓库中元数据应用管理研究

数据仓库中元数据应用管理研究
维普资讯
科 技情报开发 与经济
文章 编 号 :0 5 6 3 ( 0 7 3 — 0 7 0 10 — 0 3 2 0 )3 0 1— 2
S IT C F R A I N D V L P N C - E H I O M T O E E O ME T&E O O Y N CN M
预处理 数据是 处于数 据源 和主题 数据之 问的 巾间层 次的数 据 , 预 处理数据 的处理在数据仓 库的后 台进 行 ,而且处理 的内容 比较 多 。包
8 一 2 O8.
巾。 这个过程所必 需的时间 、 地点信息 , 原始数据 和数据仓库 巾数据的对
[ ] 范井思. 3 基层公共图 书馆数 字资源建设 : 理念 、 原则与方案 [ ] J. 图书 馆论坛 ,0 5 6 :9 — 9 . 2 0 ( ) 10 15 ( 责任编辑 : 薛培荣 )
21 实 现 数据 仓 库 中 数 据 的 集 成 .
访问方法和使用限制 、 数据源 的存储平 台 、 源的内容说明 、 源的 数据 数据
更新频率等等 。
11 .. 预 处 理 数 据 元数 据 2
数据 仓库很重 要的一个特点是 它的集 成性 . 是将不 同时间 、 不同地 点、 不同 系统 中的数据采集 、 整理并且按 照一定 的模式 存储在数 据仓库
要面对用户进行工作 。 11 技术元数据 .
主题数据直 接面对分析性 用户的访 问 , 建立一个变视 图 , 分析性用
户通过实视 图对数据仓库进行访 问。数据仓 库主题 数据元数据包括 : 各 种数据库表 或视 图的定义 、 数据库分 区设置 、 引的 建立方法 、 索 数据库访 问权 限分配 、 数据库备 份方案 。
20 年 第 l 07 7卷 第 3 期 3

数据仓库元数据管理

数据仓库元数据管理

数据仓库元数据管理数据仓库元数据管理是指对数据仓库中的元数据进行有效管理和维护,以确保数据仓库的准确性和可靠性。

元数据是描述数据的数据,它包括数据的定义、结构、关系以及数据在数据仓库中的位置等信息。

对元数据进行管理可以帮助数据仓库管理员和用户更好地理解和使用数据仓库中的数据。

数据仓库元数据管理的目标是建立一个完善的元数据管理体系,包括元数据的采集、存储、更新和查询等功能。

下面将详细介绍数据仓库元数据管理的各个方面。

1. 元数据采集元数据采集是指收集数据仓库中各个组件的元数据信息。

这些组件包括数据表、列、索引、视图、分区等。

元数据采集可以通过手工输入、自动扫描或者集成外部工具等方式进行。

采集到的元数据应包括数据的定义、结构、数据类型、数据长度、数据格式、数据来源、数据质量等信息。

2. 元数据存储元数据存储是指将采集到的元数据信息存储到元数据仓库中。

元数据仓库是一个专门用于存储和管理元数据的数据库。

元数据存储应采用标准的数据模型和结构,以方便元数据的查询和管理。

同时,元数据存储还应具备高可用性、可扩展性和安全性等特点,以确保元数据的可靠性和安全性。

3. 元数据更新元数据更新是指对数据仓库中的元数据进行维护和更新。

元数据的更新可以包括新增、修改和删除等操作。

新增元数据是指在数据仓库中新增数据表、列、索引等元数据信息。

修改元数据是指对数据仓库中已有的元数据进行修改,如修改数据表的结构、数据类型等信息。

删除元数据是指从数据仓库中删除不再使用的元数据信息。

4. 元数据查询元数据查询是指根据用户的需求,从元数据仓库中检索和查询所需的元数据信息。

元数据查询可以通过图形界面工具、命令行工具或者编程接口等方式进行。

查询结果应包括元数据的详细信息和相关的数据仓库对象信息,以满足用户对数据仓库的需求。

5. 元数据管理元数据管理是指对数据仓库中的元数据进行全面的管理和监控。

元数据管理包括元数据的备份和恢复、权限管理、版本管理、数据质量管理等功能。

建立数据仓库中元数据管理系统方法的探讨

n t a n e n y t . ad ame d o e t i igme d t ma a me t s m h f bs a a g s e
Ke r s dsr u e p ; m td t ; me d t n g m n ;m td t n g me ts s m y wo d : it b t t e e a a i d y a a ta a ma a e e t e aa a ma a e n y t e
取、 清理 、 转换 规 则 和数 据 刷新 规 则 、 安全 。商业 元
1 元 数 据
1 1 元 数据 定义 .
元 数 据是 关 于数 据 、 纵 数 据 的 进程 和 应 用 程 操
序的结构和意义的描述信息 , 其主要 目标是提供数 据资源的全面指南。简单地说 , 元数据是关于数据
关键词:分布式 ;元数据 ; 元数据管理 ;元数据管理系统
Dic s i n o e h d fe t b ih n e d t s u so n m t o s o sa l i g m t a s a a m a a e e ts s e n d t r h u e n g m n y t m i a wa e o a s
梁 玉凤
( 黑龙江工商 职业 技术 学院 ,哈尔滨 108 ) 5 00
摘 要 :元数据管理是数据仓库项 目成败的关键 因素 ,有 了元数据就等 于拥有 了数据仓库的一 张蓝图。在对元数据的定义、作用和意义分析基础上 ,进而探讨 了数据仓库 系统 中元数据管理
的现 状 ,提 出了建立元 数据 管理 系统 的方 法。
从不同角度将元数据分成不 同类 , 元数据 的分 类对于元数据管理 的工作如: 存储 、 更新 、 维护 、 集成 和交换等有着重大 的影响。 目 前大多数人将元数据 分为 以下几类 :

元数据及数据质量介绍

企业级信息管控体系
企业级信息管控战略性和策略性管理,项目所有权和优先次序设定数据管理界定日常持续创建、使用和废止数据的职责元数据管理用来描述如何、何时和由谁来负责数据的接收、创建、访问、修改和格式的数据数据标准数据的业务、技术规范性文档数据质量数据满足特定使用的适用度,包括完整性和业务规则遵从性数据整合对各主题进行数据清理、转换、整合和丰富的流程数据安全与隐私各业务主题对安全性和保密性的要求,包括审计能力主数据管理数据资产以及定义企业运营的关系
人员、流程和技术
企业级信息管控
数据管理
主数据
管理
数据质量
元数据
管理
数据模型&
业务视图
数据安全与隐私
数据整合
数据
标准
>
数据管控实施的三个方向
>
Confidential
平台:数据管控团队的工作必须建立在自动化的高效的信息平台。接口:企业的信息系统之间应按照数据管控接口规范进行交互。模板:信息系统向数据管控平台提交数据可以通过标准模板。
>
Confidential
CWM标准涉及到的元数据模型结构
数据仓库为什么需要元数据管理
普通应用系统为什么不需要元数据管理?表的数量少数据加工简单数据来源单一访问方式单一交钥匙的应用数据仓库为什么必须元数据管理?上下游系统多,变更频繁数据加工复杂用户访问方式复杂维护周期长某银行的DW数据举例:上游系统60个,下游系统20多个,仓库内部的表12000多个,运行的ETL任务6000多个,每个月都有新版本上线
企业的分析型应用发展到一定的成熟度,就能发现数据管控的价值。数据管控是跨系统、跨部门的管理。数据管控必须有先进的管理方法论支持。数据管控是需要长期的、渐进式的工作。数据仓库是执行数据管控理想的平台。

数据仓库中元数据管理模型的研究

KE YW ORDS d t r h u e, me a a a  ̄ a e n d l a a wa e o s t d t . mn g me t mo e
在数据仓库 的构建和使用过程中, 大量数据的收 集 、 织 、 理 和 访 问的 复 杂 性 正 成 为 日益 突 出 的 问 组 管 题。如何将多个分散的 、 异质的原始数据融合在一起 , 完成不同数据存取 、 查询及文档分析 . 从而生成报告来 支持决策过程 , 中一个关键技术就是如何 实现高效 其
2 0 一 ) 2 收 到 .0 2 0 0 0 1 ( 7 3 2 0 2 j政 回
目前 已有一些现成的数据字典和纲 目库 , 标准 但
率课题 由北 京理1 夫学 与北 京市气象局资助 :
建 芬 , .97 生, 女 i6 年 副教授 , 瘦博士 ,95 3 在华北 工学院计 弭机系莸硕士学位 , 究方向 : 在 19 年 : 研 数据仓 库 、 网络技术
AB TRACT M a a e n fmea aa i o eo h e e h o o y o a awae o s n sa min wa o i lme ts a eo S n g me to td t s n ft ek y tc n l g fd t rh u e a di a y t mp e n h r f ifr t n Th diiin, 【 a c ,o tn n n 2 me tm o e o aawa e o s td t n ou in 印 piain,t. n o mai . e d nt o o i Ht n e c n e ta d ma a e n d l fd t rh u emea a aa d s l t s. l to ec mp o c aee p u d d, hc r vd sa fe t ea piaine a l o t d t n g me to aawa e o s . r x o n e w ih p o ie nefc v p l t x mpe f rmea aama a e n fd t r h u e i c o

元数据管理过程中的问题

元数据管理过程中的问题元数据管理是组织中非常重要的一个过程,它涉及到对数据资源进行描述、定义和管理,以支持数据的有效使用和价值实现。

在元数据管理过程中可能会出现一些问题,以下是几个常见的问题及其解决方法:1. 缺乏标准化:如果组织内部缺乏统一的元数据标准和规范,不同部门可能会使用不同的命名约定、定义和描述方法,导致元数据的不一致性和混乱。

解决这个问题的方法是建立统一的元数据标准,并确保全体成员能够理解和遵守这些标准。

2. 数据质量问题:元数据的准确性和完整性对于数据管理至关重要。

如果元数据中存在错误、遗漏或不一致的信息,将会影响到数据的可信度和可用性。

解决这个问题的方法是建立严格的数据质量控制机制,包括数据验证、清洗和纠错等步骤,确保元数据的质量达到要求。

3. 缺乏更新和维护:随着业务需求的变化和数据资源的更新,元数据也需要及时更新和维护。

如果缺乏有效的更新机制和维护策略,元数据将逐渐失效,无法满足组织对数据资源的管理和使用需求。

解决这个问题的方法是建立定期的元数据更新和维护计划,并确保有专门的人员负责执行和监督这些工作。

4. 缺乏元数据共享和协作:在大型组织中,不同部门和团队可能需要共享和协作使用同一份数据资源,但如果缺乏有效的元数据共享和协作机制,将会导致重复建立元数据、信息孤岛和数据冗余等问题。

解决这个问题的方法是建立统一的元数据平台或系统,支持跨部门、跨团队的元数据共享和协作,确保各方都能够基于同一份准确和一致的元数据进行工作。

5. 缺乏元数据管理的意识和培训:有时候组织内部缺乏对元数据管理的重视和认识,导致相关人员缺乏必要的知识和技能进行元数据管理工作。

解决这个问题的方法是加强对元数据管理的宣传和培训,提高相关人员的意识和能力,使他们能够理解和应用元数据管理的重要性和方法。

通过解决这些常见问题,组织可以更好地管理和利用元数据,提高数据管理的效率和质量,为业务决策和数据分析提供有力支持。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
!""#年第 $$ 期




&’
数据仓库中元数据若干问题的讨论
李志辉
! 湖北经济学院计算机与电子科学系 湖北 武汉 !"#$%& "
! 摘 要 " 元数据是数据仓库实现和管理的灵魂 # 是联系数据仓库中各部分的纽带 $ 本文对元数据的含义 % 分类和 生命周期等问题进行了讨论 # 同时对元数据管理中的管理结构 % 标准化和系统功能等问题进行了较为详细的论述 $ ! 关键词 " 数据仓库 & 元数据 & 元数据管理 引言 企业数据量的日益膨胀以及数据的多样性和复杂性 ! 使人 们不禁感叹二十年前查询不到数据是因为数据太少 ! 而现如今 查询不到数据则是因为数据太多了 " 如何及时地从海量的原始 数 据 中 提 取 更 多 #更 好 的 信 息 !为 企 业 的 决 策 分 析 服 务 !成 为 人 们一直关心的问题 " 在这种情况下 ! 数据仓库技术应运而生 " 数 据仓库能把企业决策所需的信息从企业原始数据中分离出来! 把分散的 # 难以访问的原始操作数据转化为集中统一 # 随时可用 的 信 息 !实 现 了 对 信 息 合 理 #全 面 而 高 效 的 管 理 !因 此 很 快 在 金 融 #证 券 #保 险 等 联 机 事 务 处 理 密 集 型 行 业 得 到 广 泛 的 应 用 !取 得了较好的效益 " 随着数据仓库技术应用的不断拓展 ! 元数据开 始成为企业信息综合管理的关键 ! 元数据管理越来越引起人们 的重视 " 元数据及其管理是数据仓库系统的核心部件 ! 是内部技术 人员开发与维护数据仓库的蓝图 ! 是商业终端用户导航数据仓 库以及定位有用信息的路标 " 在一个数据仓库项目中 ! 保证元数 据的统一 # 有效和规范的管理是整个项目成功的关键所在 " 因此 对元数据及其管理的研究具有较高的实用价值 " " 数据仓库中元数据的若干问题 "#! 关于元数据的含义 长期以来 ! 由于元数据本身较强的实践性 ! 元数据这个概念 的定义很少得到研究者们的关注 ! 对于元数据的理解和认识也 就停留 在 对 $%&’& &()*’ %&’& % 这 个 词 的 粗 糙 翻 译 上 ! 谈 到 元 数 据 时 ! 几乎无一例外地将其解释为 $ 关于数据的数据 %" 一句话 ! 看 似简单明了 ! 实质上却没有什么内容 " 随着数据仓库技术应用的不断拓展 ! 人们逐步认识到元数 据在数据仓库中的重要性 ! 从而开始对元数据进行理论上的研 究 " 从目前给出的对元数据的定义来看 ! 大多是面向特定的应 用 ! 尤其是数据密集型应用 ! 如地理信息系统 ! 多媒体系统 ! 数据 挖掘系统等 " 面向应用的元数据定义并不能刻画元数据的真正 内涵 " 理解元数据的含义不应只局限于具体的应用 ! 而应从狭义 和广义两个角度来把握 " 从狭义上理解 ! 元数据是描述基础信息 内容对象的数据 & 工具 ’( 从广义上理解 ! 元数据是一种基本信息 组织方法 ! 为数据仓库应用系统各个层次的内容提供规范的定 义 # 描述 # 交换和解析机制 ! 为分布的 ! 多种和多层内容构成的数 据仓库应用系统提供互操作和整合的纽带 ! 为计算机智能地识 别 # 处理 # 集成各种信息内容 # 信息过程和信息系统提供工具 " "#" 关于元数据的分类 对数据仓库的元数据进行分类是对其进行有效管理的首要 前提 " 从不同的角度出发可以将数据仓库的元数据分成不同的 类别 ! 下面给出几种比较典型的分类方法 " 从元数据是关于数据仓库系统中基础数据的还是关于数据 处理过程的这个角度出发 ! 可以将数据仓库元数据分为基础数 据的元数据和数据处理的元数据 " 基础数据的元数据包含了数 据仓库系统中关于数据源 # 数据仓库和数据集市的结构信息 ( 数 据 处 理 的 元 数 据 包 含 了 数 据 装 载 #清 洗 #更 新 #分 析 和 管 理 的 信 息" 从元数据的功能是实现数据存取还是数据获取这个角度出 发 ! 数据仓库元数据又可以分为前仓元数据和后仓元数据 " 从数据仓库系统用户这个角度出发 ! 数据仓库元数据又可 以分为商业元数据和技术元数据 " 商业元数据是为系统最终用
!
户服务的 ! 目的是使用户能够理解系统各项操作以便更好地应 用数据仓库系统为其服务 ( 技术元数据是为数据仓库系统管理 员和系统应用开发人员服务的 ! 目的是使数据仓库的开发和维 护人员能够更好地进行各项操作 " 而从对元数据内涵认识和理解不同这个角度出发 ! 有的学 者还提出将元数据分为狭义元数据和广义元数据 " 狭义元数据 是指描述数据的内容 # 质量 # 环境及数据的一些其他特色的数 据 ( 广义元数据是指实现对数据的描述 # 转换 # 操作 # 管理的数据 和知识 " 目前 ! 业界大多数将数据仓库系统的元数据按照系统用户 的不同分为商业元数据和技术元数据两类 " "#$ 关于元数据的生命周期 在数据仓库系统中 ! 元数据的生命周期可分为三个基本阶 段 ! 即收集 # 维护和配备 " 这三个阶段相互促进 ! 使元数据在数据 仓库环境中发挥重要作用 " 元数据收集阶段的任务是识别元数据并将其收入元数据库 中 " 在适当时间收集适当的元数据是成功实施元数据驱动的数 据仓库的基础 " 要达到较高的准确性 ! 元数据的收集必须尽可能 自动化 " 但由于对数据仓库有用的元数据包含各种不同类型的 内容 ! 从物理结构数据到逻辑模型数据 ! 再到企业的使用情况和 业务规则 " 这些类型中的每一类都有自己的元数据收集策略 ! 有 的可以在某种程度上自动化 ! 有的则要由人工来完成 " 在维护阶段中 ! 元数据必须紧跟实际情况的变化 " 例如 ! 如 果关系表的结构发生了变化 ! 存入的有关该表的元数据也需要 及时更新以反映这种变化 " 确保元数据准确并维护良好的唯一 方法就是尽可能使维护过程自动化 " 元数据的配备阶段是向用户提供形式适当的元数据和适用 的工具 ! 这是在收集和维护元数据中所付出的代价就要形成成 果的阶段 " 在数据仓库环境中 ! 不同的用户 & 包括数据仓库开发 人员 # 仓库维护人员和最终用户 ’ 在使用内容和方法上存在较大 差异 ! 因此应为不同用户配备不同形式的元数据 " 成功配备元数 据的关键之一在于正确地使元数据与每一类用户的特定需求相 匹配 " 把适当的元数据提供给适当的用户 ! 对数据仓库工作的成 功极为重要 " 具体实现时可能要针对不同的用户采用不同的工 具 ! 但这些不同的工具应采用同一元数据库来存储元数据 " $ 数据仓库中元数据管理的若干问题 $#! 关于元数据的管理结构 目前 ! 数据仓库系统主要有三种典型的元数据管理结构 ! 即 集中结构 # 分散结构和邦联结构 " 在数据仓库的管理和使用等方 面 ! 每一种管理结构都具有自己的优势和缺陷 " &$ ’ 集中结构 " 其基本思想是建立统一的元数据模型 ! 用该 模型定义和管理各种元数据 ! 并将所有元数据集中存储在中心 元数据库中 " 所有工具和数据仓库直接访问中心元数据库 ! 而不 局部存储和管理元数据 " 这种结构的优点是元数据全局可用 ! 无 需元数据交换机制 ( 缺点是对中心元数据库维护复杂 ! 访问速度 慢 ! 工具不具有自治性 " 对于大多数中等规模的组织 ! 这种结构 可以满足元数据管理的需要 " &! ’ 分散结构 " 为了解决中心元数据库管理结构存在的缺 陷 ! 目前大多数数据仓库系统中采用一种基于交换机制的分散 式元数据管理结构 " 这种管理结构通过建立相应的元数据交换 标准 ! 使得不同数据仓库工具能够使用不同的数据模型和不同
1(
福建Biblioteka 电脑!""#年第 $$ 期
的表示形式 ! 而这些工具之间可以通过元数据交换标准进行连 接和通信 " 这种管理结构的最大优点是不同工具可以高度自治 地访问局部元数据库 ! 提高了访问速度 ! 但系统需要提供元数据 交换机制来满足不同局部元数据库之间的互操作和连接等问 题 ! 相应地增加了系统的负担 ! 另外这种管理结构使得数据和元 数据分散在多个系统中 ! 增大了对它们协调和管理的难度 " #% $ 邦联结构 % 这种结构是前面两种结构的折衷 ! 结合了前 面两种结构的优点 ! 比较适合数据仓库环境中的元数据管理 " 每 个工具拥有自己的元数据库 ! 因而支持快速访问和自治 ! 并提供 与共享元数据库的交换接口 ! 共享元数据库管理的所有共享元 数据 " 局部元数据库可以采用异构的表示形式 ! 而共享的元数据 库必须采用统一的元数据表示表示形式 ! 如基于标准的元数据 模型 &&’( 或 )*( $ 或自定义模型 % 邦联结构的优点是保护了元 数据库的自治性和异构性 ! 每个局部元数据库自己确定需要导 出哪些元数据到共享的元数据库中 ! 缺点是元数据库的结构比 较松散 ! 元数据导航较为复杂 % !"# 关于元数据管理的标准化 元数据管理之所以困难 ! 一个很重要的原因就是缺乏统一 的标准 % 在这种情况下 ! 各公司的元数据管理解决方案各不相 同 % 近 几 年 ! 随 着 元 数 据 联 盟 (+) &(,-. +.-. )/.01-1/2$ 的 开 放 信 息 模 型 &’( &&3,2 ’24/56.-1/2 (/7,0 $ 和 &(8 组 织 的 公 共 仓 库模型 )*( &)/66/2 *.5,9/:;, (/7,0 $ 标准的逐 渐 完 善 ! 以 及 (+) 和 &(8 组织的合并 ! 为数据仓库厂商提供了统一的标准 ! 从而为元数据管理铺平了道路 % !"#$% 的 &’# 模型 (+) 成立于 $<<# 年 ! 是一个致力于 建 立 与 厂 商 无 关 的 ’ 不 依 赖 于 具 体 技 术 的 企 业 元 数 据 管 理 标 准 的 非 赢 利 技 术 联 盟 !该 联盟有 $#= 多个会员 ! 其 中 包 括 微 软 和 ’>( 等 著 名 软 件 厂 商 " $<<< 年 ? 月 (+) 接受了微软的建议 ! 将 &’( 作为元数据标准 " &’( 的目的是通过公共的元数据信息来支持不同工具和系 统之间数据的共享和重用 " 它涉及了信息系统 & 从设计到发布 $ 的各个阶段 ! 通过对元数据类型的标准描述来达到工具和知识 库之间的数据共享 " &’( 所声明的元数据类型都采用统一建模 语 言 @(A 进 行 描 述 ! 并 被 组 织 成 易 于 使 用 ’ 易 于 扩 展 的 多 个 主 题 范 围 !这 些 主 题 范 围 包 括 分 析 与 设 计 ’对 象 与 组 件 ’ 数 据 库 与 数据仓库 ’ 业务工程 ’ 知识管理等 " 虽然 &’( 标准并不是专门针对 数 据 仓 库 的 ! 但 数 据 仓 库 是 它 的 主 要 应 用 领 域 之 一 " 为 了 鼓 励 工 具 开 发 商 采 用 &’( !(+) 提出的 &’( 主要依赖于被 广 泛 接 受 的 工 业 标 准 ( 采 用 @(A 作 为 基 本 的 描 述 模 型 ! 使 用 B(A 作 为 元 数 据 的 交 换 标 准 ! 采 用 CDA 进行数据查询 % 目前市场上基于该标准的元数据管理工具 已经比较成 熟 ! 例 如 微 软 的 E,3/;1-5F 和 )G 的 E,3/;1-5F 均 采 用 了 &’( 标准 % ("&#) 组织的 %*# 模型 &(8 是 一 个 拥 有 #== 多 会 员 的 国 际 标 准 化 组 织 ! 著 名 的 )&E>G 标准即出自该组织 % 公共仓库元模型的主要目的是在异 构环境下 ! 帮助不同的数据仓库工具 ’ 平台和元数据库进行元数 据交换 % !==$ 年 % 月 !&(8 颁布了 )*( $H= 标准 % )*( 模型既 包括元数据存储 ! 也包括元数据交换 ! 它是基于以下三个工业标 准 制 定 的 (IJK @(A ( 它 对 )*( 模 型 进 行 建 模 ) I!L (&M & 元 对 象 设施 $( 它是 &(8 元模型和元数据的存储标准 ! 提供在异构环境 下 对 元 数 据 库 的 访 问 接 口 ) I%L B(’ &B(A 元 数 据 交 换 $( 它 可 以 使元数据以 B(A 文件流的方式进行交换 % )*( 为数据仓库和商业智能 &>’ $ 工具之间共享元数据 ! 制 定了一整套关于语法和语义的规范 % 它主要包含以下四个方面 的 规 范 ( IJL )*( 元 模 型 &(,-. (/7,0 $( 描 述 数 据 仓 库 系 统 的 模 型 ) I!L )*( B(A ()*( 元 模 型 的 B(A 表 示 ) I%L )*( +N+ ( 参考文献
相关文档
最新文档