元数据管理平台的建立

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

元数据管理平台的建立

1.1 元数据简介

元数据被定义为:描述数据的数据,对数据及信息资源的描述性信息。

元数据(Metadata)是描述其它数据的数据(data about other data),或者说是用于提供某种资源的有关信息的结构数据(structured data)。元数据是描述信息资源或数据等对象的数据,其使用目的在于:识别资源;评价资源;追踪资源在使用过程中的变化;实现简单高效地管理大量网络化数据;实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理。

元数据的基本特点主要有:

1、元数据一经建立,便可共享。元数据的结构和完整性依赖于信息资源的价值和使用环境;元数据的开发与利用环境往往是一个变化的分布式环境;任何一种格式都不可能完全满足不同团体的不同需要;

2、元数据首先是一种编码体系。元数据是用来描述数字化信息资源,特别是网络信息资源的编码体系,这导致了元数据和传统数据编码体系的根本区别;元数据的最为重要的特征和功能是为数字化信息资源建立一种机器可理解框架。

元数据体系构建了企业业务的逻辑框架和基本模型,从而决定了企业业务的功能特征、运行模式和系统运行的总体性能。企业业务的运作都基于元数据来实现。其主要作用有:描述功能、整合功能、控制功能和代理功能。

由于元数据也是数据,因此可以用类似数据的方法在数据库中进行存储和获取。如果提供数据元的组织同时提供描述数据元的元数据,将会使数据元的使用变得准确而高效。用户在使用数据时可以首先查看其元数据以便能够获取自己所需的信息。

在数据仓库领域中,元数据按用途分成技术元数据和业务元数据。首先,元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据。其次,元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能: (1)描述哪些数据在数据仓库中;

(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;

(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;

(4)记录并检测系统数据一致性的要求和执行情况;

(5)衡量数据质量。

1.2 元数据管理平台体系结构

图1 元数据管理平台体系结构

关键特性

可扩展的元模型:元数据管理平台采用可以扩展的元模型设计。能够满足项目快速实施的需要,更可以适应长期用户需求变化的需要。

端到端的元数据管理:元数据管理平台作为真正端到端的元数据管理工具,提供企业级的元数据统一视图,平台是第一个提供清晰地分析和跟踪业务运作历史数据的实际可行的解决方案。

实时元数据获取:元数据管理平台采用多种操作方式简化元数据导入的复杂性,实时连接其他软件工具的ActiveLinx技术是实时存取其他业务应用系统元数据。

主流开放性:元数据管理平台软件是100%JAVA、按J2EE模式构建、基于Web的瘦客户端架构,元数据存储于主流关系型数据库系统;能够导入、导出符合CWM国际规范的XML 文件;元数据管理平台提供应用编程接口(API),易于扩展和应用集成。

1.3 元数据管理

元数据管理实现针对元数据的基本管理功能。如元数据的添加、删除、修改属性等维护功能;元数据之间关系的建立、删除和跟踪等关系维护功能;提供元数据发布流程管理,可以更好地管理和跟踪元数据的整个生命周期;元数据自身质量核查、元数据查询、元数据统计、元数据使用情况分析、元数据变更、元数据版本和生命周期管理等功能。其应用案例如下:

元数据连接大部分主流关系型数据库(如Oracle、DB2、SQL SERVER、MYSQL、POSTGRESQL等),OLAP应用,非关系型结构(如文本文件、XML文件等)和半结构化数据。支持其他工业标准,比如主流ETL工具,BI工具等。

支持元数据获取调度功能,实现自动化获取元数据作业的配置;实现元数据获取作业的调度和管理;支持自动完成元数据抽取、转换和加载;数据变更捕获功能,实时监测数据元

数据的变化,减轻批量装载元数据和映射的负载,触发实时的数据集成过程,传递相关的变化到元数据和映射处理。

图7.2 元数据调度功能

自动化获取数据集成工具元数据,支持自动化获取PowerCenter等常见的数据集成工具的元数据获取。

灵活的任务调度,提供图形化调度定制工具,为元数据抽取制定调度执行的时间、频率和方式,完全实现自动化的任务调度,支持时间、命令行等触发方式。

支持自定义元模型,对未知或者不提供预定义元模型的系统,提供自定义元模型能力。

图7.3 元数据自定义元模型

储藏库版本和配置管理,数据变更捕获功能,实时监测数据元数据的变化,减轻批量装载元数据和映射的负载,触发实时的数据集成过程,传递相关的变化到元数据和映射处理。

图7.4 元数据数据变更

支持对数据进行数据探查,加深对基本数据的理解,帮助快速评估数据血缘中不同节点的数据质量。

图7.5 元数据的数据探查

权限及审计管理:可设定元数据管理的读写执行的权限控制,区分开发、执行、浏览等的不同权限限制,避免不相关人员的误操作,并能记录操作人员的使用情况。并且能审计操作人员的操作日志。

图7.6 元数据的权限管理

支持信息的浏览、信息查询。

图7.7 元数据浏览查询

1.4 元数据分析

元数据分析功能主要实现针对元数据的基本分析功能。包括血缘分析(血统分析)、影响分析、实体关联分析、实体影响分析、主机拓扑分析、指标一致性分析等。

各类应用软件元素产生的元数据进入元数据平台后,元数据管理可通过元数据服务功能,为需要这些元数据的工具软件或构件提供元数据服务。如将前面所述的各种工具软件的定义结果,以相应的标准协议进行打包形成方案(应用脚本),提供给其它应用环境中的物理表建立工具、ETL工具、多维模型建立工具、结果展现工具等底层工具,从而实现应用的重用和共享。同时,元数据服务还可为业务应用功能提供辅助的元数据帮助信息,如业务功能中加工结果和指标的说明、提示,及其血缘分析等,让用户可明确、直观地了解数据的来源、加工过程及加工算法等信息。

相关文档
最新文档