第12章元数据管理-DAMA-DMBOK:数据管理知识体系(第二版)

合集下载

30页PPT读懂DAMA-DMBOK2

30页PPT读懂DAMA-DMBOK2

2020年6月《DAMA数据管理知识体系指南(原书第2版)》中文版全球首发起,这部权威性著作给出数据管理总体框架和职能、术语、最佳实践方法的标准行业解释。

美国Technics出版社社长史蒂夫·霍伯曼说,“这本书包括三个目标,一是为数据管理工作提供指导原则,并说明如何在数据管理功能领域应用这些原则;二是为数据管理实践的实施提供功能框架;三是为数据管理概念建立通用词汇表。


特别是由车轮图(由11个数据管理职能领域)和环境因素六边形图(由7个基本环境要素)共同构成的“DAMA数据管理知识体系”越发深入人心。

其中,数据管理职能包括数据治理、数据架构、数据建模和设计、数据存储和操作、数据安全、数据集成和互操作、文档和内容管理、参考数据和主数据管理、数据仓库与商务智能、元数据管理、数据质量管理。

基本环境要素包括目标与原则、组织与文化、工具、活动、角色和职责、交付成果、技术。

数据是理解事实的符号,信息是带有逻辑的数据组合,知识是直接指导业务决策和行动,因而能直接产生价值,最后透过数据进行挖掘、分析和决策,从数据、信息到知识逐层递进,通过DAMA金字塔图中的四个阶段,全面深入学习、了解和掌握核心章节及有关内容:
下面这份PPT材料用一句话总结了DMBOK2.0的11个数据管理职能,列举了相比于第一版的不同点,重点将11个数据知识域的核心知识要点进行了总结概括,简洁易懂,推荐给大家阅读。

更多数据治理相关学习材料请点击文末左下角阅读原文获取。

下面开始进入正文(PPT比较长,添加文末球球老师微信好友可获取下方PPT)。

DAMA-CDGA(数据治理工程师)-重点章节习题-第12章(元数据管理)

DAMA-CDGA(数据治理工程师)-重点章节习题-第12章(元数据管理)

数据治理工程师 CDGA 认证考试习题集第十二章元数据管理(重点章节)1. 以下内容不属于元数据综合解决方案功能需求点的是 ( )A 历史信息B 存储容量C 运维要求D 安全要求2. 关于 ISO/IEC 11179 元数据注册标准的说法正确的是:( )A 该标准由 6 个部分组成B 该标准用于定义元数据注册的框架C 该标准包含数据元数据的分类D 以上都对3. 以下关于元数据管理目标描述错误的是()A 记录和管理与数据相关的业务术语的知识体系,以确保人们理解和使用数据内容的一致性B 收集和整合来自不同来源的元数据,以确保人们了解来自不同部门的数据之间的相似与差异C 确保元数据的质量、一致性、及时性和准确性1D 推广或强制使用技术元数据标准,以实现数据交换4. 以下内容不属于元数据管理活动的是()A 记录与源的映射和迁移关系B 记录版本C 数据与对内数据采集建立连接D 缺失元数据报告5. 以下不属于元数据类型的是()A 物理元数据B 业务元数据C 技术元数据D 操作元数据6. 派生数据是冗余的,因为它 ()A 只是计算数据B 是原始数据的备份C 与原始数据同名D 被转换的原始数据7. 非结构化的元数据不包括()A 描述元数据2B 结构元数据C 管理元数据D 格式元数据8. 以下不属于元数据管理中管理元数据质量的方法的是()A 责任B 能力C 标准D 改进9. 以下哪项属于业务元数据()A 物理数据库表名和字段名B 数据集、表和字段的定义和描述C 字段属性D 数据库 CRUD 的规则10. 以下哪项不属于技术元数据?()A 数据库对象的属性B 访问权限C 内容更新的调度计划和依赖D 调度异常处理311. 对元数据相关活动进行成熟度评估可以了解组织元数据战略的现状,以下选项不属于评估内容的是()A 重要的业务数据元B 可用的元数据术语表C 数据血缘D 数据剖析和数据安全管理过程12. 以下内容属于技术元数据的是()A 数据模型B 物理数据库表名和字段名C 数据使用说明D 数据共享规则和协议13. 关于血缘关系的描述,以下哪项不正确()A 如果想成功的发现数据血缘关系,只需要关注业务焦点B 业务焦点是指根据业务优先级寻找数据元的血缘关系C 技术焦点是从源系统开始识别直接相关的数据使用者D 血缘关系分析可以节约检查异常现象的时间、并及时发现潜在的变更影响14. 以下关于元数据架构缺点描述错误的是()A 集中式元数据架构维护的成本较低B 分布式元数据架构元数据质量完全取决于源系统C 混合式元数据架构不会提高系统可用性D 双向元数据架构强制对源的更改管理,必须系统地捕获变更,然后加以解决15. 以下内容不属于缺失高质量元数据可能带来的影响的是()A 因不正确、不完整和不合理的假设或缺乏数据内容的知识导致错误判断B 暴露敏感数据,是客户或员工面临风险,影响商业信誉和导致法律纠纷C 了解数据的领域专家离职,知识也随之被带走D 低质量的元数据导致商务智能系统无法使用16. 关于元数据中业务术语表的描述错误的是哪项?()A 元数据架构的类型有:集中式元数据架构、分布式元数据架构、混合式元数据架构B 非结构化数据没有元数据C 业务术语表的构建需要满足 3 个核心用户的功能需求:业务用户、数据管理专员、技术用户D 元数据也有生命周期数据治理工程师 CDGA 认证考试习题集答案第十二章元数据管理(重点章节)1. B 存储容量【答案解析】DAMA-DMBOK2 P3342. D 以上都对【答案解析】DAMA-DMBOK2 P325 第十二章元数据管理 12.1.3 基本概念3 ISO/IEC 11179 元数据注册标准3. C 确保元数据的质量、一致性、及时性和准确性【答案解析】DAMA-DMBOK2 P3224. D 缺失元数据报告【答案解析】DAMA-DMBOK2 P3365. A 物理元数据【答案解析】DAMA-DMBOK2 P3236. D 被转换的原始数据【答案解析】DAMA-DMBOK2 P328 笫十二章 12.1.3 基本概念 5 元数据来源1(6)数据集成工具--许多工具生成临时文件,其中可能包含数据的副本或派生副本。

dama数据管理知识体系

dama数据管理知识体系

## 一、什么是DAMA数据管理DAMA数据管理(Data Management Association)是一种用于提高数据管理效率的系统。

它是一种数据管理技术,它涵盖了数据库管理、数据仓库管理、数据挖掘、数据模型管理等多个方面。

它的目的是通过统一的数据管理模型,提高数据管理水平,提高数据管理效率,实现数据管理的有效性和可靠性。

## 二、DAMA数据管理的主要内容1、数据库管理:数据库管理是DAMA数据管理的核心内容,它包括数据库设计、数据库实施、数据库维护、数据库优化等内容。

它的目的是使数据库可靠、可用、可控,以满足企业的业务需求。

2、数据仓库管理:数据仓库管理是DAMA数据管理的重要组成部分,它涉及数据仓库的设计、数据仓库的实施、数据仓库的维护等内容。

它的目的是使数据仓库能够有效地支持企业的业务,以提高企业的数据管理效率。

3、数据挖掘:数据挖掘是DAMA数据管理的重要组成部分,它涉及数据挖掘技术的应用,以及数据挖掘的结果的分析和应用。

它的目的是通过数据挖掘技术,从数据中挖掘出有价值的信息,以满足企业的业务需求。

4、数据模型管理:数据模型管理是DAMA数据管理的重要组成部分,它涉及数据模型的设计、数据模型的实施、数据模型的维护等内容。

它的目的是使数据模型能够更好地满足企业的业务需求,以提高企业的数据管理效率。

## 三、DAMA数据管理的应用DAMA数据管理的应用可以提高企业的数据管理效率,有效提升企业的经济效益。

1、提高企业的数据管理效率:DAMA数据管理技术可以提高企业的数据管理效率,使企业能够更好地管理数据,从而提高企业的经济效益。

2、提高企业的决策质量:DAMA数据管理技术可以提高企业的决策质量,使企业能够基于有效的数据,做出更加准确的决策,从而提高企业的经济效益。

3、提高企业的运营效率:DAMA数据管理技术可以提高企业的运营效率,使企业能够更好地管理数据,从而提高企业的经济效益。

## 四、DAMA数据管理的未来发展随着社会经济的发展,企业对数据管理的要求也越来越高,DAMA数据管理也将发挥更大的作用。

dama数据管理知识体系

dama数据管理知识体系

dama数据管理知识体系数据管理是个关键性的元素,对于任何公司或机构而言,如何管理他们的数据是一个重要的问题。

随着科技的发展,数据已经成为我们社会的一种基石,我们依赖它来支持和促进我们的运作。

因此,管理数据的方式和标准也可以被作为一个重要的项目来参考。

DAMA数据管理知识体系是一种针对专业数据管理人员的专用知识体系,旨在帮助它们更好地掌握有关数据学习、数据应用等环节的知识。

这种体系是由国际数据管理协会成立的,自1993年以来,DAMA 知识体系已由许多认证的DAMA数据管理专家维护和扩展。

DAMA知识体系的一大特点是它把数据管理和数据应用分开。

它将数据管理拆分成多个子领域,每个子领域都由一组四个属性:数据管理的规范化、数据的质量管理、数据的存储和检索、以及数据的治理。

它还包括数据库技术、数据仓库技术和数据挖掘,以及基于云和分布式计算技术的数据应用等方面的知识。

此外,DAMA知识体系还涵盖了关于数据管理的一些最佳实践,包括数据策略和架构设计、数据分析方法、数据库设计、数据安全和隐私保护、以及组织内部的数据流程管理。

它还有一部分是关于业务数据和结构化数据之间的关系的,以及如何实现两者的有效整合。

DAMA识体系目前已经支持了多种方式的数据管理,包括传统的文件系统数据管理和数据库管理,以及新兴的大数据技术和云计算技术,比如Hadoop和谷歌云技术等,使得DAMA知识体系可以适应当前和未来的技术发展。

总的来说,DAMA数据管理知识体系是一个适用于数据管理人员的宝贵资源,它不仅能帮助专业人员更好地掌握数据管理的技术,而且也能为数据管理的未来发展提供参考和建议。

这样一个系统性的知识体系有助于数据管理人员更有效地收集、处理和分析数据,并为企业和机构找到更好的数据管理解决方案。

dama 数据管理知识体系指南

dama 数据管理知识体系指南

dama 数据管理知识体系指南数据管理是一项重要的工作,涉及到数据的采集、存储、处理、分析、应用等多个环节。

为了更好地进行数据管理,需要掌握一定的数据管理知识体系。

本文将介绍 dama 数据管理知识体系指南,帮助读者了解数据管理的基本概念、流程、工具和技术等方面的知识。

一、数据管理基本概念1. 数据:指记录事实、事项或概念的符号化描述,是信息的物理表现形式。

2. 数据管理:是指对数据进行规划、组织、存储、处理、维护、使用和评价的过程,以实现数据的有效管理和利用。

3. 数据库:是指按照一定的数据模型组织、存储和管理数据的系统。

4. 数据仓库:是指将不同的数据源集成到一个统一的数据存储库中,以支持企业决策和分析等应用需求。

5. 数据挖掘:是指从大量数据中发现有用的信息和知识的过程。

6. 数据治理:是指对数据进行规范、管理和控制的过程,以确保数据的质量和合规性。

二、数据管理流程1. 数据采集:是指从不同的数据源获取数据,并进行初步的清洗和处理。

2. 数据存储:是指将数据存储到数据库或数据仓库中,并进行数据建模和设计。

3. 数据处理:是指对数据进行加工、转换、清洗、整合等处理,以满足数据分析和应用的需求。

4. 数据分析:是指对数据进行统计分析、数据挖掘、机器学习等方法,以发现数据背后的规律和趋势。

5. 数据应用:是指将数据应用到具体的业务场景中,以支持决策、优化业务流程等应用需求。

6. 数据维护:是指对数据进行监控、维护和修复,以确保数据的质量和安全性。

三、数据管理工具1. 数据库管理系统(DBMS):是用于管理和操作数据库的软件系统,常见的有 Oracle、MySQL、SQL Server 等。

2. 数据仓库工具:是用于构建和管理数据仓库的软件系统,常见的有 Teradata、IBM InfoSphere 等。

3. 数据可视化工具:是用于将数据可视化展示的软件系统,常见的有 Tableau、QlikView、Power BI 等。

数据管理葵花宝典-《DAMA-DMBOK2数据管理知识体系指南(第2版)》

数据管理葵花宝典-《DAMA-DMBOK2数据管理知识体系指南(第2版)》

数据管理葵花宝典-《DAMA-DMBOK2数据管理知识体系指南(第2版)》数据管理领域是信息技术发展中的⼀个新兴领域,随着互联⽹、全球化和信息化的快速发展,数据管理的重要性⽇益显现。

数据管理是把业务和信息技术融合起来所必需的⼀整套技术、⽅法及相应的管理和治理过程。

它的特殊定位决定了它涉及的知识体系⾯⼴且深,⽽要把其中各知识领域和它们之间的相互关系梳理和解释清楚并不是⼀件容易的事情。

DAMA国际通过对业《DAMA-DMBOK2数据管理知识体系指南(第2界数据管理最佳实践的分析总结,出版了《版)》,本书给出数据管理的职能、术语和最佳实践⽅法的标准⾏业解释,提供数据管理总体版)》框架,为数据管理发展提供了重要的理论基础。

⼀本书背景及概要介绍国际数据管理协会(Data Management Association ,⼜名DAMA International,以下简称“DAMA”)是⼀个全球性数据管理和业务专业志愿⼈⼠组成的⾮营利协会,致⼒于数据管理的研究和实践。

DAMA国际⾃1980年成⽴以来,⼀直致⼒于数据管理的理论研究、实践、教训及相关知识体系的建设,在数据管理领域累积了极为深厚的知识沉淀和丰富经验。

⼏⼗年来,DAMA组织众多数据管理领域的国际级资深专家编著,深⼊阐述数据管理各领域的完整知识体系。

作为最终体现,DAMA的数据管理知识体系[DAMA-DMBOK2:DataManagement Body of Knowledge.2 nd Edition],中⽂版为《DAMA数据管理知识体系指南(第2版)》,第⼆版英⽂版在2017年出版。

即将今《DAMA数据管理知识体系指南(第2版)》⼀书中⽂版由机械⼯业出版社在国内出版,即将今⽉上市。

全书由国际数据管理协会中国分会多名会员志愿共同翻译完成,这是⼀项⾥程碑式年3⽉上市。

的⼯作。

图1.DAMA-DMBOK2封⾯本书是国际数据管理协会(DAMA International)对过去30多年数据管理领域知识和实践的⼀个总结,由会员们花了多年时间和业界专家反复讨论撰写⽽成。

数据管理知识体系ppt课件

数据管理知识体系ppt课件


服务
服务描述

数据管理-数据交换平台功能架

数据交 换服务1
数据交 换服务2
数据交 换服务3
数据交 换服务4
企业数据服务总线
数据交 换服 务…
应用功能
安全 管理
平台 监控
元数据管理
数据存储
数据采集
数据采集任务调度
数据复制
ETL工具
全量复制
全量抽取
增量复制
增量抽取
专用数据采集接 口

数据清洗 数据转换 数据装载
无元数据管理
没有独立的数据 管理组织
缺少数据 活动管理
无企业级架构
数据生命周期 管理不完整
缺乏数据质量 管理体系



缺乏数据标准



缺少主数据管理
各部门用户 对数据架构 没有共识
数据安全 认识不全
新一代数据中心-目标
新一代数据中心定义 新一代数据中心是基于标准构 建模块,通过模块化软件实 现自动化7×24H无人值守计 算与管理,并以供应链方式 提供共享的基础设施、信息 与应用等IT服务
ERP Internet
Data acquisition
Reference Data Applications
Primary storage management
Historical Reference
Data
Alternative storage
ERP(tx)
Enterprise transactions
P15.建立数据管理机制
数据管理实施规划
人/流程/策略/规划
建立 元数据管理机制 建立 企业数据标准

第12章元数据管理-DAMA-DMBOK:数据管理知识体系(第二版)

第12章元数据管理-DAMA-DMBOK:数据管理知识体系(第二版)

第12章元数据管理-DAMA-DMBOK:数据管理知识体系(第⼆版)第⼗⼆章元数据管理1.简介元数据的最常见定义,“关于数据的数据”,很容易引起误解。

可以归类为元数据的信息种类繁多。

元数据包括有关技术和业务流程,数据规则和约束以及逻辑和物理数据结构的信息。

它描述了数据本⾝(例如,数据库,数据元素,数据模型),数据表⽰的概念(例如,业务流程,应⽤程序系统,软件代码,技术基础结构)以及数据和概念之间的连接(关系)。

元数据可帮助组织了解其数据,系统和⼯作流程。

它可以进⾏数据质量评估,并且是数据库和其他应⽤程序管理的组成部分。

它有助于处理,维护,集成,保护,审核和管理其他数据。

要了解元数据在数据管理中的重要作⽤,请想象⼀个⼤型图书馆,其中有成千上万的书籍和杂志,但没有卡⽚⽬录。

没有卡⽚⽬录,读者甚⾄可能不知道如何开始寻找特定的书甚⾄特定的主题。

卡⽚⽬录不仅提供必要的信息(图书馆拥有的书籍和材料以及在何处被搁置),还使读者可以使⽤不同的起点(主题区域,作者或标题)来查找材料。

没有⽬录,很难甚⾄不可能找到⼀本书。

没有元数据的组织就像没有卡⽚⽬录的图书馆。

元数据对于数据管理和数据使⽤都是必不可少的(请参阅DAMA-DMBOK中对元数据的多个引⽤)。

所有⼤型组织都会产⽣和使⽤⼤量数据。

在整个组织中,不同的个⼈将具有不同级别的数据知识,但是没有⼀个⼈会了解有关数据的所有知识。

此信息必须记录在案,否则组织可能会失去有关⾃⾝的宝贵知识。

元数据提供了捕获和管理有关数据的组织知识的主要⽅法。

但是,元数据管理不仅是知识管理⽅⾯的挑战,⽽且还存在许多挑战。

这也是风险管理的必要。

元数据对于确保组织可以识别私有数据或敏感数据以及为⾃⼰的利益管理数据⽣命周期以及满⾜合规性要求并使风险最⼩化是必不可少的。

没有可靠的元数据,组织将不知道它拥有什么数据,数据代表什么,它起源于何处,它如何在系统中移动,谁可以访问它,或者对⾼质量数据意味着什么。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第十二章元数据管理1.简介元数据的最常见定义,“关于数据的数据”,很容易引起误解。

可以归类为元数据的信息种类繁多。

元数据包括有关技术和业务流程,数据规则和约束以及逻辑和物理数据结构的信息。

它描述了数据本身(例如,数据库,数据元素,数据模型),数据表示的概念(例如,业务流程,应用程序系统,软件代码,技术基础结构)以及数据和概念之间的连接(关系)。

元数据可帮助组织了解其数据,系统和工作流程。

它可以进行数据质量评估,并且是数据库和其他应用程序管理的组成部分。

它有助于处理,维护,集成,保护,审核和管理其他数据。

要了解元数据在数据管理中的重要作用,请想象一个大型图书馆,其中有成千上万的书籍和杂志,但没有卡片目录。

没有卡片目录,读者甚至可能不知道如何开始寻找特定的书甚至特定的主题。

卡片目录不仅提供必要的信息(图书馆拥有的书籍和材料以及在何处被搁置),还使读者可以使用不同的起点(主题区域,作者或标题)来查找材料。

没有目录,很难甚至不可能找到一本书。

没有元数据的组织就像没有卡片目录的图书馆。

元数据对于数据管理和数据使用都是必不可少的(请参阅DAMA-DMBOK中对元数据的多个引用)。

所有大型组织都会产生和使用大量数据。

在整个组织中,不同的个人将具有不同级别的数据知识,但是没有一个人会了解有关数据的所有知识。

此信息必须记录在案,否则组织可能会失去有关自身的宝贵知识。

元数据提供了捕获和管理有关数据的组织知识的主要方法。

但是,元数据管理不仅是知识管理方面的挑战,而且还存在许多挑战。

这也是风险管理的必要。

元数据对于确保组织可以识别私有数据或敏感数据以及为自己的利益管理数据生命周期以及满足合规性要求并使风险最小化是必不可少的。

没有可靠的元数据,组织将不知道它拥有什么数据,数据代表什么,它起源于何处,它如何在系统中移动,谁可以访问它,或者对高质量数据意味着什么。

没有元数据,组织就无法将其数据作为资产进行管理。

确实,没有元数据,组织可能根本无法管理其数据。

随着技术的发展,生成数据的速度也提高了。

技术元数据已经成为数据移动和集成方式不可或缺的一部分。

ISO的元数据注册标准(ISO / IEC 11179)旨在基于数据的精确定义,在异构环境中启用元数据驱动的数据交换。

以XML和其他格式显示的元数据可以使用数据。

其他类型的元数据标记允许在交换数据的同时保留所有权,安全要求等指示符(请参见第8章)。

像其他数据一样,元数据也需要管理。

随着组织收集和存储数据的能力的增强,元数据在数据管理中的作用越来越重要。

要以数据驱动,组织必须以元数据驱动。

图84上下文图:元数据1.1业务驱动因素没有元数据就无法管理数据。

另外,必须管理元数据本身。

可靠,管理良好的元数据有助于:通过提供上下文并启用数据质量度量来增强对数据的信心通过实现多种用途来增加战略信息(例如主数据)的价值通过识别冗余数据和流程来提高运营效率防止使用过时或不正确的数据减少面向数据的研究时间改善数据使用者与IT专业人员之间的沟通创建准确的影响分析,从而降低项目失败的风险通过减少系统开发生命周期时间来缩短产品上市时间通过全面记录数据上下文,历史记录和来源,降低培训成本并降低人员流动的影响支持合规元数据有助于一致地表示信息,简化工作流功能并保护敏感信息,尤其是在需要遵守法规的情况下。

如果组织的数据质量高,则组织可以从其数据资产中获得更多价值。

质量数据取决于治理。

因为元数据解释了使组织能够运行的数据和流程,所以元数据对于数据治理至关重要。

如果元数据是组织中数据的指南,则必须对其进行良好的管理。

元数据管理不善会导致:冗余数据和数据管理流程复制和冗余字典,存储库和其他元数据存储数据元素的定义不一致以及与数据滥用相关的风险竞争和冲突的元数据的源和版本降低了数据使用者的信心怀疑元数据和数据的可靠性执行良好的元数据管理可以使人们对数据资源保持一致的理解,并实现更有效的跨组织开发。

1.2目标与原则元数据管理的目标包括:记录和管理与数据相关的业务术语的组织知识,以确保人们理解数据内容并可以一致地使用数据从不同来源收集和集成元数据,以确保人们了解组织不同部分的数据之间的相似性和差异确保元数据的质量,一致性,时效性和安全性提供使元数据使用者(人员,系统和流程)可访问元数据的标准方法建立或强制使用技术性元数据标准以实现数据交换成功的元数据解决方案的实现遵循以下指导原则:组织承诺:作为元数据管理整体策略的一部分,确保对元数据管理的组织承诺(高级管理支持和资金)。

策略:制定元数据策略,说明将如何创建,维护,集成和访问元数据。

该策略应推动需求,这些需求应在评估,购买和安装元数据管理产品之前定义。

元数据策略必须与业务优先级保持一致。

企业角度:以企业角度确保未来的可扩展性,但通过迭代和增量交付实现以带来价值。

社会化:传达元数据的必要性和每种元数据的目的;元数据价值的社会化将鼓励企业使用,更重要的是,企业专业知识的贡献。

访问:确保工作人员知道如何访问和使用元数据。

质量:认识到元数据通常是通过现有流程(数据建模,SDLC,业务流程定义)产生的,并使流程所有者对元数据的质量负责。

审核:设置,执行和审核元数据标准,以简化集成并启用使用。

改进:创建一种反馈机制,以便消费者可以将不正确或过时的元数据通知元数据管理团队。

1.3基本概念1.3.1元数据与数据如本章引言中所述,元数据是一种数据,因此应对其进行管理。

一些组织面临的一个问题是,在不是元数据的数据和是元数据的数据之间划界线。

从概念上讲,此行与数据表示的抽象级别有关。

例如,在报告美国国家安全局(National Security Administration)对美国境内电话使用情况的监视时,电话号码和通话时间通常称为“元数据”,这意味着“真实”数据仅包含电话对话的内容。

常识认为电话号码和电话通话时间也只是纯数据。

70根据经验,一个人的元数据就是另一个人的数据。

即使是看起来像元数据的内容(例如,列名列表)也可能只是纯数据-例如,如果此数据是旨在理解不同组织中数据内容的分析的输入。

为了管理其元数据,组织不必担心哲学上的区别。

相反,他们应该根据需要的元数据来定义元数据需求(创建新数据,理解现有数据,实现系统之间的移动,访问数据,共享数据)和源数据以满足这些需求。

1.3.2元数据的类型元数据通常分为三类:业务,技术和运营。

这些类别使人们能够理解属于元数据总体范围的信息范围以及产生元数据的功能。

也就是说,类别也可能导致混乱,尤其是当人们陷入有关元数据集属于哪个类别或应该使用谁的问题时。

最好将这些类别与元数据的起源而不是其使用方式联系起来。

关于用法,元数据类型之间的区别并不严格。

技术和运营人员使用“业务”元数据,反之亦然。

在信息技术之外,例如在图书馆或信息科学领域,元数据是使用不同的类别集来描述的:描述性元数据(例如,标题,作者和主题)描述资源并启用标识和检索。

结构元数据描述了资源及其组成部分之内和之间的关系(例如,页面数,章节数)。

管理元数据(例如,版本号,存档日期)用于在其生命周期内管理资源。

这些类别有助于确定元数据需求的过程。

1.3.2.1业务元数据业务元数据主要关注数据的内容和条件,并包括与数据治理相关的详细信息。

业务元数据包括概念,主题领域,实体和属性的非技术名称和定义;属性数据类型和其他属性属性;范围说明;计算;算法和业务规则;有效的域值及其定义。

业务元数据的示例包括:数据集,表和列的定义和描述业务规则,转换规则,计算和派生资料模型数据质量规则和测量结果数据更新时间表数据来源和数据沿袭数据标准数据元素记录系统的名称有效值约束利益相关者的联系信息(例如,数据所有者,数据管理员)数据的安全/隐私级别数据已知问题数据使用说明1.3.2.2技术元数据技术元数据提供有关数据技术细节,存储数据的系统以及在系统内部和系统之间移动数据的过程的信息。

技术元数据的示例包括:物理数据库表和列名列属性数据库对象属性存取权限数据CRUD(创建,替换,更新和删除)规则物理数据模型,包括数据表名称,键和索引数据模型与实物资产之间的书面关系ETL职位详情文件格式架构定义源到目标的映射文档数据沿袭文档,包括上游和下游变更影响信息程序和应用程序名称及说明内容更新周期作业时间表和依存关系恢复和备份规则数据访问权限,组,角色1.3.2.3操作元数据操作元数据描述了数据处理和访问的详细信息。

例如:批处理程序的作业执行日志提取物和结果的历史计划异常审核,平衡,控制措施的结果错误记录报告和查询访问方式,频率和执行时间补丁和版本维护计划和执行,当前补丁级别备份,保留,创建日期,灾难恢复规定SLA要求和规定体积和使用方式数据归档和保留规则,相关档案清除标准数据共享规则和协议技术角色和职责,联系方式1.3.3 ISO / IEC 11179元数据注册标准ISO的元数据注册表标准ISO / IEC 11179提供了用于定义元数据注册表的框架。

它旨在基于数据的精确定义(从数据元素开始)启用元数据驱动的数据交换。

该标准分为几个部分:第1部分:数据元素的生成和标准化框架第3部分:数据元素的基本属性第4部分:制定数据定义的规则和准则第5部分:数据元素的命名和标识原则第6部分:数据元素的注册1.3.4非结构化数据的元数据从本质上讲,所有数据都具有某种结构,尽管并非所有数据都在熟悉的关系数据库的行,列和记录中正式地结构化。

任何不在数据库或数据文件中的数据,包括文档或其他媒体,都被视为非结构化数据。

(见章节9和14)。

元数据对于非结构化数据的管理至关重要,对于结构化数据的管理则至关重要,甚至更是如此。

从本章介绍中再次考虑卡目录的类比。

图书馆中的书籍和杂志是非结构化数据的很好例子。

卡片目录中元数据的主要用途是查找所需资料,无论其格式如何。

非结构化数据的元数据包括描述性元数据,例如目录信息和叙词表关键字;结构化元数据,例如标签,字段结构,格式;管理元数据,例如源,更新时间表,访问权限和导航信息;书目元数据,例如图书馆目录条目;记录保留元数据,例如保留策略;和保存元数据,例如存储,存档条件和保存规则。

(请参阅第9章。

)尽管有关非结构化数据元数据的大多数主张都与传统的内容管理问题有关,但是围绕在数据湖中管理非结构化数据的新实践正在出现。

希望通过使用诸如Hadoop之类的大数据平台来利用数据湖的组织发现,他们必须对提取的数据进行分类,以便以后进行访问。

大多数部署适当的流程来收集元数据,作为数据摄取的一部分。

关于收集到数据湖中的每个对象,需要收集最少的元数据属性集(例如,名称,格式,源,版本,接收日期等)。

这将产生一个数据湖内容目录。

1.3.5元数据的来源从元数据的类型应该清楚的是,可以从许多不同的来源收集元数据。

相关文档
最新文档