数据整合与BI应用的元数据标准化
人大金仓大数据平台解决方案32

大数据: 1、容量大 2、类型多 3、存取速度快 4、应用价值高
数据采集 数据存储 关联分析
发现新知识 创造新价值 提升新能力
新一代信息技术和服务业态
大数据平台的建设目标
建设内容
1
数据集中与整合
2
数据存储与处理
3
数据交换与共享
4
数据管控与治理
大数据 平台
建设目的
资源整合、信息共享、业务协同 形成国家政府数据统一开放平台 提高服务能力与水平 促进创新服务优化管理 提升决策和风险防范水平 提高社会治理的精准性和有效性
。20.1 1.2520. 11.250 0:14:42 00:14:4 2November 25, 2020
生活总会给你谢另一个谢机会,大这个机家会叫明天 6、
。2 020年1 1月25 日星期 三上午1 2时14 分42秒0 0:14:42 20.11.2 5
人生就像骑单车,想保持平衡就得往前走
数据质量报告分析系统
分析(分析问题)
问题分析、数据质量问题报告、知识库积累
• 依据各系统的监控信息,对异常指标进行跟踪,提交相关数据质量问题报告,注重对分析过程 中知识的积累
数据质量监控系统
监控(发现问题)
及时性、完善性、合法性、准确性、唯一性监控
• 依据数据质量度量标准对其的数据实体和数据处理过程建立有效的监控机制,在第一时间发现数据质量问题,为数据 质量问题分析提供原始依据
大数据平台建设内容
ETL架构与工具 数据库软件平台
仓ETL流程结构图
金仓ETL — 全面的数据访问与平台支撑
支持符合ODBC/JDBC 接口规范的46种数据库系统
支持主流的国内外操作系统 Windows 系列/Linux系列
BI方案介绍

商业智能(BI)方案目录1. 企业异构数据源32. ETL数据抽取转化和加载42.1 数据抽取、转换和加载52。
2 统一调度62。
3 监控72。
4 ETL工具OWB73. 数据仓库83。
1 操作型数据93.2数据集市93.3 联机在线分析OLAP93。
4 数据挖掘104。
前端展现114.1 多维分析工具Powerplay124.1.3 PowerPlay 应用开发过程164。
2 企业报表ReportNet164。
3 KPI企业关键指标254。
4 报表预警与分发264。
5 即席查询27商业智能(BI, Business Intelligence)是对商业信息的搜集、管理和分析的过程,目的是使企业的各级决策者获得知识或洞察能力,促使他们做出对企业更有利的决策。
商业智能一般由数据仓库、数据分析、数据挖掘、在线分析、数据备份和恢复等部分组成。
其基本体系结构包括数据仓库、多维分析和数据挖掘等三个部分。
其中数据仓库用于抽取、整合、分布、存储有用信息;多维数据分析可全方位了解现状;数据挖掘则是发现问题、找出规律、预测将来,达到真正的智能效果。
商业智能的过程:从不同的数据源收集的数据中提取出有用的数据,对数据进行清理以保证数据的准确性,将数据经过转换、重构后存入数据仓库或数据集市,然后寻找合适的查询和分析工具,数据挖掘工具,OLAP工具对信息处理,最后将知识呈现于用户面前,转变为管理、决策.商业智能是从传统的业务过程扩展到对业务数据的联机分析、并从中得到各种面向主题的统计信息和经过计算的结论的应用系统,其处理模式称之为联机分析处理 (OLAP),它的核心是数据仓库技术.其常见的体系结构如下图所示:操作型数据TransformationBI系统架构商业智能已经成为今天商业环境中一个必要因素,企业需要权衡今天商业智能技术提供的能力来保持和提高竞争性和可赢利性。
先进的BI(商业智能)系统解决方案通过开放、易扩展的平台为企业提供管理信息和运营信息的快速获取、集成和智能化分析手段,可以广泛地应用于金融、电信、税务、保险等行业。
企业bi建设阶段跃迁 路径

企业bi建设阶段跃迁路径
企业BI(商业智能)建设阶段跃迁的路径大致如下:
1. 基础建设阶段:此阶段主要是搭建BI的基础设施,包括数据仓库、数据湖等数据存储设施,ETL工具、数据清洗工具等数据处理工具,以及数据质量管理系统等。
2. 数据整合阶段:在基础设施搭建完成后,企业需要将各个业务系统的数据进行整合,形成一个统一的数据平台。
这个阶段需要解决数据的标准化、规范化、一致性问题,建立数据字典、元数据管理系统等。
3. 数据可视化阶段:在数据整合完成后,企业可以通过数据可视化工具将数据以图表、报表等形式呈现出来,便于分析和决策。
这个阶段需要注重数据可视化的效果和用户体验,根据不同的业务需求和用户群体设计不同的可视化方案。
4. 数据分析阶段:在数据可视化基础上,企业需要深入挖掘数据的价值,通过数据分析发现业务问题、寻找商业机会。
这个阶段需要培养专业的数据分析师团队,提高数据分析的水平和能力。
5. 数据驱动决策阶段:在数据分析的基础上,企业需要将数据应用于业务决策中,实现数据驱动的决策模式。
这个阶段需要建立数据决策支持系统,提高决策的科学性和准确性。
以上是BI建设的五个阶段,每个阶段都有不同的重点和目标,企业需要根据自身的实际情况和发展需求制定相应的策略和方案,逐步推进BI建设。
同时,BI建设也需要与企业的战略规划、组织架构、业务流程等相配合,实现全面数字化转型。
BI基础概念

BI的价值 如何构建BI 数据仓库设计中的几个重要概念 维度建模
a
1
关键概念
• 操作型数据
如:某商场1瓶价格为88元的葡萄酒在被 购买的过程中,收银员实际收到100元, 找零12元。
特点:细节化,分散化
a
2
关键概念
• 决策型数据
如:该商场在1月9日上午一共卖出了多少 瓶葡萄酒?该商场的所有葡萄酒总销量在 一年中什么时候最高和最低?
a
14
数据仓库设计中的几个重要概 念
ODS( Operational Data Store,操作数据存储)
ODS反映当前数据值:这一点是指ODS中不会长期的保留数据,通常ODS保留的数 据的时限最长到一个月或三个月。而数据仓库可以保留五年、十年或更长的数据。
ODS中保留详细数据:这一点是说ODS中只保留原子数据,而不保留汇总数据。而 在数据仓库中原子数据和汇总数据都会进行保留。这和ODS可更新的特性相关,因 为随时可能将操作型系统的数据变化更新到ODS中,并且数据的迁移时间间隔会很 短,这都使汇总数据在ODS中的意义不大。
特点:综合化,集成化
a
3
企业对应用集成的需求
➢我要了解企业目前的运转情况!(实时 监控)
➢我要知道某地区近5年内的销售情况以制 定未来的发展策略!(决策支持)
➢我要知道哪些是值得发展的优质的顾客! (预测)
a
4
BI应用带来的关键效益
洞察力
获得对业务绩效,流程和客户的可
见性和洞察力
更好的进行决策和执行决策,以快
Inmon的这个定义与他对数据仓库的定义很像。其中前两个特性和数据仓库是一样 的,即都是面向主题的和集成的,而后三个特性和数据仓库相差较大。
元数据标准化在教育资源库共享中的应用

计 算 机 系 统 应 用
ht:w w cS .r. t / w . — ogc p/ —a n
21 0 2年 第 2 1卷 第 3 期
教育信息化技术标准委 员会提 出一个 比较完整 的中国 网络教育技术标准体 系结构 ,产生了 1 种规范 , 中 1 其
与教 育 资源 相关 的标 准规 范有 :《 习对 象元 数据 》 学 ( E T 一) 教育 资源建设技术 规范》( E T 一1 C L S3 、《 C L S4 )
学资源元数据规范》中的规范要求,来对教育资源 进
Itre 上最新的技术之一,X n nt e ML的功 能主要有两个 ,
一
是描述数据 的内容,包括数据 的内容 结构及相应 的
语义 ,用 X ML 来 定义 的元数据 ,其结构、语 法和 内 容都 十分清晰 ,能高效的被计算机 处理。二是 X ML
p o a aee f in l. o i r v t ii g rt f ewo k e u a in l e o r ea d s ae t ed t f i e e t aa a e r p g t f ce t T i y mp o eu i zn eo t r d c t a s u c n h r a o f r n t b s l a n o r h a d d
21 0 2年 第 2 卷 第 3期 l
ht:w . Sa r. t / wwc -. gc p/ — o n
计 算 机 系 统 应 用
元数据标准化在教育资源库共享中的应用①
季 莉 ,范 君 ,周 建
( 南通纺织职业技术学 院,南通 2 6 0) 2 0 7
摘
要 : 目前我国各院校 的教育 资源 库的建设缺乏统 一规划 ,存在重 复建设、数量 庞杂 、形式不规范等 问题 ,
全球BIM技术发展趋势探讨之四 聚焦BIM技术发展趋势

❷BIM视野2021-6全球BIM技术发展趋势探讨之四聚焦BIM技术发展趋势■中国建设科技集团中央研究院智慧建筑研究中心欧阳东黄剑钊本文聚焦BIM技术发展趋势,主要探讨BIM技术的六大变革、发展趋势、存在不足和发展思考。
在大数据、物联网、5G移动互联的时代背景下,立足于建筑信息化建设的市场需求与发展趋势,分析BIM技术对数字化城市建设、运营、管理、服务的深远影响与现实意义。
BIM技术产生的六大变革传统思维变革。
传统设计的思维已被传统工作方式所固化,但BIM技术的出现,打破了这种已被市场广泛接受的二维设计模式。
随着BIM技术应用的日趋成熟,没有BIM设计能力的设计团队,会面临被时代淘汰的风险。
技术手段变革。
轻量型二维设计软件向重量型三维设计软件的转变。
虽然BIM设计软件会对个人的工作效率造成—定的影响,但对于项目整体而言,BIM正向设计与技术应用,对项目的品质与管理带来较为显著的提升。
商业模式变革。
一是市场对设计方业务能力要求的提升,随着国家层面对BI M发展的重视和支持、市场对BIM设计需求的增加,BIM正向设计已经成为了许多建设方对设计方资质考762021-6BIM视野❷察的“敲门砖”;二是设计方业务向项目全过程延伸,因为BIM技术服务于项目全生命期,这也让BIM成为“EPC”或“建筑师负责制”项目的有效抓手。
通过BIM技术对项目的进度、成本、施工、质量、安全等进行有效管控,优化资源配置,提升建造品质。
城镇建设变革。
随着“大数据”“移动互联网”时代的到来,城镇建设向着数字化、信息化、智慧化的方向发展。
以BIM技术为核心、由建筑单元到城市系统的BIM+GIS应用,为数字化城市的建设与发展提供了重要的信息基础与管控依据。
产业信息变革。
基于BI M信息数据,对建筑全生命期所产生影响力与控制力。
设计的意图与图纸输出的信息均可通过BIM模型在不同的阶段、不同的专业,甚至不同的产业间进行传递与综合应用。
建筑产业变革。
关于主数据、元数据、交易数据的概念及典型应用

企业数据管理的内容和范畴通常包含交易数据、主数据以及元数据。
本文将主要针对主数据、元数据的相关概念以及应用跟大家做一个探讨。
(文章内容来自互联网,kuangfeng88588整理)1 主数据和主数据管理的概念企业主数据是用来描述企业核心业务实体的数据,比如客户、合作伙伴、员工、产品、物料单、账户等;它是具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据,并且存在于多个异构的应用系统中。
企业主数据可以包括很多方面,除了常见的客户主数据之外,不同行业的客户还可能拥有其他各种类型的主数据,例如:对于电信行业客户而言,电信运营商提供的各种服务可以形成其产品主数据;对于航空业客户而言,航线、航班是其企业主数据的一种。
对于某一个企业的不同业务部门,其主数据也不同,例如市场销售部门关心客户信息,产品研发部门关心产品编号、产品分类等产品信息,人事部门关心员工机构,部门层次关系等信息。
1.1数据管理的范畴和主数据管理的概念企业数据管理的内容及范畴通常包括交易数据、主数据以及元数据。
∙交易数据:用于纪录业务事件,如客户的订单,投诉记录,客服申请等,它往往用于描述在某一个时间点上业务系统发生的行为。
∙主数据:主数据则定义企业核心业务对象,如客户、产品、地址等,与交易流水信息不同,主数据一旦被记录到数据库中,需要经常对其进行维护,从而确保其时效性和准确性;主数据还包括关系数据,用以描述主数据之间的关系,如客户与产品的关系、产品与地域的关系、客户与客户的关系、产品与产品的关系等。
∙元数据:即关于数据的数据,用以描述数据及其环境的结构化信息,便于查找、理解、使用和管理数据。
主数据管理是指一整套的用于生成和维护企业主数据的规范、技术和方案,以保证主数据的完整性、一致性和准确性。
1.2主数据管理的意义集成、共享、数据质量、数据治理是主数据管理的四大要素,主数据管理要做的就是从企业的多个业务系统中整合最核心的、最需要共享的数据(主数据),集中进行数据的清洗和丰富,并且以服务的方式把统一的、完整的、准确的、具有权威性的主数据分发给全企业范围内需要使用这些数据的操作型应用和分析型应用,包括各个业务系统、业务流程和决策支持系统等。
数据仓库与数据挖掘 课后答案 (陈志泊 著) 清华大学出版社

第1章数据仓库的概念与体系结构1.数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2.元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据元数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3.数据处理通常分成两大类:联机事务处理OLTP和联机分析处理OLAP。
4.多维分析是指对以“维”形式组织起来的数据(多维数据集)采取切片(Slice)、切块(dice)、钻取(Drill-down 和Roll-up 等)和旋转(pivot)等各种分析动作,以求剖析数据,使用户能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5. ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
6.数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。
7.数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集市、依赖型数据集市和操作型数据存储、逻辑型数据集市和实时数据仓库。
8.操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。
9.“实时数据仓库”意味着源数据系统、决策支持服务和数据仓库之间以一个接近实时的速度交换数据和业务规则。
10.从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以营运导向为主、以实时数据仓库和自动决策为主。
11.什么是数据仓库?数据仓库的特点主要有哪些?答:数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。
数据仓库的特点包含以下几个方面:(1)面向主题。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据整合与BI应用的元数据标准化数据是各类信息化应用的核心,如何有效的利用数据,提供由价值的信息、促进共享是目前信息化应用的关键目标之一。
在这种情况下,描述并有效利用各类息的元数据就变得更加重要,成为管理和应用各类信息资源的有效手段。
因此,在数据整合与BI应用项目中,应科学地、规范地建立一套规范化的元数据标准。
正是有了元数据,才使得数据整合与BI应用的最终用户可以随心所欲地使用数据仓库(数据整合与BI应用的载体),利用数据仓库进行各种管理决策模式的探讨。
元数据是数据整合与BI应用项目的灵魂,可以说没有元数据就没有数据整合与BI应用。
1. 元数据的一般概念元数据(metadata)是关于数据的数据(data about data),是专门用来描述数据的特征和属性,描述和组织信息资源,发现信息资源的语言和工具。
(1)元数据是什么?数据的数据 (data about data)结构化数据 (Structured data about data)用于描述数据的内容(what)、覆盖范围(where, when)、质量、管理方式、数据的所有者(who)、数据的提供方式(how)等信息,是数据与数据用户之间的桥梁;资源的信息 (Information about a resource)编目信息 (Cataloguing information)管理、控制信息(Administrative information)是一组独立的关于资源的说明(metadata is a set of independent assertions about a resource )data that defines and describes other data (ISOIEC 11179-32003(E))传统的书目数据、产品目录、人事档案等都是元数据。
元数据可以为各种形态的信息资源提供规范、普遍的描述方法和检索工具,为分布的、由多种资源组成的信息体系提供整合的工具与纽带。
离开元数据的数据整合与BI应用项目将是一盘散沙,无法提供有效的检索、处理和应对需求的变化。
(2)元数据与数据的关系元数据也是数据,其本身也可以作为被描述的对象,这是描述它的数据就是元数据。
在信息系统中一般把数据看成是独立的信息单元,不管这里的“数据”是一本书、一个网页、或者一个虚拟的 URL 地址。
元数据可以出现在:数据内部;独立于数据;伴随着数据;与数据包裹在一起。
(3)元数据(metadata)概念提出的背景“书目”作为元数据的一种形式在以图书为资源存在形式的相关行业应用了千百年,其它许多行业也都有自己的元数据格式,例如名册、账本、药典等等。
“元数据”作为一个统一概念的提出首先起因于对电子资源管理的需要。
因特网的爆炸式的发展,使人们一时难以准确地找到自己所需的信息,人们就试图模仿图书馆对图书进行管理的方式,对网页进行编目。
坦白地说在这方面至今仍然成效不大,甚至可以说是失败的。
但对元数据的研究和应用使人们看到了新的可能性,元数据可以成为下一代万维网——“语义万维网(Semantic Web)”的基石,通过表达语义的元数据,以及表达结构、关系和逻辑的 XMLXMLSRDFRDFSOWL 等形式化描述,计算机能够对于数据所负载的语义进行理解和处理,从而赋予因特网以全球的智慧和惊人的能力。
(4)元数据能解决什么问题?描述(description)资源发现 (resources discovery)认证(authentication)互操作(interoperability)数据管理(data management)访问控制(rights management)数字化保藏(digital preservation)内容分级(content rating services)2. 数据整合与BI应用项目中的元数据在数据整合与BI应用中,元数据用于构造、维持、管理、和使用数据仓库。
元数据在数据仓库的设计、运行中有着重要的作用,它表述了数据仓库中的各对象,遍及数据仓库的所有方面,是数据仓库中所有管理、操作、数据的数据,是整个数据仓库的核心。
在数据整合与BI应用中,元数据是关于数据、操纵数据的进程和应用程序的结构和意义的描述信息,其主要目标是提供数据资源的全面指南。
其范围可以是某个特别的数据库管理系统中从现实世界的概念上的一般概括,到详细的物理说明。
在数据库中,元数据是对数据库中各个对象的描述。
关系数据库中,这种描述就是对表、列、数据库、观点和其他对象的定义。
从广义上讲,元数据代表定义数据仓库的任何对象,无论它是一个表、一个列、一个查询、一个业务规则,或者是数据仓库内部的数据转移等等。
3. 元数据的基本功能(1)识别。
确认并对要进行组织的信息资源进行个别化描述,使用户能识别被组织的资源对象。
(2)定位。
提供信息资源位置的信息,以便用户访问时使用。
(3)检索。
通过在描述数据中提供检索点,便于用户对资源的检索和利用。
(4)选择。
通过记录信息资源的特征,诸如主题、作者、类型、物理形式、层次和日期等,供用户对信息资源的使用价值进行判断,决定是否使用该资源。
在数据整合与BI应用中,元数据机制主要支持以下五类系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。
4. 元数据的类型(1)按元数据的类型分类关于基本数据的元数据:包括数据源、数据仓库、数据集市和应用程序管理的所有数据。
用于数据处理的元数据关于企业的组织结构的元数据(2)按对象级别分类概念级逻辑级物理级(3)从用户的角度分类通常把元数据分为技术元数据(Technical Metadata)、业务元数据(Business Metadata)和数据仓库操作型信息。
①技术元数据包括为数据仓库设计人员和管理员使用的数据仓库数据信息,用于执行数据仓库开发和管理任务。
数据源信息:转换描述(从操作数据库到数据仓库的映射方法,以及转换数据的算法)目标数据的仓库对象和数据结构、数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容数据清洗和数据增加的规则数据映射操作汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚合、汇总和预定义的查询与报告访问权限,备份历史,存档历史,信息传输历史,数据获取历史,数据访问,等等②业务元数据业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。
业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法及公式和报表的信息。
主要包括:企业概念模型:这是业务元数据所应提供的重要的信息,它表示企业数据模型的高层信息、整个企业的业务概念和相互关系。
以这个企业模型为基础,不懂数据库技术和SQL语句的业务人员对数据仓库中的数据也能做到心中有数。
多维数据模型:这是企业概念模型的重要组成部分,它告诉业务分析人员在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。
这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式。
业务概念模型和物理数据之间的依赖关系:以上提到的业务元数据只是表示出了数据的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据库中的表、字段、维、层次等之间的对应关系也应该在元数据知识库中有所体现。
支持面向业务概念的浏览、导航支持动态立即查询(Ad hoc)数据挖掘支持数据仓库的其它信息,例如对于信息传输系统包括预约信息、调度信息、传送目标的详细描述、商业查询对象,等③数据仓库操作型信息例如,数据历史(快照,版本),拥有权,抽取的审计轨迹,数据用法(4)从来源的角度分类工具产生的元数据源提供的元数据企业模型系统导入的元数据特定的用户产生的元数据(5)从元数据的目的角度分类一般可以通过一种更粗的方法来区分元数据:用于信息的元数据用于控制的元数据(6)按照产生使用的时间分类根据获取或生成的时间,可以分为:设计时收集的元数据构建时生成的元数据l 运行时生成的元数据根据使用的时间,可以分为:l 设计时使用的元数据l 构建使使用的元数据l 运行时使用的元数据5 元数据的作用从元数据的类型和作用来看,元数据实际上是要解决何人在何时、何地为了什么原因及怎样使用数据仓库的问题。
再具体化一点,元数据在数据仓库管理员的眼中是数据仓库中的包含了所有内容和过程的完整知识库和文档,而在最终用户(即数据分析人员)眼中,元数据则是数据仓库的信息地图。
数据分析员为了能有效地使用数据仓库环境,往往需要元数据的帮助。
尤其是在数据分析员进行信息分析处理时,他们首先需要去查看元数据。
元数据还涉及到数据从操作型环境到数据仓库环境中的映射。
当数据从操作型环境进入数据仓库环境时,数据要经历一系列重大的转变,包含了数据的转化、过滤、汇总和结构改变等过程。
数据仓库的元数据要能够及时跟踪这些转变,当数据分析员需要就数据的变化从数据仓库环境追溯到操作型环境中时,就要利用元数据来追踪这种转变。
另外,由于数据仓库中的数据会存在很长一段时间,其间数据仓库往往可能会改变数据的结构。
随着时间的流逝来跟踪数据结构的变化,是元数据另一个常见的使用功能。
元数据描述了数据的结构、内容、链和索引等项内容。
在传统的数据库中,元数据是对数据库中各个对象的描述,数据库中的数据字典就是一种元数据。
在关系数据库中,这种描述就是对数据库、表、列、观点和其他对象的定义;但在数据仓库中,元数据定义了数据仓库中的许多对象——表、列、查询、商业规则及数据仓库内部的数据转移。
元数据是数据仓库的重要构件,是数据仓库的指示图。
元数据在数据源抽取、数据仓库开发、商务分析、数据仓库服务和数据求精与重构工程等过程都有重要的作用。
因此,设计一个描述能力强并且内容完善的元数据,对数据仓库进行有效地开发和管理具有决定性意义。
更进一步,元数据是保障从各业务系统间数据整合工作顺利完成的重要手段和依据,是保证数据质量的关键,有效的元数据管理可以将不断变化的需求平滑地反映到数据仓库里来。
在一个数据整合与BI应用项目中,保证元数据的统一、有效和规范的管理是整个项目成功的关键所在。
那么在数据整合与BI应用项目过程不同阶段中的元数据到底该如何进行有效管理,其管理方式和途径都有哪些呢?在在数据整合与BI应用项目过程的不同阶段(如需求分析阶段、模型建立阶段、ETL阶段、数据挖掘和前端展现阶段),其存在形式或者管理的侧重点又有什么不同?元数据的管理应当是在数据整合与BI应用项目过程中要全程关注的焦点和核心;根据以往的经验,总感觉实际的项目中,虽然设计者在起初也会指出这一环节的重要性,不过真正的开发和实施者好像对这一核心环节并未没有形成清醒的认识,或者说没有科学的办法和工具来进行管理,只是以一些文件的形式对元数据进行记录,或许这也是在数据整合与BI应用项目在中国处于初级阶段的一个表现吧? ETL工具里面是自带的有元数据管理工具或者说一套办法,像一些工具里提供的repository就是便于ETL 过程中元数据的管理的;不过在一个数据仓库项目里这部分只是一个阶段的元数据管理,并且也仅适用于这个阶段,事实情况是元数据时常要被应用在整个项目的每个阶段,所以,那么有没有可能把整个过程中每个阶段的元数据加以集中存储并有效管理?只有好的工具或者解决办法,才能便于用户理解和接受元数据,从而让用户接受承认数据仓库里数据质量的可靠,才会更快速地响应用户不断变化的需求,同时也便于项目的整体维护。