数据仓库的数据建模和元数据

合集下载

数据仓库主题设计及元数据设计

数据仓库主题设计及元数据设计

数据仓库主题设计及元数据设计3.4 明确仓库的对象:主题和元数据大多数商务数据都是多维的,所以采集和表示三维以上的数据不能完全借用业务数据库设计中的方法,必须有一种新的方法来表达多维数据。

现阶段流行的有2种方法,一是面向对象方法,即把商务数据抽象为对象,再使用Rational Rose等对象建模工具来表达这些对象;另一种方法就是使用信息包图,这是一种简便且高效的方法,在项目中使用的普及率很高。

信息包图实际上是自上而下数据建模方法的一个很好的工具。

自上而下的建模技术从用户的观点开始设计。

用户的观点是通过与用户交流得到的,可以进一步明确用户的信息需求。

自上而下的方法几乎考虑了所有的信息源,以及这些信息源影响商务活动的方式,它使得设计者可以围绕着一个通常的主题或商务领域进行信息包的开发。

下面就详述如何通过信息打包技术建立信息包图,从而确定数据仓库中的主题和元数据。

3.4.1 信息打包技术1.信息打包技术的基本使用信息打包法是一种自顶向下的设计方法,它从管理者的角度出发把焦点集中在企业的一个或几个主题上,着重分析主题所涉及数据的多维特性。

此法具体分4个阶段:(1)采用自顶向下的方法对商务数据的多维特性进行分析,用信息打包图表示维度和类别之间的传递和映射关系,建立概念模型。

其中类别是按一定的标准对一个维度的分类划分,如产品可按颜色、质地、产地和销地等不同标准分类。

(2)对企业的大量的指标实体数据进行筛选,提取出可利用的中心指标。

其中指标也称为关键性能指标和关键商务测量的值,是在维度空间衡量商务信息的一种方法。

比如产品收入金额、原材料消耗、补充新雇员或设备运行时间等都可以叫做指标。

(3)在信息打包图的基础上构造星形图,对其中的详细类别实体进行分析,进一步扩展为雪花图,建立逻辑模型。

(4)在星形图和雪花图的基础上,根据所定义数据标准,通过对实体、键标、非键标、数据容量、更新频率和实体特征进行定义,完成物理数据模型的设计。

数据仓库元数据管理

数据仓库元数据管理

数据仓库元数据管理数据仓库元数据管理是指对数据仓库中的元数据进行管理和维护的过程。

元数据是描述数据的数据,它提供了关于数据的定义、结构、属性、关系以及数据的来源和用途等信息。

数据仓库中的元数据包括数据表、字段、索引、视图、存储过程等对象的描述信息,以及数据质量、数据血统、数据变化等相关信息。

数据仓库元数据管理的目标是保证数据仓库中的元数据准确、完整、一致和可靠。

通过对元数据的管理,可以提高数据仓库的可维护性、可扩展性和可重用性,进而提高数据仓库的价值和效用。

数据仓库元数据管理的主要任务包括元数据收集、元数据存储、元数据维护和元数据使用等。

1. 元数据收集:- 根据数据仓库的设计和需求,收集相关的元数据信息。

- 可以通过手工录入、自动抽取、数据字典等方式进行元数据的收集。

- 收集的元数据包括数据表、字段、索引、视图、存储过程等对象的描述信息,以及数据质量、数据血统、数据变化等相关信息。

2. 元数据存储:- 将收集到的元数据存储到元数据仓库中,以便后续的管理和使用。

- 元数据仓库可以使用关系型数据库、NoSQL数据库、文件系统等进行存储。

- 存储的元数据需要按照一定的结构进行组织和管理,以方便后续的检索和使用。

3. 元数据维护:- 对元数据进行定期的维护和更新,以保证其准确、完整、一致和可靠。

- 可以通过手工维护、自动抽取、数据字典同步等方式进行元数据的维护。

- 维护的内容包括元数据的新增、修改、删除等操作,以及元数据的版本管理和权限管理等。

4. 元数据使用:- 利用元数据提供的信息,支持数据仓库的各项管理和运维工作。

- 可以通过元数据进行数据质量管理、数据血统分析、数据变化跟踪等工作。

- 元数据还可以支持数据仓库的数据集成、数据查询、数据分析等应用。

数据仓库元数据管理的实施需要借助相应的工具和技术。

常用的工具包括元数据管理工具、数据建模工具、数据字典工具等。

常用的技术包括数据抽取、数据转换、数据加载(ETL)技术、数据建模技术、数据质量管理技术等。

数据仓库体系结构

数据仓库体系结构

数据仓库体系结构数据仓库是一个用于集成、管理和分析大量数据的系统。

在数据仓库中,数据从不同的源系统中提取、转换和加载,然后存储在一个统一的、可供分析的数据存储中。

为了实现这一目标,数据仓库需要一个合理的体系结构来支持数据的整合、存储和查询等功能。

数据仓库体系结构由以下几个主要组成部分组成:1. 数据源:数据源是数据仓库的基础,它可以是内部系统的数据库、外部数据提供商的数据文件、Web上的数据源等。

数据源可以包括结构化数据(如关系型数据库中的表)和非结构化数据(如文本文件、图像文件等)。

2. 数据提取:数据提取是将数据从源系统中抽取出来并转换为数据仓库可以使用的格式的过程。

数据提取可以通过批处理、定时任务或实时流式传输等方式进行。

3. 数据转换:数据转换是将提取的数据进行清洗、集成和转换的过程。

在这个阶段,数据被清理、去重、标准化和转换为统一的格式和结构,以便在数据仓库中进行分析。

4. 数据加载:数据加载是将转换后的数据加载到数据仓库中的过程。

数据加载可以分为全量加载和增量加载两种方式,全量加载是将所有数据加载到数据仓库中,而增量加载是只加载发生变化的数据。

5. 数据存储:数据存储是数据仓库中数据的物理存储方式。

常用的数据存储方式包括关系型数据库、多维数据库和列式数据库等。

数据存储的选择应根据数据的特点、查询需求和性能要求等因素进行。

6. 元数据管理:元数据是描述数据仓库中数据的数据,它包括数据的结构、定义、来源、质量等信息。

元数据管理是对元数据进行收集、存储、管理和查询的过程,它是数据仓库管理的重要组成部分。

7. 数据访问:数据访问是用户通过查询、报表和分析等方式对数据仓库中的数据进行访问和分析的过程。

数据仓库可以提供多种数据访问方式,包括在线分析处理(OLAP)、数据挖掘和数据可视化等。

8. 安全性和权限管理:安全性和权限管理是保护数据仓库中数据安全和控制用户访问权限的过程。

数据仓库应具备完善的安全措施,包括身份认证、权限控制、数据加密和审计等功能。

数据仓库的设计与构建研究

数据仓库的设计与构建研究

数据仓库的设计与构建研究随着互联网技术的发展,数据量的快速积累和每天不断增长的数据趋势,数据管理变成了日益复杂的任务。

数据仓库便应运而生,成为了企业管理和数据分析的必然选择。

在企业的决策和战略制定中,数据仓库所扮演的角色越来越重要,也越来越值得重视。

一、数据仓库的概念数据仓库是指将企业各种分散的数据源汇集起来,进行预处理、汇总、加工、再分析处理等操作后进行存储的一个系统。

其目的是为了利用大数据环境下的企业数据,将其变成决策支持的信息,从而为企业决策提供可靠的数据支撑。

数据仓库结构主要包含以下几个重要组成部分:1. 数据源数据源是数据仓库的来源,包括操作性数据库、文件系统、网络、接口等等。

通过提取不同来源的数据,并将其汇总到仓库中进行统一存储、管理和维护,实现数据的集成化管理。

2. 数据加工处理数据加工处理是数据仓库中最为复杂的一部分,包括数据清洗、数据挖掘、数据转换、数据整合等等。

这一过程要求数据仓库管理员具有一定的数据处理能力,并且需要考虑多种因素的影响,例如数据量、类型、格式、质量等等。

3. 元数据元数据是指描述数据仓库的数据,包括数据类型、数据来源、数据转换规则、质量检验规则等等。

元数据的作用是对数据进行管理、维护、分发和使用,为数据共享和商业决策提供支持。

4. 多维分析多维分析是指对数据仓库中的数据进行分析、整理和处理,以便更好地展现数据的特征和规律。

多维分析可通过OLAP(联机分析处理)的方式对数据进行分析,再根据分析结果制定企业针对性的业务决策。

二、数据仓库的设计思路数据仓库的设计与构建需要全面考虑企业的业务需求和数据特点,通过规范化、标准化的方式来进行设计,使其能够满足企业需求,并为企业的决策提供支持。

1. 初步分析通过初步分析了解企业的业务场景和数据来源,以及研究需求和决策支持信息的种类、格式等,以便进一步确定数据仓库的设计。

2. 数据建模数据建模是数据仓库的核心,它需要根据不同的业务需求和对数据的认识,对数据进行分类、构建数据模型,以便完成数据转化的目标。

数据仓库元数据管理

数据仓库元数据管理

数据仓库元数据管理数据仓库元数据管理是指对数据仓库中的元数据进行有效管理和维护,以确保数据仓库的可靠性和准确性。

元数据是描述数据的数据,它包括数据的定义、结构、关系、来源、用途等信息。

数据仓库中的元数据管理是数据仓库管理的重要组成部分,它对于数据仓库的建设和运营具有重要意义。

一、元数据管理的意义1. 提高数据仓库的可理解性和可维护性:通过对元数据的管理,可以使数据仓库的结构和内容更加清晰和易于理解,从而提高数据仓库的可维护性和可理解性。

2. 提高数据仓库的数据质量:元数据管理可以对数据仓库中的数据进行监控和评估,及时发现数据质量问题,并采取相应的措施进行修复,从而提高数据仓库的数据质量。

3. 提高数据仓库的数据一致性:通过元数据管理,可以对数据仓库中的数据进行统一的定义和管理,确保数据仓库中的数据一致性,避免数据冗余和不一致的问题。

4. 提高数据仓库的数据可追溯性:元数据管理可以记录数据仓库中数据的来源、变更历史等信息,使数据的变更过程可追溯,方便数据仓库的审计和管理。

二、元数据管理的内容1. 元数据定义和标准化:对数据仓库中的元数据进行定义和标准化,明确元数据的含义和格式,确保元数据的准确性和一致性。

2. 元数据收集和录入:通过各种手段和工具,收集数据仓库中的元数据,并将其录入到元数据管理系统中,建立元数据的库存。

3. 元数据的分类和组织:对元数据进行分类和组织,建立元数据的层次结构和关系,方便元数据的检索和使用。

4. 元数据的维护和更新:定期对元数据进行维护和更新,及时反映数据仓库中数据的变化和更新。

5. 元数据的查询和检索:提供元数据查询和检索的功能,方便用户查找和使用数据仓库中的元数据。

6. 元数据的安全管理:对元数据进行安全管理,设置权限和访问控制,保护元数据的安全性和机密性。

7. 元数据的版本管理:对元数据进行版本管理,记录元数据的变更历史,方便进行数据仓库的版本控制和管理。

三、元数据管理的流程1. 元数据收集和录入流程:(1)确定元数据的收集范围和目标。

元数据和元模型

元数据和元模型

元数据和元模型1. 介绍在计算机科学和信息管理领域,元数据和元模型是两个重要的概念。

元数据指的是描述数据的数据,可以理解为数据的“数据”。

元模型则是对数据模型进行抽象的模型,定义了数据模型的特征和规则。

本文将详细探讨元数据和元模型的定义、作用、关系以及在实际应用中的应用案例。

2. 元数据2.1 定义元数据是用来描述数据的数据,它包含了对数据的定义、结构、格式以及使用方式等信息。

它从不同的维度描述了数据,并提供了查找、管理和使用数据的元信息。

元数据可以理解为对数据进行注释和解释的资源,它为数据的理解和使用提供了重要的帮助。

2.2 作用•数据管理和维护: 元数据记录了数据的来源、归属、更新时间等信息,使得数据管理和维护更加高效。

•数据查询和分析: 元数据描述了数据的结构和内容,可以帮助用户快速定位和查询感兴趣的数据,并进行分析和挖掘。

•数据共享和集成: 元数据提供了对数据的描述和定义,可以帮助不同系统之间的数据共享和集成,使得数据流动更加顺畅。

•数据安全和隐私: 元数据可以对数据进行分类、分级和权限管理,保护数据的安全和隐私。

2.3 元数据类型根据元数据的来源和使用范围,可以将元数据分为不同类型,包括:1.技术元数据: 描述了数据的物理特性和技术规范,如数据的存储格式、编码方式、备份策略等。

2.业务元数据: 描述了数据的业务含义和相关规则,如数据的名称、定义、关联关系等。

3.描述性元数据: 描述了数据的结构、格式和内容,如数据库表的字段名、类型、长度等。

4.结构化元数据: 描述了数据的组织结构和模式,如数据模型、数据字典等。

5.上下文元数据: 描述了数据的使用环境和上下文信息,如数据的质量、来源、权限等。

3. 元模型3.1 定义元模型是对数据模型进行抽象的模型,用来描述和定义数据模型的特征和规则。

它是一种元数据的抽象表示,通过元模型可以对数据模型的各个组成部分进行统一的描述和管理。

3.2 作用•数据模型的定义和验证: 元模型定义了数据模型的结构和规则,在设计和开发阶段可以对数据模型进行验证和检查。

数据仓库中元数据的理解

数据仓库中元数据的理解

数据仓库中元数据的理解WarrenQQ: 55150560 在讨论组里看到很多同行,朋友和DW爱好者们讨论元数据,这里本人就元数据的理解和大家分享一下,如有偏差欢迎批评指正。

元数据——“关于数据的数据”这个概念大家都知道了,但是如何理解这个关于数据的数据呢?从概念上我们可以看出,当我们说元数据时,必须有个参照,就是“关于的那个数据”,即这个概念里面有两个“数据”,我们不能孤立地说某个数据是元数据,只能说某个数据(Data A)是另外某个数据的元数据(Data B),例如,我们说数据库中字段信息是元数据,这是不准确的,应该说字段信息(Data A)是表中数据(Data B)的元数据。

那么字段信息是怎么关于Data B的数据呢,字段信息描述了表中实际数据的数据类型,用途等,这些信息就是关于数据的数据。

如果脱离了表中数据这个参照对象,字段信息就不能被说成元数据了。

比如从数据结构的设计角度来讲,字段信息就是一种数据结构。

同一种数据,是否为元数据,取决于它应用的场景。

比如我们在ETL设计过程中,设计一个参数表,用来存放ETL过程中所用到的参数,如果单纯地从这张表里的数据分析,我们很难说这个表的数据是元数据,但是如果在ETL处理过程这个场景下,我们可以非常充分地说这个表里的数据是ETL处理的元数据,ETL处理过程中需要这个表的数据为其提供支持,这个数据就是关于ETL处理的元数据,它不是ETL处理的对象,而是控制ETL处理过程的技术元数据。

元数据在数据仓库过程中十分重要,数据仓库所提供的“统一的企业级的信息视图”能力,主要就是靠元数据来体现。

元数据贯穿整个数据仓库项目,所有数据处理环节必须最大化地参照元数据,这样才能保证数据仓库项目不会因为不断增长的数据多样性而失去秩序,特别是在现行应用的异构性与分布性越来越普遍的情况下,统一的元数据就愈发重要了。

“信息孤岛”曾经是很多企业对其应用现状的一种抱怨和概括,而合理的元数据则会有效地描绘出信息的关联性,从而大大降低数据仓库后期的维护和运行成本。

数据仓库元数据管理

数据仓库元数据管理

数据仓库元数据管理数据仓库元数据管理是指对数据仓库中的元数据进行有效管理和维护的过程。

元数据是描述数据的数据,它包含了数据的定义、结构、属性、关系以及数据之间的联系等信息。

通过对数据仓库元数据的管理,可以提高数据仓库的可维护性、可扩展性和可重用性,同时也能够提高数据仓库的查询效率和数据质量。

一、元数据管理的重要性1. 提高数据仓库的可维护性:通过对元数据的管理,可以清晰地了解数据仓库中各个数据表的含义、结构和关系,从而更好地进行数据仓库的维护和更新工作。

2. 提高数据仓库的可扩展性:元数据管理可以帮助我们了解数据仓库中的数据模型和数据结构,从而更好地进行数据仓库的扩展和升级。

3. 提高数据仓库的可重用性:通过对元数据的管理,可以清晰地了解数据仓库中的数据定义和数据结构,从而更好地进行数据仓库的重用和共享。

4. 提高数据仓库的查询效率:通过对元数据的管理,可以清晰地了解数据仓库中的数据模型和数据结构,从而更好地进行查询优化和索引设计,提高数据仓库的查询效率。

5. 提高数据仓库的数据质量:通过对元数据的管理,可以清晰地了解数据仓库中的数据定义和数据结构,从而更好地进行数据质量的监控和管理,提高数据仓库的数据质量。

二、元数据管理的主要内容1. 元数据定义和分类:对数据仓库中的元数据进行定义和分类,建立元数据的标准和规范,确保元数据的一致性和准确性。

2. 元数据采集和录入:通过采集工具和手工录入的方式,将数据仓库中的元数据进行采集和录入,包括数据表的定义、字段的定义、数据类型、数据长度、数据格式等信息。

3. 元数据存储和管理:将采集和录入的元数据存储到元数据仓库中,并进行管理和维护,包括元数据的更新、删除、备份和恢复等操作。

4. 元数据查询和检索:通过元数据查询和检索工具,可以根据需要查询和检索数据仓库中的元数据,包括数据表的定义、字段的定义、数据类型、数据长度、数据格式等信息。

5. 元数据共享和发布:将元数据共享给数据仓库的用户和开发人员,使其能够更好地了解数据仓库中的数据定义和数据结构,从而更好地进行数据仓库的开发和使用工作。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

7.6元数据在数据仓库中的重要性
两个例子说明重要性
1、图书馆中的卡片目录指出了图书馆内书的内容 简介和位置,元数据与此非常相似,它能够指出 数据仓库内各种信息的位置和含义。 2、储存商品的大型货物仓库,要买东西的客户必 须从仓库目录表上才能知道当前有什么商品,目 录单提供所购商品的分类号及其价格,然后进行 选择
属性元数据的一个范例
属性名称 可选名称: 定义: 创建日期: 上次更新日期: 关键字指示: 数据来源: 转移/转换信息: 概括/推导算法: 默认值: 多个运作资源:
客户名 账户名,顾客名 客户名是个人或企业所用的正式名称 1992年3月30日 1995年4月5日 无 汇票入口系统,客户文件属性是账户名 从20字符至35字符 无 无 无
基于商业事件的抽取调度
抽取调度(extract schedule)是指数据抽取的时间 安排,以及什么时间进行从元数据到数据仓库的抽 取工作。抽取调度的合理与否对整个数据仓库的有 效正常运行影响很大
基于商业事件的抽取调度
基于商业事件抽取调度的元数据要定义的内 容有以下6点 (1) 事件。 (2) 时间依赖 (3) 事件日 (4) 抽取调度 (5) 抽取日 (6) 时间戳日志
描述数据同步需求
对数据质量负责的元数据要定义的内容有以下4点 (1) 目标质量特征。 (2) 实际质量特征 (3) 用户描述的VV&C (4) 用户功能
数据仓库信息的目录
数据仓库管理者和设计者在 元数据存在形式上的管理具 有独立的需要,
信息目录建立
假设基础
商业最终用户希望在商业层 次上查看并理解元数据 商业用户需要某种形式的导 航工具,以便能够查找数据 仓库
以上元数据间关系图
定义数据抽取和转换
从目标数据库抽取数据到目标数据转移主要涉及以 下两个问题 (1) 抽取工作间的复杂关系:① 获取② 过滤③ 验证⑦ 存档⑤ 综合⑥ 装载④ 融合
定义数据抽取和转换
(2) 元数据与目标数据之间的映射是一种复杂的多对多关 系。 ① 抽取工作 描述每个抽取工作,并为其标识源系统 ② 抽取工作步骤 提供过滤机制,进行记录筛选 ③ 抽取表映射骤 建立输入文件/表和输出文件/表之间的关联 ④ 抽取域映射 ⑤ 记录筛选规则 定义抽取工作中的步骤及其控制语言
确认数据质量 关系之目的 同步化与刷新 集成
数据仓库各块所创建和存储的不同类型的元数据
元数据在对多个来源的数据集成的过程中可能遇到 的6个难点:
(1) 资源领域的确定 (2) 跟踪历史数据结构变化的过程 (3) 为不打算输入或忘记输入值的数据字段选择合适的默 认值 (4) 解决编码方案的不一致性。 (5) 属性到属性的映射 (6) 属性转换
实体名称: 客户 可选名称: 顾客,账户 定义: 客户就是从公司中至少购买一次商品或服务的人或企业 创建日期: 1992年1月15日 上次更新日期: 1995年4月5日 关键字: 客户标识,客户定位 更新周期: 每月抽取 归档同期: 6个月后归档 数据服务员: 高建秋 数据业主: 张英雄 访问模式: 上次访问日期为1995年5月30日
数据求精与重构工程
数据求精的作用 净 化 资 源 中 的 数 据 增 加 资 源 戳 和 时 间 戳 将数 据转 换为 符合 数据 仓库 的数 据格 式 预算 概括 和衍 生数 据的 值 保 证 数 据 质 量
重构工程块要完成如下4个方面工作
(1) 集成与分割 (2) 概括与聚集 (3) 预算与推导 (4) 转换与再映像
雪花模型举例
星状模型
混合模型
雪花模型
在混合模型中,只有最大的维表才进行标 准化,这些表一般包含一列列完全标准化 的(重复的)数据
7.5元数据的概念 其定义为“关于数据的数据” 在数据库中,元数据是对数据库各对 象的描述 在关系数据库中,这种描述就是对表、 列、数据库、观点和其他对象的定义
元数据元素的一个范例
7.7元数据的管理功能
数据仓库内容的描述 定义数据抽取和转换 基于商业事件的抽取调度 描述数据同步需求 衡量数据质量指标 数据仓库信息的目录 信息目录的现状 元数据的数据字典和纲目库
数据仓库内容的描述
为了能够描述数据仓库中的数据及数据间各种复杂 关系,元数据要定义以下6个方面的内容 (1) I/O对象 (2) 关系 (3) 关系成员 (4) 关系关键字 (5) 域分配 (6) 数据元素
元数据的商品化
客户 销售者
直接购买
销售者 客户
信息目录买
7.2数据仓库的数据组织
数据仓库的数据组织形式: 数据仓库的数据组织形式: 虚拟存储方式 简单、花费少、使用灵活,数据 没冗余是才容易定义 基于关系表的存储方式 通用性差,很难维护 多维数据库存储方式 采用多维数据结构文件进行存储, 并有维索引及相应的元数据管理文件与数据相对应
多维数据库的组织方式
ห้องสมุดไป่ตู้
当OLAP作为独立使用方式时,其数据组织与数 据仓库的组织方式相同。 当OLAP与数据仓库结合时,OLAP的数据来源 于数据仓库
7.3数据源建模
• 技术:数据源建模一般采用传统的数据建模技术 , 实体—关系模型 • 工具:一般用CASE工具 ,其特点是可提供从已 有数据库中抽取模型的抽取能力,所抽取的模型 代表已有数据库的精确的物理模型
第7章数据仓库的数据建模和元数据 章数据仓库的数据建模和元数据
7.1数据仓库的数据概念模型
前端工具
数据概念模型
数据存储的设计
OLAP的查询引擎
数据仓库概念模型示意图
多维模型产生的OLAP分析方法 多维模型产生的OLAP分析方法 :
旋转(pivoting) 上钻和下钻(roll up or drill down) 切片(slice and dice)
元数据在数据仓库开发期间的重要性
在数据仓库开发期间元数据所起的作用是非常重要的,这时元 数据主要用于以下构件: (1)数据源抽取, (2)数据源转换, (3)数据源净化, (4)数据源概括与聚集, (5)数据刷新, (6)数据仓库中的数据库设计, (7)查询与报表设计
元数据的一个重要方面,是在抽取、求精和重构工程过 程中时刻保持从源数据到数据仓库之间的映射关系
以一个公司为例的多为数据模型示意图 稠密维(dense dimensions) 稀疏维(sparse dimensions)
稠密维示意图如下
在上面的多维模型中时间、项目和统计是稠密维
稠密维及其示意图 三维产品 销售方式 销售地区 稀疏维
OLAP的数据组织
其基本思想是,企业的决策者应灵活地操纵企业的数据, 以多维的形式从多维的角度来观察企业的变化。
7.4数据仓库建模 7.4数据仓库建模
星状模型 雪花模型 综合模型
星状模型 是一种由一点向外辐射的建模范例,中间 有一单一对象沿半径向外连接到多个对象,如下图
星状模型举例 事实表中的每一元组包含一些指针 (是外键,主键在其他表中),每个指针指向一张维 表,这就构成了数据库的多维联系。
雪花模型 是对星状模型的扩展,每一个点都沿半径 向外连接到多个点。雪花模型范例如下
7.8元数据的标准化和商品化
元数据的标准化 元数据的商品化
元数据的标准化
随着数据仓库的不断发展,元数据标准化一直进 展缓慢,其难点主要有以下两点: (1) 元数据管理。元数据管理的主要目标是使 企业内部元数据的定义标准化 (2) 元数据描述与分类。描述与分类方案的主 要目标是根据技术将元数据分成不同的类
数据仓库信息的目录
各种信息目录及导航工具
元数据的数据字典和纲目库
在大多数单位中,一般由以下系统支持元 数据管理: 数据字典,数据纲目库和关 系数据库系统的目录表和单独管理的词汇 表
元数据的数据字典和纲目库
上述系统至少包含以下7个部分 (1) 将元数据组织为易于理解的分类方案的灵活方法 (2) 效果分析和查找能力的有效范围 (3) 将设计和开发元数据与运作元数据分隔开的、各自独立 的功能 (4) 反映修改历史的元数据版本信息 (5) 用于维护元数据定义和描述的工具 (6) 将数据命名和数据标准约定用于描述相似元数据的工具
相关文档
最新文档