数据仓库系统

合集下载

数据仓库体系结构

数据仓库体系结构

数据仓库体系结构数据仓库是一个用于集成、管理和分析大量数据的系统。

在数据仓库中,数据从不同的源系统中提取、转换和加载,然后存储在一个统一的、可供分析的数据存储中。

为了实现这一目标,数据仓库需要一个合理的体系结构来支持数据的整合、存储和查询等功能。

数据仓库体系结构由以下几个主要组成部分组成:1. 数据源:数据源是数据仓库的基础,它可以是内部系统的数据库、外部数据提供商的数据文件、Web上的数据源等。

数据源可以包括结构化数据(如关系型数据库中的表)和非结构化数据(如文本文件、图像文件等)。

2. 数据提取:数据提取是将数据从源系统中抽取出来并转换为数据仓库可以使用的格式的过程。

数据提取可以通过批处理、定时任务或实时流式传输等方式进行。

3. 数据转换:数据转换是将提取的数据进行清洗、集成和转换的过程。

在这个阶段,数据被清理、去重、标准化和转换为统一的格式和结构,以便在数据仓库中进行分析。

4. 数据加载:数据加载是将转换后的数据加载到数据仓库中的过程。

数据加载可以分为全量加载和增量加载两种方式,全量加载是将所有数据加载到数据仓库中,而增量加载是只加载发生变化的数据。

5. 数据存储:数据存储是数据仓库中数据的物理存储方式。

常用的数据存储方式包括关系型数据库、多维数据库和列式数据库等。

数据存储的选择应根据数据的特点、查询需求和性能要求等因素进行。

6. 元数据管理:元数据是描述数据仓库中数据的数据,它包括数据的结构、定义、来源、质量等信息。

元数据管理是对元数据进行收集、存储、管理和查询的过程,它是数据仓库管理的重要组成部分。

7. 数据访问:数据访问是用户通过查询、报表和分析等方式对数据仓库中的数据进行访问和分析的过程。

数据仓库可以提供多种数据访问方式,包括在线分析处理(OLAP)、数据挖掘和数据可视化等。

8. 安全性和权限管理:安全性和权限管理是保护数据仓库中数据安全和控制用户访问权限的过程。

数据仓库应具备完善的安全措施,包括身份认证、权限控制、数据加密和审计等功能。

数据仓库元数据管理系统

数据仓库元数据管理系统

数据仓库元数据管理系统引言概述数据仓库元数据管理系统是指用于管理和维护数据仓库中的元数据信息的系统。

元数据是描述数据的数据,是数据仓库中非常重要的组成部分。

数据仓库元数据管理系统可以帮助组织管理者更好地理解、维护和利用数据仓库中的数据,提高数据仓库的效率和质量。

一、元数据的定义和重要性1.1 元数据的定义:元数据是描述数据的数据,包括数据的结构、属性、关系、来源等信息。

1.2 元数据的重要性:元数据是数据仓库中的灵魂,它可以帮助用户更好地理解数据、发现数据间的关系、提高数据的可信度和可用性。

1.3 元数据的分类:元数据可以分为技术元数据和业务元数据,技术元数据包括数据结构、数据源、数据质量等信息,业务元数据包括数据的业务含义、数据的关系等信息。

二、数据仓库元数据管理系统的功能2.1 元数据采集:数据仓库元数据管理系统可以自动采集数据仓库中的元数据信息,包括数据表结构、数据源信息等。

2.2 元数据存储:数据仓库元数据管理系统可以将采集到的元数据信息进行存储和管理,方便用户查询和分析。

2.3 元数据维护:数据仓库元数据管理系统可以帮助用户对元数据进行维护和更新,保证元数据的准确性和完整性。

三、数据仓库元数据管理系统的优势3.1 提高数据质量:通过管理和维护元数据信息,可以提高数据仓库中数据的质量,减少数据错误和冗余。

3.2 提高数据查询效率:数据仓库元数据管理系统可以帮助用户更快速地查询和分析数据,提高数据查询的效率。

3.3 促进数据共享和协作:数据仓库元数据管理系统可以促进不同部门之间的数据共享和协作,提高组织的整体效率和竞争力。

四、数据仓库元数据管理系统的应用场景4.1 企业数据管理:数据仓库元数据管理系统可以帮助企业更好地管理和利用数据,提高数据的价值和效益。

4.2 数据分析和挖掘:数据仓库元数据管理系统可以为数据分析和挖掘提供可靠的数据支持,帮助用户更好地发现数据中的规律和趋势。

4.3 决策支持:数据仓库元数据管理系统可以为组织管理者提供准确、及时的数据支持,帮助他们做出更明智的决策。

数据仓库的概念和体系结构概述

数据仓库的概念和体系结构概述

数据仓库的概念和体系结构概述数据仓库是指将企业各个部门和业务系统产生的大量数据进行整合、清洗、集成和存储,以满足企业决策分析和业务需求的信息系统。

数据仓库的设计和建设需要考虑到数据的整合、一致性、稳定性、易用性和安全性等方面的需求。

它是一个面向主题的、集成的、相对稳定的、可供企业管理者和决策者使用的数据集合。

1.数据源层:数据仓库的数据源可以来自企业内部的各个部门和业务系统,也可以来自外部的合作伙伴和第三方数据提供商。

数据源的选择和集成是数据仓库建设的关键环节,需要确定数据的提取方式、频率、粒度和格式等。

2.数据提取层:数据提取层负责从各个数据源中提取数据,并进行初步的清洗和转换。

数据提取可以通过批量处理、定时任务或实时流数据处理等方式进行。

在数据提取过程中,需要解决数据一致性、完整性和准确性等问题。

3. 数据集成层:数据集成层是将从各个数据源提取的数据进行整合和合并的地方。

这里的数据整合包括数据清洗、数据转换和数据聚合等操作。

数据集成层可以使用ETL(Extract、Transform、Load)工具进行数据的清洗和转换。

在数据集成层,还需要对数据进行一致性校验和冲突解决。

4.数据存储层:数据存储层是数据仓库最核心的组成部分,它负责存储整合后的数据。

数据存储层可以采用关系数据库、数据仓库等不同的技术来进行存储。

在设计数据存储层时,需要考虑到数据的存储结构、索引方式、数据分区和冗余备份等问题。

6. 数据访问层:数据访问层是用户直接访问数据仓库的接口,它提供了用户对数据仓库的查询、分析和报表生成等功能。

数据访问层可以使用OLAP(Online Analytical Processing)工具、报表工具、数据挖掘工具和BI(Business Intelligence)平台等进行实现。

7.数据安全层:数据安全是数据仓库设计和建设过程中必须要考虑的问题之一、数据安全层负责保护数据仓库中的数据不受未经授权的访问、修改和破坏。

数据仓库-系统设计说明书

数据仓库-系统设计说明书

数据仓库-系统设计说明书数据仓库-系统设计说明书1、引言1.1 目的本文档旨在详细描述数据仓库系统的设计方案,包括系统的架构、数据模型、数据抽取、转换和加载(ETL)流程、安全性、可用性等方面的内容。

1.2 范围本文档适用于数据仓库系统的设计过程,涵盖了系统的各个方面,以确保系统的正常运行和可扩展性。

2、系统架构2.1 总体架构本节描述数据仓库系统的总体架构,包括各个组件之间的关系和数据流。

2.2 数据仓库层次结构本节详细描述数据仓库系统的层次结构,包括数据仓库、数据集市、数据源等各个层次的定义和关系。

3、数据模型3.1 维度模型本节描述数据仓库系统所采用的维度模型,包括事实表和维度表的定义和关系。

3.2 元数据管理本节描述数据仓库系统中元数据的定义、管理和使用方式,包括元数据的存储、检索和更新机制。

4、数据抽取、转换和加载(ETL)流程4.1 数据抽取本节描述数据仓库系统中数据抽取的方式和流程,包括抽取数据的来源、频率和目标。

4.2 数据转换本节描述数据仓库系统中数据转换的方式和流程,包括数据清洗、数据集成、数据转换和数据加载的过程。

4.3 数据加载本节描述数据仓库系统中数据加载的方式和流程,包括数据加载的频率、目标和验证机制。

5、安全性5.1 用户权限管理本节描述数据仓库系统中用户权限的管理方式和机制,包括用户的注册、认证和授权过程。

5.2 数据访问控制本节描述数据仓库系统中数据访问控制的方式和机制,包括数据的保护、加密和审计功能。

6、可用性6.1 高可用性架构本节描述数据仓库系统中实现高可用性的架构设计,包括负载均衡、冗余备份和自动故障恢复机制。

6.2 容灾备份方案本节描述数据仓库系统中实现容灾备份的方案,包括数据的备份、复制和恢复策略。

7、本文档涉及附件本文档涉及的附件包括数据仓库系统的系统架构图、数据模型图、ETL流程图等相关文档。

8、本文所涉及的法律名词及注释本文所涉及的法律名词及注释包括但不限于《数据保护法》、《网络安全法》等相关法律和条款。

常见的数据库管理系统介绍

常见的数据库管理系统介绍

常见的数据库管理系统介绍数据库管理系统(Database Management System,简称DBMS)是一种用来管理和组织数据库的软件系统。

它提供了数据的存储、访问、管理和控制的功能,能够有效地管理大量的数据,并且支持多用户并发操作。

在现代信息技术的发展中,数据库管理系统扮演着至关重要的角色。

本文将介绍几种常见的数据库管理系统。

I. 关系型数据库管理系统(Relational Database Management System,简称RDBMS)关系型数据库管理系统是目前应用最广泛的数据库类型。

它采用了关系模型来组织数据,并通过表格的形式来存储实体和属性之间的关系。

关系型数据库具有良好的结构化特性,支持SQL语言进行数据查询和操作。

其中,Oracle、MySQL和SQL Server是使用较为广泛的关系型数据库管理系统。

1. OracleOracle数据库是目前全球最大的关系型数据库管理系统。

它具有强大的性能和稳定性,能够处理大规模的数据操作。

Oracle支持多种数据类型和数据存储引擎,提供了高级的数据安全和管理功能。

它广泛应用于企业级应用和大型数据处理系统。

2. MySQLMySQL是一种开源的关系型数据库管理系统,因其简单易用和高性能而广受欢迎。

MySQL特点是速度快、占用资源少,并支持多种平台。

它广泛应用于各种Web应用程序,如电子商务网站、博客和论坛等。

3. SQL ServerSQL Server是微软公司开发的关系型数据库管理系统,适用于在Windows平台上开发和部署企业级数据库应用。

SQL Server具有良好的可扩展性和安全性,支持大规模数据的处理和分析。

它被广泛应用于大型企业和组织中。

II. 非关系型数据库管理系统(NoSQL)随着大数据和云计算的兴起,非关系型数据库管理系统逐渐受到关注。

非关系型数据库不采用表格形式的存储结构,而是使用键值对、文档、图形等方式来组织数据。

数据仓库 的名词解释

数据仓库 的名词解释

数据仓库的名词解释数据仓库的名词解释数据仓库(Data Warehouse)是指一个用于存储、整合和管理企业各个部门产生的大规模数据的集中式数据库系统。

它主要用于支持企业决策制定、战略规划以及业务分析。

数据仓库的设计和构建需要考虑数据的采集、转换、加载以及存储等多个方面,以确保数据的准确性和可用性。

一、数据仓库的基本概念数据仓库是一个面向主题的、集成的、时间一致的、非易失的数据集合,用于支持企业决策制定和业务分析。

它将来自不同数据源的数据进行抽取、转换和加载,形成一个统一的、易于查询和分析的数据源。

数据仓库的特点:1. 面向主题:数据仓库以主题为中心,将数据按照主题进行组织和存储,以满足不同部门和用户的信息需求。

2. 集成:数据仓库将来自不同数据源的数据进行整合,消除了数据冗余和不一致性。

3. 时间一致性:数据仓库中的数据是按照一致的时间标准进行存储和管理的,以支持历史数据分析和趋势预测。

4. 非易失性:数据仓库中的数据一旦存储,不会轻易被删除或修改,以确保数据的可追溯性和可靠性。

二、数据仓库的架构和组成部分数据仓库的架构通常包括数据采集、数据转换、数据加载、数据存储和数据查询等几个关键组成部分。

1. 数据采集:数据仓库的数据采集涉及到从各个数据源中提取和抽取数据的过程。

这些数据源可以是企业内部的关系型数据库、操作型数据源,也可以是外部的数据源,如Web数据、日志数据等。

数据采集可以通过ETL(Extract、Transform、Load)工具进行,在此过程中可以对数据进行清洗、转换和加工。

2. 数据转换:数据采集后,需要进行数据转换的操作,将采集到的数据进行整合和规范化。

这包括数据清洗、数据集成、数据变换等一系列处理,以确保数据的一致性和质量。

3. 数据加载:数据加载是将经过转换的数据加载到数据仓库中的过程。

数据加载可以是全量加载,也可以是增量加载。

在加载过程中,还可以对数据进行校验和验证,以确保数据的准确性和完整性。

数据仓库的基本架构

数据仓库的基本架构

数据仓库的基本架构数据仓库是一个用于存储和管理大量数据的系统,它可以帮助企业进行数据分析和决策支持。

为了构建一个高效、可靠的数据仓库,需要设计一个合理的基本架构。

本文将详细介绍数据仓库的基本架构,并提供相应的详细内容和数据。

一、引言数据仓库是一个面向主题的、集成的、稳定的、可变的、非易失的数据集合,用于支持企业决策。

它是一个用于存储和管理大量数据的系统,可以从多个来源收集数据,并提供灵活的数据分析和查询功能。

二、数据仓库的基本架构1. 数据源层数据源层是数据仓库的基础,它包括各种数据源,如企业内部的关系型数据库、外部数据提供商、日志文件等。

数据源层负责将数据从不同的来源抽取、转换和加载到数据仓库中。

2. 数据抽取层数据抽取层负责从数据源层中抽取数据,并进行必要的转换和清洗。

它可以根据需要选择不同的数据抽取方法,如全量抽取、增量抽取、增量更新等。

数据抽取层还可以对数据进行质量检查,确保数据的准确性和完整性。

3. 数据存储层数据存储层是数据仓库中最重要的组成部分,它用于存储抽取和转换后的数据。

数据存储层通常采用多维模型,如星型模型或雪花模型,以支持灵活的数据分析和查询。

数据存储层还可以根据需要进行数据分区和索引优化,以提高查询性能。

4. 数据集成层数据集成层负责将不同的数据源中的数据进行集成和整合,以满足用户的查询和分析需求。

数据集成层可以根据需要进行数据清洗、数据转换和数据合并等操作,以确保数据的一致性和完整性。

5. 元数据管理层元数据是描述数据仓库中数据的数据,它包括数据的定义、结构、关系和使用规则等信息。

元数据管理层负责管理和维护数据仓库中的元数据,以支持数据的查询、分析和管理。

6. 数据访问层数据访问层是用户访问数据仓库的接口,它提供了各种查询和分析工具,如OLAP工具、报表工具和数据挖掘工具等。

数据访问层还可以根据用户的权限和角色进行数据安全管理,以保护敏感数据的访问。

7. 数据管理层数据管理层负责数据仓库的运维和管理工作,包括数据备份和恢复、性能监控和优化、用户管理和权限管理等。

空间数据仓库体系结构框架的概念模型

空间数据仓库体系结构框架的概念模型

空间数据仓库体系结构框架的概念模型随着信息技术的不断发展和应用,数据已成为现代社会中最重要的资源之一。

在各行各业中,数据的收集、存储、处理和应用都已成为必不可少的工作。

而在地理信息领域中,空间数据的重要性更是不言而喻。

空间数据是指与地理位置相关的数据,包括地理位置、地物、地形、地貌等信息。

这些数据的收集、管理和应用对于地理信息系统的开发和应用具有重要的作用。

随着空间数据的增多和应用需求的不断增加,空间数据仓库的开发和应用也变得越来越重要。

空间数据仓库是指将空间数据集成到一个统一的数据库中,通过数据仓库技术实现数据的快速查询、分析和应用的一种方式。

空间数据仓库的开发和应用可以帮助用户更加方便地获取和利用空间数据,提高工作效率和数据应用的质量。

在空间数据仓库的开发和应用中,数据仓库体系结构框架的概念模型是一个非常重要的工具。

数据仓库体系结构框架是指数据仓库系统中各个组成部分之间的关系模型,包括数据仓库的数据模型、数据存储、数据访问和数据应用等方面。

数据仓库体系结构框架的概念模型可以帮助用户更好地理解和应用数据仓库系统,提高数据仓库的开发和应用效率。

在空间数据仓库体系结构框架的概念模型中,数据仓库的数据模型是非常重要的一部分。

数据模型是指数据仓库系统中数据的组织和存储方式,包括维度模型和事实模型。

维度模型是指以业务过程和业务实体为基础的数据模型,用于描述数据之间的关系和属性。

事实模型是指描述事实和关系的数据模型,用于描述数据之间的关系和属性。

在空间数据仓库中,数据模型应该以地理位置为基础,将空间数据与其他数据进行关联和分析,实现空间数据的快速查询和分析。

数据存储是数据仓库体系结构框架的概念模型中的另一个重要组成部分。

数据存储是指数据仓库中数据的物理存储方式,包括数据仓库的数据结构、数据仓库的存储介质和数据仓库的备份和恢复等方面。

在空间数据仓库中,数据存储应该采用高效的存储技术,如多维数组、索引和压缩等技术,以提高数据的存储和查询效率。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

研究的背景及意义
然而,一个独立的数据仓库是没有实际意义的,必须将 联机分析处理(On-Line Analysis Processing,OLAP)、 数据挖掘(Data Mining, DM)、决策支持等技术结合起 来,才具有强大的生命力,而数据仓库系统正好就是这 些相关技术的组合。
本课题针对企业集团研究数据仓库系统的若干关键技术, 其意义在于:给出一个完整的企业集团数据仓库系统体 系结构,并且针对每一组成部分提出高效、可用的实现 技术和开发方法,从而使得数据仓库的理论得到发展, 并且为企业集团在数据海洋中迅速发现、集成有用的信 息(知识)提供支持。
数据仓库系统体系结构
面向领域工程的统一视图模型的确立 步骤2 对企业集团数据仓库领域所涉及的数据对象进行抽 象,结合相关领域的信息、编码、术语的标准规范,参 照统一属性库中关于统一属性的语义说明,及统一维库 中的维度说明,定义基于统一属性的统一视图。统一视 图中的属性需要从各个维表或标准属性库中选取。可以 把一致性维度定义为统一视图模型中的“总线”,通过 为特定数据环境定义的一种总线标准接口,就可以将新 的统一视图加入统一视图模型中。生成的统一视图既有 行业领域的通用信息又结合了本企业集团的具体特有信 息。
(6)如何完成企业集团决策支持服务?
2 数据仓库系统基本概念
数据仓库系统定义 统一视图模型基本概念
数据仓库系统体系结构
数据仓库系统相关技术概述
数据仓库系统定义
数据仓库系统定义(用下面的一个组合公式表示): DWS = ETL + DW + OLAP + DM + DS 其中: DWS - Data Warehouse System(数据仓库系统); DW - Data Warehouse(数据仓库);
ETL – Extraction/Tranformation/Loading(抽取/转换/加载);
OLAP – On-Line Analytical Processing(联机分析处理);
DM – Data Mining(数据挖掘); DS- Disicion Support(决策支持)
数据仓库系统体系结构
现美国伊利偌伊大学的JiaweiHan教授提出的三层数据仓 库体系结构 南京航空航天大学皮德常博士提出的面向仓库内数据组织 的数据仓库体系结构 上述一些数据仓库体系结构能够包含数据仓库、联机分析 处理、数据挖掘等相关概念,但并不是真正意义上的数 据仓库系统体系结构,更不是面向集团型的企业,它们 对数据仓库中数据的一致性体现的不够充分,没有站在 领域的角度设计面向整个集团的数据仓库事实表和维表。
国内对数据仓库及其相关技术的研究稍晚,但进展较快。国 内的中科院、清华大学、北京大学 、中国人民大学、北方 交通大学 、国防科技大学、东南大学 、浙江大学 、复旦 大学 、吉林大学 、东北大学 、哈尔滨工业大学 、四川大 学、华中科技大学、上海交通大学 、大连理工大学 、南京 航空航天大学、重庆大学、南京理工大学、山东大学 。
统一视图模型基本概念
定义1. 统一视图(UView)
统一视图是在一个全局数据环境应用中,具有统一属性、统一 度量、统一分类的查询模式,可用三元组描述,即UView ::= <DKS, MAS, VDS>。 DKS是构成该视图的所有统一维关键属性的集合,即DKS= {DKA1, DKA2, ......, DKAm},其中DKAi是抽取的的第i个统一维 中的关键属性; MAS是构成该视图的所有统一度量属性的集合,即MAS= {MA1, MA2, ......, MAk},其中MAi是抽取的第i个统一度量属性; VDS是构成该视图的用来描述该视图的统一属性集合,即VDS = {VDA1, VDA2, ......, VDAn},其中VDAi是抽取的第i个描述统 一属性,用来表示统一视图的相关信息,例如:统一视图的名 称、在统一视图模型中的分类等等。
复杂性、可用性和可维护性是这些ቤተ መጻሕፍቲ ባይዱTL工具面临的主要问 题,无法适应企业集团数据抽取、转换和加载需求,这 主要体现在以下几个方面: ① 对源数据模式的理解 ② 对企业集团多数据仓库ETL过程维护
基于统一视图模型的ETL体系结构
面向集团型企业,为降低ETL过程的复杂性,我们一方面 将一个复杂的ETL过程分解为一系列的ETL操作;另一 方面,我们提出了基于统一视图模型的 ETL 体系结构, 将这些ETL操作按照不同的功能分解到基于统一视图模 型的ETL体系结构中。 面向企业集团的数据仓库ETL体系结构包括资源数据层、 统一视图层、数据仓库层3个层次,通过引入统一视图 中间层及两级抽取映射方法,实现了源数据的透明抽取 及访问。这种体系结构不仅降低了数据仓库ETL过程的 复杂性,还可以确保ETL过程的可用性和可维护性。
课题的国内外研究现状
数据仓库界最知名的R.Kimbal博士提出了数据仓库业务维度生命 周期开发方法和数据仓库的总线结构。
加拿大Simon Fraser 大学智能数据库系统研究实验室开发的多任 务知识发现系统-DBMiner 。 IBM 公司Almaden 研究中心开发的多任务KDD 系统QUEST 。 SAS公司推出的Enterprise Miner、微软公司推出的SQL Sever、 SPSS 公 司 的 Clementine 、 Sybase 公 司 的 Warehouse Workbench、ORACLE公司的Oracle Warehouse Builder等。
LOGO
企业集团数据仓库系统关键技术
宋旭东 软件学院
主要内容
1. 绪论
2. 数据仓库系统基本概念 3. 企业集团ETL技术 4. 企业集团数据仓库技术 5. 企业集团联机分析处理技术
6. 企业集团数据挖掘技术
7. 企业集团决策支持技术
8. 总结
1 绪论
课题的研究背景和意义 课题的国内外现状
目前存在的问题
本文研究的主要工作
研究的背景及意义
在知识经济时代,企业更多关注如何提高自身的竞争力? 从现代管理技术的角度,集团化运营已成为企业提升 自身竞争力的必然趋势,许多同行业企业进行了资产 重组,组建了企业集团。 从信息技术的角度,人们开始把企业信息化作为改善 企业管理业务活动,建立现代企业制度的重要手段。
新应用与新环境下的数据仓库构建
课题的国内外研究现状
会议:“ ACM数据仓库和联机分析国际会议” 、 “数据仓库与 知识发现国际会议” 、 “ ACM-SIGMOD 数据管理国际会议” ( SIGMOD ),“ 超大型数据库国际会议 ”( VLDB ),“ ACM SIGACT-SIGMOD-SIGART 数据库原理研讨会”( PODS ),“数据 工 程 国 际 会 议 ” ( ICDE ) , “ 扩 展 数 据 库 技 术 国 际 会 议 ” (EDBT),“数据库理论国际会议”(ICDT),“信息与知识 管理国际会议”(CIKM),“数据库与专家系统应用国际会议” (DEXA),和“数据库系统高级应用国际研讨会”(DASFAA)。
数据仓库系统体系结构
面向领域工程的统一视图模型的确立
步骤4 依据问题描述的实际需求,企业集团标准中心或信 息中心,可及时向标准属性库中补充新的标准属性,或 向统一维库中添加新的统一维。
3 企业集团ETL技术
基于统一视图模型的ETL体系结构 基于统一视图模型的ETL过程建模
基于统一视图模型的ETL过程实现
课题的国内外研究现状
国内对数据仓库及其相关技术的研究稍晚,但进展较快。 中国科学院史忠植教授等人提出MSMiner平台 。 复旦大学的朱扬勇教授建立了国内著名的“数据挖掘讨论 组”网站() 。 四川大学的唐常杰教授,华中科技大学的冯玉才教授中国 人民大学的王珊教授、孟小峰教授和杜小勇教授,复旦大 学的施伯乐教授,国防科技大学的陈文伟教授,哈尔滨工 业大学李建中教授和刘大昕教授,东北大学的于戈教授在 数据挖掘和数据仓库方面都做了许多有益的尝试。
数据仓库系统ETL任务调度模型
基于统一视图模型的ETL体系结构
目前常见的数据仓库ETL体系结构如图 3.1所示,数据从 操作型数据源和外部数据源流出,经过ETL,即数据抽 取-转换-装载到数据仓库中。
SM 数据源1 TM WM
外部文件 ETL
数据仓库
数据源n
数据源
ETL 过程
数据仓库
基于统一视图模型的ETL体系结构
数据仓库系统体系结构
面向领域工程的统一视图模型的确立
步骤3 用分类树的方法,按照数据对象所归属业务系统的实际情况进 行分类,并通过适度的细化过程,形成一棵面向问题域的统一视图 分类树,它构成了统一视图模型的主体结构。由于不存在绝对的统 一视图抽象方法,因此对于统一视图分类树的生成,要求建模人员 尽可能真实地反映企业用户决策分析问题域的情况。 例如:针对某钢铁企业集团,建立统一视图分类树。对应业务系统, 树中有销售、库存、生产、财务、设备、质量、采购、物资、人力 资源等9个分支,每个分支下有若干统一视图。在销售分支下,可 定义一个销售合同统一视图,视图包括若干统一属性,如:合同号、 客户编码、生产号、产品类别、流向、材类别、钢类、销售公司、 标准、加工用途、交货状态、冶炼方法、订货量、交货年月、合同 说明。在生产分支下,可定义一个生产物料跟踪统一视图,视图包 括:生产号、生产批次、炉号、工序号、分厂、班组、设备、生产 量、完成时间、物料状态。
统一视图模型基本概念
定义2. 统一视图模型(Unified Views Model ,UVM)
统一视图模型可以定义为全体统一属性、全体统一维 及全体统一视图的集合,即UVM ::= < UAttribute, Dime, UView >,它是全局数据环境下,能够为所有 主题数据仓库提供抽取来源的统一数据模式描述。
研究的背景及意义
随着企业集团信息化进程的不断深入,企业面临问题: 数据的过度冗余而导致“数据过剩”现象.
相关文档
最新文档