数据仓库的基本架构

合集下载

数据仓库的架构方式及其比较

数据仓库的架构方式及其比较

数据仓库的架构方式及其比较数据仓库的架构方式及其比较传统的关系数据库一般采用二维数表的形式来表示数据,一个维是行,另一个维是列,行和列的交叉处就是数据元素。

关系数据的基础是关系数据库模型,通过标准的SQL语言来加以实现。

数据仓库是多维数据库,它扩展了关系数据库模型,以星形架构为主要结构方式的,并在它的基础上,扩展出理论雪花形架构和数据星座等方式,但不管是哪一种架构,维度表、事实表和事实表中的量度都是必不可少的组成要素。

下面解析由这些要素构成的数据仓库的架构方式。

1.星形架构星形模型是最常用的数据仓库设计结构的实现模式,它使数据仓库形成了一个集成系统,为最终用户提供报表服务,为用户提供分析服务对象。

星形模式通过使用一个包含主题的事实表和多个包含事实的非正规化描述的维度表来支持各种决策查询。

星形模型可以采用关系型数据库结构,模型的核心是事实表,围绕事实表的是维度表。

通过事实表将各种不同的维度表连接起来,各个维度表都连接到中央事实表。

维度表中的对象通过事实表与另一维度表中的对象相关联这样就能建立各个维度表对象之间的联系。

每一个维度表通过一个主键与事实表进行连接,如图3-10所示。

图3-10 星形架构示意图事实表主要包含了描述特定商业事件的数据,即某些特定商业事件的度量值。

一般情况下,事实表中的数据不允许修改,新的数据只是简单地添加进事实表中,维度表主要包含了存储在事实表中数据的特征数据。

每一个维度表利用维度关键字通过事实表中的外键约束于事实表中的某一行,实现与事实表的关联,这就要求事实表中的外键不能为空,这与一般数据库中外键允许为空是不同的。

这种结构使用户能够很容易地从维度表中的数据分析开始,获得维度关键字,以便连接到中心的事实表,进行查询,这样就可以减少在事实表中扫描的数据量,以提高查询性能。

在AdventureWorksDW数据仓库中,若以网络销售数据为事实表,把与网络销售相关的多个商业角度(如产品、时间、顾客、销售区域和促销手段等)作为维度来衡量销售状况,则这些表在数据仓库中的构成如图3-11所示,可见这几个表在数据仓库中是以星形模型来架构的。

数据仓库的基本架构

数据仓库的基本架构

数据仓库的基本架构数据仓库是一个用于集成、存储和管理企业数据的系统,它提供了一个统一的视图,用于支持企业决策和分析。

数据仓库的基本架构包括数据源、数据抽取、数据转换、数据加载和数据存储等关键组件。

1. 数据源数据源是数据仓库的起点,它可以是企业内部的各种业务系统,如销售系统、财务系统、人力资源系统等,也可以是外部数据源,如第三方数据提供商、社交媒体平台等。

数据源可以提供结构化数据(如关系型数据库中的表)和非结构化数据(如日志文件、文档等)。

2. 数据抽取数据抽取是将数据从数据源中提取出来的过程。

这个过程通常包括连接到数据源、选择需要抽取的数据、执行抽取操作等步骤。

数据抽取可以使用不同的方式,例如直接查询数据库、使用API接口、使用ETL工具等。

3. 数据转换数据转换是将抽取的数据进行清洗、转换和整合的过程,以使其适应数据仓库的结构和规范。

在数据转换过程中,可以进行数据清洗(如去除重复数据、处理缺失值)、数据转换(如格式转换、数据合并)和数据整合(如将多个数据源的数据合并为一个统一的数据集)等操作。

4. 数据加载数据加载是将经过转换的数据加载到数据仓库中的过程。

数据加载可以使用增量加载或全量加载的方式进行。

增量加载是指将新抽取的数据追加到已有数据之后,而全量加载是指将所有数据重新加载到数据仓库中。

数据加载可以使用不同的方式,如批量加载、实时加载等。

5. 数据存储数据存储是数据仓库中最重要的组件之一,它用于存储和管理数据。

数据存储可以使用关系型数据库、多维数据库或分布式文件系统等。

关系型数据库通常用于存储结构化数据,多维数据库用于存储多维数据,而分布式文件系统用于存储大数据量的非结构化数据。

除了以上基本架构组件外,数据仓库还包括元数据管理、数据质量管理、安全管理和性能优化等方面的功能。

1. 元数据管理元数据是描述数据的数据,它包括数据的定义、结构、关系、来源等信息。

元数据管理是对元数据进行收集、存储、维护和查询的过程。

数据仓库体系结构

数据仓库体系结构

数据仓库体系结构数据仓库是一个用于集成、管理和分析大量数据的系统。

在数据仓库中,数据从不同的源系统中提取、转换和加载,然后存储在一个统一的、可供分析的数据存储中。

为了实现这一目标,数据仓库需要一个合理的体系结构来支持数据的整合、存储和查询等功能。

数据仓库体系结构由以下几个主要组成部分组成:1. 数据源:数据源是数据仓库的基础,它可以是内部系统的数据库、外部数据提供商的数据文件、Web上的数据源等。

数据源可以包括结构化数据(如关系型数据库中的表)和非结构化数据(如文本文件、图像文件等)。

2. 数据提取:数据提取是将数据从源系统中抽取出来并转换为数据仓库可以使用的格式的过程。

数据提取可以通过批处理、定时任务或实时流式传输等方式进行。

3. 数据转换:数据转换是将提取的数据进行清洗、集成和转换的过程。

在这个阶段,数据被清理、去重、标准化和转换为统一的格式和结构,以便在数据仓库中进行分析。

4. 数据加载:数据加载是将转换后的数据加载到数据仓库中的过程。

数据加载可以分为全量加载和增量加载两种方式,全量加载是将所有数据加载到数据仓库中,而增量加载是只加载发生变化的数据。

5. 数据存储:数据存储是数据仓库中数据的物理存储方式。

常用的数据存储方式包括关系型数据库、多维数据库和列式数据库等。

数据存储的选择应根据数据的特点、查询需求和性能要求等因素进行。

6. 元数据管理:元数据是描述数据仓库中数据的数据,它包括数据的结构、定义、来源、质量等信息。

元数据管理是对元数据进行收集、存储、管理和查询的过程,它是数据仓库管理的重要组成部分。

7. 数据访问:数据访问是用户通过查询、报表和分析等方式对数据仓库中的数据进行访问和分析的过程。

数据仓库可以提供多种数据访问方式,包括在线分析处理(OLAP)、数据挖掘和数据可视化等。

8. 安全性和权限管理:安全性和权限管理是保护数据仓库中数据安全和控制用户访问权限的过程。

数据仓库应具备完善的安全措施,包括身份认证、权限控制、数据加密和审计等功能。

商务智能方法与应用模拟题及答案

商务智能方法与应用模拟题及答案

商务智能方法与应用模拟题及答案单选题1、数据仓库中的数据是存储的数据是历史数据,并且随时间变化不断增加新的数据内容,这一特性是数据仓库的那一项特点()A、面向主题的B、集成的C、数据相对稳定D、反应历史变化的2、数据仓库的数据所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。

这一特性是数据仓库的那一项特点()A、面向主题的B、集成的C、数据相对稳定D、反应历史变化的3、数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据、数据存储、数据应用。

针对三个层次的说法错误的是()A、源数据层:直接沿用外围系统数据结构和数据。

B、数据存储层:源数据层中的数据,经过ETL处理之后,将数据存储到数据存储层。

C、数据存储层:数据应用层是前端应用直接读取的数据源,是根据报表、专题分析需求而计算生成的数据。

D、数据应用层:数据应用层是前端应用直接读取的数据源,是根据报表、专题分析需求而计算生成的数据。

4、才进行数据仓库构建的过程中需要使用到ETL技术,那么ETL具体指的是()A、抽取,转换和清洗,加载B、抽取,加载,转换和清洗C、转换和清洗,加载,抽取D、转换和清洗,抽取,加载5、对数据进行清洗、数据转换、清洗结束后,需要把数据存储到数据仓库中,通常会使用到的数据装载的方法有()A、初始装载B、增量装载C、加量装载D、初始装载、增量装载、完全刷新6、数据仓库的数据建模按照时间的先后顺序,可以大致分为四个阶段,具体的顺序为()A、业务建模->领域概念建模->逻辑建模->物理建模B、业务建模->领域概念建模->物理建模->逻辑建模C、领域概念建模->业务建模->逻辑建模->物理建模D、领域概念建模->业务建模->逻辑建模->物理建模7、以下哪种数据类型是数据库不支持,但是Hive支持的()A、TINYINT、DECIMALB、INT、CHARC、FLOAT、DOUBLED、BOOLEAN、VARCHAR8、针对HIVE和HDFS的相关特性,以下哪些关键词是一一相互对应的()A、Hive中的表对应HDFS中的目录B、Hive中的分区对应HDFS中的文件C、Hive中的数据对应HDFS中的目录D、Hive中的表对应HDFS中的文件9、Hive中表示外部表的关键字为()A、EXTERNALB、PARTITIONC、VIEWD、TABLE10、Hive中删除数据表中的内容即会删除元数据的数据模型为()A、桶表B、分区表C、托管表、D、外部表多选题1、以下哪几个选项是数据仓库的基本特点()A、面向主题的B、集成的C、数据相对稳定D、反应历史变化的2、以下哪几个选项是数据仓库和数据库的区别()A、数据库一般存储在线交易数据,数据仓库存储的一般是历史数据B、数据库面向业务操作程序,数据仓库是面向主题域、管理决策分析应用C、数据库主要由原子事务组成,而数据仓库处理的是复杂的数据查询,大部分是只读操作。

产业数据仓 第1部分 总体框架和技术要求

产业数据仓 第1部分 总体框架和技术要求

产业数据仓是指一个用于存储和管理企业或行业内各种数据的系统。

它能够将来自不同数据源的数据进行整合和存储,同时通过数据分析和挖掘技术,为企业决策提供支持。

在当今信息化的时代,数据已经成为企业竞争力的重要组成部分,而产业数据仓的建设和运营则成为了企业信息化战略中的重要环节。

一、总体框架1.1 数据仓库架构产业数据仓的总体框架包括数据仓库、数据存储、数据集成、元数据管理、数据分析和报告等模块。

在建设数据仓库时,需要根据企业的业务特点和数据特点,设计合理的数据模型和架构,以支持数据的高效存储和查询。

1.2 数据采集与清洗数据仓库的数据主要来源于企业内部系统和外部数据源,其中包括基础数据、交易数据、日志数据等。

在进行数据的采集和清洗时,需考虑数据的质量和完整性,以确保后续的数据分析和挖掘工作能够顺利进行。

1.3 数据安全与保护由于产业数据仓存储的是企业重要的商业数据,因此数据安全和隐私保护是至关重要的。

在建设数据仓库的过程中,需要严格遵守相关的数据安全标准和法律法规,保护企业数据的安全和隐私。

二、技术要求2.1 数据存储技术数据仓库中需要存储大量的数据,因此对数据存储技术有着较高的要求。

传统的关系型数据库可以满足一定的需求,但随着数据量的增加和数据类型的多样化,企业需要将目光投向更先进的数据存储技术,如分布式存储、列存储等。

2.2 数据集成技术产业数据仓的数据源多样化,需要将来自不同系统的数据进行集成和整合。

数据集成技术成为了数据仓库中的关键技术之一,企业需要选用成熟可靠的数据集成工具,以确保数据的完整性和一致性。

2.3 数据分析技术数据仓库中的数据分析包括数据挖掘、统计分析、预测分析等多方面内容。

为了有效进行数据分析,企业需要掌握多种数据分析技术和工具,以支持对数据的深度挖掘和分析。

产业数据仓的建设是企业信息化战略中的重要环节,其总体框架和技术要求对企业数据的管理和利用具有重要意义。

只有建设出合理高效的数据仓库系统,企业才能更好地利用数据资源,提高运营效率和竞争力。

数据仓库的基本架构

数据仓库的基本架构

数据仓库的基本架构数据仓库是一种面向主题、集成、非易失、相对稳定和历史数据的数据集合。

它采用了一种特定的架构来存储和管理数据,以便支持企业的决策和分析需求。

数据仓库的基本架构由以下几个主要组件组成:数据源、ETL过程、数据存储和访问层。

1. 数据源(Data Sources)数据源是数据仓库的起点,它包括企业内部的各个业务系统、外部数据提供商和第三方数据供应商等。

数据源可以是关系数据库、平面文件、Web服务等各种数据存储形式。

数据源中的数据通常以不同的格式和结构存在,这就需要进行数据整合和转换。

2. ETL过程(Extraction, Transformation and Loading)ETL是数据仓库的核心过程,它包括数据的抽取、转换和加载。

数据抽取是指从数据源中提取需要使用的数据,可以使用不同的技术和工具来实现,如SQL查询、文件导入等。

数据转换是指对抽取的数据进行清洗、整合、转换和规范化等处理,以满足数据仓库的要求。

数据加载是指将转换后的数据加载到数据仓库中,可以采用增量加载或全量加载的方式。

3. 数据存储(Data Storage)数据存储是指将经过ETL处理后的数据存储到数据仓库中。

数据仓库通常采用分层的存储结构,包括原始数据层、中间数据层和目标数据层。

原始数据层存储从数据源中抽取的原始数据,中间数据层存储经过转换和整合后的数据,目标数据层存储已经满足分析和查询需求的数据。

4. 数据访问层(Data Access)数据访问层是用户和数据仓库之间的接口,它提供了各种查询、分析和报表功能,以满足用户对数据的不同需求。

数据访问层可以通过各种方式进行数据查询,例如使用SQL查询语言、OLAP分析工具、报表生成工具等。

它还可以提供更高级的分析功能,如数据挖掘、机器学习和数据可视化等。

除了以上的基本架构组件,数据仓库还需要考虑数据安全性、性能优化、数据质量管理和元数据管理等问题。

数据安全性要求对数据进行权限控制、数据加密和数据备份等操作,以保证数据的安全和完整性。

数据仓库的基本架构

数据仓库的基本架构

数据仓库的基本架构数据仓库是一个用于集成、存储和管理企业中各种数据的系统。

它的设计和架构对于数据的有效管理和分析至关重要。

在本文中,我们将详细介绍数据仓库的基本架构,包括数据仓库的组成部分、数据仓库的层次结构和数据仓库的实施步骤。

一、数据仓库的组成部分1. 数据源:数据仓库的数据源可以包括企业内部的各种数据库、文件、日志等。

数据源的选择和数据提取的方法取决于企业的需求和数据的特点。

2. 数据提取和转换:数据提取和转换是将数据从数据源中提取出来并进行清洗、转换的过程。

这个过程包括数据的抽取、清洗、转换和加载等步骤,以确保数据的质量和一致性。

3. 数据存储:数据存储是数据仓库的核心组成部分,用于存储从数据源中提取出来的数据。

常见的数据存储方式包括关系型数据库、多维数据库和分布式文件系统等。

4. 元数据管理:元数据是描述数据的数据,用于帮助用户理解和使用数据仓库中的数据。

元数据管理包括元数据的收集、存储和维护等过程。

5. 数据访问和查询:数据仓库的用户可以通过各种方式访问和查询数据,包括SQL查询、OLAP分析、报表生成等。

数据访问和查询的方式取决于用户的需求和技术的支持。

二、数据仓库的层次结构数据仓库的层次结构包括三个主要层次:操作型数据层、集成型数据层和决策型数据层。

1. 操作型数据层:操作型数据层是数据仓库的最底层,用于存储企业内部各种操作型数据,包括交易数据、日志数据等。

这些数据通常以原始的、细粒度的形式存储。

2. 集成型数据层:集成型数据层是数据仓库的中间层,用于将操作型数据进行整合和转换,以满足用户的查询和分析需求。

在这一层次上,数据会进行清洗、聚合和转换等处理。

3. 决策型数据层:决策型数据层是数据仓库的最上层,用于存储已经经过整合和转换的数据,供用户进行决策分析和业务报告等。

在这一层次上,数据会根据用户的需求进行汇总、计算和分析等操作。

三、数据仓库的实施步骤1. 确定需求:在实施数据仓库之前,首先需要明确企业的需求和目标。

数据仓库的基本架构

数据仓库的基本架构

数据仓库的基本架构数据仓库是一个用于集成、存储和管理企业数据的系统。

它提供了一个可靠的数据源,用于支持企业的决策制定、分析和报告。

数据仓库的基本架构包括以下几个关键组件和层次:1. 数据提取层(Extraction Layer):数据仓库的第一步是从各个源系统中提取数据。

这些源系统可以是企业内部的业务系统、关系数据库、日志文件等。

数据提取层负责从这些源系统中抽取数据,并将其转换成适合数据仓库的格式。

2. 数据转换层(Transformation Layer):在数据提取层之后,数据需要经过一系列的转换和清洗操作,以确保数据的一致性和准确性。

数据转换层包括数据清洗、数据集成、数据转换和数据加载等过程。

在这个层次上,数据被转换成适合数据仓库的结构和格式。

3. 数据存储层(Storage Layer):数据存储层是数据仓库的核心组件,用于存储经过转换的数据。

数据存储层通常采用多维数据模型,如星型模型或雪花模型,以支持复杂的查询和分析操作。

在数据存储层中,数据被组织成事实表和维度表的形式。

4. 数据访问层(Access Layer):数据访问层提供了对数据仓库的查询和分析功能。

用户可以使用各种工具和技术,如SQL查询、OLAP(联机分析处理)工具和数据挖掘工具,来访问和分析数据仓库中的数据。

数据访问层还可以提供数据报表、数据可视化和仪表板等功能。

5. 元数据管理层(Metadata Management Layer):元数据是描述数据仓库中数据的数据。

元数据管理层负责管理和维护数据仓库的元数据,包括数据定义、数据质量、数据血缘等信息。

元数据管理层可以帮助用户理解和使用数据仓库中的数据。

6. 安全和权限层(Security and Authorization Layer):安全和权限层用于保护数据仓库中的数据免受未经授权的访问和滥用。

这个层次上,可以实施各种安全措施,如用户认证、访问控制和数据加密等。

7. 数据质量管理层(Data Quality Management Layer):数据质量管理层用于监控和管理数据仓库中数据的质量。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。

其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。

因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据、数据仓库、数据应用:
从图中可以看出数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自上而下流入数据仓库后向上层开放应用,而数据仓库只是中间集成化数据管理的一个平台。

数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL(抽取Extra, 转化Transfer, 装载Load)的过程,ETL是数据仓库的流水线,也可以认为是数据仓库的血液,它维系着数据仓库中数据的新陈代谢,而数据仓库日常的管理和维护工作的大部分精力就是保持ETL 的正常和稳定。

下面主要简单介绍下数据仓库架构中的各个模块,当然这里所介绍的数据仓库主要是指网站数据仓库。

数据仓库的数据来源
其实之前的一篇文章已经介绍过数据仓库各种源数据的类型——数据仓库的源数据类型,所以这里不再详细介绍。

对于网站数据仓库而言,点击流日志是一块主要的数据来源,它是网站分析的基础数据;当然网站的数据库数据也并不可少,其记录这网站运营的数据及各种用户操作的结果,对于分析网站Outcome这类数据更加精准;其他是网站内外部可能产生的文档及其它各类对于公司决策有用的数据。

数据仓库的数据存储
源数据通过ETL的日常任务调度导出,并经过转换后以特性的形式存
入数据仓库。

其实这个过程一直有很大的争议,就是到底数据仓库需不需要储存细节数据,一方的观点是数据仓库面向分析,所以只要存储特定需求的多维分析模型;另一方的观点是数据仓库先要建立和维护细节数据,再根据需求聚合和处理细节数据生成特定的分析模型。

我比较偏向后面一个观点:数据仓库并不需要储存所有的原始数据,但数据仓库需要储存细节数据,并
且导入的数据必须经过整理和转换使其面向主题。

简单地解释下:
(1).为什么不需要所有原始数据?数据仓库面向分析处理,但是某些源
数据对于分析而言没有价值或者其可能产生的价值远低于储存这些数据所
需要的数据仓库的实现和性能上的成本。

比如我们知道用户的省份、城市足够,至于用户究竟住哪里可能只是物流商关心的事,或者用户在博客的评论内容可能只是文本挖掘会有需要,但将这些冗长的评论文本存在数据仓库就得不偿失;
(2).为什么要存细节数据?细节数据是必需的,数据仓库的分析需求会
时刻变化,而有了细节数据就可以做到以不变应万变,但如果我们只存储根据某些需求搭建起来的数据模型,那么显然对于频繁变动的需求会手足无措;
(3).为什么要面向主题?面向主题是数据仓库的第一特性,主要是指合
理地组织数据以方面实现分析。

对于源数据而言,其数据组织形式是多样的,像点击流的数据格式是未经优化的,前台数据库的数据是基于OLTP操作组织优化的,这些可能都不适合分析,而整理成面向主题的组织形式才是真正地利于分析的,比如将点击流日志整理成页面(Page)、访问(Visit或Session)、用户(Visitor)三个主题,这样可以明显提升分析的效率。

数据仓库基于维护细节数据的基础上在对数据进行处理,使其真正地能够应用于分析。

主要包括三个方面:
数据的聚合
这里的聚合数据指的是基于特定需求的简单聚合(基于多维数据的聚合体现在多维数据模型中),简单聚合可以是网站的总Pageviews、Visits、
Unique Visitors等汇总数据,也可以是Avg. time on page、Avg. time on site 等平均数据,这些数据可以直接地展示于报表上。

多维数据模型
多维数据模型提供了多角度多层次的分析应用,比如基于时间维、地域维等构建的销售星形模型、雪花模型,可以实现在各时间维度和地域维度的交叉查询,以及基于时间维和地域维的细分。

所以多维数据模型的应用一般都是基于联机分析处理(Online Analytical Process, OLAP)的,而面向特定需求群体的数据集市也会基于多维数据模型进行构建。

业务模型
这里的业务模型指的是基于某些数据分析和决策支持而建立起来的数据模型,比如我之前介绍过的用户评价模型、关联推荐模型、RFM分析模型等,或者是决策支持的线性规划模型、库存模型等;同时,数据挖掘中前期数据的处理也可以在这里完成。

数据仓库的数据应用
之前的一篇文章——数据仓库的价值中介绍过数据仓库的四大特性上的价值体现,但数据仓库的价值远不止这样,而且其价值真正的体现是在数据仓库的数据应用上。

图中罗列的几种应用并未包含所有,其实一切基于数据相关的扩展性应用都可以基于数据仓库来实现。

报表展示
报表几乎是每个数据仓库的必不可少的一类数据应用,将聚合数据和多维分析数据展示到报表,提供了最为简单和直观的数据。

即席查询
理论上数据仓库的所有数据(包括细节数据、聚合数据、多维数据和分析数据)都应该开放即席查询,即席查询提供了足够灵活的数据获取方式,用户可以根据自己的需要查询获取数据,并提供导出到Excel等外部文件的功能。

数据分析
数据分析大部分可以基于构建的业务模型展开,当然也可以使用聚合的数据进行趋势分析、比较分析、相关分析等,而多维数据模型提供了多维分析的数据基础;同时从细节数据中获取一些样本数据进行特定的分析也是较为常见的一种途径。

数据挖掘
数据挖掘用一些高级的算法可以让数据展现出各种令人惊讶的结果。

数据挖掘可以基于数据仓库中已经构建起来的业务模型展开,但大多数时候数据挖掘会直接从细节数据上入手,而数据仓库为挖掘工具诸如SAS、SPSS 等提供数据接口。

元数据管理
元数据(Meta Date),其实应该叫做解释性数据,即数据的数据。

主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。

一般会通过元数据资料库(Metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。

最后做个Ending,数据仓库本身既不生产数据也不消费数据,只是作为一个中间平台集成化地存储数据;数据仓库实现的难度在于整体架构的构建及ETL的设计,这也是日常管理维护中的重头;而数据仓库的真正价值体现在于基于其的数据应用上,如果没有有效的数据应用也就失去了构建数据仓库的意义。

相关文档
最新文档