数据仓库系统的体系结构
数据仓库与数据挖掘考试习题汇总 3

1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3、数据处理通常分成两大类:联机事务处理和联机分析处理。
4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储于管理和数据表现等。
7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。
8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。
9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。
10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。
1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。
2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。
因此,我们要求ETL过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。
3、数据抽取的两个常见类型是静态抽取和增量抽取。
静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。
4、粒度是对数据仓库中数据的综合程度高低的一个衡量。
粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。
数据仓库概述(概念、应用、体系结构)

事务处理 分析处理
DB
从数据 OLTP 数据
DW
从数据 信息(知识) OLAP(DM、OLAM)
18
数据仓库与传统数据库的区别
19
OLTP和OLAP的区别
用户和系统的面向性:
转换描述从操作数据库到数据仓库的映射方法以及转换数据的算法访问权限备份历史存档历史信息传输历史数据获取历史数据访问等等29主题区和信息对象类型包括查询报表图像音频视频等支持数据仓库的其它信息例如信息传输系统包括的预约信息调度信息传送目标的详细描述商业查询对例如数据历史快照版本拥有权数据抽取的审计跟踪数据的使用方法30与数据访问和分析工具的集成31元数据库metadatarepository和工具32主要使用数据来源的物理结构信息企业数据模型和仓库数据模型最终用户最关心两类元数据
4
业务系统不适宜DSS应用
事务处理和分析处理的性能要求和特性不同
事务处理对数据的存取操作频率高而每次操作处理的时 间短; 在分析处理环境中,某个DSS应用程序可能需要连续几 个小时,会消耗大量的系统资源。
数据集成问题 历史数据问题 数据的综合问题(更高粒度)
5
建立数据仓库的投资回报
数据模型:(1)逻辑数据结构,包括为有效进行数据
用的数据集合,是不同于DB的一种新的数据环境, 是DW 扩 展后得到的一个混合形式。四个基本特点:面向主题的、 集成的、可变的、 当前或接近当前的。 库处理由DBMS提供的操作和约束;(2)数据表示系统( 例如,ER图和关系模型)。
25
元数据
数据仓库体系结构

数据仓库体系结构数据仓库是一个用于集成、管理和分析大量数据的系统。
在数据仓库中,数据从不同的源系统中提取、转换和加载,然后存储在一个统一的、可供分析的数据存储中。
为了实现这一目标,数据仓库需要一个合理的体系结构来支持数据的整合、存储和查询等功能。
数据仓库体系结构由以下几个主要组成部分组成:1. 数据源:数据源是数据仓库的基础,它可以是内部系统的数据库、外部数据提供商的数据文件、Web上的数据源等。
数据源可以包括结构化数据(如关系型数据库中的表)和非结构化数据(如文本文件、图像文件等)。
2. 数据提取:数据提取是将数据从源系统中抽取出来并转换为数据仓库可以使用的格式的过程。
数据提取可以通过批处理、定时任务或实时流式传输等方式进行。
3. 数据转换:数据转换是将提取的数据进行清洗、集成和转换的过程。
在这个阶段,数据被清理、去重、标准化和转换为统一的格式和结构,以便在数据仓库中进行分析。
4. 数据加载:数据加载是将转换后的数据加载到数据仓库中的过程。
数据加载可以分为全量加载和增量加载两种方式,全量加载是将所有数据加载到数据仓库中,而增量加载是只加载发生变化的数据。
5. 数据存储:数据存储是数据仓库中数据的物理存储方式。
常用的数据存储方式包括关系型数据库、多维数据库和列式数据库等。
数据存储的选择应根据数据的特点、查询需求和性能要求等因素进行。
6. 元数据管理:元数据是描述数据仓库中数据的数据,它包括数据的结构、定义、来源、质量等信息。
元数据管理是对元数据进行收集、存储、管理和查询的过程,它是数据仓库管理的重要组成部分。
7. 数据访问:数据访问是用户通过查询、报表和分析等方式对数据仓库中的数据进行访问和分析的过程。
数据仓库可以提供多种数据访问方式,包括在线分析处理(OLAP)、数据挖掘和数据可视化等。
8. 安全性和权限管理:安全性和权限管理是保护数据仓库中数据安全和控制用户访问权限的过程。
数据仓库应具备完善的安全措施,包括身份认证、权限控制、数据加密和审计等功能。
数据仓库四层结构体系

所谓的数据仓库架构,我也是第一次听说,改改一些概念,干脆一起来分享一下吧,没准还能成为行业标准,呵呵!该架构主要分为四层结构体系:> ODS层主要负责采集业务系统并保存一定期限内的相关业务数据。
当然也可以满足用户对明细数据的查询要求,姑且也可以算作明细数据仓库。
> 数据仓库层将ODS层经过质量检查、清洗、转换后,形成符合质量要求的公共数据中心。
实际上与ODS层差别不大,都是建立以ER为中心的数据关系,方便以后的数据的聚合。
> 明细数据集市层即前面所说的事实层按主题及KPI指标对数据仓库层数据进行进一步转换,将指标与维度组成数据集市。
这是OLAP 的数据基础。
> 聚合数据集市层即OLAP在明细数据集市层的基础上,提供基于联机分析处理(OLAP)引擎的多维分析能力,解决联机分析功能和决策支持要求。
> 数据展现层按照用户报表要求,提供用户报表界面及预警分发机制。
其中前3层都是属于ETL层的,问题是层次出来了我的疑问也出来了,都是属于那种别人不操心我瞎操心的事。
毕竟算是搞数据库出身的(搞过一些索引和简单的SQL调优),最关心的还是性能问题。
数据仓库是企业级的数据中心,每天上G的数据的企业不在少数,那么多的层次,使用工具能抽的完数据吗?说实话我实在不信任ETL工具,总感觉他没我写的SQL语句效率高;即使抽的完数据,那么多的层次转换能处理的完吗;即使处理完,如果万一一个环节出现问题,能回退或重新处理吗;处理完后那OLAP该怎么调度啊;数据质量(清洗转换)到底在哪个环节处理;数据质量到底包括哪些东西(除了主外键缺失和NULL值),兄弟比较愚笨,一直想不明白;不合质量要求的数据如何处理;入库的数据在业务库发生更改怎么办;业务数据没有时间戳怎么办;数据核对和校验工作如何进行;不管工具也好代码也好,到底有没有通用的处理流程(比如维度数据处理,原始业务数据抽取,事实表日结处理);还有就是到现在也没搞到合适的需求设计文档的模板(如果哪位兄弟有可以帮忙提供一下)。
数据仓库系统体系结构及相应构建策略研究

之上 的 联 机 分 析 处 理 ( n—Ln n l ia Po O ieA a t l r— yc
析 了传统 D 系统 的体 系 结构 , 出 了两 种新 的 W 提 体 系结构 , 针对 不 同体 系结构 , 出 了建 设 D 并 给 W
Fb2O e.O 7 r
V0 . 4 N . 12 o 1
文章编号 :0 7 3 5 20 ) 1 0 4 0 10 —18 ( 0 7 0 — 04— 3
数 据仓 库 系统 体 系结 构及 相 应 构 建 策 略研 究
安 云哲
(. 1 沈阳航空工业学院 计算机学院 , 辽宁 沈阳 辽宁 沈阳 10 4 ) 10 5
从技术实现角度提出了同构 系统 、 异构系统 、 数据仓库 的技术平台结构。 关键词 : 数据仓库 ; 系结构 ; 体 松散耦合 ; 紧密耦合 ; 同构 系统 ; 异构系统
中图分类号 :P 1 T3 1 文献标识码 : A
数据仓库 ( a a hue简记为 D 是一 D t W r os, a e W) 个 用 以更 好 地 支 持 企 业 或 组 织 的 决 策 分 析 处 理
在实 际实施 过 程 中 , 列 四种 构 建 策 略 都 是 下 可 以存在 的 。
1 1 直接 报表 系统 .
现这 样 的局 面 , 业 和 组 织不 能 根据 自身信 息 化 企
建设 的基础和对信息分析处理需求的估计存在误 区 , 而不能 正确 选择 D 系统 的体 系 结构 是 非 从 W
某个部门应用的独立数据集市 ; 还有一些企业信 息化建设开展较早 , 遗留系统 ( eaySs m) Lgc y e 和 t O T ( nLn r sc o rcsi , 机事 务处 L P O i Ta at nP es g 联 e n i o n
数据仓库

23
数据仓库的数据模型
面向用户的需求
概念模型
细 化层 次
信息包图 逻辑模型
星型图模型
物理数据模型 更详细的 技术细节
物理模型
24
概念模型
由于大多数商务数据是多维的, 但传统的数据模型表示三维以 上的数据有一定困难。概念模 型简化了这个过程并且允许用 户与开发者和其他用户建立联 系:
源数据 数据准备区
数据仓库
18
数据净化
当数据从源数据库中提取到数据准备区后,必须先进行数 据净化才可以装载到数据仓库中去。数据净化主要指对数 据字段的有效值检验。有效值的检验通常包括:范围检验、 枚举字段取值和相关检验。范围检验要求数据保证落在预 期的范围之内,通常对数据范围和日期范围进行检验,如 对任何在指定范围之外的日期的发票都应删除。枚举字段 取值指对一个记录在该字段的取值,若不在指定的值中, 则应该删除。相关检验要求将一个字段中的值与另外一个 字段中的值进行相关检验,即在数据库中某个字段应与另 一个字段形成外键约束。
3
事务型处理数据和分析型处理数据的区别
特性 OLTP 计 数据 汇总 视图 工作单位 存取 关注 操作 访问记录数 用户数 DB规模 优先 度量
操作处理 事务 办事员、DBA、数据库专业人员 日常操作 基于E-R,面向应用 当前的;确保最新 原始的,高度详细 详细,一般关系 短的、简单事务 读/写 数据进入 主关键字上索引/散列 数十个 数千 100MB到GB 高性能,高可用性 事务吞吐量
数据仓库
Data Warehouse
1
事务型处理
事务型处理:即操作型处理,是指对数据库的联机操作 处理OLTP。事务型处理是用来协助企业对响应事件或 事务的日常商务活动进行处理。它是事件驱动、面向应 用的,通常是对一个或一组记录的增、删、改以及简单 查询等(大量、简单、重复和例行性)。 在事务型处理环境中,数据库要求能支持日常事务中的 大量事务,用户对数据的存取操作频率高而每次操作处 理的时间短。
数据仓库规范

数据仓库规范一.数据仓库层次结构规范1.1 基本分层结构系统的信息模型从存储的内容方面可以分为,STAGE接口信息模型、ODS/DWD信息模型,MID信息模型、DM信息模型、元数据信息模型。
在各个信息模型中存储的内容如下描述:1) SRC接口层信息模型:提供业务系统数据文件的临时存储,数据稽核,数据质量保证,屏蔽对业务系统的干扰,对于主动数据采集方式,以文件的方式描述系统与各个专业子系统之间数据接口的内容、格式等信息。
与该模型对应的数据是各个专业系统按照该模型的定义传送来的数据文件。
STAGE是生产系统数据源的直接拷贝,由ETL过程对数据源进行直接抽取,在格式和数据定义上不作任何改变。
与生产系统数据的唯一不同是,STAGE层数据具有时间戳。
STAGE层存在的意义在于两点:(1)对数据源作统一的一次性获取,数据仓库中其他部分都依赖于STAGE层的数据,不再重复进行抽取,也不在生产系统上作运算,减小生产系统的压力;(2)在生产系统数据已经刷新的情况下,保存一定量的生产系统的历史数据,以便在二次抽取过程中运算出错的情况下可以进行回溯。
2) ODS/DWD层(对应原模型的ODS和DW层)信息模型:简称DWD层是数据仓库的细节数据层,是对STAGE层数据进行沉淀,减少了抽取的复杂性,同时ODS/DWD的信息模型组织主要遵循企业业务事务处理的形式,将各个专业数据进行集中。
为企业进行经营数据的分析,系统将数据按分析的主题的形式存放,跟STAGE层的粒度一致,属于分析的公共资源。
3) MID 信息模型:轻度综合层是新模型增加的数据仓库中DWD层和DM层之间的一个过渡层次,是对DWD层的生产数据进行轻度综合和汇总统计。
轻度综合层与DWD的主要区别在于二者的应用领域不同,DWD的数据来源于生产型系统,并为满足一些不可预见的需求而进行沉淀;轻度综合层则面向分析型应用进行细粒度的统计和沉淀。
4) DM信息模型:为专题经营分析服务,系统将数据按分析的专题组织成多维库表的形式存放,属于分析目标范畴的数据组织与汇总,属于分析的专有资源。
数据仓库概述PPT(共 57张)

16
细节的
操1作.型1.数3据两者数据处理模式的分析差型数别据
综合的,或提炼的
当前数据
历史数据
更新的
不可更新,只读的
生命周期符合SDLC (软件开发生命周期)
完全不同的生命周期
对性能要求高 一个时刻操作一个单元 事务驱动 面向应用 一次操作数据量小,计算简单 支持日常操作
29
1.2 数据仓库的基本概念
数据仓库就是一个面向主题的、集成的、不可更新 的、随时间不断变化的数据集合,通常用于企业的 决策支持。
30
1.2.1 面向主题
主题:是一个抽象的概念,是在较高层次上将企业 信息系统中的数据综合、归类并进行分析利用的抽 象。在逻辑上,它对应于企业中某一宏观分析领域 所涉及的分析必须把分析数 据从事务处理环境中提取出来,按照决策支持系统处 理的需要进行重新组织,建立单独的分析型处理环境。 数据仓库正是为了构建这种新的分析型处理环境而 出现的一种数据存储和组织技术。
27
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
第1讲 数据仓库概述
1
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
2
数据仓库概述
1.1 数据仓库产生的原因 1.1.1 操作型数据处理 1.1.2 分析型数据处理 1.1.3 两种数据处理模式的差异 1.1.4 数据库系统的局限性
对性能要求宽松 一个时刻操作一个集合 分析驱动 面向分析 一次操作数据量大,计算复杂 支持管理需求
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
体系结构数据源是数据仓库系统的基础,是整个系统的数据源泉。
通常包括企业内部信息和外部信息。
内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。
外部信息包括各类法律法规、市场信息和竞争对手的信息等等;数据的存储与管理是整个数据仓库系统的核心。
数据仓库的真正关键是数据的存储和管理。
数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。
要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。
针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。
数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。
OLAP(联机分析处理)服务器对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。
其具体实现可以分为:ROLAP(关系型在线分析处理)、MOLAP (多维在线分析处理)和HOLAP(混合型线上分析处理)。
ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。
数据仓库系统的体系结构数据仓库系统通常是对多个异构数据源的有效集成,集成后按照主题进行重组,包含历史数据。
存放在数据仓库中的数据通常不再修改,用于做进一步的分析型数据处理。
数据仓库系统的建立和开发是以企事业单位的现有业务系统和大量业务数据的积累为基础的。
数据仓库不是一个静态的概念,只有把信息适时的交给需要这些信息的使用者,供他们做出改善业务经营的决策,信息才能发挥作用,信息才有意义。
因此,把信息加以整理和重组,并及时提供给相应的管理决策人员是数据仓库的根本任务。
数据仓库的开发是全生命周期的,通常是一个循环迭代的开发过程。
一个典型的数据仓库系统通常包含数据源、数据存储和管理、OLAP服务器以及前端工具与应用四个部分。
1、数据源数据源是数据仓库系统的基础,即系统的数据来源,通常包含企业(或事业单位)的各种内部信息和外部信息。
内部信息,例如存于操作型数据库中的各种业务数据和办公自动化系统中包含的各类文档数据;外部数据,例如各类法律法规、市场信息、竞争对手的信息以及各类外部统计数据及其它有关文档等。
2、数据的存储与管理数据的存储与管理是整个数据仓库系统的核心。
在现有各业务系统的基础上,对数据进行抽取、清理、并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存储结构,同时组织存储数据仓库的元数据(包括数据仓库的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息)。
按照数据的覆盖范围和存储规模,数据仓库可以分为企业级数据仓库和部门级数据仓库。
对数据仓库系统的管理也就是对其相应数据库系统的管理,通常包括数据的安全、归档、备份、维护和恢复等工作。
3、 OLAP服务器OLAP服务器对需要分析的数据按照多维数据模型进行重组,以支持用户随时从多角度、多层次来分析数据,发现数据规律与趋势。
如前所述,OLAP服务器通常有如下3种实现方式:(1) ROLAP基本数据和聚合数据均存放在RDBMS之中(2) MOLAP基本数据和聚合数据存放于多维数据集中(3) HOLAP是ROLAP与MOLAP的综合,基本数据存放于RDBMS之中,聚合数据存放于多维数据集中。
4、前端工具与应用前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具以及各种基于数据仓库或数据集市开发的应用。
其中,数据分析工具主要针对OLAP服务器;报表工具、数据挖掘工具既可以用于数据仓库,也可针对OLAP服务器。
数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:1、两层架构(generic two-level architecture)2、独立型数据集市(independent data mart)3、依赖型数据集市和操作型数据存储(dependent data mart and operational data store)4、逻辑型数据集市和实时数据仓库(logical data mart and real-time data warehouse)独立的数据仓库体系结构通常的数据仓库是两层体系结构,如图所示,构造这种体系结构需要以下4个基本步骤:1、数据是从各种内外部的源系统文件或数据库中抽取得到。
在一个大的组织中,可能有几十个甚至几百个这样的文件和数据库系统2、不同源系统中的数据在加载到数据仓库之前需要被转换和集成。
甚至可能需要发送一些事务信息到源系统中,以纠正在数据分段传输中发现的错误。
3、建立为决策支持服务的数据库,即数据仓库,它通常会同时包括详细的和概括的数据4、用户通常SQL查询语言谨分析工具访问数据仓库,其结果又会反馈到数据仓库和操作型数据库中。
数据仓库环境最重要的三个环节包括:抽取(extract)、转换(transform)、加载(load,把数据从源数据库系统加载到数据仓库),即ETL过程。
抽取和加载通常是定期的,即每天、每星期或每个月。
因此,数据仓库常常没有或者说不需要当前的数据。
数据仓库不支持操作型事务处理,虽然它含有事务型数据(但更多的是事务的概括和变量状态的快照,如帐户余额和库存级别)。
对大多数数据仓库应用来说,用户寻找的不是对个别事务的反应,而是寻求包括在整个数据仓库中的一个特定的子集上的企业(或其它组织)状态的趋势和模式。
例如,通常会有5个季度以上的财务数据保存在数据仓库中,以便识别趋势和模式。
太陈旧的数据,如果确定对决策分析已没有意义,也可被清除或者存档。
基于独立的数据集市的数据仓库的体系结构一些企业或事业组织由于其特殊的业务需求或历史原因,刚开始时并没有建立数据仓库,而是创建了许多分离的数据集市。
其实,每一个数据集市都是基于数据仓库技术的,而不是基于事务处理的数据库技术。
数据集市是范围受限的小型数据仓库,常适用于特定终端用户群决策应用。
在这种情况下,每个独立数据集市的内容都来自于独立的ETL处理过程。
数据集市被设计用来优化定义明确的和可预测的使用性能,通常包括单个或一组针对某特殊应用的查询功能,如市场数据集市、财务数据集市、供应链数据集市等。
相对于其它数据仓库体系结构,独立型数据集市策略的一个明显的特征是:当需要访问分离的数据集市的中的数据时,对终端用户来说具有相对的复杂性。
这个复杂性不仅来自于从分离的数据集市数据库访问数据,而且可能来自于不一致的数据系统产生的数据集市。
如果有一个元数据集合跨越所有的数据集市,且数据集市上的数据通过数据分段传输时保存一致(即数据分段传输中拥有“一致维”),那么,对用户来说复杂性就减小了。
另一方面是其ETL处理的复杂性,因为需要为每一个独立的数据集市创建一个抽取、转换、加载过程。
因为一个企业或事业组织集中于一系列的短期的业务目的,独立的数据集市经常被建立。
有限的短期目标同需要相对较低成本来实现更加独立的数据集市相兼容。
然而,从数据仓库体系结构的角度来说,围绕一些不同的短期目标来设计整个数据仓库环境,意味着失去了应用长期目标及业务环境变化的能力和灵活性。
而这种应对能力对决策支持来说是至关重要的。
采用这种体系结构的优点是其方便性,可快速启动,这种数据仓库架构可通过一系列的小项目来实现。
在一个大的企业或事业单位中,相对于使所有的下属组织在一个中心数据仓库中形成一致视图来说,在组织上,政策上更容易拥有独立的,小型数据仓库。
另外,一些数据仓库技术在它们支持的数据仓库大小上有一定的局限性(或称为可扩展性),但是,如果在理解数据仓库业务需求之前就把自己局限在特定的数据仓库技术上,则是由技术决定的数据仓库体系结构,而通常的情况是业务需求才是最关键的技术架构决定因素。
独立型数据集市架构的局限性包括如下方面:(1)为每一个数据集市开发一个独立的ETL过程,它可能产生高代价的冗余数据和重处理工作(2)数据集市可能是不一致的,因为它们常常是用不同的技术来开发的。
因此,不能提供一个清晰的企业数据视图,而这样的数据视图可能涉及到重要的主题,如客户、供应商和产品等。
(3)没有能力下钻到更小的细节或其它数据集市有关的事实或共享的数据信息库,因此分析是有局限性的。
要想获得全面数据,则需要在不同数据集市的分离平台上做连接,但跨数据集市的数据关联任务要由数据集市的外部系统来执行。
(4)规模扩大的成本高,因为每一个新的应用创建了一个分离的数据集市,都要重复所有的抽取和加载步骤。
通常情况下,对批数据抽取来说,操作型系统有有限的时间窗口(如每天的0~5点)。
如果想让分离的数据集市一致,成本将会更高。
基于依赖型数据集市和操作型数据存储的数据仓库体系结构解决独立数据集市架构局限性的方法之是是使用基于依赖型数据集市(dependent data mart)和操作型数据存储(operational data store,ODS)的数据仓库的的体系结构。
通过企业级数据仓库(Enterprise data warehouse,EWD)中加载依赖型数据集市,在整个体系架构中只使用单一的ETL 过程,确保了ETL的效率和数据集市数据的一致性。
企业级数据仓库是一个集中的、集成的数据仓库,它拥有一致的数据版本,并可以对数据作统一控制,对终端用户的决策支持也是可用的。
依赖型数据集市的主要目标就是提供一个简单、高性能的数据环境,用户群可以访问数据集市、当需要访问其它数据时,也可以访问企业数据仓库。
另外,跨依赖型数据集市的冗余在控制之内,且冗余的数据是一致的。
因为每一个数据集市都是从一个共同的源数据以一种同步的方式加载而来的。
基于依赖型数据集市和操作型数据存储的数据仓库体系架构常常被称为“中心和辐射”架构,其中企业级数据仓库是中心,源数据系统和数据集市在输入和输出的两端。
这种体系结构也被称为合作信息工厂(corporate information factory,CIF)。
在支持所有用户的数据需求中,它被认为是一个全面的企业级的数据视图。
相对于一般的两层体系结构而言,依赖型数据集市的的优势是它们可以处理各个用户群的需求,甚至是探索性数据仓库的需求。
探索性数据仓库是一种专门的数据仓库版本,它使用先进的统计学、数学模型和可视化工具来优化,通常用于数据挖掘和商业智能等业务模型应用的探索。
独立型数据集市的主要优点是可以采用分段方法业开发数据仓库。
事实上,分段方法也可以在基于依赖型数据集市和操作型数据存储的体系结构中实现。
ODS为所有的业务数据提供了一个集成的数据源,同时也解决了独立数据集市架构不能下钻到更小细节的问题。
ODS实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)企业级的、详细的数据库,也叫运营数据存储。