浅析数据库(DB)、操作数据存储(ODS)和数据仓库(DW)的区别与联系

合集下载

数据仓库的介绍(数据仓库和数据库的区别)

数据仓库的介绍(数据仓库和数据库的区别)

数据仓库的介绍(数据仓库和数据库的区别)数据仓库的介绍⼀、数据仓库的基本概念数据仓库,英⽂名称为Data Warehouse,可简写为DW或DWH。

数据仓库顾名思义,是⼀个很⼤的数据存储集合,出于企业的分析性报告和决策⽀持⽬的⽽创建,对多样的业务数据进⾏筛选与整合。

它为企业提供⼀定的BI(商业智能)能⼒,指导业务流程改进、监视时间、成本、质量以及控制。

数据仓库的输⼊⽅是各种各样的数据源,最终的输出⽤于企业的数据分析、数据挖掘、数据报表等⽅向。

⼆、数据仓库的主要特征数据仓库是⾯向主题的(Subject-Oriented )、集成的(Integrated)、稳定的(Non-Volatile)和时变的(Time-Variant )数据集合,⽤以⽀持管理决策。

1.主题性不同于传统数据库对应于某⼀个或多个项⽬,数据仓库根据使⽤者实际需求,将不同数据源的数据在⼀个较⾼的抽象层次上做整合,所有数据都围绕某⼀主题来组织。

这⾥的主题怎么来理解呢?⽐如对于城市,“天⽓湿度分析”就是⼀个主题,对于淘宝,“⽤户点击⾏为分析”就是⼀个主题。

2.集成性数据仓库中存储的数据是来源于多个数据源的集成,原始数据来⾃不同的数据源,存储⽅式各不相同。

要整合成为最终的数据集合,需要从数据源经过⼀系列抽取、清洗、转换的过程。

3.稳定性数据仓库中保存的数据是⼀系列历史快照,不允许被修改。

⽤户只能通过分析⼯具进⾏查询和分析。

这⾥说明⼀点,数据仓库基本上是不许允许⽤户进⾏修改,删除操作的。

⼤多数的场景是⽤来查询分析数据。

4.时变性数据仓库会定期接收新的集成数据,反应出最新的数据变化。

这和稳定特点并不⽭盾。

三、数据仓库与数据库区别1、数据库数据库是⾯向交易的处理系统,它是针对具体业务在数据库联机的⽇常操作,通常对记录进⾏查询、修改。

⽤户较为关⼼操作的响应时间、数据的安全性、完整性和并发⽀持的⽤户数等问题。

传统的数据库系统作为数据管理的主要⼿段,主要⽤于操作型处理,也被称为联机事务处理 OLTP(On-Line Transaction Processing)。

[数据仓库]分层概念,ODS,DM,DWD,DWS,DIM的概念

[数据仓库]分层概念,ODS,DM,DWD,DWS,DIM的概念

[数据仓库]分层概念,ODS,DM,DWD,DWS,DIM的概念前⾔:不是做数仓的,但是也需要了解数仓的知识。

其实分层好多因⼈⽽异,问了同事好多分层的区别也不是很清晰。

所以后续有机会还是跟数仓的同事碰⼀下吧~⼀. 各种名词解释1.1 ODS是什么?ODS层最好理解,基本上就是数据从源表拉过来,进⾏etl,⽐如mysql 映射到hive,那么到了hive⾥⾯就是ods层。

ODS 全称是 Operational Data Store,操作数据存储.“⾯向主题的”,数据运营层,也叫ODS层,是最接近数据源中数据的⼀层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的 ETL 之后,装⼊本层。

本层的数据,总体上⼤多是按照源头业务系统的分类⽅式⽽分类的。

但是,这⼀层⾯的数据却不等同于原始数据。

在源数据装⼊这⼀层时,要进⾏诸如去噪(例如有⼀条数据中⼈的年龄是300 岁,这种属于异常数据,就需要提前做⼀些处理)、去重(例如在个⼈资料表中,同⼀ ID 却有两条重复数据,在接⼊的时候需要做⼀步去重)、字段命名规范等⼀系列操作。

1.2 数据仓库层DW?数据仓库层(DW),是数据仓库的主体.在这⾥,从 ODS 层中获得的数据按照主题建⽴各种数据模型。

这⼀层和维度建模会有⽐较深的联系。

细分:1. 数据明细层:DWD(Data Warehouse Detail)2. 数据中间层:DWM(Data WareHouse Middle)3. 数据服务层:DWS(Data WareHouse Servce)1.2.1 DWD明细层?明细层(ODS, Operational Data Store,DWD: data warehouse detail)概念:是数据仓库的细节数据层,是对STAGE层数据进⾏沉淀,减少了抽取的复杂性,同时ODS/DWD的信息模型组织主要遵循企业业务事务处理的形式,将各个专业数据进⾏集中,明细层跟stage层的粒度⼀致,属于分析的公共资源数据⽣成⽅式:部分数据直接来⾃kafka,部分数据为接⼝层数据与历史数据合成。

大数据分析知识:数据存储与管理——数据仓库、云计算和数据库

大数据分析知识:数据存储与管理——数据仓库、云计算和数据库

大数据分析知识:数据存储与管理——数据仓库、云计算和数据库随着技术的不断发展,越来越多的数据产生并蓄积,如何进行有效管理和利用已成为人们关注的焦点之一。

本文将从数据存储和管理的角度出发,分别介绍数据仓库、云计算和数据库的概念、特点及其在大数据领域的应用。

一、数据仓库数据仓库(Data Warehouse)是指从各个数据源中提取数据并经过处理后存储到一个统一且独立的数据集合中,以方便用户进行分析和决策的系统。

数据仓库通过将数据分析和查询分离,实现了数据决策支持系统的高效运行,从而提高数据的利用率。

数据仓库的特点:1.面向主题:数据仓库是面向主题的,即数据集中一般针对某个主体领域或数据分析任务。

例如,销售数据仓库、人力资源数据仓库等。

2.集成性:数据仓库具有集成性,可以将不同类型的数据源通过ETL(Extract-Transform-Load)的方式进行标准化、转换和加载,并保证数据之间的一致性和完整性。

3.时间性:数据仓库关注历史数据的存储和分析,并提供不同时间维度的数据展示方式,为决策者提供多样化的选择。

数据仓库在大数据领域的应用:1.数据分析和挖掘:通过数据仓库中的数据进行多维分析和数据挖掘,为决策者提供全面的数据支持。

2.企业级统一视图:数据仓库可以实现企业级统一视图,使决策者可以获得一份全面的数据报告。

3.交互式查询:数据仓库提供交互式的查询功能,用户可以根据需要自定义查询条件和维度,获得满足自己需求的数据结果。

二、云计算云计算(Cloud Computing)是指通过网络以服务方式提供计算资源的一种模式。

云计算基于分布式计算、虚拟化技术和自动化管理,通过网络实现数据处理和存储,通过服务模式进行资源使用和计费。

云计算的特点:1.弹性伸缩:云计算可以根据需求进行弹性伸缩,为企业和个人提供更加灵活的资源使用方式,从而降低IT成本、提高效率。

2.服务化:云计算基于服务的方式提供资源,用户可以根据需要选择提供商和服务类型,并根据实际使用量进行计费,降低了技术和资金门槛。

数据库与数据仓库的区别与联系

数据库与数据仓库的区别与联系

数据库与数据仓库的区别与联系在信息时代的背景下,数据处理已经成为各行各业的核心工作。

数据库和数据仓库作为两个常见的数据管理工具,在实践中有着不同的应用场景和特点。

本文将对数据库和数据仓库的区别与联系进行探讨,以帮助读者更好地理解它们的不同之处和相互关系。

一、数据库的概念和特点数据库是指为了满足用户需求而设计、构建和维护的一系列数据集合。

数据库通过数据结构与数据管理系统,实现对数据的存储、查询、更新和删除等基本操作。

其特点主要包括以下几个方面:1. 数据持久化:数据库中的数据可以长期保留,并在需要时进行读取和修改。

2. 数据共享:数据库可以实现多个用户对数据进行共享和协作,提高数据利用效率。

3. 数据一致性:数据库通过事务机制保证数据的一致性和完整性,避免数据冗余和不一致的问题。

4. 高效查询:数据库通过索引等技术快速定位和获取用户需要的数据,提高查询效率。

二、数据仓库的概念和特点数据仓库是指按照时间顺序、面向主题和集成的方式,将多个异构的数据源进行统一整合和管理的大型数据存储库。

它主要用于支持决策分析和业务智能,具有以下特点:1. 面向主题:数据仓库基于企业的业务需求,以主题为中心组织和存储数据,方便用户进行专题分析和决策支持。

2. 集成统一:数据仓库通过数据抽取、转换和加载等技术整合来自不同来源的数据,保证数据的一致性和可信度。

3. 历史存储:数据仓库会长期保留历史数据,以支持用户对过去事务和趋势的分析和判断。

4. 复杂分析:数据仓库提供了复杂的分析功能,如数据切片、切块、钻取等,为决策提供更全面和深入的支持。

三、数据库与数据仓库的区别1. 定义和目的:数据库是为了满足用户的日常业务操作需求而设计的,而数据仓库则是为了支持决策分析和业务智能而构建的。

2. 数据类型和时效性:数据库主要存储操作性数据,如订单、库存等,具有实时性要求;数据仓库存储分析型数据,如销售趋势、市场调研等,具有较长的历史时效性。

操作数据存储ODS和数据集市详解

操作数据存储ODS和数据集市详解
ODS用于存放从业务系统直接抽取出来的数据,这些数据从数据结 构、数据之间的逻辑关系上都与业务系统基本保持一致,因此在抽 取过程中极大降低了数据转化的复杂性,而主要关注数据抽取的接 口、数据量大小、抽取方式等方面的问题。
转移一部分业务系统细节查询的功能
在数据仓库建立之前,大量的报表、分析是由业务系统直接支持的, 在一些比较复杂的报表生成过程中,对业务系统的运行产生相当大 的压力。
实际中往往会有实时决策的需求,上述两者都不能满足要求, 因此产生了ODS
ODS数据环境:一方面提供全局一致的、细节的、当前的数据, 可进行联机事务操作型处理。另一方面是一种面向主题的集成 的数据环境。数据量小,可辅助完成日常决策的数据分析处理,
同时可以保护投资,保留现有的应用系统。
1 ODS的定义和特点
另一方面,在DB-ODS-DW三层结构中,中间件也是 将ODS中的信息与DW系统中的信息相关联的一条途径。
3 建立ODS
3.2 ODS系统设计
物理实现
定义每个主题的数据抽取周期、抽取时间、抽取方式、 数据接口,抽取流程和规则。
物理设计不仅仅是ODS部分的数据库物理实现,设计数 据库参数、操作系统参数、数据存储设计之外,有关数 据抽取接口等问题必须清晰定义。
Data Mart
RDBMS
Metadata Exchange
Local Metadata
Local Metadata
Data Mart
RDBMS
MidTier
OLTP Tools
MidTier
MDB
End-User DW Tools
Source Hub - Data Extraction, Central Data Ware-

数据仓库和数据集市的概念、区别与联系

数据仓库和数据集市的概念、区别与联系

数据仓库和数据集市的概念、区别与联系1.为什么会出现数据仓库和数据集市?“数据仓库”的概念可以追溯到80 年代中期。

从本质上讲,最初数据仓库是想为操作型系统到决策支持环境的数据流提供一种体系结构模型,并尝试解决和这些数据流相关的各种问题。

在缺乏“数据仓库”体系结构的情况下,早期的决策支持环境如图1 所示。

企业内部存在许多冗余的、重复建设的决策支持系统(通常是报表系统),这些系统被不同类型的用户使用,数据的抽取层次复杂,最初在OLTP 上抽取,再在抽取后的数据集上抽取,如此等等,呈“蜘蛛网”状,由于没有公共的数据源,并且数据没有时间点,导致了产生的报表可信度下降,数据不一致问题特别显著,更不用说转化为有效的决策信息。

为了解决上述问题,数据仓库应运而生。

数据仓库构建了一种以集中式的数据存储为核心的体系结构,数据存储的模式为了适应决策分析的要求,形成了一种与原来业务系统构成的操作型环境(OLTP)相独立的决策支持环境。

数据仓库最基本的体系结构如图2 所示。

图2 所示的以数据仓库为基础的决策支持环境,要求数据仓库能够满足所有最终用户的需求。

然而,最终用户的需求是不断变化的,而且各种类型的用户对信息的需求也不一样,这就要求数据仓库存储的数据具有充分的灵活性,能够适应各类用户的查询和分析。

另一方面,最终用户对信息的需求必须易于访问,能够在较高的性能上获得结果。

但是,灵活性和性能对数据仓库而言,是一对矛盾体。

为了适应灵活性的要求,数据仓库需要存储各种历史数据,以规范化的模式存储(一般是第3范式)。

于是,对于特定的用户,TA所需要的信息就需要在许多张很大的表上连接后得到结果,这样就无法满足用户对快速访问的性能需求。

为了解决灵活性和性能之间的矛盾,数据仓库体系结构中增加了数据集市,数据集市存储为特定用户需求而预先计算好的数据,从而满足用户对性能的需求。

带有数据集市的体系结构如图3 所示。

上文提及数据仓库除了为数据流构建体系结构模型外,还尝试解决与数据流相关的各种问题,这些问题如图4 所示,包括数据仓库构建过程中需要开展的各种任务及特点。

数仓的标准层

数仓的标准层

数仓的标准层
数仓的标准层通常分为以下四层:
1.ODS层(临时存储层):为接口数据的临时存储区域,为后一步的数据处理做准备。

一般来说,ODS层的数据和源系统的数据是同构的,主要目的是简化后续数据加工处理的工作。

2.PDW层(数据仓库层):数据应该是清洗后、准确且一致的数据。

这层的数据一般遵循数据库第三范式,其数据粒度通常和ODS的粒度相同。

3.MID层(数据集市层):这层数据是面向主题来组织数据的,通常是星形或雪花结构的数据。

从数据粒度来说,这层的数据是轻度汇总级的数据,已经不存在明细数据了。

4.APP层(应用层):这层数据是完全为了满足具体的分析需求而构建的数据,也是星形或雪花结构的数据。

从数据粒度来说是高度汇总的数据。

数仓的标准分层只是一个建议性质的标准,实际实施时需要根据实际情况确定数据仓库的分层,不同类型的数据也可能采取不同的分层方法。

DB和DW区别

DB和DW区别

4.4伪指令及宏指令1.数据定义及存储器分配伪指令这类指令有:DB、DW、DD、DQ和DT,它们的作用是将所需要的数据放入指定的存储单元中,或者是为程序分配指定数目的存储单元,并根据情况对它们进行初始化。

格式:「变量名」DB/DW/DD/DQ/DT<表达式>,<表达式>,……;[注释]其中,变量名是任选项,它代表所定义的第一单元的地址。

注释也是任选的。

DB:定义字节变量,其后的每一个表达式占一个字节。

DW:定义字变量,其后的每一个表达式的值占二个字节,低字节在低地址,高字节在高地址。

DD:定义双字变量,其后的每一个表达式的值占四个字节,同样低字节在低地址,高字节在高地址。

DQ:定义四字变量,其后的每一个表达式的值占八个字节,低字节放低地址,高字节放高地址。

DT;定义十个字节,其后的每一个表达式的值占十个字节。

一般用于存放压缩的BCD码。

这里的表达式可以是常数、表达式、地址表达式、字符率和数据表格。

下面的例题中,分别说明这几种形式的表达式的应用。

[例4.11]本例说明数据定义伪指令的使用及存储器的分配方法。

已知数据段定义如下,段的起始地址为02000H。

DATA SEMENTDBYTE DB 10,10HDWORD0 DW 100,100HDDWORD DD HDQWORD DQ 90ABCDEFHDBYTES DB ’AB’DWORDS DW ’AB’DWORDI DW OFFSET DWORD0DDWORDI DD DDWORDDATA ENDS则存储器的分配情况及初始化情况如图4-7所示。

ARRAY10001ARRAY2ARRAY3重复xxDUP的应用用DUP定义重复数据,格式为:变量名DB/DW/DD/DQ/DT<表达式>DUP(表达式)-0001---...--05 (05100)个空出的字单元重复20次共140个字节DUP左边的表达式表示要重复的次数,右边圆括号中的表达式表示要重复的内容,它可以是下列的内容之一:(l)一个问号?,表示该单元不初始化,由汇编程序随便预置为什么值;(2)一个数据项表格;(3)一个数值表达式或地址表达式。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

浅析数据库(DB)、操作数据存储(ODS)和数据仓库(D W)的区别与联系文章背景:相信大部分刚接触上面三个概念的同学,都多多少少会有些迷惑,现在我就给大家简单分析下这三者的关系,希望大家对这三者的概念理解有所帮助吧。

本文主要从下面两类关系来叙述上面三者的关系:1. 数据库(DB)和数据仓库(DW)的区别与联系2. 操作数据存储(ODS)和数据仓库(DW)的区别与联系数据库与数据仓库的区别与联系数据库与数据仓库基础概念:数据库:传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。

数据仓库:数据仓库系统的主要应用主要是OLAP(On-Line Analytical Proces sing),支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

OLTP和OLAP概念补充:数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction proc essing)、联机分析处理OLAP(On-Line Analytical Processing)。

OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。

OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

OLTP 系统强调数据库内存效率,强调内存各种指标的命令率,强调绑定变量,强调并发操作;OLAP 系统则强调数据分析,强调SQL执行市场,强调磁盘I/O,强调分区等。

举一个具体的例子:(转自知乎作者:陈诚),个人觉得例子描述的很清晰举个最常见的例子,拿电商行业来说好了。

基本每家电商公司都会经历,从只需要业务数据库到要数据仓库的阶段。

第一阶段,电商早期启动非常容易,入行门槛低。

找个外包团队,做了一个可以下单的网页前端+ 几台服务器+ 一个MySQL,就能开门迎客了。

这好比手工作坊时期。

第二阶段,流量来了,客户和订单都多起来了,普通查询已经有压力了,这个时候就需要升级架构变成多台服务器和多个业务数据库(量大+分库分表),这个阶段的业务数字和指标还可以勉强从业务数据库里查询。

初步进入工业化。

第三阶段,一般需要3-5 年左右的时间,随着业务指数级的增长,数据量的会陡增,公司角色也开始多了起来,开始有了CEO、CMO、CIO,大家需要面临的问题越来越复杂,越来越深入。

高管们关心的问题,从最初非常粗放的:“昨天的收入是多少”、“上个月的PV、UV 是多少”,逐渐演化到非常精细化和具体的用户的集群分析,特定用户在某种使用场景中,例如“20~30岁女性用户在过去五年的第一季度化妆品类商品的购买行为与公司进行的促销活动方案之间的关系”。

这类非常具体,且能够对公司决策起到关键性作用的问题,基本很难从业务数据库从调取出来。

原因在于:1. 业务数据库中的数据结构是为了完成交易而设计的,不是为了而查询和分析的便利设计的。

2. 业务数据库大多是读写优化的,即又要读(查看商品信息),也要写(产生订单,完成支付)。

因此对于大量数据的读(查询指标,一般是复杂的只读类型查询)是支持不足的。

而怎么解决这个问题,此时我们就需要建立一个数据仓库了,公司也算开始进入信息化阶段了。

数据仓库的作用在于:1. 数据结构为了分析和查询的便利;2. 只读优化的数据库,即不需要它写入速度多么快,只要做大量数据的复杂查询的速度足够快就行了。

那么在这里前一种业务数据库(读写都优化)的是业务性数据库,后一种是分析性数据库,即数据仓库。

常见产品:1. 数据库比较流行的有:MySQL,Oracle,SqlServer,DB2等2. 数据仓库比较流行的有:AWS Redshift,Greenplum,Hive等操作数据存储与数据仓库的区别与联系基础概念:(抓住重点:DW是反映历史变化,ODS是反映当前变化)数据仓库(Data Warehouse):是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

时效:T+1操作数据存储(ODS):是一个面向主题的、集成的、可变的、当前的细节数据集合,用于支持企业对于即时性的、操作性的、集成的全体信息的需求。

ODS是数据仓库体系结构中的一个可选部分,是DB与DW之间的中间层,O DS具备数据仓库的部分特征和OLTP系统的部分特征。

时效:实时ODS概念的由来ODS存储了运营系统(如OLTP(联机事务处理)系统)近实时的详细数据。

ODS的概念最早是由“数据仓库之父”——Bill Inmon提出的。

ODS最初引入是为了寻找能满足快速加载和数据整合的性能要求,并且减少面向分析需求的变更和扩充对生产系统影响的解决方案,这一解决方案便是在生产系统和EDW之间增加一个数据整合层(也叫做数据缓冲层)即ODS。

具有数据整合层的作用,是提出ODS 概念的主要出发点。

随着技术的发展,近年来ODS被赋予的功能和作用也得到了延伸,目前业界普遍认同的观点是:ODS为企业原始运营数据存储提供了一个整合平台,它的信息来自于不同的运营型应用系统。

通过数据接口,在数据整合业务规则作用下,进入ODS的信息是可靠的、可信的。

ODS的工作过程生产系统中的运营数据通过ETL(抽取、转换、装载)过程进人到ODS中,生产系统之间准实时的数据交换由ODS系统完成,ODS系统同时还将整合好的生产系统下的运营数据通过ETL等方式传送到EDW中,完成运营数据从操作环境进人到分析环境的过程。

ODS是EDW的一个有益的补充和扩展。

两者相同点:∙ODS与EDW都是企业数据架构中的独立系统,两个系统都不是直接产生运营数据的系统,两个系统中的数据都是由操作环境的数据经过抽取、转换、加载(ETL)的过程而来,还要进行进一步的清理、整合等工作(EDW的数据可由ODS加载装入)。

∙ODS与EDW一样都既有细粒度的数据。

也有根据不同维度汇总的汇总数据。

∙ODS与EDW上均提供基于跨系统整合后数据的报表类应用。

两者不同之处:(主要从10个方面来叙述)虽然ODS与EDW具有一些相似之处.但两者却是完全不同的实体,下面从多个角度对比两者的不同之处。

(1) 使用角色∙ODS主要面向营业、渠道等一线生产人员和一线管理人员,为了实现准实时、跨系统的运营细节数据的查询,以获得细粒度的运营数据展现,例如渠道人员查询客户的全视图信息由ODS提供数据支撑。

∙EDW主要面向专业分析人员、辅助决策支持人员等,为了实现基于历史数据的统计分析和数据挖掘,以获得客户深层次的特征和市场发展的规律,例如专业分析人员的经营状况趋势分析由EDW提供支撑。

(2) 数据来源∙ODS需要的大部分运营数据直接来源生产系统。

ODS中的部分分析结果数据来源于EDW,例如客户洞察信息等。

∙EDW需要的运营数据,如果在ODS中已存在,EDW则直接从ODS获取这部分数据。

EDW需要的运营数据,如果在ODS中没有,EDW则直接从生产系统获取这部分数据。

(3) 数据获取性能和及时性∙ODS支持OLTP类型的数据更新,数据更新时间短,数据可实现准实时更新,性能与及时性都高于EDW 。

∙EDW中的数据一般通过批量加载进入,数据更新速度慢,无法实现准实时更新,数据更新时间不足以支持实时的报表和事件监控需求。

(4) 数据架构∙ODS以关注生产运营过程的统计与监控为主的生产视角主题域方式来组织数据。

ODS提供操作数据的统计,主要提供应用需要的细粒度运营数据。

ODS中也存在部分粗粒度汇总数据,但汇总的维度少且简单。

∙EDW关注对历史数据的深层次分析与挖掘.从分析与挖掘的需要出发按不同主题维度来汇总与组织数据。

EDW提供历史数据的展示和分析,主要提供多层粗粒度汇总数据.汇总的维度多且复杂。

(5) 数据共享能力∙ODS为其他生产系统提供运营数据的准实时数据共享服务。

∙EDW一般不为生产系统提供此类准实时的数据共享服务。

系统中的数据只供本系统分析与挖掘应用使用。

(6) 系统提供应用数据查询∙ODS提供生产环境下的数据查询,查询的交易量较小,不耗费太多资源,有确定的完成速度。

而EDW提供分析环境下的查询,查询单元量较大,消耗的资源很多,完成的速度也不确定。

∙ODS提供生产环境下实时性较高的生产经营报表,动态报表。

而EDW提供分析环境下的主题分析与挖掘报表,固态报表。

∙ODS提供面向少量维度的细粒度数据的统计,而EDW提供面向多个维度的多层粗粒度数据的主题统计、分析及深层次的挖掘。

∙ODS提供绩效管理和统计、数据质量审计和监控管理等功能。

EDW提供趋势分析、客户消费行为分析和评估等功能。

(7) 数据存储∙客户等关键实体数据。

ODS长久保存当前数据,EDW长久保存当前与历史数据。

∙详单数据。

ODS保存1个月到3个月;EDW保存2年。

∙汇总数据。

ODS保存3年;EDW保存5年。

∙其他数据。

ODS保存13个月;EDW保存3年。

(8) 系统技术特征∙ODS主要面对大并发用户数、小数据量的访问,EDW主要面对小并发用户数、大数据量的访问。

∙ODS数据库优化同时侧重索引和分区技术;EDW数据库优化主要侧重分区技术。

∙ODS支持OLTP类型和OLAP(联机分析处理)类型的数据操作,EDW支持OLAP类型的数据操作。

(9) 系统可靠性∙ODS参与运营.必须保证可靠性。

∙相对ODS,EDW可以允许有更多的脱机时间。

(10) 系统开放性∙因为需要与大量不同硬件、数据库配置的系统相互交换数据。

ODS要求比较高的系统开放性。

∙EDW一般只获取数据,而不提供给其他应用系统以多种模式直接访问,解决方案上也可采用相对封闭的数据库、软硬件平台。

ETL概念补充:ETL是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(L oad)的过程。

是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。

举一个简单的例子:ETL开发工作流程阅读更多版权声明:分享中学习,从菜鸟做起. https:///wuya814070935/article/details/70156362文章标签:个人分类:DB相关热词:jmm浅析glide浅析h264浅析可变参数列表浅析。

相关文档
最新文档