数据仓库基本概念

合集下载

数据仓库的介绍(数据仓库和数据库的区别)

数据仓库的介绍(数据仓库和数据库的区别)

数据仓库的介绍(数据仓库和数据库的区别)数据仓库的介绍⼀、数据仓库的基本概念数据仓库,英⽂名称为Data Warehouse,可简写为DW或DWH。

数据仓库顾名思义,是⼀个很⼤的数据存储集合,出于企业的分析性报告和决策⽀持⽬的⽽创建,对多样的业务数据进⾏筛选与整合。

它为企业提供⼀定的BI(商业智能)能⼒,指导业务流程改进、监视时间、成本、质量以及控制。

数据仓库的输⼊⽅是各种各样的数据源,最终的输出⽤于企业的数据分析、数据挖掘、数据报表等⽅向。

⼆、数据仓库的主要特征数据仓库是⾯向主题的(Subject-Oriented )、集成的(Integrated)、稳定的(Non-Volatile)和时变的(Time-Variant )数据集合,⽤以⽀持管理决策。

1.主题性不同于传统数据库对应于某⼀个或多个项⽬,数据仓库根据使⽤者实际需求,将不同数据源的数据在⼀个较⾼的抽象层次上做整合,所有数据都围绕某⼀主题来组织。

这⾥的主题怎么来理解呢?⽐如对于城市,“天⽓湿度分析”就是⼀个主题,对于淘宝,“⽤户点击⾏为分析”就是⼀个主题。

2.集成性数据仓库中存储的数据是来源于多个数据源的集成,原始数据来⾃不同的数据源,存储⽅式各不相同。

要整合成为最终的数据集合,需要从数据源经过⼀系列抽取、清洗、转换的过程。

3.稳定性数据仓库中保存的数据是⼀系列历史快照,不允许被修改。

⽤户只能通过分析⼯具进⾏查询和分析。

这⾥说明⼀点,数据仓库基本上是不许允许⽤户进⾏修改,删除操作的。

⼤多数的场景是⽤来查询分析数据。

4.时变性数据仓库会定期接收新的集成数据,反应出最新的数据变化。

这和稳定特点并不⽭盾。

三、数据仓库与数据库区别1、数据库数据库是⾯向交易的处理系统,它是针对具体业务在数据库联机的⽇常操作,通常对记录进⾏查询、修改。

⽤户较为关⼼操作的响应时间、数据的安全性、完整性和并发⽀持的⽤户数等问题。

传统的数据库系统作为数据管理的主要⼿段,主要⽤于操作型处理,也被称为联机事务处理 OLTP(On-Line Transaction Processing)。

数据仓库多维数据模型的设计

数据仓库多维数据模型的设计

1、数据仓库基本概念1.1、主题(Subject)主题就是指我们所要分析的具体方面。

例如:某年某月某地区某机型某款App的安装情况。

主题有两个元素:一是各个分析角度(维度),如时间位置;二是要分析的具体量度,该量度一般通过数值体现,如App安装量。

1.2、维(Dimension)维是用于从不同角度描述事物特征的,一般维都会有多层(Level:级别),每个Level 都会包含一些共有的或特有的属性(Attribute),可以用下图来展示下维的结构和组成:以时间维为例,时间维一般会包含年、季、月、日这几个Level,每个Level一般都会有ID、NAME、DESCRIPTION这几个公共属性,这几个公共属性不仅适用于时间维,也同样表现在其它各种不同类型的维。

1.3、分层(Hierarchy)OLAP需要基于有层级的自上而下的钻取,或者自下而上地聚合。

所以我们一般会在维的基础上再次进行分层,维、分层、层级的关系如下图:每一级之间可能是附属关系(如市属于省、省属于国家),也可能是顺序关系(如天周年),如下图所示:1.4、量度量度就是我们要分析的具体的技术指标,诸如年销售额之类。

它们一般为数值型数据。

我们或者将该数据汇总,或者将该数据取次数、独立次数或取最大最小值等,这样的数据称为量度。

1.5、粒度数据的细分层度,例如按天分按小时分。

1.6、事实表和维表事实表是用来记录分析的内容的全量信息的,包含了每个事件的具体要素,以及具体发生的事情。

事实表中存储数字型ID以及度量信息。

维表则是对事实表中事件的要素的描述信息,就是你观察该事务的角度,是从哪个角度去观察这个内容的。

事实表和维表通过ID相关联,如图所示:1.7、星形/雪花形/事实星座这三者就是数据仓库多维数据模型建模的模式上图所示就是一个标准的星形模型。

雪花形就是在维度下面又细分出维度,这样切分是为了使表结构更加规范化。

雪花模式可以减少冗余,但是减少的那点空间和事实表的容量相比实在是微不足道,而且多个表联结操作会降低性能,所以一般不用雪花模式设计数据仓库。

数据仓库的基本架构

数据仓库的基本架构

数据仓库的基本架构一、引言数据仓库是指用于支持决策制定和业务分析的数据存储和管理系统。

它的设计和构建需要考虑到数据的整合、存储、查询和分析等方面。

本文将介绍数据仓库的基本架构,包括数据仓库的概念、架构层次、数据模型和数据处理流程等内容。

二、数据仓库的概念数据仓库是一个面向主题的、集成的、稳定的、随时间变化的数据集合,用于支持管理决策。

它将来自多个异构数据源的数据进行整合,提供给决策者和分析师进行查询、分析和报告。

三、数据仓库的架构层次1. 数据源层:数据源层是数据仓库的基础,包括各种数据源,如关系型数据库、文件、Web服务等。

数据源层的数据需要进行抽取、清洗和转换,以满足数据仓库的需求。

2. 数据抽取层:数据抽取层负责从数据源层获取数据,并进行抽取、清洗和转换。

常见的数据抽取工具有Informatica、DataStage等,它们可以实现数据的增量抽取、数据清洗和数据转换等功能。

3. 数据存储层:数据存储层是数据仓库的核心组成部分,用于存储从数据源层抽取的数据。

常见的数据存储技术包括关系型数据库、列式数据库、NoSQL数据库等。

4. 数据集成层:数据集成层负责将来自不同数据源的数据进行整合,以便用户可以进行查询和分析。

数据集成层通常采用ETL(抽取、转换、加载)工具,将数据从数据存储层导入到数据集成层。

5. 元数据管理层:元数据是描述数据的数据,它描述了数据的结构、含义、关系等信息。

元数据管理层负责管理和维护元数据,以便用户可以了解数据的来源和含义。

6. 查询和分析层:查询和分析层是数据仓库的最上层,提供给用户进行查询和分析的界面。

常见的查询和分析工具有OLAP(联机分析处理)工具、数据挖掘工具等。

四、数据仓库的数据模型数据仓库的数据模型通常采用星型模型或雪花模型。

星型模型由一个事实表和多个维度表组成,事实表包含了与业务相关的度量指标,维度表包含了与事实表相关的维度信息。

雪花模型在星型模型的基础上,将维度表进一步规范化,以减少数据冗余和提高数据一致性。

数据库基础:了解数据库的基本概念和原理

数据库基础:了解数据库的基本概念和原理

数据库基础:了解数据库的基本概念和原理第一章:引言数据库是现代计算机系统中最重要的组成部分之一。

它起到存储、管理和组织数据的作用,是许多应用程序和系统的核心。

了解数据库的基本概念和原理对于学习和应用数据库技术至关重要。

本文将介绍数据库的基本概念、原理和一些常见的数据库类型。

第二章:数据库基本概念2.1 数据库的定义数据库是一个有组织的数据集合,它包含了存储在计算机上的数据以及对这些数据进行管理和访问的方法。

2.2 数据库管理系统数据库管理系统(DBMS)是用于管理数据库的软件系统。

它提供了对数据的存储、管理、查询和更新等功能。

2.3 数据库模型数据库模型是描述数据库结构和组织方式的方法。

常见的数据库模型有层次模型、网状模型、关系模型和面向对象模型等。

2.4 数据库语言数据库语言是用于与数据库进行交互的语言。

常见的数据库语言有结构化查询语言(SQL)和数据库编程语言(如PL/SQL、T-SQL等)。

第三章:数据库原理3.1 数据库的组成数据库由数据、数据结构、数据操作和数据完整性约束等组成。

数据是数据库中存储的信息,数据结构是数据的组织方式,数据操作是对数据的增删改查操作,数据完整性约束是保证数据的一致性和有效性的规则。

3.2 数据库的存储方式数据库的存储方式包括文件存储和表格存储。

文件存储是将数据以文件的形式存储在磁盘上,表格存储是将数据以表格的形式存储在数据库中。

3.3 数据库的索引数据库的索引是用于快速查找数据的数据结构。

索引可以提高数据的查询效率,常见的索引结构有B树和哈希索引等。

3.4 数据库的事务管理数据库的事务是指一组数据库操作的逻辑单元。

数据库管理系统通过事务管理机制来保证数据库操作的原子性、一致性、隔离性和持久性。

第四章:常见的数据库类型4.1 关系型数据库关系型数据库是以关系模型为基础的数据库。

它使用表格来组织和管理数据,表格中的数据通过主键和外键进行关联。

4.2 非关系型数据库非关系型数据库是一种不使用关系模型的数据库。

数据仓库 数据重要等级定义标准

数据仓库 数据重要等级定义标准

数据仓库数据重要等级定义标准在当今信息爆炸的时代,数据的重要性日益凸显。

数据不仅在商业领域中扮演着重要角色,也在科学研究、政府决策和个人生活中扮演着至关重要的角色。

针对数据的重要性,企业和组织需要建立数据仓库,并对数据进行分类和定义重要等级标准,以便更好地管理和利用数据资源。

本文将探讨数据仓库和数据重要等级定义标准的相关内容,帮助读者更好地理解这一主题。

一、数据仓库的基本概念和作用1. 数据仓库的定义数据仓库是一个用来集成和存储企业各类数据的大型数据库,用于支持企业决策制定、业务分析和数据挖掘等应用。

它是企业信息系统中的一个重要组成部分,具有数据集成、数据存储、数据管理和数据分析等功能。

2. 数据仓库的作用数据仓库的建立和运营可以帮助企业从海量数据中获取有价值的信息,支持企业管理层制定决策、优化业务流程和发现潜在商机。

数据仓库还可以提高企业对市场变化的应对能力,促进企业持续创新和发展。

二、数据重要等级定义标准的必要性3. 数据重要等级定义标准的意义随着大数据时代的到来,企业面临的数据越来越多,有些数据对企业的重要性超乎想象。

对数据进行分类和定义重要等级标准,有助于企业更加科学地管理数据资源,区分数据的重要程度,从而更好地利用数据资源,保障数据安全和隐私。

4. 数据重要等级定义标准的应用场景对数据进行重要等级定义标准,可以应用于数据备份和恢复、数据安全保护、数据使用授权等方面。

不同重要等级的数据需要采取不同的管理和保护措施,以确保数据的完整性、保密性和可用性。

三、数据重要等级定义标准的划分标准和应用方法5. 数据重要等级的划分标准对于企业来说,可以根据数据的关联性、价值性、敏感性、时效性等因素来划分数据的重要等级。

一般可以分为核心数据、关键数据、一般数据和临时数据等级别。

6. 数据重要等级的应用方法企业可以制定相应的数据管理策略和措施,针对不同重要等级的数据制定不同的备份和恢复策略、安全存储策略、权限控制策略等,以保障数据的可靠性和安全性。

数据仓库概述PPT(共 57张)

数据仓库概述PPT(共 57张)
决策支持系统:需要花数小时甚至更长时 间的处理、需要遍历数据库中的大部分数据, 进行复杂的计算,需要消耗大量的系统资源。
16
细节的
操1作.型1.数3据两者数据处理模式的分析差型数别据
综合的,或提炼的
当前数据
历史数据
更新的
不可更新,只读的
生命周期符合SDLC (软件开发生命周期)
完全不同的生命周期
对性能要求高 一个时刻操作一个单元 事务驱动 面向应用 一次操作数据量小,计算简单 支持日常操作
29
1.2 数据仓库的基本概念
数据仓库就是一个面向主题的、集成的、不可更新 的、随时间不断变化的数据集合,通常用于企业的 决策支持。
30
1.2.1 面向主题
主题:是一个抽象的概念,是在较高层次上将企业 信息系统中的数据综合、归类并进行分析利用的抽 象。在逻辑上,它对应于企业中某一宏观分析领域 所涉及的分析必须把分析数 据从事务处理环境中提取出来,按照决策支持系统处 理的需要进行重新组织,建立单独的分析型处理环境。 数据仓库正是为了构建这种新的分析型处理环境而 出现的一种数据存储和组织技术。
27
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
第1讲 数据仓库概述
1
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
2
数据仓库概述
1.1 数据仓库产生的原因 1.1.1 操作型数据处理 1.1.2 分析型数据处理 1.1.3 两种数据处理模式的差异 1.1.4 数据库系统的局限性
对性能要求宽松 一个时刻操作一个集合 分析驱动 面向分析 一次操作数据量大,计算复杂 支持管理需求

数据仓库 的名词解释

数据仓库 的名词解释

数据仓库的名词解释数据仓库的名词解释数据仓库(Data Warehouse)是指一个用于存储、整合和管理企业各个部门产生的大规模数据的集中式数据库系统。

它主要用于支持企业决策制定、战略规划以及业务分析。

数据仓库的设计和构建需要考虑数据的采集、转换、加载以及存储等多个方面,以确保数据的准确性和可用性。

一、数据仓库的基本概念数据仓库是一个面向主题的、集成的、时间一致的、非易失的数据集合,用于支持企业决策制定和业务分析。

它将来自不同数据源的数据进行抽取、转换和加载,形成一个统一的、易于查询和分析的数据源。

数据仓库的特点:1. 面向主题:数据仓库以主题为中心,将数据按照主题进行组织和存储,以满足不同部门和用户的信息需求。

2. 集成:数据仓库将来自不同数据源的数据进行整合,消除了数据冗余和不一致性。

3. 时间一致性:数据仓库中的数据是按照一致的时间标准进行存储和管理的,以支持历史数据分析和趋势预测。

4. 非易失性:数据仓库中的数据一旦存储,不会轻易被删除或修改,以确保数据的可追溯性和可靠性。

二、数据仓库的架构和组成部分数据仓库的架构通常包括数据采集、数据转换、数据加载、数据存储和数据查询等几个关键组成部分。

1. 数据采集:数据仓库的数据采集涉及到从各个数据源中提取和抽取数据的过程。

这些数据源可以是企业内部的关系型数据库、操作型数据源,也可以是外部的数据源,如Web数据、日志数据等。

数据采集可以通过ETL(Extract、Transform、Load)工具进行,在此过程中可以对数据进行清洗、转换和加工。

2. 数据转换:数据采集后,需要进行数据转换的操作,将采集到的数据进行整合和规范化。

这包括数据清洗、数据集成、数据变换等一系列处理,以确保数据的一致性和质量。

3. 数据加载:数据加载是将经过转换的数据加载到数据仓库中的过程。

数据加载可以是全量加载,也可以是增量加载。

在加载过程中,还可以对数据进行校验和验证,以确保数据的准确性和完整性。

数据仓库和OLAP的基本概念

数据仓库和OLAP的基本概念

一数据仓库与OLAP技术1 数据仓库的定义与特征1.1 数据仓库的定义数据仓库已被多种方式定义,使得很难给出一种严格的定义。

宽松地来讲,数据仓库是一个数据库,它与组织机构的操作数据库分别维护,数据仓库系统允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,为信息处理提供支持。

下面给出数据仓库之父对数据仓库的定义:数据仓库是面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于经营管理中的决策支持。

随着数据库技术的应用和发展,人们尝试对数据库DB中的数据进行再加工,形成一个综合的,面向分析的环境,以更好支持决策分析,从而形成了数据仓库技术。

其中,作为决策支持系统,数据仓库系统如图1.1包括:1. 数据仓库技术2. 联机分析处理技术3. 数据挖掘技术图1.1 数据仓库系统结构图1.2 数据仓库的特征数据仓库的四个主要特征。

1. 面向主题(subject-oriented)数据仓库中的数据是根据面向主题的方式组织的。

主题是用户所关心的数据对象,每个主题对应一个客观分析领域,如客户、商店等。

在系统中数据是根据业务流程进行组织的,同一主题的数据往往存放在多个数据表中,用户查询时需要在不同的数据表之间切换。

而在数据仓库中数据是根据主题组织的,同一主题的数据往往在一个事实表中,并且只有符合主题的数据才可进入数据仓库。

2. 集成(integrated)指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键步骤,首先要统一原始数据中的矛盾之处,还要将原始数据结构做一个从面向应用向面向主题的转变。

通常构造数据仓库是将多个数据源,如关系数据库、文件和一些外部数据源,集成在一起。

使用数据清理和数据集成技术,确保命名约定、编码结构、属性度量等的一致性。

3. 时变(time-variant)数据仓库是不同时间的数据集合,数据存储从历史的角度提供信息。

它要求数据仓库中的数据保存时限能满足进行决策分析的需要,而且数据仓库中的数据都要标明该数据的历史时期。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
总部
站点B
局部数 据仓库
局部数 据仓库
站点D
数据仓库基本概念
讨论话题三
• 数据仓库、数据集市、分析主题的关系是 什么?
• 在数据集市间如何保证数据的一致性?
数据仓库基本概念
1.5数据仓库相关概念
• BI(商务智能) • ETL(抽取、转换、加载) • META DATA(元数据) • DATA MART(数据集市) • SUBJECT(主题) • DIMENSION(维度)
数据仓库基本概念
1.2数据仓库定义及基本特性
• 1.2.1数据仓库定义 • 1.2.2数据仓库基本特性
数据仓库基本概念
1.2.1数据仓库定义
数据仓库(Data Warehouse)是一个 • 面向主题的(Subject Oriented) • 集成的(Integrate) • 相对稳定的(Non-Volatile) • 反映历史变化(Time Variant)
数据仓库基本概念
3rew
演讲完毕,谢谢听讲!
再见,see you again
2020/11/21
数据仓库基本概念
数据仓库
T1时点主题数据 ……
Tn时点主题数据
时间戳锁定数据
数据仓库基本概念
讨论话题二
• 数据库和数据仓库有什么不同?
数据仓库基本概念
数据库与数据仓库的对比
对比内容 数据内容
数据库 当前值
数据目标 数据特性
面向业务操作程序、重 复处理
动态变化、按字段更新
数据结构
使用频率 数据访问量
对响应时间的 要求
高度结构化、复杂、适 合操作计算

每个事务只访问少量记 录
以秒为单位计量
数据仓库 历史的、存档的、归纳的、计 算的数据 面向主题域、管理决策分析应 用 静态、不能直接更新、只定时 添加 简单、适合分析
中到低 有的事务可能要访问大量记录
以秒、分钟、甚至小时为计量 单位
数据仓库基本概念
1.3数据仓库与决策支持系统
数据仓库基本概念
1.1从传统数据库到数据仓库(续)
• 传统的事务处理环境不适宜于决策支持应 用
– 事务处理和分析处理的性能特性不同 – 数据集成问题 – 数据动态集成问题 – 历史数据问题 – 数据的综合问题
• 操作型环境和分析型环境的分离:数据抽取
数据仓库基本概念
现实生活中面临的问题
人们在日常生活中经常会遇到这样的情况: • 超市的经营者希望将经常被同时购买的商
数据仓库基本概念
2020/11/21
数据仓库基本概念
数据仓库基本概念
• 1.1从传统数据库到数据仓库 • 1.2数据仓库定义及基本特性 • 1.3数据仓库与决策支持系统 • 1.4数据仓库体系结构 • 1.5数据仓库相关概念
数据仓库基本概念
1.1从传统数据库到数据仓库
• 随着市场竞争的加剧,信息系统的用户已经不 满足于仅仅用计算机去处理每天所发生的事务 数据,而是需要信息——能够支持决策的信息, 去帮助管理决策。这就需要一种能够将日常业 务处理中所收集到的各种数据转变为具有商业 价值信息的技术,传统数据库系统无法承担这 一责任。因为传统数据库的处理方式和决策分 析中的数据需求不相称。这些不相称性主要表 现在决策处理中的系统响应问题、决策数据需 求的问题和决策数据操作的问题。
元数据
元数据(Meta Data)
关于数据仓库的数据,指在数据仓库建设过程中 所产生的有关数据源定义,目标定义,转换规则 等相关的关键数据。同时元数据还包含关于数据 含义的商业信息,所有这些信息都应当妥善保存, 并很好地管理。为数据仓库的发展和使用提供方 便。
数据仓库基本概念
数据集市
数据集市(Data mart)
数据仓库基本概念
商务智能
• 简单定义 综合企业所有沉淀下来的信息,用科学的分析方
法,为企业领导提供科学决策信息的过程。 • 完整定义
基于数据仓库技术的决策支持系统(DSS)。它 以数 据仓库(DW)技术为基础,通过抽取、转换和清洗 将分散在企业各处的数据整合在一起,转化为信息; 进而以联机分析处理(OLAP)工具、数据挖掘(DM) 工具、报表工具为手段将信息提升为知识;最后运 用可视化技术以快捷直观的方式将探察分析结果呈 现给最终用户,为管理决策层提供量化依据的过程。
即”小数据仓库”。如果说数据仓库是建立在 企业级的数据模型之上的话。那么数据集市就 是企业级数据仓库的一个子集,他主要面向部 门级业务,并且只是面向某个特定的主题。数 据集市可以在一定程度上缓解访问数据仓库的 瓶颈。
数据仓库基本概念
主题
主题(SUBJECT)
是一个在较高层次将数据归类的标准,每一 个主题对应一个宏观的分析领域,针对具体决 策需求可细化为多个主题表,具体来说就是确 定决策涉及的范围和所要解决的问题。
成为DSS实施中的一个瓶颈。
数据仓库基本概念
基于数据仓库的DSS
基于数据仓库的DSS
– 数据仓库为DSS的发展开辟了新途径 – 目前DSS的开发模式(BI解决方案)
• 以数据仓库技术为基础 • 以联机分析、数据挖掘工具为手段
数据仓库基本概念
数据源
外部数据 业务数据系统 市场调查信息 专家经验数据
• 决策支持系统的发展阶段
– 初始阶段(DSS阶段) – 与专家系统结合阶段(IDSS阶段) – 基于数据仓库技术阶段(BI阶段)
• 基于数据仓库的决策支持系统
数据仓库基本概念
DSS的先天不足
DSS的先天不足
– 决策所需信息不足,难以满足决策支持系统的 需要。
– 模型库提供的分析能力有限 – 人机接口部件占整个DSS开发工作量的一半 ,
数据仓库 查询管理
服务器
数据仓库基本概念
1.4.4单一数据仓库结构
• 将所有的主题都集中到一个大型数据库中的体 系结构。数据源中数据被按照同一标准抽取到 独立的数据仓库中,用户在使用时再根据主题 将数据仓库中的数据发布到数据集市中。
业务 系统 数据

数据 仓库
数据 集市
1
数据 集市
2
数据仓库 查询管理
的数据集合,用于支持管理决策。
数据仓库基本概念
1.2数据仓库定义
• 数据仓库是在企业管理和决策中面向主题的、 集成的、与时间相关的、不可修改的数据集合。
数据仓库之父--Bill Inmon
数据仓库基本概念
1.2数据仓库基本特性
面向主题性 数据集成性 数据的时变性 数据的非易失性
数据仓库基本概念

1节级数据
数据集市1
数据集市2 …
数据集市n
ETL逻辑
数据仓库组织与管理 元数据(MetaData)
数据利用
数据集市x

主题数据 ∑

主题数据
主题数据
应用环境
OLAP
DataMining
Forecasting

数据仓库基本概念
1.4.1数据仓库的概念结构
数据仓库基本概念
面临的挑战
• 如何在堆积如山的企业交易数据中发现具 有商业价值的闪光点?
• 如何使您的企业或组织在激烈的市场竞争 中保持对客户的吸引力?
• 如何预先发现和避免企业运作过程中不易 察觉的商业风险?
数据仓库基本概念
数据仓库应运而生
• 数据仓库的出现和发展是数据库和OLTP技 术发展、数据库应用深化的产物;
数据仓库基本概念
ETL
抽取、转换、加载(ETL)
数据抽取(Extract)、转换Transform)、 清洗(Cleansing)、装载(Load)的过程。 是构建数据仓库的重要一环,用户从数据源抽 取出所需的数据,经过数据清洗,最终按照预 先定义好的数据仓库模型,将数据加载到数据 仓库中去。
数据仓库基本概念


T1时点增量数据



……


Tn时点增量数据
数据仓库
初始主题数据 T1时点主题数据
…… Tn时点主题数据
数据仓库基本概念
数据的非易失性
• 数据的相对稳定性。 • 数据仓库中的数据只进行刷新,从不进行更新处理。 • 反映历史变化。
存量数据



T1时点增量数据



……


Tn时点增量数据
初始主题数据
服务器
数据仓库基本概念
1.4.5分布式数据仓库结构
• 在企业各个分公司具有相当大的独立性时,企业总部设 置一个全局数据仓库,各个分公司设置各自的局部数据 仓库。局部数据仓库主要存储各自的未经转换的细节数 据,全局数据仓库中主要存储经过转换的综合数据。
站点A
局部数 据仓库
局部数 据仓库
站点C
全局数 据仓库
• 目的是把数据库中的大量数据转化为有用 信息,为企业更好地进行决策服务。
数据仓库基本概念
讨论话题一
• 数据仓库产生的源动力是什么?数据仓库 系统是数据驱动还是需求驱动的?
数据仓库基本概念
市场需求是技术发展的源动力
“我们花了20多年的时间将数据放入数据 库,如今是该将它们拿出来的时候了。”
----著名的数据仓库专家Ralph Kimball
• 由于缺乏集中存储和管理,这些数据不能 为本企业加以利用, 不能进行有效的统计、 分析及评估,无法将这些数据转换成企业 有用的信息
数据仓库基本概念
数据爆炸问题
– 自动的数据收集工具和成熟的数据库技术导致 巨大的数据存储在文件系统、数据库和其它的 信息库中 。
– 我们会淹死在数据中, 但却为信息、知识所饿!
面向主题性
相关文档
最新文档