从数据库到数据仓库

合集下载

数据仓库的介绍(数据仓库和数据库的区别)

数据仓库的介绍(数据仓库和数据库的区别)

数据仓库的介绍(数据仓库和数据库的区别)数据仓库的介绍⼀、数据仓库的基本概念数据仓库,英⽂名称为Data Warehouse,可简写为DW或DWH。

数据仓库顾名思义,是⼀个很⼤的数据存储集合,出于企业的分析性报告和决策⽀持⽬的⽽创建,对多样的业务数据进⾏筛选与整合。

它为企业提供⼀定的BI(商业智能)能⼒,指导业务流程改进、监视时间、成本、质量以及控制。

数据仓库的输⼊⽅是各种各样的数据源,最终的输出⽤于企业的数据分析、数据挖掘、数据报表等⽅向。

⼆、数据仓库的主要特征数据仓库是⾯向主题的(Subject-Oriented )、集成的(Integrated)、稳定的(Non-Volatile)和时变的(Time-Variant )数据集合,⽤以⽀持管理决策。

1.主题性不同于传统数据库对应于某⼀个或多个项⽬,数据仓库根据使⽤者实际需求,将不同数据源的数据在⼀个较⾼的抽象层次上做整合,所有数据都围绕某⼀主题来组织。

这⾥的主题怎么来理解呢?⽐如对于城市,“天⽓湿度分析”就是⼀个主题,对于淘宝,“⽤户点击⾏为分析”就是⼀个主题。

2.集成性数据仓库中存储的数据是来源于多个数据源的集成,原始数据来⾃不同的数据源,存储⽅式各不相同。

要整合成为最终的数据集合,需要从数据源经过⼀系列抽取、清洗、转换的过程。

3.稳定性数据仓库中保存的数据是⼀系列历史快照,不允许被修改。

⽤户只能通过分析⼯具进⾏查询和分析。

这⾥说明⼀点,数据仓库基本上是不许允许⽤户进⾏修改,删除操作的。

⼤多数的场景是⽤来查询分析数据。

4.时变性数据仓库会定期接收新的集成数据,反应出最新的数据变化。

这和稳定特点并不⽭盾。

三、数据仓库与数据库区别1、数据库数据库是⾯向交易的处理系统,它是针对具体业务在数据库联机的⽇常操作,通常对记录进⾏查询、修改。

⽤户较为关⼼操作的响应时间、数据的安全性、完整性和并发⽀持的⽤户数等问题。

传统的数据库系统作为数据管理的主要⼿段,主要⽤于操作型处理,也被称为联机事务处理 OLTP(On-Line Transaction Processing)。

数据仓库概述(概念、应用、体系结构)

数据仓库概述(概念、应用、体系结构)
使用浏览分析工具在数据仓库中寻找有用的信息; 基于数据仓库,在数据仓库系统上建立应用,形成 决策支持系统。
事务处理 分析处理
DB
从数据 OLTP 数据
DW
从数据 信息(知识) OLAP(DM、OLAM)
18
数据仓库与传统数据库的区别
19
OLTP和OLAP的区别

用户和系统的面向性:

转换描述从操作数据库到数据仓库的映射方法以及转换数据的算法访问权限备份历史存档历史信息传输历史数据获取历史数据访问等等29主题区和信息对象类型包括查询报表图像音频视频等支持数据仓库的其它信息例如信息传输系统包括的预约信息调度信息传送目标的详细描述商业查询对例如数据历史快照版本拥有权数据抽取的审计跟踪数据的使用方法30与数据访问和分析工具的集成31元数据库metadatarepository和工具32主要使用数据来源的物理结构信息企业数据模型和仓库数据模型最终用户最关心两类元数据
4
业务系统不适宜DSS应用

事务处理和分析处理的性能要求和特性不同


事务处理对数据的存取操作频率高而每次操作处理的时 间短; 在分析处理环境中,某个DSS应用程序可能需要连续几 个小时,会消耗大量的系统资源。

数据集成问题 历史数据问题 数据的综合问题(更高粒度)
5
建立数据仓库的投资回报
数据模型:(1)逻辑数据结构,包括为有效进行数据
用的数据集合,是不同于DB的一种新的数据环境, 是DW 扩 展后得到的一个混合形式。四个基本特点:面向主题的、 集成的、可变的、 当前或接近当前的。 库处理由DBMS提供的操作和约束;(2)数据表示系统( 例如,ER图和关系模型)。
25
元数据

数据库与数据仓库的区别与联系

数据库与数据仓库的区别与联系

数据库与数据仓库的区别与联系在信息时代的背景下,数据处理已经成为各行各业的核心工作。

数据库和数据仓库作为两个常见的数据管理工具,在实践中有着不同的应用场景和特点。

本文将对数据库和数据仓库的区别与联系进行探讨,以帮助读者更好地理解它们的不同之处和相互关系。

一、数据库的概念和特点数据库是指为了满足用户需求而设计、构建和维护的一系列数据集合。

数据库通过数据结构与数据管理系统,实现对数据的存储、查询、更新和删除等基本操作。

其特点主要包括以下几个方面:1. 数据持久化:数据库中的数据可以长期保留,并在需要时进行读取和修改。

2. 数据共享:数据库可以实现多个用户对数据进行共享和协作,提高数据利用效率。

3. 数据一致性:数据库通过事务机制保证数据的一致性和完整性,避免数据冗余和不一致的问题。

4. 高效查询:数据库通过索引等技术快速定位和获取用户需要的数据,提高查询效率。

二、数据仓库的概念和特点数据仓库是指按照时间顺序、面向主题和集成的方式,将多个异构的数据源进行统一整合和管理的大型数据存储库。

它主要用于支持决策分析和业务智能,具有以下特点:1. 面向主题:数据仓库基于企业的业务需求,以主题为中心组织和存储数据,方便用户进行专题分析和决策支持。

2. 集成统一:数据仓库通过数据抽取、转换和加载等技术整合来自不同来源的数据,保证数据的一致性和可信度。

3. 历史存储:数据仓库会长期保留历史数据,以支持用户对过去事务和趋势的分析和判断。

4. 复杂分析:数据仓库提供了复杂的分析功能,如数据切片、切块、钻取等,为决策提供更全面和深入的支持。

三、数据库与数据仓库的区别1. 定义和目的:数据库是为了满足用户的日常业务操作需求而设计的,而数据仓库则是为了支持决策分析和业务智能而构建的。

2. 数据类型和时效性:数据库主要存储操作性数据,如订单、库存等,具有实时性要求;数据仓库存储分析型数据,如销售趋势、市场调研等,具有较长的历史时效性。

面向应用领域的数据库新技术

面向应用领域的数据库新技术

面向应用领域的数据库新技术数据库技术被应用到特定的领域中,出现了工程数据库,地理数据库,统计数据库、科学数据库、空间数据库等多种数据库,使数据库领域中新的技术内容层出不穷。

一、数据仓库传统的数据库技术是以单一的数据资源为中心,进行各种操作型处理。

操作型处理也叫事务处理,是指对数据库联机地日常操作,通常是对一个或一组记录的查询和修改,主要是为企业的特定应用服务的,人们关心的是响应时间,数据的安全性和完整性。

分析型处理则用于管理人员的决策分析。

例如:DSS,EIS和多维分析等,经常要访问大量的历史数据。

于是,数据库由旧的操作型环境发展为一种新环境:体系化环境。

体系化环境由操作型环境和分析型环境(数据仓库级,部门级,个人级)构成。

数据仓库是体系化环境的核心,它是建立决策支持系统(DSS)的基础。

1.从数据库到数据仓库具体来说,有以下原因使得事务处理环境不适宜DSS应用⑴事务处理和分析处理的性能特性不同在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时间短,因此,系统可以允许多个用户按分时方式使用系统资源,同时保持较短的响应时间,OLTP (联机事务处理)是这种环境下的典型应用。

在分析处理环境中,某个DSS应用程序可能需要连续运行几个小时,从而消耗大量的系统资源。

将具有如此不同处理性能的两种应用放在同一个环境中运行显然是不适当的。

⑵数据集成问题DSS需要集成的数据。

全面而正确的数据是有效的分析和决策的首要前提,相关数据收集得越完整,得到的结果就越可靠。

因此,DSS不仅需要整个企业内部各部门的相关数据,还需要企业外部、竞争对手等处的相关数据。

而事务处理的目的在于使业务处理自动化,一般只需要与本部门业务有关的当前数据,对整个企业范围内的集成应用考虑很少。

当前绝大部分企业内数据的真正状况是分散而非集成的,这些数据不能成为一个统一的整体。

对于需要集成数据的DSS应用来说,必须自己在应用程序中对这些纷杂的数据进行集成。

产品经理-10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系(一)

产品经理-10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系(一)

10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系(一)作为一名数据小白,在日常讲授和杂务工作中经常会接触到数据。

随着用户数据与金融业务数据的不断累加,数据管理与处理愈发重要。

本篇文章中,无名氏将一文说明数据库、数据仓库、数据湖、数据中台的区别与联系。

作为数据相关的产品小白,在日常学习工作中经常能或者听到大家在讨论数据库,数据仓库,数据集市,数据库数据湖还有最近比较火的数据中台,似乎这些名词都与数据存在着联系,查阅各类相关书籍,大部分书籍中的内容过于专业晦涩难懂。

那么这结合我积累的相关方面知识,向大家介绍一下上述这些名词的与联系,以及在各类企业及业务范围上的适用范围,如有不准确的地方,希望大家进行指正。

相信大部分有些许技术背景的都对数据库有一定的了解,数据库是“按照数据结构来组织、存储和管理数据的仓库”,一般分为“关系型数据库”与“非关系型数据库”。

1.关系型数据库实际上回顾过去的数据库一共有三种模型,即层次模型,网状模型,关系模型。

(1)首先层次模型的数据结构为树状结构,即是一种上下级的社团组织层级关系组织数据的一种方式:(2)带状模型的数据结构为网状网状结构,即将每个数据节点与其他很多节点都连接起来:(3)关系模型的数据结构可以看做是一个二维表格,任何数据都可以通过行号与列号来唯一确定:由于相比于层次模型和网状模型,关系模型理解和使用最简单,最终基于关系型最后数据库在各行各业应用了起来。

关系模型的数学方法第一卷涉及到关系,元组,属性,笛卡尔积,域等等令人头秃的高等数学术语,这里大家如果感兴趣可以看看相关的文献,我就不放出来催眠大家了,尽管数学原理比较复杂,但如果用事务平时学习工作的具体事务举例,就相对容易理解。

我们以某公司的员工信息表为例,该公司的员工信息可以用一个表格存起来。

并且定义如下:同时部门ID对应这另一个职能部门表:我们可以通过给定一个政府部门部门名称,查到一条部门的记录,根据部门ID,又可以记述查到该部门下的员工记录,这样三维的表格就通过ID映射建立了“一对多”的关系。

大数据的发展历程

大数据的发展历程

大数据的发展历程大数据的发展历程是一个跨越了数十年的漫长旅程,它见证了从数据的初步收集到如今数据驱动决策的转变。

这个历程可以大致分为几个阶段:1. 早期数据收集与处理在计算机和信息技术的早期,数据的收集和处理非常有限。

数据主要来源于手工记录和简单的自动化系统。

这个阶段的数据量相对较小,处理速度慢,主要用于基本的统计分析。

2. 数据库和数据仓库的出现随着计算机技术的发展,数据库管理系统(DBMS)和数据仓库开始出现。

这些技术使得数据的存储、检索和分析变得更加高效。

企业开始利用这些工具来管理大量的数据,并从中提取有价值的信息。

3. 互联网的兴起与数据量的爆炸式增长20世纪90年代末,互联网的普及带来了数据量的爆炸式增长。

网页、社交媒体、在线交易等都成为了数据的重要来源。

这个阶段,数据的收集和分析开始变得更加复杂,需要更先进的技术和算法来处理。

4. 大数据技术的诞生21世纪初,随着数据量的不断增加,传统的数据处理技术已经无法满足需求。

这时,大数据技术应运而生,包括分布式存储系统(如Hadoop)、实时数据处理框架(如Apache Storm)和非传统数据库(如NoSQL数据库)。

这些技术的出现,使得处理大规模数据集成为可能。

5. 机器学习和人工智能的融合近年来,大数据与机器学习、人工智能技术的结合越来越紧密。

通过机器学习算法,可以从大量数据中自动学习和发现模式,而人工智能则进一步使得数据分析更加智能和自动化。

这不仅提高了数据处理的效率,也使得数据驱动的决策更加精准。

6. 数据治理和隐私保护随着大数据应用的广泛,数据治理和隐私保护成为了重要的议题。

企业和组织需要确保数据的安全、合规和道德使用。

数据治理框架和隐私保护法规的建立,对于保护个人隐私和数据安全至关重要。

7. 数据驱动的决策和业务模式如今,大数据已经成为许多企业和组织决策的核心。

通过分析数据,企业能够更好地理解市场趋势、消费者行为和业务流程,从而做出更加明智的决策。

从数据库到数据仓库——广电未来的制胜武器

从数据库到数据仓库——广电未来的制胜武器
作者简介 : 宣
丹( 97 ) 女 , 17 一 , 工程师 , 究方向为有线 宽带综合 管理 系统 、 研 数字 电视 管理 系统 的建立 、 数据库 、 网管等。
1 2 6 6
维普资讯
中国有线电视)0 6 20 年第 l 期 6
通过数据库系统对内部进行管理 , 时单纯 的联机事 这 务处理已经不能满足企业竞争 的需要 , 企业 除了利用
1 数据仓 库 的概 念
基本模式 , 以数据仓库的建立需要以企业为本 , 所 结合 企业经营在实践 中不断积累经验, 在运营仓 库发 展 的背景
数据仓库与数据库只有一字之差, 而且 目前一般都 采用关系数据库中的关系表结构形式 , 但两者有本质的 区别 , 其工作原理及处理过程完全不同。在数据库应用 早期 , 计算机系统所处理的是从传统手工操作 向自动化 转换的过程 , 要求的是准确、 快速 、 安全地向数据库中添 加数据 , 并能快速有效地查询相关数据 , 当时数据库刚 刚开始发展, 数据量还很少, 难以提供全面的分析和统 计, 因此数据库面对的主要是联机事务处理。
文献标识码 : C
从 数 据 库 到 数 据 仓 库 广 电未 来 的 制 胜 武 器
口宣 丹 ( 江 视台 络传 心, 湛 市电 网 输中 广东湛 2 0) 江5 0 44

要 : 目前数据爆 炸、 息 匮乏 的情 况下 , 在 信 需要 利 用数据 仓库 系统 集成 1 或 多个独 立传统数 据库 数 个
联 机 事 务处 理 发 展 到一 定 阶段 , 多 数企 业 都 能 大
19 年 , 91 号称 “ 数据库 之父” Wi a .n o 的 l mH I n l i m
在《 建立数据仓库》 一书中首次提出数据仓库的概念 :

数据仓库与数据挖掘概述

数据仓库与数据挖掘概述

统计学与数据挖掘的比较
• 统计学主要是对数量数据(数值)或连续值数据 (如年龄、工资等),进行数值计算(如初等运 算)的定量分析,得到数量信息。
• 数据挖掘主要对离散数据(如职称、病症等)进 行定性分析(覆盖、归纳等),得到规则知识。
• 统计学与数据挖掘是有区别的。但是,它们之间 是相互补充的。
1.3 数据仓库和数据挖掘的结 合
2.联机分析处理(OLAP)
• E.F.Codd认为决策分析需要对多个关系数据库共同 进行大量的综合计算才能得到结果。
• E.F.Codd在1993年提出了多维数据库和多维分析的 概念,即联机分析处理(On Line Analytical Proces sing,OLAP)概念。
• 关系数据库是二维数据(平面),多维数据库是 空间立体数据。
• OLTP是事务处理从单机到网络环境地发展新阶段。
• OLTP的特点在于事务处理量大,应用要求多个并行处理,事务处理内容比较简单且重 复率高。
• 大量的数据操作主要涉及的是一些增加、删除、修改、查询等操作。每次操作的数据 量不大且多为当前的数据。
• OLTP处理的数据是高度结构化的,数据访问路径是已知的,至少是固定的。 • OLTP面对的是事务处理操作人员和低层管理人员。 • 但是,为高层领导者提供决策分析时, OLTP则显得力不从心。
Clementine 介绍
1999年SPSS公司收购了ISL公司,对Clementine产品进行 重新整合和开发,现在Clementine已经成为SPSS公司的又 一亮点。 作为一个数据挖掘平台, Clementine结合商业 技术可以快速建立预测性模型,进而应用到商业活动中, 帮助人们改进决策过程。强大的数据挖掘功能和显著的投 资回报率使得Clementine在业界久负盛誉。同那些仅仅着 重于模型的外在表现而忽略了数据挖掘在整个业务流程中 的应用价值的其它数据挖掘工具相比, Clementine其功能 强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终, 在缩短投资回报周期的同时极大提高了投资回报率。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
•分析型数据处理的典型例子是决策支持系统(Decision Support System,简称DSS)。 •决策支持系统需要具备的基本功能是建立各种数学模型, 对数据进行统计分析,得出有用的信息作为决策的依据 和基础。 •企业的中高层管理人员经常要对数据进行分析,摸清企 业的运行状态和运行规律。
1.1.3 操作型数据和分析型数据的区别
1.3 数据仓库体系结构
.数据仓库系统由数据源、集成工具、数据仓库与数据仓库 服务器、OLAP服务器、元数据与元数据管理工具、数 据集市和前台分析工具等组成。
集成的含义: 从原有的分散的数据库数据中抽取、清洗得到 从原有的分散的数据库数据中综合得到 数据仓库建设中最关键、最复杂的步骤: 统一源数据中所有矛盾之处,如字段的同名异义、异
名同义,单位不统一,字长不一致等等。 进行数据综合和计算
综合时间:抽取数据时生成 数据仓库内部生成
二、数据仓库的数据是不可更新的
数据仓库定义: 数据仓库就是一个用以更好地支持企业或组织的决策分 析处理的、面向主题的、集成的、不可更新的、随时间 不断变化的数据集合
1.2.1 主题与面向主题
数据仓库中的数据是面向主题进行组织的 主题:是在较高层次上将企业信息系统中的数据综合 、
归类并进行分析利用的抽象 逻辑意义:对应企业中某一宏观分析领域所涉及的分析对象 较高层次:相对面向应用的数据组织方式而言的, 是指按照主
“数据仓库是与操作型系统相分离的、基于标 准企业模型集成的、带有时间属性的(即与 企业定义的时间区段相关)、面向主题及不 可更新的数据集合。”
1.2 什么是数据仓库(What)
数据仓库数据的四个基本特征: 数据仓库的数据是面向主题的 数据仓库的数据是集成的 数据仓库的数据是不可更新的 数据仓库的数据是随时间不断变化的
操作型数据 细节的 在存取瞬间是准确的 可更新 操作需求事先可知道 生命周期符合SDLC 对性能要求高 一个时刻操作一单元 事务驱动 面向应用 一次操作数据量小 支持日常操作
分析型数据 综合的,或提炼的 代表过去的数据 不更新 操作需求事先不知道 完全不同的生命周期 对性能要求宽松 一个时刻操作一集合 分析驱动 面向分析1(商品号, 库房号, 库存量, 日期, …) /* 描述的是商品的库存细节信息 */
库存表2(商品号, 库房号, 库存量, 月份, …) /* 每月月底的商品库存信息 */
… 库存表n(商品号, 库房号,…,…)
/* 时点不同的商品库存信息*/

面向主题的数据组织
独立于数据的处理逻辑, 因而可以在这种数据环境 上方便地开发新的分析型应用; 同时这种独立性也是建设企业全局数据库所 要求的; 所以面向主题——不仅适用于分析型数据环境的数 据组织方式也适用于建设企业全局数据库的数据组织 方式。
数据仓库中的数据主要共企业策划分析用,所涉及的数据 操作主要是数据查询。一旦某个原始数据进入数据仓库以 后,一般情况下不允许在修改,并且会被长期保留。
数据仓库的数据:不对历史数据修改 可以从当前的数据仓库中删去
数据仓库管理系统: 要求数据查询的速度更快 数据查询的界面更友好 数据表示更直观
三、数据随时间不断变化
(2) 数据集成问题
➢ DSS需要的数据: 全面、集成: 相关数据收集得越完整 结果就越可靠 内部数据、企业、竞争对手的数据…
➢ 事务处理的数据:与本部门业务有关 ➢ 当前数据
对整个企业范围内的集成应用考虑少
当前企业内数据的状况: 分散而非集成——这是事务处理环境所固有的 事务处理应用产生的细节数据不能成为统一的整体 DSS应用必须在应用程序中进行数据集成
商场主题: 供应商、商品、顾客等
商品: 商品固有信息: 商品号, 商品名, 类别, 颜色等; 商品采购信息: 商品号, 供应商号, 供应价, 供应日 期, 供应量等; 商品销售信息: 商品号, 顾客号, 售价, 销售日期, 销售量等; 商品库存信息: 商品号, 库房号, 库存量, 日期等;
供应商: 供应商固有信息: 供应商号, 供应商名, 地址, 电话等; 商品供应信息: 供应商号, 商品号, 供应价, 供应日期, 供应量等;
描述同一客观实体的数据与不同应用逻辑捆绑,变得不统一; 一个完整的客观实体的数据分散在不同的数据库模式中;
面向主题的数据组织
步骤: 1、 抽取主题: 按照分析的要求来确定 2、 确定每个主题所应包含的数据内容
例如:商场商品采购
在OLTP数据库中, “订单”“订单细则” “供应商” 三个数据库 模式 在数据仓库中, “供应商”是采购分析对象,重新组织“供应商” 主题
地、企业兼并 DSS应用要对分散数据进行集成,向分析人员
提供统一的数据视图
(2) 数据集成问题
“蜘蛛网”问题:
DSS应用的“抽取程序”: 数据库/文件 用户1.抽取程序
数据库/文件
用户1.抽取程序
数据库/文件 …….
蜘蛛网逐渐形成
“蜘蛛网” 问题
问题: 时间基准不统一 抽取算法不相同 参考的外部数据不同 ……….
面向主题的数据组织
主题域:一个完备的分析领域 独立性: 主题域必须具有独立内涵,要求有
明确的界限 完备性: 主题内包含任何对商品的分析处
理要求的一切内容
1.2.2 数据仓库其他三个特征
一、数据仓库的数据是集成的 二、数据仓库的数据是不可更新的 三、数据仓库数据是随时间不断变化的
一、数据仓库的数据是集成的
业界的技术报告 市场比较和分析报告 股票行情等 特点:非结构化数据
(3) 数据动态集成问题
静态集成: 集成后不再与数据源发生联系
动态集成: 以一定的周期(例如24小时)刷新集成数据
(4) 历史数据问题
历史数据问题 事务处理:当前数据、短期数据 决策分析: 必须要历史数据
(5)数据的综合问题
人事管理子系统: 员工(员工号, 姓名, 性别, 年龄, 文化程度, 部门号) 部门(部门号, 部门名称, 部门主管, 电话)
传统的面向应用数据组织方式的特点
1 详细调查:“数据”和“处理” 2 反映一个企业内数据的动态特征
便于表达企业各部门内的数据流动情况, 部门间的数据输入--处理--输出关系 3 数据库模式与实际的业务处理流程中所涉及的单据或文 档对应关系 4 没有体现数据库提出的原本意图: 数据与数据处理的分离
…… 采购表n(商品号,…,…)
/* 时间段不等的采购综合表*/ 销售表1(商品号, 顾客号, 销售日期, 售价, 销售量, … )
/* 描述的是商品的销售细节信息 */ 销售表2(商品号, 时间段, 销售总量, …)
/* 某时间段内商品销售信息 */
…… 销售表n(…,…)
/* 时间段不等的销售综合表 */
1.1.4 数据库系统的局限性
•事务处理环境不适宜DSS应用的原因: (1) 事务处理和分析处理的性能特性不同 (2) 数据集成问题 (3) 数据动态集成问题 (4) 历史数据问题 (5) 数据的综合问题
(1) 事务处理和分析处理的性能特性不同
用户的行为模式 ❖ 在事务处理环境中,数据的存取操作 频率高而每次操作处理的时间短 ❖ 在分析处理环境中,DSS应用需要运 行时间长,消耗系统资源多
结果:导致对同一问题的分析, 不同节点会产生不同的结果
(2) 数据集成问题
数据不一致问题
多个应用间的数据不一致,形式: ── 同一字段有不同数据类型(日期) ── 同一字段具有不同的名字(Gate) ── 同名字段,不同含义 (weight)
数据统一是一项很繁重的工作
(2) 数据集成问题
外部数据和非结构化数据 外部数据源: 刊物发布的统计数据
数据仓库中的数据不可更新是针对应用来说的 数据仓库的用户进行分析处理时是不进行数据更新
操作的 数据仓库的数据是随时间的变化不断变化的:
. 数据仓库随时间变化不断增加新的数据内容 . 数据仓库随时间变化不断删去旧的数据内容
操作型环境中一般只保存有60-90天的数据 数据仓库中则需要保存较长时限的数据(如5-10年)
1.1.1 操作型数据处理
•联机事务处理是操作型数据处理的典型例子,是数据库 系统的主要应用。 •联机事务处理系统的主要功能就是对交易进行处理,其 主要性能指标是事务处理效率和事务吞吐率,每个事务 处理的时间越快越好,单位时间能完成的事务数量越多 越好。
1.1.1 操作型数据处理 •基本架构:
1.1.2 分析型数据处理
第一章 从数据库到数据仓库
1.1 数据仓库产生的原因
•数据库系统: 数据管理手段, 主要用于事务处理, 在事务处理方面的应用获得了巨大的成功 数据库中保存大量的日常业务数据
•传统的DSS: 直接建立在事务处理环境上 数据库对分析处理的支持一直不能令人满意
1.1 数据仓库产生的原因
•数据处理类型:操作型处理 分析型处理
题进行数据组织的方式具有更高的数据抽象级别 对分析对象的数据的一个完整、一致的描述, 能完 整、统一地刻画各个分析对象所涉及的企业的各 项数据, 以及数据之间的联系。
1.2.1 主题与面向主题
例子:“会员制”商场 按照业务处理要求,建立的数据库模式:
采购子系统: 订单( 订单号,供应商号,总金额,日期) 订单细则(订单号,商品号,类别,单价, 数量) 供应商(供应商号,供应商名,地址,电话)
三、数据随时间不断变化
. 数据仓库中包含有大量的跟时间有关的综合数据 经常按照时间段进行综合 隔一定的时间片进行抽样 随着时间的变化不断地进行重新综合。 数据仓库数据的码键都包含时间项,以标明数据 的历史时期
1.2.3 数据仓库的功能
. 数据仓库的4个特征表明,数据仓库实际上是一 种数据存储,他将各种异构数据源中的数据集成 在一起,并保持其语义一致从而为企业决策提供 支持。
关系数据库:一组关系表
相关文档
最新文档