Data Warehouse and OLAP

合集下载

数据仓库的介绍(数据仓库和数据库的区别)

数据仓库的介绍(数据仓库和数据库的区别)

数据仓库的介绍(数据仓库和数据库的区别)数据仓库的介绍⼀、数据仓库的基本概念数据仓库,英⽂名称为Data Warehouse,可简写为DW或DWH。

数据仓库顾名思义,是⼀个很⼤的数据存储集合,出于企业的分析性报告和决策⽀持⽬的⽽创建,对多样的业务数据进⾏筛选与整合。

它为企业提供⼀定的BI(商业智能)能⼒,指导业务流程改进、监视时间、成本、质量以及控制。

数据仓库的输⼊⽅是各种各样的数据源,最终的输出⽤于企业的数据分析、数据挖掘、数据报表等⽅向。

⼆、数据仓库的主要特征数据仓库是⾯向主题的(Subject-Oriented )、集成的(Integrated)、稳定的(Non-Volatile)和时变的(Time-Variant )数据集合,⽤以⽀持管理决策。

1.主题性不同于传统数据库对应于某⼀个或多个项⽬,数据仓库根据使⽤者实际需求,将不同数据源的数据在⼀个较⾼的抽象层次上做整合,所有数据都围绕某⼀主题来组织。

这⾥的主题怎么来理解呢?⽐如对于城市,“天⽓湿度分析”就是⼀个主题,对于淘宝,“⽤户点击⾏为分析”就是⼀个主题。

2.集成性数据仓库中存储的数据是来源于多个数据源的集成,原始数据来⾃不同的数据源,存储⽅式各不相同。

要整合成为最终的数据集合,需要从数据源经过⼀系列抽取、清洗、转换的过程。

3.稳定性数据仓库中保存的数据是⼀系列历史快照,不允许被修改。

⽤户只能通过分析⼯具进⾏查询和分析。

这⾥说明⼀点,数据仓库基本上是不许允许⽤户进⾏修改,删除操作的。

⼤多数的场景是⽤来查询分析数据。

4.时变性数据仓库会定期接收新的集成数据,反应出最新的数据变化。

这和稳定特点并不⽭盾。

三、数据仓库与数据库区别1、数据库数据库是⾯向交易的处理系统,它是针对具体业务在数据库联机的⽇常操作,通常对记录进⾏查询、修改。

⽤户较为关⼼操作的响应时间、数据的安全性、完整性和并发⽀持的⽤户数等问题。

传统的数据库系统作为数据管理的主要⼿段,主要⽤于操作型处理,也被称为联机事务处理 OLTP(On-Line Transaction Processing)。

数据仓库技术在财务分析与报表中的应用

数据仓库技术在财务分析与报表中的应用

数据仓库技术在财务分析与报表中的应用引言:在当今数字化时代,数据无处不在。

对于企业而言,准确的财务分析和报表是做出决策和规划的重要依据。

数据仓库技术(Data Warehouse)作为一种高效的数据集成和分析工具,已经成为许多企业财务分析与报表的不可或缺的一部分。

本文将探讨数据仓库技术在财务分析与报表中的应用。

一、数据仓库技术的基本概念数据仓库技术是一种用于集成和存储各种来源的数据,并通过数据抽取、转换和加载(ETL)等过程进行统一清洗和加工,形成可供决策支持的高质量数据。

与传统的数据库相比,数据仓库技术更加适用于大数据量、多来源的数据处理与分析。

二、财务分析中的数据仓库应用1. 数据整合:财务分析需要涵盖多个方面的数据,如销售额、成本、利润等。

通过数据仓库技术,可以将来自不同系统和部门的数据进行整合,提供全面、一致的数据视图,为财务分析提供更准确的数据基础。

2. 数据清洗:在进行财务分析前,需要对数据进行清洗和预处理,排除错误数据和异常值的干扰。

数据仓库技术可以通过数据质量管理、数据清洗和数据校验等手段,提高数据的准确性和可靠性,保证财务分析的准确性。

3. 多维度分析:财务分析往往需要从多个维度进行分析,如时间、地区、产品等。

数据仓库技术通过多维数据建模和OLAP(在线分析处理)工具的支持,可以对数据进行快速、灵活的多维度分析,帮助企业发现业务规律和趋势。

4. 数据挖掘:财务分析不仅需要对历史数据进行分析,还需要对未来的业务趋势和风险进行预测。

数据仓库技术通过数据挖掘算法和模型的应用,可以对大数据进行智能分析和预测,发现隐藏的商机和风险。

5. 报表生成:财务报表是财务分析的重要输出结果,而数据仓库技术可以提供自动化的报表生成功能。

通过与BI(商业智能)工具的集成,可以实现个性化、动态的财务报表生成,提高企业决策效率。

三、数据仓库技术的优势和挑战数据仓库技术在财务分析与报表中的应用具有以下优势:1. 高效性:数据仓库技术采用了优化的数据存储结构和查询算法,可以实现快速的数据检索和分析,大大提高了财务分析的效率。

BI介绍

BI介绍

高层领导的强力支持 流畅的数据流 一支熟悉业务、精通技术的团队 业务驱动,业务人员与BI团队良好的沟通 业务驱动,业务人员与BI团队良好的沟通 BI 完善的推广、培训制度 功能完善的相关软件(DW、ETL、OLAP、 功能完善的相关软件(DW、ETL、OLAP、 DM)
建立模型 目前用得较多的建模技术主要有:统计分析、 神经网络、决策树、遗传算法等等 预测未来结果 通过对基本数据不断理解的交互处理而不断提 炼和调整,达到可以接受的精确程度 ,从而获得 有价值的建议
数据挖掘(Data Mining) 数据仓库( 数据挖掘(Data Mining)与数据仓库(Data Warehouse) Warehouse)没有直接的联系 在大部分情况下,数据挖掘都要把数据从数据仓 库中拿到数据挖掘库或数据集市中 为了数据挖掘你也不必非得建立一个数据仓库, 数据仓库不是必须的
BI实际上是帮助企业提高决策能力和运营能 BI实际上是帮助企业提高决策能力和运营能 力的概念、方法、过程以及软件的集合,其主要 目标是将企业所掌握的信息转换成竞争优势,提 高企业决策能力、决策效率、决策准确性。
BI平台基本架构 平台基本架构
业务数据库(OLTP) 业务数据库( ) 数据集成引擎
数据仓库的循环过程
BI项目具体实施步骤 项目具体实施步骤
1. 项目前期准备 2. 业务探索(Business Discovery) 3. 信息探索(Information Discovery) 4. 逻辑数据模型设计 5. 系统体系结构设计 6. 物理数据库设计 7. 数据转换加载ETL 8. 前端应用开发 9. 数据挖掘服务 10.元数据管理 11.数据仓库管理(处理流程与操作) 12.解决方案集成(测试验收与试运行)
BI是一个由多个组件构成的完整的数据分 BI是一个由多个组件构成的完整的数据分 析系统,面向数据仓库的海量数据,提供 多维度对视角的数据分析 Excel是桌面的办公软件,面向平面小规模 Excel是桌面的办公软件,面向平面小规模 数据的处理 BI与Excel并不矛盾,它们互为补充 BI与Excel并不矛盾,它们互为补充

数据仓库的粗略发展历程

数据仓库的粗略发展历程

数据仓库的粗略发展历程及相关概念1.1 概述数据仓库的概念可能比一般人想像的都要早一些,中间也经历比较曲折的过程。

其最初的目标是为了实现全企业的集成(Enterprise Integration),但是在发展过程中却退而求其次:建立战术性的数据集市(Data Marts)。

到目前为止,还有很多分歧、论争,很多概念模棱两可甚至是彻底的让人迷惑。

本文试图从数据仓库的发展历史中看到一些发展的脉络,了解数据仓库应该是怎么样的,并展望一下未来的数据仓库发展方向。

同时,由于新应用的不断出现,出现了很多新的概念和新的应用,这些新的应用如何统一现成完整的企业BI应用方案还存在很多争论。

本文试图对这些概念做一些简要的阐述,让大家对此有初步的了解。

1.2 粗略发展过程1.2.1 开始阶段(1978-1988)数据仓库最早的概念可以追溯到20世纪70年代MIT的一项研究,该研究致力于开发一种优化的技术架构并提出这些架构的指导性意见。

第一次,MIT的研究员将业务系统和分析系统分开,将业务处理和分析处理分成不同的层次,并采用单独的数据存储和完全不同的设计准则。

同时,MIT的研究成果与80年代提出的信息中心(Information Center)相吻合:即把那些新出现的、不可以预测的、但是大量存在的分析型的负载从业务处理系统中剥离出来。

但是限于当时的信息处理和数据存储能力,该研究只是确立了一个论点:这两种信息处理的方式差别如此之大,以至于它们只能采用完全不同的架构和设计方法。

之后,在80年代中后期,作为当时技术最先进的公司,DEC已经开始采用分布式网络架构来支持其业务应用,并且DEC公司首先将业务系统移植到其自身的RDBMS产品:RdB。

并且,DEC公司从工程部、销售部、财务部以及信息技术部抽调了不同的人员组建了新的小组,不仅研究新的分析系统架构,并要求将其应用到其全球的财务系统中。

该小组结合MIT的研究结论,建立了TA2(T echnical Architecture 2)规范,该规范定义了分析系统的四个组成部分:♦数据获取♦数据访问♦目录♦用户服务其中的数据获取和数据访问目前大家都很清楚,而目录服务是用于帮助用户在网络中找到他们想要的信息,类似于业务元数据管理;用户服务用以支持对数据的直接交互,包含了其他服务的所有人机交互界面,这是系统架构的一个非常大的转变,第一次将交互界面作为单独的组件提出来。

BI、数据仓库、OLTP、OLAP

BI、数据仓库、OLTP、OLAP

BI、数据仓库、OLTP、OLAP⼀、BI 商业智能(Business Intelligence,简称:BI),⼜称商业智慧或商务智能,指⽤现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进⾏数据分析以实现商业价值。

商业智能的概念在1996年最早由加特纳集团(Gartner Group)提出,加特纳集团将商业智能定义为:商业智能描述了⼀系列的概念和⽅法,通过应⽤基于事实的⽀持系统来辅助商业决策的制定。

商业智能技术提供使企业迅速分析数据的技术和⽅法,包括收集、管理和分析数据,将这些数据转化为有⽤的信息,然后分发到企业各处。

⼆、数据仓库 Data Warehouse,可简写为DW或DWH。

数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据⽀持的战略集合。

它是单个数据存储,出于分析性报告和决策⽀持⽬的⽽创建。

为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

数据仓库是⾯向主题的;操作型数据库的数据组织⾯向事务处理任务,⽽数据仓库中的数据是按照⼀定的主题域进⾏组织。

主题是指⽤户使⽤数据仓库进⾏决策时所关⼼的重点⽅⾯,⼀个主题通常与多个操作型信息系统相关。

数据仓库是集成的,数据仓库的数据有来⾃于分散的操作型数据,将所需数据从原来的数据中抽取出来,进⾏加⼯与集成,统⼀与综合之后才能进⼊数据仓库 概括来说,数据仓库系统是指具有综合企业数据的能⼒,能够对⼤量企业数据进⾏快速和准确分析,辅助做出更好的商业决策的系统。

它本⾝包括三部分内容:1、数据层:实现对企业操作数据的抽取、转换、清洗和汇总,形成信息数据,并存储在企业级的中⼼信息数据库中。

2、应⽤层:通过联机分析处理,甚⾄是数据挖掘等应⽤处理,实现对信息数据的分析。

3、表现层:通过前台分析⼯具,将查询报表、统计分析、多维联机分析和数据发掘的结论展现在⽤户⾯前。

从应⽤⾓度来说,数据仓库系统除了联机分析处理外,还可以采⽤传统的报表,或者采⽤数理统计和⼈⼯智能等数据挖掘⼿段,涵盖的范围更⼴;就应⽤范围⽽⾔,联机分析处理往往根据⽤户分析的主题进⾏应⽤分割,例如:销售分析、市场推⼴分析、客户利润率分析等等,每⼀个分析的主题形成⼀个OLAP应⽤,⽽所有的OLAP应⽤实际上只是数据仓库系统的⼀部分。

Chapter 3. 数据仓库与OLAP技术概述-20110922

Chapter 3. 数据仓库与OLAP技术概述-20110922
数据仓库与数据挖掘
— 第3章 —
数据仓库与OLAP概述
1
第3章 数据仓库与OLAP技术概述
什么是数据仓库? 多维数据模型 数据仓库系统结构 数据仓库实现 从数据仓库到数据挖掘
2
ห้องสมุดไป่ตู้
数据仓库的发展
IBM: 在其 在其DB2UDB发布一年后的 发布一年后的1998年9月发布 月发布5.2 发布一年后的 年 月发布 并于1998年12月推向中国市场,除了用于 月推向中国市场, 版,并于 年 月推向中国市场 除了用于OLAP 联机分析处理)的后台服务器DB2 OLAP Server外, (联机分析处理)的后台服务器 外 IBM还提供了一系列相关的产品,包括前端工具,形成 还提供了一系列相关的产品, 还提供了一系列相关的产品 包括前端工具, 一整套解决方案。 一整套解决方案。 Informix公司 在其动态服务器 公司: 在其动态服务器IDS(Informix 公司 ( Dynamic Server)中提供一系列相关选件,如高级决 )中提供一系列相关选件, 策支持选件( 策支持选件(Advanced Decision Support Option)、 )、OLAP选件(MetaCube ROLAP 选件( )、 选件 Option)、扩展并行选件(Extended Parallel )、扩展并行选件 )、扩展并行选件( Option)等,这种体系结构严谨、管理方便、索引机 这种体系结构严谨、管理方便、 ) 制完善,并行处理的效率更高, 制完善,并行处理的效率更高,其中数据仓库和数据库 查询的SQL语句的一致性使得用户开发更加简便。 语句的一致性使得用户开发更加简便。 查询的 语句的一致性使得用户开发更加简便
分析型处理
分析型处理:用于管理人员的决策分析,例如 分析型处理:用于管理人员的决策分析,例如DSS、 、 EIS、和多维分析等。它帮助决策者分析数据以察看趋 、和多维分析等。 判断问题。分析型处理经常要访问大量的历史数据, 向、判断问题。分析型处理经常要访问大量的历史数据, 支持复杂的查询。在分析型处理中, 支持复杂的查询。在分析型处理中,并不是对从事务型 中得到的细节数据进行分析。 处理环境 中得到的细节数据进行分析。细节数据量太 会严重影响分析的效率, 大,会严重影响分析的效率,而且太多的细节数据不利 于分析人员将注意力集中于有用的信息。 于分析人员将注意力集中于有用的信息。分析型处理过 程中经常用到外部数据, 程中经常用到外部数据,这部分数据不是由事务型处理 系统产生的,而是来自于其他外部数据源。 系统产生的,而是来自于其他外部数据源。

数据仓库


23
数据仓库的数据模型
面向用户的需求
概念模型
细 化层 次
信息包图 逻辑模型
星型图模型
物理数据模型 更详细的 技术细节
物理模型
24
概念模型

由于大多数商务数据是多维的, 但传统的数据模型表示三维以 上的数据有一定困难。概念模 型简化了这个过程并且允许用 户与开发者和其他用户建立联 系:




源数据 数据准备区
数据仓库
18
数据净化

当数据从源数据库中提取到数据准备区后,必须先进行数 据净化才可以装载到数据仓库中去。数据净化主要指对数 据字段的有效值检验。有效值的检验通常包括:范围检验、 枚举字段取值和相关检验。范围检验要求数据保证落在预 期的范围之内,通常对数据范围和日期范围进行检验,如 对任何在指定范围之外的日期的发票都应删除。枚举字段 取值指对一个记录在该字段的取值,若不在指定的值中, 则应该删除。相关检验要求将一个字段中的值与另外一个 字段中的值进行相关检验,即在数据库中某个字段应与另 一个字段形成外键约束。
3
事务型处理数据和分析型处理数据的区别
特性 OLTP 计 数据 汇总 视图 工作单位 存取 关注 操作 访问记录数 用户数 DB规模 优先 度量
操作处理 事务 办事员、DBA、数据库专业人员 日常操作 基于E-R,面向应用 当前的;确保最新 原始的,高度详细 详细,一般关系 短的、简单事务 读/写 数据进入 主关键字上索引/散列 数十个 数千 100MB到GB 高性能,高可用性 事务吞吐量
数据仓库
Data Warehouse
1
事务型处理


事务型处理:即操作型处理,是指对数据库的联机操作 处理OLTP。事务型处理是用来协助企业对响应事件或 事务的日常商务活动进行处理。它是事件驱动、面向应 用的,通常是对一个或一组记录的增、删、改以及简单 查询等(大量、简单、重复和例行性)。 在事务型处理环境中,数据库要求能支持日常事务中的 大量事务,用户对数据的存取操作频率高而每次操作处 理的时间短。

数据仓库技术的名词解释

数据仓库技术的名词解释随着数据的快速增长和业务需求的不断变化,数据仓库技术在企业管理和决策中变得愈发重要。

本文将对数据仓库技术中涉及的一些关键名词进行解释,帮助读者更好地理解和应用这一技术。

一、数据仓库数据仓库(Data Warehouse)是指将企业内部各个业务系统产生的数据进行抽取、转换和加载,经过集成、整理和归档后存放在一个统一的数据存储系统中。

通过对数据的汇总和整合,数据仓库提供了一个面向决策和分析的统一数据源,为企业提供战略决策和业务分析等方面的支持。

二、ETLETL(Extraction, Transformation and Loading)是指数据仓库中的数据抽取、转换和加载过程。

数据仓库需要从各个业务系统中抽取数据,进行清洗、转换和整理,然后加载到数据仓库中。

这一过程确保了数据的一致性和可靠性,使得数据可以被有效地用于决策分析和报表生成等业务场景中。

三、维度建模维度建模(Dimensional Modeling)是一种对数据进行建模的方法论,用于构建数据仓库中的维度模型(Dimensional Model)。

维度模型基于维度表和事实表的关系,通过定义维度和度量,将事实数据与上下文信息进行关联,提供了一种直观和灵活的数据分析方式。

维度建模常用的方法有星型模型和雪花模型。

四、星型模型星型模型(Star Schema)是一种常用的维度模型,以一个中心的事实表和多个维度表构成。

中心的事实表记录了业务过程中的事实,如销售额、订购数量等,而维度表则提供了和事实表相关的上下文信息,如产品、时间、地域等。

星型模型的简单结构和高性能查询使得其在数据仓库中被广泛采用。

五、雪花模型雪花模型(Snowflake Schema)是星型模型的一种扩展,通过将维度表进一步细化为多个层级的表,实现了对维度关系的更精细管理。

雪花模型的优势在于可以减少数据的冗余性和提升查询性能,但同时也增加了表的数量和复杂度。

在实际应用中,根据业务需求和系统性能,选择适合的维度模型是至关重要的。

BI 基本概念

因此,从技术层面上讲,商业智能不是什么新技术,它பைடு நூலகம்是数据仓库、OLAP和DM等技术的综合运用。从技术架构来讲,商业智能系统主要由数据源、数据仓库、数据集市、商业智能应用和元数据几个部分组成。
1.数据源:包括历史数据、现有业务系统数据、其他文件信息以及外部数据。
2.数据仓库系统(Data Warehouse)(包括ETL):商业智能的核心部分,存储企业中所有细节性的数据。通过ETL工具,将从数据源获得的数据进行清洗、转换、整合后,送入数据仓库。供数据集市进行汇聚。
3.数据集市(Data Mart):根据不同业务部门的需求,可以有不同的数据集市。数据集市保存的是已经汇聚过的数据,细节性低,粒度比较大。数据集市可以供部门进入OLAP分析以及决策支持或者诸如报表分析等其他应用。
4.商业智能应用:联机分析处理OLAP,数据挖掘DM等。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。数据挖掘(Data Mining)使用诸如神经网络、规则归纳等技术,用来发现数据之间的关系,做出基于数据的推断。
5.元数据:是管理商业智能系统的数据,其主要部分类似于数据字典,其内容贯穿了商业智能应用的各阶段,记录着从ETL到分析展现各个阶段和各组成部分的管理信息。在系统管理上,试图提供统一的平台对元数据进行管理和维护,并通过元数据的状态驱动系统各部分的运转。不过,就目前而言,元数据的概念在数据仓库业界尚未拥有一个统一的标准,各个数据仓库厂商的产品间元数据也是不能够互通的。
DW、OLAP、DM and BIBusiness Intelligence(BI) = Data Warehouse(DW) + OLAP + Data Mining(DM)

数据仓库和LOAP应用技术

数据仓库和LOAP应用技术传统数据库以及OLTP(On-Line Transaction Processing联机事务处理)在日常的管理事务处理中获得了巨大的成功,但是对管理人员的决策分析要求却无法满足。

因为,管理人员常常希望能够通过对组织中的大量数据进行分析,了解业务的发展趋势。

而传统数据库只保留了当前的业务处理信息,缺乏决策分析所需要的大量的历史信息。

为满足管理人员的决策分析需要,就需要在数据库的基础上产生适应决策分析的数据环境——数据仓库(Data Warehouse)。

数据仓库系统是一个信息提供平台,是决策支持系统和联机分析应用数据源的结构化数据环境。

数据仓库研究和解决从数据库中获取信息的问题。

从功能结构化分,数据仓库系统至少应该包含数据获取(Data Acquisition)、数据存储(Data Storage)、数据访问(Data Access)三个关键部分。

其体系结构如下:业务处理系统即是数据库去实现的即时记录的功能,在数据准备区进行ETF处理,数据经过抽取、转换之后加载到数据仓库中,因此也说数据仓库是利用的已经存在的历史记录去整合,是利用原有数据分析下一步行动的决策,是有风险的。

分析完主题和数据元后建立数据模型(概念模型、逻辑模型、物理模型)并形成事实表和纬度表,然后通过粒度分析将历史记录先抽取整合,然后再根据决策者可能用到的数据集合分解成若干记录,以备不同决策者使用;再利用OLAP工具技术进行数据的分析导出。

当然,这些都在了解了管理者即客户的需求之后进行的,或者是由企业的管理者自己进行的技术应用或分析。

模型设计的过程如下:数据仓库是管理决策分析的基础,要有效地利用数据仓库的信息资源,必须要有强大的工具对数据仓库的信息进行分析决策。

On-line Analytical Processing(在线分析处理或联机分析处理)就是一个应用广泛的数据仓库使用技术。

它可以根据分析人员的要求,迅速灵活地对当量的数据进行复杂的查询处理,并以直观的容易理解的形式将查询结果提供给各种决策人员,使他们能够迅速准确地掌握企业的运营情况,了解市场的需求。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Translation for Reference数据仓库与OLAP数据仓库将数据概化与合并在多维空间。

构造数据仓库涉及数据清理、数据集成和数据转换,可以看作数据挖掘的一个重要预处理步骤。

此外,数据仓库提供联机分析处理(OLAP)工具,用于各种粒度的多维数据交互分析,这样有利于有效的数据概化和数据挖掘。

许多其他数据挖掘功能,如关联、分类、预测和聚集,都可以与OLAP操作集成,以加强多个抽象层上的交互知识挖掘。

因此,数据仓库已经成为数据分析和联机分析处理日趋重要的平台,并将为数据挖掘提供有效的平台。

所以,在知识发现过程中数据仓库与OLAP成为必要的步骤。

什么是数据仓库?数据仓库为商务运作提供体系架构与工具,以便系统地组织、理解和使用其数据进行战略决策。

在当今这个竞争和快速发展的世界,数据仓库系统是一个有价值的工具。

在过去的几年中,许多公司已花费数百万美元,建立企业范围的数据仓库。

许多人感到,随着产业竞争的加剧,数据仓库成了必备的最新营销武器—一种种通过更多地了解客户需求而保住客户的途径。

“那么,确切地讲什么是数据仓库?”。

数据仓库已被多种方式定义,使得很难做出一种严格的定义。

广义地讲,数据仓库是指一个数据库,它与组织机构的操作数据库分别维护。

数据仓库系统允许将各种应用系统集成在一起。

通过为统一的历史数据分析提供可靠的平台来支持信息处理。

根据W.H.Inmon这位数据仓库系统构造方面的领头设计师的说法,“数据仓库是在支持管理部门的决策过程中的一个面向主题的、集成的、时变的、非易失的数据集合”。

这个简短而又全面的定义指出了数据仓库的主要特征。

四个关键词,面向主题的、集成的、时变的、非易失的,将数据仓库与其他数据存储库系统,如关系数据库系统、事务处理系统和文件系统相区别。

让我们进一步看看这些关键特征。

面向主题的(subject-oriented):数据仓库围绕某些主题,如顾客、供应商、产品和销售,进行组织。

数据仓库关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理。

因此,数据仓库排除对于决策支持工程无用的数据,特定地提供围绕特别主题的简明视图。

集成的(integrated):构造数据仓库通常是将多个异构数据源,如关系数据库、平面文件和联机事务处理记录,集成在一起。

使用数据清理和数据集成技术,确保命名约定、编码结构、属性度量等的一致性。

时变的(time-variant):数据存储从历史的角度(例如过去5-10年)提供信息。

数据仓库中的关键结构隐式或显式地包含时间元素。

非易失的(nonvolatile):数据仓库总是物理地分离存放数据,这些数据由操作环境下的应用数据转换而来。

由于这种分离,数据仓库不需要事务处理、恢复和并发控制机制。

通常它只需要两种数据访问:数据的初始化加载和数据访问。

概言之,数据仓库是一种语义上一致的数据存储,它作为决策支持数据模型的物理实现,并存放企业战略决策所需信息。

数据仓库也常常被看作一种体系结构,通过将异构数据源中的数据集成在一起而构造,支持结构化的和专门的查询、分析报告和决策制定。

根据上面的讨论,我们把建立数据仓库看作构造和使用数据仓库的过程。

数据仓库的构造需要数据集成、数据清理和数据合并。

数据仓库的使用常常需要一些决策支持技术。

这使得“知识工人”(例如经理、分析人员和高管们)能够使用数据仓库快捷、方便地得到数据的总体视图,根据数据仓库中的信息做出合理的决策。

有些作者只使用术语“数据仓储”表示构造数据仓库的过程,而用术语“仓库DBMS”被用于表示管理和使用数据仓库。

“组织机构如何使用数据仓库中的信息?”许多组织机构使用这些信息支持商务决策活动,包括:⑴增加顾客关注,包括分析顾客购买模式(如购买喜好、购买时间、预算周期、消费欲望);⑵根据季度、年、地区的营销情况比较,重新布置产品和管理产品组合,以便调整生产策略;⑶分析运营和查找利润源;(4)管理顾客关系,进行环境优化,管理公司资产价值。

从异构数据库集成的角度看,数据仓库也是十分有用的。

许多组织机构特地收集了多种多样数据,维护着源于复合、异构、自治、分布信息的大型数据库。

集成这些数据,并提供简便、有效的访问是非常希望的,并且也是一种挑战。

数据库业界和研究界都正朝着实现这一目标竭尽全力。

传统的异种数据库集成的数据库做方法是在多个异种数据库上建立一个包装程序和一个集成程序(或中介程序)。

当一个查询提交客户站点,首先使用元数据字典对查询进行转换,将它转换成相应个别异构站点上的查询。

然后,将这些查询映射和发送到局部查询处理器。

由不同站点返回的结果被集成为全局应答集。

这种查询驱动的(query-driven)方法需要复杂的信息过滤和集成处理,并且与局部数据源上的处理竞争资源。

对于频繁的查询,这种方法是低效的、非常昂贵的,特别是对于需要聚集操作的查询。

对于异构数据库集成的传统方法,数据仓库提供了一个有趣的替代方案。

数据仓储使用更新驱动的(update-driven)方法,而不是查询驱动的方法。

这种方法将来自多个异构源的信息预先集成,并存储在数据仓库中,供直接查询和分析。

与联机事务处理数据库不同,数据仓库不包含最近的信息。

然而,数据仓库为集成的异构数据库系统带来了高性能,因为数据被拷贝、预处理、集成、注释、汇总,并重新组织到一个语义数据存储中。

而且,在数据仓库中进行的查询处理并不影响在局部源上进行的处理。

此外,数据仓库存储并集成历史信息,支持复杂的多维查询。

这样,数据仓储在产业界已非常流行。

从数据仓储到数据挖掘数据仓库和数据集市已在广泛的应用领域使用。

几乎每个行业的商务管理人员都使用数据仓库和数据集市中的数据,进行数据分析和做出战略决策。

在许多公司,数据仓库用作企业管理的计划-执行-评估“闭环”反馈系统的一个主要部分。

数据仓库广泛用在银行、金融服务、消费物品和零售批发部门,以及诸如基于产品需求的控制生产。

通常,数据仓库使用时间越长,它进化得越好。

该进化发生多个阶段。

首先,数据仓库主要用于生成报告和回答预先定义的查询。

逐渐地,它用于分析汇总的和明细的数据,结果以报告和图表形式提供。

接着,数据仓库用于战略目的,进行多维分析和复杂的切片和切块操作。

最后,数据仓库可能用于知识发现,并使用数据挖掘工具进行战略决策。

由此而论,数据仓储工具可以分类为存取与检索工具,数据库报表工具,数据分析工具和数据挖掘工具。

商业用户需要一种手段(通过元数据)来了解数据仓库里有什么,如何访问数据仓库的内容,如何使用数据分析工具检查这些内容和如何表示分析结果。

有三种数据仓库应用:信息处理、分析处理和数据挖掘。

信息处理支持查询和基本的统计分析,并使用交叉表、表、图表或图进行报告。

数据仓库信息处理的当前趋势是构造低成本的基于Web的存取工具,然后与Web浏览器集成在一起。

分析处理支持基本的OLAP操作,包括切片与切块、下钻、上卷和转轴。

它通常以汇总的和明细的形式操作历史数据。

与信息处理相比,联机分析处理的主要优势是数据仓库的多维数据分析。

数据挖掘支持知识发现,通过找出隐藏的模式和关联,构造分析模型,进行分类和预测,并用可视化工具表示挖掘结果。

“数据挖掘与信息处理和联机分析的关系是什么?”基于查询信息处理可以发现有用的信息。

然而,这种查询的应答反映直接存放在数据库中的信息,或通过聚集函数可计算的信息。

它们不反映复杂的模式,或隐藏在数据库中的规则。

因此,信息处理不是数据挖掘。

联机分析处理向数据挖掘迈近了一步,因为它可以由用户选定的数据仓库子集得到在多粒度上汇总的信息。

OLAP和数据挖掘的功能可以视为不交的:0LAP是数据汇总/聚集工具,它帮助简化数据分析;而数据挖掘自动发现隐藏在大量数据中的隐含模式和有趣知识。

OLAP工具的目标是简化和支持交互数据分析,而数据挖掘的目标是尽可能使过程自动化,尽管允许用户指导这一过程。

在这种意义下,数据挖掘比传统的联机分析处理前进了一步。

另一种更广泛的观点可能被接受,以这种观点,数据挖掘包含数据描述和数据建模。

由于OLAP系统可以提供数据仓库中数据的一般描述,OLAP的功能基本上是用户指导的汇总和比较(通过钻取,旋转,切片,切块和其他操作)。

尽管有限,但这些都是数据挖掘功能。

然而,根据这种观点,数据挖掘涵盖的范围要比简单的0LAP操作更宽,因为它不仅执行数据汇总和比较,而且也执行关联、分类、预测、聚类、时间序列分析和其他数据分析任务。

数据挖掘不限于分析数据仓库中的数据。

它可以分析比数据仓库提供的汇总数据粒度更细的数据。

它也可以分析事务的、空间的、文本的和多媒体数据,这些数据很难用现有的多维数据库技术建模。

在这种意义下,就数据挖掘功能和处理数据的复杂性来讲,数据挖掘涵盖的范围要比OLAP更宽。

由于数据挖掘涉及的分析比OLAP更自动化、更深人,数据挖掘应有更广的应用范围。

数据挖掘可以帮助商务经理们者找到更合适的客户,也能获得决定性的对商务洞察,帮助推动市场份额和增加利润。

此外,数据挖掘能够帮助经理们了解顾客的群体特点,并据此制定最佳的价格策略;根据顾客购买模式导出的实际商品项目组、而不是直觉来调整商品捆绑销售,在降低促销费用的同时,提高总体促销的纯效益。

从联机分析处理到联机分析挖掘在数据挖掘领域,一些实质性的研究成果已被用于各种平台上的数据挖掘,这些平台包括事务数据库、关系数据库、空间数据库、文本数据库、时间序列数据库、普通文件、数据仓库等。

联机分析挖掘(0LAM,也称OLAP挖掘)将联机分析处理与数据挖掘和在多维数据库中发现知识集成在一起。

在数据挖掘系统的许多不同范例和体系结构中,OLAM由于以下原因而特别重要:数据仓库中数据的高质量:大部分数据挖掘工具需要在集成的、一致的和清理过的数据上运行,这需要昂贵的数据清理、数据变换和数据集成作为预处理步骤。

经过这些预处理而构造的数据仓库不仅用作OLAP而且也用作数据挖掘的高质量的有价值数据源。

同时也注意到,数据挖掘也可以作为数据清理和集成的有价值的工具。

围绕数据仓库的有价值的信息处理基础设施:综合的数据处理和数据分析基础设施已经或将要围绕数据仓库而系统地建立,这包括存取、集成、合并、多个异构数据库的转换、ODBC /OLE DB连接、Web访问和服务工具以及报表和OLAP分析工具。

谨慎的做法是尽量利用可用的基础设施,而不是一切从头做起。

基于OLAP的探索性数据分析:有效的数据挖掘需要探索性数据分析。

用户常常想浏览数据库,选择相关数据,以不同的粒度分析它们,并且以不同的形式表示知识/结果。

联机分析数据挖掘为在不同的数据子集和不同的抽象层上进行数据挖掘提供工具,在数据立方体和一些挖掘的中间结果数据上进行钻取、旋转、过滤、切块、切片。

这些与数据/知识可视化工具一起,将大大增强探索性数据挖掘的能力和适应性。

相关文档
最新文档