谈谈联机分析处理

谈谈联机分析处理
谈谈联机分析处理

关于数据仓库与联机分析处理的概述

一、数据仓库及数据库的概念及其特点

1、数据仓库的概念及其特点

“什么是数据仓库?”这恐怕是每一个刚刚开始接触数据仓库的技术人员都会提出的一个问题。有人认为数据仓库就是一个大的数据库,也有人认为数据仓库是一项数据管理和分析的技术。这些定义都从一定的侧面反映了数据仓库的概念,但并不全面。

目前,业界公认的数据仓库定义是由数据仓库之父W.H.Inmon在《Building the Data Warehouse》一书中给出:“数据仓库是面向主题的、集成的、随时间变化的、稳定的数据集合,用以支持管理中的决策制定过程。”

正如Inmon所描述的,数据仓库具有如下特点:

(1)数据仓库的数据是面向主题的

与传统数据库面向应用进行数据组织的特点相对应,数据仓库中的数据是面向主题进行组织的。所谓主题,是指在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。

(2)数据仓库的数据是集成的

建立数据仓库的主要目的就是为用户提供易于访问的商业信息。为了减少用户查询的响应时间,应该把数据从数据源中提取出来,放到数据仓库中去。在数据进入数据仓库之前,必须经过加工和集成,使原始数据结构做一个从面向应用到面向主题的大转变。

(3)数据仓库的数据是不可更新的

数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。数据仓库的数据不可更新使得数据仓库管理系统DWMS相比数据库管理系统DBMS而言要简单得多,同时也使我们可以对数据仓库进行最大限度的性能优化。

(4)数据仓库的数据是随时间不断变化的

数据仓库中的数据不可更新是针对应用来说的,也就是说,数据仓库的用户进行分析处理时是不进行更新操作的。但并不是说,在从数据集成输入数据仓库开始到最终被删除的整个数据生存周期中,所有的数据仓库数据都是永远不变的。数据仓库会随时间的变化不断增加新的数据内容和删去过时的数据内容。

当然,数据仓库通常还具有一些其它的特点,如数据仓库中的数据量很大、数据仓库对系统软硬件的要求较高等等。

2、数据仓库与数据库的关系及比较

传统的数据库作为数据管理的手段,主要面向一个或一组记录的查询和修改,为企业的特定应用服务,人们关心的是响应时间、数据的安全性和完整性。为此要求数据库提供完善的数据锁、事务日志和并发控制等机制,以便安全可靠地处理具体业务。

数据仓库是在数据库基础之上发展起来的,数据仓库的作用就是为复杂的数据分析和高层决策提供支持。尽管现有的数据仓库大多还是采用传统的关系数据库或改进后的关系数据库来实现,但由于两者面向的应用截然不同,因此不管是在数据模型的设计上还是在数据的物理组织上都存在着相当大的差异,如表1所示。

表1 数据仓库与数据库的对比表

二、基于数据仓库的决策支持系统

自从Inmon 首次提出数据仓库概念以后,数据仓库及其相关技术日益成熟,客观上带动了高性能和并行技术以及数据库中的知识发现等多领域的巨大进步。数据库技术的发展和激烈的市场竞争为解决DSS 问题提供了可能,人们开始提出了以数据仓库为基础、OLAP 和数据挖掘工具为手段的一整套可操作、可实施的解决方案。以数据仓库为核心的决策支持系统的结构如图1所示。

图1 基于数据仓库的决策支持系统的结构

数据库、数据仓库和共用数据接口是系统的数据管理部分,构成了整个系统的核心和基础,为上层应用提供数据。

方法库、模型库、知识库、数据挖掘工具、多维分析工具(OLAP 工具)和统计查询工具共同构成了前端分析工具层,相互配合协调,完成用户的决策处理任务。

管理工具主要完成系统的模型维护、数据仓库元数据管理、数据提取任务的管理等任务。

在这种新的DSS构架中,数据仓库、OLAP、数据挖掘和数据可视化技术具有内在的统一性,很好地解决了相互之间的衔接问题。数据仓库为OLAP和数据挖掘提供充实可靠的数据,数据挖掘所发现的知识可以用于指导OLAP的多维分析,而OLAP分析得出的新知识也可以补充到系统的知识库中。如下图:数据仓库与OLAP的关系。

这种新的DSS构架的重要意义在于重新揭示了信息的本质,表明了信息系统的设计观念从处理驱动到数据驱动的转变。过去的信息系统以大量复杂的处理过程和算法为特征,数据在这些处理中产生。而在未来的时代,信息的重点将转移到数据模式分析,信息处理技术将随数据分析处理的需求而不断进步。

三、联机分析处理(OLAP)概述

联机分析处理,英文名称为On-Line Analysis Processing,简写为。随着数据库技术的发展和应用,数据库存储的数据量从20世纪80年代的兆(M)字节及千兆(G)字节过渡到现在的兆兆(T)字节和千兆兆(P)字节,同时,用户的查询需求也越来越复杂,涉及的已不仅是查询或操纵一张关系表中的一条或几条记录,而且要对多张表中千万条记录的数据进行数据分析和信息综合,关系数据库系统已不能全部满足这一要求。操作型应用和分析型应用,特别是在性能上难以两全,人们常常在关系数据库中放宽了对冗余的限制,引入了统计及综合数据,但这些统计综合数据的应用逻辑是分散而杂乱的、非系统化的,因此分析功能有限,不灵活,维护困难。在国外,不少软件厂商采取了发展其前端产品来弥补关系数据库管理系统支持的不足,他们通过专门的数据综合引擎,辅之以更加直观的数据访问界面,力图统一分散的公共应用逻辑,在短时间内响应非数据处理专业人员的复杂查询要求。1993年,E.F.Codd(关系数据库之父)将这类技术定义为“联机分析处理”。

联机分析处理是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。决策数据是多维数据,多维数据就是决策的主要内容。OLAP专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。

联机分析处理具有灵活的分析功能、直观的数据操作和分析结果可视化表示等突出优点,从而使用户对基于大量复杂数据的分析变得轻松而高效,以利于迅速做出正

确判断。它可用于证实人们提出的复杂的假设,其结果是以图形或者表格的形式来表示的对信息的总结。它并不将异常信息标记出来,是一种知识证实的方法。它可以根据分析人员的要求,迅速灵活地对当量的数据进行复杂的查询处理,并以直观的容易理解的形式将查询结果提供给各种决策人员,使他们能够迅速准确地掌握企业的运营情况,了解市场的需求。

OLAP具有两个重要的特点:一是在线性,体现为对用户请求的快速响应和交互式操作;二是多维分析,也就是说,OLAP展现在用户面前的是一个多维视图,使用者可以对其进行各种多维分析操作。下面我们具体介绍OLAP的多维分析特性。

在实际的决策制定过程中,决策者需要的不是某一指标单一的值,而是希望从多个角度或者从不同的考察范围来观察某一指标或多个指标,通过分析对比,从而找出这些指标间隐藏的内在关系,并预测这些指标的发展趋势,即决策所需的数据总是和一些分析角度和分析指标有关。OLAP的主要工作就是将数据仓库中的数据转换到多维数据结构中,并且对上述多维数据结构执行有效且非常复杂的多维查询。

四、OLAP的多维分析以及特性

1、基本概念

(1)维

维是人们观察数据的特定角度,它是一种高层次的类型划分。例如,企业常常关心产品销售数据随时间推移而产生的变化情况,这时他是从时间的角度来观察产品的销售,所以时间就是一个维(时间维)。

(2)维的层次

人们观察数据的某个特定角度(维)还可以存在细节程度不同的多个描述方面,我们称这多个描述方面为维的层次。例如描述时间维时,可以从日、月、季度、年等不同的层次来描述,那么日、月、季度、年就是时间维的层次。

同一维的维层次结构可简可繁,这主要是因为不同分析应用对数据组织的详略程度的要求不同。在某些维中可能存在着完全不同的几条层次路径,例如时间维通常存在日历层次路径和财政层次路径,如图2所示。

图2 时间维的层次路径图

(3)维成员

维成员是维的一个取值。如果一个维是多层次的,那么该维的维成员是在不同维层次取值的组合。例如,我们考虑时间维具有日、月、年三个层次,那么“2002年12月10日”就构成了时间维的一个维成员。一个维成员并不一定在每个维层次上都要取值,例如,“2002年12月”、“2002年”都是时间维的维成员。

(4)度量

度量是我们需要分析的目标数据,有时也被称为变量。例如,用来反映一个企业经营效益好坏的销售量、销售额和库存量等。

(5)多维数据集

多维数据集是OLAP 的核心,有时也称为立方体或超立方。多维数据集是由一组维和度量组成的,可以用一个多维数组来表示:(维1,维2,……,维n ,度量)。例如,按时间、地区、专利类型组织起来的专利申请量多维数据集可以表示为:(时间,地区,专利类型,专利申请量)。对于三维数据集我们可采用图3的可视化方式表达得更清楚。如果我们在上述三维数据集的基础上再添加申请人类型维,就得到一个四维结构,当然这种维数超过三维的多维数据结构很难用可视化的方式表达清楚。

时间维

地区维

北京上海广东河北

图3 以时间、地区和专利类型三个维构成的多维数据集

(6) 数据单元

多维数据集的取值为数据单元。当在多维数据集中的每个维上都选中一个维成员以后,这些维成员的组合就唯一确定了度量的值。数据单元也就可以表示为:(维1成员,维2成员,……,维n 成员,度量值)。例如,在图2中时间、地区和专利类型维上分别选取维成员“1999年”,“北京”,“发明”,则可以唯一确定观察度量“专利申请量”的一个取值2062,这样该数据单元可表示为(1999年,北京,发明,2062)。

2、OLAP 的多维分析操作

多维分析操作是指对以多维形式组织起来的数据采取切片、切块、旋转等各种分析操作,以求剖析数据、使最终用户能从多个角度、多个侧面去观察数据库中的数据、从而深入地了解包含在数据中的信息、内涵。多维分析的基本操作有:

(1) 切片(Slice )

切片操作是在给定的多维数据集的某一个维上选定一维成员,从而得到一个多维数据子集的动作。如果有(维1,维2,……,维i ,……,维n ,度量)多维数据集,对维i 选定了某个维成员,那么(维1,维2,……,维i 成员,……,维n ,度量)就是多维数据集(维1,维2,……,维i ,……,维n ,度量)在维i 上的一个切片。

对于图2.4所示的三维数据集,我们选定专利类型维上的一个维成员(设为“发明”),就得到了在专利类型维上的一个切片,如图4所示。

时间维

时间维

图4切片

很明显,一次切片使原来的维数减一,所以得到的切片并不一定是二维的“平面”,其维数取决于原来的多维数据集的维数。

(2) 切块(Dice )

在多维数据集的某一维上选定某一区间的维成员的操作称为切块,即限制多维数据集的某一维的取值区间。

(3) 旋转(Rotate )

旋转是一种目视操作,它转动多维数据集的视角,提供数据的替代表示。旋转操作可以将多维数据集的不同维进行交换显示,从而使用户更加直观地观察数据集中不同维之间的关系。

图5的例子是把一个横向为地区,纵向为时间和专利类型的报表旋转成为横向为时间和

地区,纵向为专利类型的报表。

将行维交换为列维

图5 旋转

(4) 钻取(Drill )

钻取分为向下钻取(drill-down )和向上钻取(drill-up )。下钻操作是由不太详细的高层次汇总数据分解为更详细的低层次数据。上钻是下钻的逆操作,它是通过一个维的概念分层向上攀升,或者通过维归约,在多维数据集上进行聚集。

在图6中,(a )的例子是对时间维中的维成员“2000年”下钻以获取2000年各月的申请量数据。(b )的例子是对按月汇总数据的报表上钻以获取按年汇总数据的报表。

下钻

上钻

( a )

( b )

图6 钻取

(5) 其它OLAP 操作

在OLAP 分析操作中,还有“钻过”(drill-across )和“钻透”(drill-through )等。“钻过”涉及多个事实表的查询;“钻透”操作使用关系SQL 机制,钻到多维数据集的底层,到后端关系表。

其它的OLAP 操作还包括计算统计表中的最高或最低N 项、平均值、移动平均值、增长率、各类百分比等。

3、多维分析特性

1. 快速性. 用户对OLAP 的快速反应能力有很高的要求。

2. 可分析性. OLAP 系统应能处理与应用有关的逻辑与统计分析

3. 多维性. 多维性是OLAP 的关键属性。系统能够提供对数据分析的多维视图和多维分析。

4.信息型. 不论数据量有多大,也不管数据存储在何处,OLAP 系统应能及时获得信息,并且管理大容量信息。

五、OLAP 的12准则

准则1:OLAP 模型必须提供多维概念视图。

OLAP 必须能够提供多维概念的视图,从而使分析员能够从多种角度考查和分析系统(企业)的运营情况。OLAP 必须实现数据切片、切块、旋转、钻取、聚合等基本的数据分析动作。

准则2:透明性准则

透明性包括两层含义,一是OLAP 在体系结构中的位置对用户是透明的,二是OLAP 的数据源对用户应当是透明的,用户只需使用熟悉的查询工具进行查询,而不必关心OLAP 提供的数据是从何处抽取来的。

准则3:存取能力准则

OLAP 系统不仅能进行开放的存取,而且还提供高效的存取策略。

准则4:稳定的报表性能

OLAP 产品对于数据维数和数据维度层次的增加应当保持比较稳定的性能,即当数据维

数和数据维度层次增加时,提供给最终分析员的报表能力和响应速度不应有明显的降低。

准则5:客户/服务器体系结构

OLAP建立在客户/服务器的体系结构下,服务器端负责数据的抽取、数据存取、数据管理等复杂的功能,客户端实现较为简单的应用逻辑和用户界面。

准则6:Genertic dimensionality---维的等同性准则

每个数据维度应该具有等同的结构和操作能力

准则7:动态稀疏矩阵处理准则

OLAP需要提供高效存取数据的能力,动态稀疏矩阵处理是实现高效存取的重要技术。该准则包括两层含义:第一,对任意给定的稀疏矩阵,存在一个最优的物理视图,该视图能提供最大的内存效率和矩阵处理能力;稀疏度是数据分布的一个特征,不能适应稀疏度要求的数据分布,将会导致快速、高效操作的失效。第二,OLAP工具应当将基本物理数据单元配置给可能出现的维的子集,同时还需要提供多种动态可变的存取机制。比如B-Tree索引、散列、直接地址计算或者是多种技术的综合。使用这些技术的好处是存取速度将不会受数据维度的增减、数据集的大小而发生大的波动。

准则8:多用户支持能力准则

多个用户能够同时对一个OLAP分析模型进行并行操作,或者能够同时在同一个企业数据上建立不同的分析模型,为此OLAP工具应当提供并发访问功能,并且需要确保数据的一致性、完整性和安全性。

准则9:非受限的跨维操作

在多维数据分析中,所有维的生成和处理都是平等的。如果用户定义了维度的层次关系,则OLAP产品必须自动地提供相关层次综合数据的计算方法,而不是要求最终用户定义计算的行为。

准则10:直观的数据处理

直观的数据处理要求用户以直观易懂的方式对数据进行操作,从而使数据的内涵更容易为用户所感知。

准则11:灵活的报表生成

报表的格式可以按照任意维度、任意层次的组合来生成,这实际是对准则1的另一种补充。

准则12:非受限的维与维的层次

OLAP工具应当支持不少于15个维度的数据模型,而且应当让数据分析人员可以进行

图7 OLAP 的12准则关系

六、OLAP 的分类

如图8所示按照不同方式对OLAP 进行的分类:

图8 OLAP 的分类

MOLAP 和ROLAP (关系型联机分析处理)是目前使用最多的两种OLAP 技术,由于它们完全不同的数据表示和存储方案,从而导致了两者在不同方面各有优缺点。下面我们从三个方面来对它们进行比较:

(1) 查询性能

MOLAP 的查询响应一般较快,这主要是因为多维数据库在装载数据时,预先做了大量的计算。而在ROLAP 中进行查询分析,通常要在事实表和维表之间建立复杂的表连接,响应时间往往难以预计。虽然ROLAP 可以通过构造索引和聚集表来提高响应的速度,但查询性能仍然难以预测。

(2) 分析能力

由于MOLAP 能够清晰地表达OLAP 中的多维数据概念,具有分析的优势。但多维数据库作为一种新兴技术,还缺乏统一的标准,每个多维数据库都有自己的专用客户端接口。ROLAP 由于受到SQL 语言的约束,分析效果往往不如MOLAP 。用户的分析请求首先由

透明性准则

存取能力准则

动态稀疏矩阵处理准则 稳定的报表性能

客户机/服务器体系结构

多用户支持能力准则

ROLAP服务器转化为SQL语句,再交由RDBMS处理,RDBMS返回的结果通常还需要附加的应用程序进行多维处理后才返回给用户。

(3)数据存储和管理

MOLAP以多维数据库为核心,数据管理主要以维及维成员为主,大多数多维数据库产品提供了单元级控制,数据封锁可以达到单元级。这些管理控制均由多维数据库中的数据管理层来实现,一般不易绕过。ROLAP以传统的关系数据库系统为基础,安全性及存取控制基于表,封锁基于表、页面或行。由于这些同应用中的多维概念不直接相关,ROLAP工具必须提供额外的安全及存取控制管理,并且用户可能绕过ROLAP的安全机制直接访问数据库中的数据。

MOLAP由于数据预处理程度高,随着维数的增加会使多维数据库的规模急剧增长,不能很好地适应维数的动态变化。而ROLAP由于充分利用了现有关系数据库的成熟技术,预综合程度也具有很大的灵活性,处理大数据量和多维数的能力明显强于MOLAP。

同样,由于MOLAP预综合程度高,当数据或计算变化频繁时,有时还需要重新构建多维数据库,因此MOLAP所需要的数据加载时间也比较长。相比之下,ROLAP的数据预处理程度比较低,数据加载时间也较短,能保持较快的数据刷新周期。

从上面的分析中我们可以看出MOLAP和ROLAP各有优缺点,但它们提供给用户的分析功能基本上是一致的。在设计OLAP时,是采用MOLAP还是采用ROLAP需要根据具体情况而定,但应用的规模是一个主要的因素。如果需要建立一个大型的、功能复杂的企业级OLAP应用,最好选择ROLAP。如果需要建立一个目标单一、维数较少的数据集市,MOLAP 可能就是一个较佳的选择。

由于MOLAP和ROLAP在实际应用中各有千秋,人们自然希望能把两者的优点结合起来。近年来出现的HOLAP(Hybrid OLAP)就是对ROLAP和MOLAP优点的综合,既有处理大规模数据的能力,又可以提供很快的响应速度。HOLAP实现的基本策略就是将聚集数据存放在多维数据库中,提高访问的速度,而将最底层的细节数据以关系数据库的形式存放,解决多维数据库存储效率不高的缺点。

七、关于联机分析处理的实验核心步骤

(1)编辑多维数据集

(2)浏览多维数据集数据

(3)编辑多维数据集

(4)钻取多维数据

八、小结

本文对数据仓库、联机分析处理(OLAP) 、在决策支持系统中的作用、地位及其应用上的局限性进行了探讨, 对两者间的相互关系进行研究。认为在数据仓库和OLAP之间存在着单向支持的关系。研究清楚数据仓库和OLAP两者之间的关系, 将更好地指导企业建立以数据仓库、OLAP为基本框架的决策支持统, 有助于企业采取更广泛、更全面的视角, 对更长时间内的与市场营销相关的数据进行有效地组织, 通过对数据仓库中所蕴含的信息进行分析, 帮助决策者了解情况, 掌握有价值的决策息, 提高决策水平。

八、参考文献

[1] Codd E F, Codd S B, Salley C T. Providing OLAP (online analytical processing) to user-analy sts: an IT mandate. E f codd & Associates, 1998

[2] Thomsen E. OLAP Solutions: Building Multidimensional Information Systems, 2nd Edition. Hoboken: John Wiley & Sons, 2002

[3] 林杰斌,等.数据挖掘与OLAP理论与实务[M].北京:清华大学出版社,2003.

谈谈联机分析处理

关于数据仓库与联机分析处理的概述 一、数据仓库及数据库的概念及其特点 1、数据仓库的概念及其特点 “什么是数据仓库?”这恐怕是每一个刚刚开始接触数据仓库的技术人员都会提出的一个问题。有人认为数据仓库就是一个大的数据库,也有人认为数据仓库是一项数据管理和分析的技术。这些定义都从一定的侧面反映了数据仓库的概念,但并不全面。 目前,业界公认的数据仓库定义是由数据仓库之父W.H.Inmon在《Building the Data Warehouse》一书中给出:“数据仓库是面向主题的、集成的、随时间变化的、稳定的数据集合,用以支持管理中的决策制定过程。” 正如Inmon所描述的,数据仓库具有如下特点: (1)数据仓库的数据是面向主题的 与传统数据库面向应用进行数据组织的特点相对应,数据仓库中的数据是面向主题进行组织的。所谓主题,是指在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。 (2)数据仓库的数据是集成的 建立数据仓库的主要目的就是为用户提供易于访问的商业信息。为了减少用户查询的响应时间,应该把数据从数据源中提取出来,放到数据仓库中去。在数据进入数据仓库之前,必须经过加工和集成,使原始数据结构做一个从面向应用到面向主题的大转变。 (3)数据仓库的数据是不可更新的 数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。数据仓库的数据不可更新使得数据仓库管理系统DWMS相比数据库管理系统DBMS而言要简单得多,同时也使我们可以对数据仓库进行最大限度的性能优化。 (4)数据仓库的数据是随时间不断变化的 数据仓库中的数据不可更新是针对应用来说的,也就是说,数据仓库的用户进行分析处理时是不进行更新操作的。但并不是说,在从数据集成输入数据仓库开始到最终被删除的整个数据生存周期中,所有的数据仓库数据都是永远不变的。数据仓库会随时间的变化不断增加新的数据内容和删去过时的数据内容。 当然,数据仓库通常还具有一些其它的特点,如数据仓库中的数据量很大、数据仓库对系统软硬件的要求较高等等。 2、数据仓库与数据库的关系及比较 传统的数据库作为数据管理的手段,主要面向一个或一组记录的查询和修改,为企业的特定应用服务,人们关心的是响应时间、数据的安全性和完整性。为此要求数据库提供完善的数据锁、事务日志和并发控制等机制,以便安全可靠地处理具体业务。 数据仓库是在数据库基础之上发展起来的,数据仓库的作用就是为复杂的数据分析和高层决策提供支持。尽管现有的数据仓库大多还是采用传统的关系数据库或改进后的关系数据库来实现,但由于两者面向的应用截然不同,因此不管是在数据模型的设计上还是在数据的物理组织上都存在着相当大的差异,如表1所示。

多维数据模型与OLAP实现

多维数据模型与OLAP实现 近年来,随着网络技术和数理分析在银行业中的广泛应用,西方商业银行开始广泛采用人口地理统计理论,运用数据挖掘及商业智能 对用户请求的快速响应和交互式操作。 OLAP技术在国内兴起和发展的过程中,人们对某些基本概念还有不同的理解。比如,OLAP与多维数据模型的关系,多维数据模型与多维数据库(MDD,MultiDimensionalDatabase)的关系,MOLAP(Multidime

nsionalOLAP,多维联机分析处理)、ROLAP(RelationalOLAP,关系联机分析处理)和HOLAP(HybridOLAP,混合联机分析处理)间的差异,多维数据库与多维联机分析处理是不是完全一致等问题,还有待于进一步澄清。 一、多维数据模型及相关概念 同的维属性。 2.维:是人们观察数据的特定角度,是考虑问题时的一类属性。 属性的集合构成一个维(如时间维、机构维等)。 3.维分层:同一维度还可以存在细节程度不同的各个描述方面(如时间维可包括年、季度、月份、旬和日期等)。

4.维属性:维的一个取值,是数据项在某维中位置的描述(例如“某年某月某日”是在时间维上位置的描述)。 5.度量:立方体中的单元格,用以存放数据。 OLAP的基本多维分析操作有钻取(Rollup,Drilldown)、切片(Slice)、切块(Dice)及旋转(P 钻取包含向下钻取和向上钻取 在多维数据结构中 OLAP多维数据模型的实现有多种途径,其中主要有采用数组的多维数据库、关系型数据库以及两者相结合的方式,人们通常称之为MOLAP、ROLAP和HOLAP。但MOLAP的提法容易引起误解,毕竟根据OLAP的多维概念,ROLAP也是一种多 维数据的组织方式。

什么是联机分析处理(OLAP)

OS Java CORBA COM+ Middleware XML&WebService Patterns ONE&NET P2P Development Database Download Doc 什么是联机分析处理(OLAP ) (转载自北大高科网站,https://www.360docs.net/doc/13347307.html,/) 联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd 于1993年提出的,他同时提出了关于OLAP 的12条准则。OLAP 的提出引起了很大的反响,OLAP 作为一类产品同联机事务处理 (OLTP) 明显区分开来。 当今的数据处理大致可以分成两大类:联机事务处理OLTP (on-line transaction processing )、联机分析处理OLAP (On-Line Analytical Processing )。OLTP 是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP 是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。下表列出了OLTP 与OLAP 之间的比较。

OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。 “维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系,这种层次关系有时会相当复杂。通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。因此OLAP也可以说是多维数据分析工具的集合。 OLAP的基本多维分析操作有钻取(roll up和drill down)、切片(slice)和切块(dice)、以及旋转(pivot)、drill across、drill through 等。 ·钻取是改变维的层次,变换分析的粒度。它包括向上钻取(roll up)和向下钻取(drill down)。roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而drill down则相反,它从汇总数据深入到细节数据进行观察或增加新维。 ·切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个,则是切块。 ·旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。 OLAP有多种实现方法,根据存储数据的方式不同可以分为ROLAP、MOLAP、HOLAP。 ROLAP表示基于关系数据库的OLAP实现(Relational OLAP)。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。ROLAP将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起,形成了"星型模式"。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为"雪花模式"。 MOLAP表示基于多维数据组织的OLAP实现(Multidimensional OLAP)。以多维数据组织方式为核心,也就是说,MOLAP使用多维数组存储数据。多维数据在存储中将形成"立方块(Cube)"的结构,在MOLAP中对"立方块"的"旋转"、"切块"、"切片"是产生多维数据报表的主要技术。 HOLAP表示基于混合数据组织的OLAP实现(Hybrid OLAP)。如低层是关系型的,高层是多维矩阵型的。这种方式具有更好的灵活性。 还有其他的一些实现OLAP的方法,如提供一个专用的SQL Server,对某些存储模式(如星型、雪片型)提供对SQL查询的特殊支持。 OLAP工具是针对特定问题的联机数据访问与分析。它通过多维的方式对数据进行分析、查询和报表。维是人们观察数据的特定角度。例如,一个企业在考虑产品的销售情况时,通常从时间、地区和产品的不同角度来深入观察产品的销售情况。这里的时间、地区和产品就是维。而这些维的不同组合和所考察的度量指标构成的多维数组则是OLAP分析的基础,可形式化表示为(维1,维2,……,维n,度量指标),如(地区、时间、产品、销售额)。多维分析是指对以多维形式组织起来的数据采取切片(Slice)、切块(Dice)、钻取(Drill-down和Roll-up)、旋转(Pivot)等各种分析动作,以求剖析数据,使用户能从多个角度、多侧面地观察数据库中的数据,从而深入理解包含在数据中的信息。 根据综合性数据的组织方式的不同,目前常见的OLAP主要有基于多维数据库的MOLAP及基于关系数据库的ROLAP两种。MOLAP是以多维的方式组织和存储数据,ROLAP则利用现有的关系数据库技术来模拟多维数据。在数据仓库应用中,OLAP应用一般是数据仓库应用的前端工具,同时OLAP工具还可以同数据挖掘工具、统计分析工具配合使用,增强决策分析功能。 ? 2008 Huihoo

数据仓库与联机分析处理技术综述.

科技信息2010年第35期 SCIENCE&TECHNOLOGY INFORMATION 0引言 数据仓库(Data Warehouse,DW[1]是信息领域中近年来迅速发展起来地数据库新技术。数据仓库的建立,能充分利用已有地数据资源,把数据转换为信息,从中挖掘出知识,提炼成智慧,最终创造出效益。所以,越来越多地企业开始认识到数据仓库应用所带来地好处。 计算机系统中存在着两类不同地数据处理工作:操作型处理和分析型处理,也称作OLTP(联机事务处理和OLAP(联机分析处理。 操作型处理也叫事务处理,是指对数据库联机地日常操作,通常是对一个或一组记录地查询和修改,例如火车售票系统、银行通存通兑系统等。这些系统要求快速响应用户请求,对数据地安全性、完整性以及事务吞吐量要求很高。 分析型处理,是指对数据地查询和分析操作,通常是对海量地历史数据查询和分析,例如金融风险预测预警系统、证券股市违规分析系统。这些系统要访问地数据量非常大,查询和分析地操作十分复杂。 两者之间地差异,使得数据仓库技术就应运而生了。 1数据仓库技术 数据仓库和数据库[2]只有一字之差,似乎是一样地概念,但实际则不然。数据仓库是为了构建新的分析处理环境而出现地一种数据存储和组织技术。由于分析处理和事务处理具有极不相同地性质,因而两者对数据也有着不同的要求。数据仓库概念地创始人W.H.Inmon在其《Building the Data Warehouse》一书中,列出了操作型数据与分析型数据之间地区别,基于这些区别,可以给出数据仓库的定义:数据仓库是一个用以更好地支持企业(或组织决策分析处理的、面向主题的、集成的、不可更

数据仓库、联机分析处理与数据挖掘

数据仓库、联机分析处理与数据挖掘08 广义概念上的数据仓库是一种帮助企业做决策的体系化解决方案,它包括了三个方面的内容: ?数据仓库技术(Data Warehouse,DW) ?联机分析处理技术(On-line Analytical Processing,OLAP) ?数据挖掘技术(Data Mining,DM) 数据仓库、联机分析处理和数据挖掘作为信息处理技术是独立出现的。数据仓库用于数据的存储和组织;联机分析处理则侧重于数据的分析;数据挖掘则致力于知识的自动发现。因此这三种技术之间并没有内在的依赖关系,可以独立地应用到企业信息系统的建设之中,以提高信息系统相应的能力。但是,这三种技术之间确实存在着一定的联系性和互补性,把它们结合起来,就可以使它们的能力更充分地发挥出来。这样就形成了一种决策支持系统的架构,即DW+OLAP+DM。 1、数据仓库技术 ⑴概述 数据仓库是一种只读的、用于分析的数据库,常常作为决策支持系统的底层。它从大量的事务性数据库中抽取数据、并将其清理、转换为新的存储格式,即为了决策目标而把数据聚合在一种特殊的格式中。数据仓库是支持管理决策过程的、面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合。其中,“主题”是指用户使用数据仓库辅助决策时所关心的重点问题,每一个主题对应一个客观分析领域,如销售、成本、利润的情况等。“面向主题”就是指数据仓库中的信息是按主题组织的,按主题来提供信息。“集成的”是指数据仓库中的数据不是业务处理系统数据的简单拼凑与汇总,而是经过系统的加工整理,是相互一致的、具有代表性的数据。“随时间变化”是指数据仓库中存储的是一个时间段的数据,而不仅仅是某一个时间的数据,所以主要用于进行时间趋势分析。一般数据仓库内的数据时限为5到10年,数据量也比较大。“信息本身相对稳定”是指数据一旦进入数据仓库,一般情况下将被长期保留,变更很少。 ⑵数据仓库组织和管理数据的方法与普通数据库的不同点 主要表现在三个方面: ①它依据决策要求,只从数据库中抽取那些需要的数据,并进行一定的处理。 ②数据仓库是多维的,即数据仓库中数据的组织方式有多层的行和列。 ③它支持决策处理,不同于普通的事务处理。 ⑶数据仓库需要的数据库技术的支持:

浅析联机分析处理技术的多维数据分析多维联机分析处理如何实现

浅析联机分析处理技术的多维数据分析多维联机分析处理 如何实现 [摘要]详细阐述不同的OLAP多维数据结构和多维数据分析的动作,针对OLAP的多维数据分析与数据仓库的多维数据组织形成相互结合、相互补充的关系进行较为深入的探讨。 [关键词]数据仓库联机分析处理多维数据分析 :TP3:A:1671-7597(xx)1110077-01 一、引言 联机分析处理(Online Analytical Processing,OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的,OLAP是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入地观察。OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。

二、OLAP的多维数据结构 数据在多维空间中的分布总是稀疏的、不均匀的。在事件发生的位置,数据聚合在一起,其密度很大。因此,OLAP系统的开发者要设法解决多维数据空间的数据稀疏和数据聚合问题。事实上,有许多方法可以构造多维数据。 (一)超立方结构。超立方结构指用三维或更多的维数来描述一个对象,每个维彼此垂直。数据的测量值发生在维的交叉点上,数据空间的各个部分都有相同的维属性。 这种结构可应用在多维数据库和面向关系数据库的OLAP系统中,其主要特点是简化终端用户的操作。超立方结构有一种变形,即收缩超立方结构。这种结构的数据密度更大,数据的维数更少,并可加入额外的分析维。

(二)多立方结构。在多立方结构中,将大的数据结构分成多个多维结构。这些多维结构是大数据维数的子集,面向某一特定应用对维进行分割,即将超立方结构变为子立方结构。它具有很强的灵活性,提高了数据的分析效率。 一般来说,多立方结构灵活性较大,但超立方结构更易于理解。超立方结构可以提供高水平的报告和多维视图。多立方结构具有良好的视图翻转性和灵活性。多立方结构是存储稀疏矩阵的一个更有效方法,并能减少计算量。因此,复杂的系统及预先建立的通用应用倾向于使用多立方结构,以使数据结构能更好地得到调整,满足常用的应用需求。 许多产品结合了上述两种结构,它们的数据物理结构是多立方结构,但却利用超立方结构来进行计算,结合了超立方结构的简化性和多立方结构的旋转存储特性。 三、OLAP的多维数据分析

联机分析处理技术实验报告

本科生实验报告 ( 一) 姓名: 学院: 专业:计算机科学与技术 班级: 实验课程名称: 数据仓库与数据挖掘 实验日期: 2015 年 4 月2 日 开课时间:2014-2015 学年第二学期甘肃政法学院实验管理中心印制

2、按照Analysis Service的自学教程完成对FoodMart数据源的联机分 析。 3、在开始-设置-控制面板-管理工具-数据源(ODBC),数据源管理器 中设置和源数据的连接,“数据源名”为你的班级+学号+姓名,如T3730101张雨。 (1)打开管理工具中的数据源: (2)选择系统DNS

(3)建立名为“………….”的数据源 (4)添加,选择“Microsoft Access 驱动程序(*.mdb)”,然后单击“完成”按钮 (5)选择数据库 (6)在“ODBC Microsoft Access 安装”对话框中单击“确定”按钮。在“ODBC 数据源管理器”对话框中单击“确定”按钮。 4、在开始-设置-控制面板-管理工具-服务-MSSQLServerOLAPService, 启动该项服务。 在Analysis Manager中,单击服务器名称,即可建立与Analysis Servers 的连接;否则,在Analysis Servers 上单击右键,注册服务器,在服务器名称中输入本地计算机的名字,如pc56。本地计算

机的名字可右击:我的电脑,选择属性,网络标志,里面有本地计算机的名字。建立新的数据库,数据库名与数据源名相同,如T3730101张雨。在你所建立的数据库中,单击“新数据源”,和早期在ODBC 数据源管理器中建立的数据源连接。 (1)启动MSSQLServerOLAPService服务 (2)注册服务器 (3)建立名为“………”的新数据库 (4)建立数据源

相关文档
最新文档