3 OLAP基本概念
数据仓库、OLAP与数据挖掘关系概述

数据仓库、OLAP与数据挖掘关系概述 摘要:数据仓库、OLAP与数据挖掘是当今的技术热点,数据仓库是一种解决数据使用的高效技术,OLAP则将数据通过多维视角和多种层次向用户进行多方式的呈现,数据挖掘为之提供了更好的决策支持和服务,同时促进了数据仓库技术的发展,本文简单介绍了这三者的概念和应用。 关键词:数据仓库 OLAP 数据挖掘
一、数据仓库 数据仓库是一种资讯系统的资料储存理论,此理论强调利用某些特殊资料储存方式,让所包含的资料,特别有利于分析处理,以产生有价值的资讯并依此作决策。利用数据仓库方式所存放的资料,具有一但存入,便不随时间而更动的特性,同时存入的资料必定包含时间属性,通常一个数据仓库皆会含有大量的历史性资料,并利用特定分析方式,自其中发掘出特定资讯。 1.1 数据仓库的特征 (1)数据仓库的数据是面向主题的。主题是一个抽象的概念,是较高层次上企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,能完整、统一地刻划各个分析对象所涉及的企业的各项数据,以及数据之间的联系。所谓较高层次是相对面向应用的数据组织方式而言的,是指按照主题进行数据组织的方式具有 更高的数据抽象级别。 (2)数据仓库的数据是集成的 。数据仓库的数据是从原有的分散的数据库数据抽取来的。数据仓库的每一个主题所对应的源数据在原有的各分散数据库中有许多重复和不一致的地方,且来源于不同的联机系统的数据都和不同的应用逻辑捆绑在一起;数据仓库中的综合数据不能从原有的数据库系统直接得到。因此在数据进入数据仓库之前,必然要经过统一与综合,这一步是数据仓库建设中最关键、最复杂的一步。 (3)数据仓库的数据是不可更新的。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。数据仓库的数据反映的是一段相当长的时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于这些快照进行统计、综合和重组的导出数据,而不是联机处理的数据。 (4)数据仓库的数据是随时间不断变化的。数据仓库的用户进行分析处理时是不进行数据更新操作的。但并不是说,在从数据集成输入数据仓库开始到最终被删除的整个数据生存周期中,所有的数据仓库数据都是永远不变的。 1.2 数据仓库的类型 数据仓库的类型根据数据仓库的数据类型和它们所解决的企业问题范围,一般可将数据仓库分为下列3种类型:企业数据仓库(EDW)、操作型数据库(ODS)和数据集市(Data Marts)。 (1)企业数据仓库为通用数据仓库,它既含有大量详细的数据,也含有大量累赘的或聚集的数据,这些数据具有不易改变性和面向历史性。此种数据仓库被采用进行涵盖多种企业领域上的战略或战术上的决策。 (2)操作型数据库既可以被用来针对工作数据做决策支持,又可用做将数据加载到数据仓库时的过度区域。与EDW相比,ODS是面向主题和面向综合的,易变的,仅含有目前的、详细的数据,不含有累计的、历史性的数据。 (3)数据集市是为了特定的应用目的或应用范围,从而数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据。几组数据集市可以组成一个EDW。 二、OLAP技术 联机分析处理(On-Line Analytical Processing,简称OLAP),是一套以多维度方式分析数据,而能弹性地提供积存上钻(Roll-up)、下钻(Drill-down)、和透视分析(pivot)等操作,呈现集成性决策信息的方法,多用于决策支持系统、商务智能或数据仓库。其主要的功能,在于方便大规模数据分析及统计计算,对决策提供参考和支持。与之相区别的是联机交易处理(OLTP)。 OLAP需以大量历史数据为基础配合上时间点的差异并对多维度及汇整型的信息进行复杂的分析。OLAP需要用户有主观的信息需求定义,因此系统效率较佳。 在实际应用中用广义和狭义两种不同的理解。广义上的理解与字面意思相同,即针对于OLTP而言,泛指一切不对数据进行输入等事务性处理,而基于已有数据进行分析的方法。但更多的情况下OLAP是被理解为其狭义上的含义,即与多维分析相关,基于立方体(CUBE)计算而进行的分析。 2.1 OLAP的多维分析特性 OLAP具有两个重要的特点:一是在线性,体现为对用户请求的快速响应和交互式操作;二是多维分析,也就是说,OLAP展现在用户面前的是一个多维视图,使用者可以对其进行各种多维分析操作。下面我们具体介绍OLAP的多维分析特性。 在实际的决策制定过程中,决策者需要的不是某一指标单一的值,而是希望从多个角度或者从不同的考察范围来观察某一指标或多个指标,通过分析对比,从而找出这些指标间隐藏的内在关系,并预测这些指标的发展趋势,即决策所需的数据总是和一些分析角度和分析指标有关。OLAP的主要工作就是将数据仓库中的数据转换到多维数据结构中,并且对上述多维数据结构执行有效且非常复杂的多维查询。 2.2 OLAP的多维分析操作 多维分析操作是指对以多维形式组织起来的数据采取切片、切块、旋转等各种分析操作,以求剖析数据、使最终用户能从多个角度、多个侧面去观察数据库中的数据、从而深入地了解包含在数据中的信息、内涵。多维分析的基本操作有: (1)切片操作:是在给定的多维数据集的某一个维上选定一维成员,从而得到一个多维数据子集的动作。如果有(维1,维2,„„,维i,„„,维n,度量)多维数据集,对维i选定了某个维成员,那么(维1,维2,„„,维i成员,„„,维n,度量)就是多维数据集(维1,维2,„„,维i,„„,维n,度量)在维i上的一个切片。 (2)切块操作:在多维数据集的某一维上选定某一区间的维成员的操作称为切块,即限制多维数据集的某一维的取值区间。 (3)旋转是一种目视操作,它转动多维数据集的视角,提供数据的替代表示。旋转操作可以将多维数据集的不同维进行交换显示,从而使用户更加直观地观察数据集中不同维之间的关系。 (4)钻取分为向下钻取和向上钻取。下钻操作是由不太详细的高层次汇总数据分解为更详细的低层次数据。上钻是下钻的逆操作,它是通过一个维的概念分层向上攀升,或者通过维归约,在多维数据集上进行聚集。 (5)在OLAP分析操作中,还有“钻过”(drill-across)和“钻透”(drill-through)等。“钻过”涉及多个事实表的查询;“钻透”操作使用关系SQL机制,钻到多维数据集的底层,到后端关系表。 (6)其它的OLAP操作还包括计算统计表中的最高或最低N项、平均值、移动平均值、增长率、各类百分比等。 三、数据挖掘 数据挖掘(Data mining),又译为资料探勘、数据挖掘、数据采矿。它是数据库知识发现(Knowledge-Discovery in Databases,缩写:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Association rule learning)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。 3.1 数据挖掘与传统数据分析的区别 数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知,有效和可实用三个特征。先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。 尽管通常数据挖掘应用于数据分析,但是像人工智能一样,它也是一个具有丰富含义的词汇,可用于不同的领域。 它与KDD的关系是:KDD是从数据中辨别有效的、新颖的、潜在有用的、最终可理解的模式的过程;而数据挖掘是KDD通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤。 3.2 数据挖掘的分析方法 数据挖掘利用的技术越多,得出的结果精确性就越高。原因很简单,对于某一种技术不适用的问题,其它方法即可能奏效,这主要取决于问题的类型以及数据的类型和规模。数据挖掘方法有多种,其中比较典型的有关联分析、序列模式分析、分类分析、聚类分析等。 (1)关联分析,即利用关联规则进行数据挖掘。在数据挖掘研究领域,对于关联分析的研究开展得比较深入,人们提出了多种关联规则的挖掘算法,如APRIORI、STEM、AIS、DHP等算法。关联分析的目的是挖掘隐藏在数据间的相互关系,它能发现数据库中形如“90%的顾客在一次购买活动中购买商品A的同时购买商品B”之类的知识。 (2)序列模式分析和关联分析相似,其目的也是为了挖掘数据之间的联系,但序列模式分析的侧重点在于分析数据间的前后序列关系。它能发现数据库中形如“在某一段时间内,顾客购买商品A,接着购买商品B,而后购买商品C,即序列A→B→C出现的频度较高”之类的知识,序列模式分析描述的问题是:在给定交易序列数据库中,每个序列是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交易序列数据库上,返回该数据库中出现的高频序列。 (3)分类分析,设有一个数据库和一组具有不同特征的标记,该数据库中的每一个记录都赋予一个类别的标记,这样的数据库称为示例数据库或训练集。分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其它数据库中的记录进行分类。目前已有多种分类分析模型得到应用,其中几种典型模型是线性回归模型、决策树模型、基本规则模型和神经网络模型。 (4) 聚类分析与分类分析不同,聚类分析输入的是一组未分类记录,并且这些记录应分成几类事先也不知道。聚类分析就是通过分析数据库中的记录数据,根据一定的分类规则,合理地划分记录集合,确定每个记录所在类别。它所采用的分类规则是由聚类分析工具决定的。聚类分析的方法很多,其中包括系统聚类法、分解法、加入法、动态聚类法、模糊聚类法、运筹方法等。采用不同的聚类方法,对于相同的记录集合可能有不同的划分结果。 四、 数据仓库、OLAP与数据挖掘的关系 数据仓库将来自于各种数据源的数据,根据不同的主题进行存储,并对原始数据进行抽取、转换和加载等一系列筛选和清理工作。OLAP则将数据通过多维视角和多种层次向用户进行多方式的呈现。数据挖掘则应用不同的算法,向用户揭示数据间的规律性,从而辅助商业决策。
OLAP技术及其在统计分析中的应用前景

1993 年 由被称为关系数据库之父 的
二、 OLAP技术在统计分析中的
应 用前 景
E.F.Codd提出的, 他认为OLTP(联机事
务处理) 已不能满足终端用户对数据 库查询分析的 需要, 利用SQL对大数据
库进行的简单查询也不能满足用户分
目前统计系统的统计分析手段
还比较落后, 基本上还是半手工状态, 还没有建立起一个有效的统计分析平 台, 在对数据量较大、 比较复杂的经济
一、 素质教育的内涵 素质是指人在先天遗传的基础上, 经过后天环境和教育的长期 内化而形成的稳 定的品质。素质教育就是以提高人的素质为目标的教育。 正确理解知识 、 能力和素质的关系是正确理解素质教育的关键。知识是人们认
分析的内容更加细致、 深人。OLAP
的一项重要功能就是可以对数据在
不同层次上进行观察分析 , 从而找出 最原始的问题所在。例如在时间序
OLAP是针对某个特定 的主题进
杂, 比如我们要了解各行业中的大中 型企业的工业总产值、 利润总额情况, 也许还要同时分析它的经济类型, 这 在传统的应用系统中是很难完成的, 而采用OLAP系统, 通过构造多维数据
1.利用OLAP技术, 可以使统计分
析的角度更加全面、 多样。传统的报 表大多只能以二维形式展现, 例如甲
④信息性: 不论数据量有多大,
也不管数据存储在何处, OLAP系统应
能及时获得信息,并且管理大容量信
息。
应 用
去 子 记
可以看 出, OLAP技术完全是为
了进行大数据量数据分析而产生的,
它可以大大提高统计数据分析的质量 和效率。
点, 为许多用户所青睐。
一、 OLAP的基本概念及原理
OLAP联机分析处理的概念是在
OLAP分析

14
多维数据分析视图
对于更多维度的数据显示,需要选择维度及其成员分布在行或者列中。 在页面上可选定多个维度,但每个维度只能显示一个成员。在行或者列 中一般只选择二个维,每个维可以多个成员。例如对6维度数据,其 MTS如下图所示。 六维MTS例
鞋
鞋 鞋 鞋 …
上海
广州 广州 广州 …
3月
1月 2月 3月 …
400
150 250 300 …
11
多维类型结构(MTS)
表示方法是:每一个维度用一条线段来表示。维度中的每 一个成员都用线段上的一个单位区间来表示。
例如,用三个线段分别表示时间、产品和指标三个维的多维类型结构 如图所示。
三维MTS例
06 年 60 230 210
05 年 80 110 210
06 年 50 250 280
05 年 100 270 310
06 年 50 330 270
05 年 50 200 320
06 年 40 220
维的层次关系图
全国
江苏
北京
上海
苏州市
扬州市
宝应县
6
OLAP 概念
维的层次与类组合图
产品维
产品产地类
产品销地类
产品用途类
产品大类
产品小类
7
OLAP 数据显示与分析
8
多维数据显示
多维数据显示方法 多维类型结构(MTS) 多维数据分析视图
OLTP与OLAP

OLTP与OLAP1.OLTP与OLAP的基本概念与主要区别1.1 OLTP是什么OLTP的全称是On-line Transaction Processing,中⽂名称是联机事务处理。
其特点是会有⾼并发且数据量级不⼤的查询,是主要⽤于管理事务(transaction-oriented)的系统。
此类系统专注于short on-line-tansactions 如INSERT, UPDATE, DELETE操作。
通常存在此类系统中的数据都是以实体对象模型来存储数据,并满⾜3NF(数据库第三范式)。
1.2 OLAP是什么OLAP的全称是 On-line Analytical Processing,中⽂名称是联机分析处理。
其特点是查询频率较OLTP系统更低,但通常会涉及到⾮常复杂的聚合计算。
OLAP系统以维度模型来存储历史数据,其主要存储描述性的数据并且在结构上都是同质的。
1.3 OLAP与OLTP的主要联系和区别既然OLTP中存放了⼤量的细节数据,为什么不直接在OLTP上进⾏分析处理呢?由于OLTP主要是为了操作数据⽽设计(操作系统),⽤于处理已知的任务和负载:常见的优化在于主码索引和散列,检索特定的记录。
去优化某⼀些特定的查询语句。
⽽OLAP则是为了分析数据⽽设计(数据仓库),其查询的⽅式往往是复杂且未知的,通常会涉及⼤量数据在汇总后的计算,这种需要基于多维视图的数据操作在OLTP上执⾏的时候性能将是⾮常差的,并且是也是极其危险的。
但是OLAP系统数据来源与各种OLTP数据库。
因为OLTP系统存储的数据往往是异质的,所以OLAP系统需要把各种来源于OLTP的异质数据通过转换(ETL)做到同质并且合并。
如下是OLTP与OLAP的区别:OLTP和OLAP的主要区别总结2.1 OLAP分类:ROLAP,MOLAP,HOLAP 根据存储数据⽅式不同划分(1)ROLAP RelationalOLAP关系OLAP—数据存储在RDMS中这是⼀种通过在RDMS后端服务和客户前端之间建⽴中间层的OLAP实现⽅式。
数据挖掘考试题库完整

一、名词解释1. 数据仓库:是一种新的数据处理体系结构 .是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化 (不同时间)的数据集合.为企业决策支持系统提供所需的集成信息。
2. 孤立点:指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。
3. OLAP:OLAP 是在OLTP 的基础上发展起来的.以数据仓库为基础的数据分析处理 .是共享多维信息的快速分析.是被专门设计用于支持复杂的分析操作 .侧重对分析人员和高层管理人员的决策支持。
4. 粒度:指数据仓库的数据单位中保存数据细化或综合程度的级别。
粒度影响存放在数据仓库中的数据量的大小 .同时影响数据仓库所能回答查询问题的细节程度。
5. 数据规范化:指将数据按比例缩放(如更换大单位).使之落入一个特定的区域(如 0-1) 以提高数据挖掘效率的方法。
规范化的常用方法有:最大-最小规范化、零-均值规范化、小数定标规范化。
6. 关联知识:是反映一个事件和其他事件之间依赖或相互关联的知识。
如果两项或多项属性之间存在关联.那么其中一项的属性值就可以依据其他属性值进行预测。
7. 数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的数据中.提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
8. OLTP:OLTP 为联机事务处理的缩写.OLAP 是联机分析处理的缩写。
前者是以数据库为基础的.面对的是操作人员和低层管理人员 .对基本数据进行查询和增、删、改等处理。
9. ROLAP:是基于关系数据库存储方式的 .在这种结构中.多维数据被映像成二维关系表.通常采用星型或雪花型架构.由一个事实表和多个维度表构成。
10. MOLAP:是基于类似于“超立方”块的OLAP 存储结构.由许多经压缩的、类似于多维数组的对象构成.并带有高度压缩的索引及指针结构 .通过直接偏移计算进行存取。
11. 数据归约:缩小数据的取值范围.使其更适合于数据挖掘算法的需要 .并且能够得到和原始数据相同的分析结果。
集成化供应链PPT

职能集成管理
将分销和运输等职能集成到物流管理中 来,制造和采购等职能集成到生产职能 中来
强调降低成本而不注重操作水平的提高
职能部门结构严谨,均有库存做缓冲;具 有较完善的内部协定
处于这一阶段 的供应链特征
以用户需求为导向,以订单完成情况 和准确性作为评价指标
这一阶段企业一般采用MRP系统进行计划和控制,技术和业务流程 之间缺乏集成,库存和浪费等问题依然存在。
络将产品送到消费者手中的将供应商、制造商、分销商、零售商、直至最终
用户连成一个整体的功能网链结构模式。
供应商的供应商
供应商
用户
用户的用户
供
需
应
核心 企业
求
源
源
物流、服务流
现金流、信息流
1、集成化供应链的基本概念
• 1.2 集成化供应链思想的提出
•
80年代末到90年代后期:高级计划排程(APS)系统、企业资源规划
调整适 应性
集成化供应链管理
创造性
信息 共享
顾客化 策略
集成化供应链管理理论模型
ISCM系统的功能模块设计
阶段5:集成化供应链动态联盟
要 13)集功成能化•管供理应向回链过面程路临管的理三转的变转:变 性能评价回路(集成化供应链管理正常运作
求满足的条件的满足程度): OLTP系统和OLAP系统的比较
职能集成管理
供应链仿真分析其可行性 集成化供应链动态联盟
持股的民营科技职公司能,建集立于成1987强年,调是全满球最足大的用电信户网络的解决需方 求。此阶段集中于处理企业
3 构建在Internet/Intranet上的集成化供应链 集成化供应链实施步骤模型图
过多关内注价部格而的对于物建设流良好,的供企应商业关系围关注绕核心职能对物流实施集成化管理,对
OLAP技术
6/3/2015
OLAP技术简介
OLAP定义
定义1 :OLAP(联机分析处理)是针对特定问题的联机数据访问和分析。通过对信息(维数据) 的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进 行深入观察。 定义2 :OLAP(联机分析处理) 是使分析人员、管理人员或执行人员能够从多种角度对从原 始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、 一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。(OLAP委员会的定义) 。
6/3/2015
OLAP技术简介
OLAP分类(三)
MOLAP的逻辑存储模型:
以多维立方体和预计算来存储,实际数据的稀疏分布以及预计算是导致MOLAP空 间急剧膨胀的主要因素。
X X
X
X
X
6/3/2015
OLAP技术简介
OLAP分类(二)
ROLAP存储模式:ROLAP数据以星型模式(Star Schema)或雪花型模式存储: 事实表:用来存储事实的度量值和各个维的码值。 。
"Dimension Table"
OLAP技术简介
OLAP分类(四)
ROLAP的优势:
没有大小限制。(因为Star Schema本身不需要额外的存储空间) 。
现有的关系数据库的技术可以沿用。
可以通过SQL实现详细数据与概要数据的存储。 现有关系型数据库已经对OLAP做了很多优化,包括并行存储、并行查询、并行数据管理、
6/3/2015
OLAP技术简介
OLAP的基本特征
快速性:用户对OLAP的快速反应能力有很高的要求。系统对用户的大部分分析要求的响应 速度应该为秒级。 可分析性:OLAP系统能处理与应用有关的任何逻辑分析和统计分析。 多维性:多维性是OLAP的关键属性。系统提供对数据的多维视图和分析,包括对层次维和 多重层次维的完全支持。 信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且 具有管理大容量信息的能力
第4章 数据仓库和OLAP
4.1 数据仓库基本概念
中间层:OLAP服务器
11
– 联机分析处理(Online Analytical Processing, OLAP)是数据仓库系统前端分析服务
的分析工具,能快速汇总大量数据并进行高效查询分析,为分析人员提供决策支持。 • 使用OLAP相关模型将多维数据上的操作映射为标准的关系操作,或者直接实现多维 数据操作 • OLAP操作可以与关联、分类、预测、聚类等数据挖掘功能结合,以加强多维数据挖 掘
物理模型设计
– 需要在充分了解数据和硬件配置的基础上确定数据的存储结构、索引策略、 数据存放位置等信息
16
4.2 数据仓库设计
物理模型设计-存储结构
– 充分考虑所选择的存储结构是否适合数据的需要 – 考虑存储时间和存储空间的利用率
17
4.2 数据仓库设计
物理模型设计-存储结构
表4-4 销售事实表存储结构关系模型
城市 销售商类型
起始地区键 地区维表
地区代码 到达地区键 成本
所在省 所在城市 所在街道
图4-4 产品销售数据仓库的事实星座模型
4.2 数据仓库设计
逻辑模型设计
– 进一步的完善和详细化设计,扩展主题域 – 奠定数据仓库的物理设计的基础
12
– 通过实体和实体之间的关系勾勒出整个企业的数据蓝图和规划 • 分析主题域,确定要装载到数据仓库的主题 • 粒度层次划分,通过估计数据量和所需的存储设备确定粒度划分方案 • 确定数据分隔策略,将逻辑上整体的数据分割成较小的、可以独立管理 的物理单元进行存储 • 定义关系模式,概念设计阶段时基本的主题已经确定,逻辑模型设计阶 段要将主题划分成多个表以及确定表的结构
20
在不同的存储设备上
OLAP 技术
服装切片
产品
北京 上海 江苏
销售数量: 10000
1
2
3
4
化妆品 玩具 服装 电器 时间(月)
3.维成员 维成员
维的一个取值、 维的一个取值、不同维层次取值的组合 、维成员描 述所关心的主题在维中的位置 数据单元可以表示为:(维1维成员,维2维成员, 维3维成员,维4维成员,观察变量值)
4.多维数据集的度量值 多维数据集的度量值
4.2 OLAP 与多维分析
4.2.1 多维基本概念 维的层次、维成员、多维数据集、数据单元、 维、维的层次、维成员、多维数据集、数据单元、 多维数据集的度量值和聚集 销售地区 1.维 维 “上卷” “下钻”
华东 华中 西南
上海
江苏
湖北
河南
云南
四川
4.2 OLAP 与多维分析
2.多维数据集 多维数据集
4.4.3 多维数据库与数据仓库
问题: 直接从业务处理系统中抽取数据 问题: 1.增加数据抽取部分的工作量 增加数据抽取部分的工作量 2.缺乏统一的数据源和结论 缺乏统一的数据源和结论 3.加大系统的维护工作量 加大系统的维护工作量 4.缺乏对元数据的有效管理 缺乏对元数据的有效管理 5.加大 加大OLAP系统的开发投入 加大 系统的开发投入
2.多维的切块 多维的切块
在(维1,维2,……,维i,……,维k,……,维n,观察变 量)多维数据集上,对维i,……,维k,选定了维成员, 那(维1,维2,……,维i成员,……,维k成员,……, 维n,观察变量)就是多维数据集(维1,维2,……,维 i,……,维k,……,维n,观察变量)在维i,……,维k 上的一个切块
2.ROLAP的功能 的功能
提供基于关系数据的商业视图 维层次支持 模型的自定义 细剖细节层次 数据的备分恢复和安全功能 元数据导航 OLAP服务器性能的协调等功能 服务器性能的协调等功能
OLAP
问、处理和分析,通过直观的方式从多个维度、 多种数据综合程度将系统的运营情况展现给使 用者。
OLTP与OLAP
随着数据库系统广泛应用,数据库系统记录和
处理的数据越来越多,及时地记录和处理企业 的各种业务数据,这些系统成为联机事务处理 (OLTP)系统。数据库技术的广泛应用和技术的 发展,人们已经不再满足于仅仅用数据库系统 来记录企业的业务活动数据和对数据的简单处 理,人们需要对企业业务活动的数据进行各种 分析,以便发现企业业务趋势,这些系统称为 联机分析处理(OLAP)系统。
维度
维的层次
人们观察数据的某个特定角度(即某个维)
还可以存在细节程度不同的多个描述方面, 我们称这个描述方面为维的层次。 一个维往往具有多个层次,例如:
描述时间维时,可以从日期、月份、季度、年等 不同层次来描述,那么日期、月份、季度、年等 就是时间维的层次; 同样,城市、地区、国家就构成了一个地理维的 多个层次。
ROLAP与MOLAP比较(续)
MOLAP的查询速度比较快,但有下面限制: 用多维数组实现多维实视图,需要很大的存储空间。在实际的数
据仓库中,每维的属性值个数可能数万。例如几万种产品、几万 个连锁店等。而实际的维数可能多达几十乃至几百。耗费的存储 空间相当可观,由此带来加载、维护等问题。 在多维数组中,很可能有些单元是空白的,如节假日商店不营业; 某些产品在某些地区不销售等。 MOLAP与关系数据库系统从存储结构到查询语言都有相当大的差别, 不可能在RDBMS的基础上实现。
MOLAP
4 4.3
OLAP分类 MOLAP
ROLAP与MOLAP比较
在MOLAP中,不但把多维实视图在概念上看成一个超立方
体,而且在物理上把多维实视图组成一个多维数组,而不 象ROLAP以表的形式存储实视图。 在MOLAP中,维的属性值被映射成多维数组的下标值或下 标的范围,而总数据作为多维数组的值存储在数据的单元 中。 ROLAP在节省存储空间、灵活性、与关系数据库保持一致 性等方面有明显的优势; MOLAP则在性能和管理的简便 性方面有其优点。