第5章 数据立方体的存储、预计算和缩减

合集下载

数据挖掘05数据立方体

数据挖掘05数据立方体

概念描述 VS. OLAP
相同处:
数据泛化 对数据旳汇总在不同旳抽象级别上进行呈现
区别:
复杂旳数据类型和汇集
OLAP中维和度量旳数据类型都非常有限(非数值型旳维 和数值型旳数据),体现为一种简朴旳数据分析模型
概念描述能够处理复杂数据类型旳属性及其汇集
顾客控制与自动处理
OLAP是一种由顾客控制旳过程 概念描述则体现为一种愈加自动化旳过程
from student
where status in {"Msc", "M.A.", "MBA", "PhD"}
初始工作关系
Name
Jim Woodman Scott Lachance
Laura Lee …
Gender M
M
F …
Major Birth-Place Birth_date
CS
CS
Physics …
块还能够进一步被压缩,以防止空数组单元造成旳空间挥 霍(处理稀疏立方体)
(2)经过访问立方体单元,计算汇集。
能够优化访问单元组旳顺序,使得每个单元被访问旳次数 最小化,从而降低内存访问和磁盘I/O旳开销。
完全立方体计算旳多路数组汇集措施(2)
一种包括A,B,C旳3-D数组,假定维A,B,C旳基数分别是40、400和 4000
n维数据立方体包括2n个方体
假如考虑概念分层
n T i1(Li 1)
部分物化是存储空间和响应时间旳折中方案
实际上,诸多高维方体都是稀疏旳(包括诸多度量 值为0旳单元)
冰山立方体 (2)
对于稀疏旳数据立方体,我们往往经过指定一种 最小支持度阈值(也称冰山条件),来进行部分 物化,这种部分物化旳方体称之为冰山方体。例 如:

多维数据技术在电力企业数据分析中的应用分析

多维数据技术在电力企业数据分析中的应用分析

自动化管理今 日 自 动 化Automated managementAutomation Today2021.10 今日自动化 | 1852021年第10期2021 No.10参考文献[1] 黄红敏.太阳能与空气能的清洁能源在空调热源系统的设计与应用[D].昆明:昆明理工大学,2018.[2] 王茜.卷烟企业节能减排潜力评估方法及其应用研究[D].北京:北京理工大学,2018.电力企业数据分析能够在多个层面实现数据的整合,保证电力企业网络操作平台的统一化与规范化,确保相关数据、信息得到及时的共享,多维数据技术对于整个数据分析工作来说具有重要的作用,能够通过操作路径对相关数据信息进行提取与整合,最后通过图标的形式为工作人员展现相关数据信息,对于提高工作效率,优化工作流程具有重要意义。

1 多维数据概述多维数据中的“维”主要指一种物理特性,是访问以及表达主题信息的主要方式。

多维能够描述被定义为多维或者根据多维访问主题信息的一种概念。

对电力企业的数据中心来说,目前多维方式建立多维数据模型与主题领域的原有结构相符,因此展开工作能够满足实际情况的要求。

对多维数据模型进行分析(见图1),工作人员需要使用一系列属性作为访问、分析主题信息的方式,用来表达主题信息的属性及聚合,将其作为关键性能指标,对主题信息进行访问、分析的路径被称作多维。

时间产品t地点数据单元图1 多维数据模型图对多维数据模型的定义进行分为,主要包括下述几点:①属性Ai 的主要组成部分为标识ID 与其值域Y ,两者组成二元组,即Ai=ID ,Y ,Z 。

其中Ai 为特征性,主要标表示地区、气候及时间等,这类属性能够用于表达维度;另外Ai 也具有度量性的特点,主要指增长率,可以用于表达关键性能指标。

Y 主要指Ai 的取值范围,Z 主要指关键性能指标的聚合方法。

②维度Di 由多个具有层次关系的特征性属性构成,即维Di=[A1……,Am],该公式中m ≥1,A1>A2>A3……>An 。

(完整版)数据挖掘概念课后习题答案

(完整版)数据挖掘概念课后习题答案

(完整版)数据挖掘概念课后习题答案第 1 章1.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使⽤你熟悉的现实⽣活的数据库,给出每种数据挖掘功能的例⼦。

特征化是⼀个⽬标类数据的⼀般特性或特性的汇总。

例如,学⽣的特征可被提出,形成所有⼤学的计算机科学专业⼀年级学⽣的轮廓,这些特征包括作为⼀种⾼的年级平均成绩(GPA:Grade point a ve r s ge) 的信息,还有所修的课程的最⼤数量。

区分是将⽬标类数据对象的⼀般特性与⼀个或多个对⽐类对象的⼀般特性进⾏⽐较。

例如,具有⾼GPA 的学⽣的⼀般特性可被⽤来与具有低GPA 的⼀般特性⽐较。

最终的描述可能是学⽣的⼀个⼀般可⽐较的轮廓,就像具有⾼GPA 的学⽣的75%是四年级计算机科学专业的学⽣,⽽具有低GPA 的学⽣的65%不是。

关联是指发现关联规则,这些规则表⽰⼀起频繁发⽣在给定数据集的特征值的条件。

例如,⼀个数据挖掘系统可能发现的关联规则为:m a j or(X,“c omput i ng s c i e nc e”) ?owns(X, “pe r s ona l c omput e r”)[s uppor t=12%,c on f i d e nc e=98%]其中,X 是⼀个表⽰学⽣的变量。

这个规则指出正在学习的学⽣,12%(⽀持度)主修计算机科学并且拥有⼀台。

个⼈计算机。

这个组⼀个学⽣拥有⼀台个⼈电脑的概率是98%(置信度,或确定度)分类与预测不同,因为前者的作⽤是构造⼀系列能描述和区分数据类型或概念的模型(或,⽽后者是建⽴⼀个模型去预测缺失的或⽆效的、并且通常是数字的数据值。

它们的功能)相似性是他们都是预测的⼯具:分类被⽤作预测⽬标数据的类的标签,⽽预测典型的应⽤是预测缺失的数字型数据的值。

聚类分析的数据对象不考虑已知的类标号。

对象根据最⼤花蕾内部的相似性、最⼩化类之间的相似性的原则进⾏聚类或分组。

形成的每⼀簇可以被看作⼀个对象类。

数据挖掘知识点归纳

数据挖掘知识点归纳

知识点一数据仓库1.数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。

2.数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。

3.数据仓库围绕主题组织4.数据仓库基于历史数据提供消息,是汇总的。

5.数据仓库用称作数据立方体的多维数据结构建模,每一个维对应于模式中的一个或者一组属性,每一个单元存放某种聚集的度量值6.数据立方体提供数据的多维视图,并允许预计算和快速访问汇总数据7.提供提供多维数据视图和汇总数据的预计算,数据仓库非常适合联机分析处理,允许在不同的抽象层提供数据,这种操作适合不同的用户角度8.OLAP例子包括下钻和上卷,允许用户在不同的汇总级别上观察数据9.多维数据挖掘又叫做探索式多维数据挖掘OLAP风格在多维空间进行数据挖掘,允许在各种粒度进行多维组合探查,因此更有可能代表知识的有趣模式。

知识点二可以挖掘什么数据1.大量的数据挖掘功能,包括特征化和区分、频繁模式、关联和相关性分析挖掘、分类和回归、聚类分析、离群点分析2.数据挖掘功能用于指定数据挖掘任务发现的模式,分为描述性和预测性3.描述性挖掘任务刻画目标数据中数据的一般性质4.预测性挖掘任务在当前数据上进行归纳,以便做出预测5.数据可以与类或概念相关联6.用汇总、简洁、精确的表达描述类和概念,称为类/概念描述7.描述的方法有数据特征化(针对目标类)、数据区分(针对对比类)、数据特征化和区分8.数据特征化用来查询用户指定的数据,上卷操作用来执行用户控制的、沿着指定维的数据汇总。

面向属性的归纳技术可以用来进行数据的泛化和特征化,而不必与用户交互。

形式有饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。

结果描述可以用广义关系或者规则(也叫特征规则)提供。

9.用规则表示的区分描述叫做区分规则。

10.数据频繁出现的模式叫做频繁模式,类型包括频繁项集、频繁子项集(又叫频繁序列)、频繁子结构。

数据仓库与数据挖掘教程(第2版)陈文伟版课后答案

数据仓库与数据挖掘教程(第2版)陈文伟版课后答案

第一章数据仓库与数据挖掘概述1.数据库与数据仓库的本质差别是什么?答:数据库用于事务处理,数据仓库用于决策分析;数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据;数据仓库的数据是大量数据库的集成;对数据库的操作比较明确,操作数据量少,对数据仓库操作不明确,操作数据量大。

数据库是细节的、在存取时准确的、可更新的、一次操作数据量小、面向应用且支持管理;数据仓库是综合或提炼的、代表过去的数据、不更新、一次操作数据量大、面向分析且支持决策。

6.说明OLTP与OLAP的主要区别。

答:OLTP针对的是细节性数据、当前数据、经常更新、一次性处理的数据量小、对响应时间要求高且面向应用,事务驱动; OLAP针对的是综合性数据、历史数据、不更新,但周期性刷新、一次处理的数据量大、响应时间合理且面向分析,分析驱动。

8.元数据的定义是什么?答:元数据(metadata)定义为关于数据的数据(data about data),即元数据描述了数据仓库的数据和环境。

9.元数据与数据字典的关系什么?答:在数据仓库中引入了“元数据”的概念,它不仅仅是数据仓库的字典,而且还是数据仓库本身信息的数据。

18.说明统计学与数据挖掘的不同。

答:统计学主要是对数量数据(数值)或连续值数据(如年龄、工资等),进行数值计算(如初等运算)的定量分析,得到数量信息。

数据挖掘主要对离散数据(如职称、病症等)进行定性分析(覆盖、归纳等),得到规则知识。

19.说明数据仓库与数据挖掘的区别与联系。

答:数据仓库是一种存储技术,它能适应于不同用户对不同决策需要提供所需的数据和信;数据挖掘研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。

数据仓库与数据挖掘都是决策支持新技术。

但它们有着完全不同的辅助决策方式。

在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。

它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。

数据仓库和数据挖掘的结合对支持决策会起更大的作用。

多路方体聚集完全立方体计算算法

多路方体聚集完全立方体计算算法

图 1 多 路 方 体 搜 索 树
在搜索树 中 , 每个节点代表完全立方体 中的一个 子方 体 , 从
节 点 i 节 点 的有 向边 表 示 节 点 可 以 由 节 点 i 生 ,称 为 的 到 产 i
2 2 以数 据 结果 集为 驱动 的聚 集 .
多路方 体 聚集算 法基 本思 路是 扫描 一个 n维 方体 的一 个 C l时 , e l 同时聚集出分别 沿此方 体 的维进 行层 次攀 升产 生 的新
算法通过一个栈来 维护方体 搜索树 , 通过 一个 数组存放 已
维攀 升产生 n个新方体数 据聚 集也全 部计算 完成 , 即完成 了多
路方体 聚集计算 。 通过 数据库接 口读取表数据 , 回一个数据 结果 集 , 返 如通 过

2O 0
11 0
1ll 】
ll 0
(2( ) )

1 )) 【(
01 O

( ) 00
在算 法设计 中, 为每个立方体建立 了一 张对 应的聚集表 , 聚
集 表 的 结 构 与 事 实 表 大致 相 同 , 增 加 了 一 个 用 来 存 储 方 体 标 但
识的字段。
D I 1 . 9 9 j i n 1 0 —8 x 2 1 . 9 0 8 O : 3 6 / . s . 0 03 6 . 0 2 0 . 2 0 s
AN ALGoRI THM FoR CoM PUTATI oN oF ULTI W AY M - CUBo I D AG GREGATI oN FULL CUBE
a r y a g e ain f l c b ac l t n ag r h a h ee e c t i r ce p e e t n ag r h o l c b ac lt n d i e y t e d t ra g r g t u l u e c lu ai lo i m s te r fr n e, h sa t l r s n sa l oi m ff l u e c lu ai rv n b h aa o o t i t u o

数据原理 第5章 数据预处理


©
第五章
数据预处理:11
5.1.1.3清洗脏数据
❖ 异构数据源数据库中的数据并不都是正确的,常常 不可避免地存在着不完整、不一致、不精确和重复 的数据,这些数据统称为“脏数据”。脏数据能使 挖掘过程陷入混乱,导致不可靠的输出。
©
第五章
数据预处理:12
清洗脏数据可采用下面的方式:
手工实现方式 用专门编写的应用程序 采用概率统计学原理查找数值异常的记录 对重复记录的检测与删除
第五章
数据预处理:24
©
5.1.4.4 概念分层
❖ 概念分层通过收集并用较高层的概念替换较低层的 概念来定义数值属性的一个离散化。
❖ 概念分层可以用来归约数据,通过这种概化尽管细 节丢失了,但概化后的数据更有意义、更容易理解, 并且所需的空间比原数据少。
❖ 对于数值属性,由于数据的可能取值范围的多样性 和数据值的更新频繁,说明概念分层是困难的。
©
第五章
数据预处理:40
❖ 第二,算法简单。对于给定的决策表,预处理过程所使用的 算法可以是分辨矩阵或逐个属性、逐条规则进行检验,算法 简单,易于计算机的实现,方便挖掘系统的自动操作;
❖ 第三,可以有效地去除冗余的属性或属性的值。
©
第五章
数据预处理:34
5.2.2复共线性数据的预处理方法
❖ 常规方法进行函数发现时一般要作出一个假设:数 据满足统计不相关。而传统的函数发现算法中,常 常忽略对数据是否满足该假设的检验。若数据不满 足统计不相关的假设(也称数据变量之间存在复共 线性),在这种情况下,函数发现算法挖掘出来的 函数关系表达式可能会存在系统误差,该表达式将 不是我们要发现的理想函数。
©
第五章
数据预处理:32

数据立方体(Cube)

数据⽴⽅体(Cube)如上图所⽰,这是由三个维度构成的⼀个OLAP⽴⽅体,⽴⽅体中包含了满⾜条件的cell(⼦⽴⽅块)值,这些cell⾥⾯包含了要分析的数据,称之为度量值。

显⽽易见,⼀组三维坐标唯⼀确定了⼀个⼦⽴⽅。

多位模型的基本概念介绍:⽴⽅体:由维度构建出来的多维空间,包含了所有要分析的基础数据,所有的聚合数据操作都在⽴⽅体上进⾏。

维度:就是观察数据的⼀种⾓度。

在这个例⼦中,路线,源,时间都是维度,这三个维度构成了⼀个⽴⽅体空间。

维度可以理解为⽴⽅体的⼀个轴。

要注意的是有⼀个特殊的维度,即度量值维度。

维度成员:构成维度的基本单位。

对于时间维,它的成员分别是:第⼀季度、第⼆季度、第三季度、第四季度。

层次:维度的层次结构,要注意的是存在两种层次:⾃然层次和⽤户⾃定义层次。

对于时间维⽽⾔,(年、⽉、⽇)是它的⼀个层次,(年、季度、⽉)是它的另⼀个层次,⼀个维可以有多个层次,层次可以理解为单位数据聚合的⼀种路径。

级别:级别组成层次。

对于时间维的⼀个层次(年、⽉、⽇)⽽⾔,年是⼀个级别,⽉是⼀个级别,⽇是⼀个级别,显然这些级别是有⽗⼦关系的。

度量值:要分析展⽰的数据,即指标。

如图1中⼀个cell中包含了两个度量值:装箱数和截⾄时间,可以对其进⾏多维分析。

事实表:存放度量值的表,同时存放了维表的外键。

所有的分析⽤的数据最终都是来⾃与事实表。

维表:⼀个维度对应⼀个或者多个维表。

⼀个维度对应⼀个维表时数据的组织⽅式就是采⽤的星型模式,对应多个维表时就是采⽤雪花模式。

雪花模式是对星型模式的规范化。

简⾔之,维表是对维度的描述。

MDX查询:多维模型的查询语⾔MDX(MDX是微软发布的多维查询语⾔标准),它的语法与SQL有很多相似之处:select {[Measures].[Salary]} on columns, {[Employee].[employeeId].members} on rows from CubeTest对于这条语句,COLUMNS 和 ROWS都代表查询轴,其中COLUMNS代表列轴,ROWS代表⾏轴。

大数据处理流程的主要环节

大数据处理流程的主要环节大数据处理流程主要包括数据收集、数据预处理、数据存储、数据处理与分析、数据展示/数据可视化、数据应用等环节,其中数据质量贯穿于整个大数据流程,每一个数据处理环节都会对大数据质量产生影响作用。

通常,一个好的大数据产品要有大量的数据规模、快速的数据处理、精确的数据分析与预测、优秀的可视化图表以及简练易懂的结果解释,本节将基于以上环节分别分析不同阶段对大数据质量的影响及其关键影响因素。

一、数据收集在数据收集过程中,数据源会影响大数据质量的真实性、完整性数据收集、一致性、准确性和安全性。

对于Web数据,多采用网络爬虫方式进行收集,这需要对爬虫软件进行时间设置以保障收集到的数据时效性质量。

比如可以利用八爪鱼爬虫软件的增值API设置,灵活控制采集任务的启动和停止。

二、数据预处理大数据采集过程中通常有一个或多个数据源,这些数据源包括同构或异构的数据库、文件系统、服务接口等,易受到噪声数据、数据值缺失、数据冲突等影响,因此需首先对收集到的大数据集合进行预处理,以保证大数据分析与预测结果的准确性与价值性。

大数据的预处理环节主要包括数据清理、数据集成、数据归约与数据转换等内容,可以大大提高大数据的总体质量,是大数据过程质量的体现。

数据清理技术包括对数据的不一致检测、噪声数据的识别、数据过滤与修正等方面,有利于提高大数据的一致性、准确性、真实性和可用性等方面的质量;数据集成则是将多个数据源的数据进行集成,从而形成集中、统一的数据库、数据立方体等,这一过程有利于提高大数据的完整性、一致性、安全性和可用性等方面质量;数据归约是在不损害分析结果准确性的前提下降低数据集规模,使之简化,包括维归约、数据归约、数据抽样等技术,这一过程有利于提高大数据的价值密度,即提高大数据存储的价值性。

数据转换处理包括基于规则或元数据的转换、基于模型与学习的转换等技术,可通过转换实现数据统一,这一过程有利于提高大数据的一致性和可用性。

数据仓库与数据分析教程(第2版)课件chap05-数据方体的存储、预计算和缩减

主码唯一标识一行。层属性表示一个层的名称,其值 是层中成员的集合。特征属性描述了成员的特征。
5.1.2.1 维表的内容
商店ID 1 2 …
商店名 称
海淀1 店
海淀2 店

商店负 责人 张明
李海林

经营面 积 100
86

城市 北京 北京
...
城市人 口
1000
1000

地区 华北 华北

685 历下1 王兆文 90 店
5.1.1 MOLAP
MOLAP使用多维数组存储数据方体。 MOLAP必须具有高效的稀疏数据处理能力,能略过 零元、缺失、和重复数据。
5.1.1.1 多维数组存储优点
多维数组存储优点之一: 多维数组表达清晰,占用的存储空间较少
5.1.1.1 多维数组存储优点
销售表1:
产品名称 冰箱 冰箱
地区 东北 西北
元数据是OLAP和数据仓库的核心部件:
层次关系、 计算转换信息、
时间序列信息、报表中的数据项描述、
安全存取控制、 数据更新状态、
数据源、
预计算综合
5.1.3 MOLAP和ROLAP实现机制比较
元数据的管理ROLAP和MOLAP 均缺乏一致性的 标准: MOLAP以内在方式处理元数据 ROLAP 由工具来管理元数据
3. 适应大数据量 ROLAP在适应大数据量上的能力强于MOLAP
4. 适应软硬件的能力 同上
5.2 数据方体的预计算
为了缩短查询响应时间,OLAP采用了预计算技术, 将全部的或部分的综合数据提前计算并存储。
5.2.1 相关概念
T S P sales 1 1 1 10 1 1 2 20 1 2 1 30 1 2 2 40 …………
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据如何进行综合?
2015-4-20
39
5.2.2 数据立方格结构(续)
多维数据模型一般用数据立方体表示,一个数据立 方体由多个维度和度量组成。
由不同维或维上的不同层可以组合出多个综合数据
立方体。 举例:如果有三个维度A、B、C,每个维只有一个 层,可以组合8个数据立方体。分别是:ABC、AB、 AC、BC、A、B、C、ALL 一般来讲,对于一个 n 维数据集,如果不考虑层次, 它的数据立方体个数为:2n。
(城市ID,城市,城市人口,地区ID) (地区ID,地区,国家ID)

2015-4-20
(国家ID,国家)
18
1. 维表的内容(续)
规范化后的结果:雪花模型 规范化后的好处:消除了数据冗余,维表中的描述 信息可以修改。 规范化后的代价:计算代价很高
2015-4-20
19
2. 事实表的内容
数据仓库的数据模型定义完毕后,来自不同数据源 的数据将装入数据仓库中,系统将根据数据模型需
要运行相应的综合程序来综合数据。
最终用户的多维分析请求则通过 ROLAP 服务器动
态翻译成 SQL请求,然后交给RDBMS服务器来处
理SQL,最后查询结果经多维处理(将以关系表存 放的结果转换为多维视图)后返回给用户。
数据仓库与数据挖掘
Data Warehouse and Data Mining
五邑大学计算机学院
何国辉
2015-4-20
1
数据仓库与数据挖掘
Data Warehouse and Data Mining
第五章 数据立方体的存储、预计算和缩减
2015-4-20
2
5.1 数据立方体的存储
常用的存储方法有两种: 多维数组存储方式:对应MOLAP
每一行是层次关系图中的一条路径。
2015-4-20
17
1. 维表的内容(续)
存在什么问题?维表中存在大量的冗余数据。 如何处理?对维表进一步规范化,将由一个表表示 一个维,改为由多个关系表表示。 即4个表,关系模式分别为:


(商店ID,商店名称,商店负责人,经营面积,城市ID)
28
1. 体系结构--MOLAP(续)
MOLAP 将数据库服务器与 OLAP 服务器合二为一。 数据库服务器(DB或DW)不仅负责数据的存储、 存取及检索,同时也负责所有OLAP需求的执行。 来自不同事务处理系统的源数据通过一系列批处理
过程被加载到数据库服务器中,以多维数组形式存
储,并建立索引、预综合。
维表和事实表均采用关系表实现。
2015-4-20
14
1. 维表的内容
维表描述一个维所需要的全部信息 主码:唯一地标识一行。 层属性:表示一个层的名称,其值是层中成员的集 合。有一个层就要有一个层属性。
特征属性:描述了成员的特征。
维表是一个反规范化设计的表。
2015-4-20
2015-4-20
46
5.3 完整数据立方体的预计算方法
在存储空间充足的情况下,可以采取将一个完整的 数据立方体全部预计算出来,并进行存储的方法。
可以大大加快查询响应时间:以空间换时间策略。
2015-4-20
47
5.3 完整数据立方体的预计算方法(续)
完整数据立方体预计算方法很多。 常用的策略:
44
5.2.3 数据立方格存储方法
在 ROLAP 中用关系表来存储数据立方体中的数据 单元。 ROLAP 的一种常用存储方式是将属于不同数据立 方体的数据单元存放在单个表中。
2015-4-20
45
5.2.3 数据立方格存储方法(续)
存在问题:表中存在很多冗余的ALL值。 一种方法:将每个数据立方体单独用一个表来存储。
数据存储
数据存取
适应性
2015-4-20
26
1. 体系结构
MOLAP体系结构
2015-4-20
27
1. 体系结构--MOLAP
Database 服务器
Load
MOLAP 服务器
用户请求
前端工具
SQL查询 查询结果
Metadata Request Processing
查询结果
2015-4-20
OLAP服务器从客户端接收多维查询语句,进行分 析后生成相应的SQL语句,从关系数据库中获得数 据,进行多维计算后以多维的形式返回客户端。
2015-4-20
23
3. 星形连接(续)
对维的基本操作(查找维成员、查找某个层的所有 成员等),只需对维表进行操作。由于维表相对较 小,查询速度比较快。 对于多维数据分析常用到聚集操作,要提升维层, 需要将某个维表与事实表做连接。在极端情况下, 需要多个维表与事实表做连接操作。查询速度大受 影响。 维度
2015-4-20 7
1. 多维数组存储的优点(续)
两种预综合方式
2015-4-20
8
2. 多维数组存储的缺点
最大的缺点:数据稀疏问题。 举例:如果一个由时间维、商店维和产品维构成的
多维数组,存储 10000 中商品在 1000的商店中 10 年
来每天的数据,则多维数组中有3.6×1010个数据单 元,是一个十分巨大的多维数组。
2015-4-20
12
5.1.2 ROLAP
定义:基于将多维数据存储在关系表中,并进行的 联机分析处理操作。
采用关系表存储数据,可以有效地处理海量数据,
但因对多维数据处理涉及大量连接运算,导致查询
速度较慢。
2015-4-20
13
5.1.2 ROLAP(续)
ROLAP组织数据的方式: 星形模型 雪花模型
2015-4-20
29
1. 体系结构(续)
ROLAP体系结构
2015-4-20
30
1. 体系结构--ROLAP(续)
Database 服务器
SQL查询
ROLAP 服务器
用户请求
前端工具
查询结果
Metadata Request Processing
查询结果
2015-4-20
31
1. 体系结构--ROLAP(续)
BUC算法
2015-4-20
49
5.3.1 流水线算法
在数据立方体计算过程中,开销比较大的主要操作 时排序。
例如:从表( T , S , P ; Sales )计算表( T , S ; Sales)时,首先要对(T,S,P;Sales)按照属性 TS排序,然后做聚集操作。计算代价巨大。
2015-4-20 40
5.2.2 数据立方格结构(续)
如果考虑层次,数据立方体的总数是:
T ( Li 1)
i 1
n
ቤተ መጻሕፍቲ ባይዱ
其中:Li是维i的层数(没有包括最顶层ALL)。 包含维的个数最多的是事实表,称作为基本数据立 方体。 不包含任何维的数据立方体称之为总数据立方体,
一般用ALL表示。
事实表的属性: 主码:复合码,由多个外码组成。 度量值:用于分析的数据。
2015-4-20
20
2. 事实表的内容(续)
举例:一个销售事实表
2015-4-20
21
2. 事实表的内容(续)
结论:事实表中的内容十分庞大,记录数多。
2015-4-20
22
3. 星形连接
ROLAP 是通过关系数据库管理系统管理维度表和 事实表。
储从数据库中抽取来的详细数据(事实表)。
预计算过程:综合数据需要根据事实表数据进行计
算,然后将计算结果存储在数据仓库中。
2015-4-20
38
5.2.2 数据立方格结构
1. 导出关系 上卷操作:从细节数据到综合数据的一种操作。
实现方法:减少维的个数或沿着维的一个层次从底
层上卷到高层进行数据综合。
2015-4-20 41
5.2.2 数据立方格结构(续)
导出关系定义:如果数据立方体 A是由数据立方体 B 通过减少维的个数得到,则称数据立方体 A 可以
由数据立方体B导出。
2015-4-20
42
5.2.2 数据立方格结构(续)
2. 数据立方格 根据导出关系,可以将所有数据立方体组织成一个
传统关系表存储方式:对应ROLAP
2015-4-20
3
5.1.1 MOLAP
定义:基于多维数组存储数据立方体,并进行的联 机分析处理操作。
可以实现对多维数据的快速访问。
2015-4-20
4
1. 多维数组存储的优点
举例:假设有一组商品冰箱、彩电和空调,它们在 东北、西北和华北三个地区的销售数据如图所示。
但是实际存储数据的情况会如何呢?
在关系表中只有产生交易才会有记录。
2015-4-20
9
2. 多维数组存储的缺点(续)
解决方法:区别对待,把维分为: 稀疏维:用关系表存储
稠密维:用多维数组存储
巨大的稀疏多维数组被划分为:索引和若干数据块。
2015-4-20
10
3. 维的表示
MOLAP采用多维数组来表示多维数据模型中的数 据立方体。
2015-4-20
5
1. 多维数组存储的优点(续)
关系表存储与二维数组存储比较
2015-4-20
6
1. 多维数组存储的优点(续)
比较结果 多维数组表达清晰,占用的存储空间少 (关系表
存放多维数据,维成员需要重复存放)。
多维数组查找速度快,维护代价小(一个多维数组 被存放到一个线性空间中,知道了数据单元的下 / 坐标后,可以通过计算确定该单元地址,从而得到 数据单元)。 多维数组有利于多维计算。 多维数组有利于预综合。
相关文档
最新文档