空间多维数据模型及OLAP的设计与实现

合集下载

数据仓库中OLAP的实现技术

数据仓库中OLAP的实现技术
实 现 了 HOI P 的 存 储 策 略 。 A 下 面 是 ROL AP、 MOI AP 和 H ) AP 实 现 在 不 同 方 面 的 (I
和 分 析 。通 过 对 信 息 ( 些 信 息 已 经 从 原 始 的 数 据 进 行 了转 这
换 . 反 映 用 户 所 能 理 解 的 企 业 的 实 际 的 “ ” 的 很 多 种 可 能 以 维 ) 的观 察 开 工 进 行 快 速 、 定 一 致 和 交 互 性 的存 取 . 许 管 理 决 稳 允 策 人员对数据进行 深入观察 。
ห้องสมุดไป่ตู้
I AP和 M(L ) AP优 点 的 综 合 . 然 . 当 HOI AP技 术 发 展 并 非 完 全成 熟 , 有 一 点 是 肯 定 的 , 但 HOI AP工 具 不 是 简 单 地 将 MO— I AP与 R P 组 合 起 来 。 实现 的 基 本 策 略 是 , 合 计 数 据 OI A 其 将
毕 利

张 礼 平
毕 茹
要 本 文 介 绍 了数 据 仓 库 和 联 机 分 析 处 理 的 概 念 .
的多维视 图。
分 析 阐 述 了基 于 数 据 仓 库 的 0I P 的 三 种 存 储 机 制 、 施 框 A 实
架 、 据 操 纵 机 制 和 索 引 机 制 。 及 多维 数 据 模 型 上 的 OIAP 数 的实现技 术。
I9 5年 起 , u c 提 出 了 “ AS ” 断 准 则 。所 9 OI AP Co n i l F MI 判 谓 “ A MI . “ a tAn lss o h r d Mu t i n in l F S ” 即 Fs ay i f S ae l dme s a i o

数据仓库多维数据模型的设计

数据仓库多维数据模型的设计

1、数据仓库基本概念1.1、主题(Subject)主题就是指我们所要分析的具体方面。

例如:某年某月某地区某机型某款App的安装情况。

主题有两个元素:一是各个分析角度(维度),如时间位置;二是要分析的具体量度,该量度一般通过数值体现,如App安装量。

1.2、维(Dimension)维是用于从不同角度描述事物特征的,一般维都会有多层(Level:级别),每个Level 都会包含一些共有的或特有的属性(Attribute),可以用下图来展示下维的结构和组成:以时间维为例,时间维一般会包含年、季、月、日这几个Level,每个Level一般都会有ID、NAME、DESCRIPTION这几个公共属性,这几个公共属性不仅适用于时间维,也同样表现在其它各种不同类型的维。

1.3、分层(Hierarchy)OLAP需要基于有层级的自上而下的钻取,或者自下而上地聚合。

所以我们一般会在维的基础上再次进行分层,维、分层、层级的关系如下图:每一级之间可能是附属关系(如市属于省、省属于国家),也可能是顺序关系(如天周年),如下图所示:1.4、量度量度就是我们要分析的具体的技术指标,诸如年销售额之类。

它们一般为数值型数据。

我们或者将该数据汇总,或者将该数据取次数、独立次数或取最大最小值等,这样的数据称为量度。

1.5、粒度数据的细分层度,例如按天分按小时分。

1.6、事实表和维表事实表是用来记录分析的内容的全量信息的,包含了每个事件的具体要素,以及具体发生的事情。

事实表中存储数字型ID以及度量信息。

维表则是对事实表中事件的要素的描述信息,就是你观察该事务的角度,是从哪个角度去观察这个内容的。

事实表和维表通过ID相关联,如图所示:1.7、星形/雪花形/事实星座这三者就是数据仓库多维数据模型建模的模式上图所示就是一个标准的星形模型。

雪花形就是在维度下面又细分出维度,这样切分是为了使表结构更加规范化。

雪花模式可以减少冗余,但是减少的那点空间和事实表的容量相比实在是微不足道,而且多个表联结操作会降低性能,所以一般不用雪花模式设计数据仓库。

数据仓库中的多维数据模型设计与实现教程

数据仓库中的多维数据模型设计与实现教程

数据仓库中的多维数据模型设计与实现教程在数据仓库中,多维数据模型设计与实现是一项关键任务。

它不仅可以帮助企业组织和分析庞大的数据量,还能提供决策支持和洞察力。

本文将介绍数据仓库中多维数据模型的概念、设计原则以及实现方法,帮助读者全面了解和掌握这一重要主题。

一、多维数据模型的概念多维数据模型是基于数据的特征和关联性来组织数据的一种模型。

它通过将数据按照不同的业务维度进行分组和分类,将数据以多维方式呈现,从而提供了更加直观和灵活的数据分析能力。

多维数据模型主要由维度、度量和层次结构组成。

1. 维度:维度是描述业务问题的属性,它可以是时间、地理位置、产品、客户等。

维度用来描述数据的特征,例如销售额可以按照时间、地理位置和产品维度进行分析。

2. 度量:度量是可以进行数值计算和分析的数据,例如销售额、利润、数量等。

度量用来描述数据的量度,便于进行各种统计分析。

3. 层次结构:层次结构是维度之间的关系,它描述了维度之间的层次结构和上下级关系。

例如时间维度可以由年、月、日等层次结构组成。

二、多维数据模型的设计原则在设计多维数据模型时,需要遵循一些原则,以确保模型的合理性和有效性。

1. 简单性:多维数据模型应该尽可能简单,避免过于复杂的维度和层次结构。

简单的模型易于理解和维护,提高数据分析效率。

2. 一致性:多维数据模型中的维度和度量应该保持一致性,避免冗余和重复。

一致的模型有助于提高查询效率和数据一致性。

3. 可扩展性:多维数据模型应该具有良好的扩展性,能够容纳未来的需求变化和数据增长。

设计时需要考虑到未来可能发生的维度扩展和度量变化。

4. 性能优化:多维数据模型的设计也要考虑到查询性能的优化。

根据实际需求和查询模式,合理设计维度的层次结构、聚集表和索引等,以提高查询效率。

三、多维数据模型的实现方法在实现多维数据模型时,需要选择合适的工具和技术来支持模型的构建和数据的加载。

1. 数据抽取和转换:多维数据模型的实现通常需要进行数据抽取和转换,将源系统的数据转化为可用于多维模型的格式。

多维数据分析的数据挖掘方法与实现

多维数据分析的数据挖掘方法与实现

多维数据分析的数据挖掘方法与实现随着互联网技术的不断发展,数据量的爆炸式增长以及数据种类和形式的多样化,传统的数据分析方法面临着巨大的挑战。

人们需要更加高效、智能化的数据分析方法来解决如何从海量数据中发现有用的信息、洞察趋势和规律的问题。

而此时,多维数据分析和数据挖掘的方法就成为了一种重要的解决方案。

一、什么是多维数据分析多维数据分析是一种能够从不同维度、角度对数据进行深入分析和洞察的方法。

它能够将海量数据进行分层次管理和分析,让人们能够以一种运用角度而不是搜索字符的方式来发现潜在的规律和行业趋势。

多维数据分析不再是简单的筛选和排序,而是将数据进行了一种维度的切片,使得数据能够在不同的角度和维度下展现出不同的特性和趋势,为人们提供了更加高效、精准和及时的数据支持。

二、多维数据分析的实现方法针对多维数据分析应用场景的不同,可以选择不同的数据分析方法。

目前比较常见的方法包括OLAP(联机分析处理)、数据挖掘、人工智能等。

1.OLAP(联机分析处理)OLAP(联机分析处理)是一种处理多维数据的技术。

将数据处理程序与数据库紧密集成,使得用户能够快速自由的对数据进行查询和分析。

用户可以通过图表、表格等方式来直观的展现数据,同时在查询数据时也不会对数据库造成太大的压力。

OLAP有一种叫做Rolap的实现方式,具体是应用一些基于存储的索引数据结构来增加分析效率。

2.数据挖掘数据挖掘是一种通过挖掘大量数据来发现其中规律、趋势的方法。

数据挖掘可以通过对数据进行聚类、分类、预测等操作来发现其中的信息和潜在的趋势。

此时,选择适当的算法和模型是十分重要的,比如k-means算法、朴素贝叶斯分类等。

3.人工智能人工智能是一种能够模拟人脑智慧的技术。

通过让计算机具有自主决策、学习、推理等能力,让计算机能够帮助人们更好的处理和分析大量的数据。

比如使用神经网络来进行数据分析,或者是通过机器学习来进行数据预测等。

三、多维数据分析的实践案例1.电商行业中的数据分析电商行业中的数据分析是很常见的应用场景。

使用MySQL进行多维度数据分析和OLAP处理

使用MySQL进行多维度数据分析和OLAP处理

使用MySQL进行多维度数据分析和OLAP处理MySQL是一种常用的关系型数据库管理系统,具有强大的数据存储和查询能力。

除此之外,MySQL还允许进行多维度数据分析和OLAP(联机分析处理)操作,帮助用户深入挖掘数据背后的关联和规律。

本文将探讨如何使用MySQL进行多维度数据分析和OLAP处理,为读者提供有关这一主题的详细指南。

一、多维度数据分析概述多维度数据分析是一种从多个角度对数据进行分析的技术。

传统的数据分析通常只从一个维度进行分析,而多维度数据分析则能够从不同维度同时进行分析,使分析结果更全面和深入。

在MySQL中,多维度数据分析通常通过使用数据立方体(Data Cube)来实现。

数据立方体是一个多维数据模型,其中的每一维度都代表了不同的数据属性。

通过对数据立方体进行切割、钻取和汇总等操作,可以实现多维度数据分析。

二、构建数据立方体在对数据进行多维度分析之前,首先需要构建数据立方体。

在MySQL中,构建数据立方体的过程通常包括以下几个步骤:1. 定义维度和度量:维度是数据立方体中的属性,而度量则是用于度量、计算和分析数据的指标。

维度通常包括时间、地理位置、产品等,度量则包括销售额、利润等。

2. 创建数据表:根据定义的维度和度量,创建相应的数据表。

在数据表中,每行代表一个数据记录,每列代表一个属性。

确保数据表中包含了所有需要进行分析的属性。

3. 导入数据:将需要分析的数据导入到创建好的数据表中。

可以使用MySQL提供的命令行工具或者图形界面工具来进行数据导入。

4. 创建索引:为了提高数据查询的效率,需要对数据表中的关键字段创建索引。

索引能够加快数据的查找速度,减少数据库的查询时间。

5. 建立数据立方体:使用MySQL的数据立方体扩展工具或者自定义SQL语句,按照定义的维度和度量,构建数据立方体。

在数据立方体中,每个维度对应一个维度表,维度表中包含了唯一的维度值和维度属性。

同时,还需要创建度量表,度量表中存储了度量指标的值。

OLAP数据库的设计与应用实践

OLAP数据库的设计与应用实践

OLAP数据库的设计与应用实践随着大数据时代的到来,企业和组织需要处理和分析大量的数据来做出更明智的商业决策。

OLAP(联机分析处理)数据库应运而生,可以提供强大的数据分析功能和高性能的查询速度。

本文将探讨OLAP数据库的设计原则和应用实践,以帮助您充分发挥这一强大工具的潜力。

一、OLAP数据库的设计原则1. 数据模型设计在设计OLAP数据库时,需要采用多维数据模型。

与传统的关系型数据库不同,多维数据模型主要关注数据之间的关系和维度之间的交叉分析。

常见的多维数据模型有星型模型和雪花模型。

2. 粒度设计在选择数据粒度时,需要根据业务需求和查询性能来权衡。

较粗的数据粒度可以提高查询速度,但可能会损失部分细节信息;较细的数据粒度可以提供更多详细信息,但查询速度可能较慢。

因此,在设计OLAP数据库时需要考虑数据粒度的平衡。

3. 衍生指标设计衍生指标是通过从事实数据中计算或推导得出的指标。

在设计OLAP数据库时,需要确定哪些指标是衍生指标,并确定计算衍生指标所需的计算公式和规则。

衍生指标可以提供更多有意义的分析视角。

4. 维度设计维度是数据分析的基础,它提供了不同数据属性的分类方式。

在设计OLAP数据库时,需要明确定义维度和维度层次,确保维度之间的关系和相互访问方式。

同时,还需要确定每个维度的属性和层级关系,以便进行更复杂的多维数据分析。

5. 度量设计度量是要分析的指标,如销售额、利润等。

在设计OLAP数据库时,需要选择最适合业务需求的度量,并考虑度量的定义和度量的聚合方式。

好的度量设计可以提供准确和有效的数据分析结果。

二、OLAP数据库的应用实践1. 数据仓库的构建OLAP数据库的核心是数据仓库,它是OLAP数据库的数据源。

首先,需要从不同的数据源中抽取和整合数据,构建数据仓库。

常见的数据源包括关系型数据库、数据文件、API等。

在构建数据仓库时,需要考虑数据抽取、数据清洗和数据集成等过程。

2. 数据集市的建立数据集市是OLAP数据库的逻辑组织单元,它根据业务需求和分析目的划分数据。

【数据库系统课件】OLAP及其多维数据分析

【数据库系统课件】OLAP及其多维数据分析

OLAP及其多维数据分析国防科技大学系统工程与数学系陈元陈文伟联机分析处理(OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的。

当时,Codd认为联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。

用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。

因此Codd提出了多维数据库和多维分析的概念,即OLAP。

一、OLAP的概念根据OLAP产品的实际应用情况和用户对OLAP产品的需求,人们提出了一种对OLAP更简单明确的定义,即共享多维信息的快速分析。

(1)快速性用户对OLAP的快速反应能力有很高的要求。

系统应能在5秒内对用户的大部分分析要求做出反应。

如果终端用户在30秒内没有得到系统响应就会变得不耐烦,因而可能失去分析主线索,影响分析质量。

对于大量的数据分析要达到这个速度并不容,因此就更需要一些技术上的支持,如专门的数据存储格式、大量的事先运算、特别的硬件设计等。

(2)可分析性OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。

尽管系统需要事先编程,但并不意味着系统已定义好了所有的应用。

用户无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户理想的方式给出报告。

用户可以在OLAP平台上进行数据分析,也可以连接到其他外部分析工具上,如时间序列分析工具、成本分配工具、意外报警、数据开采等。

(3)多维性多维性是OLAP的关键属性。

系统必须提供对数据分析的多维视图和分析,包括对层次维和多重层次维的完全支持。

事实上,多维分析是分析企业数据最有效的方法,是OLAP的灵魂。

(4)信息性不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。

这里有许多因素需要考虑,如数据的可复制性、可利用的磁盘空间、OLAP产品的性能及与数据仓库的结合度等。

在线分析处理OLAP在数据分析中的应用

在线分析处理OLAP在数据分析中的应用

在线分析处理OLAP在数据分析中的应用近年来,随着数据量的快速增长和复杂性的增加,数据分析在各行各业中的重要性不断凸显。

为了能够高效地进行数据分析,许多组织和企业开始采用在线分析处理(OLAP)技术。

本文将介绍OLAP的基本原理、主要功能以及在数据分析中的应用。

一、OLAP基本原理OLAP是一种基于多维数据模型的数据分析技术。

它以多维数据立方体为基础,将数据按照不同的维度进行组织和存储,使得用户可以方便地从不同的角度对数据进行分析和探索。

OLAP具有以下几个基本概念:1. 多维数据模型:OLAP使用多维数据模型来描述分析对象和分析结果。

多维数据模型以立方体为基础,将数据按照事实表和维度表进行组织,形成多维数据空间。

2. 维度和指标:维度是描述事实的属性,如时间、地理位置、产品等;指标是需要分析的事实数据,如销售额、访问量等。

OLAP通过对维度和指标的组合,形成多维数据立方体。

3. 切片和钻取:切片是指根据某个维度或者指标对数据进行筛选,只保留满足条件的数据;钻取是指根据需要,从总体数据中逐步细化到更详细的细节。

4. 聚集和计算:OLAP可以对多维数据进行聚集操作,从而实现对数据进行汇总和计算。

聚集操作可以提高数据分析的效率。

二、OLAP主要功能OLAP具有以下几个主要的功能,这些功能使得OLAP成为数据分析的有力工具:1. 多维数据分析:OLAP可以根据不同的维度对数据进行切片、钻取和旋转等操作,从而使用户可以从不同的角度对数据进行分析,发现数据中的规律和趋势。

2. 查询和报表功能:OLAP可以通过灵活的查询和报表工具,帮助用户快速获取需要的数据,并生成丰富的报表和图表,便于数据的可视化展示和沟通。

3. 高性能计算:由于OLAP采用了多维数据模型和聚集技术,可以对大规模数据进行高效的计算和分析,减少了数据查询和分析的时间消耗。

4. 数据挖掘和预测:OLAP可以结合数据挖掘和预测算法,从海量的数据中挖掘出有价值的信息和规律,为组织和企业的决策提供支持。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

文章编号:10092427X (2002)022*******空间多维数据模型及OLAP 的设计与实现徐铭杰1,梁留科2(1.信息工程大学测绘学院,河南郑州 450052;2.河南大学环境与规划学院,河南开封 475001)摘要:多维数据模型定义了数据仓库的度量和维度结构,是OLAP 和某些数据挖掘模型的基础和数据仓库应用的重要手段。

但用传统的多维数据模型和OLAP 技术处理空间数据具有较大的局限性。

文中尝试在传统多维数据模型中引入空间维度,在度量中引入指向空间聚合结果的空间聚合索引,并引入空间算子集合,从而构造出空间多维数据模型和空间立方体。

在模型物理实现的基础上,试验了空间立方体的OLAP 操作。

关 键 词:空间数据仓库;空间多维数据模型;空间维度;空间聚合索引;空间立方体;OLAP 中图分类号:P282 文献标识码:A 空间数据仓库技术是数字地球、数字城市建设中的关键技术之一。

数据仓库是在企业管理和决策中面向主题的、完整的、非易失的、不同时间的、用于支持决策管理的数据集合[1],它的数据可以从联机的事务处理系统、异构的外部数据源、脱机的历史业务数据中得到。

涉及到的技术包括构建多维数据模型、数据抽取、存储、管理、OLAP 和数据挖掘等。

多维数据模型中定义了数据仓库的度量、维度结构以及层次间聚合算子,是OLAP 和某些数据挖掘模型的基础。

采用传统的多维数据模型和OLAP 技术处理空间数据具有较大的局限性,针对这些问题,特构建空间多维模型,即,在雪花模型中引入空间维度;在度量中引入指向空间聚合的指针;引入空间聚合生成、空间子方查询、空间OLAP 等操作算子。

在此模型基础上,试验了空间数据立方体的空间OLAP 操作。

1 传统多维数据模型的局限性OLAP 服务大多基于关系模型和多维数据模型,所存储和分析处理的数据多为结构化关系型数据,传统的多维数据模型处理空间数据(典型的复杂结构数据)有较大的缺陷,主要表现为:1)无论作为维度,还是作为度量,传统模型均不能直接操作空间数据。

空间数据往往需要泛化为非空间数据,才可以作为维度,此时已失去其几何定义;作为度量,由于空间数据泛化后不是数值型,或者采用数值型聚合函数无意义而无法聚合。

空间数据的聚合具有特定的算法,且其聚合结果具有特定意义,需要构造特定的空间聚合与检索算子。

2)传统的OLAP 分析的结果为报表和统计图表,缺乏空间数据的最佳展示手段———电子地图,因而无法获得空间数据的直观整体分布。

在多维数据模型中,空间数据往往作为空间维度而出现。

空间数据具有层次性,反映空间维度具有概念层次结构,层间具有空间聚合关系;空间数据也可作为度量出现,此时它是空间维度上钻取(drilling down )、钻穿(drilling trough )和回卷(rolling up )、切片(slicing )、切块(dicing )等操作的结果。

2 空间多维数据模型维度与度量分别依托于维表(dimension table )和事实表(fact table ),维表和事实表根据其间联接方式,可以构成星型模型(star schema )、雪花模型(snow 2flake schema )等。

目前基于关系型数据的研究认为:尽管规范的维表可以节省空间,但会因为存在较多的表连接(table join )操作而降低了浏览的性能,因而认为星型模型更适宜作为数据仓库的逻辑模型[2]。

作者认为,由于空间数据作为度量,其运算的时间及空间复杂度一般远远高于简单的关系型数据,尽管提出了一些空间子方物化(spatial cuboids materialization )、预计算(pre 2computation )和将用户查询转化为物化子方(materialization cuboids )的算法[2],空间数据在线处理的代价仍然很高,采用星型模型难以获得类收稿日期:2002201222;修回日期:2002203215 作者简介:徐铭杰(1970-),男,河南郑州人,助理研究员,博士生,主要从事地理信息系统和图像处理研究。

第19卷第2期2002年6月测绘学院学报Journal of Institute of Surveying and Mapping Vol.19No.2J un.2002似于关系型数据OLAP 的高效率。

雪花模型不仅具有显式的概念层次结构,可以避免并发冲突,而且可以有效地节省空间,这些优点对于复杂的空间对象在线分析和处理大有裨益。

文中考虑雪花模型(图1),雪花模型更适合空间数据仓库。

该模型可以很好的分离结构化的维度结构、数值型度量聚合数据和空间数据,便于各个部分独立的管理和维护,在已有关系型OLAP 系统、数据挖掘系统、RDBMS 、ORDBMS 的基础上,对关系型多维数据模型进行扩充,便可实现空间多维数据模型和OLAP 操作。

图1 空间多维数据模型实例定义1 一个空间多维数据模型是一个五元组RS =(D ,M ,S D ,S M ,D st r ),其中:1)D ={d 1,d 2,…,d n }为维度集合,d i 称为维度,其中d i 可能是包含空间数据索引的空间维度,记为d i ={sl i 1,sl i 2,…,sl im },sl ij 是空间维度d i 的一个层次。

2)M ={m 1,m 2,…,m k ,m s }为度量集合,m 1,m 2,…,m k 均为非空间度量,m s 是指向空间聚合结果的空间聚合索引。

3)S D ={sd 1,sd 2,…,sd m }为空间数据集合,sl ij 是sd j 的主关键字,一般为字符型。

4)S M ={sm 1,sm 2,…,sm m }为空间度量聚合集合,是空间数据聚合结果,m s 是sm j 的主关键字,一般为字符型。

5)D st r ={(α1,÷,θ1),(α2,÷,θ2),…,(αn ,÷,θn )}称为维度结构集合。

(αi ,÷,θi )定义了维度d i 的层次结构和层间的聚合约束关系,其中αi ={l i 1,l i 2,…,l in },定义了维度d i 的层次集合,÷表示相邻层次间的聚合关系;θi ={(l ip ,l iq ,φipq )|l ip ,l iq ∈αi ,l ip ÷l iq ,φipq ={ψipq 1,ψipq 2,…,ψipqk ,ψipqs }},规定了维度d i 的层次αi 中满足聚合关系的两个层l ip 和l iq 之间所允许使用的聚合函数的集合φipq ,亦即度量M 在l ip 和l iq 之间的聚合函数集合,其中包括数值型度量的算术算子集合ψipq 1,ψipq 2,…,ψipqk 和空间维度的空间算子集合ψipqs 。

我们称φipq 为l ip ÷l iq 的聚合约束,{θ1,θ2,…,θn }为空间n 维模型R 的聚合约束。

6)度量集合M 函数依赖于维度集合D ,即D和M 之间存在函数 F :DOM (d 1)×DOM (d 2)×…×DOM (d n )→DOM (m 1)×DOM (m 2)×…×DOM (m k )其中,DOM (d i )是维度d i 的值域;DOM (m j )是度量m j 的值域。

令 DOM (D )= DOM (d 1)×DOM (d 2)×…×DOM (d n ), DOM (M )= DOM (m 1)×DOM (m 2)×…×DOM (m k ),则D 和M 之间的映射F 可简记为F :DOM (D )→DOM (M )。

定义2 设RS =(D ,M ,S D ,S M ,D st r )是一个空间多维数据模型, D ={d 1,d 2,…,d n } M ={m 1,m 2,…,m k ,m s } S D ={sd 1,sd 2,…,sd m } S M ={sm 1,sm 2,…,sm m } D st r ={(α1,÷,θ1),(α2,÷,θ2),…, (αn ,÷,θn )}RS 的实例rs (即立方体)是一个映射 F :λ→δ,λ∈DOM (D ),δ∈DOM (M )在逻辑上表示为n +k +1元组的集合,每个元组的前n 个分量(t 1,t 2,…,t n )对应于n 个维度(可能包含空间维度)的值,第i 个分量取值于DOM (d i );后k 个分量(m 1,m 2,…,m k )对应于k 个度量的值,第j 个分量取值于DOM (m j );最后一个分量是聚合后产生的空间数据,记作s p ,取值于DOM (S M )。

(t 1,t 2,…,t n ,m 1,m 2,…,m k ,s p )当且仅当F (t 1,t 2,…,t n )=(m 1,m 2,…,m k ,s p )时是rs 的一个元组。

具有空间属性的立方体称为空间立方体。

多维数据集合上的完整代数操作包括:集合交、并、差、笛卡尔集、选择、投影、连接、层聚合、立方体、切片、切块、钻取、钻穿、回卷、维度结构维护、数据挖掘等等。

3 模型实现和OLAP 操作试验3.1 体系结构空间数据仓库建立于ORACL E9i ,采用MS521第2期徐铭杰等:空间多维数据模型及OLAP 的设计与实现 Analysis Services 建立多维数据模型和多维数据库,源数据、空间聚合存放于ORACL E9i ,维度、数值型度量聚合及空间聚合指针存放于多维数据库中,也可全部存放于ORACL E9i 中。

空间数据采用MDSYS.GEOM ETR Y 对象类型进行存储、管理、分析和查询。

客户端通过Pivot Table 服务和ORACL E 对象编程接口OO4O (Oracle Objects for OL E )访问远程OLAP 服务(图2)。

图2 空间OLAP 系统结构3.2 试验中设计的空间多维数据模型该模型由3个维度(时间、空间和商品)、3个数值型度量(store-sales 、store-cost 、unit-sales )和一个空间聚合索引sp 组成。

由于空间维度采用了规范化的设计,因此这是一个基于雪花模型的空间数据仓库模型。

在事实表中并不存储空间聚合对象集合,而仅仅存放指向这些空间对象的指针(空间聚合索引)。

各个维度均设计了概念层次结构,这个层次结构为后续的OLAP 、数据挖掘提供了基本的操作框架。

在选定处理效率和代价条件下,基于3个维度的9个层次成员,形成了7个数值型子方体和1个空间度量聚合集合并加以预储。

相关文档
最新文档