数据仓库概念的简单理解
数据仓库与数据挖掘考试习题汇总

数据仓库与数据挖掘考试习题汇总第⼀章1、数据仓库就是⼀个⾯向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2、元数据是描述数据仓库内数据的结构和建⽴⽅法的数据,它为访问数据仓库提供了⼀个信息⽬录,根据数据⽤途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3、数据处理通常分成两⼤类:联机事务处理和联机分析处理。
4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切⽚、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同⾓度、不同侧⾯观察数据仓库中的数据,从⽽深⼊理解多维数据集中的信息。
5、ROLAP是基于关系数据库的OLAP实现,⽽MOLAP是基于多维数据结构组织的OLAP实现。
6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储于管理和数据表现等。
7、数据仓库系统的体系结构根据应⽤需求的不同,可以分为以下4种类型:两层架构、独⽴型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。
8、操作型数据存储实际上是⼀个集成的、⾯向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。
9、“实时数据仓库”以为着源数据系统、决策⽀持服务和仓库仓库之间以⼀个接近实时的速度交换数据和业务规则。
10、从应⽤的⾓度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和⾃动决策为主。
第⼆章1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。
2、抽取、转换、加载过程的⽬的是为决策⽀持应⽤提供⼀个单⼀的、权威数据源。
因此,我们要求ETL过程产⽣的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。
3、数据抽取的两个常见类型是静态抽取和增量抽取。
静态抽取⽤于最初填充数据仓库,增量抽取⽤于进⾏数据仓库的维护。
4、粒度是对数据仓库中数据的综合程度⾼低的⼀个衡量。
数据仓库与数据挖掘技术解析

数据仓库与数据挖掘技术解析在现代信息化的时代,数据已经成为了一种非常重要的资产。
在这些海量的数据之中,有很多有价值的信息被隐藏其间。
这就需要我们使用数据仓库与数据挖掘技术,通过对数据的分析和挖掘,向我们呈现出内在有价值的数据信息,帮助我们更好地理解数据,并从中发现我们需要的信息。
一、什么是数据仓库?在这个信息时代,数据已经成为企业不可缺少的一部分。
数据仓库是一个专门用于存储数据的系统。
它是一个集成的数据存储库,可以提供数据分析、数据挖掘、Web 搜索和企业报告等功能,以帮助企业快速响应客户需求、创造商业价值。
数据仓库是一个面向主题、集成、时间相对稳定和可刷新的数据存储库,用于支持企业智能化决策的整个过程。
面向主题: 数据仓库是围绕企业内关键业务件建立的,如销售、供应、市场等;集成: 数据仓库可集成不同来源的数据;时间相对稳定: 数据仓库存储的数据相对长周期,如一年或更长;可刷新: 数据仓库是可刷新的,数据可以通过批处理或实时方式更新。
二、数据仓库的重要性数据仓库非常重要,因为它提供了企业知识管理的基础。
企业知识管理是智能化决策和企业的长期成功的基础。
数据仓库可以帮助企业了解他们的客户、业务和市场动态。
由于大量的数据每天产生,数据仓库是必要的,以便企业能够应对不断变化的市场需求和管理信息的日益复杂的挑战。
数据仓库的另一个重要方面是它可以帮助企业洞察和理解他们的客户。
通过数据仓库分析数据可以确定客户的购买模式、使用历史和趋势,以及他们对于企业的反应。
这有助于企业制定更好的战略、优化点,以更好地满足客户需求。
三、数据挖掘技术数据挖掘是一种从大量数据中提取信息、关系和模式的技术。
数据挖掘不是单纯的筛选和过滤数据,而是在数据中寻找隐含的知识和模式。
如同羊毛出在羊身上,这些我们不曾发现过的、规律性强的数据关联,本身就是数据中蕴藏的财富。
数据挖掘使用抽样、统计分析、模型构建等技术,将庞大、复杂的数据库处理成有价值的信息,一方面为业务提供帮助,一方面成为指导企业决策的可靠的数据来源。
数据系统的名词解释

数据系统的名词解释数据系统(Data System)是由硬件、软件和人员组成的,用于收集、存储、处理和分析数据的系统。
它在现代社会中起到了极其重要的作用,支撑着各种行业和领域的运作。
本文将对与数据系统相关的一些重要名词进行解释,帮助读者更好地理解这个领域。
一、数据库(Database)数据库是数据系统中的核心组成部分之一,它是一个有组织的数据集合,可供多个应用程序共享和访问。
数据库以表格的形式进行组织,包含了一系列相关的数据和数据之间的关系。
在数据库中,数据可以方便地进行存储、查询和更新,使得信息的管理和使用更加高效和方便。
二、数据仓库(Data Warehouse)数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,用于支持管理决策。
与传统的数据库不同,数据仓库不仅仅包含当前和操作性的数据,还包括历史数据和大量的汇总数据。
数据仓库的建立需要将来自不同数据源的数据进行抽取、转换和加载处理,以保证数据的一致性和高质量。
三、数据挖掘(Data Mining)数据挖掘是从大量数据中自动发现潜在的、于人类经验之外的、之前未知的、有用的模式和知识的过程。
它是通过使用统计学、机器学习、人工智能等技术,对数据进行深入的分析和研究。
数据挖掘可以用于市场调研、客户关系管理、风险分析等领域,帮助用户从海量数据中提取有价值的信息。
四、数据流程管理(Data Flow Management)数据流程管理是在数据系统中对数据流动过程进行管理和控制,确保数据在系统中的流动和处理是有序和高效的。
数据流程管理包括数据的输入、输出、转换、流向等方面,通过设计合理的数据流程,可以降低系统的复杂性和风险,并提高数据系统的性能和可靠性。
五、数据治理(Data Governance)数据治理是一种组织管理数据的方式,旨在确保数据质量、合规性和可信度。
数据治理涉及数据的所有方面,包括数据的定义、分类、管理、保护和使用等。
通过建立有效的数据治理机制,可以使组织更好地理解和利用数据,减少数据管理中的问题和风险。
产品经理-10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系(一)

10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系(一)作为一名数据小白,在日常讲授和杂务工作中经常会接触到数据。
随着用户数据与金融业务数据的不断累加,数据管理与处理愈发重要。
本篇文章中,无名氏将一文说明数据库、数据仓库、数据湖、数据中台的区别与联系。
作为数据相关的产品小白,在日常学习工作中经常能或者听到大家在讨论数据库,数据仓库,数据集市,数据库数据湖还有最近比较火的数据中台,似乎这些名词都与数据存在着联系,查阅各类相关书籍,大部分书籍中的内容过于专业晦涩难懂。
那么这结合我积累的相关方面知识,向大家介绍一下上述这些名词的与联系,以及在各类企业及业务范围上的适用范围,如有不准确的地方,希望大家进行指正。
相信大部分有些许技术背景的都对数据库有一定的了解,数据库是“按照数据结构来组织、存储和管理数据的仓库”,一般分为“关系型数据库”与“非关系型数据库”。
1.关系型数据库实际上回顾过去的数据库一共有三种模型,即层次模型,网状模型,关系模型。
(1)首先层次模型的数据结构为树状结构,即是一种上下级的社团组织层级关系组织数据的一种方式:(2)带状模型的数据结构为网状网状结构,即将每个数据节点与其他很多节点都连接起来:(3)关系模型的数据结构可以看做是一个二维表格,任何数据都可以通过行号与列号来唯一确定:由于相比于层次模型和网状模型,关系模型理解和使用最简单,最终基于关系型最后数据库在各行各业应用了起来。
关系模型的数学方法第一卷涉及到关系,元组,属性,笛卡尔积,域等等令人头秃的高等数学术语,这里大家如果感兴趣可以看看相关的文献,我就不放出来催眠大家了,尽管数学原理比较复杂,但如果用事务平时学习工作的具体事务举例,就相对容易理解。
我们以某公司的员工信息表为例,该公司的员工信息可以用一个表格存起来。
并且定义如下:同时部门ID对应这另一个职能部门表:我们可以通过给定一个政府部门部门名称,查到一条部门的记录,根据部门ID,又可以记述查到该部门下的员工记录,这样三维的表格就通过ID映射建立了“一对多”的关系。
BI中事实表,维度表和数据集市,数据仓库的理解

BI中事实表,维度表和数据集市,数据仓库的理解维度表(dimension)存放着⼀些维度属性,例如时间维度:年⽉⽇时;地域维度:省份,城市;年龄维度:⽼年,中年,青年;职称维度:⾼,中,低。
它定义了可以从哪些⾓度分析事实表。
事实表(fact)存放着⼀些业务产⽣的数据,例如:商品订购产⽣的订单信息,银⾏的流⽔信息,erp系统的办公信息。
但它不仅存放着上述事实信息,⽽且存放在事实信息与维度信息关联的键值,例如订单信息⾥⾯有⽇期字段可以和时间维度关联,可以通过银⾏中的个税流⽔与收⼊维度关联量化各个收⼊群体,erp流⽔中的员⼯号可以同职称维度表关联统计公司运⾏状态。
其实,在设计事实表与维度表的关联关系时,要引⼊两个模型结构:星型表(star)和雪花表(snow)。
顾名思义,星型表模型是事实表与每个维度表分别关联,事实表位于中央,维度表围绕事实表周围。
这种模型结构市⼀中反范式的设计⽅式。
优点是设计简单,减少了关联事实表和维度表的关联层级,查询效率会⾼⼀些,缺点是数据的冗余。
例如:事实表student(学号,年龄,姓名,国家,省份,地市,专业。
),维度表:country(国家编码,国家名称),province(省份编码,省份名称),city(国家编码,省份编码,城市编码,城市名称);则在存储来⾄同⼀省份不同地市的学⽣时,国家和省份就重复存放了。
雪花表模型则是⼀种规范的范式结构,它的数据组织⽅式是消除冗余的,能有效减少数据量;优点是减少了冗余并且在关联查询中不容易出现数据重复计算的情况,因为它引⼊了数据完整性,缺点是维护复杂,增加了关联层级,执⾏效率较低。
例如:事实表student(学号,年龄,姓名,地域,专业。
),维度表:area(地域编码,国家编码,省份编码,城市编码)country(国家编码,国家名称),province(省份编码,省份名称),city(国家编码,省份编码,城市编码,城市名称)。
接着,有上述星型表和雪花表组成的数据集合就是⼀个数据集市(datamart),其⾯向于部门级应⽤,存放少量的历史数据,数据来源于数据仓库。
通过对比数据库来理解数据仓库

4 3 0 0 7 2 )
二、 数 据库 与 数 据 仓 库 应 用 于 不 同 的方 向 从应用上来讲 . 数 据 库 是 面 向事 务 的设 计 . 数据仓库是 面
是 作 为数 据 管理 的手 段 , 主要用于事务处理 , 而数 据仓 库 则 对
联 机 分 析 的 能 力提 出 更 高 的要 求 本 文 通过 对数 据 库 和数 据 仓 库 的概 念 及 应 用进 行 较 全 面 的 对 比 分析 , 对数 据仓 库 有 更
数 据 仓 库 是 一 种 系 统 ,这 种 系 统 是 用 数 据 库 装 东 西 ; 关 键 是装 的什么样 的数据 , 数 据库装 的原 始数据 , 没 经 过 任 何 加 工 ;而 数 据 仓 库 是 为 了 满 足 分 析 需 要 ,对 源 数 据 进 行 了 T r a n s f o r m过 程 . 具 体 是怎样 一个 处 理过 程 , 可 以从B i l l l n m o n
任何 技 术 都 是 为 应 用 服 务 的 .结 合 应 用 可 以 很 容 易 地 理 解 。以银 行 业 务 为 例 。数 据 库 是 事 务 系 统 的数 据 平 台 , 客 户 在 银 行 做 的 每 笔 交 易 都 会 写 入 数 据 库 ,被 记 录 下 来 , 这 里, 可 以简单地理 解为用数 据库 记账 。 数 据 仓 库 足 分 析 系统 的数据 平台 , 它从 事务 系统获取数 据 , 并进 行汇总 、 加 . 为 决 策 者 提 供 决 策 的 依 据 。比如 , 某 银 行 某 分 行 一 个 月 发 生 多 少交 易 , 该 分 行 当 前 存 款余 额 是 多 少 。 比如 . 某 品 牌 汽 车 在 某地一 个月销 售多少 台汽车 , 有 多少 台是属于高 档的 。 如 果 销售量 又多 。 咨询 的人数 又在上 涨 , 那 么 就 要 考 虑 存 这 个 地 区 设 高 档4 S 店。 显然 . 有 些 事 实 数 据 的交 易 量 是 巨大 的 . 通 常 以 百 万 甚 至 千 万 次 计 算 。 事 务 系统 是 实 时 的 , 这就要求时效性 , 比 如 在银 行, 客户存一笔钱需要几十秒是无法忍受的 , 这 就 要 求 数 据 库 只 能 存 储 很 短 一段 时 间 的数 据 。 而分析系统是事后的 , 它 要 提
数据仓库实验报告

一、实验目的1. 理解数据仓库的基本概念和结构;2. 掌握数据仓库的ETL(提取、转换、加载)过程;3. 熟悉数据仓库的查询和分析方法;4. 学习使用SQL Server等工具进行数据仓库的搭建和操作。
二、实验环境1. 操作系统:Windows 10;2. 数据库:SQL Server 2012;3. 开发工具:VS2017(SSDT)。
三、实验内容1. 数据仓库概述数据仓库是一个面向主题的、集成的、稳定的、随时间不断变化的数据集合,用于支持管理决策。
数据仓库的主要特点是面向主题、集成、稳定、变化和随时间不断变化。
2. ETL过程ETL是数据仓库中提取(Extract)、转换(Transform)、加载(Load)的缩写,它描述了将数据从源系统提取出来,进行必要的转换后,加载到目标系统中的过程。
(1)提取:从源系统中提取所需的数据,可以是数据库、文件或其他数据源。
(2)转换:对提取出来的数据进行清洗、格式化、合并等操作,使其符合数据仓库的要求。
(3)加载:将转换后的数据加载到数据仓库中,可以是数据库表、文件或其他数据存储。
3. 数据仓库查询和分析(1)SQL查询:使用SQL语言进行数据仓库的查询,包括简单查询、连接查询、子查询等。
(2)OLAP分析:使用OLAP(在线分析处理)工具进行数据仓库的分析,包括切片、切块、钻取、旋转等操作。
4. 使用SQL Server搭建数据仓库(1)创建数据库:使用SQL Server Management Studio创建一个新的数据库,用于存储数据仓库的数据。
(2)创建表:根据数据仓库的结构,创建相应的表,包括事实表、维度表等。
(3)数据加载:使用SQL Server Data Tools将数据加载到数据仓库的表中。
四、实验步骤1. 创建数据库(1)打开SQL Server Management Studio,连接到本地SQL Server实例。
(2)在对象资源管理器中,右键单击“数据库”,选择“新建数据库”。
使用odps和hive后对数据库与数据仓库概念的理解

使用odps和hive后对数据库与数据仓库概念的理解暑假实习使用了两个月的odps ,回学校看了下Hadoop的Hive,让我对数据库与数据仓库增进了一些理解,记录下来。
简而言之,数据库是面向事务的设计,数据仓库是面向主题设计的。
数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。
数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。
数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。
维是看问题的角度,比如时间,部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID。
单从概念上讲,有些晦涩。
任何技术都是为应用服务的,结合应用可以很容易地理解。
以银行业务为例。
数据库是事务系统的数据平台,客户在银行做的每笔交易都会写入数据库,被记录下来,这里,可以简单地理解为用数据库记帐。
数据仓库是分析系统的数据平台,它从事务系统获取数据,并做汇总、加工,为决策者提供决策的依据。
比如,某银行某分行一个月发生多少交易,该分行当前存款余额是多少。
如果存款又多,消费交易又多,那么该地区就有必要设立ATM了。
显然,银行的交易量是巨大的,通常以百万甚至千万次来计算。
事务系统是实时的,这就要求时效性,客户存一笔钱需要几十秒是无法忍受的,这就要求数据库只能存储很短一段时间的数据。
而分析系统是事后的,它要提供关注时间段内所有的有效数据。
这些数据是海量的,汇总计算起来也要慢一些,但是,只要能够提供有效的分析数据就达到目的了。
数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。
那么,数据仓库与传统数据库比较,有哪些不同呢?让我们先看看W.H.Inmon关于数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。
“面向主题的”:传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据仓库概念的简单理解一个典型的企业数据仓库系统通常包含数据源、数据存储与管理、OLAP服务器以及前端工具与应用四个部分。
如下图所示:数据源:是数据仓库系统的基础,是整个系统的数据源泉。
通常包括企业内部信息和外部信息。
内部信息包括存放于企业操作型数据库中(通常存放在RDBMS中)的各种业务数据和办公自动化(OA)系统包含的各类文档数据。
外部信息包括各类法律法规、市场信息、竞争对手的信息以及各类外部统计数据及各类文档等;数据的存储与管理:是整个数据仓库系统的核心。
在现有各业务系统的基础上,对数据进行抽取、清理,并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存储结构,同时组织存储数据仓库元数据(具体包括数据仓库的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息)。
按照数据的覆盖范围,数据仓库存储可以分为企业级数据仓库和部门级数据仓库(通常称为“数据集市”,Data Mart)。
数据仓库的管理包括数据的安全、归档、备份、维护、恢复等工作。
这些功能与目前的DBMS基本一致。
OLAP服务器:对分析需要的数据按照多维数据模型进行再次重组,以支持用户多角度、多层次的分析,发现数据趋势。
其具体实现可以分为:ROLAP、MOLAP和HOLAP。
ROLAP 基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;而HOLAP是ROLAP与MOLAP的综合,基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。
前端工具与应用:前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具以及各种基于数据仓库或数据集市开发的应用。
其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具既针对数据仓库,同时也针对OLAP服务器。
?集线器与车轮状结构的企业级数据仓库 ?这种结构也称为“Hub and Spoke”,这是因为中央数据库汇集了来自各业务处理系统的数据,同时也负责向各从属数据集市提供信息,看上去像一个Hub (集线器);而业务人员在进行数据分析与信息访问时将根据需要连接到不同的数据集市,这种交叉复杂的连接看上去就像Spoke(车轮辐条)一样。
“Hub and Spoke”结构解决了企业内统一数据存储模型的问题,但从实际使用的角度来看仍有比较严重的缺陷:一是业务人员对信息的访问非常不方便,很难进行跨数据集市或跨部门的信息分析;另一个问题是每个数据集市都需要相应的软硬件投入,当数据集市增加时,系统整体投资迅速增加,同时管理的复杂性也随之增加。
这些都意味着巨大的整体拥有成本TCO(Total Cost of Ownership)。
为什么不直接访问中央数据仓库而非要设计一个数据集市层呢?主要原因在于当中央数据库保存越来越多的数据、并发用户越来越多时,一般的数据库引擎无法承担这样的负载,只好把它们分解到不同的数据集市。
对于“Hub and Spoke”结构的数据仓库, Gartner Group也认为,“数据仓库的 Hub and Spoke 结构,回避了DBMS技术中的弱点,无法提供适当的业务价值来平衡投资成本的显着增加”,“之所以产生这种趋势,是由于对大多数DBMS产品而言,支持复杂的数据模型和并发查询负载都是极大的挑战”。
?集中式企业级数据仓库第二种企业级数据仓库的架构是集中式的,这解决了“Hub and Spoke”结构中存在的诸多问题,是一种比较理想的企业级数据仓库系统架构,能够为企业带来真正的业务价值与回报。
但由于把详细数据分析、部分的数据转换与清洗等复杂处理均集中在中央数据仓库,从而给作为数据仓库引擎的RDBMS和相应的服务器带来了极大的挑战。
选择这种数据仓库基础平台的基本要求是: ?1、线性扩展能力。
原始数据对任何一个数据仓库来说,都是最主要的负载之一。
随着数据量的增长,系统性能会逐渐下降。
维持合理的业务查询响应时间,要求数据仓库引擎和相应的数据库服务器具有优良的线性扩展能力。
一些系统的扩展能力非常有限,当数据量增长到一定规模时(比如TB级以上),就很难满足日常的业务分析要求了,因而不得不把数据分离到多个小规模的数据集市,形成所谓的“Hub and Spoke”结构。
2、并行处理能力。
许多业务查询与分析都是动态的,数据库传统的索引技术对动态分析和模糊查询的帮助不大。
系统只有具有非常好的并行处理能力,才能满足复杂的、动态的分析需求,并且承担比较复杂的数据转换与清洗工作。
3、简单的系统管理。
对于大型的数据仓库应用系统而言,如何能有效而简单地进行系统管理是非常重要的。
特别是当数据量不断扩大时,如果没有一种有效而且简单的系统管理措施,那么系统的运行费用将会很高。
数据仓库的实施是一个长期的过程,在基础设施建立完成后,随着应用的逐步开展和深入,其投资回报也逐步增加。
在建立数据仓库过程中需要一定的时间来建立数据仓库基础设施,并在建置的过程中逐步完善数据质量。
这个打基础的过程是无法省略的。
更为重要的是,在建立数据仓库的过程当中,还可以培养一批既懂数据仓库技术、又精通该领域业务的高级分析人才,这对于更好地发挥数据仓库价值是非常重要的附:联机事务处理OLTP及联机分析处理(OLAP)?当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。
OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
下表列出了OLTP与OLAP 之间的比较。
?OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。
“维”是人们观察客观世界的角度,是一种高层次的类型划分。
“维”一般包含着层次关系,这种层次关系有时会相当复杂。
通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。
因此OLAP也可以说是多维数据分析工具的集合。
OLAP的基本多维分析操作有钻取(roll up和drill down)、切片(slice)和切块(dice)、以及旋转(pivot)、drill across、drill through等。
·钻取是改变维的层次,变换分析的粒度。
它包括向上钻取(roll up)和向下钻取(drill down)。
roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而drill down则相反,它从汇总数据深入到细节数据进行观察或增加新维。
切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。
如果剩余的维只有两个,则是切片;如果有三个,则是切块。
旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。
OLAP有多种实现方法,根据存储数据的方式不同可以分为ROLAP、MOLAP、HOLAP。
ROLAP表示基于关系数据库的OLAP实现(Relational OLAP)。
以关系数据库为核心,以关系型结构进行多维数据的表示和存储。
ROLAP将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。
维表和事实表通过主关键字和外关键字联系在一起,形成了"星型模式"。
对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为"雪花模式"。
MOLAP表示基于多维数据组织的OLAP实现(Multidimensional OLAP)。
以多维数据组织方式为核心,也就是说,MOLAP使用多维数组存储数据。
多维数据在存储中将形成"立方块(Cube)"的结构,在MOLAP中对"立方块"的"旋转"、"切块"、"切片"是产生多维数据报表的主要技术。
HOLAP表示基于混合数据组织的OLAP实现(Hybrid OLAP)。
如低层是关系型的,高层是多维矩阵型的。
这种方式具有更好的灵活性。
还有其他的一些实现OLAP的方法,如提供一个专用的SQL Server,对某些存储模式(如星型、雪片型)提供对SQL查询的特殊支持。
OLAP工具是针对特定问题的联机数据访问与分析。
它通过多维的方式对数据进行分析、查询和报表。
维是人们观察数据的特定角度。
例如,一个企业在考虑产品的销售情况时,通常从时间、地区和产品的不同角度来深入观察产品的销售情况。
这里的时间、地区和产品就是维。
而这些维的不同组合和所考察的度量指标构成的多维数组则是OLAP分析的基础,可形式化表示为(维1,维2,……,维n,度量指标),如(地区、时间、产品、销售额)。
多维分析是指对以多维形式组织起来的数据采取切片(Slice)、切块(Dice)、钻取(Drill-down和Roll-up)、旋转(Pivot)等各种分析动作,以求剖析数据,使用户能从多个角度、多侧面地观察数据库中的数据,从而深入理解包含在数据中的信息。
根据综合性数据的组织方式的不同,目前常见的OLAP主要有基于多维数据库的MOLAP及基于关系数据库的ROLAP两种。
MOLAP是以多维的方式组织和存储数据,ROLAP则利用现有的关系数据库技术来模拟多维数据。
在数据仓库应用中,OLAP应用一般是数据仓库应用的前端工具,同时OLAP工具还可以同数据挖掘工具、统计分析工具配合使用,增强决策分析功能。
附:OLAP主流产品?Hyperion Essbase?Oracle Express?IBM DB2 OLAP Server?Sybase Power dimension?Informix MetacubeHyperion Essbase?以服务器为中心的分布式体系结构?有超过100个的应用程序?有300多个用Essbase作为平台的开发商?具有几百个计算公式,支持多种计算?用户可以自己构件复杂的查询。
?快速的响应时间,支持多用户同时读写?有30多个前端工具可供选择?支持多种财务标准?能与ERP或其他数据源集成?全球用户超过1500家?Oracle Express?Oracle DW支持GB~TB数量级?采用类似数组的结构,避免了连接操作,提高分析性能?提供一组存储过程语言来支持对数据的抽取?用户可通过Web和电子表格使用?灵活的数据组织方式,数据可以存放在Express Server内,也可直接在RDB 上使用?有内建的分析函数和4GL用户自己定制查询?全球超过3000家?IBM DB2 OLAP Server–把Hyperion Essbase的OLAP引擎和DB2的关系数据库集成在一起。