多维数据分析基础与方法..

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

3
2.1 多维数据分析基础
4
2.1 多维数据分析基础
度量值(Measure)


• •
度量值是一组值,是客户发生事件或动作的事实 记录。 如:
客户打电话,记录次数和费用等; 超市客户销售,记录销售数量、金额等等。

度量值所在的表称为事实数据表,常规多维数据 集的结构中只能有一个事实数据表。
5
43/38
2.6常用的客户端分析工具
Excel选择数据源
44/38
2.6常用的客户端分析工具
Excel连接数据库服务器
45/38
2.6常用的客户端分析工具
Excel选择数据库和表
46/38
2.6常用的客户端分析工具


维的一个取值称为该维的一个维度成员(简称维 成员)。 例如,考虑时间维具有日、月、年这3个级别, 分别在日、月、年上各取一个值组合起来,就得 到了时间维的一个维成员,即“某年某月某日”。
7
2.1 多维数据分析基础
维度的层次结构

• •
定义
层次结构是维度中成员的集合以及这些成员之间的相 对位置。 如,地址维:洲、国家、城市、区、街道、门牌号
2.1 多维数据分析基础
维度(Dimension)


维度(也简称为维)是人们观察数据的角度。 例如,时间维,地区维等。 包含维度信息的表是维度表,维度表包含描述事 实数据表中的事实记录的特性。 描述维度的字段称为维度属性
6
2.1 多维数据分析基础
维度成员(Dimension Member)
多维分析方法
方法
• 上卷 • 下钻 • 切片 • 切块 • 旋转
目的
• 从多个角度、多个侧面观察数据库中的数据。
11
2.2 多维数据分析方法
上卷(Roll-Up)
在数据立方体中执行聚集操作,通过在维级别中上 升来观察更概括的数据。
沿着时间维上 卷,由“季度” 上升到半年
12
2.2 多维数据分析方法
出版社维度表
24
2.4 多维数据的存储方式
SQL Server 的Analysis 三种多维数据存储方 式:
MOLAP(多维OLAP,Multidimensional OLAP) ROLAP(关系OLAP,Relational OLAP) HOLAP(混合OLAP,Hybrid OLAP)
SQL Server Business Intelligence Development Studio
34/38
2.5.1 SQL Server Analysis Services
SSIS、SSAS、SSRS
文件-> 项目
35/38
2.5.1 SQL Server Analysis Services
42/38
2.6常用的客户端分析工具
Excel
可以连接到分析服务器的功能 可以脱机方式分析数据。 Excel可以使用数据透视表服务连接任何的ODBC 数据源,然后产生一个多维数据集文件,模拟 OLAP服务的多维数据分析。 还可以帮助用户绘制统计图表,从而更直观地展示 多维数据分析的结果。
上卷
通过消除一个或多个维来观察更加概况的数据。
消除“经济 性质”维度
13
2.2 多维数据分析方法
下钻(drill-down)
通过在维级别中下降或通过引入某个或某些维来更细致 的观察数据。
沿时间维 下钻
14
2.2 多维数据分析方法
切片(slice)
在给定的数据立方体的一个维上进行的选择操作。切片的 结果是得到了一个二维的平面数据。
• 以海量数据为基础的复杂数据分析技术,侧重决策 支持。
与OLTP的区别
• 面向对象不同 • 操作不同
2
2.1 多维数据分析基础
多维数据集(Cube)
概念
• 是一个数据集合,通常从数据仓库的子集 构造,并组织和汇总成一个由一组维度和 度量值定义的多维结构。
特性
• 多维,也称作立方体(Cube) • 提供一种便于使用的查询数据的机制。

• •
类型
均衡层次结构
– 层次结构的所有分支都降至同一级别,每个成员的逻辑父代就 是其上级成员。 层次结构的所有分支都降至不同级别,每个成员的逻辑父代就 是其上级成员。如CEO/部门经理(/员工)、执行秘书
不均衡层次结构


不规则层次结构
8
2.1 多维数据分析基础
维的级别(Dimension Level)
Management Studio(数据管理) Analysis Services(分析服务)
IBM公司的DB2 OLAP Server (OLAP服务器)。
30/38
2.5.1 SQL Server Analysis Services
组件
SQL Server Integration Services(SSIS) SQL Server Analysis Services(SSAS) SQL Server Reporting Services(SSRS)
第2章 多维数据分析基础与方法
2.1多维数据分析基础 2.2多维数据分析方法 2.3维度表与事实表的连接 2.4多维数据的存储方式 2.5常用的服务器端分析工具 2.6常用的客户端分析工具 2.7 各种工具的准备和安装 小结
1
2.1 多维数据分析基础
多维数据分析(OLAP)
概念:
SQL Server Management Studio
36/38
2.5.1 SQL Server Analysis Services
连接服务
37/38
2.5.1 SQL Server Analysis Services
分析服务的特点
易用性; 灵活的数据存储模型; 伸缩性; 集成; 支持大量的API和函数; 分布式处理能力; 服务器端结构的高速缓存。
27
2.4 多维数据的存储方式
HOLAP
ROLAP与MOLAP存储方式的结合。 原始数据和ROLAP一样存储在原来的关系数据库 中,而聚合数据则以多维的形式存储分析服务器。 优点: • 既能与关系数据库建立连接,同时又利用了多 维数据库的性能优势。 缺点 • 是在ROLAP和MOLAP系统之间的切换会影响 它的效率。
转轴就是改变维的方向。
交换“时 间”和 “经济性 质”轴
17
2.3 维度表与事实表的连接
维度表和事实表的联系
纬度表
• 包含某维度信息的表; • 维度由主键和维属性构成。维属性是维表里的列。
事实表
• 包含度量值(事实)的表 • 特征
– 记录数量多 – 事实表除了度量外,其他字段都是同维表或者中间表的关 键字。 – 如果事实相关的维度很多,则事实表的字段数也会很多。
26
2.4 多维数据的存储方式
MOLAP
MOLAP使用多维数组存储数据,它是一种高性能 的多维数据存储格式。 多维数据在存储中将形成“立方体”的结构。 MOLAP存储模式将数据与计算结果都存储在立方 体结构中,并存储在分析服务器上。 该结构在处理维度时创建。 存取速度最快,查询性能最好,但占用磁盘空间较 多。
18
2.3 维度表与事实表的连接
维度表和事实表的联系
联系
• 相互独立,又互相关联并构成一个统一的架构。 • 事实表处在架构的中央。
构建多维数据集时常用的架构:
星型架构 雪花型架构 星型雪花架构
19
2.3 维度表与事实表的连接
星型架构
星型架构是以事实表为核心,其他的维度表 围绕这个核心表呈星型状分布。 每个维度表中的主码都只能是单列的,同时 该主码被放置在事实数据表中,作为事实数 据表与维表连接的外码。 维度表只与事实表关联,维度表彼此之间没 有任何联系。
“时间=1 季度”
15
2.2 多维数据分析方法
切块(dice)
在给定的数据立方体的两个或多个维上进行的选择操作。 切块的结果是得到了一个子立方体。
(度量值=“正常” or “次级”) And (时间=“1 季度” or “2季 度”)
16
2.2 多维数据分析方法
转轴(pivot or rotate)
事实数据表
时间 书籍_ id 出版社_id 书店_ id
订购数量 书籍单价 书籍折扣 销售表
23
书籍 _ id
书籍名 书籍类型 书籍出版日 作者_id 书籍维度表
作者 _ id
作者名 性别 教育程度 作者维度表
2.3 维度表与事实表的连接
星型雪花架构(Star-Snow Schema)
将星型架构和雪花式架构合并在一起使用,而成为星型 雪花架构。
时间
年 季度 月 时间维度表
事实数据表
时间 书籍_ id 出版社_id 书店_ id
订购数量 书籍单价 书籍折扣 销售表
书籍 _ id
书籍名 书籍类型 书籍出版日 作者_id 书籍维度表
作者 _ id
作者名 性别 教育程度 作者维度表
出版社_id
出版社名 国家
城市
书店 _ id
书店名 书店地址 业绩维度表
出版社维度表
21
2.3 维度表与事实表的连接
雪花型架构 (Snow Schema)
以事实数据表为核心; 某个维度表不与事实表直接关联,而是与另 一个维表关联 维度表和与其相关联的维度表通过外码关联; 可以进一步细化查看数据的粒度。
22
2.3 维度表与事实表的连接
雪花型架构示意图
用户应用
对象模型(决策支持对 象,DSO)
元数据
Analysis 服务器
数据源
数据透视表服务
多维数据集 挖掘 模型
客户端应用
40/38
2.5.1 SQL Server Analysis Services
2. 客户端体系结构
当不能连接到 OLAP服务器时可以使用 当不能连接到 OLAP服务器或者OLEDB 数据源时可以使用
25
2.4 多维数据的存储方式
ROLAP
ROLAP的数据与计算结果直接由原来的关系数据 库取得。 ROLAP将支撑多维数据的原始数据、多维数据集 数据、汇总数据和维度数据都存储在现有的关系数 据库中,并用独立的关系表来存放聚集数据。 不存储源数据副本,占用的磁盘空间最少,但存取 速度也比较低。
平台
Business Intelligence Development Studio
31/38
2.5.1 SQL Server Analysis Services
组件的结构
32/38
2.5.1 SQL Server Analysis Services
启动
33/38
2.5.1 SQL Server Analysis Services
28
2.4 多维数据的存储方式
三种存储方式的比较
内容 源数据的副本 占用分析服务器存 储空间 使用多维数据集
数据查询
MOLAP ROLAP HOLAP 有 无 无 大
小 快

较大 慢

大 慢
聚合数据的查询
使用查询频度

经常
29

不经常

经常
2.5常用的服务器端分析工具
SQL Server 2005
38/38
2.5.1 SQL Server Analysis Services
分析服务的体系结构
39/38
2.5.1 SQL Server Analysis Services
1.服务器端 体系结构
微软管理控制台(MMC)
管理器中的 分析部件 企业管理 器 Analysis Manager
用户部件
OLAP立方的 OLE DB 数据源
客户端应用
带OLAP和数据挖掘支持 的OLE DB 多维数据 文件
MOLAP
数据透视表服务 带OLAP扩展的ADO
多维数据
数据挖掘模 型的数据源
客户端应用
本地数据挖 掘模型
Analysis 服务器
41/38
2.6常用的客户端分析工具
Excel Crystal Analysis
人们观察数据的某个特定角度(即某个维)还可 以存在不同的细节程度,我们称这些维度的不同 的细节程度为维的级别。 一个维往往具有多个级别. 例如描述时间维时(“月、季度、年”为层次结 构),则月、季度、年为3个级别,可从不同级 别来描述。
Baidu Nhomakorabea

9
2.1 多维数据分析基础
10
2.2 多维数据分析方法
20
2.3 维度表与事实表的连接
星型架构示意图
时间
年 季度 月 时间维度表
事实数据表
时间 书籍_ id 出版社_id 书店_ id
订购数量 书籍单价 书籍折扣 销售表
书籍 _ id
书籍名 书籍类型 书籍出版日 作者_id 书籍维度表
出版社_id
出版社名 国家
城市
书店 _ id
书店名 书店地址 业绩维度表
相关文档
最新文档