olap(在线分析处理)
数据挖掘 填空题

1.知识发现是一个完整的数据分析过程,主要包括以下几个步骤:确定知识发现的目标、数据采集、数据探索、数据预处理、__数据挖掘_、模式评估。
2._特征性描述_是指从某类对象关联的数据中提取这类对象的共同特征(属性)。
3.回归与分类的区别在于:___回归__可用于预测连续的目标变量,___分类__可用于预测离散的目标变量。
4.__数据仓库_是面向主题的、集成的、相对稳定的、随时间不断变化的数据集合,与传统数据库面向应用相对应。
5.Pandas的两种核心数据结构是:__Series__和__DataFrame__。
6.我们可以将机器学习处理的问题分为两大类:监督学习和_无监督学习__。
7.通常,在训练有监督的学习的机器学习模型的时候,会将数据划分为__训练集__和__测试集__,划分比例一般为0.75:0.25。
1.分类问题的基本流程可以分为__训练__和__预测_两个阶段。
2.构建一个机器学习框架的基本步骤:数据的加载、选择模型、模型的训练、__模型的预测_、模型的评测、模型的保存。
3.__回归分析_是确定两种或两种以上变量间相互依赖关系的一种统计分析方法,是应用及其广泛的数据分析方法之一。
4.在机器学习的过程中,我们将原始数据划分为训练集、验证集、测试集之后,可用的数据将会大大地减少。
为了解决这个问题,我们提出了__交叉验证_这样的解决办法。
5.当机器学习把训练样本学得“太好”的时候,可能已经把训练样本自身的一些特点当作所有潜在样本都会具有的一般性质,这样会导致泛化性能下降。
这种现象在机器学习中称为__过拟合__。
6.常用的降维算法有__主成分分析__、___因子分析__和独立成分分析。
7.关联规则的挖掘过程主要包含两个阶段__发现频繁项集_和__产生关联规则__。
1、数据仓库是一个( 面向主题的 ) 、( 集成的 )、( 相对稳定的 )、 ( 反映历史变化 )的数据集合,通常用于( 决策支持的 )目的2、如果df1=pd.DataFrame([[1,2,3],[NaN,NaN,2],[NaN,NaN,NaN],[8,8,NaN]]),则df1.fillna(100)=?([[1,2,3],[100,100,2],[100,100,100],[8,8,100]])3、数据挖掘模型一般分为(有监督学习 )和( 无监督学习 )两大类4、如果df=pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'],'data':[0,5,10,5,10,15,10,15,20]}),则df.groupby('key').sum()=?(A:15,B:30,C:45)5、聚类算法根据产生簇的机制不同,主要分成(划分聚类)、(层次聚类)和(密度聚类)三种算法6、常见的数据仓库体系结构包括( 两层架构 )、( 独立型数据集市 )、( 依赖型数据集市和操作型数据存储)、( 逻辑型数据集市和实时数据仓库 )等四种7、Pandas最核心的三种数据结构,分别是(Series)、(DataFrame)和(Panel)8、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等9、在决策树算法中用什么指标来选择分裂属性非常关键,其中ID3算法使用( 信息增益 ),C4.5算法使用( 信息增益率 ),CART算法使用( 基尼系数) 10、OLAP的中文意思是指( 在线分析处理)1、常见的数据仓库体系结构包括( 两层架构 )、( 独立型数据集市 )、( 依赖型数据集市和操作型数据存储)、( 逻辑型数据集市和实时数据仓库 )等四种2、Pandas最核心的三种数据结构,分别是(Series)、(DataFrame)和(Panel)3、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等4、在决策树算法中用什么指标来选择分裂属性非常关键,其中ID3算法使用( 信息增益 ),C4.5算法使用( 信息增益率 ),CART算法使用( 基尼系数)5、OLAP的中文意思是指( 在线分析处理)6、如果ser = pd.Series(np.arange(4,0,-1),index = ["a","b","c","d"]),则ser.values=?([4, 3, 2, 1]),ser * 2=([8, 6, 4, 2])7、线性回归最常见的两种求解方法,一种是( 最小二乘法),另一种是( 梯度下降法)8、对于回归分析中常见的过拟合现象,一般通过引入( 正则化 )项来改善,最有名的改进算法包括( Ridge岭回归)和( Lasso套索回归)9、Python字符串str = 'Hello World!',print(str[-2])的结果是?(d)10、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)1、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等2、在决策树算法中用什么指标来选择分裂属性非常关键,其中ID3算法使用( 信息增益 ),C4.5算法使用( 信息增益率 ),CART算法使用( 基尼系数)3、OLAP的中文意思是指( 在线分析处理)4、如果ser = pd.Series(np.arange(4,0,-1),index = ["a","b","c","d"]),则ser.values=?([4, 3, 2, 1]),ser * 2=([8, 6, 4, 2])5、线性回归最常见的两种求解方法,一种是( 最小二乘法),另一种是( 梯度下降法)6、对于回归分析中常见的过拟合现象,一般通过引入( 正则化 )项来改善,最有名的改进算法包括( Ridge岭回归)和( Lasso套索回归)7、Python字符串str = 'Hello World!',print(str[-2])的结果是?(d)8、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)9、CF是协同过滤的简称,一般分为基于(用户)的协同过滤和基于(商品)的协同过滤10、假如Li=[1,2,3,4,5,6],则Li[::-1]的执行结果是([6,5,4,3,2,1])1、数据仓库是一个( 面向主题的 ) 、( 集成的 )、( 相对稳定的 )、 ( 反映历史变化 )的数据集合,通常用于( 决策支持的 )目的2、如果df1=pd.DataFrame([[1,2,3],[NaN,NaN,2],[NaN,NaN,NaN],[8,8,NaN]]),则df1.fillna(100)=?([[1,2,3],[100,100,2],[100,100,100],[8,8,100]])3、数据挖掘模型一般分为(有监督学习 )和( 无监督学习 )两大类4、如果df=pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'],'data':[0,5,10,5,10,15,10,15,20]}),则df.groupby('key').sum()=?(A:15,B:30,C:45)5、聚类算法根据产生簇的机制不同,主要分成(划分聚类)、(层次聚类)和(密度聚类)三种算法6、如果ser = pd.Series(np.arange(4,0,-1),index = ["a","b","c","d"]),则ser.values=?([4, 3, 2, 1]),ser * 2=([8, 6, 4, 2])7、线性回归最常见的两种求解方法,一种是( 最小二乘法),另一种是( 梯度下降法)8、对于回归分析中常见的过拟合现象,一般通过引入( 正则化 )项来改善,最有名的改进算法包括( Ridge岭回归)和( Lasso套索回归)9、Python字符串str = 'Hello World!',print(str[-2])的结果是?(d)10、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)1、数据仓库是一个( 面向主题的 ) 、( 集成的 )、( 相对稳定的 )、 ( 反映历史变化 )的数据集合,通常用于( 决策支持的 )目的2、数据挖掘模型一般分为(有监督学习 )和( 无监督学习 )两大类3、聚类算法根据产生簇的机制不同,主要分成(划分聚类)、(层次聚类)和(密度聚类)三种算法4、Pandas最核心的三种数据结构,分别是(Series)、(DataFrame)和(Panel)5、在决策树算法中用什么指标来选择分裂属性非常关键,其中ID3算法使用( 信息增益 ),C4.5算法使用( 信息增益率 ),CART算法使用( 基尼系数) 6、如果ser = pd.Series(np.arange(4,0,-1),index = ["a","b","c","d"]),则ser.values=?([4, 3, 2, 1]),ser * 2=([8, 6, 4, 2])7、对于回归分析中常见的过拟合现象,一般通过引入( 正则化 )项来改善,最有名的改进算法包括( Ridge岭回归)和( Lasso套索回归)8、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)9、CF是协同过滤的简称,一般分为基于(用户)的协同过滤和基于(商品)的协同过滤10、假如Li=[1,2,3,4,5,6],则Li[::-1]的执行结果是([6,5,4,3,2,1])1如果df1=pd.DataFrame([[1,2,3],[NaN,NaN,2],[NaN,NaN,NaN],[8,8,NaN]]),则df1.fillna(100)=?([[1,2,3],[100,100,2],[100,100,100],[8,8,100]]) 2、如果df=pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'], 'data':[0,5,10,5,10,15,10,15,20]}),则df.groupby('key').sum()=?(A:15,B:30,C:45)3、常见的数据仓库体系结构包括( 两层架构 )、( 独立型数据集市 )、( 依赖型数据集市和操作型数据存储)、( 逻辑型数据集市和实时数据仓库 )等四种4、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等5、OLAP的中文意思是指( 在线分析处理)6、线性回归最常见的两种求解方法,一种是( 最小二乘法),另一种是( 梯度下降法)7、Python字符串str = 'Hello World!',print(str[-2])的结果是?(d)8、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)9、CF是协同过滤的简称,一般分为基于(用户)的协同过滤和基于(商品)的协同过滤10、假如Li=[1,2,3,4,5,6],则Li[::-1]的执行结果是([6,5,4,3,2,1])1、数据挖掘模型一般分为(有监督学习 )和( 无监督学习 )两大类2、聚类算法根据产生簇的机制不同,主要分成(划分聚类)、(层次聚类)和(密度聚类)三种算法3、常见的数据仓库体系结构包括( 两层架构 )、( 独立型数据集市 )、( 依赖型数据集市和操作型数据存储)、( 逻辑型数据集市和实时数据仓库 )等四种4、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等5、如果ser = pd.Series(np.arange(4,0,-1),index = ["a","b","c","d"]),则ser.values=?([4, 3, 2, 1]),ser * 2=([8, 6, 4, 2])6、对于回归分析中常见的过拟合现象,一般通过引入( 正则化 )项来改善,最有名的改进算法包括( Ridge岭回归)和( Lasso套索回归)7、Python字符串str = 'Hello World!',print(str[-2])的结果是?(d)8、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)9、CF是协同过滤的简称,一般分为基于(用户)的协同过滤和基于(商品)的协同过滤10、假如Li=[1,2,3,4,5,6],则Li[::-1]的执行结果是([6,5,4,3,2,1])1、数据仓库是一个( 面向主题的 ) 、( 集成的 )、( 相对稳定的 )、 ( 反映历史变化 )的数据集合,通常用于( 决策支持的 )目的2、如果df=pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'], 'data':[0,5,10,5,10,15,10,15,20]}),则df.groupby('key').sum()=?(A:15,B:30,C:45)3、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等4、在决策树算法中用什么指标来选择分裂属性非常关键,其中ID3算法使用( 信息增益 ),C4.5算法使用( 信息增益率 ),CART算法使用( 基尼系数)5、OLAP的中文意思是指( 在线分析处理)6、如果ser = pd.Series(np.arange(4,0,-1),index = ["a","b","c","d"]),则ser.values=?([4, 3, 2, 1]),ser * 2=([8, 6, 4, 2])7、线性回归最常见的两种求解方法,一种是( 最小二乘法),另一种是( 梯度下降法)8、对于回归分析中常见的过拟合现象,一般通过引入( 正则化 )项来改善,最有名的改进算法包括( Ridge岭回归)和( Lasso套索回归)9、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)10、CF是协同过滤的简称,一般分为基于(用户)的协同过滤和基于(商品)的协同过滤。
在线分析处理_1

数据切片
如果存在一个(时间,城市,产品,价格)的数据立方体,其中时 间、城市、产品是3个维度,价格是度量变量。在城市维上取定“上 海”、“广州”, 则分别形成两个在城市维上的数据切片,分别显示 的是上海和广州各年各种产品的价格情况。 再如,在产品维中取定“电视机”、“电冰箱”,则分别生成两个 在产品维上的数据切片,显示的是各个城市各年份电视机和电冰箱的 价格情况。
© Copyright CDC Software 7
OLAP的12准则 OLAP的12准则
5. 客户/服务器体系结构 OLAP建立在客户/服务器的结构下,服务器端负责数据抽 取、数据存取、数据管理等复杂的功能,客户侧实现较为简单的 应用逻辑和用户界面。这种客户/服务器的结构有利于功能的合 理分担。服务器计算能力强,用于处理复杂的功能;客户端计算 能力相对较差,用于实现简单的功能。 近年来,两层客户/服务器结构发展成了客户/中间层/服 务器的三层结构。在中间层实现应用逻辑,而在客户端只实现界 面功能,三层结构使得功能得到更进一步的划分。由于应用逻辑 变化比较频繁,将应用逻辑单独分离出来,在应用逻辑发生变化 的时候,只需修改中间层软件而服务器和客户侧的软件几乎不需 要修改。
维:是人们观察数据的特定角 度,是考虑问题时的一类属性 (时间维、地理维等)。 维的层次:人们观察数据的某 个特定角度(即某个维)还可以 存在细节程度不同的各个描述 方面(时间维:日期、月份、季 度、年)。 维的成员:维的一个取值。是 数据项在某维中位置的描述。 (“某年某月某日”是在时间维 上位置的描述) 多维数组:维和变量的组合表 示。一个多维数组可以表示为: (维1,维2,…,维n,变量)。 (时间,地区,产品,销售额) 数据单元(单元格):多维数组 的取值。(2000年1月,上海, 笔记本电脑,$100000)
商务智能(第5版)课件第4章 在线分析处理

web文档的 OLAP 分析 读者一般从多个方面查询 web文档:文档的作者、主题、标题、日期、大小、作者单位和出版社等,对应 web文档立方的维。可以对文档立方进行各种多维分析,如切片、切块、旋转以及钻取等操作,从多个角度分析文档。例如,从中可以得到中国哪所大学在过去几年的视频会议领域发表了最多的论文。
OLAP 简介 基本概念(2)
维的层次:一个维往往可以具有多个层次,例如时间维分为年、季度、月和日等层次,地区维可以分为国家、地区、省、市等层次。这里的层次表示数据细化程度,对应概念分层。后面提到的上钻操作就是由低层概念映射到较高层概念。概念分层除了根据概念的全序和偏序关系确定外,还可以通过对数据进行离散化或分组来实现。维的成员:维是多层次的,不同层次的取值构成一个维成员,例如,"某年某季度"、"某季度某月"等都可以是时间维的成员。
OLAP操作 钻取
上钻:上钻又称上卷 roll-up,上钻操作是指通过一个维的概念分层向上攀升或者通过维归约在数据立方体上进行数据汇总。例如,在服装购买顾客调查中,可以按月收人分段汇总数据,把较低、中档与较高归约为"有收人",便可以得到沿月收人维上钻的数据汇总;也可以按年龄分段汇总数据,把16岁以下与16~20岁归约为"青少年",21~25岁、26~30岁与 31~35岁归约为"青年",36~40岁与40岁以上归约为"中老年",从而得到沿年龄段维上钻的数据汇总视图。
OLAP 简介 基本概念
多维数组:多维数组用维和度量的组合表示一个多维数组,可以表示为(维1 ,维2,…,维n ,度量),例如(月份,地区,产品,销售额)组成一个多维数组。数据单元(单元格):多维数组的取值。当多维数组中每个维都有确定的取值时,就唯一确定一个变量的值。数据单元可以表示为(维1成员,维2成员,……,维n 成员,度量值),例如(2007年第一季度,大中华区,LCD,560万台)表示一个数据单元:2007 年第一季度大中华区 LCD产品销售560万台。
四大OLAP工具选型浅析

OLAP(在线分析处理)这个名词是在1993年由E.F.Codd提出来的,不过,目前市场上的主流产品几乎都是在1993年之前就已出来,有的甚至已有三十多年的历史了.OLAP产品不少,本文将主要涉及Cognos(Powerplay)、Hyperion (Essbase)、微软(Analysis Service)以及MicroStrategy几大厂商的产品.快枪手VS 多面手单纯从成本角度考虑,微软的产品算是最能节省成本的,Cognos和MicroStrategy则在同一水平线,都比微软贵一些.而Hyperion (Essbase)产品比较独立,也曾占有美国OLAP市场最大的份额,其产品价格又要更高一些.从市场份额来看,就国外的市场报告分析,微软、Cognos、Hyerion三家占据主流.在国内,目前还没有权威的市场报告,如果仅从所接触到的项目来看的话,用Cognos的很多,买Essbase的也不少.这些年都是一些大企业建设BI项目,有足够的预算,多选用Cognos、Essbase;而Microstrategy,进入中国不算早,这几年在政府、金融行业也颇有建树.若论开发应用,微软的产品向来以友好的用户界面著称,上手迅速.在OLAP产品上,微软依然发扬了这一优良传统,并有进一步标准化的趋势,开发了OLE DB for OLAP以及MDX(Multi-Dimensional Express多维表达式);参与XMLA(XML for Analysis)规范制定,也是想作为OLAP服务器和前端分析应用的数据传输标准.而Cognos以桌面OLAP开始,一直以轻便、快捷的操作闻名.所谓桌面OLAP,是可以用客户端将cube下载到本地进行访问.虽然Poweplay早已演变成C/S结构的OLAP服务器,但其轻便的特点还是延续下来,而且提供可以简洁部署且具有交互性的PowerPlay Web Explorer界面.从互联网上,我们可以很快搜索出许多基于PowerPlay Web的分析应用.Essbase作为老牌的OLAP服务器,是一个比较复杂的产品.所谓复杂,有两层意思,一是提供了丰富的API,让你可以充分定制开发;二是开发的难度较大,部署起来不容易.这也是国内很多用户难以将这个产品用好的一大原因.比较Essbase和Powerplay,会发现截然相反的两个特点:Essbase的复杂和Powerplay的简洁.对于这两者,单独说哪一种更好都不够客观,因为当你抱怨Essbase繁杂的接口时,也有人在抱怨Powerplay的定制功能怎么如此之少.这种情形其实跟这两种产品的定位有关,Essbase比较专注于高性能的多维存储服务,而Powerplay则更专注于快捷的多维访问.换句话讲,Essbase之于Powerplay正像专业相机之于傻瓜相机,在选哪一个更好的问题上,不同的人肯定有不一样的答案.当然,如果你想在找复杂和简洁之间找一个中间者,我想微软的Analysis Service就是这样的产品.不过要注意的是,这个产品和SQL Server绑定得比较紧,这是微软的一贯策略.百花争艳VS 一支独秀根据多维数据存储的位置,OLAP一般分为MOLAP(Multi-Dimensional OLAP)和ROLAP(Relational OLAP)两种,此外,还有混合的HOLAP(Hybrid OLAP).其中,Cognos的Powerplay、Hyperion 的Essbase和微软的Analysis Service这些产品都是MOLAP产品..这类产品将数据从关系数据库(甚至是文本文件、Excel文件)中抽取出来,存储在自己的数据库中.这种数据库跟平常我们所见的Oracle、DB2这类关系数据库不同之处在于,它是专有格式的,且没有标准的访问接口.因此,这些产品如何实现多维存储也都不尽相同,大致的原理是以编程语言中多维数组的方式存放数据.度量值存放在数组的单元格中,而数组每个维就对应一个维度,其中,维元素就维的坐标.可以想象,多维数据库的单元格跟维度、维元素的多少有莫大关系,而随着维度增加,数据库也迅速膨胀.因此,对于MLOAP产品,多维存储的存储空间、性能自然是比较关键的.Essbase在这方面提供很多优化工作,但有时候也会显得过于复杂.Powerplay也提供某些选项,诸如cube分区等,这是比较简单的优化方法.OLAP产品的核心功能是提供多维存储,另外就是能够将OLAP访问操作转换为对数据的请求并返回,这些OLAP访问操作大多是用户通过前端发出的,因此要考虑OLAP产品能够和哪些前端工具对接.Cognos Powerplay是个相对封闭的产品,它有自己的客户端和Web Explorer,你也甭想着用其他前端来访问它.Hyperion和微软都采用开放式接口,提供丰富的访问API,第三方可以用这些API访问其数据库.上文曾提到微软开发的MDX和参与的XMLA(XML for Analysis)规范,事实上,一些第三方的前端工具正是基于这样的标准和OLAP产品对接,比如可以用BO WebI连接Essbase.更有甚者,微软的服务器还提供用MDX来查询多维数据,就像用SQL来访问关系数据库一样.诚然,这看起来的确比较酷,但有一点也要明确:目前虽然有XMLA、MDX这样的标准,但还不是非常成熟,且并非唯一标准.所以即使有第三方前端工具访问这些OLAP服务器,但只能说是多了一些选择,真正在前端功能上,并不能保证比封闭结构更丰富.如果说OLAP产品市场几乎都被MOLAP占领,那么,有一家公司肯定不同意,那就是MicroStrategy,它几乎是目前唯一一家还占据一定市场份额的ROLAP产品.这是一件非常奇怪的事情,从第一个ROLAP产品Metaphor到Metacube、WhiteLight、MicroStrategy,这些独立的ROLAP厂商似乎都是难以生存下去,只有MicroStrategy坚挺到现在.究竟是它的产品厉害,还是市场做得到位?目前还不得而知.从原理上讲,ROLAP将数据存放在关系数据库中,当然要求关系模型要非常严格,比如要遵循星型模式或雪花模式,才能定义出维度、度量、事实表、聚集表等元数据.但这样就增加了部署的难度,并且如果聚集表构建得不好,最后的访问性能就难以保证.恐怕这也是ROLAP难以生存下去的原因吧.目前,很多OLAP产品都会混合MOLAP和ROLAP,特别是那些本身就做关系数据库的厂商,在现有数据库上面增加一些ROLAP 的特性并不困难.IBM在与Essbase终止OEM合同之后,推出一个名为CubeViews的产品,就可以说是一个ROLAP产品.虽然国内市场上已经涌现出这么多产品,但实际上,OLAP并没有被广泛接受,即使在已经建设BI系统好几年的电信行业也是如此.OLAP提供了一套系统的方法,将维度、度量、层次、切片、钻取概念化,但在前几年,原始的cube被直接推送给市场人员、领导,复杂的界面(对于领导来说,那已经够复杂了)让这种应用难以得到推广.为此,OLAP产品的定位无疑还需要进一步明确.。
OLAP分析

14
多维数据分析视图
对于更多维度的数据显示,需要选择维度及其成员分布在行或者列中。 在页面上可选定多个维度,但每个维度只能显示一个成员。在行或者列 中一般只选择二个维,每个维可以多个成员。例如对6维度数据,其 MTS如下图所示。 六维MTS例
鞋
鞋 鞋 鞋 …
上海
广州 广州 广州 …
3月
1月 2月 3月 …
400
150 250 300 …
11
多维类型结构(MTS)
表示方法是:每一个维度用一条线段来表示。维度中的每 一个成员都用线段上的一个单位区间来表示。
例如,用三个线段分别表示时间、产品和指标三个维的多维类型结构 如图所示。
三维MTS例
06 年 60 230 210
05 年 80 110 210
06 年 50 250 280
05 年 100 270 310
06 年 50 330 270
05 年 50 200 320
06 年 40 220
维的层次关系图
全国
江苏
北京
上海
苏州市
扬州市
宝应县
6
OLAP 概念
维的层次与类组合图
产品维
产品产地类
产品销地类
产品用途类
产品大类
产品小类
7
OLAP 数据显示与分析
8
多维数据显示
多维数据显示方法 多维类型结构(MTS) 多维数据分析视图
OLAP和DM的区别和联系

OLAP和DM的区别和联系1.基本概念OLAP(Online Analysis Processing):在线分析处理。
侧重于对信息的分析,通常涉及对信息的切分、多维化、前推和回溯,以及回答what-if问题。
更与中高管理层的业务范围相关,并更集中于对企业管理决策的支持。
常见的分析处理应用如多维视图、预测、敏感性分析、成本控制等。
同时,在线处理往往需要较强大的软、硬件及复杂的分析方法与工具的支持。
DM:2.区别和联系所谓OLAP(Online Analytical Process)意指由数据库所连结出来的在线分析处理程序。
有些人会说:我已经有OLAP的工具了,所以我不需要Data Mining。
事实上两者间是截然不同的,主要差异在于Data Mining用在产生假设,OLAP 则用于查证假设。
简单来说,OLAP是由使用者所主导,使用者先有一些假设,然后利用OLAP来查证假设是否成立;而Data Mining则是用来帮助使用者产生假设。
所以在使用OLAP或其它Query的工具时,使用者是自己在做探索(Exploration),但Data Mining是用工具在帮助做探索。
举个例子来看,一市场分析师在为超市规划货品架柜摆设时,可能会先假设婴儿尿布和婴儿奶粉会是常被一起购买的产品,接着便可利用OLAP的工具去验证此假设是否为真,又成立的证据有多明显;但Data Mining则不然,执行Data Mining的人将庞大的结帐数据整理后,并不需要假设或期待可能的结果,透过Mining技术可找出存在于数据中的潜在规则,于是我们可能得到例如尿布和啤酒常被同时购买的意料外之发现,这是OLAP所做不到的。
Data Mining常能挖掘出超越归纳范围的关系,但OLAP仅能利用人工查询及可视化的报表来确认某些关系,是以Data Mining此种自动找出甚至不会被怀疑过的数据模型与关系的特性,事实上已超越了我们经验、教育、想象力的限制,OLAP可以和Data Mining互补,但这项特性是Data Mining无法被OLAP取代的。
OLAP讲义

大量时间整理数据, 而没有时间利用数据
数据源多,一致性差
平时数据缺失, 开会时数据海洋
部门间信息“壁减或失真 如何从数据到信息?
传递渠道长,时效性差
企业要实现的目标
系统结构
OLAP发展背景
60年代,关系数据库之父E.F.Codd提出了关系模型,促进 了联机事务处理(OLTP)的发展(数据以表格的形式而非文 件方式存储)。 1993年,E.F.Codd提出了OLAP概念,认为:
OLAP准则
1993年,E.F.Codd在《Providing OLAP to User Analysis》 中提出OLAP的12条准则来描述OLAP系统:
准则1 OLAP模型必须提供多维概念视图 准则2 透明性准则 准则3 存取能力准则 准则4 稳定的报表能力 准则5 客户/服务器体系结构 准则6 维的等同性准则 准则7 动态的稀疏矩阵处理准则 准则8 多用户支持能力准则 准则9 非受限的跨维操作 准则10 直观的数据操纵 准则11 灵活的报表生成 准则12 不受限的维与聚集层次
OLAP决策分析
OLAP分析属于验证驱动型发现:用户首先提出自己的假设 ,然后利用OLAP工具检索查询以验证或否定假设。 OLAP技术主要有两个特点: 在线(On-Line):表现为对用户请求的快速响应和交互操 作,它的实现是由客户机/服务器体系结构完成的; 多维分析(Multi-Analysis):这也是OLAP技术的核心所 在。
例:电信公司中典型的分析型处理: 1.客户分类及通话特点分析 2.营销策略效果分析。
联机分析处理
分析型处理的特点
与事务型处理相比,分析型处理的特点:
a) b) 范围广,涉及的问题多。 不确定性大。
什么是联机分析处理(OLAP)

OS Java CORBA COM+ Middleware XML&WebService Patterns ONE&NET P2P Development Database Download Doc什么是联机分析处理(OLAP )(转载自北大高科网站,/)联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd 于1993年提出的,他同时提出了关于OLAP 的12条准则。
OLAP 的提出引起了很大的反响,OLAP 作为一类产品同联机事务处理 (OLTP) 明显区分开来。
当今的数据处理大致可以分成两大类:联机事务处理OLTP (on-line transaction processing )、联机分析处理OLAP (On-Line Analytical Processing )。
OLTP 是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
OLAP 是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
下表列出了OLTP 与OLAP 之间的比较。
OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。
“维”是人们观察客观世界的角度,是一种高层次的类型划分。
“维”一般包含着层次关系,这种层次关系有时会相当复杂。
通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。
因此OLAP也可以说是多维数据分析工具的集合。
OLAP的基本多维分析操作有钻取(roll up和drill down)、切片(slice)和切块(dice)、以及旋转(pivot)、drill across、drill through 等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在某维中位置的描述。(“某年某月 某
日多”维是数在组时:间维维和上变位量置的的组描合述表示) 。一 个多维数组可以表示为:(维1,维 2,…,维n,变量)。(时间,地区, 产品,销售额)
数据单元(单元格):多维数组的取 值 。 (2000 年 1 月 , 上 海 , 笔 记 本 电 脑,$100000)
通过旋转可以得到不同视角的数据。
辅之于各种图形展示分析结果
8
OLAP操作
切片和切块(Slice and Dice)
钻取(Drill) 旋转(Rotate)/旋转(Pivot)
通过旋转可以得到不同视角的数据。
辅之于各种图形展示分析结果
9
OLAP操作
切片和切块(Slice and Dice)
钻取(Drill) 旋转(Rotate)/旋转(Pivot)
通过旋转可以得到不同视角的数据。
辅之于各种图形展示分析结果
10
切片、切块
11
Dicing Example
Dicing: Filtering by AUS1+AUS2 and Wholesale
12
Slicing Example
Slicing: Filtering by AUS2
13
Web数据的多维分析
卷烟销售分析
产品
时间
财务指标
国产烟 进口烟 Q1 Q2 Q3 Q4 收入 开销
5
OLAP特性
快速性:用户对OLAP的快速反应能力有很高的要求。系统应能在5 秒内对用户的大部分分析要求做出反应。客户/服务器体系结构 -两层或三层C/S结构。 可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计 分析。 多维性:多维性是OLAP的关键属性。系统必须提供对数据的多维 视图和分析,包括对层次维和多重层次维的完全支持。 信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统 应能及时获得信息,并且管理大容量信息。
28
辅之于各种图形展示分析结果
23
OLAP分类
OLAP
按照存储方式
按照处理地点
ROLAP MOLAP HOLAP
Server OLAP Client OLAP
Relational database
Cube
ROLAP
Microsoft
SQL Server HOLAP OLAP Service
MOLAP
24
Product Table Product_id Product_Desc Brand Size "Dimension Table"
Sales Table
Time_id Product_id Market_id Scenario
Dollars Units Discount% "Fact Table"
基于关系数据库的OLAP-ROLAP
用关系表达式描述多维概念-大量的关系表。 用星型模型、雪花模型构造维模型。
DB
基础数据 元数据 计算结果
SQL 多维综合引
存取
擎
多维 存取
多维 视图
DW
RDBMS服务器
关系型OLAP 服务器
客户
25
ROLAP的星型模式(Star Schema)
Period Table Time_id Period_Desc Quarter Year "Dimension Table"
按城市的销售数据
按产品的销售数据
IBM Visual Warehouse V3.1 Lotus Approach或Microsoft Access Intelligent Miner for data/text
20
国际体育用品公司的数据分析(2)
按地区划分的头盔销售数据
按地区和国家划分的头盔销售数据
在线分析处理
Online Analytical Processing
1
OLAP发展背景
60年代,关系数据库之父E.F.Codd提出了关系模型,促进了 联机事务处理(OLTP)的发展(数据以表格的形式而非文件方 式存储)。1993年,E.F.Codd提出了OLAP概念,认为OLTP 已不能满足终端用户对数据库查询分析的需要,SQL对大型 数据库进行的简单查询也不能满足终端用户分析的要求。用 户的决策分析需要对关系数据库进行大量计算才能得到结 果,而查询的结果并不能满足决策者提出的需求。因此, E.F.Codd提出了多维数据库和多维分析的概念,即OLAP。 OLAP是目前RDBMS不可缺少的功能,可以作为一个独立的 OLAP服务器实现,也可以集成在RDBMS中。
21
OLAP操作
切片和切块(Slice and Dice)
钻取(Drill) 旋转(Rotate)/旋转(Pivot)
通过旋转可以得到不同视角的数据。
辅之于各种图形展示分析结果
22
OLAP操作
切片和切块(Slice and Dice)
钻取(Drill) 旋转(Rotate)/旋转(Pivot)
通过旋转可以得到不同视角的数据。
3
OLAP决策分析
OLAP分析属于验证驱动型发现:用户首先提出 自己的假设,然后利用OLAP工具检索查询以验 证或否定假设。
4
OLAP基本概念
维:是人们观察数据的特定角度,是 考虑问题时的一类属性 (时间维、地 理维等)。 维的层次:人们观察数据的某个特定 角度(即某个维)还可以存在细节程度 不同的各个描述方面(时间维:日期、 月份、季度、年)。
•桌面型OLAP工具是指在微机环境下开发的支持简单多维分 析的用户工具,这些工具没有自己的数据存储,而把用户 提交的查询翻译成对数据源的查询,然后从数据源中提取 结果数据,并将这些结果数据合成最终的结果返回给客 户。
7
OLAP操作
切片和切块(Slice and Dice)
钻取(Drill) 旋转(Rotate)/旋转(Pivot)
14
OLAP操作
切片和切块(Slice and Dice)
钻取(Drill) 旋转(Rotate)/旋转(Pivot)
通过旋转可以得到不同视角的数据。
辅之于各种图形展示分析结果
15
OLAP操作
切片和切块(Slice and Dice)
钻取(Drill) 旋转(Rotate)/旋转(Pivot)
通过旋转可以得到不同视角的数据。
Market Table Market_id
Market_Desc District Region
"Dimension Байду номын сангаасable"
Scenario Table Scenario
Actual
Profit Budget
"Dimension Table"
26
MOLAP的多维立方体(Multicube)
辅之于各种图形展示分析结果
16
钻取
按
时
间
维
向
60
上
钻
取
按 时 间 维 向 下 钻 取
数据聚集
17
旋转
标 务指 财 产 品
时
时间
间
产 品
财务指标
18
pivot
Drill-across: Distribution first, Sales Org. second
19
国际体育用品公司的数据分析(1)
2
什么是OLAP?
定义1 :OLAP(联机分析处理)是针对特定问题的联机数据访 问和分析。通过对信息(维数据)的多种可能的观察形式进行快 速、稳定一致和交互性的存取,允许管理决策人员对数据进行 深入观察。 定义2 :OLAP(联机分析处理) 是使分析人员、管理人员或执 行人员能够从多种角度对从原始数据中转化出来的、能够真正 为用户所理解的、并真实反映企业维特性的信息进行快速、一 致、交互地存取,从而获得对数据的更深入了解的一类软件技 术。(OLAP委员会的定义) OLAP的目标是满足决策支持或多维环境特定的查询和报表需 求,它的技术核心是“维”这个概念,因此OLAP也可以说是多 维数据分析工具的集合。
6
OLAP工具的分类标准
多维数据库工具(MOLAP)、关系型数据库工具(ROLAP)和 桌面型数据库工具。 •支持多维数据库工具的是多维数据库,而不是传统上的关系型数 据库,数据存储不采用传统关系模型所使用的记录及表等方式, 而采用矩阵(多维矩阵)方式来存储数据。 •与多维数据库工具相比,关系型OLAP工具在数据库层次上有标准 的关系模型和标准的数据访问方式及其编程接口,工具与数据库 的互联性较好。
基于多维数据库(MDDB)的OLAP-MOLAP
•OLAP服务器:存储OLAP服务软件和多维数据库 •MDDB存储:采用“超立方体”形式 •MDDB存取:多维操作
DB 基础数据
计算结果 DW
多维数据 库引擎
多维 存取
多维视图 客户
27
HOLAP的特点
以HOLAP格式存储的立方体,要比以OLAP格式存 储的立方体小,在查询总结数据时,又比ROLAP 快。 HOLAP存储格式一般比较适合于需要总结数据的查 询有较快的响应时间,同时基数据的量又比较大的 场合。