数据仓库理论学习笔记

合集下载

数据仓库(简答题复习资料整理)

数据仓库(简答题复习资料整理)

数据仓库(简答题复习资料)(1)数据仓库概念和特点 P12-14数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,它用于支持企业或组织的决策分析处理。

数据仓库是为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的关系型数据库,它的数据基于OLTP源系统。

首先,用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

数据仓库的功能和特性1 面向主题2 数据的集成性3 数据的稳定性(非易失性)4 数据随时间变化的特性5 多维性数据是带有时间轴的→数据是多维的→形成立方体(Cube)见书P52(2)数据库与数据仓库的区别简而言之,数据库是面向事务的设计,数据仓库是面向主题设计的。

数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。

数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。

数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。

维是看问题的角度,比如时间,部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID。

单从概念上讲,有些晦涩。

任何技术都是为应用服务的,结合应用可以很容易地理解。

以银行业务为例。

数据库是事务系统的数据平台,客户在银行做的每笔交易都会写入数据库,被记录下来,这里,可以简单地理解为用数据库记帐。

数据仓库是分析系统的数据平台,它从事务系统获取数据,并做汇总、加工,为决策者提供决策的依据。

比如,某银行某分行一个月发生多少交易,该分行当前存款余额是多少。

如果存款又多,消费交易又多,那么该地区就有必要设立ATM了。

Idoc学习笔记

Idoc学习笔记

2024/1/24
编写处理程序
为实现自定义逻辑,可以编写ABAP 程序来处理Idoc的生成、发送和接收 过程中的特定任务。
测试与验证
在自定义开发完成后,进行全面的测 试和验证以确保自定义Idoc结构和内 容的正确性和可用性。
10
03
Idoc接收与处理
2024/1/24
11
接收Idoc流程
监听端口
Idoc处理系统需要监听指定的端 口,以便接收来自SAP系统的 Idoc文件。
2024/1/24
接收Idoc
一旦有Idoc文件发送到监听端口, Idoc处理系统就会接收该文件。
验证Idoc
接收到的Idoc文件需要进行验证, 以确保文件的完整性和准确性。验 证过程可能包括检查文件格式、内 容结构、数据有效性等。
12
解析Idoc内容
解析文件
数据存储
经过验证的Idoc文件需要被解析,以 便提取出其中的数据。解析过程通常 基于Idoc的文件格式和结构进行。
转换后的数据可以被存储到数据库、 数据仓库或其他数据存储系统中,以 便后续处理和分析。
数据映射
解析出的数据需要根据预定义的数据 映射规则进行转换,以适应目标系统 的数据格式和要求。
通过IDoc实现采购订单数据的自动传输和 更新,确保采购数据的及时性和准确性。
库存管理
财务管理
利用IDoc进行库存数据的实时传输和更新 ,帮助企业实现库存的精准管理和控制。
通过IDoc实现财务数据的自动传输和处理 ,提高财务处理的效率和准确性。
2024/1/24
18
05
Idoc性能优化与监控
2024/1/24
定义Idoc类型
在SAP系统中,通过IMG( Implementation Guide) 配置自定义的Idoc类型,包 括定义基本结构和所需字段 。

行政管理学(第六版)笔记 8-17章 夏之章

行政管理学(第六版)笔记 8-17章 夏之章

第八章行政信息第一节行政信息概述信息资源:狭义指限于信息本身的文献资源或数据资源,或者各种媒介和形式的信息集合,包括文字影像印刷品等。

广义指以信息本身为核心,包括与信息相关的人员、设备技术资金和信息资源管理体制等各种要素总称。

行政信息:作为信息资源的组成部分,是政府部门及其授权的公共组织等在依法履行职能过程中制作或获取的、以一定形式记录与保存的信息,以及制作或获取信息的技术、设备、网络、人才资源和信息化管理体制。

信息资源管理的含义(管理者学说管理过程说系统方法说管理活动说)是一种系统的管理思想和办法,是一种基于信息技术的、为满足信息需求而实施的集约化管理活动,包括对信息活动要素(信息、人员、技术设备、资金等)的规划、组织、控制和协调,以实现资源的最佳配置和提高资源的开发利用水平。

信息资源管理的层次:微观(最基层政务部门信息机构)中观(地区行业为对象)宏观(战略管理)信息资源管理的要素核心任务是兼顾信息资源现有配置与管理状况的条件下,让分散异构信息资源系统实现无缝整合并在新的信息交换与共享平台上开发应用,实现信息资源德最大数值。

结构(架构设计为主线)组织(CIO主管)环境(各种技术框架及规范)服务(借助平台实现功能)技术(支撑平台)行政信息管理:是一种集成性和综合性的管理活动,是政府部门为了实现行政目标,以现代信息技术为手段,对行政信息进行采集、加工、存储、交换共享、开发利用和服务,对信息活动各要素(信息、组织机构、人员、设施、资金、技术等)进行规划、预算、组织、协调、指导、培训和控制,以实现行政信息的合理配置、有效地满足政府部门自身和社会信息需求的活动过程。

行政信息管理的目标:实现行政信息的科学管理是基础目标;实现行政信息的有效利用是根本性目标,实现行政信息的合理开发是直接目标,促进行政管理正常运转、经济良性运行和社会和谐发展是终极性目标。

产生与发展:20世纪中叶行政信息管理标准化分类与分级中国的标准化含义:在经济技术科学及管理等社会实践中,对重复性事务和概念通过制定发布和实施标准来达到统一,以获得最佳秩序和社会效益。

维度建模读书笔记

维度建模读书笔记

维度建模读书笔记1.概念∙数据仓库受业务驱动的最终目标∙数据仓库体系的主要构件∙维度建模在数据仓库展示环节方面的重要性∙事实表和维度表术语∙有关维度建模的讹传∙数据仓库构建需要避免的常见错误2.业务问题∙公司有堆积如山的数据,可就是不能访问∙需要以各种方式随心所欲的切割数据∙如何使业务人员能够简单快捷地得到所需形式的数据∙将什么是重要内容显示出来∙同样的业务运作机理却以不同的编号展示出来∙希望用信息来支持更有事实依据的决策制定过程3.数据仓库的目标∙数据仓库必须是组织机构的信息变得容易存取标识方面容易易懂永无止境的组合方式数据的分离和合并∙数据仓库必须一致地展示组织机构的信息数据的完整性数据的一致性∙数据仓库必须具有广泛的适应性和便于修改新增、修改、老化不会导致现有数据或应用无效描述性数据修改必须考虑适当性∙数据仓库必须发挥安全壁垒作用以保护信息资产∙数据仓库必须在推进有效决策方面承担最基本的角色∙数据仓库可为业务群体接受4.数据仓库建造者的职责∙在业务范围、工作职责和计算机性能等方面多为用户考虑∙确定业务用户想在数据仓库帮助下想要做出什么样的决策∙标定那些使用数据仓库进行效能高而作用大的决策制定的最佳用户∙寻找潜在的新用户并让他们了解数据仓库∙选取那些从机构海量数据中挑出的最有成效和最富有实际意义的数据子集在数据仓库中进行展示∙适应用户对相关处理概况的感性认识,将用户接口和应用做的简单并且是模板驱动的∙跨部门一致性地标注数据,确保数据是准确的、可信的∙持续不断的对数据的准确性和提交报告的内容进行监控∙搜罗新的数据来源,持续不断地调整数据仓库以适应数据概况修改、需求支持和业务优先权的调整等方面的需要∙抽取一部分在使用数据仓库进行业务决策方面具有良好声誉的实现,并用这些成功的例子对人员、软件和硬件配备与选购是否合理做出评判∙按通行的方式发布数据5.数据聚集 Extact Transformation Load同时创建聚集用的规范化结构和展示用的维度,意味着数据要被处理两次一次用于规范化数据库一次用于针对维度模型6.规范化数据库应该出现么为支持聚集过程而创建一个规范化数据库是可以接受的,但这不是我们的最终目的,规范化结构必须远离用户查询,这些结构会对可理解性和性能造成损害,只要数据库支持查询和展示服务,就应该作为数据仓库展示环节的一部分加以考虑,但默认情况下,规范化数据库被排除在展示环节之外,数据展示环节应该被严格限定是维度的7.展示环节∙数据应该以维度形式进行展示、存储和访问“在不同的市场销售我们的产品,随时对销售业绩进行评估”=时间、市场、产品、业绩--从业务需求中探索维度将设计目标放在用户的易理解性、查询的高性能性和修改的灵活性等方面对数据进行封装∙原子数据对于经受住无法预期的特殊用户的查询攻击考验是必需的数据中心可能含有用于提高性能的概要数据或聚合值,但如果没有维度形式的基本粒度数据的支持,则提交这些概要数据的效率是不高的仅仅在维度模型中存储概要数据,而将原子数据固定在规范化模型中,这样的做法完全不可接受∙所有数据中心必须采用共同的维度和实施来建造,即要求它们是一致的。

数据仓库概念汇总

数据仓库概念汇总
LDM 逻辑数据模型(Logic Data Model)
MDD 多维数据库(Multi-Dimensional Database ,MDD)可以简单地理解为:将数据存放在一个 n 维数组中,而
不是像关系数据库那样以记录的形式存放。因此它存在大量稀疏矩阵,人们可以通过多维视图来观察数据。多维 数据库增加了一个时间维,与关系数据库相比,它的优势在于可以提高数据处理速度,加快反应时间,提高查询 效率。
库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的、潜在有用的、易被理解的模式。
KPI 企业关键业绩指标(KPI:Key Process Indication)是通过对组织内部流程的输入端、输出端的关键参数进行设
置、取样、计算、分析,衡量流程绩效的一种目标式量化管理指标,是把企业的战略目标分解为可操作的工作目 标的工具,是企业绩效管理的基础。
效指标(KPIs)等先进信息技术和管理理论为基础的战略管理的工具,在财务、客户、内部流程和学习与发展四个维 度上进行综合绩效评测,帮助企业从整体上实现对战略实过程的贯彻和控制。
BPR 业务流程重整(Business Process Reengineering),指利用数据仓库技术,发现并纠正企业业务流程中的弊
严格遵照 Codd 的定义,自行建立了多维数据库,来存放联机分析系统数据的 Arbor Software,开创了多维数 据存储的先河,后来的很多家公司纷纷采用多维数据存储。被人们称为 Multi-Dimension OLAP,简称 MOLAP,代 表产品有 Hyperion(原 Arbor Software)Essbase、Showcase STRATEGY 等。 ODS
对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理, 它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了 重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

干货:数据仓库基础知识(全)

干货:数据仓库基础知识(全)

干货:数据仓库基础知识(全)1、什么是数据仓库?权威定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。

1)数据仓库是用于支持决策、面向分析型数据处理;2)对多个异构的数据源有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

面对大数据的多样性,在存储和处理这些大数据时,我们就必须要知道两个重要的技术。

分别是:数据仓库技术、Hadoop。

当数据为结构化数据,来自传统的数据源,则采用数据仓库技术来存储和处理这些数据,如下图:2、数据仓库和数据库的区别?从目标、用途、设计来说。

1)数据库是面向事务处理的,数据是由日常的业务产生的,并且是频繁更新的;数据仓库是面向主题的,数据来源多样化,经过一定的规则转换得到的,用于分析和决策;2)数据库一般用来存储当前事务性数据,如交易数据;数据仓库一般存储的是历史数据;3)数据库设计一般符合三范式,有最大的精确度和最小的冗余度,有利于数据的插入;数据仓库设计一般不符合三范式,有利于查询。

3、如何构建数据仓库?数据仓库模型的选择是灵活的,不局限与某种模型方法;数据仓库数据是灵活的,以实际需求场景为导向;数仓设计要兼顾灵活性、可扩展性、要考虑技术可靠性和实现成本。

1)调研:业务调研、需求调研、数据调研2)划分主题域:通过业务调研、需求调研、数据调研最终确定主题域3)构建总线矩阵、维度建模总线矩阵:把总线架构列表形成矩阵形式,行表示业务处理过程,即事实,列表示一致性的维度,在交叉点上打上标记表示该业务处理过程与该维度相关(交叉探查)4)设计数仓分层架构5)模型落地6)数据治理4、什么是数据中台?数据中台是通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。

数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。

这些服务和企业的业务有较强关联性,是企业所独有且能复用的,他是企业业务和数据的积淀,其不仅能降低重复建设,减少烟囱式协助的成本,也是差异化竞争的优势所在。

学习笔记之数据仓库的各种表

学习笔记之数据仓库的各种表

学习笔记之数据仓库的各种表预热:我们先从⼏个物理概念⼊⼿理解什么是流量,存量,增量(1)存量:系统在某⼀时点时的所保有的数量;(2)流量:是指在某⼀段时间内流⼊/流出系统的数量(3)增量:是指在某⼀段时间内系统中保有数量的变化(4)增量 = 流⼊量--流出量(5)本期期末存量 = 上期期末存量+本期内增量全量表:每天的所有的最新状态的数据全量表没有分区,表中的数据时前⼀天的所有数据,⽐如说今天是24号,那么全量表⾥⾯拥有的数据是23号的所有数据,每次往全量表⾥⾯写数据都会覆盖之前的数据,所以全量表不能记录历史的数据情况,只有截⽌到当前最新的、全量的数据。

(1)全量表,有⽆变化,都要报(2)每次上报的数据都是所有的数据(变化的+没有变化的)快照表那么要能查到历史数据情况⼜该怎么办呢?这个时候快照表就派上⽤途了,快照表是有时间分区的,每个分区⾥⾯的数据都是分区时间对应的前⼀天的所有全量数据,⽐如说当前数据表有3个分区,24号,25号,26号。

其中,24号分区⾥⾯的数据就是从历史到23号的所有数据,25号分区⾥⾯的数据就是从历史到24号的所有的数据,以此类推。

但是这样也有⼀个问题,就是数据量⼤的时候,其实每个分区都存储了许多重复的数据,⾮常的浪费存储空间。

于是乎,拉链表就出来了。

在介绍拉链表之前,我们先介绍⼀下增量表。

增量表:新增数据,增量数据是上次导出之后的新数据增量表,就是记录每天新增数据的表,⽐如说,从24号到25号新增了哪些数据改变了哪些数据,这些都会存储在增量表的25号分区⾥⾯。

上⾯说的快照表的25号分区和24号分区(都是t+1),实际时间分别对应26号和25号),它俩的数据相减就是实际时间25号到26号有变化的、增加的数据,也就相当于增量表⾥⾯25号分区的数据。

(1)记录每次增加的量,⽽不是总量(2)流量是指在⼀定时间内的增量(3)流量⼀般设计成增量表(⽇报-常⽤、⽉报);(4)流量和存量的区别:流量是增量;存量是总量;(5)增量表,只报变化量,⽆变化不⽤报拉链表拉链表,它是⼀种维护历史状态,以及最新状态数据的⼀种表。

数据仓库算法总结

数据仓库算法总结

数据仓库算法总结事务处理环境不适宜DSS 应用的原因:(1)事务处理和分析处理的性能特性不同(2)数据集成问题(3)历史数据问题(4)数据的综合问题数据仓库数据的四个基本特征:(1)数据仓库的数据是面向主题的(2)数据仓库的数据是集成的(3)数据仓库的数据是不可更新的(4)数据仓库的数据是随时间不断变化数据仓库定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的(时变的)、不可修改的(非易失的)数据集合,用于支持管理决策。

支持度若D 中的事务包含A ∪B(即A 和B 二者)的百分比为s ,则称关联规则A —>B 的支持度为s 。

即:support (A ⇒B)=P(A ∪ B)可信度/置信度若D 中包含A 的事务同时也包含B 的百分比为c ,则称关联规则A ⇒B 的置信度/可信度为c 。

即: confidence(A ⇒B)=P(B|A) = support(A ∪B)/support(A)频繁项集项集的出现频率是包含项集的事物数,简称项集的频率。

项集满足最小支持度阈值minsup :如果项集的出现频率大于或等于minsup 与D 中事物总数的乘积。

满足最小支持阈值的项集就称为频繁项集 (或大项集)。

频繁k 项集的集合记为Lk 。

定理( Apriori 性质)频繁项集的所有非空子集都必须也是频繁的。

任何非频繁项集的超级一定也是非频繁的Apriori 算法具体做法:对于所研究的事务数据库D ,首先找出频繁1-项集的集合,记为L1 ;再用L1找频繁2-项集的集合L2 ;再用L2找L3 …如此下去,直到不能找到频繁k-项集为止。

找每个Lk 需要一次数据库扫描。

如何实现用Lk-1找Lk.连接步:为找Lk ,通过Lk-1与Lk-1连接产生候选k-项集的集合。

该候选项集的集合记作Ck ,执行元组总数的元组数和包含B A =L 1L 1扫描D ,对每个候选计数比较候选支持度计数由L 1产生候选C 2扫描D,对每个候选计数Lk-1与Lk-1的连接:如果他们前(k-2)个项相同,则可连接。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 服务器级OLAP
– Arbor Software Essbase (MOLAP) – MicroStrategy DSS Agent (ROLAP ) – Oracle’s Express (hybrid MOLAP/ROLAP)
• SQL3对聚集的扩展(在Group By中扩展) SP(S#,P#,QTY) Select sum(QTY) as TOTQTY From SP; S# P# QTY S1 P1 300 Select S#,Sum(QTY) as TOTQTY From SP S1 P2 200 Group By S#; S2 P1 300 …... S2 P2 400 S3 P2 200 S4 P2 200
• 数据仓库的基本数据模式
Time dimension
Time time id <pk> date year quarter month week
Sales fact
Product product id make model <pk>
TimeSales
ProdSales
Sales
Attributes of the time dimension
• 数据仓库建立的过程
• 粒度
– 是指数据仓库的数据单位中保存数据的细化或综合 程度的级别 – 粒度级越小,细节程度越高,综合程度越低,回答 查询的种类越多 – 粒度影响数据仓库中数据量的大小 – 粒度问题是设计数据仓库的一个重要方面
• 双重粒度
– 在数据仓库的细节级上创建两种粒度 – 短期储存的低粒度(真实档案),满足细节查询 – 具有综合的高粒度(轻度综合),做分析
• 分割
– 是指把数据分散到各自的物理单元中去,以便能分 别独立处理,提高数据处理效率 – 是粒度之后的第二个主要设计问题 – 两个层次的分割
• 系统层:DBMS,一种定义 • 应用层:开发者,多种定义
– 多种分割的标准
• 日期:最常用的 • 地理位置 • 组织单位…...
• 数据仓库中的数据组织形式
• 四种分析模型(Codd)
– 绝对模型 – 解释模型 – 思考模型 • 动态数据分析 • 多维分析 • 在决策者的参与下,找出关键变量 • 需要高级数据分析人员的介入 – 公式模型
• 四种分析模型(Codd)
– – – – 绝对模型 解释模型 思考模型 公式模型 • 动态性最高的一类 • 自动完成变量的引入工作
– 通用的关系数据库系统 – 专门的数据仓库服务器
• 数据仓库系统的体系结构
– 数据仓库层 – 数据仓库工具层 – 最终用户
• 数据仓库系统
– 数据仓库 • 居系统的核心地位 • 是信息挖掘的基础 – 数据仓库管理系统 • 是整个系统的引擎 • 负责管理整个系统的运转 – 数据仓库工具 • 一般的查询工具、功能强大的分析工具 • 是整个系统发挥作用的关键
• 数据仓库系统的工具层
– 查询工具 • 主要是对分析结果的查询 • 很少有对记录级数据的查询 – 验证型工具 • 多维分析工具 • 用户首先提出假设,然后利用各种工具通过反复、 递归的检索查询以验证或否定假设 – 发掘型工具 • 从大量数据中发现数据模式 • 预测趋势和行为
• 联机分析处理——OLAP
• 数据按一定的格式进行轮转的累加
• 数据仓库中的数据组织形式
– 简单堆积与轮转综合的比较
• 数据仓库中的数据组织形式
– 简化直接
• 按一定的时间间隔,对数据进行提取,是操作型数据的 一个快照
• 数据仓库中的数据组织形式
– 连续
• 把新的快照追加到以前的连续数据上去
• 数据仓库的数据追加
– 数据追加
– 以关系数据库存放细节数据、以多维数据库存 放综合数据
• 基于关系数据库的OLAP——ROLAP
– 以二维表与多维联系来表达多维数据(综合数 据)
• 星型结构 • 事实表,存储事实的量及各维的码值(BCNF)
• 维表,对每一个维,至少有一个表用来保存该维 的元数据(多层次、冗余) • 事实表通过外键与每个维表相联系 • 雪花、星座、雪暴
• 数据仓库系统
一个集成化的产品集
• 数据仓库系统
Design

Warehouse Architect
Visualize
Brio Cognos

Manage

Sybase ASIQ
Administer

Warehouse Control Center
Warehouse Control Centre
• 数据仓库的特点 ——随时间变化
• 数据仓库的结构
OLTP系统
RDBMS Sybase
数据仓库/决策分析系统
高度 汇总数据
SAP/ERP
分析型CRM
业务指标分析
轻度 汇总数据
VSAM
数据集市
数据仓库
EXCEL
当前 详细数据
5-10 年
过去 详细数据
• 数据仓库的结构
– 数据由操作型环境(综合)导入数据仓库 – 数据具有不同的细节级 • 早期细节级(过期数据) • 当前细节级 • 轻度综合数据级(数据集市) • 高度综合数据级
• SQL3对聚集的扩展(在Group By中扩展)
– Grouping Sets:支持多个分组同时运算
Select S#,P#,SUN(QTY) as TOTQTY From SP Group By Grouping Sets ((S#) , (P#)) S# S1 S2 S3 S4 Null Null P# Null Null Null Null P1 P2 TOTQTY 500 700 200 200 600 1000
• • • • 操作型环境——OLTP 全局级——数据仓库 部门级——局部仓库 个人级——个人仓库,用于启发式的分析
– 数据集市(Data Mart)
• 特定的、面向部门的小型数据仓库 • 是为满足用户特定需求而创建的数据仓库 • 是数据仓库的子集
• 数据库的体系化环境
• 数据库的体系化环境
• 数据仓库的开发生命周期
– 旋转是改变一个报告或页面显示的维方向
• 以用户容易理解的角度来观察数据
• 基于多维数据库的OLAP——MOLAP
– 以多维方式组织数据(综合数据) – 以多维方式显示(观察)数据
– 多维数据库的形式类似于交叉表,可直观地表 述一对多、多对多的关系
• 如:产品、地区、销售额 – 关系 – 多维
– 多维数据库由许多经压缩的、类似于数组的对 象构成,带有高度压缩的索引及指针结构
– 简单堆积 – 轮转综合
• 数据按一定的格式进行轮转的累加
– 简化直接
• 按一定的时间间隔,对数据进行提取,是操作型数据的 一个快照
– 连续
• 把新的快照追加到以前的连续数据上去
• 数据仓库中的数据组织形式
– 简单堆积
• 每日由数据库中提取并加工的数据逐天积累堆积
• 数据仓库中的数据组织形式
– 轮转综合
数据仓库技术与联机分析处理 Data Warehouse & OLAP
• 数据库处理的两大应用
– 联机事务处理(OLTP) – 决策支持系统(DSS)
• 数据库处理的两大应用
– 联机事务处理(OLTP)
• 操作型处理,为企业的特定应用服务 • 是对数据库的联机的日常操作,通常是对 一个或一组记录的查询和修改 • 人们关心的是响应时间、数据的安全性和 完整性
–向主题 – 集成的
• 数据仓库的数据是从原有的分散数据库数据中抽 取来的 • 消除数据表述的不一致性(数据的清洗) • 数据的综合
– 数据不可更改 – 随时间变化的
• 数据仓库的特点 —— 集成
• 数据仓库的特点 – 面向主题 – 集成的 – 数据不可更改
• 数据仓库的主要数据操作是查询、分析 • 不进行一般意义上的数据更新(过期数据可能被 删除) • 数据仓库强化查询、淡化并发控制和完整性保护 等技术
– 随时间变化的
• 数据仓库的特点——数据不可更改
• 数据仓库的特点 – 面向主题 – 集成的 – 数据不可更改 – 随时间变化的
• 不断增加新的数据内容 • 不断删除旧的数据内容 • 定时综合 • 数据仓库中数据表的键码都包含时间项,以标明 数据的历史时期
• 四种分析模型(Codd)
– 绝对模型 • 静态数据分析 • 只能对历史数据进行值的比较,描述基本事实 • 用户交互少 – 解释模型 – 思考模型 – 公式模型
• 四种分析模型(Codd)
– 绝对模型 – 解释模型 • 静态数据分析 • 在当前多维视图的基础上找出事件发生的原因 – 思考模型 – 公式模型
– 是针对特定问题的联机访问和分析。 – 通过对信息的很多种可能的观察形式进行快速、稳定 一致和交互性的存取,允许分析人员对数据进行深入 观察
• 一些概念
– – – –
变量是数据的实际意义,描述数据是什么 维是人们观察数据的特定角度 维的层次是维在不同细节程度的描述 维成员是维的一个取值
• 多层次维的维成员是各层次取值的组合 • 对应一个数据项,维成员是该数据项在该维中位置的描述
• SQL3对聚集的扩展(在Group By中扩展)
– Rollup:上卷
Select S#,P#,SUN(QTY) as TOTQTY From SP S# Group By Rollup (S# , P#) S1 等同于 S1 Group By S2 Grouping Sets ((S#, P#) , (S#),( )) S2 S3 S4 S1 S2 S3 S4 Null
– 模拟多维方式显示(观察)数据
• MOLAP与ROLAP
相关文档
最新文档