Oracle数据仓库设计指南
基于Oracle的地震数据仓库系统的建立

O A 是 数 据 仓 库 的一 个 重 要 应 用 。O A LP LP
利用 多 维数 据 集 和数 据 聚集 技 术 对 数据 仓 库 中 的数 据 进行 组 织 和汇 总 。用 联 机 分 析 和可 视 化
工 具 对 这些 数 据迅 速 进行 评 价 。将 复杂 的分 析 查 询结 果快 速地 返 回用 户 ] 。 按照 O A L P的 存 储 方 式 ( 据 组 织 方 式 ) 数
5 9
2 . 建 立地震 数据 库 .2 4
纬度 和经 度 ;i e rg i q e , i_e 分 别 d qe , d e bl d rg _ t
该 阶段 把 完 整 的 、统 一 的 地 震 目录 导 人
O al 据 库 中 ,地 震 目录 表 的 属 性 包 括 i, rc e数 d
R L P组 织 。 O A
24 系 统 设 计 流 程 .
连接 方 式 是 星型 结 构 ,一 个 星 型结 构 可 以 有 多
个 维表 ,但 只能存在 一个 事实 表 。
流程 见图 2 ,主要分 为下 面 4个步骤 :
2 系统 的设 计 与 实 现
21 平台 的选择 .
24 1 预 处 理 ..
1 数 据 仓 库 简 介
11 数 据 仓 库 定 义 .
数 据 仓 库 之 父 W. Im n在 B i ig te H. o n ul n h d
基 金 项 目 :山东 省 自然 科 学 基 金 项 目 ( 2 0 E 9 Y 07 0 ) 收 稿 日期 :2 1 ~ 2 2 0 1 1— O 修 订 日期 :2 2 0 ~ 0 01 — 3 1
22 主 题 选 择 .
面 向主 题是 数 据 仓 库一 个 显 著 的 特点 ,数
Oracle数据库基本知识

Oracle数据库基本知识Oracle数据库基本知识Oracle Database,又名OracleRDBMS,或简称Oracle。
是甲骨文公司的一款关系数据库管理系统。
本文为大家分享的是Oracle数据库的基本知识,希望对大家有所帮助!它是在数据库领域一直处于领先地位的产品。
可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统,系统可移植性好、使用方便、功能强,适用于各类大、中、小、微机环境。
它是一种高效率、可靠性好的适应高吞吐量的数据库解决方案。
介绍ORACLE数据库系统是美国ORACLE公司(甲骨文)提供的以分布式数据库为核心的一组软件产品,是目前最流行的客户/服务器(CLIENT/SERVER)或B/S体系结构的数据库之一。
比如SilverStream 就是基于数据库的一种中间件。
ORACLE数据库是目前世界上使用最为广泛的数据库管理系统,作为一个通用的数据库系统,它具有完整的数据管理功能;作为一个关系数据库,它是一个完备关系的产品;作为分布式数据库它实现了分布式处理功能。
但它的所有知识,只要在一种机型上学习了ORACLE知识,便能在各种类型的机器上使用它。
Oracle数据库最新版本为OracleDatabase 12c。
Oracle数据库12c引入了一个新的多承租方架构,使用该架构可轻松部署和管理数据库云。
此外,一些创新特性可最大限度地提高资源使用率和灵活性,如Oracle Multitenant可快速整合多个数据库,而Automatic Data Optimization和Heat Map能以更高的密度压缩数据和对数据分层。
这些独一无二的技术进步再加上在可用性、安全性和大数据支持方面的主要增强,使得Oracle数据库12c 成为私有云和公有云部署的理想平台。
就业前景从就业与择业的角度来讲,计算机相关专业的大学生从事oracle 方面的技术是职业发展中的最佳选择。
其一、就业面广:ORACLE帮助拓展技术人员择业的广度,全球前100强企业99家都在使用ORACLE相关技术,中国政府机构,大中型企事业单位都能有ORACLE技术的工程师岗位,大学生在校期间兴趣广泛,每个人兴趣特长各异,不论你想进入金融行业还是电信行业或者政府机构,ORACLE都能够在你的职业发展中给你最强有力的支撑,成为你最贴身的金饭碗。
Windows_Server_2008_R2_X64环境下Oracle_11g_R2_RAC+ASM环境搭建及COSS6.0单点故障自动切换配置指南

Windows_Server_2008_R2_X64环境下Oracle_11g_R2_RAC+ASM环境搭建及COSS6.0单点故障自动切换配置指南V1.02013.2北京广通信达科技有限公司目录目录 (3)第1章引言 (6)1.1什么是RAC (6)1.2RAC关键特性 (6)1.2.1高可用性 (6)1.2.2高性能 (6)1.3Oracle 11gR2 RAC简介 (6)1.4部署背景 (7)第2章总体规划 (8)2.1服务器规划 (8)2.2网络规划 (8)2.3存储规划 (8)2.4数据库规划 (9)2.4.1软件规划 (9)2.4.2数据库配置 (9)2.5网络拓扑规划 (10)第3章环境配置 (10)3.1操作系统配置 (10)3.1.1修改主机名、统一用户名密码 (10)3.1.2关闭防火墙、配置DEP和UAC (11)3.1.3修改虚拟内存 (13)3.1.4修改注册表 (13)3.2网络配置 (14)3.2.1添加IP地址、修改网卡名 (14)3.2.2修改网卡优先级 (16)3.2.3修改hosts文件 (17)3.2.4测试网络连通性 (18)3.3存储配置 (20)3.3.1磁盘规划 (20)3.3.2磁盘初始化 (21)3.3.3装载空白NTFS文件夹 (28)3.3.4共享磁盘 (30)第4章RAC安装 (31)4.1安装前配置检查 (31)4.1.1时间同步 (31)4.1.2共享互访测试 (32)4.1.3数据库软件检查 (32)4.2安装grid集群软件 (33)4.3clusterware安装校验 (42)4.4安装database数据库软件 (43)4.5创建ASM磁盘组 (47)4.6使用DBCA创建数据库 (53)4.7RAC服务 (62)4.7.1RAC1节点服务 (62)4.7.2RAC2节点服务 (62)第5章COSS单点故障自动切换配置 (62)5.1在RAC1上部署COSS6.0 (62)5.1.1安装COSS6.0标准版软件 (62)5.1.2创建相关表空间 (63)5.1.3创建用户并赋权 (69)5.1.4初始化Portal数据库 (69)5.1.5更改数据库参数 (69)5.1.6初始化数据库并导入license (70)5.1.7升级COSS6.0到最新补丁 (70)5.1.8升级COSS6.0的Oracle RAC支持补丁 (70)5.2在RAC2上部署COSS6.0 (72)5.3故障模拟测试 (72)第1章引言1.1什么是RACRAC就是real application clusters的缩写,跟rack的读音同Oracle Real Application Clusters (RAC)可以支持24 x 7 有效的数据库应用系统,您可以在由低成本的服务器构成的高可用性系统上自由部署您的应用,而无需修改您的应用程序,使用RAC无需再为成本而牺牲性能和可靠性1.2RAC关键特性1.2.1高可用性Oracle Real Application Clusters 提供一个高性能低成本的应用平台,支持所有类型的应用系统,无论是事务处理型应用还是分析型应用。
Oracle_BI

• 数据安全和权限:
• • • • 支持到行列一直到单元格级别的数据控制 基于角色/用户组的权限定义 支持与LDAP权限管理服务器的集成 支持来源于数据库表的权限信息
包含基于最佳实践的多维分析模型和分析报表样 例
商务智能分析应用的建设 --关注分析展现的同时,更应重视数据底层架构建设
Copyright © 2010, Oracle and/or its affiliates. All rights reserved.
产品A
工厂1-1
员工0067
财务流程 采购流程 审批流程
人员流程 生产流程 业务流程 供应商审批流程
Oracle BI应用给你的ERP插上分析的翅膀
交互式 信息板 报告并 发布 即席 分析 预先 检测 和警报 离线 分析 MS Office 插件 Web 服务
财务
采购和 费用
供应链 及订单 管理
项目
用户获益
• 通过战略性主动寻源减少公司支出 • 供需视图合并优化需求波动管理 • 监管供应商绩效并整合供应商群 • 提高存货周转率和客户服务水平 • 严格管理员工费用和计划外支出 • 将合同采购及协议采购与总支出做比 较
度量标准示例
采购和支出 • 采购部门的协议支出 • 强制性支出 • 商品支出 • 请购数量,采购订单数量 • 物料调拨循环周期 • 订单采购数量及单位成本 • 采购订单循环周期 物料账单 • 各地客户及供应商退货 • 10级物料账单分析 • 成分利用“用在哪里”分析 • 产品保险及发票
Suite上建立的
Oracle BI应用
打包的 ETL 映射 完成从系统到分析模型
预置 数据仓库模式
通用 适配器
自行设计的ERP,MIS等 生产系统 其它数据源 MS Excel
Oracle培训ppt课件

游标、异常处理及事务控制
2024/1/24
游标
01
游标是用于处理查询结果的一种数据结构,可以逐行访问查询
结果集中的数据。
异常处理
02
PL/SQL提供了异常处理机制,可以捕获和处理程序运行过程中
的错误或异常情况。
事务控制
03
PL/SQL支持事务控制语句,如COMMIT、ROLLBACK和
SAVEPOINT,用于管理数据库事务的提交和回滚。
22
Oracle SQL增强功能介绍
Oracle SQL扩展
Oracle数据库为SQL语言提供了许多扩展功能, 如PL/SQL编程、分区表、物化视图等。这些功能 可以提高数据库的性能、可维护性和灵活性。
数据完整性保障
Oracle数据库提供了ACID事务特性、约束( constraint)和触发器(trigger)等机制,确保 数据的完整性和一致性。这些功能可以防止脏读 、不可重复读和幻读等问题。
2024/1/24
9
物理存储结构
数据文件
存储数据的物理文件, 如表数据和索引数据。
2024/1/24
控制文件
记录数据库的物理结构 的文件,包括数据文件 和日志文件的位置和状
态信息。
重做日志文件
归档日志文件
记录数据库所有更改的 文件,用于在故障时恢
复数据。
10
当重做日志文件满时, 可将其转移到归档日志 文件中,以释放空间。
运行测试查询
执行一些简单的SQL查询,验证数据库是否正常工作。
检查日志文件
查看Oracle数据库的日志文件,确保没有错误或警告信 息。
2024/1/24
监控数据库性能
使用Oracle Enterprise Manager (OEM) 或其他性能监 控工具监控数据库的性能指标,如CPU利用率、内存使用 情况等。
第一章 oracle数据库10g概述

第一章oracle数据库10g概述1.1 数据库和信息管理服务器必须在多用户环境中管理大量的数据,使得多个用户能够并行访问数据。
所有这些必须能够在高性能的情况下完成,数据库服务器必须防止未经授权的非法访问,保护敏感数据,同时,为故障恢复提供解决方案。
▪客户用员务器环境▪大型数据库和空间管理▪多个并行数据库用户▪连接性▪高事务处理能力▪控制可用性▪开放的、基于工业标准▪管理安全性▪数据库完整性增强▪兼容性▪分布式系统▪复制环境1.2 Oracle 10g服务器Oracle 10g服务器是对象关系数据库管理系统,提供对信息管理的集成方法,一个Oracle服务器包括一个Oracle数据库和一个Oracle服务器实例。
每当数据库启动的时候,系统全局区(SGA)被分配,并启动了Oracle后台进程。
系统全局区是用于数据库用户共享数据库信息的内存区域。
后台进程和内存缓冲区称为Oracle实例。
Oracle实例包含两种类型的进程:用户进程和Oracle进程。
用户进程执行应用操作的代码。
Oracle 进程是执行用户进程和后台进程,对Oracle进行维护的服务器进程。
为了最大化性能和处理多个用户的请求,多进程Oracle系统使用附加进程,这些附加进程称为后台进程。
后台进程能够自动执行I/0和监视Oracle进程,为获得更好的性能和稳定性提供更好的支持。
数据库的物理结构和存储结构之间的关系由后台进程来维持。
数据库拥有多个后台进程,其数量取决于数据库的配置。
这些进程由数据库管理,它们只需要进行很少的管埋。
每个后台进程创建一个跟踪文件。
Oracle在实例操作期间保存跟踪文件。
后台进程跟踪文件的命名约定和位置随操作系统和数据库版本不同而不同。
一般来说,跟踪文件含有后台进程名或后台进程的操作系统进程ID.可以设置init.ora文件的BACKGROUND_DUMP_DEST参数来规定后台进程跟踪文件的位置。
但是有些版本的Oracle忽略这种设置。
数据库OCM认证培训大纲(oracle认证大师)

数据库OCM认证培训大纲(oracle认证大师)Oracle DBA大师班(10g OCM方向)1. 超过90%的Oracle认证专家认为Oracle认证增加了他们的专业可信度2. 超过90%的认证专家认为Oracle认证提高了他们的工作效率3. 89%的认证专家认为Oracle认证使他们有能力提供更高水准的客户服务4. 超过88%的认证专家认为Oracle认证使他们更有实力承担复杂的IT任务5. 92%的认证专家认为Oracle认证使他们的事业得到了更好的发展OCM培训介绍Oracle Certified Master (OCM) -Oracle认证大师,是Oracle认证的最高级别,是对数据库从业人员的技术、知识和操作技能的最高级别的认可。
Oracle OCM是解决最困难的技术难题和最复杂的系统故障的最佳Oracle专家人选,也是IT行业衡量IT专家和经理人的最高专业程度及经验的基准。
OCM不但有能力处理关键业务数据库系统和应用,还能帮助客户解决所有的Oracle技术困难,将成为企业内的资深专家和顾问。
通过这个课程使ORACLE数据库专家掌握了大型Oracle数据库在Linux/Unix平台上的网格、集群、灾备、调优、数据仓库、安全等高级维护技术,有资格成为大型数据中心行业权威。
OCM培训适合对象欲挑入年薪在15万-25万行业的在职者欲从事的Oracle 技术专家职位在校大学生(计算机相关专业)欲转行为企业ERP顾问的软件开发人员欲进入外企、银行、软件公司、国企从事IT信息技术职位的某职者OCM培训学习时间&培训班型OCM培训课程内容课程一:Oracle10g 服务器配置课程简介:通过本课程使的数据库工程技术人员能够了解OCM认证的考试形式、时间安排和注意事项,帮助学员掌握手工创建数据库和表空间,配置数据库监听器等任务。
课程内容:1. OCM考试简介2. 运用脚本创建数据库2. 确定和设置有关数据库架构的参数3. 条带化数据文件4. 创建与管理复用控制文件5. 大文件表空间管理6. 创建与管理多网络配置文件7. 监听器配置8. 共享数据库服务器的监听器配置9. 网络跟踪配置10. 管理Oracle 网络进程11.优化数据访问性能12. 临时、永久、UNDO表空间管理工具软件:Oracle 10g/11g Database 、Listener、SQL/PLUS课程二:Oracle10g网格计算与控制课程简介:Oracle网格计算使多组联网计算机能够组织到一起并按需进行共享,以满足不断变化的业务需求。
Oracle物化视图在数据仓库中的应用

Oracle物化视图在数据仓库中的应用作者:谢任东杨军来源:《电脑知识与技术·学术交流》2008年第12期摘要:在数据仓库的开发中,随着业务数据量的剧增以及其数据量增加的不稳定性,如何使用一种合适的方式来实现ETL(数据的抽取,转换,装载)成为在数据仓库开发中最需要考虑的热点。
本文介绍一种可以实现数据仓库ETL的技术——Oracle物化试图,并以作者在数据仓库开发实践作为例子,具体说明Oracle物化试图的实现方法。
关键词:数据仓库;ETL;物化试图;物化试图日志;增量抽取中图分类号:TP311文献标识码:A 文章编号:1009-3044(2008)12-20000-00Application of Oracle Materialized View in Data WarehouseXIE Ren-dong1, YANG Jun2(1.Beijing Global InfoTech Group,Beijing 100013,China;2.Department of Information Management Engineering ,Jiangxi Toursm & Commerce College,Nanchang 330039,China)Abstract: In the data warehouse development, along with the service data quantity sharp increase the instabilitywhich increases by and its the data quantity, how uses one appropriate way to realize ETL (data extracting, transformation, loading) becomes the hot spot which most needs to consider in the data warehouse development. This article introduced one kind may realize the data warehouseETL technical - Oracle Materialized View, and takes the example by the author in the data warehouse development practice, specifically explained the Oracle Materialized View realization method.Key words: data warehouse; Materialized View; data extracting; transformation; loading1 引言随着信息技术的不断推广和应用,许多企业都已经在使用管理信息系统处理管理事务和日常业务。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Oracle数据仓库设计指南 在一般的数据仓库应用系统中,根据系统体系结构的不同,数据仓库设计的内容和范围不尽相同,并且设计方法也不尽相同,下面的两幅图示分别表示带有ODS的数据仓库应用系统体系结构和不带ODS的数据仓库应用系统体系结构。本文将说明两个体系结构上的差异以及这种差异造成的设计方法的不同,并且重点介绍带有ODS的体系结构中数据仓库的设计方法。
在数据仓库的设计指导思想中,数据仓库的概念定义是非常重要的,数据仓库概念规定了数据仓库所具有的几个基本特性,这些特性也正是对数据仓库设计结果进行检验的重要依据。
根据Bill.Inmon的定义,“数据仓库是面向主题的、集成的、稳定的、随时间变化的,主要用于决策支持的数据库系统”。
ODS(Operational Data Store)是数据仓库体系结构中的一个可选部分,ODS具备数据仓库的部分特征和OLTP系统的部分特征,它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。
一般在带有ODS的系统体系结构中,ODS都设计为如下几个作用: 1) 在业务系统和数据仓库之间形成一个隔离层 一般的数据仓库应用系统都具有非常复杂的数据来源,这些数据存放在不同的地理位置、不同的数据库、不同的应用之中,从这些业务系统对数据进行抽取并不是一件容易的事。因此,ODS用于存放从业务系统直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致,因此在抽取过程中极大降低了数据转化的复杂性,而主要关注数据抽取的接口、数据量大小、抽取方式等方面的问题。
2) 转移一部分业务系统细节查询的功能 在数据仓库建立之前,大量的报表、分析是由业务系统直接支持的,在一些比较复杂的报表生成过程中,对业务系统的运行产生相当大的压力。ODS的数据从粒度、组织方式等各个方面都保持了与业务系统的一致,那么原来由业务系统产生的报表、细节数据的查询自然能够从ODS中进行,从而降低业务系统的查询压力。
3) 完成数据仓库中不能完成的一些功能 一般来说,带有ODS的数据仓库体系结构中,DW层所存储的数据都是进行汇总过的数据,并不存储每笔交易产生的细节数据,但是在某些特殊的应用中,可能需要对交易细节数据进行查询,这时就需要把细节数据查询的功能转移到ODS来完成,而且ODS的数据模型按照面向主题的方式进行存储,可以方便地支持多维分析等查询功能。 在一个没有ODS层的数据仓库应用系统体系结构中,数据仓库中存储的数据粒度是根据需要而确定的,但一般来说,最为细节的业务数据也是需要保留的,实际上也就相当于ODS,但与ODS所不同的是,这时的细节数据不是“当前、不断变化的”数据,而是“历史的,不再变化的”数据。
设计方法 在数据仓库设计方法和信息模型建模方法中,前人的著作对各种思路和方法都做过大量的研究和对比,重点集中在ER模型和维模型的比较和应用上。根据我们的实践经验,ER模型和维模型在数据仓库设计中并非绝对对立,尤其在ODS设计上,从宏观的角度来看数据之间的关系,以ER模型最为清晰,但从实现出来的数据结构上看,用维模型更加符合实际的需要。因此孤立地看ER模型或者维模型都缺乏科学客观的精神,需要从具体应用上去考虑如何应用不同的设计方法,但目标是一定的,就是要能够把企业的数据从宏观到微观能够清晰表达,并且能够实现出来。
本文中重点介绍维模型的应用。 ODS设计指南 在ODS的概念定义中,已经描述了ODS的功能和特点,实际上ODS设计的目标就是以这些特点作为依据的。ODS设计与DW设计在着眼点上有所不同,ODS重点考虑业务系统数据是什么样子的,关系如何,在业务流程处理的哪个环节,以及数据抽取接口等问题。
第零步:数据调研 有关数据调研的内容和要求,在《调研规范》文档中做了详细定义,此处不再重复。 第一步:确定数据范围 确定数据范围实际上是对ODS进行主题划分的过程,这种划分是基于对业务系统的调研的基础上而进行的,并不十分关心整个数据仓库系统上端应用需求,但是需要把上端应用需求与ODS数据范围进行验证,以确保应用所需的数据都已经从业务系统中抽取出来,并且得到了很好的组织。一般来讲,主题的划分是以业务系统的信息模型为依据的,设计者需要综合各种业务系统的信息模型,并进行宏观的归并,得到企业范围内的高层数据视图,并加以抽象,划定几个逻辑的数据主题范围。在这个阶段,以ER模型表示数据主题关系最为恰当。
第二步:根据数据范围进行进一步的数据分析和主题定义 在第一步中定义出来了企业范围内的高层数据视图,以及所收集到的各种业务系统的资料,在这一步中,需要对大的数据主题进行分解,并进行主题定义,直到每个主题能够直接对应一个主题数据模型为止。在这个阶段,将把第一步生成的每个ER图中的实体进行分解,分解的结果仍以ER表示为佳。 第三步:定义主题元素 定义维、度量、主题、粒度、存储期限 定义维的概念特性: 维名称,名称应该能够清晰表示出这个维的业务含义。 维成员,也就是这个维所代表的具体的数据, 维层次,维成员之间的隶属与包含的层次关系,每个层次需要定义名称 定义度量的概念特性: 度量名称,名称应该能够清晰标书这个度量的业务含义 定义主题的概念特性: 主题名称和含义,说明该主题主要包含哪些数据,用于什么分析; 主题所包含的维和度量; 主题的事实表,以及事实表的数据。 定义粒度: 主题中事实表的数据粒度说明,这种粒度可以通过对维的层次限制加以说明,也可以通过对事实表数据的业务细节程度进行说明。
定义存储期限: 主题中事实表中的数据存储周期。 第四步:迭代,归并维、度量的定义 在ODS中,因数据来自于多个系统,数据主题划分时虽然对数据概念进行了一定程度上的归并,但具体的业务代码所形成的各个维、以及维成员等还需要进一步进行归并,把概念统一的维定义成一个维,不允许同一个维存在不同的实体表示(象不同的业务系统中一样)。
第五步:物理实现 定义每个主题的数据抽取周期、抽取时间、抽取方式、数据接口,抽取流程和规则。 物理设计不仅仅是ODS部分的数据库物理实现,设计数据库参数、操作系统参数、数据存储设计之外,有关数据抽取接口等问题必须清晰定义。
DW设计指南 尽管我们看到过很多关于“不考虑应用,先建立数据平台”的说法,但建立一个“万能的”东西是不可能的,所以数据仓库的设计必须参照应用范围、应用类型,例如要考虑到系统用于报表、OLAP、数据挖掘的哪些模型等等,不同的应用对数据仓库的设计有不同的要求。
数据仓库是面向主题的、集成的、稳定的、随时间变化的数据,数据仓库的这几个特征的含义在这里不具体多介绍,但本人要说明如何实现这些特性。
在数据仓库的设计中时刻不能忘记的几个问题列举如下: 1、数据粒度和数据组织 在数据仓库的每个主题,都必须知道这个主题所限定的维的层次、事实数据的粒度;事实数据存储的期限,“过期”的数据的处理方法。
2、维和度量的唯一性和公用性 千万不要在不同的主题中定义多个表示同一内容的维,尤其对于业务代码类型的维,如果一个业务代码形成了多个维表,那么在元数据维护过程中将困难重重。在整个系统范围内,要不断检视维定义是否唯一,如果有可能,一个维表要尽量被多个主题引用。
3、数据粒度一旦变粗,就要考虑多个主题的融合汇总 在数据仓库中,我们出于数据组织的规则、业务的要求、性能的要求,都可能对一个主题的事实数据进行汇总,形成粒度较粗的事实数据,但这时候我们往往忘记了粒度变粗的事实数据为最终的用户提供了更宏观的数据视图,这种宏观的数据视图当然需要进行跨主题的数据融合才能更加具有应用的价值。
4、不论如何归并,需要保持数据之间的联系 在数据仓库中,不同主题的数据之间的物理约束或许不再存在,但无论这些数据如何变化,要知道必须有一些“键”在逻辑上保持着不同数据之间的联系,这样就可以保证有联系的主题数据之间可以进行汇总以支持未知的应用,否则数据仓库的数据是一潭死水,不可能灵活支持各种应用的。
数据仓库设计可以自底向上地进行,也就是说从汇总ODS数据入手,逐渐过渡到应用主题上面去(也就是说,ODS里面的数据主题域与DW中的分析主题完全不是一回事)。我们仍然按部就班地逐项设计,这样并不是完全限定设计思路和步骤,但可以有效地提醒设计者有哪些事情要做。 第一步:对ODS中的各个主题的事实数据进行时间上的汇总 ODS的事实数据是纯细节的交易数据,进入ODS的第一步就是要按照时间维进行汇总,以实现初步的信息沉淀。这种汇总不是只进行一次,而是要制定下来汇总的级别,比如日汇总信息保留3个月,月汇总信息保留2年,年汇总信息长期保存(当然在时间粒度变粗的同时一般都伴随着其他维粒度的变粗或者舍弃),我们最终一定要定义到何种程度的数据可以在数据仓库中永久保存为止的地步。
第二步:按照业务逻辑的规则,对数据进行归并 把ODS中不同主题中的表示相同业务的数据(来自不同的业务系统)进行归并,例如一般企业的客服系统(Call Center)都受理一部分业务,而这些业务受理与在营业厅或销售店的受理是一样的,因此这类数据要归并到一起。
第三步:把包含细节过多的交易记录进行拆分 事实上,一个交易记录所包含的信息内容非常丰富,往往超越了某个人或部门的分析需求,但不同的人有不同的关注点,因此为提高性能起见,我们需要把一个长记录包含的信息进行分析、分解、汇总。例如在电信企业中,经过二次批价后的通话详单包含多种信息,经过分析,它包括网络信息、业务类型信息、时间信息、地理信息、费用信息这样几个类别的信息,而每一类信息都由几个字段来进行记录。这些不同类别的信息是很少有人都同时关心的,一般来说网管部门关心网络信息,市场部门关心业务类型信息,而时间信息和地理信息恰是所有部门都需要的。按照这样的情况,我们把一条话单按照信息内容进行拆分,拆分后进行汇总归并,以支持不同部门的分析要求。当然,对于数据挖掘应用,可能同时关心所有的信息以发掘不同信息之间的关系,但这种情况一则很少,二则真正的数据挖掘更多的时候依赖于交易细节数据,也就是说,对于专题问题的研究可以从ODS中进行数据的再次处理。
第四步:汇总、再汇总 汇总的问题决不仅仅是为了提高性能而做的事情(当然汇总能够有效提高性能),但汇总同时意味着更高程度的综合,在这个过程中,我们会发现与ODS系统设计过程相反,我们从细节走向了宏观,在ODS中我们初步确定了企业信息模型,对企业信息模型进行初步分解,再分解、再分解,得到了一个个的主题;在数据仓库中,我们从一个个的主题开始,综合、再综合,我们沿着与ODS相反的方向,走向了企业的宏观数据视图。事实上在DW设计中,汇总、综合的终极目标,是要在最后把多个主题汇总成为一个大的主题,而这个主题所包含的维度和度量就是这个企业运行的命脉指标,是企业老板所最为关注的那几个指标。