第十章 数据仓库开发应用过程
2 Data Warehouse-补充2

……
3.4.6 数据仓库的数据抽取模型
表3-6 数据抽取流程图
2.数据仓库的数据抽取、转换与加载计划
1)影响数据抽取、转换与加载的因素 (1)数据格式 (2)坏数据 (3)系统的兼容性
(4)数据源的变化
(5)数据收取的时间
2)确定数据抽取、转换与加载的策略
种类(7) 年龄组(8) 经济类 (10) …… 商品小 类(40) 商品 (220) ……
季(16) 省(60) 月(48) 市(200) ……
街道(2100) …… 商店 (20000) ……
表3-2 实体与功能关系CRUD矩阵
销售单处理
商品管理 预算系统 财务计算 库存控制 后勤
客户
销售单 CRUD CRUD
(3)三层客户/服务器结构:这类结构包括基于
工作站的客户层、基于服务器的中间层和基于主 机的第三层。主机(宿主)层负责管理数据源和 可选的源数据转换;服务器运行数据仓库和数据 集市软件,并存储仓库的数据;客户工作站运行 查询和报表运用程序,且还可以存储从数据集市 或数据仓库卸载的局部数据。 (4)多层式结构:这是在三层客户/服务器结构 上发展起来的数据仓库结构。
(1)全库比较 (2)利用程序日志 (3)利用数据库日志 (4)利用时间戳
(5)利用位图索引
3.数据仓库的数据清洗转换方法
1)类型转换 2)串操作 3)数学函数 4)参照完整性
3.1.2 数据仓库的螺旋式开发方法
开发概 念模型 开发 逻辑 模型
设计 体系 结构
数据库 与元数 据设计
规划与 确定需 求
规划 分析阶段 数据仓库 开发过程
设计实 施阶段
数据仓库流程

开发数据仓库的流程
1.启动工程建立开发数据仓库工程的目标及制定工程计划。
计划包括数据范围、提供者、
技术设备、资源、技能、组员培训、责任、方式方法、工程跟踪及详细工程调度等。
2.建立技术环境选择实现数据仓库的软硬件资源,包括开发平台、DBMS、网络通信、开
发工具、终端访问工具及建立服务水平目标等。
3.确定主题进行数据建模根据决策需求确定主题,选择数据源,对数据仓库的数据组织
进行逻辑结构设计
4.设计数据仓库中的数据库基于用户的需求,着重于某个主题,开发数据仓库中数据的
物理存储结构,即设计多维数据结构的事实表和维表。
5.数据转换程序实现从源系统中抽取数据、清理数据、一致性格式化数据、综合数据、
装载数据等过程的设计和编码。
6.管理元数据定义元数据,即表示定义数据的意义及系统各组件部件之间的关系。
元数
据包括关键字、属性、数据描述、物理数据结构、源数据结构、映射及转换规则、综合算法、代码、缺省值、安全要求、变化及数据时限等。
7.开发用户决策的数据分析工具建立结构化的决策支持查询,实现和使用数据仓库的数
据分析工具,包括优化查询工具、统计分析工具、才C/S工具、OLAP工具及数据开采工具等,通过分析工具实现决策支持需求。
数据仓库系统的设计与开发课件

建立一个数据仓库系统的参考步骤 数据仓库系统的生命周期 创建数据仓库系统的两种思维模式 数据仓库数据库的设计步骤
2024/7/24
数据仓库与数据挖掘
1
建立一个数据仓库系统的参考步骤
数据仓库系统的建立是一个复杂而漫长 的过程。涉及到: 源数据库系统 数据仓库对应的数据库系统 数据分析与报表工具 ……
利用星形图进行数据仓库的逻辑模 型设计
根据分析需求与信息包图制作星形图
时间
客户 销售分析
产品
广告
区域
2024/7/24
数据仓库与数据挖掘
20
根据分析需求与信息包图制作雪花图
2024/7/24
时间
客户 销售分析
产品
产品类 别
广告
数据仓库与数据挖掘
区域
雪花模型对星型模型的维度表进一步标准化,对星型 模型中的维度表进行了规范化处理。
在SQL Server 2005数据库环境中安 装数据仓库组件、示例和工具
利用示例数据仓库 (AdventureWorks DW)环境及帮 助系统学习
2024/7/24
数据仓库与数据挖掘
30
3.3 使用SQL Server 2005建立多维 数据模型
创建一个新的数据仓库分析项目 定义数据源 定义数据源视图 定义多维数据集 部署“销售分析示例”项目 浏览已部署的多维数据集 提高多维数据集的可用性和易用性
事实表的特征有:
数据仓库与数据挖掘
记录数量情况
维度表情况
23
事实表的类型与设计
事实是一种度量,所以事实表中的这种指标往往 需要具2有024数/7/值24 化和可加性的特征。即: 要考虑决策分析的需要(必要的数据) 要考虑系统运行的需要(派生的数据)
数据仓库开发指南

数据仓库开发指南第1章数据仓库基础概念 (4)1.1 数据仓库的定义与作用 (4)1.2 数据仓库的架构与组成 (4)1.3 数据仓库的设计原则与方法 (5)第2章数据仓库需求分析 (5)2.1 需求调研方法与技巧 (6)2.1.1 访谈 (6)2.1.2 问卷调查 (6)2.1.3 工作坊 (6)2.1.4 数据分析 (6)2.1.5 竞品分析 (6)2.1.6 技术调研 (6)2.2 数据仓库需求分析的主要内容 (6)2.2.1 业务需求分析 (6)2.2.2 数据需求分析 (6)2.2.3 功能需求分析 (6)2.2.4 可扩展性需求分析 (7)2.2.5 安全性需求分析 (7)2.3 数据仓库需求分析报告编写 (7)第3章数据模型设计 (7)3.1 数据模型分类与选择 (7)3.1.1 数据模型分类 (7)3.1.2 数据模型选择 (8)3.2 星型模型设计 (8)3.2.1 确定事实表 (8)3.2.2 设计维度表 (8)3.2.3 建立关系 (8)3.2.4 优化星型模型 (8)3.3 雪花模型设计 (9)3.3.1 星型模型转换为雪花模型 (9)3.3.2 设计雪花模型 (9)3.3.3 建立关系 (9)3.3.4 优化雪花模型 (9)3.4 数据模型优化与调整 (9)3.4.1 优化事实表 (9)3.4.2 优化维度表 (9)3.4.3 调整关联关系 (9)3.4.4 其他优化策略 (10)第4章数据集成与清洗 (10)4.1 数据集成技术概述 (10)4.1.1 数据抽取 (10)4.1.3 数据加载 (10)4.2 数据清洗策略与方法 (10)4.2.1 数据清洗策略 (10)4.2.2 数据清洗方法 (11)4.3 数据质量评估与改进 (11)4.3.1 数据质量评估 (11)4.3.2 数据质量改进 (11)第5章数据存储与管理 (11)5.1 数据存储技术选型 (11)5.1.1 存储技术概述 (11)5.1.2 技术选型依据 (12)5.1.3 技术选型建议 (12)5.2 数据仓库分区与索引 (12)5.2.1 分区策略 (12)5.2.2 索引设计 (12)5.3 数据压缩与备份 (12)5.3.1 数据压缩 (12)5.3.2 数据备份 (13)5.3.3 备份策略 (13)第6章数据仓库功能优化 (13)6.1 功能优化策略与方法 (13)6.1.1 索引优化 (13)6.1.2 数据分区与分片 (13)6.1.3 数据压缩 (13)6.1.4 资源分配与调度 (13)6.2 数据仓库查询优化 (13)6.2.1 SQL优化 (14)6.2.2 查询缓存 (14)6.2.3 并行查询 (14)6.3 数据仓库存储优化 (14)6.3.1 数据存储格式优化 (14)6.3.2 数据布局优化 (14)6.3.3 存储设备选型 (14)第7章数据仓库ETL开发 (14)7.1 ETL流程设计 (14)7.1.1 ETL概述 (15)7.1.2 ETL设计原则 (15)7.1.3 ETL流程设计步骤 (15)7.2 ETL工具与平台选择 (15)7.2.1 ETL工具概述 (15)7.2.2 ETL工具选择标准 (15)7.2.3 ETL平台选择 (16)7.3 ETL开发实践 (16)7.3.2 数据转换 (16)7.3.3 数据加载 (16)第8章数据仓库安全与权限管理 (16)8.1 数据仓库安全策略 (16)8.1.1 访问控制 (17)8.1.2 用户认证与授权 (17)8.1.3 安全审计 (17)8.1.4 安全防护 (17)8.2 权限管理方法与实现 (17)8.2.1 基于角色的权限管理 (17)8.2.2 基于标签的权限管理 (17)8.2.3 基于属性的权限管理 (17)8.3 数据加密与脱敏 (18)8.3.1 数据加密 (18)8.3.2 数据脱敏 (18)8.3.3 密钥管理 (18)第9章数据仓库监控与维护 (18)9.1 数据仓库监控策略 (18)9.1.1 监控目标 (18)9.1.2 监控指标 (18)9.1.3 监控工具与技术 (19)9.1.4 监控频率与报告 (19)9.2 数据仓库功能监控 (19)9.2.1 数据仓库功能指标 (19)9.2.2 功能监控方法 (19)9.2.3 功能分析 (19)9.2.4 功能优化 (19)9.3 数据仓库备份恢复与迁移 (19)9.3.1 备份策略 (19)9.3.2 备份频率与存储 (19)9.3.3 恢复策略 (19)9.3.4 迁移策略 (19)9.3.5 迁移实施 (20)第10章数据仓库项目管理与实施 (20)10.1 项目管理方法与流程 (20)10.1.1 项目启动 (20)10.1.2 项目规划 (20)10.1.3 项目执行 (20)10.1.4 项目控制 (20)10.1.5 项目收尾 (20)10.2 数据仓库团队建设与分工 (20)10.2.1 团队组成 (20)10.2.2 团队建设 (21)10.3 数据仓库实施风险与应对措施 (21)10.3.1 技术风险 (21)10.3.2 项目管理风险 (21)10.4 数据仓库项目评估与验收 (21)10.4.1 项目评估 (21)10.4.2 项目验收 (22)第1章数据仓库基础概念1.1 数据仓库的定义与作用数据仓库(Data Warehouse)是一种面向主题(SubjectOriented)、集成的、随时间变化的、非易失性的数据集合,用于支持管理决策。
数据仓库技术的搭建步骤与流程(十)

数据仓库技术的搭建步骤与流程引言:数据仓库已经成为了企业管理决策中不可或缺的一部分。
它是一个集成的、主题导向的、非易失性的数据集合,用于支持企业的决策过程。
数据仓库的搭建需要经历一系列的步骤与流程,本文将从需求分析、数据抽取与清洗、数据集成与转换、数据存储与管理、数据检索与分析等方面进行探讨。
1. 需求分析在进行数据仓库搭建之前,我们需要了解用户的需求。
与用户进行沟通,了解他们需要使用哪些数据以及对数据的需求,包括时效性、准确性、完整性等方面。
同时还需要定义数据仓库的使用范围和目标,明确需要解决的业务问题。
2. 数据抽取与清洗在数据仓库中,数据通常来自不同的数据源,包括企业内部的操作系统、数据库、文件等。
因此,需要将这些数据从源系统中抽取出来,并进行清洗。
数据抽取指的是从源系统中提取数据的过程,可以使用ETL工具或编写脚本来实现。
而数据清洗则是对源数据进行预处理,包括去除重复数据、处理缺失值、纠正错误等。
3. 数据集成与转换在将数据加载到数据仓库中之前,还需要进行数据集成与转换的过程。
数据集成指的是将不同数据源中的数据整合到一起,通常需要进行数据映射、数据合并等操作。
数据转换则是将数据转化为与数据仓库模型相匹配的格式,包括数据格式转换、数据字段映射等。
这一步可以使用ETL工具来实现。
4. 数据存储与管理数据仓库中的数据通常以多维模型的形式进行存储,主要有星型模型和雪花模型两种。
星型模型采用事实表和维度表的结构,而雪花模型在星型模型的基础上进一步将维度表进行细化。
选择合适的模型来存储数据,并进行数据的存储与管理非常重要。
可以使用关系数据库、列式数据库等技术来实现数据的存储和管理。
5. 数据检索与分析数据仓库的最终目标是支持企业的决策过程,因此数据的检索和分析是数据仓库中非常重要的环节。
可以使用在线分析处理(OLAP)工具来实现数据的多维分析,通过拖拽和式计算等功能进行数据的透视分析、切割分析、钻取分析等。
数据仓的设计及开发过程.pptx

数据仓库体系结构
数据分析、DM
OLTP 数据源
生产
财务
数据仓库
数据集市
航线 分析
总量 分析
终端用户
结算
外部 InfoPump 数据的映射规则、模型
市场 分析
终端用户
。。(。元数据管理)
数据? 采集及整合
数据? 展现及决策
数据仓库项目流程管理及系统性能管理和监控
从操作型的现存系统到数据仓库中数据 转换工作的难点
❖现有系统缺乏数据集成,跨越不同应用的数据 集成性很差
❖存取现存系统的效率,扫描已有文件成了数据 仓库体系结构设计者主要面对的问题 ❖时基的变化 ❖数据要浓缩
概念:数据周期、简要记录
❖元数据
关于数据的数据,指在数据仓库建设过程中所产生的有关 数据源定义,目标定义,转换规则等相关的关键数据。同 时元数据还包含关于数据含义的商业信息。
❖粒度
数据仓库的数据单位中保存数据的细化或综合程度的级别 。细化程度越高,粒度级就越小;相反,细化程度越低, 粒度级就越大。
❖分割
结构相同的数据被分成多个数据物理单元。任何给定的数 据单元属于且仅属于一个分割。
数据无时基 数据算法上的差异 抽取的多层次 外部数据问题 无起始的公共数据源
❖生产率低
根据全部数据生成企业报表 定位数据需要浏览大量文件 抽取程序很多,并且每个都是定制的,不得不克服很多技术上 的障碍。
❖数据转化为信息的不可行性
数据没有集成化 缺乏将数据转化为信息所需的历史数据
体系结构设计环境的层次
操作层
数据仓库的应用流程
数据仓库的应用流程下载温馨提示:该文档是我店铺精心编制而成,希望大家下载以后,能够帮助大家解决实际的问题。
文档下载后可定制随意修改,请根据实际需要进行相应的调整和使用,谢谢!并且,本店铺为大家提供各种各样类型的实用资料,如教育随笔、日记赏析、句子摘抄、古诗大全、经典美文、话题作文、工作总结、词语解析、文案摘录、其他资料等等,如想了解不同资料格式和写法,敬请关注!Download tips: This document is carefully compiled by theeditor. I hope that after you download them,they can help yousolve practical problems. The document can be customized andmodified after downloading,please adjust and use it according toactual needs, thank you!In addition, our shop provides you with various types ofpractical materials,such as educational essays, diaryappreciation,sentence excerpts,ancient poems,classic articles,topic composition,work summary,word parsing,copy excerpts,other materials and so on,want to know different data formats andwriting methods,please pay attention!数据仓库的应用流程一般包括以下几个主要步骤:1. 需求分析:确定业务需求和目标,明确数据仓库要支持的业务问题和决策。
数据仓库开发应用过程
Money(flo at) ……
17
5.4.5 数据仓库的实体定义
实体
容量
更新频率
Customer 中等容量,有100个重点客户, 每月对客户情况进行一次分析,更
2000个跟踪客户
新频率也为每月一次
Product 小容量,500种商品
大约有500种商品,商品的更新是每 月一次,数据更新也照此。
4
5.2.4 数据仓库使用方案和项目规划预算
1.实际使用方案还可以将最终用户的决策支持要求与 数据仓库的技术要求联系起来 2.开发方案的预算进行估计 3.编制数据仓库开发说明书 :
➢说明系统与企业战略目标的关系,系统与企业急需处理的、范围相对有 限的开发机会。 ➢业务机会的说明以及任务概况说明、重点支持的职能部门和今后工作的 建议。 ➢计划中需要阐明期望取得的有形和无形利益 ➢业务价值计划最好由目标业务主管来完成 ➢规划书中要确定数据仓库的开发目标实现范围、体系结构和使用方案及 开发预算。
……
商品种类(7) 年龄组 经济类 信用
商品小类
(8) (10) (10)
(40)
…… ……
……
商品(220)
……
7
4.CRUD矩阵
实体 客户 功能
销售单输入 CRUD 销售单处理
商品管理
R
预算系统
R
财务计算
RU
库存控制
R
后勤
R
销售单
CRUD CRUD
R R R RU RU
商品 销售代表 供货商
R
2.逻辑模型最终设计成果:
➢每个主题的逻辑定义,并将相关内容记录在数据仓库 的元数据中 ➢粒度划分 ➢数据分割策略 ➢表划分和数据来源等。
(整理)数据仓库的实现步骤
数据仓库的实现步骤:一般地,设计和创建数据仓库的步骤是:1.确定用户需求确定终端用户的需要,为数据仓库中存储的数据建立模型。
通过数据模型,可以得到企业完整而清晰的描述信息。
数据模型是面向主题建立的,同时又为多个面向应用的数据源的集成提供了统一的标准。
数据仓库的数据模型一般包括:企业的各个主题域、主题域之间的联系、描述主题的码和属性组。
深入地分析企业的数据源,记录数据源系统的功能与处理过程。
一般地,设计数据仓库最重要的一步便是要理解商业动作的规律,只有了解数据是如何被处理的,才能分解商业处理过程,从中获取数据元素。
利用现有系统的信息,确定从源数据到数据仓库的数据模型所必须的转化/综合逻辑。
这涉及到应该合并转化多少数据;是综合所有的数据文件还是综合发生变化的操作系统文件;转化/综合过程应该多长时间执行一次等问题。
决定数据转化与更新频率是重要的商业事件。
无论数据仓库的更新是采用事件驱动还是时间驱动,都必须让数据仓库知道当某种事件发生时就需要更新数据。
在数据仓库建立之前,应该写一个详细的方案和实现规划。
这种方案和实现规划包括:建立商业案例、收集用户需求、确定技术需求。
建立商业案例包括由该方案解决的商业需求、方案的成本和投资的收益。
收集用户需求主要是调查用户建立数据仓库的意图。
用户需求可以确定这些内容:数据需求(粒度级)、企业经营系统包含的数据、这些数据遵循的商业规则、需要提供给用户的查询、用户需要的标准报告、将要使用的客户应用程序工具。
确定技术要求包括下列内容:硬件体系结构和框架(例如,链接到数据市场所在的地理位置)、备份和恢复机制、安全性限制、从经营系统到数据仓库加载数据和转换数据的方法。
UID50288 帖子608 精华0 积分909 推荐0 阅读权限50 在线时间121 小时注册时间2008-10-10 最后登录2009-1-21 查看详细资料TOPvissd项目经理个人空间发短消息加为好友当前离线3# 大中小发表于2009-1-19 12:25 只看该作者2.设计和建立数据库设计和建立数据库是成功地创建数据仓库的一个关键步骤。
Data Mining
4 创建数据仓库的基本步骤
• 数据仓库的建立就是将数据仓库中的所 有部分结合在一起,形成体系结构,使 数据从源系统流向最终用户。 • 数据仓库系统的建立是一个由数据驱动、 以技术支撑并满足要求的不断增长和完 善的开发过程
• 数据仓库的建立科研从数据、技术和应 用三个方面展开,各方面工作完成之后, 进行数据仓库部署,然后数据仓库投入 运行使用,同时管理人员对数据仓库进 行维护,完成数据仓库的一个生命周期, 其基本框架如图所示:
Data Mining
数据挖掘
数据仓库的设计与开发
• • • • 1.数据仓库的开发过程及特点 2.数据模型设计 3.数据仓库的粒度设计 4.创建数据仓库的基本步骤
数据仓库的开发过程及特点
• 1.1 什么是数据仓库
• 1.2 数据仓库的开发过程分成哪几个阶段
1.1 什么是数据仓库
• 数据仓库 • 静态数据存储
(1).操作型基础构造——包括人员、流程、 培训和管理软件。他们支持数据仓库的 管理工作并保持它的工作效率。 (2).物理基础构造——主要组成部分是计 算机平台和一系列的工具,计算机平台 是数据仓库必须的平台的组成部分包括 基本的硬件和操作系统,网络和网络软 件等。各种工具在这些平台上运行,完 成体系结构各部分的不同功能和服务。
逻辑设计
• 将概念模型E_R图转换成逻辑模型,即 计算机表示的数据模型。 • 数据仓库数据模型一般采用星型模型。 • 星型模型由事实表,维表组成。
物理设计
• 对逻辑模型设计的数据模型确定物理存 储结构和存取方法。 • 数据仓库的星型模型在计算机中仍用关 系型数据库存储。 • 物理数据还需要进行存储容量的估计, 确定数据存储的计划,确定索引策略, 确定数据存放位置以及确定存储分配。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
CH10
调查对象 包括组织中的DW项目负责人、知识用户、 包括组织中的DW项目负责人、知识用户、 DW项目负责人 信息用户和信息管理人员。 信息用户和信息管理人员。 项目负责人 —— 通过项目负责人在开发者和用户之 间进行沟通,以确定用户的信息需求、 间进行沟通,以确定用户的信息需求、定义 系统以及界定系统边界。 系统以及界定系统边界。
CH10
开发初期使用需求的不确定性 开发初期使用需求的不确定性 DB系统 面向应用,其设计有一组确定 DB系统,面向应用,其设计有一组确定 系统, 的应用需求做为参照; 应用需求做为参照; DW无对应的、固定的物流、信息流、 DW无对应的、固定的物流、信息流、数 无对应的 据流等,导致数据的分析处理没有固定的模 分析处理没有固定的 据流等,导致数据的分析处理没有固定的模 式,甚至用户自己都不知道其将来的分析处 理的过程,所以,难以在初期确定DW的使用 DW的使用 理的过程,所以,难以在初期确定DW 需求。 需求。
第十章 数据仓库开发应用过程
与传统的DB开发一样,DW的开发也经历 与传统的DB开发一样,DW的开发也经历 DB开发一样 需求分析、概念模型设计、 需求分析、概念模型设计、逻辑模型设计和 物理模型设计;其不同之处——数据量以及 物理模型设计;其不同之处——数据量 数据量以及 数据操作不同,此外, 操作不同 数据操作不同,此外,前者在需求分阶段就 能确定系统的功能,后者则不能。 能确定系统的功能,后者则不能。
CH10
4.建立DW使用方案和项目规划预算 4.建立DW使用方案和项目规划预算 建立DW 使用方案——实际上是DW需求的一个重 使用方案——实际上是DW需求的一个重 实际上是DW 要的原型,体现了用户参与的原则。 要的原型,体现了用户参与的原则。 规划预算——估算项目投资额 规划预算——估算项目投资额,可根据 估算项目投资额, 以往软件开发确定,或根据参照结构估算。 以往软件开发确定,或根据参照结构估算。
CH10
② 自下而上策略 较灵活——一般从某个原型开始, 较灵活——一般从某个原型开始,常 一般从某个原型开始 用于开发数据集市; 用于开发数据集市; 一般用于试点 一般用于试点[对DW技术的评价,运 试点[ DW技术的评价, 技术的评价 DW的各种费用等 的各种费用等] 行DW的各种费用等]; 适合采用螺旋式的原型开发方法。 适合采用螺旋式的原型开发方法。 ③ 混合策略 难以操作——需要精通方方面面的专家 难以操作——需要精通方方面面的专家。 需要精通方方面面的专家。
DW的螺旋式开发方法 DW的螺旋式开发方法
CH10
3.数据仓库开发的特点 3.数据仓库开发的特点 数据驱动的设计方法 ① 用业务系统的数据创建DW 用业务系统的数据创建DW DB系统有什么 DB系统有什么→对DW有何影响; 系统有什么→ DW有何影响; 有何影响 DB数据 主题领域[联系] DB数据→主题领域[联系]; 数据→ 数据模型→DB与主题数据的共同性。 数据模型→DB与主题数据的共同性。 数据的共同性 ② 该方法不是面向应用的,即,不是从应 该方法不是面向应用 面向应用的 用需求出发的。 用需求出发的。
CH10
3.选择DW的体系结构 3.选择DW的体系结构 选择DW 一般基于DW的应用结构和DW 一般基于DW的应用结构和DW的技术平台 DW的应用结构和DW的技术平台 结构两个方面来考虑。 结构两个方面来考虑。 ① DW的应用结构 DW的应用结构 基于业务处理系统的DW 基于业务处理系统的DW——虚拟DW; DW——虚拟DW; 虚拟DW 单纯DW 所有应用都在DW中进行); 单纯DW(所有应用都在DW中进行); DW( DW中进行 单纯数据集市(部门级DW DW); 单纯数据集市(部门级DW); DW与数据集市(最佳体系结构)。 DW与数据集市(最佳体系结构)。 与数据集市
CH10
§2 DW的规划 DW的规划 规划是DW开发的首要任务, 规划是DW开发的首要任务,它包括选择 DW开发的首要任务 DW实现策略 确定DW开发目标和实现范围、 实现策略、 DW开发目标和实现范围 DW实现策略、确定DW开发目标和实现范围、 选择DW体系结构以及建立DW DW体系结构以及建立DW使用方案和项目 选择DW体系结构以及建立DW使用方案和项目 规划预算四个方面 四个方面。 规划预算四个方面。 上述规划工作完成后,要编制DW规划说 DW规划说 上述规划工作完成后,要编制DW 明书,内容包括DW与企业战略规划之间的关 包括DW 明书,内容包括DW与企业战略规划之间的关 DW重点支持的职能部门 重点支持的职能部门, DW开发工作 系,DW重点支持的职能部门,对DW开发工作 的建议,实际使用方案与开发预算等。 的建议,实际使用方案与开发预算等。
CH10
开发概 念模型 规划与 确定需 求 评价数 据仓库 使用维护阶段 数据仓 库用户 培训 填充与 测试数 据仓库 规划分析阶段 开发逻 辑模型 设计体 系结构 DW与元 DW与元 数据的 设计 数据仓库 开发过程 数据抽 取转换 与加载
设计实施阶段 开发或 开发或 购买中 购买中 间件
改进维 改进维 护数据 仓库
CH10
对项目负责人的调查内容包括: 项目负责人的调查内容包括: 的调查内容包括 组织的管理人员对信息的需求, 管理人员对信息的需求 ① 组织的管理人员对信息的需求, 比 如,与任务说明书中业务需求相关的业务或 事务,相关的数据在哪个系统中, 事务,相关的数据在哪个系统中,所需数据 的年限, 的年限,现行业务处理系统能否提供所需数 据等。 据等。 用户的有关情况,比如,谁是用户? ② 用户的有关情况,比如,谁是用户? 用户如何使用DW DW? 用户如何使用DW?用户是否拥有自己的计算 机系统?是否使用了分析工具? 机系统?是否使用了分析工具?用户喜好的 报表形式?等等。 报表形式?等等。
CH10
确定DW数据的规模。 确定DW数据的规模。 DW数据的规模 其他目标还有: 其他目标还有:根据需求确定数据的含 还有 义,确定DW的类型,确定DW的功能,确定元 确定DW的类型,确定DW的功能, DW的类型 DW的功能 数据的数量,确定数据源的使用,……。 数据的数量,确定数据源的使用,……。 可见,DW的目标非常繁多复杂,需开发 可见,DW的目标非常繁多复杂, 的目标非常繁多复杂 人员与用户不断交流来确定。 人员与用户不断交流来确定。
§1 §3 §5 §7 DW开发应用的特点 DW开发应用的特点 DW的规划 §2 DW的规划 DW概念模型设计 DW逻辑模型设计 DW概念模型设计 §4 DW逻辑模型设计 DW物理模型设计 DW的实施 DW物理模型设计 §6 DW的实施 DW的应用 的应用、 DW的应用、支持和增强
CH10
§1 DW开发应用的特点 DW开发应用的特点 DW的开发也具有其特有的、 DW的开发也具有其特有的、完整的生命 的开发也具有其特有的 周期——DW规划分析阶段、DW设计实施阶段 DW规划分析阶段 周期——DW规划分析阶段、DW设计实施阶段 以及DW使用维护阶段。 DW使用维护阶段 以及DW使用维护阶段。该三个阶段将循环往 直至一个完善的DW开发完毕。 DW开发完毕 复,直至一个完善的DW开发完毕。 1.DW开发的阶段性 1.DW开发的阶段性 借鉴Nolan阶段模型,可以将DW 借鉴Nolan阶段模型,可以将DW的开发阶 Nolan阶段模型 DW的开发阶 段划分为:创始阶段、成长阶段、 段划分为:创始阶段、成长阶段、控制阶段 和成熟阶段等四个阶段。 课后阅读] 和成熟阶段等四个阶段。[课后阅读]
CH10
2.DW的螺旋式开发方法 2.DW的螺旋式开发方法 如前所述,DW的一个生命周期包含三个 的一个生命周期 如前所述,DW的一个生命周期包含三个 阶段。然而,一个完善的DW需要经历若干个 完善的DW 阶段。然而,一个完善的DW需要经历若干个 生命周期完成——每个DW生命周期积累的经 生命周期完成——每个DW生命周期积累的经 每个DW 验,一方面可以用于未来其他主题的开发应 一方面可以用于未来其他主题 其他主题的开发应 用,另一方面,可以用于完善原DW的完善。 另一方面,可以用于完善原DW的完善。 的完善 上述过程便构成了数据仓库的螺旋式开 上述过程便构成了数据仓库的螺旋式开 发方法,该方法是目前DW开发的主要方法。 发方法,该方法是目前DW开发的主要方法。 DW开发的主要方法
最后,要撰写规划说明书。 最后,要撰写规划说明书。
CH10
§3 DW概念模型设计 DW概念模型设计 概念模型设计包括概念模型的需求调查、 概念模型设计包括概念模型的需求调查、 概念模型的定义、 概念模型的定义、概念模型的分析以及概念 模型的设计四个阶段 四个阶段。 模型的设计四个阶段。 1.概念模型的需求调查 1.概念模型的需求调查 概念模型的需求调查,是以DW开发任务 DW开发任务 概念模型的需求调查,是以DW 包括组织现状、业务功能及范围、 书(包括组织现状、业务功能及范围、组织 发展的战略、需决策支持的方面等) 发展的战略、需决策支持的方面等)为基础 进行的。 进行的。
CH10
2.确定DW的开发目标和实现范围 2.确定DW的开发目标和实现范围 确定DW 为此,需要对用户说明DW应用和发展趋 DW应用和发展趋 为此,需要对用户说明DW 势以及对企业经营战略的支持。 势以及对企业经营战略的支持。 开发目标: 开发目标: 确定信息的范围[主题域/指标域] 确定信息的范围[主题域/指标域]; 确定访问和导航数据的方法和工具 包括聚集及概括工具,访问检索图表、 包括聚集及概括工具,访问检索图表、 预定义报表、统计分析器等的工具等等; 预定义报表、统计分析器等的工具等等;
CH10
1.选择DW实现策略 1.选择DW实现策略 选择DW 主要有自上而下、 主要有自上而下、自下而上以及混合策 略三种。 略三种。 ① 自上而下策略 应用于DW较难——需求难以定义 DW较难 需求难以定义; 应用于DW较难——需求难以定义; 较为死板——需预先确定目标 需预先确定目标; 较为死板——需预先确定目标; DW的 DW的需开发人员具有丰富的自上而下 开发系统的经验, 开发系统的经验,以及管理人员与决策者完 全知晓DW的目标及作用; 全知晓DW的目标及作用; DW的目标及作用 结构化或 开发方法。 适合采用结构化 OO开发方法 适合采用结构化或OO开发方法。