第三章数据仓库开发应用过程
数据仓库系统的设计与开发课件

建立一个数据仓库系统的参考步骤 数据仓库系统的生命周期 创建数据仓库系统的两种思维模式 数据仓库数据库的设计步骤
2024/7/24
数据仓库与数据挖掘
1
建立一个数据仓库系统的参考步骤
数据仓库系统的建立是一个复杂而漫长 的过程。涉及到: 源数据库系统 数据仓库对应的数据库系统 数据分析与报表工具 ……
利用星形图进行数据仓库的逻辑模 型设计
根据分析需求与信息包图制作星形图
时间
客户 销售分析
产品
广告
区域
2024/7/24
数据仓库与数据挖掘
20
根据分析需求与信息包图制作雪花图
2024/7/24
时间
客户 销售分析
产品
产品类 别
广告
数据仓库与数据挖掘
区域
雪花模型对星型模型的维度表进一步标准化,对星型 模型中的维度表进行了规范化处理。
在SQL Server 2005数据库环境中安 装数据仓库组件、示例和工具
利用示例数据仓库 (AdventureWorks DW)环境及帮 助系统学习
2024/7/24
数据仓库与数据挖掘
30
3.3 使用SQL Server 2005建立多维 数据模型
创建一个新的数据仓库分析项目 定义数据源 定义数据源视图 定义多维数据集 部署“销售分析示例”项目 浏览已部署的多维数据集 提高多维数据集的可用性和易用性
事实表的特征有:
数据仓库与数据挖掘
记录数量情况
维度表情况
23
事实表的类型与设计
事实是一种度量,所以事实表中的这种指标往往 需要具2有024数/7/值24 化和可加性的特征。即: 要考虑决策分析的需要(必要的数据) 要考虑系统运行的需要(派生的数据)
叙述数据仓库的开发流程

叙述数据仓库的开发流程下载温馨提示:该文档是我店铺精心编制而成,希望大家下载以后,能够帮助大家解决实际的问题。
文档下载后可定制随意修改,请根据实际需要进行相应的调整和使用,谢谢!并且,本店铺为大家提供各种各样类型的实用资料,如教育随笔、日记赏析、句子摘抄、古诗大全、经典美文、话题作文、工作总结、词语解析、文案摘录、其他资料等等,如想了解不同资料格式和写法,敬请关注!Download tips: This document is carefully compiled by theeditor. I hope that after you download them,they can help yousolve practical problems. The document can be customized andmodified after downloading,please adjust and use it according toactual needs, thank you!In addition, our shop provides you with various types ofpractical materials,such as educational essays, diaryappreciation,sentence excerpts,ancient poems,classic articles,topic composition,work summary,word parsing,copy excerpts,other materials and so on,want to know different data formats andwriting methods,please pay attention!数据仓库的开发流程一般包括以下几个步骤:1. 需求分析:与业务部门沟通,了解他们的需求和业务目标。
数据仓的设计及开发过程.pptx

数据仓库体系结构
数据分析、DM
OLTP 数据源
生产
财务
数据仓库
数据集市
航线 分析
总量 分析
终端用户
结算
外部 InfoPump 数据的映射规则、模型
市场 分析
终端用户
。。(。元数据管理)
数据? 采集及整合
数据? 展现及决策
数据仓库项目流程管理及系统性能管理和监控
从操作型的现存系统到数据仓库中数据 转换工作的难点
❖现有系统缺乏数据集成,跨越不同应用的数据 集成性很差
❖存取现存系统的效率,扫描已有文件成了数据 仓库体系结构设计者主要面对的问题 ❖时基的变化 ❖数据要浓缩
概念:数据周期、简要记录
❖元数据
关于数据的数据,指在数据仓库建设过程中所产生的有关 数据源定义,目标定义,转换规则等相关的关键数据。同 时元数据还包含关于数据含义的商业信息。
❖粒度
数据仓库的数据单位中保存数据的细化或综合程度的级别 。细化程度越高,粒度级就越小;相反,细化程度越低, 粒度级就越大。
❖分割
结构相同的数据被分成多个数据物理单元。任何给定的数 据单元属于且仅属于一个分割。
数据无时基 数据算法上的差异 抽取的多层次 外部数据问题 无起始的公共数据源
❖生产率低
根据全部数据生成企业报表 定位数据需要浏览大量文件 抽取程序很多,并且每个都是定制的,不得不克服很多技术上 的障碍。
❖数据转化为信息的不可行性
数据没有集成化 缺乏将数据转化为信息所需的历史数据
体系结构设计环境的层次
操作层
数据仓库的设计与开发

02
在物理设计时,我们常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。
01
重要程度高、经常存取并对响应时间要求高的数据就存放在高速存储设备上,如硬盘;
02
存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上,如磁盘或磁带。
03
10
主键
Product-Name
char
25
产品名称
Product-SKu
char
20库存单位ຫໍສະໝຸດ 销售员维表包括不同地区的所有销售员信息
Salpers-Key
integer
15
主键
Salpers-Name
char
30
销售员姓名
Territory
char
20
销售员所在区域
Region
char
20
所在地区
订单事实表
销售数据和维
销售数据
商品
促销
时间
部门
城市
地区
商店
图4.2 销售业务的多维数据
(4)确定数据汇总水平
(5)设计事实表和维表
按使用的DBMS和分析用户工具,证实设计方案的有效性 根据系统使用的DBMS,确定事实表和维表的具体实现。由于不同的DBMS对数据存储有不同的要求,因此设计方案是否有效还要放在DBMS中进行检验
包括公司收到的所有订单
Order-Key
integer
10
订单键
Order-Name
char
20
订单名称
Product-ref
integer
10
参考产品主键
数据库开发过程

数据的分布能力是指应用是否有数据分布处理的要求,大型的应用往往将数据分布到不同的数据库服务器上,为了实现数据的透明访问,ADO与OLE DB是值得采用的技术。
应用的数据安全性。数据是否需要高度的安全保证,数据是否涉及商业的经济命脉?一般只有大型的数据库服务器才具有数据安全保证,比如在银行的数据库应用中,安全性是最重要的因素。
除此之外,数据库选择还要考虑开发的方便性,是否便于数据的访问,是否具有丰富的编程接口。
3.5 阶段5:选择数据库访问技术
开发数据库应用时,恰当选择访问数据数据的分布能力以及选择的数据库系统等因素有关。
软件测试是一个艰难的历程,也是保证软件质量的最后关卡,没有经过充分测试的软件是不能发行的。测试一般需要花费与开发相同甚至更长的时间,需要开发人员与测试人员配合进行。
从处理上来分,测试分自动测试与手动测试;从测试的内容上分,测试分功能测试、稳定性测试、界面友好性测试。有些软件开发公司开发了计算机辅助测试软件,更加完整地控制测试的全面性与质量。
第3章 数据库开发过程
开发一个数据库应用,通常需要经过如下的阶段:
阶段1:调查与分析。获得软件的需求信息与基本的功能定义,形成基本的软件功能描述。
阶段2:数据建模。根据应用调查分析得到的信息,建立应用中涉及的数据以及操作数据的方法、流程,形成数据的流动图表。
阶段3:功能设计。针对应用调查与分析结果与数据建模,进行应用的详细功能设计,形成应用的软件设计文档。
数据仓库开发应用过程

Money(flo at) ……
17
5.4.5 数据仓库的实体定义
实体
容量
更新频率
Customer 中等容量,有100个重点客户, 每月对客户情况进行一次分析,更
2000个跟踪客户
新频率也为每月一次
Product 小容量,500种商品
大约有500种商品,商品的更新是每 月一次,数据更新也照此。
4
5.2.4 数据仓库使用方案和项目规划预算
1.实际使用方案还可以将最终用户的决策支持要求与 数据仓库的技术要求联系起来 2.开发方案的预算进行估计 3.编制数据仓库开发说明书 :
➢说明系统与企业战略目标的关系,系统与企业急需处理的、范围相对有 限的开发机会。 ➢业务机会的说明以及任务概况说明、重点支持的职能部门和今后工作的 建议。 ➢计划中需要阐明期望取得的有形和无形利益 ➢业务价值计划最好由目标业务主管来完成 ➢规划书中要确定数据仓库的开发目标实现范围、体系结构和使用方案及 开发预算。
……
商品种类(7) 年龄组 经济类 信用
商品小类
(8) (10) (10)
(40)
…… ……
……
商品(220)
……
7
4.CRUD矩阵
实体 客户 功能
销售单输入 CRUD 销售单处理
商品管理
R
预算系统
R
财务计算
RU
库存控制
R
后勤
R
销售单
CRUD CRUD
R R R RU RU
商品 销售代表 供货商
R
2.逻辑模型最终设计成果:
➢每个主题的逻辑定义,并将相关内容记录在数据仓库 的元数据中 ➢粒度划分 ➢数据分割策略 ➢表划分和数据来源等。
数据仓库的开发设计过程

数据仓库之路FAQFAQ目录一、与数据仓库有关的几个概念31.1目录3二、数据仓库产生的原因9三、数据仓库体系结构图11四、数据仓库设计124.1数据仓库的建模124.2数据仓库建模的十条戒律:13五、数据仓库开发过程145.1数据模型的容145.2数据模型转变到数据仓库145.3数据仓库开发成功的关键15六、数据仓库的数据采集166.1后台处理176.2中间处理176.3前台处理186.4数据仓库的技术体系结构18 6.5数据的有效性检查206.6清除和转换数据216.7简单变换226.8清洁和刷洗246.9集成256.10聚集和概括276.11移动数据28七、如何建立数据仓库307.1数据仓库设计317.2数据抽取模块327.3数据维护模块33一、与数据仓库有关的几个概念1.1目录☐Datawarehouse☐Datamart☐OLAP☐ROLAP☐MOLAP☐ClientOLAP☐DSS☐ETL☐Adhocquery☐EIS☐BPR☐BI☐Datamining☐CRM☐MetaDataData warehouse本世纪80年代中期,“数据仓库之父”William H.Inmon先生在其《建立数据仓库》一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。
与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业部各处的业务数据的整合、加工和分析的过程。
而不是一种可以购买的产品。
Data mart即数据集市,或者叫做“小数据仓库”。
如果说数据仓库是建立在企业级的数据模型之上的话。
那么数据集市就是企业级数据仓库的一个子集,他主要面向部门级业务,并且只面向某个特定的主题。
数据集市可以在一定程度上缓解访问数据仓库的瓶颈。
OLAP联机分析处理(OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的。
数据库应用系统的开发基础步骤

数据库应用系统的开发基础步骤
数据库应用系统的开发基础步骤包括以下几个方面:
1.需求分析:分析用户需求,了解用户的业务流程,确定数据库应用系统的功能和特性。
2.数据库设计:选择合适的数据库管理系统,建立数据库,设计数据库结构,确定数据字典和数据关系的建立方式。
3.编写程序:根据需求分析和数据库设计,编写数据库应用程序,包括用户界面、数据输入输出、查询统计等功能。
4.测试与调试:对数据库应用系统进行测试和调试,以保证其运行效率、数据完整性和安全性。
5.上线运行:将数据库应用系统部署到生产环境中,并进行正式运行和维护。
6.系统更新与维护:根据系统运行情况和用户反馈意见,不断进行系统更新和维护,提高系统的稳定性、性能和功能。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对于超市的销售主题,采用多重粒度较
为适宜,考虑到销售记录数量的庞大,以及
对销售的分析以销售统计以及销售趋势分析
为主,商品销售数据的综合层次可以分为每
1.概念模型的需求调查
概念模型的需求调查,是以DW开发任务 书(包括组织现状、业务功能及范围、组织 发展的战略、需决策支持的方面等)为基础 进行的。
第三章数据仓库开发应用过程
•CH 3
调查对象 包括组织中的DW项目负责人、知识用户、
信息用户和信息管理人员。 项目负责人
—— 通过项目负责人在开发者和用户之 间进行沟通,以确定用户的信息需求、定义 系统以及界定系统边界。
第三章数据仓库开发应用过程
•CH
2.DW的螺旋式开发方法
3
如前所述,DW的一个生命周期包含三个
阶段。然而,一个完善的DW需要经历若干个
生命周期完成——每个DW生命周期积累的经 验,一方面可以用于未来其他主题的开发应 用,另一方面,可以用于完善原DW。
上述过程便构成了数据仓库的螺旋式开
发方法,该方法是目前DW开发的主要方法。
——评审标准:是否真实反映了开发DW的
目的,信息需求表准确否,DW的主题全面否,
ERD、星形/雪花模型是否如实反映了用户的决
策分析环境等。
第三章数据仓库开发应用过程
•CH
§4 DW逻辑模型设计
3
逻辑模型是物理模型和概念模型之间的
桥梁,它与DW物理实现时所使用的数据库相
关 ——大多为RDBMS,故此,逻辑模型主要
第三章数据仓库开发应 用过程
2020/12/7
第三章数据仓库开发应用过程
•CH
§1 DW开发应用的特点
3
DW的开发也具有其特有的、完整的生命 周期——DW规划分析阶段、DW设计实施阶段 以及DW使用维护阶段。该三个阶段将循环往 复,直至一个完善的DW开发完毕。
1.DW开发的阶段性
借鉴Nolan阶段模型,可以将DW的开发阶 段划分为:创始阶段、成长阶段、控制阶段 和成熟阶段等四个阶段。[课后阅读]
可见,DW的目标非常繁多复杂,需开发 人员与用户不断交流来确定。
第三章数据仓库开发应用过程
•CH
实现范围:
3
基于用户的角度
➢ 谁[人员/部门]使用DW;
➢ DW有哪些查询——它们确定了概括、 聚集、集成、重构等的技术要求以及报表的
种类等。
基于技术的角度
➢ 确定DW的元数据库的规模——间接地 确定了DW要管理的数据量。
第三章数据仓库开发应用过程
•CH
1.分析主题域
3
数据仓库的建立是一个循环的过程——
一般每次循环建立建立一个/几个主题域。
超市DW概念模型中,确立了三个基本主 题域(商品、销售、客户)——经分析可发 现,其中销售是超市的基本业务,也是进行 决策分析的主要领域,因此,决定首先建立 并实施销售主题域。
第三章数据仓库开发应用过程
第三章数据仓库开发应用过程
•CH 3
• 用于描述DW数据源的 物理状况。
第三章数据仓库开发应用过程
•CH
3.概念模型的分析
3
Байду номын сангаас
概念模型主要在设计者与用户之间交流
对业务过程的认识,一般用ER图表示,仍以
超市为例——考虑决策者的分析需求,确定
超市DW的三个基本主题域:销售主题、商品
主题和客户主题,则其概念模型如下:
概念模型是否准确、完整地描述了用户的决
策分析环境。
第三章数据仓库开发应用过程
•CH
概念模型的评审人员
3
——DW项目负责人、DW分析人员、DW设计
人员、DW用户,一般限制在十人以下。
概念模型的评审内容
——评审资料有:DW开发任务书,用户信
息需求表,DW主题说明书,ERD,概念模型设
计成果(星形模型或雪花模型);
第三章数据仓库开发应用过程
•CH 3
例 —— 某超市的DW设计 日趋激烈的竞争环境,要求决策者能够
更准确地了解超市的经营状况,跟踪市场趋 势,制定合理的采购与销售策略。之前由于 业务需求,已建立了若干业务处理系统,如 人事、库存、销售、采购等。由于这些业务 处理系统各自为政,缺乏全局性,因此,难 以从中进行全局性的分析工作并获取相关报 表。所以,决策者决定建立一个DW。[明确决 策需求,进一步确定所需信息]
第三章数据仓库开发应用过程
•CH
➢ 不断循环的启发式过程
3
DW的开发是一个动态反馈的、启发式的
循环过程:
一方面,DW的数据内容、结构、数据粒
度、分割及其他物理模型及其设计需根据用 户的反馈信息不断调整和完善,以提高系统
的效率和性能;
另一方面,通过不断理解用户的决策分
析需求,来调整和完善DW,以提供更为准确
第三章数据仓库开发应用过程
•规划分析阶段
•数据仓库 •开发过程
•使用维护阶段
•设计实施阶段
•CH 3
DW的螺旋式开发方法
第三章数据仓库开发应用过程
•CH
3.数据仓库开发的特点
3
➢ 数据驱动的设计方法
① 用业务系统的数据创建DW
DB系统有什么→对DW有何影响;
DB数据→主题领域[联系];
数据模型→DB与主题数据的共同性。
•CH
② DW的技术平台结构
3
➢ 单层结构——数据源与DW共享平台或
数据源、DW、数据集市、最终用户工作站使
用同一平台;
➢ C/S结构;
➢ 三层C/S结构——包括基于工作站的
客户层、基于服务器的中间层、基于主机的
第三层;
➢ 多层式结构——在三层结构基础上发
展起来的,可多达五层(存储层、服务层、
查询层、应用层、客户层)。
第三章数据仓库开发应用过程
•CH 3
3.选择DW的体系结构 一般基于DW的应用结构和DW的技术平台
结构两个方面来考虑。 ① DW的应用结构
➢ 基于业务处理系统的DW——虚拟DW; ➢ 单纯DW(所有应用都在DW中进行); ➢ 单纯数据集市(部门级DW); ➢ DW与数据集市(最佳体系结构)。
第三章数据仓库开发应用过程
第三章数据仓库开发应用过程
•CH
① DW用户的决策分析
3
基于开发DW的初衷,超市决策者迫切希
望掌握超市的库存情况和销售情况。
为制定一个营销策略,决策者要进行以
下分析:超市促销效果,客户购买趋势,商
品供应市场变化趋势以及供应商和客户的信
用等级等。
② 支持决策的数据需求分析
为完成上述分析,决策者需要促销策略
第三章数据仓库开发应用过程
•CH
给出每个主题的属性后,便得到完整的 3 概念模型了:
第三章数据仓库开发应用过程
•CH 3
4.概念模型的设计 以概念模型的分析结果以及概念模型的
定义中收集到的数据为基础,完成星形或雪 花模型的设计。
前面的 ERD只适合于业务处理系统的设 计而不能用于DW的设计。
实际中,选取星形模型还是雪花模型取 决于用户的决策分析需求。
报表形式?等等。
③ DW成功因素的建议、希望DW做什么?
第三章数据仓库开发应用过程
•CH
知识用户与信息用户
3
—— 主要调查信息的来源,包括:
① 用户承担的工作及所需信息?信息的
来源?信息处理方式?所在部门使用哪些信
息系统?这些系统提供哪些分析信息?
② 用户使用什么样的计算机系统?其中
有哪些应用程序?对这些程序的熟悉程度?
第三章数据仓库开发应用过程
•CH 3
4.建立DW使用方案和项目规划预算 使用方案——实际上是DW需求的一个重
要的原型,体现了用户参与的原则。 规划预算——估算项目投资额,可根据
以往软件开发确定,或根据参照结构估算。
最后,要撰写规划说明书。
第三章数据仓库开发应用过程
•CH
§3 DW概念模型设计
3
概念模型设计包括概念模型的需求调查、 概念模型的定义、概念模型的分析以及概念 模型的设计四个阶段。
第三章数据仓库开发应用过程
•CH 3
第三章数据仓库开发应用过程
•CH 3
第三章数据仓库开发应用过程
•CH
5.概念模型文档与评审
3
概念模型设计文档
——主要包括DW开发需求分析报告、概
念模型分析报告、概念模型以及概念模型评
审报告。
概念模型的评审
——DW开发中经常出现这类的阶段性评
审[好处?]。概念模型的评审主要用于确定
第三章数据仓库开发应用过程
•CH 3
② 自下而上策略 ➢ 较灵活——一般从某个原型开始,常
用于开发数据集市; ➢ 一般用于试点[对DW技术的评价,运
行DW的各种费用等]; ➢ 适合采用螺旋式的原型开发方法。
③ 混合策略 难以操作——需要精通方方面面的专家。
第三章数据仓库开发应用过程
•CH 3
2.确定DW的开发目标和实现范围 为此,需要对用户说明DW应用和发展趋
③ 了解DW否?希望DW达到什么目的?如
何衡量是否达到此目的?工作中尚未获得哪
些信息?
④ 如何评价DW(同前)?
第三章数据仓库开发应用过程
•CH 3
信息管理人员 —— 主要调查组织所用的系统环境,比
如组织有否DSS?其用户是谁?提供什么支持 信息?等等。
可见,需求调查过程中,开发人员应该 关注的是管理决策中关于信息的需求、用户 的基本情况、用户使用信息的情况,而非像 业务处理系统开发那样,向被调查人员询问 系统应该具有哪些功能!
采用的是关系模型——利用关系模型不仅可
以设计指标实体,还可以设计维实体以及详