数据仓库系统设计文档

数据仓库系统设计文档
数据仓库系统设计文档

数据仓库系统总体设计

摘要:本文档为XX通信公司网上通信记录查询平台设计说明书,为XX通信公司网上通信记录查询平台详细设计的之要依据。本文档的主要阅读对象为XX通信公司网上通信记录查询平台的详细设计人员。经过需求分析调查,确定了数据仓库系统总体定位和系统功能需求。现根据需求分析规定和局具体情况,确定数据仓库整体方案,以指导数据仓库系统研究、开发、实现。

关键字:指标;主题;数据仓库;联机分析;数据挖掘;决策支持

1 概述

1.1 背景

本软件全称为XX通信公司网上通信记录查询平台。

1.2 术语定义

DW:数据仓库

DC:数据中心

OLTP:在线事务处理

OLAP:在线分析处理

BI:商业智能

DSS:决策支持系统

SOA:面向服务的架构

EA:企业架构

ETL:数据抽取、转换、加载

Statistical Parameter:指标

Subject:主题

DataMart:数据集市

MetaData:元数据

OLTP(On-LineTransactionProcessing):联机事务处理

DSS:决策支持系统

AS:应用服务器

WebServer :Web服务器

1.3参考资料

数据仓库课程课件林友芳

概要设计说明书模板林友芳

《实用软件工程》清华大学出版社

2 系统设计

从充分发挥系统作为“数据库,信息库,思想库,智囊库”的作用,向用户提供“快、精、准”的通讯记录查询服务的需要出发,采用当今数据库领域成熟稳定的数据仓库、决策分析等技术,在高效的网络平台上建设提供一个“决策数据管理与分析中心”的基本解决方案。

系统采用多层体系结构,建立一个良好开放性的数据仓库系统环境,适应不断增加和变化的业务需求。多层体系结构通过引入中间层组件,扩大了传统的客户/服务器和两层计算模式。多层结构可由以下三类分层来定义:前端的客户层,负责提供可移植的表达逻辑;中间的应用层,允许用户通过将其与实际应用隔离而共享和控制业务逻辑;后端的数据管理与服务层,提供对专门服务(例如数据库服务器)的访问。

结构化、层次化、模块化。采用面向对象技术,使系统高度结构化、模块化、层次化,整个系统由接口定义良好的多个模块组成,每个模块都有详细的功能说明和设计文稿,每个模块完成相对独立的功能,模块之间的接口定义规范,使模块功能的变化相对独立,不影响整个系统的功能和结构,便于系统升级,维护。

具有良好的平台移植性。选用支持多种操作平台的数据库服务器、应用服务器、WEB 服务器等服务器软件系统,选用具有良好平台移植性的B/S和C/S模式下的开发语言开发应用程序和应用中间件,提高应用系统的平台移植性。

以最简单的方式实现复杂的功能。为提高系统的稳定性和可读性,可维护性,尽量采用简洁易懂的方式实现系统功能,不追求复杂、深奥的算法。

WEB 服务层业务逻辑层

数据存储层

应用层安全服务层

整个系统在逻辑上分为三层:原始数据层,中间逻辑层(业务逻辑层、WEB 服务层、安全服务层),应用层。

原始数据层:以统一规范的方式存储数据;

中间逻辑层:解析应用层的业务逻辑,使应用层和原始数据相互独立,提高应用层系统(程序)的可扩展性、可移植性;

应用层:面向最终用户,提供友好、简洁、方便的用户界面,具有良好的业务无关性。

2.2系统用例模型图

根据系统功能需求,用例模型图绘制如图。

系统用例图

2.3网络拓扑结构

我们根据以下列出的几点,确定硬件系统结构:

系统已经拥有比较完备的内部网络系统。

公司数据仓库系统的数据、信息既能够在系统的网络内最大限度的实现数据共享,又能将可以对公众发布的信息分不同的级别向外界发布。

尽可能在网络设计上考虑防止黑客攻击、病毒传播等破坏数据的手段和方式。

尽可能利用现有网络系统,包括系统专有网,公共Internet网,政府办公局域网等。

我们设计了一个在物理上可以随时隔离或连接、由两大部分组成的网络系统结构,如下图所示:

说明:

出于网络安全的原因,将整个网络分为内部网络和外部网络两部分。

内部网络与外部网络的系统机构基本相同。外部网络基本上用在对外发布,不包括保密信息。

外部网络需要的发布数据从内部网络中通过ETL工具获得,存放在外部网络的数据仓库中。

外部网络经过防火墙、路由器与Internet相连。

为保证数据安全,只在外部网络从内部网络抽取数据时,两者才是连通的(且要经过防火墙),其余时间两个网络物理隔离。

工作站分别为各个处室的个人PC机,也可以是单独的工作站,功能为向ETL服务器提供仓库所需数据及通过浏览器访问数据仓库数据信息。

ETL工具定期从各个处室的数据库系统抽取数据,且ETL服务器兼中间数据库服务器,抽取的数据暂时保存在ETL服务器上,在导入数据仓库之前容许修改。

考虑到数据仓库系统决策分析时需要大量数据信息,所以要求交换机容量应为1000M。

OLAP服务器和应用服务器结合比较紧密,在实际的应用中共享一台设备。

入侵检测系统是一台单独的设备,放在路由之后,起到防止非法入侵的作用。

安全隐患扫描系统可以运行在一台高性能的PC机上,提供及时的安全扫描,及早发现问题。

2.4 网络层次结构

整个数据仓库系统由内而外分为四层:

系统内核层:

包括数据仓库服务系统及应用系统。

系统安全层:

使用网络安全产品,与局现有网络系统兼容,保护内部数据安全,网上信息传送安全、防止黑客破坏或恶意入侵。

公共网络层:

基于TCP/IP的城域网和广域网(省局目前开通的帧中继网),使用现在已经建成的公共网络将数据、信息、知识发布出去。

外部应用层:

各种数据仓库系统的客户应用系统,通过外部应用系统用户可以获得系统提供的向外发布的各种信息。

2.5 处理流程

指标数据抽取子系统通过读取ETL中间数据库中的抽取模型和清洗模型,把各个处室的数据暂存到中间数据库。

指标数据加载子系统读取中间数据库中的转换模型与加载模型,把中间数据库的数据加载到数据仓库中。

ODBC 输入界面

ETL(数据抽取.清洗.转换.加载)

指标数据抽取子系统中间数据库指标数据加载子系统

3 开发及运行环境

数据仓库系统是一个跨平台、综合的大型应用系统。综合用户习惯与系统效率等方面的考虑,整个数据仓库系统的各子系统将分别运行在不同的操作平台下,这些子系统密切合作,形成一个紧密结合、高效的整体。

3.1硬件环境

基于高速网络环境。

服务器采用高档小型机。

客户端为高性能客户端。

3.2操作系统

服务系统运行于UNIX操作系统。UNIX以其较小的内核、较高的运行效率著名,获得了服务器上主流操作系统的地位。全球著名的硬件产商都有与自身服务器紧密结合的UNIX 操作系统(如IBM的AIX和SUN公司的Solaries,HP的HP_UX),能充分发挥系统的最大性能。

客户端系统运行在Windows操作系统下。全世界90%的PC用的是Windows操作系统,

广大用户已经习惯了Windows操作系统的界面、风格。局几乎所有PC都是运行在Windows 系统下的,数据仓库系统的客户端系统(包括系统管理、ETL工具客户端等)运行在Windows 系统下能满足用户需要,缩短系统投入使用的培训时间。

3.3开发语言

JA V A语言最先由网景公司利用在WEB上,是最好的跨平台开发语言,是当前B/S模式的首选开发语言;C语言最先在UNIX系统下使用,是一种执行效率非常高的高级开发语言,C++的出现使C语言包含了面向对象概念,C++语言也得到了日益广泛的应用,是C/S 模式的首选开发语言。

3.4数据库系统

数据库系统采用Oracle9i,Oracle9i是Oracle公司对数据仓库支持最好的数据库系统,它的复合索引,物化视图等技术可以使数据的查询效率有很大提高。。

3.5 系统运行环境

本系统运行环境需求如图。

系统运行环境逻辑结构图

3.5.1 数据仓库服务器环境要求

服务器型号:HP DL380

CPU:英特尔至强E5520(4核,2.26GHz,8M三级高速缓存)内存:6G

操作系统:UNIX

3.5.2数据仓库管理服务器

服务器型号:HP DL360

CPU:英特尔至强E5504(4核,2.00GHz,4M三级高速缓存)内存:4G

操作系统:UNIX

3.5.3 WEB服务器环境要求

服务器型号:HP DL580

CPU:英特尔至强E7370(4核,2.40GHz,8M三级高速缓存)内存:8G

操作系统:UNIX

4 系统各个功能模块ERD

4.1查询一段时间内的短信与通讯记录

查询一段时间内短信与通讯记录ER图如图

4.2查询套餐或其他业务的扣费纪录

查询套餐或其他业务的扣费记录ER图如图。

4.3查询账户余额,充值记录

查询用户账户余额,充值记录ER图如图

4.4查询办理过的业务类型

用户查询自己办理过的业务类型ER图如图。

4.5查询用户一年内短信与通话月情况表

用户查询自己一年内短信与通话月情况表ER图如图。

5.1业务数据层

业务层的数据又称操作型数据,它是最原始的数据,是其他层次上数据的源数据。业务数据层的数据通常是很细节的数据,它们是经过日复一日累积起来的,而且访问频率很高,是面向应用的数据。本系统中在这一层上主要包括的数据有:短信记录、通话记录、扣费记录、充值记录以及业务办理记录。这些数据未经集成,是最原始的数据。逻辑上,这些数据都是以二维表的形式存储,它们的表结构分别如下。

5.2数据仓库层

数据仓库层的数据是又业务层的原始数据经过ETL得来的,具有一定的集成度。在本系统中,用户查询一段时间内的短信、通话记录、充值记录以及办理过的业务所得到的数据即是这一层的数据。这些数据在逻辑上也是以二维表的形式存储的,具体如下。

短信记录表是从业务数据层的短信记录中抽取得来的。

通话记录表是从业务数据层的通话记录中抽取得来的。查询充值记录以及办理过的业务也是从相应的记录中抽取得来的。

数据集市层的数据时由数据仓库层的数据经过ETL得到的,它的集成度更高,粒度也更大。用户查询一年内的短信与通话月情况得到的数据即是这一层的数据,具体二维表如下。

5.4个体层

个体层的数据往往是临时的,费重复的。考虑到用户查询自己的余额的得到的数据是随时可能变化的,而且余额与充值、套餐扣费、短信扣费、通话扣费等都有关系,在本系统中我们把账户余额放到个体层。

6.1 数据备份方式

备份:备份系统中所有的数据。全备份所需时间最长,但恢复时间最短,操作最方便,当系统中数据量不大时,采用全备份最可靠。

量备份:只备份上次完全备份以后增加的数据。

分备份:只备份上次完全备份以后有变化的数据。

按需备份:根据临时需要有选择地进行数据备份。

6.2数据恢复方式

灾难恢复:灾难恢复措施在整个备份制度中占有相当重要的地位。因为它关系到系统在经历灾难后能否迅速恢复。灾难恢复操作通常可以分为两类。第一类是全盘恢复,第二类是个别文件恢复。

全盘恢复:全盘恢复一般应用在服务器发生意外灾难导致数据全部丢失、系统崩溃或是有计划的系统升级、系统重组等,也称为系统恢复。

个别文件恢复:个别文件恢复可能要比全盘恢复常见得多,利用网络备份系统的恢复功能,我们很容易恢复受损的个别文件。

数据仓库模型的设计

2.5数据仓库模型的设计 数据仓库模型的设计大体上可以分为以下三个层面的设计151: .概念模型设计; .逻辑模型设计; .物理模型设计; 下面就从这三个层面分别介绍数据仓库模型的设计。 2.5.1概念模型设计 进行概念模型设计所要完成的工作是: <1>界定系统边界 <2>确定主要的主题域及其内容 概念模型设计的成果是,在原有的数据库的基础上建立了一个较为稳固的概念模型。因为数据仓库是对原有数据库系统中的数据进行集成和重组而形成的数据集合,所以数据仓库的概念模型设计,首先要对原有数据库系统加以分析理解,看在原有的数据库系统中“有什么”、“怎样组织的”和“如何分布的”等,然后再来考虑应当如何建立数据仓库系统的概念模型。一方面,通过原有的数据库的设计文档以及在数据字典中的数据库关系模式,可以对企业现有的数据库中的内容有一个完整而清晰的认识;另一方面,数据仓库的概念模型是面向企业全局建立的,它为集成来自各个面向应用的数据库的数据提供了统一的概念视图。 概念模型的设计是在较高的抽象层次上的设计,因此建立概念模型时不用考虑具体技术条件的限制。 1.界定系统的边界 数据仓库是面向决策分析的数据库,我们无法在数据仓库设计的最初就得到详细而明确的需求,但是一些基本的方向性的需求还是摆在了设计人员的面前: . 要做的决策类型有哪些? . 决策者感兴趣的是什么问题? . 这些问题需要什么样的信息? . 要得到这些信息需要包含原有数据库系统的哪些部分的数据? 这样,我们可以划定一个当前的大致的系统边界,集中精力进行最需要的部分的开发。因而,从某种意义上讲,界定系统边界的工作也可以看作是数据仓库系统设计的需求分析,因为它将决策者的数据分析的需求用系统边界的定义形式反映出来。 2,确定主要的主题域 在这一步中,要确定系统所包含的主题域,然后对每个主题域的内

数据库设计文档模板

图书管理系统 数据库设计文档 1152795 毕明瑜 1152737 钱鹏 1152736 徐云帆 1152667 吴辰 092796 蔡旭远 102995 冯智超 1252973 于航 1252859 尹巧 1253011 胡亦成 1252990 魏印文

目录 1.图书管理系统数据需求 (1) 1.1 图书管理系统功能数据需求 (2) 1.2 组织结构 (3) 2.概念设计 (4) 2.1 总体E-R图 (4) 2.2 图书管理系统模块E-R图 (5) 3.逻辑设计 (9) 3.1 表的设计 (9) 3.1.1user表 (10) 3.2 数据库关系图 (11) 附录A.图表索引 (13)

1. 图书管理系统数据需求 通过建立一个基于C/S系统的图书管理系统,使得图书管理工作系统化、规范化和自动化,从而提高了管理的效率,也方便了读者的借阅。应用C#编程,实现对数据库信息的管理。系统应用符合图书馆信息管理及处理的规定,满足图书管理员对图书及借阅信息进行管理的需求,并达到操作过程中的直观、方便、使用、安全等要求。系统用模块化程序设计的方法,既便于系统功能的组合和修改,又便于参与技术人员补充和维护。 数据字典: 数据流编号: D01 数据流名称:读者信息简述:读者信息 数据流来源:读者借阅后,管理员将读者信息输入计算机。 数据流去向:图书管理模块。读者信息将存入数据库(读者信息表)。数据项组成:读者姓名+学号+专业 数据流编号: D02 数据流名称:图书信息简述:图书信息 数据流来源:新书到馆后,管理员将图书信息输入计算机。 数据流去向:图书管理模块。读者信息将存入数据库(图书信息表)。 数据项组成:图书编码+图书类别+书名+作者+出版社+Price 单价+出版日期+购买数量 数据流编号: D03 数据流名称:读者情况简述:读者情况 数据流来源:图书被借阅后,计算机将读者信息返回给管理员。数据流去向:管理员。 数据项组成:已借图书+已借数量+续借次数 数据流编号: D04 数据流名称:图书情况简述:图书情况 数据流来源:图书被借阅后,计算机将图书信息返回给管理员。数据流去向:管理员。 数据项组成:书名+是否被借+已借次数

数据仓库设计指南

数据仓库设计指南 在一般的数据仓库应用系统中,根据系统体系结构的不同,数据仓库设计的内容和范围不尽相同,并且设计方法也不尽相同,下面的两幅图示分别表示带有ODS的数据仓库应用系统体系结构和不带ODS的数据仓库应用系统体系结构。本文将说明两个体系结构上的差异以及这种差异造成的设计方法的不同,并且重点介绍带有ODS的体系结构中数据仓库的设计方法。GV1 =p}` 在数据仓库的设计指导思想中,数据仓库的概念定义是非常重要的,数据仓库概念规定了数据仓库所具有的几个基本特性,这些特性也正是对数据仓库设计结果进行检验的重要依据。M)_m= }d 根据Bill.Inmon的定义,“数据仓库是面向主题的、集成的、稳定的、随时间变化的,主要用于决策支持的数据库系统”。_R)tJ Ro ODS(Operational Data Store)是数据仓库体系结构中的一个可选部分,ODS具备数据仓库的部分特征和OLTP系统的部分特征,它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。4\&P~kI 一般在带有ODS的系统体系结构中,ODS都设计为如下几个作用:#:1< R\H6m 1)在业务系统和数据仓库之间形成一个隔离层。[t"C/;S! 一般的数据仓库应用系统都具有非常复杂的数据来源,这些数据存放在不同的地理位置、不同的数据库、不同的应用之中,从这些业务系统对数据进行抽取并不是一件容易的事。因此,ODS用于存放从业务系统直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致,因此在抽取过程中极大降低了数据转化的复杂性,而主要关注数据抽取的接口、数据量大小、抽取方式等方面的问题。,8mPV{U KU 2)转移一部分业务系统细节查询的功能 Cr

系统数据库设计文档模板

版本信息记录

目录 1引言 (3) 1.1编写目的 (3) 1.2背景 (3) 1.3定义 (3) 1.4参考资料 (3) 2概述 (4) 2.1数据库环境 (4) 2.2命名规则 (4) 2.3使用它的程序 (4) 3物理设计 (4) 3.1标识符 (4) 3.2物理文件 (5) 3.3表空间设计 (5) 3.3.1表空间1 (5) 3.3.2表空间2 (5) 4结构设计 (5) 4.1实体关系 (5) 4.2实体说明 (6) 4.3实体设计 (6) 4.3.1数据表1 (6) 4.3.2数据表2 (7) 4.4序列实体 (7) 4.4.1序列1 (7) 4.4.2序列2 (8) 4.5视图实体 (8) 4.5.1视图1 (8) 4.5.2视图2 (8) 4.6存储过程实体 (8) 4.6.1存储过程1 (8) 4.6.2存储过程2 (8) 5安全设计 (8) 6备注 (9)

1引言 1.1 编写目的 [说明编写这份系统数据库设计文档的目的,指出预期的读者。] 注:正文字体为宋体小四号,全文统一。 1.2 背景 a.[待开发数据库的名称和使用此数据库的软件系统的名称;] b.[列出本项目的任务提出者、开发者、用户。] 1.3 定义 [列出本文件中用到的专门术语的定义和外文首字母组词的原词组。] 表1.1 术语定义表 1.4 参考资料 [列出有关的参考资料。] A.本项目经核准的计划任务书或合同或相关批文; B.属于本项目的其他已发表的文件; C.本文件中各处引用的文件资料,包括所要用到的软件开发标准; 列出这些文件的标题、文件编号、发表日期和出版单位,说明能够取得这些文件的来源。

数据仓库-系统设计说明书

归一大数据平台 数据仓库 系统设计说明书受控不受控

修改变更记录:

目录 1引言 (5) 1.1文档编制目的 (5) 1.2背景 (6) 1.3词汇表 (6) 1.4参考资料 (6) 2总体设计 (7) 2.1软件体系结构 (7) 2.2系统运行体系......................................................................... 错误!未定义书签。 2.2.1运行体系图..................................................................... 错误!未定义书签。 2.2.2程序/模块对应表............................................................ 错误!未定义书签。 2.3系统物理结构 (7) 2.4技术路线 (8) 3系统接口设计 (8) 3.1用户接口 (8) 4子系统/模块设计 (8) 4.1数据仓库 (8) 4.1.1ODL(操作数据)层设计 (8) 4.1.2BDL(数据仓库)层设计 (10) 4.1.3IDL(宽表)层设计 (11) 4.1.4PDL(应用)层设计 (12) 4.1.5PUB(维度)层设计 (15) 4.1.6数据导出设计 (16) 5数据结构与数据库设计 (17) 6外部存储结构设计 (17) 7故障处理说明 (17) 8尚需解决的问题 (18)

编写指南: 本模板力图给出系统设计阶段可能包括的基本信息,重点在于和需求分析文档相联系。描述系统整体情况。如果某个章节在项目或当前阶段中无法描述,则可保留其标题,注明“不

数据仓库设计的21条原则:7个步骤,7个禁忌和7种思路

高效实现数据仓库的七个步骤 数据仓库和我们常见的RDBMS系统有些亲缘关系,但它又有所不同。如果你没有实施过数据仓库,那么从设定目标到给出设计,从创建数据结构到编写数据分析程序,再到面对挑剔的用户的评估,整个过程都会带给你一种与以往的项目完全不同的体验。一句话,如果你试图以旧有的方式创建数据仓库,那你所面对的不是预算超支就是所建立的数据仓库无法良好运作。 在处理一个数据仓库项目时需要注意的问题很多,但同时也有很多有建设性的参考可以帮助你更顺利的完成任务。开放思维,不断尝试新的途径,对于找到一种可行的数据仓库实现方法来说也是必需的。 1. 配备一个全职的项目经理或你自己全面负责项目管理 在通常情况下,项目经理都会同时负责多个项目的实施。这么做完全是出于资金和IT资源方面的考虑。但是对于数据仓库项目的管理,绝对不能出现一人身兼数个项目的情况。由于你所处的领域是你和你的团队之前没有进入过的领域,有关数据仓库的一切-数据分析、设计、编程、测试、修改、维护-全都是崭新的,因此你或者你指派的项目经理如果能全心投入,对于项目的成功会有很大帮助。 2. 将项目管理职责推给别的项目经理 由于数据仓库实现过程实在是太困难了,为了避免自虐,你可以在当前阶段的项目完成后就将项目管理职责推给别的项目经理。当然,这个新的项目经理一定要复合第一条所说的具有全职性。为什么要这么做呢?首先,从项目经理的角度看,数据仓库实施过程的任何一个阶段都足以让人身心疲惫。从物理存储设备的开发到Extract-Transform-Load的实现,从设计开发模型到OLAP,所有阶段都明显的比以前接触的项目更加困难。每个阶段不但需要新的处理方法、新的管理方法,还需要创新性的观点。所以将管理职责推给别的项目经理不但不会对项目有损害,还可以起到帮助作用。 3.与用户进行沟通 这里所讲的内容远比一篇文章本身要重要的多。你必须明白,在数据仓库的设计阶段,那些潜在用户自己也不清楚他们到底需要数据仓库为他们做什么。他们在不断的探索和发现自己的需求,而你的开发团队也在和客户的接触中做着同样的事情。更加频繁的与客户接触,多做记录,

数据仓库的开发设计过程

数据仓库之路 FAQ FAQ目录 一、与数据仓库有关的几个概念 (3) 1.1 目录 (3) 二、数据仓库产生的原因 (8) 三、数据仓库体系结构图 (11) 四、数据仓库设计 (12) 4.1 数据仓库的建模 (12) 4.2 数据仓库建模的十条戒律: (13) 五、数据仓库开发过程 (14) 5.1 数据模型的内容 (14) 5.2 数据模型转变到数据仓库 (14)

5.3 数据仓库开发成功的关键 (15) 六、数据仓库的数据采集 (16) 6.1 后台处理 (17) 6.2 中间处理 (17) 6.3 前台处理 (18) 6.4 数据仓库的技术体系结构 (18) 6.5 数据的有效性检查 (20) 6.6 清除和转换数据 (20) 6.7 简单变换 (22) 6.8 清洁和刷洗 (24) 6.9 集成 (25) 6.10 聚集和概括 (27) 6.11 移动数据 (27) 七、如何建立数据仓库 (30) 7.1 数据仓库设计 (31) 7.2 数据抽取模块 (32) 7.3 数据维护模块 (33)

一、与数据仓库有关的几个概念 1.1 目录 ?Datawarehouse ?Datamart ?OLAP ?ROLAP ?MOLAP ?ClientOLAP ?DSS ?ETL ?Adhocquery ?EIS ?BPR ?BI ?Datamining ?CRM ?MetaData Data warehouse 本世纪80年代中期,“数据仓库之父”William H.Inmon先生在其《建立数据仓库》一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓

数据仓库设计的21条原则

数据仓库设计的21条原则:7个步骤,7个禁忌和7种思路(转) 高效实现数据仓库的七个步骤 数据仓库和我们常见的RDBMS系统有些亲缘关系,但它又有所不同。如果你没有实施过数据仓库,那么从设定目标到给出设计,从创建数据结构到编写数据分析程序,再到面对挑剔的用户的评估,整个过程都会带给你一种与以往的项目完全不同的体验。一句话,如果你试图以旧有的方式创建数据仓库,那你所面对的不是预算超支就是所建立的数据仓库无法良好运作。 在处理一个数据仓库项目时需要注意的问题很多,但同时也有很多有建设性的参考可以帮助你更顺利的完成任务。开放思维,不断尝试新的途径,对于找到一种可行的数据仓库实现方法来说也是必需的。 1. 配备一个全职的项目经理或你自己全面负责项目管理 在通常情况下,项目经理都会同时负责多个项目的实施。这么做完全是出于资金和IT资源方面的考虑。但是对于数据仓库项目的管理,绝对不能出现一人身兼数个项目的情况。由于你所处的领域是你和你的团队之前没有进入过的领域,有关数据仓库的一切-数据分析、设计、编程、测试、修改、维护-全都是崭新的,因此你或者你指派的项目经理如果能全心投入,对于项目的成功会有很大帮助。 2. 将项目管理职责推给别的项目经理 由于数据仓库实现过程实在是太困难了,为了避免自虐,你可以在当前阶段的项目完成后就将项目管理职责推给别的项目经理。当然,这个新的项目经理一定要复合第一条所说的具有全职性。为什么要这么做呢?首先,从项目经理的角度看,数据仓库实施过程的任何一个阶段都足以让人身心疲惫。从物理存储设备的开发到Extract-Transform-Load的实现,从设计开发模型到OLAP,所有阶段都明显的比以前接触的项目更加困难。每个阶段不但需要新的处理方法、新的管理方法,还需要创新性的观点。所以将管理职责推给别的项目经理不但不会对项目有损害,还可以起到帮助作用。 3.与用户进行沟通 这里所讲的内容远比一篇文章本身要重要的多。你必须明白,在数据仓库的设计阶段,那些潜在用户自己也不清楚他们到底需要数据仓库为他们做什么。他们在不断的探索和发现自己的需求,而你的开发团队也在和客户的接触中做着同样的事情。更加频繁的与客户接触,多做记录,并让你的团队更关注于项目需求讨论的结果而不是讨论的过程本身。 既然你和客户的交流是为了了解存储的数据是何种类型以及如何有效存储数据,你也许需要(和你的用户一起)采用一种新的方法观察数据,而不是直接处理数据。你可以尝试从中找出隐藏的信息,比如在一段时期内的数字涨落等。不要试图追寻项目需求的答案,而是要让答案找上门来。 4. 以技术/信息库作为领导 由于数据仓库实施的各个阶段都有很大不同,因此你需要有人能起到维持整个项目的连续进行的作用,不过这个职责并不需要那种全职性。项目实施有三个重要方面:架构、技术和业务。将架构作为重点可以保证在整个项目中,数据仓库的架构从物理层往上,都会受到良好的维护。而我们应该将技术作为重点,因为开发团队和关键用户都在使用他们以前从未用过的工具,必须有人监督开发过程以及工具使用的一致性。 最后,在数据仓库的应用过程中浮现出来的业务需求必须被详细分析和记录,以促机开发过程持续下去。如果用户不能很好的与开发人员以及其它用户沟通,那么数据分析和度量方面的开发进程就会延期,所以必须有人关注业务方面的开发,推动开发进入更高级别。 5. 跳出反复修改程序的陷阱 第一次实现的数据仓库肯定不会是最终交付的版本。为什么呢?实际上在真正见到产品前,你无法确定

系统数据库设计文档模板

.

版本信息记录

目录 1引言 (3) 1.1编写目的 (3) 1.2背景 (4) 1.3定义 (4) 1.4参考资料 (4) 2概述 (5) 2.1数据库环境 (5) 2.2命名规则 (5) 2.3使用它的程序 (5) 3物理设计 (5) 3.1标识符 (5) 3.2物理文件 (6) 3.3表空间设计 (6) 3.3.1表空间1 (6) 3.3.2表空间2 (6) 4结构设计 (6) 4.1实体关系 (6) 4.2实体说明 (7) 4.3实体设计 (7)

4.3.1数据表1 (7) 4.3.2数据表2 (9) 4.4序列实体 (9) 4.4.1序列1 (9) 4.4.2序列2 (9) 4.5视图实体 (9) 4.5.1视图1 (9) 4.5.2视图2 (9) 4.6存储过程实体 (9) 4.6.1存储过程1 (10) 4.6.2存储过程2 (10) 5安全设计 (10) 6备注 (10) 1引言 1.1编写目的 [说明编写这份系统数据库设计文档的目的,指出预期的读者。] 注:正文字体为宋体小四号,全文统一。

1.2背景 a.[待开发数据库的名称和使用此数据库的软件系统的名称;] b.[列出本项目的任务提出者、开发者、用户。] 1.3定义 [列出本文件中用到的专门术语的定义和外文首字母组词的原词组。] 表1.1 术语定义表 1.4参考资料 [列出有关的参考资料。] A.本项目经核准的计划任务书或合同或相关批文; B.属于本项目的其他已发表的文件; C.本文件中各处引用的文件资料,包括所要用到的软件开发标准; 列出这些文件的标题、文件编号、发表日期和出版单位,说明能够取得这些文件的来源。 表1.2 参考资料表

数据库设计文档模板

数据库设计说明书模板 修订历史 版本 说明 编制 批准日期 1引言 1.1编写目的 说明编写这份数据库设计说明书的目的,指出预期的读者。 1.2背景 说明: a.说明待开发的数据库的名称和使用此数据库的软件系统的名称; b.列出该软件系统开发项目的任务提出者、用户以及将安装该软件和这个数据库的计算站(中心)。 1.3定义 列出本文件中用到的专门术语的定义、外文首字母组词的原词组。 1.4参考资料 列出有关的参考资料: a.本项目的经核准的计划任务书或合同、上级机关批文; b.属于本项目的其他已发表的文件; c.本文件中各处引用到的文件资料,包括所要用到的软件开发标准。 列出这些文件的标题、文件编号、发表日期和出版单位,说明能够取得这些文件的来源。

2外部设计 2.1标识符和状态 联系用途,详细说明用于唯一地标识该数据库的代码、名称或标识符,附加的描述性信息亦要给出。如果该数据库属于尚在实验中、尚在测试中或是暂时使用的,则要说明这一特点及其有效时间范围。 2.2使用它的程序 列出将要使用或访问此数据库的所有应用程序,对于这些应用程序的每一个,给出它的名称和版本号。 2.3约定 陈述一个程序员或一个系统分析员为了能使用此数据库而需要了解的建立标号、标识的约定,例如用于标识数据库的不同版本的约定和用于标识库内各个文卷、、记录、数据项的命名约定等。 2.4专门指导 向准备从事此数据库的生成、从事此数据库的测试、维护人员提供专门的指导,例如将被送入数据库的数据的格式和标准、送入数据库的操作规程和步骤,用于产生、修改、更新或使用这些数据文卷的操作指导。如果这些指导的内容篇幅很长,列出可参阅的文件资料的名称和章条。 2.5支持软件 简单介绍同此数据库直接有关的支持软件,如数据库管理系统、存储定位程序和用于装入、生成、修改、更新数据库的程序等。说明这些软件的名称、版本号和主要功能特性,如所用数据模型的类型、允许的数据容量等。列出这些支持软件的技术文件的标题、编号及来源。 3结构设计 3.1概念结构设计 说明本数据库将反映的现实世界中的实体、属性和它们之间的关系等的原始数据形式,包括各数据项、记录、系、文卷的标识符、定义、类型、度量单位和值域,建立本数据库的每一幅用户视图。

数据仓库设计文档模板

数据仓库设计与实现 学号 128302106 姓名江晨婷 成绩 教师张丹平 二O一五年四月

数据仓库建设方案设计与实现 摘要:本文以博士学位调查为基础,创建方案,设计与实现数据仓库,通过对当前各种主流数据仓库软件在性能、价格等方面的对比,充分考虑统计业务、单位数量等实际情况,本系统决定采用SQL Server 2005数据仓库软件来构建综合信息分析系统的数据仓库。 关键词:数据仓库;联机分析;数据挖掘;博士学位 一、概述 数据仓库的设计一般从操作型数据开始,通常需要经过以下几个处理过程;数据仓库设计——数据抽取——数据管理。 1.数据仓库设计 根据决策主题设计数据仓库结构,一般采用星型和雪花模型设计其数据模型,在设计过程中应保证数据仓库的规范化和体系各元素的必要联系。 2.数据抽取 根据元数据库中的主题表定义、数据源定义、数据抽取规则定义对异地异构数据源进行清理、转换、对数据进行重新组织和加工,装载到数据仓库的目标库中。 3.数据管理 数据管理分为目标数据维护和元数据维护两方面。目标数据维护是根据元数据为所定义的更新频率、更新数据项等更新计划任务来刷新数据仓库,以反映数据源的变化,且对时间相关性进行处理。元数据是数据仓库的组成部分,元数据的质量决定整个数据仓库的质量。当数据源的运行环境、结构及目标数据的维护计划发生变化时,需要修改元数据。 二、博士学位授予信息年度数据统计分析 1.按主管部门统计 从主管部门的角度,分析在一个时间段(年)内,各主管部门所授予的博士学位信息统计。可回答如“2008,由某部门主管的,博士学位授予一共有多少,其平均学习年限是多少,脱产学习的有多少人?”等问题。具有表格和图形两种方式来展示分析结果。典型报表格式如表1所示

数据库设计文档模板

DR-RD-020(V1.1) 数据库设计说明书 (内部资料请勿外传) 编写:日期: 检查:日期: 审核:日期: 批准:日期: ********* 版权所有不得复制

时代集团产品跟踪平台........................................................................................ 错误!未定义书签。数据库设计说明书. (1) 1引言 (2) 1.1编写目的 (2) 1.2术语表 (2) 1.3参考资料 (3) 2数据库环境说明 (3) 3数据库的命名规则 (3) 4逻辑设计 (3) 5物理设计 (4) 5.1表汇总 (5) 5.2表[X]:[XXX表] (5) 5.3视图的设计 (11) 5.4存储过程、函数及触发器的设计 (12) 6安全性设计 (23) 6.1防止用户直接操作数据库的方法 (23) 6.2用户帐号密码的加密方法 (23) 6.3角色与权限 (23) 7优化 (24) 8数据库管理与维护说明 (24) 1引言 1.1 编写目的 本文档是时代集团产品跟踪平台 概要设计文档的组成部分,编写数据库设计文档的目的是:明确数据库的表名、字段名等数据信息,用来指导后期的数据库脚本的开发,本文档遵循《SQL数据库设计和开发规范》。本文档的读者对象是需求人员、系统设计人员、开发人员、测试人员。 1.2 术语表

1.3 参考资料 2数据库环境说明 3数据库的命名规则 数据库名称:时代集团的英文名称time-group 表名:英文(表的用途)+下划线+英文 字段名:相关属性的英文名 4逻辑设计 提示:数据库设计人员根据需求文档,创建与数据库相关的那部分实体关系图(ERD)。如果采用面向对象方法(OOAD),这里实体相当于类(class)。

软件数据库设计报告文档模板

软件数据库设计报告文档模板 1. 引言 (2) 1.1编写目的 (3) 1.2项目来源 (3) 1.3文档约定 (3) 1.4预期读者和阅读建议 (3) 1.5参考资料 (3) 2. 数据库命名规则 (4) 3. 数据库设计说明 (4) 3.1数据库逻辑设计 (4) 3.2数据库物理设计 (4) 3.3数据库分布 (4) 3.4基表设计 (5) 3.5视图设计 (6) 3.6索引设计 (7) 3.7完整性约束 (8) 3.8授权设计 (8) 3.9触发器设计 (9) 3.10存储过程设计 (9) 3.11数据复制设计 (10) 4. 词汇表 (11) 5. .................................................................................................................................................. 历史数据处理 .. (11)

1.引言 引言是对这份数据库设计说明书的概览,是为了帮助阅读者了解这份文档是如何编写的, 并且应该如何阅读、理解和解释这份文档。

1.1编写目的 说明这份数据库设计说明书是为哪份软件产品编写的,开发这个软件产品意义、作用以 及最终要达到的意图。通过这份数据库设计说明书详尽准确地描述了该软件产品的数据库结构。如果这份数据库设计说明书只与整个系统的某一部分有关系,那么只定义数据库设计说 明书中说明的那个部分或子系统。 1.2项目来源 具体说明本软件开发项目的全部风险承担者,以及各自在本阶段所需要承担的主要风险, 首要风险承担者包括: ?任务提出者; ?软件开发者; ?产品使用者。 1.3文档约定 描述编写文档时所采用的各种排版约定。排版约定应该包括: ?命名方法; ?提示方式; ?通配符号: 等等。 1.4预期读者和阅读建议 列举本数据库设计说明书所针对的各种不同的预期读者,例如,可能包括: ?开发人员; ?项目经理; ?测试人员; ?文档编写人员。 并且描述了文档中,其余部分的内容及其组织结构,并且针对每一类读者提出最适合的 文档阅读建议。 1.5参考资料 列举编写需求规格说明书时所用到的参考文献及资料,可能包括; ?本项目的合同书; ?上级机关有关本项目的批文; ?本项目已经批准的计划任务书; ?用户界面风格指导; ?开发本项目时所要用到的标准; ?系统规格需求说明;

数据仓库-系统设计说明书

系统设计说明书 归一大数据平台 数据仓库 系统设计说明书

修改变更记录:

目录 1引言5 1.1文档编制目的 (5) 1.2背景 (6) 1.3词汇表 (6) 1.4参考资料 (6) 2总体设计7 2.1软件体系结构 (7) 2.2系统物理结构 (7) 2.3技术路线 (8) 3系统接口设计8 3.1用户接口 (8) 4子系统/模块设计8 4.1数据仓库 (8) 4.1.1O DL(操作数据层)设计 (8) 4.1.2B DL(事物层)设计 (10) 4.1.3I DL(宽表层)设计 (11) 4.1.4P DL(应用层)设计 (12) 4.1.5P UB(维度)库设计 (15) 4.1.6业务账(数据集市)库 (16) 4.1.7数据导出设计 (16) 5数据结构与数据库设计17 6外部存储结构设计

17 7故障处理说明17 8尚需解决的问题18

编写指南: 本模板力图给出系统设计阶段可能包括的基本信息,重点在于和需求分析文档相联系。描述系统整体情况。如果某个章节在项目或当前阶段中无法描述,则可保留其标题,注明“不适用”;如果需要对本模板的个别章节详细描述,也可将其形成单独的文档,成为本文档附件。 若文档中的某个章节已经在其他项目文档中加以描述,可保留标题,注明“参见(文档编号)(文档名称)(条款)”。 形成正式文档后须删除斜体字内容。 0 报告编制要求 这里列出本系统设计报告编制的经验性要求,须由系统设计人员参照其进行裁剪以确定本次报告编制的相关规定。

1引言 1.1文档编制目的 指导开发人员进行后期的开发工作; 指导测试人员进行解决方案级的系统测试; 1.2背景 叙述系统设计阶段的目标、作用范围以及其他应向读者说明的理解本报告所需的背景,如与公司其它软件之间的联系等。 1.3词汇表 列出本系统设计说明书中专门术语的定义、英文缩写词的原词组和意义、项目组内达成一致意见的专用词汇,同时要求继承全部的先前过程中定义过的词汇。 词汇名称词汇含义备注 备注中注明该词汇的来源,或有其他更详细的解释的文档位置;以及对该词汇的其他叫法。 1.4参考资料 需求规格说明书 系统架构设计说明书

数据仓库复习题

第一章概述 1.数据挖掘的定义?(书P2,PPT_P8) 从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 2.数据挖掘的源是否必须是数据仓库的数据?可以有哪些来源?(PPT_P14) 关系数据库、数据仓库、事务数据库、高级数据等 3.数据挖掘的常用方法?(P4、PPT_P29) 聚类分析、决策树、人工神经网络、粗糙集、关联规则挖掘、统计分析等 4.数据挖掘的过程包括哪些步骤,每一步具体包括哪些内容?(书P2-3,PPT_P17-19) 确定业务对象、数据准备、数据挖掘、结果分析与知识同化。 5.数据挖掘与数据仓库的关系(联系和区别)?书P6-7,PPT_P45-46 联系:1,数据仓库为数据挖掘提供了更好的,更广泛的数 据源 AHA12GAGGAGAGGAFFFFAFAF

2,数据仓库韦数据挖掘提供了新的支持平台。 3,数据仓库为更好地使用数据挖掘工具提供了方便 4,数据挖掘对数据仓库提供了更好的决策支持。 5,数据挖掘对数据仓库的数据组织提出了更高的要求 6,数据挖掘还为数据仓库提供了广泛的技术支持 区别:数据仓库是一种存储技术,它包含大量的历史数据、当前的详细数据以及综合数据,它能为不同用户的不同决策需要提供所需的数据和信息。~~数据挖掘是从人工智能机器学习中发展起来的,它研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。 第二章数据仓库 1.数据仓库的定义 数据仓库——是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策定制过程。2.数据仓库数据的四大基本特征: 面向主题的、集成的、不可更新的、随时间变化的。 3.数据仓库体系结构有三个独立的数据层次: AHA12GAGGAGAGGAFFFFAFAF

建设数据仓库的八个步骤

大数据技术部 建设数据仓库的八个步骤2017年04月25日编制

建设数据仓库的八个步骤 摘要:建立数据仓库是一个解决企业问题的过程,业务人员往往不懂如何建立和使用数据仓库,发挥其决策支持的作用;信息部门的人员往往又不懂业务,不知道应该建立哪些决策主题。 关键词:数据仓库元数据 建设数据仓库 建立数据仓库是一个解决企业问题的过程,业务人员往往不懂如何建立和使用数据仓库,发挥其决策支持的作用;信息部门的人员往往又不懂业务,不知道应该建立哪些决策主题,从数据源中抽取哪些数据。因此数据仓库的项目小组应该由业务人员和信息部门的人员共同组成,双方需要相互沟通,协作开发数据仓库。 开发数据仓库的过程包括以下几个步骤。 1.系统分析,确定主题 建立数据仓库的第一个步骤就是通过与业务部门的充分交流,了解建立数据仓库所要解决的问题的真正含义,确定各个主题下的查询分析要求。 业务人员往往会罗列出很多想解决的问题,信息部门的人员应该对这些问题进行分类汇总,确定数据仓库所实现的业务功能。一旦确定问题以后,信息部门的人员还需要确定一下几个因素: ·操作出现的频率,即业务部门每隔多长时间做一次查询分析。 ·在系统中需要保存多久的数据,是一年、两年还是五年、十年。 ·用户查询数据的主要方式,如在时间维度上是按照自然年,还是财政年。 ·用户所能接受的响应时间是多长、是几秒钟,还是几小时。 由于双方在理解上的差异,确定问题和了解问题可能是一个需要多次往复的过程,信息部门的人员可能需要做一些原型演示给业务部门的人员看,以最终确定系统将要实现的功能确实是业务部门所需要的。

2.选择满足数据仓库系统要求的软件平台 在数据仓库所要解决的问题确定后,第二个步骤就是选择合适的软件平台,包括数据库、建模工具、分析工具等。这里有许多因素要考虑,如系统对数据量、响应时间、分析功能的要求等,以下是一些公认的选择标准: ·厂商的背景和支持能力,能否提供全方位的技术支持和咨询服务。 ·数据库对大数据量(TB级)的支持能力。 ·数据库是否支持并行操作。 ·能否提供数据仓库的建模工具,是否支持对元数据的管理。 ·能否提供支持大数据量的数据加载、转换、传输工具(ETT)。 ·能否提供完整的决策支持工具集,满足数据仓库中各类用户的需要。 3.建立数据仓库的逻辑模型 具体步骤如下: (1)确定建立数据仓库逻辑模型的基本方法。 (2)基于主题视图,把主题视图中的数据定义转到逻辑数据模型中。 (3)识别主题之间的关系。 (4)分解多对多的关系。 (5)用范式理论检验逻辑数据模型。

数据仓库设计与实现

数据仓库的设计与实现

第1章数据仓库的设计与实现 1.1数据仓库设计过程 数据仓库的设计一般从操作型数据开始,通常需要经过以下几个处理过程;数据仓库设计——数据抽取——数据管理。 一、数据仓库设计 根据决策主题设计数据仓库结构,一般采用星型和雪花模型设计其数据模型,在设计过程中应保证数据仓库的规范化和体系各元素的必要联系。 二、数据抽取 根据元数据库中的主题表定义、数据源定义、数据抽取规则定义对异地异构数据源进行清理、转换、对数据进行重新组织和加工,装载到数据仓库的目标库中。 三、数据管理 数据管理分为目标数据维护和元数据维护两方面。目标数据维护是根据元数据为所定义的更新频率、更新数据项等更新计划任务来刷新数据仓库,以反映数据源的变化,且对时间相关性进行处理。元数据是数据仓库的组成部分,元数据的质量决定整个数据仓库的质量。当数据源的运行环境、结构及目标数据的维护计划发生变化时,需要修改元数据。 1.2需求分析与决策主题的选取 通过对管理者和各级别的用户的数据分析需求进行调研,我们收集并整理出了用户的决策分析需求如下: 1.2.1 博士学位授予信息年度数据统计分析 一、按主管部门统计 从主管部门的角度,分析在一个时间段(年)内,各主管部门所授予的博士学位信息统计。可回答如“2008,由某部门主管的,博士学位授予一共有多少,其平均学习年限是多少,脱产学习的有多少人?”等问题。具有表格和图形两种方式来展示分析结果。典型报表格式如表1所示。

表1 200__年度授予博士学位情况统计表(按主管部门统计) 表1续200__年度授予博士学位情况统计表(按主管部门统计) 二、按性质类别统计

-数据库设计文档模板V0.1

XXXX数据库设计V0.1

拟制:王鹏2014-12-19

引言 目的 本文为XXX公司内控管理系统的数据库设计规范说明书。本说明书将: ●述数据库设计的目的 ●说明数据库设计中的主要组成部分 ●说明数据库设计中各功能的实现 内容 本文档主要内容包括对数据库设计结构的总体描述,对数据库中各种对象的描述(包括对象的名称、对象的属性、对象和其他对象直接的关系)。涵盖了内控管理中的三大业务模块:预算管理、立项管理、合同管理。 本文档中包含对以下数据库内容的描述: ●数据表 ●视图 ●约束 ●存储过程(预留) ●触发器(预留) 命名规范 数据存储表:以t_开头; 基础信息维护表:以t_bs_开头; 自定义函数:以fn_开头;

触发器:tr_表名_[后面---添加时加I,修改时加U,删除时加D]; 视图:在表命名的基础上加前缀改为V_ 数据表设计 预算管理 根据设计的系统功能,数据库将按照预算业务场景,实现预算收集和预算下发等流程。 数据库设计将以存储预算信息表为基础,连接多张相关表以实现对以下关系的支持: ●总部收集记录 ●分公司调整、审核记录 ●总部汇总记录 ●总部下发业务线记录 ●业务线调整记录 预算收集信息表(t_budget) 概述 预算收集信息表用于记录预算收集流程的基本信息,并作为基础表与其他表连接。

表定义 预算收集信息表定义如下图所示: 预算收集信息表 主键 预算ID字段budgetId为主键,由系统生成唯一不重复字符串。约束 资金类别字段captialTypeId与资金类型基础信息表进行ID关联。

消息通知表(t_notification) 概述 在预算收集及下发过程中,通知总部、分公司和业务线的消息记录表料。表中都记录了消息的类别、接收人、发送人、发送时间等。 表定义 消息通知表定义如下图所示。 消息通知表 主键 消息id为主键,由系统生成唯一不重复字符串。。

(整理)数据仓库实施步骤

数据仓库构建步骤 数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的,这些特点决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库一样的设计方法。 数据仓库系统的原始需求不明确,且不断变化与增加,开发者最初不能确切了解到用户的明确而详细的需求,用户所能提供的无非是需求的大的方向以及部分需求,更不能较准确地预见到以后的需求。因此,采用原型法来进行数据仓库的开发是比较合适的,因为原型法的思想是从构建系统的简单的基本框架着手,不断丰富与完善整个系统。但是,数据仓库的设计开发又不同于一般意义上的原型法,数据仓库的设计是数据驱动的。这是因为数据仓库是在现存数据库系统基础上进行开发,它着眼于有效地抽取、综合、集成和挖掘已有数据库的数据资源,服务于企业高层领导管理决策分析的需要。但需要说明的是,数据仓库系统开发是一个经过不断循环、反馈而使系统不断增长与完善的过程,这也是原型法区别于系统生命周期法的主要特点。因此,在数据仓库的开发的整个过程中,自始至终要求决策人员和开发者的共同参与和密切协作,要求保持灵活的头脑,不做或尽量少做无效工作或重复工作。 数据仓库的设计大体上可以分为以下几个步骤: ●概念模型设计; ●技术准备工作; ●逻辑模型设计; ●物理模型设计; ●数据仓库生成; ●数据仓库运行与维护。 下面我们六个主要设计步骤为主线,介绍在各个设计步骤中设计的基本内容。 第一节概念模型设计 进行概念模型设计所要完成的工作是: <1>界定系统边界 <2>确定主要的主题域及其内容 概念模型设计的成果是,在原有的数据库的基础上建立了一个较为稳固的概念模型。因为数据仓库是对原有数据库系统中的数据进行集成和重组而形成的数据集合,所以数据仓库的概念模型设计,首先要对原有数据库系统加以分析理解,看在原有的数据库系统中“有什么”、“怎样组织的”和“如何分布的”等,然后再来考虑应当如何建立数据仓库系统的概念模型。一方面,通过原有的数据库的设计文档以及在数据字典中的数据库关系模式,可以对企业现有的数据库中的内容有一个完整而清晰的认识;另一方面,数据仓库的

数据仓库分析系统整体设计方案 (1).doc

目录 一、概述 (2) 二、四科室需求 (3) 1、风险科需求 (3) 2、市场科需求 (13) 3、业务管理科需求 (14) 4、计划资金科需求 (15) 三、需求分析 (23) 1、维表 (23) 2、事实表 (23) 3、事务——业务处理过程及业务术语 (23) 4、主键 (24) 5、外键 (24) 四、系统结构图及业务数据流图 (25) 1、系统结构图 (25) 2、数据流图 (26) 五、源数据表结构 (27) 1、BCS系统 (27) 2、C ARDPOOL系统 (34) 3、NAS系统 (36) 4、BCS系统报表 (37) 六、生成表结构 (39) 七、码表结构 (43) 八、结果表结构 (50) 九、数据表创建方法 (51) 1、BCS系统 (51) 2、C ARDPOOL系统 (57) 3、NAS系统 (58) 4、生成表 (58) 5、码表 (62) 十、数据处理过程 (68) 1、目录结构 (68) 2、流程说明 (68) 十一、问题及处理方法 (80)

一、概述 Bill Inmon(数据仓库之父)在Building the Data Warehouse (John Wiley & Sons Inc., 1996)书中把数据仓库描述为一个“面向主题的、完整的、非易失的、不同时间的、用于支持决策管理的数据集合”。 数据仓库是只用于制作报表的数据库。 对我们而言,数据仓库是某个“宽广”的数据仓储。它包括许多的主题领域。而一个数据集市,恰恰相反,它把眼睛盯在商业活动的某个非常有限的部分上。它往往涉及某个单独主题或单个类型的分析。 在日常工作中,IT人员经常听到这样的抱怨:“我要求的报表怎么还没出来?”或者是“我要对XX报表做些修改,怎么还没结果?”等等。 在IT飞速发展的最近几年里,银行信用卡部先后针对业务上了一些计算机系统。这些系统的特点是:信息量规模小、数据经常实时更新、适用于业务人员快速录入数据、使用模式相对来说是可以预测的、模式很复杂、业务流程难以更改、数据在线保存的时间较短及各系统之间缺乏必要的联系等。这样的系统被称之为OLTP系统。OLTP系统的这些特点也就决定了有如此抱怨。 如何解决这些问题呢?我们首先想到的是:把数据集中、完整地存储在中心数据库中。所有的业务处理在中心数据库上进行。所有的报表工作脱离数据库。这听起来难道不是有点像一个数据仓库吗?我们为什么不在OLTP的业务系统数据库的基础上生成报表呢?答案很简单:因为报表经常需要大量的、长时间的数据做依据,然后经过大量的运算,才能得出你想要的结论。这对业务系统的正常运转影响很大,以至于业务系统无法正常运转。 当然,不是什么时候都需要一个数据仓库的。正如数据仓库的定义:是用于支持决策管理的数据集合。 中国银行北京分行从1986年6月1日发行第一张人民币长城卡到现在拥有将近20万的持卡人。从过去手工处理业务到现在拥有几个OLTP业务系统。信用卡业务有了飞速的发展。但也应看到信用卡市场的激烈竞争。如何给决策者及时提供决策支持信息,是在激烈的市场竞争中立于不败之地的关键。

相关文档
最新文档