数据仓库的开发设计过程

合集下载

数据仓库开发设计流程

数据仓库开发设计流程

数据仓库开发设计流程
数据仓库开发设计流程如下:
1.分析业务需求,确定数据仓库主题:需要全面了解企业业务和数据。

2,构建逻辑模型:通常使用维度建模技术,包括维度表和事实表来描述数据。

3.数据仓库技术选型。

4.逻辑模型转换为物理模型。

5.数据源分析:识别和分析所有可用的数据源,包括内部和外部系统。

6.数据抽取、转换和加载(ETL):确定如何从不同的数据源中提取数据,并将其转换为适合数据仓库的格式。

包括数据清洗、数据集成和数据转换等过程。

7.数据仓库架构设计:确定数据仓库的整体架构,考虑到数据仓库的可伸缩性、性能和可用性等方面。

8.数据仓库实施:根据设计的数据模型和架构来实施数据仓库。

包括创建数据库表、索引、视图等。

9.数据质量管理。

10.开发数据仓库的分析应用。

11.数据仓库管理和维护。

数据仓库实验报告

数据仓库实验报告

数据仓库实验报告本次实验的目的是设计和构建一个数据仓库,并通过使用该数据仓库来进行数据分析。

本报告将分为三个部分:实验设计、实验过程和结果分析。

一、实验设计1. 数据需求:选取了一个电商平台的数据作为实验对象,包括订单数据、用户信息数据、产品数据等。

2. 数据清洗和预处理:对原始数据进行了清洗和预处理,包括数据去重、缺失值处理等。

3. 数据模型设计:根据需求,设计了一个星型模型,以订单信息作为事实表,以用户信息和产品信息作为维度表。

4. 数据仓库构建:使用开源的数据仓库工具进行了数据仓库的构建,包括创建表结构、导入数据等。

二、实验过程1. 数据清洗和预处理:首先对原始数据进行了去重操作,保证数据的唯一性。

然后对缺失值进行了处理,采用填充的方式进行处理。

2. 数据模型设计:根据数据需求,设计了一个星型模型,以订单信息表作为事实表,以用户信息表和产品信息表作为维度表。

通过主键和外键的关系,将这些表进行了关联。

3. 数据仓库构建:使用开源的数据仓库工具,将设计好的数据模型导入到数据仓库中,并创建相应的表结构。

然后将清洗好的数据导入到对应的表中。

三、结果分析1. 数据质量评估:对数据仓库中的数据进行质量评估,包括数据准确性、完整性等。

通过查询数据仓库中的数据,对每个维度表和事实表的数据进行了验证。

2. 数据分析:通过在数据仓库上进行复杂查询和分析操作,获取了一些有价值的信息。

例如:最受用户欢迎的产品、用户购买行为的趋势等。

根据实验结果可以得出以下结论:1. 数据仓库可以提供高效的数据访问和分析能力,对于大规模数据的查询和分析非常高效。

2. 数据仓库可以提供数据一致性和数据质量保证的能力,可以对数据进行清洗和预处理操作。

3. 数据仓库可以满足复杂查询和分析需求,可以提供多维分析、数据挖掘等功能。

总结:本次实验通过设计和构建一个数据仓库,对电商平台的数据进行了分析,得到了一些有价值的信息。

通过实验,我们了解到数据仓库的设计和构建过程,并掌握了使用数据仓库进行数据分析的方法和技巧。

开源bi平台openi的开发数据仓库系统.doc

开源bi平台openi的开发数据仓库系统.doc

开源BI平台Openi的开发数据仓库系统现在大家比较公认的商业智能系统分为报表、OLAP、数据仓库、数据挖掘和即席查询五大块,本身商业智能系统也只是一个比较新的概念,也许随着技术和应用的发展还会扩充出来很多模块。

本文就基于开源BI平台Openi的数据仓库系统,进行整体设计及开发,就其中比较热门的技术,如OLAP、数据仓库等进行初步的讲解,以期起到一个抛砖引玉的作用。

一、开源的BI平台商业智能也称作BI是英文单词Business Intelligence的缩写。

商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。

这里所谈的数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商等来自企业所处行业和竞争对手的数据以及来自企业所处的其他外部环境中的各种数据。

而商业智能能够辅助的业务经营决策,既可以是操作层的,也可以是战术层和战略层的决策。

为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘等技术。

因此,从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用。

从国内企业和政府部门的信息化建设发展来看,从最初的各类MIS系统到近几年流行的ERP、CRM等,用户的数据积累已达到了一定的程度,很多行业的用户面对越来越激烈的市场竞争,他们需要对自己的数据(用户、市场、产品)进行分析,挖掘出潜在的商机,降低公司的运作成本,这是BI和数据仓库类产品被市场看好、不断获得增长的根本原因!在现有的市场中,对于BI类产品来说往往是与数据仓库整体解决方案相关联,一些国内的IT公司也正在把BI和数据仓库的结合作为行业的解决方案来推广到自己熟悉的领域。

对于IT 公司来说在ERP、CRM之后需要寻找新的利润增长点,BI和数据仓库的出现无疑是一个莫大的商机。

在商业智能系统出现之前,大家都是通过报表来展现数据库中的数据,报表有简单有复杂,当然报表只能静态的展现一部分数据,用户只能看到已经做好的报表,不能根据自己的需要重新构造报表。

数据仓库的设计与构建研究

数据仓库的设计与构建研究

数据仓库的设计与构建研究随着互联网技术的发展,数据量的快速积累和每天不断增长的数据趋势,数据管理变成了日益复杂的任务。

数据仓库便应运而生,成为了企业管理和数据分析的必然选择。

在企业的决策和战略制定中,数据仓库所扮演的角色越来越重要,也越来越值得重视。

一、数据仓库的概念数据仓库是指将企业各种分散的数据源汇集起来,进行预处理、汇总、加工、再分析处理等操作后进行存储的一个系统。

其目的是为了利用大数据环境下的企业数据,将其变成决策支持的信息,从而为企业决策提供可靠的数据支撑。

数据仓库结构主要包含以下几个重要组成部分:1. 数据源数据源是数据仓库的来源,包括操作性数据库、文件系统、网络、接口等等。

通过提取不同来源的数据,并将其汇总到仓库中进行统一存储、管理和维护,实现数据的集成化管理。

2. 数据加工处理数据加工处理是数据仓库中最为复杂的一部分,包括数据清洗、数据挖掘、数据转换、数据整合等等。

这一过程要求数据仓库管理员具有一定的数据处理能力,并且需要考虑多种因素的影响,例如数据量、类型、格式、质量等等。

3. 元数据元数据是指描述数据仓库的数据,包括数据类型、数据来源、数据转换规则、质量检验规则等等。

元数据的作用是对数据进行管理、维护、分发和使用,为数据共享和商业决策提供支持。

4. 多维分析多维分析是指对数据仓库中的数据进行分析、整理和处理,以便更好地展现数据的特征和规律。

多维分析可通过OLAP(联机分析处理)的方式对数据进行分析,再根据分析结果制定企业针对性的业务决策。

二、数据仓库的设计思路数据仓库的设计与构建需要全面考虑企业的业务需求和数据特点,通过规范化、标准化的方式来进行设计,使其能够满足企业需求,并为企业的决策提供支持。

1. 初步分析通过初步分析了解企业的业务场景和数据来源,以及研究需求和决策支持信息的种类、格式等,以便进一步确定数据仓库的设计。

2. 数据建模数据建模是数据仓库的核心,它需要根据不同的业务需求和对数据的认识,对数据进行分类、构建数据模型,以便完成数据转化的目标。

数据仓库概要设计

数据仓库概要设计

数据仓库概要设计数据仓库(Data Warehouse)是指把企业分散在不同数据库中的数据统一整合到一个数据库中进行存储和管理,并对这些数据进行分析和管理的一种数据库应用系统。

数据仓库的建设是企业信息化建设的重要组成部分,是企业对内部外部信息资源进行整合、挖掘和利用最有效的平台之一。

因此,进行数据仓库的概要设计是非常重要的一步。

1.数据仓库概述数据仓库,是一个能够存储大量历史数据的集合体,使得企业能够快速地进行数据分析、查询和决策。

数据仓库通常包括存储、管理和查询技术。

数据仓库的设计是基于自底向上的过程,通过收集各种应用中的数据来建立。

数据仓库的需求分析是设计的第一个步骤,通过需求分析可以把握到数据的来源、数据的主要特征、数据的处理方法、数据的处理效果等。

2.数据仓库的工作过程a.数据的收集数据收集的目的是获取各个分散在企业内部外部的数据源,并把这些数据源整合成数据集。

数据收集包括了跟踪源数据、数据的标准化、数据的清洗、数据的转换等。

b.数据的整合数据整合意味着将不同的数据源集成到一起,通常是通过ETL工具来实现。

ETL(Extract, Transform, Load)工具的主要功能是提取、转换和加载。

c.数据的存储数据仓库的存储方式一般有两种:关系型数据库和非关系型数据库。

d.数据的查询与分析数据仓库的用户可以通过BI工具(Business Intelligence)来进行数据的查询、分析和报表生成。

3.数据仓库的概要设计步骤a.数据仓库设计的第一步是需求分析,需求分析的目的是明确数据仓库的目标、范围和需求。

需求分析应该包括数据仓库的使用者、数据仓库所需数据的类型、数据的来源、数据的质量要求等。

b.数据仓库的概念设计是在需求分析的基础上,开始进行数据仓库的抽象模型的设计。

概念设计包括了数据仓库的模型设计、元数据的设计等。

c.数据仓库的逻辑设计是在概念设计的基础上,开始进行数据仓库的逻辑结构的设计。

数据仓库的设计与开发

数据仓库的设计与开发

02
在物理设计时,我们常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。
01
重要程度高、经常存取并对响应时间要求高的数据就存放在高速存储设备上,如硬盘;
02
存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上,如磁盘或磁带。
03
10
主键
Product-Name
char
25
产品名称
Product-SKu
char
20库存单位ຫໍສະໝຸດ 销售员维表包括不同地区的所有销售员信息
Salpers-Key
integer
15
主键
Salpers-Name
char
30
销售员姓名
Territory
char
20
销售员所在区域
Region
char
20
所在地区
订单事实表
销售数据和维
销售数据
商品
促销
时间
部门
城市
地区
商店
图4.2 销售业务的多维数据
(4)确定数据汇总水平
(5)设计事实表和维表
按使用的DBMS和分析用户工具,证实设计方案的有效性 根据系统使用的DBMS,确定事实表和维表的具体实现。由于不同的DBMS对数据存储有不同的要求,因此设计方案是否有效还要放在DBMS中进行检验
包括公司收到的所有订单
Order-Key
integer
10
订单键
Order-Name
char
20
订单名称
Product-ref
integer
10
参考产品主键

数据仓库设计与建模的流程与方法

数据仓库设计与建模的流程与方法

数据仓库设计与建模的流程与方法数据仓库是一个用于集中存储、管理和分析企业中各类数据的系统。

它旨在帮助企业更好地理解和利用自己的数据资源,支持决策和战略制定。

数据仓库的设计与建模是数据仓库开发的关键步骤之一。

本文将介绍数据仓库设计与建模的流程与方法。

数据仓库设计与建模流程数据仓库设计与建模是一个迭代的过程,包括以下主要步骤:1.需求收集和分析在数据仓库设计与建模之前,首先需要与业务用户和决策者进行充分的沟通和需求收集。

了解用户的需求和业务流程对于数据仓库的设计和建模至关重要。

通过与用户的交流,收集到的需求可以被细化和明确以指导后续的工作。

2.数据源选择和数据抽取确定需要从哪些数据源抽取数据,并选择合适的数据抽取工具或技术。

根据需求收集和分析的结果,进行数据抽取和转换,将源系统的数据导入到数据仓库中。

这个步骤是数据仓库设计与建模中的重要部分,关系到数据质量和数据一致性。

3.物理数据模型设计在物理数据模型设计阶段,将逻辑数据模型转化为物理数据模型。

物理数据模型设计包括确定表、字段、索引、分区等物理数据库对象的详细定义。

需要考虑到性能和存储方面的因素,并根据数据仓库的查询需求进行优化设计。

4.维度建模维度建模是数据仓库设计与建模的核心技术之一。

它通过标识和定义业务过程中的关键业务概念,如事实表、维度表和维度属性,来描述业务应用中的事实和维度关系。

维度建模的目标是提供用户友好的数据表示,支持灵活且高效的数据查询和分析。

5.粒度定义和聚合设计决定数据仓库的数据粒度是数据仓库设计与建模的一个重要决策。

粗粒度数据更适合用于高层次的分析和决策,而细粒度数据则支持更详细的数据分析。

聚合设计是为了提高数据仓库的性能和查询响应时间而进行的,它通过预计算和存储汇总数据来减少复杂查询的计算量。

6.元数据管理元数据是指描述数据的数据,是数据仓库设计与建模过程中不可忽视的一部分。

元数据管理包括收集、维护和管理数据仓库中的元数据信息,为数据仓库开发、运维和使用提供支持。

数据仓库技术及其设计与开发流程

数据仓库技术及其设计与开发流程
二、 o l Mo de用于教师个人业务档案管理的优势
5零投资 , . 操作简单。Mode ol 因其基于开源的 Lnx A ah+ iu+ pc e M S L P P体系开发 , yQ + H 因此从支持环境 到软件本身使用者无需支
Widw 环境下完成 M ol 安装 , no s ode 这样教师个人能很方便地把个 发, 所有的界面设计风格一致 、 操作简单 、 高效 , ol在线模块采 Mod e 用可 自由组合的动态模块化设计 ,教师搭建在线课程时就像搭积 木一样简单有趣 。
团 日罾 围 SU!NA HZA T L
口 金 陵科技 学院信 息技术 学院 王


★基金 编号 : 安徽省哲学社会 科学规 划办基金 资助项 目( 基
金 编 号 : HS F 5 0 D 1 A K 0 -6 4 )
要 本文从数据仓库的概念展开研 无 分析 了数据仓库相关技术的基本特征 , 指明了数据
公开的范围。 活动管理主要体现在网络课程管理方面, o l本身 Mode 提供了灵 活的课程活动配置模块——论坛 、 测验 、 资源 、 投票 、 问卷 调查 、 作业 、 聊天 、 专题讨论等 , 同时内嵌 了 Bo、 k、 b us功 l Wii g Weq et 能; 支持 同步 、 同步 、 非 基于问题 的教学 、 分组教学等多种教学模 式, 利于展现教师教学设计思想 ; 对各种活动均提供评价功能。 3 . 集过程管理与结果材料管理于~体 。Mode o l不仅能对已有 材料进行管理 , 而且通过系统跟踪功能还能记录教学活动。比如 ,
以下技术 :1 ( )管理大量数据和多种存储介质。要求通过寻址 、 索 据管理技术『 l 1 。由于元数据与数据仓库相关的开发生命周期完全不
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据仓库之路FAQFAQ目录一、与数据仓库有关的几个概念 (3)1.1 目录 (3)二、数据仓库产生的原因 (8)三、数据仓库体系结构图 (11)四、数据仓库设计 (12)4.1 数据仓库的建模 (12)4.2 数据仓库建模的十条戒律: (13)五、数据仓库开发过程 (14)5.1 数据模型的内容 (14)5.2 数据模型转变到数据仓库 (14)5.3 数据仓库开发成功的关键 (15)六、数据仓库的数据采集 (16)6.1 后台处理 (17)6.2 中间处理 (17)6.3 前台处理 (18)6.4 数据仓库的技术体系结构 (18)6.5 数据的有效性检查 (20)6.6 清除和转换数据 (20)6.7 简单变换 (22)6.8 清洁和刷洗 (24)6.9 集成 (25)6.10 聚集和概括 (27)6.11 移动数据 (27)七、如何建立数据仓库 (30)7.1 数据仓库设计 (31)7.2 数据抽取模块 (32)7.3 数据维护模块 (33)一、与数据仓库有关的几个概念1.1 目录☐Datawarehouse☐Datamart☐OLAP☐ROLAP☐MOLAP☐ClientOLAP☐DSS☐ETL☐Adhocquery☐EIS☐BPR☐BI☐Datamining☐CRM☐MetaDataData warehouse本世纪80年代中期,“数据仓库之父”William H.Inmon先生在其《建立数据仓库》一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。

与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。

而不是一种可以购买的产品。

Data mart即数据集市,或者叫做“小数据仓库”。

如果说数据仓库是建立在企业级的数据模型之上的话。

那么数据集市就是企业级数据仓库的一个子集,他主要面向部门级业务,并且只面向某个特定的主题。

数据集市可以在一定程度上缓解访问数据仓库的瓶颈。

OLAP联机分析处理(OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的。

当时,Codd认为联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。

用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。

因此Codd提出了多维数据库和多维分析的概念,即OLAP。

Codd提出OLAP的12条准则来描述OLAP系统:准则1 OLAP模型必须提供多维概念视图准则2 透明性准则准则3 存取能力推测准则4 稳定的报表能力准则5 客户/服务器体系结构准则6 维的等同性准则准则7 动态的稀疏矩阵处理准则准则8 多用户支持能力准则准则9 非受限的跨维操作准则10 直观的数据操纵准则11 灵活的报表生成准则12 不受限的维与聚集层次ROLAP基于Codd的12条准则,各个软件开发厂家见仁见智,其中一个流派,认为可以沿用关系型数据库来存储多维数据,于是,基于稀疏矩阵表示方法的星型结构(starschema)就出现了。

后来又演化出雪花结构。

为了与多维数据库相区别,则把基于关系型数据库的OLAP称为Relational OLAP,简称ROLAP。

代表产品有Informix Metacube、Microsoft SQL ServerOLAP Services.MOLAP严格遵照Codd的定义,自行建立了多维数据库,来存放联机分析系统数据的Arbor Software,开创了多维数据存储的先河,后来的很多家公司纷纷采用多维数据存储。

被人们称为MuiltDimension OLAP,简称MOLAP,代表产品有Hyperion(原Arbor software) Essbase、Showcase STRATEGY等。

Client OLAP相对于Server OLAP而言。

部分分析工具厂家建议把部分数据下载到本地,为用户提供本地的多维分析。

代表产品有Brio Designer, Business Object.DSS决策支持系统(Decision Support system),相当于基于数据仓库的应用。

决策支持就是在收集所有有关数据和信息,经过加工整理,来为企业决策管理层提供信息,为决策者的决策提供依据。

ETL数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。

构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。

Ad hoc query即席查询,数据库应用最普遍的一种查询,利用数据仓库技术,可以让用户随时可以面对数据库,获取所希望的数据。

EIS领导信息系统(Executive Information System),指为了满足无法专注于计算机技术的领导人员的信息查询需求,而特意制定的以简单的图形界面访问数据仓库的一种应用。

BPR业务流程重整(Business Process Reengineering),指利用数据仓库技术,发现并纠正企业业务流程中的弊端的一项工作。

数据仓库的重要作用之一。

BI商业智能(Business Intelligence),指数据仓库相关技术与应用的通称。

指利用各种智能技术,来提升企业的商业竞争力。

Data mining数据挖掘,Data Mining是一种决策支持过程,它主要基于AI、机器学习、统计学等技术,高度自动化地分析企业原有的数据,作出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,减少风险,作出正确的决策CRM客户关系管理(Customer Relationship management),数据仓库是以数据库技术为基础但又与传统的数据库应用有着本质区别的新技术,CRM就是基于数据仓库技术的一种新应用。

但是,从商业运作的角度来讲,CRM其实应该算是一个古老的"应用"了。

比如,酒店对客人信息的管理,如果某个客人是某酒店的老主顾,那么该酒店很自然地会知道这位客人的某些习惯和喜好,如是否喜欢靠路边,是否吸烟,是否喜欢大床,喜欢什么样的早餐,等等。

当客人再次光临时,不用客人自己提出来,酒店就会提供客人所喜欢的房间和服务。

这就是一种CRM.Meta Data元数据,关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。

同时元数据还包含关于数据含义的商业信息,所有这些信息都应当妥善保存,并很好地管理。

为数据仓库的发展和使用提供方便。

二、数据仓库产生的原因事务处理环境不适宜DSS应用的原因主要有以下五条:(1)事务处理和分析处理的性能特性不同。

在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时间短;在分析处理环境中,用户的行为模式与此完全不同,某个DSS应用程序可能需要连续几个小时,从而消耗大量的系统资源。

将具有如此不同处理性能的两种应用放在同一个环境中运行显然是不适当的。

(2)数据集成问题。

DSS需要集成的数据。

全面而正确的数据是有效的分析和决策的首要前提,相关数据收集得越完整,得到的结果就越可靠。

当前绝大多数企业内数据的真正状况是分散而非集成的。

造成这种分散的原因有多种,主要有事务处理应用分散、“蜘蛛网”问题、数据不一致问题、外部数据和非结构化数据。

(3)数据动态集成问题。

静态集成的最大缺点在于,如果在数据集成后数据源中数据发生了变化,这些变化将不能反映给决策者,导致决策者使用的是过时的数据。

集成数据必须以一定的周期(例如24小时)进行刷新,我们称其为动态集成。

显然,事务处理系统不具备动态集成的能力。

(4)历史数据问题。

事务处理一般只需要当前数据,在数据库中一般也是存储短期数据,切不同数据的保存期限也不一样,即使有一些历史数据保存下来了,也被束之高阁,未得到充分利用。

但对于决策分析而言,历史数据是相当重要的,许多分析方法必须一大量的历史数据为依托。

没有历史数据的详细分析,是难以把握企业的发展趋势的。

DSS对数据在空间和时间的广度上都有了更高的要求,而事务处理环境难以满足这些要求。

(5)数据的综合问题。

在事务处理系统中积累了大量的细节数据,一般而言,DSS并不对这些细节数据进行分析。

在分析前,往往需要对细节数据进行不同程度的综合。

而事务处理系统不具备这种综合能力,根据规范化理论,这种综合还往往因为是一种数据冗余而加以限制。

要提高分析和决策的效率和有效性,分析型处理及其数据必须与操作型处理及其数据相分离。

必须把分析型数据从事务处理环境中提取出来,按照DSS处理的需要进行重新组织,建立单独的分析处理环境,数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。

三、数据仓库体系结构图四、数据仓库设计4.1 数据仓库的建模☐数据模型1)所有的实体都是平等关系。

2)仅仅从数据模型的角度来着手设计数据仓库会产生一种“平面”效应。

☐星型连接1)事实表:位于星型连接的中央,它是被大量载入数据的实体。

2)维表:周围的其它实体。

3)在很多情况下:文本数据与数值数据是分离开的。

通过数据预连接和建立有选择的数据冗余,设计者为访问和分析过程大大简化了数据。

星型连接应用于设计数据仓库中很大的实体,而数据模型则应用于数据仓库中较小的实体。

4.2数据仓库建模的十条戒律:1)必须回答紧迫的问题;2)必须有正确的事实表;3)将有正确的维表,描述必须按最终用户的业务术语表达;4)必须理解数据仓库所影响的公司过程或影响数据仓库的公司过程;5)对于事实表,应该有正确的“粒度”;6)根据需要存储正确长度的公司历史数据;7)以一种对于公司有意义的方式来集成所有必要的数据;8)创建必要的总结表;9)创建必要的索引;10)能够加载数据仓库数据库并使它以一种适宜的方式可用。

五、数据仓库开发过程☐建立或获得企业的数据模型;☐定义记录系统;☐设计数据仓库并按主题领域进行组织;☐设计和建立操作型环境中的记录系统和数据仓库之间的接口,这些接口能保证数据仓库的载入工作能有序的进行;☐开始载入第一个主题领域,进入载入和反馈过程,数据仓库中的数据在此过程中也在不断地改变。

5.1 数据模型的内容☐标识主要主题领域。

☐各个主要主题之间的各种关系。

☐清晰地定义模型的边界。

☐把原始数据和导出数据分离。

☐每个主题领域需要标识✓键码✓属性✓属性分组之间的关系✓多重出现的数据✓数据的类型5.2 数据模型转变到数据仓库☐如果原先没有时间元素的话,时间元素必须加入到键码结构中☐必须清除所有的纯操作型数据☐需要将参照完整性关系转换成“人工关系”☐将经常需要用到的到处数据假如到设计中☐对数据的结构进行调整✓增加数据阵列✓增加数据冗余✓在合适的情况下进一步分离数据✓在合适的时候合并数据表☐需要做数据的稳定性分析5.3 数据仓库开发成功的关键关键:是数据体系结构设计者和DSS分析者之间的反馈循环。

相关文档
最新文档