数据仓库模型的设计说明

合集下载

数据库5章数据库设计

数据库5章数据库设计

E-R图向关系模型的转换:
码原则:
一个实体型转换为一个关系模式:实体的属性就是关系的 属 性,实体的码就是关系的码。
一个联系转换为一个关系模式:与该联系相连的各实体的码以 及联系的属性转换为该关系的属性。该关系的码有五种情况:
若联系是1:1:则每个实体的码均是该关系的候选码。 若联系是1:n:则关系的码是n端实体的码。 若联系是m:n:则关系的码是参加联系的诸实体的码的集合。 若联系是三个或三个以上的实体的一个多元联系可以转换为一个关系模
① 确定局部E-R图实体之间的函数依赖。 ② 求F的最小依赖集Fm,求其差集,即
D=F-Fm ③ 逐一考察D中每一函数依赖,确定是否为冗余,若是,就把 它去掉。
5.4 逻辑结构设计
任务:将基本E-R模型转换为DBMS所支持的数据模型。 关系型逻辑结构设计的步骤:
1) 将概念结构转换为关系模型 2) 优化模型 3) 设计适合DBMS的子模式
第五章 数据库设计
5.1 数据库设计概述 5.2 需求分析 5.3 概念结构设计 5.4 逻辑结构设计 5.5 数据库物理设计
数据库技术的研究领域
数据库管理系统软件的研制(×)
DBMS的研制包括DBMS本身以及以DBMS为核心的饿一组相互联系的软 件系统。目标是扩大功能、提高性能和用户的生产率。
5.2 需求分析
5.数据库应用系统的数据字典 包括:
数据项 数据结构 数据流 数据存储 处理过程
5.2 需求分析
例:下图给出了某机器制造厂的零配 件采购子系统的数据流图。该子系统 要处理的工作是生产部门提出的生产 计划根据零配件当前价格计算成本送 主管部门审批,对已批准生产计划制 定采购计划,准备好订货单给供应商。

数据仓库主题设计及元数据设计

数据仓库主题设计及元数据设计

数据仓库主题设计及元数据设计3.4 明确仓库的对象:主题和元数据大多数商务数据都是多维的,所以采集和表示三维以上的数据不能完全借用业务数据库设计中的方法,必须有一种新的方法来表达多维数据。

现阶段流行的有2种方法,一是面向对象方法,即把商务数据抽象为对象,再使用Rational Rose等对象建模工具来表达这些对象;另一种方法就是使用信息包图,这是一种简便且高效的方法,在项目中使用的普及率很高。

信息包图实际上是自上而下数据建模方法的一个很好的工具。

自上而下的建模技术从用户的观点开始设计。

用户的观点是通过与用户交流得到的,可以进一步明确用户的信息需求。

自上而下的方法几乎考虑了所有的信息源,以及这些信息源影响商务活动的方式,它使得设计者可以围绕着一个通常的主题或商务领域进行信息包的开发。

下面就详述如何通过信息打包技术建立信息包图,从而确定数据仓库中的主题和元数据。

3.4.1 信息打包技术1.信息打包技术的基本使用信息打包法是一种自顶向下的设计方法,它从管理者的角度出发把焦点集中在企业的一个或几个主题上,着重分析主题所涉及数据的多维特性。

此法具体分4个阶段:(1)采用自顶向下的方法对商务数据的多维特性进行分析,用信息打包图表示维度和类别之间的传递和映射关系,建立概念模型。

其中类别是按一定的标准对一个维度的分类划分,如产品可按颜色、质地、产地和销地等不同标准分类。

(2)对企业的大量的指标实体数据进行筛选,提取出可利用的中心指标。

其中指标也称为关键性能指标和关键商务测量的值,是在维度空间衡量商务信息的一种方法。

比如产品收入金额、原材料消耗、补充新雇员或设备运行时间等都可以叫做指标。

(3)在信息打包图的基础上构造星形图,对其中的详细类别实体进行分析,进一步扩展为雪花图,建立逻辑模型。

(4)在星形图和雪花图的基础上,根据所定义数据标准,通过对实体、键标、非键标、数据容量、更新频率和实体特征进行定义,完成物理数据模型的设计。

数据仓库概述(概念、应用、体系结构)

数据仓库概述(概念、应用、体系结构)
使用浏览分析工具在数据仓库中寻找有用的信息; 基于数据仓库,在数据仓库系统上建立应用,形成 决策支持系统。
事务处理 分析处理
DB
从数据 OLTP 数据
DW
从数据 信息(知识) OLAP(DM、OLAM)
18
数据仓库与传统数据库的区别
19
OLTP和OLAP的区别

用户和系统的面向性:

转换描述从操作数据库到数据仓库的映射方法以及转换数据的算法访问权限备份历史存档历史信息传输历史数据获取历史数据访问等等29主题区和信息对象类型包括查询报表图像音频视频等支持数据仓库的其它信息例如信息传输系统包括的预约信息调度信息传送目标的详细描述商业查询对例如数据历史快照版本拥有权数据抽取的审计跟踪数据的使用方法30与数据访问和分析工具的集成31元数据库metadatarepository和工具32主要使用数据来源的物理结构信息企业数据模型和仓库数据模型最终用户最关心两类元数据
4
业务系统不适宜DSS应用

事务处理和分析处理的性能要求和特性不同


事务处理对数据的存取操作频率高而每次操作处理的时 间短; 在分析处理环境中,某个DSS应用程序可能需要连续几 个小时,会消耗大量的系统资源。

数据集成问题 历史数据问题 数据的综合问题(更高粒度)
5
建立数据仓库的投资回报
数据模型:(1)逻辑数据结构,包括为有效进行数据
用的数据集合,是不同于DB的一种新的数据环境, 是DW 扩 展后得到的一个混合形式。四个基本特点:面向主题的、 集成的、可变的、 当前或接近当前的。 库处理由DBMS提供的操作和约束;(2)数据表示系统( 例如,ER图和关系模型)。
25
元数据

数据仓库-系统设计说明书

数据仓库-系统设计说明书

数据仓库-系统设计说明书数据仓库-系统设计说明书1、引言1.1 目的本文档旨在详细描述数据仓库系统的设计方案,包括系统的架构、数据模型、数据抽取、转换和加载(ETL)流程、安全性、可用性等方面的内容。

1.2 范围本文档适用于数据仓库系统的设计过程,涵盖了系统的各个方面,以确保系统的正常运行和可扩展性。

2、系统架构2.1 总体架构本节描述数据仓库系统的总体架构,包括各个组件之间的关系和数据流。

2.2 数据仓库层次结构本节详细描述数据仓库系统的层次结构,包括数据仓库、数据集市、数据源等各个层次的定义和关系。

3、数据模型3.1 维度模型本节描述数据仓库系统所采用的维度模型,包括事实表和维度表的定义和关系。

3.2 元数据管理本节描述数据仓库系统中元数据的定义、管理和使用方式,包括元数据的存储、检索和更新机制。

4、数据抽取、转换和加载(ETL)流程4.1 数据抽取本节描述数据仓库系统中数据抽取的方式和流程,包括抽取数据的来源、频率和目标。

4.2 数据转换本节描述数据仓库系统中数据转换的方式和流程,包括数据清洗、数据集成、数据转换和数据加载的过程。

4.3 数据加载本节描述数据仓库系统中数据加载的方式和流程,包括数据加载的频率、目标和验证机制。

5、安全性5.1 用户权限管理本节描述数据仓库系统中用户权限的管理方式和机制,包括用户的注册、认证和授权过程。

5.2 数据访问控制本节描述数据仓库系统中数据访问控制的方式和机制,包括数据的保护、加密和审计功能。

6、可用性6.1 高可用性架构本节描述数据仓库系统中实现高可用性的架构设计,包括负载均衡、冗余备份和自动故障恢复机制。

6.2 容灾备份方案本节描述数据仓库系统中实现容灾备份的方案,包括数据的备份、复制和恢复策略。

7、本文档涉及附件本文档涉及的附件包括数据仓库系统的系统架构图、数据模型图、ETL流程图等相关文档。

8、本文所涉及的法律名词及注释本文所涉及的法律名词及注释包括但不限于《数据保护法》、《网络安全法》等相关法律和条款。

数据仓库系统设计文档

数据仓库系统设计文档

数据仓库系统总体设计摘要:本文档为XX通信公司网上通信记录查询平台设计说明书,为XX通信公司网上通信记录查询平台详细设计的之要依据。

本文档的主要阅读对象为XX通信公司网上通信记录查询平台的详细设计人员。

经过需求分析调查,确定了数据仓库系统总体定位和系统功能需求。

现根据需求分析规定和局具体情况,确定数据仓库整体方案,以指导数据仓库系统研究、开发、实现。

关键字:指标;主题;数据仓库;联机分析;数据挖掘;决策支持1 概述1.1 背景本软件全称为XX通信公司网上通信记录查询平台。

1.2 术语定义DW:数据仓库DC:数据中心OLTP:在线事务处理OLAP:在线分析处理BI:商业智能DSS:决策支持系统SOA:面向服务的架构EA:企业架构ETL:数据抽取、转换、加载Statistical Parameter:指标Subject:主题DataMart:数据集市MetaData:元数据OLTP(On-LineTransactionProcessing):联机事务处理DSS:决策支持系统AS:应用服务器WebServer :Web服务器1.3参考资料数据仓库课程课件林友芳概要设计说明书模板林友芳《实用软件工程》清华大学出版社2 系统设计从充分发挥系统作为“数据库,信息库,思想库,智囊库”的作用,向用户提供“快、精、准”的通讯记录查询服务的需要出发,采用当今数据库领域成熟稳定的数据仓库、决策分析等技术,在高效的网络平台上建设提供一个“决策数据管理与分析中心”的基本解决方案。

系统采用多层体系结构,建立一个良好开放性的数据仓库系统环境,适应不断增加和变化的业务需求。

多层体系结构通过引入中间层组件,扩大了传统的客户/服务器和两层计算模式。

多层结构可由以下三类分层来定义:前端的客户层,负责提供可移植的表达逻辑;中间的应用层,允许用户通过将其与实际应用隔离而共享和控制业务逻辑;后端的数据管理与服务层,提供对专门服务(例如数据库服务器)的访问。

大数据专员面试题目(3篇)

大数据专员面试题目(3篇)

第1篇一、基础知识与概念理解1. 题目:请简述大数据的基本概念及其与普通数据的主要区别。

解析:考察应聘者对大数据基本概念的理解。

应聘者应能够解释大数据的规模(大量、多样、快速)、价值密度低、处理和分析的技术和方法等特点,并说明大数据与普通数据在数据量、处理方式、分析目标等方面的区别。

2. 题目:大数据的五个V指的是什么?解析:考察应聘者对大数据特征的理解。

大数据的五个V分别是Volume(数据量)、Velocity(数据速度)、Variety(数据多样性)、Veracity(数据真实性)和Value(数据价值)。

应聘者应能够解释每个V的具体含义。

3. 题目:请简述Hadoop生态系统中的主要组件及其功能。

解析:考察应聘者对Hadoop生态系统的了解。

应聘者应能够列举Hadoop生态系统中的主要组件,如Hadoop分布式文件系统(HDFS)、Hadoop YARN、Hadoop MapReduce、Hive、Pig、HBase等,并解释每个组件的基本功能和作用。

4. 题目:请简述数据仓库和数据湖的区别。

解析:考察应聘者对数据仓库和数据湖的理解。

应聘者应能够解释数据仓库和数据湖在数据存储、处理、查询等方面的差异,以及它们在数据分析中的应用场景。

二、数据处理与分析5. 题目:请简述ETL(提取、转换、加载)过程在数据处理中的作用。

解析:考察应聘者对ETL过程的了解。

应聘者应能够解释ETL在数据预处理、数据清洗、数据转换等方面的作用,以及ETL工具在数据处理中的应用。

6. 题目:请描述数据切分、增量同步和全量同步的方法。

解析:考察应聘者对数据同步的理解。

应聘者应能够解释数据切分、增量同步和全量同步的概念,并举例说明在实际应用中的具体操作方法。

7. 题目:请简述数据挖掘中的分类、聚类和预测方法。

解析:考察应聘者对数据挖掘方法的了解。

应聘者应能够列举数据挖掘中的分类、聚类和预测方法,如决策树、K-means、支持向量机、神经网络等,并解释每种方法的基本原理和应用场景。

华为云数据仓库服务(DWS) 8.1.3.310 API 参考文档说明书

华为云数据仓库服务(DWS) 8.1.3.310 API 参考文档说明书

数据仓库服务(DWS) 8.1.3.310API参考文档版本01发布日期2023-03-30版权所有 © 华为云计算技术有限公司 2023。

保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

商标声明和其他华为商标均为华为技术有限公司的商标。

本文档提及的其他所有商标或注册商标,由各自的所有人拥有。

注意您购买的产品、服务或特性等应受华为云计算技术有限公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。

除非合同另有约定,华为云计算技术有限公司对本文档内容不做任何明示或暗示的声明或保证。

由于产品版本升级或其他原因,本文档内容会不定期进行更新。

除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。

目录1 使用前必读 (1)1.1 概述 (1)1.2 调用说明 (1)1.3 终端节点 (1)1.4 基本概念 (1)2 API概述 (3)3 如何调用API (5)3.1 构造请求 (5)3.2 认证鉴权 (8)3.3 返回结果 (9)4 快速入门 (11)5 API说明 (17)5.1 集群管理接口 (17)5.1.1 创建集群 (17)5.1.2 查询集群列表 (22)5.1.3 查询集群详情 (29)5.1.4 查询节点类型 (37)5.1.5 删除集群 (39)5.1.6 重启集群 (41)5.1.7 扩容集群 (42)5.1.8 重置密码 (44)5.1.9 集群工作负载管理 (46)5.1.9.1 查询工作负载管理计划列表 (46)5.1.9.2 查询工作负载管理计划 (49)5.1.9.3 切换工作负载计划阶段 (52)5.1.9.4 启动工作负载计划 (53)5.1.9.5 停止工作负载计划 (55)5.2 快照管理接口 (56)5.2.1 创建快照 (56)5.2.2 查询快照列表 (58)5.2.3 查询快照详情 (60)5.2.4 删除手动快照 (63)5.2.5 恢复集群 (64)5.3 数据库监控管理接口 (67)5.3.1 查询DWS集群状态 (67)5.3.2 查询DWS集群中数据库使用情况 (72)5.3.3 查询DWS集群各节点磁盘IO使用情况 (74)5.3.4 查询DWS集群各节点磁盘IO使用情况(聚合类型) (77)5.3.5 查询DWS集群各节点文件系统使用情况 (81)5.3.6 查询DWS集群各节点文件系统使用情况(聚合类型) (83)5.3.7 查询DWS集群节点各网卡流量 (87)5.3.8 查询DWS集群查询执行情况 (90)5.3.9 查询DWS集群会话执行情况 (94)5.3.10 查询DWS硬件资源使用情况 (96)5.3.11 查询DWS集群硬件资源使用情况(聚合类型) (99)6 附录 (103)6.1 状态码 (103)6.2 错误码 (105)6.3 创建VPC (113)6.4 获取资源集ID (113)6.5 获取租户ID (114)6.6 获取集群ID (114)6.7 获取Endpoint (115)1使用前必读1.1 概述欢迎使用数据仓库服务GaussDB(DWS)。

基于Greenplum的金融数据仓库模型设计与实现

基于Greenplum的金融数据仓库模型设计与实现

B06. 票据业务 承兑业务 贴现业务
转贴现
再贴现
预算管控 零余额管理 投标保证金
聚合支付
B07. 资金业务 内部拆借 内部清算
信贷资产转让 财务顾问 委托理财
B08. 国际业务 外汇买卖业务 外汇资金管理业务
质押式回购 发行债券 票据回购 票据质押
资金划转
外币存款 外币贷款
债券现券 公募基金
票据池
第 21 期
综合金融服务系统 结算服务 票据服务 ……
客户服务能力层 聚合支付系统
快捷支付 商户管理 ……
员工工作台系统 代办管理 消息管理 ……
渠道整合平台
企业服务总线(ESB)
业务运营能力层
信贷管理系统
资金结算系统
票据系统
投资管理系统
外汇业务系统
贷前管理
一户通总户
票据承兑
同业存款
外汇买卖
合同管理
数据管控
元 数 据 管 理
智能搜索查询 业务应用
一户式分析
自定义查询 自定义分析
工作桌面 大屏展示
经营管理 数据化运营
数据应用服务平台
风险管理 精准画像
关系图谱 ……
调度平台










明细层 汇总层

校验层



实时抽取
数据缓冲处理
应用集市层
共性加工层
离 线
统 一
基础数据层


技术缓冲层

显得至关重要,数据仓库在面对海量的业务数据时,有着安全化、实时化、规范化、智能分析以及预测等诸多优势。而数据模型
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2.5数据仓库模型的设计数据仓库模型的设计大体上可以分为以下三个层面的设计151:.概念模型设计;.逻辑模型设计;.物理模型设计;下面就从这三个层面分别介绍数据仓库模型的设计。

2.5.1概念模型设计进行概念模型设计所要完成的工作是:<1>界定系统边界<2>确定主要的主题域及其容概念模型设计的成果是,在原有的数据库的基础上建立了一个较为稳固的概念模型。

因为数据仓库是对原有数据库系统中的数据进行集成和重组而形成的数据集合,所以数据仓库的概念模型设计,首先要对原有数据库系统加以分析理解,看在原有的数据库系统中“有什么”、“怎样组织的”和“如何分布的”等,然后再来考虑应当如何建立数据仓库系统的概念模型。

一方面,通过原有的数据库的设计文档以及在数据字典中的数据库关系模式,可以对企业现有的数据库中的容有一个完整而清晰的认识;另一方面,数据仓库的概念模型是面向企业全局建立的,它为集成来自各个面向应用的数据库的数据提供了统一的概念视图。

概念模型的设计是在较高的抽象层次上的设计,因此建立概念模型时不用考虑具体技术条件的限制。

1.界定系统的边界数据仓库是面向决策分析的数据库,我们无法在数据仓库设计的最初就得到详细而明确的需求,但是一些基本的方向性的需求还是摆在了设计人员的面前:. 要做的决策类型有哪些?. 决策者感兴趣的是什么问题?. 这些问题需要什么样的信息?. 要得到这些信息需要包含原有数据库系统的哪些部分的数据?这样,我们可以划定一个当前的大致的系统边界,集中精力进行最需要的部分的开发。

因而,从某种意义上讲,界定系统边界的工作也可以看作是数据仓库系统设计的需求分析,因为它将决策者的数据分析的需求用系统边界的定义形式反映出来。

2,确定主要的主题域在这一步中,要确定系统所包含的主题域,然后对每个主题域的容进行较明确数据仓库建模技术在电信行业中的应用的描述,描述的容包括:. 主题域的公共码键;. 主题域之间的联系:. 充分代表主题的属性组。

2.5.2逻辑模型设计逻辑建模是数据仓库实施中的重要一环,因为它能直接反映出业务部门的需求,同时对系统的物理实施有着重要的指导作用。

在这一步里进行的工作主要有:. 分析主题域,确定当前要装载的主题;. 确定粒度层次划分;. 确定数据分割策略;. 关系模式定义;. 记录系统定义逻辑模型设计的成果是,对每个当前要装载的主题的逻辑实现进行定义,并将相关容记录在数据仓库的元数据中,包括:. 适当的粒度划分;. 合理的数据分割策略;. 适当的表划分;. 定义合适的数据来源等。

I.分析主题域在概念模型设计中,我们确定了几个基本的主题域,但是,数据仓库的设计方法是一个逐步求精的过程,在进行设计时,一般是一次一个主题或一次若干个主题地逐步完成的。

所以,我们必须对概念模型设计步骤中确定的几个基本主题域进行分析,一并选择首先要实施的主题域。

选择第一个主题域所要考虑的是它要足够大,以便使得该主题域能建设成为一个可应用的系统;它还要足够小,以便于开发和较快地实施。

如果所选择的主题域很大并且很复杂,我们甚至可以针对它的一个有意义的子集来进行开发。

在每一次的反馈过程中,都要进行主题域的分析。

z.粒度层次划分数据仓库逻辑设计中要解决的一个重要问题是决定数据仓库的粒度划分层次,粒度层次划分适当与否直接影响到数据仓库中的数据量和所适合的查询类型。

确定数据仓库的粒度划分,可以使用在粒度划分一节中介绍的方法,通过估算数据行数和所需的DASD数,来确定是采用单一粒度还是多重粒度,以及粒度划分的层次。

3.确定数据分割策略在这一步里,要选择适当的数据分割的标准,一般要考虑以下几方面因素:数据量〔而非记录行数)、数据分析处理的实际情况、简单易行以及粒度划分策略等。

数据量的大小是决定是否进行数据分割和如何分割的主要因素;数据分析处理的要选择数据分割标准的一个主要依据,因为数据分割是跟数据分析处理的对象紧密联系的;我们还要考虑到所选择的数据分割标准应是自然的、易于实施的:同时也要考虑数据分割的标准与粒度划分层次是适应的。

4.关系模式定义数据仓库的每个主题都是由多个表来实现的,这些表之间依靠主题的公共码键联系在一起,形成一个完整的主题。

在概念模型设计时,我们就确定了数据仓库的基本主题,并对每个主题的公共码键、基本容等做了描述在这一步里,我们将要对选定_的当前实施的主题进行模式划分,形成多个表,并确定各个表的关系模式。

用关系型数据库来实现数据仓库信息模型时,目前较常用的两种建模方法是所谓的第三式(3NF,即Third Normal Form)和星型模式Star-Schem司,我们将重点讨论两种方法的特点和它们在数据仓库系统中的适用场合。

4.1什么是第三式式是数据库逻辑模型设计的基本理论,一个关系模型可以从第一式到第五式进行无损分解,这个过程也称为规化(Normalize)。

在数据仓库的模型设计中目前一般采用第三式,它有非常严格的数学定义。

如果从其表达的含义来看,一个符合第三式的关系必须具有以下三个条件:1.每个属性的值唯一,不具有多义性;2.每个非主属性必须完全依赖于整个主键,而非主键的一部分;3.每个非主属性不能依赖于其他关系中的属性,团为这样的话,这种属性应该归到其他关系中去。

我们可以看到,第三式的定义基本上是围绕主键与非主属性之间的关系而作出的。

如果只满足第一个条件,则称为第一式;如果满足前面两个条件,则称为第二式,依此类推。

因此,各级式是向下兼容的。

4.2什么是星型模式星型模式是一种多维的数据关系,它由一个事实表(Fact Table)和一组维表(Dimension Table)组成。

每个维表都有一个维作为主键,所有这些维则组合成事实表的主键,换言之,事实表主键的每个元素都是维表的外键。

事实表的非主属性称为事实(Fact),它们一般都是数值或其他可以进行计算的数据;而维大都是文字、时间等类型的数据。

与星型模式类似还有一种业界提的比较多的设计方式是雪花模式,它也是一种在关系数据库中实现多维数据关系的方式,与星型模式相区别的是它的维表结构与星型模式不同。

星型模式中同一维度的不同层次位于一维表中,维表由唯一主键和事实表关连;雪花模式中同一维度中的不同层次位于不同的层次表中,最低层次表与事实表关连,各个层次再分别和比自己高一级的层次表关连。

因为星型模式查询效率要比雪花模式高的多,所以比较多的是采用星型模式设计多维数据关系。

4. 3第三式和星型模式在数据仓库中的应用大多数人在设计中央数据仓库的逻辑模型时,都按照第三式来设计;而在进行物理实施时,则由于数据库引擎的限制,不得不对逻辑模型进行不规处理(De-Normalize),以提高系统的响应速度,这当然是以增加系统的复杂度、维护工作量、磁盘使用比率(指原始数据与磁盘大小的比率)并降低系统执行动态查询能力为代价的。

根据数据仓库的测试标准TPC-D规,在数据仓库系统中,对数据库引擎最大的挑战主要是这样几种操作:多表连接、表的累计、数据排序、大量数据的扫描。

下面列出了一些DBMS在实际系统中针对这些困难所采用的折衷处理办法:1、如何避免多表连接:在设计模型时对表进行合并,即所谓的预连接(Pre-Join)。

当数据规模小时,也可以采用星型模式,这样能提高系统速度,但增加了数据冗余量。

2、如何避免表的累计:在模型中增加有关小计数据(Summarized Data)的项。

这样也增加了数据冗余,而且如果某项问题不在预建的累计项,需临时调整。

3、如何避免数据排序:对数据事先排序。

但随着数据仓库系统的运行,不断有新的数据加入,数据库管理员的工作将大大增加。

大量的时间将用于对系统的整理,系统的可用性随之降低。

4、如何避免大表扫描:通过使用大量的索引,可以避免对大量数据进行扫描。

但这也将增加系统的复杂程度,降低系统进行动态查询的能力。

这些措施大都属于不规处理。

根据上面的讨论,当把规的系统逻辑模型进行物理实施时,由于数据库引擎的限制,常常需要进行不规处理。

举例来说,当系统数据量很小,比如只有几个GB时,进行多表连接之类复杂查询的响应时间是可以忍受的。

但是设想一下加果数据量扩展到很大,到几百GB,甚至上TB,一个表中的记录往往有几百万、几千万,甚至更多,这时进行多表连接这样的复杂查询,响应时间长得不可忍受。

这时就有必要把几个表合并,尽量减少表的连接操作。

当然,不规处理的程度取决于数据库引擎的并行处理能力。

数据仓库建设者在选择数据库引擎时,除了参考一些相关的基准测试结果外,最好是能根据自己的实际情况设计测试方案,从几个数据库系统中选择最适合自己企业决策要求的一种。

不规化处理虽然是提高系统性能的一种有效手段,但是由于中央数据仓库的数据模型反映了整个企业的业务运行规律,在这里进行不规处理容易影响整个系统,不利于今后的扩展。

而且不规处理产生的数据冗余将使整个系统的数据量迅速增加,这将增加DBA的工作量和系统投资。

因此,当系统性能下降而进行不规处理时,比较好的办法是选择问题较集中的部门数据集市实施这种措施。

这样既能有效地改善系统性能汉不至于影响整个系统。

在国外一些成功的大型企业级数据仓库案例中,基本上都是采用这种方法。

那么,在中央数据仓库中是否可以采用星型模式来进行模型设计呢?我们知道,星型模式中有一个事实表和一组维表,我们可以把事实看成是各个维交叉点上的值。

例如,一个汽车厂在研究其销售情况时可以考察汽车的型号、颜色、代理商等多种因素,这些因素就是维,而销售量就是事实。

这种多维模型能迅速给出基于各个维的报表,这些维必须事先确定。

星型模式之所以速度快,在于针对各个维作了大量的预处理,如按照维进行预先的统计、分类、排序等。

在上面的例子中,就是按照汽车的型号、颜色、代理商进行预先的销售量统计。

因此,在星型模式设计的数据仓库中,作报表的速度虽然很快,但由于存在大量的预处理,其建模过程相对来说就比较慢。

当业务问题发生变化,原来的维不能满足要求时,需要增加新的维。

由于事实表的主键由所有维表的主键组成,这种维的变动将是非常复杂、非常耗时的。

星型模式另一个显著的缺点是数据的冗余量很大。

综合这些讨论,不难得出结论,星型模式比较适合于预先定义好的问题加需要产生大量报表的场合;而不适合于动态查询多、系统可扩展能力要求高或者数据量很大的场合。

因此,星型模式在一些要求大量报表的部门数据集市中有较多的应用。

4. 4两种模式的比较上面讨论了数据仓库逻辑模型设计中常用的两种方法.在数据仓库的应用环境中,主要有两种负载:一种是回答重复性的问题;另一种是回答交互性的问题。

动态查询具有较明显的交互性特征,即在一个问题答案的基础上进行进一步的探索,这种交互过程常称为数据挖掘(Data Mining)或者知识探索(Knowledge Discovery)。

相关文档
最新文档