数据仓库与数据挖掘技术 第2章

合集下载

数据仓库与数据挖掘技术 第二章 数据仓库

数据仓库与数据挖掘技术 第二章 数据仓库

第2章数据仓库2.1数据仓库的基本概念1. 数据仓库的数据是面向主题的数据仓库与数据挖掘技术图2-1主题间的重叠关系2. 数据仓库的数据是集成的3. 数据仓库的数据是不可更新的数据仓库与数据挖掘技术4. 数据仓库的数据是随时间不断变化的图2-2数据仓库体系结构2.2数据仓库的体系结构数据仓库与数据挖掘技术图2-3数据仓库数据组织结构2.2.1元数据1. 元数据在数据仓库中的作用2. 元数据的使用3. 元数据的分类4. 元数据的内容2.2.2粒度的概念1. 按时间段综合数据的粒度2. 样本数据库2.2.3分割问题1. 分割的优越性2. 数据分割的标准3. 分割的层次2.2.4数据仓库中的数据组织形式1. 简单堆积结构图2-4简单堆积结构数据组织形式2. 轮转综合结构数据仓库与数据挖掘技术图2-5轮转综合结构数据组织形式3. 简单直接结构图2-6简单直接结构数据组织形式4. 连续结构图2-7连续结构数据组织形式数据仓库与数据挖掘技术2.3数据仓库的数据模型2.3.1概念数据模型图2-8商品、顾客和供应商E-R图2.3.2逻辑数据模型2.3.3物理数据模型2.3.4高层数据模型、中间层数据模型和低层数据模型1. 高层数据模型2. 中间层数据模型3. 低层数据模型数据仓库与数据挖掘技术2.4数据仓库设计步骤图2-9数据仓库设计步骤2.4.1概念模型设计1. 界定系统边界2. 确定主要的主题域3. 实例2.4.2技术准备工作2.4.3逻辑模型设计1. 分析主题域2. 划分粒度层次3. 确定数据分割策略4. 定义关系模式5. 定义记录系统2.4.4物理模型设计1. 确定数据的存储结构数据仓库与数据挖掘技术2. 确定索引策略3. 确定数据存放位置4. 确定存储分配2.4.5数据仓库的生成1. 接口设计2. 数据装入2.4.6数据仓库的使用和维护1. 开发DSS应用图2-10DSS应用开发步骤2. 进一步理解需求,改善系统,维护数据仓库图2-11William H.Inmon数据仓库设计步骤数据仓库与数据挖掘技术2.5利用SQL Server 2005构建数据仓库图2-12使用Visual Studio 2005系统新建项目图2-13新建Analysis Services项目图2-14新建数据源数据仓库与数据挖掘技术图2-15新建数据源向导图2-16选择如何连接数据源图2-17连接管理器图2-18连接管理器连接测试成功窗口图2-19选择已经连接的数据库作为数据源图2-20选择连接数据源的凭证图2-21新建数据源向导完成图2-22右击新建数据源视图图2-23新建数据源视图向导图2-24选择视图的数据源图2-25选择表和视图图2-26完成新建数据源视图向导图2-27新建多维数据集图2-28多维数据集向导图2-29选择生成多维数据集的方法图2-30选择多维数据集的数据源视图图2-31检测事实数据表和维度表图2-32标示事实表和维度表图2-33选择度量值图2-34扫描维度图2-35查看维度结构图2-36完成多维数据集向导图2-37创建完成数据仓库界面习题21. 如何理解数据仓库是面向主题的、集成的、不可更改的和是随时间不断变化的。

数据仓库与数据挖掘教程(第2版)课后习题答案 第二章

数据仓库与数据挖掘教程(第2版)课后习题答案 第二章

数据仓库与数据挖掘教程(第2版)课后习题答案第二章1. 什么是数据仓库?它与传统数据库有什么不同?答:数据仓库是一个面向主题、集成、稳定、可学习的数据集合,用于支持企业决策制定和决策支持系统。

与传统数据库相比,数据仓库更注重数据的整合和大数据的处理能力,以支持更高级别的数据分析和决策。

2. 什么是元数据?有哪些类型?答:元数据指描述数据仓库中数据的数据,用于描述数据的含义、格式、内容、质量、来源、使用和存储等方面的信息。

元数据有三种类型:技术元数据、业务元数据和操作元数据。

3. 数据仓库的架构有哪些组成部分?请简述各组成部分的作用。

答:数据仓库的架构主要包括数据源、数据抽取、清理和转换、存储和管理、元数据管理、查询和分析等几个组成部分。

- 数据源:指数据仓库的数据来源,可以是事务处理系统、外部数据源、第三方提供商等。

- 数据抽取、清理和转换:将数据从各种不同的来源抽取出来并转化为简单、标准的格式,以便进行加工和分析。

- 存储和管理:将经过抽取、转换和清洗后的数据存储在数据仓库中并进行管理,查找、更新和删除等操作。

- 元数据管理:对数据仓库中的元数据进行管理,并将其存储在元数据存储库中。

- 查询和分析:通过各种查询和分析工具来进行数据挖掘、分析和报告。

4. 请列出数据仓库中的三种主要数据类型。

答:数据仓库中的三种主要数据类型包括事实数据、维度数据和元数据。

5. 请列出数据仓库的三种不同的操作类型。

答:数据仓库的三种不同的操作类型包括基础操作、加工操作和查询操作。

6. 数据挖掘的定义是什么?答:数据挖掘是一种通过分析大量数据来发现有意义模式、趋势和关联的过程。

它是既包含统计学、机器学习和数据库技术的交叉学科,又包含更广泛的知识和业务领域。

7. 请列出数据挖掘中的四个主要任务。

答:数据挖掘中的四个主要任务包括描述性数据挖掘、预测性数据挖掘、关联数据挖掘和分类和聚类。

8. 数据仓库中经常使用OLAP分析方式,您了解OLAP是什么吗?答: OLAP是一种面向主题的数据分析方式,可以帮助用户对快速变化的数据进行多维分析和决策支持。

数据仓库与数据挖掘技术复习资料

数据仓库与数据挖掘技术复习资料

数据仓库与数据挖掘技术复习资料一、单项选择题1. 数据挖掘技术包括三个主要的部份 ( C )A.数据、模型、技术C.数据、建模能力、算法与技术2.关于基本数据的元数据是指: ( D B.算法、技术、领域知识D.建模能力、算法与技术、领域知识)A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B.基本元数据包括与企业相关的管理方面的数据和信息;C.基本元数据包括日志文件和简历执行处理的时序调度信息;D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息。

3. 关于 OLAP 和 OLTP 的说法,下列不正确的是: ( A)A.OLAP 事务量大,但事务内容比较简单且重复率高B.OLAP 的最终数据来源与 OLTP 不一样C.OLTP 面对的是决策人员和高层管理人员D.OLTP 以应用为核心,是应用驱动的4.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务? ( C )A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘5.下面哪种不属于数据预处理的方法? ( D )A.变量代换B.离散化C. 会萃D. 估计遗漏值6. 在 ID3 算法中信息增益是指(A.信息的溢出程度C.熵增加的程度最大D )B.信息的增加效益D.熵减少的程度最大7. 以下哪个算法是基于规则的分类器 ( A )A. C4.5B. KNNC. BayesD. ANN8. 以下哪项关于决策树的说法是错误的( C )A.冗余属性不会对决策树的准确率造成不利的影响B.子树可能在决策树中重复多次C.决策树算法对于噪声的干扰非常敏感D.寻觅最佳决策树是 NP 彻底问题9. 假设收入属性的最小与最大分别是 10000 和 90000,现在想把当前值 30000 映射到区间[0,1], 若采用最大-最小数据规范方法,计算结果是( A )A. 0.25B. 0.375 D. 0.510. 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: ( D )A.有放回的简单随机抽样B.无放回的简单随机抽样C.分层抽样D.渐进抽样11. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离? ( B)A. 分类B.聚类C. 关联分析D. 隐马尔可夫链12. 设 X={1,2,3}是频繁项集,则可由X 产生( C )个关联规则。

数据仓库第二章——OLAP联机分析处理

数据仓库第二章——OLAP联机分析处理
(1)快速性:用户对OLAP的快速反应能力有很高的要求。 (2)可分析性:OLAP系统应能处理任何逻辑分析和统计分
析。
(3)多维性:系统必须提供对数据分析的多维视图和分析。 (4)信息性:OLAP系统应能及时获得信息,并且管理大容量
的信息。
4.1.2 OLAP准则
1993年,E.F.Codd提出OLAP的12条准则,其主 要的准则有:
6
4.1.1 OLAP的定义
1. OLAP理事会给出的定义 联机分析处理(OLAP)是一种软件技术,它
使分析人员能够迅速、一致、交互地从各个 方面观察信息,以达到深入理解数据的目的。 这些信息是从原始数据转换过来的,按照用 户的理解,它反映了企业真实的方方面面。
7
2. OLAP的简单定义
联机分析处理是共享多维信息的快速分析。 它体现了四个特征:
同时计算一些可能同时的聚集,避免不必要 的单元再次访问。
总结:
由于分块技术设计“重叠”某些聚集计算, 称该技术为多路数组聚集(Multiway array aggregation)
它同时聚集——即同时对多个维计算聚集。
44
4.2.4 MOLAP与ROLAP的比较
1.数据存取速度 2.数据存储的容量 3.多维计算的能力 4.维度变化的适应性 5.数据变化的适应性 6.软硬件平台的适应性 7.元数据管理
图4.4多维类型结构中的空间数据点
4.3.3多维数据的分析视图
在平面的屏幕上显示多维数据,是利用行、 列和页面三个显示组来表示的。例如,对上 例的四维MTS实例,在页面上选定商店维度 中“商店3”,在行中选定时间维的“1月、2 月、3月”共3个成员,在列中选定产品维中 的“上衣、裤、帽子”三个成员,以及指标 维中的“固定成本、直接销售”二个成员。 该四维数据的显示如图4.6所示。

数据仓库与数据挖掘教程(第2版)陈文伟版课后习题答案(非常全)

数据仓库与数据挖掘教程(第2版)陈文伟版课后习题答案(非常全)

第一章作业1.数据库与数据仓库的本质差别是什么?书P2(1)数据库用于事务处理,数据仓库用于决策分析。

(2)数据库保持事物处理的当前状态,数据仓库即保存过去的数据又保存当前的数据。

(3)数据仓库的数据是大量数据库的集成。

(4)对数据库的操作比较明确,操作数量较小。

对数据仓库操作不明确,操作数据量大。

2.从数据库发展到数据仓库的原因是什么?书P1(1)数据库数据太多,信息贫乏。

如何将大量的数据转化为辅助决策信息成为了研究热点。

(2)异构环境数据的转换和共享。

随着各类数据库产品的增加,异构环境的数据也逐渐增加,如何实现这些异构环境数据的转换的共享也成了研究热点。

(3)利用数据进行事物处理转变为利用数据支持决策。

3.举例说明数据库与数据仓库的不同。

比如,银行中储蓄业务要建立储蓄数据库,信用卡要建立信用卡数据库,贷款业务要建立贷款数据库,这些数据库方便了银行的事务处理。

但是要对这些独立数据库进行决策分析就很复杂了。

因此可以把这些数据库中的数据存储转化到数据仓库中,方便进行决策。

4.OLTP(On Line Transaction Processing,联机事物处理)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。

OLAP(On Line Analytical Processing,联机分析处理)是使用多维数据库和多维分析的方法,对多个关系数据库共同进行大量的综合计算来得到结果的方法。

5.OLTP是用户的数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。

6.OLTP OLAP细节性数据综合性数据当前数据历史数据经常更新不更新,但周期性刷新一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理面向应用,事务驱动面向分析,分析驱动7.包括数据项、数据结构、数据流、数据存储和处理过程五个部分。

8.定义为关于数据的数据,描述数据仓库中数据及其环境的数据。

数据仓库与数据挖掘 课后答案 (陈志泊 著) 清华大学出版社

数据仓库与数据挖掘  课后答案 (陈志泊 著) 清华大学出版社

第1章数据仓库的概念与体系结构1.数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。

2.元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据元数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。

3.数据处理通常分成两大类:联机事务处理OLTP和联机分析处理OLAP。

4.多维分析是指对以“维”形式组织起来的数据(多维数据集)采取切片(Slice)、切块(dice)、钻取(Drill-down 和Roll-up 等)和旋转(pivot)等各种分析动作,以求剖析数据,使用户能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。

5. ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。

6.数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。

7.数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集市、依赖型数据集市和操作型数据存储、逻辑型数据集市和实时数据仓库。

8.操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。

9.“实时数据仓库”意味着源数据系统、决策支持服务和数据仓库之间以一个接近实时的速度交换数据和业务规则。

10.从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以营运导向为主、以实时数据仓库和自动决策为主。

11.什么是数据仓库?数据仓库的特点主要有哪些?答:数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。

数据仓库的特点包含以下几个方面:(1)面向主题。

《数据仓库与数据挖掘》课程简介

《数据仓库与数据挖掘》课程简介

数据仓库与数据挖掘
(DataWarehouseandDataMining)
总学时:48学时理论:48学时实验(上机、实习等):。

学时
学分:3
课程主要内容:
数据仓库(DW)与数据挖掘(DM)是20世纪90年代中期兴起的新技术。

数据仓库用于决策分析,数据挖掘用于从数据库中发现知识。

数据仓库和数据挖掘的结合为决策支持系统(DSS)开辟了新方向,它们也是商业智能(B1)的主要技术。

数据仓库与数据挖掘是计算机专业的选修课程,本课程主要讲述:数据仓库的基本概念、原理及应用;各类数据挖掘的分类、原理与方法。

介绍数据仓库的概念、特征、存贮结构及数据分析的手段。

重点介绍数据挖掘中的分类挖掘、聚类挖掘、关联规则挖掘的概念、原理、方法及应用特征。

简单介绍WEB挖掘、空间数据挖掘、时序数据挖掘等的基本原理与方法。

同时,结合高级语言与SQ1编写锻炼学习者在数据库中对数据进行提取与分析能力。

先修课程:
≪C语言程序设计》、《离散数学》、《数据结构》、《数据库系统原理》、《操作系统原理》等。

适用专业:
计算机科学与技术
教材:
MargaretH.Dunham著,郭崇慧等译.《数据挖掘教程》.北京:清华大学出版社,2005教学参考书:
[1]范明等译.《数据挖掘概念与技术》.北京:机械工业出版社,2008。

数据仓库与数据挖掘技术-试题答案

数据仓库与数据挖掘技术-试题答案

数据仓库与数据挖掘技术答案一、简答1.为什么需要对数据进行预处理?数据预处理主要包括哪些工作(需要对数据进行哪些方面预处理)?(1)现实世界的数据是杂乱的,数据多了什么问题会出现。

数据库极易受到噪音数据(包含错误或孤立点)、遗漏数据(有些感兴趣的属性缺少属性值或仅包含聚集数据)和不一致数据(在编码或者命名上存在差异)的侵扰,因为数据库太大,常常多达几G或更多。

进行数据预处理,提高数据质量,从而提高挖掘结果质量。

(2)数据预处理主要包括:数据清理:去除数据中的噪音、纠正不一致;数据集成:将数据由多个源合并成一致的数据存储,如数据仓库或数据方;数据交换:规范化或聚集可以改进涉及距离度量的挖掘算法精度和有效性;数据归约:通过聚集、删除冗余特征或聚类等方法来压缩数据。

数据离散化:属于数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要。

2. 什么叫有监督学习?什么叫无监督学习?) 是通过发现数据属性和类别属性之间的关联模式,并通监督学习(Supervised learning或归纳过利用这些模式来预测未知数据实例的类别属性。

监督学习又称为分类Classification。

学习Inductive Learning无监督学习(Unsupervised learning)即聚类技术。

在一些应用中,数据的类别属性是缺失的,用户希望通过浏览数据来发现其的某些内在结构。

聚类就是发现这种内在结构的技术。

3.什么是数据仓库的星形模式?它与雪花模式有何不同?雪花模式与星形模式不同在于:雪花模式的维表可能是规范化形式,以便减少冗余。

这种表易于维护,并节省存储空间,因为当维结构作为列包含在内时,大维表可能非常大。

然而,与巨大的事实表相比,这种空间的节省可以忽略。

此外,由于执行查询更多的连接操作,雪花结构可能降低浏览的性能。

这样系统的性能可能受影响。

因此,在数据仓库设计中,雪花模式不如星形模式流行。

二、写出伪代码三答:(1)所有频繁项集为:[E,K,O] [K,M] [K,Y] (2) 关联规则:[O]->[E,K] 1.0[E,O] -> [K] 1.0[K,O] -> [E] 1.01.0[M] -> [K][Y] -> [K] 1.0答:a)决策树表示一种树型结构,它由它的分来对该类型对象依靠属性进行分类。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2011-11-15
35
数据仓库数据库
是整个数据仓库环境的核心,是数据存放的 地方,提供对数据的支持和快速检索的支持 相对于操纵型数据库来说,其突出的特点是 对海量数据的支持和快速的检索技术。 包含
明细数据和汇总数据
2011-11-15
36
查询工具
查询工具通常包括一个用于向数据库提出问 题的最终用户接口,此接口位于联机分析处 理OLAP的程序中。
2011-11-15
37
4、数据仓库的逻辑结构是怎样的? 数据仓库的逻辑结构是怎样的?
2011-11-15
38
数据仓库的粒度
• 粒度是指数据仓库的数据单位中保存数据细
化或综合程度的级别。
2011-11-15
39
数据仓库的粒度
粒度 粒度越小,细节程度越高,综合程度越低,回答查询的 种类就越多反之,粒度的增大将会提高查询效率,但同 时也造成回答细节问题能力的下降。 低粒度级(高细节级) 高粒度级(低细节级) 例如:电讯公司数据仓库中,保存一个顾客一个月内每 个电话的细节——高细节级,低粒度级,假设有200个记 录,包含本月内200个电话的任何信息;保存一个顾客一 个月内每天电话的汇总——轻度综合,较高粒度级,只 有30或31条记录,只能回答汇总查询的问题。保存一个 顾客一个月内的电话的综合——低细节级,高粒度级, 只有一条记录。
2011-11-15 33
技术元数据:用于对数据仓库进行管理的元数据 是数据仓库的设计和管理人员用于数据仓库开发 和日常管理数据仓库时使用的元数据。它包括数 据源信息、数据转换的描述、数据仓库对象和数 据结构的定义、数据清理和数据更新时采用的规 则、源数据到目的数据的映射、用户访问权限、 数据备份历史纪录、数据导入历史纪录、信息发 布历史纪录等。 商业元数据:帮助使用数据仓库的元数据 从商业业务的角度描述了数据仓库中的数据。它 包括业务主题的描述,以及对所包含的数据、查 询、报表的描述,等等。
数据源:来自几个操作系统的数据 次序:自顶向下 优点:在第一阶段就提供有用的信息 缺点:到达这一阶段要花费较长的时间、并 且需要的活动很多很复杂
2011-11-15
23
数据仓库系统设计
重点:设计数据仓库的元素,即数据库和数 据分析
如何选择数据库体系结构 按照哪种系统结构设计 如何安排数据库 定义数据如何使用所有的数据源都被映射传送到 数据仓库 描述数据仓库何时及时如何更新并回答程序员遇 到的无数多个”我该怎么办”
2011-11-15
47
简单堆积结构
从操作型环境中取出每天的事务数据 根据主题来综合成数据仓库记录
2011-11-15
48
轮转综合数据存储
只有在轮转综合文件中的数据才能被输入到不同的结构形式 中,而操作型数据到数据仓库环境中的数据处理方法简单的 堆积结构相同。
2011-11-15
方式:每天进行数据综合, 方式:每天进行数据综合,每 周累加, 周累加,月底将每周的数据加 到一起, 到一起,并放于第一个每月响 应的数据位置处, 应的数据位置处,然后每周数 据位置清零。到了年底, 据位置清零。到了年底,将每 月数据累加, 月数据累加,放入第一个年度 响应的数据位置处, 响应的数据位置处,然后每月 49 数据位置清零。 数据位置清零。
2011-11-15 34
元数据为访问数据仓库提供了一个信息目录 数据仓库中都有些什么数据 这些数据是怎么得到的 谁在管辖 怎么访问这些数据 其他更多的信息 可通过查询工具得知元数据的有关资料 元数据是数据仓库运行和维护的中心,数据仓库服 务器必须利用元数据来存储和更新数据,用户必须 通过元数据来了解和访问数据。
是为一些事件的发生而产生的 事件的类型
随机发生的离散活动 在规定时间点
事件触发快照,其基本结构由四个部分组成
键码(Key) 时间单元(描述事件已发生或捕捉数据的时间) 只和关键码相关的初始数据 与关键码无直接关系的二次数据
2011-11-15 53
课堂练习
充分认识数据仓库中几个关键术语,说明它 们的概念与意义 ETL 元数据 粒度 数据分割 快照 轮转综合数据存储
把数据分散到各自小的物理单元中去 任何给定的单元属于一个分割 数据分割后的数据单元称为分片 分割后的单元具有灵活性,能够实现重构、 索引、顺序扫描、重组、恢复、监控等
2011-11-15
44
数据分割
2011-11-15
45
2011-11-15
46
数据仓库中数据组织
简单堆积结构 轮转综合数据存储 简单直接文件 连续组织
第二章 数据仓库的分析
主要内容
1. 2. 3. 4. 5.
如何建立数据仓库的需求模型? 影响数据仓库成功的因素有哪些? 数据仓库开发各阶段的任务是什么? 数据仓库的基本体系结构是怎样的? 数据仓库的逻辑结构是怎样的?
2011-11-15
1
如何建立数据仓库的需求模型? 1、如何建立数据仓库的需求模型?
——是数据仓库的分析中首要解决的问题 是数据仓库的分析中首要解决的问题
2011-11-15
2
图2.1 数据仓库的需求分析模型
2011-11-15 3
2、影响数据仓库成功的因素有哪些? 影响数据仓库成功的因素有哪些?
2011-11-15
4
影响因素
数据存储的组织方式,决定了数据的可获取性与有 用性,进而决定了数据的价值。 数据仓库的数据库结构有以下要求:(P44表2.1) 反映静态数据 存储历史数据 在时间上是可见的、明确的 数据的粒度是详细的可导出的汇总 定期的、计划的更新 支持的任务是不可预期的 对数据库的灵活性要求高
简单堆积与轮转综合的比较
2011-11-15
50
简单直接文件组织
把数据从操作型环境拖入数据仓库环境中, 无任何累积,以较长时间为单位的 它是间隔一定时间的操作型数据的一个快照
2011-11-15
51
连续数据组织
依据两个或更多的简单直接文件快照进行合 并创建或追加的
2011-11-15
52
快照
2011-11-15 5
2011-11-15
6
2011-11-15
7
3、数据仓库开发各阶段的任务是什么? 数据仓库开发各阶段的任务是什么?
2011-11-15
8
传统的操作型系统的生命周期
System Development Life Cycle
SDLC系统开发生命周期 系统开发生命周期 需求驱动的开发生命周期 需求驱动的开发生命周期
数 据 仓 数 据 仓 库
数据
库 的源系统 体 或数据库中 系 到 结构
2011-11-15
29
数据仓库体系结构
2011-11-15
30
数据分级
Data Staging 提取,转化,净化,加载 数据仓库不直接存储事务数据,提取时必 须将事务数据进行转换成数据仓库的数据 结构和内部格式,为了保证数据的品质, 还要对数据进行净化,将净化后的数据加 载到数据仓库中。
2011-11-15
21
数据驱动方法
数据源:连续的数据源 次序:自顶向下 优点:每一个阶段在技术上都很简单,只涉 及一个文件或数据库类型映射到数据仓库数 据库之中,每个附加数据源只有在其前面的 附加数据源处理完之后才添加。 缺Байду номын сангаас:数据资源不能利落地映射到商业查询 中。
2011-11-15 22
应用驱动方法
提取 清洗 集结地 操作型 系统
2011-11-15
加载与索引
转换 数据仓 库
32
拒绝数据的信息 有关拒绝数据的信息
元数据
元数据Metadata
“有关数据的数据” “数据仓库的元数据是要解决何人在何时何地为 了什么原因及怎样使用数据仓库的问题”。 可对 数据仓库中的各种数据进行详细的描述与说明, 说明每个数据的上下文关系,使每个数据具有符 合现实的真实含义,使最终用户了解这些数据之 间的关系。 作用: 通过元数据进行数据仓库的管理; 通过元数据来使用数据仓库。
信息系统服务人员 最终用户支持人员 领导和管理人员 项目领导 项目经理
硬件 软件 2011-11-15
19
2.数据仓库的其他阶段 数据仓库的其他阶段
2011-11-15
20
数据仓库的系统分析
系统分析的目标是了解当前实际是如何工作的,以 使得系统的操作可在将来得到改善。 原型法 注意:不能与其所有可操作数据源相连,数据仍 然需要做数据净化、传送等工作 开发方法 数据驱动法 应用驱动法
2011-11-15 54
用户需求分析 可行性研究 用户的认可 建设数据仓库的协调与阻力分析 开发项目计划制定 关键资源管理
2011-11-15
12
(1)用户需求分析内容 )
用户如何处理其事务 如何衡量用户的工作表现 用户需要什么属性(在信息方面) 应用于这些属性的业务层次结构是什么 用户现在使用什么数据,以及需要什么数据 用户需要什么水平的细节或汇总数据
2011-11-15
16
(4)建设数据仓库的协调与阻力分析 )
2011-11-15
17
(5)开发项目计划制定 )
2011-11-15
18
(6)创建数据仓库所使用的关键资源 )
人才
业务分析员
确定和定义目的和目标用户群 确定满足组织战略性商业目标
数据体系结构设计师
数据的采集、转换、分配和加载 定义数据模型
2011-11-15
31
ETL(提取—转换 加载) (提取 转换 加载) 转换—加载
数据的提取—转换—加载(ETL)是用来实现异构数据源的 数据集成,即完成数据的抓取/抽取、清洗、转换、加载与索 引等数据调和工作。 ETL是数据仓库系统中最重要的处理工具之一,它的主要任 务是建立、维护数据仓库,通过与操作型数据源的映像关系 执行数据提取—转换—加载的任务。其中涉及各种各样的技 术和处理,比如,数据清洗及其准备结构的设计和处理、映 像技术和方法、粒度的考虑,以及数据的提取、转换、追加、 加载作业控制等一系列问题。
相关文档
最新文档