数据挖掘与数据仓库复习资料

合集下载

数据仓库与数据挖掘技术复习资料

数据仓库与数据挖掘技术复习资料

数据仓库与数据挖掘技术复习资料一、单项选择题1.数据挖掘技术包括三个主要的部分( C )A.数据、模型、技术 B.算法、技术、领域知识C.数据、建模能力、算法与技术 D.建模能力、算法与技术、领域知识2.关于基本数据的元数据是指: ( D )A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B.基本元数据包括与企业相关的管理方面的数据和信息;C.基本元数据包括日志文件和简历执行处理的时序调度信息;D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息。

3.关于OLAP和OLTP的说法,下列不正确的是: ( A)A.OLAP事务量大,但事务内容比较简单且重复率高B.OLAP的最终数据来源与OLTP不一样C.OLTP面对的是决策人员和高层管理人员D.OLTP以应用为核心,是应用驱动的4.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( C )A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘5.下面哪种不属于数据预处理的方法? ( D )A.变量代换B.离散化C. 聚集D. 估计遗漏值6.在ID3 算法中信息增益是指( D )A.信息的溢出程度B.信息的增加效益C.熵增加的程度最大D.熵减少的程度最大7.以下哪个算法是基于规则的分类器 ( A )A. C4.5B. KNNC. BayesD. ANN8.以下哪项关于决策树的说法是错误的( C )A.冗余属性不会对决策树的准确率造成不利的影响B.子树可能在决策树中重复多次C.决策树算法对于噪声的干扰非常敏感D.寻找最佳决策树是NP完全问题9.假设收入属性的最小与最大分别是10000和90000,现在想把当前值30000映射到区间[0,1],若采用最大-最小数据规范方法,计算结果是( A )A. 0.25B. 0.375C.0.125D. 0.510.在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是:( D )A.有放回的简单随机抽样B.无放回的简单随机抽样C.分层抽样D.渐进抽样11.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( B)A. 分类B.聚类C. 关联分析D. 隐马尔可夫链12.设X={1,2,3}是频繁项集,则可由X产生( C )个关联规则。

数据仓库和数据挖掘复习

数据仓库和数据挖掘复习

数据仓库和数据挖掘复习第一章数据仓库和数据挖掘概述一、概念题1、数据仓库的定义是什么?答:数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中央决策制定过程。

2、数据仓库的特点是什么?答:数据仓库的特点是:(1)数据仓库是面向主题的;(2)数据仓库是集成的;(3)数据仓库是稳定的;(4)数据仓库是随时间变化的;(5)数据仓库中的数据量大;(6)数据仓库软硬件要求较高。

3、什么是商业智能?答:商业智能以数据库为基准,通过联机分析处理和数据挖掘技术帮助企业领导者针对市场变化的环境,做出快速、准确的决策。

二、简答题1、数据仓库和数据挖掘的区别和联系。

区别:数据仓库是一种存储技术,它的数据存储量是一般数据库的100倍,它包含大量的历史数据、当前的详细数据以及综合数据。

它能适应于不同用户对不同决策需要提供所需的数据和信息。

数据挖掘是从人工智能机器学习中发展起来的。

它研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。

联系:数据仓库和数据挖掘都是决策支持新技术。

但他们有着完全不同的辅助决策方式。

数据仓库中存储着大量辅助决策的数据,它为不同的用户随时提供各种辅助决策的随机查询、综合信息或趋势分析信息。

数据挖掘是利用一系列算法挖掘数据中隐含的信息和知识,让用户在进行决策中使用。

第二章 数据仓库原理一、概念题1、数据仓库结构图是什么?2、数据集市的定义是什么?答:数据集市是指具有特定应用的数据仓库,主要针对某个具有战略意义的应用或者具体部门级的应用,支持用户利用已有的数据获得重要的竞争优势或者找到进入新市场的具体解决方案,它包括两种,即独立的数据集市,它的数据直接来源于各生产系统;从属数据集市,它的数据直接来自于中央数据仓库。

3、多维数据模型有哪些?答:对于逻辑数据模型,使用的多维数据模型主要有星型模型、雪花模型、星网模型、第三范式等。

4、ETL 过程是什么?答:数据仓库的数据获取需要经过抽取、转换、装载三个过程,即ETL 过程。

数据仓库与数据挖掘期末综合复习

数据仓库与数据挖掘期末综合复习

数据仓库与数据挖掘期末综合复习第一章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。

2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。

3、数据处理通常分成两大类:联机事务处理和联机分析处理。

4、多维分析是指以维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。

5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP 实现。

OLAP技术的有关概念:OLAP根据其存储数据的方式可分为三类:ROLAP、MOLAP、HOLAP6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。

7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。

&操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可挥发”的)、企业级的、详细的数据库,也叫运营数据存储。

9、实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。

10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。

11、什么是数据仓库?数据仓库的特点主要有哪些?数据仓库通常是指一个数据库环境,而不是支一件产品,它是提供用户用于决策支持的当前和历史数据,这些数据在传统的数据库中通常不方便得到。

数据仓库就是一个面向主题的(Subject Oriented )、集成的(Integrate )、相对稳定的(Non-Volatile )、反映历史变化(Time Variant )的数据集合,通常用于辅助决策支持。

数据仓库与数据挖掘复习提纲

数据仓库与数据挖掘复习提纲

数据仓库与数据挖掘复习提纲-标准化文件发布号:(9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII数据库应用技术(数据仓库与数据挖掘复习提纲)说明:考试形式:闭卷考试题型:填空、选择、判断、名词解释、简答题、综合题。

(由于试题是随机从试题库中抽取,有可能抽取的试题中不会全部包含上述的所有题型)另外:本提纲仅针对试题中的名词解释、简答题和综合题提供复习参考,不包括填空、选择、判断等其它题型的参考。

一:名词解释数据仓库、数据挖掘、OLAP、ODS(操作数据存储)二.简答题1.试述数据仓库系统与数据库系统的区别与相似之处。

2.试述数据仓库设计的步骤以及每一步所完成的工作。

3.OLAP与OLTP的区别有哪些?它们适合于运行在同一个服务器上吗为什么4.在数据挖掘前,为什么要对数据进行预处理,数据预处理的有哪些主要的处理方法?5.在现实世界的数据中,元组在某些属性上缺少值是常有的。

描述处理该问题的各种方法。

6.什么是数据仓库中的元数据,元数据包含哪些内容其重要性体现在哪些方面7.试述ODS在“DB-ODS-DW”体系结构中的作用。

8.请解释OLAP中维、维层次与维成员的概念,并举例说明。

9. 数据仓库中的数据是数据库中数据的简单堆积吗它有哪些常用的数据组织方式10.数据仓库和数据集市的区别是什么数据仓库的体系环境具有什么特点有哪些建立数据仓库体系化环境的方法它们各有何优劣11.数据仓库的设计包括哪些内容?12.在内容和使用者方面,数据仓库环境中的元数据与操作型环境中的元数据有何异同?13.为了提高数据仓库的性能,可以在哪些方面作一些努力在各个方面分别采用什么样的技术这些技术易于实现吗14.OLAP提供哪些基本操作?15.OLAP服务器有哪些实现方法它们的优劣是什么16.为什么不能依靠传统的业务处理系统进行决策分析17.自然演化体系结构中存在的问题?18.试述建立多维数据库的过程。

19.数据挖掘的主要方法。

数据仓库与数据挖掘 阶段考试复习题

数据仓库与数据挖掘 阶段考试复习题

第一章数据仓库与数据挖掘概述无习题第二章数据仓库概述一.判断题在分析型处理产生后,数据处理的环境由原来的以单一数据库为中心的数据环境发展为以数据仓库为基础的体系化环境。

在事务型(操作型)数据处理下,数据处理的环境主要是以单一数据库为中心的数据环境。

数据仓库是为构建分析型数据处理环境而出现的一种数据存储和组织技术.面向应用,是数据仓库区别于传统的操作型数据库的关键特征。

一个数据仓库是通过集成多个异种数据源来构造的。

由于在数据仓库中只进行数据的初始装载和查询操作,所以,数据一旦进入数据仓库,就是稳定的,基本上不会被更新。

数据立方体必须是3维的。

在数据仓库中,概念分层定义了一个映射序列,可以将低层概念映射到更一般的高层概念。

方体的格,是在单个维上定义的映射序列,可以将低层概念映射到更一般的高层概念。

雪花模型通过在每个维表基础上,增加附加维表的方式来降低星型模型中可能会存在的冗余现象。

在事实星座模型中,有且仅能有一个事实表。

在数据仓库的设计过程中,要坚持“数据驱动和需求驱动双驱动,且以需求驱动为中心”的原则。

二.单选题在以下人员中,被誉为“数据仓库之父”的是:()(知识点:数据仓库的基本概念;易)A. H.Inmon B. E.F.Codd C. Simon D. Pawlak以下关于数据仓库的说法正确的是:()(知识点:数据仓库的基本概念;难)A. 数据仓库中的数据只能来源于组织内部的操作型数据库B. 数据仓库是为应对事务型数据处理的需要而产生的C. 数据仓库是面向主题的,这是其区别于操作型数据库的关键特征D. 数据仓库必须是面向企业全局的,不能以部门为单位建立数据仓库以下哪项不是“信息包图”中的元素?()(知识点:数据仓库的三级模型;难)A. 维度B. 维的概念层次及相应层次上的数量C. 度量D. 方体的格以下哪项不属于数据仓库的逻辑模型?()(知识点:数据仓库的三级模型;中)A. 星型模型B. 雪花模型C. 度量模型D. 事实星座模型在数据仓库的设计过程中,下列描述正确的是()(知识点:数据仓库的设计;难)A. 数据仓库是“数据驱动+需求驱动”双驱动,但必须以需求驱动为中心B. 数据仓库主要面向分析型处理环境,在设计时很难完全明确用户的需求C. 数据仓库与数据库一样,其数据主要来自于企业的业务流程D. 数据仓库的设计目标是要提高事务处理的性能下面哪项关于星型模型的说法是不正确的:()(知识点:数据仓库的三级模型;难)A. 有一个事实表,且事实表中的属性由指向各个维表的外键和一些相应的度量数据组成B. 有一组小的附属表,称为维表,且每维一个维表C. 事实表的每个字段都是事实度量字段D. 由于每维只能建立一个维表,使得维表中有些信息会产生冗余在数据仓库的概念模型中,通过()来实现数据从客观世界到主观认识的映射。

数据仓库与数据挖掘复习资料

数据仓库与数据挖掘复习资料

1.数据仓库的概念和特点p11定义:一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员作出决策。

特性:面向主题的、集成的、非易失的、随时间不断变化的。

1、面向主题的:数据仓库以一个奇特或组织机构中固有的业务主题作为处理的主体,是从整体的、全局的角度来衡量这些主题在企业中的作用。

2、集成的:数据仓库必须将不一致的数据进行有效的集成,使之在数据仓库中有一致性的表示形式。

一致性问题只是集成所包含的一部分工作,另外还需要根据主题进行有效的数据组织。

3、非易失性:一旦操作型数据进入数据仓库,只要数据未超过数据仓库的数据存储期限,通常不对数据进行更新操作,而只进行查询操作。

即不进行一般意义上的更新,而且与操作型数据相比,更新频率要低得多,对时间的要求更为宽松。

4、随时间不断变化的(数据因时而变的特点)《与操作型数据比较的,书上14页》:(1)数据仓库中的数据的时间期限要远远长于操作型环境中的数据的时间期限。

操作型环境一般60-90天,数据仓库5-10年。

一个数据仓库的大小一般都是在100GB以上通常,数据仓库系统应该包含下列程序:(1)抽取数据与加载数据(2)整理并转换数据(采用一种数据仓库适用的数据格式)(3)备份与备存数据(4)管理所有查询(即将查询导向适当的数据源)数据仓库中的数据只是一系列某一时刻所生成的数据的复杂快照。

数据仓库的键码结构总是包含某时间元素。

2.数据仓库中的关键概念14外部数据源:就是从系统外部获取的同分析主题相关的数据。

数据抽取:是数据仓库按分析的主题从业务数据库抽取相关数据的过程。

现有的数据仓库产品几乎都提供关系型数据接口,提供抽取引擎以从关系型数据中抽取数据。

数据清洗:从多个业务系统中获取数据时,必须进行必要的数据清洗,从而得到准确的数据。

所谓“清洗”是指在放入数据仓库之前将错误的、不一致的数据予以更正或删除,以免影响DSS决策的正确性。

(15页有例子)数据转换:各种数据库产品所提供的数据类型可能不同,需要将不同格式的数据转换成统一的数据格式,称为数据转换。

数据仓库与数据挖掘复习

2011春《数据仓库与数据挖掘》复习提纲1、商务智能【参考:是一种解决方案,它的目的是把用户积累下来的、大量的数据转化为业务容易理解的信息,进而辅助决策。

】2、对数据仓库的定义【参考:仅仅是构成它的数据集市的联合。

】3、对数据仓库的定义【参考:一个面向主题的、集成的、随时间变化的、非易逝的用于支持管理的决策过程的数据集合。

】4、【参考:数据的提取、转换和装载,预处理数据并装在中。

】5、数据仓库总线矩阵【参考:该矩阵将公司业务过程映射到参与这些过程的实体或对象。

矩阵的每一行对应一个业务过程,每一列描述对象,它们参与了各种业务过程。

】6、事实【参考:对一些事件发生结果的度量。

】7、维度【参考:维度是维度模型的基础,用来描述业务的对象。

】8、粒度【参考:事实表中包含信息的详尽程度。

】9、维度模型【参考:由一个中心事实表(或者多个事实表)和与其相关的维度构成。

事实表位于中心,而所有维度表环绕在其周围,类似于星形结构,因此又把维度模型称为星形模式。

】10、业务过程维度模型【参考:关于一个业务过程所有的维度模型的集合。

】11、多维数据集(又称为数据立方体)由维度和一个或多个度量组构成的多维分析结构,用于12、部署【参考:将多维数据集的定义发布到服务器上的过程。

】13、联机分析处理采用多维数据结构和层次结构作为导航,探查汇总数据,辅助决策。

14、代理键【参考:对于系统,需要在数据仓库数据库中建立一组与事务处理源系统中的键分离开来的全新的键,称这种键为代理键。

】独立于业务键的用于数据仓库中的从中的人工键15、渐变维度【参考:属性值可以改变的维度。

分为值的改变需要跟踪和不需要跟踪两种。

】16、聚合【参考:经过预先计算后形成的汇总表,主要目标是用来改进查询性能。

】17、星型模型【参考:由一个事实表和多个维度表构成的模型。

事实表与维度表是1对多关系。

事实表位于中心,而所有维度表环绕在其周围,类似于星形结构。

】18、雪花模型【参考:雪花模型是将维度表中的字段和查找表相连接而得到的结果。

数据仓库和数据挖掘技术复习提纲

数据仓库和数据挖掘技术复习提纲一.数据仓库导论1.数据仓库的定义及其基本特征。

2.数据仓库与传统数据库的区别。

.综述建设数据仓库的必要性。

二.数据仓库的体系结构1.数据仓库系统的结构及各部分的主要功能。

2.数据仓库的结构及各部分的主要功能。

3.简述星型模型的结构特征。

.综述元数据的定义及作用。

三.数据仓库设计1.简述数据仓库开发的生命周期。

2.简述数据仓库的技术体系结构及各模块的功能。

3.数据仓库高层建摸与中间层建摸的区别和联系。

4.在数据仓库物理建摸时,如何提高的性能。

5.什么是粒度,进行粒度设计的基本方法是什么。

.综述数据仓库开发的步骤及各步骤之间的联系。

四.数据仓库管理技术1.什么是休眠数据,产生休眠数据的原因是什么。

2.综述邻线存储方案的基本思想及实现方法。

3.简述元数据的管理方法和使用方法。

4.数据仓库增量式更新的主要技术是什么.防止数据仓库中数据急剧增长的主要方法是什么五.联机分析处理1.的定义及主要特征。

2.图示与的关系。

3.举例说明什么是的切片、切块、下钻操作。

4.和的主要区别是什么。

5.和(多维数据库)的区别是什么。

6.分析的基本步骤。

.什么是,它有什么意义。

六.数据挖掘技术1.什么是数据挖掘,它与传统分析方法的主要区别是什么。

2.数据挖掘有那些主要方法。

3.什么是关联规则?举例说明。

4.简述关联规则的支持度,可信度的定义,并举例说明。

5.简述算法的基本思想。

6.设有交易数据库如图所示。

若最小支持度计数阈值为,最小可信度计数阈值为,试按算法求出<> 频繁项集<> 关联规则<> 根据你的理解,说明这些关联规则的意义,并指出使用那一条规则,公司可能赢利。

数据仓库与挖掘复习资料

数据仓库与挖掘复习资料一、第一章1、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据元数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。

2、数据处理通常分成两大类:联机事务处理和联机分析处理。

3、多维分析是指对以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使用户能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。

5.ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。

12、简述数据仓库4种体系结构的异同点及其适用性。

(1)两层架构。

(2)独立型的数据集市。

采用这种体系结构的优点是其方便性,可快速启动,这个数据仓库架构可通过一系列的小项目来实现。

(3)依赖型数据集市和操作型数据存储。

优势是它们可以处理各个用户群的需求,甚至是探索性数据仓库的需求。

(4)逻辑型数据集市和实时数据仓库。

是建立数据仓库的一种较佳方法,特别是在硬件性能不断提高,成本不断下降的条件下。

14、请列出3种数据仓库产品,并说明其优缺点。

答:1、IBM公司提供了一套基于可视化数据仓库的商业智能BI解决方案。

2、Oracle数据仓库解决方案主要包括Oracle Express和Oracle Discover两个部分。

3、Microsoft 将OLAP功能集成到SQL Server数据库中,其解决方案包括BI平台、BI终端工具、BI门户和BI应用四个部分。

二、什么是数据挖掘?(p4)数据挖掘就是从从大量数据数据中提取或“挖掘”知识,又被称为数据库中的知识发现。

三、数据仓库与传统的数据库有何区别?(1)数据库是面向事务的设计,数据仓库是面向主题设计的。

(2)数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。

(3)数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计时有意引入冗余,采用反范式的方式来设计。

数据挖掘 复习题纲

数据仓库与数据挖掘复习题1、什么是数据仓库?数据仓库的特点有哪些?2、简述数据仓库的四种体系结构的异同点及其适用性。

3、什么是数据仓库的三层结构?什么是数据ETL过程?星型模式的定义与特征是什么?4、什么是信息包图法?请画出Adventure Works Cycles公司销售情况的信息包图法。

(1)获取各个业务部门对业务数据的多维特性分析结果,确定影响销售额的维度,包括时间、区域、产品和客户等维度。

(2)对每个维度进行分析,确定维度与类别之间的传递和映射关系,如在Adventure Works业务数据库中,时间维有年度,季度,月和日等级别,而区域分为国家、省州、城市和具体的销售点。

(3)确定用户需要的度量指标体系,这里以销售情况作为事实依据确定的销售相关指标包括实际销售额、计划销售额和计划完成率等。

5、设定,使用Aprori算法完成下表所示的数据集关联规则的挖掘。

交易号TID 商品ItemsT1 A B CT2 A CT3 A DT4 B E F6、对于下表所示的数据集,利用决策树ID3算法构造决策树。

Age Salary Class<=40 High C1<=40 High C1<=40 Low C241~50 High C1<=40 Low C2>50 Low C1>50 Low C1>50 High C241~50 High C17、给定训练集为,其中,每个训练样本是一个二维特征微量;为类标号,即训练集中的数据样本包含两个类别。

现有:+1+1+1-1-1-1-1分别用最近邻分类方法、k—近邻分类方法(k=3)对x8进行分类。

8样本序号描述属性1 描述属性2x1 6 4X2 7 5X3 6 3X4 4 6X5 3 89、计算有酒精味、头疼、X射线检查呈阳性时,患脑瘤的概率,也就是计算P(BT|SA,HA,PX)。

10对象x 属性1 属性2 属性31 1 1 32 1 1 33 2 1 14 3 2 2P(PT) P(BT)True 0.2 0.001False 0.8 0.999P(HO|PT) PT=T PT=FTrue 0.7 0False 0.3 1P(SA|HO) HO=T HO=FTrue 0.8 0.1False 0.2 0.9 P(PX|BT) BT=T BT=FTrue 0.98 0.01False 0.02 0.99P(HA|HO,BT) HO=T HO=FBT=T BT=F BT=T BT=FTrue 0.99 0.7 0.9 0.02False 0.01 0.3 0.1 0.985 3 2 16 2 1 2令,求:(1)由分别形成的等价划分。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘与数据仓库复习资料2010-04-07 16:511数据仓库与数据挖掘的关系大多数数据挖掘工具需要在集成的、一致的、经过清理的数据上进行挖掘。

数据挖掘过程中所需要的数据处理与分析工具完全可以在数据仓库的数据处理与数据分析工具中找到,数据仓库中的OLAP完全可以为数据挖掘提供有关的数据操作支持数据挖掘技术在数据仓库中的应用,正好弥补了数据仓库只能提供大量数据,而无法进行深度信息分析的缺陷。

2数据仓库与传统数据库长期共存首先,企业数据库与数据仓库将长期共存。

其次,数据库是数据仓库的基础。

第三,在技术实现方面,数据库与数据仓库几乎没有差别。

第四,不要脱离企业的实际,盲目地、片面地、甚至是赶时髦地去实施数据仓库。

第五,数据仓库在能够为企业带来利益的同时,在支持企业信息决策中也存在一些局限性。

总之,不要过分夸大数据仓库与传统数据库的差异,不要过分夸大数据仓库系统的作用、贬低数据库系统的作用。

数据库与数据仓库将长期共存下去。

3挖掘与信息的关系4弥补传统数据库不足传统数据库的主要任务是进行事务处理,它所关注的是事务处理的及时性、完整性与正确性,而在数据的分析处理方面,则存在着诸多的不足,主要体现在缺乏集成性、主题不明确等几个方面。

1.集成性的缺乏首先,业务数据库系统的条块与部门分割,导致数据分布的分散化与无序化。

其次,业务数据库缺乏统一的定义与规划,导致数据定义存在歧义。

2.主题不明确3.分析处理效率低5数据仓库的特点和主题特点:数据仓库是面向主题的数据仓库是集成的数据仓库是稳定的数据仓库是随时间变化的数据仓库的数据量很大数据仓库软硬件要求较高6体系结构(三个层次)数据集市结构数据集市结构或称为主题结构的数据仓库是按照主题进行构思所形成的数据仓库,没有一个独立的数据仓库。

系统的数据不存储在同一数据仓库中,每个主题有自己的物理存储区。

单一数据仓库结构将所有的主题都集中到一个大型数据库中的体系结构。

数据源中数据被按照同一标准抽取到独立的数据仓库中,用户在使用时再根据主题将数据仓库中的数据发布到数据集市中。

分布式数据仓库结构在企业各个分公司具有相当大的独立性时,企业总部设置一个全局数据仓库,各个分公司设置各自的局部数据仓库。

局部数据仓库主要存储各自的未经转换的细节数据,全局数据仓库中主要存储经过转换的综合数据7数据仓库与数据组织1.星形模型由事实表和多个维度表组成。

事实表中存放大量关于企业的事实数据,对象个数通常都很大,而且非规化程度很高。

为度表中存放描述性数据,维度表是围绕事实表建立的较小的表。

优点:星形模型是非规化的,以增加存储空间的代价,提高了多维数据的查询速度。

而规化的关系数据库设计是使数据的冗余保持在最少,并减少了当数据改变时系统必须执行的动作。

缺点:当事务问题发生变化,原来的维度不能满足要求时,需要增加新的维。

由于事实表的主键由所有的围标的主键组成,这种维度的变化带来数据变化将是非常复杂非常耗时的。

星形模型的数据冗余量很大。

2.雪花模型雪花模型是对星形模型的扩展,雪花模型对星形模型的维度表进一步层次化,原来的各维度可能被扩展为小的事实表,形成一些局部的“层次”区域。

它的优点是最大限度的减少数据存储量,以及把较小的维度表联合在一起来改善查询性能。

雪花模型增加了用户必须处理的表的数量,增加了某些查询的复杂性。

但这种方式可以是系统进一步专业化和实用化,同时降低了系统的通用程度。

3.第三式(特点)把事实表和维度表的属性作为一个实体都集中在同一数据库表中,或分成多个实体用多个表来表示,表按第三式组织数据,减少了维度表中的键和不必要的属性。

星形模型在进行多维数据分析时,在不超过预定义的维度围,速度是很快的,但是在超出了预定义的维度,增加维度将是很困难的事情。

第三式对于海量数据,且需要处理大量的动态业务分析时,就显示了他的优势。

4.数据抽取、转换和装载抽取包括1.确认数据源2.数据抽取技术8概念模型设计将需求分析过程中得到的用户需求抽象为信息结构,即为概念模型。

是从客观世界到计算机世界的一个中间层次。

最常用的表示方法是实体-关系法(E-R法),用E-R图作为它的描述工具。

9逻辑模型设计逻辑模型设计是把概念模型设计好的E-R图转换成计算机所支持的数据模型。

数据仓库在计算机中的数据模型是星形模型。

这样数据仓库的逻辑模型设计主要是将用 E-R突表示的概念模型转换成星形模型。

主要工作为:(1)主题域进行概念模型(E-R图)到逻辑模型(星形模型)的转换;(2)粒度层次分析;(3)关系模式定义;(4)定义记录系统。

10物理模型的设计数据仓库的物理模型设计是为了逻辑模型设计的数据模型确定一个最适合应用要求的物理结构(包括存储结构和存取方法)。

所作的工作是:估计存储容量确定数据的存储计划确定索引确定数据存放位置确定存储分配11维度表维度表的属性容,是对所依附的事实表的某些信息的描述,这种描述应具有以下特征。

(1) 每个维度表都应该有自己的特定的标题 (如时间、地点等) ,这一标题是对属性容的抽象,并可作为对事实表进行分析的依据,以满足用户依据不同的需要进行查询分析的要求。

(2) 维度表的属性容,必须有准确的表述。

这种表述的方式可以是离散的,也可以是文字化的,但必须能对被描述物体进行区分。

例如,国籍维度表,就是用具体的文字来表述属性的容,并体现出了彼此之间的区别。

12事实表13元数据表(定义、模型、作用)元数据模型元数据是关于数据的数据,是对数据的结构、容、键码、索引等的一种描述。

类型元数据按其所描述的容,可以分为三类。

(1) 关于基本数据的元数据。

在数据仓库系统中,基本数据是指数据源、数据集市、数据仓库以及由应用程序所存储和管理的所有数据的总和。

关于基本数据的元数据即包含了与上述各部分数据有关的容。

按说明的围,这部分元数据又可进一步细分为关于全部数据的元数据和关于部分数据的元数据两个子类。

’(2) 关于数据处理的元数据。

数据处理主要指数据的抽取、转换、加载、更新、数据完整性与一致性的检查、缺失数据的补充等方面的工作。

关于数据处理的元数据定义了同这些工作相关联的规则,它包括过滤器、联结器和聚合器等部件,数据仓库的系统日志也属于此类元数据的畴。

(3) 关于企业组织的元数据。

这类元数据比较特殊,它是对企业的组织结构状况的直接反映。

如果把企业的组织信息作为基本数据(例如对中小型企业而言),它又可归入“基本数据元数据”一类。

所有与企业组织有关的信息,如数据集市/数据仓库的所有者、管理者的界定,以及各类用户使用系统的权限围等,均由此类元数据加以说明。

因此,这类元数据对于数据仓库的安全具有特殊意义。

根据用户对数据仓库的认识和使用目的,可将数据仓库划分为两大类。

(1)技术元数据(Technical Metadata)。

技术元数据将开发工具、应用程序以及数据仓库系统联系在一起,对分析、设计、开发等所有技术环节进行详细说明。

技术元数据主要供数据仓库管理人员和应用开发人员使用,它为技术人员维护和扩展系统,提供了一个详细的“说明书”和“结构图”(2)业务元数据(Business Metadata)。

业务元数据可以认为是通用业务术语和关于数据仓库的上下文信息的集合,它是联系业务用户和数据仓库中数据的桥梁,为业务用户提供了有关数据仓库整体结构的视图。

业务元数据包含有面向应用的文档(系统简介、使用导航等),以及各种术语的定义与所有报表的细节。

作用数据仓库的开发/重构是一项复杂的工程,在实施这一工程时,元数据所起的重要作用包括以下容。

描述业务规则与数据之间的映射。

作为数据分割的依据。

提高系统灵活性的手段。

定义标准处理的规则。

元数据定义了数据从被抽取,到清洗、转换,再到导入数据仓库的全部过程。

其作用如下。

(1) 确定数据的来源。

(2) 保证数据仓库容的质量。

(3) 实现属性间的映射与转换。

14数据挖掘定义从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用的信息和知识的过程。

从商业应用角度看,数据挖掘是一种崭新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键知识。

15粒度模型除了构造元数据模型之外,在开发数据仓库的过程中,构造粒度模型也是一项十分重要的工作。

所谓粒度,是指数据仓库中记录数据或对数据进行综合时所使用的时间段参数,它决定了数据仓库中所存储的数据单元在时间上的详细程度和级别。

时间段参数越小,粒度级别越低,数据就越详细、越具体;反之,时间段参数越大,粒度级别越高,就意味着数据综合度越高,同时细节的损失也就越多。

传统的业务处理数据库,是面向事务处理的,因此具有非常低的粒度,其数据有着十分详细和具体的细节,它本身并不进行汇总,但-Z-I]为汇总准备了条件。

在数据仓库中,数据按不同的粒度进行不同层次的汇总,以供分析使用。

对当前细节级的数据,一般保留在较低的粒度水平,数据具有较高的细节。

随时间的推移,按设定的时间阈值和粒度阈值,数据逐步进行汇总,依次形成轻度综合级、高度综合级的数据,以节约存储空间,降低系统开销。

综合程度随粒度的增加而提升,细节的损失也随之增多。

在设计数据仓库时,要根据行业的业务特点和决策分析的需求,妥善设定粒度指标,以取得良好的综合效果。

16数据挖掘的基本功能(关联、分类、聚类、决策树)数据挖掘的目标是从数据库中发现隐含的、有意义的知识。

数据挖掘的功能一般可以分为两大类:描述和预测。

描述类挖掘任务刻画了数据库中数据的一般特性。

预测类挖掘任务在当前数据上进行推断,以此进行预测。

了解了数据挖掘的分类,理解了被挖掘的对象,并在此基础上对挖掘对象按挖掘功能进行分类,有助于我们按照用户需求选择合适的挖掘算法或挖掘工具来辅助企业制定决策,同时也是我们准确地分析问题和解决问题的依据。

一般而言,数据挖掘的功能与挖掘的目标数据类型是相关的。

某些功能只能应用在某种特定的数据类型上,而某些功能则可以应用在多个不同类型的数据库上。

对于数据挖掘任务的确定,必须综合考虑数据挖掘功能、要挖掘的数据类型和用户的兴趣。

关联分析关联分析(Association Analysis)就是从大量的数据中发现项集之间有趣的联系、相关关系或因果结构,以及项集的频繁模式。

数据关联是数据库中存在的一类重要的知识。

若两个或多个变量的取值之间存在某种规律性,则称之为关联。

关联可分为简单关联、时序关联、因果关联。

关联分析的目的是找出数据库中隐藏的关联规则。

分类分类(Classification)在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。

分类的目的是找出一组能够描述数据集合典型特征的模型或函数,以便能够识别未知数据的归属或类别。

相关文档
最新文档