数据仓库与数据挖掘期末综合复习

合集下载

12《数据仓库与数据挖掘》复习题

12《数据仓库与数据挖掘》复习题

《数据仓库与数据挖掘》复习大纲三、简答题(5×6分=30分)四、分析计算题(3×10分=30分)考试范围:第一讲数据挖掘概述考点:1、数据挖掘、知识发现(KDD)基本概念;2、数据挖掘的过程;3、数据挖掘过技术的三个主要部分。

复习参考题:一、填空题(1)数据库中的知识挖掘(KDD)包括以下七个步骤:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示。

(2)数据挖掘的性能问题主要包括:算法的效率、可扩展性和并行处理。

(3)当前的数据挖掘研究中,最主要的三个研究方向是:统计学、数据库技术和机器学习。

(4)在万维网(WWW)上应用的数据挖掘技术常被称为:WEB挖掘。

(5)孤立点是指:一些与数据的一般行为或模型不一致的孤立数据。

二、单选题(1)数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于:BA、所涉及的算法的复杂性;B、所涉及的数据量;C、计算结果的表现形式;D、是否使用了人工智能技术(2)孤立点挖掘适用于下列哪种场合?DA、目标市场分析B、购物篮分析C、模式识别D、信用卡欺诈检测(3)下列几种数据挖掘功能中,( D )被广泛的应用于股票价格走势分析。

A. 关联分析B.分类和预测C.聚类分析D. 演变分析(4)下面的数据挖掘的任务中,( B )将决定所使用的数据挖掘功能。

A、选择任务相关的数据B、选择要挖掘的知识类型C、模式的兴趣度度量D、模式的可视化表示(5)下列几种数据挖掘功能中,(A )被广泛的用于购物篮分析。

A、关联分析B、分类和预测C、聚类分析D、演变分析(6)根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是( B)。

A.关联分析B.分类和预测C. 演变分析D. 概念描述(7)帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是( C )。

A.关联分析B.分类和预测C.聚类分析D. 孤立点分析E. 演变分析(8)假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是( E )A.关联分析B.分类和预测C. 孤立点分析D. 演变分析E. 概念描述三、简答题1、何谓数据挖掘?它有哪些方面的功能?答:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。

数据仓库与数据挖掘技术复习资料

数据仓库与数据挖掘技术复习资料

数据仓库与数据挖掘技术复习资料一、单项选择题1.数据挖掘技术包括三个主要的部分( C )A.数据、模型、技术 B.算法、技术、领域知识C.数据、建模能力、算法与技术 D.建模能力、算法与技术、领域知识2.关于基本数据的元数据是指: ( D )A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B.基本元数据包括与企业相关的管理方面的数据和信息;C.基本元数据包括日志文件和简历执行处理的时序调度信息;D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息。

3.关于OLAP和OLTP的说法,下列不正确的是: ( A)A.OLAP事务量大,但事务内容比较简单且重复率高B.OLAP的最终数据来源与OLTP不一样C.OLTP面对的是决策人员和高层管理人员D.OLTP以应用为核心,是应用驱动的4.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( C )A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘5.下面哪种不属于数据预处理的方法? ( D )A.变量代换B.离散化C. 聚集D. 估计遗漏值6.在ID3 算法中信息增益是指( D )A.信息的溢出程度B.信息的增加效益C.熵增加的程度最大D.熵减少的程度最大7.以下哪个算法是基于规则的分类器 ( A )A. C4.5B. KNNC. BayesD. ANN8.以下哪项关于决策树的说法是错误的( C )A.冗余属性不会对决策树的准确率造成不利的影响B.子树可能在决策树中重复多次C.决策树算法对于噪声的干扰非常敏感D.寻找最佳决策树是NP完全问题9.假设收入属性的最小与最大分别是10000和90000,现在想把当前值30000映射到区间[0,1],若采用最大-最小数据规范方法,计算结果是( A )A. 0.25B. 0.375C.0.125D. 0.510.在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是:( D )A.有放回的简单随机抽样B.无放回的简单随机抽样C.分层抽样D.渐进抽样11.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( B)A. 分类B.聚类C. 关联分析D. 隐马尔可夫链12.设X={1,2,3}是频繁项集,则可由X产生( C )个关联规则。

数据仓库与数据挖掘复习大全

数据仓库与数据挖掘复习大全

数据仓库与数据挖掘复习大全湖北文理学院湖北襄阳王茂林1.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理2. 以下两种描述分别对应哪两种对分类算法的评价标准?(A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。

(b)描述有多少比例的小偷给警察抓了的标准。

A. Precision, RecallB. Recall, PrecisionC. Precision, ROCD. Recall, ROC分类是一种重要的数据挖掘算法。

分类的目的是构造一个分类函数或分类模型(即分类器),通过分类器将数据对象映射到某一个给定的类别中。

分类器的主要评价指标有准确率(Precision)、召回率(Recall)、F b-score、ROC、AOC等。

准确率(Precision) 和召回率(Recall)是信息检索领域两个最基本的指标。

准确率也称为查准率,召回率也称为查全率。

它们的定义如下:Precision=系统检索到的相关文件数量/系统检索到的文件总数量Recall=系统检索到的相关文件数量/系统所有相关文件数量F b-score是准确率和召回率的调和平均:F b=[(1+b2)*P*R]/(b2*P+R),比较常用的是F1。

在信息检索中,准确率和召回率是互相影响的,虽然两者都高是一种期望的理想情况,然而实际中常常是准确率高、召回率就低,或者召回率低、但准确率高。

所以在实际中常常需要根据具体情况做出取舍,例如对一般搜索的情况是在保证召回率的情况下提升准确率,而如果是疾病监测、反垃圾邮件等,则是在保证准确率的条件下,提升召回率。

但有时候,需要兼顾两者,那么就可以用F-score指标。

在信息检索中,准确率和召回率是互相影响的,虽然两者都高是一种期望的理想情况,然而实际中常常是准确率高、召回率就低,或者召回率低、但准确率高。

数据仓库与数据挖掘复习题

数据仓库与数据挖掘复习题

2014-2015-1《数据仓库与数据挖掘》期末考试题型一、单项选择题(每小题2分,共20分)二、填空题(每空1分,共20分)三、简答题(每题6分,共30分)四、析题与计算题(共30分)请同学们在考试时不要将复习资料带入考场!!!单选题1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。

(b)描述有多少比例的小偷给警察抓了的标准。

A. Precision, RecallB. Recall, PrecisionA. Precision, ROC D. Recall, ROC3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)A. 分类B. 聚类C. 关联分析D. 隐马尔可夫链5. 什么是KDD? (A)A. 数据挖掘与知识发现B. 领域知识发现C. 文档知识发现D. 动态知识发现6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则11.下面哪种不属于数据预处理的方法? (D)A变量代换 B离散化 C 聚集 D 估计遗漏值12. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。

数据仓库和数据挖掘复习

数据仓库和数据挖掘复习

数据仓库和数据挖掘复习第一章数据仓库和数据挖掘概述一、概念题1、数据仓库的定义是什么?答:数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中央决策制定过程。

2、数据仓库的特点是什么?答:数据仓库的特点是:(1)数据仓库是面向主题的;(2)数据仓库是集成的;(3)数据仓库是稳定的;(4)数据仓库是随时间变化的;(5)数据仓库中的数据量大;(6)数据仓库软硬件要求较高。

3、什么是商业智能?答:商业智能以数据库为基准,通过联机分析处理和数据挖掘技术帮助企业领导者针对市场变化的环境,做出快速、准确的决策。

二、简答题1、数据仓库和数据挖掘的区别和联系。

区别:数据仓库是一种存储技术,它的数据存储量是一般数据库的100倍,它包含大量的历史数据、当前的详细数据以及综合数据。

它能适应于不同用户对不同决策需要提供所需的数据和信息。

数据挖掘是从人工智能机器学习中发展起来的。

它研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。

联系:数据仓库和数据挖掘都是决策支持新技术。

但他们有着完全不同的辅助决策方式。

数据仓库中存储着大量辅助决策的数据,它为不同的用户随时提供各种辅助决策的随机查询、综合信息或趋势分析信息。

数据挖掘是利用一系列算法挖掘数据中隐含的信息和知识,让用户在进行决策中使用。

第二章 数据仓库原理一、概念题1、数据仓库结构图是什么?2、数据集市的定义是什么?答:数据集市是指具有特定应用的数据仓库,主要针对某个具有战略意义的应用或者具体部门级的应用,支持用户利用已有的数据获得重要的竞争优势或者找到进入新市场的具体解决方案,它包括两种,即独立的数据集市,它的数据直接来源于各生产系统;从属数据集市,它的数据直接来自于中央数据仓库。

3、多维数据模型有哪些?答:对于逻辑数据模型,使用的多维数据模型主要有星型模型、雪花模型、星网模型、第三范式等。

4、ETL 过程是什么?答:数据仓库的数据获取需要经过抽取、转换、装载三个过程,即ETL 过程。

数据仓库与数据挖掘期末综合复习

数据仓库与数据挖掘期末综合复习

数据仓库与数据挖掘期末综合复习第一章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。

2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。

3、数据处理通常分成两大类:联机事务处理和联机分析处理。

4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。

5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。

OLAP技术的有关概念:OLAP根据其存储数据的方式可分为三类:ROLAP、MOLAP、HOLAP6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。

7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。

8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。

9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。

10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。

11、什么是数据仓库?数据仓库的特点主要有哪些?数据仓库通常是指一个数据库环境,而不是支一件产品,它是提供用户用于决策支持的当前和历史数据,这些数据在传统的数据库中通常不方便得到。

数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。

数据挖掘与数据仓库复习资料

数据挖掘与数据仓库复习资料

数据挖掘与数据仓库复习资料2010—04—07 16:511数据仓库与数据挖掘的关系大多数数据挖掘工具需要在集成的、一致的、经过清理的数据上进行挖掘.数据挖掘过程中所需要的数据处理与分析工具完全可以在数据仓库的数据处理与数据分析工具中找到,数据仓库中的OLAP完全可以为数据挖掘提供有关的数据操作支持数据挖掘技术在数据仓库中的应用,正好弥补了数据仓库只能提供大量数据,而无法进行深度信息分析的缺陷。

2数据仓库与传统数据库长期共存首先,企业内数据库与数据仓库将长期共存。

其次,数据库是数据仓库的基础。

第三,在技术实现方面,数据库与数据仓库几乎没有差别。

第四,不要脱离企业的实际,盲目地、片面地、甚至是赶时髦地去实施数据仓库.第五,数据仓库在能够为企业带来利益的同时,在支持企业信息决策中也存在一些局限性。

总之,不要过分夸大数据仓库与传统数据库的差异,不要过分夸大数据仓库系统的作用、贬低数据库系统的作用。

数据库与数据仓库将长期共存下去。

3挖掘与信息的关系4弥补传统数据库不足传统数据库的主要任务是进行事务处理,它所关注的是事务处理的及时性、完整性与正确性,而在数据的分析处理方面,则存在着诸多的不足,主要体现在缺乏集成性、主题不明确等几个方面.1.集成性的缺乏首先,业务数据库系统的条块与部门分割,导致数据分布的分散化与无序化.其次,业务数据库缺乏统一的定义与规划,导致数据定义存在歧义。

2.主题不明确3.分析处理效率低5数据仓库的特点和主题特点:数据仓库是面向主题的数据仓库是集成的数据仓库是稳定的数据仓库是随时间变化的数据仓库的数据量很大数据仓库软硬件要求较高6体系结构(三个层次)数据集市结构数据集市结构或称为主题结构的数据仓库是按照主题进行构思所形成的数据仓库,没有一个独立的数据仓库.系统的数据不存储在同一数据仓库中,每个主题有自己的物理存储区。

单一数据仓库结构将所有的主题都集中到一个大型数据库中的体系结构.数据源中数据被按照同一标准抽取到独立的数据仓库中,用户在使用时再根据主题将数据仓库中的数据发布到数据集市中。

数据仓库与数据挖掘期末试题

数据仓库与数据挖掘期末试题

广西财经学院2007——2008学年第一学期《数据仓库与数据挖掘》课程期末考试试卷(A)一、名词解释(每题4分,共20分)1、数据仓库数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。

2、数据挖掘数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。

3、雪花模型雪花模式中某些维表是规范化的,因而把数据进一步分解到附加的表中,模式图形成了类似雪花的形状。

通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。

雪花模型增加了用户必须处理的表数量,增加了某些查询的复杂性,但同时提高了处理的灵活性,可以回答更多的商业问题,特别适合系统的逐步建设要求。

4、OLAPOLAP是联机分析处理,是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。

它支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

5、决策树决策树是将训练集函数表示成树结构,通过它来近似离散值的目标函数。

这种树结构是一种有向树,它以训练集的一个属性作节点,这个属性所对应的一个值作边。

决策树一般都是自上而下的来生成的。

二、简答题(每题6分,共30分)1、企业面对海量数据,应如何具体实施数据挖掘,使之转换成可行的结果/模型?首先进行数据的预处理,主要进行数据的清洗,数据清洗,处理空缺值,数据的集成,数据的变换和数据规约。

2、请列举您使用过的各种数据仓库工具软件(包括建模工具,ETL工具,前端展现工具,OLAP Server、数据库、数据挖掘工具)和熟悉程度。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据仓库与数据挖掘期末综合复习数据仓库与数据挖掘期末综合复习第一章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。

2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。

3、数据处理通常分成两大类:联机事务处理和联机分析处理。

4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。

5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。

OLAP技术的有关概念:OLAP根据其存储数据的方式可分为三类:ROLAP、MOLAP、HOLAP6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。

7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。

8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。

9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。

10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。

11、什么是数据仓库?数据仓库的特点主要有哪些?数据仓库通常是指一个数据库环境,而不是支一件产品,它是提供用户用于决策支持的当前和历史数据,这些数据在传统的数据库中通常不方便得到。

数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。

数据仓库的特点包含以下几个方面:(1)面向主题。

操作型数据库的数据组织是面向事务处理任务,各个业务系统之间各自分离;而数据仓库中的数据是按照一定的主题域进行组织。

(2)集成的。

面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。

也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义。

(3)相对稳定的。

操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。

数据仓库的数据主要供单位决策分析之用,对所涉及的数据操作主要是数据查询和加载,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存,几乎不再做修改和删除操作,也就是说针对数据仓库,通常有大量的查询操作及少量定期的加载(或刷新)操作。

(4)反映历史变化。

操作型数据库(OLTP)主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含较久远的历史数据,因此总是包括一个时间维,以便可以研究趋势和变化。

数据仓库系统通常记录了一个单位从过去某一时点(如开始启用数据仓库系统的时点)到目前的所有时期的信息,通过这些信息,可以对单位的发展历程和未来趋势做出定量分析和预测。

12、数据挖掘的概念数据挖掘,就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识,又被称为数据库中的知识发现。

数据挖掘的方法:直接数据挖掘、间接数据挖掘。

13、数据仓库与数据挖掘的关系若将数据仓库比作矿井,那么数据挖掘就是深入矿井采矿的工作;数据挖掘是从数据仓库中找出有用信息的一种过程与技术。

14、数据仓库系统的体系结构的分类(1)两层架构(Generic Two-Level Architecture)。

(2)独立型数据集市(Independent Data Mart)。

(3)依赖型数据集市和操作型数据存储(Dependent Data Mart and Operational Data Store)。

(4)逻辑型数据集市和实时数据仓库(Logical Data Mart and Real-Time Data Warehouse)。

15、数据仓库的未来(1)在数据抽取方面,未来的技术发展将集中在系统集成化方面。

它将互连、转换、复制、调度、监控纳入标准化的统一管理,以适应数据仓库本身或数据源可能的变化,使系统更便于管理和维护。

(2)在数据管理方面,未来的发展将使数据库厂商明确推出数据仓库引擎,作为数据仓库服务器产品与数据库服务器并驾齐驱。

在这一方面,带有决策支持扩展的并行关系数据库将最具发展潜力。

(3)在数据表现方面,数理统计的算法和功能将普遍集成到联机分析产品中,并与Internet/Web技术紧密结合。

按行业应用特征细化的数据仓库用户前端软件将成为产品作为数据仓库解决方案的一部分。

数据仓库实现过程的方法论将更加普及,将成为数据库设计的一个明确分支,成为管理信息系统设计的必备16、请列出3种数据仓库产品,并说明其优缺点。

(1)IBM 公司提供了一套基于可视化数据仓库的商业智能(BI)解决方案,包括:Visual Warehouse(VW),Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB,以及来自第三方的前端数据展现工具(如BO)和数据挖掘工具(如SAS)。

其中,VW 是一个功能很强的集成环境,既可用于数据仓库建模和元数据管理,又可用于数据抽取、转换、装载和调度。

Essbase/DB2 OLAP Server 支持“维”的定义和数据装载。

Essbase/DB2 OLAP Server 不是ROLAP(Relational OLAP)服务器,而是一个(ROLAP 和MOLAP)混合的HOLAP 服务器,在Essbase 完成数据装载后,数据存放在系统指定的DB2 UDB 数据库中。

它的前端数据展现工具可以选择Business Objects 的BO、Lotus 的Approach、Cognos 的Impromptu 或IBM 的Query Management Facility;多维分析工具支持Arbor Software 的Essbase 和IBM (与Arbor 联合开发)的DB2 OLAP 服务器;统计分析工具采用SAS 系统。

(2)Oracle 数据仓库解决方案主要包括Oracle Express 和Oracle Discoverer 两个部分。

Oracle Express 由四个工具组成:Oracle Express Server 是一个MOLAP(多维OLAP)服务器,它利用多维模型,存储和管理多维数据库或多维高速缓存,同时也能够访问多种关系数据库;Oracle Express Web Agent 通过CGI 或Web 插件支持基于Web 的动态多维数据展现;Oracle Express Objects 前端数据分析工具(目前仅支持Windows 平台)提供了图形化建模和假设分析功能,支持可视化开发和事件驱动编程技术,提供了兼容Visual Basic 语法的语言,支持OCX 和OLE;Oracle Express Analyzer 是通用的、面向最终用户的报告和分析工具(目前仅支持Windows 平台)。

Oracle Discoverer 即席查询工具是专门为最终用户设计的,分为最终用户版和管理员版。

在Oracle 数据仓库解决方案的实施过程中,通常把汇总数据存储在Express 多维数据库中,而将详细数据存储在Oracle 关系数据库中,当需要详细数据时,Express Server 通过构造SQL 语句访问关系数据库。

(3)Microsoft 将OLAP 功能集成到SQL Server 数据库中,其解决方案包括BI 平台、BI 终端工具、BI 门户和BI 应用四个部分,如图1.1。

① BI 平台是BI 解决方案的基础,包括ETL 平台SQL Server 2005 IntegrationService(SSIS)、数据仓库引擎SQL Server 2005 RDBMS 以及多维分析和数据挖掘引擎SQL Server 2005 Analysis Service、报表管理引擎SQL Server 2005 Reporting Service。

② BI 终端用户工具,用户通过终端用户工具和Analysis Service 中的OLAP 服务和数据挖掘服务进行交互来使用多维数据集和数据挖掘模型,终端用户通常可使用预定义报表、交互式多维分析、即席查询、数据可视化、数据挖掘等多种方法。

③ BI 门户提供了各种不同用户访问BI 信息的统一入口。

BI 门户是一个数据的汇集地,集成了来自不同系统的相关信息。

用户可以制定个性化的个人门户,选择和自己相关性最强的数据,提高信息访问和使用的效率。

④ BI 应用是建立在BI 平台、BI 终端用户工具和BI 统一门户这些公共技术手段之上的满足某个特定业务需求的应用,例如零售业务分析、企业项目管理组合分析等第二章1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。

2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。

因此,我们要求ETL过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。

3、数据抽取的两个常见类型是静态抽取和增量抽取。

静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。

4、粒度是对数据仓库中数据的综合程度高低的一个衡量。

粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。

5、使用星型模式可以从一定程度上提高查询效率。

因为星型模式中数据的组织已经经过预处理,主要数据都在庞大的事实表中。

6、维度表一般由主键、分类层次和描述属性组成。

对于主键可以选择两种方式:自然键,代理键。

7、雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。

8、数据仓库中存在不同综合级别的数据。

一般把数据分成4个级别:早期细节级、当前细节级、轻度综合级和高度综合级。

9、(1)状态数据与事件数据前者描述对象的状态,后者描述对象发生的事件;(前象)状态数据→事件数据→(后象)状态数据(2)当前数据与周期数据当前数据只保留最新数据,现存的最新记录将改变以前中的数据。

周期数据则相反,一旦保存物理上就不在改变或删除数据。

通常每个周期数据记录都会包含一个时间戳来只是日期甚至时间。

(3)数据仓库中的元数据分技术元数据和业务元数据。

相关文档
最新文档