数据仓库与数据挖掘(陈志泊)课后习题答案

合集下载

数据仓库与数据挖掘_青岛大学中国大学mooc课后章节答案期末考试题库2023年

数据仓库与数据挖掘_青岛大学中国大学mooc课后章节答案期末考试题库2023年

数据仓库与数据挖掘_青岛大学中国大学mooc课后章节答案期末考试题库2023年1.非频繁项集的超集有可能是频繁的。

参考答案:错误2.决策树中不包含以下哪种节点。

参考答案:外部节点(external node)3.数据集成是将多个数据源中的数据结合起来存放在一个一致的数据存储(如数据仓库)中。

数据源可能涉及多个数据库、数据立方体或一般文件。

参考答案:正确4.数据取样时,除了要求抽样时严把质量关外,还要求抽样数据必须在足够范围内有代表性。

参考答案:正确5.若属性income的平均值和标准差分别为32000元和17000元,则使用z-score规范化后,65600元被转换为:参考答案:1.9766.朴素贝叶斯算法能够解决特征之间有相关性的问题。

参考答案:错误7.OLAP技术的核心是:参考答案:多维分析8.假定某属性的最小与最大值分别为8000元和14000元。

要将其映射到区间[0.0,1.0],按照最小-最大规范化方法对属性进行变换,属性值12600将变换为:参考答案:0.7679.后验概率P(H|X)表示条件X下H的概率。

参考答案:正确10.只要有两个频繁3项集,就一定能够生成一个候选4项集。

参考答案:错误11.先验概率是根据历史资料或主观估计的方法得到的概率。

参考答案:正确12.公司里面男性有60人,女性有40人,男性穿皮鞋的人数有25人,穿运动鞋的人数有35人,女性穿皮鞋的人数有10人,穿高跟鞋的人数有30人。

现在你只知道有一个人穿了皮鞋,推测他是男性的概率为:参考答案:0.71413.数据归约是用来得到数据集的归约表示,它比源数据集小得多,但仍接近于保持源数据的完整性。

参考答案:正确14.数据分类由两步过程组成:第一步,建立一个分类模型,描述指定的数据类集或概念集;第二步,使用模型进行分类。

参考答案:正确15.假设吸烟的本科生比例为15%,而吸烟的研究生占23%。

如果五分之一的大学生是研究生,其余的是本科生,那么吸烟的学生是研究生的概率是多少?参考答案:0.27716.决策树构建之后,为了避免过度拟合,需要对树进行剪枝。

数据仓库与数据挖掘习题.doc

数据仓库与数据挖掘习题.doc

数据仓库与数据挖掘习题. .数据仓库与数据挖掘习题1.1什么是数据挖掘?在你的回答中,强调以下问题:(a) 它是又一个骗局吗?(b) 它是一种从数据库,统计学和机器学习发展的技术的简单转换吗?(c) 解释数据库技术发展如何导致数据挖掘(d) 当把数据挖掘看作知识发现过程时,描述数据挖掘所涉及的步骤。

1.2 给出一个例子,其中数据挖掘对于一种商务的成功至关重要的。

这种商务需要什么数据挖掘功能?他们能够由数据查询处理或简单的统计分析来实现吗?1.3 假定你是Big- (a) 它是又一个骗局吗?(b) 它是一种从数据库,统计学和机器学习发展的技术的简单转换吗?(c) 解释数据库技术发展如何导致数据挖掘(d) 当把数据挖掘看作知识发现过程时,描述数据挖掘所涉及的步骤。

1.2 给出一个例子,其中数据挖掘对于一种商务的成功至关重要的。

这种商务需要什么数据挖掘功能?他们能够由数据查询处理或简单的统计分析来实现吗?1.3 假定你是Big:每个学生的姓名,地址和状态(例如,本科生或研究生),所修课程,以及他们累积的GPA(学分平均)。

描述你要选取的结构。

该结构的每个成分的作用是什么?1.4 数据仓库和数据库有何不同?它们有那些相似之处?1.5简述以下高级数据库系统和应用:面向对象数据库,空间数据库,文本数据库,多媒体数据库和WWW。

1.6 定义以下数据挖掘功能:特征化,区分,关联,分类,预测,聚类和演变分析。

使用你熟悉的现实生活中的数据库,给出每种数据挖掘的例子。

1.7 区分和分类的差别是什么?特征化和聚类的差别是什么?分类和预测呢?对于每一对任务,它们有何相似之处?1.8 根据你的观察,描述一种可能的知识类型,它需要由数据挖掘方法发现,但未在本章中列出。

它需要一种不同于本章列举的数据挖掘技术吗?1. 9 描述关于数据挖掘方法和用户交互问题的三个数据挖掘的挑战。

1. 10 描述关于性能问题的两个数据挖掘的挑战。

2.1 试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法(构造使用数据仓库),而不愿使用查询驱动的方法(使用包装程序和集成程序)。

数据仓库与数据挖掘(陈志泊)课后习题答案

数据仓库与数据挖掘(陈志泊)课后习题答案

数据仓库与数据挖掘习题答案第1章数据仓库的概念与体系结构1. 面向主题的,相对稳定的。

2. 技术元数据,业务元数据。

3. 联机分析处理OLAP。

4. 切片(Slice),钻取(Drill-down和Roll-up等)。

5. 基于关系数据库。

6. 数据抽取,数据存储与管理。

7. 两层架构,独立型数据集市,依赖型数据集市和操作型数据存储,逻辑型数据集市和实时数据仓库。

8. 可更新的,当前值的。

9. 接近实时。

10. 以报表为主,以分析为主,以预测模型为主,以营运导向为主。

11. 答:数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。

数据仓库的特点包含以下几个方面:(1)面向主题。

操作型数据库的数据组织是面向事务处理任务,各个业务系统之间各自分离;而数据仓库中的数据是按照一定的主题域进行组织。

主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点领域,一个主题通常与多个操作型业务系统或外部档案数据相关。

(2)集成的。

面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。

而数据仓库中的数据是在对原有分散的数据库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企事业单位一致的全局信息。

也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义。

(3)相对稳定的。

操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。

数据仓库的数据主要供单位决策分析之用,对所涉及的数据操作主要是数据查询和加载,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存,几乎不再做修改和删除操作,也就是说针对数据仓库,通常有大量的查询操作及少量定期的加载(或刷新)操作。

数据仓库与数据挖掘课后答案

数据仓库与数据挖掘课后答案

Group 4 Chapter1-3CH11.数据库与数据仓库的本质差别是什么?答:数据库用于事务处理,数据仓库用来决策分析。

2.从数据库发展到数据仓库的原因是什么?答:①数据太多,信息贫乏。

②异构环境数据的转换和共享。

③利用数据进行事务处理转变为利用数据支持决策。

3.举例说明数据库与数据仓库的不同答:数据库(DB)数据仓库(DW)面向应用面向主题数据是详细的数据是综合的和历史的保持当前数据保存过去和现在的数据数据是可更新的数据不更新对数据操作是重复的对数据的操作是启发式的操作需求是事先可知的操作需求是临时决定的一个操作存取一个记录一个操作存取一个集合数据非冗余数据时常冗余操作比较频繁操作相对不频繁查询基本是原始数据查询基本是经过加工的数据事务处理需要的是当前数据决策分析需要过去和现在的数据很少有复杂的计算有很多复杂的计算支持事务处理支持决策分析4. 答:Oltp 联机事务处理,就是我们通常所说的关系型数据库,记录了实时的增删改查数据。

Olap 联机分析处理,是数据仓库的核心,是对oltp的历史数据进行加工,分析处理,用于处理商业智能,决策支持等重要的决策信息。

5.答:oltp是用户数据可以立即传送到计算中心进行处理,并在很短时间内给出处理结果。

它主要用于包括银行业、航空、邮购订单、超级市场和制造业等的输入数据和取回交易数据。

事务处理量大,要求多个并行处理,事务处理内容比较简单切重复率高。

大量的数据操作主要涉及的是一些增删改查询等操作,每次操作的数据量不打且多为当前的数据。

Oltp处理的数据是高度结构化的,数据访问路径是已知的,至少是固定的。

6.答:1.oltp 是明细的数据,olap 是汇总数据2.oltp 记录实时的数据,olap 包含2-3年历史数据3.oltp 可以进行增删改查操作,olap 只支持查询,但周期性刷新。

4.oltp一次性处理的数据量少,olap一次处理的数据量大5.oltp对响应时间要求高,olap响应时间合理6.oltp面向应用,事务驱动,olap面向分析,分析驱动7. 数据库中数据字典包括哪些内容?P4-5答:数据字典是指对中举的数据项、数据结构、数据流、数据存储、和处理过程8.元数据的定义是什么?P5答:元数据为关于数据的数据(data about data)。

数据仓库与数据挖掘(山东联盟)智慧树知到答案章节测试2023年济南大学

数据仓库与数据挖掘(山东联盟)智慧树知到答案章节测试2023年济南大学

绪论单元测试1.数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。

()A:错B:对答案:B第一章测试1.图挖掘技术在社会网络分析中扮演了重要的角色。

()A:错B:对答案:B2.数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。

( )A:对B:错答案:A3.DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。

()A:错B:对答案:B4.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( )A:建模描述B:预测建模C:寻找模式和规则D:根据内容检索答案:B5.以下哪些学科和数据挖掘有密切联系?( )A:矿产挖掘B:统计C:计算机组成原理D:人工智能答案:BD第二章测试1.下面哪个不属于数据的属性类型:( )A:区间B:标称C:序数答案:D2.在上题中,属于定量的属性类型是:( )A:序数B:标称C:相异D:区间答案:D3.只有非零值才重要的二元属性被称作:( )A:离散属性B:对称属性C:非对称的二元属性D:计数属性答案:C4.以下哪种方法不属于特征选择的标准方法: ( )A:包装B:抽样C:嵌入D:过滤答案:B5.离群点可以是合法的数据对象或者值。

()A:对B:错答案:A第三章测试1.下面哪些属于可视化高维数据技术 ( )A:矩阵B:散布图C:Chernoff脸D:平行坐标系E:星形坐标答案:ACDE2.下面哪种不属于数据预处理的方法? ( )A:变量代换B:估计遗漏值C:离散化D:聚集答案:B3.联机分析处理包括以下哪些基本分析功能? ( )A:分类C:切块D:聚类E:转轴答案:BCE4.检测一元正态分布中的离群点,属于异常检测中的基于()的离群点检测。

A:密度B:邻近度C:聚类技术D:统计方法答案:D5.离散属性总是具有有限个值。

()A:错B:对答案:A第四章测试1.数据仓库系统的组成部分包括数据仓库,仓库管理,数据抽取,分析工具等四个部分. ( )A:对B:错答案:B2.数据仓库中间层OLAP服务器只能采用关系型OLAP ()A:对B:错答案:B3.下面列出的条目中,哪些是数据仓库的基本特征: ( )A:数据仓库是面向事务的B:数据仓库的数据是反映历史变化的C:数据仓库的数据是集成的D:数据仓库是面向主题的E:数据仓库的数据是相对稳定的答案:BDE4.以下各项均是针对数据仓库的不同说法,你认为正确的有()。

数据库原理与应用教程第二版人民邮电出版社(陈志泊)习题参考答案 (完整版)

数据库原理与应用教程第二版人民邮电出版社(陈志泊)习题参考答案 (完整版)

第1章三:简答题1、 简述数据管理技术发展的三个阶段。

各个阶段的特点是什么?答:<1>数据管理技术经的三个阶段:人工管理阶段;文件系统阶段;数据库系统阶段<2>人工管理阶段特点:数据不保存、系统没有专用的软件对数据进行管理、数据不共享、数据不具独立性; 文件系统阶段:数据以文件形式长期保存、由文件系统管理数据;程序与数据间有一定的独立性; 数据库系统阶段:数据结构化、数据共享性高。

冗余度低、数据独立性高、有一定的数据控制功能。

2从程序和数据之间的关系分析文件系统和数据库之间的区别和联系1)文件系统和数据库系统之间的区别是: (1)文件系统用文件将数据长期保存在外存上,数据库系统用数据库统一存储数据; (2)文件系统中的程序和数据有一定的联系,数据库系统中的程序和数据分离; (3)文件系统用操作系统中的存取方法对数据进行管理,数据库系统用DBMS 统一管理和控制数据 (4)文件系统实现以文件为单位的数据共享,数据库系统实现以记录和字段为单位的数据共享。

2)文件系统和数据库系统之间的联系: (1)均为数据组织的管理技术; (2)均由数据管理软件管理数据,程序与数据之间用存取方法进行转换; (3)数据库系统是在文件系统的基础上发展而来的3、 简述数据库、数据管理系统、数据库系统三个概念的含义和联系。

答:<1>数据库:是以一定的组织方式存储在一起的,能为多个用户共享的,独立于应用程序的,相互关联的数据集合; 简单说就是数据的仓库,既数据存放的地方。

数据库系统:是指引进数据库技术后的整个计算机系统。

是一个实际运行的、按照数据库方式存储、维护和向应用系统提供数据支持的系统;数据库管理系统:是一套建立、管理和维护数据库的软件,是数据库系统的核心组成部分。

用户在数据库中的一切操作,包括数据定义、查询、更新及各种控制,都是通过DBMS 进行的。

<2>数据库容纳数据的仓库,数据库系统、数据库、数据库管理系统、硬件、操作人员的合在一起的总称。

数据仓库与数据挖掘教程(第2版)课后习题答案 第四章

数据仓库与数据挖掘教程(第2版)课后习题答案 第四章

第四章作业1.数据仓库的需求分析的任务是什么?P67需求分析的任务是通过详细调查现实世界要处理的对象(企业、部门用户等),充分了解源系统工作概况,明确用户的各种需求,为设计数据仓库服务。

概括地说,需求分析要明确用那些数据经过分析来实现用户的决策支持需求。

2.数据仓库系统需要确定的问题有哪些?P67、、(1)确定主题域a)明确对于决策分析最有价值的主题领域有哪些b)每个主题域的商业维度是那些?每个维度的粒度层次有哪些?c)制定决策的商业分区是什么?d)不同地区需要哪些信息来制定决策?e)对那个区域提供特定的商品和服务?(2)支持决策的数据来源a)那些源数据与商品的主题有关?b)在已有的报表和在线查询(OLTP)中得到什么样的信息?c)提供决策支持的细节程度是怎么样的?(3)数据仓库的成功标准和关键性指标a)衡量数据仓库成功的标准是什么?b)有哪些关键的性能指标?如何监控?c)对数据仓库的期望是什么?d)对数据仓库的预期用途有哪些?e)对计划中的数据仓库的考虑要点是什么?(4)数据量与更新频率a)数据仓库的总数据量有多少?b)决策支持所需的数据更新频率是多少?时间间隔是多长?c)每种决策分析与不同时间的标准对比如何?d)数据仓库中的信息需求的时间界限是什么?3.实现决策支持所需要的数据包括哪些内容?P68(1)源数据(2)数据转换(3)数据存储(4)决策分析4.概念:将需求分析过程中得到的用户需求抽象为计算机表示的信息结构,叫做概念模型。

特点:(1)能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世界的一个真实模型。

(2)易于理解,便利和用户交换意见,在用户的参与下,能有效地完成对数据仓库的成功设计。

(3)易于更改,当用户需求发生变化时,容易对概念模型修改和扩充。

(4)易于向数据仓库的数据模型(星型模型)转换。

5.用长方形表示实体,在数据仓库中就表示主题,椭圆形表示主题的属性,并用无向边把主题与其属性连接起来;用菱形表示主题之间的联系,用无向边把菱形分别与有关的主题连接;若主题之间的联系也具有属性,则把属性和菱形也用无向边连接上。

数据仓库与数据挖掘教程(第2版)课后习题答案第五章

数据仓库与数据挖掘教程(第2版)课后习题答案第五章

数据仓库与数据挖掘教程(第2版)课后习题答案第五章第五章作业1.数据仓库的两类用户有什么本质的不同?P96数据仓库的用户有两类:信息使用者和探索者。

信息使用者是使用数据仓库的大量用户,信息使用者以一种可以预测的、重复性的方式使用数据仓库平台。

探索者完全不同于信息使用者,他们有一个完全不可预测的、非重复性的数据使用模式。

2.数据仓库的信息使用者与数据库的信息使用者有什么不同?数据库的信息使用者主要关心当前某一个时间段内的数据,而数据仓库的信息使用者关心企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

3.1非规格化规范化的作用是产生一种完全没有数据冗余的设计方法。

但是,有时在数据仓库设计中引入一些有限的数据冗余来提高数据访问效果。

2创建数据阵列创建数据阵列,将相关类型的数据(如:1月、2月、3月等月份中的数据)存储在一起,提高访问效果。

3预连接表格一个公用键和共同使用的数据将表格合并在一起。

共享一个公用键,可以将多个表格合并到一个物理表格中。

这样做可以很大程度的提高数据访问效率。

4预聚集数据根据“滚动概括”结构来组织数据。

当数据被输入到数据仓库中时,以每小时为基础存储数据。

在这一天结束时,以每天为基础存储累加每小时的数据。

在一周结束时,以每周为基础存储累加每天的数据。

月末时,则以每月为基础存储累加每周的数据。

5聚类数据将不同类型的数据记录放置在相同的物理位置。

这为用户查看这些记录,可以在同一地点找到它们,提高查询效率。

6压缩数据压缩可以使可读取的数据量极大。

定期净化数据定期删除数据仓库中不需要的数据,可以为每个用户提高性能。

7合并查询如果查询定期发生,那么可以通过把这些查询合并到同一个表格中,从而节省大量资源。

4. 增加一些数据冗余,相当于增加了某些相同的数据,这些数据往往是我们很需要的或者是经常被使用的,由于这些数据所占总量的比例增加,所以被访问的概率增加,从而减少了查询时间,提高了查询速度。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据仓库与数据挖掘习题答案第1章数据仓库的概念与体系结构1. 面向主题的,相对稳定的。

2. 技术元数据,业务元数据。

3. 联机分析处理OLAP。

4. 切片(Slice),钻取(Drill-down和Roll-up等)。

5. 基于关系数据库。

6. 数据抽取,数据存储与管理。

7. 两层架构,独立型数据集市,依赖型数据集市和操作型数据存储,逻辑型数据集市和实时数据仓库。

8. 可更新的,当前值的。

9. 接近实时。

10. 以报表为主,以分析为主,以预测模型为主,以营运导向为主。

11. 答:数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。

数据仓库的特点包含以下几个方面:(1)面向主题。

操作型数据库的数据组织是面向事务处理任务,各个业务系统之间各自分离;而数据仓库中的数据是按照一定的主题域进行组织。

主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点领域,一个主题通常与多个操作型业务系统或外部档案数据相关。

(2)集成的。

面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。

而数据仓库中的数据是在对原有分散的数据库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企事业单位一致的全局信息。

也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义。

(3)相对稳定的。

操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。

数据仓库的数据主要供单位决策分析之用,对所涉及的数据操作主要是数据查询和加载,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存,几乎不再做修改和删除操作,也就是说针对数据仓库,通常有大量的查询操作及少量定期的加载(或刷新)操作。

(4)反映历史变化。

操作型数据库(OLTP)主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含较久远的历史数据,因此总是包括一个时间维,以便可以研究趋势和变化。

数据仓库系统通常记录了一个单位从过去某一时点(如开始启用数据仓库系统的时点)到目前的所有时期的信息,通过这些信息,可以对单位的发展历程和未来趋势做出定量分析和预测。

12. 答:(1)两层架构(Generic Two-Level Architecture)。

(2)独立型数据集市(Independent Data Mart)。

(3)依赖型数据集市和操作型数据存储(Dependent Data Mart and Operational Data Store)。

(4)逻辑型数据集市和实时数据仓库(Logical Data Mart and Real-Time Data Warehouse)。

13. 答:数据仓库技术的发展包括数据抽取、存储管理、数据表现和方法论等方面。

在数据抽取方面,未来的技术发展将集中在系统集成化方面。

它将互连、转换、复制、调度、监控纳入标准化的统一管理,以适应数据仓库本身或数据源可能的变化,使系统更便于管理和维护。

在数据管理方面,未来的发展将使数据库厂商明确推出数据仓库引擎,作为数据仓库服务器产品与数据库服务器并驾齐驱。

在这一方面,带有决策支持扩展的并行关系数据库将最具发展潜力。

在数据表现方面,数理统计的算法和功能将普遍集成到联机分析产品中,并与Internet/Web技术紧密结合。

按行业应用特征细化的数据仓库用户前端软件将成为产品作为数据仓库解决方案的一部分。

数据仓库实现过程的方法论将更加普及,将成为数据库设计的一个明确分支,成为管理信息系统设计的必备。

14. 答:(1)IBM公司提供了一套基于可视化数据仓库的商业智能(BI)解决方案,包括:Visual Warehouse(VW)、Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB,以及来自第三方的前端数据展现工具(如BO)和数据挖掘工具(如SAS)。

其中,VW是一个功能很强的集成环境,既可用于数据仓库建模和元数据管理,又可用于数据抽取、转换、装载和调度。

Essbase/DB2 OLAP Server支持“维”的定义和数据装载。

Essbase/DB2 OLAP Server不是ROLAP(Relational OLAP)服务器,而是一个(ROLAP和MOLAP)混合的HOLAP服务器,在Essbase完成数据装载后,数据存放在系统指定的DB2 UDB数据库中。

它的前端数据展现工具可以选择Business Objects的BO、Lotus的Approach、Cognos的Impromptu 或IBM的Query Management Facility;多维分析工具支持Arbor Software的Essbase和IBM (与Arbor联合开发)的DB2 OLAP服务器;统计分析工具采用SAS系统。

(2)Oracle 数据仓库解决方案主要包括Oracle Express和Oracle Discoverer两个部分。

Oracle Express由四个工具组成:Oracle Express Server是一个MOLAP(多维OLAP)服务器,它利用多维模型,存储和管理多维数据库或多维高速缓存,同时也能够访问多种关系数据库;Oracle Express Web Agent通过CGI或Web插件支持基于Web的动态多维数据展现;Oracle Express Objects 前端数据分析工具(目前仅支持Windows平台)提供了图形化建模和假设分析功能,支持可视化开发和事件驱动编程技术,提供了兼容Visual Basic语法的语言,支持OCX和OLE;Oracle Express Analyzer是通用的、面向最终用户的报告和分析工具(目前仅支持Windows 平台)。

Oracle Discoverer即席查询工具是专门为最终用户设计的,分为最终用户版和管理员版。

在Oracle数据仓库解决方案的实施过程中,通常把汇总数据存储在Express多维数据库中,而将详细数据存储在Oracle关系数据库中,当需要详细数据时,Express Server通过构造SQL语句访问关系数据库。

(3)Microsoft将OLAP功能集成到SQL Server数据库中,其解决方案包括BI平台、BI终端工具、BI门户和BI应用四个部分,如图1.1。

①BI平台是BI解决方案的基础,包括ETL平台SQL Server 2005 Integration Service(SSIS)、数据仓库引擎SQL Server 2005 RDBMS 以及多维分析和数据挖掘引擎SQL Server 2005 Analysis Service、报表管理引擎SQL Server 2005 Reporting Service。

②BI终端用户工具,用户通过终端用户工具和Analysis Service 中的OLAP服务和数据挖掘服务进行交互来使用多维数据集和数据挖掘模型,终端用户通常可使用预定义报表、交互式多维分析、即席查询、数据可视化、数据挖掘等多种方法。

③BI门户提供了各种不同用户访问BI信息的统一入口。

BI门户是一个数据的汇集地,集成了来自不同系统的相关信息。

用户可以制定个性化的个人门户,选择和自己相关性最强的数据,提高信息访问和使用的效率。

④BI应用是建立在BI平台、BI终端用户工具和BI统一门户这些公共技术手段之上的满足某个特定业务需求的应用,例如零售业务分析、企业项目管理组合分析等。

第2章数据仓库的数据存储与处理1. 企业级数据仓库(EDW)。

2. 单一的,详细的。

3. 最初填充数据仓库。

4. 越高,越低,越多。

5. 提高,预处理,事实表。

6. 自然键(Natural Key),代理键(Surrogate Key)。

7. 星型模式。

8. 早期细节级,轻度综合级。

9. 答:简单地说,数据是从企业内外部的各业务处理系统(操作型数据)流向企业级数据仓库(EDW)或操作型数据存储区(ODS),在这个过程中,要根据企业(或其他组织)的数据模型和元数据库对数据进行调和处理,形成一个中间数据层,然后再根据分析需求,从调和数据层(EDW、ODS)将数据引入导出数据层,如形成满足各类分析需求的数据集市。

10. 答:数据的ETL过程就是负责将操作型数据转换成调和数据的过程。

如上面的2.3.1小节所述,这两种数据具有明显的区别,因此,数据调和是构建一个数据仓库中最难的和最具技术挑战性的部分。

在为企业级数据仓库填充数据的过程中,数据调和可分为两个阶段:一是企业级数据仓库(EDW)首次创建时的原始加载;二是接下来的定期修改,以保持EDW 的当前有效性和扩展性。

整个过程由四个步骤组成:抽取、清洗、转换、加载和索引。

事实上,这些步骤可以进行不同的组合,如,可以将数据抽取与清洗组合为一个过程,或者将清洗和转换组合在一起。

通常,在清洗过程中发现的拒绝数据信息会送回到源操作型业务系统中,然后将数据在源系统中加以处理,以便在以后重新抽取。

11. 答:在星模式中,事实表居中,多个维表呈辐射状分布于其四周,并与事实表连接。

位于星形中心的实体是事实表,是用户最关心的基本实体和查询活动的中心,为数据仓库的查询活动提供定量数据。

位于星模式四周的实体是维度实体,其作用是限制和过滤用户的查询结果,缩小访问范围。

每个维表都有自己的属性,维表和事实表通过关键字相关联。

12. 答:因为数据仓库或数据集市的数据总是历史的数据,需要时间维来区别。

第3章数据仓库系统的设计与开发1. 在线分析处理(OLAP) 分析。

2. 信息包图法,维度,类别,度量。

3. 逻辑模型。

4. 事务事实,快照事实,线性项目事实。

5. 聚合。

6. 时间,区域。

7. 退化维。

8. 无变化,缓慢变化,剧烈变化。

9. 索引。

10. 反向规范化,引入冗余。

11. 答:信息包图法,也叫用户信息需求表,就是在一张平面表格上描述元素的多维性,其中的每一个维度用平面表格的一列表示,通常的维度如时间、地点、产品和顾客等;而细化本列的对象就是类别,例如时间维度的类别可以细化到年、月、日,甚至小时;平面表格的最后一行(代表超立方体中的单元格)即为指标度量值,例如,某年在某销售点的某类产品的实际销售额。

创建信息包图时需要确定最高层和最低层的信息需求,以便最终设计出包含各个层次需要的数据仓库总之,信息包图法是一种自上而下的数据建模方法,即从用户的观点开始设计(用户的观点是通过与用户交流得到的),站在管理者的角度把焦点集中在企业的一个或几个主题上,着重分析主题所涉及数据的多维特性,这种自上而下的方法几乎考虑了所有的信息源,以及这些信息源影响业务活动的方式。

相关文档
最新文档