数据挖掘作业

合集下载

大连理工大学22春“计算机科学与技术”《数据挖掘》作业考核题库高频考点版(参考答案)试题号5

大连理工大学22春“计算机科学与技术”《数据挖掘》作业考核题库高频考点版(参考答案)试题号5

大连理工大学22春“计算机科学与技术”《数据挖掘》作业考核题库高频考点版(参考答案)一.综合考核(共50题)1.逗号分隔数值的存储格式叫做csv格式,csv格式一般用来表示二维数据。

()A.正确B.错误参考答案:A2.以下关于Python组合数据类型描述错误的是()。

A.序列类型可以通过序号访问元素,元素之间不存在先后关系B.组合数据类型可以分为3类序列类型、集合类型和映射类型C.Python组合数据类型能够将多个同类型或者不同类型的数据组织起来,通过单一的表示使数据操作更有序、更容易D.Python中字符串、元组和列表都是序列类型参考答案:A3.函数用于从控制台输入数据,print函数用于将数据输出到控制台显示。

()A.正确B.错误参考答案:A4.函数的名称可以任意字符组合形成的。

()A.正确B.错误参考答案:BA.正确B.错误参考答案:A6.Python中的注释是为了让计算机更能理解程序表达的意思。

()A.正确B.错误参考答案:B7.程序设计语言中保留字也称为关键字,指被语言内部定义并保留使用的标识符。

()A.正确B.错误参考答案:A8.下面不能用来作为变量名称的是()。

A.listB._1abC.notD.a1b2参考答案:C9.以下那个关键字不是异常处理语句的关键字()。

A.elifB.exceptC.tryD.finally参考答案:A组合数据类型可以分为三类:序列类型、集合类型和映射类型。

()A.正确B.错误参考答案:A11.Python文件的后缀名是()。

A.pyB.pdfC.pngD.pyl参考答案:A12.定义和使用函数的主要原因是函数执行速度更快。

()A.正确B.错误参考答案:B13.下列选项不属于函数的作用的是()。

A.复用代码B.降低编程复杂度C.提高代码的执行速度D.增强代码的可读性参考答案:C14.以下关于Python组合数据类型描述错误的是()。

A.序列类型可以通过序号访问元素,元素之间不存在先后关系B.组合数据类型可以分为3类:序列类型、集合类型和映射类型C.Python组合数据类型能够将多个同类型或者不同类型的数据组织起来,通过单一的表示使数据操参考答案:A15.以下选项对Python文件操作描述错误的是()。

数据挖掘作业讲解

数据挖掘作业讲解

《数据挖掘》作业第一章引言一、填空题(1)数据库中的知识挖掘(KDD)包括以下七个步骤:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示(2)数据挖掘的性能问题主要包括:算法的效率、可扩展性和并行处理(3)当前的数据挖掘研究中,最主要的三个研究方向是:统计学、数据库技术和机器学习(4)在万维网(WWW)上应用的数据挖掘技术常被称为:WEB挖掘(5)孤立点是指:一些与数据的一般行为或模型不一致的孤立数据二、单选题(1)数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于:(B )A、所涉及的算法的复杂性;B、所涉及的数据量;C、计算结果的表现形式;D、是否使用了人工智能技术(2)孤立点挖掘适用于下列哪种场合?(D )A、目标市场分析B、购物篮分析C、模式识别D、信用卡欺诈检测(3)下列几种数据挖掘功能中,( D )被广泛的应用于股票价格走势分析A. 关联分析B.分类和预测C.聚类分析D. 演变分析(4)下面的数据挖掘的任务中,( B )将决定所使用的数据挖掘功能A、选择任务相关的数据B、选择要挖掘的知识类型C、模式的兴趣度度量D、模式的可视化表示(5)下列几种数据挖掘功能中,(A )被广泛的用于购物篮分析A、关联分析B、分类和预测C、聚类分析D、演变分析(6)根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是( B )A.关联分析B.分类和预测C. 演变分析D. 概念描述(7)帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是( C )A.关联分析B.分类和预测C.聚类分析D. 孤立点分析E. 演变分析(8)假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是( E )A.关联分析B.分类和预测C. 孤立点分析D. 演变分析E. 概念描述三、简答题(1)什么是数据挖掘?答:数据挖掘是指从大量数据中提取或“挖掘”知识。

【数据挖掘 作业】K均值算法及其改进思路

【数据挖掘 作业】K均值算法及其改进思路
聚类分析
K均值算法及其改进思路
➢聚类的简要介绍 ➢聚类分析的意义 ➢K均值算法 ➢K均值算法缺点 ➢K均值算法改进思路
❖聚类(Clustering),是根据“物以类聚”的道理,对大量样本数 据进行归类的一种多元统计分析方法。聚类作为一种无监督学习方 法,在没有任何先验信息条件下,对现有无标记的数据进行归类。
❖聚类分析的过程主要分为两部分:首先要根据相似性度量方法测 度出数据间的相似程度,将相似的数据划分到同一个簇类中;然后 采用准则函数评价聚类划分的结果。因此,相似性度量和准则函数 是聚类分析中的重要衡量指标。
聚类分析的意义
聚类分析是数据挖掘的预处理步骤,更是知识 发现的关键环节。聚类分析的结层 次的数据分析与知识发现提供了可靠的依据。
K均值算法
K均值算法是聚类分析中基于划分的常用的算 法。它是一种无监督学习方式,即针对事先不带 有类别标签的数据,采用欧几里德距离作为相似 性度量方法划分簇类,采用采用最小误差平方和 作为目标函数,使得同一个簇类内的数据之间具 有较高相似度,不同簇类的数据之间具有较高相 异度。
1.需要预先定义聚类数目即K值; 2.依赖于初始中心点,易陷入局部最优解; 3.易受噪音点和孤立点影响; 4.无法发现球形形状以外的其他形状的数据。
因k均值算法对初始化中心敏感,且需要人为设定聚类个数。
通过查阅相关文献,可以对该算法做以下改进:
(1)针对对初始化中心敏感问题,可以通过层次初始聚类方法, 通过对数据层层抽样并聚类,以较小的时间代价得到较好的初始聚 类中心。
(2)针对需要人为设定聚类个数问题,提出一种自动确定聚类个 数的方法。该方法以DBI(Davies Bouldin index)作为确定聚类个数的 评估指标,能够较好体现聚类质量。
谢谢!

数据挖掘作业(第5章)

数据挖掘作业(第5章)

第5章关联分析5.1 列举关联规则在不同领域中应用的实例。

5.2 给出如下几种类型的关联规则的例子,并说明它们是否是有价值的。

(a)高支持度和高置信度的规则; (b)高支持度和低置信度的规则; (c)低支持度和低置信度的规则; (d)低支持度和高置信度的规则。

5.3 数据集如表5-14所示:(a) 把每一个事务作为一个购物篮,计算项集{e}, {b, d}和{b, d, e}的支持度。

(b) 利用(a)中结果计算关联规则{b, d}→{e} 和 {e}→{b, d}的置信度。

置信度是一个对称的度量吗?(c) 把每一个用户购买的所有商品作为一个购物篮,计算项集{e}, {b, d}和{b, d, e}的支持度。

(d) 利用(b)中结果计算关联规则{b, d}→{e} 和 {e}→{b, d}的置信度。

置信度是一个对称的度量吗?5.4 关联规则是否满足传递性和对称性的性质?举例说明。

5.5 Apriori 算法使用先验性质剪枝,试讨论如下类似的性质 (a) 证明频繁项集的所有非空子集也是频繁的(b) 证明项集s 的任何非空子集s ’的支持度不小于s 的支持度(c) 给定频繁项集l 和它的子集s ,证明规则“s’→(l – s’)”的置信度不高于s →(l – s)的置信度,其中s’是s 的子集(d) Apriori 算法的一个变形是采用划分方法将数据集D 中的事务分为n 个不相交的子数据集。

证明D 中的任何一个频繁项集至少在D 的某一个子数据集中是频繁的。

5.6 考虑如下的频繁3-项集:{1, 2, 3},{1, 2, 4},{1, 2, 5},{1, 3, 4},{1, 3, 5},{2, 3, 4},{2, 3, 5},{3, 4, 5}。

(a)根据Apriori 算法的候选项集生成方法,写出利用频繁3-项集生成的所有候选4-项集。

(b)写出经过剪枝后的所有候选4-项集5.7 一个数据库有5个事务,如表5-15所示。

数据分析与挖掘习题

数据分析与挖掘习题

数据分析与挖掘习题第一章作业1.1什么是数据挖掘?在你的回答中,强调以下问题:(a) 它是又一个骗局吗?数据挖掘,在人工智能领域,习惯上又称为数据库中知识发现(Knowledge Discovery in Database, KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。

数据挖掘可以与用户或知识库交互。

并非所有的信息发现任务都被视为数据挖掘。

例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。

虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。

尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。

(b) 它是一种从数据库,统计学和机器学习发展的技术的简单转换吗?硬要去区分Data Mining和Statistics的差异其实是没有太大意义的。

一般将之定义为Data Mining技术的CART、CHAID或模糊计算等等理论方法,也都是由统计学者根据统计理论所发展衍生,换另一个角度看,Data Mining有相当大的比重是由高等统计学中的多变量分析所支撑。

但是为什么Data Mining的出现会引发各领域的广泛注意呢?主要原因在相较于传统统计分析而言,Data Mining有下列几项特性:1.处理大量实际数据更强势,且无须太专业的统计背景去使用Data Mining的工具2.数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件,Data Mining 的工具更符合企业需求;3. 纯就理论的基础点来看,Data Mining和统计分析有应用上的差别,毕竟Data Mining 目的是方便企业终端用户使用而非给统计学家检测用的。

(c) 解释数据库技术发展如何导致数据挖掘近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。

数据挖掘作业完整版

数据挖掘作业完整版

数据挖掘作业HEN system office room 【HEN16H-HENS2AHENS8Q8-HENH1688】1、给出K D D的定义和处理过程。

KDD的定义是:从大量数据中提取出可信的、新颖的、有用的且可以被人理解的模式的高级处理过程。

因此,KDD是一个高级的处理过程,它从数据集中识别出以模式形式表示的知识。

这里的“模式”可以看成知识的雏形,经过验证、完善后形成知识:“高级的处理过程”是指一个多步骤的处理过程,多步骤之间相互影响反复调整,形成一种螺旋式上升的过程。

KDD的全过程有五个步骤:1、数据选择:确定发现任务的操作对象,即目标数据,它是根据用户的需要从原始数据库中抽取的一组数据;2、数据预处理:一般可能包括消除噪声、推到技术却只数据、消除重复记录、完成数据类型转换等;3、数据转换:其主要目的是消减数据维数或降维,即从初始特征中找出真正有用的特征以减少数据开采时要考虑的特征或变量个数;4、数据挖掘:这一阶段包括确定挖掘任务/目的、选择挖掘方法、实施数据挖掘;5、模式解释/评价:数据挖掘阶段发现出来的模式,经过用户或机器的评价,可能存在冗余或无关的模式,需要剔除;也有可能模式不满足用户的要求,需要退回到整个发现阶段之前,重新进行KDD过程。

2、阐述数据挖掘产生的背景和意义。

数据挖掘产生的背景:随着信息科技的进步以及电子化时代的到来,人们以更快捷、更容易、更廉价的方式获取和存储数据,使得数据及信息量以指数方式增长。

据粗略估计,一个中等规模企业每天要产生100MB以上的商业数据。

而电信、银行、大型零售业每天产生的数据量以TB来计算。

人们搜集的数据越来越多,剧增的数据背后隐藏着许多重要的信息,人们希望对其进行更高层次的分析,以便更好的利用这些数据。

先前的数据库系统可以高效的实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系与规则,无法根据现有的数据来预测未来的发展趋势。

缺乏挖掘数据背后隐藏的知识的手段。

数据挖掘作业

数据挖掘作业

证明决策树生长的计算时间最多为 m D log( D ) 。
3.4 考虑表 3-23 所示二元分类问题的数据集。 表 3-23 习题 3.4 数据集
A
B
类标号
T
F
+
T
T
+
T
T
+
T
F
-
T
T
+
F
F
-
F
F
-
F
F
-
T
T
-
T
F
-
(1) 计算按照属性 A 和 B 划分时的信息增益。决策树归纳算法将会选择那个属性?
y ax 转换成可以用最小二乘法求解的线性回归方程。
表 3-25 习题 3.8 数据集
X 0.5 3.0 4.5 4.6 4.9 5.2 5.3 5.5 7.0 9.5
Y-
-
+++-
-
+-
-
根据 1-最近邻、 3-最近邻、 5-最近邻、 9-最近邻,对数据点 x=5.0 分类,使用多数表决。
3.9 表 3-26 的数据集包含两个属性 X 与 Y ,两个类标号“ +”和“ -”。每个属性取三个不同值策略: 0,1 或
记录号
A
B
C

1
0
0
0
+
2
0
0
1
-
3
0
1
1
-
4
0
1
1
-
5
0
0
1
+
6
1
0
1
+
7
1

数据挖掘大作业例子

数据挖掘大作业例子

数据挖掘大作业例子1. 超市购物数据挖掘呀!想想看,如果把超市里每个顾客的购买记录都分析一遍,那岂不是能发现很多有趣的事情?比如说,为啥周五晚上大家都爱买啤酒和薯片呢,是不是都打算周末在家看剧呀!2. 社交媒体情感分析这个大作业超有意思哦!就像你能从大家发的文字里看出他们今天是开心还是难过,那简直就像有了读心术一样神奇!比如看到一堆人突然都在发伤感的话,难道是发生了什么大事情?3. 电商用户行为挖掘也很棒呀!通过分析用户在网上的浏览、购买行为,就能知道他们喜欢什么、不喜欢什么,这难道不是很厉害吗?就像你知道了朋友的喜好,能给他推荐最适合的礼物一样!4. 交通流量数据分析呢!想象一下,了解每个路口的车流量变化,是不是就能更好地规划交通啦?难道这不像是给城市的交通装上了一双明亮的眼睛?5. 医疗数据挖掘更是不得了!能从大量的病例中找到疾病的规律,这简直是在拯救生命啊!难道这不是一件超级伟大的事情吗?比如说能发现某种疾病在特定人群中更容易出现。

6. 金融交易数据挖掘也超重要的呀!可以知道哪些交易有风险,哪些投资更靠谱,那不就像有个聪明的理财顾问在身边吗!就好比能及时发现异常的资金流动。

7. 天气数据与出行的结合挖掘也很有趣呀!根据天气情况来预测大家的出行选择,真是太神奇了吧!难道不是像有了天气预报和出行指南合二为一?8. 音乐喜好数据挖掘呢!搞清楚大家都喜欢听什么类型的音乐,从而能更好地推荐歌曲,这不是能让人更开心地享受音乐吗!好比为每个人定制了专属的音乐播放列表。

9. 电影票房数据挖掘呀!通过分析票房数据就能知道观众最爱看的电影类型,这不是超厉害的嘛!就像知道了大家心里最期待的电影是什么样的。

我觉得数据挖掘真的太有魅力了,可以从各种看似普通的数据中发现那么多有价值的东西,真是让人惊叹不已啊!。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《数据挖掘》作业第一章引言一、填空题(1)数据库中的知识挖掘(KDD)包括以下七个步骤:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示(2)数据挖掘的性能问题主要包括:算法的效率、可扩展性和并行处理(3)当前的数据挖掘研究中,最主要的三个研究方向是:统计学、数据库技术和机器学习(4)在万维网(WWW)上应用的数据挖掘技术常被称为:WEB挖掘(5)孤立点是指:一些与数据的一般行为或模型不一致的孤立数据二、单选题(1)数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于:BA、所涉及的算法的复杂性;B、所涉及的数据量;C、计算结果的表现形式;D、是否使用了人工智能技术(2)孤立点挖掘适用于下列哪种场合?DA、目标市场分析B、购物篮分析C、模式识别D、信用卡欺诈检测(3)下列几种数据挖掘功能中,( D )被广泛的应用于股票价格走势分析A. 关联分析B.分类和预测C.聚类分析D. 演变分析(4)下面的数据挖掘的任务中,( B )将决定所使用的数据挖掘功能A、选择任务相关的数据B、选择要挖掘的知识类型C、模式的兴趣度度量D、模式的可视化表示(5)下列几种数据挖掘功能中,(A )被广泛的用于购物篮分析A、关联分析B、分类和预测C、聚类分析D、演变分析(6)根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是(B )A.关联分析B.分类和预测C. 演变分析D. 概念描述(7)帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是( C )A.关联分析B.分类和预测C.聚类分析D. 孤立点分析E. 演变分析(8)假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是( E )A.关联分析B.分类和预测C. 孤立点分析D. 演变分析E. 概念描述三、简答题(1)什么是数据挖掘?答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。

(2)一个典型的数据挖掘系统应该包括哪些组成部分?答:一个典型的数据挖掘系统应该包括以下部分:数据库、数据仓库或其他信息库数据库或数据仓库服务器知识库数据挖掘引擎模式评估模块图形用户界面(3)请简述不同历史时代数据库技术的演化。

答:1960年代和以前:研究文件系统。

1970年代:出现层次数据库和网状数据库。

1980年代早期:关系数据模型, 关系数据库管理系统(RDBMS)的实现1980年代后期:出现各种高级数据库系统(如:扩展的关系数据库、面向对象数据库等等)以及面向应用的数据库系统(空间数据库,时序数据库,多媒体数据库等等。

1990年代:研究的重点转移到数据挖掘, 数据仓库, 多媒体数据库和网络数据库。

2000年代:人们专注于研究流数据管理和挖掘、基于各种应用的数据挖掘、XML 数据库和整合的信息系统。

(4)请列举数据挖掘应用常见的数据源。

(或者说,我们都在什么样的数据上进行数据挖掘)答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。

其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文本数据库和万维网(WWW)等。

(5)什么是模式兴趣度的客观度量和主观度量?答:客观度量指的是基于所发现模式的结构和关于它们的统计来衡量模式的兴趣度,比如:支持度、置信度等等;主观度量基于用户对数据的判断来衡量模式的兴趣度,比如:出乎意料的、新颖的、可行动的等等。

(6)在哪些情况下,我们认为所挖掘出来的模式是有趣的?答:一个模式是有趣的,如果(1) 它易于被人理解;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设。

(7)根据挖掘的知识类型,我们可以将数据挖掘系统分为哪些类别?答:根据挖掘的知识类型,数据挖掘系统可以分为特征分析,区分,关联分析,分类聚类,孤立点分析/演变分析,偏差分析,多种方法的集成和多层级挖掘等类型。

第二章数据仓库和数据挖掘的OLAP技术一、填空题一、(1)数据仓库的多维数据模型可以有三种不同的形式,分别是:星形模式、雪花模式和事实星座模式(2)给定基本方体,方体的物化有三种选择:不物化、部分物化和全物化(3)著名的数据仓库系统设计师W. H. Inmon认为,数据仓库与其他数据存储系统的区别的四个特征是:面向主题、数据集成、随时间而变化和数据不易丢失(4)在数据访问模式上,数据仓库以事务操作为主,而日常应用数据库则以只读查询为主。

(5)数据立方体度量可以根据其所使用的聚集函数分为三类,分别是:分布的、代数的和整体的(6)关于数据仓库的设计,四种不同的视图必须考虑,分别是:自顶向下视图、数据源视图、数据仓库视图、商务查询视图(7)OLAP服务器的类型主要包括:关系OLAP服务器(ROLAP)、多维OLAP服务器(MOLAP)和混合OLAP服务器(HOLAP)(8)求和函数sum()是一个分布的的函数。

(9)方体计算的主要挑战是海量数据和有限的内存和时间之间的矛盾。

二、单选题(1)下面的数据操作中,哪些操作不是多维数据模型上的OLAP操作BA、上卷(roll-up)B、选择(select)C、切片(slice)D、转轴(pivot) (2)以下哪个范围是数据仓库的数据库规模的一个合理范围DA、1-100MB、100M-10GC、10-1000GD、100GB-数TB (3)存放最低层汇总的方体称为:CA、顶点方体B、方体的格C、基本方体D、维(4)哪种OLAP操作可以让用户在更高的抽象层,更概化的审视数据?AA、上卷B、下钻C、切块D、转轴(5)平均值函数avg()属于哪种类型的度量?BA、分布的B、代数的C、整体的D、混合的三、多选题(1)OLAP系统和OLTP系统的主要区别包括( ABD )。

A、OLTP系统主要用于管理当前数据,而OLAP系统主要存放的是历史数据;B、在数据的存取上,OLTP系统比OLAP系统有着更多的写操作;C、对OLTP系统上的数据访问量往往比对OLAP系统的数据访问量要大得多;D、OLAP系统中往往存放的是汇总的数据,而OLTP系统中往往存放详细的数据。

(2)从结构的角度看,数据仓库模型包括以下几类:ABCA、企业仓库B、数据集市C、虚拟仓库D、信息仓库(3)数据仓库的三层架构主要包括以下哪三部分?BCDA、数据源B、数据仓库服务器C、OLAP服务器D、前端工具(4)以下哪些是数据仓库的主要应用?ACDA、信息处理B、互联网搜索C、分析处理D、数据挖掘四、简答题(1)为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行。

答:使用一个独立的数据仓库进行OLAP处理是为了以下目的:(1)提高两个系统的性能操作数据库是为OLTP而设计的,没有为OLAP操作优化,同时在操作数据库上处理OLAP查询,会大大降低操作任务的性能;而数据仓库是为OLAP而设计,为复杂的OLAP查询, 多维视图,汇总等OLAP功能提供了优化。

(2)两者有着不同的功能操作数据库支持多事务的并行处理,而数据仓库往往只是对数据记录进行只读访问;这时如果将事务处理的并行机制和恢复机制用于这种OLAP操作,就会显著降低OLAP的性能。

(3)两者有着不同的数据数据仓库中存放历史数据;日常操作数据库中存放的往往只是最新的数据。

(2)为什么说数据仓库具有随时间而变化的特征?答:(1)数据仓库的时间范围比操作数据库系统要长的多。

操作数据库系统主要保存当前数据,而数据仓库从历史的角度提供信息(比如过去5-10 年)。

(2)数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素。

(3)试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法(update-driven),而不愿使用查询驱动(query-driven)的方法?答:因为对于多个异种信息源的集成,查询驱动方法需要复杂的信息过滤和集成处理,并且与局部数据源上的处理竞争资源,是一种低效的方法,并且对于频繁的查询,特别是需要聚集操作的查询,开销很大。

而更新驱动方法为集成的异种数据库系统带来了高性能,因为数据被处理和重新组织到一个语义一致的数据存储中,进行查询的同时并不影响局部数据源上进行的处理。

此外,数据仓库存储并集成历史信息,支持复杂的多维查询。

(4)请简述几种典型的多维数据的OLAP操作答:典型的OLAP操作包括以下几种上卷:通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集;下钻:上卷的逆操作,由不太详细的数据得到更详细的数据;通常可以通过沿维的概念分层向下或引入新的维来实现;切片:在给定的数据立方体的一个维上进行选择,导致一个子方;切块:通过对两个或多个维执行选择,定义子方;转轴:转动数据的视角,提供数据的替代表示;钻过:执行涉及多个事实表的查询;钻透:使用关系SQL机制,钻到数据立方体的底层,到后端关系表(5)为什么说相对于日常的应用数据库,数据仓库中的数据更加不容易丢失?答:(1)尽管数据仓库中的数据来自于操作数据库,但它们却是在物理上分离保存的,操作数据库的更新操作不会出现在数据仓库环境下。

(2)数据仓库不需要事务处理,恢复,和并发控制等机制。

(3)数据仓库只需要两种数据访问:数据的初始转载和数据访问(读操作)。

(6)假定Big_University的数据仓库包含如下4个维:student, course, semester和instructor;2个度量:count和avg_grade。

在最低得到概念层(例如,对于给定的学生、课程、学期和教师的组合),度量avg_grade存放学生的实际成绩。

在较高的概念层,avg_grade存放给定组合的平均成绩。

(a)为数据仓库画出雪花模式图。

(b)由基本方体[student, course, semester, instructor]开始,为列出Big_University每个学生的CS课程的平均成绩,应当使用哪些OLAP操作(如,由学期上卷到学年)。

(c)如果每维有5层(包括all),如student < major < status < university < all,该数据方包含多少方体(包含基本方体和顶点方体)?(7)在数据仓库中,元数据的主要用途包括哪些?答:在数据仓库中,元数据的主要用途包括:(1)用作目录,帮助决策支持系统分析者对数据仓库的内容定义(2)作为数据仓库和操作性数据库之间进行数据转换时的映射标准(3)用于指导当前细节数据和稍加综合的数据之间的汇总算法,指导稍加综合的数据和高度综合的数据之间的汇总算法。

相关文档
最新文档