数据仓库与数据挖掘(陈志泊)课后习题答案
数据仓库与数据挖掘_青岛大学中国大学mooc课后章节答案期末考试题库2023年

数据仓库与数据挖掘_青岛大学中国大学mooc课后章节答案期末考试题库2023年1.非频繁项集的超集有可能是频繁的。
参考答案:错误2.决策树中不包含以下哪种节点。
参考答案:外部节点(external node)3.数据集成是将多个数据源中的数据结合起来存放在一个一致的数据存储(如数据仓库)中。
数据源可能涉及多个数据库、数据立方体或一般文件。
参考答案:正确4.数据取样时,除了要求抽样时严把质量关外,还要求抽样数据必须在足够范围内有代表性。
参考答案:正确5.若属性income的平均值和标准差分别为32000元和17000元,则使用z-score规范化后,65600元被转换为:参考答案:1.9766.朴素贝叶斯算法能够解决特征之间有相关性的问题。
参考答案:错误7.OLAP技术的核心是:参考答案:多维分析8.假定某属性的最小与最大值分别为8000元和14000元。
要将其映射到区间[0.0,1.0],按照最小-最大规范化方法对属性进行变换,属性值12600将变换为:参考答案:0.7679.后验概率P(H|X)表示条件X下H的概率。
参考答案:正确10.只要有两个频繁3项集,就一定能够生成一个候选4项集。
参考答案:错误11.先验概率是根据历史资料或主观估计的方法得到的概率。
参考答案:正确12.公司里面男性有60人,女性有40人,男性穿皮鞋的人数有25人,穿运动鞋的人数有35人,女性穿皮鞋的人数有10人,穿高跟鞋的人数有30人。
现在你只知道有一个人穿了皮鞋,推测他是男性的概率为:参考答案:0.71413.数据归约是用来得到数据集的归约表示,它比源数据集小得多,但仍接近于保持源数据的完整性。
参考答案:正确14.数据分类由两步过程组成:第一步,建立一个分类模型,描述指定的数据类集或概念集;第二步,使用模型进行分类。
参考答案:正确15.假设吸烟的本科生比例为15%,而吸烟的研究生占23%。
如果五分之一的大学生是研究生,其余的是本科生,那么吸烟的学生是研究生的概率是多少?参考答案:0.27716.决策树构建之后,为了避免过度拟合,需要对树进行剪枝。
数据仓库与数据挖掘习题.doc

数据仓库与数据挖掘习题. .数据仓库与数据挖掘习题1.1什么是数据挖掘?在你的回答中,强调以下问题:(a) 它是又一个骗局吗?(b) 它是一种从数据库,统计学和机器学习发展的技术的简单转换吗?(c) 解释数据库技术发展如何导致数据挖掘(d) 当把数据挖掘看作知识发现过程时,描述数据挖掘所涉及的步骤。
1.2 给出一个例子,其中数据挖掘对于一种商务的成功至关重要的。
这种商务需要什么数据挖掘功能?他们能够由数据查询处理或简单的统计分析来实现吗?1.3 假定你是Big- (a) 它是又一个骗局吗?(b) 它是一种从数据库,统计学和机器学习发展的技术的简单转换吗?(c) 解释数据库技术发展如何导致数据挖掘(d) 当把数据挖掘看作知识发现过程时,描述数据挖掘所涉及的步骤。
1.2 给出一个例子,其中数据挖掘对于一种商务的成功至关重要的。
这种商务需要什么数据挖掘功能?他们能够由数据查询处理或简单的统计分析来实现吗?1.3 假定你是Big:每个学生的姓名,地址和状态(例如,本科生或研究生),所修课程,以及他们累积的GPA(学分平均)。
描述你要选取的结构。
该结构的每个成分的作用是什么?1.4 数据仓库和数据库有何不同?它们有那些相似之处?1.5简述以下高级数据库系统和应用:面向对象数据库,空间数据库,文本数据库,多媒体数据库和WWW。
1.6 定义以下数据挖掘功能:特征化,区分,关联,分类,预测,聚类和演变分析。
使用你熟悉的现实生活中的数据库,给出每种数据挖掘的例子。
1.7 区分和分类的差别是什么?特征化和聚类的差别是什么?分类和预测呢?对于每一对任务,它们有何相似之处?1.8 根据你的观察,描述一种可能的知识类型,它需要由数据挖掘方法发现,但未在本章中列出。
它需要一种不同于本章列举的数据挖掘技术吗?1. 9 描述关于数据挖掘方法和用户交互问题的三个数据挖掘的挑战。
1. 10 描述关于性能问题的两个数据挖掘的挑战。
2.1 试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法(构造使用数据仓库),而不愿使用查询驱动的方法(使用包装程序和集成程序)。
数据仓库与数据挖掘(陈志泊)课后习题答案

数据仓库与数据挖掘习题答案第1章数据仓库的概念与体系结构1. 面向主题的,相对稳定的。
2. 技术元数据,业务元数据。
3. 联机分析处理OLAP。
4. 切片(Slice),钻取(Drill-down和Roll-up等)。
5. 基于关系数据库。
6. 数据抽取,数据存储与管理。
7. 两层架构,独立型数据集市,依赖型数据集市和操作型数据存储,逻辑型数据集市和实时数据仓库。
8. 可更新的,当前值的。
9. 接近实时。
10. 以报表为主,以分析为主,以预测模型为主,以营运导向为主。
11. 答:数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。
数据仓库的特点包含以下几个方面:(1)面向主题。
操作型数据库的数据组织是面向事务处理任务,各个业务系统之间各自分离;而数据仓库中的数据是按照一定的主题域进行组织。
主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点领域,一个主题通常与多个操作型业务系统或外部档案数据相关。
(2)集成的。
面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。
而数据仓库中的数据是在对原有分散的数据库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企事业单位一致的全局信息。
也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义。
(3)相对稳定的。
操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。
数据仓库的数据主要供单位决策分析之用,对所涉及的数据操作主要是数据查询和加载,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存,几乎不再做修改和删除操作,也就是说针对数据仓库,通常有大量的查询操作及少量定期的加载(或刷新)操作。
数据仓库与数据挖掘课后答案

Group 4 Chapter1-3CH11.数据库与数据仓库的本质差别是什么?答:数据库用于事务处理,数据仓库用来决策分析。
2.从数据库发展到数据仓库的原因是什么?答:①数据太多,信息贫乏。
②异构环境数据的转换和共享。
③利用数据进行事务处理转变为利用数据支持决策。
3.举例说明数据库与数据仓库的不同答:数据库(DB)数据仓库(DW)面向应用面向主题数据是详细的数据是综合的和历史的保持当前数据保存过去和现在的数据数据是可更新的数据不更新对数据操作是重复的对数据的操作是启发式的操作需求是事先可知的操作需求是临时决定的一个操作存取一个记录一个操作存取一个集合数据非冗余数据时常冗余操作比较频繁操作相对不频繁查询基本是原始数据查询基本是经过加工的数据事务处理需要的是当前数据决策分析需要过去和现在的数据很少有复杂的计算有很多复杂的计算支持事务处理支持决策分析4. 答:Oltp 联机事务处理,就是我们通常所说的关系型数据库,记录了实时的增删改查数据。
Olap 联机分析处理,是数据仓库的核心,是对oltp的历史数据进行加工,分析处理,用于处理商业智能,决策支持等重要的决策信息。
5.答:oltp是用户数据可以立即传送到计算中心进行处理,并在很短时间内给出处理结果。
它主要用于包括银行业、航空、邮购订单、超级市场和制造业等的输入数据和取回交易数据。
事务处理量大,要求多个并行处理,事务处理内容比较简单切重复率高。
大量的数据操作主要涉及的是一些增删改查询等操作,每次操作的数据量不打且多为当前的数据。
Oltp处理的数据是高度结构化的,数据访问路径是已知的,至少是固定的。
6.答:1.oltp 是明细的数据,olap 是汇总数据2.oltp 记录实时的数据,olap 包含2-3年历史数据3.oltp 可以进行增删改查操作,olap 只支持查询,但周期性刷新。
4.oltp一次性处理的数据量少,olap一次处理的数据量大5.oltp对响应时间要求高,olap响应时间合理6.oltp面向应用,事务驱动,olap面向分析,分析驱动7. 数据库中数据字典包括哪些内容?P4-5答:数据字典是指对中举的数据项、数据结构、数据流、数据存储、和处理过程8.元数据的定义是什么?P5答:元数据为关于数据的数据(data about data)。
数据库原理与应用教程第二版人民邮电出版社(陈志泊)习题参考答案 (完整版)

第1章三:简答题1、 简述数据管理技术发展的三个阶段。
各个阶段的特点是什么?答:<1>数据管理技术经的三个阶段:人工管理阶段;文件系统阶段;数据库系统阶段<2>人工管理阶段特点:数据不保存、系统没有专用的软件对数据进行管理、数据不共享、数据不具独立性; 文件系统阶段:数据以文件形式长期保存、由文件系统管理数据;程序与数据间有一定的独立性; 数据库系统阶段:数据结构化、数据共享性高。
冗余度低、数据独立性高、有一定的数据控制功能。
2从程序和数据之间的关系分析文件系统和数据库之间的区别和联系1)文件系统和数据库系统之间的区别是: (1)文件系统用文件将数据长期保存在外存上,数据库系统用数据库统一存储数据; (2)文件系统中的程序和数据有一定的联系,数据库系统中的程序和数据分离; (3)文件系统用操作系统中的存取方法对数据进行管理,数据库系统用DBMS 统一管理和控制数据 (4)文件系统实现以文件为单位的数据共享,数据库系统实现以记录和字段为单位的数据共享。
2)文件系统和数据库系统之间的联系: (1)均为数据组织的管理技术; (2)均由数据管理软件管理数据,程序与数据之间用存取方法进行转换; (3)数据库系统是在文件系统的基础上发展而来的3、 简述数据库、数据管理系统、数据库系统三个概念的含义和联系。
答:<1>数据库:是以一定的组织方式存储在一起的,能为多个用户共享的,独立于应用程序的,相互关联的数据集合; 简单说就是数据的仓库,既数据存放的地方。
数据库系统:是指引进数据库技术后的整个计算机系统。
是一个实际运行的、按照数据库方式存储、维护和向应用系统提供数据支持的系统;数据库管理系统:是一套建立、管理和维护数据库的软件,是数据库系统的核心组成部分。
用户在数据库中的一切操作,包括数据定义、查询、更新及各种控制,都是通过DBMS 进行的。
<2>数据库容纳数据的仓库,数据库系统、数据库、数据库管理系统、硬件、操作人员的合在一起的总称。
数据仓库与数据挖掘教程(第2版)课后习题答案 第四章

第四章作业1.数据仓库的需求分析的任务是什么?P67需求分析的任务是通过详细调查现实世界要处理的对象(企业、部门用户等),充分了解源系统工作概况,明确用户的各种需求,为设计数据仓库服务。
概括地说,需求分析要明确用那些数据经过分析来实现用户的决策支持需求。
2.数据仓库系统需要确定的问题有哪些?P67、、(1)确定主题域a)明确对于决策分析最有价值的主题领域有哪些b)每个主题域的商业维度是那些?每个维度的粒度层次有哪些?c)制定决策的商业分区是什么?d)不同地区需要哪些信息来制定决策?e)对那个区域提供特定的商品和服务?(2)支持决策的数据来源a)那些源数据与商品的主题有关?b)在已有的报表和在线查询(OLTP)中得到什么样的信息?c)提供决策支持的细节程度是怎么样的?(3)数据仓库的成功标准和关键性指标a)衡量数据仓库成功的标准是什么?b)有哪些关键的性能指标?如何监控?c)对数据仓库的期望是什么?d)对数据仓库的预期用途有哪些?e)对计划中的数据仓库的考虑要点是什么?(4)数据量与更新频率a)数据仓库的总数据量有多少?b)决策支持所需的数据更新频率是多少?时间间隔是多长?c)每种决策分析与不同时间的标准对比如何?d)数据仓库中的信息需求的时间界限是什么?3.实现决策支持所需要的数据包括哪些内容?P68(1)源数据(2)数据转换(3)数据存储(4)决策分析4.概念:将需求分析过程中得到的用户需求抽象为计算机表示的信息结构,叫做概念模型。
特点:(1)能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世界的一个真实模型。
(2)易于理解,便利和用户交换意见,在用户的参与下,能有效地完成对数据仓库的成功设计。
(3)易于更改,当用户需求发生变化时,容易对概念模型修改和扩充。
(4)易于向数据仓库的数据模型(星型模型)转换。
5.用长方形表示实体,在数据仓库中就表示主题,椭圆形表示主题的属性,并用无向边把主题与其属性连接起来;用菱形表示主题之间的联系,用无向边把菱形分别与有关的主题连接;若主题之间的联系也具有属性,则把属性和菱形也用无向边连接上。
数据仓库与数据挖掘教程(第2版)课后习题答案第七章

数据仓库与数据挖掘教程(第2版)课后习题答案第七章第七章作业1.信息论的基本原理是什么?一个传递信息的系统是由发送端(信源)和接收端(信宿)以及连接两者的通道(信道)组成的。
信息论把通信过程看做是在随机干扰的环境中传递信息的过程。
在这个通信模型中,信息源和干扰(噪声)都被理解为某种随机过程或随机序列。
在进行实际的通信之前,收信者(信宿)不可能确切了解信源究竟会发出什么样的具体信息,也不可能判断信源会处于什么样的状态。
这种情形就称为信宿对于信源状态具有不确定性,而且这种不确定性是存在于通信之前的,因而又叫做先验不确定性。
在通信后,信宿收到了信源发来的信息,这种先验不确定性才会被消除或者被减少。
如果干扰很小,不会对传递的信息产生任何可察觉的影响,信源发出的信息能够被信宿全部收到,在这种情况下,信宿的先验不确定性就会被完全消除。
但是,在一般情况下,干扰总会对信源发出的信息造成某种破坏,使信宿收到的信息不完全。
因此,先验不确定性不能全部被消除, 只能部分地消除。
换句话说,通信结束之后,信宿仍具有一定程度的不确定性。
这就是后验不确定性。
2.学习信道模型是什么?学习信道模型是信息模型应用于机器学习和数据挖掘的具体化。
学习信道模型的信源是实体的类别,采用简单“是”、“非”两类,令实体类别U 的值域为{u1,u2},U 取u1表示取“是”类中任一例子,取u2表示取“非”类中任一例子。
信宿是实体的特征(属性)取值。
实体中某个特征属性V ,他的值域为{v1,v2……vq}。
3.为什么机器学习和数据挖掘的分类问题可以利用信息论原理?信息论原理是数据挖掘的理论基础之一。
一般用于分类问题,即从大量数据中获取分类知识。
具体来说,就是在已知各实例的类别的数据中,找出确定类别的关键的条件属性。
求关键属性的方法,即先计算各条件属性的信息量,再从中选出信息量最大的属性,信息量的计算是利用信息论原理中的公式。
4自信息:单个消息ui 发出前的不确定性(随机性)称为自信息。
数据仓库与数据挖掘教程(第2版)课后习题答案第五章

数据仓库与数据挖掘教程(第2版)课后习题答案第五章第五章作业1.数据仓库的两类用户有什么本质的不同?P96数据仓库的用户有两类:信息使用者和探索者。
信息使用者是使用数据仓库的大量用户,信息使用者以一种可以预测的、重复性的方式使用数据仓库平台。
探索者完全不同于信息使用者,他们有一个完全不可预测的、非重复性的数据使用模式。
2.数据仓库的信息使用者与数据库的信息使用者有什么不同?数据库的信息使用者主要关心当前某一个时间段内的数据,而数据仓库的信息使用者关心企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
3.1非规格化规范化的作用是产生一种完全没有数据冗余的设计方法。
但是,有时在数据仓库设计中引入一些有限的数据冗余来提高数据访问效果。
2创建数据阵列创建数据阵列,将相关类型的数据(如:1月、2月、3月等月份中的数据)存储在一起,提高访问效果。
3预连接表格一个公用键和共同使用的数据将表格合并在一起。
共享一个公用键,可以将多个表格合并到一个物理表格中。
这样做可以很大程度的提高数据访问效率。
4预聚集数据根据“滚动概括”结构来组织数据。
当数据被输入到数据仓库中时,以每小时为基础存储数据。
在这一天结束时,以每天为基础存储累加每小时的数据。
在一周结束时,以每周为基础存储累加每天的数据。
月末时,则以每月为基础存储累加每周的数据。
5聚类数据将不同类型的数据记录放置在相同的物理位置。
这为用户查看这些记录,可以在同一地点找到它们,提高查询效率。
6压缩数据压缩可以使可读取的数据量极大。
定期净化数据定期删除数据仓库中不需要的数据,可以为每个用户提高性能。
7合并查询如果查询定期发生,那么可以通过把这些查询合并到同一个表格中,从而节省大量资源。
4. 增加一些数据冗余,相当于增加了某些相同的数据,这些数据往往是我们很需要的或者是经常被使用的,由于这些数据所占总量的比例增加,所以被访问的概率增加,从而减少了查询时间,提高了查询速度。