数据仓库与数据挖掘课后习题答案
数据仓库与数据挖掘教程(第2版)课后习题答案 第二章

数据仓库与数据挖掘教程(第2版)课后习题答案第二章1. 什么是数据仓库?它与传统数据库有什么不同?答:数据仓库是一个面向主题、集成、稳定、可学习的数据集合,用于支持企业决策制定和决策支持系统。
与传统数据库相比,数据仓库更注重数据的整合和大数据的处理能力,以支持更高级别的数据分析和决策。
2. 什么是元数据?有哪些类型?答:元数据指描述数据仓库中数据的数据,用于描述数据的含义、格式、内容、质量、来源、使用和存储等方面的信息。
元数据有三种类型:技术元数据、业务元数据和操作元数据。
3. 数据仓库的架构有哪些组成部分?请简述各组成部分的作用。
答:数据仓库的架构主要包括数据源、数据抽取、清理和转换、存储和管理、元数据管理、查询和分析等几个组成部分。
- 数据源:指数据仓库的数据来源,可以是事务处理系统、外部数据源、第三方提供商等。
- 数据抽取、清理和转换:将数据从各种不同的来源抽取出来并转化为简单、标准的格式,以便进行加工和分析。
- 存储和管理:将经过抽取、转换和清洗后的数据存储在数据仓库中并进行管理,查找、更新和删除等操作。
- 元数据管理:对数据仓库中的元数据进行管理,并将其存储在元数据存储库中。
- 查询和分析:通过各种查询和分析工具来进行数据挖掘、分析和报告。
4. 请列出数据仓库中的三种主要数据类型。
答:数据仓库中的三种主要数据类型包括事实数据、维度数据和元数据。
5. 请列出数据仓库的三种不同的操作类型。
答:数据仓库的三种不同的操作类型包括基础操作、加工操作和查询操作。
6. 数据挖掘的定义是什么?答:数据挖掘是一种通过分析大量数据来发现有意义模式、趋势和关联的过程。
它是既包含统计学、机器学习和数据库技术的交叉学科,又包含更广泛的知识和业务领域。
7. 请列出数据挖掘中的四个主要任务。
答:数据挖掘中的四个主要任务包括描述性数据挖掘、预测性数据挖掘、关联数据挖掘和分类和聚类。
8. 数据仓库中经常使用OLAP分析方式,您了解OLAP是什么吗?答: OLAP是一种面向主题的数据分析方式,可以帮助用户对快速变化的数据进行多维分析和决策支持。
数据仓库与数据挖掘习题课6.3

习题五
5给定两个对象,分别表示为(22,1,42, 10),(20,0,36,8):
(a)计算两个对象之间的欧几里得距离 (b)计算两个对象之间的曼哈顿距离 (c)计算两个对象之间的明考斯基距离,p=3
习题六
假设数据挖掘的任务是将如下 8个点(用(x,y)代 表位置)聚类为3个簇: A1(2,10), A2(2,5),A3(8,4), B1(5,8),B2(7,5), B3(6,4), C1(1,2), C2(4,9) 距离函数是欧几里德距离.假设初始选择A1, B1,C1为每个聚类的中心.用k-平均算法来给出 (a) 在第一次循环执行后的三个聚类中心 (b) 最后的三个簇
5,10,11,13,15,35,50,55,72 91 204,215
习题三
3假定BigUniversity的数据仓库包含如下4个维: student(student_name, area_id, major, status, university), course(course_name, department),semester(semester, year)和 instructor(dept, rank);2个度量:count和avg_grade。在最低 概念层,度量avg_grade存放学生的实际课程成绩。在较高概 念层,avg_grade存放给定组合的平均成绩。 (a)为该数据仓库画出雪花形模式图。 (b)由基本方体[student, course, semester, instructor]开始,为列 出BigUniversity每个学生的CS课程的平均成绩,应当使用哪 些特殊的OLAP操作。 (c)如果每维有5层(包括all),如 “student<major<status<university<all”,该立方体包含多少 方体?
数据仓库与数据挖掘(陈志泊)课后习题答案

数据仓库与数据挖掘习题答案第1章数据仓库的概念与体系结构1. 面向主题的,相对稳定的。
2. 技术元数据,业务元数据。
3. 联机分析处理OLAP。
4. 切片(Slice),钻取(Drill-down和Roll-up等)。
5. 基于关系数据库。
6. 数据抽取,数据存储与管理。
7. 两层架构,独立型数据集市,依赖型数据集市和操作型数据存储,逻辑型数据集市和实时数据仓库。
8. 可更新的,当前值的。
9. 接近实时。
10. 以报表为主,以分析为主,以预测模型为主,以营运导向为主。
11. 答:数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。
数据仓库的特点包含以下几个方面:(1)面向主题。
操作型数据库的数据组织是面向事务处理任务,各个业务系统之间各自分离;而数据仓库中的数据是按照一定的主题域进行组织。
主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点领域,一个主题通常与多个操作型业务系统或外部档案数据相关。
(2)集成的。
面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。
而数据仓库中的数据是在对原有分散的数据库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企事业单位一致的全局信息。
也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义。
(3)相对稳定的。
操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。
数据仓库的数据主要供单位决策分析之用,对所涉及的数据操作主要是数据查询和加载,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存,几乎不再做修改和删除操作,也就是说针对数据仓库,通常有大量的查询操作及少量定期的加载(或刷新)操作。
数据仓库与数据挖掘课后答案

Group 4 Chapter1-3CH11.数据库与数据仓库的本质差别是什么?答:数据库用于事务处理,数据仓库用来决策分析。
2.从数据库发展到数据仓库的原因是什么?答:①数据太多,信息贫乏。
②异构环境数据的转换和共享。
③利用数据进行事务处理转变为利用数据支持决策。
3.举例说明数据库与数据仓库的不同答:数据库(DB)数据仓库(DW)面向应用面向主题数据是详细的数据是综合的和历史的保持当前数据保存过去和现在的数据数据是可更新的数据不更新对数据操作是重复的对数据的操作是启发式的操作需求是事先可知的操作需求是临时决定的一个操作存取一个记录一个操作存取一个集合数据非冗余数据时常冗余操作比较频繁操作相对不频繁查询基本是原始数据查询基本是经过加工的数据事务处理需要的是当前数据决策分析需要过去和现在的数据很少有复杂的计算有很多复杂的计算支持事务处理支持决策分析4. 答:Oltp 联机事务处理,就是我们通常所说的关系型数据库,记录了实时的增删改查数据。
Olap 联机分析处理,是数据仓库的核心,是对oltp的历史数据进行加工,分析处理,用于处理商业智能,决策支持等重要的决策信息。
5.答:oltp是用户数据可以立即传送到计算中心进行处理,并在很短时间内给出处理结果。
它主要用于包括银行业、航空、邮购订单、超级市场和制造业等的输入数据和取回交易数据。
事务处理量大,要求多个并行处理,事务处理内容比较简单切重复率高。
大量的数据操作主要涉及的是一些增删改查询等操作,每次操作的数据量不打且多为当前的数据。
Oltp处理的数据是高度结构化的,数据访问路径是已知的,至少是固定的。
6.答:1.oltp 是明细的数据,olap 是汇总数据2.oltp 记录实时的数据,olap 包含2-3年历史数据3.oltp 可以进行增删改查操作,olap 只支持查询,但周期性刷新。
4.oltp一次性处理的数据量少,olap一次处理的数据量大5.oltp对响应时间要求高,olap响应时间合理6.oltp面向应用,事务驱动,olap面向分析,分析驱动7. 数据库中数据字典包括哪些内容?P4-5答:数据字典是指对中举的数据项、数据结构、数据流、数据存储、和处理过程8.元数据的定义是什么?P5答:元数据为关于数据的数据(data about data)。
数据仓库与数据挖掘教程第2版陈文伟版课后习题答案非常全

第一章作业1.数据库及数据仓库的本质差别是什么?书P2(1)数据库用于事务处理,数据仓库用于决策分析。
(2)数据库保持事物处理的当前状态,数据仓库即保存过去的数据又保存当前的数据。
(3)数据仓库的数据是大量数据库的集成。
(4)对数据库的操作比较明确,操作数量较小。
对数据仓库操作不明确,操作数据量大。
2.从数据库发展到数据仓库的原因是什么?书P1(1)数据库数据太多,信息贫乏。
如何将大量的数据转化为辅助决策信息成为了研究热点。
(2)异构环境数据的转换和共享。
随着各类数据库产品的增加,异构环境的数据也逐渐增加,如何实现这些异构环境数据的转换的共享也成了研究热点。
(3)利用数据进行事物处理转变为利用数据支持决策。
3.举例说明数据库及数据仓库的不同。
比如,银行中储蓄业务要建立储蓄数据库,信用卡要建立信用卡数据库,贷款业务要建立贷款数据库,这些数据库方便了银行的事务处理。
但是要对这些独立数据库进行决策分析就很复杂了。
因此可以把这些数据库中的数据存储转化到数据仓库中,方便进行决策。
4.( ,联机事物处理)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。
(,联机分析处理)是使用多维数据库和多维分析的方法,对多个关系数据库共同进行大量的综合计算来得到结果的方法。
5.是用户的数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。
6.7.包括数据项、数据结构、数据流、数据存储和处理过程五个部分。
8.定义为关于数据的数据,描述数据仓库中数据及其环境的数据。
9.元数据不仅仅是数据仓库的字典,而且还是数据仓库本身功能的说明数据,是整个数据仓库的核心。
数据字典是关于数据库中数据的描述,而不是数据本身,数据字典是数据库的元数据。
10 .数据仓库的定义是什么?答:(1)对数据仓库的定义:数据仓库是面向主题的,集成的、稳定的、不同时间的数据集合,用于支持经营管理中决策制定过程。
数据仓库与数据挖掘教程(第2版)课后习题答案 第四章

第四章作业1.数据仓库的需求分析的任务是什么?P67需求分析的任务是通过详细调查现实世界要处理的对象(企业、部门用户等),充分了解源系统工作概况,明确用户的各种需求,为设计数据仓库服务。
概括地说,需求分析要明确用那些数据经过分析来实现用户的决策支持需求。
2.数据仓库系统需要确定的问题有哪些?P67、、(1)确定主题域a)明确对于决策分析最有价值的主题领域有哪些b)每个主题域的商业维度是那些?每个维度的粒度层次有哪些?c)制定决策的商业分区是什么?d)不同地区需要哪些信息来制定决策?e)对那个区域提供特定的商品和服务?(2)支持决策的数据来源a)那些源数据与商品的主题有关?b)在已有的报表和在线查询(OLTP)中得到什么样的信息?c)提供决策支持的细节程度是怎么样的?(3)数据仓库的成功标准和关键性指标a)衡量数据仓库成功的标准是什么?b)有哪些关键的性能指标?如何监控?c)对数据仓库的期望是什么?d)对数据仓库的预期用途有哪些?e)对计划中的数据仓库的考虑要点是什么?(4)数据量与更新频率a)数据仓库的总数据量有多少?b)决策支持所需的数据更新频率是多少?时间间隔是多长?c)每种决策分析与不同时间的标准对比如何?d)数据仓库中的信息需求的时间界限是什么?3.实现决策支持所需要的数据包括哪些内容?P68(1)源数据(2)数据转换(3)数据存储(4)决策分析4.概念:将需求分析过程中得到的用户需求抽象为计算机表示的信息结构,叫做概念模型。
特点:(1)能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世界的一个真实模型。
(2)易于理解,便利和用户交换意见,在用户的参与下,能有效地完成对数据仓库的成功设计。
(3)易于更改,当用户需求发生变化时,容易对概念模型修改和扩充。
(4)易于向数据仓库的数据模型(星型模型)转换。
5.用长方形表示实体,在数据仓库中就表示主题,椭圆形表示主题的属性,并用无向边把主题与其属性连接起来;用菱形表示主题之间的联系,用无向边把菱形分别与有关的主题连接;若主题之间的联系也具有属性,则把属性和菱形也用无向边连接上。
数据仓库与数据挖掘教程(第2版)课后习题答案第七章

数据仓库与数据挖掘教程(第2版)课后习题答案第七章第七章作业1.信息论的基本原理是什么?一个传递信息的系统是由发送端(信源)和接收端(信宿)以及连接两者的通道(信道)组成的。
信息论把通信过程看做是在随机干扰的环境中传递信息的过程。
在这个通信模型中,信息源和干扰(噪声)都被理解为某种随机过程或随机序列。
在进行实际的通信之前,收信者(信宿)不可能确切了解信源究竟会发出什么样的具体信息,也不可能判断信源会处于什么样的状态。
这种情形就称为信宿对于信源状态具有不确定性,而且这种不确定性是存在于通信之前的,因而又叫做先验不确定性。
在通信后,信宿收到了信源发来的信息,这种先验不确定性才会被消除或者被减少。
如果干扰很小,不会对传递的信息产生任何可察觉的影响,信源发出的信息能够被信宿全部收到,在这种情况下,信宿的先验不确定性就会被完全消除。
但是,在一般情况下,干扰总会对信源发出的信息造成某种破坏,使信宿收到的信息不完全。
因此,先验不确定性不能全部被消除, 只能部分地消除。
换句话说,通信结束之后,信宿仍具有一定程度的不确定性。
这就是后验不确定性。
2.学习信道模型是什么?学习信道模型是信息模型应用于机器学习和数据挖掘的具体化。
学习信道模型的信源是实体的类别,采用简单“是”、“非”两类,令实体类别U 的值域为{u1,u2},U 取u1表示取“是”类中任一例子,取u2表示取“非”类中任一例子。
信宿是实体的特征(属性)取值。
实体中某个特征属性V ,他的值域为{v1,v2……vq}。
3.为什么机器学习和数据挖掘的分类问题可以利用信息论原理?信息论原理是数据挖掘的理论基础之一。
一般用于分类问题,即从大量数据中获取分类知识。
具体来说,就是在已知各实例的类别的数据中,找出确定类别的关键的条件属性。
求关键属性的方法,即先计算各条件属性的信息量,再从中选出信息量最大的属性,信息量的计算是利用信息论原理中的公式。
4自信息:单个消息ui 发出前的不确定性(随机性)称为自信息。
数据仓库与数据挖掘_北京理工大学中国大学mooc课后章节答案期末考试题库2023年

数据仓库与数据挖掘_北京理工大学中国大学mooc课后章节答案期末考试题库2023年1.假设属性income的最大最小值分别是12000元和98000元。
利用最大最小规范化的方法将属性的值映射到0至1的范围内。
对属性income的73600元将被转化为:()参考答案:0.7162.数据的可视化是将数据以各种图表的形式展现在用户的面前,使用户能观察数据,并在较高的层次上找出数据间可能的关系。
参考答案:正确3.数据挖掘和可视化都是知识提取的方式。
参考答案:正确4.面向应用场景的可视化交互式数据挖掘方法是以数据挖掘算法和模型为主,并不针对具体应用场景或数据类型参考答案:错误5.将原始数据进行集成、变换、维度规约、数值规约是以下哪个步骤的任务?()参考答案:数据预处理6.数据仓库的数据ETL过程中,ETL软件的主要功能包括()参考答案:数据抽取_数据加载_数据转换7.数据挖掘的主要任务是从数据中发现潜在规则,从而能更好的完成描述数据、预测数据的任务。
参考答案:正确8.传统数据仓库包括数据仓库数据库、数据抽取/转换/加载、元数据、访问工具、数据集市、和信息发布系统七个部分组成。
参考答案:数据仓库管理9.关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。
参考答案:错误10.假定你现在训练了一个线性SVM并推断出这个模型出现了欠拟合现象。
在下一次训练时,应该采取下列什么措施?()参考答案:增加特征11.下面哪一项关于CART的说法是错误的()参考答案:CART输出变量只能是离散型。
12.以下哪种方法不是常用的数据约减方法()参考答案:关联规则挖掘13.假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92,204, 215 使用如下每种方法将它们划分成四个箱。
等频(等深)划分时,15在第几个箱子内? ()参考答案:第二个14.下表是一个购物篮,假定支持度阈值为40%,其中()是频繁闭项集。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据仓库与数据挖掘第一章课后习题一:填空题1)数据库中存储的都是数据,而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据。
2)数据仓库中的数据分为四个级别:早起细节级、当前细节级、轻度综合级、高度综合级。
3)数据源是数据仓库系统的基础,是整个系统的数据源泉,通常包括业务数据和历史数据。
4)元数据是“关于数据的数据”。
根据元数据用途的不同将数据仓库的元数据分为技术元数据和业务元数据两类。
5)数据处理通常分为两大类:联机事务处理和联机事务分析6)Fayyad过程模型主要有数据准备,数据挖掘和结果分析三个主要部分组成。
7)如果从整体上看数据挖掘技术,可以将其分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。
8)那些与数据的一般行为或模型不一致的数据对象称做孤立点。
9)按照挖掘对象的不同,将Web数据挖掘分为三类:web内容挖掘、web结构挖掘和web 使用挖掘。
10)查询型工具、分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层,它们各自的侧重点不同,因此适用范围和针对的用户也不相同。
二:简答题1)什么是数据仓库?数据仓库的特点主要有哪些?数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
主要特点:面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用2)简述数据挖掘的技术定义。
从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。
3)什么是业务元数据?业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据4)简述数据挖掘与传统分析方法的区别。
本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。
数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。
5)简述数据仓库4种体系结构的异同点及其适用性。
a.虚拟的数据仓库体系结构b.单独的数据仓库体系结构c.单独的数据集市体系结构d.分布式数据仓库结构第二章课后习题一:填空题1)模型是对现实世界进行抽象的工具。
在信息管理中需要将现实世界的事物及其有关特征转换为信息世界的数据才能对信息进行处理与管理,这就需要依靠数据模型作为这种转换的桥梁。
2)数据仓库模型设计包括概念、逻辑、物理、元数据模型设计等内容。
3)现实世界是存在于现实之中的各种客观事物。
概念世界是现实情况在人们头脑中的反应。
逻辑世界是人们为将存在于自己头脑中的概念模型转换到计算机中的实际的物理存储过程中的一个计算机逻辑表示模式。
计算机世界则是指现实世界中的事物在计算机系统中的实际存储模式。
4)数据仓库设计的概念模型与业务数据处理系统的三级数据模型仍然具有一定的差距。
表现在数据类型的差异、数据的历史变迁性、数据概况性5)数据仓库项目需求的收集与分析需求要从历史数据与用户需求两个方面同时着手,采用数据驱动+用户驱动的理念。
6)所谓主题,是指在较高程度上将业务数据进行综合,归类和分析利用的一个抽象概念,每个主题基本对立业务的一个分析领域。
7)多维数据模型较为普遍地采用星型模型、雪花模型两种模式。
8)设计聚集模型时,首先需要考虑用户的使用要求,其次要考虑数据仓库的粒度模型和数据的统计分析情况。
9)分割是数据仓库逻辑设计中要解决的另一个重要问题,它的目的在于提高效率能为数据仓库的物理实施提供设计依据。
10)元数据根据使用情况,主要有技术元数据和业务元数据两类元数据。
二:简答题1)简述概念模型设计主要完成哪些工作?界定系统边界、确定主要的主题域、细化分析具体内容2)简述一个符合第三范式的关系必须具有的三个条件。
A.每个属性的值唯一,不具有多义性B.每个非主属性必须完全依赖于整个主键C.每个非主属性不能依赖于其他关系中的属性。
3)简述确定粒度级别的步骤A.估算DASDB.计算存储空间、确定是否划分粒度。
C.计划影响数据仓库的粒度划分D.使用多重粒度E.使用多种存储介质的空间量F.选择合适的粒度G.只采用概况数据4)简述CWM五个功能层对象模型层、基础层、资源层、分析层、管理层5)数据仓库物理模型进行优化时可以考虑的解决方案有哪些?A.合并表与簇文件B.建立数据序列C.引入冗余,反规范处理D.表的物理分割分区E.生成派出数据第三章课后习题一:填空题1)ETL过程主要包括三个部分:数据抽取、数据清洗与数据转换以及数据的加载。
2)ETL工作流模型包括ETL概念模型和ETL逻辑模型两部分。
3)触发器方式是普遍采取的一种增量抽取机制。
该方式是根据抽取要求,在要被抽取的源表上建立插入、修改和删除3个触发器。
4)一般情况下,在一个ETL流程中,抽取操作总是最先执行,加载操作最后执行。
5)数据质量问题既有可能来自于数据源,又有可能来自于ETL的实施过程。
6)基本的多线程并行处理技术分为3种:任务并行处理、数据并行处理和管道并行处理。
7)ETL过程中数据质量问题分为四类:单数据源模式层问题、单数据源实例层问题、多数据源模式层问题、多数据源实例层。
8)ETL过程可以被划分为两种类型:全量ETL过程和增量ETL过程。
9)加载数据到目标数据仓库的两个基本方式是刷新方式和更新方式。
10)控制“脏数据”对数据仓库分析结果的影响程度,采取各种有效的措施对其进行处理,这一处理过程称为数据清洗。
二:简答题1)如何保障ETL过程中的数据质量?A.数据源端实施数据质量控制:多数据源的异构问题、数据丢失值得问题、相似重复记录的问题b.ETL过程中实施数据质量控制:数据抽取程序严格审核、及时监控数据源系统的变更、确定采信数据源、建立故障检测机制、建立数据审核机制2)增量数据抽取中常用的捕获变化数据的方法有哪几种?触发器方式、时间戳方式、全表删除插入方式、全表比对方式、日志表方式、系统日志分析方式、系统日志分析方式。
3)如何处理空缺数据?可以采用忽略元组、用一个全局常量填充空缺值、用属性性平均值填充空缺值、使用与给定元组同类的所有样本的平均值填充空缺值、使用最可能的值填充空缺值、使用像Baysian 公式或判定树这样的基于推断的方法。
4)如何处理噪声数据?分箱或聚类等方法处理5)简述数据加载操作。
数据加载负责将经过前几步清洗和转换后的数据按照目标数据定义的表结构装入数据仓库6)在ETL过程中会出现哪几类数据质量问题?分析其产生原因。
单数据源模式层次问题---------》缺少完整性约束,糟糕的模式设计单数据源实例层次问题---------》数据记录的错误多数据源模式层次问题---------》异质的数据模型和模式设计多数据源实例层次问题---------》冗余、互相矛盾或者不一致的数据第四章课后习题一:填空题1)OLAP系统按照其存储的数据存储格式可以分为关系OLAP、多维OLAP和混合OLAP三种类型。
2)对于拥有海量数据的数据仓库,B-Tree索引技术显得并不灵活,于是人们探寻新的索引技术,如位图索引和标识符来解决此问题。
3)用户决策分析角度或决策分析出发点就是数据仓库中的维度。
4)度量是多维数据集的核心值,是进行OLAP操作的用户所要观察分析的数据。
5)上卷和下钻的深度与维所划分的层次相对应,上卷分析的细化程度越低,粒度度越大。
下钻分析的细化程度越高,粒度越小。
6)所谓的数据“上卷”是指用户在数据仓库的应用中,从较低层次开始逐步将数据按照不同的层次进行概况处理。
7)根据属性列的不同我们可以建立不同类型的索引列。
对于基数高的可以考虑用标识索引,对于基数值较低的则采用与、或等位运算速度比较快的位图索引。
8)报表与图形是OLAP系统向用户展现分析结果的两种主要方法。
9)OLAP系统在具体实现是,如果将多维数据存储于客户端,就可能呢产生“胖”客户端系统。
10)OLAP采用多用户的三层C/S结构,它由数据库、OLAP服务器、OLAP客户机及客户端应用程序构成。
二:简答题1)简述OLAP的简明定义FASMI。
快速性、分析性、共享性、多维性、信息性2)简述数据仓库与数据分析的关系。
数据仓库提供数据源;数据分析提供分析方法;数据分析并非完全依赖于数据仓库第六章课后习题一:填空题1)常见的数据预处理方法有数据清洗、数据集成、数据变换和数据归约。
2)数据清理处理列程通常包括填补遗漏的数据值、平滑有噪声数据、识别或除去异常值,以及解决不一致问题。
3)常用的分箱方法有平均值平滑或边界值平滑分箱。
4)光滑是去掉数据中的噪声。
光滑技术主要包括分箱、回归和聚类等。
5)直观地,落在簇集之外的值视为离群点。
二:简答题1)简述噪声的概念。
噪声是被测量的变量的随机误差或方差。
2)简述数据预处理的必要性。
不完整性、含噪声、杂乱性3)常用的填充丢失的值有哪些方法?忽略元组、人工填写、使用一个全局常量填充缺失值4)常用的数据光滑技术有哪些?分箱、回归、聚类5)简述分箱技术的概念。
分箱方法通过考察数据的“近邻”来光滑有序数据的值。