数据仓库与数据挖掘教程(第2版)课后习题答案 第四章
数据仓库与数据挖掘_青岛大学中国大学mooc课后章节答案期末考试题库2023年

数据仓库与数据挖掘_青岛大学中国大学mooc课后章节答案期末考试题库2023年1.非频繁项集的超集有可能是频繁的。
参考答案:错误2.决策树中不包含以下哪种节点。
参考答案:外部节点(external node)3.数据集成是将多个数据源中的数据结合起来存放在一个一致的数据存储(如数据仓库)中。
数据源可能涉及多个数据库、数据立方体或一般文件。
参考答案:正确4.数据取样时,除了要求抽样时严把质量关外,还要求抽样数据必须在足够范围内有代表性。
参考答案:正确5.若属性income的平均值和标准差分别为32000元和17000元,则使用z-score规范化后,65600元被转换为:参考答案:1.9766.朴素贝叶斯算法能够解决特征之间有相关性的问题。
参考答案:错误7.OLAP技术的核心是:参考答案:多维分析8.假定某属性的最小与最大值分别为8000元和14000元。
要将其映射到区间[0.0,1.0],按照最小-最大规范化方法对属性进行变换,属性值12600将变换为:参考答案:0.7679.后验概率P(H|X)表示条件X下H的概率。
参考答案:正确10.只要有两个频繁3项集,就一定能够生成一个候选4项集。
参考答案:错误11.先验概率是根据历史资料或主观估计的方法得到的概率。
参考答案:正确12.公司里面男性有60人,女性有40人,男性穿皮鞋的人数有25人,穿运动鞋的人数有35人,女性穿皮鞋的人数有10人,穿高跟鞋的人数有30人。
现在你只知道有一个人穿了皮鞋,推测他是男性的概率为:参考答案:0.71413.数据归约是用来得到数据集的归约表示,它比源数据集小得多,但仍接近于保持源数据的完整性。
参考答案:正确14.数据分类由两步过程组成:第一步,建立一个分类模型,描述指定的数据类集或概念集;第二步,使用模型进行分类。
参考答案:正确15.假设吸烟的本科生比例为15%,而吸烟的研究生占23%。
如果五分之一的大学生是研究生,其余的是本科生,那么吸烟的学生是研究生的概率是多少?参考答案:0.27716.决策树构建之后,为了避免过度拟合,需要对树进行剪枝。
数据仓库与数据挖掘教程(第2版)课后习题答案 第二章

数据仓库与数据挖掘教程(第2版)课后习题答案第二章1. 什么是数据仓库?它与传统数据库有什么不同?答:数据仓库是一个面向主题、集成、稳定、可学习的数据集合,用于支持企业决策制定和决策支持系统。
与传统数据库相比,数据仓库更注重数据的整合和大数据的处理能力,以支持更高级别的数据分析和决策。
2. 什么是元数据?有哪些类型?答:元数据指描述数据仓库中数据的数据,用于描述数据的含义、格式、内容、质量、来源、使用和存储等方面的信息。
元数据有三种类型:技术元数据、业务元数据和操作元数据。
3. 数据仓库的架构有哪些组成部分?请简述各组成部分的作用。
答:数据仓库的架构主要包括数据源、数据抽取、清理和转换、存储和管理、元数据管理、查询和分析等几个组成部分。
- 数据源:指数据仓库的数据来源,可以是事务处理系统、外部数据源、第三方提供商等。
- 数据抽取、清理和转换:将数据从各种不同的来源抽取出来并转化为简单、标准的格式,以便进行加工和分析。
- 存储和管理:将经过抽取、转换和清洗后的数据存储在数据仓库中并进行管理,查找、更新和删除等操作。
- 元数据管理:对数据仓库中的元数据进行管理,并将其存储在元数据存储库中。
- 查询和分析:通过各种查询和分析工具来进行数据挖掘、分析和报告。
4. 请列出数据仓库中的三种主要数据类型。
答:数据仓库中的三种主要数据类型包括事实数据、维度数据和元数据。
5. 请列出数据仓库的三种不同的操作类型。
答:数据仓库的三种不同的操作类型包括基础操作、加工操作和查询操作。
6. 数据挖掘的定义是什么?答:数据挖掘是一种通过分析大量数据来发现有意义模式、趋势和关联的过程。
它是既包含统计学、机器学习和数据库技术的交叉学科,又包含更广泛的知识和业务领域。
7. 请列出数据挖掘中的四个主要任务。
答:数据挖掘中的四个主要任务包括描述性数据挖掘、预测性数据挖掘、关联数据挖掘和分类和聚类。
8. 数据仓库中经常使用OLAP分析方式,您了解OLAP是什么吗?答: OLAP是一种面向主题的数据分析方式,可以帮助用户对快速变化的数据进行多维分析和决策支持。
数据库与数据挖掘智慧树知到课后章节答案2023年下南京邮电大学

数据库与数据挖掘智慧树知到课后章节答案2023年下南京邮电大学南京邮电大学第一章测试1.下列属于关系模型的性质的是()答案:行列的顺序可以任意交换;分量必须取原子值;列是同质的2.根据实体完整性规则,下列说法正确的是()答案:主键非空3.下列做法最有可能违背用户定义完整性的是()答案:日期数据出现2月30日4.以下操作应用场景主要是获取两个集合的相对补集的是()答案:差操作5.从关系R中选择出若干属性组成新的关系属于()答案:连接操作6. ER图中菱形表示的是()答案:联系7.系统中的成绩联系属于()答案:联系;多对多关系8.下列说法错误的是()答案:AP原则系统不容忍时间延迟9.分布式系统可以同时满足CAP原则答案:错10.下列不属于关系型数据库局限性的是()答案:数据格式不完备第二章测试1.Hive中删除管理表不会删除表所指向的数据文件答案:错2.Hive会在数据读取时进行数据类型验证答案:对3.Hive在strict(严格)模式下查询分区表时,WHERE子句必须要加上分区过滤。
答案:对4.下列语句可以显示数据库test中的表名的包括()答案:SHOW TABLES IN test;;USE test;SHOW TABLES;5.Hive可以向视图(VIEW)中导入数据。
答案:错6.若分区表test包含的分区字段为(a,b),如何查看分区a=1下的所有分区()答案:SHOW PARTITIONS test PARTITION(a=1);7.以下命令可以查询date_records中约会成功匹配(match=1)次数的是()答案:SELECT count(*) FROM date_records WHERE match=1;;SELECTsum(match) FROM date_records;8.Hive使用右外连接(RIGHT OUTER JOIN)来连接两张表进行查询时,JOIN操作符右边的表如果没有符合ON后面连接条件的记录时,右边表指定选择的列的值将不会显示。
数据仓库与数据挖掘教程(第2版)陈文伟版课后习题答案(非常全)

第一章作业1.数据库与数据仓库的本质差别是什么?书P2(1)数据库用于事务处理,数据仓库用于决策分析。
(2)数据库保持事物处理的当前状态,数据仓库即保存过去的数据又保存当前的数据。
(3)数据仓库的数据是大量数据库的集成。
(4)对数据库的操作比较明确,操作数量较小。
对数据仓库操作不明确,操作数据量大。
2.从数据库发展到数据仓库的原因是什么?书P1(1)数据库数据太多,信息贫乏。
如何将大量的数据转化为辅助决策信息成为了研究热点。
(2)异构环境数据的转换和共享。
随着各类数据库产品的增加,异构环境的数据也逐渐增加,如何实现这些异构环境数据的转换的共享也成了研究热点。
(3)利用数据进行事物处理转变为利用数据支持决策。
3.举例说明数据库与数据仓库的不同。
比如,银行中储蓄业务要建立储蓄数据库,信用卡要建立信用卡数据库,贷款业务要建立贷款数据库,这些数据库方便了银行的事务处理。
但是要对这些独立数据库进行决策分析就很复杂了。
因此可以把这些数据库中的数据存储转化到数据仓库中,方便进行决策。
4.OLTP(On Line Transaction Processing,联机事物处理)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。
OLAP(On Line Analytical Processing,联机分析处理)是使用多维数据库和多维分析的方法,对多个关系数据库共同进行大量的综合计算来得到结果的方法。
5.OLTP是用户的数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。
6.OLTP OLAP细节性数据综合性数据当前数据历史数据经常更新不更新,但周期性刷新一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理面向应用,事务驱动面向分析,分析驱动7.包括数据项、数据结构、数据流、数据存储和处理过程五个部分。
8.定义为关于数据的数据,描述数据仓库中数据及其环境的数据。
数据仓库与数据挖掘 课后答案 (陈志泊 著) 清华大学出版社

第1章数据仓库的概念与体系结构1.数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2.元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据元数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3.数据处理通常分成两大类:联机事务处理OLTP和联机分析处理OLAP。
4.多维分析是指对以“维”形式组织起来的数据(多维数据集)采取切片(Slice)、切块(dice)、钻取(Drill-down 和Roll-up 等)和旋转(pivot)等各种分析动作,以求剖析数据,使用户能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5. ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
6.数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。
7.数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集市、依赖型数据集市和操作型数据存储、逻辑型数据集市和实时数据仓库。
8.操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。
9.“实时数据仓库”意味着源数据系统、决策支持服务和数据仓库之间以一个接近实时的速度交换数据和业务规则。
10.从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以营运导向为主、以实时数据仓库和自动决策为主。
11.什么是数据仓库?数据仓库的特点主要有哪些?答:数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。
数据仓库的特点包含以下几个方面:(1)面向主题。
数据仓库与数据挖掘_青岛大学中国大学mooc课后章节答案期末考试题库2023年

数据仓库与数据挖掘_青岛大学中国大学mooc课后章节答案期末考试题库2023年1.假设数据挖掘的任务是将如下8个点(用(x,y)代表位置)聚类为3个簇:A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)距离函数是欧式距离。
假设初始选择A1,B1和C1分别为每个聚类的中心,用K-平均算法来给出在第一次循环执行后的三个聚类中心:答案:(2,10),(6,6),(1.5,3.5)2.设训练样本集包含{ID,收入(万元),婚否,爱旅游}四个特征,8条记录如表所示,采用C4.5算法进行连续属性划分,请问“收入”属性具有几种划分可能?ID 收入婚否爱旅游1 2.5 否否2 12 否是3 3 否否4 3.2 是是5 4 否否6 4.8 否否7 6.8 是是8 9.8 否是答案:73.设训练样本集包含{ID,收入(万元),婚否,爱旅游}四个特征,8条记录如表所示,采用C4.5算法进行连续属性划分,对于“收入”属性的划分“2.75”,计算其信息增益率:ID 收入婚否爱旅游1 2.5 否否2 12 否是3 3 否否4 3.2 是是5 4 否否6 4.8 否否7 6.8 是是8 9.8 否是答案:0.2554.在下表中给定的样本上进行合并(凝聚)层次聚类,初始簇{1},{2},{3},{4},{5},{6},{7},{8}.假定算法的终止条件为3个簇,则此3个簇为:序号属性1属性2序号属性1属性21 2 10 5 7 52 2 5 6 6 43 84 7 1 24 5 8 8 4 9答案:最后3个簇为:{2,7},{1,4,8},{3,5,6}5.简单的将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作答案:划分聚类6. 1. 数据库有5个事物,设min_sup=60%,min_conf=80%。
TID 购买的商品I100 {M,O,N,K,E,Y}I200 {D,O,N,K,E,Y}I300 {M,A,K,E}I400 {M,U,C,K,Y}I500 {C,O,O,K,I,E}使用Apriori算法找出所有频繁项集包括:答案:频繁2项集:{M,K},{O,K},{O,E},{K,E},{K,Y}频繁3项集:{O,K,E}频繁1项集:{M},{O},{K},{E},{Y}7.数据库有5个事物,设min_sup=60%,min_conf=80%。
数据仓库与数据挖掘_北京理工大学中国大学mooc课后章节答案期末考试题库2023年

数据仓库与数据挖掘_北京理工大学中国大学mooc课后章节答案期末考试题库2023年1.假设属性income的最大最小值分别是12000元和98000元。
利用最大最小规范化的方法将属性的值映射到0至1的范围内。
对属性income的73600元将被转化为:()参考答案:0.7162.数据的可视化是将数据以各种图表的形式展现在用户的面前,使用户能观察数据,并在较高的层次上找出数据间可能的关系。
参考答案:正确3.数据挖掘和可视化都是知识提取的方式。
参考答案:正确4.面向应用场景的可视化交互式数据挖掘方法是以数据挖掘算法和模型为主,并不针对具体应用场景或数据类型参考答案:错误5.将原始数据进行集成、变换、维度规约、数值规约是以下哪个步骤的任务?()参考答案:数据预处理6.数据仓库的数据ETL过程中,ETL软件的主要功能包括()参考答案:数据抽取_数据加载_数据转换7.数据挖掘的主要任务是从数据中发现潜在规则,从而能更好的完成描述数据、预测数据的任务。
参考答案:正确8.传统数据仓库包括数据仓库数据库、数据抽取/转换/加载、元数据、访问工具、数据集市、和信息发布系统七个部分组成。
参考答案:数据仓库管理9.关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。
参考答案:错误10.假定你现在训练了一个线性SVM并推断出这个模型出现了欠拟合现象。
在下一次训练时,应该采取下列什么措施?()参考答案:增加特征11.下面哪一项关于CART的说法是错误的()参考答案:CART输出变量只能是离散型。
12.以下哪种方法不是常用的数据约减方法()参考答案:关联规则挖掘13.假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92,204, 215 使用如下每种方法将它们划分成四个箱。
等频(等深)划分时,15在第几个箱子内? ()参考答案:第二个14.下表是一个购物篮,假定支持度阈值为40%,其中()是频繁闭项集。
数据仓库与数据挖掘教程(第2版)课后习题答案第五章

数据仓库与数据挖掘教程(第2版)课后习题答案第五章第五章作业1.数据仓库的两类用户有什么本质的不同?P96数据仓库的用户有两类:信息使用者和探索者。
信息使用者是使用数据仓库的大量用户,信息使用者以一种可以预测的、重复性的方式使用数据仓库平台。
探索者完全不同于信息使用者,他们有一个完全不可预测的、非重复性的数据使用模式。
2.数据仓库的信息使用者与数据库的信息使用者有什么不同?数据库的信息使用者主要关心当前某一个时间段内的数据,而数据仓库的信息使用者关心企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
3.1非规格化规范化的作用是产生一种完全没有数据冗余的设计方法。
但是,有时在数据仓库设计中引入一些有限的数据冗余来提高数据访问效果。
2创建数据阵列创建数据阵列,将相关类型的数据(如:1月、2月、3月等月份中的数据)存储在一起,提高访问效果。
3预连接表格一个公用键和共同使用的数据将表格合并在一起。
共享一个公用键,可以将多个表格合并到一个物理表格中。
这样做可以很大程度的提高数据访问效率。
4预聚集数据根据“滚动概括”结构来组织数据。
当数据被输入到数据仓库中时,以每小时为基础存储数据。
在这一天结束时,以每天为基础存储累加每小时的数据。
在一周结束时,以每周为基础存储累加每天的数据。
月末时,则以每月为基础存储累加每周的数据。
5聚类数据将不同类型的数据记录放置在相同的物理位置。
这为用户查看这些记录,可以在同一地点找到它们,提高查询效率。
6压缩数据压缩可以使可读取的数据量极大。
定期净化数据定期删除数据仓库中不需要的数据,可以为每个用户提高性能。
7合并查询如果查询定期发生,那么可以通过把这些查询合并到同一个表格中,从而节省大量资源。
4. 增加一些数据冗余,相当于增加了某些相同的数据,这些数据往往是我们很需要的或者是经常被使用的,由于这些数据所占总量的比例增加,所以被访问的概率增加,从而减少了查询时间,提高了查询速度。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章作业1.数据仓库的需求分析的任务是什么?P67需求分析的任务是通过详细调查现实世界要处理的对象(企业、部门用户等),充分了解源系统工作概况,明确用户的各种需求,为设计数据仓库服务。
概括地说,需求分析要明确用那些数据经过分析来实现用户的决策支持需求。
2.数据仓库系统需要确定的问题有哪些?P67、、(1)确定主题域a)明确对于决策分析最有价值的主题领域有哪些b)每个主题域的商业维度是那些?每个维度的粒度层次有哪些?c)制定决策的商业分区是什么?d)不同地区需要哪些信息来制定决策?e)对那个区域提供特定的商品和服务?(2)支持决策的数据来源a)那些源数据与商品的主题有关?b)在已有的报表和在线查询(OLTP)中得到什么样的信息?c)提供决策支持的细节程度是怎么样的?(3)数据仓库的成功标准和关键性指标a)衡量数据仓库成功的标准是什么?b)有哪些关键的性能指标?如何监控?c)对数据仓库的期望是什么?d)对数据仓库的预期用途有哪些?e)对计划中的数据仓库的考虑要点是什么?(4)数据量与更新频率a)数据仓库的总数据量有多少?b)决策支持所需的数据更新频率是多少?时间间隔是多长?c)每种决策分析与不同时间的标准对比如何?d)数据仓库中的信息需求的时间界限是什么?3.实现决策支持所需要的数据包括哪些内容?P68(1)源数据(2)数据转换(3)数据存储(4)决策分析4.概念:将需求分析过程中得到的用户需求抽象为计算机表示的信息结构,叫做概念模型。
特点:(1)能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世界的一个真实模型。
(2)易于理解,便利和用户交换意见,在用户的参与下,能有效地完成对数据仓库的成功设计。
(3)易于更改,当用户需求发生变化时,容易对概念模型修改和扩充。
(4)易于向数据仓库的数据模型(星型模型)转换。
5.用长方形表示实体,在数据仓库中就表示主题,椭圆形表示主题的属性,并用无向边把主题与其属性连接起来;用菱形表示主题之间的联系,用无向边把菱形分别与有关的主题连接;若主题之间的联系也具有属性,则把属性和菱形也用无向边连接上。
6.数据库的概念模型设计主要采用E-R概念模型的设计方法。
数据仓库的概念模型设计主要采用E-R概念模型和面向对象的分析方法。
7 .图4.1所示的概念模型:商品和客户是两个主题,商品的销售信息等同于客户的购物信息,而每个商品具有本身的商品固有信息和商品号,还有就是商品的库存信息;客户具有自己的固有信息,还有就是客户号。
8.逻辑模型:计算机所支持的有E-R图转换成的数据模型,数据的逻辑结构数据仓库的逻辑模型:星型模型9.数据仓库的逻辑模型:用来构建数据仓库的数据库逻辑模型。
在数据库中,逻辑模型有关系、网状、层次,可以清晰的表示各个关系。
10.举例说明从数据仓库的概念模型到逻辑模型的转换?答:概念模型是对每个决策与属性及主体之间的关系用E-R图来表示的,E-R图能有效的将现实的世界表示成信息世界,他利于向计算机的表示形式进行转化。
而逻辑模型设计是需求分析主题域,将概念模型E-R图转化为逻辑模型,即计算机表示的数据模型,数据仓库的数据模型一般采用星型模型。
例如概念模型设计时,确定了商品和客户两个主题。
其中商品对于商场来说是更基本的业务对象,商品的业务有销售、采购、库存。
其中商品销售时最重要的业务。
它是进行决策分析的重要方面。
星型模型的设计如下:确定决策分析需求,数据仓库是面向决策分析的,决策需求是建立多维数据模型的依据。
例如分析销售额趋势,对商品的销售量,促销手段对销售的影响。
从需求中识别出事实,从决策主题确定的情况下,选择或设计反映决策主体业务表。
例如在商品主题中,以销售数据为事实表。
确定维,确定影响事实的各种因素,对销售业务的维一般的包括商店,地区,部门,城市,时间,商品等。
确定数据汇总的水平,存在于数据仓库中的数据包括汇总的数据。
数据仓库中对数据不同粒度的综合形成了多层次的数据结构。
例如对于时间维,可以用年月日不同水平进行汇总。
设计事实表和维表,设计事实表和维表的属性,再事实表中应该记录哪些属性是有维表的数量来决定的,一般来说,与事实表相关的维表的数量应该适中,太少的维表会影响查询的质量,用户得不到需要的数据,太多的数据会影响查询的速度。
11. 在数据仓库中为什么考虑数据的粒度层次划分?答:所谓的粒度是指数据仓库宗数据单元的详细程度和级别,数据越详细,粒度越小,层次级别九月低;数据综合度越高,粒度越大,层次级别就越高。
在传统事务处理系统中,对数据的处理,操作都是再详细数据级别上的,即最低的粒度。
但是数据仓库环境中主要是分析处理,粒度的划分键直接影响数据仓库中数据量以及所适合的查询类型。
一般需要将数据划分为详细数据,轻度综合,高度综合三级或更多及粒度。
不同粒度级别的数据用于不同类型的分析处理。
力度的划分是数据仓库设计工作的一项重要内容,粒度划分是否适当影响数据仓库性能的一个重要方面。
12.数据仓库的记录系统包括什么内容,举例说明?答:数据仓库中的数据来源与多个已经存在的事务处理系统外部系统,由于各个原系统的数据是面向应用的,不能完整地描述企业中的主题域,并且多个数据源的数据存在者许多不一致,因此要从数据仓库的概念模型出发,结合主题的多个表的关系模式,需要确定现有系统的哪些数据能较好地适应数据的需求。
这就要求选择最完整的、最及时的、最准确的、最接近外部实体源的数据作为记录系统,同时这些数据所在的表的关系模式接近于构成主体的多个标的关系模式。
记录系统的定义要记入数据仓库的元数据。
13、什么是物理模型?数据仓库的物理模型设计包括哪些工作?答:物理模型就是逻辑模型在计算机中的物理结构,其中包括存储结构和存取方法;数据仓库的物理模型设计的工作包括:估计存储容量、确定数据的存储计划、确定索引策略、确定数据存放位置和确定存储分配。
14、为什么数据仓库物理模型设计中要建立汇总计划和确定数据分区方案?答:如果数据仓库只存储最小粒度的数据,每次查询遍历所有的明细记录,然后生成汇总信息,这会造成很大的开销,因此要建立汇总计划;分区可以将表分解成易于管理的小表,对事实表的分区医保采用垂直分区或水平分区,这样使得大表被分成小表,因此要建立分区方案。
15、说明图4.8中逻辑模型与物理模型的区别。
答:逻辑模型表现出各数据元素间直接或间接的关系,并体现主题域的结构,而且说明各个表所包含的元素。
而物理模型要体现在计算机中的物理结构,所以有各个表元素的类型和长度。
在图4.8中,产品维表的主键为产品键,我们只能在逻辑模型中得到这个信息,而在物理模型中,产品键为integer类型,长度为10,这是在计算机中的存储结构。
16.概念模型:E-R图逻辑模型:星型模型物理模型:存储结构、索引、数据存放位置、存储分配。
17.(1)位索引技术①Bit-Wise索引技术②B-Tree索引技术(2)表示技术(3)广义索引18.因为B-Tree索引增加了在数据仓库中构造和维护索引的代价;B-Tree不适合复杂查询19、数据仓库中采用标识技术有什么好处。
答:使用标准的数据库技术来储存数据仓库是非常昂贵的。
较好的替代方法是用基于标识的技术来储存数据仓库。
一旦将基于标识的数据库存放在内存中,处理速度会得到很大的提高。
数据越多,标识数据比标准的、基于记录的数据更有利。
因为数据被大量压缩,所以整个数据库可以存放在内存中。
可以索引所有的行和所有的列。
20、数据仓库的广义索引时什么时候建立的?简单说明原因。
答:在从操作型环境抽取数据并向数据仓库中装载的同时,就可以根据用户的需要建立许多“广义索引”。
每次数据仓库装载时,就重新生成这些“广义索引”的内容。
这样并不需要为了建立“广义索引”而去扫描数据仓库。
而且这些索引都非常小,开销也是相当小,但它给应用所带来的便利却是显而易见的。
对于一些经常性的查询,利用一个规模小得多的“广义索引”总比去搜索一个大得多的关系表方便得多。
21、说明数据仓库开发的四个阶段和12个步骤答:如下图所示发:分为分析设计阶段;数据获取阶段;决策支持阶段;维护与评估阶段。
22. 数据获取阶段包括数据抽取,数据转换,数据装载3个步骤。
数据抽取:数据抽取主要进行数据源的确认,确定数据抽取技术,确认数据抽取频率,按照时间要求抽取数据。
数据转换:数据抽取得到的数据不能直接存入数据仓库的。
数据转换工作包括:数据格式的修改,字段的解码,单个字段的分离,信息的合并,变量单位的转化,时间的转化,数据汇总等。
数据装载:数据装载包括初始装载,增量装载,完全刷新。
23. 数据仓库的简历就是要达到决策支持的目的。
决策支持阶段包括信息查询和知识探索两个步骤。
信息查询:信息查询者使用数据仓库发现目前存在的问题。
为适应信息查询者的要求,数据仓库一般采用如下的方法提高信息查询效率:创建数据陈列,预连接表格,预聚集数据,聚类数据。
知识探索:只是探索者使用数据仓库能对发现的问题找出原因。
24. 维护与评估阶段包括数据仓库增长,数据仓库维护,数据仓库评价。
数据仓库增长:数据仓库建立以后,随着数据用户的不断增加,时间的曾增长,用户查询需求更多,数据会迅速增长。
数据仓库维护:数据仓库维护包括适应数据仓库增长的维护和正常系统维护两类。
数据仓库评估:数据仓库评估包括系统性能评定,投资回报分析,数据质量评估。
25.概括说明“概念模型、逻辑模型、物理模型”分别是什么样的数据模型?答:将需求分析过程中得到的用户需求抽象为计算机表示的信息结构,即概念模型。
逻辑模型是由概念模型进一步转化成计算机支持的数据模型。
物理模型是逻辑模型设计的数据模型适应应用要求在计算机中的存储结构和存取方法。
26.数据仓库索引技术包括哪些内容?答:位索引技术、标识技术、广义索引。
27.为什么B-Tree索引不适合数据仓库?答:1、B-Tree只适合于高基数字段,但对于低基数字段毫无价值。
2、B-Tree索引需占一定的空间和时间,增加了在数据仓库中构造和维护索引的代价。
3、数据仓库应用中常常是复杂的查询,并经常带有分组及聚合条件,此时B-Tree索引往往无能为力。
28. 当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型。
雪花模型是对星型模型的扩展。
它对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的"层次" 区域,这些被分解的表都连接到主维度表而不是事实表。
管理大量数据,数据的高效装入和数据压缩,存储介质的管理,元数据的管理,数据仓库语言,高效索引,多维数据仓库和数据管理30.自从1969年美国的IBM公司开发出第一个DBMS系统IMS以来,数据库的研究和开发已经走过了三十多年的历程,经历了三代的演变(从层次型数据库系统到网络型数据库系统,再到现在成为数据库主流的关系型数据库系统),取得了辉煌的成就,形成了数百亿美元的产业,数据库技术和系统已经成为世界各国信息基础设施的核心技术和重要基础。