《医学数据仓库与数据挖掘》温习期末模拟题

合集下载

【免费下载】数据仓库与数据挖掘复习题

A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则11.下面哪种不属于数据预处理的方法？(D)A变量代换B离散化 C 聚集 D 估计遗漏值12. 假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。

等频（等深）划分时，15在第几个箱子内？(B)A 第一个B 第二个C 第三个D 第四个13.上题中，等宽划分时（宽度为50），15又在哪个箱子里？(A)A 第一个B 第二个C 第三个D 第四个14.下面哪个不属于数据的属性类型：(D)A 标称B 序数C 区间D相异15. 在上题中，属于定量的属性类型是：(C)A 标称B 序数C区间 D 相异16. 只有非零值才重要的二元属性被称作：( C )A 计数属性B 离散属性C非对称的二元属性 D 对称属性17. 以下哪种方法不属于特征选择的标准方法：(D)A嵌入 B 过滤 C 包装 D 抽样18.下面不属于创建新属性的相关方法的是：(B)A特征提取B特征修改C映射数据到新的空间D特征构造19. 考虑值集{1、2、3、4、5、90}，其截断均值（p=20%）是(C)A 2B 3C 3.5D 520. 下面哪个属于映射数据到新的空间的方法？(A)A 傅立叶变换B特征加权 C 渐进抽样D维归约21. 熵是为消除不确定性所需要获得的信息量，投掷均匀正六面体骰子的熵是：(B)A 1比特B 2.6比特C 3.2比特D 3.8比特22. 假设属性income的最大最小值分别是12000元和98000元。

利用最大最小规范化的方法将属性的值映射到0至1的范围内。

对属性income的73600元将被转化为：(D)A 0.821B 1.224C 1.458D 0.71623.假定用于分析的数据包含属性age。

数据元组中age的值如下（按递增序）：13，15，16，16，19，20，20，21，22，22，25，25，25，30，33，33，35，35，36，40，45，46，52，70, 问题：使用按箱平均值平滑方法对上述数据进行平滑，箱的深度为3。

数据仓库与数据挖掘_青岛大学中国大学mooc课后章节答案期末考试题库2023年

数据仓库与数据挖掘_青岛大学中国大学mooc课后章节答案期末考试题库2023年1.非频繁项集的超集有可能是频繁的。

参考答案:错误2.决策树中不包含以下哪种节点。

参考答案:外部节点（external node）3.数据集成是将多个数据源中的数据结合起来存放在一个一致的数据存储（如数据仓库）中。

数据源可能涉及多个数据库、数据立方体或一般文件。

参考答案:正确4.数据取样时，除了要求抽样时严把质量关外，还要求抽样数据必须在足够范围内有代表性。

参考答案:正确5.若属性income的平均值和标准差分别为32000元和17000元，则使用z-score规范化后，65600元被转换为：参考答案:1.9766.朴素贝叶斯算法能够解决特征之间有相关性的问题。

参考答案:错误7.OLAP技术的核心是：参考答案:多维分析8.假定某属性的最小与最大值分别为8000元和14000元。

要将其映射到区间[0.0,1.0]，按照最小-最大规范化方法对属性进行变换，属性值12600将变换为：参考答案:0.7679.后验概率P(H|X)表示条件X下H的概率。

参考答案:正确10.只要有两个频繁3项集，就一定能够生成一个候选4项集。

参考答案:错误11.先验概率是根据历史资料或主观估计的方法得到的概率。

参考答案:正确12.公司里面男性有60人，女性有40人，男性穿皮鞋的人数有25人，穿运动鞋的人数有35人，女性穿皮鞋的人数有10人，穿高跟鞋的人数有30人。

现在你只知道有一个人穿了皮鞋，推测他是男性的概率为：参考答案:0.71413.数据归约是用来得到数据集的归约表示，它比源数据集小得多，但仍接近于保持源数据的完整性。

参考答案:正确14.数据分类由两步过程组成：第一步，建立一个分类模型，描述指定的数据类集或概念集；第二步，使用模型进行分类。

参考答案:正确15.假设吸烟的本科生比例为15%，而吸烟的研究生占23%。

如果五分之一的大学生是研究生，其余的是本科生，那么吸烟的学生是研究生的概率是多少？参考答案:0.27716.决策树构建之后，为了避免过度拟合，需要对树进行剪枝。

数据仓库与数据挖掘习题.doc

数据仓库与数据挖掘习题. .数据仓库与数据挖掘习题1.1什么是数据挖掘？在你的回答中，强调以下问题：(a) 它是又一个骗局吗？(b) 它是一种从数据库，统计学和机器学习发展的技术的简单转换吗？(c) 解释数据库技术发展如何导致数据挖掘(d) 当把数据挖掘看作知识发现过程时，描述数据挖掘所涉及的步骤。

1.2 给出一个例子，其中数据挖掘对于一种商务的成功至关重要的。

这种商务需要什么数据挖掘功能？他们能够由数据查询处理或简单的统计分析来实现吗？1.3 假定你是Big- (a) 它是又一个骗局吗？(b) 它是一种从数据库，统计学和机器学习发展的技术的简单转换吗？(c) 解释数据库技术发展如何导致数据挖掘(d) 当把数据挖掘看作知识发现过程时，描述数据挖掘所涉及的步骤。

1.2 给出一个例子，其中数据挖掘对于一种商务的成功至关重要的。

这种商务需要什么数据挖掘功能？他们能够由数据查询处理或简单的统计分析来实现吗？1.3 假定你是Big：每个学生的姓名，地址和状态（例如，本科生或研究生），所修课程，以及他们累积的GPA（学分平均）。

描述你要选取的结构。

该结构的每个成分的作用是什么？1.4 数据仓库和数据库有何不同？它们有那些相似之处？1．5简述以下高级数据库系统和应用：面向对象数据库，空间数据库，文本数据库，多媒体数据库和WWW。

1．6 定义以下数据挖掘功能：特征化，区分，关联，分类，预测，聚类和演变分析。

使用你熟悉的现实生活中的数据库，给出每种数据挖掘的例子。

1．7 区分和分类的差别是什么？特征化和聚类的差别是什么？分类和预测呢？对于每一对任务，它们有何相似之处？1．8 根据你的观察，描述一种可能的知识类型，它需要由数据挖掘方法发现，但未在本章中列出。

它需要一种不同于本章列举的数据挖掘技术吗？1. 9 描述关于数据挖掘方法和用户交互问题的三个数据挖掘的挑战。

1. 10 描述关于性能问题的两个数据挖掘的挑战。

2.1 试述对于多个异种信息源的集成，为什么许多公司宁愿使用更新驱动的方法（构造使用数据仓库），而不愿使用查询驱动的方法（使用包装程序和集成程序）。

《医学数据仓库与数据挖掘》温习期末模拟题word精品文档11页

《医学数据仓库与数据挖掘》温习期末模拟题【含答案】《医学数据仓库与数据挖掘》温习期末模拟题！考试提纲资料2019-01-21 15：44：03阅读0评论0字号：大中小订阅一、选择题1、数据仓库是随时间变化的，下面的描述不正确的是：A、数据仓库随时间变化不断增加新的数据内容。

B、捕捉到的新数据会覆盖原来的快照。

C、数据仓库随时间变化不断删往旧的数据内容。

D、数据仓库中包含大量的综合数据，这些综taobaowang合数据会随着时间的变化不断地进行重新综合。

答案：B 2、关于基本数据的元数据是指：A、基本元数据包括与数据源、数据仓库、数据集市和应用程序等结构相关的信息。

B、基本元数据包括与企业相关的治理方面的数据和信息。

C、基本元数据包括日志文件和建立执行处理的时序调度信息。

D、基本元数据包括关于装载和更新处理、分析处理以及治理方面的信息。

答案：A 3、下面有关数据粒度的描述不正确的是：A、粒度是指数据仓库小数据单元的具体程度和级别。

B、数据越具体，粒度就越小，级别也就越高。

C、数据综合度越高，粒度就越大，级别也就越高。

D、粒度的具体划分将直接影响数据仓库中的数据量以及查询质量。

答案：B 4、有关数据仓库的开发特点，不正确的描述是：A、数据仓库开发要从数据出发。

B、数据仓库使用的需求在开发出往就要明确。

C、数据仓库的开发是一个不断循环的过程，是启发式的开发。

D、在数据仓库环境中，并不存在操纵型环境中所固定的和较确切的处理流，数据仓库中数据的分析和处理更灵活，且没有固定的模式。

答案：B 5、RAID技术具有容错能力，能够满足对存储能力、性能和可靠性不断进步的要求。

实在，实现原理是将数据写进多张磁盘中，假如-张磁盘发生故障，就从其他存放冗余数据的磁盘上访问数据。

有关RAID不同级别的描述不正确的是：A、在RAID 0这一级别上，数据记录通过在多组驱动器的扇区上交错地分布着实现，没有奇偶校验，不提供任何冗余。

【数据挖掘】期末考试备考复习宝典 (一文搞定,期末考试不再担忧)

【数据挖掘】期末考试备考复习宝典单选1、下列选项哪个描述的是“训练样本”（B）A、在电子病历数据中，每一个样本有八个检测指标，但是没有医生诊断结果B、在电子病历数据中，每一个样本有八个检测指标，每个样本还有一个医生诊断结果C、在电子病历数据中，每一个样本有八个检测指标，但是没有医生诊断结果；算法自动得到这些样本的诊断结果D、在电子病历数据中，每一个样本有八个检测指标，医生根据这八个指标做出诊断2、下列选项哪个描述的是“分类”（C）A、在电子病历数据中，每一个样本有八个检测指标，但是没有医生诊断结果B、在电子病历数据中，每一个样本有八个检测指标，每个样本还有一个医生诊断结果C、在电子病历数据中，每一个样本有八个检测指标，但是没有医生诊断结果；算法自动得到这些样本的诊断结果D、在电子病历数据中，每一个样本有八个检测指标，医生根据这八个指标做出诊断3、列哪个选项描述的不是“聚类”（C）A、搜索引擎返回的文档中，将相似的文档聚合成一类B、电子商务网站数据中，购物历史相似的用户自动聚合成一组C、电子商务网站数据中，分析出用户常常一起购买的商品，组合到一起促销D、在电子病历数据中，将体检指标相似的样本自动聚合成一组4、在MATLAB语言中，以下说法中错误的是A、MATLAB中默认的数据类型是doubleB、3<5的运算结果是logical类型C、变量Abc和abc是代表两个相同的变量D、灰度图的图像矩阵中的数据是uint8类型5、数据对象的别名不包括（D）A、记录B、样本C、向量D、特征6、属性的别名不包括（B）A、特征B、样本C、字段D、维7、下列说法不正确的是（C）A、测量标度是将数值或符号与对象的属性相关联的规则B、属性的性质不必与用来度量它的值的性质完全相同C、即使在不同的应用问题中，同一个物理量也必然使用同一种类型的属性来描述D、属性类型可以划分为：标称、序数、区间、比率这四种8、某办公自动化系统中，采用出生年份表示雇员的年龄，这是什么类型属性（C）A、标称B、序数C、区间D、比率9、某学籍管理系统中，采用百分制表示学生分数，这是什么类型属性（D）A、标称B、序数C、区间D、比率10、描述一个数据集的属性主要不包括（A）A、置信度B、维度C、分辨率D、稀疏性11、下列说法中错误的是（D）A、噪声是测量误差的随机部分B、数据中出现遗漏值的原因，可能是信息没有收集到，或者属性不适用于所有情况。

数据仓库与数据挖掘阶段考试复习题

第一章数据仓库与数据挖掘概述无习题第二章数据仓库概述一．判断题在分析型处理产生后，数据处理的环境由原来的以单一数据库为中心的数据环境发展为以数据仓库为基础的体系化环境。

在事务型（操作型）数据处理下，数据处理的环境主要是以单一数据库为中心的数据环境。

数据仓库是为构建分析型数据处理环境而出现的一种数据存储和组织技术.面向应用，是数据仓库区别于传统的操作型数据库的关键特征。

一个数据仓库是通过集成多个异种数据源来构造的。

由于在数据仓库中只进行数据的初始装载和查询操作，所以，数据一旦进入数据仓库，就是稳定的，基本上不会被更新。

数据立方体必须是3维的。

在数据仓库中，概念分层定义了一个映射序列，可以将低层概念映射到更一般的高层概念。

方体的格，是在单个维上定义的映射序列，可以将低层概念映射到更一般的高层概念。

雪花模型通过在每个维表基础上，增加附加维表的方式来降低星型模型中可能会存在的冗余现象。

在事实星座模型中，有且仅能有一个事实表。

在数据仓库的设计过程中，要坚持“数据驱动和需求驱动双驱动，且以需求驱动为中心”的原则。

二．单选题在以下人员中，被誉为“数据仓库之父”的是：（）（知识点：数据仓库的基本概念；易）A. H.Inmon B. E.F.Codd C. Simon D. Pawlak以下关于数据仓库的说法正确的是：（）（知识点：数据仓库的基本概念；难）A. 数据仓库中的数据只能来源于组织内部的操作型数据库B. 数据仓库是为应对事务型数据处理的需要而产生的C. 数据仓库是面向主题的，这是其区别于操作型数据库的关键特征D. 数据仓库必须是面向企业全局的，不能以部门为单位建立数据仓库以下哪项不是“信息包图”中的元素？（）（知识点：数据仓库的三级模型；难）A. 维度B. 维的概念层次及相应层次上的数量C. 度量D. 方体的格以下哪项不属于数据仓库的逻辑模型？（）（知识点：数据仓库的三级模型；中）A. 星型模型B. 雪花模型C. 度量模型D. 事实星座模型在数据仓库的设计过程中，下列描述正确的是（）（知识点：数据仓库的设计；难）A. 数据仓库是“数据驱动+需求驱动”双驱动，但必须以需求驱动为中心B. 数据仓库主要面向分析型处理环境，在设计时很难完全明确用户的需求C. 数据仓库与数据库一样，其数据主要来自于企业的业务流程D. 数据仓库的设计目标是要提高事务处理的性能下面哪项关于星型模型的说法是不正确的：（）（知识点：数据仓库的三级模型；难）A. 有一个事实表，且事实表中的属性由指向各个维表的外键和一些相应的度量数据组成B. 有一组小的附属表，称为维表，且每维一个维表C. 事实表的每个字段都是事实度量字段D. 由于每维只能建立一个维表，使得维表中有些信息会产生冗余在数据仓库的概念模型中，通过（）来实现数据从客观世界到主观认识的映射。

数据仓库与数据挖掘考试试题(作业试题)

一、填空题（15分）1.数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。

2.元数据是描述数据仓库内数据的结构和建立方法的数据。

根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。

3.OLAP 技术多维分析过程中，多维分析操作包括切片、切块、钻取、旋转等。

4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“ 中心和辐射 ”架构，其中企业级数据仓库是中心，源数据系统和数据集市在输入和输出范围的两端。

5.ODS 实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库，也叫运营数据存储。

二、多项选择题（10分）6.在数据挖掘的分析方法中，直接数据挖掘包括（ＡＣＤ） A 分类 B 关联 C 估值 D 预言7.数据仓库的数据ETL 过程中，ETL 软件的主要功能包括（ＡＢＣ） A 数据抽取 B 数据转换 C 数据加载 D 数据稽核8.数据分类的评价准则包括（ ABCD ）A 精确度B 查全率和查准率C F-MeasureD 几何均值 9.层次聚类方法包括（ BC ）A 划分聚类方法B 凝聚型层次聚类方法C 分解型层次聚类方法D 基于密度聚类方法 10.贝叶斯网络由两部分组成，分别是（ A D ）A 网络结构B 先验概率C 后验概率D 条件概率表三、计算题（30分）11.一个食品连锁店每周的事务记录如下表所示，其中每一条事务表示在一项收款机业务中卖出的项目，假定sup min =40%，conf min =40%，使用Apriori 算法计算生成的关联规则，标明每趟数据库扫描时的候选集和大项目集。

（15分）事务项目事务项目T1 T2 T3面包、果冻、花生酱面包、花生酱面包、牛奶、花生酱T4 T5啤酒、面包啤酒、牛奶解：（1）由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C 1，计算其支持度，取出支持度小于sup min的项集，形成1-频繁集L1，如下表所示：项集C1 支持度项集L1支持度{面包}{花生酱}{牛奶} {啤酒}4/53/52/52/5{面包}{花生酱}{牛奶}{啤酒}4/53/52/52/5(2)组合连接L1中的各项目，产生2-候选集C2，计算其支持度，取出支持度小于sup min的项集，形成2-频繁集L2，如下表所示：项集C2支持度项集L2支持度{面包、花生酱} 3/5 {面包、花生酱} 3/5至此，所有频繁集都被找到，算法结束，所以，confidence（{面包}→{花生酱}）=（4/5）/（3/5）=4/3> conf minconfidence（{ 花生酱}→{面包}）=（3/5）/（4/5）=3/4> conf min所以，关联规则{面包}→{花生酱}、{ 花生酱}→{面包}均是强关联规则。

数据仓库与数据挖掘期末考试题库

复习内容填空题（每空1分）第1章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。

2、根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。

3、数据处理通常分成两大类：联机事务处理（OLTP）和联机分析处理。

4、多维分析是指对以“维”形式组织起来的数据（多维数据集）采取切片、切块、钻取和旋转等各种分析动作，以求剖析数据，使用户能从不同角度、不同侧面观察数据仓库中的数据，从而深入理解多维数据集中的信息。

5、ROLAP是基于关系数据库的OLAP实现，而MOLAP是基于多维数据结构组织的OLAP实现。

6、数据仓库按照其开发过程，其关键环节包括数据抽取、数据存储与管理和数据表现等。

7、数据仓库系统的体系结构根据应用需求的不同，可以分为以下4种类型：两层架构、独立数据集市、依赖型数据集市和操作型数据存储和逻辑型数据集市和实时数据仓库。

8、操作型数据存储（ODS）实际上是一个集成的、面向主题的、可更新的、当前值的（但是可“挥发”的）、企业级的、详细的数据库，也叫运营数据存储。

P159、“实时数据仓库”意味着源数据系统、决策支持服务和数据仓库之间以一个接近实时的速度交换数据和业务规则。

10、从应用的角度看，数据仓库的发展演变可以归纳为5个阶段：以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。

11、数据挖掘的分析方法可以分为直接数据挖掘和间接数据挖掘两类。

第2章1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。

2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。

因此，我们要求ETL 过程产生的数据（即调和数据层）是详细的、历史的、规范的、可理解的、即时的和质量可控制的。

3、数据抽取的两个常见类型是静态抽取和增量抽取。

静态抽取用于最初填充数据仓库，增量抽取用于进行数据仓库的维护。

4、粒度是对数据仓库中数据的综合程度高低的一个衡量。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

《医学数据仓库与数据挖掘》温习期末模拟题【含答案】《医学数据仓库与数据挖掘》温习期末模拟题！考试提纲资料2011-01-21 15：44：03阅读0评论0字号：大中小订阅一、选择题1、数据仓库是随时间变化的，下面的描述不正确的是：A、数据仓库随时间变化不断增加新的数据内容。

B、捕捉到的新数据会覆盖原来的快照。

C、数据仓库随时间变化不断删往旧的数据内容。

D、数据仓库中包含大量的综合数据，这些综taobaowang合数据会随着时间的变化不断地进行重新综合。

答案：B 2、关于基本数据的元数据是指：A、基本元数据包括与数据源、数据仓库、数据集市和应用程序等结构相关的信息。

B、基本元数据包括与企业相关的治理方面的数据和信息。

C、基本元数据包括日志文件和建立执行处理的时序调度信息。

D、基本元数据包括关于装载和更新处理、分析处理以及治理方面的信息。

答案：A 3、下面有关数据粒度的描述不正确的是：A、粒度是指数据仓库小数据单元的具体程度和级别。

B、数据越具体，粒度就越小，级别也就越高。

C、数据综合度越高，粒度就越大，级别也就越高。

D、粒度的具体划分将直接影响数据仓库中的数据量以及查询质量。

答案：B 4、有关数据仓库的开发特点，不正确的描述是：A、数据仓库开发要从数据出发。

B、数据仓库使用的需求在开发出往就要明确。

C、数据仓库的开发是一个不断循环的过程，是启发式的开发。

D、在数据仓库环境中，并不存在操纵型环境中所固定的和较确切的处理流，数据仓库中数据的分析和处理更灵活，且没有固定的模式。

答案：B 5、RAID技术具有容错能力，能够满足对存储能力、性能和可靠性不断进步的要求。

实在，实现原理是将数据写进多张磁盘中，假如-张磁盘发生故障，就从其他存放冗余数据的磁盘上访问数据。

有关RAID不同级别的描述不正确的是：A、在RAID 0这一级别上，数据记录通过在多组驱动器的扇区上交错地分布着实现，没有奇偶校验，不提供任何冗余。

B、RAID 1称为镜像。

在这一级别上，数据被冗余地写进成对的驱动器中，可以独立地从每个驱动器提取该数据。

这种方法没有什么缺点，是备份时候经常用到的技术。

C、RAID 3数据记录在成组驱动器上，位交错，只有一个驱动器仍有奇偶校验信息。

D、RAID 5假如采用这一水平的技术，则数据记录在成组的驱动器上扇区交错地存放着，所有驱动器都有奇偶校验信息。

答案：B 6、有关数据仓库测试，下列说法不正确的是：A、在完成数据仓库的实施阶段中，需要对数据仓库进行各种测试。

测试工作中要包括单元测试和系统集成测试。

B、当数据仓库的每个单独组件完成后，就需要对它们进行单元测试。

C、系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回回测试。

D、在测试之前没必要制定具体的测试计划。

答案：D 7、OLAP技术的核心是：A、在线性B、对用户的快速响应C、互操纵性D、*分析平价美白产品答案：D 8、关于OLAP的特性，下面正确的是：①快速性②可分析性③*性④信息性⑤共享性A、①、②、③B、②、③、④C、①、②、③、④D、①、②、③、④、⑤答案：D 9、关于OLAP和OLTP的区别的描述，不正确的是：A、OLAP主要是关于如何理解聚集的大量不同的数据。

它与OLAP应用程序不同。

B、与OLAP应用程序不同，OLTP应用程序包含大量相对简单的事务。

C、OLAP的特点在于事务量大，但事务内容比较简单且重复率高。

D、OLAP是以数据仓库为基础的，其终极数据来源与OLTP一样均来自底层的数据库系统，两者面对的用户是相同的。

答案：D 10、OLAM技术一般简称为"数据联机分析挖掘"，下面说法正确的是：A、OLAP和OLAM都基于客户机/服务器模式，只有后者有与用户的交互性。

B、由于OLAM的立方体和用于OLAP的立方体有本质的区别。

C、基于Web的OLAM是Web技术与OLAM技术的结合。

D、OLAM服务器通过用户图形接口接收用户的分析指令，在元数据的指导下，对超级立方体作一定的操纵。

答案：D 11、数据仓库的数据具有四个基本特征，下列不正确的是：A、面向主题的。

B、集成的。

C、不可更新的。

D、不随时间变化的。

答案：D 12、下列是关于OLAP的描述，不正确的是：A、一个*数组可以表示为：(维1，维2，…，维n)B、维的一个取值称为该维的一个维成员C、OLAP是联机分析处理D、OLAP是以数据仓库进行分析决策的基础答案：A 13、关于OLAP和OLTP的说法，下列不正确的是：A、OLTP事务量大，但事务内容比较简单且重复率高B、OLAP的终极数据来源与OLTP不一样C、OLTP面对的是决策职员和高层治理职员D、OLTP以应用为核心，是应用驱动的答案：B 14、关于数据仓库元数据的描述，下列不正确的是：A、元数据描述了数据的结构、内容、码、索引等项内容。

B、元数据内容在设计数据仓库时确定后，就不应该再改变。

C、元数据包含对数据转换的描述。

D、元数据是有效治理数据仓库的重要条件。

答案：B 15、下列描述不正确的是：A、模型辅助决策系同一般可以使用若干个模型来解决同一题目。

B、人机交互系统是决策支持系统的一个组成部分。

C、决策支持系统包含模型库和模型库治理系统。

D、智能决策支持系统包含知识库系统。

答案：A 16、决策支持系统可以用不同的方法进行构造，下列的说法不正确的是A、可以用生命周期法和原型法构造决策支持系统。

B、原型法是一个迭代过程。

C、原型法中不存在对用户的反馈。

D、SDLC即是系统开发的生命周期法答案：C 17、数据清洗是数据转移的一种基本类型，它不能通过下列的那种方法来完成：A、范围检验B、枚举清单C、相关检验D、删除分歧格的数据答案：D 18、下列不是数据转移的基本类型的是：A、简单转移B、清洗C、集成D、继续答案：D 19、开展数据挖掘的基本目的是：A、建立数据仓库。

B、帮助用户作决策。

C、从大量数据中提取有用信息。

D、对数据进行统计和分析。

答案：C 20、产生数据挖掘的根本原因是：A、数据统计分析。

B、技术的发展。

C、贸易推动。

D、数据仓库的产生。

答案：A 21、()是通过数据库中的一些属性来猜测另一个属性，它在验证用户提出的假设的过程中提取信息。

A、文本数据挖掘B、发现驱动的数据挖掘C、验证驱动的数据挖掘D、Web数据挖掘答案：C 22、对于在数据仓库中设计、使用OLAP的用户来说，下面不属于OLAP的衡量标准的是：A、解释性批处理提取。

B、弹性报告和一致性能报告。

C、对物理层的自动调整。

D、体系结构。

答案：D 23、对MOLAP和ROLAP的比较，不正确的说法是：A、MOLAP的查询能力一般较好，而在ROLAP中进行查询，往往很难预料查询结果。

B、MOLAP所需要的数据加载时间比较长，而ROLAP的加载时间要比MOLAP 短。

C、ROLAP比MOLAP的查询速度都要快很多。

D、MOLAP在分析过程中的精度较高，具有分析的上风。

答案：C 24、关于OLAP服务器及其工具，说法正确的是：A、只有Oracle提供了OLAP功能。

B、评价OLAP服务器的标准不包括全局结构视图。

C、OLAP的服务引擎都应满足分析模型及应用在功能、规模和技术特征上的要求。

D、对OLAP服务器的治理能力没有特别的要求。

答案：C 25、数据挖掘工具按照使用方式分类，可以分为：A、分为基于神经网络的工具，基于规则和决策树的工具，基于模糊逻辑的工具和综合性数据挖掘工具等。

B、分成决策方案天生工具，贸易分析工具和研究分析工具三类。

C、分成专用型数据挖掘工具和通用型数据挖掘工具两大。

D、分成基于神经网络的工具和研究分析工具。

答案：B二、填空题1、数据仓库(简答题必考)是_、_、_、_有组织的数据集合，支持治理的决策过程。

答案：面向主题、集成的、时变的、非易失的2、一般来说，可将数据仓库的开发和应用过程细分为_、_、_、_。

答案：设想阶段、规划和长大阶段、控制阶段和稳定阶段3、_是对现实世界进行抽象的工具，需要将现实世界的事物及其有关特征转换为信息世界的数据，才能对信息进行处理与治理，这就需要依靠_作为这种转换的桥梁。

这种转换经历了从现实到_，从_到_，最后从_到物理模型的转换。

答案：数据模型、数据模型、概念模型、概念模型、逻辑模型、逻辑模型4、元数据(简答题必考)是关于数据、_和应用程序的结构和意义的描述信息，其主要目标是_。

其范围可以是某个特别的数据库治理系统中从现实世界的概念上的一般概括，到_。

答案：操纵数据的进程、提供数据资源的全面指南、具体的物理说明5、按对象级别对元数据进行分类，可以从三个抽象级别上来熟悉：_、逻辑级和_。

答案：概念级、物理级6、数据库系统的特点主要体现在下面几个方面：_、数据的共享性、_和_。

答案：数据的结构化、数据的独立性、数据同一由DBMS治理和控制。

7、依据数据仓库数据量大但是操纵单一的特点，可以采取一些技术来进行数据仓库的物理数据模型设计，如：合并表、_、引进冗余、_、建立广义索引等等。

答案：建立数据序列、表的物理分割、天生导出数据8、数据仓库的接*术包含多技术接*术、_和数据的高效率加载技术。

答案：语言接*术9、数据仓库中数据的组织方式与数据库不同，通常采用_分级的方式进行组织。

-般包括早期细节数据、_、轻度综合数据、_以及_五部分。

答案：当前细节数据、高度综合数据、元数据10、数据仓库的需求分析根据不同领域可以划分为_、设计的需求、_和终极用户的需求等方面。

答案：业主(投资者)的需求、开发者的需求11、数据仓库固然是从数据库发展而来的，但两者存在大的差异，从数据存储内容看，数据库只存放_，而数据仓库则存放_，数据库中的数据的目标是面向_，而数据仓库则面向_。

答案：当前值、历史值、业务操纵职员、高层治理职员12、数据库内的数据是_的，只要有业务发生，数据就会更新，而数据仓库则是_的历史数据，只能定期添加、刷新。

答案：动态变化、静态13、数据仓库主要是供决策分析用的，所涉及的数据操纵主要是_，一般情况并不进行_答案：数据查询、修改操纵14、数据仓库创建后，首先从_中抽取所需要的数据到数据预备区，在数据预备区中经过_的净化处理，再加载到数据仓库数据库中，最后根据用户的需求将数据发布到_。

答案：数据源、数据、数据集市/知识挖掘库中15、"主题"在数据仓库中由一系列_实现的。

一个主题之下表的划分可按_、数据所属时间段进行划分。

主题在数据仓库中可用_方式进行存储，假如主题存量大为进步处理效率可采用_方式进行存储。

答案：列表、数据的综合、*数据库、关系数据库三、简答题1、什么是数据挖掘(Data Mining)?(简答题必考)答案：数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜伏有用的信息和知识的过程。