《数据仓库与数据挖掘》复习题

合集下载

数据仓库与数据挖掘复习大全

数据仓库与数据挖掘复习大全湖北文理学院湖北襄阳王茂林1.某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理2. 以下两种描述分别对应哪两种对分类算法的评价标准？(A)(a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。

(b)描述有多少比例的小偷给警察抓了的标准。

A. Precision, RecallB. Recall, PrecisionC. Precision, ROCD. Recall, ROC分类是一种重要的数据挖掘算法。

分类的目的是构造一个分类函数或分类模型（即分类器），通过分类器将数据对象映射到某一个给定的类别中。

分类器的主要评价指标有准确率(Precision)、召回率(Recall)、F b-score、ROC、AOC等。

准确率(Precision) 和召回率(Recall)是信息检索领域两个最基本的指标。

准确率也称为查准率，召回率也称为查全率。

它们的定义如下：Precision=系统检索到的相关文件数量/系统检索到的文件总数量Recall=系统检索到的相关文件数量/系统所有相关文件数量F b-score是准确率和召回率的调和平均：F b=[(1+b2)*P*R]/（b2*P+R），比较常用的是F1。

在信息检索中，准确率和召回率是互相影响的，虽然两者都高是一种期望的理想情况，然而实际中常常是准确率高、召回率就低，或者召回率低、但准确率高。

所以在实际中常常需要根据具体情况做出取舍，例如对一般搜索的情况是在保证召回率的情况下提升准确率，而如果是疾病监测、反垃圾邮件等，则是在保证准确率的条件下，提升召回率。

但有时候，需要兼顾两者，那么就可以用F-score指标。

数据仓库与数据挖掘习题

数据仓库与数据挖掘习题数据仓库与数据挖掘习题1.1什么是数据挖掘？在你的回答中，强调以下问题：(a) 它是又一个骗局吗？(b) 它是一种从数据库，统计学和机器学习发展的技术的简单转换吗？(c) 解释数据库技术发展如何导致数据挖掘(d) 当把数据挖掘看作知识发现过程时，描述数据挖掘所涉及的步骤。

1.2 给出一个例子，其中数据挖掘对于一种商务的成功至关重要的。

这种商务需要什么数据挖掘功能？他们能够由数据查询处理或简单的统计分析来实现吗？1.3 假定你是Big-University的软件工程师，任务是设计一个数据挖掘系统，分析学校课程数据库。

该数据库包括如下信息：每个学生的姓名，地址和状态（例如，本科生或研究生），所修课程，以及他们累积的GPA（学分平均）。

描述你要选取的结构。

该结构的每个成分的作用是什么？1.4 数据仓库和数据库有何不同？它们有那些相似之处？1．5简述以下高级数据库系统和应用：面向对象数据库，空间数据库，文本数据库，多媒体数据库和WWW。

1．6 定义以下数据挖掘功能：特征化，区分，关联，分类，预测，聚类和演变分析。

使用你熟悉的现实生活中的数据库，给出每种数据挖掘的例子。

1．7 区分和分类的差别是什么？特征化和聚类的差别是什么？分类和预测呢？对于每一对任务，它们有何相似之处？1．8 根据你的观察，描述一种可能的知识类型，它需要由数据挖掘方法发现，但未在本章中列出。

它需要一种不同于本章列举的数据挖掘技术吗？1. 9 描述关于数据挖掘方法和用户交互问题的三个数据挖掘的挑战。

1. 10 描述关于性能问题的两个数据挖掘的挑战。

2.1 试述对于多个异种信息源的集成，为什么许多公司宁愿使用更新驱动的方法（构造使用数据仓库），而不愿使用查询驱动的方法（使用包装程序和集成程序）。

描述一些情况，其中查询驱动方法比更新驱动方法更受欢迎。

2.2 简略比较以下概念，可以用例子解释你的观点（a）雪花模式、事实星座、星型网查询模型（b）数据清理、数据变换、刷新（c）发现驱动数据立方体、多特征方、虚拟仓库2.3 假定数据仓库包含三个维time，doctor和patient，两个度量count 和charge，其中charge是医生对一位病人的一次诊治的收费。

数据仓库与数据挖掘习题

数据仓库与数据挖掘习题1.1什么是数据挖掘？在你的回答中，强调以下问题：(a) 它是又一个骗局吗？(b) 它是一种从数据库，统计学和机器学习发展的技术的简单转换吗？(c) 解释数据库技术发展如何导致数据挖掘(d) 当把数据挖掘看作知识发现过程时，描述数据挖掘所涉及的步骤。

1.2 给出一个例子，其中数据挖掘对于一种商务的成功至关重要的。

该数据库包括如下信息：每个学生的姓名，地址和状态（例如，本科生或研究生），所修课程，以及他们累积的GPA（学分平均）。

描述你要选取的结构。

1．6 定义以下数据挖掘功能：特征化，区分，关联，分类，预测，聚类和演变分析。

使用你熟悉的现实生活中的数据库，给出每种数据挖掘的例子。

它需要一种不同于本章列举的数据挖掘技术吗？1. 9 描述关于数据挖掘方法和用户交互问题的三个数据挖掘的挑战。

1. 10 描述关于性能问题的两个数据挖掘的挑战。

描述一些情况，其中查询驱动方法比更新驱动方法更受欢迎。

数据仓库与数据挖掘期末综合复习

数据仓库与数据挖掘期末综合复习第一章１、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。

2、元数据是描述数据仓库内数据的结构和建立方法的数据，它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。

3、数据处理通常分成两大类：联机事务处理和联机分析处理。

４、多维分析是指以“维”形式组织起来的数据（多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据，使拥护能从不同角度、不同侧面观察数据仓库中的数据，从而深入理解多维数据集中的信息。

5、ROLAP是基于关系数据库的OＬAP实现，而ＭOLAP是基于多维数据结构组织的OLAP实现。

OLAP技术的有关概念：ＯLＡP根据其存储数据的方式可分为三类：RＯLＡP、MOLAP、HOLAＰ6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。

7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下４种类型：两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。

8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的（但是可“挥发”的）、企业级的、详细的数据库，也叫运营数据存储。

9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。

１0、从应用的角度看，数据仓库的发展演变可以归纳为５个阶段：以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。

1１、什么是数据仓库?数据仓库的特点主要有哪些？数据仓库通常是指一个数据库环境，而不是支一件产品,它是提供用户用于决策支持的当前和历史数据，这些数据在传统的数据库中通常不方便得到。

数据仓库就是一个面向主题的(Subｊect Oｒienｔed）、集成的(Integｒate）、相对稳定的(Non-Vｏｌatile)、反映历史变化(Ｔime Varianｔ）的数据集合，通常用于辅助决策支持。

数据仓库与数据挖掘考试习题汇总

第一章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。

2、元数据是描述数据仓库内数据的结构和建立方法的数据，它为访问数据仓库提供了一个信息目录，根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。

3、数据处理通常分成两大类：联机事务处理和联机分析处理。

4、多维分析是指以“维”形式组织起来的数据（多维数据集）采取切片、切块、钻取和旋转等各种分析动作，以求剖析数据，使拥护能从不同角度、不同侧面观察数据仓库中的数据，从而深入理解多维数据集中的信息。

5、ROLAP是基于关系数据库的OLAP实现，而MOLAP是基于多维数据结构组织的OLAP实现。

6、数据仓库按照其开发过程，其关键环节包括数据抽取、数据存储于管理和数据表现等。

7、数据仓库系统的体系结构根据应用需求的不同，可以分为以下4种类型：两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。

8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的（但是可“挥发”的）、企业级的、详细的数据库，也叫运营数据存储。

9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。

10、从应用的角度看，数据仓库的发展演变可以归纳为5个阶段：以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。

第二章1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。

2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。

因此，我们要求ETL过程产生的数据（即调和数据层）是详细的、历史的、规范的、可理解的、即时的和质量可控制的。

3、数据抽取的两个常见类型是静态抽取和增量抽取。

静态抽取用于最初填充数据仓库，增量抽取用于进行数据仓库的维护。

4、粒度是对数据仓库中数据的综合程度高低的一个衡量。

粒度越小，细节程度越高，综合程度越低，回答查询的种类越多。

数据仓库与数据挖掘考试试题

一、填空题（15分）1.数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。

2.元数据是描述数据仓库内数据的结构和建立方法的数据。

根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。

3.OLAP技术多维分析过程中，多维分析操作包括切片、切块、钻取、旋转等。

4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“中心和辐射”架构，其中企业级数据仓库是中心，源数据系统和数据集市在输入和输出范围的两端。

5.ODS实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库，也叫运营数据存储。

二、多项选择题（10分）6.在数据挖掘的分析方法中，直接数据挖掘包括（ＡＣＤ）A 分类B 关联C 估值D 预言7.数据仓库的数据ETL过程中，ETL软件的主要功能包括（ＡＢＣ）A 数据抽取B 数据转换C 数据加载D 数据稽核8.数据分类的评价准则包括（ ABCD ）A 精确度B 查全率和查准率C F-MeasureD 几何均值9.层次聚类方法包括（ BC ）A 划分聚类方法B 凝聚型层次聚类方法C 分解型层次聚类方法D 基于密度聚类方法10.贝叶斯网络由两部分组成，分别是（ A D ）A 网络结构B 先验概率C 后验概率D 条件概率表三、计算题（30分）11.一个食品连锁店每周的事务记录如下表所示，其中每一条事务表示在一项收款机业务中卖出的项目，假定sup min=40%，conf min=40%，使用Apriori算法计算生成的关联规则，标明每趟数据库扫描时的候选集和大项目集。

（15分）解：（1）由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C1，计算其支持度，取出支持度小于sup min的项集，形成1-频繁集L1，如下表所示：(2)组合连接L1中的各项目，产生2-候选集C2，计算其支持度，取出支持度小于sup min的项集，形成2-频繁集L2，如下表所示：至此，所有频繁集都被找到，算法结束，所以，confidence（{面包}→{花生酱}）=（4/5）/（3/5）=4/3> conf minconfidence（{ 花生酱}→{面包}）=（3/5）/（4/5）=3/4> conf min所以，关联规则{面包}→{花生酱}、{ 花生酱}→{面包}均是强关联规则。

数据仓库与数据挖掘考试习题汇总

第一章12、元数据是描述数据仓库内数据的结构和建立方法的数据，它为访问数据仓库提供了一个34转等各种分析动作，以求剖析数据，使拥护能从不同角度、不同侧面观察数据仓库中的数据，从而深入理解多维数据集中的信息。

5、ROLAP OLAP实现，而MOLAP是基于多维数据结构组织的OLAP 实现。

678发”的）、企业级的、详细的数据库，也叫运营数据存储。

9、“实时数据仓库”意味着源数据系统、度交换数据和业务规则。

11、什么是数据仓库？数据仓库的特点主要有哪些？数据仓库通常是指一个数据库环境，而不是支一件产品，它是提供用户用于决策支持的当前和历史数据，这些数据在传统的数据库中通常不方便得到。

数据仓库就是一个面向主题的（Subject Oriented）、集成的（Integrate）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，通常用于辅助决策支持。

数据仓库的特点包含以下几个方面：（1）面向主题。

操作型数据库的数据组织是面向事务处理任务，各个业务系统之间各自分离；而数据仓库中的数据是按照一定的主题域进行组织。

主题是一个抽象的概念，是指用户使用数据仓库进行决策时所关心的重点领域，一个主题通常与多个操作型业务系统或外部档案数据相关。

（2）集成的。

面向事务处理的操作型数据库通常与某些特定的应用相关，数据库之间相互独立，并且往往是异构的。

而数据仓库中的数据是在对原有分散的数据库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的，必须消除源数据中的不一致性，以保证数据仓库内的信息是关于整个企事业单位一致的全局信息。

也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义。

（3）相对稳定的。

操作型数据库中的数据通常实时更新，数据根据需要及时发生变化。

数据仓库与数据挖掘试题

武汉大学计算机学院20XX级研究生“数据仓库和数据挖掘”课程期末考试试题要求：所有的题目的解答均写在答题纸上，需写清楚题目的序号。

每张答题纸都要写上姓名和学号。

一、单项选择题（每小题2分，共20分）1. 下面列出的条目中，（）不是数据仓库的基本特征。

BA.数据仓库是面向主题的B.数据仓库是面向事务的C.数据仓库的数据是相对稳定的D.数据仓库的数据是反映历史变化的2. 数据仓库是随着时间变化的，下面的描述不正确的是（）。

A.数据仓库随时间的变化不断增加新的数据内容B.捕捉到的新数据会覆盖原来的快照C.数据仓库随事件变化不断删去旧的数据内容CD.数据仓库中包含大量的综合数据，这些综合数据会随着时间的变化不断地进行重新综合3. 以下关于数据仓库设计的说法中（）是错误的。

AA.数据仓库项目的需求很难把握，所以不可能从用户的需求出发来进行数据仓库的设计，只能从数据出发进行设计B.在进行数据仓库主题数据模型设计时，应该按面向部门业务应用的方式来设计数据模型C.在进行数据仓库主题数据模型设计时要强调数据的集成性D.在进行数据仓库概念模型设计时，需要设计实体关系图，给出数据表的划分，并给出每个属性的定义域4. 以下关于OLAP的描述中（）是错误的。

AA.一个多维数组可以表示为（维1，维2，…，维n）B.维的一个取值称为该维的一个维成员C.OLAP是联机分析处理D.OLAP是数据仓库进行分析决策的基础5. 多维数据模型中，下列（）模式不属于多维模式。

DA.星型模式B.雪花模式C.星座模式D.网型模式6. 通常频繁项集、频繁闭项集和最大频繁项集之间的关系是（）。

CA.频繁项集⊂频繁闭项集⊂最大频繁项集B.频繁项集⊂最大频繁项集⊂频繁闭项集C.最大频繁项集⊂频繁闭项集⊂频繁项集D.频繁闭项集⊂频繁项集⊂最大频繁项集7. 决策树中不包含（）结点。

CA.根结点B.内部结点C.外部结点D.叶结点8. 下面选项中t不是s的子序列的是（）。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2014-2015-1《数据仓库与数据挖掘》期末考试题型一、单项选择题（每小题2分，共20分）二、填空题（每空1分，共20分）三、简答题(每题6分，共30分)四、析题与计算题(共30分)请同学们在考试时不要将复习资料带入考场！！！单选题1. 某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理2. 以下两种描述分别对应哪两种对分类算法的评价标准？(A)(a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。

(b)描述有多少比例的小偷给警察抓了的标准。

A. Precision, RecallB. Recall, PrecisionA. Precision, ROC D. Recall, ROC3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？(C)A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘4. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？(B)A. 分类B. 聚类C. 关联分析D. 隐马尔可夫链5. 什么是KDD？(A)A. 数据挖掘与知识发现B. 领域知识发现C. 文档知识发现D. 动态知识发现6. 使用交互式的和可视化的技术，对数据进行探索属于数据挖掘的哪一类任务？（A）A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则7. 为数据的总体分布建模；把多维空间划分成组等问题属于数据挖掘的哪一类任务？(B)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则8. 建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？(C)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式，属于数据挖掘哪一类任务？(A)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则11.下面哪种不属于数据预处理的方法？(D)A变量代换B离散化 C 聚集 D 估计遗漏值12. 假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。

等频（等深）划分时，15在第几个箱子内？(B)A 第一个B 第二个C 第三个D 第四个13.上题中，等宽划分时（宽度为50），15又在哪个箱子里？(A)A 第一个B 第二个C 第三个D 第四个14.下面哪个不属于数据的属性类型：(D)A 标称B 序数C 区间D相异15. 在上题中，属于定量的属性类型是：(C)A 标称B 序数C区间 D 相异16. 只有非零值才重要的二元属性被称作：( C )A 计数属性B 离散属性C非对称的二元属性 D 对称属性17. 以下哪种方法不属于特征选择的标准方法：(D)A嵌入 B 过滤 C 包装 D 抽样18.下面不属于创建新属性的相关方法的是：(B)A特征提取B特征修改C映射数据到新的空间D特征构造19. 考虑值集{1、2、3、4、5、90}，其截断均值（p=20%）是(C)A 2B 3C 3.5D 520. 下面哪个属于映射数据到新的空间的方法？(A)A 傅立叶变换B特征加权 C 渐进抽样D维归约21. 熵是为消除不确定性所需要获得的信息量，投掷均匀正六面体骰子的熵是：(B)A 1比特B 2.6比特C 3.2比特D 3.8比特22. 假设属性income的最大最小值分别是12000元和98000元。

利用最大最小规范化的方法将属性的值映射到0至1的范围内。

对属性income的73600元将被转化为：(D)A 0.821B 1.224C 1.458D 0.71623.假定用于分析的数据包含属性age。

数据元组中age的值如下（按递增序）：13，15，16，16，19，20，20，21，22，22，25，25，25，30，33，33，35，35，36，40，45，46，52，70, 问题：使用按箱平均值平滑方法对上述数据进行平滑，箱的深度为3。

第二个箱子值为：(A)A 18.3B 22.6C 26.8D 27.924. 考虑值集{12 24 33 2 4 55 68 26}，其四分位数极差是：(A)A 31B 24C 55D 325. 一所大学内的各年纪人数分别为：一年级200人，二年级160人，三年级130人，四年级110人。

则年级属性的众数是：(A)A 一年级B二年级 C 三年级 D 四年级26. 下列哪个不是专门用于可视化时间空间数据的技术：(B)A 等高线图B饼图 C 曲面图 D 矢量场图27. 在抽样方法中，当合适的样本容量很难确定时，可以使用的抽样方法是：(D)A 有放回的简单随机抽样B无放回的简单随机抽样C分层抽样D 渐进抽样28. 数据仓库是随着时间变化的,下面的描述不正确的是(C)A. 数据仓库随时间的变化不断增加新的数据内容;B. 捕捉到的新数据会覆盖原来的快照;C. 数据仓库随事件变化不断删去旧的数据内容;D. 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合.29. 关于基本数据的元数据是指: (D)A. 基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B. 基本元数据包括与企业相关的管理方面的数据和信息;C. 基本元数据包括日志文件和简历执行处理的时序调度信息;D. 基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息.30. 下面关于数据粒度的描述不正确的是: (C)A. 粒度是指数据仓库小数据单元的详细程度和级别;B. 数据越详细,粒度就越小,级别也就越高;C. 数据综合度越高,粒度也就越大,级别也就越高;D. 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量.31. 有关数据仓库的开发特点,不正确的描述是: (A)A. 数据仓库开发要从数据出发;B. 数据仓库使用的需求在开发出去就要明确;C. 数据仓库的开发是一个不断循环的过程,是启发式的开发;D. 在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式32. 在有关数据仓库测试,下列说法不正确的是: (D)A. 在完成数据仓库的实施过程中,需要对数据仓库进行各种测试.测试工作中要包括单元测试和系统测试.B. 当数据仓库的每个单独组件完成后,就需要对他们进行单元测试.C. 系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试.D. 在测试之前没必要制定详细的测试计划.33. OLAP技术的核心是: (D)A. 在线性;B. 对用户的快速响应;C. 互操作性.D. 多维分析;34. 关于OLAP的特性,下面正确的是: (D)(1)快速性(2)可分析性(3)多维性(4)信息性(5)共享性A. (1) (2) (3)B. (2) (3) (4)C. (1) (2) (3) (4)D. (1) (2) (3) (4) (5)35. 关于OLAP和OLTP的区别描述,不正确的是: (C)A. OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同.B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.C. OLAP的特点在于事务量大,但事务内容比较简单且重复率高.D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的.36. OLAM技术一般简称为”数据联机分析挖掘”,下面说法正确的是: (D)A. OLAP和OLAM都基于客户机/服务器模式,只有后者有与用户的交互性;B. 由于OLAM的立方体和用于OLAP的立方体有本质的区别.C. 基于WEB的OLAM是WEB技术与OLAM技术的结合.D. OLAM服务器通过用户图形借口接收用户的分析指令,在元数据的知道下,对超级立方体作一定的操作.37. 关于OLAP和OLTP的说法,下列不正确的是: (A)A. OLAP事务量大,但事务内容比较简单且重复率高.B. OLAP的最终数据来源与OLTP不一样.C. OLTP面对的是决策人员和高层管理人员.D. OLTP以应用为核心,是应用驱动的.38. 设X={1，2，3}是频繁项集，则可由X产生__(C)__个关联规则。

A、4B、5C、6D、740. 概念分层图是__(B)__图。

A、无向无环B、有向无环C、有向有环D、无向有环41. 频繁项集、频繁闭项集、最大频繁项集之间的关系是：(C)A、频繁项集频繁闭项集=最大频繁项集B、频繁项集= 频繁闭项集最大频繁项集C、频繁项集频繁闭项集最大频繁项集D、频繁项集= 频繁闭项集= 最大频繁项集42. 考虑下面的频繁3-项集的集合：{1，2，3}，{1，2，4}，{1，2，5}，{1，3，4}，{1，3，5}，{2，3，4}，{2，3，5}，{3，4，5}假定数据集中只有5个项，采用合并策略，由候选产生过程得到4-项集不包含（C）A、1，2，3，4B、1，2，3，5C、1，2，4，5D、1，3，4，543.下面选项中t不是s的子序列的是( C )A、s=<{2,4},{3,5,6},{8}> t=<{2},{3,6},{8}>B、s=<{2,4},{3,5,6},{8}> t=<{2},{8}>C、s=<{1,2},{3,4}> t=<{1},{2}>D、s=<{2,4},{2,4}> t=<{2},{4}>44. 在图集合中发现一组公共子结构，这样的任务称为( B )A、频繁子集挖掘B、频繁子图挖掘C、频繁数据项挖掘D、频繁模式挖掘45. 下列度量不具有反演性的是(D)A、系数B、几率C、Cohen度量D、兴趣因子46. 下列__(A)__不是将主观信息加入到模式发现任务中的方法。

A、与同一时期其他数据对比B、可视化C、基于模板的方法D、主观兴趣度量47. 下面购物篮能够提取的3-项集的最大数量是多少（C）ID 购买项1 牛奶，啤酒，尿布2 面包，黄油，牛奶3 牛奶，尿布，饼干4 面包，黄油，饼干5 啤酒，饼干，尿布6 牛奶，尿布，面包，黄油7 面包，黄油，尿布8 啤酒，尿布9 牛奶，尿布，面包，黄油10 啤酒，饼干A、1B、2C、3D、448. 以下哪些算法是分类算法，A，DBSCAN B，C4.5 C,K-Mean D,EM （B）49. 以下哪些分类方法可以较好地避免样本的不平衡问题，A，KNN B，SVM C，Bayes D，神经网络（A）50. 决策树中不包含一下哪种结点，A,根结点（root node) B,内部结点（internal node）C,外部结点（external node）D,叶结点（leaf node）(C)51. 不纯性度量中Gini计算公式为（其中c是类的个数）(A)A, B, C, D, （A）53. 以下哪项关于决策树的说法是错误的(C)A. 冗余属性不会对决策树的准确率造成不利的影响B. 子树可能在决策树中重复多次C. 决策树算法对于噪声的干扰非常敏感D. 寻找最佳决策树是NP完全问题54. 在基于规则分类器的中，依据规则质量的某种度量对规则排序，保证每一个测试记录都是由覆盖它的“最好的”规格来分类，这种方案称为(B)A. 基于类的排序方案B. 基于规则的排序方案C. 基于度量的排序方案D. 基于规格的排序方案。