数据仓库与数据挖掘考试试题

合集下载

数据仓库与数据挖掘考试试卷

数据仓库与数据挖掘考试试卷要求：1、在D盘下建立以自己“学号-姓名”命名的文件夹如；2、在要求1中所建立的文件夹下建立以下文件夹：OLAP, ETL, REPORTS一、OLAP设计与应用请建立多维数据集以分析在线销售的数据，要求如下：1、建立分析服务项目，并将项目的所有资料保存在OLAP文件夹中；2、数据源为Adventure Works DW数据库；3、建立的多维数据集名称为Fact Internet Sales；度量值组名为Internet Sales，度量值有Order Quantity, Total Product Cost, Sales Amount, Tax Amt, Freight；5、为事实表增加计算单元a)Gross Profit＝[Sales Amount]-[Total Product Cost]; (销售毛利润)b)Gross Profit Margin＝[Gross Profit]/[Sales Amount]。

（销售毛利润率）6、设置度量值的格式：金额类均为货币型，比率为百分比。

7、为维度表增加以下命名计算：a)为Customer表增加FullName：如果MiddleName不为空，则FullName=FirstName+”“+MiddleName+”“+LastName，否则FullName=FirstName+”“+LastName。

b)为Order Date表增加SimpleDate＝”YY-MM-DD”8、为维度表设置以下层次结构：a)Order Date表：Calendar Year-- Calendar Quarter-- English MonthName—SimpleDateb)Customer表：, EnglishCountryRegionName--,StateProvinceName—City—FullNamec)Product表：ProductLine—Model Name—English Product Name.9、为上述多维数据集建立翻译：语言—中文（中华人民共和国），各字段的翻译根据英文意译。

数据仓库与数据挖掘习题.doc

数据仓库与数据挖掘习题. .数据仓库与数据挖掘习题1.1什么是数据挖掘？在你的回答中，强调以下问题：(a) 它是又一个骗局吗？(b) 它是一种从数据库，统计学和机器学习发展的技术的简单转换吗？(c) 解释数据库技术发展如何导致数据挖掘(d) 当把数据挖掘看作知识发现过程时，描述数据挖掘所涉及的步骤。

1.2 给出一个例子，其中数据挖掘对于一种商务的成功至关重要的。

这种商务需要什么数据挖掘功能？他们能够由数据查询处理或简单的统计分析来实现吗？1.3 假定你是Big- (a) 它是又一个骗局吗？(b) 它是一种从数据库，统计学和机器学习发展的技术的简单转换吗？(c) 解释数据库技术发展如何导致数据挖掘(d) 当把数据挖掘看作知识发现过程时，描述数据挖掘所涉及的步骤。

1.2 给出一个例子，其中数据挖掘对于一种商务的成功至关重要的。

这种商务需要什么数据挖掘功能？他们能够由数据查询处理或简单的统计分析来实现吗？1.3 假定你是Big：每个学生的姓名，地址和状态（例如，本科生或研究生），所修课程，以及他们累积的GPA（学分平均）。

描述你要选取的结构。

该结构的每个成分的作用是什么？1.4 数据仓库和数据库有何不同？它们有那些相似之处？1．5简述以下高级数据库系统和应用：面向对象数据库，空间数据库，文本数据库，多媒体数据库和WWW。

1．6 定义以下数据挖掘功能：特征化，区分，关联，分类，预测，聚类和演变分析。

使用你熟悉的现实生活中的数据库，给出每种数据挖掘的例子。

1．7 区分和分类的差别是什么？特征化和聚类的差别是什么？分类和预测呢？对于每一对任务，它们有何相似之处？1．8 根据你的观察，描述一种可能的知识类型，它需要由数据挖掘方法发现，但未在本章中列出。

它需要一种不同于本章列举的数据挖掘技术吗？1. 9 描述关于数据挖掘方法和用户交互问题的三个数据挖掘的挑战。

1. 10 描述关于性能问题的两个数据挖掘的挑战。

2.1 试述对于多个异种信息源的集成，为什么许多公司宁愿使用更新驱动的方法（构造使用数据仓库），而不愿使用查询驱动的方法（使用包装程序和集成程序）。

数据库数据挖掘与分析考试试卷

数据库数据挖掘与分析考试试卷（答案见尾页）一、选择题1. 数据挖掘的主要目的是什么？A. 提取数据库中的数据B. 分析数据库中的数据以发现隐藏的模式和关联C. 存储和管理数据库中的数据D. 传输数据库中的数据2. 在数据挖掘中，以下哪个过程是用来发现数据项之间的有趣关系和关联的？A. 数据清理B. 数据集成C. 数据转换D. 数据挖掘3. 数据挖掘任务通常不包括以下哪项？A.分类B.聚类C.回归D. 数据库优化4. 关联规则学习是数据挖掘中的一个重要技术，它主要关注什么？A. 发现数据集中不同项之间的因果关系B. 发现数据集中频繁出现的模式和关联C. 建立数据模型以预测未来趋势D. 优化数据库查询性能5. 在聚类分析中，以下哪个选项不是常用的距离度量方法？A. 曼哈顿距离B. 欧氏距离C. 切比雪夫距离D. 余弦相似度6. 数据挖掘中经常使用哪种图表来展示聚类结果？A. 条形图B. 饼图C. 网络图D. 散点图7. 在数据挖掘中，以下哪个算法主要用于发现连续数值型数据中的异常值或离群点？A. K-均值算法B. DBSCANC. 谱聚类算法D. 决策树算法8. 数据挖掘中，以下哪个步骤不是数据预处理的一部分？A. 数据清洗B. 数据集成C. 数据转换D. 数据降维9. 在建立数据挖掘模型时，以下哪个步骤不是特征选择的一部分？A. 特征提取B. 特征选择C. 特征验证D. 特征排序10. 数据挖掘中，以下哪个工具不是常用的数据挖掘工具？A. SQLB. ExcelC. PythonD. R二、问答题2. 什么是SQL语言？请列举几种常见的SQL语句。

3. 什么是数据库的完整性约束？请举例说明。

4. 什么是数据库的设计原则？请列举几个常用的设计原则。

5. 什么是数据库的范式？请简要解释第一范式和第二范式。

6. 什么是数据库索引？请简述索引的作用和分类。

7. 什么是数据库的事务处理？请简述事务的定义和特性。

数据仓库与数据挖掘试题

武汉大学计算机学院20XX级研究生“数据仓库和数据挖掘”课程期末考试试题要求：所有的题目的解答均写在答题纸上，需写清楚题目的序号。

每张答题纸都要写上姓名和学号。

一、单项选择题（每小题2分，共20分）1. 下面列出的条目中，（）不是数据仓库的基本特征。

BA.数据仓库是面向主题的B.数据仓库是面向事务的C.数据仓库的数据是相对稳定的D.数据仓库的数据是反映历史变化的2. 数据仓库是随着时间变化的，下面的描述不正确的是（）。

A.数据仓库随时间的变化不断增加新的数据内容B.捕捉到的新数据会覆盖原来的快照C.数据仓库随事件变化不断删去旧的数据内容CD.数据仓库中包含大量的综合数据，这些综合数据会随着时间的变化不断地进行重新综合3. 以下关于数据仓库设计的说法中（）是错误的。

AA.数据仓库项目的需求很难把握，所以不可能从用户的需求出发来进行数据仓库的设计，只能从数据出发进行设计B.在进行数据仓库主题数据模型设计时，应该按面向部门业务应用的方式来设计数据模型C.在进行数据仓库主题数据模型设计时要强调数据的集成性D.在进行数据仓库概念模型设计时，需要设计实体关系图，给出数据表的划分，并给出每个属性的定义域4. 以下关于OLAP的描述中（）是错误的。

AA.一个多维数组可以表示为（维1，维2，…，维n）B.维的一个取值称为该维的一个维成员C.OLAP是联机分析处理D.OLAP是数据仓库进行分析决策的基础5. 多维数据模型中，下列（）模式不属于多维模式。

DA.星型模式B.雪花模式C.星座模式D.网型模式6. 通常频繁项集、频繁闭项集和最大频繁项集之间的关系是（）。

CA.频繁项集⊂频繁闭项集⊂最大频繁项集B.频繁项集⊂最大频繁项集⊂频繁闭项集C.最大频繁项集⊂频繁闭项集⊂频繁项集D.频繁闭项集⊂频繁项集⊂最大频繁项集7. 决策树中不包含（）结点。

CA.根结点B.内部结点C.外部结点D.叶结点8. 下面选项中t不是s的子序列的是（）。

《数据仓库与数据挖掘》复习题

2014-2015-1《数据仓库与数据挖掘》期末考试题型一、单项选择题（每小题2分，共20分）二、填空题（每空1分，共20分）三、简答题(每题6分，共30分)四、析题与计算题(共30分)请同学们在考试时不要将复习资料带入考场！！！单选题1. 某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理2. 以下两种描述分别对应哪两种对分类算法的评价标准？(A)(a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。

(b)描述有多少比例的小偷给警察抓了的标准。

A. Precision, RecallB. Recall, PrecisionA. Precision, ROC D. Recall, ROC3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？(C)A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘4. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？(B)A. 分类B. 聚类C. 关联分析D. 隐马尔可夫链5. 什么是KDD？(A)A. 数据挖掘与知识发现B. 领域知识发现C. 文档知识发现D. 动态知识发现6. 使用交互式的和可视化的技术，对数据进行探索属于数据挖掘的哪一类任务？（A）A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则7. 为数据的总体分布建模；把多维空间划分成组等问题属于数据挖掘的哪一类任务？(B)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则8. 建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？(C)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式，属于数据挖掘哪一类任务？(A)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则11.下面哪种不属于数据预处理的方法？(D)A变量代换B离散化 C 聚集 D 估计遗漏值12. 假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。

数据仓库与数据挖掘试题

09数据仓库与数据挖掘试题(最后)(总3页)--本页仅作为文档封面，使用时请直接删除即可----内页可以根据需求调整合适字体及大小--数据仓库与数据挖掘试题一、什么是数据仓库数据仓库的主要特征有哪些它与传统的关系数据库系统有什么区别二、关系模型和多维模型在数据仓库设计中各有什么优缺点？三、数据仓库上的代数操作有哪些？如何定义的，举例说明。

四、什么是知识发现，知识发现的过程包括那几个步骤五、什么是关联规则如何利用Apriori算法在给定的数据集合上找出关联规则六、什么是分类什么是聚类二者的区别是什么常用的分类和聚类方法有哪些1、数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合，它用于支持企业或组织的决策分析处理。

数据仓库的主要特征: 面向主题的、集成的、时变的、非易失的数据仓库与数据库的区别数据库是面向事务的设计，数据仓库是面向主题设计的。

数据库一般存储在线交易数据，数据仓库存储的一般是历史数据。

数据库设计是尽量避免冗余，一般采用符合范式的规则来设计，数据仓库在设计是有意引入冗余，采用反范式的方式来设计。

数据库是为捕获数据而设计，数据仓库是为分析数据而设计，它的两个基本的元素是维表和事实表。

2、关系模型先建立企业级数据仓库，再在其上开发具体的应用。

企业级数据仓库固然是我们所追求的目标，但在缺乏足够的技术力量和数据仓库建设经验的情况下，按照这种模型设计的系统建设过程长，周期长，难度大，风险大，容易失败。

这种模型的优点是信息全面、系统灵活。

由于采用了第三范式，数据存储冗余度低、数据组织结构性好、反映的业务主题能力强以及具有较好的业务扩展性等，但同时会存在大量的数据表，表之间的联系比较多，也比较复杂，跨表操作多，查询效率较低，对数据仓库系统的硬件性能要求高等问题。

另一方面，数据模式复杂，不容易理解，对于一般计算机用户来说，增加了理解数据表的困难。

多维模型降低了范式化，以分析主题为基本框架来组织数据。

数据仓库与数据挖掘期末考试题库

复习内容填空题（每空1分）第1章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。

2、根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。

3、数据处理通常分成两大类：联机事务处理（OLTP）和联机分析处理。

4、多维分析是指对以“维”形式组织起来的数据（多维数据集）采取切片、切块、钻取和旋转等各种分析动作，以求剖析数据，使用户能从不同角度、不同侧面观察数据仓库中的数据，从而深入理解多维数据集中的信息。

5、ROLAP是基于关系数据库的OLAP实现，而MOLAP是基于多维数据结构组织的OLAP实现。

6、数据仓库按照其开发过程，其关键环节包括数据抽取、数据存储与管理和数据表现等。

7、数据仓库系统的体系结构根据应用需求的不同，可以分为以下4种类型：两层架构、独立数据集市、依赖型数据集市和操作型数据存储和逻辑型数据集市和实时数据仓库。

8、操作型数据存储（ODS）实际上是一个集成的、面向主题的、可更新的、当前值的（但是可“挥发”的）、企业级的、详细的数据库，也叫运营数据存储。

P159、“实时数据仓库”意味着源数据系统、决策支持服务和数据仓库之间以一个接近实时的速度交换数据和业务规则。

10、从应用的角度看，数据仓库的发展演变可以归纳为5个阶段：以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。

11、数据挖掘的分析方法可以分为直接数据挖掘和间接数据挖掘两类。

第2章1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。

2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。

因此，我们要求ETL 过程产生的数据（即调和数据层）是详细的、历史的、规范的、可理解的、即时的和质量可控制的。

3、数据抽取的两个常见类型是静态抽取和增量抽取。

静态抽取用于最初填充数据仓库，增量抽取用于进行数据仓库的维护。

4、粒度是对数据仓库中数据的综合程度高低的一个衡量。

数据仓库与数据挖掘技术-试题答案

数据仓库与数据挖掘技术答案一、简答1.为什么需要对数据进行预处理？数据预处理主要包括哪些工作（需要对数据进行哪些方面预处理）?（1）现实世界的数据是杂乱的，数据多了什么问题会出现。

数据库极易受到噪音数据(包含错误或孤立点）、遗漏数据（有些感兴趣的属性缺少属性值或仅包含聚集数据）和不一致数据（在编码或者命名上存在差异）的侵扰，因为数据库太大，常常多达几G或更多。

进行数据预处理，提高数据质量，从而提高挖掘结果质量。

（2）数据预处理主要包括：数据清理：去除数据中的噪音、纠正不一致；数据集成：将数据由多个源合并成一致的数据存储，如数据仓库或数据方；数据交换：规范化或聚集可以改进涉及距离度量的挖掘算法精度和有效性；数据归约：通过聚集、删除冗余特征或聚类等方法来压缩数据。

数据离散化：属于数据归约的一部分，通过概念分层和数据的离散化来规约数据，对数字型数据特别重要。

2. 什么叫有监督学习？什么叫无监督学习？监督学习（Supervised learning）是通过发现数据属性和类别属性之间的关联模式，并通过利用这些模式来预测未知数据实例的类别属性。

监督学习又称为分类Classification或归纳学习Inductive Learning。

无监督学习（Unsupervised learning）即聚类技术。

在一些应用中，数据的类别属性是缺失的，用户希望通过浏览数据来发现其的某些内在结构。

聚类就是发现这种内在结构的技术。

3.什么是数据仓库的星形模式？它与雪花模式有何不同？雪花模式与星形模式不同在于：雪花模式的维表可能是规范化形式，以便减少冗余。

这种表易于维护，并节省存储空间，因为当维结构作为列包含在内时，大维表可能非常大。

然而，与巨大的事实表相比，这种空间的节省可以忽略。

此外，由于执行查询更多的连接操作，雪花结构可能降低浏览的性能。

这样系统的性能可能受影响。

因此，在数据仓库设计中，雪花模式不如星形模式流行。

二、写出伪代码三答：（1）所有频繁项集为：[E,K,O] [K,M] [K,Y] (2)关联规则:[O]->[E,K] 1.0[E,O] -> [K] 1.0[K,O] -> [E] 1.0[M] -> [K] 1.0[Y] -> [K] 1.0答：a)决策树表示一种树型结构，它由它的分来对该类型对象依靠属性进行分类。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一、填空题（15分）
1.数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。

2.元数据是描述数据仓库内数据的结构和建立方法的数据。

根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。

3.OLAP技术多维分析过程中，多维分析操作包括切片、切块、钻取、旋转等。

4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“中心和辐射”架构，其中企业级数据仓库是中心，源数据系统和数据集市在输入和输出范围的两端。

5.ODS实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库，也叫运营数据存储。

二、多项选择题（10分）
6.在数据挖掘的分析方法中，直接数据挖掘包括（ＡＣＤ）
A 分类
B 关联
C 估值
D 预言
7.数据仓库的数据ETL过程中，ETL软件的主要功能包括（ＡＢＣ）
A 数据抽取
B 数据转换
C 数据加载
D 数据稽核
8.数据分类的评价准则包括（ ABCD ）
A 精确度
B 查全率和查准率
C F-Measure
D 几何均值
9.层次聚类方法包括（ BC ）
A 划分聚类方法
B 凝聚型层次聚类方法
C 分解型层次聚类方法
D 基于密度聚类方法
10.贝叶斯网络由两部分组成，分别是（ A D ）
A 网络结构
B 先验概率
C 后验概率
D 条件概率表
三、计算题（30分）
11.一个食品连锁店每周的事务记录如下表所示，其中每一条事务表示在一项收款机业务中卖出的项目，假定sup min=40%，conf min=40%，使用Apriori算法计算生成的关联规则，标明每趟数据库扫描时的候选集和大项目集。

（15分）
解：（1）由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C1，计算其支持度，取出支持度小于sup min的项集，形成1-频繁集L1，如下表所示：
(2)组合连接L1中的各项目，产生2-候选集C2，计算其支持度，取出支持度小于sup min的项集，形成2-频繁集L2，如下表所示：
至此，所有频繁集都被找到，算法结束，
所以，confidence（{面包}→{花生酱}）=（4/5）/（3/5）=4/3> conf min
confidence（{ 花生酱}→{面包}）=（3/5）/（4/5）=3/4> conf min
所以，关联规则{面包}→{花生酱}、{ 花生酱}→{面包}均是强关联规则。

12.给定以下数据集（2 ，4，10，12，15，3，21），进行K-Means聚类，设定聚类数为2个，相似度按照欧式距离计算。

（15分）
解：（1）从数据集X中随机地选择k个数据样本作为聚类的出示代表点，每一个代表点表示一个类别，由题可知k=2，则可设m1=2，m2=4：
（2）对于X中的任意数据样本x m（1<x m<total），计算它与k个初始代表点的距离，并且将它划分到距离最近的初始代表点所表示的类别中：当m1=2时，样本（2 ，4，10，12，15，3，21）距离该代表点的距离分别为2，8，10，13，1，19。

当m2=4时，样本（2 ，4，10，12，15，3，21）距离该代表点的距离分别为-2，6，8，11，-1，17。

最小距离是1或者-1将该元素放入m1=2的聚类中，则该聚类为（2，3），另一个聚类m2=4为（4，10，12，15，21）。

（3）完成数据样本的划分之后，对于每一个聚类，计算其中所有数据样本的均值，并且将其作为该聚类的新的代表点，由此得到k个均值代表点：m1=2.5，m2=12：
（4）对于X中的任意数据样本xm（1<xm<total），计算它与k个初始代表点的距离，并且将它划分到距离最近的初始代表点所表示的类别中：当m1=2.5时，样本（2 ，4，10，12，15，3，21）距离该代表点的距离分别为-0.5，0.5，1.5，7.5，9.5，12.5，18.5。

当m2=12时，样本（2 ，4，10，12，15，3，21）距离该代表点的距离分别为-10，-9，-8，2，3，9。

最小距离是1.5将该元素放入m1=2.5的聚类中，则该聚类为（2，3，4），另一个聚类m2=12为（10，12，15，21）。

（5）完成数据样本的划分之后，对于每一个聚类，计算其中所有数据样本的均值，并且将其作为该聚类的
新的代表点，由此得到k个均值代表点：m1=3， m2=14.5：
（6）对于X中的任意数据样本xm（1<xm<total），计算它与k个初始代表点的距离，并且将它划分到距离最近的初始代表点所表示的类别中：当m1=3时，样本（2 ，4，10，12，15，3，21）距离该代表点的距离分别为-1，1，7，9，12，18，。

当m2=14.5时，样本（2 ，4，10，12，15，3，21）距离该代表点的距离分别为-12.58，-11.5，-10.5，-4.5，-2.5，0.5，6.5。

最小距离是0.5将该元素放入m1=3的聚类中，则该聚类为（2，3，4），另一个聚类m2=14.5为（10，12，15，21）。

至此，各个聚类不再发生变化为止，即误差平方和准则函数的值达到最优。

四．设计题（45分）
13.按照题目给定的3个数据文件，任选一个建立数据流图，要求至少包括记录选项、字段选项、图形结点各一个。

任选关联规则Apriori算法、贝叶斯网络、K-Means聚类、决策树C5.0（C4.5）算法、神经网络中的一个进行挖掘，并给出数据流图。

（10分）
14.对以上数据流图中使用的每个结点做一简短说明。

（10分）
选择：age>25.
过滤：过滤后的字段。

Region,tenure,age,marital,churn.
类型：
15.给出以上数据流图中模型的执行结果（生成模型完全展开后的数据），对于执行结果太多的，可节选部分结果。

（10分）
16.对以上模型生成的结果做一简要的分析，包括算法采用的基本原理、数学模型、算法步骤等。

(15分)
答：k-means聚类算法基本原理：将各个聚类子集内的所有数据样本的均值作为该聚类的代表点，算法的主要思想是通过迭代过程把数据划分为不同的类别，使得评价聚集类性能的准则函数达到最优，从而使生成的每个聚集类的紧凑，类间独立。

操作步骤：
输入：数据集,其中的数据样本只包含描述属性，不包含类别属性。

聚类个数K
输出：
（1）从数据集X中随机地选择k个数据样本作为聚类的出示代表点，每一个代表点表示一个类别
（2）对于X中的任意数据样本xm（1<xm<total），计算它与k个初始代表点的距离，并且将它划分到距离最近的初始代表点所表示的类别中
（3）完成数据样本的划分之后，对于每一个聚类，计算其中所有数据样本的均值，并且将其作为该聚类的新的代表点，由此得到k个均值代表点
（4）对于X中的任意数据样本xm（1<xm<total），计算它与k个初始代表点的距离，并且将它划分到距离最近的初始代表点所表示的类别中
（5）重复3.4，直到各个聚类不再发生变化为止。

即误差平方和准则函数的值达到最优。