数据仓库与数据挖掘考试试题

合集下载

数据仓库与数据挖掘习题

数据仓库与数据挖掘习题数据仓库与数据挖掘习题1.1什么是数据挖掘？在你的回答中，强调以下问题：(a) 它是又一个骗局吗？(b) 它是一种从数据库，统计学和机器学习发展的技术的简单转换吗？(c) 解释数据库技术发展如何导致数据挖掘(d) 当把数据挖掘看作知识发现过程时，描述数据挖掘所涉及的步骤。

1.2 给出一个例子，其中数据挖掘对于一种商务的成功至关重要的。

这种商务需要什么数据挖掘功能？他们能够由数据查询处理或简单的统计分析来实现吗？1.3 假定你是Big-University的软件工程师，任务是设计一个数据挖掘系统，分析学校课程数据库。

该数据库包括如下信息：每个学生的姓名，地址和状态（例如，本科生或研究生），所修课程，以及他们累积的GPA（学分平均）。

描述你要选取的结构。

该结构的每个成分的作用是什么？1.4 数据仓库和数据库有何不同？它们有那些相似之处？1．5简述以下高级数据库系统和应用：面向对象数据库，空间数据库，文本数据库，多媒体数据库和WWW。

1．6 定义以下数据挖掘功能：特征化，区分，关联，分类，预测，聚类和演变分析。

使用你熟悉的现实生活中的数据库，给出每种数据挖掘的例子。

1．7 区分和分类的差别是什么？特征化和聚类的差别是什么？分类和预测呢？对于每一对任务，它们有何相似之处？1．8 根据你的观察，描述一种可能的知识类型，它需要由数据挖掘方法发现，但未在本章中列出。

它需要一种不同于本章列举的数据挖掘技术吗？1. 9 描述关于数据挖掘方法和用户交互问题的三个数据挖掘的挑战。

1. 10 描述关于性能问题的两个数据挖掘的挑战。

2.1 试述对于多个异种信息源的集成，为什么许多公司宁愿使用更新驱动的方法（构造使用数据仓库），而不愿使用查询驱动的方法（使用包装程序和集成程序）。

描述一些情况，其中查询驱动方法比更新驱动方法更受欢迎。

2.2 简略比较以下概念，可以用例子解释你的观点（a）雪花模式、事实星座、星型网查询模型（b）数据清理、数据变换、刷新（c）发现驱动数据立方体、多特征方、虚拟仓库2.3 假定数据仓库包含三个维time，doctor和patient，两个度量count 和charge，其中charge是医生对一位病人的一次诊治的收费。

数据仓库与数据挖掘考试试卷

数据仓库与数据挖掘考试试卷要求：1、在D盘下建立以自己“学号-姓名”命名的文件夹如；2、在要求1中所建立的文件夹下建立以下文件夹：OLAP, ETL, REPORTS一、OLAP设计与应用请建立多维数据集以分析在线销售的数据，要求如下：1、建立分析服务项目，并将项目的所有资料保存在OLAP文件夹中；2、数据源为Adventure Works DW数据库；3、建立的多维数据集名称为Fact Internet Sales；度量值组名为Internet Sales，度量值有Order Quantity, Total Product Cost, Sales Amount, Tax Amt, Freight；5、为事实表增加计算单元a)Gross Profit＝[Sales Amount]-[Total Product Cost]; (销售毛利润)b)Gross Profit Margin＝[Gross Profit]/[Sales Amount]。

（销售毛利润率）6、设置度量值的格式：金额类均为货币型，比率为百分比。

7、为维度表增加以下命名计算：a)为Customer表增加FullName：如果MiddleName不为空，则FullName=FirstName+”“+MiddleName+”“+LastName，否则FullName=FirstName+”“+LastName。

b)为Order Date表增加SimpleDate＝”YY-MM-DD”8、为维度表设置以下层次结构：a)Order Date表：Calendar Year-- Calendar Quarter-- English MonthName—SimpleDateb)Customer表：, EnglishCountryRegionName--,StateProvinceName—City—FullNamec)Product表：ProductLine—Model Name—English Product Name.9、为上述多维数据集建立翻译：语言—中文（中华人民共和国），各字段的翻译根据英文意译。

数据库数据挖掘与分析考试试卷

数据库数据挖掘与分析考试试卷（答案见尾页）一、选择题1. 数据挖掘的主要目的是什么？A. 提取数据库中的数据B. 分析数据库中的数据以发现隐藏的模式和关联C. 存储和管理数据库中的数据D. 传输数据库中的数据2. 在数据挖掘中，以下哪个过程是用来发现数据项之间的有趣关系和关联的？A. 数据清理B. 数据集成C. 数据转换D. 数据挖掘3. 数据挖掘任务通常不包括以下哪项？A.分类B.聚类C.回归D. 数据库优化4. 关联规则学习是数据挖掘中的一个重要技术，它主要关注什么？A. 发现数据集中不同项之间的因果关系B. 发现数据集中频繁出现的模式和关联C. 建立数据模型以预测未来趋势D. 优化数据库查询性能5. 在聚类分析中，以下哪个选项不是常用的距离度量方法？A. 曼哈顿距离B. 欧氏距离C. 切比雪夫距离D. 余弦相似度6. 数据挖掘中经常使用哪种图表来展示聚类结果？A. 条形图B. 饼图C. 网络图D. 散点图7. 在数据挖掘中，以下哪个算法主要用于发现连续数值型数据中的异常值或离群点？A. K-均值算法B. DBSCANC. 谱聚类算法D. 决策树算法8. 数据挖掘中，以下哪个步骤不是数据预处理的一部分？A. 数据清洗B. 数据集成C. 数据转换D. 数据降维9. 在建立数据挖掘模型时，以下哪个步骤不是特征选择的一部分？A. 特征提取B. 特征选择C. 特征验证D. 特征排序10. 数据挖掘中，以下哪个工具不是常用的数据挖掘工具？A. SQLB. ExcelC. PythonD. R二、问答题2. 什么是SQL语言？请列举几种常见的SQL语句。

3. 什么是数据库的完整性约束？请举例说明。

4. 什么是数据库的设计原则？请列举几个常用的设计原则。

5. 什么是数据库的范式？请简要解释第一范式和第二范式。

6. 什么是数据库索引？请简述索引的作用和分类。

7. 什么是数据库的事务处理？请简述事务的定义和特性。

数据仓库与数据挖掘期末试题

广西财经学院2007——2008学年第一学期《数据仓库与数据挖掘》课程期末考试试卷(A)一、名词解释(每题4分，共20分)1、数据仓库数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrate）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策。

2、数据挖掘数据挖掘(Data Mining)，又称为数据库中的知识发现(Knowledge Discovery in Database, KDD)，就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程，简单的说，数据挖掘就是从大量数据中提取或“挖掘”知识。

3、雪花模型雪花模式中某些维表是规范化的，因而把数据进一步分解到附加的表中，模式图形成了类似雪花的形状。

通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。

雪花模型增加了用户必须处理的表数量，增加了某些查询的复杂性，但同时提高了处理的灵活性，可以回答更多的商业问题，特别适合系统的逐步建设要求。

4、OLAPOLAP是联机分析处理，是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。

它支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。

5、决策树决策树是将训练集函数表示成树结构，通过它来近似离散值的目标函数。

这种树结构是一种有向树，它以训练集的一个属性作节点，这个属性所对应的一个值作边。

决策树一般都是自上而下的来生成的。

二、简答题（每题6分，共30分）1、企业面对海量数据，应如何具体实施数据挖掘，使之转换成可行的结果/模型？首先进行数据的预处理，主要进行数据的清洗，数据清洗，处理空缺值，数据的集成，数据的变换和数据规约。

2、请列举您使用过的各种数据仓库工具软件（包括建模工具，ETL工具，前端展现工具，OLAP Server、数据库、数据挖掘工具）和熟悉程度。

数据仓库与数据挖掘试题

09数据仓库与数据挖掘试题(最后)(总3页)--本页仅作为文档封面，使用时请直接删除即可----内页可以根据需求调整合适字体及大小--数据仓库与数据挖掘试题一、什么是数据仓库数据仓库的主要特征有哪些它与传统的关系数据库系统有什么区别二、关系模型和多维模型在数据仓库设计中各有什么优缺点？三、数据仓库上的代数操作有哪些？如何定义的，举例说明。

四、什么是知识发现，知识发现的过程包括那几个步骤五、什么是关联规则如何利用Apriori算法在给定的数据集合上找出关联规则六、什么是分类什么是聚类二者的区别是什么常用的分类和聚类方法有哪些1、数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合，它用于支持企业或组织的决策分析处理。

数据仓库的主要特征: 面向主题的、集成的、时变的、非易失的数据仓库与数据库的区别数据库是面向事务的设计，数据仓库是面向主题设计的。

数据库一般存储在线交易数据，数据仓库存储的一般是历史数据。

数据库设计是尽量避免冗余，一般采用符合范式的规则来设计，数据仓库在设计是有意引入冗余，采用反范式的方式来设计。

数据库是为捕获数据而设计，数据仓库是为分析数据而设计，它的两个基本的元素是维表和事实表。

2、关系模型先建立企业级数据仓库，再在其上开发具体的应用。

企业级数据仓库固然是我们所追求的目标，但在缺乏足够的技术力量和数据仓库建设经验的情况下，按照这种模型设计的系统建设过程长，周期长，难度大，风险大，容易失败。

这种模型的优点是信息全面、系统灵活。

由于采用了第三范式，数据存储冗余度低、数据组织结构性好、反映的业务主题能力强以及具有较好的业务扩展性等，但同时会存在大量的数据表，表之间的联系比较多，也比较复杂，跨表操作多，查询效率较低，对数据仓库系统的硬件性能要求高等问题。

另一方面，数据模式复杂，不容易理解，对于一般计算机用户来说，增加了理解数据表的困难。

多维模型降低了范式化，以分析主题为基本框架来组织数据。

数据仓库与数据挖掘试题

武汉大学计算机学院20XX级研究生“数据仓库和数据挖掘”课程期末考试试题要求：所有的题目的解答均写在答题纸上，需写清楚题目的序号。

每张答题纸都要写上姓名和学号。

一、单项选择题（每小题2分，共20分）1. 下面列出的条目中，（）不是数据仓库的基本特征。

BA.数据仓库是面向主题的B.数据仓库是面向事务的C.数据仓库的数据是相对稳定的D.数据仓库的数据是反映历史变化的2. 数据仓库是随着时间变化的，下面的描述不正确的是（）。

A.数据仓库随时间的变化不断增加新的数据内容B.捕捉到的新数据会覆盖原来的快照C.数据仓库随事件变化不断删去旧的数据内容CD.数据仓库中包含大量的综合数据，这些综合数据会随着时间的变化不断地进行重新综合3. 以下关于数据仓库设计的说法中（）是错误的。

AA.数据仓库项目的需求很难把握，所以不可能从用户的需求出发来进行数据仓库的设计，只能从数据出发进行设计B.在进行数据仓库主题数据模型设计时，应该按面向部门业务应用的方式来设计数据模型C.在进行数据仓库主题数据模型设计时要强调数据的集成性D.在进行数据仓库概念模型设计时，需要设计实体关系图，给出数据表的划分，并给出每个属性的定义域4. 以下关于OLAP的描述中（）是错误的。

AA.一个多维数组可以表示为（维1，维2，…，维n）B.维的一个取值称为该维的一个维成员C.OLAP是联机分析处理D.OLAP是数据仓库进行分析决策的基础5. 多维数据模型中，下列（）模式不属于多维模式。

DA.星型模式B.雪花模式C.星座模式D.网型模式6. 通常频繁项集、频繁闭项集和最大频繁项集之间的关系是（）。

CA.频繁项集⊂频繁闭项集⊂最大频繁项集B.频繁项集⊂最大频繁项集⊂频繁闭项集C.最大频繁项集⊂频繁闭项集⊂频繁项集D.频繁闭项集⊂频繁项集⊂最大频繁项集7. 决策树中不包含（）结点。

CA.根结点B.内部结点C.外部结点D.叶结点8. 下面选项中t不是s的子序列的是（）。

数据仓库与数据挖掘技术-试题答案

数据仓库与数据挖掘技术答案一、简答1.为什么需要对数据进行预处理？数据预处理主要包括哪些工作（需要对数据进行哪些方面预处理）?（1）现实世界的数据是杂乱的，数据多了什么问题会出现。

数据库极易受到噪音数据(包含错误或孤立点）、遗漏数据（有些感兴趣的属性缺少属性值或仅包含聚集数据）和不一致数据（在编码或者命名上存在差异）的侵扰，因为数据库太大，常常多达几G或更多。

进行数据预处理，提高数据质量，从而提高挖掘结果质量。

（2）数据预处理主要包括：数据清理：去除数据中的噪音、纠正不一致；数据集成：将数据由多个源合并成一致的数据存储，如数据仓库或数据方；数据交换：规范化或聚集可以改进涉及距离度量的挖掘算法精度和有效性；数据归约：通过聚集、删除冗余特征或聚类等方法来压缩数据。

数据离散化：属于数据归约的一部分，通过概念分层和数据的离散化来规约数据，对数字型数据特别重要。

2. 什么叫有监督学习？什么叫无监督学习？监督学习（Supervised learning）是通过发现数据属性和类别属性之间的关联模式，并通过利用这些模式来预测未知数据实例的类别属性。

监督学习又称为分类Classification或归纳学习Inductive Learning。

无监督学习（Unsupervised learning）即聚类技术。

在一些应用中，数据的类别属性是缺失的，用户希望通过浏览数据来发现其的某些内在结构。

聚类就是发现这种内在结构的技术。

3.什么是数据仓库的星形模式？它与雪花模式有何不同？雪花模式与星形模式不同在于：雪花模式的维表可能是规范化形式，以便减少冗余。

这种表易于维护，并节省存储空间，因为当维结构作为列包含在内时，大维表可能非常大。

然而，与巨大的事实表相比，这种空间的节省可以忽略。

此外，由于执行查询更多的连接操作，雪花结构可能降低浏览的性能。

这样系统的性能可能受影响。

因此，在数据仓库设计中，雪花模式不如星形模式流行。

二、写出伪代码三答：（1）所有频繁项集为：[E,K,O] [K,M] [K,Y] (2)关联规则:[O]->[E,K] 1.0[E,O] -> [K] 1.0[K,O] -> [E] 1.0[M] -> [K] 1.0[Y] -> [K] 1.0答：a)决策树表示一种树型结构，它由它的分来对该类型对象依靠属性进行分类。

数据仓库与数据挖掘考试试题

数据仓库与数据挖掘考试试题
1. 简答题
a) 数据仓库的定义是什么？
b) 数据挖掘的基本任务有哪些？
c) 数据清洗在数据挖掘中的作用是什么？
2. 选择题
请从以下选项中选择正确答案：
a) 数据仓库的主要特点是：
A. 面向主题
B. 面向过程
C. 面向对象
D. 面向细节
b) 数据挖掘的主要方法包括：
A. 分类
B. 聚类
C. 关联分析
D. 回归分析
c) 数据清洗的过程包括：
A. 数据标准化
B. 数据去重
C. 数据缺失值处理
D. 数据转换
3. 算法题
使用Apriori算法来进行关联规则挖掘，假设有以下购物篮数据集：{牛奶，面包，尿布}
{可乐，面包，尿布}
{牛奶，可乐，尿布}
{牛奶，面包，可乐}
请按照步骤描述如何使用Apriori算法来找出频繁项集和关联规则。

4. 应用题
某电商网站的用户行为数据包括用户ID、商品ID、购买时间等字段，试设计一个数据挖掘任务，根据历史数据预测用户未来可能购买
的商品。

请描述具体的数据处理流程和算法选择，以及如何评估模型
的准确性。

5. 论述题
数据仓库和数据挖掘在实际应用中的价值和意义是什么？结合具体案例或行业来说明，并探讨未来数据仓库和数据挖掘的发展方向。

以上为数据仓库与数据挖掘考试试题的内容，希望您认真针对每个问题进行回答，考试时间为2小时，请自行安排时间和注意事项，祝您考试顺利！。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一、填空题（15分）
1.数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。

2.元数据是描述数据仓库内数据的结构和建立方法的数据。

根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。

3.OLAP技术多维分析过程中，多维分析操作包括切片、切块、钻取、旋转等。

4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“中心和辐射”架构，其中企业级数据仓库是中心，源数据系统和数据集市在输入和输出范围的两端。

5.ODS实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库，也叫运营数据存储。

二、多项选择题（10分）
6.在数据挖掘的分析方法中，直接数据挖掘包括（ＡＣＤ）
A 分类
B 关联
C 估值
D 预言
7.数据仓库的数据ETL过程中，ETL软件的主要功能包括（ＡＢＣ）
A 数据抽取
B 数据转换
C 数据加载
D 数据稽核
8.数据分类的评价准则包括（ ABCD ）
A 精确度
B 查全率和查准率
C F-Measure
D 几何均值
9.层次聚类方法包括（ BC ）
A 划分聚类方法
B 凝聚型层次聚类方法
C 分解型层次聚类方法
D 基于密度聚类方法
10.贝叶斯网络由两部分组成，分别是（ A D ）
A 网络结构
B 先验概率
C 后验概率
D 条件概率表
三、计算题（30分）
11.一个食品连锁店每周的事务记录如下表所示，其中每一条事务表示在一项收款机业务中卖出的项目，假定sup min=40%，conf min=40%，使用Apriori算法计算生成的关联规则，标明每趟数据库扫描时的候选集和大项目集。

（15分）
解：（1）由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C1，计算其支持度，取出支持度小于sup min的项集，形成1-频繁集L1，如下表所示：
(2)组合连接L1中的各项目，产生2-候选集C2，计算其支持度，取出支持度小于sup min的项集，形成2-频繁集L2，如下表所示：
至此，所有频繁集都被找到，算法结束，
所以，confidence（{面包}→{花生酱}）=（4/5）/（3/5）=4/3> conf min
confidence（{ 花生酱}→{面包}）=（3/5）/（4/5）=3/4> conf min
所以，关联规则{面包}→{花生酱}、{ 花生酱}→{面包}均是强关联规则。

12.给定以下数据集（2 ，4，10，12，15，3，21），进行K-Means聚类，设定聚类数为2个，相似度按照欧式距离计算。

（15分）
解：（1）从数据集X中随机地选择k个数据样本作为聚类的出示代表点，每一个代表点表示一个类别，由题可知k=2，则可设m1=2，m2=4：
（2）对于X中的任意数据样本x m（1<x m<total），计算它与k个初始代表点的距离，并且将它划分到距离最近的初始代表点所表示的类别中：当m1=2时，样本（2 ，4，10，12，15，3，21）距离该代表点的距离分别为2，8，10，13，1，19。

当m2=4时，样本（2 ，4，10，12，15，3，21）距离该代表点的距离分别为-2，6，8，11，-1，17。

最小距离是1或者-1将该元素放入m1=2的聚类中，则该聚类为（2，3），另一个聚类m2=4为（4，10，12，15，21）。

（3）完成数据样本的划分之后，对于每一个聚类，计算其中所有数据样本的均值，并且将其作为该聚类的新的代表点，由此得到k个均值代表点：m1=2.5，m2=12：
（4）对于X中的任意数据样本xm（1<xm<total），计算它与k个初始代表点的距离，并且将它划分到距离最近的初始代表点所表示的类别中：当m1=2.5时，样本（2 ，4，10，12，15，3，21）距离该代表点的距离分别为-0.5，0.5，1.5，7.5，9.5，12.5，18.5。

当m2=12时，样本（2 ，4，10，12，15，3，21）距离该代表点的距离分别为-10，-9，-8，2，3，9。

最小距离是1.5将该元素放入m1=2.5的聚类中，则该聚类为（2，3，4），另一个聚类m2=12为（10，12，15，21）。

（5）完成数据样本的划分之后，对于每一个聚类，计算其中所有数据样本的均值，并且将其作为该聚类的
新的代表点，由此得到k个均值代表点：m1=3， m2=14.5：
（6）对于X中的任意数据样本xm（1<xm<total），计算它与k个初始代表点的距离，并且将它划分到距离最近的初始代表点所表示的类别中：当m1=3时，样本（2 ，4，10，12，15，3，21）距离该代表点的距离分别为-1，1，7，9，12，18，。

当m2=14.5时，样本（2 ，4，10，12，15，3，21）距离该代表点的距离分别为-12.58，-11.5，-10.5，-4.5，-2.5，0.5，6.5。

最小距离是0.5将该元素放入m1=3的聚类中，则该聚类为（2，3，4），另一个聚类m2=14.5为（10，12，15，21）。

至此，各个聚类不再发生变化为止，即误差平方和准则函数的值达到最优。

四．设计题（45分）
13.按照题目给定的3个数据文件，任选一个建立数据流图，要求至少包括记录选项、字段选项、图形结点各一个。

任选关联规则Apriori算法、贝叶斯网络、K-Means聚类、决策树C5.0（C4.5）算法、神经网络中的一个进行挖掘，并给出数据流图。

（10分）
14.对以上数据流图中使用的每个结点做一简短说明。

（10分）
选择：age>25.
过滤：过滤后的字段。

Region,tenure,age,marital,churn.
类型：
15.给出以上数据流图中模型的执行结果（生成模型完全展开后的数据），对于执行结果太多的，可节选部分结果。

（10分）
16.对以上模型生成的结果做一简要的分析，包括算法采用的基本原理、数学模型、算法步骤等。

(15分)
答：k-means聚类算法基本原理：将各个聚类子集内的所有数据样本的均值作为该聚类的代表点，算法的主要思想是通过迭代过程把数据划分为不同的类别，使得评价聚集类性能的准则函数达到最优，从而使生成的每个聚集类的紧凑，类间独立。

操作步骤：
输入：数据集,其中的数据样本只包含描述属性，不包含类别属性。

聚类个数K
输出：
（1）从数据集X中随机地选择k个数据样本作为聚类的出示代表点，每一个代表点表示一个类别
（2）对于X中的任意数据样本xm（1<xm<total），计算它与k个初始代表点的距离，并且将它划分到距离最近的初始代表点所表示的类别中
（3）完成数据样本的划分之后，对于每一个聚类，计算其中所有数据样本的均值，并且将其作为该聚类的新的代表点，由此得到k个均值代表点
（4）对于X中的任意数据样本xm（1<xm<total），计算它与k个初始代表点的距离，并且将它划分到距离最近的初始代表点所表示的类别中
（5）重复3.4，直到各个聚类不再发生变化为止。

即误差平方和准则函数的值达到最优。