数据仓库与数据挖掘考试试卷

合集下载

《数据挖掘教学课件》数据挖掘期末考题（答案）

华南理工大学计算机科学与工程学院2012—2013学年度第二学期期末考试《数据仓库与数据挖掘技术》试卷(假的)专业：计算机科学与技术年级：2010 姓名：学号：注意事项：1. 本试卷共四大题，满分100分，考试时间120分钟；2. 所有答案请直接答在试卷上；题号一二三四总分得分一.填空题（每空1分，共20分）1.数据仓库的特征包括_面向主题________、___集成_________、__时变_________和非易失性。

2.数据仓库的三种数据模式包括_星形模式_、__雪花形模式__________、___事实星座形模式________。

3.仓库数据库服务器、_LOAP服务器________、__前端客户__________为数据仓库的多层结构。

4. OLAP技术多维分析过程中，多维分析操作包括 __上卷___、__下钻____、___切片____、__切块__________、__转轴_________等。

5. 知识发现过程的主要步骤有：数据清理、__数据集成__________、__数据选择___、数据交换、_数据挖掘________、___模式评估_________、__知识表示_______。

6. 数据仓库的视图的分类有:自顶向下视图、_数据源视图________、数据仓库视图、_商务视图_________。

二.简答题(每题6分，共42分)1.简述处理空缺值的方法。

1、忽略该记录2、手工填写空缺值3、使用默认值4、使用属性平均值5、使用同类样本平均值6、使用最可能的值2.挖掘的知识类型。

1、概念/类描述：特征化和区分2、挖掘频繁模式、关联和相关3、分类和预测4、聚类分析5、离群点分析6、演变分析3.何为OLTP与OLAP及他们的主要区别。

联机事务处理OLTP (on-line transaction processing)；联机分析处理OLAP (on-line analytical processing)；OLTP和OLAP的区别：用户和系统的面向性:OLTP面向顾客，而OLAP面向市场；数据内容：OLTP系统管理当前数据，而OLAP管理历史的数据；数据库设计：OLTP系统采用实体-联系（ER)模型和面向应用的数据库设计，而OLAP系统通常采用星形和雪花模型；视图：OLTP系统主要关注一个企业或部门内部的当前数据，而OLAP 系统主要关注汇总的统一的数据；访问模式：OLTP访问主要有短的原子事务组成，而OLAP系统的访问大部分是只读操作，尽管许多可能是复杂的查询。

数据库数据挖掘与分析考试试卷

数据库数据挖掘与分析考试试卷（答案见尾页）一、选择题1. 数据挖掘的主要目的是什么？A. 提取数据库中的数据B. 分析数据库中的数据以发现隐藏的模式和关联C. 存储和管理数据库中的数据D. 传输数据库中的数据2. 在数据挖掘中，以下哪个过程是用来发现数据项之间的有趣关系和关联的？A. 数据清理B. 数据集成C. 数据转换D. 数据挖掘3. 数据挖掘任务通常不包括以下哪项？A.分类B.聚类C.回归D. 数据库优化4. 关联规则学习是数据挖掘中的一个重要技术，它主要关注什么？A. 发现数据集中不同项之间的因果关系B. 发现数据集中频繁出现的模式和关联C. 建立数据模型以预测未来趋势D. 优化数据库查询性能5. 在聚类分析中，以下哪个选项不是常用的距离度量方法？A. 曼哈顿距离B. 欧氏距离C. 切比雪夫距离D. 余弦相似度6. 数据挖掘中经常使用哪种图表来展示聚类结果？A. 条形图B. 饼图C. 网络图D. 散点图7. 在数据挖掘中，以下哪个算法主要用于发现连续数值型数据中的异常值或离群点？A. K-均值算法B. DBSCANC. 谱聚类算法D. 决策树算法8. 数据挖掘中，以下哪个步骤不是数据预处理的一部分？A. 数据清洗B. 数据集成C. 数据转换D. 数据降维9. 在建立数据挖掘模型时，以下哪个步骤不是特征选择的一部分？A. 特征提取B. 特征选择C. 特征验证D. 特征排序10. 数据挖掘中，以下哪个工具不是常用的数据挖掘工具？A. SQLB. ExcelC. PythonD. R二、问答题2. 什么是SQL语言？请列举几种常见的SQL语句。

3. 什么是数据库的完整性约束？请举例说明。

4. 什么是数据库的设计原则？请列举几个常用的设计原则。

5. 什么是数据库的范式？请简要解释第一范式和第二范式。

6. 什么是数据库索引？请简述索引的作用和分类。

7. 什么是数据库的事务处理？请简述事务的定义和特性。

数据仓库与数据挖掘试题

武汉大学计算机学院20XX级研究生“数据仓库和数据挖掘”课程期末考试试题要求：所有的题目的解答均写在答题纸上，需写清楚题目的序号。

每张答题纸都要写上姓名和学号。

一、单项选择题（每小题2分，共20分）1. 下面列出的条目中，（）不是数据仓库的基本特征。

BA.数据仓库是面向主题的B.数据仓库是面向事务的C.数据仓库的数据是相对稳定的D.数据仓库的数据是反映历史变化的2. 数据仓库是随着时间变化的，下面的描述不正确的是（）。

A.数据仓库随时间的变化不断增加新的数据内容B.捕捉到的新数据会覆盖原来的快照C.数据仓库随事件变化不断删去旧的数据内容CD.数据仓库中包含大量的综合数据，这些综合数据会随着时间的变化不断地进行重新综合3. 以下关于数据仓库设计的说法中（）是错误的。

AA.数据仓库项目的需求很难把握，所以不可能从用户的需求出发来进行数据仓库的设计，只能从数据出发进行设计B.在进行数据仓库主题数据模型设计时，应该按面向部门业务应用的方式来设计数据模型C.在进行数据仓库主题数据模型设计时要强调数据的集成性D.在进行数据仓库概念模型设计时，需要设计实体关系图，给出数据表的划分，并给出每个属性的定义域4. 以下关于OLAP的描述中（）是错误的。

AA.一个多维数组可以表示为（维1，维2，…，维n）B.维的一个取值称为该维的一个维成员C.OLAP是联机分析处理D.OLAP是数据仓库进行分析决策的基础5. 多维数据模型中，下列（）模式不属于多维模式。

DA.星型模式B.雪花模式C.星座模式D.网型模式6. 通常频繁项集、频繁闭项集和最大频繁项集之间的关系是（）。

CA.频繁项集⊂频繁闭项集⊂最大频繁项集B.频繁项集⊂最大频繁项集⊂频繁闭项集C.最大频繁项集⊂频繁闭项集⊂频繁项集D.频繁闭项集⊂频繁项集⊂最大频繁项集7. 决策树中不包含（）结点。

CA.根结点B.内部结点C.外部结点D.叶结点8. 下面选项中t不是s的子序列的是（）。

数据仓库与数据挖掘期末试题

广西财经学院2007——2008学年第一学期《数据仓库与数据挖掘》课程期末考试试卷(A)一、名词解释(每题4分，共20分)1、数据仓库数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrate）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策。

2、数据挖掘数据挖掘(Data Mining)，又称为数据库中的知识发现(Knowledge Discovery in Database, KDD)，就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程，简单的说，数据挖掘就是从大量数据中提取或“挖掘”知识。

3、雪花模型雪花模式中某些维表是规范化的，因而把数据进一步分解到附加的表中，模式图形成了类似雪花的形状。

通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。

雪花模型增加了用户必须处理的表数量，增加了某些查询的复杂性，但同时提高了处理的灵活性，可以回答更多的商业问题，特别适合系统的逐步建设要求。

4、OLAPOLAP是联机分析处理，是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。

它支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。

5、决策树决策树是将训练集函数表示成树结构，通过它来近似离散值的目标函数。

这种树结构是一种有向树，它以训练集的一个属性作节点，这个属性所对应的一个值作边。

决策树一般都是自上而下的来生成的。

二、简答题（每题6分，共30分）1、企业面对海量数据，应如何具体实施数据挖掘，使之转换成可行的结果/模型？首先进行数据的预处理，主要进行数据的清洗，数据清洗，处理空缺值，数据的集成，数据的变换和数据规约。

2、请列举您使用过的各种数据仓库工具软件（包括建模工具，ETL工具，前端展现工具，OLAP Server、数据库、数据挖掘工具）和熟悉程度。

数据仓库与数据挖掘试题

09数据仓库与数据挖掘试题(最后)(总3页)--本页仅作为文档封面，使用时请直接删除即可----内页可以根据需求调整合适字体及大小--数据仓库与数据挖掘试题一、什么是数据仓库数据仓库的主要特征有哪些它与传统的关系数据库系统有什么区别二、关系模型和多维模型在数据仓库设计中各有什么优缺点？三、数据仓库上的代数操作有哪些？如何定义的，举例说明。

四、什么是知识发现，知识发现的过程包括那几个步骤五、什么是关联规则如何利用Apriori算法在给定的数据集合上找出关联规则六、什么是分类什么是聚类二者的区别是什么常用的分类和聚类方法有哪些1、数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合，它用于支持企业或组织的决策分析处理。

数据仓库的主要特征: 面向主题的、集成的、时变的、非易失的数据仓库与数据库的区别数据库是面向事务的设计，数据仓库是面向主题设计的。

数据库一般存储在线交易数据，数据仓库存储的一般是历史数据。

数据库设计是尽量避免冗余，一般采用符合范式的规则来设计，数据仓库在设计是有意引入冗余，采用反范式的方式来设计。

数据库是为捕获数据而设计，数据仓库是为分析数据而设计，它的两个基本的元素是维表和事实表。

2、关系模型先建立企业级数据仓库，再在其上开发具体的应用。

企业级数据仓库固然是我们所追求的目标，但在缺乏足够的技术力量和数据仓库建设经验的情况下，按照这种模型设计的系统建设过程长，周期长，难度大，风险大，容易失败。

这种模型的优点是信息全面、系统灵活。

由于采用了第三范式，数据存储冗余度低、数据组织结构性好、反映的业务主题能力强以及具有较好的业务扩展性等，但同时会存在大量的数据表，表之间的联系比较多，也比较复杂，跨表操作多，查询效率较低，对数据仓库系统的硬件性能要求高等问题。

另一方面，数据模式复杂，不容易理解，对于一般计算机用户来说，增加了理解数据表的困难。

多维模型降低了范式化，以分析主题为基本框架来组织数据。

数据仓库与数据挖掘技术-试题答案

数据仓库与数据挖掘技术答案一、简答1.为什么需要对数据进行预处理？数据预处理主要包括哪些工作（需要对数据进行哪些方面预处理）?（1）现实世界的数据是杂乱的，数据多了什么问题会出现。

数据库极易受到噪音数据(包含错误或孤立点）、遗漏数据（有些感兴趣的属性缺少属性值或仅包含聚集数据）和不一致数据（在编码或者命名上存在差异）的侵扰，因为数据库太大，常常多达几G或更多。

进行数据预处理，提高数据质量，从而提高挖掘结果质量。

（2）数据预处理主要包括：数据清理：去除数据中的噪音、纠正不一致；数据集成：将数据由多个源合并成一致的数据存储，如数据仓库或数据方；数据交换：规范化或聚集可以改进涉及距离度量的挖掘算法精度和有效性；数据归约：通过聚集、删除冗余特征或聚类等方法来压缩数据。

数据离散化：属于数据归约的一部分，通过概念分层和数据的离散化来规约数据，对数字型数据特别重要。

2. 什么叫有监督学习？什么叫无监督学习？监督学习（Supervised learning）是通过发现数据属性和类别属性之间的关联模式，并通过利用这些模式来预测未知数据实例的类别属性。

监督学习又称为分类Classification或归纳学习Inductive Learning。

无监督学习（Unsupervised learning）即聚类技术。

在一些应用中，数据的类别属性是缺失的，用户希望通过浏览数据来发现其的某些内在结构。

聚类就是发现这种内在结构的技术。

3.什么是数据仓库的星形模式？它与雪花模式有何不同？雪花模式与星形模式不同在于：雪花模式的维表可能是规范化形式，以便减少冗余。

这种表易于维护，并节省存储空间，因为当维结构作为列包含在内时，大维表可能非常大。

然而，与巨大的事实表相比，这种空间的节省可以忽略。

此外，由于执行查询更多的连接操作，雪花结构可能降低浏览的性能。

这样系统的性能可能受影响。

因此，在数据仓库设计中，雪花模式不如星形模式流行。

二、写出伪代码三答：（1）所有频繁项集为：[E,K,O] [K,M] [K,Y] (2)关联规则:[O]->[E,K] 1.0[E,O] -> [K] 1.0[K,O] -> [E] 1.0[M] -> [K] 1.0[Y] -> [K] 1.0答：a)决策树表示一种树型结构，它由它的分来对该类型对象依靠属性进行分类。

数据仓库与数据挖掘考试试题

数据仓库与数据挖掘考试试题
1. 简答题
a) 数据仓库的定义是什么？
b) 数据挖掘的基本任务有哪些？
c) 数据清洗在数据挖掘中的作用是什么？
2. 选择题
请从以下选项中选择正确答案：
a) 数据仓库的主要特点是：
A. 面向主题
B. 面向过程
C. 面向对象
D. 面向细节
b) 数据挖掘的主要方法包括：
A. 分类
B. 聚类
C. 关联分析
D. 回归分析
c) 数据清洗的过程包括：
A. 数据标准化
B. 数据去重
C. 数据缺失值处理
D. 数据转换
3. 算法题
使用Apriori算法来进行关联规则挖掘，假设有以下购物篮数据集：{牛奶，面包，尿布}
{可乐，面包，尿布}
{牛奶，可乐，尿布}
{牛奶，面包，可乐}
请按照步骤描述如何使用Apriori算法来找出频繁项集和关联规则。

4. 应用题
某电商网站的用户行为数据包括用户ID、商品ID、购买时间等字段，试设计一个数据挖掘任务，根据历史数据预测用户未来可能购买
的商品。

请描述具体的数据处理流程和算法选择，以及如何评估模型
的准确性。

5. 论述题
数据仓库和数据挖掘在实际应用中的价值和意义是什么？结合具体案例或行业来说明，并探讨未来数据仓库和数据挖掘的发展方向。

以上为数据仓库与数据挖掘考试试题的内容，希望您认真针对每个问题进行回答，考试时间为2小时，请自行安排时间和注意事项，祝您考试顺利！。

最新数据仓库和数据挖掘试题(11年)答案--南京理工研究生

数据仓库与数据挖掘I.选择题，为每个问题选择最合适的答案(10×2%＝20%)1.数据仓库上的业务处理称作＿B＿。

A.联机事务处理B.联机分析处理C.联机输入处理D.联机查询处理2.在自然演化体系结构中，关于导致数据缺乏可信性的原因的说法哪个不正确？DA.数据无时基B.抽取程序的算法有差异C.抽取的层次不同D.缺乏集成性3.下面哪项关于OLTP与OLAP访问特点的说法是不正确的。

AA.OLTP和OLAP对于响应时间的要求都高B.OLTP访问频率高，OLAP访问频率低C.OLAP访问大量的历史，执行大量统计操作D.OLTP数据处理具有并发性4.下面关于数据仓库中数据的说法错误的是？A.数据越详细，粒度越小，层次级别就越高。

B.在估计直接存储设备数时，如数据超过1000万行必须强制采取双重粒度级。

C.数据仓库大部分分析是针对被压缩的、存取效率高的轻度级数据进行的。

D.数据分割便于数据的重构、重组和恢复，以提高创建索引和顺序扫描的效率。

5.下面关于数据仓库的数据存储方式的说法哪个是不正确的？FE.虚拟存储方式中，数据仓库的数据仍然在源数据中。

F.星型模式下的维表规范化的，而雪花模式下的不需要规范化G.在查询效率方面，星型模式效率更高H.在事实星座模式中有多个事实表，且它们共享相同的维表6.下面关于星型模型的说法哪个是不正确的？I.有一个包含大量数据的事实表J.有一组小的附属表，称为维表，每维一个。

K.事实表的每个字段都是事实度量字段L.事实中每条元组都含有指向各个维表的外键和一些相应的度量数据。

7.下面关于数据仓库的数据追加的说法哪个是不正确的？CA.时标法需要为记录数据增加一个时间标志。

B.前后映像文件方法需要扫描整个数据库，占用较多资源，对性能有较大影响C.DELTA不需要扫描整个数据库，效率较高，应用普遍D.日志文件法也不需要扫描整个数据库，是固有机制。

8.假设收入属性的最小与最大分别是10000和90000，现在想把当前值30000映射到区间[0,1],若采用最大－最小数据规范方法，计算结果是多少？BA.0.25B.0.375C.0.125D.0.59.下面关于维的概念哪个是不正确的？ CA.维是人们观察数据的特定角度。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据仓库与数据挖掘考试试卷
要求：
1、在D盘下建立以自己“学号-姓名”命名的文件夹如；
2、在要求1中所建立的文件夹下建立以下文件夹：OLAP, ETL, REPORTS
一、OLAP设计与应用
请建立多维数据集以分析在线销售的数据，要求如下：
1、建立分析服务项目，并将项目的所有资料保存在OLAP文件夹中；
2、数据源为Adventure Works DW数据库；
3、建立的多维数据集名称为Fact Internet Sales；度量值组名为Internet Sales，度量值
有Order Quantity, Total Product Cost, Sales Amount, Tax Amt, Freight；
5、为事实表增加计算单元
a)Gross Profit＝[Sales Amount]-[Total Product Cost]; (销售毛利润)
b)Gross Profit Margin＝[Gross Profit]/[Sales Amount]。

（销售毛利润率）
6、设置度量值的格式：金额类均为货币型，比率为百分比。

7、为维度表增加以下命名计算：
a)为Customer表增加FullName：如果MiddleName不为空，则
FullName=FirstName+”“+MiddleName+”“+LastName，否则
FullName=FirstName+”“+LastName。

b)为Order Date表增加SimpleDate＝”YY-MM-DD”
8、为维度表设置以下层次结构：
a)Order Date表：Calendar Year-- Calendar Quarter-- English Month
Name—SimpleDate
b)Customer表：, EnglishCountryRegionName--,
StateProvinceName—City—FullName
c)Product表：ProductLine—Model Name—English Product Name.
9、为上述多维数据集建立翻译：语言—中文（中华人民共和国），各字段的翻译根据
英文意译。

二、数据挖掘设计
根据vTargetMail ，利用Microsoft Naive Bayes算法建立挖掘模型，并利用该模型预测
ProspectiveBuyer表中各潜在客户购买产品的可能性。

要求：该挖掘模型与上道OLAP为同一个项目。

三、报表设计
1、根据一建立的Fact Internet Sales多维数据集，生成各国家（或地区）分年度销售一
览表及直方图，如下图所示：
2、按照国家（或地区）分组输出客户的全名、首次购买时间、教育程度、职业等信息，
并给出每组数据的国家（地区）名字，每组数据结束后统计该组客户的个数。

要求：将报表项目保存至REPORTS文件夹中。

四、ETL设计
对于AdventureWorksDW数据库，输出以下内容至文本文件：法国消费者购买的产品的订单日期、姓氏、产品名称、金额。

要求：将项目文件和最终的目标文本文件均保存至ETL文件夹中。