数据仓库与数据挖掘考试试题(作业试题)

合集下载

【免费下载】数据仓库与数据挖掘复习题

【免费下载】数据仓库与数据挖掘复习题

A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则11.下面哪种不属于数据预处理的方法?(D)A变量代换B离散化 C 聚集 D 估计遗漏值12. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。

等频(等深)划分时,15在第几个箱子内?(B)A 第一个B 第二个C 第三个D 第四个13.上题中,等宽划分时(宽度为50),15又在哪个箱子里?(A)A 第一个B 第二个C 第三个D 第四个14.下面哪个不属于数据的属性类型:(D)A 标称B 序数C 区间D相异15. 在上题中,属于定量的属性类型是:(C)A 标称B 序数C区间 D 相异16. 只有非零值才重要的二元属性被称作:( C )A 计数属性B 离散属性C非对称的二元属性 D 对称属性17. 以下哪种方法不属于特征选择的标准方法:(D)A嵌入 B 过滤 C 包装 D 抽样18.下面不属于创建新属性的相关方法的是:(B)A特征提取B特征修改C映射数据到新的空间D特征构造19. 考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是(C)A 2B 3C 3.5D 520. 下面哪个属于映射数据到新的空间的方法?(A)A 傅立叶变换B特征加权 C 渐进抽样D维归约21. 熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是:(B)A 1比特B 2.6比特C 3.2比特D 3.8比特22. 假设属性income的最大最小值分别是12000元和98000元。

利用最大最小规范化的方法将属性的值映射到0至1的范围内。

对属性income的73600元将被转化为:(D)A 0.821B 1.224C 1.458D 0.71623.假定用于分析的数据包含属性age。

数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。

数据仓库与数据挖掘考试试卷

数据仓库与数据挖掘考试试卷

数据仓库与数据挖掘考试试卷要求:1、在D盘下建立以自己“学号-姓名”命名的文件夹如;2、在要求1中所建立的文件夹下建立以下文件夹:OLAP, ETL, REPORTS一、OLAP设计与应用请建立多维数据集以分析在线销售的数据,要求如下:1、建立分析服务项目,并将项目的所有资料保存在OLAP文件夹中;2、数据源为Adventure Works DW数据库;3、建立的多维数据集名称为Fact Internet Sales;度量值组名为Internet Sales,度量值有Order Quantity, Total Product Cost, Sales Amount, Tax Amt, Freight;5、为事实表增加计算单元a)Gross Profit=[Sales Amount]-[Total Product Cost]; (销售毛利润)b)Gross Profit Margin=[Gross Profit]/[Sales Amount]。

(销售毛利润率)6、设置度量值的格式:金额类均为货币型,比率为百分比。

7、为维度表增加以下命名计算:a)为Customer表增加FullName:如果MiddleName不为空,则FullName=FirstName+”“+MiddleName+”“+LastName,否则FullName=FirstName+”“+LastName。

b)为Order Date表增加SimpleDate=”YY-MM-DD”8、为维度表设置以下层次结构:a)Order Date表:Calendar Year-- Calendar Quarter-- English MonthName—SimpleDateb)Customer表:, EnglishCountryRegionName--,StateProvinceName—City—FullNamec)Product表:ProductLine—Model Name—English Product Name.9、为上述多维数据集建立翻译:语言—中文(中华人民共和国),各字段的翻译根据英文意译。

数据仓库和数据挖掘试题答案南京理工研究生

数据仓库和数据挖掘试题答案南京理工研究生

数据仓库及数据挖掘I.选择题,为每个问题选择最适宜的答案(10×2%=20%)1.数据仓库上的业务处理称作_B_。

A.联机事务处理B.联机分析处理C.联机输入处理D.联机查询处理2.在自然演化体系构造中,关于导致数据缺乏可信性的原因的说法哪个不正确?DA.数据无时基B.抽取程序的算法有差异C.抽取的层次不同D.缺乏集成性3.下面哪项关于OLTP及OLAP访问特点的说法是不正确的。

AA.OLTP和OLAP对于响应时间的要求都高B.OLTP访问频率高,OLAP访问频率低C.OLAP访问大量的历史,执行大量统计操作D.OLTP数据处理具有并发性4.下面关于数据仓库中数据的说法错误的选项是?A.数据越详细,粒度越小,层次级别就越高。

B.在估计直接存储设备数时,如数据超过1000万行必须强制采取双重粒度级。

C.数据仓库大局部分析是针对被压缩的、存取效率高的轻度级数据进展的。

D.数据分割便于数据的重构、重组和恢复,以提高创立索引和顺序扫描的效率。

5.下面关于数据仓库的数据存储方式的说法哪个是不正确的?FE.虚拟存储方式中,数据仓库的数据仍然在源数据中。

F.星型模式下的维表标准化的,而雪花模式下的不需要标准化G.在查询效率方面,星型模式效率更高H.在事实星座模式中有多个事实表,且它们共享一样的维表6.下面关于星型模型的说法哪个是不正确的?I.有一个包含大量数据的事实表J.有一组小的附属表,称为维表,每维一个。

K.事实表的每个字段都是事实度量字段L.事实中每条元组都含有指向各个维表的外键和一些相应的度量数据。

7.下面关于数据仓库的数据追加的说法哪个是不正确的?CA.时标法需要为记录数据增加一个时间标志。

B.前后映像文件方法需要扫描整个数据库,占用较多资源,对性能有较大影响C.DELTA不需要扫描整个数据库,效率较高,应用普遍D.日志文件法也不需要扫描整个数据库,是固有机制。

8.假设收入属性的最小及最大分别是10000和90000,现在想把当前值30000映射到区间[0,1],假设采用最大-最小数据标准方法,计算结果是多少?B9.下面关于维的概念哪个是不正确的? CA.维是人们观察数据的特定角度。

数据仓库与数据挖掘试题

数据仓库与数据挖掘试题

09数据仓库与数据挖掘试题(最后)(总3页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--数据仓库与数据挖掘试题一、什么是数据仓库数据仓库的主要特征有哪些它与传统的关系数据库系统有什么区别二、关系模型和多维模型在数据仓库设计中各有什么优缺点?三、数据仓库上的代数操作有哪些?如何定义的,举例说明。

四、什么是知识发现,知识发现的过程包括那几个步骤五、什么是关联规则如何利用Apriori算法在给定的数据集合上找出关联规则六、什么是分类什么是聚类二者的区别是什么常用的分类和聚类方法有哪些1、数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用于支持企业或组织的决策分析处理。

数据仓库的主要特征: 面向主题的、集成的、时变的、非易失的数据仓库与数据库的区别数据库是面向事务的设计,数据仓库是面向主题设计的。

数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。

数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。

数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。

2、关系模型先建立企业级数据仓库,再在其上开发具体的应用。

企业级数据仓库固然是我们所追求的目标,但在缺乏足够的技术力量和数据仓库建设经验的情况下,按照这种模型设计的系统建设过程长,周期长,难度大,风险大,容易失败。

这种模型的优点是信息全面、系统灵活。

由于采用了第三范式,数据存储冗余度低、数据组织结构性好、反映的业务主题能力强以及具有较好的业务扩展性等,但同时会存在大量的数据表,表之间的联系比较多,也比较复杂,跨表操作多,查询效率较低,对数据仓库系统的硬件性能要求高等问题。

另一方面,数据模式复杂,不容易理解,对于一般计算机用户来说,增加了理解数据表的困难。

多维模型降低了范式化,以分析主题为基本框架来组织数据。

数据仓库与数据挖掘试题

数据仓库与数据挖掘试题

武汉大学计算机学院20XX级研究生“数据仓库和数据挖掘”课程期末考试试题要求:所有的题目的解答均写在答题纸上,需写清楚题目的序号。

每张答题纸都要写上姓名和学号。

一、单项选择题(每小题2分,共20分)1. 下面列出的条目中,()不是数据仓库的基本特征。

BA.数据仓库是面向主题的B.数据仓库是面向事务的C.数据仓库的数据是相对稳定的D.数据仓库的数据是反映历史变化的2. 数据仓库是随着时间变化的,下面的描述不正确的是()。

A.数据仓库随时间的变化不断增加新的数据内容B.捕捉到的新数据会覆盖原来的快照C.数据仓库随事件变化不断删去旧的数据内容CD.数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合3. 以下关于数据仓库设计的说法中()是错误的。

AA.数据仓库项目的需求很难把握,所以不可能从用户的需求出发来进行数据仓库的设计,只能从数据出发进行设计B.在进行数据仓库主题数据模型设计时,应该按面向部门业务应用的方式来设计数据模型C.在进行数据仓库主题数据模型设计时要强调数据的集成性D.在进行数据仓库概念模型设计时,需要设计实体关系图,给出数据表的划分,并给出每个属性的定义域4. 以下关于OLAP的描述中()是错误的。

AA.一个多维数组可以表示为(维1,维2,…,维n)B.维的一个取值称为该维的一个维成员C.OLAP是联机分析处理D.OLAP是数据仓库进行分析决策的基础5. 多维数据模型中,下列()模式不属于多维模式。

DA.星型模式B.雪花模式C.星座模式D.网型模式6. 通常频繁项集、频繁闭项集和最大频繁项集之间的关系是()。

CA.频繁项集⊂频繁闭项集⊂最大频繁项集B.频繁项集⊂最大频繁项集⊂频繁闭项集C.最大频繁项集⊂频繁闭项集⊂频繁项集D.频繁闭项集⊂频繁项集⊂最大频繁项集7. 决策树中不包含()结点。

CA.根结点B.内部结点C.外部结点D.叶结点8. 下面选项中t不是s的子序列的是()。

数据仓库与数据挖掘期末试题 (1)

数据仓库与数据挖掘期末试题 (1)

1、数据仓库数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。

2、数据挖掘:数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。

3、雪花模型:雪花模式中某些维表是规范化的,因而把数据进一步分解到附加的表中,模式图形成了类似雪花的形状。

通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。

雪花模型增加了用户必须处理的表数量,增加了某些查询的复杂性,但同时提高了处理的灵活性,可以回答更多的商业问题,特别适合系统的逐步建设要求。

4、OLAP OLAP是联机分析处理,是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。

它支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

5、决策树:决策树是将训练集函数表示成树结构,通过它来近似离散值的目标函数。

这种树结构是一种有向树,它以训练集的一个属性作节点,这个属性所对应的一个值作边。

决策树一般都是自上而下的来生成的。

1、企业面对海量数据,应如何具体实施数据挖掘,使之转换成可行的结果/模型?首先进行数据的预处理,主要进行数据的清洗,数据清洗,处理空缺值,数据的集成,数据的变换和数据规约。

2、请列举您使用过的各种数据仓库工具软件(包括建模工具,ETL工具,前端展现工具,OLAP Server、数据库、数据挖掘工具)和熟悉程度。

ETL工具:AscentialDataStage ,IBM warehouseMANAGER、Informatica公司的PowerCenter、Cognos 公司的DecisionStream市场上的主流数据仓库存储层软件有:SQL SERVER、SYBASE、ORACLE、DB2、TERADATA但是使用过的只有SQLSERVER和数据挖掘工具Analysis Services,而且不大熟悉。

数据仓库与数据挖掘考试试题

数据仓库与数据挖掘考试试题

数据仓库与数据挖掘考试试题
1. 简答题
a) 数据仓库的定义是什么?
b) 数据挖掘的基本任务有哪些?
c) 数据清洗在数据挖掘中的作用是什么?
2. 选择题
请从以下选项中选择正确答案:
a) 数据仓库的主要特点是:
A. 面向主题
B. 面向过程
C. 面向对象
D. 面向细节
b) 数据挖掘的主要方法包括:
A. 分类
B. 聚类
C. 关联分析
D. 回归分析
c) 数据清洗的过程包括:
A. 数据标准化
B. 数据去重
C. 数据缺失值处理
D. 数据转换
3. 算法题
使用Apriori算法来进行关联规则挖掘,假设有以下购物篮数据集:{牛奶,面包,尿布}
{可乐,面包,尿布}
{牛奶,可乐,尿布}
{牛奶,面包,可乐}
请按照步骤描述如何使用Apriori算法来找出频繁项集和关联规则。

4. 应用题
某电商网站的用户行为数据包括用户ID、商品ID、购买时间等字段,试设计一个数据挖掘任务,根据历史数据预测用户未来可能购买
的商品。

请描述具体的数据处理流程和算法选择,以及如何评估模型
的准确性。

5. 论述题
数据仓库和数据挖掘在实际应用中的价值和意义是什么?结合具体案例或行业来说明,并探讨未来数据仓库和数据挖掘的发展方向。

以上为数据仓库与数据挖掘考试试题的内容,希望您认真针对每个问题进行回答,考试时间为2小时,请自行安排时间和注意事项,祝您考试顺利!。

数据仓库与数据挖掘_北京理工大学中国大学mooc课后章节答案期末考试题库2023年

数据仓库与数据挖掘_北京理工大学中国大学mooc课后章节答案期末考试题库2023年

数据仓库与数据挖掘_北京理工大学中国大学mooc课后章节答案期末考试题库2023年1.假设属性income的最大最小值分别是12000元和98000元。

利用最大最小规范化的方法将属性的值映射到0至1的范围内。

对属性income的73600元将被转化为:()参考答案:0.7162.数据的可视化是将数据以各种图表的形式展现在用户的面前,使用户能观察数据,并在较高的层次上找出数据间可能的关系。

参考答案:正确3.数据挖掘和可视化都是知识提取的方式。

参考答案:正确4.面向应用场景的可视化交互式数据挖掘方法是以数据挖掘算法和模型为主,并不针对具体应用场景或数据类型参考答案:错误5.将原始数据进行集成、变换、维度规约、数值规约是以下哪个步骤的任务?()参考答案:数据预处理6.数据仓库的数据ETL过程中,ETL软件的主要功能包括()参考答案:数据抽取_数据加载_数据转换7.数据挖掘的主要任务是从数据中发现潜在规则,从而能更好的完成描述数据、预测数据的任务。

参考答案:正确8.传统数据仓库包括数据仓库数据库、数据抽取/转换/加载、元数据、访问工具、数据集市、和信息发布系统七个部分组成。

参考答案:数据仓库管理9.关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。

参考答案:错误10.假定你现在训练了一个线性SVM并推断出这个模型出现了欠拟合现象。

在下一次训练时,应该采取下列什么措施?()参考答案:增加特征11.下面哪一项关于CART的说法是错误的()参考答案:CART输出变量只能是离散型。

12.以下哪种方法不是常用的数据约减方法()参考答案:关联规则挖掘13.假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92,204, 215 使用如下每种方法将它们划分成四个箱。

等频(等深)划分时,15在第几个箱子内? ()参考答案:第二个14.下表是一个购物篮,假定支持度阈值为40%,其中()是频繁闭项集。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、 填空题(15分)
1.数据仓库的特点分别是 面向主题 、 集成 、 相对稳定 、反映历史变化。

2.元数据是描述数据仓库内数据的结构和建立方法的数据。

根据元数据用途的不同可将元数据分为 技术 元数据和 业务 元数据两类。

3.OLAP 技术多维分析过程中,多维分析操作包括 切片 、 切块 、 钻取 、 旋转 等。

4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“ 中心和辐射 ”架构,其中 企业级数据仓库 是中心,源数据系统和数据集市在输入和输出范围的两端。

5.ODS 实际上是一个集成的、 面向主题的 、 可更新的 、 当前值的 、 企业级的 、详细的数据库,也叫运营数据存储。

二、 多项选择题(10分)
6.在数据挖掘的分析方法中,直接数据挖掘包括( ACD ) A 分类 B 关联 C 估值 D 预言
7.数据仓库的数据ETL 过程中,ETL 软件的主要功能包括(ABC) A 数据抽取 B 数据转换 C 数据加载 D 数据稽核
8.数据分类的评价准则包括( ABCD )
A 精确度
B 查全率和查准率
C F-Measure
D 几何均值 9.层次聚类方法包括( BC )
A 划分聚类方法
B 凝聚型层次聚类方法
C 分解型层次聚类方法
D 基于密度聚类方法 10.贝叶斯网络由两部分组成,分别是( A D )
A 网络结构
B 先验概率
C 后验概率
D 条件概率表 三、 计算题(30分)
11.一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定sup min =40%,conf min =40%,使用Apriori 算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。

(15分)
事务 项目
事务 项目
T1 T2 T3
面包、果冻、花生酱 面包、花生酱
面包、牛奶、花生酱
T4 T5
啤酒、面包 啤酒、牛奶
解:(1)由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C 1,计算其支持度,取出支
持度小于sup min的项集,形成1-频繁集L1,如下表所示:
项集C1 支持度项集L1支持度
{面包}
{花生酱}
{牛奶} {啤酒}
4/5
3/5
2/5
2/5
{面包}
{花生酱}
{牛奶}
{啤酒}
4/5
3/5
2/5
2/5
(2)组合连接L1中的各项目,产生2-候选集C2,计算其支持度,取出支持度小于sup min的项集,形成2-频繁集L2,如下表所示:
项集C2支持度项集L2支持度
{面包、花生酱} 3/5 {面包、花生酱} 3/5
至此,所有频繁集都被找到,算法结束,
所以,confidence({面包}→{花生酱})=(4/5)/(3/5)=4/3> conf min
confidence({ 花生酱}→{面包})=(3/5)/(4/5)=3/4> conf min
所以,关联规则{面包}→{花生酱}、{ 花生酱}→{面包}均是强关联规则。

12.给定以下数据集(2 ,4,10,12,15,3,21),进行K-Means聚类,设定聚类数为2个,相似度按照欧式距离计算。

(15分)
解:(1)从数据集X中随机地选择k个数据样本作为聚类的出示代表点,每一个代表点表示一个类别,由题可知k=2,则可设m1=2,m2=4:
(2)对于X中的任意数据样本x m(1<x m<total),计算它与k个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m1=2时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为2,8,10,13,1,19。

当m2=4时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-2,6,8,11,-1,17。

最小距离是1或者-1将该元素放入m1=2的聚类中,则该聚类为(2,3),另一个聚类m2=4为(4,10,12,15,21)。

(3)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点:m1=2.5,m2=12:
(4)对于X中的任意数据样本xm(1<xm<total),计算它与k个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m1=2.5时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-0.5,0.5,1.5,7.5,9.5,12.5,18.5。

当m2=12时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-10,-9,-8,2,3,9。

最小距离是1.5将该元素放入m1=2.5的聚类中,则该聚类为(2,3,4),另一个聚类m2=12为(10,12,15,21)。

(5)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点:m1=3, m2=14.5:
(6)对于X中的任意数据样本xm(1<xm<total),计算它与k个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m1=3时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-1,1,7,9,12,18,。

当m2=14.5时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-12.58,-11.5,-10.5,-4.5,-2.5,0.5,6.5。

最小距离是0.5将该元素放入m1=3的聚类中,则该聚类为(2,3,4),另一个聚类m2=14.5为(10,12,15,21)。

至此,各个聚类不再发生变化为止,即误差平方和准则函数的值达到最优。

四.设计题(45分)
13.按照题目给定的3个数据文件,任选一个建立数据流图,要求至少包括记录选项、字段选项、图形结点各一个。

任选关联规则Apriori算法、贝叶斯网络、K-Means聚类、决策树C5.0(C4.5)算法、神经网络中的一个进行挖掘,并给出数据流图。

(10分)
14.对以上数据流图中使用的每个结点做一简短说明。

(10分)
选择:age>25.
过滤:过滤后的字段。

Region,tenure,age,marital,churn.
类型:
15.给出以上数据流图中模型的执行结果(生成模型完全展开后的数据),对于执行结果太多的,可节选部分结果。

(10分)
16.对以上模型生成的结果做一简要的分析,包括算法采用的基本原理、数学模型、算法步骤等。

(15分)
答:k-means聚类算法基本原理:将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据划分为不同的类别,使得评价聚集类性能的准则函数达到最优,从而使生成的每个聚集类的紧凑,类间独立。

操作步骤:
输入:数据集,其中的数据样本只包含描述属性,不包含类别属性。

聚类个数K
输出:
(1)从数据集X中随机地选择k个数据样本作为聚类的出示代表点,每一个代表点表示一个类别
(2)对于X中的任意数据样本xm(1<xm<total),计算它与k个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中
(3)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点
(4)对于X中的任意数据样本xm(1<xm<total),计算它与k个初始代表点的距离,并且将它划分到距离
最近的初始代表点所表示的类别中
(5)重复3.4,直到各个聚类不再发生变化为止。

即误差平方和准则函数的值达到最优。

相关文档
最新文档