大数据仓库与大数据挖掘技术复习资料

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据仓库与数据挖掘技术复习资料

一、单项选择题

1.数据挖掘技术包括三个主要的部分( C )

A.数据、模型、技术 B.算法、技术、领域知识

C.数据、建模能力、算法与技术 D.建模能力、算法与技术、领域知识

2.关于基本数据的元数据是指: ( D )

A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;

B.基本元数据包括与企业相关的管理方面的数据和信息;

C.基本元数据包括日志文件和简历执行处理的时序调度信息;

D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息。

3.关于OLAP和OLTP的说法,下列不正确的是: ( A)

A.OLAP事务量大,但事务内容比较简单且重复率高

B.OLAP的最终数据来源与OLTP不一样

C.OLTP面对的是决策人员和高层管理人员

D.OLTP以应用为核心,是应用驱动的

4.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( C )

A. 频繁模式挖掘

B. 分类和预测

C. 数据预处理

D. 数据流挖掘5.下面哪种不属于数据预处理的方法? ( D )

A.变量代换

B.离散化

C. 聚集

D. 估计遗漏值

6.在ID3 算法中信息增益是指( D )

A.信息的溢出程度

B.信息的增加效益

C.熵增加的程度最大

D.熵减少的程度最大

7.以下哪个算法是基于规则的分类器 ( A )

A. C4.5

B. KNN

C. Bayes

D. ANN

8.以下哪项关于决策树的说法是错误的( C )

A.冗余属性不会对决策树的准确率造成不利的影响

B.子树可能在决策树中重复多次

C.决策树算法对于噪声的干扰非常敏感

D.寻找最佳决策树是NP完全问题

9.假设收入属性的最小与最大分别是10000和90000,现在想把当前值30000映射到区间[0,1],若采用最大-最小数据规范方法,计算结果是( A )

A. 0.25

B. 0.375

C.0.125

D. 0.5

10.在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是:( D )

A.有放回的简单随机抽样

B.无放回的简单随机抽样

C.分层抽样

D.渐进抽样

11.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( B)

A. 分类

B.聚类

C. 关联分析

D. 隐马尔可夫链

12.设X={1,2,3}是频繁项集,则可由X产生( C )个关联规则。

A.4

B.5

C.6

D.7

13.( C )将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。

A.MIN(单链) B.MAX(全链) C.组平均 D.Ward方法

14.只有非零值才重要的二元属性被称作:( C )

A.计数属性

B.离散属性

C.非对称的二元属性

D.对称属性

15.在基本K均值算法里,当邻近度函数采用( A )的时候,合适的质心是簇中各点的中位数。

A.曼哈顿距离

B.平方欧几里德距离

C.余弦距离

D.Bregman散度

16.下面关于数据粒度的描述不正确的是: ( C )

A. 粒度是指数据仓库小数据单元的详细程度和级别

B. 数据越详细,粒度就越小,级别也就越高

C. 数据综合度越高,粒度也就越大,级别也就越高

D. 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量

17.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?( B )

A.聚类

B.关联规则发现

C.分类

D.自然语言处理

18.OLAP技术的核心是: ( D )

A.在线性

B.对用户的快速响应

C. 互操作性

D.多维分析19.下面哪种不属于数据预处理的方法? ( D )

A.变量代换

B.离散化

C. 聚集

D.估计遗漏值

20.假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等深划分时,15在第几个箱子内? ( B )

A.第一个

B.第二个

C.第三个

D.第四个 21. 上题中,等宽划分时(宽度为50),15又在哪个箱子里? ( A )

A.第一个

B.第二个

C.第三个

D.第四个 22. 熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是: ( B )

A.1bit

B.2.6bit

C.3.2bit

D.3.8bit 23. 假设属性income 的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income 的73600元将被转化为:( D )

A.0.821

B.1.224

C.1.458

D.0.716 24. 假定用于分析的数据包含属性age 。数据元组中age 的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:( A )

A. 18.3

B. 22.6

C. 26.8

D.27.9

25.给定两个对象,分别用元组(22,1,42,10)和(20,0,36,8)表示,则这两个对象之间的曼哈坦距离为:( )

A.5

B.11

C.2.92

D.2.24 26. 概念分层图是( B )图。

A.无向无环

B.有向无环

C.有向有环

D.无向有环 27. 假设A 为事件“产品合格”,B 为“机器工作正常”,现给出以下概率:机器工作正常,生产产品合格的概率为P(A|B)=0.95;机器不正常工作时,生产产品合格的概率为)|(B A P =0.1;机器正常工作的概率,即P(B)=0.9。已知生产了一个不合格品,机器不正常工作的概率,即)|(A B P 是( )。 A.0.90 B.0.333 C.0.667 D.0.05

二、填空题

1.数据仓库是面向主题的、( 集成的 )、( 具有特性的 )、稳定的数据集合,用以支持经营管理中的决策制定过程。

2.OLAP 的基本多维分析操作有(聚类 )、切片、切块以及( 旋转 )等。 3.多维数据集通常采用 ( 星型 )或雪花型架构,以( 事实 )为中心,连接多个( 维表 )。

4.空缺值数据的处理方法主要有使用默认值、(属性平均值)、(同类样本平均值)

相关文档
最新文档