数据仓库与数据挖掘技术复习资料

合集下载

数据仓库与数据挖掘技术复习资料

数据仓库与数据挖掘技术复习资料

数据仓库与数据挖掘技术复习资料一、单项选择题1.数据挖掘技术包括三个主要的部分( C )A.数据、模型、技术 B.算法、技术、领域知识C.数据、建模能力、算法与技术 D.建模能力、算法与技术、领域知识2.关于基本数据的元数据是指: ( D )A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B.基本元数据包括与企业相关的管理方面的数据和信息;C.基本元数据包括日志文件和简历执行处理的时序调度信息;D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息。

3.关于OLAP和OLTP的说法,下列不正确的是: ( A)A.OLAP事务量大,但事务内容比较简单且重复率高B.OLAP的最终数据来源与OLTP不一样C.OLTP面对的是决策人员和高层管理人员D.OLTP以应用为核心,是应用驱动的4.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( C )A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘5.下面哪种不属于数据预处理的方法? ( D )A.变量代换B.离散化C. 聚集D. 估计遗漏值6.在ID3 算法中信息增益是指( D )A.信息的溢出程度B.信息的增加效益C.熵增加的程度最大D.熵减少的程度最大7.以下哪个算法是基于规则的分类器 ( A )A. C4.5B. KNNC. BayesD. ANN8.以下哪项关于决策树的说法是错误的( C )A.冗余属性不会对决策树的准确率造成不利的影响B.子树可能在决策树中重复多次C.决策树算法对于噪声的干扰非常敏感D.寻找最佳决策树是NP完全问题9.假设收入属性的最小与最大分别是10000和90000,现在想把当前值30000映射到区间[0,1],若采用最大-最小数据规范方法,计算结果是( A )A. 0.25B. 0.375C.0.125D. 0.510.在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是:( D )A.有放回的简单随机抽样B.无放回的简单随机抽样C.分层抽样D.渐进抽样11.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( B)A. 分类B.聚类C. 关联分析D. 隐马尔可夫链12.设X={1,2,3}是频繁项集,则可由X产生( C )个关联规则。

数据仓库与数据挖掘复习大全

数据仓库与数据挖掘复习大全

数据仓库与数据挖掘复习大全湖北文理学院湖北襄阳王茂林1.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理2. 以下两种描述分别对应哪两种对分类算法的评价标准?(A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。

(b)描述有多少比例的小偷给警察抓了的标准。

A. Precision, RecallB. Recall, PrecisionC. Precision, ROCD. Recall, ROC分类是一种重要的数据挖掘算法。

分类的目的是构造一个分类函数或分类模型(即分类器),通过分类器将数据对象映射到某一个给定的类别中。

分类器的主要评价指标有准确率(Precision)、召回率(Recall)、F b-score、ROC、AOC等。

准确率(Precision) 和召回率(Recall)是信息检索领域两个最基本的指标。

准确率也称为查准率,召回率也称为查全率。

它们的定义如下:Precision=系统检索到的相关文件数量/系统检索到的文件总数量Recall=系统检索到的相关文件数量/系统所有相关文件数量F b-score是准确率和召回率的调和平均:F b=[(1+b2)*P*R]/(b2*P+R),比较常用的是F1。

在信息检索中,准确率和召回率是互相影响的,虽然两者都高是一种期望的理想情况,然而实际中常常是准确率高、召回率就低,或者召回率低、但准确率高。

所以在实际中常常需要根据具体情况做出取舍,例如对一般搜索的情况是在保证召回率的情况下提升准确率,而如果是疾病监测、反垃圾邮件等,则是在保证准确率的条件下,提升召回率。

但有时候,需要兼顾两者,那么就可以用F-score指标。

在信息检索中,准确率和召回率是互相影响的,虽然两者都高是一种期望的理想情况,然而实际中常常是准确率高、召回率就低,或者召回率低、但准确率高。

数据仓库和数据挖掘复习

数据仓库和数据挖掘复习

数据仓库和数据挖掘复习第一章数据仓库和数据挖掘概述一、概念题1、数据仓库的定义是什么?答:数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中央决策制定过程。

2、数据仓库的特点是什么?答:数据仓库的特点是:(1)数据仓库是面向主题的;(2)数据仓库是集成的;(3)数据仓库是稳定的;(4)数据仓库是随时间变化的;(5)数据仓库中的数据量大;(6)数据仓库软硬件要求较高。

3、什么是商业智能?答:商业智能以数据库为基准,通过联机分析处理和数据挖掘技术帮助企业领导者针对市场变化的环境,做出快速、准确的决策。

二、简答题1、数据仓库和数据挖掘的区别和联系。

区别:数据仓库是一种存储技术,它的数据存储量是一般数据库的100倍,它包含大量的历史数据、当前的详细数据以及综合数据。

它能适应于不同用户对不同决策需要提供所需的数据和信息。

数据挖掘是从人工智能机器学习中发展起来的。

它研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。

联系:数据仓库和数据挖掘都是决策支持新技术。

但他们有着完全不同的辅助决策方式。

数据仓库中存储着大量辅助决策的数据,它为不同的用户随时提供各种辅助决策的随机查询、综合信息或趋势分析信息。

数据挖掘是利用一系列算法挖掘数据中隐含的信息和知识,让用户在进行决策中使用。

第二章 数据仓库原理一、概念题1、数据仓库结构图是什么?2、数据集市的定义是什么?答:数据集市是指具有特定应用的数据仓库,主要针对某个具有战略意义的应用或者具体部门级的应用,支持用户利用已有的数据获得重要的竞争优势或者找到进入新市场的具体解决方案,它包括两种,即独立的数据集市,它的数据直接来源于各生产系统;从属数据集市,它的数据直接来自于中央数据仓库。

3、多维数据模型有哪些?答:对于逻辑数据模型,使用的多维数据模型主要有星型模型、雪花模型、星网模型、第三范式等。

4、ETL 过程是什么?答:数据仓库的数据获取需要经过抽取、转换、装载三个过程,即ETL 过程。

数据仓库与数据挖掘期末综合复习

数据仓库与数据挖掘期末综合复习

数据仓库与数据挖掘期末综合复习第一章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。

2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。

3、数据处理通常分成两大类:联机事务处理和联机分析处理。

4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。

5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。

OLAP技术的有关概念:OLAP根据其存储数据的方式可分为三类:ROLAP、MOLAP、HOLAP6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。

7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。

8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。

9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。

10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。

11、什么是数据仓库?数据仓库的特点主要有哪些?数据仓库通常是指一个数据库环境,而不是支一件产品,它是提供用户用于决策支持的当前和历史数据,这些数据在传统的数据库中通常不方便得到。

数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。

数据挖掘与数据仓库复习资料

数据挖掘与数据仓库复习资料

数据挖掘与数据仓库复习资料2010—04—07 16:511数据仓库与数据挖掘的关系大多数数据挖掘工具需要在集成的、一致的、经过清理的数据上进行挖掘.数据挖掘过程中所需要的数据处理与分析工具完全可以在数据仓库的数据处理与数据分析工具中找到,数据仓库中的OLAP完全可以为数据挖掘提供有关的数据操作支持数据挖掘技术在数据仓库中的应用,正好弥补了数据仓库只能提供大量数据,而无法进行深度信息分析的缺陷。

2数据仓库与传统数据库长期共存首先,企业内数据库与数据仓库将长期共存。

其次,数据库是数据仓库的基础。

第三,在技术实现方面,数据库与数据仓库几乎没有差别。

第四,不要脱离企业的实际,盲目地、片面地、甚至是赶时髦地去实施数据仓库.第五,数据仓库在能够为企业带来利益的同时,在支持企业信息决策中也存在一些局限性。

总之,不要过分夸大数据仓库与传统数据库的差异,不要过分夸大数据仓库系统的作用、贬低数据库系统的作用。

数据库与数据仓库将长期共存下去。

3挖掘与信息的关系4弥补传统数据库不足传统数据库的主要任务是进行事务处理,它所关注的是事务处理的及时性、完整性与正确性,而在数据的分析处理方面,则存在着诸多的不足,主要体现在缺乏集成性、主题不明确等几个方面.1.集成性的缺乏首先,业务数据库系统的条块与部门分割,导致数据分布的分散化与无序化.其次,业务数据库缺乏统一的定义与规划,导致数据定义存在歧义。

2.主题不明确3.分析处理效率低5数据仓库的特点和主题特点:数据仓库是面向主题的数据仓库是集成的数据仓库是稳定的数据仓库是随时间变化的数据仓库的数据量很大数据仓库软硬件要求较高6体系结构(三个层次)数据集市结构数据集市结构或称为主题结构的数据仓库是按照主题进行构思所形成的数据仓库,没有一个独立的数据仓库.系统的数据不存储在同一数据仓库中,每个主题有自己的物理存储区。

单一数据仓库结构将所有的主题都集中到一个大型数据库中的体系结构.数据源中数据被按照同一标准抽取到独立的数据仓库中,用户在使用时再根据主题将数据仓库中的数据发布到数据集市中。

数据仓库与数据挖掘复习提纲

数据仓库与数据挖掘复习提纲

数据仓库与数据挖掘复习提纲-标准化文件发布号:(9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII数据库应用技术(数据仓库与数据挖掘复习提纲)说明:考试形式:闭卷考试题型:填空、选择、判断、名词解释、简答题、综合题。

(由于试题是随机从试题库中抽取,有可能抽取的试题中不会全部包含上述的所有题型)另外:本提纲仅针对试题中的名词解释、简答题和综合题提供复习参考,不包括填空、选择、判断等其它题型的参考。

一:名词解释数据仓库、数据挖掘、OLAP、ODS(操作数据存储)二.简答题1.试述数据仓库系统与数据库系统的区别与相似之处。

2.试述数据仓库设计的步骤以及每一步所完成的工作。

3.OLAP与OLTP的区别有哪些?它们适合于运行在同一个服务器上吗为什么4.在数据挖掘前,为什么要对数据进行预处理,数据预处理的有哪些主要的处理方法?5.在现实世界的数据中,元组在某些属性上缺少值是常有的。

描述处理该问题的各种方法。

6.什么是数据仓库中的元数据,元数据包含哪些内容其重要性体现在哪些方面7.试述ODS在“DB-ODS-DW”体系结构中的作用。

8.请解释OLAP中维、维层次与维成员的概念,并举例说明。

9. 数据仓库中的数据是数据库中数据的简单堆积吗它有哪些常用的数据组织方式10.数据仓库和数据集市的区别是什么数据仓库的体系环境具有什么特点有哪些建立数据仓库体系化环境的方法它们各有何优劣11.数据仓库的设计包括哪些内容?12.在内容和使用者方面,数据仓库环境中的元数据与操作型环境中的元数据有何异同?13.为了提高数据仓库的性能,可以在哪些方面作一些努力在各个方面分别采用什么样的技术这些技术易于实现吗14.OLAP提供哪些基本操作?15.OLAP服务器有哪些实现方法它们的优劣是什么16.为什么不能依靠传统的业务处理系统进行决策分析17.自然演化体系结构中存在的问题?18.试述建立多维数据库的过程。

19.数据挖掘的主要方法。

数据仓库与数据挖掘 阶段考试复习题

数据仓库与数据挖掘 阶段考试复习题

第一章数据仓库与数据挖掘概述无习题第二章数据仓库概述一.判断题在分析型处理产生后,数据处理的环境由原来的以单一数据库为中心的数据环境发展为以数据仓库为基础的体系化环境。

在事务型(操作型)数据处理下,数据处理的环境主要是以单一数据库为中心的数据环境。

数据仓库是为构建分析型数据处理环境而出现的一种数据存储和组织技术.面向应用,是数据仓库区别于传统的操作型数据库的关键特征。

一个数据仓库是通过集成多个异种数据源来构造的。

由于在数据仓库中只进行数据的初始装载和查询操作,所以,数据一旦进入数据仓库,就是稳定的,基本上不会被更新。

数据立方体必须是3维的。

在数据仓库中,概念分层定义了一个映射序列,可以将低层概念映射到更一般的高层概念。

方体的格,是在单个维上定义的映射序列,可以将低层概念映射到更一般的高层概念。

雪花模型通过在每个维表基础上,增加附加维表的方式来降低星型模型中可能会存在的冗余现象。

在事实星座模型中,有且仅能有一个事实表。

在数据仓库的设计过程中,要坚持“数据驱动和需求驱动双驱动,且以需求驱动为中心”的原则。

二.单选题在以下人员中,被誉为“数据仓库之父”的是:()(知识点:数据仓库的基本概念;易)A. H.Inmon B. E.F.Codd C. Simon D. Pawlak以下关于数据仓库的说法正确的是:()(知识点:数据仓库的基本概念;难)A. 数据仓库中的数据只能来源于组织内部的操作型数据库B. 数据仓库是为应对事务型数据处理的需要而产生的C. 数据仓库是面向主题的,这是其区别于操作型数据库的关键特征D. 数据仓库必须是面向企业全局的,不能以部门为单位建立数据仓库以下哪项不是“信息包图”中的元素?()(知识点:数据仓库的三级模型;难)A. 维度B. 维的概念层次及相应层次上的数量C. 度量D. 方体的格以下哪项不属于数据仓库的逻辑模型?()(知识点:数据仓库的三级模型;中)A. 星型模型B. 雪花模型C. 度量模型D. 事实星座模型在数据仓库的设计过程中,下列描述正确的是()(知识点:数据仓库的设计;难)A. 数据仓库是“数据驱动+需求驱动”双驱动,但必须以需求驱动为中心B. 数据仓库主要面向分析型处理环境,在设计时很难完全明确用户的需求C. 数据仓库与数据库一样,其数据主要来自于企业的业务流程D. 数据仓库的设计目标是要提高事务处理的性能下面哪项关于星型模型的说法是不正确的:()(知识点:数据仓库的三级模型;难)A. 有一个事实表,且事实表中的属性由指向各个维表的外键和一些相应的度量数据组成B. 有一组小的附属表,称为维表,且每维一个维表C. 事实表的每个字段都是事实度量字段D. 由于每维只能建立一个维表,使得维表中有些信息会产生冗余在数据仓库的概念模型中,通过()来实现数据从客观世界到主观认识的映射。

数据仓库与数据挖掘复习资料

数据仓库与数据挖掘复习资料

1.数据仓库的概念和特点p11定义:一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员作出决策。

特性:面向主题的、集成的、非易失的、随时间不断变化的。

1、面向主题的:数据仓库以一个奇特或组织机构中固有的业务主题作为处理的主体,是从整体的、全局的角度来衡量这些主题在企业中的作用。

2、集成的:数据仓库必须将不一致的数据进行有效的集成,使之在数据仓库中有一致性的表示形式。

一致性问题只是集成所包含的一部分工作,另外还需要根据主题进行有效的数据组织。

3、非易失性:一旦操作型数据进入数据仓库,只要数据未超过数据仓库的数据存储期限,通常不对数据进行更新操作,而只进行查询操作。

即不进行一般意义上的更新,而且与操作型数据相比,更新频率要低得多,对时间的要求更为宽松。

4、随时间不断变化的(数据因时而变的特点)《与操作型数据比较的,书上14页》:(1)数据仓库中的数据的时间期限要远远长于操作型环境中的数据的时间期限。

操作型环境一般60-90天,数据仓库5-10年。

一个数据仓库的大小一般都是在100GB以上通常,数据仓库系统应该包含下列程序:(1)抽取数据与加载数据(2)整理并转换数据(采用一种数据仓库适用的数据格式)(3)备份与备存数据(4)管理所有查询(即将查询导向适当的数据源)数据仓库中的数据只是一系列某一时刻所生成的数据的复杂快照。

数据仓库的键码结构总是包含某时间元素。

2.数据仓库中的关键概念14外部数据源:就是从系统外部获取的同分析主题相关的数据。

数据抽取:是数据仓库按分析的主题从业务数据库抽取相关数据的过程。

现有的数据仓库产品几乎都提供关系型数据接口,提供抽取引擎以从关系型数据中抽取数据。

数据清洗:从多个业务系统中获取数据时,必须进行必要的数据清洗,从而得到准确的数据。

所谓“清洗”是指在放入数据仓库之前将错误的、不一致的数据予以更正或删除,以免影响DSS决策的正确性。

(15页有例子)数据转换:各种数据库产品所提供的数据类型可能不同,需要将不同格式的数据转换成统一的数据格式,称为数据转换。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据仓库与数据挖掘技术复习资料一、单项选择题1.数据挖掘技术包括三个主要的部分( C )A.数据、模型、技术 B.算法、技术、领域知识C.数据、建模能力、算法与技术 D.建模能力、算法与技术、领域知识2.关于基本数据的元数据是指: ( D )A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B.基本元数据包括与企业相关的管理方面的数据和信息;C.基本元数据包括日志文件和简历执行处理的时序调度信息;D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息。

3.关于OLAP和OLTP的说法,下列不正确的是: ( A)A.OLAP事务量大,但事务内容比较简单且重复率高B.OLAP的最终数据来源与OLTP不一样C.OLTP面对的是决策人员和高层管理人员D.OLTP以应用为核心,是应用驱动的4.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( C )A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘5.下面哪种不属于数据预处理的方法? ( D )A.变量代换B.离散化C. 聚集D. 估计遗漏值6.在ID3 算法中信息增益是指( D )A.信息的溢出程度B.信息的增加效益C.熵增加的程度最大D.熵减少的程度最大7.以下哪个算法是基于规则的分类器 ( A )A. C4.5B. KNNC. BayesD. ANN8.以下哪项关于决策树的说法是错误的( C )A.冗余属性不会对决策树的准确率造成不利的影响B.子树可能在决策树中重复多次C.决策树算法对于噪声的干扰非常敏感D.寻找最佳决策树是NP完全问题9.假设收入属性的最小与最大分别是10000和90000,现在想把当前值30000映射到区间[0,1],若采用最大-最小数据规范方法,计算结果是( A )A. 0.25B. 0.375 D. 0.510.在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: ( D )A.有放回的简单随机抽样B.无放回的简单随机抽样C.分层抽样D.渐进抽样11.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( B)A. 分类B.聚类C. 关联分析D. 隐马尔可夫链12.设X={1,2,3}是频繁项集,则可由X产生( C )个关联规则。

A.4B.5C.6D.713.( C )将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。

A.MIN(单链) B.MAX(全链) C.组平均 D.Ward方法14.只有非零值才重要的二元属性被称作:( C )A.计数属性B.离散属性C.非对称的二元属性D.对称属性15.在基本K均值算法里,当邻近度函数采用( A )的时候,合适的质心是簇中各点的中位数。

A.曼哈顿距离B.平方欧几里德距离C.余弦距离D.Bregman散度16.下面关于数据粒度的描述不正确的是: ( C )A. 粒度是指数据仓库小数据单元的详细程度和级别B. 数据越详细,粒度就越小,级别也就越高C. 数据综合度越高,粒度也就越大,级别也就越高D. 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量17.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?( B )A.聚类B.关联规则发现C.分类D.自然语言处理18.OLAP技术的核心是: ( D )A.在线性B.对用户的快速响应C. 互操作性D.多维分析19.下面哪种不属于数据预处理的方法? ( D )A.变量代换B.离散化C. 聚集D.估计遗漏值20.假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。

等深划分时,15在第几个箱子内? ( B )A.第一个B.第二个C.第三个D.第四个21.上题中,等宽划分时(宽度为50),15又在哪个箱子里? ( A )A.第一个B.第二个C.第三个D.第四个22.熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是: ( B )23.假设属性income的最大最小值分别是12000元和98000元。

利用最大最小规范化的方法将属性的值映射到0至1的范围内。

对属性income的73600元将被转化为:( D )A.0.821B.1.224C.1.458D.0.71624.假定用于分析的数据包含属性age。

数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。

第二个箱子值为:( A )A. 18.3B. 22.6C. 26.8D.27.925.给定两个对象,分别用元组(22,1,42,10)和(20,0,36,8)表示,则这两个对象之间的曼哈坦距离为:()26.概念分层图是( B )图。

A.无向无环B.有向无环C.有向有环D.无向有环27.假设A为事件“产品合格”,B为“机器工作正常”,现给出以下概率:机器工作正常,生产产品合格的概率为P(A|B)=0.95;机器不正常工作时,生产产品合格的概率为)P=0.1;机器正A(B|常工作的概率,即P(B)=0.9。

已知生产了一个不合格品,机器不正常工作的概率,即)P是B(A|()。

A.0.90B.0.333C.0.667D.0.05二、填空题1.数据仓库是面向主题的、(集成的)、(具有特性的)、稳定的数据集合,用以支持经营管理中的决策制定过程。

2.OLAP的基本多维分析操作有(聚类)、切片、切块以及(旋转)等。

3.多维数据集通常采用(星型)或雪花型架构,以(事实)为中心,连接多个(维表)。

4.空缺值数据的处理方法主要有使用默认值、(属性平均值)、(同类样本平均值)和预测最可能的值等。

5.平均互信息等于(信息)熵减(条件)熵,表示不确定性的消除。

6.神经网络的学习方式有3种:(监督学习)、(非监督学习)和再励学习(强化学习)。

7.聚类分析的数据通常可分为区间标度变量、二元变量、(标称变量)、(比例标度变量)、序数型以及混合类型等。

8.数据立方体是数据的多维建模和表示,由维和事实组成。

维就是涉及的(属性)、而事实是一个具体的(数据)。

9.数据预处理的主要内容(方法)包括(数据清洗)、(数据变换)、(数据集成)和数据归约等。

10.关联规则的经典算法包括( Apriori)算法和(FP_Growth)算法,其中( FP_Growth )算法的效率更高。

11.非线性回归的模型有:直接换元法、(间接代换法)和(非线性型)三种。

12.人工神经网络的特点和优势主要表现在具有(自学习)功能、具有(联系存储)功能和具有高速寻找优化解的能力三个方面。

13.ID3算法只能对描述属性为(离散)型属性的数据集构造决策树。

14.按照对应的数据类型,Web挖掘可分为内容挖掘、()和()。

15.BP神经网络由(输入)、(输出)以及一或多个隐含结点组成。

三、判断题1. 数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。

( 对 )2. 模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。

(错)3.数据仓库中间层OLAP服务器只能采用关系型OLAP。

(错)4. 特征提取技术并不依赖于特定的领域。

(错)5.定量属性可以是整数值或者是连续值。

(对)6. Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息。

(错)7.贝叶斯法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。

( 错)8. 给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优。

(错)。

9. 如果规则不满足置信度阈值,则形成的规则一定也不满足置信度阈值,其中是X的子集。

(对)10.分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。

( 对)11.如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。

(对)12. K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。

(错)13. 数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。

( 对 )14.离散属性总是具有有限个值。

(错)15. 用于分类的离散化方法之间的根本区别在于是否使用类信息。

(对)16. 特征提取技术并不依赖于特定的领域。

(错)17.定量属性可以是整数值或者是连续值。

(对)18. Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息。

(错)19. 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。

(错)20. 利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。

(对)21. 具有较高的支持度的项集具有较高的置信度。

(错)22. 聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。

(错)23. 分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。

( 对)四、简答题1.设某事务项集构成如表1所示,填空完成粗体字部分支持度和置信度的计算,保留1位小数。

表12.表2解:Jaccard 系数公式可描述为非对称二元相异度=取值不同的同位属性数/(单个元素的属性位数-同取0的位数)。

sr q sr j i d +++=),(,其中r 表示对象i 取值为1,对象j 取值为0;s 表示对象i 取0值,对象j 取1值,q 表示对象i 和j 同取1值。

3.给定两个对象,分别用元组(22,1,42,10)和(20,0,36,8)表示 (a)计算两个对象之间的欧几里德的距离; (b)计算两个对象之间的曼哈坦距离; (c)计算两个对象间的明考斯基距离,q =3。

解:(a )欧几里德距离:5)108()4236()10()2220(),(2222=-+-+-+-=j i d ;(b )曼哈坦距离:111084236102220),(=-+-+-+-=j i d ;(c )明考斯基距离,q=3。

327.41084236102220),(33333=-+-+-+-=j i d 。

五、分析题1. 已知某事务数据库如表3所示,请采用FP-Growth 算法绘制出FP-tree ,要求画出绘制过程。

相关文档
最新文档