大数据仓库与大数据挖掘技术复习资料

合集下载

12《数据仓库与数据挖掘》复习题

《数据仓库与数据挖掘》复习大纲三、简答题（5×6分=30分）四、分析计算题（3×10分=30分）考试范围：第一讲数据挖掘概述考点：1、数据挖掘、知识发现（KDD）基本概念；2、数据挖掘的过程；3、数据挖掘过技术的三个主要部分。

复习参考题：一、填空题（1）数据库中的知识挖掘(KDD)包括以下七个步骤：数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示。

（2）数据挖掘的性能问题主要包括：算法的效率、可扩展性和并行处理。

（3）当前的数据挖掘研究中，最主要的三个研究方向是：统计学、数据库技术和机器学习。

（4）在万维网(WWW)上应用的数据挖掘技术常被称为：WEB挖掘。

（5）孤立点是指：一些与数据的一般行为或模型不一致的孤立数据。

二、单选题（1）数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于：BA、所涉及的算法的复杂性；B、所涉及的数据量；C、计算结果的表现形式；D、是否使用了人工智能技术（2）孤立点挖掘适用于下列哪种场合？DA、目标市场分析B、购物篮分析C、模式识别D、信用卡欺诈检测（3）下列几种数据挖掘功能中，（ D ）被广泛的应用于股票价格走势分析。

A. 关联分析B.分类和预测C.聚类分析D. 演变分析（4）下面的数据挖掘的任务中，（ B ）将决定所使用的数据挖掘功能。

A、选择任务相关的数据B、选择要挖掘的知识类型C、模式的兴趣度度量D、模式的可视化表示（5）下列几种数据挖掘功能中，（A ）被广泛的用于购物篮分析。

A、关联分析B、分类和预测C、聚类分析D、演变分析（6）根据顾客的收入和职业情况，预测他们在计算机设备上的花费，所使用的相应数据挖掘功能是（ B）。

A.关联分析B.分类和预测C. 演变分析D. 概念描述（7）帮助市场分析人员从客户的基本信息库中发现不同的客户群，通常所使用的数据挖掘功能是（ C ）。

A.关联分析B.分类和预测C.聚类分析D. 孤立点分析E. 演变分析（8）假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述，通常所使用的数据挖掘功能是（ E ）A.关联分析B.分类和预测C. 孤立点分析D. 演变分析E. 概念描述三、简答题1、何谓数据挖掘？它有哪些方面的功能？答：从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。

数据仓库与数据挖掘期末综合复习

数据仓库与数据挖掘期末综合复习第一章１、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。

2、元数据是描述数据仓库内数据的结构和建立方法的数据，它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。

3、数据处理通常分成两大类：联机事务处理和联机分析处理。

４、多维分析是指以“维”形式组织起来的数据（多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据，使拥护能从不同角度、不同侧面观察数据仓库中的数据，从而深入理解多维数据集中的信息。

5、ROLAP是基于关系数据库的OＬAP实现，而ＭOLAP是基于多维数据结构组织的OLAP实现。

OLAP技术的有关概念：ＯLＡP根据其存储数据的方式可分为三类：RＯLＡP、MOLAP、HOLAＰ6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。

7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下４种类型：两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。

8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的（但是可“挥发”的）、企业级的、详细的数据库，也叫运营数据存储。

9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。

１0、从应用的角度看，数据仓库的发展演变可以归纳为５个阶段：以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。

1１、什么是数据仓库?数据仓库的特点主要有哪些？数据仓库通常是指一个数据库环境，而不是支一件产品,它是提供用户用于决策支持的当前和历史数据，这些数据在传统的数据库中通常不方便得到。

数据仓库就是一个面向主题的(Subｊect Oｒienｔed）、集成的(Integｒate）、相对稳定的(Non-Vｏｌatile)、反映历史变化(Ｔime Varianｔ）的数据集合，通常用于辅助决策支持。

数据挖掘考试复习资料

数据挖掘考试复习资料一、名词解释1、数据仓库：面向主题的、集成的、非易失的、是随时间变化的数据集合，用来支持管理决策.2、聚类：将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类3、数据挖掘：从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识4、人工神经网络：人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。

在工程与学术界也常直接简称为神经网络或类神经网络.5、文本挖掘：文本数据挖掘（Text Mining）是指从文本数据中抽取有价值的信息和知识的计算机处理技术6、OLAP：又称联机分析处理，是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业为特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。

定义1：OLAP是针对特定问题的联机数据访问和分析。

通过对信息（维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取，允许管理决策人员对数据进行深入地观察。

定义2：OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业“维”特性的信息进行快速、一致、交互地存取，从而获得对数据的更深入了解的一类软件技术。

)7、概念描述：就是对目标类对象的内涵进行描述,并概括这类对象的有关特征.特征化：提供给定数据汇集的简洁汇总比较：提供两个或多个数据汇集的比较描述8、信息熵：在信息论中，熵被用来衡量一个随机变量出现的期望值.它代表了在被接收之前，信号传输过程中损失的信息量，又被称为信息熵。

信息熵也称信源熵、平均自信息量。

二、简答题1、数据仓库和传统数据库的区别和联系是什么?（1）区别:数据仓库和数据库是不同的概念数据仓库是一个综合的解决方案，而数据库只是一个现成的产品。

数据仓库需要一个功能十分强大的数据库引擎来驱动，它更偏向于工程。

数据挖掘与数据仓库复习资料

数据挖掘与数据仓库复习资料2010—04—07 16:511数据仓库与数据挖掘的关系大多数数据挖掘工具需要在集成的、一致的、经过清理的数据上进行挖掘.数据挖掘过程中所需要的数据处理与分析工具完全可以在数据仓库的数据处理与数据分析工具中找到，数据仓库中的OLAP完全可以为数据挖掘提供有关的数据操作支持数据挖掘技术在数据仓库中的应用，正好弥补了数据仓库只能提供大量数据，而无法进行深度信息分析的缺陷。

2数据仓库与传统数据库长期共存首先,企业内数据库与数据仓库将长期共存。

其次，数据库是数据仓库的基础。

第三，在技术实现方面，数据库与数据仓库几乎没有差别。

第四，不要脱离企业的实际,盲目地、片面地、甚至是赶时髦地去实施数据仓库.第五，数据仓库在能够为企业带来利益的同时，在支持企业信息决策中也存在一些局限性。

总之，不要过分夸大数据仓库与传统数据库的差异，不要过分夸大数据仓库系统的作用、贬低数据库系统的作用。

数据库与数据仓库将长期共存下去。

3挖掘与信息的关系4弥补传统数据库不足传统数据库的主要任务是进行事务处理，它所关注的是事务处理的及时性、完整性与正确性，而在数据的分析处理方面,则存在着诸多的不足,主要体现在缺乏集成性、主题不明确等几个方面.1．集成性的缺乏首先，业务数据库系统的条块与部门分割，导致数据分布的分散化与无序化.其次，业务数据库缺乏统一的定义与规划,导致数据定义存在歧义。

2．主题不明确3．分析处理效率低5数据仓库的特点和主题特点：数据仓库是面向主题的数据仓库是集成的数据仓库是稳定的数据仓库是随时间变化的数据仓库的数据量很大数据仓库软硬件要求较高6体系结构（三个层次）数据集市结构数据集市结构或称为主题结构的数据仓库是按照主题进行构思所形成的数据仓库，没有一个独立的数据仓库.系统的数据不存储在同一数据仓库中，每个主题有自己的物理存储区。

单一数据仓库结构将所有的主题都集中到一个大型数据库中的体系结构.数据源中数据被按照同一标准抽取到独立的数据仓库中，用户在使用时再根据主题将数据仓库中的数据发布到数据集市中。

2011121数据仓库与数据挖掘技术复习题纲_显示

数据仓库与数据挖掘技术期末复习纲要2011－2012（1）一、掌握以下基本概念：1．数据挖掘：就是从存放在数据库，数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。

数据挖掘(Data Mining)，又称为数据库中的知识发现(Knowledge Discovery in Database, KDD)，就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程，简单的说，数据挖掘就是从大量数据中提取或“挖掘”知识。

2．数据仓库：英文名称：Data W arehouse，可简写为DW或DWH。

定义：数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。

数据仓库是决策支持系统（DSS）和联机分析应用数据源的结构化数据环境。

数据仓库研究和解决从数据库中获取信息的问题。

数据仓库的四大关键特征：面向主题性、数据集成性、数据的时变性和数据的非易失性。

3．商业智能英文名称：Business Intelligence，简写为BI。

定义：商业智能描述了一系列的概念和方法，通过应用基于事实的支持系统来辅助商业决策的制定。

商业智能系统是一个学习型系统，能自动适应商务不断变化的要求。

4．决策支持系统英文名称：decision support system ，简称DSS定义：是辅助决策者通过数据、模型和知识，以人机交互方式进行半结构化或非结构化决策的计算机应用系统。

DSS主要是基于数据仓库，联机数据分析和数据挖掘技术的应用。

5. 主题: (Subject)主题是一个在较高层次上将数据归类的标准，每一个主题基本对应一个宏观的分析领域。

主题域的特征：独立性，完备性6. 数据集市：小型的，面向部门或工作组级别的数据仓库。

7. 数据仓库的元数据：关于数据的数据，用于构造、维持、管理、和使用数据仓库，在数据仓库中尤为重要。

8. ETL (Extraction-Transformation-Loading)：数据抽取(Extract)，数据转换(Transform)，数据装载(Load)。

数据仓库与数据挖掘复习提纲

数据仓库与数据挖掘复习提纲-标准化文件发布号：（9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII数据库应用技术（数据仓库与数据挖掘复习提纲）说明：考试形式：闭卷考试题型：填空、选择、判断、名词解释、简答题、综合题。

（由于试题是随机从试题库中抽取，有可能抽取的试题中不会全部包含上述的所有题型）另外：本提纲仅针对试题中的名词解释、简答题和综合题提供复习参考，不包括填空、选择、判断等其它题型的参考。

一：名词解释数据仓库、数据挖掘、OLAP、ODS（操作数据存储）二．简答题1．试述数据仓库系统与数据库系统的区别与相似之处。

2．试述数据仓库设计的步骤以及每一步所完成的工作。

3．OLAP与OLTP的区别有哪些？它们适合于运行在同一个服务器上吗为什么4．在数据挖掘前，为什么要对数据进行预处理，数据预处理的有哪些主要的处理方法？5．在现实世界的数据中，元组在某些属性上缺少值是常有的。

描述处理该问题的各种方法。

6.什么是数据仓库中的元数据，元数据包含哪些内容其重要性体现在哪些方面7.试述ODS在“DB-ODS-DW”体系结构中的作用。

8.请解释OLAP中维、维层次与维成员的概念，并举例说明。

9. 数据仓库中的数据是数据库中数据的简单堆积吗它有哪些常用的数据组织方式10．数据仓库和数据集市的区别是什么数据仓库的体系环境具有什么特点有哪些建立数据仓库体系化环境的方法它们各有何优劣11.数据仓库的设计包括哪些内容？12.在内容和使用者方面，数据仓库环境中的元数据与操作型环境中的元数据有何异同？13.为了提高数据仓库的性能，可以在哪些方面作一些努力在各个方面分别采用什么样的技术这些技术易于实现吗14.OLAP提供哪些基本操作？15.OLAP服务器有哪些实现方法它们的优劣是什么16.为什么不能依靠传统的业务处理系统进行决策分析17.自然演化体系结构中存在的问题？18.试述建立多维数据库的过程。

19．数据挖掘的主要方法。

数据仓库与数据挖掘复习资料

1.数据仓库的概念和特点p11定义：一个面向主题的、集成的、非易失的且随时间变化的数据集合，用来支持管理人员作出决策。

特性：面向主题的、集成的、非易失的、随时间不断变化的。

1、面向主题的：数据仓库以一个奇特或组织机构中固有的业务主题作为处理的主体，是从整体的、全局的角度来衡量这些主题在企业中的作用。

2、集成的：数据仓库必须将不一致的数据进行有效的集成，使之在数据仓库中有一致性的表示形式。

一致性问题只是集成所包含的一部分工作，另外还需要根据主题进行有效的数据组织。

3、非易失性：一旦操作型数据进入数据仓库，只要数据未超过数据仓库的数据存储期限，通常不对数据进行更新操作，而只进行查询操作。

即不进行一般意义上的更新，而且与操作型数据相比，更新频率要低得多，对时间的要求更为宽松。

4、随时间不断变化的（数据因时而变的特点）《与操作型数据比较的，书上14页》：（1）数据仓库中的数据的时间期限要远远长于操作型环境中的数据的时间期限。

操作型环境一般60-90天，数据仓库5-10年。

一个数据仓库的大小一般都是在100GB以上通常，数据仓库系统应该包含下列程序：（1）抽取数据与加载数据（2）整理并转换数据（采用一种数据仓库适用的数据格式）（3）备份与备存数据（4）管理所有查询（即将查询导向适当的数据源）数据仓库中的数据只是一系列某一时刻所生成的数据的复杂快照。

数据仓库的键码结构总是包含某时间元素。

2.数据仓库中的关键概念14外部数据源：就是从系统外部获取的同分析主题相关的数据。

数据抽取：是数据仓库按分析的主题从业务数据库抽取相关数据的过程。

现有的数据仓库产品几乎都提供关系型数据接口，提供抽取引擎以从关系型数据中抽取数据。

数据清洗：从多个业务系统中获取数据时，必须进行必要的数据清洗，从而得到准确的数据。

所谓“清洗”是指在放入数据仓库之前将错误的、不一致的数据予以更正或删除，以免影响DSS决策的正确性。

（15页有例子）数据转换：各种数据库产品所提供的数据类型可能不同，需要将不同格式的数据转换成统一的数据格式，称为数据转换。

数据仓库和数据挖掘期末重点

数据仓库（Data Warehouse,DW）和数据挖掘（Data Mining,DM）是决策支持的两项重要技术，它们的共同特点是都需要利用大量的数据资源，并从数据资源中提取信息和知识。

一1.联机事务处理(On Line Transaction Processing, OLTP)是在网络的环境下面向交易的事物处理，利用计算机网络技术，以快速的事物响应和频繁的数据修改为特征，使用户利用数据库能快速的处理具体的业务。

其特征是用户的数据可以迅速的传到计算中心进行处理，并在很短的时间内给出处理的结果。

最大特点是实时的处理用户输入及时得到回答。

2.数据创库元数据(metadata)被定义为关于数据的数据，在数据仓库中是描述数据仓库中的数据及其环境的数据。

元数据在数据仓库中不仅定义了数据仓库有什么，还指名了数据仓库中信息的内容和位置，刻画了数据的抽取和转换规则的说明，存储了与数据仓库主题有关的各种商业信息，而且整个数据仓库的运行都是基于元数据的，如数据的修改，跟踪，抽取，综合以及使用等，元数据遍及数据仓库的方方面面，它已成为整个数据仓库的核心。

3.数据仓库的定义：数据仓库是面向主题的，集成的，稳定的，不同时间的信息集合，用于支持经营管理中决策制定过程。

特点：数据仓库是面向主题的；数据仓库是集成的；数据仓库是稳定的；数据仓库是随时间变化的；数据仓库中的数据量是很大的；数据仓库的软硬件要求都很高；4.数据仓库与数据挖掘的区别：数据仓库是在数据库的基础上发展而来的，它将大量的数据库信息按决策需求进行重新组织，以数据仓库的形式进行存储，它将为用户提供辅助决策的随机查询，综合信息以及随时间变化的趋势分析信息等。

数据挖掘是一种存储技术，它的数据存储量是一般数据库的100倍，它包含大量的历史数据，当前数据，当前的详细数据以及综合数据。

它能适应于不同用户对不同决策需要的数据和信息。

数据挖掘是从人工智能机器学习中发展起来的。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据仓库与数据挖掘技术复习资料一、单项选择题1.数据挖掘技术包括三个主要的部分（ C ）A．数据、模型、技术 B．算法、技术、领域知识C．数据、建模能力、算法与技术 D．建模能力、算法与技术、领域知识2.关于基本数据的元数据是指: ( D )A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息；B.基本元数据包括与企业相关的管理方面的数据和信息；C.基本元数据包括日志文件和简历执行处理的时序调度信息；D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息。

3.关于OLAP和OLTP的说法,下列不正确的是: ( A)A．OLAP事务量大,但事务内容比较简单且重复率高B．OLAP的最终数据来源与OLTP不一样C．OLTP面对的是决策人员和高层管理人员D．OLTP以应用为核心，是应用驱动的4．将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？( C )A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘5．下面哪种不属于数据预处理的方法？ ( D )A.变量代换B.离散化C. 聚集D. 估计遗漏值6.在ID3 算法中信息增益是指（ D ）A.信息的溢出程度B.信息的增加效益C.熵增加的程度最大D.熵减少的程度最大7.以下哪个算法是基于规则的分类器 ( A )A. C4.5B. KNNC. BayesD. ANN8.以下哪项关于决策树的说法是错误的（ C ）A．冗余属性不会对决策树的准确率造成不利的影响B．子树可能在决策树中重复多次C．决策树算法对于噪声的干扰非常敏感D．寻找最佳决策树是NP完全问题9.假设收入属性的最小与最大分别是10000和90000，现在想把当前值30000映射到区间[0,1],若采用最大－最小数据规范方法，计算结果是（ A ）A. 0.25B. 0.375C.0.125D. 0.510.在抽样方法中，当合适的样本容量很难确定时，可以使用的抽样方法是：( D )A.有放回的简单随机抽样B.无放回的简单随机抽样C.分层抽样D.渐进抽样11.当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？( B)A. 分类B.聚类C. 关联分析D. 隐马尔可夫链12.设X={1，2，3}是频繁项集，则可由X产生( C )个关联规则。

A.4B.5C.6D.713.（ C ）将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度，它是一种凝聚层次聚类技术。

A．MIN（单链） B．MAX（全链） C．组平均 D．Ward方法14.只有非零值才重要的二元属性被称作：( C )A.计数属性B.离散属性C.非对称的二元属性D.对称属性15.在基本K均值算法里，当邻近度函数采用（ A ）的时候，合适的质心是簇中各点的中位数。

A.曼哈顿距离B.平方欧几里德距离C.余弦距离D.Bregman散度16.下面关于数据粒度的描述不正确的是: ( C )A. 粒度是指数据仓库小数据单元的详细程度和级别B. 数据越详细,粒度就越小,级别也就越高C. 数据综合度越高,粒度也就越大,级别也就越高D. 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量17.某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？( B )A.聚类B.关联规则发现C.分类D.自然语言处理18.OLAP技术的核心是: ( D )A.在线性B.对用户的快速响应C. 互操作性D.多维分析19．下面哪种不属于数据预处理的方法？ ( D )A.变量代换B.离散化C. 聚集D.估计遗漏值20.假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。

等深划分时，15在第几个箱子内？ ( B )A.第一个B.第二个C.第三个D.第四个 21. 上题中，等宽划分时（宽度为50），15又在哪个箱子里？ ( A )A.第一个B.第二个C.第三个D.第四个 22. 熵是为消除不确定性所需要获得的信息量，投掷均匀正六面体骰子的熵是： ( B )A.1bitB.2.6bitC.3.2bitD.3.8bit 23. 假设属性income 的最大最小值分别是12000元和98000元。

利用最大最小规范化的方法将属性的值映射到0至1的范围内。

对属性income 的73600元将被转化为：( D )A.0.821B.1.224C.1.458D.0.716 24. 假定用于分析的数据包含属性age 。

数据元组中age 的值如下（按递增序）：13，15，16，16，19，20，20，21，22，22，25，25，25，30，33，33，35，35，36，40，45，46，52，70, 问题：使用按箱平均值平滑方法对上述数据进行平滑，箱的深度为3。

第二个箱子值为：( A )A. 18.3B. 22.6C. 26.8D.27.925.给定两个对象，分别用元组（22,1,42,10)和（20,0,36,8）表示，则这两个对象之间的曼哈坦距离为：（）A.5B.11C.2.92D.2.24 26. 概念分层图是（ B ）图。

A.无向无环B.有向无环C.有向有环D.无向有环 27. 假设A 为事件“产品合格”，B 为“机器工作正常”，现给出以下概率：机器工作正常，生产产品合格的概率为P(A|B)=0.95；机器不正常工作时，生产产品合格的概率为)|(B A P =0.1；机器正常工作的概率，即P(B)=0.9。

已知生产了一个不合格品，机器不正常工作的概率，即)|(A B P 是（）。

A.0.90 B.0.333 C.0.667 D.0.05二、填空题1．数据仓库是面向主题的、（集成的）、（具有特性的）、稳定的数据集合，用以支持经营管理中的决策制定过程。

2．OLAP 的基本多维分析操作有（聚类）、切片、切块以及（旋转）等。

3.多维数据集通常采用（星型）或雪花型架构，以（事实）为中心，连接多个（维表）。

4.空缺值数据的处理方法主要有使用默认值、（属性平均值）、（同类样本平均值）和预测最可能的值等。

5．平均互信息等于（信息）熵减（条件）熵，表示不确定性的消除。

6.神经网络的学习方式有3种：（监督学习）、（非监督学习）和再励学习（强化学习）。

7.聚类分析的数据通常可分为区间标度变量、二元变量、（标称变量）、（比例标度变量）、序数型以及混合类型等。

8．数据立方体是数据的多维建模和表示，由维和事实组成。

维就是涉及的（属性）、而事实是一个具体的（数据）。

9.数据预处理的主要内容（方法）包括（数据清洗）、（数据变换）、（数据集成）和数据归约等。

10.关联规则的经典算法包括（ Apriori）算法和（FP_Growth）算法,其中（ FP_Growth ）算法的效率更高。

11.非线性回归的模型有：直接换元法、（间接代换法）和（非线性型）三种。

12.人工神经网络的特点和优势主要表现在具有（自学习）功能、具有（联系存储）功能和具有高速寻找优化解的能力三个方面。

13.ID3算法只能对描述属性为（离散）型属性的数据集构造决策树。

14.按照对应的数据类型，Web挖掘可分为内容挖掘、（）和（）。

15.BP神经网络由（输入）、（输出）以及一或多个隐含结点组成。

三、判断题1. 数据挖掘的目标不在于数据采集策略，而在于对于已经存在的数据进行模式的发掘。

( 对 )2. 模式为对数据集的全局性总结，它对整个测量空间的每一点做出描述；模型则对变量变化空间的一个有限区域做出描述。

（错）3.数据仓库中间层OLAP服务器只能采用关系型OLAP。

（错）4. 特征提取技术并不依赖于特定的领域。

（错）5.定量属性可以是整数值或者是连续值。

（对）6. Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息。

（错）7.贝叶斯法是一种在已知后验概率与类条件概率的情况下的模式分类方法，待分样本的分类结果取决于各类域中样本的全体。

( 错) 8. 给定由两次运行K均值产生的两个不同的簇集，误差的平方和最大的那个应该被视为较优。

（错）。

9. 如果规则不满足置信度阈值，则形成的规则一定也不满足置信度阈值，其中是X的子集。

（对）10.分类和回归都可用于预测，分类的输出是离散的类别值，而回归的输出是连续数值。

( 对)11.如果一个对象不强属于任何簇，那么该对象是基于聚类的离群点。

（对）12. K均值是一种产生划分聚类的基于密度的聚类算法，簇的个数由算法自动地确定。

（错）13. 数据挖掘的主要任务是从数据中发现潜在的规则，从而能更好的完成描述数据、预测数据等任务。

( 对 )14.离散属性总是具有有限个值。

（错）15. 用于分类的离散化方法之间的根本区别在于是否使用类信息。

（对）16. 特征提取技术并不依赖于特定的领域。

（错）17.定量属性可以是整数值或者是连续值。

（对）18. Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息。

（错）19. 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。

（错）20. 利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。

（对）21. 具有较高的支持度的项集具有较高的置信度。

（错）22. 聚类（clustering）是这样的过程：它找出描述并区分数据类或概念的模型(或函数)，以便能够使用模型预测类标记未知的对象类。

（错）23. 分类和回归都可用于预测，分类的输出是离散的类别值，而回归的输出是连续数值。

( 对) 四、简答题1．设某事务项集构成如表1所示，填空完成粗体字部分支持度和置信度的计算，保留1位小数。

表12. 写出非对称二元变量相异度计算公式(即jaccard 系数)，并计算表2中各对象间的相异度。

表2解：Jaccard 系数公式可描述为非对称二元相异度=取值不同的同位属性数/(单个元素的属性位数-同取0的位数)。

sr q sr j i d +++=),(，其中r 表示对象i 取值为1，对象j 取值为0；s 表示对象i 取0值，对象j 取1值，q 表示对象i 和j 同取1值。

33.03110210)21(==+++=OBJ OBJ d ，14422022)31(==+++=OBJ OBJ d ，15523023)32(==+++=OBJ OBJ d ，3.给定两个对象，分别用元组（22,1,42,10)和（20,0,36,8）表示(a)计算两个对象之间的欧几里德的距离； (b)计算两个对象之间的曼哈坦距离； (c)计算两个对象间的明考斯基距离，q ＝3。