大学数据挖掘期末考试题教学内容
《数据挖掘教学课件》数据挖掘期末考题(答案)

华南理工大学计算机科学与工程学院2012—2013学年度第二学期期末考试《数据仓库与数据挖掘技术》试卷(假的)专业:计算机科学与技术年级:2010 姓名:学号:注意事项:1. 本试卷共四大题,满分100分,考试时间120分钟;2. 所有答案请直接答在试卷上;题号一二三四总分得分一.填空题(每空1分,共20分)1.数据仓库的特征包括_面向主题________、___集成_________、__时变_________和非易失性。
2.数据仓库的三种数据模式包括_星形模式_、__雪花形模式__________、___事实星座形模式________。
3.仓库数据库服务器、_LOAP服务器________、__前端客户__________为数据仓库的多层结构。
4. OLAP技术多维分析过程中,多维分析操作包括 __上卷___、__下钻____、___切片____、__切块__________、__转轴_________等。
5. 知识发现过程的主要步骤有:数据清理、__数据集成__________、__数据选择___、数据交换、_数据挖掘________、___模式评估_________、__知识表示_______。
6. 数据仓库的视图的分类有:自顶向下视图、_数据源视图________、数据仓库视图、_商务视图_________。
二.简答题(每题6分,共42分)1.简述处理空缺值的方法。
1、忽略该记录2、手工填写空缺值3、使用默认值4、使用属性平均值5、使用同类样本平均值6、使用最可能的值2.挖掘的知识类型。
1、概念/类描述:特征化和区分2、挖掘频繁模式、关联和相关3、分类和预测4、聚类分析5、离群点分析6、演变分析3.何为OLTP与OLAP及他们的主要区别。
联机事务处理OLTP (on-line transaction processing);联机分析处理OLAP (on-line analytical processing);OLTP和OLAP的区别:用户和系统的面向性:OLTP面向顾客,而OLAP面向市场;数据内容:OLTP系统管理当前数据,而OLAP管理历史的数据;数据库设计:OLTP系统采用实体-联系(ER)模型和面向应用的数据库设计,而OLAP系统通常采用星形和雪花模型;视图:OLTP系统主要关注一个企业或部门内部的当前数据,而OLAP 系统主要关注汇总的统一的数据;访问模式:OLTP访问主要有短的原子事务组成,而OLAP系统的访问大部分是只读操作,尽管许多可能是复杂的查询。
汕头大学数据挖掘期末复习

汕头大学2019数据挖掘期末复习资料(浩军老师班)考试范围:数据预处理、数据关联分析、分类与预测、SVM、K-MEANS、聚类考试题型:简答题,复习请以实验相关内容为主数据挖掘课程的主要内容:1.数据挖掘概述2.数据预处理3.数据挖掘算法-关联分析4.数据挖掘算法-分类与预测5.数据挖掘算法-聚类分析一、数据挖掘概述什么是数据挖掘?数据挖掘概念:从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术(机器学习)的综合。
数据挖掘定义:数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据的特征:大容量、含噪音(不完全、不正确)、异质数据(多种数据类型混合的数据源,来自互联网的数据是典型的例子)数据挖掘有哪些步骤?1.确定预测目标2.统计数据特征3.根据数据特征进行数据预处理4.应用数据挖掘模型(分类、聚类、关联分析、离群点挖掘、标记等)5.分析模型的准确率6.找出影响模型准确率的因素,回到第3步迭代直到模型足够完美。
二、数据预处理数据预处理有哪些步骤?1.数据清理2.数据集成3.数据归约4.数据变换与数据离散化为什么要进行数据预处理?现实世界的数据是不完整的、含有噪声的、不一致的、冗余的。
低质量的数据将导致低质量的挖掘结果。
1)现实世界的数据一般是脏的、不完整的和不一致的。
2)数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。
3) 高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。
数据的质量涉及的三个要素是?准确性,完整性和一致性。
现实世界的数据一般是脏的不完整的不一致的。
数据预处理技术可以改善数据的质量。
如何填充数据中存在的缺失值?1.忽略元组(删除)2.使用一个全局常量填充空缺值(例如NULL)3.使用属性的平均值、众数、中位数来填充空缺值4.人工填充空缺值数据清理补充缺失的属性值:使用属性的中心度量(如均值或者中位数或者众数(频率度量出现单峰)填充缺失值。
数据挖掘期末考试题库

数据挖掘期末考试题库
进行数据挖掘期末考试前,老师通常会准备一份题库,供学生参考复习。
这个题库包含了一系列的问题,涵盖了数据挖掘的各个方面。
以下是一个示例的数据挖掘期末考试题库,供同学们参考:
1. 什么是数据挖掘?数据挖掘的主要目标是什么?
2. 请简要介绍数据挖掘的主要过程。
3. 数据挖掘中常用的数据预处理方法有哪些?请分别进行介绍。
4. 数据挖掘中常用的特征选择方法有哪些?请分别进行介绍。
5. 数据挖掘中常用的分类算法有哪些?请分别进行介绍。
6. 数据挖掘中常用的聚类算法有哪些?请分别进行介绍。
7. 数据挖掘中常用的关联规则挖掘算法有哪些?请分别进行介绍。
8. 什么是异常检测?数据挖掘中常用的异常检测方法有哪些?请分别进行介绍。
9. 数据挖掘中的交叉验证是什么?请简要说明。
10. 数据挖掘中如何评估分类算法的性能?请简要说明评估指标。
11. 数据挖掘中如何评估聚类算法的性能?请简要说明评估指标。
12. 数据挖掘中如何评估关联规则挖掘算法的性能?请简要说明评估指标。
13. 数据挖掘在实际应用中的案例有哪些?请分别进行介绍。
14. 在数据挖掘过程中,如何选择适当的算法和技术?请简要说明。
15. 数据挖掘存在哪些挑战和限制?请分别进行介绍。
以上题目是一个简要的示例,涵盖了数据挖掘的基本概念、主要过程、常用方法和评估指标等方面。
同学们可以根据这些问题来进行复
习和准备,加深对数据挖掘的理解和掌握。
希望以上题库对同学们的期末考试有所帮助。
祝大家考试顺利!。
大学数据挖掘课程考试复习材料

一.1. 数据处理与数据分为'操作型'和'分析型'处理与数据. 2. 操作型数据: 细节的, 存取瞬间准确,可更新,操作需求事先可知,生命周期符合SDLC,性能要求高,操作单元,事务驱动,面向应用,支持日常操作. 分析型数据:综合的,代表过去数据,不更新,操作需求事先不可知,完全不同的生命周期,要求宽松,操作集合,分析驱动,面向分析,支持管理需求. 3. 数据组织结构:高度综合级,轻度综合级,当前细节级,早期细节级. 4. 数据组织形式:简单堆积文件,轮转综合文件,简化直接文件,连续文件. 5. 数据挖掘七个步骤:数据清理,数据集成,数据选择,数据变换,数据挖掘,模式评估,知识表示. 6. 数据挖掘系统的主要成分:1 数据库,数据仓库或其他信息库 2 数据库或数据仓库效劳器 3 知识库4数据挖掘引擎 5 模式评估模块6图形用户界面.7 数据挖掘功能: 用于指定数据挖掘任务中要找的模式类型. 8. 数据挖掘任务分为两类:描述和预测.9. 概念/类描述方法:数据特征化,数据区分,数据特征化与比拟. 10 .关联分析发现关联规那么,适用于事务数据分析.关联规那么分为:多维/单维关联规那么. 11. 粒度越大,表示细节程度越低,综合程度越高. 12. 数据仓库定义: 数据仓库是一个面向主题的,集成的,不可更新且随时间不断变化的数据集合,用来支持管理人员的决策. 二.1. 数据立方体由位和事实定义. 维是关于一个组织想要记录的透视或实体;事实是数值的度量. 2. 多维数据模型模式分类: 星型模式,雪花模式,事实星座模式[ 维表,事实表]. 3.度量根据所用的聚焦函数分成三类:分布的度量,代数的度量,整体的度量. 4. 多维数据模型上的OLAP操作:上卷,下钻,切片,切块,转轴,钻过,钻透.5.数据仓库设计的四种视图:1 自顶向下视图2数据源视图 3 数据仓库视图4商务查询视图. 6. 数据仓库通常采用三层结构:底层:数据仓库效劳器中层:OLAP效劳器顶层:前端工具.7. OLAP效劳器类型:关系OLAP(ROLAP效劳器;多维OLAP(MOLAP效劳器;混合OLAP(HOLAP效劳器;特殊的SQL效劳器. 8. ROLAP:关系数据库技术; 响应慢; 数据装载快; 存储消耗小; 维数无限制; 通过SQL 实现存储;维护困难;无文件大小控制.MOLAP专为OLAP设计;性能好,反响快;数据装载快;需进行预计算,无法支持维变化;缺乏模型,访问标准,管理简便;受操作系统文件大小控制. *ROLAP不支持有关预计算读写操作,无法多行计算,无法维间计算• *MOLAP支持高性能决策支持计算;跨维计算,多用户读写操作. 9. 数据仓库设计步骤:1 选取待建模的高务处理 2 选取高务处理的粒度 3 选取用于每个事实表记录的维 4 选取安放在事实表中的度量三 1. 数据质量问题:1 噪声数据2空缺数据3不一致数据4重复5维度高 2. 噪声处理方法:1 分箱2聚类3回归 3. 预处理的根本方法:数据清理,数据集成,数据变量,数据归约 4. 数据选取的参考原那么:1 尽可能赋予属性名和属性值的明确含义2同意多数据源的属性值编码 3 去掉唯一的属性4取出重复属性5去除可以忽略字段6合理选择关联字段 5. 分箱的4种方法:统一权重,统一区间,最小熵,用户自定义区间 6. 数据平滑方法:按箱平均值平滑,按箱中值平滑,按箱便捷平滑7. 数据集成涉及问题:模式集成,数据冗余,数据值冲突8. 数据交换涉及内容:平滑,聚集,数据概化,标准化,属性构造. 9. 数据归约的策略:维归约,数据压缩,数值压缩,离散化和概念分层生成10. 属性子集选择的根本启发式方法包含的技术:1 逐步向前选择 2 逐步向后删除 3 向前选择和向后删除的结合 4 判定树归纳11. 压缩技术:有损(分为小波变换(分为DWT/DFT /主要成分分析PCA /无损12.数值归约:有参方法/无参方法13. 空缺值处理方法:1 忽略元组2人工填写空缺值3使用一个全局常量填充空缺值4使用属性的平局值填充空缺值5使用与给定元组属同一类的所有样本的平均值6使用最可能的值填充空缺值14.抽样:1简单项选择取n个样本,不回放2简单项选择择n个样本,回放3聚类抽样4分层抽样15. 概念分层方法: 1 分箱2直方图分析3聚类分析 4 基于熵的离散化4通过自然划分分段四.1. 数据挖掘语言分类:1 数据挖掘查询语言DMQL2 数据挖掘建模语言PMML3 通用数据挖掘语言 2. 数据挖掘任务的原语:1 任务相关数据原语2要挖掘的知识种类原语3背景知识原语4兴趣度测量原语5被发现模式的表示和可视原语3. 任务相关数据包括:1 数据库与数据仓库名称2数据立方3数据选择条件4相关属性或维5 数据分组条件 4. 背景知识概念分层的主要类型:1 模式层次 2 集合分组分层 3 基于操作层次 4 基于规那么分层 5. 兴趣度度量特点: 简洁性, 确定性, 实用性, 新颖性 6. 兴趣度的分类: 客观兴趣度〔数据驱动〕, 主观兴趣度〔用户驱动〕 7. 数据挖掘系统的结构设计耦合模式: 不耦合,松散耦合,半紧密耦合,紧密耦合8. 挖掘的知识类型:1 特征化2区分3关联4分类/ 预测 5 聚类五六. 1. 从数据分析角度,数据挖掘分为:描述性,预测性 2. 概念描述基本方法:多层概念,汇总,特征化,比拟根本技术:表,图表,图,规那么 3. 类比拟的步骤:数据收集,维相关分析,同步概化,导出比拟的表示 4. 关联规那么挖掘的两个过程: 1 找出频繁项集 2 由频繁项集产生强关联规那么 5. 关联规那么根本分类方法:1 按管理规那么处理的变量类别:布尔型和量化性 2 按关联规那么中数据的抽象层次:单层/多层关联规那么 3 按关联规那么中所涉及的变量数目:单维/ 多维关联规那么 4 按关联规那么的各种扩充,关联规那么可扩充到相关分析,以识别项是否相关 6. 多层关联规那么的主要挖掘方法:1 对于所有层使用一致的最小支持度2 在较低层使用递减的最小支持度 3 逐层独立 4 层交叉单项过滤 5 层交叉K-项集过滤七.1.分类与预测是两种数据分析形式•分类是预测分类标号〔离散性〕;预测是建立连续函数模型. 2. 数据分类步骤:1 学习,用分类算法分析训练数据2分类, 测试数据用于评估分类规那么的准确率. 3. 分类与预测的标准和评估:预测的准确率,速度,强壮度,可伸缩性,可解释性. 4. 常用分类方法:1 决策树归纳2贝叶斯信念网络 3 贝叶斯分类4神经网络5. 预测的方法:1 线性回归2 多元回归3 非线性回归4 广义线性模型*预测步骤:1. 问题的理解与提出 2. 数据准备2.1 变量选择 2.2 数据清洗 2.3 变量转化 2.4 可视化 3.1 神经网络 3.2 决策树3.3 关联规那么3.4 其他模型4结果评价与解释〔回1〕 6. 评估分类法准确性的方法:1 保持方法2 k- 交叉确认方法八.1 基于内存的聚类算法通常采用的数据结构:〔1〕数据矩阵:对象—变量结构〔二模矩阵〕〔2〕相异度矩阵:对象—结构〔单模矩阵〕 2. 对聚类质量/相异度估计评估方法:1 区间标度变量2二元变量3标称变量4比例标度型变量5混合类型的变量 3. 簇间距离度量标准:最短/ 最长/ 中间/平均距离 4. 典型的聚类过程:1 数据准备 2 特征提取 3 聚类 4 聚类结果评估5. 聚类方法的主要分类:1 划分方法2 层次方法3 基于密度的方法4 基于网络的方法5 基于模型的方法 6. 孤立点分析的主要方法:1 统计学方法2基于距离的方法3基于偏差的方法7. 划分方法:1 全局最优2启发式方法〔K- 均值,K- 中心点〕 8. 层次方法:1 凝聚方法〔自底向上方法〕2 分裂方法〔自顶向下〕9.复杂类型数据挖掘包括:1复杂对象2空间数据3多媒体数据4文本数据5WEB数据。
大数据挖掘及应用期末试题及答案

大数据挖掘及应用期末试题及答案一、概述大数据挖掘是指通过对大量数据的收集、整理和分析,从中发现有用的信息、模式和关联性。
在当今信息化时代,大数据挖掘已成为各行各业重要的工具和手段。
本文将介绍大数据挖掘的一些基本概念,并给出一份期末试题及答案作为例子。
二、大数据挖掘的基本概念1. 数据收集与整理大数据挖掘的第一步是收集和整理数据,这些数据可以来源于各种渠道,如社交媒体、传感器、日志文件等。
数据收集的质量和准确性对后续的挖掘过程至关重要。
2. 数据预处理大数据挖掘中,数据预处理是不可或缺的环节。
该过程主要包括数据清洗、缺失值处理、异常值检测和数据变换等。
通过数据预处理,可以提高挖掘结果的准确性和可信度。
3. 特征选择与提取在大数据挖掘中,一个重要的任务是选择和提取出对于挖掘目标最有用的特征。
这可以通过各种方法来实现,如信息增益、相关性分析、主成分分析等。
4. 数据挖掘算法大数据挖掘涉及多种挖掘算法,如聚类、分类、关联规则、时序分析等。
这些算法可以帮助挖掘出数据中的隐藏规律和模式。
5. 模型评估与优化挖掘得到的模型需要进行评估和优化,以保证其准确性和可靠性。
评估指标可以包括准确率、召回率、F1值等。
三、大数据挖掘及应用期末试题以下是一份大数据挖掘及应用的期末试题,供同学们进行自主学习和思考:试题一:数据清洗请简述数据清洗的作用,并列举三种常见的数据清洗方法。
试题二:特征选择假设你要对一家电商平台的用户进行分类,以便进行个性化推荐。
你会选择怎样的特征来进行分类?请简要说明你的理由。
试题三:聚类分析假设你正在研究一款新药的效果,并希望对病人进行分类。
请问聚类分析是否适用于这个场景?如果适用,请简要描述一下你会采用的聚类算法,并解释其原理。
试题四:关联规则挖掘你正在研究一家超市的销售情况,希望发现一些产品之间的关联规则。
请列举出一条可能的关联规则,并解释其意义。
四、大数据挖掘及应用期末试题答案答案一:数据清洗数据清洗是指对数据集中的异常值、噪声数据和缺失值进行处理,以提高数据质量和挖掘结果的准确性。
数据挖掘导论期末考试试题

数据挖掘导论期末考试试题# 数据挖掘导论期末考试试题## 一、选择题(每题2分,共20分)1. 数据挖掘的常用技术不包括以下哪一项?A. 决策树B. 聚类分析C. 神经网络D. 线性回归2. 在数据挖掘中,以下哪个算法主要用于分类问题?A. K-meansB. KNNC. AprioriD. ID33. 以下哪个术语与数据挖掘中的关联规则挖掘无关?A. 支持度(Support)B. 置信度(Confidence)C. 准确度(Precision)D. 先行项(Antecedent)4. 数据挖掘中的“过拟合”是指模型:A. 过于简单,不能捕捉数据的复杂性B. 过于复杂,不能很好地泛化到新数据C. 与数据完全一致,没有误差D. 只适用于特定类型的数据5. 在数据预处理中,数据清洗的目的是什么?A. 增加数据量B. 提高数据质量C. 降低数据的维度D. 转换数据格式## 二、简答题(每题10分,共30分)1. 简述数据挖掘中的“异常检测”是什么,并给出一个实际应用的例子。
2. 解释什么是“特征选择”,并说明它在数据挖掘中的重要性。
3. 描述数据挖掘中的“集成学习”概念,并举例说明其优势。
## 三、计算题(每题25分,共50分)1. 给定一组数据集,包含以下属性:年龄、收入、购买产品。
使用Apriori算法找出频繁项集,并计算相应的支持度和置信度。
(假设最小支持度阈值为0.5,最小置信度阈值为0.7)| 交易ID | 年龄 | 收入 | 购买产品 ||||||| 1 | 25 | 50000| 手机 || 2 | 30 | 60000| 手机,电脑 || 3 | 35 | 70000| 电脑 || ... | ... | ... | ... |2. 假设你有一个客户数据库,包含客户的性别、年龄、年收入和购买历史。
使用决策树算法建立一个模型,预测客户是否会购买新产品。
请描述决策树的构建过程,并给出可能的决策树结构。
数据挖掘期末考试题库

数据挖掘期末考试题库第一部分:单项选择题(每题2分,共20分)1. 数据挖掘的主要任务是:A. 数据清洗B. 数据可视化C. 数据预处理D. 信息提取2. 下列哪种算法不属于分类算法?A. 决策树B. K均值聚类C. 朴素贝叶斯D. 支持向量机3. 以下哪种评估指标适合用于回归模型的评价?A. 准确率B. 精确率C. 均方误差D. 召回率4. 什么是过拟合?A. 欠拟合B. 模型泛化能力差C. 训练数据效果好,测试数据效果差D. 模型对训练数据过于复杂5. 数据挖掘中最常用的算法之一是:A. 关联规则挖掘B. 地理聚类算法C. PCA主成分分析D. 神经网络6. 在K均值聚类算法中,K的取值是:A. 随机指定B. 需要提前确定C. 可以根据数据自动调整D. 由数据量来决定7. 数据不平衡问题常见的解决方法是:A. 降采样B. 升采样C. 阈值移动D. 过采样8. 常用的数据变换方法包括:A. 标准化B. 特征选择C. 特征抽取D. 以上都是9. 以下哪个不是决策树算法?A. CARTB. SVMC. ID3D. C4.510. 数据挖掘的任务包括:A. 分类B. 预测C. 聚类D. 以上都是第二部分:简答题(每题5分,共25分)1. 请简要介绍数据挖掘的相关概念及主要任务。
2. 什么是数据清洗?数据预处理的主要步骤有哪些?3. 请简要描述K均值聚类算法的原理及应用场景。
4. 什么是特征选择?为什么特征选择在数据挖掘中很重要?5. 请解释模型评估中的ROC曲线及AUC指标的含义。
第三部分:分析题(每题10分,共30分)1. 请根据提供的数据集,使用决策树算法进行分类预测,并对算法进行评估。
2. 请使用K均值聚类算法对特定数据进行聚类,并解释聚类结果的含义。
3. 请选择一个自己感兴趣的数据集,设计一个数据挖掘项目,并说明项目的背景、目的、方法及预期结果。
第四部分:应用题(每题15分,共30分)1. 请根据给定的销售数据,利用关联规则挖掘算法找出频繁项集和关联规则,并分析其规则含义及实际应用。
《数据挖掘方法》期末考试试卷附答案

《数据挖掘方法》期末考试试卷附答案数据挖掘方法期末考试试卷一、选择题(每题5分,共25分)1. 数据挖掘的目的是从大量数据中发现有价值的模式和知识。
以下哪项不是数据挖掘的主要任务?A. 分类B. 聚类C. 预测D. 图像识别答案:D2. 决策树是一种常见的分类算法,它在哪个阶段进行剪枝?A. 生成阶段B. 修剪阶段C. 测试阶段D. 应用阶段答案:B3. K-近邻算法中,K值一般取多少比较合适?A. 1B. 3C. 5D. 10答案:B4. 在关联规则挖掘中,最小支持度是指?A. 一条规则必须满足的最小条件概率B. 一条规则必须满足的最小置信度C. 数据集中满足条件概率的最小值D. 数据集中满足条件的最小实例数答案:D5. 以下哪种技术不属于聚类分析?A. 层次聚类B. 基于密度的聚类C. 基于距离的聚类D. 基于规则的聚类答案:D二、填空题(每题5分,共25分)1. 在分类算法中,将数据集中的每个实例分配给一个类别的过程称为________。
答案:分类2. 决策树算法中,用于评估节点纯度的指标有________、________和________等。
答案:信息熵、增益、增益率3. K-均值聚类算法中,簇心的初始值通常通过________算法来确定。
答案:随机初始化4. 在关联规则挖掘中,________、________和________是三个基本的概念。
答案:项集、频繁项集、关联规则5. 在基于距离的聚类算法中,常用的距离度量有________、________和________等。
答案:欧氏距离、曼哈顿距离、余弦相似度三、简答题(每题10分,共30分)1. 请简要解释什么是决策树,以及它的工作原理。
答案:决策树是一种常见的分类和回归算法,它通过一系列的判断条件将数据集划分为不同的子集,最终达到分类或回归的目的。
它的工作原理是从根节点开始,根据特征值的不同,选择合适的分支,一直递归到叶节点,得到最终的预测结果。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘试卷
课程代码: C0204413 课程: 数据挖掘A 卷
一、判断题(每题1分,10分)
1. 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。
( )
2. 数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。
( )
3. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。
( )
4. 当两个点之间的邻近度取它们之间距离的平方时,Ward 方法与组平均非常相似。
( )
5. DBSCAN 是相对抗噪声的,并且能够处理任意形状和大小的簇。
( )
6. 属性的性质不必与用来度量他的值的性质相同。
( )
7. 全链对噪声点和离群点很敏感。
( )
8. 对于非对称的属性,只有非零值才是重要的。
( ) 9. K 均值可以很好的处理不同密度的数据。
( ) 10. 单链技术擅长处理椭圆形状的簇。
( )
二、选择题(每题2分,30分)
1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( )
A.分类
B.聚类
C.关联分析
D.主成分分析
2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。
A.MIN(单链) B.MAX(全链) C.组平均 D.Ward 方法
3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。
A 分类 B 预测 C 关联规则分析 D 聚类
4.关于K 均值和DBSCAN 的比较,以下说法不正确的是( )
A.K 均值丢弃被它识别为噪声的对象,而DBSCAN 一般聚类所有对象。
B.K 均值使用簇的基于原型的概念,DBSCAN 使用基于密度的概念。
C.K 均值很难处理非球形的簇和不同大小的簇,DBSCAN 可以处理不同大小和不同形状的簇
D.K 均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN 会合并有重叠的簇 5.下列关于Ward ’s Method 说法错误的是:( ) A.对噪声点和离群点敏感度比较小 B.擅长处理球状的簇
C.对于Ward 方法,两个簇的邻近度定义为两个簇合并时导致的平方误差
D.当两个点之间的邻近度取它们之间距离的平方时,Ward 方法与组平均非常相似 6.下列关于层次聚类存在的问题说法正确的是:( ) A.具有全局优化目标函数
B.Group Average 擅长处理球状的簇
C.可以处理不同大小簇的能力
D.Max 对噪声点和离群点很敏感
7.下列关于凝聚层次聚类的说法中,说法错误的事:( ) A.一旦两个簇合并,该操作就不能撤销 B.算法的终止条件是仅剩下一个簇
C.空间复杂度为()
2
m O
D.具有全局优化目标函数
8.规则{牛奶,尿布}→{啤酒}的支持度和置信度分别为:( )
TID 项集
1 2 3 4 5 {面包,牛奶}
{面包,尿布,啤酒,鸡蛋} {牛奶,尿布,啤酒,可乐} {面包,牛奶,尿布,啤酒} {面包,牛奶,尿布,可乐}
A.0.4,0.4
B.0.67,0.67
C.0.4,0.67
D.0.67,0.4
9.下列( )是属于分裂层次聚类的方法。
A.Min
B.Max
C.Group Average
D.MST
10.对下图数据进行凝聚聚类操作,簇间相似度使用MAX计算,第二步是哪两个簇合并:( )
A.在{3}和{l,2}合并
B.{3}和{4,5}合并
C.{2,3}和{4,5}合并
D. {2,3}和{4,5}形成簇和{3}合并
11.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( )
A. 频繁模式挖掘
B. 分类和预测
C. 数据预处理
D. 数据流挖掘
12.决策树中不包含一下哪种结点( )
A,根结点(root node) B,内部结点(internal node)C,外部结点(external node)D,叶结点(leaf node)13.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( )
A. 根据内容检索
B. 建模描述
C. 预测建模
D. 寻找模式和规则
14.下列哪个描述是正确的?()
A、分类和聚类都是有指导的学习
B、分类和聚类都是无指导的学习
C、分类是有指导的学习,聚类是无指导的学习
D、分类是无指导的学习,聚类是有指导的学习
15.下面购物篮能够提取的3-项集的最大数量是多少()
ID 购买项
1 牛奶,啤酒,尿布
2 面包,黄油,牛奶
3 牛奶,尿布,饼干
4 面包,黄油,饼干
5 啤酒,饼干,尿布
6 牛奶,尿布,面包,黄油
7 面包,黄油,尿布8 啤酒,尿布9 牛奶,尿布,面包,黄油
10 啤酒,饼干
A.1
B.2
C.3 D 4
三、简答题(每题8分,40分)
1.何谓数据挖掘?它有哪些方面的功能?
2.简述数据预处理方法和内容。
3. 何谓聚类?它与分类有什么异同?
只供学习与交流
4.什么是决策树?如何用决策树进行分类?
5.简述ID3算法的基本思想及其主算法的基本步骤
四、算法题(每题10分,20分)
1.
2.假设数据挖掘的任务是将如下的8个点(用(x,y)代表位置)聚类为3个类:X1(2,10)、X2(2,5)、X3(8,4)、X4(5,8)、X5(7,5)、X6(6,4)、X7(1,2)、X8(4,9),距离选择欧几里德距离。
假设初始选择X1(2,10)、X4(5,8)、X7(1,2)为每个聚类的中心,请用K-means算法来计算:
只供学习与交流。