数据挖掘考试题目——聚类
12《数据仓库与数据挖掘》复习题

《数据仓库与数据挖掘》复习大纲三、简答题(5×6分=30分)四、分析计算题(3×10分=30分)考试范围:第一讲数据挖掘概述考点:1、数据挖掘、知识发现(KDD)基本概念;2、数据挖掘的过程;3、数据挖掘过技术的三个主要部分。
复习参考题:一、填空题(1)数据库中的知识挖掘(KDD)包括以下七个步骤:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示。
(2)数据挖掘的性能问题主要包括:算法的效率、可扩展性和并行处理。
(3)当前的数据挖掘研究中,最主要的三个研究方向是:统计学、数据库技术和机器学习。
(4)在万维网(WWW)上应用的数据挖掘技术常被称为:WEB挖掘。
(5)孤立点是指:一些与数据的一般行为或模型不一致的孤立数据。
二、单选题(1)数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于:BA、所涉及的算法的复杂性;B、所涉及的数据量;C、计算结果的表现形式;D、是否使用了人工智能技术(2)孤立点挖掘适用于下列哪种场合?DA、目标市场分析B、购物篮分析C、模式识别D、信用卡欺诈检测(3)下列几种数据挖掘功能中,( D )被广泛的应用于股票价格走势分析。
A. 关联分析B.分类和预测C.聚类分析D. 演变分析(4)下面的数据挖掘的任务中,( B )将决定所使用的数据挖掘功能。
A、选择任务相关的数据B、选择要挖掘的知识类型C、模式的兴趣度度量D、模式的可视化表示(5)下列几种数据挖掘功能中,(A )被广泛的用于购物篮分析。
A、关联分析B、分类和预测C、聚类分析D、演变分析(6)根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是( B)。
A.关联分析B.分类和预测C. 演变分析D. 概念描述(7)帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是( C )。
A.关联分析B.分类和预测C.聚类分析D. 孤立点分析E. 演变分析(8)假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是( E )A.关联分析B.分类和预测C. 孤立点分析D. 演变分析E. 概念描述三、简答题1、何谓数据挖掘?它有哪些方面的功能?答:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。
数据挖掘(练习)考试答案

数据挖掘(练习)1、(单选,4分)以下哪项不属于知识发现的过程?( )A、数据清理B、数据挖掘C、知识可视化表达D、数据测试答案:D2、(单选,4分)以下哪些不属于数据挖掘的内容?()A、分类B、聚类C、离群点检测D、递归分析答案:D3、(单选,4分)以下哪个不是常见的属性类型?()A、A.标称属性B、数值属性C、高维属性D、序数属性答案:C4、(单选,4分)以下哪个度量属于数据散度的描述?()A、均值B、中位数C、标准差D、众数答案:C5、(单选,4分)以下哪个度量不属于数据中心趋势度描述?(D )A、A.均值B、中位数C、众数D、四分位数答案:D6、(单选,4分)对数据进行数据清理、集成、变换、规约是数据挖掘哪个步骤的任务?( )A、频繁模式挖掘B、分类和预测C、数据预处理D、噪声检测答案:C7、(单选,4分)聚类分析是数据挖掘的一种重要技术,以下哪个算法不属于聚类算法?( )A、K-MeansB、DBSCANC、SVMD、EM 答案:C8、(单选,4分)建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( )A、根据内容检索B、建模描述C、预测建模D、寻找模式和规则答案:C9、(单选,4分)当不知道数据所带标签时. 可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( )A、分类B、聚类C、关联分析D、隐马尔可夫链答案:B10、(单选,4分)在构造决策树时,以下哪种不是选择属性的度量的方法?( )A、信息增益B、信息增益率C、基尼指数D、距离答案:D11、(单选,4分)知识发现流程最核心的步骤是什么?( )A、数据挖掘B、数据预处理C、模式评估D、知识表示答案:A12、(单选,4分)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( )A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘答案:C13、(单选,4分)以下哪个度量属于数据中心性的描述?()A、均值B、极差C、众数D、标准差答案:A14、(单选,4分)类分析是数据挖掘的一种重要技术,以下哪个算法不属于聚类算法?( )A、K-MeansB、DBSCANC、KNND、EM 答案:C15、(单选,4分)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?( ) A、关联规则发现B、聚类C、分类D、自然语言处理答案:A16、(单选,4分)以下哪些算法是分类算法?( ) A、DBSCAN B、C4.5 C、K-Mean D、EM 答案:B17、(单选,4分)K-means算法的缺点不包括?( ) A、K必须是事先给定的B、选择初始聚类中心C、对于“噪声”和孤立点数据是敏感的D、可伸缩、高效答案:D18、(单选,4分)机器学习中,下面哪些方法不可以避免分类中的过拟合问题?()A、增加样本数量B、增加模型复杂度C、去除噪声D、正则化答案:B19、(单选,4分)下面那个不属于知识发现过程。
数据挖掘考试题

数据挖掘考试题数据挖掘考试题⼀.选择题1. 当不知道数据所带标签时,可以使⽤哪种技术促使带同类标签的数据与带其他标签的数据相分离?( )A.分类B.聚类C.关联分析D.主成分分析2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是⼀种凝聚层次聚类技术。
A.MIN(单链)B.MAX(全链)C.组平均D.Ward⽅法3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应⽤了( )数据挖掘⽅法。
A 分类B 预测C关联规则分析D聚类4.关于K均值和DBSCAN的⽐较,以下说法不正确的是( )A.K均值丢弃被它识别为噪声的对象,⽽DBSCAN⼀般聚类所有对象。
B.K均值使⽤簇的基于原型的概念,DBSCAN使⽤基于密度的概念。
C.K均值很难处理⾮球形的簇和不同⼤⼩的簇,DBSCAN可以处理不同⼤⼩和不同形状的簇D.K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇5.下列关于Ward’s Method说法错误的是:( )A.对噪声点和离群点敏感度⽐较⼩B.擅长处理球状的簇C.对于Ward⽅法,两个簇的邻近度定义为两个簇合并时导致的平⽅误差D.当两个点之间的邻近度取它们之间距离的平⽅时,Ward⽅法与组平均⾮常相似6.下列关于层次聚类存在的问题说法正确的是:( )A.具有全局优化⽬标函数B.Group Average擅长处理球状的簇C.可以处理不同⼤⼩簇的能⼒D.Max对噪声点和离群点很敏感7.下列关于凝聚层次聚类的说法中,说法错误的事:( )A.⼀旦两个簇合并,该操作就不能撤销B.算法的终⽌条件是仅剩下⼀个簇C.空间复杂度为()2m O D.具有全局优化⽬标函数8.规则{⽜奶,尿布}→{啤酒}的⽀持度和置信度分别为:( ) TID项集 12345{⾯包,⽜奶} {⾯包,尿布,啤酒,鸡蛋} {⽜奶,尿布,啤酒,可乐} {⾯包,⽜奶,尿布,啤酒} {⾯包,⽜奶,尿布,可乐}A.0.4,0.4B.0.67,0.67C.0.4,0.67D.0.67,0.49.下列( )是属于分裂层次聚类的⽅法。
数据挖掘第5章 聚类

13 of 55
5.2.2 k 中心点算法
第五章 聚 类
算法5.2 PAM(k-中心点算法) 输入:簇的数目k,包含n个对象的数据集D 输出:k个簇,使得所有对象与其最近代表对象点的距离总和最小 1:任意选择k个对象作为初始的簇中心点; 2:将每个剩余对象指派给离它最近的中心点所代表的簇; 3:任意选择一个非中心对象orandom; 4:计算用orandom代替中心对象 的总代价S; 5:如果S为负,则可以用orandom代替 以构成新聚类的k个中心对象; 6:重复(2)(3)(4)(5),直到每个簇不再发生变化为止。
k均值算法对离群数据对象点是敏感的,一个极大值的对象可能在相当大 的程度上扭曲数据的分布。目标函数(5.3)的使用更是进一步恶化了这一影响。
k中心点算法: 在每个簇中选出一个最靠近均值的实际的对象来代表该簇,其余的每个对
象指派到与其距离最近的代表对象所在的簇中。
每次迭代后的簇的代表对象点都是从簇的样本点中选取,选取的标准就是 当该样本点成为新的代表对象点后能提高簇的聚类质量,使得簇更紧凑。
k—means聚类算法将各个聚类子集内的所有数据样本的均值作为该聚类 的代表点,算法的主要思想是通过迭代过程把数据集划分为不同的类别,使 得评价聚类性能的准则函数达到最优,从而使生成的每个聚类类内紧凑,类 间独立。k—means聚类算法不适合处理离散型属性,但是对于连续型属性 具有较好的聚类效果。
7 of 55
4 of 55
高级大数据人才培养丛书之一,大数据挖掘技术与应用
数据挖掘考试习题汇总

第一章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3、数据处理通常分成两大类:联机事务处理和联机分析处理。
4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。
7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。
8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。
9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。
10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。
第二章1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。
2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。
因此,我们要求ETL 过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。
3、数据抽取的两个常见类型是静态抽取和增量抽取。
静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。
4、粒度是对数据仓库中数据的综合程度高低的一个衡量。
粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。
数据挖掘考试题

数据挖掘考试题一.选择题1。
当不知道数据所带标签时,可以使用哪种技术促使带同类标签得数据与带其她标签得数据相分离?( )A.分类B、聚类 C.关联分析D。
主成分分析2. ( )将两个簇得邻近度定义为不同簇得所有点对邻近度得平均值,它就是一种凝聚层次聚类技术。
A。
MIN(单链) B。
MAX(全链) C、组平均 D.Ward方法3、数据挖掘得经典案例“啤酒与尿布试验”最主要就是应用了( )数据挖掘方法、A 分类B 预测C关联规则分析D聚类4。
关于K均值与DBSCAN得比较,以下说法不正确得就是( )A.K均值丢弃被它识别为噪声得对象,而DBSCAN一般聚类所有对象。
B、K均值使用簇得基于原型得概念,DBSCAN使用基于密度得概念。
C。
K均值很难处理非球形得簇与不同大小得簇,DBSCAN可以处理不同大小与不同形状得簇D.K均值可以发现不就是明显分离得簇,即便簇有重叠也可以发现,但就是DBSCAN会合并有重叠得簇5、下列关于Ward'sMethod说法错误得就是:( )A、对噪声点与离群点敏感度比较小B、擅长处理球状得簇C。
对于Ward方法,两个簇得邻近度定义为两个簇合并时导致得平方误差D。
当两个点之间得邻近度取它们之间距离得平方时,Ward方法与组平均非常相似6.下列关于层次聚类存在得问题说法正确得就是:( )A.具有全局优化目标函数B.GroupAverage擅长处理球状得簇C.可以处理不同大小簇得能力D.Max对噪声点与离群点很敏感7。
下列关于凝聚层次聚类得说法中,说法错误得事:( )A。
一旦两个簇合并,该操作就不能撤销B、算法得终止条件就是仅剩下一个簇C.空间复杂度为D。
具有全局优化目标函数8。
规则{牛奶,尿布}→{啤酒}得支持度与置信度分别为:( )TID 项集12345{面包,牛奶}{面包,尿布,啤酒,鸡蛋}{牛奶,尿布,啤酒,可乐}{面包,牛奶,尿布,啤酒}{面包,牛奶,尿布,可乐}A。
《数据挖掘方法》期末考试试卷附答案

《数据挖掘方法》期末考试试卷附答案数据挖掘方法期末考试试卷一、选择题(每题5分,共25分)1. 数据挖掘的目的是从大量数据中发现有价值的模式和知识。
以下哪项不是数据挖掘的主要任务?A. 分类B. 聚类C. 预测D. 图像识别答案:D2. 决策树是一种常见的分类算法,它在哪个阶段进行剪枝?A. 生成阶段B. 修剪阶段C. 测试阶段D. 应用阶段答案:B3. K-近邻算法中,K值一般取多少比较合适?A. 1B. 3C. 5D. 10答案:B4. 在关联规则挖掘中,最小支持度是指?A. 一条规则必须满足的最小条件概率B. 一条规则必须满足的最小置信度C. 数据集中满足条件概率的最小值D. 数据集中满足条件的最小实例数答案:D5. 以下哪种技术不属于聚类分析?A. 层次聚类B. 基于密度的聚类C. 基于距离的聚类D. 基于规则的聚类答案:D二、填空题(每题5分,共25分)1. 在分类算法中,将数据集中的每个实例分配给一个类别的过程称为________。
答案:分类2. 决策树算法中,用于评估节点纯度的指标有________、________和________等。
答案:信息熵、增益、增益率3. K-均值聚类算法中,簇心的初始值通常通过________算法来确定。
答案:随机初始化4. 在关联规则挖掘中,________、________和________是三个基本的概念。
答案:项集、频繁项集、关联规则5. 在基于距离的聚类算法中,常用的距离度量有________、________和________等。
答案:欧氏距离、曼哈顿距离、余弦相似度三、简答题(每题10分,共30分)1. 请简要解释什么是决策树,以及它的工作原理。
答案:决策树是一种常见的分类和回归算法,它通过一系列的判断条件将数据集划分为不同的子集,最终达到分类或回归的目的。
它的工作原理是从根节点开始,根据特征值的不同,选择合适的分支,一直递归到叶节点,得到最终的预测结果。
数据挖掘考试题库及答案

数据挖掘考试题库及答案一、单项选择题1. 数据挖掘的主要任务不包括以下哪一项?A. 分类B. 聚类C. 预测D. 数据清洗答案:D2. 以下哪个算法不是用于分类的?A. 决策树B. 支持向量机C. K-均值D. 神经网络答案:C3. 在数据挖掘中,哪个指标用于衡量分类模型的性能?A. 准确率B. 召回率C. F1分数D. 所有以上答案:D4. 以下哪个不是数据挖掘中的聚类算法?A. K-均值B. DBSCANC. AprioriD. 层次聚类答案:C5. 在关联规则挖掘中,哪个算法是最著名的?A. AprioriB. FP-GrowthC. EMD. K-均值答案:A二、多项选择题6. 数据挖掘过程中可能需要进行的预处理步骤包括哪些?A. 缺失值处理B. 异常值检测C. 数据标准化D. 特征选择答案:ABCD7. 以下哪些是监督学习算法?A. 线性回归B. 逻辑回归C. 决策树D. K-均值答案:ABC8. 在数据挖掘中,以下哪些是评估模型性能的指标?A. 精确度B. 召回率C. 混淆矩阵D. ROC曲线答案:ABCD9. 以下哪些是无监督学习算法?A. K-均值B. 主成分分析C. 自动编码器D. 支持向量机答案:ABC10. 在数据挖掘中,以下哪些是特征工程的步骤?A. 特征提取B. 特征选择C. 特征转换D. 特征降维答案:ABCD三、填空题11. 数据挖掘中的________是指从大量数据中提取模式或知识的过程。
答案:知识发现12. 在分类问题中,________是指模型预测正确的样本数量占总样本数量的比例。
答案:准确率13. 在聚类分析中,________是一种基于密度的聚类算法,它将具有足够高密度的区域划分为一个簇。
答案:DBSCAN14. 在关联规则挖掘中,________算法通过减少候选项集来提高挖掘效率。
答案:FP-Growth15. 在数据挖掘中,________是指通过算法自动从数据中学习并构建模型的过程。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘考试题目——聚类
一 、填空题
1、密度的基于中心的方法使得我们可以将点分类为:__________、________ 、_________。
2、DBSCAN算法在最坏的情况下,时间复杂度是__________、空间复杂度是__________。
3、DBSCAN算法的优点是_______、__________________________。
4、DBSCAN算法的缺点是处理_________________、_____________的数据效果不好。
5、DBSCAN算法的参数有:___________、____________。
6、簇的有效性的非监督度量常常可以分为两类:__________、__________,它常采用的指
标为__________。
7、簇的有效性的监督度量通常称为___________,它度量簇标号与外部提供的标号的匹配程
度主要借助____________。
8、在相似度矩阵评价的聚类中,如果有明显分离的簇,则相似度矩阵应当粗略地是
__________。
9、DBSCAN算法的参数确定的基本方法是观察____________________的特性。
10、不引用附加的信息,评估聚类分析结果对数据拟合情况属于__________技术。
答案:
1、 核心点 边界点 噪声点
2、 O(n2) O(n)
3、 耐噪声 能够处理任意大小和形状的簇
4、 高维数据 变密度的
5、 EPS MinPts
6、 簇的凝聚性 簇的分离性 均方差(SSE)
7、 外部指标 监督指标的熵
8、 块对角的
9、 点到它的第K个最近邻的距离(K-距离)
10、非监督
二、选择题
1、DBSCAN算法的过程是(B)。
① 删除噪声点。
② 每组连通的核心点形成一个簇。
③ 将所有点标记为核心点、边界点和噪声点。
④ 将每个边界点指派到一个与之关联的核心点的簇中。
⑤ 为距离在Eps之内的所有核心点之间赋予一条边。
A:①②④⑤③
B:③①⑤②④
C:③①②④⑤
D:①④⑤②③
2、如果有m个点,DBSCAN在最坏的情况下的时间复杂度度为(C)。
A O(m) B O(mlogm) C O(m2) D O(logm)
3、在基本DBSCAN的参数选择方法中,点到它的K个最近邻的距离中的K选作为哪一个
参数(B)。
A Eps B MinPts C 质心 D 边界
4、当采用K-距离的方法选择DBSCAN的Eps和MinPts参数时,如果设置的K的值太大,
则小簇(尺寸小于K的簇)可能会被标记为(A)。
A 噪声 B 核心簇 C 边界簇 D以上都不对
5、如果处理以下形状的数据时,适宜采用DBSCAN的是(B)
A 球形 B SS形 C 椭球形 D 方形
6、DBSCAN之所以难以有效处理高维数据,其主要原因是(D)
A 数据的形状太复杂 B 簇的大小未知 C 噪声点过多 D 开销过大
7、簇评估能够做到(D)
①确定数据集的聚类趋势。
②确定正确的簇个数。
③比较两个簇集,确定那个更好。
④不引用附加信息,评估聚类分析结果对数据拟合情况
A ①② B ②③④ C ①②③ D①②③④
8、如果不考虑外部信息,聚类结构的有良性度量应当采用(A)。
A 均方差 B 方差 C 中位数 D 均值
9、比较不同的聚类或簇时,通常采用相对的簇评估度量,相对的簇评估以()来评价不同
的聚类或簇。
A SSE或熵 B 簇的大小 C 簇的形状 D 簇的密度
10、对于DBSCAN,参数Eps固定,当MinPts取值较大时,会导致(B)
A 能很好的区分各类簇
B 只有高密度的点的聚集区划为簇,其余划为噪声
C 低密度的点的聚集区划为簇,其余的划为噪声
D 无影响
三、判断题
1、DBSCAN的参数Eps固定时,MinPts的值越大越好。(错)
2、DBSCAN会把所有点划分到各自的簇中。(错)
3、在所有核心点的Eps半径邻域内的点数都不少于MinPts阈值。(对)
4、SSE在无监督的簇评估中能起到很好的作用。(对)
5、在通过相似度矩阵评估簇时,如果相似度矩阵是块对角的,说明具有明显分离的簇(对)。
6、DBSCAN能够很好的区分原始数据的形状,但受限于用户指定的参数。(对)
7、判断簇的个数不属于簇评估。(错)
8、在做聚类时,DBSCAN会删掉它认为是噪声点的数据点。(对)
9、DBSCAN的空间复杂度始终都是O(m)。(对)
10、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并
有重叠的簇。(对)
四、简答题
1、描述DBSCAN的算法过程。
①将所有点标记为核心点、边界点和噪声点。
②删除噪声点。
③为距离在Eps之内的所有核心点之间赋予一条边。
④每组连通的核心点形成一个簇。
⑤将每个边界点指派到一个与之关联的核心点的簇中。
2、简答DBSCAN的优点与不足。
答,优点:DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇,
缺点:当簇的密度变化过大时,DBSCAN就很难敏感的发现数据集中的簇。同时,
DBSCAN在处理高维数据时,会有很大的开销。
3、简述DBSCAN算法的核心思想。
DBSCAN算法的核心思想是一个簇中除了边界点,每个点在给定的半径Eps内必须包
含不少于PinPts个数据点,这样的点称为核心点。
4、确定DBSCAN参数的基本的方法是什么。
答:观察点到它的K个最近邻的距离的特性。对于某个K,计算所有点的K距离,以递增
的次序排序,绘制排序后的值。在图中找到曲线拐点,拐点处的函数值为Eps半径,K的值
为Minpts。
5、 簇评估的主要任务是什么。
答 :① 确定数据集的聚类趋势。
② 确定正确的簇个数。
③ 不引用附加的信息,评估聚类分析结果对数据的拟合情况。
④ 将聚类分析结果与已知的客观结果比较。
⑤ 比较两个簇集,确定哪个更好。