数据挖掘考试题

合集下载

数据挖掘考试题及答案

数据挖掘考试题及答案

数据挖掘考试题及答案### 数据挖掘考试题及答案#### 一、选择题(每题2分,共20分)1. 数据挖掘的目的是发现数据中的:- A. 错误- B. 模式- C. 异常- D. 趋势答案:B2. 以下哪项不是数据挖掘的常用算法:- A. 决策树- B. 聚类分析- C. 线性回归- D. 神经网络答案:C3. 关联规则挖掘中,Apriori算法用于发现:- A. 频繁项集- B. 异常值- C. 趋势- D. 聚类答案:A4. K-means算法是一种:- A. 分类算法- B. 聚类算法- C. 预测算法- D. 关联规则挖掘算法答案:B5. 以下哪个指标用于评估分类模型的性能:- A. 准确率- B. 召回率- C. F1分数- D. 所有以上答案:D#### 二、简答题(每题10分,共30分)1. 描述数据挖掘中的“过拟合”现象,并给出避免过拟合的策略。

答案:过拟合是指模型对训练数据拟合得过于完美,以至于失去了泛化能力。

避免过拟合的策略包括:使用交叉验证、正则化技术、减少模型复杂度、获取更多的训练数据等。

2. 解释什么是“数据清洗”以及它在数据挖掘中的重要性。

答案:数据清洗是指从原始数据中识别并纠正(或删除)错误、重复或不完整的数据的过程。

它在数据挖掘中至关重要,因为脏数据会导致分析结果不准确,影响最终的决策。

3. 描述“特征选择”在数据挖掘中的作用。

答案:特征选择是数据挖掘中用来降低数据维度、提高模型性能和减少计算成本的过程。

通过选择最有信息量的特征,可以去除冗余或无关的特征,从而提高模型的准确性和效率。

#### 三、应用题(每题25分,共50分)1. 假设你正在分析一个电子商务网站的用户购买行为,描述你将如何使用数据挖掘技术来识别潜在的营销机会。

答案:首先,我会使用聚类分析来识别不同的用户群体。

然后,通过关联规则挖掘来发现不同用户群体的购买模式。

接着,利用分类算法来预测用户可能感兴趣的产品。

(完整版)数据挖掘考试题库

(完整版)数据挖掘考试题库

1.何谓数据挖掘?它有哪些方面的功能?从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。

相关的名称有知识发现、数据分析、数据融合、决策支持等。

数据挖掘的功能包括:概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。

2.何谓粒度?它对数据仓库有什么影响?按粒度组织数据的方式有哪些?粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。

粒度影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度。

按粒度组织数据的方式主要有:①简单堆积结构②轮转综合结构③简单直接结构④连续结构3.简述数据仓库设计的三级模型及其基本内容。

概念模型设计是在较高的抽象层次上的设计,其主要内容包括:界定系统边界和确定主要的主题域。

逻辑模型设计的主要内容包括:分析主题域、确定粒度层次划分、确定数据分割策略、定义关系模式、定义记录系统。

物理数据模型设计的主要内容包括:确定数据存储结构、确定数据存放位置、确定存储分配以及确定索引策略等。

在物理数据模型设计时主要考虑的因素有: I/O存取时间、空间利用率和维护代价等。

提高性能的主要措施有划分粒度、数据分割、合并表、建立数据序列、引入冗余、生成导出数据、建立广义索引等。

4.在数据挖掘之前为什么要对原始数据进行预处理?原始业务数据来自多个数据库或数据仓库,它们的结构和规则可能是不同的,这将导致原始数据非常的杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理。

为数据挖掘算法提供完整、干净、准确、有针对性的数据,减少算法的计算量,提高挖掘效率和准确程度。

5.简述数据预处理方法和内容。

①数据清洗:包括填充空缺值,识别孤立点,去掉噪声和无关数据。

②数据集成:将多个数据源中的数据结合起来存放在一个一致的数据存储中。

数据挖掘试题(150道)

数据挖掘试题(150道)
.对于分类算法,待分样本集中地大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响.(对)
.法是一种在已知后验概率与类条件概率地情况下地模式分类方法,待分样本地分类结果取决于各类域中样本地全体. (错)
.分类模型地误差大致分为两种:训练误差()和泛化误差(). (对)
.在决策树中,随着树中结点数变得太大,即使模型地训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足地问题.(错)
.是这样一个分类器,他寻找具有最小边缘地超平面,因此它也经常被称为最小边缘分类器()(错)
.在聚类分析当中,簇内地相似性越大,簇间地差别越大,聚类地效果就越差.(错)
.聚类分析可以看作是一种非监督地分类.(对)
.均值是一种产生划分聚类地基于密度地聚类算法,簇地个数由算法自动地确定.(错
.给定由两次运行均值产生地两个不同地簇集,误差地平方和最大地那个应该被视为较优.(错)
.选择一个算法过程使评分函数最优
.决定用什么样地数据管理原则以高效地实现算法.
.数据挖掘地预测建模任务主要包括哪几大类问题?( )
.分类.回归.模式发现.模式匹配
.数据挖掘算法地组件包括:( )
.模型或模型结构.评分函数.优化和搜索方法.数据管理策略
.以下哪些学科和数据挖掘有密切联系?( )
.统计.计算机组成原理.矿产挖掘.人工智能
.数据仓库地主要目标就是帮助分析,做长期性地战略制定
.数据仓库在技术上地工作过程是:()
.数据地抽取.存储和管理.数据地表现个人收集整理勿做商业用途
.数据仓库设计.数据地表现
.联机分析处理包括以下哪些基本分析功能?()
.聚类.切片.转轴.切块.分类
.利用算法计算频繁项集可以有效降低计算频繁集地时间复杂度.在以下地购物篮中产生支持度不小于地候选项集,在候选项集中需要剪枝地是()

数据挖掘练习题附答案

数据挖掘练习题附答案

数据挖掘练习题A一、简答题1. 数据对象之间的相似性可用距离来衡量,常见的距离形式有哪些?答:曼哈顿距离,欧几里得距离,切比雪夫距离,闵可夫斯基距离,杰卡德距离2. 简述朴素贝叶斯分类的基本思想。

答:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个概率最大,就认为此待分类项属于哪个类别。

1)设x={a!,a",…,a#}为一个待分类项,a为x的特征属性;2)有类别集合C={y!,y",…,y$}3) 计算p(y!|x),p(y"|x),… p(y$|x)4) 如果p(y%|x)=max {p(y!|x),p(y"|x),…,p(y%|x)},则x∈y%3. 在做数据清洗时,如何处理缺失值?答:处理缺失值的方法有3种:1)忽略元组;2)数据补齐,包括人工填写、特殊值填充、平均值填充、使用最可能的值填充;3)不处理。

4. 简述K-means算法的基本步骤。

答:1)任意选择k个对象作为初始的簇中心;2)计算其它对象与这k个中心的距离,然后把每个对象归入离它“最近”的簇;3)计算各簇中对象的平均值,然后选择簇中心(离平均值“最近”的簇);4)重复第2步到第3步直到簇中心不再变化为止。

5. 在关联规则中,支持度(support)和置信度(confidence)的含义分别是什么?答:支持度support(x->y)=p(x,y),表示项集中同时含有x和y的概率。

置信度confidence(x->y)=p(y/x),表示在关联规则的先决条件x发生的条件下,关联结果y发生的概率,即含有x的项集中,同时含有y的可能性。

二、计算题1.假定属性A的取值x在[x_min,x_max]之间,其中x_min和x_max分别为属性A的最小值和最大值,请利用最小-最大规范化方法(也称离差标准化,是对原始数据的线性变化),将x转化到新的区间[y_min,y_max]中,结果用x’表示。

数据挖掘考试题库及答案

数据挖掘考试题库及答案

数据挖掘考试题库及答案一、选择题1. 数据挖掘是从大量数据中提取有价值信息的过程,以下哪项不是数据挖掘的主要任务?A. 预测B. 分类C. 聚类D. 数据可视化答案:D2. 以下哪种技术不属于数据挖掘的常用方法?A. 决策树B. 支持向量机C. 关联规则D. 数据仓库答案:D3. 数据挖掘中,以下哪项技术常用于分类和预测?A. 神经网络B. K-均值聚类C. 主成分分析D. 决策树答案:D4. 在数据挖掘中,以下哪个概念表示数据集中的属性?A. 数据项B. 数据记录C. 数据属性D. 数据集答案:C5. 数据挖掘中,以下哪个算法用于求解关联规则?A. Apriori算法B. ID3算法C. K-Means算法D. C4.5算法答案:A二、填空题6. 数据挖掘的目的是从大量数据中提取______信息。

答案:有价值7. 在数据挖掘中,分类任务分为有监督学习和______学习。

答案:无监督8. 决策树是一种用于分类和预测的树形结构,其核心思想是______。

答案:递归划分9. 关联规则挖掘中,支持度表示某个项集在数据集中的出现频率,置信度表示______。

答案:包含项集的记录中同时包含结论的记录的比例10. 数据挖掘中,聚类分析是将数据集划分为若干个______的子集。

答案:相似三、判断题11. 数据挖掘只关注大量数据中的异常值。

()答案:错误12. 数据挖掘是数据仓库的一部分。

()答案:正确13. 决策树算法适用于处理连续属性的分类问题。

()答案:错误14. 数据挖掘中的聚类分析是无监督学习任务。

()答案:正确15. 关联规则挖掘中,支持度越高,关联规则越可靠。

()答案:错误四、简答题16. 简述数据挖掘的主要任务。

答案:数据挖掘的主要任务包括预测、分类、聚类、关联规则挖掘、异常检测等。

17. 简述决策树算法的基本原理。

答案:决策树算法是一种自顶向下的递归划分方法。

它通过选择具有最高信息增益的属性进行划分,将数据集划分为若干个子集,直到满足停止条件。

数据挖掘考试题库完整

数据挖掘考试题库完整

一、名词解释1. 数据仓库:是一种新的数据处理体系结构 .是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化 (不同时间)的数据集合.为企业决策支持系统提供所需的集成信息。

2. 孤立点:指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。

3. OLAP:OLAP 是在OLTP 的基础上发展起来的.以数据仓库为基础的数据分析处理 .是共享多维信息的快速分析.是被专门设计用于支持复杂的分析操作 .侧重对分析人员和高层管理人员的决策支持。

4. 粒度:指数据仓库的数据单位中保存数据细化或综合程度的级别。

粒度影响存放在数据仓库中的数据量的大小 .同时影响数据仓库所能回答查询问题的细节程度。

5. 数据规范化:指将数据按比例缩放(如更换大单位).使之落入一个特定的区域(如 0-1) 以提高数据挖掘效率的方法。

规范化的常用方法有:最大-最小规范化、零-均值规范化、小数定标规范化。

6. 关联知识:是反映一个事件和其他事件之间依赖或相互关联的知识。

如果两项或多项属性之间存在关联.那么其中一项的属性值就可以依据其他属性值进行预测。

7. 数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的数据中.提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

8. OLTP:OLTP 为联机事务处理的缩写.OLAP 是联机分析处理的缩写。

前者是以数据库为基础的.面对的是操作人员和低层管理人员 .对基本数据进行查询和增、删、改等处理。

9. ROLAP:是基于关系数据库存储方式的 .在这种结构中.多维数据被映像成二维关系表.通常采用星型或雪花型架构.由一个事实表和多个维度表构成。

10. MOLAP:是基于类似于“超立方”块的OLAP 存储结构.由许多经压缩的、类似于多维数组的对象构成.并带有高度压缩的索引及指针结构 .通过直接偏移计算进行存取。

11. 数据归约:缩小数据的取值范围.使其更适合于数据挖掘算法的需要 .并且能够得到和原始数据相同的分析结果。

数据挖掘测试题及答案

数据挖掘测试题及答案

数据挖掘测试题及答案一、选择题1. 数据挖掘的目的是:A. 数据清洗B. 数据转换C. 模式发现D. 数据存储答案:C2. 以下哪项不是数据挖掘的常用算法?A. 决策树B. 聚类分析C. 线性回归D. 关联规则答案:C二、填空题1. 数据挖掘中的_________是指在大量数据中发现的有意义的模式。

答案:知识2. 一种常用的数据挖掘技术是_________,它用于发现数据中隐藏的分组。

答案:聚类三、简答题1. 简述数据挖掘与数据分析的区别。

答案:数据挖掘是一种自动或半自动的过程,旨在从大量数据中发现模式和知识。

数据分析通常涉及更具体的查询和问题,使用统计方法来理解数据。

2. 描述什么是关联规则挖掘,并给出一个例子。

答案:关联规则挖掘是一种用于发现变量之间有趣关系的技术,特别是变量之间的频繁模式、关联或相关性。

例如,在市场篮子分析中,关联规则挖掘可以用来发现顾客购买行为中的模式,如“购买面包的顾客中有80%也购买了牛奶”。

四、计算题1. 给定以下数据集,计算支持度和置信度:| 事务ID | 购买的商品 |||-|| 1 | A, B || 2 | A, C || 3 | B, C || 4 | A, B, C || 5 | B, D |(1) 计算项集{A}的支持度。

(2) 计算规则A => B的置信度。

答案:(1) 项集{A}的支持度为4/5,因为A出现在4个事务中。

(2) 规则A => B的置信度为3/4,因为A和B同时出现在3个事务中,而A出现在4个事务中。

五、论述题1. 论述数据挖掘在电子商务中的应用,并给出至少两个具体的例子。

答案:数据挖掘在电子商务中的应用非常广泛,包括:- 客户细分:通过数据挖掘技术,商家可以识别不同的客户群体,为每个群体提供定制化的服务或产品。

- 推荐系统:利用关联规则挖掘,电商平台可以推荐用户可能感兴趣的商品,提高用户满意度和购买率。

- 欺诈检测:通过分析交易模式,数据挖掘可以帮助识别异常行为,预防信用卡欺诈等风险。

数据挖掘期末考试题库

数据挖掘期末考试题库

数据挖掘期末考试题库第一部分:单项选择题(每题2分,共20分)1. 数据挖掘的主要任务是:A. 数据清洗B. 数据可视化C. 数据预处理D. 信息提取2. 下列哪种算法不属于分类算法?A. 决策树B. K均值聚类C. 朴素贝叶斯D. 支持向量机3. 以下哪种评估指标适合用于回归模型的评价?A. 准确率B. 精确率C. 均方误差D. 召回率4. 什么是过拟合?A. 欠拟合B. 模型泛化能力差C. 训练数据效果好,测试数据效果差D. 模型对训练数据过于复杂5. 数据挖掘中最常用的算法之一是:A. 关联规则挖掘B. 地理聚类算法C. PCA主成分分析D. 神经网络6. 在K均值聚类算法中,K的取值是:A. 随机指定B. 需要提前确定C. 可以根据数据自动调整D. 由数据量来决定7. 数据不平衡问题常见的解决方法是:A. 降采样B. 升采样C. 阈值移动D. 过采样8. 常用的数据变换方法包括:A. 标准化B. 特征选择C. 特征抽取D. 以上都是9. 以下哪个不是决策树算法?A. CARTB. SVMC. ID3D. C4.510. 数据挖掘的任务包括:A. 分类B. 预测C. 聚类D. 以上都是第二部分:简答题(每题5分,共25分)1. 请简要介绍数据挖掘的相关概念及主要任务。

2. 什么是数据清洗?数据预处理的主要步骤有哪些?3. 请简要描述K均值聚类算法的原理及应用场景。

4. 什么是特征选择?为什么特征选择在数据挖掘中很重要?5. 请解释模型评估中的ROC曲线及AUC指标的含义。

第三部分:分析题(每题10分,共30分)1. 请根据提供的数据集,使用决策树算法进行分类预测,并对算法进行评估。

2. 请使用K均值聚类算法对特定数据进行聚类,并解释聚类结果的含义。

3. 请选择一个自己感兴趣的数据集,设计一个数据挖掘项目,并说明项目的背景、目的、方法及预期结果。

第四部分:应用题(每题15分,共30分)1. 请根据给定的销售数据,利用关联规则挖掘算法找出频繁项集和关联规则,并分析其规则含义及实际应用。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘考试题LG GROUP system office room 【LGA16H-LGYY-LGUA8Q8-LGA162】数据挖掘考试题一.选择题1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离()A.分类B.聚类C.关联分析D.主成分分析2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。

(单链) (全链) C.组平均方法3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。

A 分类B 预测 C关联规则分析 D聚类4.关于K均值和DBSCAN的比较,以下说法不正确的是( )均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。

均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。

均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇5.下列关于Ward’s Method说法错误的是:( )A.对噪声点和离群点敏感度比较小B.擅长处理球状的簇C.对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差D.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似6.下列关于层次聚类存在的问题说法正确的是:( )A.具有全局优化目标函数B.Group Average擅长处理球状的簇C.可以处理不同大小簇的能力D.Max对噪声点和离群点很敏感7.下列关于凝聚层次聚类的说法中,说法错误的事:( )A.一旦两个簇合并,该操作就不能撤销B.算法的终止条件是仅剩下一个簇C.空间复杂度为()2mOD.具有全局优化目标函数8.规则{牛奶,尿布}→{啤酒}的支持度和置信度分别为:( )9.下列( )是属于分裂层次聚类的方法。

Average10.对下图数据进行凝聚聚类操作,簇间相似度使用MAX计算,第二步是哪两个簇合并:( )A.在{3}和{l,2}合并B.{3}和{4,5}合并C.{2,3}和{4,5}合并D. {2,3}和{4,5}形成簇和{3}合并二.填空题:1.属性包括的四种类型:、、、。

2.是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。

3. 基本凝聚层次聚类算法空间复杂度,时间复杂度,如果某个簇到其他所有簇的距离存放在一个有序表或堆中,层次聚类所需要的时间复杂度将为。

4. 聚类中,定义簇间的相似度的方法有(写出四个):、、、。

5. 层次聚类技术是第二类重要的聚类方法。

两种层次聚类的基本方法:、。

6. 组平均是一种界于和之间的折中方法。

7. 相似度矩阵可以用相识度表示还可以用表示。

8. 全链在处理大小不同的簇时,可能使破裂,并且偏好。

9. 单链技术擅长于处理,但对和很敏感。

10. 聚类分析可以看做是一种的分类。

(有监督、无监督)三.判断题1.从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。

()2.数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。

()3.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。

()4.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似。

()5.DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。

()6.属性的性质不必与用来度量他的值的性质相同。

()7.全链对噪声点和离群点很敏感。

()8.对于非对称的属性,只有非零值才是重要的。

()9.K均值可以很好的处理不同密度的数据。

()10.单链技术擅长处理椭圆形状的簇。

()四.综合题1. 何为层次聚类它用哪两种图表示2. 两种层次聚类的基本方法两种方法的定义3.分别写出Min、Max和组平均的优缺点?4.写出基本凝聚层次聚类的算法?5.由下图已给出的距离矩阵,将Max用于6个点样本数据集,画出层次聚类的一.选择题1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离(B)A.分类B.聚类C.关联分析D.主成分分析2. (C)将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。

(单链) (全链) C.组平均方法3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了(C )数据挖掘方法。

A 分类B 预测 C关联规则分析 D聚类4.关于K均值和DBSCAN的比较,以下说法不正确的是(A)均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。

均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。

均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇5.下列关于Ward’s Method说法错误的是:(C)A.对噪声点和离群点敏感度比较小B.擅长处理球状的簇C.对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差D.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似7.下列关于层次聚类存在的问题说法正确的是:(B)A具有全局优化目标函数Average 擅长处理球状的簇 C.可以处理不同大小簇的能力 对噪声点和离群点很敏感7.下列关于凝聚层次聚类的说法中,说法错误的事:(D ) A.一旦两个簇合并,该操作就不能撤销 B.算法的终止条件是仅剩下一个簇 C.空间复杂度为()2m O D.具有全局优化目标函数8.规则{牛奶,尿布}→{啤酒}的支持度和置信度分别为:(C )9.下列( D )是属于分裂层次聚类的方法。

Average10.对下图数据进行凝聚聚类操作,簇间相似度使用MAX 计算,第二步是哪两个簇合并:(B )A.在{3}和{l,2}合并B.{3}和{4,5}合并C.{2,3}和{4,5}合并D. {2,3}和{4,5}形成簇和{3}合并 二.填空题:1.属性包括的四种类型:标称、序数、区间、比率。

2.组平均是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。

3. 基本凝聚层次聚类算法空间复杂度()2m O ,时间复杂度()3m O ,如果某个簇到其他所有簇的距离存放在一个有序表或堆中,层次聚类所需要的时间复杂度将为()m m O log 2。

4. 聚类中,定义簇间的相似度的方法有(写出四个):MIN (单链)、MAX (全链)、组平均、Ward 方法。

5. 层次聚类技术是第二类重要的聚类方法。

两种层次聚类的基本方法:凝聚层次聚类、分裂层次聚类。

6.组平均是一种界于单链和全链之间的折中方法。

7. 相似度矩阵可以用相识度表示还可以用距离表示。

8. 全链在处理大小不同的簇时,可能使大的簇破裂,并且偏好球形。

9. 单链技术擅长于处理非椭圆形状的簇,但对噪声点和离群点很敏感。

10. 聚类分析可以看做是一种无监督的分类。

(有监督、无监督)三.判断题:1. 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。

(×)2. 数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。

(√)3. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。

(×)4. 当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似。

(√)5. DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。

(√)6. 属性的性质不必与用来度量他的值的性质相同。

(√)7. 全链对噪声点和离群点很敏感。

(×)8. 对于非对称的属性,只有非零值才是重要的。

(√)9. K均值可以很好的处理不同密度的数据。

(×)10.单链技术擅长处理椭圆形状的簇。

(×)四.综合题1. 何为层次聚类它用哪两种图表示层次聚类为嵌套簇的聚集,组成一棵层次数。

两种主要图的表示:树状图和嵌套簇图。

2. 两种层次聚类的基本方法两种方法的定义凝聚层次聚类和分裂层次聚类凝聚的:从点作为个体簇开始,每一步合并两个最接近的簇。

分裂的:从包含所有点的某个簇开始,每一步分裂一个簇,直到仅剩下单点簇。

3.分别写出Min、Max和组平均的优缺点?4.写出基本凝聚层次聚类的算法?算法步骤:(1)计算邻近度矩阵(2)Repeat(3) 合并最邻近的两个簇(4) 更新邻近度矩阵,以反映新的簇与原来的簇之间的邻近度(5)Until 仅剩下一个簇5.由下图已给出的距离矩阵,将Max用于6个点样本数据集,画出层次聚类的P3和P6最近所以36结合,P2和P5较近,所以25结合,现在是{3,6}、{2,5}、{1}和{4},Dist({3,6},{4}) = max(dist(3,4),dist(6,4))= max,=Dist({3,6},{2,5}) = max(dist(3,2),dist(6,2),dist(3,5),dist(6,5))=max,,,=Dist({3,6},{1})=max(dist(3,1),dist(6,1))=max,=所以{3,6}和{4}结合。

现在还剩{3,6,4}、{2,5}和{1}Dist({3,6,4},{2,5})=max(dist(3,2),dist{3,5},dist(6,2),dist(6,5),dist( 4,2),dist(4,5))=max,,,,,=Dist({3,6,4},{1})=max(dist(3,1),dist(6,1),dist(4,1))=max,,=Dist({2,5},{1})=max(dist(2,1),dist(5,1))=max,=所以{2,5}和{1}结合Dist({3,6,4},{2,5,1})=。

相关文档
最新文档