数据挖掘考试习题

合集下载

数据挖掘考试题及答案

数据挖掘考试题及答案### 数据挖掘考试题及答案#### 一、选择题（每题2分，共20分）1. 数据挖掘的目的是发现数据中的：- A. 错误- B. 模式- C. 异常- D. 趋势答案：B2. 以下哪项不是数据挖掘的常用算法：- A. 决策树- B. 聚类分析- C. 线性回归- D. 神经网络答案：C3. 关联规则挖掘中，Apriori算法用于发现：- A. 频繁项集- B. 异常值- C. 趋势- D. 聚类答案：A4. K-means算法是一种：- A. 分类算法- B. 聚类算法- C. 预测算法- D. 关联规则挖掘算法答案：B5. 以下哪个指标用于评估分类模型的性能：- A. 准确率- B. 召回率- C. F1分数- D. 所有以上答案：D#### 二、简答题（每题10分，共30分）1. 描述数据挖掘中的“过拟合”现象，并给出避免过拟合的策略。

答案：过拟合是指模型对训练数据拟合得过于完美，以至于失去了泛化能力。

避免过拟合的策略包括：使用交叉验证、正则化技术、减少模型复杂度、获取更多的训练数据等。

2. 解释什么是“数据清洗”以及它在数据挖掘中的重要性。

答案：数据清洗是指从原始数据中识别并纠正（或删除）错误、重复或不完整的数据的过程。

它在数据挖掘中至关重要，因为脏数据会导致分析结果不准确，影响最终的决策。

3. 描述“特征选择”在数据挖掘中的作用。

答案：特征选择是数据挖掘中用来降低数据维度、提高模型性能和减少计算成本的过程。

通过选择最有信息量的特征，可以去除冗余或无关的特征，从而提高模型的准确性和效率。

#### 三、应用题（每题25分，共50分）1. 假设你正在分析一个电子商务网站的用户购买行为，描述你将如何使用数据挖掘技术来识别潜在的营销机会。

答案：首先，我会使用聚类分析来识别不同的用户群体。

然后，通过关联规则挖掘来发现不同用户群体的购买模式。

接着，利用分类算法来预测用户可能感兴趣的产品。

数据挖掘与分析考试试题

数据挖掘与分析考试试题一、选择题（每题 3 分，共 30 分）1、以下哪个不是数据挖掘的主要任务？（）A 分类B 聚类C 数据清洗D 关联规则挖掘2、在数据挖掘中，以下哪种方法常用于处理缺失值？（）A 直接删除包含缺失值的记录B 用平均值填充缺失值C 用中位数填充缺失值D 以上方法都可以3、决策树算法中，用于选择最佳分裂特征的指标通常是（）A 信息增益B 基尼系数C 准确率D 召回率4、以下哪个不是聚类算法？（）A KMeans 算法B 层次聚类算法C 朴素贝叶斯算法D DBSCAN 算法5、数据挖掘中的关联规则挖掘，常用的算法是（）A Apriori 算法B C45 算法C KNN 算法D SVM 算法6、以下哪种数据预处理方法可以用于将连续型特征转换为离散型特征？（）A 标准化B 归一化C 分箱D 主成分分析7、在构建分类模型时，如果数据集存在类别不平衡问题，以下哪种方法可以解决？（）A 过采样B 欠采样C 调整分类阈值D 以上方法都可以8、以下哪个指标常用于评估分类模型的性能？（）A ROC 曲线下面积B 均方误差C 平均绝对误差D 决定系数9、对于高维数据，以下哪种方法可以进行降维？（）A 因子分析B 线性判别分析C 主成分分析D 以上方法都可以10、以下关于数据挖掘的描述，错误的是（）A 数据挖掘可以发现隐藏在数据中的模式和关系B 数据挖掘需要大量的数据C 数据挖掘的结果一定是准确无误的D 数据挖掘是一个反复迭代的过程二、填空题（每题 3 分，共 30 分）1、数据挖掘的一般流程包括：＿_______、＿_______、＿_______、＿_______、＿_______和________。

2、分类算法中，常见的有________、＿_______、＿_______等。

3、聚类算法中，KMeans 算法的基本思想是：＿_______。

4、关联规则挖掘中，常用的度量指标有________、＿_______等。

数据挖掘原理与应用---试题及答案试卷十二答案精选全文完整版

数据挖掘原理与应用试题及答案试卷一、（30分，总共30题，每题答对得1分，答错得0分）单选题1、在ID3算法中信息增益是指（ D ）A、信息的溢出程度B、信息的增加效益C、熵增加的程度最大D、熵减少的程度最大2、下面哪种情况不会影响K-means聚类的效果？（ B ）A、数据点密度分布不均B、数据点呈圆形状分布C、数据中有异常点存在D、数据点呈非凸形状分布3、下列哪个不是数据对象的别名 ( C )A、样品B、实例C、维度D、元组4、人从出生到长大的过程中，是如何认识事物的？ ( D )A、聚类过程B、分类过程C、先分类，后聚类D、先聚类，后分类5、决策树模型中应如何妥善处理连续型属性：（ C ）A、直接忽略B、利用固定阈值进行离散化C、根据信息增益选择阈值进行离散化D、随机选择数据标签发生变化的位置进行离散化6、假定用于分析的数据包含属性age。

数据元组中age的值如下（按递增序）：13，15，16，16，19，20，20，21，22，22，25，25，25，30，33，33，35，35，36，40，45，46，52，70。

问题：使用按箱平均值平滑方法对上述数据进行平滑，箱的深度为3。

第二个箱子值为：( A )A、18.3B、22.6C、26.8D、27.97、建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？( C )A、根据内容检索B、建模描述C、预测建模D、寻找模式和规则8、如果现在需要对一组数据进行样本个体或指标变量按其具有的特性进行分类，寻找合理的度量事物相似性的统计量，应该采取（ A ）A、聚类分析B、回归分析C、相关分析D、判别分析9、时间序列数据更适合用（ A ）做数据规约。

A、小波变换B、主成分分析C、决策树D、直方图10、下面哪些场景合适使用PCA？（ A ）A、降低数据的维度，节约内存和存储空间B、降低数据维度，并作为其它有监督学习的输入C、获得更多的特征D、替代线性回归11、数字图像处理中常使用主成分分析（PCA）来对数据进行降维，下列关于PCA算法错误的是：（ C ）A、PCA算法是用较少数量的特征对样本进行描述以达到降低特征空间维数的方法；B、PCA本质是KL-变换；C、PCA是最小绝对值误差意义下的最优正交变换；D、PCA算法通过对协方差矩阵做特征分解获得最优投影子空间，来消除模式特征之间的相关性、突出差异性；12、将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？（ C ）A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘13、假设使用维数降低作为预处理技术，使用PCA将数据减少到k维度。

数据挖掘考试习题

数据挖掘考试习题 work Information Technology Company.2020YEAR数据挖掘考试题一．选择题1. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离()A.分类B.聚类C.关联分析D.主成分分析2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值，它是一种凝聚层次聚类技术。

A.MIN(单链)B.MAX(全链)C.组平均D.Ward方法3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。

A 分类B 预测 C关联规则分析 D聚类4.关于K均值和DBSCAN的比较，以下说法不正确的是( )A.K均值丢弃被它识别为噪声的对象，而DBSCAN一般聚类所有对象。

B.K均值使用簇的基于原型的概念，DBSCAN使用基于密度的概念。

C.K均值很难处理非球形的簇和不同大小的簇，DBSCAN可以处理不同大小和不同形状的簇D.K均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇5.下列关于Ward’s Method说法错误的是：( )A.对噪声点和离群点敏感度比较小B.擅长处理球状的簇C.对于Ward方法，两个簇的邻近度定义为两个簇合并时导致的平方误差D.当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似6.下列关于层次聚类存在的问题说法正确的是：( )A.具有全局优化目标函数B.Group Average擅长处理球状的簇C.可以处理不同大小簇的能力D.Max对噪声点和离群点很敏感7.下列关于凝聚层次聚类的说法中，说法错误的事：( )A.一旦两个簇合并，该操作就不能撤销B.算法的终止条件是仅剩下一个簇OC.空间复杂度为()2mD.具有全局优化目标函数8.规则{牛奶，尿布}→{啤酒}的支持度和置信度分别为：( )9.下列( )是属于分裂层次聚类的方法。

A.MinB.MaxC.Group AverageD.MST10.对下图数据进行凝聚聚类操作，簇间相似度使用MAX计算，第二步是哪两个簇合并：( )A.在{3}和{l,2}合并B.{3}和{4,5}合并C.{2,3}和{4,5}合并D. {2,3}和{4,5}形成簇和{3}合并二．填空题：1.属性包括的四种类型：、、、。

数据挖掘考试题库及答案

数据挖掘考试题库及答案一、选择题1. 数据挖掘是从大量数据中提取有价值信息的过程，以下哪项不是数据挖掘的主要任务？A. 预测B. 分类C. 聚类D. 数据可视化答案：D2. 以下哪种技术不属于数据挖掘的常用方法？A. 决策树B. 支持向量机C. 关联规则D. 数据仓库答案：D3. 数据挖掘中，以下哪项技术常用于分类和预测？A. 神经网络B. K-均值聚类C. 主成分分析D. 决策树答案：D4. 在数据挖掘中，以下哪个概念表示数据集中的属性？A. 数据项B. 数据记录C. 数据属性D. 数据集答案：C5. 数据挖掘中，以下哪个算法用于求解关联规则？A. Apriori算法B. ID3算法C. K-Means算法D. C4.5算法答案：A二、填空题6. 数据挖掘的目的是从大量数据中提取______信息。

答案：有价值7. 在数据挖掘中，分类任务分为有监督学习和______学习。

答案：无监督8. 决策树是一种用于分类和预测的树形结构，其核心思想是______。

答案：递归划分9. 关联规则挖掘中，支持度表示某个项集在数据集中的出现频率，置信度表示______。

答案：包含项集的记录中同时包含结论的记录的比例10. 数据挖掘中，聚类分析是将数据集划分为若干个______的子集。

答案：相似三、判断题11. 数据挖掘只关注大量数据中的异常值。

（）答案：错误12. 数据挖掘是数据仓库的一部分。

（）答案：正确13. 决策树算法适用于处理连续属性的分类问题。

（）答案：错误14. 数据挖掘中的聚类分析是无监督学习任务。

（）答案：正确15. 关联规则挖掘中，支持度越高，关联规则越可靠。

（）答案：错误四、简答题16. 简述数据挖掘的主要任务。

答案：数据挖掘的主要任务包括预测、分类、聚类、关联规则挖掘、异常检测等。

17. 简述决策树算法的基本原理。

答案：决策树算法是一种自顶向下的递归划分方法。

它通过选择具有最高信息增益的属性进行划分，将数据集划分为若干个子集，直到满足停止条件。

数据挖掘知识竞赛题库及答案

数据挖掘知识竞赛题库及答案一、选择题1. 数据挖掘的目的是从大量的数据中发现有价值的信息和知识。

以下哪个不是数据挖掘的主要任务？A. 分类B. 聚类C. 预测D. 图像识别答案：D2. 在数据挖掘过程中，特征工程是指什么？A. 选择与目标变量相关的特征B. 对特征进行标准化处理C. 特征降维D. 以上都是答案：D3. K-近邻算法是一种基于什么的分类方法？A. 决策树B. 支持向量机C. 神经网络D. 实例匹配答案：D4. 在数据挖掘中，什么是衡量分类器性能的主要指标？A. 准确率B. 召回率C. F1值D. AUC值答案：D5. 在关联规则挖掘中，最小支持度是指什么？A. 出现在至少一半的事务中的项集B. 出现在至少一定比例的事务中的项集C. 出现在至少一个事务中的项集D. 出现在至少多数事务中的项集答案：B6. 以下哪种技术不属于聚类分析？A. K-均值B. 层次聚类C. 密度聚类D. 决策树聚类答案：D7. 在时间序列分析中，什么是时间序列的前向扩散？A. 过去的信息对当前信息的影响B. 当前的信息对过去信息的影响C. 未来的信息对当前信息的影响D. 当前的信息对未来信息的影响答案：C8. 在数据挖掘中，什么是基于模型的预测方法？A. 利用已有数据建立模型，对新数据进行预测B. 直接对原始数据进行预测C. 利用专家经验进行预测D. 利用机器学习算法进行预测答案：A9. 在数据挖掘中，什么是维度归一化？A. 将特征值缩放到一个固定范围B. 减少特征的数量C. 特征选择D. 特征提取答案：A10. 在数据挖掘中，什么是过拟合？A. 模型在训练集上的性能很好，但在测试集上的性能较差B. 模型在训练集上的性能较差，但在测试集上的性能很好C. 模型在训练集和测试集上的性能都很好D. 模型在训练集和测试集上的性能都较差答案：A二、填空题1. 数据挖掘的主要任务包括分类、聚类、预测和__________。

数据挖掘测试题及答案

数据挖掘测试题及答案一、选择题1. 数据挖掘的目的是：A. 数据清洗B. 数据转换C. 模式发现D. 数据存储答案：C2. 以下哪项不是数据挖掘的常用算法？A. 决策树B. 聚类分析C. 线性回归D. 关联规则答案：C二、填空题1. 数据挖掘中的_________是指在大量数据中发现的有意义的模式。

答案：知识2. 一种常用的数据挖掘技术是_________，它用于发现数据中隐藏的分组。

答案：聚类三、简答题1. 简述数据挖掘与数据分析的区别。

答案：数据挖掘是一种自动或半自动的过程，旨在从大量数据中发现模式和知识。

数据分析通常涉及更具体的查询和问题，使用统计方法来理解数据。

2. 描述什么是关联规则挖掘，并给出一个例子。

答案：关联规则挖掘是一种用于发现变量之间有趣关系的技术，特别是变量之间的频繁模式、关联或相关性。

例如，在市场篮子分析中，关联规则挖掘可以用来发现顾客购买行为中的模式，如“购买面包的顾客中有80%也购买了牛奶”。

四、计算题1. 给定以下数据集，计算支持度和置信度：| 事务ID | 购买的商品 |||-|| 1 | A, B || 2 | A, C || 3 | B, C || 4 | A, B, C || 5 | B, D |(1) 计算项集{A}的支持度。

(2) 计算规则A => B的置信度。

答案：(1) 项集{A}的支持度为4/5，因为A出现在4个事务中。

(2) 规则A => B的置信度为3/4，因为A和B同时出现在3个事务中，而A出现在4个事务中。

五、论述题1. 论述数据挖掘在电子商务中的应用，并给出至少两个具体的例子。

答案：数据挖掘在电子商务中的应用非常广泛，包括：- 客户细分：通过数据挖掘技术，商家可以识别不同的客户群体，为每个群体提供定制化的服务或产品。

- 推荐系统：利用关联规则挖掘，电商平台可以推荐用户可能感兴趣的商品，提高用户满意度和购买率。

- 欺诈检测：通过分析交易模式，数据挖掘可以帮助识别异常行为，预防信用卡欺诈等风险。

数据挖掘测试题及答案

数据挖掘测试题及答案一、单项选择题（每题2分，共10题，共20分）1. 数据挖掘中，用于发现数据集中的关联规则的算法是：A. K-meansB. AprioriC. Naive BayesD. Decision Tree答案：B2. 以下哪个选项不是数据挖掘的步骤之一：A. 数据预处理B. 数据探索C. 数据收集D. 数据分析答案：C3. 在分类问题中，以下哪个算法属于监督学习：A. 聚类B. 决策树C. 关联规则D. 异常检测答案：B4. 数据挖掘中，用于发现数据集中的频繁项集的算法是：A. K-meansB. AprioriC. Naive BayesD. Decision Tree5. 在数据挖掘中，以下哪个选项不是数据预处理的步骤：A. 数据清洗B. 数据集成C. 数据变换D. 数据分类答案：D6. 以下哪个算法主要用于聚类问题：A. K-meansB. AprioriC. Naive BayesD. Decision Tree答案：A7. 在数据挖掘中，以下哪个选项不是数据挖掘的应用领域：A. 市场分析B. 医疗诊断C. 社交网络分析D. 视频游戏开发答案：D8. 以下哪个算法主要用于异常检测：A. K-meansB. AprioriC. Naive BayesD. One-Class SVM答案：D9. 在数据挖掘中，以下哪个选项不是数据挖掘的输出结果：B. 规则C. 趋势D. 软件答案：D10. 以下哪个算法主要用于分类问题：A. K-meansB. AprioriC. Naive BayesD. Decision Tree答案：D二、多项选择题（每题3分，共5题，共15分）1. 数据挖掘中，以下哪些算法可以用于分类问题：A. K-meansB. Decision TreeC. Naive BayesD. Logistic Regression答案：BCD2. 在数据挖掘中，以下哪些步骤属于数据预处理：A. 数据清洗B. 数据集成C. 数据变换D. 数据分类答案：ABC3. 以下哪些算法可以用于聚类问题：A. K-meansB. AprioriC. Hierarchical ClusteringD. DBSCAN答案：ACD4. 在数据挖掘中，以下哪些步骤属于数据探索：A. 数据可视化B. 数据摘要C. 数据分类D. 数据变换答案：AB5. 以下哪些算法可以用于异常检测：A. K-meansB. One-Class SVMC. Isolation ForestD. Apriori答案：BC三、简答题（每题5分，共3题，共15分）1. 简述数据挖掘中关联规则挖掘的主要步骤。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

欢迎阅读数据挖掘考试题一．选择题1. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？( )A.分类B.聚类C.关联分析D.主成分分析2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值，它是一种凝聚层次聚类技术。

A.MIN(单链)B.MAX(全链)C.组平均D.Ward方法3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。

A 分类B 预测C关联规则分析D聚类4.关于K均值和DBSCAN的比较，以下说法不正确的是( )A.K均值丢弃被它识别为噪声的对象，而DBSCAN一般聚类所有对象。

B.K均值使用簇的基于原型的概念，DBSCAN使用基于密度的概念。

2.是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。

3. 基本凝聚层次聚类算法空间复杂度，时间复杂度，如果某个簇到其他所有簇的距离存放在一个有序表或堆中，层次聚类所需要的时间复杂度将为。

4. 聚类中，定义簇间的相似度的方法有（写出四个）：、、、。

5. 层次聚类技术是第二类重要的聚类方法。

两种层次聚类的基本方法：、。

6. 组平均是一种界于和之间的折中方法。

7. 相似度矩阵可以用相识度表示还可以用表示。

8. 全链在处理大小不同的簇时，可能使破裂，并且偏好。

9. 单链技术擅长于处理，但对和很敏感。

10. 聚类分析可以看做是一种的分类。

（有监督、无监督）三．判断题1.从点作为个体簇开始，每一步合并两个最接近的簇，这是一种分裂的层次聚类方法。

（）2.数据挖掘的目标不在于数据采集策略，而在于对已经存在的数据进行模式的发掘。

（）3.在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。

（）4.当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似。

（）5.DBSCAN是相对抗噪声的，并且能够处理任意形状和大小的簇。

（）6.属性的性质不必与用来度量他的值的性质相同。

（）7.全链对噪声点和离群点很敏感。

（）8.对于非对称的属性，只有非零值才是重要的。

（）9.K均值可以很好的处理不同密度的数据。

（）10.单链技术擅长处理椭圆形状的簇。

（）四．综合题1. 何为层次聚类？它用哪两种图表示？?2. 两种层次聚类的基本方法？两种方法的定义？3.分别写出Min、Max和组平均的优缺点？4.写出基本凝聚层次聚类的算法？5.由下图已给出的距离矩阵，将Max用于6个点样本数据集，画出层次聚类的树状图？P1 P2 P3 P4 P5 P6P1 0.00 0.24 0.22 0.37 0.34 0.23P2 0.24 0.00 0.14 0.20 0.13 0.25P3 0.22 0.14 0.00 0.15 0.28 0.11P4 0.37 0.20 0.15 0.00 0.29 0.22P5 0.34 0.13 0.28 0.29 0.00 0.39P6 0.23 0.25 0.11 0.22 0.39 0.00考试题+答案一．选择题1. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？(B)A.分类B.聚类C.关联分析D.主成分分析2. （C）将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值，它是一种凝聚层次聚类技术。

A.MIN(单链)B.MAX(全链)C.组平均D.Ward方法3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了(C )数据挖掘方法。

A 分类B 预测C关联规则分析D聚类4.关于K均值和DBSCAN的比较，以下说法不正确的是(A)A.K均值丢弃被它识别为噪声的对象，而DBSCAN一般聚类所有对象。

B.K均值使用簇的基于原型的概念，DBSCAN使用基于密度的概念。

C.K均值很难处理非球形的簇和不同大小的簇，DBSCAN可以处理不同大小和不同形状的簇D.K均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇5.下列关于Ward’s Method说法错误的是：（C）A.对噪声点和离群点敏感度比较小B.擅长处理球状的簇C.对于Ward 方法，两个簇的邻近度定义为两个簇合并时导致的平方误差D.当两个点之间的邻近度取它们之间距离的平方时，Ward 方法与组平均非常相似7.下列关于层次聚类存在的问题说法正确的是：（B ）A 具有全局优化目标函数B.Group Average 擅长处理球状的簇C.可以处理不同大小簇的能力D.Max 对噪声点和离群点很敏感7.下列关于凝聚层次聚类的说法中，说法错误的事：（D ）A.一旦两个簇合并，该操作就不能撤销B.算法的终止条件是仅剩下一个簇C.空间复杂度为()2m OD.具有全局优化目标函数8.规则{牛奶，尿布}→{啤酒}的支持度和置信度分别为：(C )TID项集 12345 {面包，牛奶} {面包，尿布，啤酒，鸡蛋} {牛奶，尿布，啤酒，可乐} {面包，牛奶，尿布，啤酒} {面包，牛奶，尿布，可乐}9.下列( D )是属于分裂层次聚类的方法。

A.MinB.MaxC.Group AverageD.MST10.对下图数据进行凝聚聚类操作，簇间相似度使用MAX 计算，第二步是哪两个簇合并：（B ）A.在{3}和{l,2}合并B.{3}和{4,5}合并C.{2,3}和{4,5}合并D. {2,3}和{4,5}形成簇和{3}合并二．填空题：1.属性包括的四种类型：标称、序数、区间、比率。

2.组平均是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。

3. 基本凝聚层次聚类算法空间复杂度()2m O ，时间复杂度()3m O ，如果某个簇到其他所有簇的距离存放在一个有序表或堆中，层次聚类所需要的时间复杂度将为()m m O log 2。

4. 聚类中，定义簇间的相似度的方法有（写出四个）：MIN（单链）、MAX（全链）、组平均、Ward方法。

5. 层次聚类技术是第二类重要的聚类方法。

两种层次聚类的基本方法：凝聚层次聚类、分裂层次聚类。

6.组平均是一种界于单链和全链之间的折中方法。

7. 相似度矩阵可以用相识度表示还可以用距离表示。

8. 全链在处理大小不同的簇时，可能使大的簇破裂，并且偏好球形。

9. 单链技术擅长于处理非椭圆形状的簇，但对噪声点和离群点很敏感。

10. 聚类分析可以看做是一种无监督的分类。

（有监督、无监督）三．判断题：1. 从点作为个体簇开始，每一步合并两个最接近的簇，这是一种分裂的层次聚类方法。

（×）2. 数据挖掘的目标不在于数据采集策略，而在于对已经存在的数据进行模式的发掘。

（√）3. 在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。

（×）4. 当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似。

（√）5. DBSCAN是相对抗噪声的，并且能够处理任意形状和大小的簇。

（√）6. 属性的性质不必与用来度量他的值的性质相同。

（√）7. 全链对噪声点和离群点很敏感。

（×）8. 对于非对称的属性，只有非零值才是重要的。

（√）9. K均值可以很好的处理不同密度的数据。

（×）10.单链技术擅长处理椭圆形状的簇。

（×）四．综合题1. 何为层次聚类？它用哪两种图表示？?层次聚类为嵌套簇的聚集，组成一棵层次数。

两种主要图的表示：树状图和嵌套簇图。

2. 两种层次聚类的基本方法？两种方法的定义？凝聚层次聚类和分裂层次聚类凝聚的：从点作为个体簇开始，每一步合并两个最接近的簇。

分裂的：从包含所有点的某个簇开始，每一步分裂一个簇，直到仅剩下单点簇。

3.分别写出Min、Max和组平均的优缺点？定义方优点缺点式Min 能处理非椭圆形状对噪声和离群点很敏感Max 对噪声点和离群点敏感度较小1.当处理簇大小不同时，较大的簇容易破裂2.偏好处理球状的簇组平均对噪声点和离群点敏感度较小偏好处理球状的簇4.写出基本凝聚层次聚类的算法？算法步骤：(1)计算邻近度矩阵(2)Repeat(3) 合并最邻近的两个簇(4) 更新邻近度矩阵，以反映新的簇与原来的簇之间的邻近度(5)Until 仅剩下一个簇5.由下图已给出的距离矩阵，将Max用于6个点样本数据集，画出层次聚类的树状图？P1 P2 P3 P4 P5 P6P1 0.00 0.24 0.22 0.37 0.34 0.23P2 0.24 0.00 0.14 0.20 0.13 0.25P3 0.22 0.14 0.00 0.15 0.28 0.11P4 0.37 0.20 0.15 0.00 0.29 0.22P5 0.34 0.13 0.28 0.29 0.00 0.39P6 0.23 0.25 0.11 0.22 0.39 0.00这是告诉你的计算过程，现在不要写了。

P3和P6最近所以36结合，P2和P5较近，所以25结合，现在是{3,6}、{2,5}、{1}和{4}，Dist({3,6},{4}) = max(dist(3,4),dist(6,4))= max(0.15,0.22)=0.22Dist({3,6},{2,5}) = max(dist(3,2),dist(6,2),dist(3,5),dist(6,5))=max(0.14,0.25,0.28,0.39)=0.39Dist({3,6},{1})=max(dist(3,1),dist(6,1))=max(0.22,0.23)=0.23所以{3,6}和{4}结合。