机器学习与数据挖掘复习.

合集下载

数据挖掘与机器学习试题精选

数据挖掘与机器学习试题精选近年来，随着大数据时代的来临，数据挖掘和机器学习成为了炙手可热的领域。

数据挖掘通过发现数据中的潜在模式和规律，为企业决策提供支持；而机器学习则致力于通过数据和经验，使计算机系统具备自我学习和优化的能力。

在这篇文章中，我将为大家精选几道数据挖掘与机器学习的试题，希望能对大家的学习和实践有所帮助。

1. 假设你收集到了包括用户ID、年龄、性别、购买次数和购买金额等多个特征的数据集，请问如何利用数据挖掘方法对用户进行分类？首先，我们可以使用分类算法对用户进行分类。

常用的分类算法有决策树、朴素贝叶斯、支持向量机等。

接着，我们需要对数据集进行预处理，包括数据清洗、特征选择、特征缩放等。

然后，将数据集分为训练集和测试集，使用训练集进行模型训练，再利用测试集进行模型评估。

最后，根据模型的准确度、召回率、精确度等指标对用户进行分类。

2. 在机器学习中，有监督学习和无监督学习的区别是什么？请举例说明。

有监督学习是指将训练样本的标签信息作为输入，通过对样本的学习和建模，得到一个能够对未知样本进行准确预测的模型。

常见的有监督学习算法有线性回归、逻辑回归、支持向量机等。

例如，在垃圾邮件过滤中，我们可以通过学习已标记的垃圾邮件和非垃圾邮件的样本，构建一个分类模型来自动过滤垃圾邮件。

无监督学习则是指在没有样本标签的情况下，通过对数据的分析和学习，找出其中潜在的模式和规律。

常见的无监督学习算法有聚类分析、关联规则挖掘等。

例如，我们可以使用聚类算法对一组顾客的购买记录进行聚类，从而发现不同类型的顾客群体。

3. 如何评价一个机器学习模型的性能？评价机器学习模型的性能通常需要使用各种评估指标，比如准确度、召回率、精确度、F1值等。

这些指标可以帮助我们了解模型的分类效果、模型对于不同类别的识别能力和模型的整体性能。

除了这些指标，我们还可以使用ROC曲线、混淆矩阵等来评估模型。

4. 数据挖掘中的特征选择有哪些方法？请简要介绍。

数据挖掘机器学习考试简答题

1.何谓数据挖掘？它有哪些方面的功能？答：从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘；（3分）数据挖掘的功能包括：概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等（3分）2.列举4种监督式学习算法？答：K-近邻算法（k-Nearest Neighbors）（1分）线性回归（Linear Regression）（1分）逻辑回归（Logistic Regression）（1分）支持向量机（1分）（备注：列出任意4种即可得分）3.过拟合问题产生的原因有哪些以及解决过拟合的办法有哪些？答：产生的原因：（1）使用的模型比较复杂，学习能力过强。

（1分)（2）有噪声存在（1分)（3）数据量有限（1分)解决过拟合的办法：（1）提前终止（当验证集上的效果变差的时候）（1分)（2）数据集扩增（1分)（3）寻找最优参数（1分)4.支持向量机有哪些优缺点？答：优势：（1）在高维空间非常高效（1分)（2）即使在数据维度比样本大的情况下仍然有效（1分)（3）在决策函数中使用训练集的子集，因此它也是高效利用内存的（1分) 缺点：（1）如果特征数量比样本数量大得多，在选择核函数时要避免过拟合（1分) （2）支持向量机通过寻找支持向量找到最优分割平面，是典型的二分类问题，因此无法解决多分类问题。

（1分)（3）不直接提供概率估计（1分)5、数据挖掘的两大目标分为预测和描述，监督学习和无监督学习分别对应哪类目标？监督学习和无监督学习的定义是什么？分别从监督类学习和无监督类学习中找一类算法的实例应用进行举例说明。

答：1.监督学习对应预测，无监督学习对应描述2.监督学习：从标记的训练数据来推断一个功能的机器学习任务无监督学习:根据类别未知（没有标记）的训练样本解决模式识别中的各种问题。

3.监督学习举例：分类算法，利用分类算法进行垃圾电子邮件的分类。

数据挖掘考试复习资料

数据挖掘考试复习资料一、名词解释1、数据仓库：面向主题的、集成的、非易失的、是随时间变化的数据集合，用来支持管理决策.2、聚类：将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类3、数据挖掘：从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识4、人工神经网络：人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。

在工程与学术界也常直接简称为神经网络或类神经网络.5、文本挖掘：文本数据挖掘（Text Mining）是指从文本数据中抽取有价值的信息和知识的计算机处理技术6、OLAP：又称联机分析处理，是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业为特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。

定义1：OLAP是针对特定问题的联机数据访问和分析。

通过对信息（维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取，允许管理决策人员对数据进行深入地观察。

定义2：OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业“维”特性的信息进行快速、一致、交互地存取，从而获得对数据的更深入了解的一类软件技术。

)7、概念描述：就是对目标类对象的内涵进行描述,并概括这类对象的有关特征.特征化：提供给定数据汇集的简洁汇总比较：提供两个或多个数据汇集的比较描述8、信息熵：在信息论中，熵被用来衡量一个随机变量出现的期望值.它代表了在被接收之前，信号传输过程中损失的信息量，又被称为信息熵。

信息熵也称信源熵、平均自信息量。

二、简答题1、数据仓库和传统数据库的区别和联系是什么?（1）区别:数据仓库和数据库是不同的概念数据仓库是一个综合的解决方案，而数据库只是一个现成的产品。

数据仓库需要一个功能十分强大的数据库引擎来驱动，它更偏向于工程。

数据挖掘复习资料

1、数据挖掘定义：数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取出隐含在其中的、人们事先不知道、但又是潜在有用的信息和知识的过程。

2、数据仓库定义：数据仓库是面向主题的、集成的、不可更新却又随时间不断变化的数据集合，用以支持经营管理中的决策制定过程。

3、数据仓库与数据挖掘的关系：1）数据仓库系统的数据可以作为数据挖掘的数据源。

2）数据挖掘的数据源不一定必须是数据仓库系统4、数据挖掘的功能：概念描述，关联分析，分类与预测，聚类分析，趋势分析，孤立点分析，偏差分析。

5、数据挖掘的过程：P10图1-26、数据仓库的基本特征：1）数据仓库的数据是面向主题的；2）数据仓库的数据是集成的；3）数据仓库的数据时不可更新的；4）数据仓库的数据时随时间不断变化的。

7、主题的概念：主题是一个抽象的概念，是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的对象。

面向主题的组织方式，就是在较高层次上对分析对象的数据的一个完整、一致的描述，能完整、统一的刻画各个分析对象所涉及的企业的各项数据，以及数据之间的联系。

8、对数据仓库基本特征的理解：数据仓库是面向主题的，面向主题性表示数据仓库中数据组织的基本原则，数据仓库中所有的数据都是围绕某一主题组织、展开的。

数据仓库的数据是集成的，数据仓库的数据时从原有的分散的数据库、数据文件和数据段中抽取来的，数据来源可能既有内部数据又有外部数据，因此，在数据进入数据仓库之前，必然要经过转换、统一和综合。

这一步是数据仓库建设中最关键最复杂的一步，要进行统一数据源，综合和计算两步，统一数据源包括命名规则，编码，数据特征，度量单位的统一。

数据仓库是不可更新的，数据仓库的数据主要提供企业决策分析之用，不是用来进行日常操作的，一般只保存过去的数据，而且不是随着数据源的变化实时更新，数据仓库中的数据一般不再修改。

9、数据仓库数据分为四个级别：早期细节级，当前细节级，轻度综合级和高度综合级。

大学数据挖掘课程考试复习材料

一.1. 数据处理与数据分为'操作型'和'分析型'处理与数据. 2. 操作型数据: 细节的, 存取瞬间准确，可更新，操作需求事先可知，生命周期符合SDLC,性能要求高，操作单元，事务驱动,面向应用,支持日常操作. 分析型数据:综合的,代表过去数据,不更新,操作需求事先不可知，完全不同的生命周期，要求宽松，操作集合，分析驱动，面向分析，支持管理需求. 3. 数据组织结构:高度综合级，轻度综合级，当前细节级，早期细节级. 4. 数据组织形式:简单堆积文件，轮转综合文件，简化直接文件，连续文件. 5. 数据挖掘七个步骤:数据清理，数据集成，数据选择，数据变换，数据挖掘，模式评估，知识表示. 6. 数据挖掘系统的主要成分:1 数据库，数据仓库或其他信息库 2 数据库或数据仓库效劳器 3 知识库4数据挖掘引擎 5 模式评估模块6图形用户界面.7 数据挖掘功能: 用于指定数据挖掘任务中要找的模式类型. 8. 数据挖掘任务分为两类:描述和预测.9. 概念/类描述方法:数据特征化，数据区分，数据特征化与比拟. 10 .关联分析发现关联规那么，适用于事务数据分析.关联规那么分为:多维/单维关联规那么. 11. 粒度越大，表示细节程度越低，综合程度越高. 12. 数据仓库定义: 数据仓库是一个面向主题的，集成的，不可更新且随时间不断变化的数据集合，用来支持管理人员的决策. 二.1. 数据立方体由位和事实定义. 维是关于一个组织想要记录的透视或实体;事实是数值的度量. 2. 多维数据模型模式分类: 星型模式，雪花模式，事实星座模式[ 维表，事实表]. 3.度量根据所用的聚焦函数分成三类:分布的度量，代数的度量，整体的度量. 4. 多维数据模型上的OLAP操作：上卷，下钻，切片，切块，转轴，钻过，钻透.5.数据仓库设计的四种视图:1 自顶向下视图2数据源视图 3 数据仓库视图4商务查询视图. 6. 数据仓库通常采用三层结构：底层：数据仓库效劳器中层：OLAP效劳器顶层：前端工具.7. OLAP效劳器类型：关系OLAP(ROLAP效劳器；多维OLAP(MOLAP效劳器；混合OLAP(HOLAP效劳器；特殊的SQL效劳器. 8. ROLAP：关系数据库技术; 响应慢; 数据装载快; 存储消耗小; 维数无限制; 通过SQL 实现存储；维护困难；无文件大小控制.MOLAP专为OLAP设计；性能好，反响快；数据装载快；需进行预计算，无法支持维变化；缺乏模型，访问标准，管理简便；受操作系统文件大小控制. *ROLAP不支持有关预计算读写操作，无法多行计算，无法维间计算• *MOLAP支持高性能决策支持计算；跨维计算，多用户读写操作. 9. 数据仓库设计步骤：1 选取待建模的高务处理 2 选取高务处理的粒度 3 选取用于每个事实表记录的维 4 选取安放在事实表中的度量三 1. 数据质量问题：1 噪声数据2空缺数据3不一致数据4重复5维度高 2. 噪声处理方法：1 分箱2聚类3回归 3. 预处理的根本方法：数据清理，数据集成，数据变量，数据归约 4. 数据选取的参考原那么：1 尽可能赋予属性名和属性值的明确含义2同意多数据源的属性值编码 3 去掉唯一的属性4取出重复属性5去除可以忽略字段6合理选择关联字段 5. 分箱的4种方法：统一权重，统一区间，最小熵，用户自定义区间 6. 数据平滑方法：按箱平均值平滑，按箱中值平滑，按箱便捷平滑7. 数据集成涉及问题：模式集成，数据冗余，数据值冲突8. 数据交换涉及内容：平滑，聚集，数据概化，标准化，属性构造. 9. 数据归约的策略：维归约，数据压缩，数值压缩，离散化和概念分层生成10. 属性子集选择的根本启发式方法包含的技术：1 逐步向前选择 2 逐步向后删除 3 向前选择和向后删除的结合 4 判定树归纳11. 压缩技术：有损(分为小波变换(分为DWT/DFT /主要成分分析PCA /无损12.数值归约：有参方法/无参方法13. 空缺值处理方法：1 忽略元组2人工填写空缺值3使用一个全局常量填充空缺值4使用属性的平局值填充空缺值5使用与给定元组属同一类的所有样本的平均值6使用最可能的值填充空缺值14.抽样：1简单项选择取n个样本，不回放2简单项选择择n个样本，回放3聚类抽样4分层抽样15. 概念分层方法： 1 分箱2直方图分析3聚类分析 4 基于熵的离散化4通过自然划分分段四.1. 数据挖掘语言分类：1 数据挖掘查询语言DMQL2 数据挖掘建模语言PMML3 通用数据挖掘语言 2. 数据挖掘任务的原语：1 任务相关数据原语2要挖掘的知识种类原语3背景知识原语4兴趣度测量原语5被发现模式的表示和可视原语3. 任务相关数据包括：1 数据库与数据仓库名称2数据立方3数据选择条件4相关属性或维5 数据分组条件 4. 背景知识概念分层的主要类型:1 模式层次 2 集合分组分层 3 基于操作层次 4 基于规那么分层 5. 兴趣度度量特点: 简洁性, 确定性, 实用性, 新颖性 6. 兴趣度的分类: 客观兴趣度〔数据驱动〕, 主观兴趣度〔用户驱动〕 7. 数据挖掘系统的结构设计耦合模式: 不耦合,松散耦合,半紧密耦合,紧密耦合8. 挖掘的知识类型:1 特征化2区分3关联4分类/ 预测 5 聚类五六. 1. 从数据分析角度，数据挖掘分为：描述性，预测性 2. 概念描述基本方法：多层概念，汇总，特征化，比拟根本技术：表，图表，图，规那么 3. 类比拟的步骤：数据收集，维相关分析，同步概化，导出比拟的表示 4. 关联规那么挖掘的两个过程： 1 找出频繁项集 2 由频繁项集产生强关联规那么 5. 关联规那么根本分类方法：1 按管理规那么处理的变量类别：布尔型和量化性 2 按关联规那么中数据的抽象层次：单层/多层关联规那么 3 按关联规那么中所涉及的变量数目：单维/ 多维关联规那么 4 按关联规那么的各种扩充，关联规那么可扩充到相关分析，以识别项是否相关 6. 多层关联规那么的主要挖掘方法：1 对于所有层使用一致的最小支持度2 在较低层使用递减的最小支持度 3 逐层独立 4 层交叉单项过滤 5 层交叉K-项集过滤七.1.分类与预测是两种数据分析形式•分类是预测分类标号〔离散性〕；预测是建立连续函数模型. 2. 数据分类步骤:1 学习,用分类算法分析训练数据2分类, 测试数据用于评估分类规那么的准确率. 3. 分类与预测的标准和评估:预测的准确率,速度,强壮度,可伸缩性,可解释性. 4. 常用分类方法:1 决策树归纳2贝叶斯信念网络 3 贝叶斯分类4神经网络5. 预测的方法:1 线性回归2 多元回归3 非线性回归4 广义线性模型*预测步骤:1. 问题的理解与提出 2. 数据准备2.1 变量选择 2.2 数据清洗 2.3 变量转化 2.4 可视化 3.1 神经网络 3.2 决策树3.3 关联规那么3.4 其他模型4结果评价与解释〔回1〕 6. 评估分类法准确性的方法:1 保持方法2 k- 交叉确认方法八.1 基于内存的聚类算法通常采用的数据结构:〔1〕数据矩阵:对象—变量结构〔二模矩阵〕〔2〕相异度矩阵:对象—结构〔单模矩阵〕 2. 对聚类质量/相异度估计评估方法:1 区间标度变量2二元变量3标称变量4比例标度型变量5混合类型的变量 3. 簇间距离度量标准:最短/ 最长/ 中间/平均距离 4. 典型的聚类过程:1 数据准备 2 特征提取 3 聚类 4 聚类结果评估5. 聚类方法的主要分类:1 划分方法2 层次方法3 基于密度的方法4 基于网络的方法5 基于模型的方法 6. 孤立点分析的主要方法:1 统计学方法2基于距离的方法3基于偏差的方法7. 划分方法:1 全局最优2启发式方法〔K- 均值,K- 中心点〕 8. 层次方法:1 凝聚方法〔自底向上方法〕2 分裂方法〔自顶向下〕9.复杂类型数据挖掘包括:1复杂对象2空间数据3多媒体数据4文本数据5WEB数据。

机器学习与数据挖掘考试试题及答案

机器学习与数据挖掘考试试题及答案一、选择题1. 以下哪种算法常用于分类问题？A. 线性回归B. 支持向量机C. 聚类分析D. 主成分分析答案：B. 支持向量机2. 数据集划分为训练集和测试集的目的是什么？A. 增加模型的复杂度B. 验证模型的性能C. 加速模型训练过程D. 提高数据的可视化效果答案：B. 验证模型的性能3. 常见的神经网络结构不包括：A. 多层感知器（MLP）B. 卷积神经网络（CNN）C. 循环神经网络（RNN）D. 支持向量机（SVM）答案：D. 支持向量机（SVM）4. 在数据挖掘中，关联规则用来描述：A. 哪些属性是关键属性B. 哪些实例之间存在相似性C. 哪些属性之间存在相关性D. 哪些属性可以被忽略答案：C. 哪些属性之间存在相关性5. 在集成学习中，袋装法（Bagging）常用的基分类器是：A. 决策树B. 朴素贝叶斯C. K近邻D. 支持向量机答案：A. 决策树二、简答题1. 请简要解释什么是过拟合（Overfitting），并提供防止过拟合的方法。

过拟合指的是模型在训练集上表现良好，但在测试集或新数据上表现不佳的现象。

过拟合的原因是模型过度学习了训练集的噪声或细节，将其误认为普遍规律。

防止过拟合的方法包括：- 增加训练数据量，以使模型接触到更多的样本，减少过拟合的可能性。

- 使用正则化技术，如L1正则化或L2正则化，对模型参数进行约束，减小参数的影响。

- 采用特征选择或降维方法，去除冗余或不重要的特征，减少模型在噪声上的过拟合。

- 使用交叉验证技术，将数据集划分为多个训练集和验证集，选择最优模型，降低过拟合的风险。

2. 请简述决策树算法的基本原理，并说明如何进行特征选择。

决策树算法通过构建一棵树形结构来进行分类或回归。

其基本原理是根据属性的划分规则将样本逐步分到不同的节点，直到达到终止条件（如叶子节点纯度满足一定要求或树的深度达到一定限制等）。

特征选择是决策树算法中非常重要的一部分，常用的特征选择方法包括：- 信息增益（Information Gain）：选择能够获得最大信息增益的属性作为划分属性。

数据挖掘复习

该过程由空属性集开始，选择原属性集中最好的属性，并将它添加到该集合中。 2)逐步向后删除(逐步消减方法）：
该过程由整个属性集开始。在每一步，删除掉在属性集中的最坏属性。直到无法选择出最坏属性或满足一定的阈值为止。 3)向前选择和向后删除的结合：向前选择和向后删除方法可以结合在一起，每一步选择一个最好的属性，并在剩余属性中删除一个最坏的属性。 4)判定树归纳判定树算法，如 ID3 和 C4．5 最初是用于分类的 ,也可用于构造属性子集（3）维归约：主要用于检测并删除不相关、弱相关或冗余的属性维。（4）数值规约：利用更简单的数据表达形式参数与非参数两种方法（5）离散化和概念分层生成：离散化技术通过将属性域划分为区间来减少给定连续属性值的个数。区间的标号可替代实际的数据值。概念层次树可以通过利用较高层次概念替换较低层次概念而减少原来的数据。
在数据挖掘中发现知识数据挖掘是知识发现过程中的一个步骤。它主要是利用某些特定的知识发现算法，在一定的运算效率限制下，从数据中挖掘出有价值的知识。知识发现的目的是从数据中发现知识，而数据挖掘则是知识发现中的一个特定步骤，两者都是从数据中发现知识。但是，知识发现是更广义一个概念，而数据挖掘则是更具体、更深入的概念，其关系体现在知识发现的过程中。数据挖掘技术直接影响着知识发现的结果。但是，数据挖掘过程作为知识发现的关键环节注重于处理过程及处理过程中算法的选取，知识发现则注重目的与结果。但是二者的本质是一致的，都是对原始数据进行分析处理，并提取出隐含在大量数据背后的反映数据内在特性的关系模式的过程。
EX1 假定属性 income 的最小与最大值分别为$12 000 和$98 000。
我们想映射 income 到区间[0，1]。根据最小-最大规范化，income 值$73000 将变换为

数据挖掘期末复习

• （选做）应如何对RetuersCorn数据集做预处理，以使用NaiveBayes算法进行分类？
– Classification/clustering等等这些数据挖掘模型可以分为有/无指导，其它方法也可以区分；如，normalize, standardize…
– 区分的依据：是否使用了类别标号 – 如何判断一种算法能处理什么类型的数据？k-means/kNN/C4.5/NavieBayes…
• Apriori性质
– 一个频繁项集的任意非空子集必定是频繁的； – 一个不频繁项集的任何超集必定是不频繁的；
• 算法：给定一个事务数据库 ---
– 如何从k-频繁项集得到候选的(k+1)-频繁项集？ – 如何得到所有的强关联规则？
分类及其评估
• 分类
– 有指导的学习 – 一般步骤
• k-NN
– 使用什么方法衡量样本间的相似度度量？
闭卷考试
• 题型
– 单项选择(21%) – 多项选择(16%) – 简答题(含计算题)(30%) – 综合应用题(33%)
• 内容
– 数据挖掘、机器学习的基本概念(Lecture1-4) – 关联规则挖掘(Lecture5-7) – 分类模型及其评估(Lecture8-11) – 聚类分析(Lecture12-14) – 属性选择/回归分析(Lecture14-15) – Weka软件(实验部分)
• k-means/DBSCAN的优缺点…
– 簇的形状；时间复杂度；结果的确定性；簇的数目…
• 你认为NavieBayes是“lazy”还是“eager”分类器?Why?你会选择J4.8还是NavieBayes对这样的数据进行分类？
– NavieBayes从训练数据集显式地构造了一个概率模型用于分类； – 通常，可以从分类效率、分类精度、误差成本(ROC曲线)等角度来

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

类器进行投票。

他适用于不稳定的学习过程，即数据集的一个小变动会产生大的差别，例如决策树、多层感知器。

6. Boosting 方法：它能提高弱分类器的性能。

它是带权值的抽样，改变数据对象的权值，分类好的数据给与小权值，分类不好的数据给与大权值，最终集成分类结果用加权投票的方法。

7. 一些经验： a 如果分类器不稳定用 bagging。

b 如果分类器稳定且简单用 boosting。

c 如果分类器稳定且复杂用随机注入。

d 如果数据有很多类，但是分类器只能处理两个类时，用错误纠正编码。

8. 为什么集成学习有效： a 从统计学角度来说当假设空间很大时，有可能有一些假设有着相同的精度，单一的学习器只能找出他们中的一个假设。

然而集成多个假设就有可能找到最可能的假设。

b 从计算角度来讲，很多单一学习算法都只能找到一个局部最优假设，当数据集很大时，可能很难找到一个最优假设，集成学习可以从多个起始点去局部逼近，这样就有可能得到一个全局最优的假设。

c 从表示角度来说，很多情况下最好的假设并不存在于假设空间中，当用集成方法对多个假设空间加权集成时就有可能突破假设空间找到最符合的假设。

第十一章聚类分析 1. 什么叫聚类分析：从给定对象中找出一些簇，使在同一簇中的对象要相似，类与类之间的对象要不相似。

我们希望类内部越紧越好，类之间界限要越明显越好。

2. 聚类的三类方法和其代表算法思想： a 分层聚类：簇之间是一个嵌套的形式，没有必要定义有多少个类，需要几个都可以。

且他可以定义多个含义，具体含义和问题有关。

两种方法：聚合方法：每个数据点都看为一个类，两两合并直到合并为一个类。

分裂方法：将所有的对象看做一个簇，分类直到每个类里包含一个点时停下。

此方法一旦将两个簇合并后就不能再更改，它也没有定义一个明确的目标函数，即不是全局最优化；每种方法都有各种缺点。

b 分区聚类：一个数据对象只属于一个簇。

K-means：1. 随机选择 k 个点作为初始中心点。

2. 计算每个点到不同中心点的距离，将点划分到几个簇里。

3. 重新计算每个簇的中心点。

4. 重复簇的划分直到簇的分布基本不变时停止。

c 基于密度的聚类：对类的定义不同，他认为类是由一些密集的点组成，这些密集的点被一些稀疏的点分开。

DBSCAN：认为类是基于密度的，它认为一个簇是由密度连接的点组成的最大的集合。

3. 层次局类中计算距离的方法： a 两簇之间的最近距离：可以划分大小不同的类；对噪声和例外点敏感。

b 两簇之间的最远距离：
对噪声和例外点不是那么敏感单不易划分大小相差很大的类。

c 组内平均距离：对噪声不是很敏感但是偏爱球形类。

d 中心点之间的距离。

11 / 13
null
置信度阈值。

置信度具有后件反弹调性，前提是他们都是从同一频繁项集中生成的。

9. 生成频繁项集的其他方法： a 项集格遍历：一般到特殊（频繁项集的最大长度不是太长）、特殊到一般（对发现稠密事务中最大频繁项集有用）、双向（加快确定频繁项集的边界）。

b 等价类。

c 宽度优先与深度优先。

10. FP 算法的基本思想： a 使用一种称作 FP 树的紧凑数据结构组织数据，并直接从该结构中提取频繁项集。

b FP 树是一种输入数据的压缩表示，它通过逐个读入事务然后将各事务映射到 FP 树中，路径可能有重叠，重叠越多表示越紧凑，越节省空间，从而达到压缩数据的目的。

c 递归地将树划分为一系列子树，在子树重生成频繁项集。

13 / 13。