大数据十大经典算法kNN讲解

合集下载

大数据十大经典算法kNN讲解

可解释性差
KNN算法的分类结果只依赖于最近邻的样本，缺乏可解释性。
无法处理高维数据
随着维度的增加，数据点之间的距离计算变得复杂，KNN算法在高维空间中的性能会受到影响。
对参数选择敏感
KNN算法中需要选择合适的K值，不同的K值可能会影响分类结果。
04
KNN算法的改进与优化
基于距离度量的优化
与神经网络算法的比较
神经网络算法
神经网络算法是一种监督学习算法，通过训练神经元之间的权重来学习数据的内在规律。神经网络算法在处理大数据集时需要大量的计算资源和时间，因为它的训练过程涉及到复杂的迭代和优化。
KNN算法
KNN算法的训练过程相对简单，不需要进行复杂的迭代和优化。此外，KNN算法对于数据的分布和规模不敏感，因此在处理不同规模和分布的数据集时具有较好的鲁棒性。
对数据分布不敏感
KNN算法对数据的分布不敏感，因此对于非线性问题也有较好的分类效果。
简单直观
KNN算法原理简单，实现直观，易于理解。
分类准确度高
基于实例的学习通常比基于规则或判别式的学习更为准确。
对异常值不敏感
由于KNN基于实例的学习方式，异常值对分类结果影响较小。
缺点
计算量大
KNN算法需要计算样本与所有数据点之间的距离，因此在大规模数据集上计算量较大。
欧氏距离
适用于数据特征呈正态分布的情况，但在非线性可分数据上表现不佳。
余弦相似度
适用于高维稀疏数据，能够处理非线性可分问题。
曼哈顿距离
适用于网格结构的数据，但在高维数据上计算量大。
皮尔逊相关系数
适用于衡量两组数据之间的线性关系。
K值选择策略的优化

knn算法的分类规则

knn算法的分类规则【原创实用版】目录1.KNN 算法的基本原理2.KNN 算法的分类规则3.KNN 算法的优缺点4.KNN 算法的应用实例正文1.KNN 算法的基本原理KNN（k-Nearest Neighbors，k-近邻）算法是一种基于距离度量的分类和回归方法。

它的基本原理是：在一个数据集中，距离目标点最近的 k 个邻居点的分类结果决定了目标点的分类结果。

2.KNN 算法的分类规则KNN 算法的分类规则可以分为以下几个步骤：（1）计算数据集中所有点之间的距离。

（2）对每个目标点，找到距离最近的 k 个邻居点。

（3）根据这 k 个邻居点的分类结果，计算目标点的分类结果。

通常采用多数投票法，即目标点的分类结果为这 k 个邻居点中出现次数最多的分类。

3.KNN 算法的优缺点优点：（1）KNN 算法简单易懂，易于实现。

（2）KNN 算法对数据集中的噪声不敏感，具有一定的鲁棒性。

（3）KNN 算法可以应用于各种类型的数据，包括数值型和类别型数据。

缺点：（1）KNN 算法的计算复杂度较高，尤其是当数据量较大时。

（2）KNN 算法对于离群点和边界数据较为敏感，容易受到这些数据的影响。

4.KNN 算法的应用实例KNN 算法在实际应用中具有广泛的应用，例如：（1）文本分类：将一篇文章根据其关键词和主题与其他文章进行分类。

（2）图像分类：根据图片的像素颜色和布局，将图片分类到不同的类别中。

（3）手写数字识别：根据手写数字的笔画和形状特征，将其识别为数字。

总之，KNN 算法是一种简单有效的分类方法，适用于各种类型的数据。

KNN（k近邻）机器学习算法详解

KNN（k近邻）机器学习算法详解KNN算法详解一、算法概述1、kNN算法又称为k近邻分类(k-nearest neighbor classification)算法。

最简单平凡的分类器也许是那种死记硬背式的分类器，记住所有的训练数据，对于新的数据则直接和训练数据匹配，如果存在相同属性的训练数据，则直接用它的分类来作为新数据的分类。

这种方式有一个明显的缺点，那就是很可能无法找到完全匹配的训练记录。

kNN算法则是从训练集中找到和新数据最接近的k条记录，然后根据他们的主要分类来决定新数据的类别。

该算法涉及3个主要因素：训练集、距离或相似的衡量、k的大小。

2、代表论文Discriminant Adaptive Nearest Neighbor ClassificationTrevor Hastie and Rolbert Tibshirani3、行业应用客户流失预测、欺诈侦测等（更适合于稀有事件的分类问题）二、算法要点1、指导思想kNN算法的指导思想是“近朱者赤，近墨者黑”，由你的邻居来推断出你的类别。

计算步骤如下：1）算距离：给定测试对象，计算它与训练集中的每个对象的距离?2）找邻居：圈定距离最近的k个训练对象，作为测试对象的近邻?3）做分类：根据这k个近邻归属的主要类别，来对测试对象分类2、距离或相似度的衡量什么是合适的距离衡量？距离越近应该意味着这两个点属于一个分类的可能性越大。

觉的距离衡量包括欧式距离、夹角余弦等。

对于文本分类来说，使用余弦(cosine)来计算相似度就比欧式(Euclidean)距离更合适。

3、类别的判定投票决定：少数服从多数，近邻中哪个类别的点最多就分为该类。

加权投票法：根据距离的远近，对近邻的投票进行加权，距离越近则权重越大（权重为距离平方的倒数）三、优缺点简单，易于理解，易于实现，无需估计参数，无需训练适合对稀有事件进行分类（例如当流失率很低时，比如低于0.5%，构造流失预测模型）特别适合于多分类问题(multi-modal,对象具有多个类别标签)，例如根据基因特征来判断其功能分类，kNN比SVM的表现要好懒惰算法，对测试样本分类时的计算量大，内存开销大，评分慢可解释性较差，无法给出决策树那样的规则。

knn聚类算法原理

knn聚类算法原理【原创版】目录1.KNN 聚类算法的概念2.KNN 聚类算法的原理3.KNN 聚类算法的优缺点4.KNN 聚类算法的应用实例正文1.KNN 聚类算法的概念KNN 聚类算法，全称为 k-近邻聚类算法，是一种基于距离度量的聚类方法。

该算法根据数据点之间的距离来将数据点划分为不同的簇。

其中，k 表示每个数据点所邻近的其它数据点的数量。

2.KNN 聚类算法的原理KNN 聚类算法的原理是：对于每个数据点，找到其距离最近的 k 个数据点，将这 k 个数据点划分为一个簇，然后根据这 k 个数据点所在簇的类别，确定该数据点的类别。

具体步骤如下：(1) 计算数据点之间的距离：计算数据集中每个数据点与其它数据点之间的距离。

(2) 确定 k 值：根据实际问题和数据规模，选取合适的 k 值。

k 值越大，聚类结果越稳定，但计算复杂度越高；k 值越小，聚类结果越敏感，但计算复杂度降低。

(3) 初始化簇：将数据集中每个数据点与其距离最近的 k 个数据点划分为一个簇，并将这 k 个数据点所在簇的类别作为该数据点的类别。

(4) 更新簇：对于尚未划分的簇，重复步骤 (3)，直到所有数据点都被划分到簇中。

3.KNN 聚类算法的优缺点优点：(1) 简单易懂：KNN 聚类算法原理简单，容易实现。

(2) 无需事先确定簇的数目：KNN 聚类算法根据数据点之间的距离自动划分簇。

(3) 对离群点不敏感：KNN 聚类算法能够较好地处理离群点。

缺点：(1) 计算复杂度高：KNN 聚类算法需要计算数据点之间的距离，计算复杂度较高。

(2) 对 k 值的依赖性强：KNN 聚类算法的性能受 k 值的影响较大，选取合适的 k 值较为困难。

4.KNN 聚类算法的应用实例KNN 聚类算法在许多领域都有广泛应用，例如数据挖掘、模式识别、图像处理等。

第1页共1页。

KNN讲解

成绩和毕业设计成绩4个维度（属性）作为探讨学生就业状态的主要影响因素。
2024/7/18
23
2024/7/18
24
2024/7/18
25
计算相似度
设两个特征向量分别为X=（x1,x2,...,xn）和Y=(y1,y2,...yn)
2024/7/18
26
将需要预测的学生的特征向量与训练集中的所有特征向量，用上述公式计算出距离，将各个距离值排序，将最距离小的排在前面，最后取前k个样本，得出在这k个样本中，国企、外企、私企所占比例，比例最大的就是该预测样本所属于的类别。
2024/7/18
27
传统KNN算法实验结果
2024/7/18
28
2024/7/18
29
2024/7/18
30
改进
1、样本特征加权处理
传统的方法认为样本各个特征（属性）的作用是相同的，即权重相同，无法体现各特征与分类间的关系。如果有些特征与分类相关度很高，有些很低，则其分类误差就会较大。
，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。该算法只计算“最近的”邻居样本，如果某一类的样本数量很大，那么可能目标样本并不接近这类样本，却会将目标样本分到该类下，影响分类准确率。
2024/7/18
14
(3)样本库容量依赖性较强； (4)K值不好确定；
(1)从降低计算复杂度的角度当样本容量较大以及特征属性较多时，KNN算
法分类的效率就将大大降低。可以采用以下方法进行改进。 ✓如果在使用KNN算法之前对样本的属性进行约简，删除那些对分类结果影响较小（不重要）的属性，则可以用KNN算法快速地得出待分类样本的类别，从而可以得到更好的效果。

最近邻算法(KNN)

最近邻算法（KNN）
KNN算法的步骤如下：
1.计算距离：计算测试样本与训练样本之间的距离，常用的距离度量
方法有欧氏距离、曼哈顿距离、余弦相似度等，选择合适的距离度量方法
是KNN算法的重要一环。

2.选择K值：确定K的取值，即选择最近的K个邻居来进行分类或回归。

K的取值通常是根据实际应用和数据集来确定的，一般选择较小的K
值会使模型更复杂，较大的K值会使模型更简单。

3.排序：根据计算得到的距离，对训练样本进行排序，选择距离最近
的K个邻居。

KNN算法的优点包括简单易懂、不需要训练过程、适用于多分类和回
归问题。

然而，KNN算法也有一些缺点。

首先，KNN算法需要计算测试样
本和所有训练样本之间的距离，当训练样本很大时，计算量可能会很大。

其次，KNN算法对于样本不平衡的数据集可能会造成预测结果偏向多数类别。

此外，KNN算法对于特征空间的密度变化敏感，如果样本分布不均匀，可能会影响预测结果。

为了提高KNN算法的性能，可以采取一些优化措施。

例如，可以使用
特征选择或降维方法来减少特征维度，以降低计算复杂度。

此外，可以使
用KD树、球树等数据结构来存储训练样本，以加速近邻的过程。

还可以
使用加权投票或距离加权的方法来考虑邻居之间的权重，使得距离更近的
邻居具有更大的影响力。

总之，最近邻算法（KNN）是一种简单而有效的分类和回归算法，具有广泛的应用。

虽然KNN算法有一些缺点，但通过适当的优化和改进，可以提高其性能并有效解决实际问题。

knn聚类算法基础知识

Knn(K最近邻分类算法)1.简介:邻近算法，或者说K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。

所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。

2.算法核心:kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。

该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

kNN方法在类别决策时，只与极少量的相邻样本有关。

由于kNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，kNN方法较其他方法更为适合。

3.例子:上图中，绿色圆要被决定赋予哪个类，是红色三角形还是蓝色四方形？如果K=3，由于红色三角形所占比例为2/3，绿色圆将被赋予红色三角形那个类，如果K=5，由于蓝色四方形比例为3/5，因此绿色圆被赋予蓝色四方形类。

4.算法核心思想:K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。

该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

KNN算法中，所选择的邻居都是已经正确分类的对象。

该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

KNN方法虽然从原理上也依赖于极限定理，但在类别决策时，只与极少量的相邻样本有关。

由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。

另外, KNN算法不仅可以用于分类，还可以用于回归。

通过找出一个样本的k个最近邻居，将这些邻居的属性的平均值赋给该样本，就可以得到该样本的属性。

KNN（K近邻法）算法原理

KNN（K近邻法）算法原理⼀、K近邻概述k近邻法（k-nearest neighbor, kNN）是⼀种基本分类与回归⽅法（有监督学习的⼀种），KNN(k-nearest neighbor algorithm)算法的核⼼思想是如果⼀个样本在特征空间中的k（k⼀般不超过20）个最相邻的样本中的⼤多数属于某⼀个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。

简单地说，K-近邻算法采⽤测量不同特征值之间的距离⽅法进⾏分类。

通常，在分类任务中可使⽤“投票法”，即选择这k个实例中出现最多的标记类别作为预测结果；在回归任务中可使⽤“平均法”，即将这k个实例的实值输出标记的平均值作为预测结果；还可基于距离远近进⾏加权平均或加权投票，距离越近的实例权重越⼤。

k近邻法不具有显式的学习过程，事实上，它是懒惰学习（lazy learning）的著名代表，此类学习技术在训练阶段仅仅是把样本保存起来，训练时间开销为零，待收到测试样本后再进⾏处理K近邻算法的优缺点：优点：精度⾼、对异常值不敏感、⽆数据输⼊假定缺点：计算复杂度⾼、空间复杂度⾼适⽤数据范围：数值型和标称型⼆、K近邻法的三要素距离度量、k值的选择及分类决策规则是k近邻法的三个基本要素。

根据选择的距离度量（如曼哈顿距离或欧⽒距离），可计算测试实例与训练集中的每个实例点的距离，根据k值选择k个最近邻点，最后根据分类决策规则将测试实例分类。

根据欧⽒距离，选择k=4个离测试实例最近的训练实例（红圈处），再根据多数表决的分类决策规则，即这4个实例多数属于“-类”，可推断测试实例为“-类”。

k近邻法1968年由Cover和Hart提出1.距离度量特征空间中的两个实例点的距离是两个实例点相似程度的反映。

K近邻法的特征空间⼀般是n维实数向量空间Rn。

使⽤的距离是欧⽒距离，但也可以是其他距离，如更⼀般的Lp距离或Minkowski距离Minkowski距离（也叫闵⽒距离）：当p=1时，得到绝对值距离，也称曼哈顿距离（Manhattan distance），在⼆维空间中可以看出，这种距离是计算两点之间的直⾓边距离，相当于城市中出租汽车沿城市街道拐直⾓前进⽽不能⾛两点连接间的最短距离，绝对值距离的特点是各特征参数以等权参与进来，所以也称等混合距离当p=2时，得到欧⼏⾥德距离（Euclidean distance），就是两点之间的直线距离（以下简称欧⽒距离）。

knn算法的原理与应用场景

KNN算法的原理与应用场景1. 原理K最近邻（K-Nearest Neighbors，KNN）算法是一种常用的非参数化监督学习算法，用于分类和回归问题。

它的基本思想是通过计算待预测样本与训练数据集中的样本之间的距离，选择与待预测样本最近的K个邻居，然后根据这K个邻居的标签（对于分类问题）或者值（对于回归问题）来进行预测。

KNN算法的主要步骤如下：1.输入训练数据集和待预测样本。

2.计算待预测样本与训练数据集中每个样本的距离。

3.选择与待预测样本最近的K个邻居。

4.对于分类问题，根据这K个邻居的标签来预测待预测样本的类别。

5.对于回归问题，根据这K个邻居的值来预测待预测样本的值。

KNN算法的优点包括简单易实现、无需训练过程以及能够处理多分类问题等。

然而，KNN算法也存在一些缺点，如计算复杂度高、需要大量存储空间以及对异常值敏感等。

2. 应用场景KNN算法在实际应用中有着广泛的应用场景，以下列举了几个常见的应用场景：2.1 个性化推荐在电商、音乐、电影等领域，个性化推荐是一个重要的功能。

KNN算法可以通过计算用户之间的相似度，根据用户历史行为找到相似用户，并推荐他们感兴趣的商品、音乐或电影。

这样能够提升用户的满意度和购买率。

2.2 文本分类KNN算法可以通过计算文本数据之间的相似度，将未分类的文本分为不同的类别。

在垃圾邮件过滤、情感分析等任务中，KNN算法可以帮助分类器快速识别和分类文本数据。

2.3 图像识别KNN算法在图像识别领域也有广泛的应用。

通过计算图像之间的相似度，KNN 算法可以帮助识别图像中的物体、人脸等信息。

这在安防监控、人脸识别等领域具有很高的实用价值。

2.4 推荐系统推荐系统是帮助用户发现和获取感兴趣的内容的重要工具。

KNN算法可以通过计算用户之间的相似度，找到相似用户，并根据相似用户的行为给用户提供个性化的推荐。

这在电商、社交媒体等领域具有广泛的应用。

2.5 医学诊断KNN算法在医学领域的应用也非常广泛。

knn算法的原理与工作流程

knn算法的原理与工作流程
KNN（k-Nearest Neighbors，k近邻算法）是一种基本且常用
的分类和回归算法。

其原理和工作流程如下：
原理：
1. KNN是一种基于实例的学习算法，在训练阶段没有显式的
参数估计。

它通过计算新样本与训练样本之间的距离来进行分类判断。

2. KNN算法基于一个假设：相似的样本具有相似的类别。

当
有新的样本需要分类时，KNN算法会计算该样本与训练集中
所有样本的距离，并将距离最近的前k个样本的类别作为该样本的预测类别。

工作流程：
1. 准备数据集：收集已经标记了类别的训练数据集。

2. 计算距离：对于待分类的样本，计算它与训练集中每个样本的距离。

常用的距离度量方法有欧氏距离、曼哈顿距离等。

3. 选择k值：选择一个合适的k值，它决定了在预测时要考虑的邻居数量。

4. 找出k个最近邻居：根据计算得到的距离，选择距离最近的k个训练样本作为待分类样本的邻居。

5. 进行投票/平均：对于分类问题，根据邻居的类别进行投票，并选择类别得票最多的类别作为预测结果。

对于回归问题，将邻居的输出值进行平均，作为待分类样本的预测值。

6. 输出结果：将预测的类别或数值作为最终结果输出。

需要注意的是，KNN算法的性能受到k值的选择、距离度量
方法的选择以及样本划分等因素的影响，在应用中需要进行合理调整和优化。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

KNN算法的缺陷
观察下面的例子，我们看到，对于位置样本 X，通过 KNN算法，我们显然可以得到 X应属于红点，但对于位置样本 Y，通过 KNN 算法我们似乎得到了 Y 应属于蓝点的结论，而这个结论直观来看并没有说服力。
KNN算法的具体实现
由上面的例子可见：该算法在分类时有个重要的不足是，当样本不平衡时，即：一个类的样本容量很大，而其他类样本数量很小时，很有可能导致当输入一个未知样本时，该样本的K个邻居中大数量类的样本占多数。但是这类样本并不接近目标样本，而数量小的这类样本很靠近目标样本。这个时候，我们有理由认为该位置样本属于数量小的样本所属的一类，但是，KNN却不关心这个问题，它只关心哪类样本的数量最多，而不去把距离远近考虑在内，因此，我们可以采用权值的方法来改进。和该样本距离小的邻居权值大，和该样本距离大的邻居权值则相对较小，由此，将距离远近的因素也考虑在内，避免因一个样本过大导致误判的情况。
KNN算法的缺陷
从算法实现的过程大家可以发现，该算法存两个严重
的问题，第一个是需要存储全部的训练样本，第二个是需要
进行繁重的距离计算量。对此，提出以下应对策略。
KNN算法的改进：分组快速搜索近邻法
其基本思想是：将样本集按近邻关系分解成组，给出每组质心的位置，以质心作为代表点，和未知样本计算距离，选出距离最近的一个或若干个组，再在组的范围内应用一般的knn算法。由于并不是将未知样本与所有样本计算距离，故该改进算法可以减少计算量，但并不能减少存储量。
B点 C点 D点
2
100
Romance
1
81
Romance
101
10
Action
E点 F点 G点
99
5
Action
98 18
2 90
Action Unknown
KNN算法是怎么来的
想一想：下面图片中只有三种豆，有三个豆是未知的种类，如何判定他们的种类？
1968年，Cover和Hart提出了最初的近邻法。
最近邻算法提供一种思路，即：未知的豆离
哪种豆最近就认为未知豆和该豆是同一种类。由此，我们引出最近邻算法的定义：为了判定未知样本的类别，以全部训练样本作为代表点，计算未知样本与所有训练样本的距离，并以最近邻者的类别作为决策未知样本类别的唯一依据。
但是，最近邻算法明显是存在缺陷的，
我们来看一个例子。
K-Nearest Neighbor Classification
KNN:K最近邻分类算法
KNN算法怎么来的？
KNN算法是怎么来的
猜猜看：最后一行未知电影属于什么类型的电影。
电影名称 California Man He’s Not Really into Dudes Beautiful Woman 打斗次数 3 接吻次数 104 电影类型 Romance
2
100
Romance
1
81
Romance
Kevin Longblade
101
10
Action
Robo Slayer 3000
99
5
Action
Amped II 未知
98 18
2 90
Action Unknown
KNN算法是怎么来的
猜猜看：最后一行未知点属于什么类型的点。
点 A点 X坐标 3 Y坐标 104 点类型 Romance
KNN算法的改进：压缩近邻算法
利用现在的样本集，采取一定的算法产生一个新的样本集，该样本集拥有比原样本集少的多的样本数量，但仍然保持有对未知样本进行分类的能力。基本思路：定义两个存储器，一个用来存放生成的样本集，称为output样本集；另一个用来存放原来的样本集，称为 original样本集。 1. 初始化： output 样本集为空集，原样本集存入 original样本集，从original样本集中任意选择一个样本移动到 output样本集中； 2. 在 original 样本集中选择第 i 个样本，并使用 output 样本集中的样本对其进行最近邻算法分类，若分类错误，则将该样本移动到output样本集中，若分类正确，不做任何处理； 3. 重复 2 步骤，直至遍历完 original 样本集中的所有样本，output样本集即为压缩后的样本集。通过这种方式也能减少算法的计算量，但仍然无法减少存储量。
我们引进K-最近邻算法。
KNN算法是用来干什么的
K-最近邻算法是最近邻算法的一个延伸。基本思路是：选择未知样本一定范围内确定个数的K个样本，该K个样本大多数属于某一类型，则未知样本判定为该类型。下面借助图形解释一下。
KNN算法的实现步骤
算法步骤：
step.1---初始化距离为最大值 step.2---计算未知样本和每个训练样本的距离dist step.3---得到目前K个最临近样本中的最大距离maxdist step.4---如果dist小于maxdist，则将该训练样本作为K-最近邻样本 step.5---重复步骤2、3、4，直到未知样本和所有训练样本的距离都算完 step.6---统计K个最近邻样本中每个类别出现的次数 step.7---选择出现频率最大的类别作为未知样本的类别
KNN算法是怎么来的问题：有一个未知形状 X(图中绿色的圆邻算法
显然，通过上面的例子我们可以明显发现
最近邻算法的缺陷 —— 对噪声数据过于敏感，为了解决这个问题，我们可以可以把位置样本周边的多个最近样本计算在内，扩大参与决策的样本量，以避免个别数据直接决定决策结果。由此，