knn算法

合集下载

knn概念

K最近邻算法（K-Nearest Neighbors）1. 概念定义K最近邻算法（K-Nearest Neighbors，简称KNN）是一种基本的监督学习算法，用于分类和回归问题。

它的基本思想是通过找到与待分类样本最相似的K个训练样本，利用这些样本的标签进行预测。

KNN算法没有显式的训练过程，而是在预测时直接利用训练数据。

在KNN中，每个样本由一个特征向量表示，特征向量中的每个维度代表一个特征。

通过计算不同样本之间的距离来衡量它们之间的相似性。

常用的距离度量方法包括欧氏距离、曼哈顿距离和闵可夫斯基距离等。

2. 算法步骤KNN算法的步骤如下：1.计算待分类样本与训练集中所有样本之间的距离；2.根据距离找出与待分类样本最相似的K个训练样本；3.统计这K个训练样本中各类别出现的次数；4.将待分类样本归为出现次数最多的类别。

3. 关键概念3.1 K值选择KNN算法中的K值是一个重要的参数，它决定了用于预测的邻居样本数量。

K值的选择会对算法的性能产生影响。

较小的K值可能会导致模型过拟合，而较大的K值可能会导致模型欠拟合。

通常，K值需要通过交叉验证等方法进行选择。

3.2 距离度量在KNN算法中，距离度量是衡量样本之间相似性的重要指标。

常用的距离度量方法包括欧氏距离、曼哈顿距离和闵可夫斯基距离等。

不同的距离度量方法适用于不同类型的数据。

3.3 分类决策规则分类决策规则决定了如何根据邻居样本的标签进行分类预测。

常见的分类决策规则有多数表决法和加权多数表决法。

多数表决法将待分类样本归为出现次数最多的类别，而加权多数表决法考虑了邻居样本与待分类样本之间的距离，在投票过程中给距离较近的样本更大的权重。

4. 重要性和应用4.1 重要性•简单有效：KNN算法简单易懂，没有复杂的训练过程，适用于小规模数据集；•非参数化学习：KNN是一种非参数化学习算法，不需要对数据的分布做出任何假设，具有较强的灵活性；•可解释性强：KNN算法对于分类决策过程具有较强的可解释性，可以通过查看邻居样本的标签来理解预测结果；•泛化能力强：KNN算法在处理多类别、非线性问题时表现良好。

KNN算法

KNN最邻近规则，主要应用领域是对未知事物的识别，即判断未知事物属于哪一类，判断思想是，基于欧几里得定理，判断未知事物的特征和哪一类已知事物的的特征最接近；K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。

该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

KNN算法中，所选择的邻居都是已经正确分类的对象。

该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

KNN方法虽然从原理上也依赖于极限定理，但在类别决策时，只与极少量的相邻样本有关。

由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。

KNN算法不仅可以用于分类，还可以用于回归。

通过找出一个样本的k个最近邻居，将这些邻居的属性的平均值赋给该样本，就可以得到该样本的属性。

更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight)，如权值与距离成正比（组合函数）。

该算法在分类时有个主要的不足是，当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。

该算法只计算“最近的”邻居样本，某一类的样本数量很大，那么或者这类样本并不接近目标样本，或者这类样本很靠近目标样本。

无论怎样，数量并不能影响运行结果。

可以采用权值的方法（和该样本距离小的邻居权值大）来改进。

该方法的另一个不足之处是计算量较大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。

目前常用的解决方法是事先对已知样本点进行剪辑，事先去除对分类作用不大的样本。

该算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法比较容易产生误分。

大数据十大经典算法kNN讲解

可解释性差
KNN算法的分类结果只依赖于最近邻的样本，缺乏可解释性。
无法处理高维数据
随着维度的增加，数据点之间的距离计算变得复杂，KNN算法在高维空间中的性能会受到影响。
对参数选择敏感
KNN算法中需要选择合适的K值，不同的K值可能会影响分类结果。
04
KNN算法的改进与优化
基于距离度量的优化
与神经网络算法的比较
神经网络算法
神经网络算法是一种监督学习算法，通过训练神经元之间的权重来学习数据的内在规律。神经网络算法在处理大数据集时需要大量的计算资源和时间，因为它的训练过程涉及到复杂的迭代和优化。
KNN算法
KNN算法的训练过程相对简单，不需要进行复杂的迭代和优化。此外，KNN算法对于数据的分布和规模不敏感，因此在处理不同规模和分布的数据集时具有较好的鲁棒性。
对数据分布不敏感
KNN算法对数据的分布不敏感，因此对于非线性问题也有较好的分类效果。
简单直观
KNN算法原理简单，实现直观，易于理解。
分类准确度高
基于实例的学习通常比基于规则或判别式的学习更为准确。
对异常值不敏感
由于KNN基于实例的学习方式，异常值对分类结果影响较小。
缺点
计算量大
KNN算法需要计算样本与所有数据点之间的距离，因此在大规模数据集上计算量较大。
欧氏距离
适用于数据特征呈正态分布的情况，但在非线性可分数据上表现不佳。
余弦相似度
适用于高维稀疏数据，能够处理非线性可分问题。
曼哈顿距离
适用于网格结构的数据，但在高维数据上计算量大。
皮尔逊相关系数
适用于衡量两组数据之间的线性关系。
K值选择策略的优化

knn 算法

一、介绍KNN（K- Nearest Neighbor）法即K最邻近法，最初由 Cover 和Hart于1968年提出，是最简单的机器学习算法之一，属于有监督学习中的分类算法。

算法思路简单直观：分类问题：如果一个样本在特征空间中的K个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。

KNN是分类算法。

二、原理2.1 K值取几个最近的邻居数据来判断分类牛马哥在这里呈上KNN分类算法最经典的图片，用三角形、圆形和矩形这种最少儿的图片来解释图上前提解释：假设x和y是我们这次的特征值，绿色的矩形是我们想要预测的数据，图上的三角形和圆形是我们已知的数据集，我们需要通过现有的数据集来判断绿色矩形是三角形还是圆形。

当K = 3，代表选择离绿色矩形最近的三个数据，发现三个数据中三角形比较多，所以矩形被分类为三角形当K = 5，代表选择离绿色矩形最近的三个数据，发现五个数据中圆形最多，所以矩形被分类为圆形所以K值很关键，同时建议k值选取奇数。

2.2 距离问题在上面的原理中还有一个关键问题，就是怎么判断距离是否最近。

在这里采用的是欧式距离计算法：下图是在二维的平面来计算的，可以当作是有两个特征值那如果遇到多特征值的时候，KNN算法也是用欧式距离，公式如下：从这里就能看出KNN的问题了，需要大量的存储空间来存放数据，在高维度（很多特征值输入）使用距离的度量算法，电脑得炸哈哈，就是极其影响性能（维数灾难）。

而且如果要预测的样本数据偏离，会导致分类失败。

优点也是有的，如数据没有假设，准确度高，对异常点不敏感；理论成熟，思想简单。

三.KNN特点KNN是一种非参的，惰性的算法模型。

什么是非参，什么是惰性呢？非参的意思并不是说这个算法不需要参数，而是意味着这个模型不会对数据做出任何的假设，与之相对的是线性回归（我们总会假设线性回归是一条直线）。

也就是说KNN建立的模型结构是根据数据来决定的，这也比较符合现实的情况，毕竟在现实中的情况往往与理论上的假设是不相符的。

knn算法的分类规则

knn算法的分类规则摘要：1.简介2.KNN 算法的基本思想3.KNN 算法的主要步骤4.KNN 算法的分类规则5.KNN 算法的优缺点6.应用案例正文：1.简介KNN 算法，即K 近邻算法（K-Nearest Neighbors），是一种基于距离度量的分类和回归方法。

该算法通过计算样本之间的距离，找到距离待分类样本最近的K 个训练样本，然后根据这K 个样本的类别进行投票决策，从而实现对新样本的分类。

2.KNN 算法的基本思想KNN 算法的基本思想是：如果一个样本在特征空间中的距离最近K 个训练样本中的大多数属于某一类别，则该样本被划分为这一类别。

3.KNN 算法的主要步骤KNN 算法的主要步骤如下：(1) 计算训练样本之间的距离。

(2) 找到距离待分类样本最近的K 个训练样本。

(3) 根据这K 个最近样本的类别进行投票决策，得到待分类样本的类别。

4.KNN 算法的分类规则KNN 算法的分类规则可以总结为以下几点：(1) 如果待分类样本最近的K 个训练样本中，某一类别的样本数量大于等于K/2+1，则待分类样本被划分为这一类别。

(2) 如果待分类样本最近的K 个训练样本中，各类别样本数量相等，则根据多数原则，选择出现次数最多的类别作为待分类样本的类别。

(3) 如果待分类样本最近的K 个训练样本中，某一类别的样本数量小于K/2，则待分类样本被划分为出现次数最多的类别。

5.KNN 算法的优缺点优点：(1) KNN 算法对数据集的噪声和不完整信息具有较高的容忍性。

(2) KNN 算法简单易懂，易于实现。

(3) KNN 算法在处理多分类问题时具有良好的性能。

缺点：(1) KNN 算法对计算资源的需求较高，尤其是当数据量较大时。

(2) KNN 算法在处理高维数据时，计算复杂度较高，可能会导致“维数灾难”。

(3) KNN 算法对于样本数据的分布具有一定的依赖性，可能不适用于样本分布发生变化的情况。

6.应用案例KNN 算法在许多领域都有广泛的应用，如文本分类、图像分类、疾病预测等。

knn算法公式

knn算法公式knn算法是一种基于距离度量的分类算法，它的全称为k近邻算法（k-Nearest Neighbor）。

该算法的核心思想是将未知样本的类别判定为与其距离最近的k个样本的类别中出现最多的那个类别。

在knn算法中，距离度量是非常重要的一个概念。

常用的距离度量有欧氏距离、曼哈顿距离、切比雪夫距离等。

以欧氏距离为例，假设有两个样本$x_i$和$x_j$，它们的特征向量分别为$vec{x_i}$和$vec{x_j}$，则它们之间的欧氏距离可以表示为：$$ d_{ij} = sqrt{sum_{k=1}^{n}(x_{ik}-x_{jk})^2} $$ 其中$n$为特征向量的维数，$x_{ik}$和$x_{jk}$分别表示样本$x_i$和$x_j$在第$k$个维度上的特征值。

在knn算法中，我们需要先给出一个待分类的未知样本$x$，然后根据距离度量找到与其距离最近的$k$个训练样本，记为$N_k(x)$。

接下来，我们需要统计$N_k(x)$中出现最多的类别，即：$$ y = mathop{argmax}_{c_j} sum_{x_iin N_k(x)} [y_i=c_j] $$其中$c_j$表示第$j$个类别，$[y_i=c_j]$为示性函数，表示当$y_i=c_j$时为1，否则为0。

最后，将未知样本$x$判定为$y$，即：$$ y = mathop{argmax}_{c_j} sum_{x_iin N_k(x)} [y_i=c_j] $$需要注意的是，knn算法中的$k$值是需要人为指定的。

一般来说，$k$值越小，模型越容易受到噪声和异常值的影响，导致过拟合；$k$值越大，模型越容易受到样本分布的影响，导致欠拟合。

因此，在选择$k$值时需要根据具体的问题来做出权衡。

除了距离度量和$k$值之外，knn算法还有一些其他的扩展和改进。

例如，可以采用加权knn算法，即对距离进行加权，使得距离较近的样本对分类结果的贡献更大；还可以采用局部加权knn算法，即对距离进行加权的同时，还考虑每个样本在距离上的邻域大小，使得距离较近且邻域较大的样本对分类结果的贡献更大。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

knn算法（K-Nearest Neighbor ）
这是一个小而有效的程序来执行的K -近邻搜索算法，此算法利用JIT 理论加速循环，比向量化有效解决了大量数据的精度问题。

甚至比kd-tree效果要佳。

K-nearest neighbor search已经广泛应用在科学与工程上，比如模式识别，数据挖掘和信号处理。

此程序小而简单，非常适合对K -近邻搜索算法的入学者。

用法：
IDX = knnsearch(Q,R,K)
搜索参考数据集合R（n*d矩阵，代表d维空间中的n个点）中搜索k-近邻中个查询点代表Q(m x d)中的行.返回m x k的索引值IDX。

IDX = knnsearch(Q,R) 默认值为K=1.
IDX = knnsearch(Q) or IDX = knnsearch(Q,[],K) 搜索当R = Q.
举例：
例1：
R=randn(100,2);
Q=randn(3,2);
idx=knnsearch(Q,R);
plot(R(:,1),R(:,2),'b.',Q(:,1),Q(:,2),'ro',R(idx,1),R(idx,2),'gx'); 结果：
例2：
R=rand(100,2);
Q=[0 0];
K=10;
idx=knnsearch(Q,R,10);
r=max(sqrt(sum(R(idx,:).^2,2)));
theta=0:0.01:pi/2;
x=r*cos(theta);
y=r*sin(theta);
plot(R(:,1),R(:,2),'b.',Q(:,1),Q(:,2),'co',R(idx,1),R(idx,2),'gx',x,y ,'r-','linewidth',2);
结果：
例3：
R=randn(10000,4);
Q=randn(500,4);
t0=cputime;
idx=knnsearch(Q,R);
t1=cputime;
T=delaunayn(R);
idx1=dsearchn(R,T,Q);
t2=cputime;
fprintf('Are both indices the same? %d\n',isequal(idx,idx1));
fprintf('CPU time for knnsearch = %g\n',t1-t0);
fprintf('CPU time for delaunay = %g\n',t2-t1);
结果：
Are both indices the same? 1
CPU time for knnsearch = 0.203125
CPU time for delaunay = 9.51563
例4：
Q=randn(10000,4);
R=randn(500,4);
t0=cputime;
idx=knnsearch(Q,R);
t1=cputime;
T=delaunayn(R);
idx1=dsearchn(R,T,Q);
t2=cputime;
fprintf('Are both indices the same? %d\n',isequal(idx,idx1)); fprintf('CPU time for knnsearch = %g\n',t1-t0);
fprintf('CPU time for delaunay = %g\n',t2-t1);
结果：
Are both indices the same? 1
CPU time for knnsearch = 0.234375
CPU time for delaunay = 0.71875
程序如下：。