k-最近邻算法在分类和预测中的应用

合集下载

pythonKNN算法实现鸢尾花数据集分类

pythonKNN算法实现鸢尾花数据集分类⼀、knn算法描述1.基本概述knn算法，⼜叫k-近邻算法。

属于⼀个分类算法，主要思想如下：⼀个样本在特征空间中的k个最近邻的样本中的⼤多数都属于某⼀个类别，则该样本也属于这个类别。

其中k表⽰最近邻居的个数。

⽤⼆维的图例，说明knn算法，如下：⼆维空间下数据之间的距离计算：在n维空间两个数据之间:2.具体步骤：（1）计算待测试数据与各训练数据的距离（2）将计算的距离进⾏由⼩到⼤排序（3）找出距离最⼩的k个值（4）计算找出的值中每个类别的频次（5）返回频次最⾼的类别⼆、鸢尾花数据集Iris 鸢尾花数据集内包含 3 类分别为⼭鸢尾（Iris-setosa）、变⾊鸢尾（Iris-versicolor）和维吉尼亚鸢尾（Iris-virginica），共150 条记录，每类各 50 个数据，每条记录都有 4 项特征：花萼长度、花萼宽度、花瓣长度、花瓣宽度，可以通过这4个特征预测鸢尾花卉属于哪⼀品种。

iris数据集包含在sklearn库当中，具体在sklearn\datasets\data⽂件夹下，⽂件名为iris.csv。

以本机为例。

其路径如下：D:\python\lib\site-packages\sklearn\datasets\data\iris.csv其中数据如下格式：第⼀⾏数据意义如下：150：数据集中数据的总条数4：特征值的类别数，即花萼长度、花萼宽度、花瓣长度、花瓣宽度。

setosa、versicolor、virginica：三种鸢尾花名从第⼆⾏开始：第⼀列为花萼长度值第⼆列为花萼宽度值第三列为花瓣长度值第四列为花瓣宽度值第五列对应是种类（三类鸢尾花分别⽤0，1，2表⽰）三、算法实现1.算法流程图：从以上流程图可以看出，knn算法包含后四步操作，所以将整个程序分为三个模块。

2.具体实现（1）⽅法⼀①利⽤slearn库中的load_iris()导⼊iris数据集②使⽤train_test_split()对数据集进⾏划分③KNeighborsClassifier()设置邻居数④利⽤fit()构建基于训练集的模型⑤使⽤predict()进⾏预测⑥使⽤score()进⾏模型评估说明：本代码来源于《Python机器学习基础教程》在此仅供学习使⽤。

常见的分类算法

常见的分类算法一、概述分类算法是机器学习中最常见和最基础的算法之一。

它的目标是将数据集中的样本根据其特征归类到不同的类别中。

分类算法在许多领域和应用中都有着广泛的应用，例如垃圾邮件过滤、文本分类、医学诊断等。

二、常见分类算法在机器学习领域，有许多常见的分类算法。

下面将介绍其中五种常见的分类算法：逻辑回归、决策树、朴素贝叶斯、支持向量机和K最近邻算法。

2.1 逻辑回归（Logistic Regression）逻辑回归是一种广义线性模型，用于处理二分类问题。

它通过将特征的线性组合传递给一个激活函数，将输入映射到一个介于0和1之间的概率值。

在训练过程中，逻辑回归使用最大似然估计来学习模型参数。

逻辑回归的优点是计算简单，容易解释模型结果。

2.2 决策树（Decision Tree）决策树是一种基于树形结构的分类模型。

每个内部节点代表一个特征，每个叶子节点代表一个类别。

通过根据样本的特征逐步划分数据，决策树能够生成一个可以用于分类的模型。

决策树的优点是易于理解和解释，但容易过拟合。

2.3 朴素贝叶斯（Naive Bayes）朴素贝叶斯是基于贝叶斯定理和特征条件独立假设的分类算法。

该算法假设特征之间相互独立，因此可以通过计算每个特征对于每个类别的条件概率来进行分类。

朴素贝叶斯算法简单快速，适用于大规模数据集，但对于特征之间有关联的情况效果较差。

2.4 支持向量机（Support Vector Machine）支持向量机是一种基于间隔最大化的分类算法。

它将训练样本映射到高维特征空间，并通过寻找一个最优分离超平面来进行分类。

支持向量机的优点是可以处理高维数据，具有较强的泛化能力，但对于大规模数据集计算复杂度较高。

2.5 K最近邻算法（K-Nearest Neighbors）K最近邻算法是一种基于实例的学习算法。

它通过计算待分类样本与已知样本之间的距离来进行分类。

K最近邻算法的核心思想是通过找到离待分类样本最近的K个样本来进行预测。

机器学习领域中的分类算法

机器学习领域中的分类算法随着大数据时代的到来，机器学习已经成为了最炙手可热的技术之一。

在数据挖掘和人工智能领域，分类问题一直是非常重要的问题之一。

分类指的是将数据集中的实例按照某种规则将其区分开来。

分类算法可以让机器对不同的输入数据进行自动分类，从而得到更加精准、高质量的预测结果。

在机器学习领域中，分类算法是比较基础和常用的方法之一。

在研究分类算法之前，需要了解一下两个非常重要的概念：特征和标签。

特征是指用于对实例进行描述的属性，比如身高、体重、性别等；而标签则是对每个实例所属类别的标记，也称为类标。

分类算法的目的就是，通过学习这些特征和标签之间的关系，预测新的输入数据的类别。

分类算法的种类非常多，我们可以根据不同的分类方式来对其进行分类。

比如说，可以根据分类模型的分布方式将其分为生成模型和判别模型；也可以根据算法中使用的训练方法将其分为监督学习和非监督学习。

下面我们将会讨论一些常见的分类算法。

1. K最近邻算法（K-Nearest Neighbor Algorithm）K最近邻算法是一种监督学习的算法，它的主要思想是：对于一个新的输入样本，它所属的类别应当与与它最近的K个训练样本的类别相同。

其中K是一个可调参数，也称为邻居的个数。

算法的流程大致如下：首先确定K的值，然后计算每一个测试数据点与训练数据集中每个点的距离，并根据距离从小到大进行排序。

最后统计前K个训练样本中各类别出现的次数，选取出现次数最多的类别作为该测试样本的输出。

K最近邻算法简单易用，但是它有一些局限性。

首先，算法的分类效果对数据的质量非常敏感，因此需要对数据进行预处理。

其次，算法需要存储全部的训练数据，对于大规模数据集，存储和计算的开销非常大。

2. 决策树算法（Decision Tree Algorithm）决策树是一种基于树形结构进行决策支持的算法。

其原理是：将一个问题转化为简单的二选一问题并逐步求解，形成一棵树形结构，从而形成不同的决策路径。

信息科技算法

信息科技中的算法有很多种，它们在各个领域都有广泛的应用。

以下是一些常见的算法：
快速排序算法：这是一种高效的排序算法，通过分治法将问题分解为小规模的子问题，递归地解决这些子问题，并将结果组合起来得到最终的排序结果。

傅立叶变换和快速傅立叶变换：这些算法用于将信号从时域转换到频域，或者从频域转换到时域。

在信号处理、图像处理和通信等领域中都有广泛的应用。

Dijkstra算法：这是一种用于在图中查找最短路径的算法，可以在没有负权重边的图中找到最短路径。

动态规划算法：这种算法通过将问题分解为小规模的子问题，并存储子问题的解，以便在解决更大规模的问题时重复使用这些解，从而避免了重复计算。

决策树算法：这种算法用于分类和回归问题，通过构建一棵树来对新的数据进行预测。

随机森林算法：这种算法是一种集成学习算法，通过构建多棵决策树并综合它们的预测结果来提高预测的准确率。

K-最近邻算法：这种算法通过找到训练集中与新数据最接近的K个点，并根据这些点的标签进行投票，来对新数据进行分类或回归预测。

支持向量机算法：这种算法用于分类和回归问题，通过找到一个超平面来分隔训练数据，并使用这个超平面来对新数据进行预测。

朴素贝叶斯算法：这种算法是一种基于概率的分类算法，通过计算训练数据中每个属性的条件概率来对新数据进行分类预测。

神经网络算法：这种算法通过模拟人脑神经元的工作方式，使用大量的人工神经元来处理和传输信息，可以用于分类、回归和聚类等任务。

以上仅是一些常见的信息科技中的算法，实际上还有很多其他的算法和技术，它们在不同的领域和场景中都有广泛的应用。

机器学习经典分类算法——k-近邻算法（附python实现代码及数据集）

机器学习经典分类算法——k-近邻算法（附python实现代码及数据集）⽬录⼯作原理存在⼀个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每⼀数据与所属分类的对应关系。

输⼊没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进⾏⽐较，然后算法提取样本集中特征最相似数据（最近邻）的分类特征。

⼀般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出处，通常k是不⼤于20的整数。

最后选择k个最相似数据中出现次数最多的分类，作为新数据的分类。

举个例⼦，现在我们⽤k-近邻算法来分类⼀部电影，判断它属于爱情⽚还是动作⽚。

现在已知六部电影的打⽃镜头、接吻镜头以及电影评估类型，如下图所⽰。

现在我们有⼀部电影，它有18个打⽃镜头、90个接吻镜头，想知道这部电影属于什么类型。

根据k-近邻算法，我们可以这么算。

⾸先计算未知电影与样本集中其他电影的距离（先不管这个距离如何算，后⾯会提到）。

现在我们得到了样本集中所有电影与未知电影的距离。

按照距离递增排序，可以找到k个距离最近的电影。

现在假定k=3，则三个最靠近的电影依次是He's Not Really into Dudes、Beautiful Woman、California Man。

python实现⾸先编写⼀个⽤于创建数据集和标签的函数，要注意的是该函数在实际⽤途上没有多⼤意义，仅⽤于测试代码。

def createDataSet():group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])labels = ['A','A','B','B']return group, labels然后是函数classify0()，该函数的功能是使⽤k-近邻算法将每组数据划分到某个类中，其伪代码如下：对未知类别属性的数据集中的每个点依次执⾏以下操作：（1）计算已知类别数据集中的点与当前点之间的距离；（2）按照距离递增次序排序；（3）选取与当前点距离最⼩的k个点；（4）确定前k个点所在类别的出现频率；（5）返回前k个点出现频率最⾼的类别作为当前点的预测分类。

KNN算法总结

KNN算法总结1 KNN分类算法1.1KNN简述K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。

该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

KNN算法中，所选择的邻居都是已经正确分类的对象。

该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别[1]。

KNN方法虽然从原理上也依赖于极限定理，但在类别决策时，只与极少量的相邻样本有关。

由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。

KNN最邻近规则，主要应用领域是对未知事物的识别，即判断未知事物属于哪一类，判断思想是，基于欧几里得定理，判断未知事物的特征和哪一类已知事物的的特征最接近。

1.2 KNN原理最近邻方法(k-nearest neighbor,简称kNN)是一种简洁而有效的非参数分类方法，是最简单的机器学习算法之一，该算法最初由Cover和Hart提出的，用于解决文本的分类问题。

K近邻算法是最近邻算法的一个推广。

该规则将是一个测试数据点x分类为与它最接近的K个近邻中出现最多的那个类别。

K近邻算法从测试样本点x开始生长，不断的扩大区域，直到包含进K个训练样本点为止，并且把测试样本点x 归为这最近的K个训练样本点中出现频率最大的类别。

其中测试样本与训练样本的相似度一般使用欧式距离测量。

如果K值固定，并且允许训练样本个数趋向于无穷大，那么，所有的这K个近邻都将收敛于x。

如同最近邻规则一样，K个近邻的标记都是随机变量，概率P（w i|x），i=1,2,…,K都是相互独立的。

假设P（w m|x）是较大的那个后验概率，那么根据贝叶斯分类规则，则选取类别w m。

而最近邻规则以概率P（w m|x）选取类别。

nearest-neighbor method

最近邻方法是一种常见的机器学习算法，它被广泛应用于模式识别、数据挖掘和推荐系统等领域。

在这篇文章中，我们将深入探讨最近邻方法的原理、应用和局限性，以便更好地理解这一方法。

1. 最近邻方法的原理最近邻方法是一种基于实例的学习算法，它的核心思想是通过计算样本之间的距离来进行分类或回归预测。

在分类问题中，最近邻方法会找到离目标样本最近的K个训练样本，然后根据它们的类别进行投票决定目标样本的类别。

而在回归问题中，最近邻方法会找到离目标样本最近的K个训练样本，然后根据它们的值进行加权平均来预测目标样本的值。

最近邻方法的优点在于简单易懂，适用于多种类型的数据，但它也有一些局限性，比如对噪声和维度灾难敏感。

2. 最近邻方法的应用最近邻方法在各种领域都有广泛的应用。

在模式识别领域，最近邻方法常被用于人脸识别、手写字体识别等任务。

在数据挖掘领域，最近邻方法常被用于聚类分析、异常检测等任务。

在推荐系统领域，最近邻方法常被用于基于用户的协同过滤推荐算法。

这些应用充分展示了最近邻方法的灵活性和强大性。

3. 最近邻方法的局限性尽管最近邻方法有诸多优点，但它也存在一些局限性。

最近邻方法对数据中的噪声和异常值非常敏感，这会导致它在一些情况下表现不稳定。

最近邻方法在处理高维数据时会遇到维度灾难的问题，因为随着维度的增加，样本之间的距离会变得越来越稀疏，导致算法性能下降。

另外，最近邻方法在处理大规模数据时效率较低，因为需要计算目标样本与所有训练样本之间的距离。

4. 个人观点和理解从个人角度来看，我认为最近邻方法是一种简单而有效的机器学习算法，它能够基于实例进行快速学习并进行准确的预测。

然而，我们也需要认识到它的局限性，比如对噪声和维度灾难的敏感性，以及在大规模数据下的效率低下。

在实际应用中，我们可能需要结合其他方法来克服这些问题，或者对最近邻方法进行改进和优化。

总结最近邻方法是一种强大的机器学习算法，它在模式识别、数据挖掘和推荐系统等领域都有着广泛的应用。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第一讲
k-最近邻算法在分类和预测中的应用
1 k-最近邻分类
在k-最近邻算法背后的思想是建立一种对函数形式没有假设的分类方法，方程
，把因变量（或回应）和自变量联系起来。

我们所做的唯
一的假设是，认为它是一个光滑的函数。

这是一个非参数的方法，因为它不涉及在一个假设了函数形式的方程中进行参数估计，这和我们在线性回归中碰到的线性假设和系数求解完全不同。

),...,,(21p x x x f y =y p x x x ,...,21我们的训练数据中，每个观测点（observation ）都含有y 值，这个值刚好是该观测点的类别。

例如，如果我们有两个类，那么是一个二元的变量。

k-最近相邻的方法是在训练数据集中动态的确定和一个新的观测点相近的k 个观测点，比如，对于点，我们希望用k 个观测点去把一个特定的观测点分到某一类中。

如果我们知道函数，那就简
单地计算。

如果我们所有的假设是：是一个光滑函数，那么一个合理的想法就是在观测点集中寻找和它（根据自变量）相近的观测点，并从值计算出。

这是一个类似于插值的思想，如同我们常用的正态分布表。

当我们谈到邻居时，通常隐含着我们能够计算观测点间的距离或相异的度量，这些度量能够根据自变量得出。

目前，我们局限于最常见的距离度量方法中：欧几里德距离。

点和之间的欧式距离为：
y ),...,,(21p u u u ^
v f ),...,,(21^
p u u u f v =f y ^
v ),...,(21p x x x ),...,(21p u u u 2222211)(...)()(p p u x u x u x −++−+−
当讨论聚类方法的时候，我们会考虑在预测变量空间中点的距离的其它定义。

最简单的情况是当k=1的情况，这时我们发现观测点就是最近的（最近邻），并且，这里是最近邻的观测点的类别。

一个显著的事实是：这是简单的、直观的、有力的分类想法，尤其当我们的训练集中观测点的数目很大的时候。

可以证明1-NN 的误分的概率不劣于我们知道每个类的精确的概率密度函数时误分概率的2倍。

换句话说，如果有大量的数据及充分复杂的分类规则，我们最多能减少划分错误到用简单的1-NN 规则时的一半。

y v =^
y 下面我们延伸1-NN 的想法为k-NN 。

首先，发现最近k 邻居然后用大量的决策规则去分类一个新的观测点。

由于在训练数据中存在噪声，高一点的k 值的优点是提供平滑的分类，以便减少过拟和的风险。

在典型的应用中，k 是几个或十几个单元，而不是成百上千。

注意到如果k=n ，在整个观测数据训练集中的数据数目，我们仅仅预测在训练数据集中大多数训练数据的所属类别，而不管的值如何。

这显然是一个过平滑的例子，除非根本就没有关于因变量的自变量的信息。

),...,(21p u u u
例1
一个乘式割草机的制造商希望发现把一个城市中的家庭分类为可能买割草机家庭及不想买割草机的家庭。

在这个城市中，随机抽取12个拥有乘式割草机的家庭，和12没有拥有的。

这些数据在表1和图1中：
表1
观测点收入($000’s) 草地面积(000’s sq. ft.)Owners=1,Non-owners=2
1 60 18.4 1
2 85.5 16.8 1
3 64.8 21.6 1
4 61.
5 20.8 1
5 87 23.
6 1
6 110.1 19.2 1
7 108 17.6 1
8 82.8 22.4 1
9 69 20 1
10 93 20.8 1
11 51 22 1
12 81 20 1
13 75 19.6 2
14 52.8 20.8 2
15 64.8 17.2 2
16 43.2 20.4 2
17 84 17.6 2
18 49.2 17.6 2
19 59.4 16 2
20 66 18.4 2
21 47.4 16.4 2
22 33 18.8 2
23 51 14 2
24 63 14.8 2
我们如何来选择k值呢？在数据挖掘中，对不同的k值，我们用训练数据去分类事例，用验证数据去计算分类错误率。

在这个的例子中，我们随机地把数据集分为含有18个事例的训练集和含有6个事例的测试集。

当然，在实际的数据挖掘情况下，会有更大规模的例子。

测试集包含表中第6，7，12，14，19，20个事例。

剩下的18个观测点构成训练数据。

图1展示了在训练集和测试集中的所有事例。

注意到如果我们选择k=1，那么我们就选择了一种对数据的局部特征非常敏感的分类方式。

另一方面，如果我们选择大的k值，则相当于取大量的数据点的平均，同时平滑掉由于单个数据点的噪音而导致的波动性。

如果选择k=18，在各种情况下我们将简单地预测在数据集中最频繁出现的类。

这是非常稳定的预测，但它完全忽略了在自变量中的信息。

图1
表2展示了针对不同的k值在测试集中的误分率：
表2：
k 1 3 4 5 7 9 111318
误分率（％） 33 3333333333171750
在这个例子中，我们将选择k=11（或13）。

这个选择最佳的消除了在低k值时的变动性和高k值时的过平滑现象。

值得一提的是：一个推定k值的有益途径是通过有效参数的数目这个概念。

有效参数的数目是和k值相关的，大致等于n/k，其中，n是这个训练数据集中事例的数目。

因此k=11的效用参数大约在2左右，有点像两参数的线性回归。

2k最近邻预测
k-NN的思想可以容易地用来预测连续值（和我们建立多元线性回归模型的目的一样），通过用k个近邻的平均值来简单的预测因变量。

通常，这个均值是带有权重的，权重随着和需要做预测的点的距离的增加而减小。

3 k-NN算法的缺点
在实际应用K-NN方法时有两个困难。

首先，当从训练数据中估计参数没有时间要求时，在大训练集寻找最近邻的时间是难以忍受的。

已经实现了许多的想法去克服这个困难。

主要的想法是：
（1）通过降维技术来减少维数，如主成分分析，从而减少计算距离的时间；
（2）用复杂的数据结构，如搜索树去加速最近邻的确定。

这个方法经常通过设定“几乎是最近邻”的目标去提高搜索速度；
（3）编辑训练数据去减少在训练集中的冗余和几乎是冗余的点，从而加速搜索最近邻。

在个别例子中去掉在训练数据集中的一些观察点，对分类效果没有影响，原因是这些点被包围属于同类的观测点中。

第二，在训练数据集中要求的观测值的数目，随着维数p的增长以指数方式增长。

这是因为和最近邻的期望距离随着p急剧上升，除非训练数据集的大小随着p以指数方式增长。

这种现象被称为“维数灾难”。

如果在训练数据中的自变量均匀地分布在p 维超立方体中，那么一个点处在中心的0.5单元的距离的概率是：
)
2
(2
1
2
p p p p
τπ
−
下面的表展示了对不同的p 、 n 的组合，训练集的规模如何快速的下降到接近0。

表 n p
2
3
4
5
10
20
30 40 10,000 7854 5236 3084 1645 25 0.00022×10-103×10-17100,000 78540 52360 30843 16449 249 0.00252×10-93×10-161,000,000 785398 523600 308425 164493 2490 0.02462×10-83×10-1510,000,000 7853982 523600 3084251
1644934
24904
0.2461
2×10-7
3×10-14
维数灾难对所有分类、预测和聚类等都是个相关的基础问题。

这是为什么我们经常努力去寻找一些能减少预测变量空间的维数方法，比如为模型选择预测变量的子集，或采用如主成分分析、奇异值分解和因子分析等方法合并它们。

在人工智能中的维数缩减通常是指因子选择。