[课件]K最近邻方法PPT

合集下载

近邻法

N A1
（2）采用抽样的办法，使之能自适应选择k；
“科研反哺教学”，将自己的研究工作融入课堂；
6.3.2 核近邻法（续）
贝叶斯决策器
学习方法
4 3 2
分类错误率 5.5% 4.6% 4.1%
KNN （k=3） BKNN 贝叶斯决策器
KNN
1 0 -1
三种方法的分类错误率比较
BKNN
-2 -3 -4 -4
本人解决方案：
NN (Fix, 1951)
KNN (Yu,2002) (Peng,2004) BNN (Homes,2002)
定义最优核距离 (本章) 核化 (本章)
BKNN (本章)
（1）推导出“最优核距离”：
1 rko x , xl rko x, xl N A1 1 NA B x, xi , xl B x, xi , xl N i 1 A i 1
J. Peng. Adaptive Quasiconformal Kernel Nearest Neighbor Classification. IEEE Trans PAMI[J]. 2004, 26(5): 656 - 661.
Rd
x1 , t1 1 x5 , t5 1 1
6.1.1 关于近邻法
1951年Fix和Hodges首次提出
第 w1 类
第 w2 类
最经典的模式识别方法之一方法简单，便于理论分析
x
x1
x4
是其它模式识别方法的标尺
“距离”的度量方式有很多种
近邻法原理示意图
6.1.2 近邻法应用实例：人脸表情识别
欲解决的问题：
七类表情

K最近邻算法

K最近邻算法K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。

所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。

kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。

该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

kNN方法在类别决策时，只与极少量的相邻样本有关。

由于kNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，kNN方法较其他方法更为适合。

KNN算法的机器学习基础显示相似数据点通常如何彼此靠近存在的图像大多数情况下，相似的数据点彼此接近。

KNN算法就是基于这个假设以使算法有用。

KNN利用与我们童年时可能学过的一些数学相似的想法(有时称为距离、接近度或接近度)，即计算图上点之间的距离。

例如，直线距离(也称为欧氏距离)是一个流行且熟悉的选择。

KNN通过查找查询和数据中所有示例之间的距离来工作，选择最接近查询的指定数字示例( K )，然后选择最常用的标签(在分类的情况下)或平均标签(在回归的情况下)。

在分类和回归的情况下，我们看到为我们的数据选择正确的K是通过尝试几个K并选择最有效的一个来完成的。

KNN算法的步骤1.加载数据2.将K初始化为你选择的邻居数量3.对于数据中的每个示例4.3.1 根据数据计算查询示例和当前示例之间的距离。

5.3.2 将示例的距离和索引添加到有序集合中6.按距离将距离和索引的有序集合从最小到最大(按升序)排序7.从已排序的集合中挑选前K个条目8.获取所选K个条目的标签9.如果回归，返回K个标签的平均值10.如果分类，返回K个标签的模式'为K选择正确的值为了选择适合你的数据的K，我们用不同的K值运行了几次KNN算法，并选择K来减少我们遇到的错误数量，同时保持算法在给定之前从未见过的数据时准确预测的能力。

K近邻算法PPT课件

• 给定一个目标点，搜索其最近邻。首先找到包含目标点的叶结点；然后从该叶结点出发，依次回退到父结点；不断查找与目标点最邻近的结点，当确定不可能存在更近的结点时终止。这样搜索就被限制在空间的局部区域上，效率大为提高。
• 包含目标点的叶结点对应包含目标点的最小超矩形区域。以此叶结点的实例点作为当前最近点。目标点的最近邻一定在以目标点为中心并通过当前最近点的超球体内部。然后返回当前结点的父结点，如果父结点的另一子结点的超矩形区域与超球体相交，那么在相交的区域内寻找与目标点更近的实例点。如果存在这样的点，将此点作为新的当前最近点。
➢ 问题：给这个绿色的圆分类？ ➢ 如果K=3，绿色圆点的最近的3个邻居是2个红色小三角形和1个蓝
色小正方形，少数从属于多数，基于统计的方法，判定绿色的这个待分类点属于红色的三角形一类。 ➢ 如果K=5，绿色圆点的最近的5个邻居是2个红色三角形和3个蓝色正方形，还是少数从属于多数，基于统计的方法，判定绿色的这个待分类点属于蓝色的正方形一类。
区域内没有实例时终止。在此过程中，将实例保存在相应的结点
上。
2020/7/23
9
K近邻法的实现：kd树
2020/7/23
10
K近邻法的实现：kd树
2020/7/23
11
K近邻法的实现：kd树
➢ 搜索kd树
• 利用kd树可以省去大部分数据点的搜索，从而减少搜索的计算量。这里以最近邻为例，同样的方法可以应用到K近邻。
2020/7/23
5
K近邻的三个基本要素
2020/7/23
6
K近邻的三个基本要素
➢ K值的选择
• 如果选择较小的k值，就相当于用较小的邻域中的训练实例进行预测， “学习”的近似误差会减小，只有与输入实例较近的训练实例才会对预测结果起作用。但缺点是“学习”的估计误差会增大，预测结果会对近邻的实例点非常敏感。换句话说，k值的减小意味着整体模型变得复杂，容易发生过拟合。

【最新】KNN分类算法PPT 课件教案讲义(获奖作品) 图文

k 近邻算法(knn, k nearest neighbor)
算法基本介绍
• k近邻的非正式描述，就是给定一个样本集 exset，样本数为M，每个样本点是N维向量，对于给定目标点d，d也为N维向量，要从 exset中找出与d距离最近的k个点(k<=N)，当k=1时，knn问题就变成了最近邻问题。最原始的方法就是求出exset中所有样本与d 的距离，进行按出小到大排序，取前k个即为所求，但这样的复杂度为O(N)，当样本数大时，效率非常低下.
算法描述
• 该算法的基本思路是：在给定新文本后，考虑在训练文本集中与该新文本距离最近（最相似）的 K 篇文本，根据这 K 篇文本所属的类别判定新文本所属的类别 • 右图中，绿色圆要被决定赋予哪个类，是红色三角形还是蓝色四方形？如果 K=3，由于红色三角形所占比例为2/3，绿色圆将被赋予红色三角形那个类，如果K=5，由于蓝色四方形比例为3/5，因此绿色圆被赋予蓝色四方形类。
算法描述
• 算法分为以下几步：
一、:根据特征项集合重新描述训练文本向量二、:在新文本到达后，根据特征词分词新文本，确定新文本的向量表示三、:在训练文本集中选出与新文本最相似的 K 个文本，计算公式为：
算法描述
• 其中，K 值的确定目前没有很好的方法，一般采用先定一个初始值，然后根据实验测试的结果调整 K 值，一般初始值定为几百到几千之间。（这里K采取随机取值） • 四、:在新文本的 K 个邻居中，依次计算每类的权重，计算公式如下：
• 其中， x为新文本的特征向量， Sim(x,di)为相似度计算公式，与上一步骤的计算公式相同，而y(di,Cj)为类别属性函数，即如果di 属于类Cj ，那么函数值为 1，否则为 0。 • 五、:比较类的权重，将文本分到权重最大的那个类别中。

近邻法

i

则有Bayes条件错误率
P * (e | x) 1 P(m | x)
因此 P* P * (e | x) p ( x) dx

对于两类问题，由前面公式
N
lim PN (e | x) 1 P (i | x)
2 i 1
2
4.5.1最近邻法二、最近邻法的错误率分析
4.5.1最近邻法二、最近邻法的错误率分析
图4.14示出近邻法的上下界。一般地，最近邻法的错误率落在图中的阴影区域中。 c类别最近邻
分类器可能渐近误差率
4.5.1最近邻法二、最近邻法的错误率分析

4.5.1最近邻法二、最近邻法的错误率分析

可以证明以下关系式成立
c P* P P * (2 P*) c 1

其中P*为贝叶斯错误率，c为类数。
上式实际上给出了最近邻法渐近平均错误率P的范围，指出它在Bayes错误率P* c 和 P * (2 P*) 之间。 c 1

4.5.1最近邻法二、最近邻法的错误率分析
c i 1
知样本x，只要比较x与 N N i 个已知类别的样本之间的欧氏距离，并决策x与离它最近的样本同类。
4.5.1最近邻法
二、最近邻法的错误率分析

近邻法的错误率很难计算，因为训练样本集的数量总是有限的，有时多一个少一个训练样本对测试样本分类的结果影响很大。如图中所示
4.5.1最近邻法二、最近邻法的错误率分析
P* P * (e | x) p(x)dx [1 P(m | x)] p(x)dx 0
此时P = P*。
4.5.1最近邻法二、最近邻法的错误率分析

KNN方法附PPT教案学习

输入：训练数据X；近邻数目K；待分类的元组t。
输出：输出类别c。
（1）N=；
（2）FOR each d ∈X DO BEGIN
（3） IF |N|<K THEN
（4） N=N ∪{d}；
（5） ELSE
（6） IF u ∈N such that sim(t，u)<sim(t，d) THEN BEGIN
（7）
N=N - {u}；
（8）
N=N ∪{d}；
（9） END
（10）END
（11）c=class to which the most u ∈N.
第12页/共27页
序
号姓名
1 Kristina
2
Jim
KNN的例子（1）
性别女男
身高 1.6
2
类别矮高
“高度”用于计算距离，K=5，对<Pat，女， 1.6>分类。
在实际的计算中往往用距离来表征，距离越近，相似性越大，距离越远，相似性越小。
距离的计算方法有多种，最常用的是通过计算每个类的中心来完成。
第9页/共27页
基于距离的分类算法的一般性描述
算法基于距离的分类算法
输入：每个类的中心C1，…，Cm；待分类的元组x。输出：输出类别c。
（1）dist=∞；//距离初始化
起初公司管理人员认为司机每天行驶的时间与每天运送货物行驶的里程密切相关通过观察散点图管理人员假设能利用一元线性回归模型来描述行驶的小时数y与行驶的英里数x之间的关对公司的实际数据采用普通最小二乘法估计出回归方程为通过对方程的分析公司的管理人员发现虽然这一结果不错但方程只能解释每天行驶时间的变异性的664
•对T前K=5个记录，N={<Kristina，女， 1.6>、< Jim，男，2>、< Maggie，女， 1.9>、< Martha，女，1.88>和< Stephanie，女，1.7>}。 •对第6个记录d=< Bob，男，1.85>，得到 N={<Kristina，女， 1.6>、< Bob，男， 1.85>、< Maggie，女，1.9>、< Martha，女，1.88>和< Stephanie，女， 1.7>}。 •对第7个记录d=< Kathy，女，1.6>，得到N={<Kristina，女， 1.6>、< Bob，男， 1.85>、< Kathy，女，1.6>、< Martha，女，1.88>和< Stephanie，女，1.7>}。

第3章 k-近邻算法 (《统计学习方法》PPT课件)

• sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
• return sortedClassCount[0][0]
Shape函数
• group,labels=kNN.createDataSet()
Python导入数据
• from numpy import * • >>> import operator • >>> def createDataSet(): • group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) • labels=['A','A','B','B'] • return group,lables
• 输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。
• 一般来说，只选择样本数据集中前N个最相似的数据。K一般不大于20，最后，选择k个中出现次数最多的分类，作为新数据的分类
K近邻算法的一般流程
• 收集数据：可以使用任何方法 • 准备数据：距离计算所需要的数值，最后是结构化的数据格式。 • 分析数据：可以使用任何方法 • 训练算法：（此步骤kNN）中不适用 • 测试算法：计算错误率 • 使用算法：首先需要输入样本数据和结构化的输出结果，然后运
• fr = open(filename)
• numberOfLines = len(fr.readlines()) #get the number of lines in the file

第12章 K最近邻分类

• 然后将距离从小到大排序，取出前k个值，这里我们假设k=5。也就是说我们取得离观测值最近的5个点，如图12.8所示
• 然后在这5个值里数一下各个类别的个数，个数最多的类别，就是该观测值的类别。比如在这个类别中三角形有3个，圆形有2个，三角形的个数大于圆形的个数，所以该观测值会被判定为三角形。
12.1.2 权重
• 权重是指某一个因素相对于整个事物的重要程度，它既体现了各个因素所占的百分比，同时也强调了因素的相对重要程度，贡献度和重要程度。
• 比如在大学里，我们的成绩评分是分为平时成绩和考试成绩，在我们学校，平时成绩占最后总成绩的30%，而考试成绩则占了70%。也就是说，如果我的平时成绩90分，考试成绩90分的话，我的总成绩是分。
• 由此可知，不同的k的选取，会对最后的结果造成很大的影响，那么应该如何确定k值呢？
• k值的确定可以通过设置不同的k值，然后比较不同k值对应的最后的分类的正确率来确定。
图12.11 当k=7时的结果
12.2.3 距离加权最近邻算法
• k值的选择会对结果造成不同的影响，想象一个特例，当我们去k=2时，正好周围有一个圆形和一个三角形，此时我们应该怎样对这个点进行分类呢？如图12.12所示，现在有一点[4.9,5],当k=2时,周围一个圆形,一个三角形。此图12.12 点[4.9,5],当k=2时, 时如果没有设置正确的程序，周围一个圆形,一个三角形则会出现异常的结果，因为圆形和三角形的个数相同，并没有最多的存在。
图12.3 坐标系中分布着若干个点
• 现在给出一个点[2,5]，我们很好判别这点应该属于三角形的类别，因为它的周围全部都是三角形，如图12.4所示。
• 同样的道理，给出线[8,5]，我们也很容易判别这一点应该属于圆形的类别，如图12.5所示。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

t={(4,2)},K=4
1.
N={(1,0),(1,2),(1,4),(2,1)},
d1=sqr(13),d2=3,d3=sqr(13),d4=sqr(5)
2.d={(2,3)},dt=sqr(5),N={(1,2),(1,4),(2,1),(2,3)},
d1=3,d2=sqr(13),d3=sqr(5),d4=sqr(5)
3.d={20},比较,N={10,12,3,20},d1=8,d2=6,d3=15,d4=2
4.d={22},比较,N={12,3,20,22},d1=6,d2=15,d3=2,d4=4
5.d={21},比较,N={3,20,22,21},d1=15,d2=2,d3=4,d4=3
6.d={11},比
11
基于距离的分类方法
数据样本都是用n维数值属性描述的向量。
X=(x1,x2，……xn)
每个样本代表n维空间的一个点。这样所有的训练样本都存放在n维模式空间中。我们根据样本的m个类别，将同类样本计算出类中心：
Cj=(cj1,cj2, …… cjn)；j=1,2,…m
输入一个未知类别样本： Y=(y1,y2, …… yn)
8
K- 近邻分类方法也可作为预测方法
样本的输出不是类别，而为实数值，未知样本返回的是k个近邻者的实数值平均值。
9
K-近邻方法的优缺点
优点：
（1）易于编程，且不需要优化和训练（2）当样本增大到一定容量，k也增大到合适的程度，k-近
邻的误差可与贝叶斯方法相比。缺点：（1）在高维和数据质量较差时，k-近邻方法表现不好。（2）当n个训练样本，n大时，计算时间太大。
如计算一个点要p次操作，每次查询都要np次计算，时间复杂度为O(np)。往往用户难以接受。
K-近邻方法对k的选择也是要靠经验，也取决于要处理的问题与背景。
10
基于距离的分类方法
近邻的含义？用什么方法来判断近邻也因问题不同而不同。
距离的计算? 用什么方法来判断距离，距离怎样计算，这些都是因问题而异。
if u∈N such that sim(t, u) ≤sim(t, d),
then
begin
N=N-{u};//去掉与 t 距离大的u;
N=N∪{d};//加进与 t 距离小的d；
end
//发现分类的类别
c=class to which the most u∈N are classified;//N中的最多的类 c 赋给 t
K最近邻方法
简单概念
K- 近邻分类方法特点 1. 不是事先通过数据来学好分类模型, 再对未知
样本分类，而存储带有标记的样本集，给一个没有标记的样本，用样本集中k个与之相近的样本对其进行即时分类。由于没有事先学习出模型，所以把它称作基于要求或懒惰的学习方法。 2. 这是一种基于示例的学习方法，一种基于类比的学习方法
曼哈坦距离: d ( i , j ) | x i 1 x j 1 | | x i 2 x j 2 | . | . x i p . x j p |
欧氏距离： d ( i ,j ) (x i 1 | x j 1 |2 |x i 2 x j 2 |2 . . |x i . p x j p |2 )
if dis（Ci，t）＜dist, then
C= Ci
dist=dis（Ci，t)
14
K-NN算法例子
给样本数据集T={2,4,10,12,3,20,22,21,11,24}
t={18},K=4
1.
N={2,4,10,12},d1=16,d2=14,d3=8,d4=6
2.d={3},比较,N={4,10,12,3},d1=14,d2=8,d3=6,d4=15
距离近就相似 4
K-近邻基本思路
1. 存储一些标记好的样本集（样本都分好了类）
2. 一个未知类的样本（要对其分类） 3. 逐一取出样本集中的样本，与未知类样
本比较，找到K-个与之相近的样本，就用这K-个样本的多数的类（或类分布）为未知样本定类。 4. 在样本集为连续值时，就用K-个样本的平均值为未知样本定值。
较,N={20,22,21,11},d1=2,d2=4,d3=3,d4=7
15
基于距离的K-NN分类方法例子
给样本数据集T={3,11,22}//类中心 t={18} 1. d1=15,d2=7,d3=4
16
K-NN算法例子2
给样本数据集:
T={(1,0),(1,2),(1,4),(2,1),(2,3),(3,1),(3,-3),(5,0), (5,1),(6,1)}
输出： c//元组t被分配的类别
算法://利用K-近邻（k-NN）算法对元组进行分类
7
N= ø;
//对于元组t发现的邻居集合
for each d∈T do if |N|≤K, then
从数据集T中不断取d 一直取出K个
N=N∪{d}; else
将t与数据集中都比一遍，留留下k个与之最小距离的元组
2
简单概念
3. K-近邻就是找出k个相似的实例来建立目标函数逼近。这种方法为局部逼近。复杂度低，不失为一个方法。
3
简单概念--相似
4. 相似实例：什么是相似？对于距离的计算方法有许多。
样本为 X=(x1,x2,…xn)
明考斯基距离: d ( i ,j) q (x i 1 | x j 1 |q |x i2 x j2 |q . .|x i .p x j p |q )
5
K-最近邻算法
样本：用 n 维数值属性表示每个样本为n维空间一个点 X=(x1,x2,……..xn) Y=(y1,y2,……..yn)
度量：点之间的距离（关系）表示
n
d(X,Y) (xiyi )2 i1 6
K-近邻算法
输入： T //训练数据( 带有类标记的样本） K //邻居的数目（给定k个近邻） t //将要被分类的元组
判断Y的类别，将Y与Cj进行距离计算，与那个类
距离小，就是那类。计算距离方法因问题而异。 12
基于距离的分类方法
A
B
C
训练集（分3类）
9个未分类数据
将9个数据分类
13
基于距离的分类方法
输入：
Hale Waihona Puke C1,C2,…Cm //样本有m个类
t
//未知样本
输出
C
//t 属于的类
基于距离的算法
Dist=∞
For i：=1 to m do