基于多稀疏分布特征和最近邻分类的物体识别方法

收稿日期:2015-05-30修回日期:2015-08-05 基金项目:国家自然科学基金资助项目(41001292);河南省重点科技攻关计划资助项目(122102210563,132102210215)

作者简介:孙利娟(1974-),女,河南开封人,副教授,硕士,主要研究方向为多媒体技术应用、程序设计(sunlijuan2001@163.com);张继栋(1978-),男,河南周口人,讲师,硕士,主要研究方向为计算机网络、算法分析;杨新锋(1979-),男,河南南阳人,副教授,硕士,主要研究方向为图像处理.

基于多稀疏分布特征和最近邻

分类的物体识别方法*

孙利娟1,2,张继栋3,杨新锋4

(1.武汉大学计算机学院,武汉430072;2.开封教育学院信息电子系,河南开封475000;3.郑州财经学院计

算机系,郑州450007;

4.南阳理工学院计算机与信息工程学院,河南南阳473004)摘 要:为提高物体识别性能,提出了一种基于多稀疏分布特征和最近邻分类的目标识别方法。提取图像的梯

度模值和方向特征,构建梯度模值和方向图像,分别对灰度图像、梯度模值图像和梯度方向图像进行稀疏表示,提取稀疏分布特征,得到融合后的多稀疏分布特征,再依据最近邻分类方法进行特征分类,实现物体识别。通过

在国际公认的COIL-100和PVOC-2007两个公共测试数据集下进行对比实验,对提出方法的参数选择、鲁棒性

和识别性能进行综合评价。实验结果表明,采用提出的方法进行物体识别的识别率高于目前经典的SIFT、SURF

和ORB方法,是一种有效的物体识别方法。

关键词:物体识别;稀疏表示;最近邻距离;梯度;街区距离

中图分类号:TP391.4 文献标志码:A 文章编号:1001-3695(2016)10-3156-04

doi:10.3969/j.issn.1001-3695.2016.10.063

Objectrecognitionmethodbasedonmulti-sparsedistribution

featuresandnearestneighborclassification

SunLijuan1,2,ZhangJidong3,YangXinfeng4

(1.SchoolofComputerScience,W uhanUniversity,W uhan430072,China;2.Dept.ofInformationElectronic,KaifengInstituteofEducation,KaifengHenan475000,China;3.Dept.ofComputer,ZhengzhouInstituteofFinance&Economics,Zhengzhou450007,China;4.SchoolofComputer&InformationEngineering,NanyangInstituteofTechnology,NanyangHenan473004,China)

Abstract:Inordertoimprovetheperformanceofobjectrecognition,thispaperproposedanobjectrecognitionmethodbased

onmulti-sparsedistributionfeaturesandnearestneighborclassification.Itextractedthefeaturesofgradientmagnitudeanddi-rectionofimage,andconstructedgradientmagnitudeimageandgradientdirectionimage.Then,itexecutedsparserepresenta-

tionongrayimage,

gradientmagnitudeimageandgradientdirectionimagerespectively,toextractsparsedistributionfeatures,andobtainedthemulti-sparsedistributionfeatures.Finally,itclassifiedthefeaturesofdifferentobjectsaccordingtonearest

neighborclassificationmethod,torealizeobjectrecognition.Itimplementedexperimentsontwointernationalcommondataset

includingCOIL-100andPVOC-2007,andevaluatedcomprehensivelyoftheparametersselection,robustnessandrecognition

performanceofthenewmethod.Theresultsshowthatthenewmethodhashigheraccuracythanthreeclassicalmethodsinclu-dingSIFT,SURFandORBonobjectrecognition,andisavalidobjectrecognitionmethod.

Keywords:objectrecognition;sparserepresentation;nearestneighbor;gradient;cityblockdistance

0 引言

物体识别是计算机视觉领域的基础研究课题,主要研究如

何从图像或视频中寻找给定的物体,或者从众多物体中辨别给

定物体的类别。由于同一物体在不同时刻、地点下采集的图像

经常存在光照、尺度、旋转、平移等变化,所以要求物体识别算

法能对这些变化具有较强的鲁棒性。

目前物体识别领域已有不少研究成果,最为经典的是文献

[1]提出的尺度不变特征变换(scale-invariantfeaturetransform,

SIFT)方法。该方法采用高斯函数进行多尺度分解和兴趣点定位,采用方向直方图构造特征描述子,基于欧氏距离进行相似

度计算,对旋转、尺度变换具有不变形,对仿射变换、视角变化也有一定的稳定性,是目前应用最为广泛的物体识别方法。但SIFT方法过度依赖图像局部区域的梯度方向,当主方向计算不准确时匹配误差会明显变大,导致物体识别失败,而且SIFT方法的运算效率偏低。文献[2]提出的加速鲁棒特征(speededuprobustfeatures,SURF)方法是对SIFT方法的改进,采用Hes-sian矩阵检测兴趣点,采用积分图和盒滤波器降低算法的计算量。该方法对尺度、旋转和平移变换也具有不变性,且在应对亮度变化方面性能优于SIFT方法,但在旋转变化方面性能远不及SIFT方法。文献[3]提出的ORB(orientedFASTandrota-

第33卷第10期

2016年10月 计算机应用研究ApplicationResearchofComputersVol.33No.10Oct.2016

万方数据

球面上的K 最近邻查询算法

球面上的K 最近邻查询算法 张丽平a ,李 松a ,郝晓红b (哈尔滨理工大学a. 计算机科学与技术学院;b. 计算中心,哈尔滨 150080) 摘 要:针对球面上数据对象点集的特征和K 最近邻查询的需求,提出2种处理球面上K 最近邻查询的算法:基于查询轴的K 最近邻查询算法(PAM 方法)和基于查询圆面的K 最近邻查询算法(PCM 方法)。对2种算法进行实验比较,结果表明,PAM 方法和PCM 方法都适合处理球面上的最近邻查询问题,PAM 方法在存储量和查询复杂度方面相对于PCM 方法具有一定优势,但PAM 方法的可扩展性远低于 PCM 方法,尤其不适合处理受限查询和带方向的查询。 关键词:最近邻;球面;查询轴;查询圆面;索引结构 Algorithms for K-Nearest Neighbor Query on Sphere ZHANG Li-ping a , LI Song a , HAO Xiao-hong b (a. School of Computer Science and Technology; b. Computation Center, Harbin University of Science and Technology, Harbin 150080, China) 【Abstract 】According to the characteristics of the datasets on the sphere, the algorithm of the K -Nearest Neighbor query based on the query axis (PAM) and the algorithm of the K-Nearest Neighbor query based on the query circular planar(PCM) are presented. Theoretical research and experimental results show that both the two methods can handle the problem of the K -Nearest Neighbor query on the sphere, compared with the PCM, PAM has advantages on the memory capacitance and the query efficiency, but the expansibility of PAM is poor and PCM has high scalability. 【Key words 】nearest neighbor; sphere; query axis; query circular planar; index structure DOI: 10.3969/j.issn.1000-3428.2011.02.018 计 算 机 工 程 Computer Engineering 第37卷 第2期 V ol.37 No.2 2011年1月 January 2011 ·软件技术与数据库· 文章编号:1000—3428(2011)02—0052—02文献标识码:A 中图分类号:TP391 1 概述 随着空间定位技术、地理信息系统和智能查询技术的发展, 对空间对象的近邻查询及其变种的研究成为空间数据库领域研究的热点和难点。近年来,国内外对空间对象的近邻关系查询问题进行了大量的工作,取得了一定的研究成 果[1-5],但其主要是对二维平面中的近邻查询问题进行分析,没有进一步给出球面上的数据对象集的最近邻查询的算法,研究成果在具体应用中具有一定的局限性。本文着重对球面上数据对象点的K 最近邻查询算法进行研究。 2 球面上的K 最近邻查询算法 根据球面上数据对象点的特征和K 最近邻查询的要求,本节给出基于查询轴的K 最近邻查询算法(PAM 方法)和基于查询圆面的K 最近邻查询算法(PCM 方法)。 2.1 基于查询轴的K 最近邻查询算法(PAM 方法) 定义1 设P ={p 1, p 2,…, p n }(2≤n ≤∞)为球面S 2上的对象点集,X i 和X j 分别为点p i ∈S 和p j ∈S 的位置矢量,点p i 和p j 之间的最短距离定义为通过点p i 和p j 的大圆(其中心点即为球的中心)中较小弧段的长度。这个距离用公式表达为: d (p i , p j )=arcos(T i j X X )≤π 称此距离为点p i 和p j 之间的球面距离。 定义2 过查询点q 和球心o 的直线称之为q 的查询轴, q 的查询轴具有唯一性。q 的查询轴与球面相交的另一点q ’称为q 的球面对称点。以查询轴作为一维刻度轴,查询轴上的数据点到查询点q 的距离称为轴查询距离。球面上的数据点在查询轴上的投影称之为轴投影点。 查询轴及查询圆面如图1所示,直线qq ’是查询轴,查询轴上的点o 3是球面上的点p 12的轴投影点。由球的性质可知,判断球面上点集之间的弧的长短可以转化为判断欧式空间内的直线段的大小。且球面上的数据对象点到查询点 q 之间的球面距离大小关系在q 的查询轴上投影后保持不变。 若查询点q 的位置固定,球面上其他数据点在球面上移动,移动点到查询点q 的距离关系在查询轴上因数据点的移动而做相应变化,其变化情况与球面上的一致。球面上数据点到q 的距离大小关系及其动态距离关系的变化在q 的查询轴上可得到较好的保持。由此,可将查询点q 在球面数据集中的K 最近邻问题降维到q 的查询轴上进行处理,从而降低了查询的难度。基于查询轴的方法主要适用于球面上的数据对象点是静态或动态、查询点q 的更新频率较低的情况。 图1 查询轴及查询圆面 若球面S 2上数据集中的数据点是静态的,数据集的动态变化主要限于增加或删除数据点,此时可用二叉树或B 树来处理一维查询轴空间内的查询点q 的K 最近邻查询问题。当球面数据集中增加点或删除点时,相应的树索引结构可进行局部的插入或删除更新。具体算法如算法1所示。 基金项目:黑龙江省教育厅科学技术研究基金资助项目(11551084) 作者简介:张丽平(1976-),女,讲师、硕士,主研方向:数据结构,数据库理论;李 松,讲师、博士;郝晓红,高级实验师 收稿日期:2010-07-02 E-mail :zhanglptg@https://www.360docs.net/doc/fd4048245.html,

K-最近邻是分类器

K-最近邻是分类器算法中最通俗易懂的一种,计算测试样本到各训练样本的距离,取其中最小的K个,并根据这K个训练样本的标记进行投票得到测试样本的标记。算法的思路清晰简单,然而对于海量数据计算量过大,每个训练样本都有一个距离必须度量,耗费大量时间。 function test_knn % 二维平面两类分类问题: k应该取奇数,避免投票时正负两类的得票数相同 clear; k=10; % 最近邻居的数目 kk=zeros(k,1); % k个最近邻的标记初始值为0; num_po=100; % 正类样本:横坐标(0,1);纵坐标(0,1) x11=rand(num_po,1); x12=rand(num_po,1); x1=[x11 x12]; y1=ones(num_po,1); % 正类标记 num_ne=100; % 负类样本:横坐标(1,2);纵坐标(0,1) x21=rand(num_ne,1)+1; x22=rand(num_ne,1); x2=[x21 x22]; y2=-1*ones(num_ne,1); % 负类标记 x=[x1;x2]; y=[y1;y2]; num_t=20; % 测试样本 test1=rand(num_t,1)+0.5; test2=rand(num_t,1); test=[test1 test2]; for num=1:num_t for i=1:(num_po+num_ne) dis(i)=(test(num,1)-x(i,1))^2+(test(num,2)-x(i,2))^2; end for j=1:k % 赋初值 near(j)=10^5; end for i=1:(num_po+num_ne) % 求最近的K个距离并记录其标记 for j=1:k

最近邻法和k-近邻法

最近邻法和k-近邻法 一.基本概念: 最近邻法:对于未知样本x,比较x与N个已知类别的样本之间的欧式距离,并决策x 与距离它最近的样本同类。 K近邻法:取未知样本x的k个近邻,看这k个近邻中多数属于哪一类,就把x归为哪一类。K取奇数,为了是避免k1=k2的情况。 二.问题分析: 要判别x属于哪一类,关键要求得与x最近的k个样本(当k=1时,即是最近邻法),然后判别这k个样本的多数属于哪一类。 可采用欧式距离公式求得两个样本间的距离s=sqrt((x1-x2)^2+(y1-y2)^2) 三.算法分析: 该算法中任取每类样本的一半作为训练样本,其余作为测试样本。例如iris中取每类样本的25组作为训练样本,剩余25组作为测试样本,依次求得与一测试样本x距离最近的k 个样本,并判断k个样本多数属于哪一类,则x就属于哪类。测试10次,取10次分类正确率的平均值来检验算法的性能。 四.MATLAB代码: 最近邻算实现对Iris分类 clc; totalsum=0; for ii=1:10 data=load('iris.txt'); data1=data(1:50,1:4);%任取Iris-setosa数据的25组 rbow1=randperm(50); trainsample1=data1(rbow1(:,1:25),1:4); rbow1(:,26:50)=sort(rbow1(:,26:50));%剩余的25组按行下标大小顺序排列 testsample1=data1(rbow1(:,26:50),1:4); data2=data(51:100,1:4);%任取Iris-versicolor数据的25组 rbow2=randperm(50); trainsample2=data2(rbow2(:,1:25),1:4); rbow2(:,26:50)=sort(rbow2(:,26:50)); testsample2=data2(rbow2(:,26:50),1:4); data3=data(101:150,1:4);%任取Iris-virginica数据的25组 rbow3=randperm(50); trainsample3=data3(rbow3(:,1:25),1:4); rbow3(:,26:50)=sort(rbow3(:,26:50)); testsample3=data3(rbow3(:,26:50),1:4); trainsample=cat(1,trainsample1,trainsample2,trainsample3);%包含75组数据的样本集testsample=cat(1,testsample1,testsample2,testsample3); newchar=zeros(1,75);sum=0; [i,j]=size(trainsample);%i=60,j=4 [u,v]=size(testsample);%u=90,v=4 for x=1:u for y=1:i

2017年中考地理试题归类及解析:“我们邻近的地区和国家”类

2017年中考地理试题归类及解析:“我们邻近的地区和国家”类 5.<2017,绥化>俄罗斯的首都是() A.圣彼得堡B.摩尔曼斯克C.莫斯科D.萨马拉 【考点】DD:俄罗斯的主要山脉、河流、湖泊、平原和城市. 【分析】俄罗斯领土1707万平方千米,是世界上面积最大的国家,俄罗斯地跨亚欧两大洲,其工业和城市主要分布在欧洲部分.首都莫斯科位于东欧平原,既是全国最大的城市和综合性工业中心,也是俄罗斯的政治、文化和交通中心.全国第二大城市圣彼得堡是波罗的海沿岸的重要海港,符拉迪沃斯托克(海参崴)是太平洋沿岸的主要海港,摩尔曼斯克是北冰洋沿岸的主要海港. 【解答】解:俄罗斯的首都是莫斯科,位于东欧平原上.故选:C. <2017,保定>图为俄罗斯主要河流与l月平均气温分布图,读图完成5~6题. 5.受气温影响,俄罗斯主要河流中结冰期最短的是() A.①B.②C.③D.④ 【考点】C2:欧洲西部的主要半岛、临海、山脉和河流. 【分析】俄罗斯领土1707万平方千米,是世界上面积最大的国家,俄罗斯地跨亚欧两大洲,俄罗斯的北部被北极圈穿过,俄罗斯气温较低. 【解答】解:俄罗斯的北部被北极圈穿过,气温较低,俄罗斯东部有许多河流.但航运价值不高.最主要的原因是河流的结冰期长,与西伯利亚地区相比,东欧平原气候相对温和,河流的结冰期较短,图中①为伏尔加河,是选项河流中结冰期最短,航运价值最高的河流.故选:A.

6.圣彼得堡的高新技术产业发达,主要有利条件是() A.劳动力廉价B.海运发达C.矿产资源丰富D.知识技术密集 【考点】DJ:俄罗斯主要工业区和工业部分及其分布;DD:俄罗斯的主要山脉、河流、湖泊、平原和城市. 【分析】俄罗斯地跨亚欧两大洲,由于俄罗斯的人口、经济、文化、政治中心主要分布在欧洲,所以说俄罗斯是一个传统的欧洲国家. 【解答】解:圣彼得堡的高新技术产业发达,主要有利条件是知识技术密集即科技力量雄厚.故选:D. 7.<2017,东营>日本汽车制造企业到我国投资办厂,主要是因为我国() A.劳动力丰富,人才密集B.资金雄厚,技术先进 C.煤、铁资源丰富D.拥有庞大的汽车消费人群 7.D 解析:产业转移就地域来看,在国内由发达地区到欠发达地区,在国际由发达国家到发展中国家;就产业类型来看,先转移劳动密集型产业和轻工业,进而转移资金密集型产业和技术密集型产业.我国是世界上人口最多的国家,拥有庞大的汽车消费人群,这是吸引日本汽车制造企业到我国投资办厂的主要原因。 11.<2017,威海>印度有“世界办公室”之称,服务外包产业发展迅速,该产业的特点是 ①信息技术含量高②利润高③资源消耗小④不需要劳动力. A.①②③B.②③④C.①③④D.①②④ 11. A 解析:服务外包产业具有信息技术含量高、利润大、资源消耗低、环境污染少、吸纳就业(特别是大学生就业)能力强、国际化水平高等特点.故选项A符合题意. 故选:A. 12.<2017,邵阳>印度是南亚唯一掌握一箭十星卫星发射技术的国家。下列有关印度软件外包产业说法错误的是() A.最近20 多年来,印度软件服务外包产业发展迅速 B.印度被称作“世界办公室” C.印度软件外包产业的发源地是加尔各答 D.印度发展软件外包产业的优势有英语普及、信息技术发展早、劳动力资源丰富等 12.C 解析:最近20 多年来,印度的电脑软件产业在世界上占有重要的地位,软件服务外包产业发展迅速,印度被称作“世界办公室”;印度软件外包产业的发源地是班加罗尔,印度发展软件外包产业的优势有英语普及、信息技术发展早、劳动力资源丰富等;选项ABD

k-最近邻算法在分类和预测中的应用

第一讲 k-最近邻算法在分类和预测中的应用 1 k-最近邻分类 在k-最近邻算法背后的思想是建立一种对函数形式没有假设的分类方法, 方程 ,把因变量(或回应)和自变量联系起来。我们所做的唯 一的假设是,认为它是一个光滑的函数。这是一个非参数的方法,因为它不涉及在一个假设了函数形式的方程中进行参数估计,这和我们在线性回归中碰到的线性假设和系数求解完全不同。 ),...,,(21p x x x f y =y p x x x ,...,21我们的训练数据中,每个观测点(observation )都含有y 值,这个值刚好是该观测点的类别。例如,如果我们有两个类,那么是一个二元的变量。k-最近相邻的方法是在训练数据集中动态的确定和一个新的观测点相近的k 个观测点,比如,对于点,我们希望用k 个观测点去把一个特定的观测点分到某一类中。如果我们知道函数,那就简 单地计算。如果我们所有的假设是:是一个光滑函数,那么一个合理的想法就是在观测点集中寻找和它(根据自变量)相近的观测点,并从值计算出。这是一个类似于插值的思想,如同我们常用的正态分布表。当我们谈到邻居时,通常隐含着我们能够计算观测点间的距离或相异的度量,这些度量能够根据自变量得出。目前,我们局限于最常见的距离度量方法中:欧几里德距离。点和之间的欧式距离为: y ),...,,(21p u u u ^ v f ),...,,(21^ p u u u f v =f y ^ v ),...,(21p x x x ),...,(21p u u u 2222211)(...)()(p p u x u x u x ?++?+? 当讨论聚类方法的时候,我们会考虑在预测变量空间中点的距离的其它定义。 最简单的情况是当k=1的情况,这时我们发现观测点就是最近的(最近邻),并且,这里是最近邻的观测点的类别。一个显著的事实是:这是简单的、直观的、有力的分类想法,尤其当我们的训练集中观测点的数目很大的时候。可以证明1-NN 的误分的概率不劣于我们知道每个类的精确的概率密度函数时误分概率的2倍。换句话说,如果有大量的数据及充分复杂的分类规则,我们最多能减少划分错误到用简单的1-NN 规则时的一半。 y v =^ y 下面我们延伸1-NN 的想法为k-NN 。首先,发现最近k 邻居然后用大量的决策规则去分类一个新的观测点。由于在训练数据中存在噪声,高一点的k 值的优点是提供平滑的分类,以便减少过拟和的风险。在典型的应用中,k 是几个或十几个单元,而不是成百上千。注意到如果k=n ,在整个观测数据训练集中的数据数目,我们仅仅预测在训练数据集中大多数训练数据的所属类别,而不管的值如何。这显然是一个过平滑的例子,除非根本就没有关于因变量的自变量的信息。 ),...,(21p u u u

k最近邻算法实验报告

题目k-最近邻算法实现学生姓名 学生学号 专业班级 指导教师 2015-1-2

实验二k-最近邻算法实现 一、实验目的 1.加强对k-最近邻算法的理解; 2.锻炼分析问题、解决问题并动手实践的能力。 二、实验要求 使用一种你熟悉的程序设计语言,如C++或Java,给定最近邻数k和描述每个元组的属性数n,实现k-最近邻分类算法,至少在两种不同的数据集上比较算法的性能。 三、实验环境 Win7 旗舰版+ Visual Studio 2010 语言:C++ 四、算法描述 KNN(k Nearest Neighbors)算法又叫k最临近方法。假设每一个类包含多个样本数据,而且每个数据都有一个唯一的类标记表示这些样本是属于哪一个分类,KNN就是计算每个样本数据到待分类数据的距离。如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。因此,采用这种方法可以较好地避免样本的不平衡问题。另外,由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待

分样本集来说,KNN 方法较其他方法更为适合。该方法的不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K 个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑,事先去除对分类作用不大的样本。该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。 1、 算法思路 K-最临近分类方法存放所有的训练样本,在接受待分类的新样本之前不需构造模型,并且直到新的(未标记的)样本需要分类时才建立分类。K-最临近分类基于类比学习,其训练样本由N 维数值属性描述,每个样本代表N 维空间的一个点。这样,所有训练样本都存放在N 维模式空间中。给定一个未知样本,k-最临近分类法搜索模式空间,找出最接近未知样本的K 个训练样本。这K 个训练样本是未知样本的K 个“近邻”。“临近性”又称为相异度(Dissimilarity ),由欧几里德距离定义,其中两个点 X (x1,x2,…,xn )和Y (y1,y2,…,yn )的欧几里德距离是: 2 222211)()()(),(n n y x y x y x y x D -+?+-+-= 未知样本被分配到K 个最临近者中最公共的类。在最简单的情况下,也就是当K=1时,未知样本被指定到模式空间中与之最临近的训练样本的类。 2、 算法步骤 step.1---初始化距离为最大值; step.2---计算未知样本和每个训练样本的距离dist ; step.3---得到目前K 个最临近样本中的最大距离maxdist ; step.4---如果dist 小于maxdist ,则将该训练样本作为K-最近邻样本; step.5---重复步骤2、3、4,直到未知样本和所有训练样本的距离都算完; step.6---统计K-最近邻样本中每个类标号出现的次数; step.7---选择出现频率最大的类标号作为未知样本的类标号。

最近邻法

实验三 基于K 最近邻法的IRIS 分类 实验目的: 1. 进一步了解K 最近邻分类法的设计概念,能够根据自己的设计对线性分类器有更深刻地认识; 2. 理解最近邻分类的原理及其算法步骤,运用该方法对iris 数据进行分类,熟悉其MATLAB 编程。 一、 实验条件: 1. PC 微机一台和MATLAB 软件。 二、 实验原理: KNN(k Nearest Neighbors)算法又叫k 最近邻方法。假设每一个类包含多个样本数据,而且每个数据都有一个唯一的类标记表示这些样本是属于哪一个分类, KNN 就是计算每个样本数据到待分类数据的距离。如果一个样本在特征空间中的k 个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN 方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。因此,采用这种方法可以较好地避免样本的不平衡问题。另外,由于KNN 方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN 方法较其他方法更为适合。该方法的不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K 个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑,事先去除对分类作用不大的样本。该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。 K-最临近分类方法存放所有的训练样本,在接受待分类的新样本之前不需构造模型,并且直到新的(未标记的)样本需要分类时才建立分类。K-最临近分类基于类比学习,其训练样本由N 维数值属性描述,每个样本代表N 维空间的一个点。这样,所有训练样本都存放在N 维模式空间中。给定一个未知样本,k-最临近分类法搜索模式空间,找出最接近未知样本的K 个训练样本。这K 个训练样本是未知样本的K 个“近邻”。“临近性”又称为相异度(Dissimilarity ),由欧几里德距离定义,其中两个点 X (,... ,21x x n x )和Y (,...,21y y …,n y )的 欧几里德距离是: 2222211)(...)()(),(n n y x y x y x y x D -++-+-= 未知样本被分配到K 个最临近者中最公共的类。在最简单的情况下,也就是当K=1时,未知样本被指定到模式空间中与之最临近的训练样本的类。

模式识别最近邻法和k近邻法MATLAB实现

学号:02105120 姓名:吴林一. 基本概念: 最近邻法:对于未知样本x,比较x与N个已知类别的样本之间的欧式距离,并决策x与距 离它最近的样本同类。 K近邻法:取未知样本x的k个近邻,看这k个近邻中多数属于哪一类,就把x归为哪一类。K取奇数,为了是避免k仁k2的情况。 二.问题分析: 要判别x属于哪一类,关键要求得与x最近的k个样本(当k=1时,即是最近邻法),然后 判别这k 个样本的多数属于哪一类。 可采用欧式距离公式求得两个样本间的距离s=sqrt (( X1-X2)A2+(y1-y2)A2 ) 三.算法分析: 该算法中任取每类样本的一半作为训练样本,其余作为测试样本。例如iris 中取每类样本 的25 组作为训练样本,剩余25 组作为测试样本,依次求得与一测试样本x 距离最近的k 个样本,并判断k 个样本多数属于哪一类,则x 就属于哪类。测试10 次,取10 次分类正确率的平均值来 检验算法的性能。 四.M ATLAB弋码: 最近邻算实现对Iris 分类 clc; totalsum=0; for ii=1:10 data=load( '' ); data1=data(1:50,1:4); %任取Iris-setosa 数据的25 组 rbow1=randperm(50); trainsample1=data1(rbow1(:,1:25),1:4); rbow1(:,26:50)=sort(rbow1(:,26:50)); %剩余的25 组按行下标大小顺序排列 testsample1=data1(rbow1(:,26:50),1:4); data2=data(51:100,1:4); %任取Iris-versicolor 数据的25 组 rbow2=randperm(50); trainsample2=data2(rbow2(:,1:25),1:4); rbow2(:,26:50)=sort(rbow2(:,26:50)); testsample2=data2(rbow2(:,26:50),1:4); data3=data(101:150,1:4); %任取Iris-virginica 数据的25 组 rbow3=randperm(50); trainsample3=data3(rbow3(:,1:25),1:4); rbow3(:,26:50)=sort(rbow3(:,26:50)); testsample3=data3(rbow3(:,26:50),1:4); trainsample=cat(1,trainsample1,trainsample2,trainsample3); %包含75 组数据的样本 集 testsample=cat(1,testsample1,testsample2,testsample3); newchar=zeros(1,75);sum=0; [i,j]=size(trainsample); %i=60,j=4 [u,v]=size(testsample); %u=90,v=4 for x=1:u

模式识别 最近邻法和k近邻法MATLAB实现

最近邻法和k-近邻法 学号:02105120 姓名:吴林一.基本概念: 最近邻法:对于未知样本x,比较x与N个已知类别的样本之间的欧式距离,并决策x与距离它最近的样本同类。 K近邻法:取未知样本x的k个近邻,看这k个近邻中多数属于哪一类,就把x归为哪一类。K取奇数,为了是避免k1=k2的情况。 二.问题分析: 要判别x属于哪一类,关键要求得与x最近的k个样本(当k=1时,即是最近邻法),然后判别这k个样本的多数属于哪一类。 可采用欧式距离公式求得两个样本间的距离s=sqrt((x1-x2)^2+(y1-y2)^2) 三.算法分析: 该算法中任取每类样本的一半作为训练样本,其余作为测试样本。例如iris中取每类样本的25组作为训练样本,剩余25组作为测试样本,依次求得与一测试样本x距离最近的k 个样本,并判断k个样本多数属于哪一类,则x就属于哪类。测试10次,取10次分类正确率的平均值来检验算法的性能。 四.MATLAB代码: 最近邻算实现对Iris分类 clc; totalsum=0; for ii=1:10 data=load('iris.txt'); data1=data(1:50,1:4);%任取Iris-setosa数据的25组 rbow1=randperm(50); trainsample1=data1(rbow1(:,1:25),1:4); rbow1(:,26:50)=sort(rbow1(:,26:50));%剩余的25组按行下标大小顺序排列testsample1=data1(rbow1(:,26:50),1:4); data2=data(51:100,1:4);%任取Iris-versicolor数据的25组 rbow2=randperm(50); trainsample2=data2(rbow2(:,1:25),1:4); rbow2(:,26:50)=sort(rbow2(:,26:50)); testsample2=data2(rbow2(:,26:50),1:4); data3=data(101:150,1:4);%任取Iris-virginica数据的25组 rbow3=randperm(50); trainsample3=data3(rbow3(:,1:25),1:4); rbow3(:,26:50)=sort(rbow3(:,26:50)); testsample3=data3(rbow3(:,26:50),1:4);

基于多稀疏分布特征和最近邻分类的物体识别方法

收稿日期:2015-05-30修回日期:2015-08-05 基金项目:国家自然科学基金资助项目(41001292);河南省重点科技攻关计划资助项目(122102210563,132102210215) 作者简介:孙利娟(1974-),女,河南开封人,副教授,硕士,主要研究方向为多媒体技术应用、程序设计(sunlijuan2001@163.com);张继栋(1978-),男,河南周口人,讲师,硕士,主要研究方向为计算机网络、算法分析;杨新锋(1979-),男,河南南阳人,副教授,硕士,主要研究方向为图像处理. 基于多稀疏分布特征和最近邻 分类的物体识别方法* 孙利娟1,2,张继栋3,杨新锋4 (1.武汉大学计算机学院,武汉430072;2.开封教育学院信息电子系,河南开封475000;3.郑州财经学院计 算机系,郑州450007; 4.南阳理工学院计算机与信息工程学院,河南南阳473004)摘 要:为提高物体识别性能,提出了一种基于多稀疏分布特征和最近邻分类的目标识别方法。提取图像的梯 度模值和方向特征,构建梯度模值和方向图像,分别对灰度图像、梯度模值图像和梯度方向图像进行稀疏表示,提取稀疏分布特征,得到融合后的多稀疏分布特征,再依据最近邻分类方法进行特征分类,实现物体识别。通过 在国际公认的COIL-100和PVOC-2007两个公共测试数据集下进行对比实验,对提出方法的参数选择、鲁棒性 和识别性能进行综合评价。实验结果表明,采用提出的方法进行物体识别的识别率高于目前经典的SIFT、SURF 和ORB方法,是一种有效的物体识别方法。 关键词:物体识别;稀疏表示;最近邻距离;梯度;街区距离 中图分类号:TP391.4 文献标志码:A 文章编号:1001-3695(2016)10-3156-04 doi:10.3969/j.issn.1001-3695.2016.10.063 Objectrecognitionmethodbasedonmulti-sparsedistribution featuresandnearestneighborclassification SunLijuan1,2,ZhangJidong3,YangXinfeng4 (1.SchoolofComputerScience,W uhanUniversity,W uhan430072,China;2.Dept.ofInformationElectronic,KaifengInstituteofEducation,KaifengHenan475000,China;3.Dept.ofComputer,ZhengzhouInstituteofFinance&Economics,Zhengzhou450007,China;4.SchoolofComputer&InformationEngineering,NanyangInstituteofTechnology,NanyangHenan473004,China) Abstract:Inordertoimprovetheperformanceofobjectrecognition,thispaperproposedanobjectrecognitionmethodbased onmulti-sparsedistributionfeaturesandnearestneighborclassification.Itextractedthefeaturesofgradientmagnitudeanddi-rectionofimage,andconstructedgradientmagnitudeimageandgradientdirectionimage.Then,itexecutedsparserepresenta- tionongrayimage, gradientmagnitudeimageandgradientdirectionimagerespectively,toextractsparsedistributionfeatures,andobtainedthemulti-sparsedistributionfeatures.Finally,itclassifiedthefeaturesofdifferentobjectsaccordingtonearest neighborclassificationmethod,torealizeobjectrecognition.Itimplementedexperimentsontwointernationalcommondataset includingCOIL-100andPVOC-2007,andevaluatedcomprehensivelyoftheparametersselection,robustnessandrecognition performanceofthenewmethod.Theresultsshowthatthenewmethodhashigheraccuracythanthreeclassicalmethodsinclu-dingSIFT,SURFandORBonobjectrecognition,andisavalidobjectrecognitionmethod. Keywords:objectrecognition;sparserepresentation;nearestneighbor;gradient;cityblockdistance 0 引言 物体识别是计算机视觉领域的基础研究课题,主要研究如 何从图像或视频中寻找给定的物体,或者从众多物体中辨别给 定物体的类别。由于同一物体在不同时刻、地点下采集的图像 经常存在光照、尺度、旋转、平移等变化,所以要求物体识别算 法能对这些变化具有较强的鲁棒性。 目前物体识别领域已有不少研究成果,最为经典的是文献 [1]提出的尺度不变特征变换(scale-invariantfeaturetransform, SIFT)方法。该方法采用高斯函数进行多尺度分解和兴趣点定位,采用方向直方图构造特征描述子,基于欧氏距离进行相似 度计算,对旋转、尺度变换具有不变形,对仿射变换、视角变化也有一定的稳定性,是目前应用最为广泛的物体识别方法。但SIFT方法过度依赖图像局部区域的梯度方向,当主方向计算不准确时匹配误差会明显变大,导致物体识别失败,而且SIFT方法的运算效率偏低。文献[2]提出的加速鲁棒特征(speededuprobustfeatures,SURF)方法是对SIFT方法的改进,采用Hes-sian矩阵检测兴趣点,采用积分图和盒滤波器降低算法的计算量。该方法对尺度、旋转和平移变换也具有不变性,且在应对亮度变化方面性能优于SIFT方法,但在旋转变化方面性能远不及SIFT方法。文献[3]提出的ORB(orientedFASTandrota- 第33卷第10期 2016年10月 计算机应用研究ApplicationResearchofComputersVol.33No.10Oct.2016 万方数据

相关文档
最新文档