基于改进剪辑的高光谱遥感图像半监督分类_王俊淑

合集下载

融合光谱-空间信息的高光谱遥感影像增量分类算法

融合光谱-空间信息的高光谱遥感影像增量分类算法

融合光谱-空间信息的高光谱遥感影像增量分类算法王俊淑;江南;张国明;李杨;吕恒【期刊名称】《测绘学报》【年(卷),期】2015(000)009【摘要】提出了一种融合光谱和空间结构信息的高光谱遥感影像增量分类算法INC_SPEC_MPext.通过主成分分析(PCA)提取高光谱影像的若干主成分,利用数学形态学提取各主分量影像对应的形态学剖面(MP),再将所有主分量影像的形态学剖面归并联结,组成扩展的形态学剖面(MPext ).将MPext与光谱信息相结合以增加知识,最大限度地挖掘未标记样本的有用信息,优化分类器的学习能力.不断从分类器对未标记样本的预测结果中甄选置信度高的样本加入训练集,并迭代地利用扩大的训练集进行分类器构建和样本预测.以不同地表覆盖类型的AVIRIS Indian Pines 和Hyperion EO-1 Botswana 作为测试数据,分别与基于光谱、MPext、光谱和MPext融合的分类方法进行比对.试验结果表明,在训练样本数量有限情况下,INC_SPEC_MPext算法在降低分类成本的同时,分类精度和 Kappa 系数都有不同程度的提高.【总页数】11页(P1003-1013)【作者】王俊淑;江南;张国明;李杨;吕恒【作者单位】南京师范大学虚拟地理环境教育部重点实验室,江苏南京 210023; 江苏省地理信息资源开发与利用协同创新中心,江苏南京210023;南京师范大学虚拟地理环境教育部重点实验室,江苏南京 210023; 江苏省地理信息资源开发与利用协同创新中心,江苏南京210023;江苏省卫生统计信息中心,江苏南京210008;南京师范大学虚拟地理环境教育部重点实验室,江苏南京 210023; 江苏省地理信息资源开发与利用协同创新中心,江苏南京210023;南京师范大学虚拟地理环境教育部重点实验室,江苏南京 210023; 江苏省地理信息资源开发与利用协同创新中心,江苏南京210023【正文语种】中文【中图分类】P237【相关文献】1.基于光谱与空间特征结合的改进高光谱数据分类算法 [J], 李娜;李咏洁;赵慧洁;曹扬2.高光谱遥感影像分类算法并行处理设计与实现 [J], 秦飞龙;郭科;柳炳利;周仲礼;程宾洋;武进3.空间-光谱约束的图半监督高光谱影像分类算法 [J], 何浩;沈永林;刘修国;马丽4.基于WOA和DPR的高光谱遥感影像分类算法 [J], 谢福鼎;张莹5.基于空间-光谱特征和稀疏表达的高光谱图像分类算法(英文) [J], 杨京辉;王立国;钱晋希因版权原因,仅展示原文概要,查看原文内容请购买。

基于改进三重训练算法的高光谱图像半监督分类

基于改进三重训练算法的高光谱图像半监督分类

基于改进三重训练算法的高光谱图像半监督分类王立国;杨月霜;刘丹凤【期刊名称】《哈尔滨工程大学学报》【年(卷),期】2016(037)006【摘要】高光谱数据维数高,有标签的样本数量少,给高光谱图像分类带来困难。

本文针对传统三重训练( tri⁃train⁃ing)算法在初始有标签样本数量较少的情况下分类器间差异性不足的问题提出了一种基于改进三重训练算法的半监督分类框架。

该方法首先通过边缘采样策略( margin Sampling,MS)选取最富含信息量的无标签样本,然后在训练每个分类器之前通过差分进化算法( differential evolution,DE)利用所选取的无标签样本产生新的样本。

这些新产生的样本将被标记并且加入训练样本集来帮助初始化分类器。

实验结果表明,该方法不仅能够有效地利用无标签样本,而且在有标签数据很少的情况下能够有效地提高分类精度。

【总页数】6页(P849-854)【作者】王立国;杨月霜;刘丹凤【作者单位】哈尔滨工程大学信息与通信工程学院,黑龙江哈尔滨150001;哈尔滨工程大学信息与通信工程学院,黑龙江哈尔滨150001;哈尔滨工程大学信息与通信工程学院,黑龙江哈尔滨150001【正文语种】中文【中图分类】TP75【相关文献】1.改进的LLGC高光谱图像半监督分类 [J], 盛振国;王立国2.基于光谱加权直推式支持向量机的高光谱图像半监督分类 [J], 高恒振;万建伟;徐湛;钱林杰3.基于聚类核函数的最小二乘支持向量机高光谱图像半监督分类 [J], 高恒振;万建伟;许可;钱林杰4.基于改进标签传播算法的高光谱图像半监督分类 [J], 崔宾阁;吴子宾;秦学川;马秀丹5.基于同质区和迁移学习的高光谱图像半监督分类 [J], 赵婵娟; 周绍光; 丁倩; 刘丽丽因版权原因,仅展示原文概要,查看原文内容请购买。

高光谱遥感图像分类准确度分析与评估算法改进

高光谱遥感图像分类准确度分析与评估算法改进

高光谱遥感图像分类准确度分析与评估算法改进摘要:随着遥感技术的发展和高光谱遥感图像数据的广泛应用,图像分类准确度成为评估遥感图像处理算法优劣的重要指标之一。

本文通过分析目前常用的高光谱遥感图像分类算法,发现存在一些问题,例如对于光谱特征提取不准确、样本分布不均衡、特征选择不合理等。

因此,本文提出了几种改进的算法,包括基于深度学习的特征提取和分类、模型融合方法等,以提高高光谱遥感图像分类的准确度。

1. 引言高光谱遥感图像是利用能够接收地物反射或辐射的多个波段信息进行图像获取和解译的一种遥感数据。

由于其具有更多的波段信息和更高的光谱分辨率,高光谱图像能够提供更多的地物属性信息,因此在农业、环境监测、城市规划等领域具有广泛的应用前景。

而高光谱遥感图像的分类准确度,则直接关系到地物分类的精度和应用效果。

2. 目前高光谱遥感图像分类算法存在的问题2.1 光谱特征提取不准确对高光谱遥感图像进行分类,首先需要提取有意义的光谱特征。

目前常用的方法有基于PCA(主成份分析)、SAM(光谱角度匹配)等。

然而,这些方法在提取光谱特征时,容易由于数据噪声、信噪比低等原因导致提取结果不准确,从而影响图像分类的准确度。

2.2 样本分布不均衡高光谱遥感图像分类中,不同类别的样本数量通常是不均衡的。

样本分布不均衡会导致训练的模型对多数类别的分类准确度较高,而对少数类别的分类准确度较低。

这样会影响整体分类的准确度。

2.3 特征选择不合理在高光谱图像分类中,特征选择对分类的准确度起着重要的作用。

目前常用的特征选择方法有相关系数法、信息增益法等。

然而,这些方法在选择特征时,往往无法准确地评估特征与类别之间的关联程度,导致选取的特征不一定是最具代表性和区分性的。

3. 高光谱遥感图像分类准确度分析与评估算法改进3.1 基于深度学习的特征提取和分类深度学习在计算机视觉领域取得了巨大成功,对于高光谱遥感图像分类也有着广泛的应用。

通过使用已经在自然图像领域得到验证的深度神经网络,可以实现对高光谱图像的特征提取和分类。

基于半监督学习的高光谱遥感图像分类算法研究

基于半监督学习的高光谱遥感图像分类算法研究

基于半监督学习的高光谱遥感图像分类算法研究高光谱遥感图像分类是遥感图像处理领域中一个重要的应用领域。

高光谱遥感图像是指采集到的图像具有连续的光谱信息,每个像素不是一个数值,而是一个包含多个波段信息的数组,这使得高光谱遥感图像能够提供比多光谱遥感图像更丰富的信息和更精细的分类结果。

目前,高光谱遥感图像分类算法研究主要集中于典型分类器和深度学习分类器两种方法。

传统典型分类器如最小距离分类器和支持向量机分类器等,需要区分像素之间的差异,以便能够将图像中的像素分类至不同的类别,属于有监督学习分类方法;深度学习分类器利用复杂的神经网络学习高光谱遥感图像中的特征,并能够提高分类效果,也属于有监督学习分类方法。

但这些方法需要大量标注样本,而这在实践中是极其困难的。

近年来,随着深度学习的出现,半监督学习的研究引起了广泛关注。

半监督学习是一种有监督学习和无监督学习的结合体,在保证分类精度的同时减少标注样本的数量,从而降低了成本。

基于半监督学习的高光谱遥感图像分类算法的主要目标是合理利用已分类的标注样本和未标注样本之间的关系来提高分类效果。

由于高光谱图像的数据量极大,很多未标注样本经常被忽略。

半监督学习通过在不影响分类准确性的前提下尽可能利用这些未标注样本,使得更多的数据成为了有用的信息,从而提高了分类准确性。

半监督学习方法主要分为两种:基于图算法和基于生成型模型。

基于图算法的半监督学习分类方法如图半监督学习(Graph-based Semi-Supervised Learning, GSSL)、拉普拉斯正则化半监督学习(Laplacian Regularized Semi-Supervised Learning, LRA)等。

基于生成型模型的半监督学习分类方法如生成式模型和鉴别式模型等。

GSSL是一种基于图的高光谱遥感图像分类算法,通过建立数据样本的相似性图,计算样本之间的相似关系。

在此基础上,利用半监督学习算法来整合标注数据和未标注数据,实现分类器的训练。

改进的LLGC高光谱图像半监督分类

改进的LLGC高光谱图像半监督分类

第38卷第7期 2017年7月哈尔滨工程大学学报Journal of Harbin Engineering University V o l.38 No. 7Jul.2017改进的LLGC高光谱图像半监督分类盛振国王立国1(1.哈尔滨工程大学信息与通信工程学院,黑龙江哈尔滨150001;2.江南机电设计研究所,贵州贵阳550009)摘要:针对高光谱数据波段多,地物标签获取代价高,带标记的样本数量少,分类过程中容易引起H u d g e s现象。

本文提出一种基于改进的局部全局一致性(learning with local a n d global consistency,L L G C)算法的半监督分类方法。

通过边缘采样法(margin sa m pling,M S)选取最富含信息量的无标签样本,加入到训练集来扩充训练样本;用K N N算 法计算相似度进一步优选无标签样本,去除噪声点和存在的野值点;使用改进的局部全局一致性算法对无标签样本集进行分类标记,得到各类别的分类结果。

实验结果表明,本文方法在充分利用无标签样本的情况下,有效地提高了带有少量标签样本的高光谱图像的分类精度。

关键词:半监督分类;局部全局一致性;边缘采样法;K N N算法;高光谱图像;无标鉴样本集D O I:10. 11990/jheu. 201605023网络出版地址:h t t p://w w w. cnki. net/kcms/detail/23. 1390. u.20170426. 1801. 072. html中图分类号:T N911.73文献标志码:A文章编号:1006-7043(2017)07-1086办7Semi-supervised classification for hyperspectral images based onimproved learning with the LLGC methodSHENG Zhenguo1'2, WANG Liguo1(1. College of Information a n d Com m u n i c a t i o n s Engineering,Harbin Engineering University, Harbin 150001 ,C h i n a;2. Jiangnan D e­sign Institute of Ma c h i n e a n d Electricity, Gu i y a n g 550099,China)Abstract;The use of the hyperspectral image classification process may lead to the so-called uHughes phenomenon because the heavy acquisition cost of the feature label leads to limited labeled training samples and due to the fact that the data have too many bands. A novel semi-supervised learning algorithm was proposed in this study to solve the above- mentioned problems. The algorithm was based on the improved Learning with Local and Global Consistency (LLGC) al­gorithm. The proposed algorithm first used margin sampling (MS) technique to select the most infomiative unlabeled samples, which were then added to the training set to expand the training sample. Next, the unlabeled sample was fur­ther optimized by KNN algorithm, which was used to remove noise point and outliners from the samples. Finally, the im­proved LLGC algorithm was used to mark the unlabeled sample set according to different categories, in order to obtain the classification results of each category. The proposed algorithm was experimentally validated on real hyperspectral data sets, and results indicated that the proposed framework can efficiently utilize the unlabeled data and effectively improve the classification accuracy of hyperspectral images with a small number of labeled samples.Keywords : semi supervised classification;Learning with Local and Global Consistency; margin sampling;KNN al­gorithm ;K means algorithm;hyperapectral image;data of unlabeled samples自20世纪80年代以来,随着成像光谱技术的 发展,高光谱遥感已经成为一个热门的研究方向[1]。

基于改进的样本预选取的高光谱影像半监督分类

基于改进的样本预选取的高光谱影像半监督分类

基于改进的样本预选取的高光谱影像半监督分类张颖;余代俊;杨晓霞;戴晓爱【摘要】针对高光谱影像中无标记样本对分类精度的影响问题,运用一种改进的KFCM聚类算法先对未标记样本聚类;然后根据聚类结果进行未标记样本选取,挑选出的未标记样本位于聚类边界上可能属于支持向量;最后使用已有的标记样本和挑选的未标记样本对支持向量机(SVM)进行训练,直到其分类精度到达预期效果。

实验结果表明,将聚类和半监督SVM分类相结合并进行未标记选取,比省略此过程直接使用SVM进行高光谱影像分类的精度高,且该方法稳定、可靠。

【期刊名称】《地理空间信息》【年(卷),期】2016(014)009【总页数】3页(P65-67)【关键词】高光谱影像;未标记样本预选取;KFCM聚类算法;SVM;半监督分类【作者】张颖;余代俊;杨晓霞;戴晓爱【作者单位】成都理工大学地球科学学院,四川成都 610059;成都理工大学地球科学学院,四川成都 610059;成都理工大学地球科学学院,四川成都 610059;成都理工大学地球科学学院,四川成都 610059【正文语种】中文【中图分类】P237高光谱遥感因其波段多、光谱分辨率高、能够获取丰富的地表光谱信息,广泛地应用于地物的精细分类中[1-2]。

在高光谱影像分类时,若采用监督分类,由于高光谱影像具有高维的特征空间,需要大量的标记样本,但获取标记样本较为困难[3];若采用非监督分类,无需使用带标记的训练样本,分类过程较简单,但其分类难以控制,结果精度较低[4]。

因此将监督分类和非监督分类结合起来的半监督分类成为新的研究热点[5-7]。

目前常用的高光谱影像半监督分类算法有:基于图模型[8-9]、主动学习[10]、判别学习[11]、半监督SVM[12-16]等。

半监督SVM是高光谱影像分类中应用较多的一种算法[17-19],当前对其研究主要集中在利用一些约束函数将未标记样本的信息加入到优化过程中,但这种模拟都存在不同程度的对噪声过于敏感和本身算法的优化问题[20]。

基于半监督稀疏鉴别嵌入的高光谱遥感影像分类

基于半监督稀疏鉴别嵌入的高光谱遥感影像分类
t ur e a mo ng c l a s s e s a n d s pa r s i t y, t he a l g or i t hm no t o nl y p r e s e r ve s t h e s p a r s e r e c o ns t r u c t i on r e l a t i on
第 2 2卷
第 2期
光 学 精 密 工 程
Op t i c s a nd Pr e c i s i on Eng i n e e r i n g
V( ) 1 . 2 2 NO . 2
Fe b .2 01 4
2 0 1 4年 2月
文章 编 号
1 0 0 4 — 9 2 4 X( 2 0 1 4) 0 2 0 4 3 4 0 9
稀 疏 鉴 别嵌 入算 法 ( S S D E ) 。该 算 法 结 合 了近 邻 流 形 结 构 及 稀 疏 性 的 优 点 , 不 仅 保 留样 本 间 的 稀 疏 重 构 关 系 , 且 通 过 引 入 少 量 有 标 记 的 训 练 样 本 以 及 大 量 无 标 记 训 练 样 本 来 获 得 高 维 数 据 的 内在 属 性 以 及 低 维 流 形 结 构 , 实 现 鉴 别 特 征 提 取, 提 高分 类 精 度 。在 W a s h i n g t o n D C Ma l l 和I n d i a n P i n e 数 据 集 上 的分 类 识 别 实 验 表 明 , 该 算 法 能 够 较 为有 效 地 发 现 高维空间中数据的内蕴结构 , 分 类 性 能 比其 他 算 法 有 明显 的提 升 。在 随 机 选 取 8个 有 类 别 标 记 和 6 O个 无 类 别 标 记 的 数 据作为训练样本的情况下 , 本 文提 出 的 S S D E算 法在 上述 两个 数 据 集 上 的分 类 精 度分 别达 钊 了 7 7 . 3 6 和9 7 . 8 5 。

基于改进标签传播算法的高光谱图像半监督分类

基于改进标签传播算法的高光谱图像半监督分类
第3 5卷 第 6期
2 01 6年 1 2 月
V Ol 3 5 N o 6
J o u r n al o f S h a n d o n g U n i v e r s i t y o f S c i e n c e a n d T e c h n o l o g y
1 01
D ec .2 0 1 6
N a t u r a I S c i e n c e
基于改进标签传 播算法 的高光谱 图像半监督分类
崔 宾阁 。 吴子宾 , 秦学川 I, 马 秀 丹
( 山 东科 技 大 学 计 算 机科 学 与 工 程 学 院 , 山东 青 岛 2 6 6 5 9 0 )
k e p t .Fi n a l l y .wi t h t h e n e wl y - k e p t s a mp l e s a n d t a g g e d s a mp l e s a s t h e t r a i n i n g s a mp l e s .t h e i ma g e s we r e c l a s s i f i e d . Ex p e r i me n t a l r e s u l t s s h o w t h a t t h e mo d i f i e d l a b e l p r o p a g a t i o n a l g o r i t h m i s b e t t e r t h a n o t h e r h y p e r s p e c t r o f f e a t u r e e x t r a c t i o n b a s e d o n i ma g e f u s i o n a n d r e c u r s i v e f i l t e r i n g .Th e n a t h r e s h o l d wa s g i v e n a n d t h e
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

收稿日期:2014-08-19 修回日期:2014-09-19 *国家自然科学基金资助项目(41171269)、江苏省高校自然科学研究面上项目(14KJB170010)、环保公益性行业科研专项项目(201309037)、 江 苏高校优势学科建设工程资助项目(164320H101)、地球系统科学数据共享平台项目(2005DKA32300)和江苏省普通高校研究生科研创新计划项目。
L(0),利用改进的 Self-training 算法获得新增标记 样本 L’。然后根据最近邻域规则(以 8 邻域为例) 提供的局部信息,对集合 L’中的样本进行数据剪 辑。最后,将剪辑后的标记样本集 L’’更新至训 练集 L 中,得到扩大的标记样本集 L∪L’’,并重 新训练分类器,对剩余的未标记样本 U- L’’进行 预测,直至分类结束。算法详细描述如下:
样本集 L(t+1)=L(t)∪L’’,Ut+1=Ut- L’’。最后,使用 更新后的标记样本集 Lt+1 重新训练分类器 Mt+1, 若迭代次数达到最大次数 r 或未标记样本集 Ut+1=Ф,则迭代过程结束。否则继续对 Ut+1 集合 中未标记样本分类预测。
中剔除。当 L’中的误标记样本被确定并剔除后, 将剩余的置信样本集 L’’(L’’= L’-{x|x∈Lmis})更 新至训练集 L 中,Lmis 是误标记样本集合。然后, 用更新后的训练集 L∪L’’重新训练分类器,迭代 此过程直至分类结束。
1.4 基于 DE-self-training 的半监督分类算法 DE-self-training 算法根据初始标记样本集
8-邻域为例),统计样本 x(x∈U)8 个邻域样本的 类别标记数量,将类别最多的那个标记作为主标
记 ym,遵循少数服从多数的原则,样本 x 属于类 别 ym 的可能性较大。若 x 的预测标记不是 ym, 即取样本 x 的类别标记 yx 与 8 邻域样本中个数最 多的类别标记 argmaxnum(yneigh(x))不一致,则认为 x 是误标记样本,将 x 从集合 L’中剔除。否则将 x 保留,得到置信样本集合 L’’= L’-{x|x∈Lmis}, Lmis 是误标记样本集。更新标记样本集和未标记
能,可以避免分类器过拟合于训练样本而造成泛 化性能下降的情况。另外,由于半监督学习借鉴 了大量无标记样本参与训练,训练过程中噪声或 误标记样本对模型的增强会不可避免地引起退 化现象。如何尽量避免退化现象的发生,并不断 强化正确标记样本对模型的正面作用是半监督 分类的关键。
针对上述问题,本文提出了一种半监督分类 算法 DE-self-training。在标记样本数量有限的情 况下,充分利用大量未标记样本的有用信息协助 分类。同时,由于初始标记样本数量较少, Self-training[3]在迭代扩大训练集的过程中会引 入大量误标记样本,其携带的错误信息会逐渐积 累而使分类精度不断下降。为了避免误标记样本 对分类模型的负面影响,运用基于最近邻规则的 数据剪辑策略(Data editing)[13-16]对迭代分类过程 中置信度较低的标记样本(视为噪声)进行过滤。 优选置信度较高的样本加入训练集中,提高训练 集的质量,不断优化分类器的性能,提升高光谱 遥感图像分类效果。
网络出版时间:2014-12-09 14:50 网络出版地址:/kcms/detail/11.1964.S.20141209.1450.019.html
农业机械学报
基于改进 Self-training 和数据剪辑的高光谱遥感图 像半监督分类*
王俊淑 1,2 江 南 1,2 张国明 3 胡 斌 1,2 李 杨 , 1,2 吕 恒 1,2
半监督分类[6-12]可以解决上述问题。首先, 对于高光谱遥感图像而言,采集标记样本十分耗 时耗力,分类时若仅使用少量“昂贵的”有标记 样本而不利用大量“廉价的”未标记样本[4, 5], 无疑是一种信息损失。半监督分类可以在标记样 本较少的情况下,充分利用大量未标记样本来改 进传统的监督学习任务。其次,半监督分类综合 利用有标记样本和无标记样本改善分类器的性
数据剪辑通过确定并剔除标记过程中产生 的错误训练样本来提高训练集质量。典型的数据 剪辑方法见文献[13-16]。本算法采用基于最近邻 规则的数据剪辑过滤噪声样本。具体操作如下: 首先,从未标记样本集 U 的预测结果中随机选择 k 个样本加入集合 L’中。在与训练集 L 合并之前, 对 L’进行数据剪辑操作。最近邻规则可以表达 L’ 集合中样本间的局部空间关系(以 8 领域为例)。 根据聚类假设,一个样本 x 邻域范围内的其他样 本应和 x 具有相同的类别标记。若 x 的类别标记 与其邻域范围内大多数样本标记一致,则将 x 作 为置信样本保留,否则将 x 作为误标记样本从 L’
Self-training 算法由 David Yarowsky1995 年 提出[17],主要用于自然语言和文本处理,是半监 督学习的主要范型之一。给定一个样本集 X 和对 应的类别标记集合 Y,其中样本集 X 是 p 维特征 向量(包含所有标记样本 L 和未标记样本 U), X 的初始状态包括少量标记样本和大量未标记 样本(即 L 中样本数量远小于 U 中样本数量)。初 始标记样本集用 L(0)表示,对应的标记集为 Y(0)。 用初始标记样本集及其类别标记(L(0),Y(0))训练一 个初始分类器 M(0),对未标记样本 x∈U 预测类 别标记,从预测结果中选取预测概率 πx(t+1)(y^) 最大的样本 x 及其标记 y^分别并入标记样本集 L 和标记集 Y 中,L(t)={x∈X| Y(t)≠⊥,t>=1},预测 的类别标记规则如下:
Yx(t+1) =
Yx(0) (x∈L(0)) y^ (πx(t+1)(y^)>ζ)
(1)
⊥ (其他)

其中,ζ 为预测概率的阈值。再用扩大的标记样 本集训练新的分类器 Mt,对未标记样本进行分 类预测。如此迭代进行分类器训练、预测过程, 直至达到最大迭代次数 r。 1.2 随机选取策略增加信息量
标准 Self-training 算法在扩大训练集时,预 测样本按概率选取并加入训练集,参与分类器的 迭代训练过程。以高概率作为样本选取规则对于 文本分类、网页分类比较有效,但对于高光谱图 像效果甚微。因为初始训练集规模较小,对于高 光谱数据而言,“同物异谱”、“异物同谱”现象 以及混合像元的存在,使得少量的初始训练集并 不具有很好的代表性,即信息量通常较为集中,
首先,根据初始标记样本集合 L(t)和对应的 初始标记集合 Y(t)训练初始分类器 Mt,初始 t=0,t ∈{0,1,…,r},其中 r 为最大迭代次数。其次,用 分类器 Mt 对未标记样本集 Ut={xk|k=1,2,…, un}中的每一个样本进行分类预测,其中 un 为未 标记样本的数量。然后,再从 Ut 的预测结果中 挑选 10%的样本加入到新标记样本集 L’中,同 时将 Ut 集合中相应样本剔除;并对 L’集合中的 样本执行数据剪辑操作,根据最近邻规则(以
(1.南京师范大学虚拟地理环境教育部重点实验室,南京 210023;2.江苏省地理信息资源开发与利用协同创新中心,南京 210023;3.江苏省卫生统计信息中心,南京 210008)
摘要:提出了一种高光谱遥感图像半监督分类算法 DE-self-training。利用少量标记样本作为初始训练集,基于改进的 self-training 算法构建初始分类器,对未标记样本进行预测;然后从分类结果中按一定比例随机选取部分样本,连同其类 别标记一起加入训练集中,再用扩大的训练集重新训练分类器,并对剩余的未标记样本进行预测。如此迭代地进行训练预测-挑选样本扩大训练集过程。同时,在迭代训练过程中,运用基于最近邻域规则的数据剪辑策略对扩大训练集时产生 的误标记样本进行过滤,以保证训练集的质量,不断迭代地训练出更精确的分类器,最终使所有未标记样本都获得类别 标记。以 AVIRIS Indian Pines 和 Hyperion EO-1 Botswana 作为实验数据对 DE-self-training 算法进行测试,并与基于支持向 量机的分类结果作比对。实验表明,DE-self-training 算法可以在标记样本数量有限条件下,充分挖掘未标记样本的有用信 息,使总体分类精度和 kappa 系数都有不同程度的提高。 关键词:高光谱遥感图像;半监督分类;数据剪辑
分类器难以获得知识增益,分类效果提高有限。 同时,初始训练集训练得到的分类器通常性能较 差,分类结果中的高概率样本也可能是误标记样 本。若误标记样本参与分类器的迭代训练过程将 会引入更多的噪声,造成分类性能下降。
本文算法对 Self-training 做出如下改进:○1 在扩大训练集时,摒弃按概率从未标记样本集中 选取样本的策略,改为随机选取。增加含有丰富 信息量的样本被选中的机会,尽可能为模型增加 更多的知识。○2 对扩大训练集时引入的样本进行 数据剪辑以降低噪声。首先,根据每次训练得到 的分类器对集合 U 中所有未标记样本进行分类 预测,并迭代地从预测结果中随机选取 10%加入 集合 L’中(初始 L’为空),然后对 L’进行数据剪 辑,剔除噪声样本后得到集合 L’’,并入训练集 中 L 中,用更新后的训练集 L∪L’’重新训练分类 器,对剩余的未标记样本集 U- L’’进行预测。迭 代执行此过程,直至达到指定的迭代次数或未标 记样本集合 U 为空,即所有样本都获得类别标记 时迭代分类过程结束。 1.3 数据剪辑策略过滤噪声
作者简介:王俊淑,博士生,江苏省地理信息资源开发与利用协同创新中心助理研究员,主要从事高光谱遥感影像智能信息提取及应用
研究,E-mail:jlsdwjs@ 通讯作者:江 南,教授,博士生导师,主要从事 GIS 与遥感技术及应用研究,E-mail:njiang@
1 基于改进的 Self-training 和数据剪辑的 高光谱遥感图像半监督分类算法
中图分类号:TP751.1 文献标识码:A 文章编号:20140819003
相关文档
最新文档