基于高斯混合模型的遥感影像半监督分类
机器学习中的半监督学习方法

机器学习中的半监督学习方法近年来,机器学习技术的应用已经渗透到多个领域,如自然语言处理、视觉识别、医疗诊断等。
其中,监督学习是最常用的技术之一,但监督学习的一个弊端是需要大量标记数据,而实际应用中标记数据往往十分稀少,这时候就需要半监督学习方法来弥补监督学习的不足。
半监督学习方法是通过同时利用少量标记数据和大量未标记数据来进行学习,从而达到提高分类或回归准确度的目的。
这种方法主要有三种:基于图的方法、基于生成模型的方法和基于嵌入式方法。
基于图的方法通过构建图模型来实现分类或回归任务。
在这个图中,节点表示样本,权重表示相似度,利用带标记的样本构建出一个标记子图和未标记的样本构建出一个未标记子图,然后再通过不同的方式计算两个子图的相似度来实现半监督学习。
其中,常用的方法有基于随机游走算法的方法、基于拉普拉斯矩阵的半监督学习方法、基于自适应图的方法等。
基于生成模型的方法是通过概率分布模型来表达标记和未标记数据之间的关系,从而对未标记数据进行分类或回归。
这种方法主要有两种:生成式方法和判别式方法。
其中,生成式方法是建立生成模型,最常见的是高斯混合模型和隐马尔可夫模型,利用所有数据的公共特征对未标记数据进行分类或回归。
而判别式方法则是根据全部标记数据的特征直接建立判别函数。
基于嵌入式方法是以低维度嵌入作为特征,采用监督学习方法进行学习。
在这种方法中,一个目标函数包括两个部分:第一部分是标记样本的分类或回归损失,第二部分是未标记样本的嵌入损失。
其中我们可以采用基于自编码器的方法、基于矩阵分解的方法等。
总之,半监督学习方法在机器学习中扮演着至关重要的角色,能够有效提高分类或回归的准确度,适用范围广泛,但是半监督学习也面临一些挑战,如如何选取适当的未标记数据、如何捕捉不同类别未标记样本之间的差异等。
这也是目前研究的热点和难点,未来科学家们需要不断探索和创新,进一步完善半监督学习方法。
异常检测中的半监督学习

异常检测中的半监督学习半监督学习是一种结合有标签和无标签数据进行训练的机器学习方法,可用于异常检测。
异常检测是数据挖掘领域的重要任务,它旨在识别与正常行为模式不一致的数据点。
在许多实际应用中,由于异常样本的稀缺性和获取困难性,标记异常样本的成本往往很高。
因此,半监督学习在异常检测中具有重要意义。
半监督学习通过使用少量有标签样本和大量无标签样本来进行模型训练。
与监督学习相比,它能够更好地利用大量未标记数据中潜在的信息,并提高模型性能。
在异常检测中应用半监督学习方法可以通过利用未标记数据中正常样本的信息来提高模型对正常行为进行建模,并识别出与正常行为不一致的异常点。
半监督学习方法可以分为基于生成模型和基于判别模型两种类型。
生成模型方法旨在对数据分布进行建模,并通过比较新样本与该分布之间的差异来判断其是否为异常点。
其中一个典型算法是基于概率图模型的LOF算法(Local Outlier Factor),它通过计算每个样本点与其邻域样本点之间的局部异常因子来进行异常检测。
此外,基于高斯混合模型的方法也广泛应用于半监督异常检测中。
与生成模型方法不同,判别模型方法直接学习样本的判别函数,通过判别函数对新样本进行分类来进行异常检测。
其中一个常用的算法是半监督支持向量机(Semi-Supervised Support Vector Machine),它通过最大化有标签样本和无标签样本之间的边界来学习一个判别函数。
此外,基于半监督聚类的方法也被广泛应用于半监督异常检测中。
尽管半监督学习在异常检测中具有许多优势,但仍然存在一些挑战和问题。
首先是如何选择合适的有标签样本和无标签样本。
不同选择策略可能导致不同的模型性能。
其次是如何处理数据分布不平衡问题。
在实际应用中,正常数据往往比异常数据多得多,这可能导致模型对正常数据过拟合而无法很好地识别出异常点。
此外,在实际场景中,数据分布可能会随时间发生变化,这对半监督异常检测方法提出了更高的要求。
高光谱遥感图像中的特征提取与分类算法优化

高光谱遥感图像中的特征提取与分类算法优化高光谱遥感图像是一种获取地面物体反射光谱信息的重要数据源。
在资源环境监测、农业生产、城市规划等领域,高光谱遥感图像的特征提取与分类算法优化具有重要意义。
本文将重点探讨高光谱遥感图像中的特征提取与分类算法优化的方法和技术。
一、高光谱遥感图像的特征提取方法在高光谱遥感图像中,每个像素点包含多个波段的光谱信息,因此特征提取主要是从光谱、空间和纹理等多个方面进行。
以下介绍几种常用的特征提取方法:1. 光谱特征提取:光谱特征提取是指通过分析各个波段的光谱反射率,获取区分不同地物的特征。
常用的方法有平均光谱曲线、光谱强度、光谱比值等。
可以利用统计学方法或者光谱分解等技术进行光谱特征提取。
2. 空间特征提取:空间特征提取是指通过分析高光谱图像像素点之间的空间关系,提取地物的空间分布特征。
常用的方法有纹理特征、空间模式指数等。
可以利用滤波器、卷积操作、灰度共生矩阵等技术进行空间特征提取。
3. 纹理特征提取:纹理特征提取是指通过分析高光谱图像中地物表面纹理的特征,提取地物的纹理信息。
常用的方法有灰度共生矩阵、小波变换、局部二值模式等。
可以通过计算纹理特征的统计值或者采用机器学习方法进行纹理特征提取。
以上是高光谱遥感图像中常用的特征提取方法,通过综合运用各种方法,可以获得更多的特征信息,提高特征提取的准确度和鲁棒性。
二、高光谱遥感图像的分类算法优化高光谱遥感图像分类是指将图像中的每个像素点划分到不同类别中,以实现对地物的识别和分类。
分类算法的优化可以提高分类的准确性和效率。
以下介绍几种常用的优化算法:1. 监督分类算法优化:监督分类算法是指在训练样本的基础上,通过对特征进行提取和选择,利用统计学或模型建立分类器,实现对遥感图像进行分类。
常用的监督分类算法有支持向量机(SVM)、随机森林(RF)和人工神经网络(ANN)等。
通过优化特征选择、样本分布策略和分类器参数等方面,可以提高分类的准确性。
实验四遥感图像的监督分类和非监督分类

实验四遥感图像的监督分类和⾮监督分类实验四遥感图像的⾮监督分类与监督分类⼀、实验⽬的1.⾮监督分类是对数据集中的像元依据统计数字,光谱类似度和光谱距离进⾏分类,在没有⽤户定义的条件下练习使⽤,在ENVI环境下的⾮监督分类技术有两种:迭代⾃组织数据分析技术(ISodata)和K均值算法(K-Means);2.分类过程中应注意:1)怎样确定⼀个最优的波段组合,从⽽达到最佳的分类精度,基于OIF和相关系数,协⽅差矩阵以及经验的使⽤来完成对最适合的组合的选取,分类效果的关键即在于此;2)K-Means的基本原理;3)Isodata的基本原理;4)分类结束后,被分类后的图像是⼀个新的图像,被分类类码秘填充,从⽽可以获得数据提取信息,统计不同类码数量,转化为实际⾯积,在得到后的图像上,可对不同⽬标的形态指标进⾏分析。
3.对训练区中的像元进⾏分类;4.⽤训练数据集估计查看监督分类后的统计参数;5.⽤不同⽅法进⾏监督分类,如最⼩距离法、马⽒距离法和最⼤似然法。
⼆、实验设备与材料1、软件ENVI 4.7软件2、所需材料TM数据三、实验步骤1.选择最优的波段组合ENVI主⼯具栏中File →Open image file →选择hbtmref.img打开→在Basic Tools中选择Statistics →Compute statistics选定原图,在Spectral subset中可选项全部选定→OK →OK →全选→保存→OK,则各类统计数字均可查;OIF计算,选择分类波段:1,2;2,3;1,3波段标准差分别为2.665727;3.473308;4.574609,和为10.713644。
Correlation Matrix 中1和2波段的相关系数0.964308,加上2和3波段的相关系数0.980166,再加上1和3波段的相关系数0.945880,最终等于2.890354。
⽤标准差相加的结果10.713644⽐上相关系数之和2.890354等于3.70668922。
半监督高斯混合模型的变分推断

半监督高斯混合模型的变分推断在机器学习领域,半监督学习是指同时使用有标签数据和无标签数据来进行模型训练的方法。
而高斯混合模型(Gaussian Mixture Model,简称GMM)是一种用于聚类分析的模型,它假设数据是由若干个高斯分布组成的。
半监督高斯混合模型的变分推断则是在半监督学习和高斯混合模型的基础上,运用变分推断方法进行参数估计和模型求解的过程。
1. 半监督学习的背景和意义半监督学习的出发点是利用未标记的数据来提高模型性能,因为在实际应用中,很多情况下我们能够获取大量的无标签数据,但标记数据的获取成本却很高。
充分利用无标签数据的信息,将会提高模型的泛化能力和性能。
2. 高斯混合模型的基本原理高斯混合模型假设数据是由多个高斯分布生成的,每个高斯分布对应一个聚类。
模型参数包括每个高斯分布的均值、协方差矩阵和混合系数。
在聚类分析中,高斯混合模型是一种非常重要的模型,它能够对复杂的数据分布进行建模,并能够发现数据中隐藏的聚类结构。
3. 变分推断的基本思想变分推断是一种用于概率模型推断的近似方法,它通过寻找一个接近真实后验分布的分布族来对真实后验分布进行近似。
变分推断的目标是最大化一个证据下界(evidence lower bound,ELBO),从而使得近似后验分布尽可能接近真实后验分布。
通过这种方法,可以用简单的分布来近似复杂的后验分布,并且能够实现大规模数据的处理。
4. 半监督高斯混合模型的变分推断过程在半监督学习中,我们可以将有标签数据和无标签数据分别使用在高斯混合模型的参数估计中。
通过变分推断方法,我们可以求解出模型的参数和隐变量,从而实现对模型的训练。
值得注意的是,由于无标签数据的存在,我们还需要对无标签数据进行预测,将其用于模型的参数更新。
具体的推断过程涉及到对模型参数和隐变量的迭代优化,这是一个复杂但非常重要的过程。
5. 个人观点和总结半监督高斯混合模型的变分推断是一个非常有挑战性和有趣的问题。
遥感数据分级

遥感数据分级遥感数据分级是一种对遥感图像进行分类和分层的方法,通过对遥感图像进行分级,可以更好地理解和利用遥感数据。
下面将介绍遥感数据分级的标准格式文本。
一、引言遥感数据分级是指将遥感图像根据特定的分类标准,将其分为不同的类别或层次。
通过遥感数据分级,可以获取地表覆盖类型、土地利用信息等,为环境监测、资源管理、城市规划等领域提供重要支撑。
本文将介绍遥感数据分级的基本原理、分类方法和应用场景。
二、遥感数据分级的基本原理遥感数据分级的基本原理是利用遥感图像中的不同光谱信息和纹理特征,通过一系列的算法和模型,将图像中的像素点分为不同的类别。
遥感图像中的光谱信息可以反映地表覆盖类型的差异,纹理特征可以提供地物的空间分布信息。
基于这些信息,可以构建分类模型,实现遥感数据的分级。
三、遥感数据分级的分类方法1. 监督分类:监督分类是一种基于训练样本的分类方法。
首先,需要准备一组已知类别的训练样本,然后利用这些样本训练分类器,最后将分类器应用于整个遥感图像。
常用的监督分类方法包括最大似然分类、支持向量机等。
2. 无监督分类:无监督分类是一种不需要事先准备训练样本的分类方法。
它通过对遥感图像中的像素点进行聚类,将相似的像素点分为同一类别。
常用的无监督分类方法包括K均值聚类、高斯混合模型等。
3. 半监督分类:半监督分类是监督分类和无监督分类的结合,既利用了有标签的训练样本,又利用了无标签的像素点。
半监督分类方法可以提高分类的准确性和效率。
四、遥感数据分级的应用场景1. 环境监测:遥感数据分级可以用于环境监测,例如监测森林覆盖变化、水体污染等。
通过对遥感图像进行分级,可以获取地表覆盖类型的空间分布信息,为环境监测提供科学依据。
2. 资源管理:遥感数据分级可以用于资源管理,例如土地利用规划、农作物估产等。
通过对遥感图像进行分级,可以获取土地利用信息、农作物类型等,为资源管理提供决策支持。
3. 城市规划:遥感数据分级可以用于城市规划,例如土地利用规划、建筑物提取等。
半监督学习中的半监督降维与半监督聚类的关系分析(六)

半监督学习(Semi-Supervised Learning)是指在一部分有标签数据和大量无标签数据的情况下进行学习的方法。
在现实生活中,很多机器学习任务往往无法获得足够的标签数据,因此半监督学习成为了一种重要的学习范式。
在半监督学习中,降维和聚类是两个重要的任务,在本文中我将讨论半监督降维与半监督聚类的关系。
降维(Dimensionality Reduction)是指将高维数据映射到低维空间的过程。
在监督学习中,常见的降维方法有主成分分析(PCA)和线性判别分析(LDA)等。
这些方法在有标签数据的情况下能够有效地降低数据的维度,提取出最重要的特征。
然而,在半监督学习中,我们往往只有一小部分数据是有标签的,因此传统的监督降维方法无法直接应用。
在这种情况下,半监督降维方法就显得至关重要了。
半监督降维方法主要有两种:一种是基于图的方法,另一种是基于生成模型的方法。
基于图的方法将数据看作是图的节点,节点之间的相似性作为边的权重,然后通过图的特征进行降维。
典型的方法有拉普拉斯特征映射(LE)和局部线性嵌入(LLE)等。
这些方法在处理半监督降维问题时能够充分利用无标签数据的信息,从而获得更好的降维效果。
而基于生成模型的方法则是通过对数据的分布进行建模,然后利用模型进行降维。
这类方法中,最著名的就是自编码器(Autoencoder)了。
自编码器通过学习数据的特征表示,然后再将其映射到低维空间中。
这类方法在处理半监督学习问题时同样表现出了很好的效果。
与降维相似,聚类(Clustering)也是无监督学习的一种重要方法。
聚类是指将数据划分为若干个不相交的簇的过程。
在传统的无监督学习中,聚类方法如K均值(K-means)和层次聚类(Hierarchical Clustering)等被广泛应用。
然而,在半监督学习中,我们往往需要利用有标签数据的信息来指导聚类过程,因此半监督聚类方法就显得尤为重要。
半监督聚类方法可以分为基于图的方法和基于生成模型的方法两种。
半监督深度学习图像分类方法研究综述

半监督深度学习图像分类方法研究综述吕昊远+,俞璐,周星宇,邓祥陆军工程大学通信工程学院,南京210007+通信作者E-mail:*******************摘要:作为人工智能领域近十年来最受关注的技术之一,深度学习在诸多应用中取得了优异的效果,但目前的学习策略严重依赖大量的有标记数据。
在许多实际问题中,获得众多有标记的训练数据并不可行,因此加大了模型的训练难度,但容易获得大量无标记的数据。
半监督学习充分利用无标记数据,提供了在有限标记数据条件下提高模型性能的解决思路和有效方法,在图像分类任务中达到了很高的识别精准度。
首先对于半监督学习进行概述,然后介绍了分类算法中常用的基本思想,重点对近年来基于半监督深度学习框架的图像分类方法,包括多视图训练、一致性正则、多样混合和半监督生成对抗网络进行全面的综述,总结多种方法共有的技术,分析比较不同方法的实验效果差异,最后思考当前存在的问题并展望未来可行的研究方向。
关键词:半监督深度学习;多视图训练;一致性正则;多样混合;半监督生成对抗网络文献标志码:A中图分类号:TP391.4Review of Semi-supervised Deep Learning Image Classification MethodsLYU Haoyuan +,YU Lu,ZHOU Xingyu,DENG XiangCollege of Communication Engineering,Army Engineering University of PLA,Nanjing 210007,ChinaAbstract:As one of the most concerned technologies in the field of artificial intelligence in recent ten years,deep learning has achieved excellent results in many applications,but the current learning strategies rely heavily on a large number of labeled data.In many practical problems,it is not feasible to obtain a large number of labeled training data,so it increases the training difficulty of the model.But it is easy to obtain a large number of unlabeled data.Semi-supervised learning makes full use of unlabeled data,provides solutions and effective methods to improve the performance of the model under the condition of limited labeled data,and achieves high recognition accuracy in the task of image classification.This paper first gives an overview of semi-supervised learning,and then introduces the basic ideas commonly used in classification algorithms.It focuses on the comprehensive review of image classification methods based on semi-supervised deep learning framework in recent years,including multi-view training,consistency regularization,diversity mixing and semi-supervised generative adversarial networks.It summarizes the common technologies of various methods,analyzes and compares the differences of experimental results of different methods.Finally,this paper thinks about the existing problems and looks forward to the feasible research direction in the future.Key words:semi-supervised deep learning;multi-view training;consistency regularization;diversity mixing;semi-supervised generative adversarial networks计算机科学与探索1673-9418/2021/15(06)-1038-11doi:10.3778/j.issn.1673-9418.2011020基金项目:国家自然科学基金(61702543)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文献标志码: A
基于高斯混合模型的遥感影像半监督分类
熊 彪1 江万寿1 李乐林1
( 1 武汉大学测绘遥感信息工程国家重点实验室, 武汉市珞喻路 129 号, 430079)
摘 要: 提出了对每一类地物的光谱特征用一个 高斯混合模型( G auss mixtur e model, GM M ) 描述 的新思路, 并应用在半监督分类( semi super vised classificatio n) 中。 实验证 明, 本 方法只 需少量的 标定数 据即可 达到 其 他监督分类方法( 如支持向量机分类、面向对象分类) 的精 度, 具有较好的应用价值。 关键词: 遥感影像分类; 半监督分类; 高斯混合模型 中图法分类号: P237. 4
n 属于第 m 类的后验概率 R mn 。 1. 3 基于高斯混合模型的贝叶斯分类
假设遥感影像中每一类的数据均可以用高斯
混合模型表达, 则第 l 类数据的概率函数为:
kl
! P ( x | l ) =
l mp ( x | l m )
m= 1
( 12)
其中, l = { l1 , , ; lkl l1 , , lkl } 为参数集合, k l 由地物光谱分布的特性选取最佳的高斯分量数, 概率分布 p ( x | lm ) 服从高斯分布。
模型即可以充分表达。
1. 1 高斯混合模型及最大似然估计 设 X = [ X 1 , , X d ] T 是 d 维的随机变量,
x = [ x 1 , , x d ] T 表示 X 的一个实例。如果它的
概率密度函数能写成 k 个成分的密度分布的加权 平均和:
k
! P( x | ) =
mp (x | m)
1 高斯混合模型
贝叶斯分类器现在仍是应用最广泛的分类算
法之一[ 10] , 但一般情况下都是假设各类别的数据
为高斯分布[ 11] , 对遥感数据拟 合并不理想, 这给
实际应用带来很多限制。本文利用高斯混合模型
拟合每一类别的特征概率分布, 实验证明, 每个类 别的概率函数只需要由 3 个左右分量的高斯混合
征呈现高斯分布, 而其他部分大都为多个波峰, 如 湖波、草地, 而不透水层的直方图除了一个明显的 波峰, 还有很大一部分为长条状, 这样复杂的特征 空间, 只有一个波峰的高斯 函数难以有效描述。 高斯混合模型的高斯分量数与拟合误差的关系如 图 4, 其中拟合误差 Err = - H ( ^ ) , H ( ^ ) 为按式 ( 6) 估算的最大似然值。为方便显示和比较, 图中 采用相对拟合误差, 即拟合误差与最大拟合误差 的比值。从图 4 可以看出, 概率密度函数在拟合 4 种地物的光谱特征分布时, 与高斯函数相比, 混 合模型在 3 个分量时的 拟合误差可以降低 10% 左右, 而在 5 个分量时可降低 15% , 若再往上增 加分量数已难以明显提高拟合精度, 而分量数的 增加会提高计算费用。因此, 应用时一 般选取 3 ~ 5 个分量数的高斯混合模型即可, 本文以下实 验选取 3 个分量。
根据半监督学习算法的工作方式, 现有的半 监督学习算法可分为以下 3 大类[ 12] : % 生成式模 型为分类器; & 基于图正则化框架的半监督学习 算法; ∋ 协同训练( co t raining) 算法。这些方法 的特点是对嵌入映射或者低维流形作出某种特定 的假设, 或者以保持高维数据的某种性质不变为 目标, 将问题转化为对应优化问题的求解。这些 算法都取得很好的实验结果。不过由于一般的计 算需要迭代, 一般半监督算法计算时间都比较长, 对于大数据量的遥感图像处理效果不甚理想。
t ion) 步。对于高斯混合模型, 采用 EM 算法进行
参数估计的过程如下。
E 步: 首先初始化参数 m、!m 和 m , 计算样本 n 属于第 m 类的后验概率:
Qmn = m p ( x | m)
( 7)
标准化后为:
Rmn p ( x | m)
k
( 8)
! m p ( x | m)
( 5)
n= 1 m = 1
所谓最大似然估计, 就是要找到使式( 4) 最
大的 的估计值^ , 即
N
k
H (^ ) = m ax ! ln ! mp ( x | m ) ( 6) n= 1 m= 1
1. 2 EM 算法估计高斯混合模型参数
参数估计的 EM 算法是由 Dempst er 等提出
的[ 12] , 它分为 E ( ex pect at io n) 步和 M ( max imiza
L
由于 P ( x ) = ! P( x | w l ) P( w l ) 与类别 w l 无 l= 1
关, 对各类来说是一个公共因子, 在比较大小时不
起作用, 判断类别时可以去掉, 此时, 最大似然判 别规则变为[ 13] :
x ∃ w l , 当且仅当:
P ( x | w l ) P ( w l ) ∀ P ( x | w j ) P( w j ) ( 14)
( 2)
m= 1
如果假设所有成分的概率分布都服从高斯分布,
则所对应的模型为高斯混合模型。而 d 维的高
斯混合模型的参数 实际上由两个参数所决定: 均值向量 和方差矩阵 ![ 12] 。
在式( 2) 约束下, 式( 1) 参数的解析解比较复
杂, 一般采用迭代方法[ 13] 。即先建立样本的最大
似然方程, 然后采用 EM 算法对类参数及混合参
第 36 卷 第 1 期 2011 年 1 月
武汉大 学学报 信息科学版 Geo matics and Informat ion Science of W uhan U niver sity
V ol. 36 N o. 1 Jan. 2011
文章编号: 1671 8860( 2011) 01 0108 05
图 3 样本直方图与高斯混合模型曲线 F ig. 3 H istog r ams o f Samples and Curv es o f GM M s
图 2 实验数据与 采样样本 Fig. 2 Ex per iment Data and L abel Samples
图 3 说明的是高斯混合模型对各类地物光谱 特征描述的有效性。从该图的直方图来看, 自然 地物的高空间分辨率影像很复杂, 只有树木的特
11 0
武 汉 大学 学报 信息 科 学版
2011 年 1 月
模型用于生成式的半监督分类, 对每类地物给出 少量标定点, 就可利用大量的未标定数据准确估 计模型参数, 提高分类器的泛化能力。
图 1 基于高斯混合模型的半监督分类算法流程 F ig . 1 Pr ocess o f Semi Superv ised Classificat ion
( 1)
m= 1
则认为 X 服从有限混合分布, 其对应的模型就为
有限混合模型。其中, 1 , , k 是各个成分分布
混合的权值; m 是第 m 个成分分布的参数; { 1 ,
, k ; 1 , , k } 是所有参数的集合; 同时 m 必须 满足如下条件 m ∀0 , m = 1, , k 且
k
! m= 1
式中, 所有 l 和 j 都来自 1, 2, 3, 种可能的类别。
2 半监督分类
一般认为, 半监督学习的研究始于 Shahshaha ni 和 L andgrebe 的工作[ 14] 。半监督学习认为标定 数据比较少, 不足以代表分类空间, 在分类的过程 中利用标定数据和未标定数据协同分类, 通过合理 建立未标定数据的分布和学习目标之间的联系, 就 可以利用未标定示例来辅助提高学习性能[ 15] 。
收稿日期: 2010 10 18。 项目来源: 国家 863 计划资助项目( 2007A A 120203) ; 遥感科学国家重点实验室开放研究基金资助项目。
第 36 卷第 1 期
熊 彪等: 基于高斯混合模型的遥感影 像半监督分类
10 9
数进行估计。
最大似然估计的基本假设是所有 N 个样本
的集合 X = { x ( 1) , , x ( N ) } 是独立的, 则其 似然函数可定义如下:
当今遥感影像获取手段快速发展, 不仅影像 分辨率越来越高, 而且数据量也迅速增加[ 1] 。然 而, 数据处理方法的发展却难以跟上影像获取技 术的步伐, 如何从影像数据中快速地提取信息已 成为一道难题[ 2] 。
半监督学习利用少量的标定数据协同未标定 的数据得到精确的分类边界[ 3] 。半监督分类承认 标定数据不足, 并在学习样本有限的情况下, 利用 新出现的数据不断学习, 这更符合人脑的学习机 制。因此, 半监督学习在最近十多年快速发展, 并 迅速应用在网络标定、图像索引、语音识别等各个 方面[ 3, 4] , 同时也有学者将其引 入到遥感影像分 类[ 5, 6] 。高斯混合模型在图像分割、视频图像背景 建模、运动物体检测等方面也都取得很大成功, 但 用于影像分类的研究却不多[ 7] 。文献[ 8] 考虑到遥 感图像中地物在光谱空间表现为多种密度分布的 混合, 并借助期望最大 ( expectation max imization, EM) 算法估算每个类别的概率密度曲线参数, 但它 依然是将单类地物的光谱特征表示为单峰的正态 分布。文献[ 9] 将 QuickBird 图像中的房屋用一个 高斯混合模型描述, 不同子高斯项代表不同的房屋 类型, 从而将房屋分为精细的类型, 验证了高斯混 合模型对单类物体分类时的有效性。
based o n G auss M ix ture M o del
算法流程如图 1 所示, 首先利用标定数据训 练得到每个类别的模型参数, 并将每一类别的标 定数据占所有标定数据总数的比值作为这个类别 先验概率, 对所有待分类样本按式( 13) 计算后验 概率, 通过贝叶斯规则将整个数据集分类, 并将分 类结果作为标定数据, 用于下一次训练。如此循 环迭代, 直到分类精度达到要求, 或者迭代次数超 过某一给定值。通过大量的实验证明, 本文提出 的方法只需少量的标定数据, 即可达到需要大量 标定数据的分类器才能够达到的精度要求。