半监督学习中的协同训练风范

合集下载

半监督模型训练方法

半监督模型训练方法

半监督模型训练方法
半监督模型训练?嘿,这可老厉害了!先找些有标签的数据,就像找到了宝藏的线索。

再弄些没标签的数据,哇,这就像有了一大片神秘的土地等着咱去开垦。

把它们混在一起训练,那感觉就像在玩一场刺激的大冒险。

注意哦,可不能瞎搞,得选好数据,不然就像在黑暗中乱走,肯定要栽跟头。

安全不?那当然啦!只要你认真对待,就跟走在平坦的大路上一样稳当。

稳定性也不错哟,就像一座坚固的城堡,不会轻易倒塌。

啥时候能用呢?当你数据不够多但又想搞个厉害的模型的时候呗。

优势可多啦,能省不少事儿呢,就像找到了一条捷径。

而且还能挖掘出更多的信息,哇,这不是超棒吗?
我就见过有人用半监督模型训练,那效果,杠杠的!就像变魔术一样,把原本不咋地的数据变得超厉害。

半监督模型训练,绝对是个超赞的方法。

你还等啥呢?赶紧试试吧!。

半监督学习中协同训练与多视图方法的比较及改进的开题报告

半监督学习中协同训练与多视图方法的比较及改进的开题报告

半监督学习中协同训练与多视图方法的比较及改进的开题报告1. 背景介绍半监督学习是一种在数据较少情况下能够提高分类器性能的学习方法。

在半监督学习中,未标记的数据也能够发挥作用,因此其被广泛应用于实践中。

目前,协同训练和多视图方法是半监督学习中的两种主要方法。

协同训练通过利用标记样本为其他未标记样本分类提供依据,从而提高分类器性能。

多视图方法则利用多个不同的特征抽取算法得到的特征空间来训练分类器,可以提高分类器的泛化性能。

2. 研究目的本文旨在比较协同训练与多视图方法在半监督学习中的分类效果,并针对两种方法的不足之处提出改进方案。

具体研究目的包括:(1)比较协同训练和多视图方法在不同数据集上的分类精度。

(2)对协同训练和多视图方法的不足之处进行分析。

(3)提出针对协同训练和多视图方法的改进方案。

3. 研究内容和方法(1)数据集本研究将在多个数据集上进行实验,以比较协同训练和多视图方法在不同场景下的分类效果。

其中包括常用的文本分类数据集和图像分类数据集。

(2)实验方法本研究将选择两种主要的半监督学习方法进行比较,并提出改进方案。

具体实验方法包括:1)协同训练方法:选取少量标记数据和大量未标记数据,利用标记数据训练基本分类器,然后将基本分类器对未标记数据进行分类,选择分类器表现最好的一部分数据加入到标记集合中,迭代进行。

2)多视图方法:通过采用多个特征选择算法得到不同的特征空间,将分类器训练在多个特征空间中,然后将多个分类器的结果进行加权平均得到最终结果。

(3)改进方案针对协同训练和多视图方法的不足之处,本研究将提出改进方案,具体包括:1)改进协同训练方法:在选择协同样本时,本研究将综合考虑到分类器预测的不确定性和样本丰富度,提高样本选择的准确性。

2)改进多视图方法:本研究将提出一种基于深度学习的多视图融合模型,通过自动学习特征之间的相互关系来提高分类器的分类效果。

4. 创新点该研究具有以下几个创新点:1)综合比较协同训练和多视图方法在不同场景下的分类效果,为实践中的学习方法选择提供帮助。

基于协同训练的半监督学习技术在遥感图像分类中的应用研究的开题报告

基于协同训练的半监督学习技术在遥感图像分类中的应用研究的开题报告

基于协同训练的半监督学习技术在遥感图像分类中的应用研究的开题报告【开题报告】一、研究背景随着遥感技术的不断发展,获取到的遥感图像数据量也不断增加。

在遥感图像处理中,遥感图像分类是重要的应用研究方向之一,它可以将遥感图像中的各种目标区分出来,并进行相关的研究和分析。

然而在实际应用中,由于遥感图像中的目标种类繁多、数量众多,图像复杂度高,且样本数据不足问题,传统的监督学习方法难以完全满足需求。

半监督学习是在监督学习和无监督学习中间的一种学习方法。

它引入了未标记样本来弥补数据缺失的问题,并通过已标记和未标记样本的联合考虑提高了分类性能。

而协同训练是一种常用的半监督学习方法,通过结合多个分类器来提高分类效果,在实际应用中被广泛采用。

因此,本研究旨在通过协同训练方法来解决遥感图像分类的数据不足问题,提高遥感图像分类的准确率和泛化能力。

同时,也有助于推进半监督学习方法在遥感图像处理领域的应用。

二、研究内容本研究将探讨基于协同训练的半监督学习技术在遥感图像分类中的应用,具体研究内容包括以下几个方面:1. 对遥感图像获取和处理技术进行深入的研究,根据实际应用需求选择合适的遥感图像处理方法和特征提取方法。

2. 研究半监督学习的基本理论和协同训练的算法思想,了解其优点、局限性和适用场景。

3. 建立基于协同训练的遥感图像分类模型,利用已标记样本和未标记样本训练多个分类器,并采用一定的策略对分类器进行整合,提高分类器的准确率和泛化能力。

4. 针对所选用的遥感图像数据集,进行实验验证。

具体来说,将已标记和未标记样本划分为训练集和测试集,对比半监督和监督学习的分类效果,分析协同训练方法的优势和局限性。

三、研究意义通过本研究,可以解决遥感图像分类中的数据不足问题,提高遥感图像分类的准确率和泛化能力。

同时,也有助于推动半监督学习方法在遥感图像处理领域的应用,拓展半监督学习的应用范围。

四、研究方法与步骤1. 收集相关文献,对遥感图像分类、半监督学习和协同训练算法进行分析和学习,确定研究思路和方法。

基于神经网络的监督和半监督学习方法

基于神经网络的监督和半监督学习方法

基于神经网络的监督和半监督学习方法作者:王明月张德慧魏铭来源:《科学与财富》2018年第18期摘要:神经网络是由大量简单的神经元按照一定连接方式形成的智能仿生网.它以非线性神经元作为处理单元,通过广泛连接构成大规模分布式并行处理系统.神经网络不需预知其训练数据中输入输出之间的函数关系,而以数据驱动的方式解决问题.由于神经网络具有强大的模式识别能力和灵活的非线性建模能力,它引起了越来越多的学者及工程技术人员的关注。

关键词:神经网络监督学习半监督学习大多数情况下神经网络能在外界信息的基础上改变内部结构,是一种自适应系统。

现代神经网络是一种非线性统计性数据建模工具,常用来对输入和输出间复杂的关系进行建模,或用来探索数据的模式。

神经网络以其自组织性、自学习性、并行性、容错性、高度非线性、高度鲁棒性、对任意函数的任意精度逼近能力,一直是监督学习领域研究、开发和应用最为活跃的分支之一。

此外,神经网络模型可以根据样本信息自适应调整自身结构,也可用于提升半监督学习方法的自适应调节能力,以降低其对先验知识的依赖程度。

1.监督学习方法1.1监督学习概述监督学习有两种模型。

一般常用的模型是监督学习产生的全局模型,即将输入映射到期望输出。

而另一种模型则是将这种映射作为一个局部模型(如案例推理及最近邻算法)。

为解决一个给定的监督学习问题,可分为以下5个步骤进行:(1)确定训练样本数据。

(2)收集训练样本数据。

(3)确定学习函数输入特征的表示方法。

(4)确定要学习的函数及其对应的学习算法所使用的学习器类型。

(5)完成设计。

1.2监督学习方法简介1.K-最近邻算法K-最近邻算法(K- Nearest Neighbors,KNN)是将在特征空间中最接近的训练样本进行分类的监督学习方法。

K-最近邻算法最初由 Cover和Hart于1967年提出,其思路非常简单直观,易于快速实现,错误率较低。

K-最近邻算法的基本思想为:根据距离函数计算待分类样本x和每个训练样本的距离,选择与待分类样本x距离最小的K个样本作为x的K个最近邻最后根据x的K个最近邻判断x 的类别。

半监督学习及其应用研究

半监督学习及其应用研究

半监督学习及其应用研究一、本文概述随着大数据时代的来临,机器学习和在众多领域的应用越来越广泛。

监督学习和无监督学习是两种最常用的学习方法。

这两种方法在实际应用中都有一定的局限性。

监督学习需要大量的标注数据进行训练,而标注数据往往难以获取且成本高昂。

无监督学习则不依赖于标注数据,但往往难以提取出有效的特征信息。

半监督学习作为一种介于监督学习和无监督学习之间的方法,逐渐受到了人们的关注。

本文旨在探讨半监督学习的基本原理、方法及其应用研究。

我们将对半监督学习进行概述,介绍其基本概念、发展历程以及与传统学习方法的区别。

我们将重点介绍几种常见的半监督学习方法,包括自训练、协同训练、基于图的方法和基于生成模型的方法等,并分析它们的优缺点。

接着,我们将探讨半监督学习在各个领域的应用研究,如图像分类、文本分类、自然语言处理、推荐系统等,并分析这些应用中的成功案例和存在的问题。

我们将对半监督学习的未来发展趋势进行展望,探讨其在新时代的应用前景和挑战。

通过本文的阐述,我们希望能够为读者提供一个全面、深入的了解半监督学习的机会,并为其在实际应用中的使用提供参考和借鉴。

二、半监督学习概述半监督学习(Semi-Supervised Learning, SSL)是一种介于监督学习与无监督学习之间的机器学习方法。

它利用少量的标记数据(通常数量远少于无标记数据)和大量的未标记数据来训练模型,以实现更高的学习效率和更准确的预测结果。

这种方法既解决了完全监督学习中标签数据昂贵、难以获取的问题,也克服了无监督学习在缺少标签信息时无法有效利用标记数据信息的限制。

半监督学习通常包括两种主要类型:生成式方法和判别式方法。

生成式方法通常假设数据是由某些潜在的模型生成的,并试图学习这个潜在模型,从而利用未标记数据对标记数据进行概率建模。

常见的生成式方法有自训练(Self-Training)、生成对抗网络(GANs)等。

判别式方法则直接利用标记和未标记数据来训练分类器,其目标是学习一个能够区分不同类别的决策边界。

基于随机子空间的半监督协同训练算法

基于随机子空间的半监督协同训练算法

基于随机子空间的半监督协同训练算法概述半监督学习是一种利用带标签和不带标签的数据进行训练的机器学习方法。

在传统的监督学习中,我们依赖于标记好的数据来训练模型。

然而,在现实世界中,获得大量的标记好的数据可能是困难和昂贵的。

半监督学习通过利用未标记的数据来扩展学习的能力,提供了一种解决这个问题的方法。

随机子空间方法是一种常用的半监督学习方法之一。

它通过选择一组特征子集(随机子空间)来提高分类器的性能。

在这个方法中,我们首先从数据集中选择一些特征,然后在这些特征上训练分类器。

通过多次重复这个过程,我们可以得到一组不同的分类器,然后将它们集成在一起来预测未知的数据。

这种方法的优势在于它可以通过学习不同的特征子集来减少模型的方差,提高分类性能。

半监督协同训练算法是一种结合了半监督学习和协同训练方法的算法。

协同训练方法是一种利用多个互补的分类器来提高分类性能的方法。

在传统的协同训练中,每个分类器使用全部的特征来进行训练。

然而,在半监督协同训练中,我们可以利用随机子空间方法来选择每个分类器使用的特征子集,以进一步提高分类性能。

算法步骤半监督协同训练算法的主要步骤如下:1.数据预处理:将原始数据集划分为带标签数据和不带标签数据。

带标签数据用于训练初始分类器,不带标签数据用于构建随机子空间。

2.初始化分类器:使用带标签数据训练初始分类器。

可以选择任何常见的分类器作为初始分类器,如支持向量机、决策树等。

3.构建随机子空间:从不带标签数据中选择一些样本,并从中随机选择一组特征,构建一个随机子空间。

可以使用随机投影、随机子空间选择等方法来构建随机子空间。

4.集成分类器:使用随机子空间和带标签数据训练一个新的分类器。

可以使用与初始分类器相同的算法,但在此步骤中仅使用随机子空间中选择的特征。

5.更新分类器:使用带标签数据和新的分类器进行迭代训练。

将分类器预测的标签与真实的标签进行比较,选择分类性能较好的样本,并将其标记为带标签数据。

Python深度学习中的半监督学习技巧

Python深度学习中的半监督学习技巧

Python深度学习中的半监督学习技巧随着深度学习技术的不断发展,半监督学习技巧成为了一种非常有用的技术。

半监督学习技巧可以在标记样本很少的情况下,利用未标记的样本,获取更好的分类效果。

本文将深入介绍Python中的半监督学习技巧,并对其原理和应用进行详细阐述。

一、半监督学习概念半监督学习技术是指在一定程度上利用未标记数据来帮助训练模型,从而提高分类准确率和泛化能力。

在实际应用中,由于标记数据需要人工标注,成本非常高昂,因此大多数情况下不可能获得充足的标记数据。

而利用未标记数据则可以得到更多的数据量,从而在一定程度上获取更好的分类效果。

半监督学习技术的核心思想是利用未标记数据的特征来构建模型,从而辅助有标记数据的模型训练。

这个过程可以用贝叶斯理论或者半监督分类理论来解释,从而对半监督学习的理解深入。

二、半监督学习基础技巧在实际应用中,半监督学习有多种技术和方法可以实现。

下面将介绍半监督学习的几种基础方法。

1、自训练自训练是半监督学习中最基本的方法之一。

自训练方法的基本思路是使用有监督学习的方法为标记数据训练一个分类器,然后将分类器应用到未标记数据上,利用分类器的预测结果来对未标记数据进行分类,并将结果作为新的标记数据加入到训练集中,反复迭代此过程,直至分类准确率收敛。

自训练方法的优点是简单易用,但是需要注意的是,如果分类器的预测结果产生不确定性,那么该方法可能会产生错误的结果。

2、协同训练协同训练是一种利用多个相互依赖的分类器来对未标记数据进行联合分类的方法。

协同训练方法的基本思路是使用不同的特征集合来训练多个分类器,每个分类器都专门针对某个特定的特征集合进行训练。

其中,每个分类器都可以通过其他分类器的预测结果进行改进。

协同训练方法的优点是能够有效地利用未标记数据,从而提高分类准确率。

但是需要注意的是,该方法的执行效率相对较低,需要大量迭代才能收敛。

3、平衡分类器平衡分类器是半监督学习中一种非常重要的方法。

基于算法的分类器设计中的半监督学习方法综述

基于算法的分类器设计中的半监督学习方法综述

基于算法的分类器设计中的半监督学习方法综述半监督学习是一种介于监督学习和无监督学习之间的学习方法,它充分利用有标签和无标签数据的信息,以更高效和准确的方式构建分类器。

在基于算法的分类器设计中,使用半监督学习方法可以帮助我们解决标记样本稀缺的问题,提高分类器的性能。

本综述将对基于算法的半监督学习方法进行探讨和总结。

一、半监督学习概述半监督学习是一种利用有标签数据和无标签数据共同训练模型的学习方法。

传统的监督学习方法要求大量标记数据作为训练集,但在实际应用中,获取大量标记样本往往是耗费成本和时间的。

而无监督学习方法则是在没有标签的情况下,通过学习数据的结构和分布进行建模。

半监督学习方法通过同时利用有标签数据和无标签数据,充分利用数据的统计特性,提高分类器的性能。

二、常见的半监督学习方法1. 自学习算法(Self-Training)自学习算法是半监督学习中最简单且常用的方法之一。

它基于一种迭代的框架,首先使用有标签数据训练一个初始的分类器,然后将这个分类器用于未标记数据的分类,将分类结果中置信度较高的样本标记为有标签数据,并将其添加到训练集中再次训练分类器。

这个过程不断迭代,直到收敛为止。

2. 协同训练算法(Co-Training)协同训练是一种基于多视角学习的半监督学习方法。

它假设有多个视角或者特征集对同一个分类问题有微弱的相关性。

协同训练通过使用两个或多个不同的特征集进行训练,每个特征集对应一个分类器。

初始时,每个分类器使用有标签数据进行独立训练,然后利用分类器之间的一致性进行样本选择和标记扩展。

这个过程迭代进行,直到分类器收敛。

3. 分歧适应算法(Divergence-Based Adaptation)分歧适应算法是一种基于信息量和数据分布差异的半监督学习方法。

它假设有标签数据和无标签数据来自不同的数据分布,通过最大化有标签数据的似然度和最小化无标签数据的似然度之间的差异来优化分类器。

4. 深度生成对抗网络(Deep Generative Adversarial Networks)深度生成对抗网络是近年来的一种热门半监督学习方法。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

半监督学习中的协同训练风范*周志华南京大学计算机软件新技术国家重点实验室,南京2100931.引言在传统的监督学习中,学习器通过对大量有标记的(labeled)训练例进行学习,从而建立模型用于预测未见示例的标记。

这里的“标记”(label)是指示例所对应的输出,在分类问题中标记就是示例的类别,而在回归问题中标记就是示例所对应的实值输出。

随着数据收集和存储技术的飞速发展,收集大量未标记的(unlabeled)示例已相当容易,而获取大量有标记的示例则相对较为困难,因为获得这些标记可能需要耗费大量的人力物力。

例如在计算机辅助医学图像分析中,可以从医院获得大量的医学图像作为训练例,但如果要求医学专家把这些图像中的病灶都标识出来,则往往是不现实的。

事实上,在真实世界问题中通常存在大量的未标记示例,但有标记示例则比较少,尤其是在一些在线应用中这一问题更加突出。

例如,在进行Web网页推荐时,需要用户标记出哪些网页是他感兴趣的,很少会有用户愿意花大量的时间来提供标记,因此有标记的网页示例比较少,但Web 上存在着无数的网页,它们都可作为未标记示例来使用。

显然,如果只使用少量的有标记示例,那么利用它们所训练出的学习系统往往很难具有强泛化能力;另一方面,如果仅使用少量“昂贵的”有标记示例而不利用大量“廉价的”未标记示例,则是对数据资源的极大的浪费。

因此,在有标记示例较少时,如何利用大量的未标记示例来改善学习性能已成为当前机器学习研究中最受关注的问题之一。

目前,利用未标记示例的主流学习技术主要有三大类[Zhou06],即半监督学习(semi-supervised learning)、直推学习(transductive learning)和主动学习(active learning)。

这三类技术都是试图利用大量的未标记示例来辅助对少量有标记示例的学习,但它们的基本思想却有显著的不同。

在半监督学习[ChapelleSZ06][Zhu06]中,学习器试图自行利用未标记示例,即整个学习过程不需人工干预,仅基于学习器自身对未标记示例进行利用。

直推学习[Vapnik98][Joachims99]与半监督学习的相似之处是它也是由学习器自行利用未标记示例,但不同的是,直推学习假定未标记示例就是测试例,即学习的目的就是在这些未标记示例上取得最佳泛化能力。

换句话说,半监督学习考虑的是一个“开放世界”,即在进行学习时并不知道要预测的示例是什么,而直推学习考虑的则是一个“封闭世界”,在学习时已经知道了需要预测哪些示例。

实际上,直推学习这一思路直接来源于统计学习理论* 本文得到国家自然科学基金(60635030)和全国优秀博士学位论文作者专项基金(200343)资助[Vapnik98],并被一些学者认为是统计学习理论对机器学习思想的最重要的贡献1。

其出发点是不要通过解一个困难的问题来解决一个相对简单的问题。

V. Vapnik认为,经典的归纳学习假设期望学得一个在整个示例分布上具有低错误率的决策函数,这实际上把问题复杂化了,因为在很多情况下,人们并不关心决策函数在整个示例分布上性能怎么样,而只是期望在给定的要预测的示例上达到最好的性能。

后者比前者简单,因此,在学习过程中可以显式地考虑测试例从而更容易地达到目的。

这一思想在机器学习界目前仍有争议,但直推学习作为一种重要的利用未标记示例的技术,则已经受到了众多学者的关注。

主动学习[SeungOS92][LewisG94][AbeM98]和前面两类技术不同,它假设学习器对环境有一定的控制能力,可以“主动地”向学习器之外的某个“神谕”(oracle)2进行查询来获得训练例的标记。

因此,在主动学习中,学习器自行挑选出一些未标记示例并通过神谕查询获得这些示例的标记,然后再将这些有标记示例作为训练例来进行常规的监督学习,而其技术难点则在于如何使用尽可能少的查询来获得强泛化能力。

对比半监督学习、直推学习和主动学习可以看出,后者在利用未标记示例的过程中需要与外界进行交互,而前两者则完全依靠学习器自身,正因为此,也有一些研究者将直推学习作为一种半监督学习技术来进行研究。

本章的主旨是介绍半监督学习中的协同训练(co-training)这一风范(paradigm),因此,对直推学习和主动学习不再做更多的介绍,仅在第2节对半监督学习的概况做一简要描述。

第3至5节将从学习算法、理论分析、实际应用等三个方面来介绍协同训练的研究进展,第6节则列出几个可能值得进一步研究的问题。

2.半监督学习一般认为,半监督学习的研究始于B. Shahshahani和D. Landgrebe的工作[ShahshahaniL94],但未标记示例的价值实际上早在上世纪80年代末就已经被一些研究者意识到了[Lippman89]。

D.J. Miller和H.S. Uyar [MillerU97]认为,半监督学习的研究起步相对较晚,可能是因为在当时的主流机器学习技术(例如前馈神经网络)中考虑未标记示例相对比较困难。

随着统计学习技术的不断发展,以及利用未标记示例这一需求的日渐强烈,半监督学习才在近年来逐渐成为一个研究热点。

半监督学习的基本设置是给定一个来自某未知分布的有标记示例集L={(x1, y1), (x2, y2), …, (x|L|, y|L|)}以及一个未标记示例集U = {x1’,x2’, … , x|U|’},期望学得函数f: X→Y可以准确地对示例x预测其标记y。

这里x i, x j’ ∈X均为d维向量,y i∈Y为示例x i的标记,|L|和|U|分别为L和U的大小,即它们所1有人认为统计学习理论的最重要贡献是支持向量机,但实际上,支持向量机只是对结构风险最小化原则的一个实现,在处理非线性时用到了核技巧(kernel trick)。

结构风险最小化的思想在机器学习中早已有之,只是以往的研究没有适时地总结成一套完整的框架;至于核技巧,则在机器学习和模式识别领域早就在使用了。

而直推学习则是和经典的归纳学习很不相同的一个思路。

2这里的“神谕”可以是人,也可以是能够为示例提供真实标记的其他过程。

包含的示例数。

在介绍具体的半监督学习技术之前,有必要先探讨一下为什么可以利用未标记示例来改善学习性能。

关于这个问题,有不少研究者给出了解释。

例如,D.J. Miller 和H.S. Uyar [MillerU97] 从数据分布估计的角度给出了一个直观的分析。

他们假设所有数据服从于某个由L 个高斯分布混合而成的分布,即()(1L l l f x f x )l θαθ==∑(1)其中为混合系数,θ = {θ 11Ll l α==∑l }为参数。

这样,标记就可视为一个由选定的混合成分m i 和特征向量x i 以概率P(c i | x i , m i ) 决定的随机变量。

于是,根据最大后验概率假设,最优分类由式2给出:()()()arg max P ,P i i i i j k h x c k m j x m j x ===i =∑ (2) 其中()()()1P j i ji i Ll il l f x m j x f x αθαθ===∑ 。

这样,学习目标就变成了利用训练例来估计P (c i = k | m j = j , x i )和P (m i = j | x )。

这两项中的第一项与类别标记有关,而第二项并不依赖于示例的标记,因此,如果有大量的未标记示例可用,则意味着能够用于估计第二项的示例数显著增多,这会使得第二项的估计变得更加准确,从而导致式2更加准确,也就是说,分类器的泛化能力得以提高。

此后,T. Zhang 和F. J. Oles [ZhangO00] 进一步分析了未标记示例在半监督学习中的价值,并指出如果一个参数化模型如果能够分解成P (x , y | θ) = P (y | x , θ) P (x | θ) 的形式,那么未标记示例的价值就体现在它们能够帮助更好地估计模型参数从而导致模型性能的提高。

实际上,只要能够合理建立未标记示例分布和学习目标之间的联系,就可以利用未标记示例来辅助提高学习性能。

在[ShahshahaniL94][MillerU97]中,这一联系是通过对生成式模型(generative model )参数的估计来体现的,但在更一般的情况下就需要在某些假设的基础上来建立未标记示例和目标之间的联系。

目前,在半监督学习中有两个常用的基本假设,即聚类假设(cluster assumption )和流形假设(manifold assumption )。

聚类假设是指处在相同聚类(cluster )中的示例有较大的可能拥有相同的标记。

根据该假设,决策边界就应该尽量通过数据较为稀疏的地方,从而避免把稠密的聚类中的数据点分到决策边界两侧。

在这一假设下,大量未标记示例的作用就是帮助探明示例空间中数据分布的稠密和稀疏区域,从而指导学习算法对利用有标记示例学习到的决策边界进行调整,使其尽量通过数据分布的稀疏区域。

聚类假设简单、直观,常以不同的方式直接用于各种半监督学习算法的设计中。

例如,T. Joachims[Joachims99] 提出了TSVM算法3,在训练过程中,该算法不断修改SVM的划分超平面并交换超平面两侧某些未标记示例的可能标记,使得SVM在所有训练数据(包括有标记和未标记示例)上最大化间隔(margin),从而得到一个既通过数据相对稀疏的区域又尽可能正确划分有标记示例的超平面;N. D. Lawrence和M. I. Jordan [LawrenceJ05] 通过修改高斯过程(Gaussian process)中的噪音模型来进行半监督学习,他们在正、反两类之间引入了“零类”,并强制要求所有的未标记示例都不能被分为零类,从而迫使学习到的分类边界避开数据稠密区域;Y. Grandvalet和Y. Bengio [GrandvaletB05] 通过使用最小化熵作为正则化项来进行半监督学习,由于熵仅与模型在未标记示例上的输出有关,因此,最小化熵的直接结果就是降低模型的不确定性,迫使决策边界通过数据稀疏区域。

流形假设是指处于一个很小的局部邻域内的示例具有相似的性质,因此,其标记也应该相似。

这一假设反映了决策函数的局部平滑性。

和聚类假设着眼整体特性不同,流形假设主要考虑模型的局部特性。

在该假设下,大量未标记示例的作用就是让数据空间变得更加稠密,从而有助于更加准确地刻画局部区域的特性,使得决策函数能够更好地进行数据拟合。

流形假设也可以容易地直接用于半监督学习算法的设计中。

例如,J. Zhu等人[ZhuGL03] 使用高斯随机场以及谐波函数来进行半监督学习,他们首先基于训练例建立一个图,图中每个结点就是一个(有标记或未标记)示例,然后求解根据流形假设定义的能量函数的最优值,从而获得对未标记示例的最优标记;D. Zhou等人[ZhouBLWS04] 在根据示例相似性建立图之后,让示例的标记信息不断向图中的邻近示例传播,直到达到全局稳定状态。

相关文档
最新文档