半监督学习综述
半监督学习在医疗影像识别中的使用教程(Ⅱ)

半监督学习在医疗影像识别中的使用教程随着人工智能技术的不断发展,半监督学习在医疗影像识别中的应用越来越受到关注。
半监督学习是一种结合有标签和无标签数据的机器学习方法,能够有效地利用大量未标记的数据来提高模型的识别能力。
在医疗影像识别中,半监督学习可以帮助医生更准确地诊断疾病,提高医疗影像识别的准确性和效率。
本文将介绍半监督学习在医疗影像识别中的使用教程,帮助读者更好地理解和应用这一技术。
一、半监督学习概述首先,我们来简单介绍一下半监督学习的基本概念。
半监督学习是一种利用有标签数据和无标签数据来训练模型的方法。
在医疗影像识别中,通常只有少量的有标签数据,而大量的影像数据是无标签的。
传统的监督学习方法往往需要大量的有标签数据才能训练准确的模型,但在医疗影像识别中很难获得大量的有标签数据。
因此,半监督学习可以帮助我们更有效地利用有限的有标签数据和大量的无标签数据来提高模型的准确性。
二、半监督学习在医疗影像识别中的应用在医疗影像识别中,半监督学习可以应用于各种疾病的诊断和影像分析。
例如,在肿瘤检测中,半监督学习可以帮助医生更准确地识别肿瘤的边界和形状,提高肿瘤的诊断准确率。
在心脏病诊断中,半监督学习可以帮助医生更准确地识别心脏病的影像特征,提高心脏病的早期诊断率。
在骨折检测中,半监督学习可以帮助医生更快速地识别骨折的位置和类型,提高骨折的诊断效率。
三、半监督学习的具体算法在实际应用中,我们可以使用多种半监督学习的算法来处理医疗影像数据。
其中,自编码器是一种常用的无监督学习算法,可以帮助我们发现影像数据中的隐含特征。
生成对抗网络(GAN)是一种生成模型,可以帮助我们生成更逼真的影像数据。
另外,半监督支持向量机(SVM)和半监督聚类算法也可以用于医疗影像识别中。
这些算法都可以帮助我们更有效地利用有限的有标签数据和大量的无标签数据来训练准确的模型。
四、半监督学习的实际应用案例最后,我们来介绍一些半监督学习在医疗影像识别中的实际应用案例。
计算机视觉中的半监督学习方法研究综述

计算机视觉中的半监督学习方法研究综述计算机视觉是人工智能领域中一个重要的研究方向,旨在使计算机能够获取、处理和理解数字图像或视频。
在计算机视觉中,数据标注是一个耗时且昂贵的过程。
为了解决这个问题,学者们提出了半监督学习方法,利用部分标注的数据和大量未标注的数据来训练模型。
本文将对计算机视觉中的半监督学习方法进行综述,介绍最新研究进展、关键思想和应用领域。
一、半监督学习方法的基本原理半监督学习是介于监督学习和无监督学习之间的一种学习方法。
在计算机视觉中,传统的监督学习方法通常需要大量标注的数据,在实际场景中很难得到。
而无监督学习方法则没有使用任何标注数据进行训练,其性能通常不如监督学习方法。
半监督学习方法的核心思想是结合部分标注的数据和大量未标注的数据,通过学习模型的分布特性,提高模型的泛化能力和性能。
常用的半监督学习方法包括自训练、半监督支持向量机、图半监督学习等。
这些方法通过利用标注数据的信息和未标注数据的分布特性来优化模型的训练过程。
二、半监督学习方法的应用领域半监督学习方法在计算机视觉领域有着广泛的应用。
以下是一些常见的应用领域:1. 图像分类:半监督学习方法可以通过利用未标注数据的特征分布来提高图像分类的准确性。
通过学习图像的分布特性,模型可以更好地进行分类。
2. 目标检测:在目标检测中,半监督学习方法可以利用未标注数据的空间分布特征,辅助模型进行目标的定位和识别。
3. 图像分割:半监督学习方法可以利用未标注数据的像素分布特性,辅助模型进行图像分割任务。
4. 行为识别:在视频行为识别任务中,半监督学习方法可以利用未标注视频的空间和时间分布特性,提高模型对行为识别的准确性。
三、计算机视觉中的半监督学习方法研究进展目前,计算机视觉领域对半监督学习方法的研究已取得了一系列重要的进展。
以下是一些主要研究方向:1. 核方法:核方法可以将半监督学习问题转化为无监督学习问题来解决。
通过合理选择核函数,可以将高维数据映射到特征空间中进行优化。
有监督、无监督与半监督学习【总结】

有监督、⽆监督与半监督学习【总结】概念有监督学习:训练数据既有特征(feature)⼜有标签(label),通过训练,让机器可以⾃⼰找到特征和标签之间的联系,在⾯对只有特征没有标签的数据时,可以判断出标签。
⽆监督学习(unsupervised learning):训练样本的标记信息未知,⽬标是通过对⽆标记训练样本的学习来揭⽰数据的内在性质及规律,为进⼀步的数据分析提供基础,此类学习任务中研究最多、应⽤最⼴的是"聚类" (clustering),其他⽆监督算法还有:密度估计(densityestimation)、异常检测(anomaly detection) 等。
半监督学习:训练集同时包含有标记样本数据和未标记样本数据,不需要⼈⼯⼲预,让学习器不依赖外界交互、⾃动地利⽤未标记样本来提升学习性能,就是半监督学习。
主动学习:有的时候,有类标的数据⽐较稀少⽽没有类标的数据很多,但是对数据进⾏⼈⼯标注⼜⾮常昂贵,这时候,学习算法可以主动地提出⼀些标注请求,将⼀些经过筛选的数据提交给专家进⾏标注,这个筛选过程也就是主动学习主要研究的地⽅了。
注:半监督学习与主动学习属于利⽤未标记数据的学习技术,只是其基本思想不同。
内容1、监督学习监督学习从训练数据集合中训练模型,再对测试据进⾏预测,训练数据由输⼊和输出对组成,通常表⽰为:测试数据也由相应的输⼊输出对组成。
输⼊变量与输出变量均为连续的变量的预测问题称为回归问题,输出变量为有限个离散变量的预测问题称为分类问题,输⼊变量与输出变量均为变量序列的预测问题称为标注问题。
监督算法常见的有:线性回归,神经⽹络,决策树,⽀持向量机,KNN等。
2、⽆监督学习聚类聚类试图将数据集中的样本划分为若⼲个通常是不相交的⼦集,每个⼦集称为⼀个"簇" (cluster).。
通过这样的划分,每个簇可能对应于⼀些潜在的概念(类别) ,这些概念对聚类算法⽽⾔事先是未知的,聚类过程仅能⾃动形成簇结构,簇所对应的概念语义需由使⽤者来把握和命名。
机器学习中的半监督学习方法

机器学习中的半监督学习方法近年来,机器学习技术的应用已经渗透到多个领域,如自然语言处理、视觉识别、医疗诊断等。
其中,监督学习是最常用的技术之一,但监督学习的一个弊端是需要大量标记数据,而实际应用中标记数据往往十分稀少,这时候就需要半监督学习方法来弥补监督学习的不足。
半监督学习方法是通过同时利用少量标记数据和大量未标记数据来进行学习,从而达到提高分类或回归准确度的目的。
这种方法主要有三种:基于图的方法、基于生成模型的方法和基于嵌入式方法。
基于图的方法通过构建图模型来实现分类或回归任务。
在这个图中,节点表示样本,权重表示相似度,利用带标记的样本构建出一个标记子图和未标记的样本构建出一个未标记子图,然后再通过不同的方式计算两个子图的相似度来实现半监督学习。
其中,常用的方法有基于随机游走算法的方法、基于拉普拉斯矩阵的半监督学习方法、基于自适应图的方法等。
基于生成模型的方法是通过概率分布模型来表达标记和未标记数据之间的关系,从而对未标记数据进行分类或回归。
这种方法主要有两种:生成式方法和判别式方法。
其中,生成式方法是建立生成模型,最常见的是高斯混合模型和隐马尔可夫模型,利用所有数据的公共特征对未标记数据进行分类或回归。
而判别式方法则是根据全部标记数据的特征直接建立判别函数。
基于嵌入式方法是以低维度嵌入作为特征,采用监督学习方法进行学习。
在这种方法中,一个目标函数包括两个部分:第一部分是标记样本的分类或回归损失,第二部分是未标记样本的嵌入损失。
其中我们可以采用基于自编码器的方法、基于矩阵分解的方法等。
总之,半监督学习方法在机器学习中扮演着至关重要的角色,能够有效提高分类或回归的准确度,适用范围广泛,但是半监督学习也面临一些挑战,如如何选取适当的未标记数据、如何捕捉不同类别未标记样本之间的差异等。
这也是目前研究的热点和难点,未来科学家们需要不断探索和创新,进一步完善半监督学习方法。
半监督学习研究综述

半监督学习研究综述作者:陈武锦来源:《电脑知识与技术》2011年第16期摘要:半监督学习问题,从一开始就受到了人工智能界的高度重视,已经成为领域中的研究热点之一。
该文综述了半监督学习问题的基本思想、研究现状,简述目前的研究困难。
关键词:半监督学习;标签;分类中图分类号:TP18 文献标识码:A文章编号:1009-3044(2011)16-3887-03Semi-supervised Learning Study SummaryCHEN Wu-jinAbstract: Semi-supervised learning problems, From the outset by the artificial intelligence community have attached great importance to it, Has become a hot topic in the research field. This paper reviews the problem of semi-supervised learning the basic idea of the status quo, Summarized the current study difficult.Key words: semi-supervised learning; labeled; classification人工智能主要研究的是如何使用计算机来模拟人类的学习活动,而从样本数据中学习是机器学习研究的主要问题之一[1]。
机器学习在生活中随处可见,随着社会经济的飞速发展,计算机技术的日趋成熟,人类采集数据、存储数据的能力得到了非常大的提高,从科学界到日常生活的每一个领域都存储了海量的数据,而对这些数据如何进行分析和处理,以及如何挖掘数据中的可用数据,已经成为大部分领域的共同追求。
另外,在许多领域,往往想要获得样本数据的类别的标签非常困难,有的需要投入大量的时间、精力、资金等等,有的还需要非常雄厚的专业基础知识,缺乏类别标签,是目前处理数据的一大困难。
半监督学习算法的综述

半监督学习算法的综述半监督学习是一种介于有监督学习和无监督学习之间的学习方式,兼具有监督学习的准确性和无监督学习的灵活性。
相对于有监督学习需要大量标记数据和无监督学习需要复杂的聚类或分类算法,半监督学习可以在少量标记数据的情况下,同时结合无监督学习算法,使得模型拟合效果更好,适用范围更广。
现实应用中,标记数据不仅数量有限,而且经常会存在噪声和不准确性,此时半监督学习能够利用未标记数据和有标记数据的关系优化模型,在数据稀缺和复杂的情况下,半监督学习具有重要的应用价值。
下面对半监督学习的一些常见算法进行综述:1. 图半监督学习图半监督学习是半监督学习中较为常用的方法之一。
该方法将数据看作图中的节点,通过连接节点的边表示节点之间的关系,然后通过有标记数据作为种子节点,将图中所有节点分为已标记节点和未标记节点,并寻找未标记节点与已标记节点之间的关系,在此基础上通过传播算法将标签传递给未标记节点,最终得到整个图的标签。
2. 深度半监督学习在深度学习领域中,深度半监督学习是一种比较新兴的方法,该方法利用神经网络模型对未标记数据进行预测,同时利用有标记数据对模型进行微调,从而达到半监督学习的目的。
深度半监督学习可以应用在图像识别、文本分类等领域,是一个非常有效的学习方式。
3. 半监督聚类聚类是无监督学习领域中的常见算法,而半监督聚类则是将有标记数据和未标记数据进行组合,进行聚类得到的结果更加准确和鲁棒。
半监督聚类主要应用在图像分割、文本聚类等领域,能够有效利用未标记数据提升聚类的准确性和鲁棒性。
总的来说,半监督学习通过结合有监督和无监督学习的方法,能够提高模型的拟合效果和应用范围,具有重要的应用价值。
未来,半监督学习算法的研究将会越来越深入,在更多的领域得到广泛的应用。
强化学习算法中的半监督学习方法详解(十)

强化学习算法中的半监督学习方法详解强化学习是一种通过与环境互动来学习最优行为策略的机器学习方法。
在强化学习中,Agent根据环境的反馈来调整自己的行为,从而逐步学习到最优的策略。
在实际应用中,强化学习算法通常需要大量的标记数据来训练模型,然而获取大量标记数据成本较高。
为了解决这一问题,半监督学习方法应运而生。
半监督学习是一种结合标记数据和未标记数据进行学习的方法,能够充分利用未标记数据来提升模型性能。
本文将对强化学习算法中的半监督学习方法进行详细的介绍。
一、半监督学习的基本原理半监督学习的基本原理是利用未标记数据的分布信息来改善模型的泛化性能。
在强化学习中,Agent通常会与环境进行多次交互,获取到的状态和动作序列就构成了未标记数据。
传统的强化学习算法只利用标记数据进行模型训练,而半监督学习方法则能够充分利用未标记数据。
通过将未标记数据纳入模型训练过程中,可以有效地提升模型的泛化能力,从而更好地适应不同环境下的任务。
二、半监督学习方法在强化学习中的应用在强化学习中,半监督学习方法主要应用于值函数的估计和策略优化两个方面。
对于值函数的估计,传统的强化学习算法通常使用有限的标记数据进行训练,容易导致值函数的估计不准确。
而半监督学习方法能够充分利用未标记数据,提高值函数的估计准确性。
对于策略优化,半监督学习方法能够通过未标记数据的分布信息来改善策略的泛化性能,从而更好地适应复杂环境下的任务。
三、半监督学习方法的具体实现在强化学习中,半监督学习方法的具体实现一般包括两个步骤,即数据预处理和模型训练。
在数据预处理阶段,通常需要对未标记数据进行特征提取和数据增强等操作,从而充分利用未标记数据的信息。
在模型训练阶段,可以采用半监督学习算法来训练值函数估计模型和策略优化模型,比如自编码器、生成对抗网络等。
通过这些操作,可以有效地提高强化学习算法的性能。
四、半监督学习方法的优势和局限性半监督学习方法在强化学习中具有一定的优势,能够通过充分利用未标记数据来提高模型的性能。
半监督学习概论

当前半监督学习面临的问题
第一, 半监督学习分类算法的现实价值 半监督学习从诞生以来,主要用于处理人工合成数据、只在实验室试 用,还没办法在某个现实领域得到应用,也就是说,其现实意义没体 现出来;因此,半监督学习的实际应用价值问题值得更多的研究。 第二,新假设的提出 文中前面叙述到的各种半监督分类算法的假设,提出新的模型假设可 能会改进半监督分类算法。 所以对半监督学习分类算法的模型假设的 研究将是十分有价值的。 第三,半监督学习的抗干扰性比较弱 无噪声干扰的样本数据是当前大部分半监督学习方法使用的数据,而 在实际生活中用到的数据却大部分不是无干扰的 ,通常都比较难以得 到纯样本数据。 上面谈论的三个基本假设显然是有效的,不过过于简 约,这些假设没能把噪声干扰下未标记样本数据分布的不确定性以及 它的复杂性充分的考虑全。
半监督学习的常用算法
半监督学习算法按照不同的模型假设,可以大致将现有
的半监督学习算法分为五类: 自学习(Self-training) 基于生成模型的方法(EM with generative mixture models) 协同训练(Co-training) 直推式支持向量机 (Transductive Support Vector Machines) 基于图的方法(Graph-based methods)
直推式支持向量机
定义: 直推式支持向量机(TSVM)是标准型支持向量算法 在未标记样本上的一种推广。对于二分类问题而言, 标准SVM是利用已标记的数据在样本空间中寻找一个 最优超平面,使两类样本间的分类间隔最大;TSVM 则同时利用标记和未标记的样本来寻找最优分类边界, 来得到原始数据中两类样本的最大分类间隔。 直推式方法是一种非参数的方法,不同于基于生 成模型的参数方法,其对初始分类器的优化过程只与 上一次拟合时已标记样本在特征空间中的位置有关。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
模式识别
模式识别(英语:Pattern Recognition),就是通过 计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。随着计算机技术 的发展,人类有可能研究复杂的信息处理过程。信息 处理过程的一个重要形式是生命体对环境及客体的识 别。对人类来说,特别重要的是对光学信息(通过视 觉器官来获得)和声学信息(通过听觉器官来获得) 的识别。这是模式识别的两个重要方面。市场上可见 到的代表性产品有光学字符识别、语音识别系统 模式识别是指对表征事物或现象的各种形式的(数值 的、文字的和逻辑关系的)信息进行处理和分析,以 对事物或现象进行描述、辨认、分类和解释的过程, 2 是信息科学和人工智能的重要组成部分。
• 国外研究表明:
– 如果婴儿以前经常听到某个单词,那么当他再学习该词的时候就会 很快
人类是否进行半监督学习?
•
简单的推理(Rajat Raina 2007): – 人大脑中有1014个神经元连接 – 人的寿命109秒 – 每秒需要学105个参数 – “被指导学习”的时间很有限 结论:人类大部分的思维都是非监督的,监督 学习起加速作用 -> 人的思维方式=半监督学习 ??
9
• •
半监督学习背景
传统机器学习算法需要利用大量有标记的样本进行 学习。 随着信息技术的飞速发展,收集大量未标记的 (unlabeled)样本已相当容易,而获取大量有标记的示 例则相对较为困难,因为获得这些标记可能需要耗费大 量的人力物力。 如何利用大量的未标记样本来改善学习性能成为当 前机器学习研究中备受关注的问题。 优点:半监督学习(Semi-supervised Learning)能够充 分利用大量的未标记样本来改善学习机的性能,是目前 利用未标记样本进行学习的主流技术。
无监督的学习:无标记样本,仅根据测试样本的在特征空间分布情况 来进行标记,准确性差。
半监督学习的过程:
有少量标记样本,学习机以从标记样本获得的知识为基础,结 合测试样本的分布情况逐步修正已有知识,并判断测试样本的 类别。
7
人类是否进行半监督学习?
• “熟读唐诗三百首,不会写诗也会吟”
– 相当于往大脑中装入大量的未标注语料
机器学习:机器模拟人的学习
机器学习(Machine Learning, ML)是一门多领域交叉 学科,涉及概率论、统计学、逼近论、凸分析、算法复 杂度理论等多门学科。专门研究计算机怎样模拟或实现 人类的学习行为,以获取新的知识或技能,重新组织已 有的知识结构使之不断改善自身的性能。 它是人工智能的核心,是使计算机具有智能的根本途 径,其应用遍及人工智能的各个领域,它主要使用归纳、 综合而不是演绎。
两个基本假设
半监督学习问题从样本的角度而言是利用少量标注样 本和大量未标注样本进行机器学习,从概率学习角度 可理解为研究如何利用训练样本的输入边缘概率 P( x )和条件输出概率P ( y | x )的联系设计具有良好 性能的分类器。这种联系的存在是建立在某些假设的 基础上的,即聚类假设(cluster assumption)和流形 假设(maniford assumption)。
为在当时的主流机器学习技术(例如前馈神经网络)中考虑未标记示例相对 比较困难。随着统计学习技术的不断发展,以及利用未标记示例这一需求的 日渐强烈,半监督学习才在近年来逐渐成为一个研究热点。
D. J. Miller, H. S. Uyar. A mixture of experts classifier with learning based on both labelled and unlabelled data. In: M. Mozer, M. I. Jordan, T. Petsche, eds. Advances in Neural Information Processing Systems 9, Cambridge, MA: MIT Press, 1997, 571-577
3
机器学习:按学习方式分类
• 监督学习(Supervised learning)
– 训练集:标注
• 非监督学习(Unsupervised learning)
– 训练集:无需标注(同一分布)
• 半监督学习(Semi-supervised learning)
– 训练集:标注+未标注(同一分布)
4
有监督的学习:学习器通过对大量有标记的训练例进行学习,从而建 立模型用于预测未见示例的标记(label)。很难获得大量的标记样本。
17
半监督学习的主要方法
半监督学习算法按照不同的模型假设,可以大致将现 有的半监督学习算法分为五类: 自学习(Self-training) 基于生成模型的方法(EM with generative mixture models) 协同训练(Co-training) 直推式支持向量机 (Transductive Support Vector Machines) 基于图的方法(Graph-based methods)
半监督学习的基本思想是利用数据分布上的模型假设, 建立学 习器对未标签样本进行标签。 形式化描述为: 给定一个来自某未知分布的样本集S=L∪U, 其中L 是已标签样本集L={(x1,y1),(x2,y2), „ ,(x |L|,y|L|)}, U 是一个未标签样本集U={x’1,x’2,„,x’|U|},希望得到函数 f:X → Y可以准确地对样本x预测其标签y,这个函数可能是参 数的,如最大似然法;可能是非参数的,如最邻近法、神经网 络法、支持向量机法等;也可能是非数值的,如决策树分类。 其中, x与x’ 均为d 维向量, yi∈Y 为样本x i 的标签, |L| 和|U| 分别为L 和U 的大小, 即所包含的样本数。半监督 学习就是在样本集S 上寻找最优的学习器。如何综合利用已标 签样例和未标签样例,是半监督学习需要解决的问题。
12
半监督学习应用实例
语音识别(Speech recognition) 文本分类(Text categorization) 词义解析(Parsing) 视频监控(Video surveillance) 蛋白质结构预测(Protein structure prediction)
13
基本思想
20
21
ห้องสมุดไป่ตู้
当前半监督学习面临的问题
第一, 半监督学习分类算法的现实价值 半监督学习从诞生以来,主要用于处理人工合成数据、只在实验 室试用,还没办法在某个现实领域得到应用,也就是说,其现 实意义没体现出来;因此,半监督学习的实际应用价值问题值 得更多的研究。 第二,新假设的提出 文中前面叙述到的各种半监督分类算法的假设,提出新的模型假 设可能会改进半监督分类算法。 所以对半监督学习分类算法的 模型假设的研究将是十分有价值的。 第三,半监督学习的抗干扰性比较弱 无噪声干扰的样本数据是当前大部分半监督学习方法使用的数据, 而在实际生活中用到的数据却大部分不是无干扰的 ,通常都比 较难以得到纯样本数据。 上面谈论的三个基本假设显然是有效 的,不过过于简约,这些假设没能把噪声干扰下未标记样本数 据分布的不确定性以及它的复杂性充分的考虑全。
18
自训练(Self-training)
定义:首先利用已标记的样本训练分类器,然后利 用已有未标记训练样本建立的模型标记,使用分类 器选出置信度高的样本加入训练集中重新训练,迭 代这个过程,得到一个比较理想的分类器。 适用:用监督学习分类器时很复杂或者是很难修正 优点:简单 、容易实现 。 缺点:误差也同时会自我迭代放大。
半监督学习综述
(Semi-supervised Learning )
机器学习领域中,传统的学习方法有两种:监督学习和无 监督学习。半监督学习(Semi-supervised Learning) 是模式识别和机器学习领域研究的重点问题,是监督学习 与无监督学习相结合的一种学习方法。它主要考虑如何利 用少量的标注样本和大量的未标注样本进行训练和分类的 问题。
两个基本假设
聚类假设:是指处在相同聚类中的样本示例有较大的 可能拥有相同的标记。根据该假设,决策边界就应该尽 量通过数据较为稀疏的地方,从而避免把稠密的聚类中 的数据点分到决策边界两侧。 在这一假设下,大量未标记样本的作用就是帮助探 明样本空间中数据分布的稠密和稀疏区域,从而指导学 习算法对利用有标记样本学习到的决策边界进行调整, 使其尽量通过数据分布的稀疏区域。 流形假设:是指处于一个很小的局部区域内的示例具 有相似的性质,因此,其标记也应该相似。这一假设反 映了决策函数的局部平滑性。和聚类假设着眼整体特性 不同,流形假设主要考虑模型的局部特性。 在该假设下,大量未标记示例的作用就是让数据空 间变得更加稠密,从而有助于更加准确地刻画局部区域 的特性,使得决策函数能够更好地进行数据拟合。
一般认为,半监督学习的研究始于B. Shahshahani和D. Landgrebe的 工作,最早是在这篇文章当中提到的。
B. Shahshahani, D. Landgrebe. The effect of unlabeled samples in reducing the small sample size problem and mitigating the hughes phenomenon. IEEE Transactions on Geoscience and Remote Sensing, 1994, 32(5): 1087-1095.
半监督学习的主要方法
从不同的学习场景看,SSL 可分为四大类: 1) 半 监 督 分 类 (Semi-Supervised Classification):在无类标签的样例 的帮助下训练有类标签的样本,获得比只用有类标签的样本训练得到的 分类器性能更优的分类器,弥补有类标签的样本不足的缺点 2) 半 监 督 回 归 (Semi-Supervised Regression):在无输出的输入的帮 助下训练有输出的输入,获得比只用有输出的输入训练得到的回归器性 能更好的回归器 3) 半 监 督 聚 类 (Semi-Supervised Clustering):在有类标签的样本的信 息帮助下获得比只用无类标签的样例得到的结果更好的簇,提高聚类方 法的精度; 4)半监督降维(Semi-Supervised Dimensionality Reduction) :在有类标签的样本的信息帮助下找到高维输入数据的低维结构,同时 保持原始高维据和成对约束(Pair-Wise Constraints)的结构不变,即在高 维空间中满足正约束(Must-Link Constraints)的样例在低维空间中相距很 近,在高维空间中满足负约束(Cannot-Link Constraints)的样例在低维空 间中距离很远。