基于MLP后验概率的拒识

合集下载

Turbo-MIMO系统中一种基于部分后验概率的软检测算法

Turbo-MIMO系统中一种基于部分后验概率的软检测算法
Y uMigh u o n -o ∞ T oXi — n  ̄ a a f g oe Ci — i u me∞ Qi Z a gP n e h n ig e
( r es eh o g n vt nIs t eB in nvr t o ota dT lo mu i t n, e i 086 C ia Wi l cn l yI oai tu , eigU i sy f s n e cm nc i sB in 107 , h ) es T o n o n it j e i P s e ao jg n ( e aoa r o nvra Wi l s o u i t n,B in nvri ot adTl o m nct n) K y brt y f i sl r e mm nc i s ( eigU i syo P s n e cm u i i s, L o U e es C ao j e t f s e ao
第3 2卷 第 7期
21 0 0年 7月







Vl . 2 . 0 3 No 7 1
Ju1 .201 0
J u n 1 fEl c r n c o r a e t o i s& I f r a i n Te h o o y o n o m to c n l g
T r oMI ub . MO 系统 中一种 基于部分后验概率 的软检 测算法
比(L ) L R 无法确定的情况,虽可采用赋常数值方法( 称为 cp ig解决,但这会影响系统性能。为此,该文提出一 l pn ) i
种新的基于 M一 算法 的软检测方案 。该方案在树 的每一级递推计算 部分符号序列的后验概率 ,并基于此近 似计算从 第 1级 到该级 的所 有比特 L R,再采用 M一 L 算法保 留部 分符 号序 列延伸至下一级 。该算法可确保每 比特 都可计算 L R,且能得到可靠性高 的 L R值 。考虑 到某些 比特 L R会 多次计算 ,文中给 出了算法 的低 复杂度 实现 。另外 , L L L 该文还给 出了一种计算符号序列后验概率 的简单方法 。最 后,仿真结果表 明所提算法相 比 I S 具有 更好 的性能, T 并使性能与复杂度达到较好的折 中。 关键词:MI MO;软检测 ;M一 算法 ;后验概率 ;比特对 数似然比

基于概率推理的入侵意图识别研究

基于概率推理的入侵意图识别研究
第3 7卷 第 1 期 21 0 0年 1 月





Vo . 7 No 1 I3 .
Co p t r c e c m u e S in e
J n2 1 a 0 0
基 于 概 率 推 理 的 入 侵 意 图 识 别 研 究
彭 武 姚淑 萍
( 京理 工大 学机 电学院 北京 10 8 ) ( 京理 工 大学软 件 学院 北 京 1 0 8 ) 北 0 0 1 北 0 0 1。
入侵意 图识别是对 大量底层 报警信息 进行分析 , 来解 释
和 判 断 人侵 者所 要 达 到 的 目的 、 想 和 打算 , 本 质 上 是 实 现 设 其 对 大 量 攻 击 数 据 给 出 合 理 解 释 的过 程 。对 入 侵 者 的 意 图识 别 能 够 判 断 入 侵 者 的 真 实 意 图 和预 测 入 侵 者 的 后 续 行 为 , 威 是 胁 分 析 和 决 策 响 应 的前 提 和 基 础 , 网 络 安 全 态 势 感 知 的 重 是 要 组成部分 , 已经 成 为 网络 安 全 领 域 的研 究 热 点 。 目前 , 内外 学 者 从 不 同 的 角 度 开 展 了入 侵 意 图 识 别 的 国
t u i n i tn i n r c g ii n wa r p s d I r e o h n l h n e t i s a e i h ic ms a c fc mp tr r so n e t e o n t s p o o e . n o d r t a d e t e u c r an me s g n t e c r u t n e o o u e o o
t r ln n o l ft ea t c e s c n b r d c e n o d r t a e a t n d a c . a e in n t r swe e c n u e p a s a d g a so h ta k r a e p e it d i r e o tk c i si a v n e B y sa ewo k r o — o n

贝叶斯拒绝算法

贝叶斯拒绝算法

贝叶斯拒绝算法全文共四篇示例,供读者参考第一篇示例:贝叶斯拒绝算法是一种基于贝叶斯统计学原理的一种常用算法,它被广泛应用于机器学习和模式识别领域。

贝叶斯拒绝算法的核心思想是根据数据的先验分布,不断更新参数的估计值,并利用这些估计值来做出决策。

贝叶斯拒绝算法在处理复杂的模式识别问题时,能够有效地提高算法的准确性和鲁棒性。

贝叶斯拒绝算法是一种优秀的模式识别算法,其在处理各种不同的数据集时都能取得很好的效果。

贝叶斯拒绝算法的核心思想是基于贝叶斯定理,不断地更新参数的估计值。

在模式识别领域,我们经常会遇到训练样本中存在错误或者异常值的情况,这时如果我们坚持使用传统的算法对数据进行建模,可能会导致结果不准确的情况发生。

而贝叶斯拒绝算法能够充分考虑到数据的先验知识,更加灵活地对数据进行建模,从而提高算法的鲁棒性。

另一个重要的应用领域是文本分类。

在文本分类领域,贝叶斯拒绝算法能够有效地处理文本数据中的干扰信息和噪声,提高分类的准确性。

通过不断地更新参数估计值,贝叶斯拒绝算法能够更好地识别文本数据中的关键信息,从而提高文本分类系统的性能。

第二篇示例:贝叶斯拒绝算法是一种基于贝叶斯理论的机器学习方法,用于解决分类问题。

传统的分类算法通常是基于规则或统计模型构建的,而贝叶斯拒绝算法则是基于概率模型构建的。

这种方法不仅能够提高分类的准确性,还能够提供对不确定性的估计,使得分类结果更加可靠。

贝叶斯拒绝算法的原理是基于贝叶斯理论,其中包含了先验概率和后验概率的概念。

先验概率是关于未知量的概率分布,后验概率是根据观测到的数据更新后的概率分布。

通过贝叶斯公式,可以计算出在给定观测数据情况下的后验概率,从而进行分类。

在贝叶斯拒绝算法中,首先需要构建一个贝叶斯分类器,包括先验概率和条件概率的估计。

先验概率通常是根据经验或领域知识来确定的,而条件概率则是根据训练数据来估计的。

利用这些概率模型,可以计算出给定输入数据的后验概率,从而得到分类结果。

matlab 最大后验概率法super resolution

matlab 最大后验概率法super resolution

matlab 最大后验概率法super resolution
MATLAB是一种数学软件,许多人用它来建模和模拟系统。

其中一个使用MATLAB的应用是超分辨率图像恢复,它可以在低分辨率情况下重建高分辨率图像。

超分辨率图像恢复是一项重要的技术,可以将低分辨率图像提高到高分辨率图像水平,具有广泛的应用前景。

超分辨率图像恢复可以基于不同的算法实现,其中最大后验概率法是其中一种常用的算法。

该算法基于先验和后验概率密度函数(PDF)来恢复高分辨率图像。

最大后验概率法能够处理各种类型的图像,包括自然图像、医学图像和卫星图像等。

最大后验概率法是一种迭代算法,使用贝叶斯公式计算后验概率密度函数。

该算法首先利用小的高分辨率图像块和大的低分辨率图像块之间的相关性计算先验概率密度函数,然后估计未知高分辨率图像下的低分辨率图像块,并使用具有先前概率信息的贝叶斯公式计算后验概率密度函数。

最大后验概率法还包括了一些约束条件,这些条件用于限制预测结果的平滑性。

这些约束条件可以是总变差正则化(TV正则化)或较少平滑的偏差正则化。

总变差正则化用于处理图像边缘和细节,偏向少平滑的偏差正则化用于图像恢复时保持自然结构。

总的来说,最大后验概率法是一种有效的图像恢复算法,它可以被用于不同类型的图像。

而MATLAB提供了丰富的数学工具箱和操作符,在这些工具中包括最大后验概率法所需的数学知识和工具。

使用MATLAB实现最大后验概率法图像恢复可以得到很好的结果,为科学研究、医学图像处理和工程应用提供了巨大的帮助。

全双工连续对话中的多模态拒识技术研究与应用

全双工连续对话中的多模态拒识技术研究与应用

全双工连续对话中的多模态拒识技术研究与应用一、概述在当今社会,随着人工智能技术的不断发展,对话系统已经在各个领域得到广泛应用,其在实际应用中所面临的问题也日益凸显。

在全双工连续对话中,多模态拒识技术成为了研究的热点之一。

本文将从深度和广度两个方面对全双工连续对话中的多模态拒识技术进行全面评估,并探讨其在实际应用中的价值和作用。

二、概念解析1. 全双工连续对话全双工连续对话是指在对话系统中,用户与系统可以同时进行语音或文本交流的模式。

在这种模式下,系统不但需要理解用户输入的信息,还需要主动进行回应,形成一个连续的对话流程。

2. 多模态拒识技术多模态拒识技术是指利用多种模态信息(包括声音、图像、文字等)对对话内容进行识别和分析的技术。

通过综合利用多种信息,提高了对话系统的理解能力和准确性。

三、技术研究1. 多模态信息融合在全双工连续对话中,用户可能通过语音、文字、图像等多种方式进行交流。

而多模态信息融合技术可以帮助系统将这些信息进行有效整合,从而更好地理解用户的意图和情感。

2. 长对话连贯性分析在全双工连续对话中,系统需要能够识别用户话语之间的逻辑关系,以保证对话的连贯性和准确性。

多模态拒识技术可以通过分析不同模态信息之间的关联,来实现长对话连贯性的分析。

3. 非语言信息识别除了语言信息外,用户在对话中还会传递出许多非语言信息,比如音调、表情、姿势等。

多模态拒识技术可以帮助系统有效地识别和理解这些非语言信息,从而更好地进行交互和响应。

四、技术应用1. 智能掌柜系统在现代商业活动中,智能掌柜系统已经成为了企业不可或缺的一部分。

多模态拒识技术的应用可以帮助智能掌柜系统更好地理解用户问题,并进行准确的回应,提升用户体验。

2. 情感分析通过多模态拒识技术,系统可以更好地识别并分析用户的情感倾向,从而根据用户的情感状态进行针对性的回应,提高人机交互的质量。

3. 智能辅助系统在一些特定场景下,比如医疗诊断、情感疏导等,多模态拒识技术的应用可以帮助系统更好地理解用户需求,提供更加个性化、精准的服务。

带拒绝域的ECOC多类分类

带拒绝域的ECOC多类分类

带拒绝域的ECOC多类分类雷蕾;王晓丹;罗玺;王玮【摘要】Aiming at reducing misclassification costs,this paper studies the design of reject options for ECOC multi-classification based on its properties.The first level of reject option is constructed in the process of bipartitions to recognize an instance whose real labels does not belong to the meta-subclasses.Meanwhile,the second reject rule is presented in the dichotomizers based on posterior probabilities and cost matrix to make the minimum-risk Bayesian decision.Finally,different decoding strategies are analysed according to different reject output.The relationship between the number of rejected positions and the minimum Hamming distance of matrix is discussed.The two-stage reject rule makes the ECOC multi-classification with rejection come true and reduce the misclassification error and costs.%针对纠错输出编码分解框架的自身特点、从降低误判风险出发,研究了带拒绝域的ECOC多类分类方法.首先在二类划分过程中引入拒绝域,对不属于正负子类的待识别样本进行拒识;其次,在基分类器内部引入拒绝域,以最小化风险贝叶斯决策为目标,利用后验概率输出和代价矩阵寻找拒绝域阈值,对样本输出值落入拒绝域中的样本进行拒识;最后,研究了不同拒绝域输出的解码方法,并讨论了拒识码字个数和矩阵最小Hamming距离之间的关系.实验结果表明基于二类划分构造的拒绝域能够提高分类正确率,而基于基分类器构造的拒绝域能够减小分类代价.【期刊名称】《电子学报》【年(卷),期】2017(045)011【总页数】8页(P2779-2786)【关键词】多类分类;纠错输出编码;拒绝域;支持向量数据描述;贝叶斯决策【作者】雷蕾;王晓丹;罗玺;王玮【作者单位】空军工程大学防空反导学院,陕西西安710051;空军工程大学防空反导学院,陕西西安710051;空军工程大学信息与导航学院陕西西安710077;空军大连通信士官学校基础部,辽宁大连116600【正文语种】中文【中图分类】TP391多类分类是机器学习领域的关键问题之一.常用的方法是将多类分类问题分解为若干二类分类问题,直接利用二类分类方法的研究成果,通过结果融合实现多类分类.作为一种广泛应用的分解框架,纠错输出编码[1,2]基于n×L的编码矩阵将n个类别分解为L个不同的二类划分,每个类别对应着长度为L的码字,初始数据根据编码矩阵对应的列重新划分构成正负子类,训练得到与该列对应的基分类器.在测试阶段,对待识别样本x,同时利用每个基分类器对其进行分类,通过某种解码规则对输出结果进行解码得到最终的分类结果.目前,纠错输出编码的研究主要集中在如何构造有效的编码矩阵和解码策略,同时众多学者也研究发现纠错输出编码在优化偏差[3]、方差[4]和有效的概率估计[5]等方面效果很显著.类似于其他分类机制,在实际应用领域,基于ECOC的多类分类也面临着分类错误的挑战,而这种分类错误有的时候会带来巨大的风险和损失,如医疗诊断、故障检测、弹道目标识别等,把一类样本误判为另一类的损失往往比相反的情况要高得多.因此,对一不明确或误分代价很高的样本,拒绝对其进行识别(拒绝分类结果或做进一步处理)所带来的损失往往要小得多.而目前基于ECOC的分类代价研究较少.突出的有:Zhou首次讨论了将拒识机制引入ECOC分类系统的可能性,并提高了测试结果的可信度[6].P.Simeone等针对ECOC的拒识问题,提出了两种拒识规则:一个是在解码阶段,通过系统输出的可靠性与阈值进行对比完成拒识功能;第二种方法是基于ROC曲线在基分类器内部直接构造拒绝域,并在解码阶段对拒识的码位进行了修正处理从而得到最终的预测输出.不同于在基分类器内部直接构造拒绝域,基于ECOC的分类机制更需要在基分类器和二类划分两个层次完成拒识功能[7].在实际应用的多类分类中,单纯地追求分类精度的提升已经不能满足问题需求,如何减小分类损失已成为研究的重点.而纠错输出编码固有的结构特点决定了ECOC分类并不适用于以减小分类损失代价为目标的分类决策过程.这是因为参与集成的基分类器对样本的输出仅限于正负类的二元输出,而不具备对样本拒绝分类的能力,从而不能实现选择性分类.因此如何实现带拒识功能的ECOC多类分类成为本文研究的重点.本文从如何减小分类代价出发,通过对ECOC拒识方法的研究,在二类划分和基分类器内部分别提出了拒识机制.基于二类划分的拒识机制基于数据分布知识,对不属于二类划分的样本进行拒识,从而减小编码矩阵中码字零对解码的影响;在基分类器内部,重新构造拒绝域,对难分样本和错分代价大的样本进行选择性分类,从而实现分类代价的最小化.在两层拒识完成后,对不同的拒识输出采取不同的解码改进方法,从而完成带拒绝域的ECOC多类分类任务.ECOC框架即用一种二元或三元的编码矩阵实现多类类别分解和基分类器集成[8].“-1”代表一类(黑色),“+1”代表另一类(白色),“0”表示该码字位所对应的类不参与由该列所产生的基分类器的训练(灰色).图1给出了四种常见的ECOC分类系统示意图.3.1 基于二类划分的拒绝域基于二类划分的拒绝域的产生绝大部分是因为原编码矩阵中0元素所对应的类别不参与训练所导致的.当利用基分类器对不属于此二类划分的样本进行分类时,就有可能造成分类错误.因此,我们将拒绝域引入二类划分,对不属于此列子类划分的样本进行拒识,从而使得基分类器更加关注符合自身分布的数据样本.如何对不属于二类划分的样本进行识别是此层拒绝域构造的关键.考虑到基于二类划分的拒绝域主要是识别不属于此二类划分子类的数据样本,因此,只需要判定一个样本是否属于此二类划分即可,属于则接受,不属于则拒绝.则有:其中v(x,tb)为待识别样本x的判决输出,d(S,x)为x与二类划分子集S的距离,tb为阈值.从式(1)可以看出,如果待识别样本与类别子集的距离小于阈值,则认为样本属于该二类划分,通过二类划分生成的基分类器对其进行进一步的识别;如果距离大于阈值,则认为样本不属于该二类划分,此时分类器给出的输出为0.从而将基分类器的二值输出在引入拒绝域后扩展到三值输出,同时尽量使该类输出值与其在编码矩阵中的类别码字相对应.衡量待识别样本与二类划分子集的距离是一个属于与不属于的问题,即目标类与非目标类的关系.支持向量数据描述(Support Vector Domain Description,SVDD)[9]为解决此单类分类问题提供了强大的思路.它通过在高维空间中构造一个超球体,使该球体尽可能地包含所有数据样本.对未知样本而言,当它到超球体中心的距离小于或等于半径r时,则未知样本被判为目标类,否则为非目标类.在基于二类划分的拒绝域构造中,将阈值tb与半径r等同起来,小于或等于该半径,则认为样本属于该二类划分,参与基分类器训练和分类,反之亦然.3.2 基于基分类器的拒绝域基于二类划分的拒绝域着重解决的是待识别样本是否属于子类划分的问题,而基于基分类器的拒绝域就主要处理不确定样本和误分代价较高的样本.基于基分类器的拒绝域通常是假定基分类器的输出为概率输出fh(x),设定一对阈值α、β,其中α<β,则拒识规则为:从式(2)中可以看出拒绝域构造的重点是确定阈值α和β的值[10].由最小风险贝叶斯决策可知采取决策ai情况下的条件期望损失R(ai|x)为而条件风险最小的决策ak,即).对于带拒绝域的基分类器而言,设有决策和代价风险矩阵:其中P、N、reject分别表示将正负类样本划分为正类、负类和拒绝对其分类的决策.损失代价c12>c13>c11,c22>c23>c21.基分类器输出为样本属于正子类的概率P(+1|x),负子类概率为1-P(+1|x).则基分类器对待识别样本做出正类、负类和拒绝的风险为:根据贝叶斯最小风险决策可知:对于P决策而言:R(P|x)<R(N|x)⟺c11P(+1|x)+c21P(-1|x)<c12P(+1|x)+c22P(-1|x)⟺c11P(+1|x)+c21(1-P(+1|x))<c12P(+1|x)+c22(1-P(+1|x))⟺P(+1|x)>R(P|x)<R(reject|x)⟺c11P(+1|x)+c21P(-1|x)<c13P(+1|x)+c23P(-1|x)⟺c11P(+1|x)+c21(1-P(+1|x))<c13P(+1|x)+c23(1-P(+1|x))⟺P(+1|x)>同理,对于N决策:对于reject决策:令可得:其中γ为不带拒绝域时,属于正负子类的阈值.至此,基于基分类器的拒绝域就得到了.从式(11)可以看出,基于后验概率和最小风险贝叶斯准则的拒绝域构造方法原理简单、意义明确、求解方便,同时基分类器的拒绝域阈值只与代价矩阵有关系,这是由分类目的决定的.根据损失代价最小风险决策,拒绝域随着基分类器的代价矩阵变化而改变,有的基分类器拒绝阈值就会相较于别的基分类器更严格或者宽松.3.3 改进的解码方法根据前面的分析,得到了ECOC多类分类的两层拒识机制,因为各层机制的拒绝输出有差异,所以在解码时对传统的解码方法得做适当的扩展,使其能更好的适用于带拒绝域的ECOC多类分类.基于二类划分的拒绝域直接输出码字0,即不参与基分类器训练的样本其在编码矩阵中的真实码字也就是0,所以对于此层拒识的输出直接利用经典的Hamming或其他方法进行解码即可.而基于基分类器的拒绝域输出的是reject的标识,其解码方法[11]如下:Step1 将输出向量中被拒绝的码位全部用“-1”替换,并利用经典的汉明距离解码找出距离最小的类别码向量c-1;Step2 将输出向量中被拒绝的码位全部用“1”替换,并利用经典的汉明距离解码找出距离最小的类别码向量c1;Step3 在前两个步骤所得到的类别码向量c-1和c1中,在所有对应的非拒绝码位(即非“0”所标识的码位)中与输出向量最近的类别码向量(c-1或c1)所对应的类别即为样本所属的最终类别.在上述解码策略中,第一步目的是为了找出在拒绝域对应的位都假设为负类的情况下该输出向量最可能属于的类别c-1,该类别为拒绝域都为负类的最大可能类别.第二步目的是为了找出在拒绝域对应的位都假设为正类的情况下该输出向量最可能属于的类别c1,该类别为拒绝域都为正类的最大可能类别.由于拒绝域所占的长度一般不能超过总长度的一半(可通过代价参数矩阵控制),同时,采取拒绝策略后,码字之间的最小Hamming距离也相应地减小,这势必会影响到编码的纠错能力.Simeone在文章[11]中指出编码时错误码字的个数v和拒识的码字个数μ存在如下的关系:即想要纠正一个错误的码字比拒识一个码字困难得多.dmin为编码矩阵之间的最小Hamming距离.因此拒识的码字个数必须小于矩阵之间的最小Hamming矩阵,这也是要保证一定的拒识率,因为过高的拒识率在实际中对于分类机制而言没有太大的意义.因此在解码之前,要判定拒识位个数与dmin直接的关系:如果μ<dmin则按照该方法进行解码;否则,当μ>dmin,就对该样本进行拒识.这也是属于带拒绝域的ECOC机制,只是该拒识发生在最后的解码阶段.由前面的分析可以得出,本文的带拒绝域的ECOC多类分类的大致框图如图2所示.4.1 实验数据实验中所用的UCI数据集及各类数据描述如表1所示,其处理及说明见文献[12]. 4.2 实验设计本文在拒绝域设计时,考虑到了二类划分中码字零元素的影响,因此实验中均采用三符号纠错输出编码一对一编码(one-versus-one)、稀疏随机编码(sparse random)、子类编码(SECOC)[13]、基于混淆矩阵的编码方法CMECOC[14]和基于SVDD 的HECOC编码方法[12].选择支持向量机和决策树为基分类器,线性加权损失函数解码(LLW)和Hamming距离解码(ELW)为解码方法.实验中所用到的各算法的参数设置如表2所示.在训练基分类器并得到带拒绝域的二分器时,人为给定如式(4)的代价矩阵,为了不影响整个实验的可信度,该代价矩阵都被应用于所有ECOC集成的分类器.该代价矩阵可以设为:其中c12>c13,c21>c23.估计分类错误率时采用的交叉验证法和t检验法如文献[15],计算公式如下:4.3 实验结果及分析(1)基于二类划分的拒绝域分类效果实验首先利用UCI公共数据集来验证在二类划分阶段引入拒绝域后应用到不同编码矩阵中的分类效果.其中HD*、LLW*分别表示引入拒绝域后的Hamming距离解码和线性损失函数解码.从表3可以看出,在二类划分阶段引入拒绝域的方法的分类精度都要优于对应的经典ECOC多类分类方法,从而应证了带拒绝域的ECOC分类在对不属于二类划分的样本数据进行处理时的效果比不包含拒绝域的经典的ECOC方法要好,这也正是引入拒绝域的原因所在.基于二类划分的拒绝域基于样本数据,通过SVDD构造拒绝域,对部分不属于二类划分的样本进行拒绝识别,样本输出码字零,从而代替原始的正负类输出,将2值输出转化为3值输出,从而缩短了输出码字与目标码字的距离,提高分类精度.同时注意到基于二类划分的拒绝域方法在HD解码的基础上的分类效果的提升要高于LLW解码,这是因为HD解码为硬输出解码,基分类器的三值输出直接作用于预测码字和类别码字的最近识别,故拒绝域的作用效果更明显.部分数据集在经典ECOC多类分类下的分类效果基本相同,例如数据集Glass和segmentation.从总体上看,在二类划分阶段引入拒绝域的方法在性能上还是要高于初始化的分类方法,这是因为拒绝域的引入能够使子类基分类器基于样本数据,有针对性的避免对不属于该二类划分的样本进行决策.在这一过程中,基分类器对这些样本的输出由原始的正负类输出扩展到零输出,这与其在编码矩阵中的类别码字正好吻合,在解码时就能避免对非子类样本进行决策带来的误差,从而整体上大幅提高分类精度.(2)拒绝率ρ对分类错误率的影响考虑到纠错输出编码结构的特殊性,编码矩阵的列数决定了基分类器的个数,也就是拒绝域的个数.例如对于ecoli数据集,在基于混淆矩阵的编码输出下,其编码矩阵大小为:8×9.这样就需要对9个二类划分进行拒绝域的构造.表3是在阈值tb=r的情况下产生的.为体现拒绝率与整体分类错误率的关系,我们将调整阈值,使拒绝率ρ∈[0,0.3],步长为0.05.当拒绝率过大,整个分类机制将失去意义.从图3中可以看出,在不同的数据集上,拒识率与分类错误率的关系基于不同的基分类器走势大致相同.随着拒识率的提高,分类错误率有所下降,这是因为对难分样本或者不属于该列二类划分的样本拒识的结果,从而提高了能正确分类样本的比例,拒识率的引入对ECOC多类分类的分类性能有促进作用.表4给出了基于基分类器的拒识方法在不同编码矩阵和Hamming距离解码中的分类代价,其中HD*表示引入拒绝域的Hamming距离解码方法.在绝大部分情况下,在基分类器层引入拒识规则的最小平均风险都要小于与之对应的经典ECOC方法.这反映了基于基分类器的拒识分类在引入代价矩阵和以最小风险作为评价准则的时候,其分类性能要优于经典的方法.这也是带拒绝域的ECOC多类分类的出发点和优势所在.其中基于one-versus-one编码矩阵的ECOC多类分类代价减小的幅度最大,这是因为在一对一编码矩阵中,各基分类器的正负类别各只有一种,引入拒绝域后,预测输出中码字零的比例增大,从而减少了将本是零码字类别进行错分的代价.实验结果表明在基分类器内部引入拒绝域能够降低对困难样本和不属于子类划分样本的错分代价.经典的纠错输出编码拥有的固有结构并不适用于以减小分类损失代价为目标的分类决策过程,本文通过在二类划分和基分类器内部两层引入拒绝域,分别实现对不属于子类划分的样本和难分、易错分样本拒识,并对相应的解码策略进行了调整,实现了带拒绝域的ECOC多类分类.在具体实现过程中初始化编码矩阵可以为任意的编码矩阵,从而提高带拒绝域ECOC方法的普适性.在基分类器内部寻找最佳拒绝域时,提出了一种基于后验概率和最小风险贝叶斯准则的拒绝域构造方法,同时也从侧面证明拒绝域的形成与代价矩阵关系密切.最后利用实验数据分别对其进行验证发现基于二类划分的拒绝域构造能够实现分类精度的提升,而基于基分类器构造的拒绝域能够使ECOC分类获得最小风险.如何构造代价敏感的ECOC多类分类是文章下一步研究重点.雷蕾女,1988年生于四川南充,博士生.研究方向为智能信息处理和目标识别.E-mail:**********************王晓丹女,1966年生于陕西汉中,教授,博士.研究方向为模式识别,机器学习等.E-mail:*****************罗玺男,1988年生,硕士,讲师.研究方向为智能信息处理.E-mail:*********************王玮男,1985年,讲师.研究方向为计算机应用.【相关文献】[1]T G Dietterich,E Kong.Error correcting output codes corrects bias and variance[A].Proc of the 21th International Conference on Machine Learning[C].AAA Press,1995.313-321. [2]T G Dietterich,G Bakiri.Solving multi-class learning problems via error-correcting output codes[J].Journal of Artificial Intelligence Research,1995,34(2):263-286.[3]Mikel Galar,Alberto Fernández,Edurne Barrenechea,Francisco Herrera.DRCW-OVO: Distance-based relative competence weighting combination for one-vs-one strategy in multi-class problems[J].Pattern Recognition,2015,48(1):28-42.[4]Francesco Ciompi,Oriol Pujol,Petia Radeva.ECOC-DRF: Discriminative random fields based on error correcting output codes[J].Pattern Recognition,2014,47(6):2193-2204. [5]Zhou Jingdeng,Wang Xiaodan,et al.Research on the Unbiased Probability Estimation of Error-Correcting Output Coding[J].Pattern Recognition,2011,44(7):1552-1565.[6]Jie Zhou,Hanchuan Peng,Ching Y.Suen.Data-driven decomposition for multi-class classification[J].Pattern Recognition,2008,41(1):67-76.[7]Paolo Simeone,Claudio Marrocco,Francesco Tortorella.Two stage reject rule for ECOC classification systems[J].LNCS,2011,6713 (1):217-226.[8]雷蕾,王晓丹,罗玺等.ECOC多类分类研究综述[J].电子学报,2014,42(9):1794-1800.LEI lei,WANG Xiao-dan,LUO Xi,et.al.An overview of multi-classification based on error-correcting output codes[J].Acta Electrinica Sinica,2014,42(9):1794-1800.(in Chinese)[9]David M J Tax.Support vector data description[J].Machine Learning,2004,54(1):45-66.[10]Bing Zhou,Yiyu Uao,Jigang Luo.Cost-sensitive three-way email spamfiltering[J].Journal of Intelligent Information Systems,2014,42(1):19-45.[11]P Simeon,C Marrocco,F Tortorella.Design of reject rules for ECOC classification systems[J].Pattern Recognition,2012,45(2):863-875.[12]Lei LEI,Wang Xiao-dan,et al.Hierarchical error-correcting output codes based on SVDD[J].Pattern Analysis and Applications,2016,19 (1):163-171.[13]S Escalera,David M J Tax,O Pujol,P Radeva,Robert P W Duin.Subclass problem-dependent design for error-correcting output codes[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2008,30(6):1041-1054.[14]周进登,王晓丹.基于混淆矩阵的自适应纠错输出编码多类分类方法[J].系统工程与电子技术,2012,34(7):220-226.Zhou Jindeng,Wang Xiaodan.Multiclass classification of adaptive error-correcting output codes based on confusion matrix[J].Systems Engineering and Electronics,2012,34(7):220-226.(in Chinese)[15]Jindeng Zhou,Xiaodan Wang,et al.Coding design for error-correcting output codes based on perception [J].Optical Engineering,2012,51(5):322-331.。

基于后验概率制导的B-KNN文本分类方法

基于后验概率制导的B-KNN文本分类方法

[ e o d lt t a g r a o ; ot i o a i y B y s n l s i ; e et e h o( N ) e o ; — N e o K y r s x ct oi t n p s r r rbbl ; a e a a ie K N a sN i b r N m t d B K N m t d w e e zi e op i t i c sfr r g K h h
Z H0U n - a , U Y n ・a g Ho gj n Z o gR n u
( c o l f o ue & I fr t n Hee ie s yo e h oo y H fi 3 0 9 Chn ) S h o mp tr no mai , fi v r t f c n lg , e e 2 0 0 , ia oC o Un i T
口 _ 旦_

间层类型结点仅保存其孩子类型结点的 I , D 而底层类型结点
则直接存储该 类型 训练样本 的位置信息。 对于带文本类型层 次的先验信息 的文本数据库或带 有多 重类型标 记的文本数据库 , 应用 H s 表技术 , ah 只需扫描一遍 数据库 , 即可构建多路静态搜索树拓扑结构并收集 后验概率 。
本分布 的不均匀性也会给分类准确率造成一 定的影 响。降低 K N 的计算量主要有 2种方法 :1对原 始训练样 本集进行抽 N ()
测试文本 d ,通过计算它与训练集中每个样本文本的相似性
来寻找其 个最近 的邻居 ;然后在 个最近邻 中,采用投票 或积分 的策略统计 出它与各个文本类型的相似度 ,返回相似 度最大 的类型作为 d的类型标签。
K NN分类 是一种基于要求的或懒惰的学 习方法 , 它存放 所有 的训练样本 ,直到测试样本需要分类时才建立分类 ,这

基于后验概率的支持向量机_吴高巍

基于后验概率的支持向量机_吴高巍
关键词 支持向量机 ; 分类 ; 后验概率 ; 间隔 ; 最大间隔算法 ; 非确定性分类问题 中图法分类号 TP181
一个强有力的机器学习方法 , 受启于统计学习理论.
1 引 言
支持向量机( support vector m achines , SVM ) 是
收稿日期 : 2003-0730 ; 修回日期 : 2004-1015
) 框架下得到期望风险的最
小化. 然而在实际应用中 , 由于例外( out lier) 的存在 以及噪声的污染 , 每个样本对划分的影响应该是不 同的. 特别是对于某些问题 , 样本不能明确 地归为 某一类 , 只能以一定概率或一定隶属度属于某一类. 因而用 y i ∈{ -1 , +1} 表示类别信息可能并不恰当 . 那么如何表示样 本的这种不确定性 , 使 SVM 更适 应于这些问题 , 是我 们首先要考虑的.受贝 叶斯决 策理论的启发 , 我们希望利用后验概率来表示样本 的类别信息 . 贝叶斯决策理论在传统模式识别领域中扮演了 十分重要的角色[ 5] .但是 , 应用贝叶斯决策 理论必 须要求概率分布是已知的.很明显 , 在已知 概率密 度的条件下 , 我们能 够解决任何统计问题.对于一 般的分类问题 , 直接采用贝叶斯决策规则也是不恰 当的. 我们考虑将 SVM 与贝叶斯理论相结合 , 既利 用后验概率表示样本对分类器贡献的差异 , 以及样 本类别信息的不确定性 ; 同时也避免了对密度函数 的估计.本文用后验概率对样本加权 , 使样 本的类 别标签 不再 是 +1 或 -1 , 标 签 y i = p ( ω 1 xi ) ∈ [ 0 , 1]. 从而 , 我们可以将其称为非确定性分类问题. 关于 非 确 定 性 分 类 问 题 , Platt 提 出 了 一 种 SVM 方法[ 6] .文献[ 6] 中仅仅考虑了输出的不确定 性 , 采用一种连续函数( Sigmoid 函数) 作为分类器的 输出函数 , 但样本的 标签仍旧 是 +1 或 -1 .最 近 Lin 和 Wang 提 出 了 一 种 模 糊 支 持 向 量 机 ( FSVM) , 用模糊隶属度函数对样本加权 , 扩展了 软间隔算法以解决非确定性分类问题. 但 FSVM 中 统计学习理论的动机不明确 , 而且文献[ 7] 中没有讨 论线性可分性 、间隔等概念.另一方面 , Sollich 在概 率的框架下解释了 SVM .然而 , 文 献[ 8] 中 没有 讨论如何将后验概率与样本相结合.而我们认为如 何基于先验知识对样本加权是一个重要问题. 本文将贝叶斯理论与 SVM 相 结合 , 提出 后验 概率支持向量机( PPSVM ) , 以解决非确定性问题. 另一方面 , 在后验概率的意义下 , 我们解决分类问题 的想法类似于传统模式识别文献[ 5] 中的思想 , 但我 们的讨论是基于数据的 , 而后者的讨论一般是基于 分布的 . 在很多实际应用中 , 先验知识很少 , 缺乏样本后
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

上述的最陡梯度下降算法是以网络对所有样本的总误差作为误差函数进行梯 度下降的迭代,对所有的样本计算过一次调整量后对网络参数进行更新。这样的做
36
清华大学工学硕士学位论文
钟 林:汉语语音识别说话验证
法,一方面增加系统的存储要求,另一方面实验证明更容易进入局域最小点(Local 。另一种算法是随机梯度下降(Stochastic Gradient Descent),也就是每学 Minimum) 习一个样本就对网络参数进行更新。对每个样本,可以有
; w(t + 1) = w(t ) + ∆w(t ) ;
其中 w(t ) 表示经过 t 步学习迭代后的网络参数 w (包括连接权和神经元阈值) ,t 是迭代步数;α 称为学习因子,是大于 0 的实数。研究表明,在许多情况下,再加 上一个惯性项有利于提高,学习速度,即:
∂E Δw(k)= −α∂w(k) + ηΔw( (k − 1) ;
ij i
35
清华大学工学硕士学位论文
钟 林:汉语语音识别说话验证
元素。采用最陡梯度下降(Steepest Gradient Descent)调整网络参数,时误差函数 的值满足一定的要求(学习停止条件) 。如果采用最陡梯度下降 ,参数是按如下 进行迭代调整的:
∆w(t ) = −α ∂E ∂w(t )
RE t ( 2) ij
( 2 ) (1) ti tj
RE t (1) ij
(1) ( 0 ) ti tj
E SE =
1 M c [d ij − f j ( X i ,W )]2 ∑ ∑ 2 i =1 j =1
当E
ห้องสมุดไป่ตู้
SE
(W (t + 1)) − E SE (W (t )) ≤ ε
,结束训练(ε是一个事先确定的正实数) 。
输出后验概率
MLP
0 1 2 3 6 7 8
9 4 5
图 4-1
4.2.2 基于后验概率的验证
训练后的 MLP 对输入样本 X 给出后验概率 P(ϖ | X ) ;设根据最大似然度准 则 HMM 识别样本为语音ϖ ,于是识别正确的后验概率 P ( H正正 | X ) = P (ϖ | X ) i 根据第二章 2.2 对基于贝页斯决策验证的分析,当 P ( H正正 | X ) = P (ϖ | X ) > τ 时,接受识别结果 H i
采用误差后向传播(Error Back-propagation),对输出层神经元连接权 w (可以将阈 值看作一个输入恒定为 1 的连接权)的调整,要计算:
( 2) ij
M M ∂E ∂I ( 2 ) M ∂E ∂E (1) (1) ti = ∑ = ∑ o = δ ti( 2 ) otj −t =∑ ( 2) ( 2) ( 2) ( 2 ) tj t =1 ∂I t =1 ∂I w ∂wij ∂ 1 ti ij ti
( 2) tk
k
t
(2) ti
M M ∂E ∂I (1) M ∂E ∂E (0 ) ( 0) ti = ∑ = ∑ I = δ ti(1) I tj − ∑ (1) (1) (1) (1) tj 1 1 = = t t ∂wij ∂I ti ∂wij ∂I ti t =1
其中
(1) δ ti =− (1) ( 2) H H ∂E ∂E ∂oti ∂E ∂I tl (1) (1) (1) (1) = − = − o ( 1 − o ) = δ tl( 2 ) wli oti (1 − oti ) ∑ ∑ ti ti (1) (1) (1) ( 2) (1) ∂ ∂ ∂I ti ∂oti ∂I ti I o l =1 l =1 tl ti
由于识别结果为ϖ , p( X | ϖ ) = p( X | H ) 。因此,可以将 max p( X | ϖ ) 视为对 p( X | H ) 的估计:
39
清华大学工学硕士学位论文
钟 林:汉语语音识别说话验证
100
99 AR(%)
M LP24 M LP12 Li near M odel
98
97
96 0 5 10 RR( % )
15 20
图 4-2
特征优化 对于输入采用的 HMM 迹,包括 3 部分,图 4-3 显示出各部分对拒识性能的贡 献。图中的 MLP 具有 24 个隐层神经元,曲线 1 采用所有的迹特征(23 个/状态) ; 。也就是去掉了 LPCC 和能量差分项 曲线 2 采用了迹特征的前两部分(12 个/状态) 。 的均值;曲线 3 仅采用了第一部分即各状态分到的语音占总长的比例(1 个/状态) 可见,去掉 LPCC 和能量差分项对拒识性能并无明显影响,而另一方面又将输入特 征数减小了几乎一半。因此,当对运算和存储要求的限制严格时,可以考虑在验证 。 中去掉差分项,这里把这样的迹称为减迹(Reduced Trace)
EtRE = ∑ {d tj ln f j ( X t ,W ) + (1 − d tj ) ln[1 − f j ( X t , W )]}
j =1 c
∂E E 于是有 ∂ = −δ o , = −δ I 从而对网络参数更新。由于在样本 ∂w ∂w 学习的顺序上可以引进随机性,使网络易于摆脱局域最小点。因此,本论文的 MLP 都采用随机梯度下降-误差反向传播算法。 根据(钟林,1998) ,在终止 MLP 学习时采用平方误差:
其中δ
( 2) ti
=−
(1) tk
(2) ∂E ∂E ∂oti ∂E ( 2) ( 2) = − = − ( 2) oti (1 − oti ) ( 2) (2) (2) ∂I ti ∂oti ∂I ti ∂oti ( 2) tk

其中, o 和 o 分别表输入为第 t 个学习样本时隐层和输出层第 k 个神经元的输 , I 表示输出层第 i 个神经元的输入。 出( o 就是式 4.1 和 4.2 中的 f ( X ,W ) ) 对输入层到隐层的连接权的由误差反向传递,
4.1 MLP 后验概率估计
指包括至少一个隐层的前向无反馈人工神经网络(杨行峻 郑君里, 1992) 。本文采用只有一个隐层的 MLP。 设 MLP(其参数集为W )输入输出映射为: Y = f ( X ,W ) 。每个训练样本T 就是 这样一对输入输出: T = ( X ,Y ) 。 X 为输入模式的一个实现,Y 为单位矢量,它指 示 X 所属的模式类,也是 X 对应的理想网络输出。训练 MLP 就是寻找网络参数 W ,使得网络实际输出与理想输出间某种意义上的误差对一组训练样本来说最 小。可以证明(Richard and Lippman, 1991),当训练样本集统计上充分,而网络具 有足够的自由参数,且训练没有进入局域最小点,训练得到 MLP 的输出将是对输 入 X 类属的后验概率, 即
清华大学工学硕士学位论文
钟 林:汉语语音识别说话验证
第四章 基于 MLP 估计后验概率的拒识
由于流行的前向无反馈网络很难处理语音动态, 神经网络多用于基于 HMM 的 识别系统中,包括语音预处理/端点检测,HMM 状态发射分布估计,识别后处理等。 本章基于多层前向感知机(Multi-layer Perceptrons,MLP)的拒识属于识别后处理的 应用。本章以汉语数码语音识别为基本系统,研究了 MLP 估计后验概率在拒识中 的应用。类似但又不完全相同的研究可以参考( Mathan and Miclet, 1992 ) 。 (Weinrtaub et al, 1997)
4.2 基于后验概率的验证
4.2.1 估计数码语音后验概率
在用于语音识别时,MLP 最大的问题在于它缺少动态时间归整(Dynamic Time Warping)机制,不善于在语音持续的时间变化中抓住不变的特征(钟林,1998) 。 因此,要将 MLP 用于估计语音后验概率,最好先将语音变成静态模式。我们选择 HMM 的迹作为语音的静态模式(见第三章) 。 根据第三章,对于汉语数码语音识别采用的 6 状态简单结构 HMM,Viterbi 对 准后,产生 6 个特征矢量。每个特征矢量包括 1)该状态分到的语音帧数在语音总 长中所占比例;2)该状态分到的语音帧各个 LPCC 和能量的平均;3)该状态分到 的语音帧各个 LPCC 和能量一阶差分的平均。在下面将介绍减少特征的方法。 对某个输入语音 X ,10 个数码 HMM 都会生成对应的迹T 。本论文采用这 10
MLP
0
y c = P( X
来来来c | X), c=1,2,…C。
根据(钟林,1998) ,选取误差函数为相对熵
E RE = − ∑ ∑ {d ij ln f j ( X i ,W ) + (1 − d ij ) ln[1 − f j ( X i ,W )]}
i =1 j =1 M c
其中 M 为训练样本数,C 为语音类个数,d 样本 X 对应的理想输出矢量的第 j 个
j i
38
清华大学工学硕士学位论文
钟 林:汉语语音识别说话验证
当第二类错误(错误接受)的代价相对第一类错误(错误拒绝)的越大,τ 就越大, 接受的条件也就越苛刻。由于τ 不同而工作在不同工作点的验证对应着不同的两类 错误代价比。可以给出公式计算得到后验概率分布之后,由于额外的信息源,HMM 迹 X ,识别结果正确性的不确定性 H ( A) 减小的量: I ( A, X ) = H ( A) − H ( A | X ) ; 其中
H ( A | X ) = ∑ ∫ p( X ) p(a | X ) log p(a | X )d X = ∑ ∫ p( X ) p(ϖ j | X ) log p(ϖ j | X )d X
a j
4.2.3 优化存储和运算量
对于基于 MLP 后验概率估计的验证,存储和运算量主要由 MLP 的自由参数 个数,特别是网络的连接权的个数决定。网络的连接权可以估计为: N = I ⋅ H + H ⋅O ; 其中 I 为 MLP 的输入个数, H 为隐层神经元数,O 为输出数。由于 O 对应语音类 的个数,可以改变的就只有 I 和 H 。 9 隐层大小影响 MLP 隐层神经元个数 H 总是影响 MLP 估计/逼近能力的重要因素。在一定程 度上,增加隐层神经元个数可以提高 MLP 的估计/逼近能力;但是,一方面随着隐 层神经元数的增加,运算和存储的要求也增加,另一方面,过多的网络参数又可能 使 MLP 出现过训练。调整 MLP 的隐层神经元数,使之达到性能和运算/存储代价 的折中是重要的。图 4-2 的拒识采用 HMM 整个迹作为拒识特征,可以看出 MLP24 (有 24 个隐层神经元)的性能略胜过 MLP12(有 12 个隐层神经元) 。
相关文档
最新文档