第二章贝叶斯决策理论与统计判别方法汇总

第二章贝叶斯决策理论与统计判别方法

课前思考

1、机器自动识别分类，能不能避免错分类，如汉字识别能不能做到百分之百正确？怎样才能减少错误？

2、错分类往往难以避免，因此就要考虑减小因错分类造成的危害损失，譬如对病理切片进行分析，有可能将正确切片误判为癌症切片，反过来也可能将癌症病人误判为正常人，这两种错误造成的损失一样吗？看来后一种错误更可怕，那么有没有可能对后一种错误严格控制？

3、概率论中讲的先验概率，后验概率与概率密度函数等概念还记得吗？什么是贝叶斯公式？

4、什么叫正态分布？什么叫期望值？什么叫方差？为什么说正态分布是最重要的分布之一？

学习目标

这一章是模式识别的重要理论基础，它用概率论的概念分析造成错分类和识别错误的根源，并说明与哪些量有关系。在这个基础上指出了什么条件下能使错误率最小。有时不同的错误分类造成的损失会不相同，因此如果错分类不可避免，那么有没有可能对危害大的错分类实行控制。对于这两方面的概念要求理解透彻。

这一章会将分类与计算某种函数联系起来，并在此基础上定义了一些术语，如判别函数、决策面(分界面)，决策域等，要正确掌握其含义。

这一章会涉及设计一个分类器的最基本方法——设计准则函数，并使所设计的分类器达到准则函数的极值，即最优解，要理解这一最基本的做法。这一章会开始涉及一些具体的计算，公式推导、证明等，应通过学习提高这方面的理解能力，并通过习题、思考题提高自己这方面的能力。

本章要点

1、机器自动识别出现错分类的条件，错分类的可能性如何计算，如何实现使错分类出现可能性最小——基于最小错误率的Bayes决策理论

2、如何减小危害大的错分类情况——基于最小错误风险的Bayes决策理论

3、模式识别的基本计算框架——制定准则函数，实现准则函数极值化的分类器设计方法

4、正态分布条件下的分类器设计

5、判别函数、决策面、决策方程等术语的概念

6、Bayes决策理论的理论意义与在实践中所遇到的困难

知识点

§2.1 引言

在前一章中已提到，模式识别是一种分类问题，即根据识别对象所呈现的观察值，将其分到某个类别中去。统计决策理论是处理模式分类问题的基本理论之一，对模式分析和分类器的设计起指导作用。贝叶斯决策理论是统计模式识别中的一个基本方法，我们先讨论这一决策理论，然后讨论涉及统计判别方法的一些基本问题。

在描述本章所要讨论的问题之前，再提一下对于待识别的物理对象的描述问题。假设一个待识别的物理对象用其d个属性观察值描述，称之为d个特征，这组成一个d维的特征向量，而这d维待征所有可能的取值范围则组成了一个d

维的特征空间。

为了说明这句话，我们讨论一个具体的例子。假设苹果的直径尺寸限定在7厘米到15厘米之间，它们的重量在3两到8两之间变化。如果直径长度x 用厘米为单位，重量y以两为单位。那么，由x值从7到15，y值从3到8包围的二维空间就是对苹果进行度量的特征空间。

贝叶斯决策理论方法所讨论的问题是：已知总共有c类物体，也就是说待识别物体属于这c类中的一个类别，对这c类不同的物理对象，以及各类在这d维特征空间的统计分布，具体说来是各类别ωi=1,2,…,c的先验概率P(ωi)及类条件概率密度函数p(x|ωi)已知的条件下，如何对某一样本按其特征向量分类的问题。由于属于不同类的待识别对象存在着呈现相同观察值的可能，即所观察到的某一样本的特征向量为X，而在c类中又有不止一类可能呈现这一X值，这种可能性可用P(ωi|X)表示。如何作出合理的判决就是贝叶斯决策理论所要讨论的问题。下一节讨论几种常用的决策规则，接着要分析正态分布时统计决策的问题以及错误概率等问题。由于这种决策理论基于已知概率分布为前提，因此在本章还要讨论概率密度函数的估计问题。

上一章提到机器实现自动分类有两大类方法：一种是模板匹配方法，而另一种就是对特征空间划分为子空间(每类的势力范围)的方法。本章是针对第二种方法的。核心问题是：样本为特征向量X时，它属于哪一类可能性有多大，如能确定属于各个类别的百分比(概率)，分类决策就有了依据。例如某个样本的特征向量为X，X属于第一类样本的可能性为60％，而第二类的可能性为40％。在没有任何样本信息的情况下，则应将样本决策为第一类以使错分类可能性小(40％)，这就是这一章考虑分类问题的出发点。

§2.2 几种常用的决策规则

本节将讨论几种常用的决策规则。不同的决策规则反映了分类器设计者的不同考虑，对决策结果有不同的影响。其中最有代表性的是基于最小错误率的贝叶斯决策与基于最小风险的贝叶斯决策，下面分别加以讨论。

2.2.1 基于最小错误率的贝叶斯决策

一般说来，c类不同的物体应该具有各不相同的属性，在d维特征空间，各自有不同的分布。当某一特征向量值X只为某一类物体所特有，即

，

对其作出决策是容易的，也不会出什么差错。问题在于出现模棱两可的情况。此时，任何决策都存在判错的可能性。这一节讨论的是使错误率为最小的决策方法，称为基于最小错误率的贝叶斯决策理论。最小错误率是在统计的意义上说的，请注意其含义。

在这里要弄清楚条件概率这个概念。P(*|#)是条件概率的通用符号，在“|”后边出现的#为条件，之前的*为某个事件，即在某条件#下出现某个事件*的概率。P(ωk|X)是表示在X出现条件下，样本为ωk类的概率。

一个事物在某条件下出现的概率P(*|#)与该事件在不带任何条件下出现的概率(写成P(*))是不相同的。例如全世界人口有60亿。因此你见到一个人在不带任何条件下，有20%的可能性是中国人P(*)=0.2，但是如果你在中国，或香港、台湾，那么中国、香港、台湾都是指一种条件(#)，这种地理条件下，你所见到的某一个人是中国人(*)的概率就要大得多，此时P(*|#)就应该大于20%,甚

至更多了。

下面先讨论一个例子——癌细胞的识别，以此说明解决问题的过程。假设每个要识别的细胞已作过预处理，并抽取出了d个特征描述量，用一个d维的特征向量X表示，识别的目的是要依据该X向量将细胞划分为正常细胞或者异常细胞。这里我们用ω１表示是正常细胞，而ω２则属于异常细胞。

类别的状态是一个随机变量，而某种状态出现的概率是可以估计的。概率的估计包含两层含义，一是由统计资料表明，正常细胞与异常细胞在统计意义上的比例，这称为先验概率P(ω1)及P(ω２)，另一种则分别表示所检查细胞呈现出不同属性的概率密度函数P(x|ω1)和P(x|ω２)，显然在一般情况下正常细胞占比例大，即P(ω1)>P(ω２)，因此如果我们不对具体的细胞化验值作仔细观察，我们作出该细胞是正常细胞的判决，在统计的意义上来说，也就是平均意义上说，错判可能性比判为异常细胞时小。但是仅按先验概率来决策，就会把所有细胞都划归为正常细胞，并没有达到将正常细胞与异常细胞区分开的目的。这表明由先验概率所提供的信息太少。

为此我们还必须利用对细胞作病理分析所观测到的信息，也就是所抽取到的d维观测向量。为简单起见，假定只用其一个特征进行分类，即d=1，并已知这两类的类条件概率密度函数分布已知，如图2.1所示，其中P(x|ω1)是正常细胞的属性分布，P(x|ω2)是异常细胞的属性分布。那末，当观测向量为X值时，它属于各类的概率又是多少呢?为此我们可以利用贝叶斯公式, 来计算这种条件概率，称之为状态的后验概率P(ωi|X)。

Bayes(贝叶斯)公式是根据联合概率这一概念推出的，同时出现两个事件X 及ωi的概率为P(x,ωi)。它是某个条件出现的概率(如P(ωi)),以及在此条件下某事件出现概率(P(x|ωi))的乘积，在此写为：

P(x,ωi)=P(x|ωi)P(ωi)=P(ωi|x)P(x) 。

先验概率是针对ωi，i＝1,2,…,c,这c个事件出现的可能性而言的，不考虑其它任何条件。例如世界上有60亿人口，而中国人口12亿，因此不管其它条件，应有20％的可能是中国人。

类条件概率密度函数P(x|ωi)是指ωi条件下在一个连续的函数空间出现X的概率密度，在我们这里指第ωi类样本,他的属性X是如何分布的。

(2-1)式表明，在得到一个待识别量的观测状态X后，我们可以通过先验概率P(ωi)及类别条件概率密度函数P(x|ωi)，得到呈现状态X时，该样本分属各类别的概率，显然这个概率值可以作为我们识别对象判属的依据。上例中图2.1表示的类条件概率可用式(2-1)换算成如图2.2所示的后验概率分布。可以看出，在X值小时，细胞被判为正常是比较合理的，判断错误的可能性小。基于最小错误概率的贝叶斯决策理论就是按后验概率的大小作判决的。这个规则又可以写成如下几种等价形式：

(1)如果,则(2-2)

(2)如用先验概率及类条件概率密度函数表示，则有：

如果, 则(2-3)

(3)以比值的方式表示，

如果，则，否则(2-4)

(4) (2-4)式还可改写成为对数形式，若

则，否则(2-5)

其中(2-4)式中的l(x)在统计学中称为似然比，而称为似然比阈值。而式(2-5)中h(x)是似然比写成相应的负对数形式。它的好处是，与利用(2-4)式本身相比较，进行计算更为方便。

下面举一数值例子。

例2.1。假设在某地区切片细胞中正常(ω1)和异常(ω２)两类的先验概率分别为P(ω1)=0.9，P(ω2)=0.1。现有一待识别细胞呈现出状态x，由其类条件概率密度分布曲线查得p(x|ω1)=0.2，p(x|ω２)=0.4，试对细胞x进行分类。

解：利用贝叶斯公式，分别计算出状态为x时ω1与ω２的后验概率

而

根据贝叶斯决策(2-2)则有

P(ω1|x)＝0.818＞P(ω２|x)＝0.0182

因此判定该细胞为正常细胞比较合理。请用公式(2-3)与(2-5)计算，检查一下结果是否一样？

从这个例子可以看出，尽管类别ω２呈现出状态x的条件概率要高于ω1类呈现此状态的概率，但是考虑到P(ω1)远大于P(ω２)，因此状态x属于类别ω1的可能性远比属于类别ω２的可能性大。将该细胞判为正常在统计的意义上讲出错率要小得多。

为了帮助搞清楚一些基本概念，我们还要强调一下条件概率这个概念。我们举出两对概率，一对是P(ω1|x)和P(ω２|x)，另一对是P(x|ω1)和P(x|ω1)。从表面上看，只是条件符号两边的项对换了位置，但实质上却有很大区别。前一

对是在同一条件x下，比较ω1与ω2出现的概率，如果我们只考虑两类ω1和ω2，则有P(ω1|x)+P(ω2|x)=1。而对两者进行数值上的比较，如P(ω1|x)> P(ω2|x)则可以下结论，在x条件下，事件ω1出现的可能性大。

对后一对概率来说，与第一对完全不同，因为它们是在不同条件下讨论的问题。因此比较两者没有意义，而且即使只有两类ω1与ω2，P(x|ω1)+P(x|ω2)≠1。这里要特别强调一点是P(x|ω1)与P(x|ω2)两者没有联系，都是指各自条件下出现x的可能性，不能仅因为前者比后者大，就认为x是第一类事物的可能性较大，只有考虑先验概率这一因素，才能决定x条件下，ω1类还是ω2类的可能性比较大。

另外大家可能觉得比较奇怪，为什么后验概率要利用Bayes公式从先验概率和类条件概率密度函数计算获得。这是因为计算概率都要拥有大量数据才行。在估计先验概率与类条件概率密度函数时都可搜集到大量样本，而对某一特定事件(如x)要搜集大量样本是不太容易的。因此只能借助Bayes公式来计算得到。

对基于最小错误率的贝叶斯决策来说，以后验概率值的大小作判据是最基本的方法，而其它形式的作用都基本相同，但使用时更方便些。

以上讨论的是在两类情况下基于最小错误概率的贝叶斯决策规则，下面需证明按这种规则进行分类确实使错误率为最小。下面仅以一维情况来证明，其结果并不难推广到多维的情况。

由于统计判别方法是基于统计参数作出决策，因此错误率也只能从平均的意义上讲，表示为在观测值可能取值的整个范围内错误率的均值。在连续条件下，平均错误率，以P(e)表示，应有

(2-6)

其中p(e,x)表示错误率为e观测值为x的联合概率密度，P(e|x)是观测值为x时的条件错误概率密度函数，P(x)为x值出现的概率，而积分运算则表示为在整个d维特征空间上的总和。在此一维情况下，x取从－∞到+∞的整个范围。

(2-7) 如果我们把作出w1决策的所有观测值区域称为R1，则在R1区内的每个x值，条件错误概率为p(w2|x)。另一个区R2中的x,条件错误概率为p(w1|x)。因此平均错误率P(e)可表示成

(2-8) 由于在R1区内任一个x值都有P(w2|x)＜P(w1|x)，同样在R2区内任一个x值都有P(w1|x)＜P(w2|x)错误率在每个x值处都取小者，因而平均错误率P(e)也必然达到最小，这就证明了按(2-2)式作出的决策，其平均错误率为最小。

为了形象地说明以上证明，图2.3表示了在某种概率分布下R1与R2区的分布情况，该图分别画出p(x｜ω1)P(ω1)及p(x｜ω2)P(ω2)的分布情况，由于

P(e)也可以(2-8)式写成

(2-9) 因此错误率为图中两个划线部分之和，显而易见只有这种划分才能使对应的错误率区域面积为最小。

以上讨论的是两类别问题情况，在C类别情况下，很容易写成相应的最小错误率贝叶斯决策规则：

如果,则(2-10)

也可将其写成用先验概率与类条件概率密度相联系的形式，得：

如果

(2-11) 至于计算多类别决策过程中的错误率，需把特征空间分割成R1，R2，…，Rc个区域，在每个区域Ri统计将所有其它类错误划为该区域对应的i类的概率，

则每个区域共有c-1项错误率，总共有c(c-1)计算项，计算是很繁琐的。为此，可以改成计算平均正确分类概率P(c)即

(2-12)

由于上式中只有c项，计算要简单得多。然后通过式子P(e)=1-P(c)，就可计算出平均错误率。

例应用贝叶斯决策的肤色提取

利用贝叶斯原理，可以建立简单的肤色模型，并用来从图像中提取手部、脸部肤色，进而得到人的身体姿势。

我们使用的方法是：

1．先在一副训练图象中手工描绘出肤色区域，

2．然后统计每种颜色点在肤色区域中出现的次数和在区域外出现的次数的比值，作为这种颜色是肤色的概率，

3．这样就得到了一张查找表，表中的每个元素是这个点是肤色的概率。我们就得到了一个点是不是肤色的概率分布。

4．再加上域值限制之后，认为只有概率大于一定域值的才是肤色。

这样，对图中任意一点，查找表中对应的概率，就可以很快的知道它是不是肤色了。

2.2.2基于最小风险的贝叶斯决策

上面我们讨论了使错误率最小的贝叶斯决策规则。然而当接触到实际问题时，可以发现使错误率最小并不一定是一个普遍适用的最佳选择。

譬如，在上面讨论过的细胞分类的例子中，把正常细胞错分为癌细胞，或相反方向的错误，其严重性是截然不同的。把正常细胞误判为异常细胞固然会给人带来不必要的痛苦，但若将癌细胞误判为正常细胞，则会使病人因失去及早治疗的机会而遭受极大的损失。

由此可见，根据不同性质的错误会引起不同程度的损失这一考虑出发，我们宁肯扩大一些总的错误率，但也要使总的损失减少。这会引进一个与损失有关联的，更为广泛的概念——风险。在作出决策时，要考虑所承担的风险。基于最小风险的贝叶斯决策规则正是为了体现这一点而产生的。

在讨论基于风险的决策方法的具体内容之前，让我们首先回顾一下上一节讨论的基于最小错误概率的决策方法。从式(2-10)可以看出，在分类时所作的判决(称之为决策)单纯取决于观测值X对各类(也称自然状态)的后验概率中之最大值，因而也就无法估计作出错误决策所带来的损失。为此不妨将作出判决的依据从单纯考虑后验概率最大值，改为对该观测值X条件下各状态后验概率求加权和的方式，表示成

(2-13)

其中表示观测样本X实属类别j,而被判为状态i时所造成的损失，R i则表示了观测值X被判为i类时损失的均值。如果我们希望尽可能避免将某状

态ωj,错判为状态ωi,则可将相应的值选择得大些，以表明损失的严重性。加权和R i用来衡量观测样本X被判为状态ωi所需承担的风险。而究竟将X判为何类则应依据所有R i,(i=1,…,c)中的最小值，即最小风险来定。

我们再从另一角度把这个问题说清楚。我们见到一个病理切片X，要确定其中有没有癌细胞(用ω1表示正常，ω2表示异常)，则P(ω1|X)与P(ω2|X)分别表示了两种可能性的大小。如果X确实是癌细胞(ω2)，但被判作正常(ω1)，则会有损失，这种损失用表示，X确实是正常(ω1)，却被判定为异常(ω2)，则损失

表示成，另外为了使式子写的更方便，我们也可以定义与是指正确判断也可有的损失。那么把X判作ω1引进的损失应该与以及都有关，哪一个占主要成分，则取决于P(ω1|X)与P(ω2|X)。因此变成了一个加权和

同样将X判为ω2的风险就成为

此时作出哪一种决策就要看是R1(X)小还是R2(X)小了，这就是基于最小风险的贝叶斯决策的基本出发点。有关该例的数值例子在例2.2。

以上讨论是为了说明这种方法的概念。下面我们给出一些确切的定义。

(1)自然状态与状态空间。其中自然状态是指待识别对象的类别，而状态空间Ω则是由所有自然状态所组成的空间，

Ω={ω1，ω2，…，ωc}

(2)决策与决策空间。在决策论中，对分类问题所作的判决，称之为决策，由所有决策组成的空间称为决策空间。决策不仅包括根据观测值将样本划归哪一类别(状态)，还可包括其它决策，如“拒绝”等，因此决策空间内决策总数a

可以不等于类别数c,表示成

(3)损失函数λ(αi|ωj)(或写成λ(αi,ωj))。这就是前面我们引用过的。它明确表示对自然状态ωj，作出决策αi时所造成的损失。

(4)观测值X条件下的期望损失R(αi|X),

,i=1,2,…,a (2-14)

这就是前面引用的符号R i，也称为条件风险。

与式(2-10)类似，最小风险贝叶斯决策规则可写成：

如果,则α=αk (2-15)

但与(2-10)

与上一小节中基于最小错误概率的决策方法中所引用的平均错误率P(e)相类似，在这里引入一个期望风险R，

(2-16)

它表示对所有X取值所作的决策α(X)所带来的平均风险。与上一节证明基于最小错误概率的贝叶斯决策方法相类似，当所采取的每一个决策都使其条件风险最小，则对所有的X所作的决策，其期望风险也必然最小。

对于实际问题，最小风险贝叶斯决策可按下列步骤进行：

(1)在已知P(ωi)，P(X|ωi)，i=1,…，c及给出待识别的X的情况下，根据贝叶斯公式计算出后验概率：

j=1,…，x

(2)利用计算出的后验概率及决策表，按式(2-14)计算出采取αi,i=1,…，a

的条件风险

,i=1,2,…,a

(3)对(2)中得到的a个条件风险值R(αi|X),i=1,…，a进行比较，找出使条件风险最小的决策αk，即

则αk就是最小风险贝叶斯决策。

例2.2

在例2.1条件的基础上，并且已知λ11=0,(λ11表示λ(α1|ω1)的简写)，λ12=6,λ

=1，λ22=0，按最小风险贝叶斯决策进行分类。

解：已知条件为

P(ω1)＝0.9, P(ω12)＝0.1

p(X|ω1)＝0.2, p(X|ω12)＝0.r

λ11＝0, λ12＝6, λ21＝1, λ22＝0

根据2.1的计算结果可知后验概率为

P(ω1|X)＝0.818, P(ω12|X)＝0.182

再按式(2-14)计算出条件风险

由于R(α1|X)＞R(α2|X)

即决策为ω12的条件风险小于决策为ω1的条件风险，因此应采取决策行动α

，即判待识别的细胞X为ω12类——异常细胞。

将本例与例2.1相对比，其分类结果正好相反，这是因为影响决策结果的因素又多了一个“损失”。由于两类错误决策所造成的损失相差很悬殊，因此“损失”在这里起了主导作用。

从以上讨论可以看出，正确制订损失函数值，是基于最小风险的贝叶斯决策方法在实际中使用的一个关键问题。而实际中列出合适的决策表并不是一件容易的事，需根据所研究的具体问题，分析错误决策造成损失的严重程度，与有关专家共同商讨来确定。

最后我们再讨论一下上面两种决策方法之间的关系，设损失函数为

，(2-17)

式中假定对C类只有C个决策，即不考虑“拒绝”等其它情况，(2-17)表明，当作出正确决策(即i=j)时没有损失，而对于任何错误决策，其损失均为1。这样定义的损失函数称为0—1损失函数。

根据(2-14)式条件风险为

(2-18)

而也恰恰是将X判为ω1i时的错误概率。因此基于最小风险的贝叶斯决策结果，在0—1损失函数情况下，也就是基于最小错误概率的贝叶斯决策结果。由此可见，最小错误率贝叶斯决策就是在0—1损失函数条件下的最小风险贝叶斯决策。换句话说，前者是后者的特例。

实际上，因此，当最大时最小。它与基于最小错误率的贝叶斯决策的判据是一样的。

如果我们只考虑两类别问题，并只有一维特征向量的情况，我们可以画出一张与图2.3类似的图2.4，用来表示最小风险贝叶斯决策方法的分类结果。与图2.3不同的是，R1与R2两个区域的分界线不再是t,而是向左移了一段距离，这是由于损失函数λ12比λ21大所造成(可以假设λ11＝λ22＝0)，在发生位移这一区域内，尽管P(x|ω1)P(ω1)>P(x|ω12)P(ω12)，但是为了减少将ω12错判为ω1所带来的严重损失，在P(x|ω12)P(ω12)尚不很小的情况下，使将ω12类样本错判为ω1的可能性减小，以减小决策所承担的风险。当然平均错误率则明显增大了。

(2-13)式定义了样本为X作出i决策时的期望风险，可以从两个方面理解。一种是由于样本存在分属各类的可能性，而对实属一类却决策成i类会造成程度

不同的损失，因而期望损失应是风险系数与相乘之总和。另一种看法可以将损失看成是对后验概率的重要性作加权，是对的加权系数。因此只要稍大一点，就会使风险明显增大。

公式(2-17)与(2-18)说明了基于最小错误率与基于最小风险两种Bayes 决策的关系，结论是基于最小错误率的决策是基于最小风险决策的一个特例。这是因为后者多了一些系数允许调整，而按(2-17)式调整就将基于最小风险决策改成基于最小错误率决策，这种设置可调整参数集的情况比限定参数集的情况有更大自由度，因此后者必定为前者的一个特定情况。

2.2.4判别函数、决策面与分类器设计

以上我们讨论了几种常用的决策原则，在这些原则的指导下，可以进行分类器的设计。在讨论分类器设计前，需要说明在分类器设计中使用的一些概念，这就是决策面与判别函数。

第二章 贝叶斯决策理论与统计判别方法汇总

第二章贝叶斯决策理论与统计判别方法汇总