模式识别实验 (2)

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于概率统计的贝叶斯分类器设计

摘要：人们为了掌握客观事物，按事物相似的程度组成类别，模式识别就是将某一具体事物正确地归入某一类别。贝叶斯决策理论是统计模式识别中的一个基本方法。依据贝叶斯决策理论设计的分类器具有最优的性能,即所实现的分类错误率或风险在所有可能的分类器中是最小的,因此经常被用来衡量其他分类器设计方法的优劣。

关键词：MATLAB应用贝叶斯分类器后验概率贝叶斯公式最小错误概率

随着计算机与信息技术的发展，人类获取的知识和能够及时处理的数据之间的差距在加大，从而导致了一个尴尬的境地，即“丰富的数据”和“贫乏的知识”并存。在数据挖掘技术中，分类技术能对大量的数据进行分析、学习，并建立相应问题领域中的分类模型。分类技术解决问题的关键是构造分类器。分类器是一个能自动将未知文档标定为某类的函数。通过训练集训练以后，能将待分类的文档分到预先定义的目录中。常用的分类器的构造方法有决策树、朴素贝叶斯、支持向量机、k近邻、神经网络等多种分类法，在各种分类法中基于概率的贝叶斯分类法比较简单，在分类技术中得到了广泛的应用。

一原理概述：

贝叶斯分类器是基于贝叶斯网络所构建的分类器，贝叶斯网络是描述数据变量之间关系的图形模型，是一个带有概率注释的有向无环图。

贝叶斯分类器的分类原理是通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。

(1) 贝叶斯分类并不把一个对象绝对地指派给某一类,而是通过计算得出属于某一类的概率,具有最大概率的类便是该对象所属的类；

(2) 一般情况下在贝叶斯分类中所有的属性都潜在地起作用,即并不是一个或几个属性决定分类,而是所有的属性都参与分类；

(3) 贝叶斯分类对象的属性可以是离散的、连续的,也可以是混合的。

二计算方法：

1、贝叶斯分类的先决条件：

(1) 决策分类的类别数是一定的，设有c 个模式类ωi （i=1，2，…，c ）

(2) 各类别总体的概率分布已知，待识别模式的特征向量x 的状态后验概率P(ωi|x)是已知的；或各类出现的先验概率P(ωi)和类条件概率密度函数p(x|ωi)已知 2、两类分类的最小错误率Bayes 分类决策规则的后验概率形式：

设N 个样本分为两类ω1，ω2。每个样本抽出n 个特征， x =（x1， x2， x3，…， xn ）T

其中，P (ωi |x)为状态后验概率。由Bayes 公式：

两类分类的贝叶斯决策函数：

三实例说明:

一数据集有两类，每个样本有两个特征，类别1含有150个样本，类别2含有250个样本，分别取类别1的前100个和类别2的前200个样本作为训练样本，剩下的作为测试样本。要求：

()()()

()

p B A P A P A B p B =

⎩⎨

⎧∈<∈>2

21121),()(),()(ωωωωωωx x P x P x x P x P 则若则若∑

==2

)

()()

()()(j j j i i i P x p P x p x P ωωωωω )

(,)

()(ln

)

()(ln

)()4()

(,)()()

()()()3()(),()()()()()2()

(),()()()1(12211221221121取对数方法似然比形式类条件概率密度后验概率ωωωωωωωωωωωωωωP P x p x p x g P P x p x p x g P x p P x p x g x P x P x g -=-=

-=-=

(1) 根据基于最小错误率的贝叶斯决策理论设计分类器；

(2) 叙述实验具体步骤，给出所设计的分类器对训练样本和测试样本的错误率； (3)绘制分类结果（包含决策边界）的图像 1、实验原理

多元正太分布的概率密度函数由下式定义

1()exp ()()2(2)

T d

p X X X μμπ-⎧⎫=

--∑-⎨⎬⎩⎭

∑

由最小错误概率判决规则，可得采用如下的函数作为判别函数

()(|)(),

1,2,,i i i g x p X P i N ωω==

这里，()i P ω为类别i ω发生的先验概率，(|)

i p X ω为类别i ω的类条件概率密度函数，而

N 为类别数。

设类别i

ω，i=1,2,……,N 的类条件概率密度函数

(|)

i p X ω，i=1,2,……,N 服从正态分

布，即有

(|)

i p X ω~

(,)

i i N μ∑，那么上式就可以写为

122

()

1()exp ()(),

1,2,,2(2)T i i d

P g X X X i N ωμμπ-⎧⎫=

--∑-=⎨⎬⎩⎭

∑

由于对数函数为单调变化的函数，用上式右端取对数后得到的新的判别函数替代原来的判别函数

()

i g X 不会改变相应分类器的性能。因此，可取

11()()()ln ()ln ln(2)2

i i i i i i d g X X X P μμωπ-=-

-∑-+-

∑-

显然，上式中的第二项与样本所属类别无关，将其从判别函数中消去，不会改变分类结果。这样，判别函数

()

i g X 可简化为以下形式

11()()()ln ()ln 2

i i i i i i g X X X P μμω-=-

-∑-+-

∑

2、实验步骤

(1) 求出两类样本的均值