模式识别实验 (2)

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于概率统计的贝叶斯分类器设计

摘要:人们为了掌握客观事物,按事物相似的程度组成类别,模式识别就是将某一具体事物正确地归入某一类别。贝叶斯决策理论是统计模式识别中的一个基本方法。依据贝叶斯决策理论设计的分类器具有最优的性能,即所实现的分类错误率或风险在所有可能的分类器中是最小的,因此经常被用来衡量其他分类器设计方法的优劣。

关键词:MATLAB应用贝叶斯分类器后验概率贝叶斯公式最小错误概率

随着计算机与信息技术的发展,人类获取的知识和能够及时处理的数据之间的差距在加大,从而导致了一个尴尬的境地,即“丰富的数据”和“贫乏的知识”并存。在数据挖掘技术中,分类技术能对大量的数据进行分析、学习,并建立相应问题领域中的分类模型。分类技术解决问题的关键是构造分类器。分类器是一个能自动将未知文档标定为某类的函数。通过训练集训练以后,能将待分类的文档分到预先定义的目录中。常用的分类器的构造方法有决策树、朴素贝叶斯、支持向量机、k近邻、神经网络等多种分类法,在各种分类法中基于概率的贝叶斯分类法比较简单,在分类技术中得到了广泛的应用。

一原理概述:

贝叶斯分类器是基于贝叶斯网络所构建的分类器,贝叶斯网络是描述数据变量之间关系的图形模型,是一个带有概率注释的有向无环图。

贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。

(1) 贝叶斯分类并不把一个对象绝对地指派给某一类,而是通过计算得出属于某一类的概率,具有最大概率的类便是该对象所属的类;

(2) 一般情况下在贝叶斯分类中所有的属性都潜在地起作用,即并不是一个或几个属性决定分类,而是所有的属性都参与分类;

(3) 贝叶斯分类对象的属性可以是离散的、连续的,也可以是混合的。

二计算方法:

1、贝叶斯分类的先决条件:

(1) 决策分类的类别数是一定的,设有c 个模式类ωi (i=1,2,…,c )

(2) 各类别总体的概率分布已知,待识别模式的特征向量x 的状态后验概率P(ωi|x)是已知的;或各类出现的先验概率P(ωi)和类条件概率密度函数p(x|ωi)已知 2、两类分类的最小错误率Bayes 分类决策规则的后验概率形式:

设N 个样本分为两类ω1,ω2。每个样本抽出n 个特征, x =(x1, x2, x3,…, xn )T

其中,P (ωi |x)为状态后验概率。由Bayes 公式:

两类分类的贝叶斯决策函数:

三 实例说明:

一数据集有两类,每个样本有两个特征,类别1含有150个样本,类别2含有250个样本,分别取类别1的前100个和类别2的前200个样本作为训练样本,剩下的作为测试样本。 要求:

()()()

()

p B A P A P A B p B =

⎩⎨

⎧∈<∈>2

21121),()(),()(ωωωωωωx x P x P x x P x P 则若则若∑

==2

1

)

()()

()()(j j j i i i P x p P x p x P ωωωωω )

(,)

()(ln

)

()(ln

)()4()

(,)()()

()()()3()(),()()()()()2()

(),()()()1(12211221221121取对数方法似然比形式类条件概率密度后验概率ωωωωωωωωωωωωωωP P x p x p x g P P x p x p x g P x p P x p x g x P x P x g -=-=

-=-=

(1) 根据基于最小错误率的贝叶斯决策理论设计分类器;

(2) 叙述实验具体步骤,给出所设计的分类器对训练样本和测试样本的错误率; (3)绘制分类结果(包含决策边界)的图像 1、实验原理

多元正太分布的概率密度函数由下式定义

1

1

2

2

1

1()exp ()()2(2)

T d

p X X X μμπ-⎧⎫=

--∑-⎨⎬⎩⎭

由最小错误概率判决规则,可得采用如下的函数作为判别函数

()(|)(),

1,2,,i i i g x p X P i N ωω==

这里,()i P ω为类别i ω发生的先验概率,(|)

i p X ω为类别i ω的类条件概率密度函数,而

N 为类别数。

设类别i

ω,i=1,2,……,N 的类条件概率密度函数

(|)

i p X ω,i=1,2,……,N 服从正态分

布,即有

(|)

i p X ω~

(,)

i i N μ∑,那么上式就可以写为

1

122

()

1()exp ()(),

1,2,,2(2)T i i d

P g X X X i N ωμμπ-⎧⎫=

--∑-=⎨⎬⎩⎭

由于对数函数为单调变化的函数,用上式右端取对数后得到的新的判别函数替代原来的判别函数

()

i g X 不会改变相应分类器的性能。因此,可取

1

11()()()ln ()ln ln(2)2

2

2

T

i i i i i i d g X X X P μμωπ-=-

-∑-+-

∑-

显然,上式中的第二项与样本所属类别无关,将其从判别函数中消去,不会改变分类结果。这样,判别函数

()

i g X 可简化为以下形式

1

11()()()ln ()ln 2

2

T

i i i i i i g X X X P μμω-=-

-∑-+-

2、实验步骤

(1) 求出两类样本的均值

相关文档
最新文档