贝叶斯分类器
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验报告
一. 实验目的
1、 掌握密度函数监督参数估计方法;
2、 掌握贝叶斯最小错误概率分类器设计方法。
二.实验内容
对于一个两类分类问题,设两类的先验概率相同,(12()()P P ωω=),两类的类条件概率密度函数服从二维正态分布,即
11(|)~(,)P N ω1x μΣ2(|)~(,)P N ω22x μΣ
其中,=[3,6]T 1μ,0.50=02⎡⎤⎢⎥
⎣⎦
1Σ,=[3,-2]T
2μ,20=02⎡⎤⎢⎥⎣⎦2Σ。 1) 随机产生两类样本;
2) 设计最大似然估计算法对两类类条件概率密度函数进行估计;
3) 用2)中估计的类条件概率密度函数设计最小错误概率贝叶斯分类器,实现对两类样本的分类。
三.实验原理 最大似然估计
1. 作用
在已知试验结果(即是样本)的情况下,用来估计满足这些样本分布的参数,把可能性最大的那个参数θ作为真实*
θ的参数估计。 2. 离散型
设X 为离散型随机变量,
12=(,,...,)k θθθθ为多维参数向量,如果随机变量
1,...,n
X X 相互独立且概率计算式为
{}1(;,...)
i i i k P x p x θθX ==,则可得概率函数为
{}1111,...,(;,...)n
n n i k i P x x p x θθ=X =X ==∏,在
12=(,,...,)k θθθθ固定时,上式表示11,...,n n
x x X =X =的概率;当
11,...,n n
x x X =X =已知的时候,它又变成
12=(,,...,)k θθθθ的函数,可以把它记为12111(,,...,)(;,...,)n
k k i L p x θθθθθ==∏,称此函数为似然函数。似然函数值的大小意味着该样本值出现的可能性的大小,既然已经得到了样本值
11,...,n n
x x X =X =,那么它出现的可能性应该是较大的,即似然
函数的值也应该是比较大的,因而最大似然估计就是选择使12(,,...,)
k L θθθ达到最
大值的那个θ作为真实*
θ的估计。 3. 连续型
设X 为连续型随机变量,其概率密度函数为1(;,...)
i k f x θθ,
1,...n
x x 为从该总体中
抽出的样本,同样的如果
1,...n
x x 相互独立且同分布,于是样本的联合概率密度为12111(,,...,)(;,...,)
n
k k i L f x θθθθθ==∏。大致过程同离散型一样。
最大后验概率判决准则
先验概率
1()
P ω和
2()
P ω,类条件概率密度
1(|)
P X ω和
2(|)
P X ω,根据贝叶斯公
式1
(|)()
(|)(|)()
i i i c
j
j
j p x P P X p X P ωωωωω==
∑,当
12(|)(|)
P P ωω>x x 则可以下结论,在x 条件
下,事件
1ω出现的可能性大,将x 判定为1ω类。
四.实验结果
1. 产生样本
根据实验提供的先验均值向量和协方差矩阵,利用编写的multivrandn 函数构造二维正态分布,产生500N =个样本,如图1所示。
图1. 产生两类训练样本
2. 参数估计
对产生的样本进行最大似然估计,估计出样本二维正态分布的均值向量和协方差矩阵。其中1
1
n
i ML
i x N ==∑^
μ,1
1
()()n
T
i
i ML ML
i x x N ==--∑^
^
^
Σμ
μ。估计结果如下: []1=3.016 5.976^
μ,[]2=2.922 -2.027^μ,10.44910.0019=0.00191.9712⎡⎤⎢⎥⎣⎦^
Σ,2 2.05790.1692=0.1692 1.8779⎡⎤
⎢⎥⎣⎦
^Σ。相比较给定的均值向量和协方差矩阵,误差不大。
3. 分类器设计
根据上面得出的参数估计结果和贝叶斯最大后验概率判决准则设计分类器。当(|)()
()(|)
()
j i i j p x P L x p x P ωωωω=
>
,则j x ω∈
。设计分类函数,对样本进行分类判决。例
如对类别1中的第一个样本进行分类,结果如图2所示:
图2. 分类结果
对两组样本进行分类,运用matlab理论计算出分界线,分类结果如图3所示:
图3两组样本分类结果
五.结果分析
1、产生样本
在产生样本的过程中,利用二维正态分布函数函数产生大量样本,经过均值和协方差矩阵的估计后可以看出,样本的均值和协方差矩阵与理论值相差不大,也就说明产生样本过程基本正确。
2、参数估计
参数估计完全按照最大似然估计过程,结果如上面结果所显示,由于样本产生较好,样本数量较大,估计值也比较准确,从反面也验证了参数估计过程的正确性。
3、分类器设计
根据最大后验概率判决准则,利用估计出的参数,设计分类器,分类结果图3所示,有个别误差,大部分样本分类正确。
4、添加干扰,检测实验结果
在产生样本时,添加均匀分布的一个干扰项,再次验证参数估计结果和分类结果如下:
1=[7.8495 11.1080]
^
μ,
2=[7.9071 2.8887]
^
μ,1
8.2906 -0.1602 =
-0.1602 10.1773⎡⎤⎢⎥⎣⎦
^
Σ,
2
9.93400.6933 =
0.693310.1203⎡⎤⎢⎥⎣⎦
^
Σ。结果可以看出与理论值差距较大。分类结果的错误程度如图4所示。
图4分类结果错误程度
六. 实验代码
本次实验代码总共分为三部分:主程序部分及两个函数程序部分: