模式识别3第三章 概率密度函数的参数估计

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1
N
Xk 与最大似然估计相似,只是分母不同
N N 1 k 1
贝研叶究斯目估计的的和一意般义理论
内容纲要
不估计 ˆ ,直接通过联合密 度求类条件概率密度。
样本概率密度函数
16
贝研叶究斯目估计的的和一意般义理论
内容纲要
• 由于参数矢量θ是一个随机变量,所以 类条件概率可以用下式计算:
px D px,θ Ddθ px θ pθ Ddθ
• 已知类条件概率密度函数p(x|θ)的形式, 但参数θ未知;
• 已知参数θ的先验概率密度函数p(θ);
• 求在已有训练样本集D的条件下,类条 件概率密度函数p(x|D)。
12
贝研叶究斯目估计的与和最意大义似然估计的差别
内容纲要
• 最大似然估计把待估计的参数θ看作固定的未知 量;
• 贝叶斯估计认为θ是一个随机变量,以一定的概 率分布取所有可能的值。
a 1
P(X i | )P()d
为比例因子,只与x有关,与μ无关
∵ P(Xk| μ)=N(μ,σ2),P(u)=N(μ0,σ02)
N
P( | X i) a
1
exp{ 1 Xk 2
1
exp[ 1
0
2
]}
k1 2
2 2
2 0
a'exp{ 1[ N
Xk
2
0
2
]}
2 k1
exp
1 2
2
2 n
2 2 n
2 n
x
2
n
2
2 n
2
du
21
下面以正态分布的均值估计为例说明贝叶斯估计的过程
一维正态研分究布:目已的知σ和2,估意计义μ
假设概率密度服从正态分布
P(X|μ)=N(μ,σ2), P(μ)=N(μ0,σ02) 第i类学习样本xi=(x1, x2,…. xN)T, 第i类概率密度P(x|μi,xi)=P(x|xi)
• 贝叶斯估计把待估的参数作为具有某种先验分布 的随机变量,通过对第i类学习样本Xi的观察,使 概率密度分布P(Xi|θ)转化为后验概率P(θ|Xi) , 再求贝叶斯估计。
13
贝研叶究斯目估计的的和一意般义理论
内容纲要
利用“贝叶斯估计”求解贝 叶斯估计量 ˆ 的方法与步骤。
PP 50, Line 1-10
i=1,2,…M
内容补充纲:要
贝叶斯估计
所以后验概率(贝叶斯公式)
P( | X i) P( X i | ).P( )
P( X i | )P()d
因为N个样本是独立抽取的,所以上式可以写成
内容补充纲:要
研究目的和意N义
贝叶斯估计
P( | X i) a P(X k | ).P()
k 1
其中
j 1
先验概率 P(i ) 类条件概率密度函数 P(X | i )
后验概率 P(i | X )
Bayes公式体现了先验概率、类概率密度函数、后 验概率三者之间的关系。
3.研1 究引目言的和意义
第三章 概率密度函数内的参容数纲估要计
• 贝叶斯分类器中最主要的问题是类条 件概率密度函数的估计。
• 问题可以表示为:已有c个类别的训练 样本集合D1,D2,…,Dc,求取每个
研究目的和意义
第三章 概率密度函数内的参容数纲估要计
– 贝叶斯估计(Bayesian Estimation)。
• 2. 非参数估计方法(nonparametric estimation ) 。
05
研究目的和意义
第三章 概率密度函数内的参容数纲估要计
3.2 最大似然估计
06
最研大究似目然估的计和意义
内容纲要
• 样都本是独集D立中同包分含布n的个随样机本变:量x1(,i.ix.d2,,in…d,epxen,nd样en本t identically distributed)。
Xi = (X1,X2,… XN)T 并且是独立从总体中抽取的
③ Xi中的样本不包含 j (i≠j)的信息,所以可以对每一
类样本独立进行处理。
④ 第i类的待估参数 i (1, 2,... n)T
根据以上四条假定,我们下边就可以只利用第i类学习样 本来估计第i类的概率密度,其它类的概率密度由其它类 的学习样本来估计。
2
0
2 n
02 2
n
2 0
2
19
均研值究分目布的的变和化意义
内容纲要
20
类研条究件目概率的密和度意的义计算
内容纲要
px D px p Dd
1
2
exp
1 2
x
2
1
2
n
exp
1 2
n n
2
d
f , n
2 n
exp
1 2
x
n 2
2
2 n
f ,n
pD p pD pd
n
i1
p xi
p
exp
1 2
N
2
1
2 0
2
2
1
2
n i1
xi
0
2 0
1
2
n
exp
1 2
n n
2
18
均研值究的目后验的概和率意义
内容纲要
均值的后验概率仍满足正态分布,其中:
ˆn
1 n
n i1
xi
n
n
2 0
n
2 0
2
ˆn
2
n
2 0
2
1 N
N k 1
Xk
T
Xk
结论:①μ的估计即为学习样本的算术平均
②估计的协方差矩阵是矩阵
Xk
T
Xk
的算
术平均(nⅹn阵列, nⅹn个值)
研究wk.baidu.com的和意义
第三章 概率密度函数内的参容数纲估要计
3.3 贝叶斯估计与贝叶斯学习
11
贝研叶究斯目估计的和意义
内容纲要
• 已有独立同分布训练样本集D;
2
2 1
1 N
N k 1
2
Xk
样本方差
• 讨论:
补充:一般过程内原容则纲, 自要学
1.正态总研体究均目值的的和最意大义似然估计即为学习样本的算术平均
2.正态总体方差的最大似然估计与样本的方差不同,当N较 大的时候,二者的差别不大。
B.多维情况:n个特征
估计值:
1
1 N
N k 1
Xk
研究目的和意义
内容纲要
第三章
概率密度函数的
参数估计
0011 0010 1010 1101 0001 0100 1011
412
01
第研三究章目内的容和纲意要 义
➢3.1 引言
第三章 概率密度函数内的参容数纲估要计
➢3.2 最大似然估计
➢3.3 贝叶斯估计与贝叶斯学习
➢3.4 期望最大化算法(EM算法)
0
a''exp{ 1 [( N 1 ) 2 2( 1 N Xk 0 )]}
2 2
2 0
2 k 1
2 0
其中a’,a’’包含了所有与μ无关的因子
∴P(μ| xi)是u的二次函数的指数函数
∴P(μ| xi)仍研然究是目一的个和正意态函义数, P(μ|Xi)=N(μN,σN2)
内容补充纲:要
• 对类条件概率密度函数的函数形式作出假设,参 数可以表示为参数矢量θ(待估参数θ是确定的 未知量):
p x i ,θi
07
似研然究函目数 的和意义
内容纲要
• 由独立同分布假设,样本集D出现的概率 为:
n
p D θ p x1,x2, ,xn θ pxi θ i1
• 定义对数似然函数:
n
l θ ln p D θ ln pxi θ i1
➢3.5 隐马尔可夫模型HMM (补充)
➢3.6 本章小结
02
3.研1 究引目言的和意义
第三章 概率密度函数内的参容数纲估要计
3.1 引言
03
2.研1.究2 目Bay的es和公意式 义
第二章 贝叶内斯决容策纲理要论
Bayes公式如下:
P(i | X )
P( X | i )P(i )
n
P(X | j )P( j )
• 根据贝叶斯规则,有: 训练样本间的统计独立性!
n
p
θ
D
pD θ pθ pD θ pθdθ
pxi θpθ
i1 n
pxi θpθdθ
i1
14
内容纲要
贝研叶究斯目学习的和意义
1.贝叶斯学习的概念:求出μ的后验概率之后,直接去推导总 体分布即
P(x | X i) P(x |)P( | X i)d P(x | )P( | X i)d
出使它最大时的θi值。
∵学习样本独立从总体样本集中抽取的
N

P( X i | i. i) P( X i | i) P( X k | i)
k 1
N个学习样本出现概率的乘积
N
N
取对数 : log P( X k | i) log P( X k | i)
k 1
k 1
对θi求导,并令它为0: 研究目的和意义
08
最研大究似目然估的计和意义
内容纲要
• 最大似然估计就是要寻找到一个最优矢 量 θˆ ,使得似然函数 l θ 最大。
θˆ arg max l θ θ
09
一.最大似然估计总结 假定: 研究目的和意义
内容纲要
①待估参数θ是确定的未知量
②按类别把样本分成M类X1,X2,X3,… XM
其中第i类的样本共N个
15
单研变究量目正态的分和布意的义贝叶斯估计
内容纲要
• 已知概率密度函数满足正态分布,其中 方差σ2已知,均值μ未知,假设μ的 先验概率满足正态分布,即:
px N , 2
p
N
0
,
2 0
17
均研值究的目后验的概和率意义
内容纲要
经推导可得,在已知训练样本集合D的条 件下,参数μ的分布:
p
D
递推的 贝叶斯估计
当当N观↑,察μ一N就个反样映本了时观,察N到=1N就个会样有本一后个对μμ的的估最计好值推的测修,正而值σN2 反当映观了察这N种=4推时测,的对不μ进确行定修性正, N,↑,向σ真N2正↓的,σμN靠2 随近观察样本增 加当而观单察调N减=9小时,,且对当μ进N→行∞修,正σ,N2向→真0 正的μ靠的更近 当N↑,P(μ|xi)越来越尖峰突起 N→∞, P(μ|xi)→σ函数,这个过程成为贝叶斯学习。
贝叶斯估计
另外后验概率可以直接写成正态形式: P( | X i)
比较以上两个式子,对应的系数应该相等

1 N
2
N 2
1
2 0
N
N 2
1
2
N k 1
Xk
0
2 0
1
exp[ 1
N
2
]
2 N
2 N
解以上两式得
研究目的和 意义 02
N
Xk
2
0
N
N
2 0
2
k 1
N
2 0
2
N 2
2 0
2
N
2 0
2. 多维正态分布情况
① ∑已知研, μ究未目知的,估和计意μ义
服从正态分布 P( X i | i)
补充:一般过程内原容则纲, 自要学
所以在正态分布时
待估参数为 i 1
N
k1
logP(X k | ) 0
P(
X
k
|
)
1 2
log[
2
n
|
|]
1 2
X
k
T
1 X k
代入上式得
N
1 X k 0
正研态究分目布的的似和然意估义计
内容纲要
• Gauss分布的参数由均值矢量μ和协
方差矩阵Σ构成,最大似然估计结果
为:
μˆ
1 n
n i1
xi
Σ
1 n
n i1
xi
μˆ xi
μˆ t
10
补充:一般过程原则: 第i类样研本究的目类的条和件意概义率密度:
内容纲要
P(Xi/ωi)= P(Xi/ωi﹒θi) = P(Xi/θi) 原属于i类的学习样本为Xi=(X1 , X2 ,…XN,)T i=1,2,…M 求θi的最大似然估计就是把P(Xi/θi)看成θi的函数,求
2
将μN,σN2代入P(μ|Xi)可以得到后验概率,再用公式
P( | X i)d , 求的估计
内容补充纲:要
贝叶斯估计

研究P目(的|和X i意)d义
N
∴对μ的估计为
N
N
N
2 0
2 0
2
N k 1
Xk
N
2
2 0
2
0
内容补充纲:要
贝叶斯估计
若令P(μ)=N(μ0, σ02 )=N(0,1)
1
...
p
N k 1
log
P( X
k
|
i)
0
P(Xi/θi)
N k 1
1
logP(
X
k
|
i)
0
.........
.........
N k 1
p
logP(
X
k
|
i)
0
利用上式求出 i的估值 ,即为 i=
补充:一内般容过程纲原要则
有时上式是多解的, 上图有5个解,只有一个解最大即.
1
1,
2
2 1
log
P(
X
k
|
i)
1 2
log
2
2
1
2
2
Xk
2
1
(n=1)由上式得
N
代入
k 1
1
log
P(X k
| i)
N1 (X
k 1 2
k
1)
0
N
k 1
2
log
P( X
k
| i)
N
[
k 1
1
2 2
(X k 1)2]
2
2 2
0
1 1
1 N
N k 1
Xk
即学习样本的算术平均
类别的类条件概率密度 px i 。
04
概研率究密目度函的数和的意估义计方法
第三章 概率密度函数内的参容数纲估要计
• 1. 参数估计方法(parametric estimation ) :预先假 设每一个类别的概率密度函数的形式已知, 而具体的参数未知;
– 最大似然估计(MLE, Maximum Likelihood Estimation);
k 1
1
N
X k 0
k 1
所以
研究目的和N意义
1( X k N) 0 k 1
1 N
N k 1
Xk
补充:一般过程内原容则纲, 自要学
这说明未知均值的最大似然估计正好是训练样本的算术 平均。
② ∑, μ均未知
补充:一般过程内原容则纲, 自要学
A. 一维情研况究:目n=1的对和于意每义个学习样本只有一个特征的简单情况:
相关文档
最新文档