第3章-概率密度函数的估计(MABO--csu-mabo--2015-04-01-21,22,04)

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

i
)
pˆ N ( X )
1 N
N 1 ( X Xi )
V i1 N
hN
49
K (x,
xi )
1 VN
(
x xi hN
)
核函数方法图解
非参数 估计
第三章概率密度函数的估计
51
窗函数的选择
窗宽的选择
非参数 估计
hN是控制“窗”宽度的参数,根据样本的数量选择。
• 太大:平均化,分辨力低 • 太小:统计变动大
θ
n
argmax ln
θ
k 1
p(xk
| θ)
dH ( ) 0 d
第三章概率密度函数的估计
14
最大似然估计示意图
最大似 然估计
第三章概率密度函数的估计
15
计算方法
最大似 然估计
最大似然估计量使似然函数的梯度为 0 :
N
θH (θ) |ˆML θ ln p( xk | θ) |ˆML 0 k 1
12
似然函数
最大似然估计
似然函数:
l(θ) p(K | θ) p(x1, x2,..., xN | θ)
N
p(xk | θ)
k 1
对数(loglarized)似然函数:
N
H (θ) ln p(xk | θ)
k 1
第三章概率密度函数的估计
13
最大似然估计
最大似 然估计
θˆ ML argmax l (θ)
为保证估计依概率渐进收敛到真实的概率密度,即:
pˆ N (x) P p(x)
p( x)
估计收敛的充要条件:
lim
N
hN
0
lim
N
NhNd
hN
h1 d 1 N
第三章概率密度函数的估计
53
不同窗宽的估计效果
非参数 估计
第三章概率密度函数的估计
54
Parzen窗法示例
非参数 估计
第三章概率密度函数的估计
[E( | x) ˆ]2 p( | x)d
定理 3.1: 如果定义损失函数为误差平方函数,则有:
ˆBE E[ | x]
p( | x)d
第三章概率密度函数的估计
25
贝叶斯估计的步骤
贝叶斯 估计
1、确定θ的先验分布 p(θ) 2、由样本集K={x1, x2 ,…, xN}求出样本联合分
布:p(K|θ) 3、计算θ的后验分布
1
0.1
2
0.1
5
0.1
10
0.1
3E+13 50
0.1
59
3.3.3 kN-近邻法
非参数 估计
均匀核函数Parzen窗估计,窗宽固定,不 同位置落在窗内的样本点的数目是变化的。
kN-近邻估计:把窗扩大到刚好覆盖kN个点。 落在窗内的样本点的数目固定,窗宽是变化
的。kN根据样本总数N选择。
概率密度估计表达式:点x处窗的“体积”
基于样本的直接确定判别函数方法
第三章概率密度函数的估计
3
基于样本的Bayes分类器设计
Bayes决策需要已知两种知识:
• 各类的先验概率P(ωi)
• 各类的条件概率密度函数p(x|ωi)
P(i | x)
p(x | i )P(i ) p(x | j )P(j )
j
知识的来源:对问题的一般性认识或一些训练数据
θH (θ) |ˆML θ ln p( xk | θ) |ˆML 0 k 1
1
ln
p( xk
| 1,2 )
1
2
( xk
1)
代入前式,得
ˆ ML
1 N
N
xk
k 1
第三章概率密度函数的估计
18
一元正态分布方差的估计
最大似 然估计
2
ln
p( xk
| 1,2 )
1
22
( xk 1)2 222
代入前式,得
ˆ
2 ML
1 N
N
( xk
k 1
ˆ )2
第三章概率密度函数的估计
19
多元正态分布参数最大似然估计
μˆ ML
1 N
N
xk
k 1
ˆ
1 N
N
(xk
k 1
μˆ )(xk
μˆ )T
均值估计是无偏的,协方差矩阵估计是有偏的。 协方差矩阵的无偏估计是:
ˆ
1N
N
1
(xk
k 1
μˆ )(xk
μˆ )T
p( | K ) p(K | ) p( )
p(K | ) p( )d
4、计算贝叶斯估计
ˆBE
p( | K )d
26
一元正态分布例解
贝叶斯 估计
总体分布密度为:
p(x | ) ~ N (, 2)
均值μ未知,μ的先验分布为:
p()
~
N
(
0
,
2 0
)
样本集: K={x1, x2 ,…, xN}
R R(ˆ | x)p(x)dx Ed
贝叶斯估计:使风险最小的估计
ˆBE argmax R(ˆ | x) ˆ
第三章概率密度函数的估计
24
贝叶斯估计(II)
贝叶斯 估计
损失函数定义为误差平方: (ˆ, ) ( ˆ)2
R(ˆ | x)
(ˆ, )p( | x)d [ E( | x)]2 p( | x)d
➢ Parzen窗法 ➢ kn-近邻法
第三章概率密度函数的估计
7
3.2 参数估计
3.2 参数估计
统计量:样本集的某种函数f(K),
K={x1, x2 ,…, xN}
参数空间:总体分布的未知参数θ所有 可能取值组成的集合(Θ)
点估计的估计量和估计值:
的估计量ˆ d (x1, x2,..., xN )是样本集的函数
最大后验概率估计-Maximum a posteriori (MAP)
ˆMAP argmax p( | K )
argmax p(K | ) p( )
p(K )
argmax p(K | ) p( )
第三章概率密度函数的估计
22
决策问题与估计问题
贝叶斯 估计
决策问题: 样本x 决策ai 真实状态wj 状态空间A是离散空间 先验概率P(wj)
56
有限样本的影响
非参数 估计
均方误差最小(MSE)准则
4
MSE(E( pˆ N (x) p(x))2 ) O(N d 4 )
维数灾难(Curse of Dimensionality): 当维 数较高时,样本数量 无法达到精确估计的 要求。
N 16 32 178 3162
d
N4/(d+4)
模式识别
Pattern Recognition
第三章 概率密度函数的估计
第三章 概率密度函数的估计
3.1 引言 3.2 参数估计 3.3 非参数估计 3.4 讨论
3.1 引言
分类器
x1
g1
功能结构
x2
g2
.
.
.
.
.
.
xn
gc
MAX
a(x)
基于样本的Bayes分类器:通过估计类条件概 率密度函数,设计相应的判别函数
用贝叶斯估计方法求μ的估计量
第三章概率密度函数的估计
27
一元正态分布例解(II)
贝叶斯 估计
计算μ的后验分布:
p( | K) p(K | ) p()
p( K )
N
p( xk
|
) p()
~
N
(
N
,
2 N
)
k 1
N
N
2 0
N
2 0
2
mN
2
N
2 0
2
0
2 N
02 2
N
2 0
2
计算μ的贝
叶斯估计: ˆ p( | K )d N
3.3.2 Parzen窗法
非参数 估计
样本集KN= {x1, x2,…, xN} 区域RN是一个d维超立方体,棱长hN,体积VN= hNd 定义窗函数:
(u)
1
uj
1, 2
j 1,2,
d
0 otherwise
超立方体内样本数: kN 某点概率密度p(x)的估计
N
i 1
(
X
X hN
是VN:

N
(
x)
1 VN
kN N
第三章概率密度函数的估计
60
kN-近邻法举例
非参数 估计
kN的选择:
• 渐进收敛容易保证;
• 有限样本性质、最 小平方误差与 Parzen窗几乎相同
第三章概率密度函数的估计
61
3.4 讨论
概率密度函数包含了随机变量的全部信息, 是导致估计困难的重要原因。
高维概率分布的估计无论在理论上还是实际 操作中都是一个十分困难的问题。
它对样本集的一次实现称为估计值
第三章概率密度函数的估计
9
3.2 参数估计
区间估计
主要用区间(d1,d2)作为θ可能取值范围的一种估计。这个 区间称为置信区间,这类问题是区间估计问题
估计量的评价标准
估计量的评价标准:无偏性,有效性,一致

• 无偏性:E( ˆ)=θ • 有效性:D(ˆ )小,更有效 • 一致性:样本数趋于无穷时,ˆ 依概率趋于θ:
进行模式识别并不需要利用概率密度的所有 信息,只需要求出分类面。
先估计概率密度,再进行分类,可能走了 “弯路”。
第三章概率密度函数的估计
62
习题
设总体分布密度为N (u, 1),−∞ < u < +∞, 并设X = {x1, x2, ..., xN},分别用最大似然估计 和贝叶斯估计计算 。已知u的先验分布p(u) ∼ N (0, 1)。
第三章概率密度函数的估计
5
概率密度估计的方法
类的先验概率的估计:
• 用训练数据中各类出现的频率估计 • 依靠经验
类条件概率密度估计的两种主要方法:
• 参数估计:概率密度函数的形式已知,而表征函数的参 数未知,通过训练数据来估计
➢ 最大似然估计 ➢ Bayes估计
• 非参数估计:密度函数的形式未知,也不作假设,利用 训练数据直接对概率密度进行估计
i
i
,
2 i
,
di
T
采用迭代法进行参数估计
第三章概率密度函数的估计
34
3.3 非参数估计
非参数估计:密度函数的形式未知,也不作假设, 利用训练数据直接对概率密度进行估计。又称作
模型无关方法。 参数估计需要事先假定一种分布函数,利用样本数
据估计其参数。又称作基于模型的方法
两种主要非参数估计方法:
直方图方法
利用直方图估计密度函数还是有不完美的: 1 密度函数是不平滑的 2 密度函数受子区间宽度影响很大,如果我
们取0.5,5等构造出的密度函数显然与宽 度取2的有很大差异。 3 当数据维数是1,2维情况下,直方图的 使用是很普遍的,但是在数据维数再增加时 ,这种方法就有局限性了。
两种选择方法:
第三章概率密度函数的估计
最大似 然估计
20
最大似然估计
求θ1, θ2
最大似 然估计
第三章概率密度函数的估计
21
3.2.2 贝叶斯估计-最大后验概率
用一组样本集K={x1, x2 ,…, xN}估计未知参数θ 未知参数θ视为随机变量,先验分布为 p(θ),而
在已知样本集K出现的条件下的后验概率为p(θ|K)
• 核函数方法
➢ Parzen窗法 ➢ kN-近邻法
• 神经网络方法:PNN
第三章概率密度函数的估计
35
概率密度估计
直方图方法
概率密度估计
核函数方法
直方图方法
现在有6个数据点:x1=-2.1, x2=-1.3, x3=-0.4, x4=1.9, x5=5.1, x6=6.2. 我们取子区间的宽度为2
T
θ
1
...
s
第三章概率密度函数的估计
16
一元正态分布例解
最大似 然估计
p( xk | 1 ,2 2 )
1 exp( ( xk 1)2 )
22
22
ln
p( xk
| 1,2 )
1 2
ln(22 )
1
22
( xk
1)2
第三章概率密度函数的估计
17
一元正态分布均值的估计
最大似 然估计
N
第三章概率密度函数的估计
28
贝叶斯学习
i贝叶斯学习的本质:参数值随着样本增多趋近于真实值的 过程
源自文库
3.2.3 混合高斯模型
参数 估计
Mixed gaussian distribution
密度函数具有如下形式:正态模型的线性组合
D
p(x | i )
dij
N
(ij
,
2 ij
)
j 1
需估计的参数:
lim P( ˆ ) 0
N
第三章概率密度函数的估计
11
3.2.1 最大似然估计 (ML)
独立地按概率密度p(x|θ)抽取样本集
K={x1, x2 ,…, xN},用K估计未知参数θ
参数未知,为了描述概率密度函数p(x|ωi)与参数θ的依赖
关系,用p(x|ωi,θ)表示。
第三章概率密度函数的估计
基于样本的两步Bayes分类器设计
• 利用样本集估计P(ωi)和p(x|ωi)
• 基于上述估计值设计判别函数及分类器
面临的问题:
• 如何利用样本集进行估计 • 估计量的评价
第三章概率密度函数的估计
4
基于样本的Bayes分类器
训练 样本集
样本分布的 统计特征:
概率 密度函数
决策规则: 判别函数 决策面方程
参数估计问题: 样本集K 估计量^s 真实参数s 参数空间S是连续空间 参数的先验分布p(s)
第三章概率密度函数的估计
23
贝叶斯(最小风险)估计
贝叶斯 估计
参数估计的条件风险:给定x条件下,估计量的期 望损失
R(ˆ | x) (ˆ, )p( | x)d
参数估计的风险:估计量的条件风险的期望
相关文档
最新文档