第3章-概率密度函数的估计(MABO--csu-mabo--2015-04-01-21,22,04)

合集下载

第三章 概率密度函数的估计

第三章 概率密度函数的估计

当 0 ≤ x ≤ θ 时 , p (x | θ ) = 的最大似然估计是
解: 定义似然函数 l (θ ) =
k
1
θ
, 否则为0。证明θ
max x k 。
∏ p (x
k =1
N
k
|θ )
1 dH = 0, 即 − N ⋅ = 0 H (θ ) = ln l (θ ) = − N ln θ ,令 dθ θ 方程的解 θ = ∝ ,但实际问题中,θ ≠∝ 。 1 已知有N个随机样本, 且 0 ≤ x ≤ θ 时 , p (x | θ ) =



参数估计中的基本概念 统计量 参数空间 点估计、估计量和估计值 区间估计 参数估计判断标准 无偏性 有效性 一致性

3.2最大似然估计
(1)前提假设

参数θ(待估计)是确定(非随机)而未知的量 样本集分成c类,为A1,A2,…,Ac,Aj的样本是 从概率密度为 p x | ω j 的总体中独立抽取出来的。
i =1 i =1 i =1 i =1
N
(
)
N
N

例3.2:设x服从正态分N(μ,σ2),其中参数μ、 σ2未知,求它们的最大似然估计量。
N
解: 设样本集 A = {x1 , x2 ,..., xN }, 定义似然函数 l (θ ) = ∏ p(xi | θ )
i =1 2 ⎧ ⎡ ( xi − μ ) ⎤ ⎫ ⎪ ⎪ 1 exp⎢− H (θ ) = ln l (θ ) = ∑ ln p (xi | θ ) = ∑ ln ⎨ ⎥⎬ 2 2σ ⎪ i =1 i =1 ⎣ ⎦⎪ ⎭ ⎩ 2π σ 2 N ⎧ ⎫ ( ) x − 1 1 μ 2 i = ∑ ⎨− ln 2π − ln σ − ⎬ 2 2 2σ i =1 ⎩ 2 ⎭ N N 2

03概率密度函数的估计

03概率密度函数的估计

参数估计
• 在一般的监督模式识别中,估计各个类别的先验概率 并不会遇到太大的困难,但估计类条件概率密度确实 是。
– 样本数目太少 – 特征向量维数太高时问题更严重
• 如果我们依照常识可以知道类条件概率密度的参数形 式,并能确定参数的个数,则问题的难度就会大大降 低。
– 例如,我们可以假定p(x| ωi)是均值和方差分别为μi和 i 的正态 分布。这样,估计概率密度函数的问题就变成了估计参数μi和 i 的问题。
最大似然估计 vs 贝叶斯估计
• 另外一个因素是我们对先验知识,比如对p(x|θ) 的参数形式的确信程度
– 最大似然解必须具有我们假定的参数形式,但贝叶 斯方法却不然。一般来说,贝叶斯方法更多地利用 了问题的相关信息,如果这些信息是可靠的,那么 贝叶斯方法会给出更好的结果。 – 最大似然方法可以看成贝叶斯方法的特殊情形,即 先验知识是均匀分布的 – 贝叶斯方法可以更多地显示估计的精度与方差之间 的平衡随训练样本数量的变化(这一点对于机器学 习理论非常重要)
k 1
• 因此,最大似然估计的解的必要条件是
l 0. (*)
最大似然解
• 方程(*)的解可能是一个全局最大值,也 可能是局部极大极小值,还可能是l(θ)的 一个拐点。此外,还要检查最大值是否 会出现在参数空间的边界上。 • 方程(*)的解只是一个估计值,只有在样 本数趋于无限多的时候它才会接近真实 值
– 估计条件概率密度p(x| ωi) – 直接估计后验概率P(ωi | x)
3.2最大似然估计
• 最大似然估计具有很好的性质
– 样本数目增加时总是具有很好的收敛性
• • • • 渐近无偏的 渐近一致性 渐近高效的(可以达到Carm-Rao下界) 极限分布是高斯分布(中心极限定理)

概率密度函数估计

概率密度函数估计

期望风险:
R Ed

(ˆ, ) p(x, )ddx

(ˆ, ) p( | x) p(x)ddx
Ed
R(ˆ | x) p(x)dx Ed 其中,x Ed ,
条件风险: R(ˆ | x) (ˆ, ) p( | x)d
xEd

X
k


T
1 X k
代入上式得
N
1 X k 0
k 1
1
N
X k 0
k 1
所以
1( N X k N ) 0
k 1




1 N
N
Xk
k 1
这说明未知均值的最大似然估计正好是训练样本的算术
平均。
如果必要条件有多解则需从中求似然函数最大者若不满足条件则无一般性方法用其它方法求最大以均匀分布32最大似然估计maximumlikelihoodestimation正态分布下的最大似然估计示例以单变量正态分布为例样本集似然函数32最大似然估计maximumlikelihoodestimation对数似然函数最大似然估计量满足方程32最大似然估计maximumlikelihoodestimation得方程组未知估计服从正态分布所以在正态分布时待估参数为代入上式得所以这说明未知均值的最大似然估计正好是训练样本的算术平均
非参数方法 (nonparametric methods)
不假定数学模型,直接用已知类别的学习样本的先验知识直 接估计数学模型。
二.监督学习与无监督学习 监督学习:在已知类别样本指导下的学习和训练,
参数估计和非参数估计都属于监督学习。
无监督学习:不知道样本类别,只知道样本的某些 信息去估计,如:聚类分析。

数学]第3章 概率密函数估计 西安电子科技大学

数学]第3章 概率密函数估计  西安电子科技大学
p(x|ωi)和P(ωi)。 根据概率密度函数形式是否已知, 概率密度函数估计分为
参数估计和非参数估计。
第3章 概率密度函数估计
(1) 参数估计就是在已知概率密度函数的形式, 但其中的某 些参数是未知的情况下, 利用样本集对概率密度函数的某些参 数进行估计。 例如, 若p(x|ωi)是均值为μi, 协方差矩阵为Σi的正 态分布, 那么只需要估计μi和Σi。 参数估计的方法很多, 大致可 以分为确定性参数估计方法与随机参数估计方法。 确定性参数 估计方法把参数看做确定而未知的, 典型方法为最大似然估计。 随机参数估计方法把未知参数当做具有某种分布的随机变量, 典型方法为贝叶斯估计。
)R(l)
第3章 概率密度函数估计
显然, Rˆ1 (l) 是R(l)的无偏估计; Rˆ 2 (l) 是R(l)的有偏估计, 但 Rˆ 2 (l) 是R(l)的渐进无偏估计, 即
lim
N
E
Rˆ2
(l)
R(l)
虽然 Rˆ1 (l) 是R(l)的无偏估计, 而 Rˆ 2 (l) 是R(l)的有偏估 计(但渐进无偏), 但是, 估计 Rˆ1 (l) 中分母与l有关, 因此, 一般 使用 Rˆ 2 (l) , 而不用 Rˆ1 (l) 。
第3章 概率密度函数估计
2. Cramer-Rao下界(估计的方差性质)
除了偏差以外, 一个估计的基本特性还体现在方差上。
一般地, 要得到精确的方差是比较困难的, 人们希望得到方
差可能达到的下界。 下面的定理3.1表明, 无偏估计的方差

存在一个下界, 常称为Cramer-Rao下界。
l)
第3章 概率密度函数估计
Rˆ2 (l)
1 N
N l t 1

概率密度函数估计.

概率密度函数估计.
ˆ d ( x , x ,, x ) d (X )。称作最大似然估计量。 样本集的函数,记作 1 2 N
为了便于分析,还可以定义对数似然函数 H ( ) ln l ( )。
3.2
最大似然估计(Maximum
Likelihood Estimation)
求解: 若似然函数满足连续、可微的条件,则最大似然估计量就是方程
i
P(Xi/θi)
利用上式求出 的估值 ,即为 =
i


上图有5个解,只有一个解最大即.
3.2
最大似然估计(Maximum
Likelihood Estimation)
正态分布下的最大似然估计示例 以单变量正态分布为例
[1, , 2 ]T
p( x | ) 1
1,
2 2
1 x 2 exp 2 2
样本集
X x1 , x2 ,, x N
l ( x ) p ( X | ) p ( xk | )
k 1 N
似然函数
3.2
最大似然估计(Maximum
dl( ) / d 0 或 dH ( ) / d 0
的解(必要条件)。 若未知参数不止一个,即 [1 , 2 ,, s ]T ,记梯度算子
, , , s 1 2
T
则最大似然估计量的必要条件由S个方程组成:
似然函数(likelihood function)
l ( ) p( X | ) p( x1 , x2 ,, x N | ) p( xi | )
i 1 N
—— 在参数 下观测到样本集 X 的概率(联合分布)密度

3概率密度函数的估计

3概率密度函数的估计

18
贝叶斯估计(II)
损失函数定义为误差平方:
贝叶斯 估计
2 ˆ ˆ ( , ) ( )
ˆ | x) R( ˆ, ) p( | x )d (

[ E ( | x )] p( | x )d
2


ˆ]2 p( | x )d [ E ( | x )
T
第三章 概率密度密度的估计
15
3.2.2 贝叶斯估计-最大后验概率
用一组样本集K={x1,
x2 ,…, xN}估计未知参数θ 未知参数θ 视为随机变量,先验分布为 p(θ ),而 在已知样本集K出现的条件下的后验概率为p(θ |K) 最大后验概率估计-Maximum a posteriori (MAP)
的估计量ˆ d (x1 , x 2 ,..., x N ) d ( K )
是样本集的函数,它对样本集的一次 实现称为估计值
第三章 概率密度密度的估计
x2
9
估计量的评价标准
估计量的评价标准:无偏性,有效性,一致性 无偏性:E( ˆ )=θ
有效性:D( ˆ )小,估计更有效 ˆ 依概率趋于θ: 一致性:样本数趋于无穷时,
N
k
第三章 概率密度密度的估计
23
一元正态分布方差的估计
最大似 然估计
1 ( xk 1 )2 ln p( xk | 1 , 2 ) 2 2 22 22
代入前式,得
ˆ
2 ML
1 N
( x
k 1
N
k
ˆ)
2
第三章 概率密度密度的估计
24
多元正态分布参数最大似然估计
对数(loglarized)似然函数:

第三章 概率密度函数的参数估计

第三章 概率密度函数的参数估计

均值的后验概率
均值的后验概率仍满足正态分布,其中:
1 n n = ∑ xi n i =1
2 nσ 0 σ2 n = 2 + 2 0 2 n 2 nσ 0 + σ nσ 0 + σ
σ σ σ = nσ + σ 2
2 n 2 0 2 0 2
均值分布的变化
类条件概率密度的计算
p ( x D) = ∫ p ( x ) p ( D) d
模型在时刻t处于状态wj的概率完全由t-1时刻 的状态wi决定,而且与时刻t无关,即:
P w(t ) W
(
T
) = P ( w ( t ) w ( t 1))
P w ( t ) = ω j w ( t 1) = ωi = aij
(
)
Markov模型的初始状态概率 模型的初始状态概率
模型初始于状态wi的概率用 π i 表示。 完整的一阶Markov模型可以用参数 θ = ( π, A ) 表示,其中:
3.0 引言
贝叶斯分类器中最主要的问题是类条件概 率密度函数的估计。 问题可以表示为:已有c个类别的训练样 本集合D1,D2,…,Dc,求取每个类别的 类条件概率密度 p ( x ωi ) 。
概率密度函数的估计方法
参数估计方法:预先假设每一个类别的概 率密度函数的形式已知,而具体的参数未 知;
最大似然估计(MLE, Maximum Likelihood Estimation); 贝叶斯估计(Bayesian Estimation)。
p ( x θ ) = ∑ ai pi ( x θi ),
i =1 M
∑a
i =1
M
i
=1
最常用的是高斯混合模型(GMM,Gauss Mixture Model):

第三章-第二部分-概率密度函数估计(1)

第三章-第二部分-概率密度函数估计(1)

的 的似然函数。
似然函数:N个随机变量 x1 , x2 ,, xN 的似然函数是N个 随机变量的联合密度 l ( ) p( | ) p( x1, x2 ,, xN | ) ,这
个密度可以看成是 的函数。具体地说,若 x1 , x2 ,, xN 是独立的抽自密度 p( | ) 总体的样本,那么似然函数 就是:
^
1 N 1 N


x
k 1 N k 1
N
k
T ( x ) ( x ) k k
是均 其中, xk为多元正态分布总体中第 K个抽样,是d维向量, 的最大似然估计, 是协方差矩阵 的最大似然估计。 值向量 的最 结论:均值向量 的最大似然估计是样本均值。协方差矩阵 T 大似然估计是N个矩阵( xk )(xk ) 的算术平均。

Parzen 窗窗法 非参数估计 --Parzen
21
Parzen 窗窗法 非参数估计 --Parzen
22
Parzen 窗窗法 非参数估计 --Parzen
23
Parzen 窗窗法 非参数估计 --Parzen
24
Parzen 窗窗法 非参数估计 --Parzen
二维平面:
正方形
三维空间:
Parzen 窗窗法 非参数估计 --Parzen
每个邻域样 本点数量 该类所有 样本点数量
概率密 度估计
体积
28
非参数估计--Parzen窗法
用Parzen窗法估计 单变量正态分布的 实验
非参数估计--Parzen窗法
用Parzen窗法估计 两个均匀分布的 实验
非参数估计--Parzen窗法
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 核函数方法
➢ Parzen窗法 ➢ kN-近邻法
• 神经网络方法:PNN
第三章概率密度函数的估计
35
概率密度估计
直方图方法
概率密度估计
核函数方法
直方图方法
现在有6个数据点:x1=-2.1, x2=-1.3, x3=-0.4, x4=1.9, x5=5.1, x6=6.2. 我们取子区间的宽度为2
进行模式识别并不需要利用概率密度的所有 信息,只需要求出分类面。
先估计概率密度,再进行分类,可能走了 “弯路”。
第三章概率密度函数的估计
62
习题
设总体分布密度为N (u, 1),−∞ < u < +∞, 并设X = {x1, x2, ..., xN},分别用最大似然估计 和贝叶斯估计计算 。已知u的先验分布p(u) ∼ N (0, 1)。
用贝叶斯估计方法求μ的估计量
第三章概率密度函数的估计
27
一元正态分布例解(II)
贝叶斯 估计
计算μ的后验分布:
p( | K) p(K | ) p()
p( K )
N
p( xk
|
) p()
~
N
(
N
,
2 N
)
k 1
N
N
2 0
N
2 0
2
mN
2
N
2 0
2
0
2 N
02 2
N
2 0
2
计算μ的贝
叶斯估计: ˆ p( | K )d N
第三章概率密度函数的估计
5
概率密度估计的方法
类的先验概率的估计:
• 用训练数据中各类出现的频率估计 • 依靠经验
类条件概率密度估计的两种主要方法:
• 参数估计:概率密度函数的形式已知,而表征函数的参 数未知,通过训练数据来估计
➢ 最大似然估计 ➢ Bayes估计
• 非参数估计:密度函数的形式未知,也不作假设,利用 训练数据直接对概率密度进行估计
R R(ˆ | x)p(x)dx Ed
贝叶斯估计:使风险最小的估计
ˆBE argmax R(ˆ | x) ˆ
第三章概率密度函数的估计
24
贝叶斯估计(II)
贝叶斯 估计
损失函数定义为误差平方: (ˆ, ) ( ˆ)2
R(ˆ | x)
(ˆ, )p( | x)d [ E( | x)]2 p( | x)d
➢ Parzen窗法 ➢ kn-近邻法
第三章概率密度函数的估计
7
3.2 参数估计
3.2 参数估计
统计量:样本集的某种函数f(K),
K={x1, x2 ,…, xN}
参数空间:总体分布的未知参数θ所有 可能取值组成的集合(Θ)
点估计的估计量和估计值:
的估计量ˆ d (x1, x2,..., xN )是样本集的函数
12
似然函数
最大似然估计
似然函数:
l(θ) p(K | θ) p(x1, x2,..., xN | θ)
N
p(xk | θ)
k 1
对数(loglarized)似然函数:
N
H (θ) ln p(xk | θ)
k 1
第三章概率密度函数的估计
13
最大似然估计
最大似 然估计
θˆ ML argmax l (θ)
为保证估计依概率渐进收敛到真实的概率密度,即:
pˆ N (x) P p(x)
p( x)
估计收敛的充要条件:
lim
N
hN
0
lim
N
NhNd
hN
h1 d 1 N
第三章概率密度函数的估计
53
不同窗宽的估计效果
非参数 估计
第三章概率密度函数的估计
54
Parzen窗法示例
非参数 估计
第三章概率密度函数的估计
θH (θ) |ˆML θ ln p( xk | θ) |ˆML 0 k 1
1
ln
p( xk
| 1,2 )
1
2
( xk
1)
代入前式,得
ˆ ML
1 N
N
xk
k 1
第三章概率密度函数的估计
18
一元正态分布方差的估计
最大似 然估计
2
ln
p( xk
| 1,2 )
1
22
( xk 1)2 222
代入前式,得
i
)
pˆ N ( X )
1 N
N 1 ( X Xi )
V i1 N
hN
49
K (x,
xi )
1 VN
(
x xi hN
)
核函数方法图解
非参数 估计
第三章概率密度函数的估计
51
窗函数的选择
窗宽的选择
非参数 估计
hN是控制“窗”宽度的参数,根据样本的数量选择。
• 太大:平均化,分辨力低 • 太小:统计变动大
i
i
,
2 i
,
di
T
采用迭代法进行参数估计
第三章概率密度函数的估计
34
3.3 非参数估计
非参数估计:密度函数的形式未知,也不作假设, 利用训练数据直接对概率密度进行估计。又称作
模型无关方法。 参数估计需要事先假定一种分布函数,利用样本数
据估计其参数。又称作基于模型的方法
两种主要非参数估计方法:
T
θ
1
...
s
第三章概率密度函数的估计
16
一元正态分布例解
最大似 然估计
p( xk | 1 ,2 2 )
1 exp( ( xk 1)2 )
22
22
ln
p( xk
| 1,2 )
1 2
ln(22 )
1
22
( xk
1)2
第三章概率密度函数的估计
17
一元正态分布均值的估计
最大似 然估计
N
是VN:

N
(
x)
1 VN
kN N
第三章概率密度函数的估计
60
kN-近邻法举例
非参数 估计
kN的选择:
• 渐进收敛容易保证;
• 有限样本性质、最 小平方误差与 Parzen窗几乎相同
第三章概率密度函数的估计
61
3.4 讨论
概率密度函数包含了随机变量的全部信息, 是导致估计困难的重要原因。
高维概率分布的估计无论在理论上还是实际 操作中都是一个十分困难的问题。
最大后验概率估计-Maximum a posteriori (MAP)
ˆMAP argmax p( | K )
argmax p(K | ) p( )
p(K )
argmax p(K | ) p( )
第三章概率密度函数的估计
22
决策问题与估计问题
贝叶斯 估计
决策问题: 样本x 决策ai 真实状态wj 状态空间A是离散空间 先验概率P(wj)
基于样本的直接确定判别函数方法
第三章概率密度函数的估计
3
基于样本的Bayes分类器设计
Bayes决策需要已知两种知识:
• 各类的先验概率P(ωi)
• 各类的条件概率密度函数p(x|ωi)
P(i | x)
p(x | i )P(i ) p(x | j )P(j )
j
知识的来源:对问题的一般性认识或一些训练数据
模式识别
Pattern Recognition
第三章 概率密度函数的估计
第三章 概率密度函数的估计
3.1 引言 3.2 参数估计 3.3 非参数估计 3.4 讨论
3.1 引言
分类器
x1
g1
功能结构
x2
g2
.
.
.
.
.
.
xn
gc
MAX
a(x)
基于样本的Bayes分类器:通过估计类条件概 率密度函数,设计相应的判别函数
直方图方法
利用直方图估计密度函数还是有不完美的: 1 密度函数是不平滑的 2 密度函数受子区间宽度影响很大,如果我
们取0.5,5等构造出的密度函数显然与宽 度取2的有很大差异。 3 当数据维数是1,2维情况下,直方图的 使用是很普遍的,但是在数据维数再增加时 ,这种方法就有局限性了。
两种选择方法:
基于样本的两步Bayes分类器设计
• 利用样本集估计P(ωi)和p(x|ωi)
• 基于上述估计值设计判别函数及分类器
面临的问题:
• 如何利用样本集进行估计 • 估计量的评价
第三章概率密度函数的估计
4
基于样本的Bayes分类器
训练 样本集
样本分布的 统计特征:
概率 密度函数
决策规则: 判别函数 决策面方程
第三章概率密度函数的估计
28
贝叶斯学习
i贝叶斯学习的本质:参数值随着样本增多趋近于真实值的 过程
3.2.3 混合高斯模型
参数 估计
Mixed gaussian distribution
密度函数具有如下形式:正态模型的线性组合
D
p(x | i )
dij
N
(ij
,
2 ij
)
j 1
需估计的参数:
p( | K ) p(K | ) p( )
p(K | ) p( )d
4、计算贝叶斯估计
ˆBE
p( | K )d
26
一元正态分布例解
贝叶斯 估计
总体分布密度为:
p(x | ) ~ N (, 2)
均值μ未知,μ的先验分布为:
p()
相关文档
最新文档