机器学习与模式识别-第3章_概率密度函数的估计

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

P( | X i )d N

(因为正态分布)
2 2 N 0 N N Xk 0 2 2 2 2 N 0 k 1 N 0
P( N ) N (0 , 0 ) N (0,1)
1 N N Xk N 1 k 1 是分母不同
求贝叶斯估计 P( | X i )d
N
k
N ) 0
1 N

X
k 1
N
k
这说明未知均值的最大似然估计正好是训练样本的算术平均。
② ∑， μ 均未知 A. 一维情况：n=1对于每个学习样本只有一个特征的简单情况：
2 , 1 1 2 1
i
1 1 log P( X k | ) log 2 2 X k 1 2 2 2 上式得
（４）假定 i 中不包含关于 j ( j wk.baidu.com i ) 的信息，即
不同类别的参数在函数上是独立的
估计过程
某类样本集中包含有Ｎ个样本
x1 , x2 ,...xN
由样本独立抽取假设
p( ) p( x1 , x2 ,...xN ) p( xk )
k 1
N
p( )
n T 1 1 1 P( X k | ) log[ 2 | |] X k X k 2 2
所以在正态分布时
代入上式得
X
1 k 1
N
k
0
0
X
1 k 1
N
k
所以
( X
1 k 1

结论：①μ 的估计即为学习样本的算术平均 ②估计的协方差矩阵是矩阵 X k 术平均（nⅹn阵列， nⅹn个值）

Xk
T

的算
3.2.2 贝叶斯估计和贝叶斯学习
最小风险贝叶斯决策
R(ai x) E[ (ai , j )] (ai , j ) P( j x)
ˆ ( ) P i
由样本集估计总体概率密度的方法可分为: (1)监督参数估计 : 样本所属类别及类条件总体概率密度函数形式已知,表征概率密度函数的某些参数未知.
(2)非监督参数估计: 已知总体概率密度函数形式但未知样本所属类别,要求推断出概率密度函数的某些参数. (3) 非参数估计: 已知样本所属类别,未知总体概率密度函数的形式,直接推断概率密度函数本身.
３．２．１
基本假设
（１）参数
最大似然估计

是确定（非随机）的而未知的量
（２）按类别把样本集分开， j类中的每个样本都是独立地从概率密度为 p ( x j ) 的总体中独立地抽取出来的（３）类条件概率密度 p ( x j ) 为已知分布参数向量未知
p ( x j ) p( x j , j )
i 求贝叶斯估计 P ( | )d（证明略） X ④

正态分布的均值估计一维正态分布:已知σ2,估计μ 假设概率密度服从正态分布 P(X|μ )=N(μ ,σ2), P(μ )=N(μ 0,σ02) 第i类学习样本xi=(x1, x2,…. xN)T,
后验概率
P( | X i )
第三章概率密度函数的估计
3.1 引言计算贝叶斯后验概率进行决策
p( x i ) P(i )
P(i x)
p( x ) P( )
j 1 j j
2
实现中有问题吗?能直接计算吗?
以疾病诊断问题为例问题: 先验概率未知,医生可大致估计类条件概率密度呢? 只能通过已知的一些数据去估计
概率密度函数的估计
设计贝叶斯分类器
第一步, 利用样本集估计
p( x i )
和 P(i )
ˆ ( ) ˆ ( x i ) 和 P 分别记为 p i
第二步, 将估计量代入贝叶斯决策规则中是否能达到理论结果?
N
时
ˆ ( x i ) 收敛于 p( x i ) p
ˆ ( ) P i
收敛于
ˆ 就是的最大能使似然函数极大化的，那么似然估计量．
第i类样本的类条件概率密度： P(Xi/ωi)= P(Xi/ωi﹒θi) = P(Xi/θi) 原属于i类的学习样本为Xi=(X1 , X2 ,…XN,)T i=1,2,…M 求θi的最大似然估计就是把P(Xi/θi)看成θi的函数，求出使它最大时的θi值。 ∵学习样本独立从总体样本集中抽取的
ˆ
称为的估计量
(i ) (i ) x ,... x 如果 1 N 是属于类别 i 的几个样本的观察值，
ˆ 的具体数值，代入统计量d就得到对于第i类的
这一数值称为的估计值．
区间估计: 给出区间 (d1 , d 2 ) 作为
可能的取值范围
这个区间叫置信区间，这类问题称为区间估计．
N

2
(n=1) 由
N 1 i 代入 log P( X k | ) ( X k 1) 0 k 1 1 k 1 2
N 1 ( X k 1) i log P( X k | ) [ ]0 2 2 2 2 2 k 1 2 k 1 N 2
N ∴ P( X i | i . i ) P( X i | i ) P( X k | i ) k 1
N个学习样本出现概率的乘积
i i log P ( | ) log P ( | ) X X k k 取对数： k 1 k 1 N N
对θi求导,并令它为0：

与最大似然估计相似，只
贝叶斯学习
前面学习了两种参数估计的方法．最终目的是估计总体分布
p( x )
X
i
求贝叶斯估计步骤: ① 确定θ的先验分布P(θ),待估参数为随机变量。 ② 用第i类样本xi=(x1, x2,…. xN)T求出样本的联合概率密度分布P(xi|θ)，它是θ的函数。 P( X i | ).P( ) i P( | X ) i ③ 利用贝叶斯公式,求θ的后验概率 P ( | ) P( )d X ４．
2 1 1 N i P ( | ) exp[ ] X 另外后验概率可以直接写成正态形式： 2 N 2 N

比较以上两个式子,对应的系数应该相等 ∴ 1 N 1 2 2 2 N 0 N 0 1 N Xk 2 2 2 0 N k 1
称为相对于样本集的的似然函数
似然函数的定义：
l ( ) p( x1 , x2 ,...xN ) p( x1 ) p( x2 )... p( xN )
最大似然估计量：令 l ( ) 为样本集的似然函数
x1 , x2 ,...xN 如果 ˆ d () d ( x1 , x2, ...xN ) 是参数空间中
i=1,2,…M
P( X i | ).P( )
i P ( | ) P( )d X
(贝叶斯公式)
因为N个样本是独立抽取的，所以上式可以写成
P( | X i ) a P( X k | ).P( ) k 1 1 a i 其中 P ( X | )P( )d
利用上式求出 i 的估值，即为 i ＝

有时上式是多解的, 上图有5个解,只有一个解最大即.

多维正态分布情况
① ∑已知, μ 未知,估计μ
N 服从正态分布 i log P( X k | ) 0 待估参数为 1 k 1
P( X i | i )
N 1 i ... log P ( | )0 X k k 1 P(Xi/θi) p N i log P ( | )0 X k k 1 1 ......... ......... N log P ( X k | i ) 0 k 1 p
j 1
c
i 1,2,...a
R(ak x) min R(ai x)
i 1,... a
ak
就是最小风险贝叶斯决策
ˆ 的期望损失， ˆ 为给定 x 条件下估计量 R( x)
称条件风险，我们定义：如果

ˆ 使条件风险的估计量
ˆ 是关于最小，则称

的贝叶斯估计量．
损失函数有不同的定义，此处我们规定损失函数为平方误差损失函数．
无关
N
为比例因子,只与x有关,与μ
∵ P(Xk| μ )=N(μ ,σ2),P(u)=N(μ 0,σ02)
P ( | X i ) a
k 1 N
1 1 Xk exp{ 2 2
1 N Xk 2 0 2 a' exp{ [ ]} 2 k 1 0
2 2 N 0 解以上两式得 N Xk 0 2 2 2 2 N 0 k 1 N 0 2 2 0 2 N N 02 2
将μ N,σN2代入P(μ |Xi)可以得到后验概率，再用公式
P( | X i )d , 求的估计
1 N 1 1 X k N k 1

1 2 2 1 N

k 1
N

Xk
2

即学习样本的算术平均样本方差
• 结论： 1.正态总体均值的最大似然估计即为学习样本的算术平均 2. 正态总体方差的最大似然估计与样本的方差不同，当 N 较大的时候，二者的差别不大。多维情况：n个特征估计值： T 1 N 1 N 1 Xk 2 N Xk Xk k 1 N k 1
贝叶斯风险最小,即为贝叶斯估计.
最大似然估计是把待估的参数看作固定的未知量，而贝叶斯估计则是把待估的参数作为具有某种先验分布的随机变量，通过对第i类学习样本Xi的观察，使概率密度分布P(Xi/θ)转化为后验概率P(θ/Xi) ，再求贝叶斯估计。估计步骤: ① 确定θ的先验分布P(θ),待估参数为随机变量。 ② 用第i类样本xi=(x1, x2,…. xN)T求出样本的联合概率密度分布 P(xi|θ)，它是θ的函数。 i P ( | ).P( ) X i ③ 利用贝叶斯公式,求θ的后验概率 P( | X ) i P ( | ) P( )d X
2 ˆ ˆ ( , ) ( )
定理: 如果损失函数为二次函数,即
2 ˆ ˆ ( ) ( )
则

ˆ 为在给定x时的贝叶斯估计量

的条件期望，即
ˆ E[ x] p( x)d

参数估计问题: 设有一个样本集
,要求我们找出估计量 ˆ 用来估计所属总体分布的某个真实参数使带来的
1 N 1 2 1 N 0 a' ' exp{ [( 2 2 ) 2( 2 Xk 2 ) ]} 2 0 k 1 0
其中a’,a’’包含了所有与μ 无关的因子

2
1 1 0 2 exp[ ]} 2 0 2

∴P(μ | xi)是u的二次函数的指数函数 ∴P(μ | xi)仍然是一个正态函数, P(μ |Xi)=N(μ N,σN2)
3.2 参数估计的基本概念
(1)统计量: 样本中包含着总体的信息,针对不同要求构造出样本的某种函数,这种函数在统计学中称统计量.
(2) 参数空间: 假设总体概率密度函数形式已知,未知分布中的参数的全部可容许值组成的集合称为参数空间,记为 (3) 点估计、估计量、估计值：点估计问题就是要构造 ˆ 一个统计量 d ( x1 , x2 ,...xN ) 作为参数的估计