概率密度估计及近邻法

合集下载

概率密度估计

1、概率密度函数在分类器设计过程中（尤其是贝叶斯分类器），需要在类的先验概率和类条件概率密度均已知的情况下，按照一定的决策规则确定判别函数和决策面。

但是，在实际应用中，类条件概率密度通常是未知的。

那么，当先验概率和类条件概率密度都未知或者其中之一未知的情况下，该如何来进行类别判断呢？其实，只要我们能收集到一定数量的样本，根据统计学的知识，可以从样本集来推断总体概率分布。

这种估计方法，通常称之为概率密度估计。

它是机器学习的基本问题之一，其目的是根据训练样本来确定x（随机变量总体）的概率分布。

密度估计分为参数估计和非参数估计两种。

2、参数估计参数估计：根据对问题的一般性认识，假设随机变量服从某种分布（例如，正态分布），分布函数的参数可以通过训练数据来估计。

参数估计可以分为监督参数估计和非监督参数估计两种。

参数估计当中最常用的两种方法是最大似然估计法和贝叶斯估计法。

监督参数估计：样本所属类别及条件总体概率密度的形式已知，表征概率密度的某些参数是未知的。

非监督参数估计：已知样本所属的类别，但未知总体概率密度函数的形式，要求推断出概率密度本身。

3、非参数估计非参数估计：已知样本所属的类别，但未知总体概率密度函数的形式，要求我们直接推断概率密度函数本身。

即，不用模型，只利用训练数据本身来对概率密度做估计。

非参数估计常用的有直方图法和核方法两种；其中，核方法又分为Pazen窗法和KN近领法两种。

概率密度估计--参数估计与非参数估计我们观测世界，得到了一些数据，我们要从这些数据里面去找出规律来认识世界，一般来说，在概率上我们有一个一般性的操作步骤1. 观测样本的存在2. 每个样本之间是独立的3. 所有样本符合一个概率模型我们最终想要得到的是一个概率密度的模型，有了概率密度模型以后，我们就可以统计预测等非常有用的地方，因此，首要任务是找出一些概率分布的概率密度模型。

我们来分析一下上面的三个步骤，第一第二都很好解决，关于第三点，我们可以有不同的处理方式如果我们已经对观测的对象有了一些认识，对观测的现象属于那种类型的概率密度分布已经了解了，只是需要确定其中的参数而已，这种情况就是属于参数估计问题。

概率密度函数的估计.

∵ P(Xk| μ )=N(μ ,σ2),P(u)=N(μ 0,σ02)
P ( | X i ) a
k 1
1 1 Xk exp{ 2 2
1 N Xk 2 0 2 a' exp{ [ ]} 2 k 1 0
1 N 1 2 1 N 0 a' ' exp{ [( 2 2 ) 2( 2 Xk 2 ) ]} 2 0 k 1 0
三. 参数估计的基本概念
1. 统计量：样本中包含着总体的信息，总希望通过样本集把有关信息抽取出来。也就是说，针对不同要求构造出样本的某种函数，该函数称为统计量。 2. 参数空间：在参数估计中，总假设总体概率密度函数的形式已知，而未知的仅是分布中的参数，将未知参数记为，于是将总体分布未知参数的全部可容许值组成的集合称为参数空间，记为。 3. 点估计、估计量和估计值：点估计问题就是构造一个统计量d x1, , xN 作为参数 θ 的估计ˆ ，在统计学中 i i 是属于类别的几个称 ˆ 为 θ 的估计量。若 x1 , , xN i 样本观察值，代入统计量d就得到对于第i类的ˆ 的具体数值，该数值就称为 θ 的估计值。

Xk

T
结论：①μ 的估计即为学习样本的算术平均

②估计的协方差矩阵是矩阵 X k X k 的算术平均（nⅹn阵列， nⅹn个值）

T
二. 贝叶斯估计
极大似然估计是把待估的参数看作固定的未知量，而贝叶斯估计则是把待估的参数作为具有某种先验分布的随机变量，通过对第i类学习样本Xi的观察，通过贝叶斯准则将概率密度分布P(Xi/θ)转化为后验概率P(θ/Xi) ，进而求使得后验概率分布最大的参数估计，也称最大后验估计。估计步骤：

三概率密度估计

1 ˆ n ( x) = p d nhn
选择。
x − xi k( ). ∑ hn i =1
n
hn 是控制“窗”宽度的参数，根据样本的数量
36
3.2 非参数估计
x − xi 1 ) 是以 xi为中心，宽 h n的窗。 k( d hn hn
满足归一化条件：
∫
ℜd
x − xi 1 )dx = 1 k( d hn hn
其它
-1/2
1/2
33
3.2 非参数估计

正态（高斯）核：
x 1 k ( x) = exp(− ). 2 2π
2
34
3.2 非参数估计

核函数要满足概率密度函数的条件。
∫
ℜ
d
k ( x)dx = 1.
35
3.2 非参数估计

Parzen窗法：
把核函数看作“窗”，根据样本
x1 , x2 , L , xn ,
26
3.1 参数估计

Bayes(MAP)估计与ML估计的关系：

当样本数趋于无穷时，MAP估计一般趋向于ML 估计。 ML估计也可以看作参数的先验概率密度函数服从均匀分布（相当于没有先验知识）的MAP估计。当参数的先验概率密度函数比较准确时，MAP 估计的小样本性质大大优于ML估计。

27

给定某类训练数据 — 样本
x1 , x2 , L , xn ,

xi ∈ ℜ ,
d
假设已知 X 所服从的分布形式，待估计的参数为θ 。例如，假定 X 服从正态分布N ( µ , ∑)，待估参数是 θ = ( µ , ∑ ).
8
3.1 参数估计

第6章_近邻法

i
K近邻法
(1)已知N个已知类别样本X
(2)输入未知类别样本x
(3)计算x到 xiX，(i=1, 2,…,N)的距离di(x)
(6) 判xω2 (4)找出x的k个最近邻元Xk={xi,i=1,2,…,k} (5)看Xk中属于哪一类的样本最多k1=3<k2=4

讨论k为奇数时的两类问题
xi X p
第二阶段用搜索算法
检验未知样本x的最近邻是否在X p中的两个规则。规则1:如果存在 B rp D x, M p 则xi X p 不可能是x的最近邻。其中B是在算法执行过程中，对于已涉及到的那些样本集X p中的样本到x 的最近距离。初始B可置为，以后的B在算法中求得。
c * P P P 2 P c 1 * 其中P 为贝叶斯错误率，c为类数。
* *
可以证明，当样本数相当多时，近邻法错误率与贝叶斯错误率存在以下关系：
• 上式表明，当样本数相当多时，近邻法的错误率在贝叶斯错误率和两倍的贝叶斯错误率之间。
最近邻法错误率上下界与贝叶斯错误率的关系
５在目录表中选择最近节点p, 它使D x, M p 最小化，并
称该p为当前执行节点，从目录表中去掉p。如果当前的水平L是最终水平，则转步骤6。否则置L L 1，转步骤2。
６对现在执行节点p中的每个x，利用规则２作如下检验。
如果
D x, M p D xi , M p B
规则2:如果存在
B xi , M p D x, M p
其中xi X p，则xi 不是x的最近邻。 D x, xi D x, M p D xi , M p B D xi , M p 在计算rp中已用到，并可存储在机器中。

模式识别(李春权)第3章概率密度估计

© 李春权模式识别哈尔滨医科大学生物信息科学与技术学院 2012 19
基本方法

设样本集为D={x1，x2，x3}，每个样本xi对以它为中心，宽度为h的范围内分布的贡献为a，要想估计p(x)，可以把每个样本点的贡献相加近似作为这点的密度，对任意点都这样做，则得到分布p(x)。当N足够大时，将有好的估计效果。
1 4 2 2
© 李春权模式识别
4 3 4 6
哈尔滨医科大学
W1 W1 W2 W2
生物信息科学与技术学院 2012 28
计算机求解：计算样本均值向量和协方差矩阵
已知 y<-matrix(c(1,1,4,2,4,3),3,2) 计算均值向量apply(y,2,mean) 得到结果为 2 3 用cov(y)*2/3计算样本协方差矩阵得： [,1] [,2] [1,] 2 0.0000000 [2,] 0 0.6666667
R
(如果R足够小，则p(x)几乎不变)
k/N ˆ ( x) p V
© 李春权模式识别哈尔滨医科大学生物信息科学与技术学院 2012 23
两种主要方法：Parzen窗法和kN-近邻法
k/N ˆ ( x) p V
Parzen窗法
固定体积（例如：），计算落入区域的样本数k kN-近邻法 k N 固定落入区域样本数k（例如：），计算落入k个样本需要的体积V

1 ˆ 1 N

x
k 1
N
k

© 李春权
2
1 2 N

哈尔滨医科大学
(x
k 1
N
k
ˆ)
2
模式识别
生物信息科学与技术学院

第三章概率密度函数的估计

当 0 ≤ x ≤ θ 时， p (x | θ ) = 的最大似然估计是
解：定义似然函数 l (θ ) =
k
1
θ
，否则为0。证明θ
max x k 。
∏ p (x
k =1
N
k
|θ )
1 dH = 0，即 − N ⋅ = 0 H (θ ) = ln l (θ ) = − N ln θ ，令 dθ θ 方程的解 θ ＝ ∝ ，但实际问题中，θ ≠∝ 。 1 已知有N个随机样本，且 0 ≤ x ≤ θ 时， p (x | θ ) =

参数估计中的基本概念统计量参数空间点估计、估计量和估计值区间估计参数估计判断标准无偏性有效性一致性

3.2最大似然估计
（1）前提假设

参数θ（待估计）是确定（非随机）而未知的量样本集分成c类，为A1，A2，…，Ac，Aj的样本是从概率密度为 p x | ω j 的总体中独立抽取出来的。
i =1 i =1 i =1 i =1
N
(
)
N
N

例3.2：设x服从正态分N(μ,σ2)，其中参数μ、 σ2未知，求它们的最大似然估计量。
N
解：设样本集 A = {x1 , x2 ,..., xN }，定义似然函数 l (θ ) = ∏ p(xi | θ )
i =1 2 ⎧ ⎡ ( xi − μ ) ⎤ ⎫ ⎪ ⎪ 1 exp⎢− H (θ ) = ln l (θ ) = ∑ ln p (xi | θ ) = ∑ ln ⎨ ⎥⎬ 2 2σ ⎪ i =1 i =1 ⎣ ⎦⎪ ⎭ ⎩ 2π σ 2 N ⎧ ⎫ ( ) x − 1 1 μ 2 i = ∑ ⎨− ln 2π − ln σ − ⎬ 2 2 2σ i =1 ⎩ 2 ⎭ N N 2

第5章近邻法

i m i m
P ( x ) 1 P ( x ) P (e x ) m i c
min P 2 (i x )
im c
P 2 (e x ) c 1
2 2 2 P ( x ) P ( x ) P m i (i x ) i1 i m
1, 0 x cr c 1 p( x) 1 , 其它 c
返回本章首页
第5章近邻法
1 1 , 0 x cr P (e x ) 1 P(m x ) c c 1 其它 0, 1 ) p( x )d x c 1 cr r c c c 1 cr c c 2 1 P 1 P (i x ) p( x )d x c1 1 2 p( x )d x P 0 i1 i1 c P P (e x ) p ( x ) d x
1 P (e x ) P 2 (i x ) 1 2 P (e x ) c P 2 (e x ) c 1
i m
2
返回本章首页
第5章近邻法
2 c P 2 (e x ) P ( x ) 1 2 P ( e x ) i c 1 i1 c
P(m x) max P(i x) i 1,2, , c 采用N个样本的最近邻法的平均错误率 PN (e) ，并设 P lim PN (e)
N
返回本章首页

第5章近邻法
则有以下的不等式成立：
c P P P P 2 c 1
证明：最近邻法属于随机化决策，待分类模式 x 的近邻随样本集的变化而随机变化，设其最近邻为 x ，错误的条件错误率为 PN (e x, x) 。对于 x 取平均

[数学]第3章概率密度函数估计 - 西安电子科技大学

N
N
如果噪声是零均值的, 即对所有的i, E(vi)=0, 可得 sˆ 为s 的一个无偏估计; 反之, sˆ 为有偏估计。
第3章概率密度函数估计
定义3.2 若对所有的θ lim b(ˆ) 0
N
(3-3)
则称ˆ =g(x1, x2, …, xN)是θ的一个渐进无偏估计。
【例 3.2】考虑平稳过程的自相关函数R(l)=E［x(t)x(t+l)］的两个估计
第3章概率密度函数估计
2. Cramer-Rao下界(估计的方差性质)
除了偏差以外, 一个估计的基本特性还体现在方差上。
一般地, 要得到精确的方差是比较困难的, 人们希望得到方
差可能达到的下界。下面的定理3.1表明, 无偏估计的方差
存在一个下界, 常称为Cramer-Rao下界。
定理3.1 令x=(x1, x2, …, xN)为样本向量, p(x|θ)为x的联
第3章概率密度函数估计
(2) 非参数估计就是在概率密度函数的形式未知的条件下, 直接利用样本来推断概率密度函数。常用的非参数估计方法有Parzen窗法和kN－近邻法。
第3章概率密度函数估计
3.2 参数估计的基本概念与评价准则
3.2.1
1. 设观测样本为x1, x2, …, xN, 统计量g(x1, x2, …, xN)是x1, x2, …, xN的(可测)函数, 与任何未知参数无关。统计量的概率分布称为抽样分布。 2. 参数空间未知参数θ的全部可容许值组成的集合称为参数空间, 记为Θ。
E
(ˆ
第3章概率密度函数估计
3. 点估计、点估计是确定待定参数的单个估计值, 即要构造一个统计
量 ˆg(x1,x2, ,xN) 作为参数θ的估计。在统计学中, 称

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

p(m | x)
N
a
k 1
1
2
s
exp
1 2
(xk m)2 s2
1
2
s
0
exp
1 2
(m
s
m0
2
0
)2
a,
exp
1 2
N
(
k 1
m
s
xk
)2
(
m
m0 s0
)2
a,,
exp
1 2
n
(s 2
1
s2 0
)m 2
1 2(
s2
N
xk
k 1
m0 s2
0
)m
与m无关项并入a"
k 1
mˆ
1 N
N k 1
xk
• 未知均值的极大似然估计正是样本的算术平均。
Exceltek Electronics (HK) Ltd Confidential
② 一维正态情况，两个参数均未知，设q1＝m， q2＝s 2 , q＝[q1,q2 ]T 。
分布形式 p(xq )
1
2 s
exp
1 2
• Bayes参数估计步骤：
①确定q 的先验概率密度函数p(q)；
②由样本集 x = {x1,x2,…,xN}计算样本的联合分
布
p(x
|q
)
N
p( xk
|
q
)
，它是
q
的函数
；
③用Bayes公k式1 求后验分布p(q | x)
p(q | x) p(x |q ) p(q | x)
p(x |q ) p(q | x)dq
•
协方差矩阵的无偏估计为
1 N 1
N k 1
( xk
mˆ )( xk
mˆ )T
Exceltek Electronics (HK) Ltd Confidential
2. Bayes估计和Bayes学习
Bayes估计：根据样本集 x 确定总体某个参数q
Bayes学习：利用样本集 x 确定概率密度函数 p(x)
⑴Bayes估计
基本原理：把参数q当作具有某种先验分布p(q) 的随机变量, 对样本x观察使先验分布qˆ转化为后验分布p(q|x)，据此再修正原先的估计。
假设：
①把所有的样本按类别分成c个子集。每个子集有 N个样本 x = {x1,x2,…,xN}。每类可单独处理。
②已知样本的分布形式p(x|q) ，而参数q 未知。
中xj中的样本是从概率密度为p(x|wj)的总体中
独立抽取的。
②p(x|wj)形式已知, 参数qj未知, 可写成p(x|wj,qj)
。
q ③不同类的参数独立，即x 不包含 Exceltek Electronics (HK) Ltd iConfidential j信息(i≠j)这
• 设某类有N个样本组成了样本集 x＝{x1,x2,···,xN} 样本是独立从该类抽取的，因此N个随机变量的联合概率密度
N a
k 1
p( xk
| m) p(m)
a 1/ p(x | m) p(m)dm a－比例因子与μ无
Exceltek Electronics (HK) Ltd Confidential
• 根据上述假设：p(xk | m) ~ N (m,s 2 )
p(m)
~
N
(m0
,s
2 0
)
• 代入计算后验概密 p(μ|x)
④求样本的估计量q
损失函数为二次函数时，贝叶斯估计量qˆ是在
给定x条件下的条件期望：
qˆ＝E[q | x] Θqp(q | x)dq
Exceltek Electronics (HK) Ltd Confidential
⑵正态分布情况的Bayes估计举例
①样本为一维正态分布 p(x|m)～N(m,s 2)，m未知
直接利用样本设计分类器。非参数(即分类中不需要估计概率密度函数) 方法之一。
Exceltek Electronics (HK) Ltd Confidential
5. 参数估计的几个基本术语 ⑴统计量：每个训练样本都包含总体信息。根据
从总体中抽取的样本集构造某种函数, 该函数统计学中称为统计量。
(
x
s
m
)2
似然函数
ln
p( xk
q)
1 2
ln
2q 2
1
2q 2
( xk
q1 ) 2
两个变量的梯度
q
ln
p( xk
q)
q121( 2q2
xk
q1 )
(xk
2q
q1
2 2
)
2
Exceltek Electronics (HK) Ltd Confidential
求极大似然估计qˆ1、qˆ2 需满足下列条件
• 概率密度函数含参数和形式两方面内容，分别称为参数估计和非参数估计。其估计方法：
1. 监督参数估计
已知样本类别wi及其p(x|wi)形式，而参数未知，需从训练样本x估计参数q，如一元正态分布的m 、s 2等参数。
Exceltek Electronics (HK) Ltd Confidential
N个样本的概率。 • 极大似然估计值定义：
令l(q) 为样本集x的似然函数，在Θ的参数空间中能使l(q) 极大化的那个qˆ 值。
Exceltek Electronics (HK) Ltd Confidential
• 极大似然法的主要思想：如果在一次观察中一个事件出现了，则这个事件出现的可能性最大。事件x＝{x1,x2,…xN}在一次观察中(即从总体中抽取
N
s2
1
s0
2
mN
m0 s 02
,
mN
1 N
N
xk
k 1
样本的均值
解得
m
N
s
2 N
Ns 02
Ns
2 0
s
2
s 02s 2
Ns
2 0
s
2
mN
s2
Ns
2 0
s
2
m0
由样本集得到m的后验概密p(m
计算方法和形式完全类似，只是复杂些，计算结
果：
mˆ
1 N
N
xk
k 1
ˆ
1 N
N
(xk
k 1
mˆ )(xk
mˆ )T
其中xk 为第k个抽样，是d维向量。
• 均值向量的极大似然估计是样本的均值，而协方差的极大似然估计是N个矩阵 ( xk mˆ )( xk mˆ )的T 算术平均。这是一致估计。
6
p(x |q ) p(xk |q ) 有不同值, k 1
A点和B点时较小,在C点时p(x |q )达极大,对应qˆ为均值。
Exceltek Electronics (HK) Ltd Confidential
• 假设似然函数p(x|q) 对未知参数q 是连续可微的
，则可qˆ 由典型的求极值的方法求得。
• 对数似然函数H (q )
H (q ) ln[l(q )] ln p( x |q )
ln p( x1, , xN | q1, ,qs )
在N个样本独立抽取的条件下
N
N
H (q ) ln p( xk |q ) ln p( xk |q )
k 1
k 1
N
而 q H (q ) q ln p( xk |q )
• 求极大值的必要条件
单个q 的情况下：dl(q ) 0
dq
若q 是向量，有s个分量q =[q1,···,qs ]T，则多变量
的梯度算子
q
q1
qs
• 对数似然函数H(q)是单调的增函数，为计算方
便，一般用对数似然函数。
Exceltek Electronics (HK) Ltd Confidential
• p(μ|x)是μ的二次函数的指数函数，仍是正态密度, 写成
p(m
|
x)
~
N
(m
N
,s
2 N
)
p(m | x) 1 exp[ 1 ( m mN )2 ]
2s N
2 sN
Exceltek Electronics (HK) Ltd Confidential
1
比较后得到smNN2 s N 2
N
s2
损失函数 (qˆ,q ) (qˆ q )2
R为给定条件下某个估计量的期望损失，常称
为条件风险。使条件风险最小的估计量q，也
就是贝叶斯估计。
• 经推导(P.52定理3.1)使用平方误差损失函数时
，得到估qˆ计量E(q为|条x)件期Θq望p(q：| x)dq
Exceltek Electronics (HK) Ltd Confidential
⑵参数空间：概率密度形式已知，参数q 未知, q
可取值的集合称为参数空间，记为Θ。 ⑶点估计、估计量和估计值：构造一个统计量
f(x1,···,xn) 作为参数q 的估计量qˆ 。如果
x1,···,xn属于某类，代入统计量f，就可得到该类具体的估计值。本章参数估计属于点估计。
⑷区间估计－要求用区间(d1, d2)作为q 可能取值范
q q ③ 为随机变量, 已知其先验概密函数p( Exceltek Electronics (HK) Ltd Confidential ) 。
贝叶斯估计和最小风险贝叶斯决策可统一： • Bayes估计：有一个样本集x，用来估计所属总
体分布的某个参数，使带来的贝叶斯风险最小。

概率密度估计及近邻法