基于EM算法的高斯混合模型参数估计

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Q (θ ,θ g)=ΣΣlog [αl pl (xi|θl )]p (l|xi,θ )
i i i
=Σlog (αy py (xi|θy ))
i=1
(15 )
M N
l=1
i=1
如果知道类条件密度函数形式 , 那么估计问题可 以得到解决 。 但是目前这个问题还不能解决 , 问题就在 于并不知道 y 的取值 。 下面确定 y 分布 。 设初始的参数 估计值为 :
EM 算法的第一步 E-step : 即给定观测 X 值和当
前参数估计值 , 计算完全数据对数似然函数 logp (X,Y|
知道它们是从混合密度为 p(x|θ)的总体中独立抽取的 ,
M
θ)关于未知数据 Y 的期望 。 为此 ,定义对数似然函数的
期望 :
Q (θ ,θ(i-1))=E [logp (X ,Y|θ )|X ,θ(i-1)]
0
引 言
EM 算法是一种从 “ 不完全数据 ” 中求解模型参 数
θ={θ1,…,θM},这个密度函数由参数 θ 完全决定 。 已知 N
个观测值 x1,…,xN, 假设它们是从分布密度为 p (x|θ ) 的 总体中独立抽取的 。 记 X={x1,…,xN} ,则 :
N
的 极大似然估计的方法 , 所谓 “ 不完全 数 据 ” 一 般 有 两 种情况 :① 由于观察过程本身的限制或者错误 , 造成观 察数据成为错漏的不完全数据 ; ② 参数的似然函数直 接优化十分困难 , 而引入额外的参数 ( 隐含的或丢失 的 ) 后就比较容易优化 。 于是定义原始观察数据加上额 外数据组成 “ 完全数据 ”, 原始观察数据自然就成为 “ 不 完全数据 ”。
(7 )
样本的对数似然函数表达式为 :
N
为一随机变量 , 并假设它服从某一分布 f ( · ),
(xi|θ )=
log (L (θ |X )) =log 仪 p
i=1
Σlogp(x |θ)
i i=1 N
因此 , 式 (6 ) 可写为 :
Q (θ ,θ(i-1))=E [logp (X ,Y|θ )|X ,θ(i-1)] =
i=1 N
= 仪 [Σp (yj|xj,θ )]p (l|xi,θ )
yj=1 g
i
=Σlog (p (xi,yi|θy ))
i=1 N
=p (l|xi,θ )
(20 )
=Σlog (p (xi,yi|θy ))py (yi|θy ))
i=1 N
i i i
由式 (19)和式 (20), 得 :
M N g
极大似然估计是一种常用的参数估计方法 , 它是
以观测值出现的概率最大作为准则 。 设 x 为连续随机变量 , 其分布密度函数为 p (x|θ ),
收稿日期 :2011-06-09 修稿日期 :2011-07-13
作者简介 : 余爱华 (1978- ), 女 , 福建人 , 讲师 , 从事领域为计算机软件与理论 、 计算机网络教学与研究工作
M
N
( l )p (l|xi,θg)+λ
=0 ≠ 鄣 Σα - 1 鄣
l=1 l
M
, (22 )
p (y|X ,θ )=仪p (yi|xi,θ )
i=1
g
g
(18 )
l=1 ,…,M
得:
αl = 1 N

其中 Y = {y1,…,yN} 是隐变量 Y 的一 次 样 本 实 现 , 且独立同分布 。 由此可知 , 如果给出参数初始估计值 , 并且假设存在隐变量 y , 由式 (18) 就得到 y 的边沿分布 密度函数 。 由式 (8)、(15 )、(18) 可知 , 完全数据的似然 函数为 :
的数据是 Y , 完全数据 X= (Y ,Z ),Z 是缺失数据 ,θ 是模 型参数 。 θ 关于 Y 的后验分布 p (θ|Y ) 均很复杂 ,难以进 行各种不同统计计算 。 假如缺失数据 Z 已知 ,则可能得 到一个关于 θ 的简单的添加后验分布 p (θ |y ,z ), 利用 p (θ|y ,z ) 的简单性我们可以进行各种统计计算 。 然后 ,我 们可以对 Z 的假定作检查和改进 , 如此进行 , 我们将一 个复杂的极大化或抽样问题转化为一系列简单的极大 化或抽样问题 。
=Σlog
i=1
仪 Σ α p x |θ 仪
j j
M

i
j

(14 )
j=1
ቤተ መጻሕፍቲ ባይዱ

y∈D
logp (X ,y|θ )f (y|X ,θ(i-1))dy
(8 )
极大似然估计就是求使公式 (14) 中的函数 L (θ|X) 达到极大时参数 θ 的值 。 最大化这个似然函数是很困 难的 , 因为它包含和式取对数 。 我们已经提到 , 通过假 设隐变量的存在可以大大 简 化 似 然 函 数 方 程 的 求 解 。 下面讨论基于 EM 算法的混合密度参数估计问题 。
现代计算机
2011.08

研究与开发
际应用中的一种有效方法 。
由乘法公式 , 得 :
f(y,X|,θ(i-1))=f(y|X,θ(i-1))f(X|θ(i-1))
(9 )
2
EM 算法
EM 算法是进行极大似然估计的一种有效方法 ,它
由于因子 f(x|θ(i-1))与 θ 无关 , 所以在实际问题处理 中 , 用 f(y,X|θ(i-1))代替 f(y|X,θ(i-1))不影响式 (8 ) 中似然函 数的最优化 。 定义二元函数 :
M M l ,yi N g j j
N
Σ…Σδ 仪p(y |x ,θ )
yl=1 yN=1 M j=1 M

≠ Σ
yl=1 N j=1 ,j≠i

p (l|x ,θ ) ΣΣ… Σ 仪 p(y |x ,θ ) ≠
g g j j i yi-1=1 yi=1 yN=1 j=1 ,j≠i g M g
M
N
log (p (X ,Y|θ ))=log仪p (xi,yi|θ )
(16 )
项 I2 只 含 有 参 数 θ1, 因 此 最 大 化 似 然 函 数 Q (θ ,θ g) 可 分别最大化式 (20)中的两项 I1 和 I2。 为 了 得 到 参 数 估 计 αl , 只 需 最 大 化 式 (20) 中 的 项

由贝叶斯公式 , 得 :
p (yi|xi,θ )=
g
(6 )
p (x|θ )=Σαipi(x|θi)
i=1
(13 )
M
其中 θ (i-1)为已知的当前参数估计值 。 在式 (6 ) 中 ,X 和 θ
y~f (y|X ,θ(i-1))
(i-1)
其中参数 θ= (α1,…,αM,θ1,…,θM),且Σαi=1。 观测
i=1
N
为常数 ,θ 为待优化的参数 。 Y
研究与开发
基于 EM 算法的高斯混合模型参数估计
余爱华
( 正德职业技术学院 , 南京 211106 ) 摘 要 : 讨论在一般的混合分布条件下 , 用 EM 算法 , 在最小熵原理的优化准则下的 数 据 拟合 问 题 。 简单推导有限混合高斯分布的 EM 算法 , 并针对其收敛速度慢的缺点设计 一 种 有效 的 选 取 参数初始值的方法 。 实 验 结 果表 明 , 该 方法 有 助 于 EM 算 法 以 较快 的 速 度在 参 数 真值 附 近 收敛 。 关键词 : 混合模型 ; 极大似然估计 ; EM 算法
(3 )
求解方程组 (3),可以得到极大似然估计值 θ 。 但是 , 极大似然估计存在的问题是 , 对于许多具体 问题不能构造似然函数解析表达式 , 或者似然函数的 表达式过于复杂而导致求解方程组 (3) 非常困难 , 因此 须借助于其他方法 。 下面将要介绍的 EM 算法就是实
1
极大似然估计 (MLE)
Q (θ ,θ )=Σlog (L (θ|X ,y ))p (y|X ,θ )
y∈D N
i i i
N
Σp(l|x ,θ ),l=1,…,M
i g i=1

(23 )
为了得到参数估计 θl , 须知道 x 的条件概率密度 函数形式 。 这里假设 x 服从高斯分布 , 均值为 μl, 方差 为 Σl , 即 θl = (μl,Σl )。 这样有 ,
研究与开发
假设 X 为非完全数据 , 并且存在一个不可观测的 数据 Y= {y i } i=1 , 它的取值表示某一个观测数据来自某 一类 , 由此隐变量假设可知 ,yi∈{1, … ,M} ,yi=k 表示第 i 个观测数据属于第 k 类 。 如果知道 y 的取值 , 那么 :
N M
对于 l∈{1,…,M} ,
h (θ ,Y )芊logL (θ|X ,Y )
(10 )
主要应用于下面两种非完全数据参数估计 : ① 观测数 据不完全 , 这是由于观测过程的局限性所导致 ;② 似然 函数不是解析的 , 或者似然函数的表达式过于复杂从 而导致极大似然函数的传统估计方法失效 , 第二种情 况在模式识别中经常遇到 。 假设 X 是服从某一分布的非完全观测数据集 , 且 存在一个完全数据集 Z= (X ,Y ), 则 Z 的密度函数为 :
其中 Θ 代表参数空间 。
EM 算法是一种迭代算法 , 每一步迭代都能保证似
然函数值增加 , 并且收敛到一个局部极大值 。
称此函数为完全数据似然函数 。 由于隐变量 Y 未 知 , 因此似然函数 L (θ|Z ) 是随机的 , 且由隐变量 Y 所决 定。
3
混合密度参数估计
设样本集 X={x1,…,xN},每个样本的类别未知 ,但可以
其中 Θ 表示参数空间 。 为了便于求出使 L (θ|X ) 达 到极大的 θ ,通常对式 (1) 两边取对数 ,即 :
N
ln (L (θ|X ))=Σln (p (xi|θ ))
i=1
(2 )
将式 (2) 分别对 θi 求偏导 , 令偏导数等于零 , 得 方 程组 :
鄣 ln (L (θ|X ))=0 ,i=1 ,…,M 鄣θi
其中 f (y|X,θ (i-1)) 是不可观测数据 Y 的边沿分布密 度函数 ,并且依赖于观测数据 X 和当前参数 θ(i-1),D 为 y 的取值空间 。 在一些特殊情况下 ,边沿分布 f(y|X,θ(i-1))是
X 和 θ (i-1)的简单解析函数 , 但通常这个函数很难得到 。

现代计算机
2011.08
p (z|θ )=p (x ,y|θ )=p (y|x ,θ )p (x|θ )
(4 )
其中 y 服从某一分布 fY(y )。 那么 :
EY[h (θ ,Y )]=
乙h(θ,Y)f (y)dy芊q(θ)
y Y

(11 )
从 式 (11) 可 知 EY[h (θ ,Y)] 是 关 于 θ 的 函 数 , 以 通 过简单的最优化 方法得到参数 θ 的估计值 θ 。 期望值
L (θ|Z )=L (θ|X ,Y )芊p (X ,Y|θ )
(5 )
EY[h(θ,Y)]的计算也就是 EM 算法的 E-step 。 EM 算法的第二步 M-step:最大化期望值 Q(θ,θ(i-1)),
即找到一个 θ i, 满足 :
θ i=argmin (Q(θ,θ(i-1)))
Θ
(12 )
pl (x| μl,Σl )= 1
g
g
N g
=ΣΣlog [αy py (xi|θy )]仪p (yj|xj,θ )
p (X|H )=仪p (xi|θ )芊L (θ|X )
i=1
(1 )
函数 L (θ|X ) 称为似然函数 。 当 X 固定时 ,L (θ|X ) 是
θ 的函数 。 极大似然参数估计的实质就是求出使 L(θ|X)
达到极大时 θ 值 ,即 :
θ=argmin (L (θ|X ))
Θ
EM 算法基本原理可以表述如下 : 我们可以观察到
从式 (4) 可以看出 , 密度函数 p (z|θ ) 是由边沿密度 函数 p (x|θ )、 隐变量 y 的假设 、 参数 θ 初始估计值以及 隐变量与观测变量之间的关系决定 。 下面讨论密度函数 p(z|θ ) 的具体形式 。 由式 (4) 给出的密度函数 可 以 定 义 一 个 新 的 似 然 函数 :
αy py (xi|θy )
i i i
g
g
αy py (xi|θy )
i i i
g
g
p (xi|θ )
g
M
(17 )
I1, 这是一个条件极值问题 , 因此需要引入一 个 拉 格 朗
日乘子 λ , 解方程 :
鄣 鄣αl
Σα p
k=1 k
g
k
(xi|θk )
g
进而可得 :
N
ΣΣlog α ≠
l=1 i=1
θ = (α1 ,…,αM ,θ1 ,…,θM )
g g g g g
M
N g
=ΣΣlog (αl )p (l|xi,θ g)+ΣΣlog (pl (xi|θl ))p (l|xi,θ )
l=1 i=1 l=1 i=1
=I1+I2
(21 )
由式 (21)明显看到 , 第一项 I1 只含有参数 α1, 第二
相关文档
最新文档