基于EM算法的高斯混合模型参数估计

合集下载

基于EM算法的混合模型参数估计

基于EM算法的混合模型参数估计作者：樊菊兰来源：《科教导刊·电子版》2018年第06期摘要有限混合模型是用于分析复杂问题的一个有效的建模工具。

在诸多的混合模型中，混合高斯模型的应用更为广泛，尤其是在图像处理、人脸识别、通信和信号处理等。

理论及数值试验充分证明：混合高斯分布模型能够逼近任何一个光滑分布，而对该模型参数的有效估计是准确分析、模拟复杂问题的必要前提。

EM算法自从提出，就已成为一种非常流行地处理不完全数据的极大似然估计的方法。

恰好我们经常处理的样本数据集通常可看作是不完全数据，进而EM算法就为混合高斯模型的参数估计提供了一种标准框架。

关键词 EM算法 R软件混合模型高斯混合参数估计中图分类号：O212 文献标识码：A0引言EM 算法就是一种一般的从“不完全数据”中求解模型参数的极大似然估计的方法，它是在观察数据的基础上添加一些“潜在数据”，从而简化计算并完成一系列简单的极大化或模拟。

EM 算法的每一步迭代中包括一个 E 步――期望步（Expectation Step）和一个M 步——极大似然步（Maximum Likelihood Step）。

算法的优势在于它在一定意义下可靠地收敛到局部极大，也就是说在一般条件下每次迭代都增加似然函数值，当似然函数值是有界的时候，迭代序列收敛到一个稳定值的上确界。

缺点是当缺失数据比例较大时候，它的收敛比率比较缓慢。

混合分布是有限个分布的组合，它综合了各个分支的性质和特点，它具有许多优势：（1）可以用来模拟复杂的数据或问题。

由于混合模型拥有许多不同类型的混合形式，有相同总体的混合，也有各种不同总体的混合。

因此，可以根据数据的不同情况，来选择与之相符的混合模型来进行模拟。

（2）为同性质和异性质的模拟提供了一个方法。

当m= l时，该模型就是一个单一分布。

当m〉l时，它就是分布的线性组合。

在现实生活中，许多现象都非常复杂，不同元素往往具有各不相同的性质，这时，混合模型是一个最合适的工具，因为它可以把元素所满足的分布都综合起来，组合成一个新的分布，在这个新的混合分布的基础上，再进行下一步的分析。

高斯混合模型中的参数估计与EM算法详解

高斯混合模型中的参数估计与EM算法详解高斯混合模型（Gaussian Mixture Model，GMM）是一种常用的概率统计模型，用于描述由多个高斯分布构成的数据集。

在实际应用中，参数估计是使用GMM的关键步骤之一，而期望最大化（Expectation Maximization，EM）算法是一种常用的参数估计方法。

本文将详细介绍GMM的参数估计方法与EM算法的原理。

首先，我们需要理解高斯混合模型。

GMM是由多个高斯分布组合而成的概率分布模型。

每个高斯分布称为一个分量，是由均值、方差和权重组成的。

其中，均值表示分量的中心位置，方差表示分量的散布程度，权重表示每个分量在整个数据集中的相对重要性。

在GMM中，参数估计的目标是通过已知的数据集，估计出每个分量的均值、方差和权重。

而EM算法是实现这一目标的一种迭代优化算法。

EM算法的基本思想是通过迭代更新，不断提高参数估计的准确性。

具体而言，EM算法包含两个主要步骤：E步和M步。

在E步中，我们根据当前估计的参数值，计算每个样本属于各个分量的概率。

这个过程可以通过贝叶斯公式计算得到。

具体地，对于每个样本，我们根据当前的均值、方差和权重计算它属于每个分量的概率，并将其归一化，以保证所有样本在各个分量上的概率和为1。

在M步中，我们利用已经计算得到的样本属于各个分量的概率，更新参数的值。

具体而言，我们首先计算每个分量所占的样本的比例，即权重的估计值。

然后，对于每个分量，我们根据样本的加权平均值和方差来估计其均值和方差。

这里的权重就是E步中计算得到的样本属于各个分量的概率。

通过反复执行E步和M步，可以逐渐提高参数估计的准确性，直到满足停止准则为止。

通常情况下，停止准则可以是迭代次数达到一定阈值，或是参数变化的绝对值小于某个设定的阈值。

在实际应用中，选择适当的初始参数值对于EM算法的收敛至关重要。

一种常用的初始化方法是使用K-means算法来得到初始的均值估计。

具体而言，我们先用K-means算法将数据集聚类成K个簇，然后使用每个簇的中心作为每个分量的初始均值。

EM算法在高斯混合模型中的应用

EM 算法在高斯混合模型中的应用1.定义对于一个随机信号生成器，假设他的模型参数为Θ，我们能观测到的数据输出为X ，不能观测到的数据输出为Y ，且随机系统模型结构的概率密度函数为(,|)p x y Θ （1）能够观测到的一部分数据输出数据12{,,...,}N x x x ，模型的另一部分输出数据未知,模型的参数Θ也未知。

EM 算法就是要求我们从观测数据12{,,...,}N x x x 中估计出参数Θ。

2.EM 算法的描述假设每一对随机系统的输出样本(,)n n x y 对于不同的n 相互独立，这样当(,,)p x y Θ，x 和y 都已知的情况下，概率(,,)p x y Θ也已知。

未观测的输出y 的概率分布也属于待求参数Θ。

最后根据log 函数的单调性得到（4）的等效形式：arg max log (|)p x Θ=Θ （6）对于(6)给出的最优化问题，考虑用下面的递推算法解决，即：先给定一个估值k Θ并计算(|)k p x Θ，然后更新k Θ得到1k +Θ并且有1log (|)log (|)k k p x p x +Θ>Θ （7）()log (|)log [(|)(|,)]|(|,)log (|,)(|,)(|)(|,)(|,)log (|,)(,)y Y k ky Y k ky Y k p x p y p x y p y p x y p y x p y x p y p x y p y x p y x B ∈∈∈Θ=ΘΘΘΘ⎡⎤=Θ⎢⎥Θ⎣⎦⎧⎫⎡⎤ΘΘ≥Θ⎨⎬⎢⎥Θ⎣⎦⎩⎭=ΘΘ∑∑∑ （8）其中，等号在(,)k k B ΘΘ时成立，即：(,)log (|)k k k B p x ΘΘ=Θ （9）于是对log (|)p x Θ的递推算法（7）可通过(,)k B ΘΘ进行，步骤为： 1）令k=0，先给出估值 k Θ2）然后找出1k +Θ满足 1(,)(,)k k k k B B +ΘΘ>ΘΘ （10） 3） k 更新为k+1并返回步骤2)直到收敛令 1arg max (,)k k B +Θ=ΘΘ (11) 处理后[]{}[]{}1arg max (,)(|)(|,)arg max (|,)log (|,)arg max (|,)log (|)(|,)(|,)log (|,)arg max (|,)log (|)(|,)arg max (,)k k k ky Y k k k y Y k y Y k B p y p x y p y x p y x P y x p y p x y p y x p y x p y x p y p x y C +∈∈∈Θ=ΘΘ⎧⎫⎡⎤ΘΘ=Θ⎨⎬⎢⎥Θ⎣⎦⎩⎭=ΘΘΘ-ΘΘ=ΘΘΘ=ΘΘ∑∑∑ (12)其中[]{}(,)(|,)log (|)(|,)k k y Y C p y x p y p x y ∈ΘΘ=ΘΘΘ∑ (13)4.EM 算法与高斯混合模型在随机系统模型中，假设m θ是通道m 的随机信号生成器的概率密度函数的参数，()p y m =是选中通道m 的概率。

EM算法详细例子及推导

EM算法详细例子及推导EM算法（Expectation-Maximization Algorithm）是一种用于求解含有隐变量（latent variable）的概率模型的参数估计方法。

其基本思想是通过迭代的方式，通过观测数据得到对隐变量的估计，然后再基于该估计对模型参数进行优化。

下面我们以一个简单的高斯混合模型为例，详细介绍EM算法的推导和实例。

1. 高斯混合模型（Gaussian Mixture Model, GMM）高斯混合模型是一种概率模型，由多个高斯分布组合而成。

假设我们观测到的数据由K个高斯分布组成，每个高斯分布对应一个参数向量：均值miu和方差sigma^2、同时，我们还有一个隐变量Z，表示观测数据属于哪个高斯分布，取值范围为{1,2,...,K}。

2.EM算法EM算法的核心思想是通过交替进行两个步骤：E步（Expectation）和M步（Maximization）。

在E步中，我们对当前模型参数下的隐变量进行估计，得到对隐变量的最大似然估计。

在M步中，我们利用得到的隐变量估计更新模型参数，使模型对观测数据的似然函数最大化。

不断重复这两步直至模型收敛。

下面我们通过具体的例子来推导EM算法。

假设我们观测到了一个数据集X = {x1, x2, ..., xn}，我们希望通过EM算法对其进行建模。

Step1: 初始化模型参数首先，我们需要初始化模型参数。

选择K个高斯分布的参数miu和sigma^2，并假设所有的高斯分布对应的隐变量Z服从均匀分布。

这时，我们得到了初始模型参数Theta = {miu1, sigma^21, ..., miuK,sigma^K, pi1, pi2, ..., piK}。

Step2: E步，计算隐变量的后验分布在E步中，我们计算隐变量的后验分布。

对于每个观测样本xi，我们计算其属于每个高斯分布的概率，即：gamma(k,i) = P(Zi=k，xi, Theta) = P(Zi=k，xi, miu_k,sigma_k^2) = pi_k * N(xi，miu_k, sigma_k^2) / sum(pi_j * N(xi，miu_j, sigma_j^2)， j=1 to K其中N(xi，miu_k, sigma_k^2)表示xi在第k个高斯分布下服从的概率密度函数。

高斯混合模型的超参数估计

高斯混合模型的超参数估计高斯混合模型（Gaussian Mixture Model，简称GMM）是一种概率模型，用于描述多个高斯分布的混合体。

在机器学习和数据科学中，高斯混合模型常用于聚类、异常检测和密度估计等任务。

超参数是在模型训练之前需要设置的参数，而不是通过训练得到的参数。

对于高斯混合模型的超参数估计，通常使用EM（Expectation-Maximization）算法。

EM算法是一种迭代算法，用于在存在隐变量或缺失数据的情况下进行参数估计。

在高斯混合模型中，隐变量是各个数据点所属的簇（即类别），而缺失数据则是各个数据点对应的簇中心位置（即均值向量和高斯分布的协方差矩阵）。

在EM算法中，每一步迭代都包含两个步骤：期望（E）步骤和最大化（M）步骤。

在期望（E）步骤中，计算每个数据点属于各个簇的概率。

这些概率基于当前参数的估计值，包括各个簇的中心位置、协方差矩阵以及簇的先验概率。

然后，根据这些概率更新隐变量的状态，即每个数据点所属的簇。

在最大化（M）步骤中，根据隐变量的状态和当前参数的估计值，更新模型的参数。

具体来说，更新各个簇的中心位置和协方差矩阵，以及簇的先验概率。

这一步的目标是最大化似然函数，即数据的概率分布。

通过反复迭代EM算法，直到参数收敛或达到预设的最大迭代次数，就可以得到高斯混合模型的超参数估计值。

这些估计值包括各个簇的中心位置、协方差矩阵以及簇的先验概率。

值得注意的是，高斯混合模型的超参数估计也可以使用其他方法，如网格搜索、贝叶斯方法和启发式方法等。

不同的方法可能在不同的数据集和任务上表现不同，因此在实际应用中需要根据具体情况选择合适的方法。

基于EM算法的高斯混合模型参数估计

０ａｇｉＬＯ）＝ｒｍ “（（ＩＸ）
＠
其中＠表示参数空间。为了便于求出使ＬＯ达（ＩＸ）
到极大的０通常对式（）边取对数，：，１两即
型参数。关于ｙ的后验分布Ｐｏ）很复杂，以进０（ｗ均难行各种不同统计计算假如缺失数据Ｚ已知．可能得则到一个关于。的简单的添加后验分布ＰＯ，）利用Ｐ（ｌｚ，ｙ
ｈＯＹ）ｃＬＯＹ（，圭ｌ（Ｉ）・ｇＸ，（０１）
据不完全，这是由于观测过程的局限性所导致；似然 ②
函数不是解析的．或者似然函数的表达式过于复杂从
而导致极大似然函数的传统估计方法失效．第二种情
况在模式识别中经常遇到假设Ｘ是服从某一分布的单解析函数．＿Ｊ但通常这个函数很难得到。
设隐变量的存在可以大大简化似然函数方程的求解。下面讨论基于ＥＭ算法的混合密度参数估计问题。
ｏ现计机２１．代算０１８０
假设Ｘ为非完全数据．并且存在一个不可观测的数据ｌｙ，Ｎ它的取值表示某一个观测数据来自某：｛
的数据是ｌ，全数据＝（Ｚ）Ｚ是缺失数据，模，完ｙ，，０是
函数Ｌｏ称为似然函数。（ｉｘ）当固定时，（Ｉ是ＬＯＸ）的函数。极大似然参数估计的实质就是求出使（）

高斯混合模型em算法

高斯混合模型em算法高斯混合模型（Gaussian Mixture Model，简称GMM）是一种概率模型，它能够将多个高斯分布组合在一起，从而更好地对数据进行建模和描述。

EM算法（Expectation-Maximization Algorithm，期望最大化算法）是一种常用于GMM参数估计的迭代算法。

本文将重点介绍GMM和EM算法，并对EM算法的具体步骤进行详细解释。

1. 高斯混合模型（Gaussian Mixture Model）高斯混合模型通过同时拟合多个高斯分布的线性组合来对数据进行建模。

设X为观测数据，其概率密度函数可以表示为：P(X) = Σk=1 to K (πk * N(x|μk, Σk))其中，N(x|μk, Σk)表示高斯分布的概率密度函数，πk为每个分布的权重，并满足Σk=1 to K πk = 1。

通过最大化似然函数，可以估计出每个高斯分布的参数μk和Σk。

2. EM算法（Expectation-Maximization Algorithm）EM算法是一种迭代算法，用于求解含有隐变量的概率模型参数估计问题。

EM算法通过交替进行E步和M步来迭代地逼近模型参数的最大似然估计。

- E步（Expectation Step）：在E步中，通过当前的模型参数估计隐变量的期望。

对于GMM，E步的目标是计算每个样本属于每个高斯分布的后验概率。

- M步（Maximization Step）：在M步中，根据E步计算得到的隐变量的期望，更新模型参数。

对于GMM，M步的目标是最大化对数似然函数，从而估计出每个高斯分布的参数μk和Σk。

具体的EM算法步骤如下：(1) 初始化参数，包括高斯分布的个数K、每个高斯分布的权重πk、每个高斯分布的均值μk和协方差矩阵Σk。

(2) 进行E步，计算每个样本属于每个高斯分布的后验概率。

根据当前的参数估计后验概率如下：γij = πj * N(xi|μj, Σj) / Σk=1 to K (πk * N(xi|μk, Σk))(3) 进行M步，更新模型参数。

em算法计算混合高斯参数有代码

xn
;θ
)
称 Log(L(θ))为对数似然估计。
对于最大似然估计的求解一般通过微分学中的极值问题求解。θˆ 一般可从方程
d dθ
ln(L(θ
))
=
0
求得。
2．EM 算法的一般描述
当有部分数据缺失或者无法观察到时，EM算法提供了一个高效的迭代程序用来计算这些数据的最大似然估计。在每一步迭代分为两个步骤：期望（Expectation）步骤和最大化（Maximization）步骤，因此称为EM算法。假设全部数据Z是由可观测到的样本X={X1, X2，……, Xn}和不可观测到的样本 Y={Y1, Y2，……, Yn}组成的，则Z = X∪Y。EM算法通过搜寻使全部数据的似然
p( X = xi | μ = μ j ) = p( X = xi )
Exp(−
1 2σ 2
( xi
−
μ
j
)2 )
K
Exp(−
1 2σ 2
( xi
−
μk
)2 )
k =1
步骤 2：求使E[lnP(Y|h’)]期望最大的假设h’=<μ’1,… μ’k> 对E[lnP(Y|h’)]求μ’j的偏导数：
∑ ∑ ∑ ∂
Numerator = 0; Denominator = 0; for i = 1 : N
Numerator = Numerator + Expectations(i,j) * X(1,i); Denominator = Denominator + Expectations(i,j); end Miu(1,j) = Numerator / Denominator; end
2

高斯混合模型em算法

高斯混合模型em算法高斯混合模型与EM算法高斯混合模型（Gaussian Mixture Model，GMM）是一种常用的概率模型，用于对多元数据进行建模和分析。

它可以描述一个数据集中包含的多个潜在的高斯分布，并通过EM算法来对模型参数进行估计。

本文将介绍高斯混合模型和EM算法的基本原理以及它们在实际应用中的一些例子。

高斯混合模型是由多个高斯分布组成的概率分布模型。

对于一个具有N个样本的数据集，高斯混合模型假设这些样本是由K个高斯分布组成的，每个高斯分布对应着数据集中的一个潜在成分。

每个样本点的生成过程可以表示为：```x = w_1 * N(mu_1, sigma_1^2) + w_2 * N(mu_2, sigma_2^2) + ... + w_K *N(mu_K, sigma_K^2)```其中，`x`为一个样本点，`N(mu_i, sigma_i^2)`表示一个高斯分布，`w_i`表示对应的样本点属于第i个高斯分布的概率。

高斯混合模型的目标是通过拟合样本数据，估计出每个高斯分布的参数以及每个样本点属于不同高斯分布的概率。

EM算法（Expectation-Maximization algorithm）是一种常用的估计高斯混合模型参数的方法。

EM算法的基本思路是通过迭代的方式，交替进行两个步骤：E步骤（Expectation）和M步骤（Maximization）。

具体每次迭代的过程如下：1. 初始化高斯混合模型的参数：包括每个高斯分布的参数（均值和方差）以及每个样本点属于不同高斯分布的概率。

2. E步骤：根据当前模型参数，计算每个样本点属于每个高斯分布的概率。

这个概率可以使用贝叶斯定理和高斯分布的概率密度函数得到。

3. M步骤：根据E步骤的计算结果，更新高斯分布的参数以及每个样本点属于不同高斯分布的概率。

通常使用最大似然估计的方法进行参数的更新。

4. 重复步骤2和步骤3，直到模型收敛或达到设定的迭代次数。

机器学习算法总结（六）——EM算法与高斯混合模型

机器学习算法总结（六）——EM算法与⾼斯混合模型极⼤似然估计是利⽤已知的样本结果，去反推最有可能（最⼤概率）导致这样结果的参数值，也就是在给定的观测变量下去估计参数值。

然⽽现实中可能存在这样的问题，除了观测变量之外，还存在着未知的隐变量，因为变量未知，因此⽆法直接通过最⼤似然估计直接求参数值。

EM算法是⼀种迭代算法，⽤于含有隐变量的概率模型的极⼤似然估计，或者说是极⼤后验概率估计。

1、经典的三硬币模型引⼊⼀个例⼦来说明隐变量存在的问题。

假设有3枚硬币，分别记作A，B，C。

这些硬币正⾯出现的概率分别是π，p，q。

我们的实验过程如下，先投掷硬币A，根据其结果选出硬币B和硬币C，正⾯选B，反⾯选C；然后投掷选出的硬币，此时出现正⾯记作1，出现反⾯记作0。

在这个例⼦中我们观察到的变量只是B或者C的结果，⽽对A的结果并不知道，在这⾥A的结果也就是我们的隐变量。

A的结果对最终的结果是有影响的，因此在估计参数时必须将A的结果考虑进去。

1、EM算法我们将观测变量表⽰为Y = （Y1，Y2，....，Y n），隐变量表⽰为Z = （Z1，Z2，....，Z n），则观测数据的似然函数可以表⽰为在这⾥P(Y|θ) 是P(Y, Z|θ) 的边缘概率，通过转换后可以表⽰成右边的形式，我们将其转换成对数形式，这样便于求联合概率然⽽对于这样的式⼦直接根据极⼤化求θ的值是很困难的，因为这⾥还存在隐变量Z，在这⾥引⼊EM算法，通过迭代求解，假设在第i 次迭代后θ的估计值为θ(i)。

我们希望新估计值能是L(θ)增加，通过迭代逐步的达到最⼤值。

为此我们考虑第i+1步迭代后两者的差：利⽤Jensen不等式将上述式⼦展开并得到其下界（对数函数是凹函数）：令则有在这⾥B(θ, θ(i)) 是L(θ) 的⼀个下界，⽽且由的表达式可知因此任何能使得B(θ, θ(i)) 增⼤的θ，也能使得L(θ) 增⼤。

因此求θ值使得B(θ, θ(i)) 增⼤就可以转变成求θ使得L(θ) 增⼤，即求将上述式⼦展开可得（在这⾥去掉常数项，因为常数项不会影响最终的结果）因此问题就演变成了求Q函数的极⼤化。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

（6 ）
p （x|θ ）=Σαipi（x|θi）
i=1
（13 ）
M
其中 θ （i-1）为已知的当前参数估计值。在式（6 ）中，X 和 θ
y~f （y|X ，θ（i-1））
（i-1）
其中参数 θ= （α1，…，αM，θ1，…，θM），且Σαi=1。观测
i=1
N
为常数，θ 为待优化的参数。 Y
0
引言
EM 算法是一种从 “ 不完全数据 ” 中求解模型参数
θ={θ1，…，θM}，这个密度函数由参数 θ 完全决定。已知 N
个观测值 x1，…，xN，假设它们是从分布密度为 p （x|θ ）的总体中独立抽取的。记 X={x1，…，xN} ，则：
N
的极大似然估计的方法，所谓 “ 不完全数据 ” 一般有两种情况：① 由于观察过程本身的限制或者错误，造成观察数据成为错漏的不完全数据； ② 参数的似然函数直接优化十分困难，而引入额外的参数（隐含的或丢失的）后就比较容易优化。于是定义原始观察数据加上额外数据组成 “ 完全数据 ”，原始观察数据自然就成为 “ 不完全数据 ”。
αy py （xi|θy ）
i i i
g
g
αy py （xi|θy ）
i i i
g
g
p （xi|θ ）
g
M
（17 ）
I1，这是一个条件极值问题，因此需要引入一个拉格朗
日乘子 λ ，解方程：
鄣鄣αl
Σα p
k=1 k
g
k
（xi|θk ）
g
进而可得：
N
ΣΣlog α ≠
l=1 i=1
研究与开发
基于 EM 算法的高斯混合模型参数估计
余爱华
（正德职业技术学院，南京 211106 ）摘要：讨论在一般的混合分布条件下，用 EM 算法，在最小熵原理的优化准则下的数据拟合问题。简单推导有限混合高斯分布的 EM 算法，并针对其收敛速度慢的缺点设计一种有效的选取参数初始值的方法。实验结果表明 , 该方法有助于 EM 算法以较快的速度在参数真值附近收敛。关键词：混合模型；极大似然估计； EM 算法
研究与开发
假设 X 为非完全数据，并且存在一个不可观测的数据 Y= ｛y i ｝ i=1 ，它的取值表示某一个观测数据来自某一类，由此隐变量假设可知，yi∈{1, … ,M} ，yi=k 表示第 i 个观测数据属于第 k 类。如果知道 y 的取值，那么：
N M
对于 l∈{1，…，M} ，
Q （θ ，θ ）＝Σlog （L （θ|X ，y ））p （y|X ，θ ）
y∈D N
i i i
N
Σp（l|x ，θ ），l=1，…，M
i g i=1
∧
（23 ）
为了得到参数估计 θl ，须知道 x 的条件概率密度函数形式。这里假设 x 服从高斯分布，均值为 μl，方差为 Σl ，即 θl = （μl,Σl ）。这样有，
从式（4）可以看出，密度函数 p （z|θ ）是由边沿密度函数 p （x|θ ）、隐变量 y 的假设、参数 θ 初始估计值以及隐变量与观测变量之间的关系决定。下面讨论密度函数 p（z|θ ）的具体形式。由式（4）给出的密度函数可以定义一个新的似然函数：
M M l ，yi N g j j
N
Σ…Σδ 仪p（y |x ，θ ）
yl=1 yN=1 M j=1 M
＝
≠ Σ
yl=1 N j=1 ，j≠i
…
p （l|x ，θ ） ΣΣ… Σ 仪 p（y |x ，θ ） ≠
g g j j i yi-1=1 yi=1 yN=1 j=1 ，j≠i g M g
M
N
log （p （X ，Y|θ ））=log仪p （xi，yi|θ ）
M
N
（ l ）p （l|xi，θg）+λ
=0 ≠ 鄣 Σα - 1 鄣
l=1 l
M
，（22 ）
p （y|X ，θ ）=仪p （yi|xi，θ ）
i=1
ggBiblioteka （18 ）l=1 ，…，M
得：
αl ＝ 1 N
∧
其中 Y = {y1，…，yN} 是隐变量 Y 的一次样本实现，且独立同分布。由此可知，如果给出参数初始估计值，并且假设存在隐变量 y ，由式（18）就得到 y 的边沿分布密度函数。由式（8）、（15 ）、（18）可知，完全数据的似然函数为 :
i=1 N
= 仪［Σp （yj|xj，θ ）］p （l|xi，θ ）
yj=1 g
i
=Σlog （p （xi，yi|θy ））
i=1 N
=p （l|xi，θ ）
（20 ）
=Σlog （p （xi，yi|θy ））py （yi|θy ））
i=1 N
i i i
由式（19）和式（20），得：
M N g
其中 f （y|X，θ （i-1））是不可观测数据 Y 的边沿分布密度函数，并且依赖于观测数据 X 和当前参数 θ（i-1），D 为 y 的取值空间。在一些特殊情况下，边沿分布 f（y|X，θ（i-1））是
X 和 θ （i-1）的简单解析函数，但通常这个函数很难得到。
髷
现代计算机
2011.08
其中 Θ 表示参数空间。为了便于求出使 L （θ|X ）达到极大的 θ ，通常对式（1）两边取对数，即：
N
ln （L （θ|X ））=Σln （p （xi|θ ））
i=1
（2 ）
将式（2）分别对 θi 求偏导，令偏导数等于零，得方程组：
鄣 ln （L （θ|X ））=0 ，i=1 ，…，M 鄣θi
pl （x| μl,Σl ）= 1
g
g
N g
=ΣΣlog ［αy py （xi|θy ）］仪p （yj|xj，θ ）
p （z|θ ）=p （x ，y|θ ）=p （y|x ，θ ）p （x|θ ）
（4 ）
其中 y 服从某一分布 fY（y ）。那么 :
EY［h （θ ，Y ）］＝
乙h（θ，Y）f （y）dy芊q（θ）
y Y
∧
（11 ）
从式（11）可知 EY［h （θ ，Y）］是关于 θ 的函数，以通过简单的最优化方法得到参数 θ 的估计值 θ 。期望值
L （θ|Z ）=L （θ|X ，Y ）芊p （X ，Y|θ ）
（5 ）
EY［h（θ，Y）］的计算也就是 EM 算法的 E-step 。 EM 算法的第二步 M-step：最大化期望值 Q（θ，θ（i-1）），
即找到一个 θ i，满足：
θ i＝argmin (Q（θ，θ（i-1））)
Θ
（12 ）
的数据是 Y ，完全数据 X= （Y ，Z ），Z 是缺失数据，θ 是模型参数。 θ 关于 Y 的后验分布 p （θ|Y ）均很复杂，难以进行各种不同统计计算。假如缺失数据 Z 已知，则可能得到一个关于 θ 的简单的添加后验分布 p （θ |y ，z ），利用 p （θ|y ，z ）的简单性我们可以进行各种统计计算。然后，我们可以对 Z 的假定作检查和改进，如此进行，我们将一个复杂的极大化或抽样问题转化为一系列简单的极大化或抽样问题。
EM 算法的第一步 E-step ：即给定观测 X 值和当
前参数估计值，计算完全数据对数似然函数 logp （X，Y|
知道它们是从混合密度为 p（x|θ）的总体中独立抽取的，
M
θ）关于未知数据 Y 的期望。为此，定义对数似然函数的
期望：
Q （θ ，θ（i-1））=E ［logp （X ，Y|θ ）｜X ，θ（i-1）］
p （X|H ）=仪p （xi|θ ）芊L （θ|X ）
i=1
（1 ）
函数 L （θ|X ）称为似然函数。当 X 固定时，L （θ|X ）是
θ 的函数。极大似然参数估计的实质就是求出使 L（θ|X）
达到极大时 θ 值，即：
θ=argmin （L （θ|X ））
Θ
EM 算法基本原理可以表述如下：我们可以观察到
现代计算机
2011.08
髶
研究与开发
际应用中的一种有效方法。
由乘法公式，得 :
f（y，X|，θ（i-1））=f（y|X，θ（i-1））f（X|θ（i-1））
（9 ）
2
EM 算法
EM 算法是进行极大似然估计的一种有效方法，它
由于因子 f（x|θ（i-1））与 θ 无关，所以在实际问题处理中，用 f（y，X|θ（i-1））代替 f（y|X，θ（i-1））不影响式（8 ）中似然函数的最优化。定义二元函数：
h （θ ，Y ）芊logL （θ|X ，Y ）
（10 ）
主要应用于下面两种非完全数据参数估计： ① 观测数据不完全，这是由于观测过程的局限性所导致；② 似然函数不是解析的，或者似然函数的表达式过于复杂从而导致极大似然函数的传统估计方法失效，第二种情况在模式识别中经常遇到。假设 X 是服从某一分布的非完全观测数据集，且存在一个完全数据集 Z= （X ，Y ），则 Z 的密度函数为：
（7 ）
样本的对数似然函数表达式为：