EM算法

合集下载

em算法的概念 -回复

em算法的概念-回复EM算法（Expectation-Maximization Algorithm）是一种用于在带有隐藏变量的概率模型中进行参数估计的迭代算法。

它最初由Arthur Dempster、Nan Laird和Donald Rubin于1977年提出，是一种广泛应用于统计学和机器学习领域的有力工具。

EM算法的核心思想是通过迭代的方式，通过求解期望（E）和最大化（M）步骤，逐步逼近最优解。

EM算法的应用非常广泛，尤其在概率模型中，当模型中存在无法观测到的隐藏变量时，EM算法可以用于估计模型参数。

这种情况常见于聚类分析、混合模型和隐马尔可夫模型等场景中。

下面将一步一步回答关于EM算法的相关问题。

问题1：EM算法的基本思想是什么？回答1：EM算法的基本思想是通过迭代的方式，交替进行两个步骤：期望（E）步骤和最大化（M）步骤，从而不断逼近最优解。

在E步骤中，根据当前估计的模型参数，计算出模型对于观测数据的期望值；在M步骤中，根据观测数据的期望值，找到使得似然函数最大化的模型参数的值。

通过不断迭代这两个步骤，可以逐步逼近最优解。

问题2：EM算法的迭代过程是怎样的？回答2：EM算法的迭代过程如下：1. 初始化参数：首先对模型参数进行初始化，可以使用一些启发式方法或者随机初始化的方式。

2. E步骤：根据当前估计的模型参数，计算出模型对于观测数据的期望值。

这可以通过计算观测数据对于模型的隐藏变量条件概率的期望来实现。

3. M步骤：根据观测数据的期望值，找到使得似然函数最大化的模型参数的值。

这可以通过最大化似然函数或者对数似然函数来实现。

4. 判断终止条件：判断是否满足终止条件，例如达到最大迭代次数或参数变化小于某个阈值。

5. 若满足终止条件，则输出当前的参数估计值；若不满足，则返回第2步，继续迭代。

问题3：EM算法如何处理无法观测到的隐藏变量？回答3：EM算法可以通过引入隐藏变量来处理无法观测到的变量。

EM算法

EM算法EM算法--应用到三个模型：高斯混合模型，混合朴素贝叶斯模型，因子分析模型判别模型求的是条件概率p(y|x)，生成模型求的是联合概率p(x,y).即= p(x|y) ? p(y)常见的判别模型有线性回归、对数回归、线性判别分析、支持向量机、boosting、条件随机场、神经网络等。

常见的生产模型有隐马尔科夫模型、朴素贝叶斯模型、高斯混合模型、LDA、RestrictedBoltzmann Machine等。

所以这里说的高斯混合模型，朴素贝叶斯模型都是求p(x,y)联合概率的。

(下面推导会见原因)套路小结：凡是生产模型，目的都是求出联合概率表达式，然后对联合概率表达式里的各个参数再进行估计，求出其表达式。

下面的EM算法，GMM 等三个模型都是做这同一件事：设法求出联合概率，然后对出现的参数进行估计。

一、EM算法：作用是进行参数估计。

应用：（因为是无监督，所以一般应用在聚类上，也用在HMM 参数估计上）所以凡是有EM算法的，一定是无监督学习.因为EM是对参数聚集给定训练样本是高斯混合模型，混合朴素贝叶斯模型，因子分析模型"> 样例独立，我们想要知道每个样例隐含的类别z，使是p(x,z)最大，（即如果将样本x(i)看作观察值，潜在类别z看作是隐藏变量，则x可能是类别z，那么聚类问题也就是参数估计问题，）故p(x,z)最大似然估计是：高斯混合模型，混合朴素贝叶斯模型，因子分析模型">所以可见用到EM算法的模型（高斯混合模型，朴素贝叶斯模型）都是求p(x,y)联合概率，为生成模型。

对上面公式，直接求θ一般比较困难，因为有隐藏变量z存在，但是一般确定了z后，求解就容易了。

EM是一种解决存在隐含变量优化问题的有效方法。

竟然不能直接最大化?(θ)，我们可建立?的下界（E步），再优化下界（M步），见下图第三步，取的就是下界高斯混合模型，混合朴素贝叶斯模型，因子分析模型" action-data="http%3A%2F%%2Fbl og%2F515474%2F201305%2F19180744-0ed136937810 4b548dbee01337f6ba69.jpg" action-type="show-slide"> （总式）解释上式：对于每一个样例i，让Qi表示该样例隐含变量z的某种分布，Qi满足的条件是（如果z 是连续性的，那么Qi是概率密度函数（因子分析模型就是如此），需要将求和符号换成积分符号即：高斯混合模型，混合朴素贝叶斯模型，因子分析模型">因子分析模型是如此，这个会用在EM算法的M步求。

EM算法原理总结

EM算法原理总结EM算法（Expectation-Maximization algorithm）是一种迭代优化算法，用于估计含有隐变量的概率模型参数。

它能够在缺失数据情况下对概率模型进行参数估计，并可以通过迭代的方式逐步逼近模型的最大似然估计。

EM算法的原理可以总结为以下几个步骤：1.初始化模型参数：首先需要对模型的参数进行初始化。

通常可以采用随机初始化或者根据经验设定的初始值。

2. E步：在E步中，算法会根据当前的参数估计值来计算隐变量在每个数据样本上的期望值（expectation）。

这个计算过程通常使用条件概率的形式，即根据当前参数计算隐变量的后验概率。

3.M步：在M步中，算法会根据E步中计算得到的隐变量的期望值，来最大化似然函数。

这个最大化的过程通常使用最大似然估计的方法，通过对似然函数求偏导数，并使其等于零来求解参数。

4.更新参数：在M步中得到的参数估计值将作为下一轮迭代的初始值。

如此循环迭代，直到模型参数收敛，或者达到预设的迭代次数。

EM算法的优势在于它对于含有隐变量的概率模型的参数估计更加稳定。

由于EM算法使用期望值来替代隐变量，对于缺失数据的情况下也能进行有效的估计。

此外，EM算法的计算过程也相对简单而清晰，容易实现。

然而，EM算法也存在一些不足之处。

首先，EM算法只能够得到概率模型的局部最大似然估计，不能保证找到全局最大似然估计。

其次，EM算法对初始参数的选择非常敏感，有时候可能会陷入局部最优解。

另外，EM算法的收敛速度可能较慢，需要进行多次迭代才能达到理想的结果。

为了解决这些问题，可以采用一些改进的EM算法，如加速的EM算法（accelerated EM algorithm）、剪枝的EM算法（pruning-based EM algorithm）等。

这些改进的算法在EM算法的基础上对其进行了一些改进和优化，提高了算法的收敛速度和估计精度。

总结来说，EM算法是一种用于估计含有隐变量的概率模型参数的优化算法。

em算法

em算法EM算法是英文expectation-maximization算法的英文简写,翻译过来就是期望最大化算法,其实是一种根据求参的极大似然估计的一种迭代的优化策略,EM算法可以广泛估计是因为他可以从非完整的数据集中对于参数进行极大似然的估计,这样的方法对于处理残缺数据,截尾数据和一些带有噪声的数据来说是很有效的.在写这篇文章之前,我看了很多篇博客,学习了很多的知识,也参照了很多的资料,希望可以从EM算法的迭代优化理论和一般的步骤中出发,然后能够举一个例子来使我们理解这个EM算法,然后在对其收敛性进行证明,目的是为了说明EM算法每一次迭代都是能够提高似然函数值然后收敛到一个稳定的点,再引出EM算法的收敛速度.大概通过上述部分,我们可以得到基于其简单,收敛,稳定上升的优势,但是也会产生一些缺点,比如收敛速度过慢的加速方法等,在第二篇文章中将会介绍这个处理缺点的方法,然后会写一些关于EM算法的重要应用,包括EM算法在二元正态分布上的参数估计的应用,混合高斯分布参数估计方面的应用,以及EM算法在隐马尔科夫模型上参数的应用(一种EM算法的特殊情形),希望通过这一系列的文章可以让大家理解好EM算法的明显优势以及原理,让我们开始吧!背景:极大似然估计和贝叶斯统计其实是作为现在的统计领域中非常热门的领域了,其实来说他们的计算过程是有一定的相似成分的,比如极大似然函数估计在计算的方法上跟贝叶斯的后验概率的计算是非常相似的,学过统计学习的我们知道,贝叶斯是分为两种的大类的,一种是拥有显式的后验分布,这样的一般用于简单的似然函数,另外一种是数据添加的算法,有些时候我们的数据可能会存在缺失或者是似然函数不是显性的,数据添加类在这时候就可以很好的应用,他可以将已经观测到的数据基础上加上一些”潜在数据”,从而使得变得更简单,完成极大化的工作,然后我们常用的一种数据添加法其实就是我们今天介绍的EM算法.EM算法是一种迭代的优化策略,他的计算方法是分为期望步(E步)和极大步(M 步)的,所以这个算法的名字是这样来的,EM算法受到了缺失算法的影响,最初就是为了解决上边提到的数据缺失的问题,基本的思想就是首先根据已经观测出来的数据估计出模型参数的值,然后再根据上一步估计出的参数值来估计缺失数据的值,然后再根据估计中缺失的数据加上之前的已经观测到的数据重新在对参数值进行估计,然后反复的进行迭代,直到最后收敛,迭代结束.而现在EM算法发展了几十年了,在当时的数据快速增长得那个时代,那时候处理数据很困难,经常会出现数据缺失或者不可用的情况,当时无非就是用用神经网络拟合,添补法,卡尔曼滤波法等等,但是最后还是EM脱颖而出,最主要还是他的算法步骤简单,稳定上升可以很可靠的找到最优的收敛值,但是运用这种思想,我们拓展到了简化问题策略,有时候缺失数据并非真的缺少了,这时候EM引入恰当的数据添加技术,这样的数据被称为”潜在数据”,复杂问题通过引入潜在数据,能够有效的解决我们的问题“潜在数据”可以解释为数据本身并不存在缺失变量，但观察数据比较难以处理，如果添加上额外的变量，处理起来会变得比较简单。

EM算法原理总结

EM算法原理总结EM算法（Expectation–Maximization Algorithm）是一种经典的迭代算法，用于解决参数估计问题。

它的基本原理是在已知观测数据的情况下，通过迭代计算潜在变量的期望值和参数的极大似然估计来逐步逼近最优解。

EM算法常用于处理含有隐变量的概率模型的参数估计问题，例如混合高斯模型、隐马尔可夫模型等。

在这些模型中，观测数据由两部分组成，一部分是可观测的数据，另一部分是隐变量。

由于缺少隐变量的观测值，无法直接应用传统的参数估计方法。

EM算法的核心思想就是通过迭代计算隐变量的期望值，然后根据对应的期望值来估计参数值，从而逐渐优化模型。

EM算法的基本步骤如下：1.初始化参数：随机初始化模型的参数值。

2. E步骤（Expectation Step）：根据当前模型参数，计算隐变量的条件概率分布。

这一步通常使用条件期望来近似计算因为这样可以简化计算，将最大似然估计问题转化为最大条件似然估计。

3. M步骤（Maximization Step）：通过最大化似然函数来估计模型参数。

在E步骤中计算得到的隐变量的条件概率分布将被作为已知数据，将原始问题中的似然函数转化为这个已知数据的极大似然函数。

4.迭代更新：重复执行E步骤和M步骤，直到模型收敛或达到预定的迭代次数。

EM算法的核心在于E步骤和M步骤的交替迭代。

在E步骤中，通过计算隐变量的条件概率分布包括隐变量的期望值。

这一步骤的目的是在给定当前参数的情况下，估计隐变量（即未观测到的数据）的分布。

在M步骤中，通过最大化已观测数据和隐变量的联合概率分布来更新模型的参数。

这一步骤的目的是获得使得似然函数达到最大的参数值。

交替执行E步骤和M步骤，直到模型收敛为止。

EM算法的优点是能够处理含有隐变量的概率模型的参数估计问题，且能够在缺失数据的情况下进行参数估计。

它的收敛性也得到了很好的理论保证。

然而，由于EM算法是一种局部算法，结果可能陷入局部最优解，因此对于一些复杂的模型，可能需要多次运行以找到全局最优解。

em算法

最大期望算法（Expectation-Maximization algorithm, EM），或Dempster-Laird-Rubin算法，是一类通过迭代进行极大似然估计（Maximum Likelihood Estimation, MLE）的优化算法，通常作为牛顿迭代法（Newton-Raphson method）的替代用于对包含隐变量（latent variable）或缺失数据（incomplete-data）的概率模型进行参数估计。

EM算法的标准计算框架由E步（Expectation-step）和M步（Maximization step）交替组成，算法的收敛性可以确保迭代至少逼近局部极大值。

EM算法是MM算法（Minorize-Maximization algorithm）的特例之一，有多个改进版本，包括使用了贝叶斯推断的EM算法、EM梯度算法、广义EM算法等。

由于迭代规则容易实现并可以灵活考虑隐变量，EM算法被广泛应用于处理数据的缺测值，以及很多机器学习（machine learning）算法，包括高斯混合模型（Gaussian Mixture Model, GMM）和隐马尔可夫模型（Hidden Markov Model, HMM）的参数估计。

理论EM算法是基于极大似然估计（Maximum Likelihood Estimation, MLE）理论的优化算法。

给定相互独立的观测数据，和包含隐变量、参数的概率模型，根据MLE理论，的最优单点估计在模型的似然取极大值时给出：。

考虑隐变量，模型的似然有如下展开：隐变量可以表示缺失数据，或概率模型中任何无法直接观测的随机变量，式中第一行是隐变量为连续变量的情形，第二行是隐变量为离散变量的情形，积分/求和的部分也被称为的联合似然（joint liklihood）。

不失一般性，这里按离散变量为例进行说明。

由MLE的一般方法，对上式取自然对数后可得上述展开考虑了观测数据的相互独立性。

机器学习算法——EM算法

机器学习算法——EM算法E步：利用当前估计的参数值，求出在该参数下隐含变量的条件概率值（计算对数似然的期望值）；M步：结合E步求出的隐含变量条件概率，求出似然函数下界函数的最大值（寻找能使E步产生的似然期望最大化的参数值。

）然后，新得到的参数值重新被用于E步.....直到收敛到局部最优解。

（note：每次迭代实际在求Q函数及其极大，即每次迭代使似然函数增大或达到局部极值。

）优点：简单性和普适性，可看作是一种非梯度优化方法（解决梯度下降等优化方法的缺陷：求和的项数将随着隐变量的数目以指数级上升，会给梯度计算带来麻烦）缺点：对初始值敏感，不同的初值可能得到不同的参数估计值；不能保证找到全局最优值。

一、Jensen 不等式在EM算法的推导过程中，用到了数学上的Jensen不等式，这里先来介绍一下。

其中，二、EM算法推导面对一个含有隐含变量Z的概率模型，目标是极大化观测数据Y 关于参数的对数似然函数，即极大化：事实上，EM算法是通过迭代逐步极大化的。

假设在第次迭代后的估计值是。

我们希望新的估计值能使增加，即,并逐步达到极大值。

为此考虑两者的差：上式利用了Jensen不等式，且，则可得上述推导。

注意为凹函数，不等号要改变方向令EM算法并不能保证全局最优值，直观解释如图所示。

好好理解这个图三、EM算法在高斯混合模型中的应用：高斯混合模型：步骤：（1）明确隐变量，写出完全数据的对数似然函数。

（2）EM算法的E步：确定Q函数（即：完全数据的对数似然函数关于在给定观测数据和参数的条件下对隐变量的条件概率的期望）：（3）M步：求Q函数对theta的极大值，即求新一轮迭代的模型参数。

四、采用EM算法求解的模型有哪些？为什么不用牛顿法或者梯度下降法？一般有混合高斯、协同过滤、k-means。

算法一定会收敛，但是可能会收敛到局部最优。

求和的项数会随着隐变量的数目指数上升，会给梯度计算带来麻烦。

EM算法是一种非梯度优化算法。

聊聊EM算法~

聊聊EM算法~EM算法(Expection Maximuzation)的中文名称叫做期望最大化，我的理解EM算法就是一种引入隐含变量的坐标向上法，它与其他优化方法的目的相同，就是求解一个数学模型的最优参数，不同之处在于EM算法交互迭代的对象是隐含变量与模型参数，一般隐含变量表现为数据的类别。

期望说白了就是数据的权重平均，在EM算法中，可以理解为数据的类别，那么既然确定好了数据的类别，下一步就是想办法求取新数据构成分布的参数，一般采用最大似然法求取最优参数。

剩下的就是最普通的迭代过程，先初始化参数，计算数据的概率分布，再对数据进行重新分类，然后重新计算参数，周而复始。

幸运的是，EM算法的收敛性能够得到保证。

曾经读过一篇特别好的博客，通过举例的方式对EM算法解释的很形象，现摘抄如下：“假设我们需要调查我们学校的男生和女生的身高分布。

你怎么做啊？你说那么多人不可能一个一个去问吧，肯定是抽样了。

假设你在校园里随便地活捉了100个男生和100个女生。

他们共200个人（也就是200个身高的样本数据，为了方便表示，下面，我说“人”的意思就是对应的身高）都在教室里面了。

那下一步怎么办啊？你开始喊：“男的左边，女的右边，其他的站中间！”。

然后你就先统计抽样得到的100个男生的身高。

假设他们的身高是服从高斯分布的。

但是这个分布的均值u和方差?2我们不知道，这两个参数就是我们要估计的。

记作θ=[u, ?]T。

再回到例子本身，如果没有“男的左边，女的右边，其他的站中间！”这个步骤，或者说我抽到这200个人中，某些男生和某些女生一见钟情，已经好上了，纠缠起来了。

咱们也不想那么残忍，硬把他们拉扯开。

那现在这200个人已经混到一起了，这时候，你从这200个人（的身高）里面随便给我指一个人（的身高），我都无法确定这个人（的身高）是男生（的身高）还是女生（的身高）。

也就是说你不知道抽取的那200个人里面的每一个人到底是从男生的那个身高分布里面抽取的，还是女生的那个身高分布抽取的。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

P x i , z i ; C Q i z i
i i z i z i
(i ) Q ( z Z i ) 1 Qi ( z ) 0

Q i 表示隐含变量Z的某种分布，Qi 满足的条件是
z P x i , z i ; C

EM算法
i i z(i )
EM算法
(i ) (i ) (i ) ln p ( x ; ) ln p ( x , z ; ) i i 种分布，Qi 满足的条件是
(i ) Q ( z Z i ) 1 Qi ( z ) 0
p ( x ( i ) , z ( i ) ; ) ln Qi ( z ) (i ) ( i ) Q ( z ) i z i
根据数学期望的相关定理：E[ f ( X )] f ( xi ) p( xi )
p ( x , z ; ) p ( x ( i ) , z ( i ) ; ) (i ) Q ( z ) 是 ( z )的数学期望 i (i ) Qi Qi ( z ) z(i ) p ( x ( i ) , z ( i ) ; )
(i ) (i ) (i )
i
ln(E[
i
Qi ( z )
(i )
])
(3)
EM算法
根据Jensen不等式：
f ( x) ln x是凹函数 f ( EX ) E f ( x)
lnE[ X ] Eln X
p( x ( i ) , z ( i ) ; ) ln(E[ ]) (i ) Qi ( z ) i (3)
至与此 t 对应的L t 的值相等。

只有当此时的下界等于当前的对数似然函数时，我才能保证当我优化这个下界的时候，才真正优化了目标函数。
EM算法 3.寻找等式成立的条件：
(i ) (i ) p ( x , z ; ) (i ) L Qi ( z ) ln (i ) ( i ) Q ( z ) i z i
(5)
首先固定，我们选择Q的可能分布，让此不等式的等号对当前的成立。
根据Jensen不等式： lnE[ X ] Eln X
p( x ( i ) , z ( i ) ; ) ln(E[ ]) (i ) Qi ( z ) i
(i ) (i )
(3)
(i )
p ( x , z ; ) Qi ( z ) ln (5) (i ) Qi ( z ) i z(i )
* arg max L( )
一、似然函数与极大似然估计
想要求 *，只需要使的似然函数L( )极大化，极大值对应的 *就是我们的估计值。因L( )与 ln L( )在同一处取到极值，
所以对数化似然函数 ln(L( )) ln p ( xi ; )
i 1 n
(i )
p ( x ( i ) , z ( i ) ; ) E ln (4) (i ) Qi ( z ) i (i ) (i ) p ( x , z ; ) (i ) Qi ( z ) ln (5) (i ) Qi ( z ) i z(i )
EM算法
(i ) (i ) p ( x , z ; ) (i ) L Qi ( z ) ln (i ) ( i ) Q ( z ) i z i
假定 (t )和 (t 1)是EM第t次和第t 1次迭代后的结果。想要证明极大似然估计单调增加，就要证明 L( (t ) ) L( (t 1) )
EM算法
E-step
选定 , 得到Qi ( z (i ) ) : p( z (i ) | x (i ) ; (t ) )
(t ) (t )
EM算法
EM算法简介
• EM算法：
期望最大化 (ExpectationMaximization) 算法。
是一种迭代算法，是在概率模型中寻找参数极大似
然估计的算法，其中概率模型依赖于无法观测的隐
含变量。它主要用于从含有隐含变量的数据中计算
极大似然估计。是解决存在隐含变量优化问题的有
效方法。
主要内容

四、边际分布列
PX x , Y y 中，对j求和所得的分布列 P X x , Y y P X x
i j
X , Y 的联合分布列在二维离散随机变量

j 1
i
j
i
称为X的分布列。
类似地，对i求和所得的分布列
PX x , Y y PY y
(5)
上述过程看成是对 L 求了下界的过程。
将（ 5）看成是的函数,又是我模型里的参数。
所以（ 5）是参数的对数似然函数的下界。
EM算法
固定 t ，调整Q z 使下界上升，然后固定Q z ，利用极大似然估计调整使下界达到最大值，得到的为新的 t 1。再固定 t 1 , 调整Q z 直到收敛到似然函数 L 的最大值 *处。
EM算法
2、EM算法的推导
EM算法是从含有隐含变量的数据(完整数据)中计算极大似然估计 ,由于Z是隐含变量，则可从可观测数据入手，对参数进行极大似然估计。
根据边缘分布列的定义：
P X x , Y y P X x
j 1 i j i

L ln p ( x ( i ) ; ) ln p( x ( i ) , z (i ) ; ) 1
因此的极大似然估计 *也可从下述方程解得： d ln L( ) 0. d
二、Jensen不等式
设f是定义域为实数的函数，如果对于所有的实数 X, f ' ' ( x) 0, 那么f是凸函数。Jensen不等式表达如下：如果f是凸函数，X是随机变量，那么 E[ f ( X )] f ( EX ) 即X是常量, 才有E[ f X ] f EX 成立。即E[ f ( x)] f ( EX )。如果f是严格的凸函数 , 当且仅当p( X E[ X ]) 1,
(1) (2) (3)
p ( x ( i ) , z ( i ) ; ( t ) ) Qi ( z ) ln (t ) Qi ( z (i ) ) i z(i )
p ( x ( i ) , z ( i ) ; ) 等号成立的条件是当且仅当 C (i ) Qi ( z )
(i ) (i ) p ( x , z ; ) (i ) Qi ( z ) (i ) i p ( x , z ; ) z
p ( x ( i ) , z ( i ) ; ) p ( x ( i ) ; ) p ( z ( i ) | x ( i ) ; )
(i )
(2)
EM算法
(i ) (i ) p ( x , z ; ) (i ) ln Qi ( z ) (i ) ( i ) Q ( z ) i z i
(2)
p ( z ( i ) ) Qi ( z ( i ) );
(i ) (i ) p ( x , z ; ) (i ) f (z ) ; (i ) Qi ( z )
EM算法
p ( x ( i ) , z ( i ) ; ) 等号成立的条件是当且仅当 C (i ) Qi ( z ) p ( x ( i ) , z ( i ) ; ) C (i ) Qi ( z )
P x , z ; C Q z
一. 似然函数与极大似然估计二. Jensen不等式三. 数学期望的相关定理四.边际分布列
五.EM算法
一、似然函数与极大似然估计
设总体的概率函数为 p( x; )，，其中是一个未知参数或几个未知参数组成的参数向量，是可能取值的参数空间。 x1 ,, xn是来自该总体的样本，将样本的联合概率函数表示成的函数，
I 1 i j i

称为Y的分布列。
EM算法 1、完整数据：
观测数据：观测到的随机变量X的样本 X (x1 , ，xn )
隐含变量：未观测到的随机变量Z的值 Z ( z1 , , zn )
完整数据：包含观测到的随机变量X和隐含变量Z的数据：Y ( X , Z ) Y ((x1 , z1 ),( xn , zn ))
这一步保证了给定 (t )时，Jensen不等式中的等式成立。即：L( (t ) ) Qi
(t ) i z(i ) (i ) (i ) p ( x , z ; ) (i ) ( z ) ln (t ) Qi ( z (i ) )
M-step
(t )
固定Qi ( z (i ) ),并将 (t )视作变量，对上面的 L( (t ) )求导，得到 (t 1)。
p ( x ( i ) , z ( i ) ; ) E ln (i ) Qi ( z ) i
(4)
EM算法
根据数学期望的相关定理：E[ f ( X )] f ( xi ) p( xi )
i
p( z (i ) ) Qi ( z (i ) ); p ( x ( i ) , z ( i ) ; ) f ( z ) ln( ); (i ) Qi ( z )
M step :
: arg max Qi z

i z i
i

p x , z ; ln Qi z i

i
i

EM算法
5.EM算法的收敛：
EM 算法收敛， L(θ) 不再变化或者是增量小于某一给定的值。想要保证 EM 是收敛的，就要证明极大似然估计单调增加。
EM算法
(i ) Q ( z E-step：固定θ后，得到 i )
的计算公式，建立L(θ)