混合高斯模型(Mixtures of Gaussians)和EM算法

合集下载

高斯混合模型中的参数估计与EM算法详解

高斯混合模型中的参数估计与EM算法详解高斯混合模型（Gaussian Mixture Model，GMM）是一种常用的概率统计模型，用于描述由多个高斯分布构成的数据集。

在实际应用中，参数估计是使用GMM的关键步骤之一，而期望最大化（Expectation Maximization，EM）算法是一种常用的参数估计方法。

本文将详细介绍GMM的参数估计方法与EM算法的原理。

首先，我们需要理解高斯混合模型。

GMM是由多个高斯分布组合而成的概率分布模型。

每个高斯分布称为一个分量，是由均值、方差和权重组成的。

其中，均值表示分量的中心位置，方差表示分量的散布程度，权重表示每个分量在整个数据集中的相对重要性。

在GMM中，参数估计的目标是通过已知的数据集，估计出每个分量的均值、方差和权重。

而EM算法是实现这一目标的一种迭代优化算法。

EM算法的基本思想是通过迭代更新，不断提高参数估计的准确性。

具体而言，EM算法包含两个主要步骤：E步和M步。

在E步中，我们根据当前估计的参数值，计算每个样本属于各个分量的概率。

这个过程可以通过贝叶斯公式计算得到。

具体地，对于每个样本，我们根据当前的均值、方差和权重计算它属于每个分量的概率，并将其归一化，以保证所有样本在各个分量上的概率和为1。

在M步中，我们利用已经计算得到的样本属于各个分量的概率，更新参数的值。

具体而言，我们首先计算每个分量所占的样本的比例，即权重的估计值。

然后，对于每个分量，我们根据样本的加权平均值和方差来估计其均值和方差。

这里的权重就是E步中计算得到的样本属于各个分量的概率。

通过反复执行E步和M步，可以逐渐提高参数估计的准确性，直到满足停止准则为止。

通常情况下，停止准则可以是迭代次数达到一定阈值，或是参数变化的绝对值小于某个设定的阈值。

在实际应用中，选择适当的初始参数值对于EM算法的收敛至关重要。

一种常用的初始化方法是使用K-means算法来得到初始的均值估计。

具体而言，我们先用K-means算法将数据集聚类成K个簇，然后使用每个簇的中心作为每个分量的初始均值。

EM算法用于高斯混合模型

EM算法用于高斯混合模型高斯混合模型（Gaussian Mixture Model，简称GMM）是一种常用的概率密度估计方法，其基本思想是将数据分解为由多个高斯分布组成的混合模型。

每个高斯分布对应于数据中的一个潜在类别，而混合系数则表示每个类别的权重。

GMM的参数估计通常使用期望最大化（Expectation Maximization，简称EM）算法来进行。

EM算法是一种迭代优化算法，用于求解含有隐变量的最大似然估计问题。

GMM中，EM算法被用来最大化对数似然函数，从而估计GMM的参数。

EM算法的基本思想是，在每一次迭代中，先进行E步（Expectation），计算隐变量在给定参数下的后验概率。

然后进行M步（Maximization），通过极大化对数似然函数来估计参数。

重复执行E步和M步，直到收敛为止。

在GMM中，E步计算的是隐藏变量对应的后验概率，即每个样本属于每个高斯分布的概率。

这个概率可以使用贝叶斯公式计算得到。

假设有N个样本，K个高斯分布，那么对于每个样本i和高斯分布j，可以计算其后验概率：$$w_{ij} = \frac{\pi_j \cdot \mathcal{N}(x_i，\mu_j,\Sigma_j)}{\sum_{k=1}^{K} \pi_k \cdot \mathcal{N}(x_i，\mu_k,\Sigma_k)}$$其中，$w_{ij}$表示样本i属于高斯分布j的后验概率，$\pi_j$表示高斯分布j的混合系数，$\mathcal{N}(x_i，\mu_j,\Sigma_j)$表示高斯分布j的概率密度函数。

在M步中，需要利用E步计算得到的后验概率，更新GMM的参数。

更新过程分两步进行：首先，根据后验概率的加权平均来更新混合系数，即每个高斯分布对应的权重；然后，根据后验概率的加权平均来更新高斯分布的均值和协方差矩阵。

混合系数的更新可以通过对每个高斯分布的后验概率求平均得到：$$\pi_j = \frac{1}{N} \sum_{i=1}^{N} w_{ij}$$高斯分布的均值和协方差矩阵的更新可以通过将样本加权平均来得到：$$\mu_j = \frac{1}{\sum_{i=1}^{N} w_{ij}} \sum_{i=1}^{N} w_{ij} \cdot x_i$$$$\Sigma_j = \frac{1}{\sum_{i=1}^{N} w_{ij}} \sum_{i=1}^{N}w_{ij} \cdot (x_i - \mu_j)(x_i - \mu_j)^T$$重复执行E步和M步，直到收敛为止。

混合高斯模型和EM算法

混合高斯模型（Mixtures of Gaussians）和EM算法这篇讨论使用期望最大化算法（Expectation-Maximization）来进行密度估计（density estim ation）。

与k-m eans一样，给定的训练样本是，我们将隐含类别标签用表示。

与k-m eans的硬指定不同，我们首先认为是满足一定的概率分布的，这里我们认为满足多项式分布，，其中，有k个值{1,…,k}可以选取。

而且我们认为在给定后，满足多值高斯分布，即。

由此可以得到联合分布。

整个模型简单描述为对于每个样例，我们先从k个类别中按多项式分布抽取一个，然后根据所对应的k个多值高斯分布中的一个生成样例，。

整个过程称作混合高斯模型。

注意的是这里的仍然是隐含随机变量。

模型中还有三个变量和。

最大似然估计为。

对数化后如下：这个式子的最大值是不能通过前面使用的求导数为0的方法解决的，因为求的结果不是close form。

但是假设我们知道了每个样例的，那么上式可以简化为：这时候我们再来对和进行求导得到：就是样本类别中的比率。

是类别为j的样本特征均值，是类别为j的样例的特征的协方差矩阵。

实际上，当知道后，最大似然估计就近似于高斯判别分析模型（Gaussian discriminant analysis m odel）了。

所不同的是GDA中类别y是伯努利分布，而这里的z是多项式分布，还有这里的每个样例都有不同的协方差矩阵，而GDA中认为只有一个。

之前我们是假设给定了，实际上是不知道的。

那么怎么办呢？考虑之前提到的EM 的思想，第一步是猜测隐含类别变量z，第二步是更新其他参数，以获得最大的最大似然估计。

用到这里就是：在E步中，我们将其他参数看作常量，计算的后验概率，也就是估计隐含类别变量。

估计好后，利用上面的公式重新计算其他参数，计算好后发现最大化最大似然估计时，值又不对了，需要重新计算，周而复始，直至收敛。

的具体计算公式如下：这个式子利用了贝叶斯公式。

机器学习算法总结（六）——EM算法与高斯混合模型

机器学习算法总结（六）——EM算法与⾼斯混合模型极⼤似然估计是利⽤已知的样本结果，去反推最有可能（最⼤概率）导致这样结果的参数值，也就是在给定的观测变量下去估计参数值。

然⽽现实中可能存在这样的问题，除了观测变量之外，还存在着未知的隐变量，因为变量未知，因此⽆法直接通过最⼤似然估计直接求参数值。

EM算法是⼀种迭代算法，⽤于含有隐变量的概率模型的极⼤似然估计，或者说是极⼤后验概率估计。

1、经典的三硬币模型引⼊⼀个例⼦来说明隐变量存在的问题。

假设有3枚硬币，分别记作A，B，C。

这些硬币正⾯出现的概率分别是π，p，q。

我们的实验过程如下，先投掷硬币A，根据其结果选出硬币B和硬币C，正⾯选B，反⾯选C；然后投掷选出的硬币，此时出现正⾯记作1，出现反⾯记作0。

在这个例⼦中我们观察到的变量只是B或者C的结果，⽽对A的结果并不知道，在这⾥A的结果也就是我们的隐变量。

A的结果对最终的结果是有影响的，因此在估计参数时必须将A的结果考虑进去。

1、EM算法我们将观测变量表⽰为Y = （Y1，Y2，....，Y n），隐变量表⽰为Z = （Z1，Z2，....，Z n），则观测数据的似然函数可以表⽰为在这⾥P(Y|θ) 是P(Y, Z|θ) 的边缘概率，通过转换后可以表⽰成右边的形式，我们将其转换成对数形式，这样便于求联合概率然⽽对于这样的式⼦直接根据极⼤化求θ的值是很困难的，因为这⾥还存在隐变量Z，在这⾥引⼊EM算法，通过迭代求解，假设在第i 次迭代后θ的估计值为θ(i)。

我们希望新估计值能是L(θ)增加，通过迭代逐步的达到最⼤值。

为此我们考虑第i+1步迭代后两者的差：利⽤Jensen不等式将上述式⼦展开并得到其下界（对数函数是凹函数）：令则有在这⾥B(θ, θ(i)) 是L(θ) 的⼀个下界，⽽且由的表达式可知因此任何能使得B(θ, θ(i)) 增⼤的θ，也能使得L(θ) 增⼤。

因此求θ值使得B(θ, θ(i)) 增⼤就可以转变成求θ使得L(θ) 增⼤，即求将上述式⼦展开可得（在这⾥去掉常数项，因为常数项不会影响最终的结果）因此问题就演变成了求Q函数的极⼤化。

EM算法用于高斯混合模型

EM算法用于高斯混合模型EM算法（Expectation-Maximization algorithm）是一种迭代算法，用于估计含有隐变量的概率模型参数。

它被广泛应用于高斯混合模型（Gaussian Mixture Model，GMM）的参数估计。

GMM 是一种概率模型，它由若干个高斯分布组成，每个高斯分布对应数据的一个分量。

具体来说，EM算法包含两个步骤：E步骤（Expectation step）和M步骤（Maximization step）。

在E步骤中，给定当前参数估计，我们计算隐变量的期望值。

而在M步骤中，根据这些隐变量的期望值，我们重新估计参数。

这两个步骤会反复迭代，直到参数收敛为止。

首先，我们来看E步骤。

在GMM中，每个观测值都可以由多个高斯分布生成。

我们需要计算每个数据点属于每个高斯分布的后验概率。

这个后验概率可以表示为每个高斯分布生成一些数据点的概率除以所有高斯分布生成这个数据点的概率之和。

这个后验概率即为数据点属于每个高斯分布的权重。

计算后验概率的方法是使用贝叶斯公式。

然后，我们来看M步骤。

在M步骤中，我们根据E步骤计算得到的后验概率，重新估计高斯分布的参数。

具体来说，对于每个高斯分布，我们计算其均值和协方差矩阵。

均值可以通过将数据点乘以其对应的后验概率，再除以所有后验概率之和来计算。

协方差矩阵可以通过计算每个数据点与对应高斯分布的均值之间的差的外积，再乘以其对应的权重，最后除以所有权重之和来计算。

在每次迭代中，E步骤和M步骤会交替进行，直到算法收敛。

算法的收敛条件可以选择参数变化的很小或达到一定的迭代次数。

在每次迭代中，EM算法会逐渐提高对数据的拟合程度，也就是逐渐改善参数的估计。

EM算法有很多优点。

首先，它是一种通用的算法，适用于各种类型的概率模型估计。

其次，EM算法在估计参数时可以有很大的灵活性，可以根据需求自定义参数的个数和选择去模型每个分量的数据。

此外，EM 算法收敛到局部最优，而跳出局部最优通常需要全局优化方法。

EM算法详细例子及推导

EM算法详细例子及推导EM算法（Expectation-Maximization Algorithm）是一种用于求解含有隐变量（latent variable）的概率模型的参数估计方法。

其基本思想是通过迭代的方式，通过观测数据得到对隐变量的估计，然后再基于该估计对模型参数进行优化。

下面我们以一个简单的高斯混合模型为例，详细介绍EM算法的推导和实例。

1. 高斯混合模型（Gaussian Mixture Model, GMM）高斯混合模型是一种概率模型，由多个高斯分布组合而成。

假设我们观测到的数据由K个高斯分布组成，每个高斯分布对应一个参数向量：均值miu和方差sigma^2、同时，我们还有一个隐变量Z，表示观测数据属于哪个高斯分布，取值范围为{1,2,...,K}。

2.EM算法EM算法的核心思想是通过交替进行两个步骤：E步（Expectation）和M步（Maximization）。

在E步中，我们对当前模型参数下的隐变量进行估计，得到对隐变量的最大似然估计。

在M步中，我们利用得到的隐变量估计更新模型参数，使模型对观测数据的似然函数最大化。

不断重复这两步直至模型收敛。

下面我们通过具体的例子来推导EM算法。

假设我们观测到了一个数据集X = {x1, x2, ..., xn}，我们希望通过EM算法对其进行建模。

Step1: 初始化模型参数首先，我们需要初始化模型参数。

选择K个高斯分布的参数miu和sigma^2，并假设所有的高斯分布对应的隐变量Z服从均匀分布。

这时，我们得到了初始模型参数Theta = {miu1, sigma^21, ..., miuK,sigma^K, pi1, pi2, ..., piK}。

Step2: E步，计算隐变量的后验分布在E步中，我们计算隐变量的后验分布。

对于每个观测样本xi，我们计算其属于每个高斯分布的概率，即：gamma(k,i) = P(Zi=k，xi, Theta) = P(Zi=k，xi, miu_k,sigma_k^2) = pi_k * N(xi，miu_k, sigma_k^2) / sum(pi_j * N(xi，miu_j, sigma_j^2)， j=1 to K其中N(xi，miu_k, sigma_k^2)表示xi在第k个高斯分布下服从的概率密度函数。

高斯混合模型的超参数估计

高斯混合模型的超参数估计高斯混合模型（Gaussian Mixture Model，简称GMM）是一种概率模型，用于描述多个高斯分布的混合体。

在机器学习和数据科学中，高斯混合模型常用于聚类、异常检测和密度估计等任务。

超参数是在模型训练之前需要设置的参数，而不是通过训练得到的参数。

对于高斯混合模型的超参数估计，通常使用EM（Expectation-Maximization）算法。

EM算法是一种迭代算法，用于在存在隐变量或缺失数据的情况下进行参数估计。

在高斯混合模型中，隐变量是各个数据点所属的簇（即类别），而缺失数据则是各个数据点对应的簇中心位置（即均值向量和高斯分布的协方差矩阵）。

在EM算法中，每一步迭代都包含两个步骤：期望（E）步骤和最大化（M）步骤。

在期望（E）步骤中，计算每个数据点属于各个簇的概率。

这些概率基于当前参数的估计值，包括各个簇的中心位置、协方差矩阵以及簇的先验概率。

然后，根据这些概率更新隐变量的状态，即每个数据点所属的簇。

在最大化（M）步骤中，根据隐变量的状态和当前参数的估计值，更新模型的参数。

具体来说，更新各个簇的中心位置和协方差矩阵，以及簇的先验概率。

这一步的目标是最大化似然函数，即数据的概率分布。

通过反复迭代EM算法，直到参数收敛或达到预设的最大迭代次数，就可以得到高斯混合模型的超参数估计值。

这些估计值包括各个簇的中心位置、协方差矩阵以及簇的先验概率。

值得注意的是，高斯混合模型的超参数估计也可以使用其他方法，如网格搜索、贝叶斯方法和启发式方法等。

不同的方法可能在不同的数据集和任务上表现不同，因此在实际应用中需要根据具体情况选择合适的方法。

EM算法及其应用

EM算法及其应用EM算法作为一种常用的统计方法，被广泛应用于各种领域，如计算机视觉、自然语言处理、生物信息学等。

在本文中，我们将详细探讨EM算法及其应用。

一、EM算法概述EM算法（Expectation-Maximization Algorithm）是一种用于概率模型参数估计的迭代算法，由Arthur Dempster等人于1977年提出。

它可以用于处理带有隐变量的模型参数估计，也可以被看做一种极大化带有隐变量的数据似然函数的方法。

EM算法的核心思想是将似然函数分解为两部分，一部分是观测数据，另一部分是隐变量。

在每次迭代中，EM算法首先根据当前参数的值计算出对隐变量的期望，即E步。

然后，它通过极大化在E步中计算出的隐变量的期望下的似然函数来更新参数，即M步。

这个过程不断迭代，直到收敛为止。

二、EM算法应用案例1. 高斯混合模型高斯混合模型（Gaussian Mixture Model，GMM）是一种用来描述多个高斯分布的模型。

在计算机视觉中，GMM被广泛应用于图像分割和姿态估计等领域。

由于图像中的像素值往往服从高斯分布，因此使用GMM进行图像分割时，可以将像素分为多个高斯分布。

使用EM算法进行GMM参数估计的步骤如下：1) 初始化高斯分布的个数和参数；2) E步：计算每个样本属于每个高斯分布的概率，即计算隐变量的期望；3) M步：根据在E步中计算出的隐变量的期望，更新高斯分布的均值和方差。

4) 不断迭代E步和M步，直到收敛。

2. K均值聚类K均值聚类是一种无监督学习的算法，它将n个样本划分为k 个簇，使得每个样本都属于距离它最近的簇。

这种算法被广泛应用于图像分割和文本聚类等领域。

使用EM算法进行K均值聚类的步骤如下：1) 随机初始化k个簇的中心点；2) E步：将每个样本分配到距离它最近的簇中，即计算隐变量的期望；3) M步：根据在E步中计算出的隐变量的期望，更新每个簇的中心点；4) 不断迭代E步和M步，直到收敛。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

混合高斯模型（Mixtures of Gaussians）和EM算法这篇讨论使用期望最大化算法（Expectation-Maximization）来进行密度估计（density estimation）。

与k-means一样，给定的训练样本是，我们将隐含类别标签用表示。

与k-means的硬指定不同，我们首先认为是满足一定的概率分布的，这里我们认为满足多项式分布，，其中，有k个值{1,…,k}可以选取。

而且我们认为在给定后，满足多值高斯分布，即。

由此可以得到联合分布。

整个模型简单描述为对于每个样例，我们先从k个类别中按多项式分布抽取一个，然后根据所对应的k个多值高斯分布中的一个生成样例，。

整个过程称作混合高斯模型。

注意的是这里的仍然是隐含随机变量。

模型中还有三个变量和。

最大似然估计为。

对数化后如下：这个式子的最大值是不能通过前面使用的求导数为0的方法解决的，因为求的结果不是close form。

但是假设我们知道了每个样例的，那么上式可以简化为：这时候我们再来对和进行求导得到：就是样本类别中的比率。

是类别为j的样本特征均值，是类别为j的样例的特征的协方差矩阵。

实际上，当知道后，最大似然估计就近似于高斯判别分析模型（Gaussian discriminant analysis model）了。

所不同的是GDA中类别y是伯努利分布，而这里的z是多项式分布，还有这里的每个样例都有不同的协方差矩阵，而GDA中认为只有一个。

之前我们是假设给定了，实际上是不知道的。

那么怎么办呢？考虑之前提到的EM 的思想，第一步是猜测隐含类别变量z，第二步是更新其他参数，以获得最大的最大似然估计。

用到这里就是：在E步中，我们将其他参数看作常量，计算的后验概率，也就是估计隐含类别变量。

估计好后，利用上面的公式重新计算其他参数，计算好后发现最大化最大似然估计时，值又不对了，需要重新计算，周而复始，直至收敛。

的具体计算公式如下：这个式子利用了贝叶斯公式。

这里我们使用代替了前面的，由简单的0/1值变成了概率值。

对比K-means可以发现，这里使用了“软”指定，为每个样例分配的类别是有一定的概率的，同时计算量也变大了，每个样例i都要计算属于每一个类别j的概率。

与K-means相同的是，结果仍然是局部最优解。

对其他参数取不同的初始值进行多次计算不失为一种好方法。

虽然之前再K-means中定性描述了EM的收敛性，仍然没有定量地给出，还有一般化EM 的推导过程仍然没有给出。

下一篇着重介绍这些内容。

（EM算法）The EM AlgorithmEM是我一直想深入学习的算法之一，第一次听说是在NLP课中的HMM那一节，为了解决HMM的参数估计问题，使用了EM算法。

在之后的MT中的词对齐中也用到了。

在Mitchell 的书中也提到EM可以用于贝叶斯网络中。

下面主要介绍EM的整个推导过程。

1. Jensen不等式回顾优化理论中的一些概念。

设f是定义域为实数的函数，如果对于所有的实数x，，那么f是凸函数。

当x是向量时，如果其hessian矩阵H是半正定的（），那么f是凸函数。

如果或者，那么称f是严格凸函数。

Jensen不等式表述如下：如果f是凸函数，X是随机变量，那么特别地，如果f是严格凸函数，那么当且仅当，也就是说X是常量。

这里我们将简写为。

如果用图表示会很清晰：图中，实线f是凸函数，X是随机变量，有0.5的概率是a，有0.5的概率是b。

（就像掷硬币一样）。

X的期望值就是a和b的中值了，图中可以看到成立。

当f是（严格）凹函数当且仅当-f是（严格）凸函数。

Jensen不等式应用于凹函数时，不等号方向反向，也就是。

2. EM算法给定的训练样本是，样例间独立，我们想找到每个样例隐含的类别z，能使得p(x,z)最大。

p(x,z)的最大似然估计如下：第一步是对极大似然取对数，第二步是对每个样例的每个可能类别z求联合分布概率和。

但是直接求一般比较困难，因为有隐藏变量z存在，但是一般确定了z后，求解就容易了。

EM是一种解决存在隐含变量优化问题的有效方法。

竟然不能直接最大化，我们可以不断地建立的下界（E步），然后优化下界（M步）。

这句话比较抽象，看下面的。

对于每一个样例i，让表示该样例隐含变量z的某种分布，满足的条件是。

（如果z是连续性的，那么是概率密度函数，需要将求和符号换做积分符号）。

比如要将班上学生聚类，假设隐藏变量z是身高，那么就是连续的高斯分布。

如果按照隐藏变量是男女，那么就是伯努利分布了。

可以由前面阐述的内容得到下面的公式：（1）到（2）比较直接，就是分子分母同乘以一个相等的函数。

（2）到（3）利用了Jensen不等式，考虑到是凹函数（二阶导数小于0），而且就是的期望（回想期望公式中的Lazy Statistician规则）（。

若对应于上述问题，Y是，X是，是，g是到的映射。

这样解释了式子（2）中的期望，再根据凹函数时的Jensen不等式：可以得到（3）。

这个过程可以看作是对求了下界。

对于的选择，有多种可能，那种更好的？假设已经给定，那么的值就决定于和了。

我们可以通过调整这两个概率使下界不断上升，以逼近的真实值，那么什么时候算是调整好了呢？当不等式变成等式时，说明我们调整后的概率能够等价于了。

按照这个思路，我们要找到等式成立的条件。

根据Jensen不等式，要想让等式成立，需要让随机变量变成常数值，这里得到：c为常数，不依赖于。

对此式子做进一步推导，我们知道，那么也就有，（多个等式分子分母相加不变，这个认为每个样例的两个概率比值都是c），那么有下式：至此，我们推出了在固定其他参数后，的计算公式就是后验概率，解决了如何选择的问题。

这一步就是E步，建立的下界。

接下来的M步，就是在给定后，调整，去极大化的下界（在固定后，下界还可以调整的更大）。

那么一般的EM算法的步骤如下：那么究竟怎么确保EM 收敛？假定和是EM 第t 次和t+1次迭代后的结果。

如果我们证明了，也就是说极大似然估计单调增加，那么最终我们会到达最大似然估计的最大值。

下面来证明，选定后，我们得到E 步这一步保证了在给定时，Jensen 不等式中的等式成立，也就是然后进行M 步，固定，并将视作变量，对上面的求导后，得到，这样经过一些推导会有以下式子成立：解释第（4）步，得到时，只是最大化，也就是的下界，而没有使等式成立，等式成立只有是在固定，并按E 步得到时才能成立。

况且根据我们前面得到的下式，对于所有的和都成立第（5）步利用了M步的定义，M步就是将调整到，使得下界最大化。

因此（5）成立，（6）是之前的等式结果。

这样就证明了会单调增加。

一种收敛方法是不再变化，还有一种就是变化幅度很小。

再次解释一下（4）、（5）、（6）。

首先（4）对所有的参数都满足，而其等式成立条件只是在固定，并调整好Q时成立，而第（4）步只是固定Q，调整，不能保证等式一定成立。

（4）到（5）就是M步的定义，（5）到（6）是前面E步所保证等式成立条件。

也就是说E步会将下界拉到与一个特定值（这里）一样的高度，而此时发现下界仍然可以上升，因此经过M步后，下界又被拉升，但达不到与另外一个特定值一样的高度，之后E步又将下界拉到与这个特定值一样的高度，重复下去，直到最大值。

如果我们定义从前面的推导中我们知道，EM可以看作是J的坐标上升法，E步固定，优化，M步固定优化。

3. 重新审视混合高斯模型我们已经知道了EM的精髓和推导过程，再次审视一下混合高斯模型。

之前提到的混合高斯模型的参数和计算公式都是根据很多假定得出的，有些没有说明来由。

为了简单，这里在M步只给出和的推导方法。

E步很简单，按照一般EM公式得到：简单解释就是每个样例i的隐含类别为j的概率可以通过后验概率计算得到。

在M步中，我们需要在固定后最大化最大似然估计，也就是这是将的k种情况展开后的样子，未知参数和。

固定和，对求导得等于0时，得到这就是我们之前模型中的的更新公式。

然后推导的更新公式。

看之前得到的在和确定后，分子上面的一串都是常数了，实际上需要优化的公式是：需要知道的是，还需要满足一定的约束条件就是。

这个优化问题我们很熟悉了，直接构造拉格朗日乘子。

还有一点就是，但这一点会在得到的公式里自动满足。

求导得，等于0，得到也就是说再次使用，得到这样就神奇地得到了。

那么就顺势得到M步中的更新公式：的推导也类似，不过稍微复杂一些，毕竟是矩阵。

结果在之前的混合高斯模型中已经给出。

4. 总结如果将样本看作观察值，潜在类别看作是隐藏变量，那么聚类问题也就是参数估计问题，只不过聚类问题中参数分为隐含类别变量和其他参数，这犹如在x-y坐标系中找一个曲线的极值，然而曲线函数不能直接求导，因此什么梯度下降方法就不适用了。

但固定一个变量后，另外一个可以通过求导得到，因此可以使用坐标上升法，一次固定一个变量，对另外的求极值，最后逐步逼近极值。

对应到EM上，E步估计隐含变量，M步估计其他参数，交替将极值推向最大。

EM中还有“硬”指定和“软”指定的概念，“软”指定看似更为合理，但计算量要大，“硬”指定在某些场合如K-means中更为实用（要是保持一个样本点到其他所有中心的概率，就会很麻烦）。

另外，EM的收敛性证明方法确实很牛，能够利用log的凹函数性质，还能够想到利用创造下界，拉平函数下界，优化下界的方法来逐步逼近极大值。

而且每一步迭代都能保证是单调的。

最重要的是证明的数学公式非常精妙，硬是分子分母都乘以z的概率变成期望来套上Jensen不等式，前人都是怎么想到的。

在Mitchell的Machine Learning书中也举了一个EM应用的例子，明白地说就是将班上学生的身高都放在一起，要求聚成两个类。

这些身高可以看作是男生身高的高斯分布和女生身高的高斯分布组成。

因此变成了如何估计每个样例是男生还是女生，然后在确定男女生情况下，如何估计均值和方差，里面也给出了公式，有兴趣可以参考。