EM算法的详解

合集下载

最大期望值EM算法

最大期望值EM算法最大期望值(Expectation-Maximization, EM)算法是一种统计学习方法，用于解决带有隐变量的概率模型参数估计问题。

EM算法的主要思想是通过迭代求解局部最优解，并且能够保证每次迭代过程中目标函数值不减。

EM算法广泛应用于数据挖掘、图像处理、自然语言处理等领域，在金融、医学和社会科学等领域也有许多实际应用。

本文将对EM算法的基本原理、迭代过程、理论基础和应用进行详细介绍。

一、基本原理EM算法是一种迭代算法，包含两个步骤：E步和M步。

其中，E步是求期望(expectation)的过程，用于更新隐变量对观测数据的条件概率分布；M步是求最大化(maximization)的过程，用于更新模型的参数。

通过不断交替进行E步和M步，直到收敛为止，即可得到最优的参数估计。

二、迭代过程1.初始化参数：随机给定模型参数的初始值。

2.E步：根据当前参数估计，计算隐变量对观测数据的条件概率分布。

3.M步：根据当前隐变量的条件概率分布，最大化观测数据的对数似然函数，更新模型的参数估计。

4.计算目标函数值：根据当前参数估计，计算目标函数的值。

5.判断是否满足停止条件：如果满足停止条件，则算法结束；否则，返回第2步。

三、理论基础EM算法基于两个基本定理：数据的似然函数下界和KL散度的非负性。

1.数据的似然函数下界：对于给定的观测数据，EM算法通过求解数据的似然函数的下界来进行参数估计。

这个下界是通过引入隐变量来扩展数据模型得到的，因此可以利用EM算法求解。

2.KL散度的非负性：KL散度是衡量两个概率分布之间的差异程度的指标。

在EM算法中，通过最大化观测数据的对数似然函数来更新模型的参数，相当于最小化KL散度。

四、应用领域EM算法在许多领域都有广泛的应用。

以下是一些典型的应用实例：1.聚类分析：EM算法可以用于高斯混合模型的参数估计，从而实现聚类分析。

2.隐马尔可夫模型(HMM)：EM算法可以用于HMM模型参数的估计，应用于自然语言处理、语音识别等领域。

统计学习中的EM算法

统计学习中的EM算法EM算法是一种常用的统计学习方法，它可以用于估计未知参数，特别是那些需要通过观察到的数据加以估计的复杂模型。

本文将介绍EM算法的基本原理、应用场景以及优缺点。

一、基本原理EM算法（Expectation Maximization）相当于是用一种迭代的方式，在“期望”（Expectation）和“最大化”（Maximization）之间进行交替，来求解模型参数的一种方法。

EM算法的基本思想是：在训练数据样本中，往往存在隐含变量，而且无法直接观测到。

我们需要发掘这些隐含变量的概率分布，从而求解最优的模型参数。

具体来说，EM算法的步骤如下：首先，选择一个初始化的参数值；然后，使用这些参数值来计算隐含变量的概率分布；接下来，根据这些概率分布来重新估计参数的值；不断重复以上三个步骤，直到收敛，得到最优的模型参数值。

EM算法通过迭代来求解未知的参数值，对于一些需要最大化其似然函数的模型，EM算法可以找到使得似然函数最大的参数值。

最常见的应用场景是在高斯混合模型（GMM）以及隐马尔可夫模型（HMM）中。

二、应用场景1、高斯混合模型高斯混合模型是一种将多个高斯分布加权叠加的模型，它常被用于描述复杂数据的分布情况。

举个例子，在股票市场上，可以将不同的股票价格看成不同的高斯分布，然后用高斯混合模型来描述整个市场的波动情况。

在这种情况下，EM算法可以用来估计每个高斯分布的权重、均值和方差。

2、隐马尔可夫模型隐马尔可夫模型是一种包含隐含状态的动态变化模型。

它常被用于语音识别、自然语言处理、图像处理等领域。

在隐马尔可夫模型中，我们需要估计各个状态转移概率以及各个隐含状态下的观测值概率分布。

EM算法可以用来求解这些参数值。

三、优缺点1、优点EM算法可以用来处理包含隐含变量的模型，在实际应用中非常普遍。

EM算法可以求解似然函数的最大值或者后验概率的最大值。

这样，在目标函数为凸函数的情况下，EM算法可以获得全局最优解。

EM算法详细例子及推导

EM算法详细例子及推导EM算法（Expectation-Maximization Algorithm）是一种用于求解含有隐变量（latent variable）的概率模型的参数估计方法。

其基本思想是通过迭代的方式，通过观测数据得到对隐变量的估计，然后再基于该估计对模型参数进行优化。

下面我们以一个简单的高斯混合模型为例，详细介绍EM算法的推导和实例。

1. 高斯混合模型（Gaussian Mixture Model, GMM）高斯混合模型是一种概率模型，由多个高斯分布组合而成。

假设我们观测到的数据由K个高斯分布组成，每个高斯分布对应一个参数向量：均值miu和方差sigma^2、同时，我们还有一个隐变量Z，表示观测数据属于哪个高斯分布，取值范围为{1,2,...,K}。

2.EM算法EM算法的核心思想是通过交替进行两个步骤：E步（Expectation）和M步（Maximization）。

在E步中，我们对当前模型参数下的隐变量进行估计，得到对隐变量的最大似然估计。

在M步中，我们利用得到的隐变量估计更新模型参数，使模型对观测数据的似然函数最大化。

不断重复这两步直至模型收敛。

下面我们通过具体的例子来推导EM算法。

假设我们观测到了一个数据集X = {x1, x2, ..., xn}，我们希望通过EM算法对其进行建模。

Step1: 初始化模型参数首先，我们需要初始化模型参数。

选择K个高斯分布的参数miu和sigma^2，并假设所有的高斯分布对应的隐变量Z服从均匀分布。

这时，我们得到了初始模型参数Theta = {miu1, sigma^21, ..., miuK,sigma^K, pi1, pi2, ..., piK}。

Step2: E步，计算隐变量的后验分布在E步中，我们计算隐变量的后验分布。

对于每个观测样本xi，我们计算其属于每个高斯分布的概率，即：gamma(k,i) = P(Zi=k，xi, Theta) = P(Zi=k，xi, miu_k,sigma_k^2) = pi_k * N(xi，miu_k, sigma_k^2) / sum(pi_j * N(xi，miu_j, sigma_j^2)， j=1 to K其中N(xi，miu_k, sigma_k^2)表示xi在第k个高斯分布下服从的概率密度函数。

EM算法及应用实例

EM算法及应用实例EM算法，全称为Expectation-Maximization算法，是一种常用的统计推断算法，用于在包含隐变量的概率模型中进行参数估计。

EM算法的基本思想是通过交替进行两步操作，一步是求期望（E步），另一步是求极大化解（M步）。

通过交替进行这两步操作，EM算法可以逐步提高模型对参数的估计，并逼近参数的最优解。

EM算法在统计学、机器学习和数据处理等领域有广泛的应用。

下面将对EM算法的两个步骤进行详细介绍，并给出一个应用实例加以说明。

1. E步（Expectation Step）在E步中，给定当前模型参数的估计，计算隐变量的条件概率分布期望（即给定观测数据下的隐变量的期望）。

这一步的目的是根据当前参数估计的情况，计算隐变量的期望，用于下一步的参数估计。

2. M步（Maximization Step）在M步中，给定E步计算得到的隐变量的期望，计算模型参数的估计值，使得参数估计值使得隐变量的期望最大化。

这一步的目的是用E步计算得到的隐变量的期望来修正参数估计。

下面给出一个EM算法的应用实例：高斯混合模型的参数估计。

高斯混合模型是一种常用的概率分布模型，它是由多个高斯分布按一定比例叠加而成。

每个高斯分布被称为一个混合成分，每个混合成分有自己的均值和方差。

给定一个观测数据集，我们希望用高斯混合模型来对这个数据集进行建模，从而估计出每个混合成分的均值和方差。

假设数据集包含N个样本，每个样本是一个d维的向量。

高斯混合模型的参数可以分为两类：混合比例和混合成分参数。

混合比例表示每个混合成分在总体中所占的比例，混合成分参数表示每个混合成分的均值和方差。

假设总共有K个混合成分，则混合比例可以用一个K维向量表示，并满足各个元素之和为1、混合成分的均值和方差可以分别用K个d维向量和K个d×d维矩阵表示。

首先，我们需要初始化混合比例和混合成分参数的估计值。

这些估计值可以随机初始化或者通过其他方式得到。

r语言emt打分

r语言emt打分一、EM算法简介EM算法是一种常用的参数估计方法，特别适用于含有隐变量的概率模型。

它通过迭代的方式，不断调整模型参数，使得模型的似然函数最大化。

EM算法主要分为两个步骤：E步和M步。

1. E步：计算期望在E步中，根据当前的参数估计值，计算隐变量的后验概率。

这里的后验概率是指给定观测数据和当前参数估计值下，隐变量取不同值的概率。

2. M步：最大化在M步中，利用E步得到的隐变量的后验概率，更新模型的参数估计值。

通过最大化似然函数，得到新的参数估计值。

EM算法通过反复迭代E步和M步，直到似然函数收敛或达到预设的迭代次数，得到最优的参数估计值。

二、EM算法在高斯混合模型中的应用高斯混合模型（Gaussian Mixture Models，简称GMM）是一种常用的概率模型，它假设观测数据是由多个高斯分布混合而成的。

EM算法可以用于对GMM进行参数估计。

1. 模型假设GMM假设观测数据服从多个高斯分布，每个高斯分布对应一个隐变量。

隐变量表示观测数据属于哪个高斯分布的概率。

2. 参数估计利用EM算法可以对GMM进行参数估计。

在E步中，计算观测数据属于每个高斯分布的后验概率。

在M步中，利用E步得到的后验概率，更新高斯分布的均值和方差。

三、使用R语言实现EMT打分R语言是一种强大的统计分析工具，可以方便地实现EM算法。

下面以一个简单的例子来演示如何使用R语言实现EMT打分。

```R# 导入EMT包library(EMT)# 生成一些观测数据data <- rbind(matrix(rnorm(200), ncol = 2),matrix(rnorm(200, mean = 5), ncol = 2))# 运行EMT算法result <- EMT(data, K = 2) # K为高斯分布的数量# 输出结果print(result$mu) # 输出高斯分布的均值print(result$sigma) # 输出高斯分布的方差print(result$probability) # 输出每个观测数据属于每个高斯分布的后验概率```在上述代码中，首先导入EMT包，然后生成一些观测数据。

em算法

em算法是指期望最大化算法（期望最大化算法，也翻译为期望最大化算法），是一种迭代算法，用于包含潜在变量概率估计的概率参数模型的最大似然估计或最大后验。

在统计计算中，最大期望(EM)算法是在概率(probabilistic)模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐藏变量(Latent Variable)。

最大期望经常用在机器学习和计算机视觉的数据聚类(Data Clustering)领域。

最大期望算法经过两个步骤交替进行计算:第一步是计算期望(E)，利用概率模型参数的现有估计值，计算隐藏变量的期望;第二步是最大化(M)，利用E 步上求得的隐藏变量的期望，对参数模型进行最大似然估计。

M 步上找到的参数估计值被用于下一个E 步计算中，这个过程不断交替进行。

总体来说，EM的算法流程如下:1.初始化分布参数2.重复直到收敛:E步骤:估计未知参数的期望值，给出当前的参数估计。

M步骤:重新估计分布参数，以使得数据的似然性最大，给出未知变量的期望估计。

迭代使用EM步骤，直至收敛。

可以有一些比较形象的比喻说法把这个算法讲清楚。

比如说食堂的大师傅炒了一份菜，要等分成两份给两个人吃，显然没有必要拿来天平一点一点的精确的去称分量，最简单的办法是先随意的把菜分到两个碗中，然后观察是否一样多，把比较多的那一份取出一点放到另一个碗中，这个过程一直迭代地执行下去，直到大家看不出两个碗所容纳的菜有什么分量上的不同为止。

EM算法就是这样，假设我们估计知道A和B两个参数，在开始状态下二者都是未知的，并且知道了A的信息就可以得到B的信息，反过来知道了B也就得到了A。

可以考虑首先赋予A某种初值，以此得到B的估计值，然后从B的当前值出发，重新估计A的取值，这个过程一直持续到收敛为止。

EM 算法是Dempster，Laind，Rubin 于1977 年提出的求参数极大似然估计的一种方法，它可以从非完整数据集中对参数进行MLE 估计，是一种非常简单实用的学习算法。

EM算法new

EM算法过程：
1、用随机函数初始化K个高斯分布的参数，同时保证

k 1
K
k
1
Expectation 2、依次取观察数据x，比较x在K个高斯函数中概率的大小，把x归类到这K个高斯 1 e 2 中概率最大的一个。
( x k )( x k )T 2 k 2 k k
Maximum 3、用最大似然估计，使观察数据是x的概率最大，因为已经在第2步中分好类了，所以，即简单问题的求法。 1
• Variational EM 有些时候，是丌能显式的计算出来，这个时候最大化就显得相当困难。这个时候，可以考虑丌一定保证Jensen丌等式一定要取等号，如果给定某种形式，就得到variational EM算法。 • EM for MAP 上面讲的是针对MLE估计的EM算法，其实也有针对MAP估计的EM算法。 • Online EM 上面讲的是EM可以归亍batch EM一类，还有文献介绍关亍online EM的论述。可以在文献[2]中阅读到有关online EM的内容。
四 EM算法举例
• EM算法就是通过迭代地最大化完整数据的对数似然函数的期望，来最大化丌完整数据的对数似然函数。当然，针对各种 EM的变形，它们又有各自的应用景。 • 丼例： • 设有n个样本，它们是由高斯混合分布产生； • 高斯混合分布是由k个丌同的高斯分布混合生成，每个分布都相互独立。 • 用EM算法估计高斯混合分布参数：确定每个高斯分布的（1）均值和（2）斱差及（3）先验概率；
独立.且，
亍是，
• (4) 引入两个函数：
• 这时，可以简化为：
• 注意，，等号在p=q时成立。所以是的下界。而EM算法的思路就是靠丌断的提高下界，来找到的最大值。再回顾一下，直接计算有时候是件困难/复杂的事情。丌过计算是比较容易的。那么如何提高下呢？EM算法的E步和M步正是来实现这个目标的。 • E步：假设当前的参数为，固定，找一个分布q(Z)，使得最大。但是注意到不Z无关，所以使最大，等价亍使最小(=0)，也就是说。 • M步：固定q(Z)，找新参数，使得最大。当然，的增大可能来自亍两部分：和，毕竟此时和一般是丌同的，所以。

机器学习算法——EM算法

机器学习算法——EM算法E步：利用当前估计的参数值，求出在该参数下隐含变量的条件概率值（计算对数似然的期望值）；M步：结合E步求出的隐含变量条件概率，求出似然函数下界函数的最大值（寻找能使E步产生的似然期望最大化的参数值。

）然后，新得到的参数值重新被用于E步.....直到收敛到局部最优解。

（note：每次迭代实际在求Q函数及其极大，即每次迭代使似然函数增大或达到局部极值。

）优点：简单性和普适性，可看作是一种非梯度优化方法（解决梯度下降等优化方法的缺陷：求和的项数将随着隐变量的数目以指数级上升，会给梯度计算带来麻烦）缺点：对初始值敏感，不同的初值可能得到不同的参数估计值；不能保证找到全局最优值。

一、Jensen 不等式在EM算法的推导过程中，用到了数学上的Jensen不等式，这里先来介绍一下。

其中，二、EM算法推导面对一个含有隐含变量Z的概率模型，目标是极大化观测数据Y 关于参数的对数似然函数，即极大化：事实上，EM算法是通过迭代逐步极大化的。

假设在第次迭代后的估计值是。

我们希望新的估计值能使增加，即,并逐步达到极大值。

为此考虑两者的差：上式利用了Jensen不等式，且，则可得上述推导。

注意为凹函数，不等号要改变方向令EM算法并不能保证全局最优值，直观解释如图所示。

好好理解这个图三、EM算法在高斯混合模型中的应用：高斯混合模型：步骤：（1）明确隐变量，写出完全数据的对数似然函数。

（2）EM算法的E步：确定Q函数（即：完全数据的对数似然函数关于在给定观测数据和参数的条件下对隐变量的条件概率的期望）：（3）M步：求Q函数对theta的极大值，即求新一轮迭代的模型参数。

四、采用EM算法求解的模型有哪些？为什么不用牛顿法或者梯度下降法？一般有混合高斯、协同过滤、k-means。

算法一定会收敛，但是可能会收敛到局部最优。

求和的项数会随着隐变量的数目指数上升，会给梯度计算带来麻烦。

EM算法是一种非梯度优化算法。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

（EM算法）The EM Algorithm
EM是我一直想深入学习的算法之一，第一次听说是在NLP课中的HMM那一节，为了解决HMM的参数估计问题，使用了EM算法。

在之后的MT 中的词对齐中也用到了。

在Mitchell的书中也提到EM可以用于贝叶斯网络中。

下面主要介绍EM的整个推导过程。

1. Jensen不等式
回顾优化理论中的一些概念。

设f是定义域为实数的函数，如果对于所有的实数x，，那么f是凸函数。

当x是向量时，如果其
hessian矩阵H是半正定的（），那么f是凸函数。

如果或者，那么称f是严格凸函数。

Jensen不等式表述如下：
如果f是凸函数，X是随机变量，那么
特别地，如果f是严格凸函数，那么当且仅当，也就是说X是常量。

这里我们将简写为。

如果用图表示会很清晰：
图中，实线f是凸函数，X是随机变量，有0.5的概率是a，有0.5的概率是b。

（就像掷硬币一样）。

X的期望值就是a和b的中值了，图中可以看到成立。

当f是（严格）凹函数当且仅当-f是（严格）凸函数。

Jensen不等式应用于凹函数时，不等号方向反向，也就是。

2. EM算法
给定的训练样本是，样例间独立，我们想找到每个样例隐含的类别z，能使得p(x,z)最大。

p(x,z)的最大似然估计如下：
第一步是对极大似然取对数，第二步是对每个样例的每个可能类别z求联合分布概率和。

但是直接求一般比较困难，因为有隐藏变量z存在，但是一般确定了z后，求解就容易了。

EM是一种解决存在隐含变量优化问题的有效方法。

竟然不能直接最大化，我们可以不断地建立的下界（E步），然后优化下界（M步）。

这句话比较抽象，看下面的。

对于每一个样例i，让表示该样例隐含变量z的某种分布，满足的条件是。

（如果z是连续性的，那么是概率密度函数，需要将求和符号换做积分符号）。

比如要将班上学生聚类，假设隐藏变量z是身高，那么就是连续的高斯分布。

如果按照隐藏变量是男女，那么就是伯努利分布了。

可以由前面阐述的内容得到下面的公式：
（1）到（2）比较直接，就是分子分母同乘以一个相等的函数。

（2）到（3）利用了Jensen不等式，考虑到是凹函数（二阶导数小于0），而且
就是的期望（回想期望公式中的Lazy Statistician规则）
设Y是随机变量X的函数（g是连续函数），那么
（1）X是离散型随机变量，它的分布律为，k=1,2,…。

若绝对收敛，则有
（2）X是连续型随机变量，它的概率密度为，若绝对收敛，则有
对应于上述问题，Y是，X是，是，g是到
的映射。

这样解释了式子（2）中的期望，再根据凹函数时的Jensen不等式：
可以得到（3）。

这个过程可以看作是对求了下界。

对于的选择，有多种可能，那种更好的？假设已经给定，那么的值就决定于
和了。

我们可以通过调整这两个概率使下界不断上升，以逼近的真实值，那么什么时候算是调整好了呢？当不等式变成等
式时，说明我们调整后的概率能够等价于了。

按照这个思路，我们要找到等式成立的条件。

根据Jensen不等式，要想让等式成立，需要让随机变量变成常数值，这里得到：
c为常数，不依赖于。

对此式子做进一步推导，我们知道，那么也就有，（多个等式分子分母相加不变，这个认为每个样例的两个概率比值都是c），那么有下式：
至此，我们推出了在固定其他参数后，的计算公式就是后验概率，解决了如何选择的问题。

这一步就是E步，建立
的下界。

接下来的M步，就是在给定后，调整，去极大化的下界（在固定后，下界还可以调整的更大）。

那么一般的EM算法的步骤如下：
循环重复直到收敛{
（E步）对于每一个i，计算
（M步）计算
那么究竟怎么确保EM收敛？假定和是EM第t次和t+1次迭代后的结果。

如果我们证明了，也就
是说极大似然估计单调增加，那么最终我们会到达最大似然估计的最大值。

下面来证明，选定后，我们得到E步
这一步保证了在给定时，Jensen不等式中的等式成立，也就是
然后进行M步，固定，并将视作变量，对上面的求导后，得到，这样经过一些推导会有以下式子成立：
解释第（4）步，得到时，只是最大化，也就是的下界，而没有使等式成立，等式成立只有是在固定，并
按E步得到时才能成立。

况且根据我们前面得到的下式，对于所有的和都成立
第（5）步利用了M步的定义，M步就是将调整到，使得下界最大化。

因此（5）成立，（6）是之前的等式结果。

这样就证明了会单调增加。

一种收敛方法是不再变化，还有一种就是变化幅度很小。

再次解释一下（4）、（5）、（6）。

首先（4）对所有的参数都满足，而其等式成立条件只是在固定，并调整好Q时成立，而第（4）步只是固定
Q，调整，不能保证等式一定成立。

（4）到（5）就是M步的定义，（5）到（6）是前面E步所保证等式成立条件。

也就是说E步会将下界拉到与
一个特定值（这里）一样的高度，而此时发现下界仍然可以上升，因此经过M步后，下界又被拉升，但达不到与另外一个特定值一样的高度，之后E步又将下界拉到与这个特定值一样的高度，重复下去，直到最大值。

如果我们定义
从前面的推导中我们知道，EM可以看作是J的坐标上升法，E步固定，优化，M步固定优化。

3. 重新审视混合高斯模型
我们已经知道了EM的精髓和推导过程，再次审视一下混合高斯模型。

之前提到的混合高斯模型的参数和计算公式都是根据很多假定得出的，有些没有说明来由。

为了简单，这里在M步只给出和的推导方法。

E步很简单，按照一般EM公式得到：
简单解释就是每个样例i的隐含类别为j的概率可以通过后验概率计算得到。

在M步中，我们需要在固定后最大化最大似然估计，也就是
这是将的k种情况展开后的样子，未知参数和。

固定和，对求导得
等于0时，得到
这就是我们之前模型中的的更新公式。

然后推导的更新公式。

看之前得到的
在和确定后，分子上面的一串都是常数了，实际上需要优化的公式是：
需要知道的是，还需要满足一定的约束条件就是。

这个优化问题我们很熟悉了，直接构造拉格朗日乘子。

还有一点就是，但这一点会在得到的公式里自动满足。

求导得，
等于0，得到
也就是说再次使用，得到
这样就神奇地得到了。

那么就顺势得到M步中的更新公式：
的推导也类似，不过稍微复杂一些，毕竟是矩阵。

结果在之前的混合高斯模型中已经给出。

4. 总结
如果将样本看作观察值，潜在类别看作是隐藏变量，那么聚类问题也就是参数估计问题，只不过聚类问题中参数分为隐含类别变量和其他参数，这犹如在x-y坐标系中找一个曲线的极值，然而曲线函数不能直接求导，因此什么梯度下降方法就不适用了。

但固定一个变量后，另外一个可以通过求导得到，因此可以使用坐标上升法，一次固定一个变量，对另外的求极值，最后逐步逼近极值。

对应到EM上，E步估计隐含变量，M步估计其他参数，交替将极值推向最大。

EM中还有“硬”指定和“软”指定的概念，“软”指定看似更为合理，但计算量要大，“硬”指定在某些场合如K-means 中更为实用（要是保持一个样本点到其他所有中心的概率，就会很麻烦）。

另外，EM的收敛性证明方法确实很牛，能够利用log的凹函数性质，还能够想到利用创造下界，拉平函数下界，优化下界的方法来逐步逼近极大值。

而且每一步迭代都能保证是单调的。

最重要的是证明的数学公式非常精妙，硬是分子分母都乘以z的概率变成期望来套上Jensen不等式，前人都是怎么想到的。

在Mitchell的Machine Learning书中也举了一个EM应用的例子，明白地说就是将班上学生的身高都放在一起，要求聚成两个类。

这些身高可以看作是男生身高的高斯分布和女生身高的高斯分布组成。

因此变成了如何估计每个样例是男生还是女生，然后在确定男女生情况下，如何估计均值和方差，里面也给出了公式，有兴趣可以参考。