大数据经典算法EM算法讲解

合集下载

EM算法简介精品PPT课件

在EM算法正式提出以来，人们对EM算法的性质有更加深入的研究.并且在此基础上，提出了很多改进的算法.
在数理统计，数据挖掘，机器学习以及模式识别等领域有广泛的应用.
3
问题提出
给定一些观察数据y，假设y符合如下的高斯分布
K
p(y) kN(y|k,k). k1
需要求出混合高斯分布的三组参数 k,k,k
即
||i1 i || ||Q (i 1| i)Q (i|. i)||
重复上面两个步骤直至
或
充分小时，停止.
11
EM例子
• 有公式(1)(3)以及贝叶斯公式可得
p(Z|Y,,,)
∝
NK
[kN(yn|k,k)z]nk
n1 k1
其中N表示观察样本数.
• 公式中 znk 是未知的，需要求出它的期望
12
推论L 1(.M(假*设)) 存L在(一)些,
并
且Q (M ()|)Q (，|那么),有
a) k(x|y ,M ( ) )k(x|y , )
b)
c)
几乎处处成立.
17
GEM算法性质
推论2.对于一 , ,L ()L ()
些
，其中
，
那么对于GEM算M 法有().
(p), p0,1,2,...
EM的M-step可能比较复杂
• M-step
定义映M射()
Q (M ( 满)|) Q (|)
足,其中是参数空 . 间，
i1 M(
即
16
GEM算法性质
引理1.
对于任意 (',一 ) 对 ,其参中是数参数空间，
H ('|)H (|),
4
问题简化

em计算公式

"EM" 可以表示不同的概念，具体的计算公式取决于你所指的具体问题或领域。

以下是一些与"EM" 相关的常见计算公式：1. **期望最大化算法(Expectation-Maximization, EM)**：EM算法用于估计具有潜在变量的概率模型参数。

它通常包括两个主要步骤：E步骤（Expectation）和M步骤（Maximization）。

EM算法的计算公式涉及到概率密度函数和最大似然估计，具体的公式可能会根据问题的不同而变化。

通常情况下，EM算法的更新规则如下：- **E步骤（Expectation）**：计算在给定当前参数下，潜在变量的条件期望值。

- **M步骤（Maximization）**：使用条件期望值来更新模型的参数以最大化似然函数。

2. **电磁场计算**：在电磁学领域，计算电场或磁场的公式可以根据具体问题而变化。

例如，计算电场强度E的公式可以使用库仑定律：- E = k * |q| / r^2其中，E表示电场强度，k是电场常数，q是电荷量，r是距离。

3. **能量质量等效性（E=mc²）**：这是爱因斯坦的质能等效性公式，用于计算物质的能量与其质量之间的关系。

公式为：- E = m * c²其中，E表示能量，m表示质量，c表示光速。

4. **教育评估中的期望值（Expected Value）**：在教育评估中，期望值通常用于计算学生或测试结果的平均得分。

期望值的计算公式为：- E(X) = Σ (x * P(x))其中，E(X)表示期望值，x表示可能的得分，P(x)表示每个得分发生的概率。

EM算法

在医学研究中的应用
ˆ 和 ˆ 2： 3)计算均值和方差的最大似然估计校正值
2 ˆ ˆ 4)重复以上的2-3步,直至和收敛为止。
经过EM迭代算法可得:
迭代算法补入的两个数据:第4行第5个为2.5216,第8行第3个为4.5522。
在医学研究中的应用
5)MonteCarlo模拟,随机取 x
假设我们想估计知道A和B两个参数，在开始状态下二者都是未知的，但如果知道了A的信息就可以得到B的信息，反过来知道了B也就得到了A。可以考虑首先赋予A某种初值，以此得到B的估计值，然后从B的当前值出发，重新估计A的取值，持续迭代直到收敛为止。
迭代的结果真的有效吗？
从最大似然到EM算法
EM算法推导
里面了。那下一步怎么办啊？你开始喊：“男的左边，女的右边！”。然后你就先统计抽样得某些男生和女生一见钟情，无法硬把他们拉扯开。那现在这200个人已经混到一起了，到的 100个男生的身高。随便指出一个人（的身高），无法确定这个人（的身高）是男生（的身高）还是女生（的身假设他们的身高是服从高斯分布的。但是这个分布的均值 μ和方差σ2我们不知道，这两个参数高）。也就是说不知道抽取的那200个人里面的每一个人到底是从男生的那个身高分布里面就是我们要估计的。记作 θ=[μ,σ2]T 抽取的，还是女生的那个身高分布抽取的。用数学的语言就是，抽取得到的每个样本都不知道是从哪个分布抽取的。两个问题需要估计：一是这个人是男的还是女的？
i 1 zi
p( xi , zi ; ) ln LEM ( ) ln p( xi , zi ; ) ln Q( zi ) Q( zi ) i zi i zi p( xi , zi ; ) Q( zi ) ln Q( zi ) i zi

EM算法-完整推导

EM算法-完整推导前篇已经对EM过程,举了扔硬币和⾼斯分布等案例来直观认识了, ⽬标是参数估计, 分为 E-step 和 M-step, 不断循环, 直到收敛则求出了近似的估计参数, 不多说了, 本篇不说栗⼦, 直接来推导⼀波.Jensen 不等式在满⾜:⼀个 concave 函数, 即形状为 "⋂" 的函数f(x)λj≥0∑jλj=1 类似于随机变量的分布的前提条件下, 则有不等式:f(∑jλj x j)≥∑jλj f(x j)恒成⽴, 则该不等式称为 Jensen 不等式. 是有些不太直观哦, (sum 是最后哦, 有时候会犯晕).为了更直观⼀点, 考虑λ只有两个值, 即:λ1=1−tλ2=1其中,0⩽"\bigcap" 函数 f(x) 中有⼀段区间 [a, b], 构造出该范围内的⼀个点x_t当, x_t = (1+t)a + tb则有:f((1-t)a +tb) \ge (1-t)f(a) + tf(b)这⾥跟之前写过的 convex 其实是⼀模⼀样的, 要是还不直观, 就⾃个画个草图就秒懂了.左边是函数的值, 右边连接两个端点a,b的函数值的直线, 因为是 "\bigcap 的", 故函数值必然在直线的上⽅.⽤数学归纳法, 当 M > 2:f(\sum \limits _{j=1}^M \lambda_j x_j) \ge \sum \limits _{j=1}^M \lambda_j f(x_j)EM算法推导假设给定⼀个包含 n 个独⽴的训练样本的数据集, D = \{ x_1, x_2, x_3...x_n) \}希望拟合⼀个概率模型p(x, z) , 其对数似然函数(log likelihood)为:为啥要 log, 乘法变加法, 不太想说了, ⾃⼰都重复吐⾎了似然, 不加log 前是: l(\theta) = \prod \limits _{i=1}^n p(x; \theta)的嘛, 样本的联合概率最⼤l(\theta) = \sum \limits _{i=1}^n log \ p(x; \theta)= \sum \limits _{i=1}^n log \ \sum \limits _{z} p(x, z; \theta)理解\sum \limits _{z} p(x, z; \theta)给定\theta的前提下, 关于 x, z 的联合概率跟之前扔硬币是⼀样的, 对于每个独⽴数据的产⽣, 其实还有⼀个隐含的因素 z (扔硬币中,到底这次试验是来⾃于硬币A 还是硬币B每个Z因素, 影响着 p(x,z) 的联合概率分布. 考虑所有的 z, 则是全概率了呀.对于p(x; \theta)直接通过 x 来观测\theta⽐较难 (扔硬币中, 没有上帝视⾓, 不知道扔结果是哪个硬币产⽣的)z^{(i)}是⼀个隐变量(latent), 如果能观测到z^{(i)}则参数预测会容易很多, EM算法就是来解决这个问题的EM 算法呢, 分为两个步骤:在 E 步中, 构建l(\theta)的下界函数 (给定\theta来找 z)在 M 步中, 最⼤化这个下界函数不太直观, 就回顾上篇扔硬币的栗⼦, 这⾥的 z 就是那个来⾃哪⾥A 还是 B 的概率(每次试验)设Q_i为关于 z 的概率分布, 即\sum \limits _{z} Q_i(z) = 1 (z 如是连续变量则\sum \rightarrow \int_z) ,则对于上⾯的对数似然函数:= \sum \limits _{i=1}^n log \ \sum \limits _{z} p(x_i, z_i; \theta) \ (1)对 p 的部分, 同时乘上和除以Q_i(z_i)不改变等式 , 这种技巧, 中学的 "配平⽅或数列裂项求和" ⼀样滴= \sum \limits _i log \sum \limits _{z_i} Q_i(z_i) \frac {p(x_i, z_i; \theta)}{Q_i(z_i) } \ (2)log 函数是 concave 的, 联想 jensen不等式f(\sum \limits _j \lambda_j x_j) \ge \sum \limits _j \lambda_j f(x_j)即 log 对于与 f(); \sum \limits _{z_i} Q_i(z_i) 对应于 \sum \limits _j \lambda_j ; 最后⼀项对x_j\ge \sum \limits_{i} \sum \limits_{z_i}Q_i(z_i) \ log \frac {p(x_i, z_i; \theta)}{Q_i(z_i) } \ (3)就类似与, 把⼀个, 函数⾥⾯的参数, 提取到函数外⾯来. 如还是不理解, 回看之前写的 convex 篇什么时候会取到等于?即当\frac {p(x_i, z_i; \theta)}{Q_i(z_i) } = c是个常数的时候, (2) 和 (3) 是相等的.即p(x_i, z_i; \theta) = c \ * Q_i(z_i)在\theta给定下, 关于 x, z 的联合概率分布与隐变量 z 的分布是⼀个线性关系因为\sum \limits_{z_i} Q_i(z_i) = 1, 如果将Q_i(z_i)认为是给定x_i 和 z_i的后验概率分布, 这样就得到了该似然函数的⼀个下界,根据全概率(后验) 与贝叶斯公式:Q_i(x_i) = \frac {p(x_i, z_i; \theta)}{\sum \limits _{z_i} p(x_i, z_i; \theta)}=\frac {p(x_i, z_i; \theta)}{p(x; \theta)}=p(z_i|x_i, \theta)相当于求给定\theta 和 x_i的情况下, 求 z_i 的条件概率, 果然, 深刻理解贝叶斯公式显得多么重要呀再回顾⼀波贝叶斯公式:设A1,A2,A3..构成完备事件组, 则对任意⼀事件B有:P(A_i|B) = \frac {P(A_i)P(B|A_i)}{\sum \limits _{i=1}^n P(A_i)P(B|A_i)}同上述, 只要当我们取Q_i(z_i)的值为给定\theta 和 x_i的后验概率分布的时候, 就能保证:\frac {p(x_i, z_i; \theta)}{Q_i(z_i) }的值是⼀个常数 (反过来推的), 既然是个常数, 也就**前⾯ (3) 的地⽅可以取等号啦, 即: **\sum \limits _{i=1}^n log \ \sum \limits _{z} p(x_i, z_i; \theta) = \sum \limits_{i} \sum \limits_{z_i}Q_i(z_i) \ log \frac {p(x_i, z_i; \theta)}{Q_i(z_i) }这样⼀来, 相当于在 E 步得到了似然函数的⼀个下界, 然后在 M 步, 求解(3) 最⼤值时候的参数\theta . 然后重复以上的 E, M 步骤:E-步: For each i:Q_i(z_i) = p(z_i | x_i; \theta)M-步, 更新\theta:\theta = arg \ max _\theta \sum \limits_{i} \sum \limits_{z_i}Q_i(z_i) \ log \frac {p(x_i, z_i; \theta)}{Q_i(z_i) }....循环直到收敛, 则估计出了参数\theta但, 万⼀不收敛呢?, so, 必须证明⼀波, EM算法是收敛的哦证明EM算法会收敛假设\theta^{(t)} 和 \theta^{(t+1)}为EM算法的连续两个步骤的参数值, 欲证l (\theta)收敛, 只需证:l(\theta^{(t)}) \leq l(\theta^{(t+1)})即可EM算法使得似然函数的值单调递增即可根据前⾯关于⽤ jensen不等式的取等条件, 推导出, 取得Q_i(z_i)^{(t)}的⽅式是:Q_i ^{(t)} (z_i) = p(z_i | x_i; \theta ^{(t)})此条件下, 使得jensen不等式取等即:l(\theta^{(t)}) = \sum \limits_{i} \sum \limits_{z_i}Q_i(z_i) \ log \frac {p(x_i, z_i; \theta ^t)}{Q_i(z_i) }⽽参数\theta^{(t+1)}的取值⽅式, 是使得上⾯的这个等式的值最⼤, 则必然l(\theta^{(t+1)}) \ge l(\theta^{(t)})展开⼀波:l(\theta^{(t+1)}) \ge \sum \limits_{i} \sum \limits_{z_i}Q_i^t(z_i) \ log \frac {p(x_i, z_i; \theta ^{(t+1)})}{Q_i^t(z_i) } \ (4)\ge \sum \limits_{i} \sum \limits_{z_i}Q_i^t(z_i) \ log \frac {p(x_i, z_i; \theta^t)}{Q_i^t(z_i) }\ (5)=l(\theta^{(t)}) \ (6)(4) 源于不等式的性质, 必然成⽴嘛(5) 就是取最⼤值的⼀个过程必然成⽴(6) 取相等的⽅式去是应⽤了 Jensen不等式即证明了l(\theta^{(t)}) \leq l(\theta^{(t+1)}) , 即EM算法是收敛的呀.⼩结⾸先是要理解,参数估计的是在⼲嘛, 需要回顾统计学的基础知识, 或理解上篇扔硬币的栗⼦核⼼, ⽤到了⼀个jensen 不等式, 需要回顾凸函数的⼀些性质来理解⼀波推导的⽅式呢, 依旧是极⼤似然估计, 带log (乘法边加法)推导核⼼技巧是全概率与贝叶斯公式, 真正理解太重要, 如LDA, 逻辑回归, 贝叶斯...这些算法都⽤到了.证明收敛, 其实只是⼀些, 推理的技巧, 还是挺有意思的.总体上, EM算法, 理解起来,我感觉不是很容易, 但, 也没有想象的那样难, 只要肯坚持, 正如爱因斯坦所说的那样嘛, 当然也为了⾃勉⽬前在经济和精神双重困境中的⾃⼰:耐⼼和恒⼼, 总会获得收获的Loading [MathJax]/jax/element/mml/optable/SuppMathOperators.js。

EM算法

P x i , z i ; C Q i z i
i i z i z i
(i ) Q ( z Z i ) 1 Qi ( z ) 0

Q i 表示隐含变量Z的某种分布，Qi 满足的条件是
z P x i , z i ; C

EM算法
i i z(i )
EM算法
(i ) (i ) (i ) ln p ( x ; ) ln p ( x , z ; ) i i 种分布，Qi 满足的条件是
(i ) Q ( z Z i ) 1 Qi ( z ) 0
p ( x ( i ) , z ( i ) ; ) ln Qi ( z ) (i ) ( i ) Q ( z ) i z i
根据数学期望的相关定理：E[ f ( X )] f ( xi ) p( xi )
p ( x , z ; ) p ( x ( i ) , z ( i ) ; ) (i ) Q ( z ) 是 ( z )的数学期望 i (i ) Qi Qi ( z ) z(i ) p ( x ( i ) , z ( i ) ; )
(i ) (i ) (i )
i
ln(E[
i
Qi ( z )
(i )
])
(3)
EM算法
根据Jensen不等式：
f ( x) ln x是凹函数 f ( EX ) E f ( x)
lnE[ X ] Eln X
p( x ( i ) , z ( i ) ; ) ln(E[ ]) (i ) Qi ( z ) i (3)
至与此 t 对应的L t 的值相等。

只有当此时的下界等于当前的对数似然函数时，我才能保证当我优化这个下界的时候，才真正优化了目标函数。

EM算法

EM算法EM算法--应用到三个模型：高斯混合模型，混合朴素贝叶斯模型，因子分析模型判别模型求的是条件概率p(y|x)，生成模型求的是联合概率p(x,y).即= p(x|y) ? p(y)常见的判别模型有线性回归、对数回归、线性判别分析、支持向量机、boosting、条件随机场、神经网络等。

常见的生产模型有隐马尔科夫模型、朴素贝叶斯模型、高斯混合模型、LDA、RestrictedBoltzmann Machine等。

所以这里说的高斯混合模型，朴素贝叶斯模型都是求p(x,y)联合概率的。

(下面推导会见原因)套路小结：凡是生产模型，目的都是求出联合概率表达式，然后对联合概率表达式里的各个参数再进行估计，求出其表达式。

下面的EM算法，GMM 等三个模型都是做这同一件事：设法求出联合概率，然后对出现的参数进行估计。

一、EM算法：作用是进行参数估计。

应用：（因为是无监督，所以一般应用在聚类上，也用在HMM 参数估计上）所以凡是有EM算法的，一定是无监督学习.因为EM是对参数聚集给定训练样本是高斯混合模型，混合朴素贝叶斯模型，因子分析模型"> 样例独立，我们想要知道每个样例隐含的类别z，使是p(x,z)最大，（即如果将样本x(i)看作观察值，潜在类别z看作是隐藏变量，则x可能是类别z，那么聚类问题也就是参数估计问题，）故p(x,z)最大似然估计是：高斯混合模型，混合朴素贝叶斯模型，因子分析模型">所以可见用到EM算法的模型（高斯混合模型，朴素贝叶斯模型）都是求p(x,y)联合概率，为生成模型。

对上面公式，直接求θ一般比较困难，因为有隐藏变量z存在，但是一般确定了z后，求解就容易了。

EM是一种解决存在隐含变量优化问题的有效方法。

竟然不能直接最大化?(θ)，我们可建立?的下界（E步），再优化下界（M步），见下图第三步，取的就是下界高斯混合模型，混合朴素贝叶斯模型，因子分析模型" action-data="http%3A%2F%%2Fbl og%2F515474%2F201305%2F19180744-0ed136937810 4b548dbee01337f6ba69.jpg" action-type="show-slide"> （总式）解释上式：对于每一个样例i，让Qi表示该样例隐含变量z的某种分布，Qi满足的条件是（如果z 是连续性的，那么Qi是概率密度函数（因子分析模型就是如此），需要将求和符号换成积分符号即：高斯混合模型，混合朴素贝叶斯模型，因子分析模型">因子分析模型是如此，这个会用在EM算法的M步求。

EM算法在聚类分析中的应用

EM算法在聚类分析中的应用EM算法是一种在统计学中广泛应用的算法。

它使用迭代的方法来估计未观察到的隐变量的值，并通过这些值来优化参数的估计，从而可以更好地解决一些机器学习和数据挖掘中遇到的问题。

在这篇文章中，我们将探讨EM算法在聚类分析中的应用，并介绍一些常见的聚类算法和实际示例。

聚类分析是一种机器学习技术，其目的是从一组数据中找到一些相似的子集。

这些数据点（也称为样本）可以是数字，文本，图像等任何东西。

聚类算法将数据点分组成一个个类别，使得每个类别内部的点之间具有相似性，而不同类别之间的数据点则差异较大。

聚类分析通常用于将大量数据压缩为较小的、有意义的数据集，以便快速有效地处理和分析。

实际上，聚类分析一直是数据挖掘领域的研究热点。

基于EM算法的聚类算法也成为了该领域中最具代表性和最常用的算法之一。

接下来，我们将介绍几种常见的聚类算法，并讨论如何在EM 算法中使用这些算法。

1. K-Means聚类算法K-Means聚类算法是一种用于将数据点划分到k个不同的、具有相似性和连续性的组中的算法。

它是一种迭代算法，目标是将数据点划分到k个簇中，使得各个簇内部的数据点的差异最小，簇与簇之间的数据差异最大。

在K-Means算法中，首先需要随机初始化k个质心，然后将每个数据点分配到最接近的质心所在的簇中。

接下来，根据簇中所有数据点的平均值，更新每个簇的质心。

重复这个过程，直到质心不再发生变化。

最终，每个数据点将被分配到最接近的质心所在的簇中。

然而，K-Means聚类算法有一些缺点。

首先，它需要事先确定聚类数量k，这可能很难。

其次，在真实世界的应用中，簇中的数据点通常具有不同的形态和大小，而K-Means算法无法处理非球体形状或不同密度的簇。

因此，针对不同的应用场景，我们需要使用不同的聚类算法。

2. 均值漂移聚类算法均值漂移聚类算法是一种无参数聚类算法，可以用于发现具有不同形态和密度的簇。

它首先为每个数据点选择一个随机起始点，并计算每个点的估计概率分布。

EM算法

Company Logo
背景及简介
EM 算法经过两个步骤：第一步是计算期望（E），利用对隐藏变量的现有估计值，计算其最大似然估计值第二步是最大化（M），最大化在 E 步上求得的最大似然值来计算参数的值。通过对以上两步的不断交替迭代，当结果收敛到某一值时终止迭代

Company Logo
举例
经过29步迭代数据就已基本收敛，最终结果如下

Company Logo
Contents
1 2 3
背景及简介算法及实举例改进算法
4

Company Logo
改进算法
MCEM算法：
在某些情况下，EM算法的E-Step有可能会很复杂，或者没有解析解，在这种情况下可采用蒙特卡洛的方法来近似求解由于MC的方法引入MC误差，因此EM算法的单调性质丢失，但在某些情况下， MCEM算法可以以很高的概率接近最优解
Company Logo
Company Logo
Contents
1 2 3
背景及简介算法及实举例改进算法
4

Company Logo
举例
在此以混合高斯分布为例，对该算法进行进一步说明混合分布的概率密度函数可表示为：

Company Logo
算法及实现
理论上已经证明每次迭代都是数值稳定的，且满足即每次迭代均可使似然值增加。在某些情况下我们通过EM算法得到的仅是局部最优解，为了得到全局最优解，我们通常采用广义的EM算法（GEM），就是在M-Step估计时应满足Q函数增加，即：
它主要解决以下几个问题:EM算法初值设置、规定标准差、选择混合分布的个算法及实现

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

��
�� = �� = ��
��=��

�� =
��=��
��(�� |��)
dl( p ) n dp 1 p
n
[x i ln p (1 x i )ln(1 p )] n ln(1 p ) x i[ln p ln(1 p )] i i
1 1
n 1 1 n 1 x i( ) xi 0 p 1 p 1 p p(1 p ) i 1 i 1
ˆ xi x 4. 解似然方程得： p n i 1 5. 验证在 pˆ x 时，d l( p ) 0，这表明 pˆ x 可使似 dp 然函数达到最大
2 2
11
1
n
16:54:11
小结
极大似然估计，只是一种概率论在统计学的应用，它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布，但是其中具体的参数不清楚，参数估计就是通过若干次试验，观察其结果，利用结果推出参数的大概值。最大似然估计是建立在这样的思想上：已知某个参数能使这个样本出现的概率最大，我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真实值。
16:54:09
EM算法——最大期望算法
——吴泽邦吴林谦万仔仁余淼陈志明秦志勇
1
16:54:10
食堂的大师傅炒了一份菜，要等分成两份给两个人吃
——显然没有必要拿来天平一点一点的精确的去称分量，最简单的办法是先随意的把菜分到两个碗中，然后观察是否一样多，把比较多的那一份取出一点放到另一个碗中，这个过程一直迭代地执行下去，直到大家看不出两个碗所容纳的菜有什么分量上的不同为止 EM算法就是这样，假设我们估计知道A和B两个参数，在开始状态下二者都是未知的，并且知道了A的信息就可以得到B的信息，反过来知道了B也就得到了A。可以考虑首先赋予A某种初值，以此得到B的估计值，然后从B的当前值出发，重新估计A的取值，这个过程一直持续到收敛为止。

13
16:54:18
最大期望算法
这个时候，对于每一个样本或者你抽取到的人，就有两个东西需要猜测或者估计的了，一是这个人是男的还是女的？二是男生和女生对应的身高的高斯分布的参数是多少？只有当我们知道了哪些人属于同一个高斯分布的时候，我们才能够对这个分布的参数作出靠谱的预测；反过来，只有当我们对这两个分布的参数作出了准确的估计的时候，才能知道到底哪些人属于第一个分布，那些人属于第二个分布
连续：E
X =
∞ �� −∞
��
4
16:54:11
最大似然估计
某位同学与一位猎人一起外出打猎，一只野兔从前方窜过．只听一声枪响，野兔应声到下，如果要你推测，这一发命中的子弹是谁打的？
——你就会想，只发一枪便打中，由于猎人命中的概率一般大于这位同学命中的概率，看来这一枪是猎人射中的
19
16:54:22
EM算法推导
这里把每个人（样本）的完整描述看做是三元组yi={xi,zi1,zi2}， xi是第i个样本的观测值 zi1和zi2表示利用男女哪个高斯分布，隐含变量 zij在xi由第j个高斯分布产生时值为1，否则为0 。例如一个样本的观测值为1.8，来自男生高斯分布，则样本表示为{1.8, 1, 0}。即若zi1和zi2的值已知，也就是说每个人我已经标记为男生或者女生了
5
16:54:11
最大似然估计

假设我们需要调查我们学校的男生和女生的身高分布。你在校园里随便地活捉了100个男生和100个女生。男左女右，首先统计抽样得到的100个男生的身高。假设他们的身高是服从高斯分布的。但是这个分布的均值u 和方差∂2我们不知道，这两个参数就是我们要估计的。记作θ=[u, ∂]T。数学语言：
在学校那么多男生（身高）中，我们独立地按照概率密度 p(x|θ)抽取100了个（身高），组成样本集X，我们想通过样本集X来估计出未知参数θ。概率密度p(x|θ)我们知道了是高斯分布N(u,∂)的形式，其中的未知参数是θ=[u, ∂]T。抽到这100个人的概率：
似然函数：L(��) = L(x1,x2,…xn|��) =
10
16:54:11
解：
n
1. 写出似然函数 �� = (1 − ��)1−�� 2. 对�� 取对数，得对数似然函数：
l( p )
n
�� =1
3. 写出似然方程

为什么能这么变？
Jensen不等式
22
16:54:22
Jensen不等式 f凸函数： E[f(X)] >= f(E[X]) f凹函数： E[f(X)] <= f(E[X]) f(x) = log x, 二次导数为-1/x2<0, 为凹函数（注意：国内外凹凸函数定义不同，本处采用国际定义）
��为常量， X1,X2,…Xn为变量

若已知样本取值为x1,x2,…xn ，则事件 {X1 = x1 , X2 = x2,…Xn = xn }发生的概率为
�� =�� (�� |��)

显然上面的概率随�� 改变而改变，从直观上来讲，既然样本值x1,x2,…xn出现，即表示其出现的概率相对较大，而使得 �� =�� (�� ; ��)取较大的值，不妨看做��的函数
3
16:54:11
期望值（EXPECTED VALUE)
在概率和统计学中，一个随机变量的期望值是变量的输出值乘以其机率的总和，换句话说，期望值是该变量输出值的平均数如果X是在概率空间（Ω, P）中的一个随机变量，那么它的期望值E[X]的定义是 E[X] = ∫ΩX dP 离散：E X = ��

20
16:54:22

对于参数估计，我们本质上还是想获得一个使似然函数最大化的那个参数θ，现在与最大似然不同的只是似然函数式中多了一个未知的变量z

也就是说我们的目标是找到适合的θ和z让L(θ)最大
21
16:54:22
（1）式最大化，也就是最大化似然函数，但是可以看到里面有“和的对数”，求导后形式会非常复杂，所以很难求解得到未知参数z和θ。（2）式只是分子分母同乘以一个相等的函数，还是有“和的对数”啊，还是求解不了（3）式变成了“对数的和”，那这样求导就容易了。我们注意点，还发现等号变成了不等号

23
16:54:22பைடு நூலகம்
EM算法流程

E步骤：根据参数初始值或上一次迭代的模型参数记�� (��) ,来求一个分布q(z)，使得L(q,��)最大化
12
16:54:18
最大期望算法
继续回到身高的例子，我抽到这200个人中，某些男生和某些女生一见钟情，已经好上了，怎么着都不愿意分开，这时候，你从这200个人里面随便给我指一个人，我都无法确定这个人是男生还是女生。也就是说你不知道抽取的那200个人里面的每一个人到底是从男生的那个身高分布里面抽取的，还是女生的那个身高分布抽取的。用数学的语言就是，抽取得到的每个样本都不知道是从哪个分布抽取的。
16
16:54:18
EM：EXPECTTATION MAXIMIZATION

依然用身高的例子 Expectation：我们是先随便猜一下男生（身高）的正态分布的参数：如均值和方差是多少。例如男生的均值是 1米7，方差是0.1米，然后计算出每个人更可能属于第一个还是第二个正态分布中的（例如，这个人的身高是 1米8，那很明显，他最大可能属于男生的那个分布） Maximization：有了每个人的归属，或者说我们已经大概地按上面的方法将这200个人分为男生和女生两部分，我们就可以根据之前说的最大似然那样，通过这些被大概分为男生的n个人来重新估计第一个分布的参数，女生的那个分布同样方法重新估计这时候，两个分布的概率改变了，那么我们就再需要调整E步……如此往复，直到参数基本不再发生变化为止

14
16:54:18
先有鸡还是先有蛋
15
16:54:18
亲，还记得ppt开始分菜的厨师么？
为了解决这个你依赖我，我依赖你的循环依赖问题，总得有一方要先打破僵局，说，不管了，我先随便整一个值出来，看你怎么变，然后我再根据你的变化调整我的变化，然后如此迭代着不断互相推导，最终就会收敛到一个解
似然函数：L(��) = L(x1,x2,…xn|��) =
�� =�� (�� |��)
8

16:54:11
最大似然估计

如何求L(�� )最大值？考虑到有累乘，不妨取对数，这里是因为lnL函数的单调性和L函数的单调性一致，因此L(�� )的最大值转换为 lnL(�� )的最大值
2
16:54:11
EM算法

最大期望算法（Expectation-maximization algorithm，又译期望最大化算法）在统计中被用于寻找，依赖于不可观察的隐性变量的概率模型中，参数的最大似然估计。

大数据经典算法EM算法 讲解

EM算法简介精品PPT课件

em计算公式

EM算法

EM算法-完整推导

EM算法

EM算法

EM算法在聚类分析中的应用

EM算法

大数据经典算法EM算法讲解