聚类EM算法解读

合集下载

EM算法及其应用场景分析

EM算法及其应用场景分析统计学和机器学习是现代科学中经常使用的工具，其中一种极为重要的算法就是EM算法 (Expectation Maximization algorithm)。

EM算法是用于求解潜在变量模型 (latent variable models) 参数的一种优化算法。

在机器学习中，EM算法经常用来处理缺失数据、分类和聚类等问题。

本文将就EM算法的原理、优缺点及其在现实生活中的应用场景做一简要分析。

一. EM算法原理EM算法来源于Carl-Gustav im Hedenmalm的工作和Arthur Dempster和他的同事们在Bernoulli分布和混合高斯分布中的工作。

它是一种迭代算法，可以用于无监督学习中缺失数据的处理和参数估计。

EM算法的基本思想是通过迭代交替进行两步操作：期望步骤(E Step) 和最大值步骤(M Step)。

期望步骤(E Step) 将不完整数据集的观测数据用概率进行填充，在E Step中对不完整观测数据的缺失进行估计，同时保留完整数据的概率信息。

在期望步骤中，我们要求解出完整数据的分布函数f(x,z|θ)，其中x是观测变量，z是隐变量，θ为参数。

然后，用该分布函数求取隐变量z的期望值。

这个期望值就是E Step的名称来源。

最大值步骤(M Step) 在E Step之后，使用已知的期望值进行最优参数的估计。

M Step是将完整数据的对数似然函数加权求和最大化，其中权重即为E Step中计算出的对数似然函数的概率。

在M Step中，每个参数的更新都可以用特定的公式表示，使得最终收敛时每个参数都会取到更加可能的值。

M Step代表着参数的最优化过程，从而得到最终的结果。

EM算法收敛的充分条件是对数似然函数的增加量小于设定的阈值时停止。

如果模型是凸的，就可以证明EM算法收敛于全局最优解。

二. EM算法的优缺点EM算法的优点是：它是一种强大的方法，可以处理含有缺失值的复杂数据和难以观察的变量，如潜在变量、隐藏变量的模型。

EM算法原理及应用

EM算法原理及应用EM算法，也被称为期望最大化算法，是一种迭代算法，用于解决含有隐变量的概率模型中的参数估计问题。

它在许多领域，如机器学习、自然语言处理、计算机视觉等方面发挥着重要的作用。

EM算法的原理EM算法的基本思想是，通过迭代的方式，不断地估计隐变量的分布，并通过最大化完全数据的似然函数来确定模型参数的精确值。

其中，E步骤是计算Q函数，M步骤是最大化Q函数，直到Q函数的值单位之间的差异小于某个预设值时，迭代停止。

这种方法通常能够比直接最大化似然函数更容易和更快速地收敛到局部最优解。

具体而言，E步骤负责计算似然函数的期望值。

通常情况下，Q函数的形式为：$$ Q(\theta,\theta^{(t)})=\sum_{Z}p(Z|X,\theta^{(t)})\log p(X,Z|\theta) $$ 这里，$\theta^{(t)}$表示参数在第$t$次迭代后的值，$Z$是隐变量，$X$是样本向量。

通过对所有可能的值$Z$求和，可以得到期望值。

M步骤负责最大化Q函数。

由于期望函数的精确形式通常难以计算，这里使用Jensen不等式来对其进行近似。

对于凸函数，Jensen不等式告诉我们，任何函数的期望值都不会超过函数期望的函数值，所以Q函数的下界可以表示为：$$ Q(\theta,\theta^{(t)})\geqslant\sum_{Z}p(Z|X,\theta^{(t)})\log\d frac{p(X,Z|\theta)}{p(Z|X,\theta^{(t)})} $$ 那么，最大化上界只需要最大化分子即可。

也就是说，通过不断地优化分子的形式，就能获得对应于参数的极大值。

EM算法的应用EM算法在各种不同的环境下都有应用。

其中，下面列出的是一些其应用范围很广的领域：1.聚类分析EM算法在聚类中可用于鉴定具有某种特定类型的顺序数据的群集，比如DNA信息、汽车引擎振动等。

通过EM算法，我们可以推断隐藏变量的概率分布，而这些隐藏变量可能与类别标签或群集的数量有关。

em算法的应用场景和案例

em算法的应用场景和案例EM算法（Expectation Maximization Algorithm）是一种常用的统计学习方法，主要用于估计含有隐变量的概率模型的参数。

以下是EM算法的一些应用场景和案例：1.K-Means聚类：这是EM算法的硬聚类应用案例。

在K-Means聚类中，我们试图将数据划分为K个不同的簇，其中每个簇的中心是所有属于该簇的数据点的平均值。

EM算法在这里被用来迭代地更新簇的中心和分配数据点到最近的簇。

2.GMM（高斯混合模型）聚类：这是EM算法的软聚类应用案例。

高斯混合模型是一种概率模型，它假设所有的数据点都是由几个高斯分布混合而成的。

EM算法在这里被用来估计每个高斯分布的参数以及每个数据点属于每个高斯分布的概率。

3.PLSA（概率潜在语义分析）模型：在文本挖掘和信息检索中，PLSA模型被用来发现文档和单词之间的潜在主题。

EM算法在这里被用来估计模型中的参数，包括每个文档的主题分布和每个主题中的单词分布。

4.硬币投掷实验：这是一个简单的EM算法应用案例。

假设有三枚硬币A，B，C，我们不知道它们投掷出正面的概率。

在实验中，我们首先投掷硬币A，如果A出现正面，我们就选择硬币B投掷，否则选择硬币C。

我们只观察到了所选择的硬币的投掷结果（正面或反面），而没有观察到硬币A的投掷结果。

EM算法在这里可以被用来估计三枚硬币投掷出正面的概率。

5.在自然语言处理中的应用：EM算法还可以用于词义消歧和主题模型中，例如隐含狄利克雷分布（LDA）。

在这些模型中，EM算法用于估计话题的分布和文档中单词的主题分配。

6.图像处理和计算机视觉：EM算法也广泛应用于图像处理和计算机视觉领域，例如用于混合高斯模型（GMM）来分割图像，或者用于隐马尔可夫模型（HMM）来进行图像序列分析等。

7.在生物信息学中的应用：EM算法在生物信息学中也有广泛的应用，例如在基因表达数据的分析、蛋白质分类和基因序列分析等领域。

EM算法

EM算法EM算法--应用到三个模型：高斯混合模型，混合朴素贝叶斯模型，因子分析模型判别模型求的是条件概率p(y|x)，生成模型求的是联合概率p(x,y).即= p(x|y) ? p(y)常见的判别模型有线性回归、对数回归、线性判别分析、支持向量机、boosting、条件随机场、神经网络等。

常见的生产模型有隐马尔科夫模型、朴素贝叶斯模型、高斯混合模型、LDA、RestrictedBoltzmann Machine等。

所以这里说的高斯混合模型，朴素贝叶斯模型都是求p(x,y)联合概率的。

(下面推导会见原因)套路小结：凡是生产模型，目的都是求出联合概率表达式，然后对联合概率表达式里的各个参数再进行估计，求出其表达式。

下面的EM算法，GMM 等三个模型都是做这同一件事：设法求出联合概率，然后对出现的参数进行估计。

一、EM算法：作用是进行参数估计。

应用：（因为是无监督，所以一般应用在聚类上，也用在HMM 参数估计上）所以凡是有EM算法的，一定是无监督学习.因为EM是对参数聚集给定训练样本是高斯混合模型，混合朴素贝叶斯模型，因子分析模型"> 样例独立，我们想要知道每个样例隐含的类别z，使是p(x,z)最大，（即如果将样本x(i)看作观察值，潜在类别z看作是隐藏变量，则x可能是类别z，那么聚类问题也就是参数估计问题，）故p(x,z)最大似然估计是：高斯混合模型，混合朴素贝叶斯模型，因子分析模型">所以可见用到EM算法的模型（高斯混合模型，朴素贝叶斯模型）都是求p(x,y)联合概率，为生成模型。

对上面公式，直接求θ一般比较困难，因为有隐藏变量z存在，但是一般确定了z后，求解就容易了。

EM是一种解决存在隐含变量优化问题的有效方法。

竟然不能直接最大化?(θ)，我们可建立?的下界（E步），再优化下界（M步），见下图第三步，取的就是下界高斯混合模型，混合朴素贝叶斯模型，因子分析模型" action-data="http%3A%2F%%2Fbl og%2F515474%2F201305%2F19180744-0ed136937810 4b548dbee01337f6ba69.jpg" action-type="show-slide"> （总式）解释上式：对于每一个样例i，让Qi表示该样例隐含变量z的某种分布，Qi满足的条件是（如果z 是连续性的，那么Qi是概率密度函数（因子分析模型就是如此），需要将求和符号换成积分符号即：高斯混合模型，混合朴素贝叶斯模型，因子分析模型">因子分析模型是如此，这个会用在EM算法的M步求。

em算法

em算法是指期望最大化算法（期望最大化算法，也翻译为期望最大化算法），是一种迭代算法，用于包含潜在变量概率估计的概率参数模型的最大似然估计或最大后验。

在统计计算中，最大期望(EM)算法是在概率(probabilistic)模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐藏变量(Latent Variable)。

最大期望经常用在机器学习和计算机视觉的数据聚类(Data Clustering)领域。

最大期望算法经过两个步骤交替进行计算:第一步是计算期望(E)，利用概率模型参数的现有估计值，计算隐藏变量的期望;第二步是最大化(M)，利用E 步上求得的隐藏变量的期望，对参数模型进行最大似然估计。

M 步上找到的参数估计值被用于下一个E 步计算中，这个过程不断交替进行。

总体来说，EM的算法流程如下:1.初始化分布参数2.重复直到收敛:E步骤:估计未知参数的期望值，给出当前的参数估计。

M步骤:重新估计分布参数，以使得数据的似然性最大，给出未知变量的期望估计。

迭代使用EM步骤，直至收敛。

可以有一些比较形象的比喻说法把这个算法讲清楚。

比如说食堂的大师傅炒了一份菜，要等分成两份给两个人吃，显然没有必要拿来天平一点一点的精确的去称分量，最简单的办法是先随意的把菜分到两个碗中，然后观察是否一样多，把比较多的那一份取出一点放到另一个碗中，这个过程一直迭代地执行下去，直到大家看不出两个碗所容纳的菜有什么分量上的不同为止。

EM算法就是这样，假设我们估计知道A和B两个参数，在开始状态下二者都是未知的，并且知道了A的信息就可以得到B的信息，反过来知道了B也就得到了A。

可以考虑首先赋予A某种初值，以此得到B的估计值，然后从B的当前值出发，重新估计A的取值，这个过程一直持续到收敛为止。

EM 算法是Dempster，Laind，Rubin 于1977 年提出的求参数极大似然估计的一种方法，它可以从非完整数据集中对参数进行MLE 估计，是一种非常简单实用的学习算法。

EM算法应用(1)-高斯混合模型

高斯混合模型（聚类）.定义：122(y |)(y |)(y )..(y |))2Kk k k k k k p s t θαφθμφθσ==-=-∑ 由K 个高斯分布混合而成的分布模型红色线为最终模型的分布曲线。

其是由三个用蓝色线的高斯分布模型混合而成。

对于图像上某一点有：112233(x)(x)(x)(x)P p p p ααα=++类似于其他模型使用极大似然方法求解：求解一个分布函数p(x)使得按照这个分布，观测数据出现的概率最大。

对上述目标函数取对数有：可以发现上面函数包含和的对数。

很难通过求取偏导数而获得参数的值。

下面讲述如通过EM算法求解的思路。

一个假设：先假定，如果这个观测数据只是由其中一个高斯模型K产生，则隐变量是一个向量，并且这个向量中只有一个元素取值为1，其它的都是0。

然后计算分模型K对观测数据的响应度（E步）。

该响应度是一个概率值，表示该观测由该高斯分量唯一生成的概率值。

每个高斯分量其实都可以产生这个观测数据只是输出不同而已，即产生观测数据的概率不同。

最后，根据每个高斯分量对观测数据的响应度，计算更新每个分模型的参数，以及汇总出整个GMM产生这个观测数据的每个分模型权值。

计算过程分析：GMM：先计算所有数据对每个分模型的响应度。

求响应度隐变量的均值。

根据响应度计算每个分模型的参数。

极大化模型的似然函数迭代K-means：先计算所有数据对于K个点的距离，取距离最近的点作为自己所属于的类根据上一步的类别划分更新点的位置（点的位置就可以看做是模型参数）迭代Kmeans与高斯混合模型的异同点可以看出GMM和K-means还是有很大的相同点的。

GMM中高斯分量对数据的响应度就相当于K-means中根据距离，划分样本到与其最近的聚类中心，GMM中的根据响应度计算高斯分量参数就相当于K-means中计算聚类中心点的位置。

然后它们都通过不断迭代达到最优。

不同的是：GMM模型给出的是每一个观测点由哪个高斯分量生成的概率，而K-means直接给出一个观测点属于哪一类。

EM算法主要思想

Q( , old ) Ez [log p( X , Z| )|X, old ]
Q( , old ) Ez [log p ( X , Z| )|X, old ] log p ( X , Z| ) p( Z | X , old )
z z
log p ( X , Z | ) f ( Z | X , old )dZ

i 1
M
i
1且0 i 1
2、问题描述（续）
• Ni ( x; i , i ) 的概率密度函数为
1 1 T 1 Ni ( x) exp ( x ) ( x ) d /2 i i i 1/2 2 (2 ) i
• 参数估计的最常用方法是最大似然估计，通过使似然函数达到最大值得到参数的估计值。 • 将高斯混合密度函数中所有待定的参数记为，则似然函数为：
2问题描述em算法是基于模型的聚类方法假设样本分布符合高斯混合模型算法目的是确定各个高斯部件的参数充分拟合给定数据并得到一个模糊聚类即每个样本以不同概率属于每个高斯分布概率数值将由以上各个参数计算得到
EM算法
韩旭东 2010.6.18
内容概述
• • • • 1、背景简介 2、问题描述 3、EM算法原理 4、结论与讨论
old new new T p ( k | x , )( x )( x ) i i k i k i 1 old p ( k | x , ) i i 1 N
N
• 其中，p(k | xi , (i1) )可由下式求得。
old p ( k , x | ) old i p (k | xi , ) p ( xi | old )
i 1 i 1 k 1 N N K

em算法高斯混合聚类

em算法高斯混合聚类
EM算法是一种迭代优化算法，用于找到参数的最大似然估计。

在高斯混合聚类中，EM算法被用来估计混合高斯模型的参数，包括均值、协方差和权重。

EM算法的基本步骤包括：
1. 初始化参数：选择一个初始的参数值，这些参数通常是通过随机选择或者根据先验知识设定的。

2. E步：在E步中，算法计算对数似然函数的期望。

对于混合高斯模型，这涉及到计算每个数据点属于每个高斯分布的概率。

3. M步：在M步中，算法最大化对数似然函数。

对于混合高斯模型，这涉及到更新每个高斯分布的均值、协方差和权重。

4. 迭代：重复E步和M步，直到满足某个停止准则，如达到最大迭代次数，或者参数的变化小于某个预设的阈值。

需要注意的是，EM算法对初值是敏感的，并且不一定能够收敛到全局最优解。

此外，对于大数据集，EM算法可能需要较长的时间来收敛。

尽管如此，EM 算法仍然是一种非常实用的方法，用于估计混合模型的参数。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

i1 k 1
K
=
nk k
f
vik
( xi
|
k , k )
k 1
对数似然函数
K
n
log L( )= [nk logk vik ( log
k 1
i 1
1
2
( xi k
2
2 k
)2
logk )]。
N
E步：关于隐藏标签vik(nk vik )取期望得
i 1
KN
N
E( log L( ))= [ E(vik ) logk E(vik )( log
极大似然估计
例1：为了调查学校学生身高，随机抽样n个男生和m个女生，设身高服从正态分布，试确定男女生对应的均值与方差。
解：设待估计参数k (k , k ), k 1, 2，则
p(x|k )
1
2 k
exp(
(x k
2
2 k
)2
)
抽到上述n个男生的概率是
n
L(1)
i 1
1
2
1
exp(
(
xi 1 212
b) 重复利用EM，CEM和SEM进行初始点的选择.[2]
[1] McLachlan, G.J. and Ng, S.K. (2008). The EM algorithm. [2] Christophe Biernachi,Gilles Celeux,Gerard
Govaert.(2003).Choosing starting values for the EM algorithm for getting the highest likelihood in multivariate Gaussian mixture models.
11
EM属于聚类算法，其主要缺点 1. 收敛速度慢; 2. 算法高度依赖初始值的选择.
12
例：
2、假定Z已知写出（对数）似然函数
L( ) P( X | Z,）或log P( X | Z,）;
3、E步：对未观测到的向量Z取期望得
Q( ) E(L( )) P( X | Z,）p(Z | );
Z
4、M步：关于Q( )求最大似然解，转2；
EM算法改进
关于初始点的选择
a) 初始值的获取可以通过k-means算法，层次聚类算法或者是对数据进行随机的分割.[1]
1 N
N
vˆik
i 1
EM算法流程：
1、任意给出高斯分布的参数，需要保证
K
k 1
k 1
2、Expectation 步：
vˆik
k
K
f
( xi
|
k , k
)
（第k类对第i个观测样本的响应度）
k f ( xi | k , k )
k 1
3、 Maximum 步：用最大似然估计重新估计均值、方差和权重。
n
n
L( p) pxi (1 p)1xi , xi {1, 0},且 xi t
i1
i 1
n
对数似然函数log L( p)= xi log p (1 xi ) log(1 p)
i 1
求其最大值对应的p t n
EM(expectaion-maximization) 期望--最大化方法混合Gauss模型
例3：若例1中男女生数据混合无法区分，即只知总人数，试确定男女生对应的均值与方差。
分析：该问题含两个正态分布，每个样本有2种参数需要估计：第一、每个样本源于1还是2（隐藏的标签）？第二、每一类样本的均值与方差？
1、若隐藏的标签已知，则由极大似然估计易得均值与方差； 2、若均值与方差已知，则可以进一步调整样本标签；
2 k
2
2 k
求混合分布的三组参数
k
,
k
,
2 k
,
k
1
K
记隐藏标签为vik，当xi属于第k类时值为1，否则值为0。
于是第k类样本点数nk
N
vik，
i 1
且k
nK N
记 {k , k , k2}, 假定vik已知，则观测到上述N个样本点的似然函数
NK
L( )
[k f ( xi | k , k )]vik
k
1
N
N
vˆik xi
vˆik i1
i 1
2 k
1
N
N
vˆik ( xi k )2
vˆik i1
i 1
k
1 N
N
vˆik
i 1
4、返回第2步，直到各参数的值变化小于指定精度e
一般的EM算法
给定一组观测样本X {x1, x2 xn}，其未观测到的向量为Z，
待估参数向量是： 1、给定迭代的初始向量，
k 1 i1
i 1
1
2
( xi k
2
2 k
)2
log k )]（1）
令vˆik E(vik ) vik p(vik | xi , )
vik
vik
vik
p(vik
| ) p( xi | vik , ) p(xi | )
p(vik 1 | ) p(xi | vik 1, )
p(xi | )
1’、样本标签已被隐藏，可假设隐藏标签已知，写出（对数）似然函数表达式对隐藏的标签取期望后，再采用极大似然估计的均值与方差；
•给定N个观测样本，满足如下混合形式的概率：
K
p(x) k f (x | k , k ),
k 1
K
其中 k =1，f ( x | k , k )
k 1
1 exp( ( x k )2 )
k f ( xi | k , k )
K
k f ( xi | k , k )
k 1
N
易知nk vˆik
i 1
（2）
M 步：对（1）采用极大似然估计求参数 {k , k , k2}
k
1
N
N
vˆik xi
vˆik i1
i 1
2 k
1
N
N
vˆik ( xi k )2
vˆik i1
i 1
k
)2
),
(
1,
1
)应使此概率（似然函数）最大。
n
亦等价于对数似然函数log L(1)= [log
i 1
1
2
(
xi 1)2 212
log1]最大。
n
n
xi
(xi 1)2
解得1=
i 1
n
,
2 1
=
iБайду номын сангаас1
n
.
例2：设某组零件的不合格率p，抽样n个零件，其中t个不合格零件，试估计不合格率p。
解 : 设每次抽样是两点分布(整体两项分布B(1, p)),则似然函数