EM算法(简)

合集下载

EM算法简介精品PPT课件

在EM算法正式提出以来，人们对EM算法的性质有更加深入的研究.并且在此基础上，提出了很多改进的算法.
在数理统计，数据挖掘，机器学习以及模式识别等领域有广泛的应用.
3
问题提出
给定一些观察数据y，假设y符合如下的高斯分布
K
p(y) kN(y|k,k). k1
需要求出混合高斯分布的三组参数 k,k,k
即
||i1 i || ||Q (i 1| i)Q (i|. i)||
重复上面两个步骤直至
或
充分小时，停止.
11
EM例子
• 有公式(1)(3)以及贝叶斯公式可得
p(Z|Y,,,)
∝
NK
[kN(yn|k,k)z]nk
n1 k1
其中N表示观察样本数.
• 公式中 znk 是未知的，需要求出它的期望
12
推论L 1(.M(假*设)) 存L在(一)些,
并
且Q (M ()|)Q (，|那么),有
a) k(x|y ,M ( ) )k(x|y , )
b)
c)
几乎处处成立.
17
GEM算法性质
推论2.对于一 , ,L ()L ()
些
，其中
，
那么对于GEM算M 法有().
(p), p0,1,2,...
EM的M-step可能比较复杂
• M-step
定义映M射()
Q (M ( 满)|) Q (|)
足,其中是参数空 . 间，
i1 M(
即
16
GEM算法性质
引理1.
对于任意 (',一 ) 对 ,其参中是数参数空间，
H ('|)H (|),
4
问题简化

最大期望值EM算法

最大期望值EM算法最大期望值(Expectation-Maximization, EM)算法是一种统计学习方法，用于解决带有隐变量的概率模型参数估计问题。

EM算法的主要思想是通过迭代求解局部最优解，并且能够保证每次迭代过程中目标函数值不减。

EM算法广泛应用于数据挖掘、图像处理、自然语言处理等领域，在金融、医学和社会科学等领域也有许多实际应用。

本文将对EM算法的基本原理、迭代过程、理论基础和应用进行详细介绍。

一、基本原理EM算法是一种迭代算法，包含两个步骤：E步和M步。

其中，E步是求期望(expectation)的过程，用于更新隐变量对观测数据的条件概率分布；M步是求最大化(maximization)的过程，用于更新模型的参数。

通过不断交替进行E步和M步，直到收敛为止，即可得到最优的参数估计。

二、迭代过程1.初始化参数：随机给定模型参数的初始值。

2.E步：根据当前参数估计，计算隐变量对观测数据的条件概率分布。

3.M步：根据当前隐变量的条件概率分布，最大化观测数据的对数似然函数，更新模型的参数估计。

4.计算目标函数值：根据当前参数估计，计算目标函数的值。

5.判断是否满足停止条件：如果满足停止条件，则算法结束；否则，返回第2步。

三、理论基础EM算法基于两个基本定理：数据的似然函数下界和KL散度的非负性。

1.数据的似然函数下界：对于给定的观测数据，EM算法通过求解数据的似然函数的下界来进行参数估计。

这个下界是通过引入隐变量来扩展数据模型得到的，因此可以利用EM算法求解。

2.KL散度的非负性：KL散度是衡量两个概率分布之间的差异程度的指标。

在EM算法中，通过最大化观测数据的对数似然函数来更新模型的参数，相当于最小化KL散度。

四、应用领域EM算法在许多领域都有广泛的应用。

以下是一些典型的应用实例：1.聚类分析：EM算法可以用于高斯混合模型的参数估计，从而实现聚类分析。

2.隐马尔可夫模型(HMM)：EM算法可以用于HMM模型参数的估计，应用于自然语言处理、语音识别等领域。

分类 em算法

分类em算法摘要：1.引言2.EM 算法的基本原理3.EM 算法的分类应用4.结论正文：1.引言EM 算法，全称Expectation-Maximization 算法，是一种常见的概率模型优化算法。

该算法在统计学、机器学习等领域具有广泛的应用，特别是在分类问题上表现出色。

本文将重点介绍EM 算法在分类问题上的应用及其基本原理。

2.EM 算法的基本原理EM 算法是一种迭代优化算法，主要通过两个步骤进行：E 步（Expectation）和M 步（Maximization）。

在E 步中，根据观测数据计算样本的隐含变量的期望值；在M 步中，根据隐含变量的期望值最大化模型参数的似然函数。

这两个步骤交替进行，直至收敛。

EM 算法的基本原理可以概括为：对于一个包含隐含变量的概率模型，通过迭代优化模型参数，使得观测数据的似然函数最大化。

在这个过程中，EM 算法引入了Jensen 不等式，保证了算法的收敛性。

3.EM 算法的分类应用EM 算法在分类问题上的应用非常广泛，典型的例子包括高斯混合模型（GMM）和隐马尔可夫模型（HMM）。

（1）高斯混合模型（GMM）在传统的分类问题中，我们通常使用极大似然估计（MLE）来求解最佳分类模型。

然而，当数据分布复杂时，MLE 可能无法得到一个好的解。

此时，我们可以引入EM 算法，通过迭代优化模型参数，提高分类的准确性。

在GMM 中，EM 算法可以有效地处理数据的多峰分布，从而提高分类效果。

（2）隐马尔可夫模型（HMM）HMM 是一种基于序列数据的概率模型，广泛应用于语音识别、时间序列分析等领域。

在HMM 中，EM 算法被用于求解最优路径和状态转移概率。

通过EM 算法，我们可以有效地处理观测序列与隐状态之间的不确定性，从而提高分类效果。

4.结论EM 算法作为一种强大的概率模型优化算法，在分类问题上表现出色。

通过引入隐含变量和迭代优化，EM 算法可以有效地处理数据的复杂性和不确定性，提高分类的准确性。

EM算法

EM算法EM算法--应用到三个模型：高斯混合模型，混合朴素贝叶斯模型，因子分析模型判别模型求的是条件概率p(y|x)，生成模型求的是联合概率p(x,y).即= p(x|y) ? p(y)常见的判别模型有线性回归、对数回归、线性判别分析、支持向量机、boosting、条件随机场、神经网络等。

常见的生产模型有隐马尔科夫模型、朴素贝叶斯模型、高斯混合模型、LDA、RestrictedBoltzmann Machine等。

所以这里说的高斯混合模型，朴素贝叶斯模型都是求p(x,y)联合概率的。

(下面推导会见原因)套路小结：凡是生产模型，目的都是求出联合概率表达式，然后对联合概率表达式里的各个参数再进行估计，求出其表达式。

下面的EM算法，GMM 等三个模型都是做这同一件事：设法求出联合概率，然后对出现的参数进行估计。

一、EM算法：作用是进行参数估计。

应用：（因为是无监督，所以一般应用在聚类上，也用在HMM 参数估计上）所以凡是有EM算法的，一定是无监督学习.因为EM是对参数聚集给定训练样本是高斯混合模型，混合朴素贝叶斯模型，因子分析模型"> 样例独立，我们想要知道每个样例隐含的类别z，使是p(x,z)最大，（即如果将样本x(i)看作观察值，潜在类别z看作是隐藏变量，则x可能是类别z，那么聚类问题也就是参数估计问题，）故p(x,z)最大似然估计是：高斯混合模型，混合朴素贝叶斯模型，因子分析模型">所以可见用到EM算法的模型（高斯混合模型，朴素贝叶斯模型）都是求p(x,y)联合概率，为生成模型。

对上面公式，直接求θ一般比较困难，因为有隐藏变量z存在，但是一般确定了z后，求解就容易了。

EM是一种解决存在隐含变量优化问题的有效方法。

竟然不能直接最大化?(θ)，我们可建立?的下界（E步），再优化下界（M步），见下图第三步，取的就是下界高斯混合模型，混合朴素贝叶斯模型，因子分析模型" action-data="http%3A%2F%%2Fbl og%2F515474%2F201305%2F19180744-0ed136937810 4b548dbee01337f6ba69.jpg" action-type="show-slide"> （总式）解释上式：对于每一个样例i，让Qi表示该样例隐含变量z的某种分布，Qi满足的条件是（如果z 是连续性的，那么Qi是概率密度函数（因子分析模型就是如此），需要将求和符号换成积分符号即：高斯混合模型，混合朴素贝叶斯模型，因子分析模型">因子分析模型是如此，这个会用在EM算法的M步求。

EM算法简介

GMM中的EM算法

高斯分布：代入高斯分布的密度函数，计算得到如下的迭代公式：第t次的估计为则第t+1次的估计为
GMM中EM算法的迭代过程

GMM_EM求的参数为 (0.5958,-2.0767,1.9973,0.4042,2.9956,1.0044) 答案为 ( 1 , 1 , 1 , 2 , 2 , 2 ) ( 0 . 6 , 2 , 2 , 0 . 4 , 3 ,1) 调用的接口为： estS = gmmb_em(rawdata', 'init', 'cmeans1', 'components', 2, 'thr', 1e-8); Matlab程序包的网址： http://www.it.lut.fi/project/gmmbayes/downloads/src/gmmbayest b/gmmbayestb-v1.0.tar.gz
极大似然估计(MLE)
独立同分布(IID)的数据 ( X , X , , X 其概率密度函数为 f ( x | ) 似然函数定义为 L ( | ) f ( | ) f ( X | ) log似然函数定义为l ( | ) log L ( | )
f ( X i , Yi | ) f ( X i , Yi | ) f ( X i | Y i , ) f ( Y i | ))

log
i 1 n

log(
i 1
EM—Expectation
观测数据X已知，参数的当前值已知，在完整似然函数中，缺失数据(隐含变量) Y未知，完整log似然函数对Y求期望。定义

聊聊EM算法~

聊聊EM算法~EM算法(Expection Maximuzation)的中文名称叫做期望最大化，我的理解EM算法就是一种引入隐含变量的坐标向上法，它与其他优化方法的目的相同，就是求解一个数学模型的最优参数，不同之处在于EM算法交互迭代的对象是隐含变量与模型参数，一般隐含变量表现为数据的类别。

期望说白了就是数据的权重平均，在EM算法中，可以理解为数据的类别，那么既然确定好了数据的类别，下一步就是想办法求取新数据构成分布的参数，一般采用最大似然法求取最优参数。

剩下的就是最普通的迭代过程，先初始化参数，计算数据的概率分布，再对数据进行重新分类，然后重新计算参数，周而复始。

幸运的是，EM算法的收敛性能够得到保证。

曾经读过一篇特别好的博客，通过举例的方式对EM算法解释的很形象，现摘抄如下：“假设我们需要调查我们学校的男生和女生的身高分布。

你怎么做啊？你说那么多人不可能一个一个去问吧，肯定是抽样了。

假设你在校园里随便地活捉了100个男生和100个女生。

他们共200个人（也就是200个身高的样本数据，为了方便表示，下面，我说“人”的意思就是对应的身高）都在教室里面了。

那下一步怎么办啊？你开始喊：“男的左边，女的右边，其他的站中间！”。

然后你就先统计抽样得到的100个男生的身高。

假设他们的身高是服从高斯分布的。

但是这个分布的均值u和方差?2我们不知道，这两个参数就是我们要估计的。

记作θ=[u, ?]T。

再回到例子本身，如果没有“男的左边，女的右边，其他的站中间！”这个步骤，或者说我抽到这200个人中，某些男生和某些女生一见钟情，已经好上了，纠缠起来了。

咱们也不想那么残忍，硬把他们拉扯开。

那现在这200个人已经混到一起了，这时候，你从这200个人（的身高）里面随便给我指一个人（的身高），我都无法确定这个人（的身高）是男生（的身高）还是女生（的身高）。

也就是说你不知道抽取的那200个人里面的每一个人到底是从男生的那个身高分布里面抽取的，还是女生的那个身高分布抽取的。

em算法

Em算法，是指期望最大化算法，是一种迭代算法，用于统计中，以找到概率模型中参数的最大似然估计，该估计依赖于不可观察的隐藏变量。

EM算法由dempster，laind和Rubin于1977年提出，是一种非常简单实用的学习算法，可以通过MLE从不完整的数据集中估计参数。

此方法可广泛用于处理不完整的数据，例如缺陷数据，截断的数据和嘈杂的数据。

可能会有一些生动的隐喻可以清楚地解释该算法。

例如，食堂的厨师炒了一道菜，不得不将它分成两部分，以便两个人一起吃。

显然，没有必要以很小的平衡来精确称量它。

最简单的方法是将一个盘子随机分成两个碗，然后观察是否有很多盘子，然后再取其中的一些放到另一个碗中。

这个过程是反复进行的，直到每个人都看不到两个碗中所盛菜肴的重量差异。

EM算法就是这样。

假设我们知道两个参数a和b，它们在初始状态下是未知的。

如果我们知道a的信息，那么我们可以得到b的信息，如果我们知道b，那么我们可以得到a。

可以考虑给定某个初始值以获得b的估计值，然后从b的当前值重新估计a的值，直到当前值收敛为止。

在统计中，最大期望（EM）算法是一种算法，用于根据概率模型中的参数来找到参数的最大似然估计或最大后验估计。

在机器学习和计算机视觉的数据集群领域中经常使用最大期望值。

em算法的概念 -回复

em算法的概念-回复EM算法的概念是什么？EM算法，全称为Expectation-Maximization algorithm，是一种通过迭代求解含有隐变量的概率模型参数的方法。

该算法是由Arthur Dempster, Nan Laird, 和Donald Rubin在1977年提出的，被广泛应用于统计学和机器学习领域。

EM算法的基本思想是通过最大化一个不完全数据似然函数来估计模型参数。

在一些概率模型中，数据不完整是常见的情况，由于存在未观测到的隐变量，无法直接使用传统的最大似然估计方法。

EM算法通过引入隐变量，将不完全数据的似然函数拆解为两个步骤：E步骤（Expectation）和M步骤（Maximization），通过迭代这两个步骤直至收敛，得到参数的估计值。

具体来说，EM算法包括以下几个步骤：1. 初始化参数：首先，需要对待估计的模型参数进行初始化。

通常情况下，可以通过一些启发式的方法选择初始参数值。

2. E步骤（Expectation）：在E步骤中，根据当前参数值计算隐变量的后验概率。

这一步骤的目的是计算隐变量的期望。

3. M步骤（Maximization）：在M步骤中，根据E步骤计算得到的隐变量的后验概率，最大化似然函数。

该步骤的目的是找到使得模型在当前观测数据上似然函数最大化的参数。

4. 计算似然函数的增加量：通过计算两次迭代中似然函数的差值，判断是否满足收敛条件。

如果收敛条件不满足，则回到E步骤，继续迭代。

如果收敛条件满足，则停止迭代。

EM算法的理论基础是Jensen不等式，通过不断迭代最大化似然函数，在每一次迭代中，EM算法都能保证似然函数的增加，从而逐步趋近于局部最优解。

EM算法的优点是可以在存在隐变量的情况下进行参数估计，并且能够保证似然函数的单调增加。

缺点是需要对模型的初值进行合理的设定，对初始值敏感，并且有可能陷入局部最优解。

总结来说，EM算法是一种通过迭代最大化不完全数据的似然函数来估计模型参数的方法。

机器学习之EM 算法

EM算法的英文全称是 Expectation-maximization algorithm，即最大期望算法，或者是期望最大化算法。

EM算法号称是十大机器学习算法之一，听这个名头就知道它非同凡响。

从本质上来说EM算法是最大似然估计方法的进阶版。

最大似然估计假设当下我们有一枚硬币，我们想知道这枚硬币抛出去之后正面朝上的概率是多少，于是我们抛了10次硬币做了一个实验。

发现其中正面朝上的次数是5次，反面朝上的次数也是5次。

所以我们认为硬币每次正面朝上的概率是50%。

从表面上来看，这个结论非常正常，理所应当。

但我们仔细分析会发现这是有问题的，问题在于我们做出来的实验结果和实验参数之间不是强耦合的。

也就是说，如果硬币被人做过手脚，它正面朝上的概率是60%，我们抛掷10次，也有可能得到5次正面5次反面的概率。

同理，如果正面朝上的概率是70%，我们也有一定的概率可以得到5次正面5次反面的结果。

现在我们得到了这样的结果，怎么能说明就一定是50%朝上的概率导致的呢？那我们应该怎么办，继续做实验吗？显然不管我们做多少次实验都不能从根本上解决这个问题，既然参数影响的是出现结果的概率，我们还是应该回到这个角度，从概率上下手。

我们知道，抛硬币是一个二项分布的事件，我们假设抛掷硬币正面朝上的概率是p，那么反面朝上的概率就是1-p。

于是我们可以带入二项分布的公式，算出10次抛掷之后，5次是正面结果在当前p参数下出现的概率是多少。

于是，我们可以得到这样一条曲线：也就是正面朝上的概率是0.5的时候，10次抛掷出现5次正面的概率最大。

我们把正面朝上的概率看成是实验当中的参数，我们把似然看成是概率。

那么最大似然估计，其实就是指的是使得当前实验结果出现概率最大的参数。

也就是说我们通过实验结果和概率，找出最有可能导致这个结果的原因或者说参数，这个就叫做最大似然估计。

原理理解了，解法也就顺水推舟了。

首先，我们需要用函数将实验结果出现的概率表示出来。

em算法原理

EM算法原理一、简介EM（Expectation Maximization）算法是一种常见的统计学习方法，用于估计参数和解决一些难以处理的问题，特别是在存在隐变量的情况下。

EM算法最初由数学家罗伯特·卢德米勒（RobertLushmiller）和理查德·贝尔曼（RichardBellman）在20世纪50年代提出，后来由 statisticiansDempster, Laird, and Rubin 进一步发展，因此也被命名为Dempster-Laird-Rubin算法。

EM算法在许多领域都有广泛的应用，如混合高斯模型、隐马尔可夫模型、高斯过程回归等。

二、EM算法的步骤EM算法主要由两个步骤组成：E步（ExpectationStep）和M步（Maximization Step），这两个步骤在迭代过程中交替进行。

1.E步：计算隐变量的条件期望。

给定当前的参数估计值，计算隐变量的条件期望，通常表示为参数的函数。

这个步骤中，隐变量对数似然函数的参数更新起着关键作用。

2.M步：最大化期望值函数。

在E步计算出期望值之后，M步将尝试找到一组参数，使得这个期望值函数最大。

这个步骤中，通常使用优化算法来找到使期望值函数最大的参数值。

这两个步骤在迭代过程中交替进行，每次迭代都更新了参数的估计值，直到满足某个停止准则（如参数收敛或达到预设的最大迭代次数）。

三、EM算法的特点与优点1.处理隐变量：EM算法能够处理数据中存在的隐变量问题，这是它与其他参数估计方法相比的一大优势。

通过估计隐变量的概率分布，EM算法能够更准确地描述数据的生成过程。

2.简单易行：相对于其他优化算法，EM算法相对简单易懂，也容易实现。

它的主要目标是最优化一个简单的对数似然函数，这使得EM算法在许多情况下都能给出很好的结果。

3.稳健性：对于一些数据异常或丢失的情况，EM算法往往表现出较好的稳健性。

这是因为EM算法在估计参数时，会考虑到所有可用的数据，而不仅仅是正常的数据点。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Q ln (
M i 1 x j G i

p ( x j | i , i )) 1

i 1 x j G i
M
ln N ( x j | i , i )
2
M
( d ln ( 2 ) ln i ( x j i ) i ( x j i ))
Q ( ,
o ld
) E z [lo g p ( X , Z | )|X ,
o ld
]
Q ( ,
o ld
) E z [lo g p ( X , Z | )|X ,
o ld
o ld
]

z
lo g p ( X , Z | ) f ( Z | X ,
o ld
o ld
l 1
k
N ( xi | k
,k
o ld
) )

l 1
M
l
o ld
N ( xi | l
o ld
,l
o ld
• EM算法的具体流程为重复执行以下两个步骤直到收敛: • 第一步称为E步骤，是根据参数初始值或上一次迭代所得结果值来计算似然函数
P(X , Z | )
o ld
)dZ

lo g p ( X , Z | ) p ( Z | X ,
N
)
o ld
z

M M N
lo g ( lo g ( ...
M
p ( x i ; zi , zi )) p ( Z | X , zi
N
)
z i 1
z i 1
p ( x i ; zi , zi )) p ( z j | x j , zi
P(X | )

i 1
N
P ( xi | )

a rg m a x P ( X | )

2、问题描述（续）
• 为了使问题简化，我们求
lo g ( p ( X | ))
lo)
lo g (
i 1 k 1
N
K
•
N i ( x; i , i )
N i (x) 1 ( 2 )
d /2
的概率密度函数为
i
1/ 2
1 T 1 exp ( x i ) i ( x i ) 2
• 参数估计的最常用方法是最大似然估计，通过使似然函数达到最大值得到参数的估计值。 • 将高斯混合密度函数中所有待定的参数记为，则似然函数为：
2、问题描述
• EM算法是基于模型的聚类方法，假设样本分布符合高斯混合模型，算法目的是确定各个高斯部件的参数，充分拟合给定数据，并得到一个模糊聚类，即每个样本以不同概率属于每个高斯分布，概率数值将由以上各个参数计算得到。
2、问题描述（续）
• 高斯混合模型被定义为M个高斯密度函数的线性组合：
我的想法：
• 1）运用模糊的思想
E Z (ln p ( X , Z | )) E Z ( ln ( z N ( x n | z , z )))
n n n
N
n 1

n 1
N
E Z ln ( z N ( x n | z , z ))
n n n
ln (
• 其中，p ( k | x ,
i
( i 1 )
)可由下式求得。
o ld
p ( k | xi , p (k |
o ld
)
p ( k , xi | p ( xi |
o ld
)
o ld
)
o ld
) p ( xi | k ,
) )

M
p (l |
o ld
o ld
) p ( xi | l ,
3、EM算法原理（续）
• 假定可以观察到Z，问题变为求下式最大值
P(X , Z | )
lo g
i 1
N
p ( xi , zi | )
lo g (
i 1
N
i
N ( x i ; z , z ))
i i
• 但是Z是观察不到的，因此EM算法假设Z的分布依据上一轮的估计参数确定，求取上式期望的最大值。定义：

k
n ew N
xi p ( k | xi , p ( k | xi ,
o ld
)

i 1

i 1
N
o ld
)

k
n ew
N
p ( k | xi ,
o ld
)( x i k
n ew
)( x i k )
n ew
)
T

i 1

i 1
N
p ( k | xi ,
o ld
1
i 1 x j G i
o ld
)
o ld
k 1 i 1
)
k 1 i 1

M
N
lo g ( p k ( x i ; k , k )) p ( k | x i ,
)
k 1 i 1
对上式使用拉格朗日乘数法可得
k
new

1 N

i 1
N
p ( k | xi ,
o ld
)
求偏导并令值为零分别得：
P (x)
M

i 1
i
N i ( x; i , i )
• 其中 N i ( x ; i , i )为均值为 i ，协方差为的高斯分布， i 是混合参数，看做第i个高斯分布的权重，表征先验概率。且
i

i 1
M
i
1且 0 i 1
2、问题描述（续）
n 1 l 1
N
M
l
N ( x n | l , l )) p ( l | x n ,
o ld
) ...
???

N
M
Z nl
(m )
ln ( l N ( x n | l , l )) ??? 再使用可能性聚类？
n 1 l 1
• 2）可否以下式为目标函数：(效果较k均值差）
lo g
i 1
N
p ( xi , zi | )
lo g (
i 1
N
i
N ( x i ; z , z ))
i i
关于条件分布
Q ( ,
o ld
p (Z | X ,
o ld
)
的期望：
o ld
) E [lo g p ( X , Z | )|X ,
]
• 第二步称为M步骤，是将似然函数最大化以获得新的参数值，用 n e w 更新 o ld 使 Q ( , ) 最大化。
EM算法
韩旭东 2010.6.18
内容概述
• • • • 1、背景简介 2、问题描述 3、EM算法原理 4、结论与讨论
1、背景简介
• EM是一种聚类算法 • 聚类：将数据集中的数据分成若干类（簇），使类内相似度尽可能大，类间相似度尽可能小。 • 聚类算法：基于划分的方法（K均值）、层次聚类、基于密度的方法、基于网格的方法、基于模型的方法。
k
N ( x i ; k , k ))
• 的最大值。 • 这里由于有和的对数，求导后形式复杂，因此不能使用一般的求偏导并令导数为零的方法。
3、EM算法原理
• 简化的问题：某混合高斯分布一共有k个分布，并且对于每一个观察到的x，如果我们同时还知道它是属于k中哪一个分布的，则求各个参数并不是件难事。 • 比如用z来表示每一个高斯分布，那么我们的观察集不仅仅是{x1,x2,x3…},而是 {(x1,z2),(x2,z3), (x3,z1)…} • 而现实往往是：我们不知道每个x属于哪个分布，也就是说z是我们观察不到的，z是隐藏变量。
j 1
o ld
)

M N M N
z 11 z 2 1
Z n 1 i 1

N
lo g (
p ( x i ; zi , zi )) p ( z j | x j , zi
j 1 o ld
N
o ld
)

lo g ( k p k ( x i ; k , k )) p ( k | x i , lo g ( k ) p ( k | x i ,
o ld
4、结论与讨论
• 1）EM算法比K-means算法计算复杂，收敛也较慢，不适于大规模数据集和高维数据，但比K-means算法计算结果稳定、准确。（数学手段加快收敛） • 2）需要已知样本聚类数目（？） • 3）对初值敏感（可以多运行几次解决/密度 /最大最小原则/模糊/…） • 4）爬山技术，局部最优解（可以多运行几次解决?） • 5）对孤立点敏感，有噪音时效果差（可能性聚类？）