EM算法简介.ppt

合集下载

EM算法简介精品PPT课件

EM算法简介精品PPT课件
在EM算法正式提出以来,人们对EM算法的性质有 更加深入的研究.并且在此基础上,提出了很多改进 的算法.
在数理统计,数据挖掘,机器学习以及模式识别 等领域有广泛的应用.
3
问题提出
给定一些观察数据y,假设y符合如下的高斯分布
K
p(y) kN(y|k,k). k1
需要求出混合高斯分布的三组参数 k,k,k

||i1 i || ||Q (i 1| i)Q (i|. i)||
重复上面两个步骤直至

充分小时,停止.
11
EM例子
• 有公式(1)(3)以及贝叶斯公式可得
p(Z|Y,,,)

NK
[kN(yn|k,k)z]nk
n1 k1
其中N表示观察样本数.
• 公式中 znk 是未知的,需要求出它的期望
12
推论L 1(.M(假*设)) 存L在(一)些,

且Q (M ()|)Q (,|那么),有
a) k(x|y ,M ( ) )k(x|y , )
b)
c)
几乎处处成立.
17
GEM算法性质
推论2.对于一 , ,L ()L ()

,其中

那么对于GEM算M 法有().
(p), p0,1,2,...
EM的M-step可能比较复杂
• M-step
定义映M射()
Q (M ( 满)|) Q (|)
足,其中 是参数空 . 间 ,
i1 M(

16
GEM算法性质
引理1.
对于任意 (',一 ) 对 ,其 参 中 是 数参数空间,
H ('|)H (|),
4
问题简化

EM算法及其推广解析PPT课件

EM算法及其推广解析PPT课件

第21页/共26页
• 证明 由于 取对数有 由 令 于是对数似然函数可以写成
第22页/共26页
• 只需证明右端为非负值即得出结果,由于
•使
达到极大,所以有
Q( , (i) )
其第二项,由
得出
(i1)
第23页/共26页
• 定理9.2 设L(θ)=logP(Y|θ)为观测数据的对数似然函数, (i=1,2,…)为EM算
数的当前估计值.每次迭代实际在求Q函数及其极大;
第12页/共26页
• (3)M步:求使
极大化的Qθ(, ,确定(i)i)+1次迭代得参数的估计值
(i1)
(4)重复第(2)步和第(3)步,直到收敛,这里给出停止迭代得条件,一
般是对较小的正数
,若满足
则 停 止1迭, 代2 .
第13页/共26页
• 定义9.1(Q函数)完全数据(观测变量数据Y和隐变量数据Z)的对数似然函数
极大似然估计
• 极大似然估计是概率论在统计学中的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种 概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次实验,观察其结果,利用结果推出参数 的大概值。
第2页/共26页
极大似然估计
• 似然函数: • 已知样本集X,X是通过概率密度p(x|θ)抽取。样本集X中各个样本的联合概率: • 为了便于分析,由于L(θ)是连乘的,还可以定义对数似然函数,将其变成连加的:
值可以任意选择(i) ,但需注意EM算法对初值是敏感 的; (2)E步:记 为第i次迭代参数θ的估计值,在 第i+1次迭代得E步,计算
P(Z | Y, (i))
(i)
Q( , (i) )

EM(最大期望算法)极大似然估计PPT课件

EM(最大期望算法)极大似然估计PPT课件
• 原理:一个随机试验如果有若干个可能的 结果A, B,C,…。若在一次试验中,结果A出现,则一般 认为试验条件对A出现有利,也即A出现的概率很 大
• 思想:已知某个参数能使这个样本出现的概率最 大,我们当然不会再去选择其他小概率的样本, 所以干脆就把这个参数作为估计的真实值
极大似然估计
设总体X是离散型随机变量,其分布中含有未知 参数θ,设x (x1,x2.....xn)是取自总体X的一 个样本,(x1,x2.....xn)是其观察值。则取到 这组样本观察值的概率是:
对于本例,其E步为:
EM算法
Expectation-maximization algorithm
其M步即为上式两边关θ于求导,并令其等于0,即
解之,得如下迭代公式。开始时可取任意一个初始 值进行迭代。
EM算法
Expectation-maximization algorithm
说明:
① 以Z1为例,以A1表示第一种结果出现,B1,B2分
分别为75,18,70,34,求MLE(极大似然估计) 解:以y1,y2,y3,y4表示四种类结果发生的次数,此时总体分
布为多项分布,故其似然函数:
EM算法
Expectation-maximization algorithm
要求解的MLE,由于其对数似然方程是一个三次多项式,就引入两个变量
z1,z2后使得求解要变得容易。现在假设第一种结果可分成两部分,其发生
的概率分别为
令z1和y1-z1分别表示落入这两部分的次数;再假设第
三种结果分成两部分,其发生的概率分别为
令z2和y3-z2分别表示落
入这两部分的次数。显然z1,z2是我们认为引入的,它是不可观测的,数据
(y , z)为完全数据,而观测到的数据称之为不完全数据,此时完全数据

em算法

em算法

最大期望算法(Expectation-Maximization algorithm, EM),或Dempster-Laird-Rubin算法,是一类通过迭代进行极大似然估计(Maximum Likelihood Estimation, MLE)的优化算法,通常作为牛顿迭代法(Newton-Raphson method)的替代用于对包含隐变量(latent variable)或缺失数据(incomplete-data)的概率模型进行参数估计。

EM算法的标准计算框架由E步(Expectation-step)和M步(Maximization step)交替组成,算法的收敛性可以确保迭代至少逼近局部极大值。

EM算法是MM算法(Minorize-Maximization algorithm)的特例之一,有多个改进版本,包括使用了贝叶斯推断的EM算法、EM梯度算法、广义EM算法等。

由于迭代规则容易实现并可以灵活考虑隐变量,EM算法被广泛应用于处理数据的缺测值,以及很多机器学习(machine learning)算法,包括高斯混合模型(Gaussian Mixture Model, GMM)和隐马尔可夫模型(Hidden Markov Model, HMM)的参数估计。

EM算法是一种迭代优化策略,由于它的计算方法中每一次迭代都分两步,其中一个为期望步(E步),另一个为极大步(M步),所以算法被称为EM算法(Expectation-Maximization Algorithm)。

EM算法受到缺失思想影响,最初是为了解决数据缺失情况下的参数估计问题,其算法基础和收敛有效性等问题在Dempster、Laird和Rubin三人于1977年所做的文章《Maximum likelihood from incomplete data via the EM algorithm》中给出了详细的阐述。

其基本思想是:首先根据己经给出的观测数据,估计出模型参数的值;然后再依据上一步估计出的参数值估计缺失数据的值,再根据估计出的缺失数据加上之前己经观测到的数据重新再对参数值进行估计,然后反复迭代,直至最后收敛,迭代结束。

学习之EM算法PPT文档21页

学习之EM算法PPT文档21页
学习之EM算法
56、死去何所道,托体同山阿。 57、春秋多佳日,登高赋新诗。 58、种豆南山下,草盛豆苗稀。晨兴 理荒秽 ,带月 荷锄归 。道狭 草木长 ,夕露 沾我衣 。衣沾 不足惜 ,但使 愿无违 。 59、相见无杂言,但道桑麻长。 60、迢迢新秋夕,亭亭月将圆。
61、奢侈是舒适的,否则就不是奢侈 。——CocoCha nel 62、少而好学,如日出之阳;壮而好学 ,如日 中之光 ;志而 好学, 如炳烛 之光。 ——刘 向 63、三军可夺帅也,匹夫不可夺志也。 ——孔 丘 64、人生就是学校。在那里,与其说好 的教师 是幸福 ,不如 说好的 教师是 不幸。 ——海 贝尔 65、接受挑战,就可以享受胜利的喜悦 。——杰纳勒 尔·乔治·S·巴顿
ห้องสมุดไป่ตู้
谢谢!

EM算法

EM算法
P x i , z i ; C Q i z i
i i z i z i
(i ) Q ( z Z i ) 1 Qi ( z ) 0

Q i 表示隐含变量Z的某种分布,Qi 满足的条件是
z P x i , z i ; C


EM算法
i i z(i )
EM算法
(i ) (i ) (i ) ln p ( x ; ) ln p ( x , z ; ) i i 种分布,Qi 满足的条件是
(i ) Q ( z Z i ) 1 Qi ( z ) 0
p ( x ( i ) , z ( i ) ; ) ln Qi ( z ) (i ) ( i ) Q ( z ) i z i
根据数学期望的相关定 理:E[ f ( X )] f ( xi ) p( xi )
p ( x , z ; ) p ( x ( i ) , z ( i ) ; ) (i ) Q ( z ) 是 ( z )的数学期望 i (i ) Qi Qi ( z ) z(i ) p ( x ( i ) , z ( i ) ; )
(i ) (i ) (i )
i
ln(E[
i
Qi ( z )
(i )
])
(3)
EM算法
根据Jensen不等式:
f ( x) ln x是凹函数 f ( EX ) E f ( x)
lnE[ X ] Eln X
p( x ( i ) , z ( i ) ; ) ln(E[ ]) (i ) Qi ( z ) i (3)
至与此 t 对应的L t 的值相等。

只有当此时的下界等于 当前的对数似然函数时, 我才能保证当我优化这 个下界的时候,才真正 优化了目标函数。

EM算法

EM算法

EM算法EM算法--应用到三个模型:高斯混合模型,混合朴素贝叶斯模型,因子分析模型判别模型求的是条件概率p(y|x),生成模型求的是联合概率p(x,y).即= p(x|y) ? p(y)常见的判别模型有线性回归、对数回归、线性判别分析、支持向量机、boosting、条件随机场、神经网络等。

常见的生产模型有隐马尔科夫模型、朴素贝叶斯模型、高斯混合模型、LDA、RestrictedBoltzmann Machine等。

所以这里说的高斯混合模型,朴素贝叶斯模型都是求p(x,y)联合概率的。

(下面推导会见原因)套路小结:凡是生产模型,目的都是求出联合概率表达式,然后对联合概率表达式里的各个参数再进行估计,求出其表达式。

下面的EM算法,GMM 等三个模型都是做这同一件事:设法求出联合概率,然后对出现的参数进行估计。

一、EM算法:作用是进行参数估计。

应用:(因为是无监督,所以一般应用在聚类上,也用在HMM 参数估计上)所以凡是有EM算法的,一定是无监督学习.因为EM是对参数聚集给定训练样本是高斯混合模型,混合朴素贝叶斯模型,因子分析模型"> 样例独立,我们想要知道每个样例隐含的类别z,使是p(x,z)最大,(即如果将样本x(i)看作观察值,潜在类别z看作是隐藏变量,则x可能是类别z,那么聚类问题也就是参数估计问题,)故p(x,z)最大似然估计是:高斯混合模型,混合朴素贝叶斯模型,因子分析模型">所以可见用到EM算法的模型(高斯混合模型,朴素贝叶斯模型)都是求p(x,y)联合概率,为生成模型。

对上面公式,直接求θ一般比较困难,因为有隐藏变量z存在,但是一般确定了z后,求解就容易了。

EM是一种解决存在隐含变量优化问题的有效方法。

竟然不能直接最大化?(θ),我们可建立?的下界(E步),再优化下界(M步),见下图第三步,取的就是下界高斯混合模型,混合朴素贝叶斯模型,因子分析模型" action-data="http%3A%2F%%2Fbl og%2F515474%2F201305%2F19180744-0ed136937810 4b548dbee01337f6ba69.jpg" action-type="show-slide"> (总式)解释上式:对于每一个样例i,让Qi表示该样例隐含变量z的某种分布,Qi满足的条件是(如果z 是连续性的,那么Qi是概率密度函数(因子分析模型就是如此),需要将求和符号换成积分符号即:高斯混合模型,混合朴素贝叶斯模型,因子分析模型">因子分析模型是如此,这个会用在EM算法的M步求。

最大期望值EM算法PPT课件

最大期望值EM算法PPT课件
EM又很复杂,复杂在于它的数学推理涉及到比较繁杂 的概率公式等。(凸函数,琴生不等式,拉格朗日中 值定理,贝叶斯,最大似然估计等)
-
6
期望最大化思想
EM算法是一种有效的迭代过程。 EM
E步骤:根据上一次迭代的参数来计算出隐藏变量的后验概率, 其实就是隐藏变量的期望。=> p(θ|x)值 =>p( z |x,θ)
最大化步(M-步):对于每个簇,算法调整其中心,使 得到该新中心的距离之和最小化。将指派到一个簇的 对象的相似度最大化。
-8ຫໍສະໝຸດ 期望最大化思想GMM混合高斯模型例子: 班上学生的身高就是一个GMM混合高斯模型,由男生身 高的高斯分布和女生身高的高斯分布组成。
估计每个样例是男生还是女生=>分别估计均值和方差。
-
9
期望最大化思想
利用当前参数值计算数据j 由第i个类生成的概率
N
收敛?
Y
最后参数值
-
10
期望最大化思想
-
11
期望最大化思想
EM
-
12
期望最大化思想
-
13
期望最大化思想
-
14
这里有10个样例,每个样例两个特征,
第一步,分别求x和y的平均值,然后对于所有的样例 ,都减去对应的均值。
-
15
M步骤:将似然函数最大化以获得新的参数值。估计的模型参数 使得观察的数据出现概率是最大的。=> 更新θ值
EM算法有很多的应用,最广泛的就是clustering、GMM、HMM等 等。
-
7
期望最大化思想
K-means聚类例子
期望步(E-步):给定当前的簇中心,每个对象都被指 派到簇中心离该对象最近的簇,期望每个对象都属于 最近的簇。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5
隐藏变量
• 由于实际问题中我们往往不知道每个y属于哪 个分布,我们观察不到z,z是一个隐藏变量.
• 引入变量Z = {b1,b2,..., bK } 其中 取b值k 为0或1
表示Z 的第k个分量为1,其它分量为0.
并且zk 1
.
p(zk 1) k
• 于是 Z
K.
(1)
p( )
zk k
NK
(zzk ){ln k ln N (xn | k , k )}.
n1 k 1
• 下面就应该使改式最大,也就是期望最大化.
14
迭代描述
• 在迭代过程中我们需要不断的根据后验概率
p(Z | Y , , , )去更新E[Znk ]
初始化一组 , ,
Start
EM算法计算
, ,
ln p(Y , Z | , , )
推论1. 假设存在一些 , , L() L() 并且 ,那么有
a) L(M (*)) L(), b) Q(M ( ) | ) Q( | ), c) k(x | y, M ( )) k(x | y, ) 几乎处处成立.
17
GEM算法性质
推论2.对于一些 , , L( ) L() ,其中 ,
k 1
6
引入隐藏变量后的高斯分布
• 将Z引入后
p( y | zk 1) N ( y | k , k )
(2)
• 最终得到
K
p( yZ| ) N ( y | uk , k )zk
(3)
k 1
7
EM算法
• 首先引入如下变量 定义两个样本空间X和Y,其中X是完整数据空间,Y 是观察数据(即incomplete data),令Z表示添加数 据那么X = (Y,Z); φ参数集合;
4
问题简化
• 该混合高斯分布一共有K个分布函数,对于每 一个观察到的样本y,如果知道它是属于K中的 哪个分布,那么求这些参数就会变得很简单.
• 假如我们用 zi 来表示这些高斯分布,那么我们 的样本集中不仅仅是 {y1, y2, y,3,..而.} 是
{( y1, z2 ), ( y2 , z5 ), ( y3, z1),...}
16
GEM算法性质
引理1.
对于任意一对参数 (',) ,其中是参数空间,
H ('| ) H ( | ),
其中等号成立当且仅当 k(x | y,') k(x | y,)几乎处处成立 .
定理1. GEM算法满足
, L(M () | ) L()
其中,等号成立当且仅当 Q(M () | ) Q( | ) k(x | y, M ()) k(x | y,)几乎处处成立.
在EM算法正式提出以来,人们对EM算法的性质有 更加深入的研究.并且在此基础上,提出了很多改进 的算法.
在数理统计,数据挖掘,机器学习以及模式识别 等领域有广泛的应用.
3
问题提出
给定一些观察数据y,假设y符合如下的高斯分布
K
p( y) k N ( y | k , k ). k 1
需要求出混合高斯分布的三组参数 k , k , k
p(znk 1) p( yn | znk 1) p( yn )
k N( yn | k ,k )
j N( yn | j , j )
j
(znk )
13
用 E(Znk ) 代替 Znk
• 将 E(Znk ) 代入 ln p(Y, Z | , , ) Q E(ln p(Y , Z ) | , , )
(5)
根据(4)式可知
L() log( f (x | )) log k(x | y,)
(6)
• 定义函数
Q('| ) E(log( f (x | ') | y,)
(7)
9
EM算法
• 定义函数
H ('| ) E(log(k(x | y,')) | y,)
(8)
• 则有(4),(5),(7)式可得
已经达到最大化
计算E(Znk )
15
GEM算法
• DLR提出GEM算法(General EM) EM的M-step可能比较复杂
• M-step
定义映射 M () 满足 Q(M () |) Q( |) ,
,其中是参数空间.
M步可以描述为令 i1 M (),

Q( i1 | i ) Q( i | i )
最大化Q( | i ). 即 i1 arg max( Q( | i )) . 重复上面两个步骤直至 || i1 i || 或|| Q( i1 | i ) Q( i | i ) ||
充分小时,停止.
11
EM例子
• 有公式(1)(3)以及贝叶斯公式可得
p(Z | Y, ,, ) ∝
NK
EM算法简介
尤全增 ultimateyM算法 • GEM算法性质 • EM算法解释 • EM不足及改进
2
EM算法介绍
EM(expectation-maximization)算法是Dempster, Laird和Rubin(DLR)三个人在1977年正式提出的.主 要是用于在不完全数据的情况下计算最大似然估计.
Q('| ) L(') H('| )
(9)
10
EM算法
• 目的:
计算后验分布g( y | ) 的众数.
• EM算法如下进行
记 i 为第i+1次迭代开始时参数的估计值,则
第i+1次迭代的两步为: I. E-step
计算 Q( | i ) E(log( f (x | )) | y, i )
II. M-step
[ k N ( yn | k , k )]znk
n1 k 1
其中N表示观察样本数.
• 公式中 znk 是未知的,需要求出它的期望
12
Znk 的期望估计
E(znk | yn ) znk p(znk | yn )
znk
znk
znk
p(znk ) p( yn | znk ) p( yn )
1 p(znk 1) p( yn | znk 1) 0 p(znk 0) p( yn | znk 0) p( yn )
g( y | ) 表示观察后验概率密度函数; f (x | ) 表示添加数据Z后得到的后验密度函数; k(x | y,) 表示给定数据φ和观察数据y下x的条件密
度函数.
8
EM算法
• 根据上面定义
k(x | y,) f (x |) / g( y |)
(4)
• 定义似然函数
L() log(g( y | ))
相关文档
最新文档