大数据经典算法EM算法 讲解

合集下载

EM算法简介精品PPT课件

EM算法简介精品PPT课件
在EM算法正式提出以来,人们对EM算法的性质有 更加深入的研究.并且在此基础上,提出了很多改进 的算法.
在数理统计,数据挖掘,机器学习以及模式识别 等领域有广泛的应用.
3
问题提出
给定一些观察数据y,假设y符合如下的高斯分布
K
p(y) kN(y|k,k). k1
需要求出混合高斯分布的三组参数 k,k,k

||i1 i || ||Q (i 1| i)Q (i|. i)||
重复上面两个步骤直至

充分小时,停止.
11
EM例子
• 有公式(1)(3)以及贝叶斯公式可得
p(Z|Y,,,)

NK
[kN(yn|k,k)z]nk
n1 k1
其中N表示观察样本数.
• 公式中 znk 是未知的,需要求出它的期望
12
推论L 1(.M(假*设)) 存L在(一)些,

且Q (M ()|)Q (,|那么),有
a) k(x|y ,M ( ) )k(x|y , )
b)
c)
几乎处处成立.
17
GEM算法性质
推论2.对于一 , ,L ()L ()

,其中

那么对于GEM算M 法有().
(p), p0,1,2,...
EM的M-step可能比较复杂
• M-step
定义映M射()
Q (M ( 满)|) Q (|)
足,其中 是参数空 . 间 ,
i1 M(

16
GEM算法性质
引理1.
对于任意 (',一 ) 对 ,其 参 中 是 数参数空间,
H ('|)H (|),
4
问题简化

em计算公式

em计算公式

"EM" 可以表示不同的概念,具体的计算公式取决于你所指的具体问题或领域。

以下是一些与"EM" 相关的常见计算公式:1. **期望最大化算法(Expectation-Maximization, EM)**:EM算法用于估计具有潜在变量的概率模型参数。

它通常包括两个主要步骤:E步骤(Expectation)和M步骤(Maximization)。

EM算法的计算公式涉及到概率密度函数和最大似然估计,具体的公式可能会根据问题的不同而变化。

通常情况下,EM算法的更新规则如下:- **E步骤(Expectation)**:计算在给定当前参数下,潜在变量的条件期望值。

- **M步骤(Maximization)**:使用条件期望值来更新模型的参数以最大化似然函数。

2. **电磁场计算**:在电磁学领域,计算电场或磁场的公式可以根据具体问题而变化。

例如,计算电场强度E的公式可以使用库仑定律:- E = k * |q| / r^2其中,E表示电场强度,k是电场常数,q是电荷量,r是距离。

3. **能量质量等效性(E=mc²)**:这是爱因斯坦的质能等效性公式,用于计算物质的能量与其质量之间的关系。

公式为:- E = m * c²其中,E表示能量,m表示质量,c表示光速。

4. **教育评估中的期望值(Expected Value)**:在教育评估中,期望值通常用于计算学生或测试结果的平均得分。

期望值的计算公式为:- E(X) = Σ (x * P(x))其中,E(X)表示期望值,x表示可能的得分,P(x)表示每个得分发生的概率。

EM算法

EM算法

在医学研究中的应用
ˆ 和 ˆ 2: 3)计算均值和方差的最大似然估计校正值
2 ˆ ˆ 4)重复以上的2-3步,直至 和 收敛为止。
经过EM迭代算法可得:
迭代算法补入的两个数据:第4行第5个为2.5216,第8行第3个为4.5522。
在医学研究中的应用
5)MonteCarlo模拟,随机取 x
假设我们想估计知道A和B两个参数,在开始状态下二者都是未知的,但如果知道了A的信息就可以得到B的信息,反过来 知道了B也就得到了A。可以考虑首先赋予A某种初值,以此得到B的估计值,然后从B的当前值出发,重新估计A的取值, 持续迭代直到收敛为止。
迭代的结果真的有效吗?
从最大似然到EM算法
EM算法推导
里面了。那下一步怎么办啊?你开始喊:“男的左边,女的右边!”。然后你就先统计抽样得 某些男生和女生一见钟情,无法硬把他们拉扯开。那现在这200个人已经混到一起了, 到的 100个男生的身高。 随便指出一个人(的身高),无法确定这个人(的身高)是男生(的身高)还是女生(的身 假设他们的身高是服从高斯分布的。但是这个分布的均值 μ和方差σ2我们不知道,这两个参数 高)。也就是说不知道抽取的那200个人里面的每一个人到底是从男生的那个身高分布里面 就是我们要估计的。记作 θ=[μ,σ2]T 抽取的,还是女生的那个身高分布抽取的。 用数学的语言就是,抽取得到的每个样本都不知道是从哪个分布抽取的。 两个问题需要估计: 一是这个人是男的还是女的?
i 1 zi
p( xi , zi ; ) ln LEM ( ) ln p( xi , zi ; ) ln Q( zi ) Q( zi ) i zi i zi p( xi , zi ; ) Q( zi ) ln Q( zi ) i zi

EM算法-完整推导

EM算法-完整推导

EM算法-完整推导前篇已经对EM过程,举了扔硬币和⾼斯分布等案例来直观认识了, ⽬标是参数估计, 分为 E-step 和 M-step, 不断循环, 直到收敛则求出了近似的估计参数, 不多说了, 本篇不说栗⼦, 直接来推导⼀波.Jensen 不等式在满⾜:⼀个 concave 函数, 即形状为 "⋂" 的函数f(x)λj≥0∑jλj=1 类似于随机变量的分布的前提条件下, 则有不等式:f(∑jλj x j)≥∑jλj f(x j)恒成⽴, 则该不等式称为 Jensen 不等式. 是有些不太直观哦, (sum 是最后哦, 有时候会犯晕).为了更直观⼀点, 考虑λ只有两个值, 即:λ1=1−tλ2=1其中,0⩽"\bigcap" 函数 f(x) 中有⼀段区间 [a, b], 构造出该范围内的⼀个点x_t当, x_t = (1+t)a + tb则有:f((1-t)a +tb) \ge (1-t)f(a) + tf(b)这⾥跟之前写过的 convex 其实是⼀模⼀样的, 要是还不直观, 就⾃个画个草图就秒懂了.左边是函数的值, 右边连接两个端点a,b的函数值的直线, 因为是 "\bigcap 的", 故函数值必然在直线的上⽅.⽤数学归纳法, 当 M > 2:f(\sum \limits _{j=1}^M \lambda_j x_j) \ge \sum \limits _{j=1}^M \lambda_j f(x_j)EM算法推导假设给定⼀个包含 n 个独⽴的训练样本的数据集, D = \{ x_1, x_2, x_3...x_n) \}希望拟合⼀个概率模型p(x, z) , 其对数似然函数(log likelihood)为:为啥要 log, 乘法变加法, 不太想说了, ⾃⼰都重复吐⾎了似然, 不加log 前是: l(\theta) = \prod \limits _{i=1}^n p(x; \theta)的嘛, 样本的联合概率最⼤l(\theta) = \sum \limits _{i=1}^n log \ p(x; \theta)= \sum \limits _{i=1}^n log \ \sum \limits _{z} p(x, z; \theta)理解\sum \limits _{z} p(x, z; \theta)给定\theta的前提下, 关于 x, z 的联合概率跟之前扔硬币是⼀样的, 对于每个独⽴数据的产⽣, 其实还有⼀个隐含的因素 z (扔硬币中,到底这次试验是来⾃于硬币A 还是硬币B每个Z因素, 影响着 p(x,z) 的联合概率分布. 考虑所有的 z, 则是全概率了呀.对于p(x; \theta)直接通过 x 来观测\theta⽐较难 (扔硬币中, 没有上帝视⾓, 不知道扔结果是哪个硬币产⽣的)z^{(i)}是⼀个隐变量(latent), 如果能观测到z^{(i)}则参数预测会容易很多, EM算法就是来解决这个问题的EM 算法呢, 分为两个步骤:在 E 步中, 构建l(\theta)的下界函数 (给定\theta来找 z)在 M 步中, 最⼤化这个下界函数不太直观, 就回顾上篇扔硬币的栗⼦, 这⾥的 z 就是那个来⾃哪⾥A 还是 B 的概率(每次试验)设Q_i为关于 z 的概率分布, 即\sum \limits _{z} Q_i(z) = 1 (z 如是连续变量则\sum \rightarrow \int_z) ,则对于上⾯的对数似然函数:= \sum \limits _{i=1}^n log \ \sum \limits _{z} p(x_i, z_i; \theta) \ (1)对 p 的部分, 同时乘上和除以Q_i(z_i)不改变等式 , 这种技巧, 中学的 "配平⽅或数列裂项求和" ⼀样滴= \sum \limits _i log \sum \limits _{z_i} Q_i(z_i) \frac {p(x_i, z_i; \theta)}{Q_i(z_i) } \ (2)log 函数是 concave 的, 联想 jensen不等式f(\sum \limits _j \lambda_j x_j) \ge \sum \limits _j \lambda_j f(x_j)即 log 对于与 f(); \sum \limits _{z_i} Q_i(z_i) 对应于 \sum \limits _j \lambda_j ; 最后⼀项对x_j\ge \sum \limits_{i} \sum \limits_{z_i}Q_i(z_i) \ log \frac {p(x_i, z_i; \theta)}{Q_i(z_i) } \ (3)就类似与, 把⼀个, 函数⾥⾯的参数, 提取到函数外⾯来. 如还是不理解, 回看之前写的 convex 篇什么时候会取到等于?即当\frac {p(x_i, z_i; \theta)}{Q_i(z_i) } = c是个常数的时候, (2) 和 (3) 是相等的.即p(x_i, z_i; \theta) = c \ * Q_i(z_i)在\theta给定下, 关于 x, z 的联合概率分布与隐变量 z 的分布是⼀个线性关系因为\sum \limits_{z_i} Q_i(z_i) = 1, 如果将Q_i(z_i)认为是给定x_i 和 z_i的后验概率分布, 这样就得到了该似然函数的⼀个下界,根据全概率(后验) 与贝叶斯公式:Q_i(x_i) = \frac {p(x_i, z_i; \theta)}{\sum \limits _{z_i} p(x_i, z_i; \theta)}=\frac {p(x_i, z_i; \theta)}{p(x; \theta)}=p(z_i|x_i, \theta)相当于求给定\theta 和 x_i的情况下, 求 z_i 的条件概率, 果然, 深刻理解贝叶斯公式显得多么重要呀再回顾⼀波贝叶斯公式:设A1,A2,A3..构成完备事件组, 则对任意⼀事件B有:P(A_i|B) = \frac {P(A_i)P(B|A_i)}{\sum \limits _{i=1}^n P(A_i)P(B|A_i)}同上述, 只要当我们取Q_i(z_i)的值为给定\theta 和 x_i的后验概率分布的时候, 就能保证:\frac {p(x_i, z_i; \theta)}{Q_i(z_i) }的值是⼀个常数 (反过来推的), 既然是个常数, 也就**前⾯ (3) 的地⽅可以取等号啦, 即: **\sum \limits _{i=1}^n log \ \sum \limits _{z} p(x_i, z_i; \theta) = \sum \limits_{i} \sum \limits_{z_i}Q_i(z_i) \ log \frac {p(x_i, z_i; \theta)}{Q_i(z_i) }这样⼀来, 相当于在 E 步得到了似然函数的⼀个下界, 然后在 M 步, 求解(3) 最⼤值时候的参数\theta . 然后重复以上的 E, M 步骤:E-步: For each i:Q_i(z_i) = p(z_i | x_i; \theta)M-步, 更新\theta:\theta = arg \ max _\theta \sum \limits_{i} \sum \limits_{z_i}Q_i(z_i) \ log \frac {p(x_i, z_i; \theta)}{Q_i(z_i) }....循环直到收敛, 则估计出了参数\theta但, 万⼀不收敛呢?, so, 必须证明⼀波, EM算法是收敛的哦证明EM算法会收敛假设\theta^{(t)} 和 \theta^{(t+1)}为EM算法的连续两个步骤的参数值, 欲证l (\theta)收敛, 只需证:l(\theta^{(t)}) \leq l(\theta^{(t+1)})即可EM算法使得似然函数的值单调递增即可根据前⾯关于⽤ jensen不等式的取等条件, 推导出, 取得Q_i(z_i)^{(t)}的⽅式是:Q_i ^{(t)} (z_i) = p(z_i | x_i; \theta ^{(t)})此条件下, 使得jensen不等式取等即:l(\theta^{(t)}) = \sum \limits_{i} \sum \limits_{z_i}Q_i(z_i) \ log \frac {p(x_i, z_i; \theta ^t)}{Q_i(z_i) }⽽参数\theta^{(t+1)}的取值⽅式, 是使得上⾯的这个等式的值最⼤, 则必然l(\theta^{(t+1)}) \ge l(\theta^{(t)})展开⼀波:l(\theta^{(t+1)}) \ge \sum \limits_{i} \sum \limits_{z_i}Q_i^t(z_i) \ log \frac {p(x_i, z_i; \theta ^{(t+1)})}{Q_i^t(z_i) } \ (4)\ge \sum \limits_{i} \sum \limits_{z_i}Q_i^t(z_i) \ log \frac {p(x_i, z_i; \theta^t)}{Q_i^t(z_i) }\ (5)=l(\theta^{(t)}) \ (6)(4) 源于不等式的性质, 必然成⽴嘛(5) 就是取最⼤值的⼀个过程必然成⽴(6) 取相等的⽅式去是应⽤了 Jensen不等式即证明了l(\theta^{(t)}) \leq l(\theta^{(t+1)}) , 即EM算法是收敛的呀.⼩结⾸先是要理解,参数估计的是在⼲嘛, 需要回顾统计学的基础知识, 或理解上篇扔硬币的栗⼦核⼼, ⽤到了⼀个jensen 不等式, 需要回顾凸函数的⼀些性质来理解⼀波推导的⽅式呢, 依旧是极⼤似然估计, 带log (乘法边加法)推导核⼼技巧是全概率与贝叶斯公式, 真正理解太重要, 如LDA, 逻辑回归, 贝叶斯...这些算法都⽤到了.证明收敛, 其实只是⼀些, 推理的技巧, 还是挺有意思的.总体上, EM算法, 理解起来,我感觉不是很容易, 但, 也没有想象的那样难, 只要肯坚持, 正如爱因斯坦所说的那样嘛, 当然也为了⾃勉⽬前在经济和精神双重困境中的⾃⼰:耐⼼和恒⼼, 总会获得收获的Loading [MathJax]/jax/element/mml/optable/SuppMathOperators.js。

EM算法

EM算法
P x i , z i ; C Q i z i
i i z i z i
(i ) Q ( z Z i ) 1 Qi ( z ) 0

Q i 表示隐含变量Z的某种分布,Qi 满足的条件是
z P x i , z i ; C


EM算法
i i z(i )
EM算法
(i ) (i ) (i ) ln p ( x ; ) ln p ( x , z ; ) i i 种分布,Qi 满足的条件是
(i ) Q ( z Z i ) 1 Qi ( z ) 0
p ( x ( i ) , z ( i ) ; ) ln Qi ( z ) (i ) ( i ) Q ( z ) i z i
根据数学期望的相关定 理:E[ f ( X )] f ( xi ) p( xi )
p ( x , z ; ) p ( x ( i ) , z ( i ) ; ) (i ) Q ( z ) 是 ( z )的数学期望 i (i ) Qi Qi ( z ) z(i ) p ( x ( i ) , z ( i ) ; )
(i ) (i ) (i )
i
ln(E[
i
Qi ( z )
(i )
])
(3)
EM算法
根据Jensen不等式:
f ( x) ln x是凹函数 f ( EX ) E f ( x)
lnE[ X ] Eln X
p( x ( i ) , z ( i ) ; ) ln(E[ ]) (i ) Qi ( z ) i (3)
至与此 t 对应的L t 的值相等。

只有当此时的下界等于 当前的对数似然函数时, 我才能保证当我优化这 个下界的时候,才真正 优化了目标函数。

EM算法

EM算法

EM算法EM算法--应用到三个模型:高斯混合模型,混合朴素贝叶斯模型,因子分析模型判别模型求的是条件概率p(y|x),生成模型求的是联合概率p(x,y).即= p(x|y) ? p(y)常见的判别模型有线性回归、对数回归、线性判别分析、支持向量机、boosting、条件随机场、神经网络等。

常见的生产模型有隐马尔科夫模型、朴素贝叶斯模型、高斯混合模型、LDA、RestrictedBoltzmann Machine等。

所以这里说的高斯混合模型,朴素贝叶斯模型都是求p(x,y)联合概率的。

(下面推导会见原因)套路小结:凡是生产模型,目的都是求出联合概率表达式,然后对联合概率表达式里的各个参数再进行估计,求出其表达式。

下面的EM算法,GMM 等三个模型都是做这同一件事:设法求出联合概率,然后对出现的参数进行估计。

一、EM算法:作用是进行参数估计。

应用:(因为是无监督,所以一般应用在聚类上,也用在HMM 参数估计上)所以凡是有EM算法的,一定是无监督学习.因为EM是对参数聚集给定训练样本是高斯混合模型,混合朴素贝叶斯模型,因子分析模型"> 样例独立,我们想要知道每个样例隐含的类别z,使是p(x,z)最大,(即如果将样本x(i)看作观察值,潜在类别z看作是隐藏变量,则x可能是类别z,那么聚类问题也就是参数估计问题,)故p(x,z)最大似然估计是:高斯混合模型,混合朴素贝叶斯模型,因子分析模型">所以可见用到EM算法的模型(高斯混合模型,朴素贝叶斯模型)都是求p(x,y)联合概率,为生成模型。

对上面公式,直接求θ一般比较困难,因为有隐藏变量z存在,但是一般确定了z后,求解就容易了。

EM是一种解决存在隐含变量优化问题的有效方法。

竟然不能直接最大化?(θ),我们可建立?的下界(E步),再优化下界(M步),见下图第三步,取的就是下界高斯混合模型,混合朴素贝叶斯模型,因子分析模型" action-data="http%3A%2F%%2Fbl og%2F515474%2F201305%2F19180744-0ed136937810 4b548dbee01337f6ba69.jpg" action-type="show-slide"> (总式)解释上式:对于每一个样例i,让Qi表示该样例隐含变量z的某种分布,Qi满足的条件是(如果z 是连续性的,那么Qi是概率密度函数(因子分析模型就是如此),需要将求和符号换成积分符号即:高斯混合模型,混合朴素贝叶斯模型,因子分析模型">因子分析模型是如此,这个会用在EM算法的M步求。

EM算法在聚类分析中的应用

EM算法在聚类分析中的应用

EM算法在聚类分析中的应用EM算法是一种在统计学中广泛应用的算法。

它使用迭代的方法来估计未观察到的隐变量的值,并通过这些值来优化参数的估计,从而可以更好地解决一些机器学习和数据挖掘中遇到的问题。

在这篇文章中,我们将探讨EM算法在聚类分析中的应用,并介绍一些常见的聚类算法和实际示例。

聚类分析是一种机器学习技术,其目的是从一组数据中找到一些相似的子集。

这些数据点(也称为样本)可以是数字,文本,图像等任何东西。

聚类算法将数据点分组成一个个类别,使得每个类别内部的点之间具有相似性,而不同类别之间的数据点则差异较大。

聚类分析通常用于将大量数据压缩为较小的、有意义的数据集,以便快速有效地处理和分析。

实际上,聚类分析一直是数据挖掘领域的研究热点。

基于EM算法的聚类算法也成为了该领域中最具代表性和最常用的算法之一。

接下来,我们将介绍几种常见的聚类算法,并讨论如何在EM 算法中使用这些算法。

1. K-Means聚类算法K-Means聚类算法是一种用于将数据点划分到k个不同的、具有相似性和连续性的组中的算法。

它是一种迭代算法,目标是将数据点划分到k个簇中,使得各个簇内部的数据点的差异最小,簇与簇之间的数据差异最大。

在K-Means算法中,首先需要随机初始化k个质心,然后将每个数据点分配到最接近的质心所在的簇中。

接下来,根据簇中所有数据点的平均值,更新每个簇的质心。

重复这个过程,直到质心不再发生变化。

最终,每个数据点将被分配到最接近的质心所在的簇中。

然而,K-Means聚类算法有一些缺点。

首先,它需要事先确定聚类数量k,这可能很难。

其次,在真实世界的应用中,簇中的数据点通常具有不同的形态和大小,而K-Means算法无法处理非球体形状或不同密度的簇。

因此,针对不同的应用场景,我们需要使用不同的聚类算法。

2. 均值漂移聚类算法均值漂移聚类算法是一种无参数聚类算法,可以用于发现具有不同形态和密度的簇。

它首先为每个数据点选择一个随机起始点,并计算每个点的估计概率分布。

EM算法

EM算法


Company Logo
背景及简介
EM 算法经过两个步骤: 第一步是计算期望(E),利用对隐藏变 量的现有估计值,计算其最大似然估计值 第二步是最大化(M),最大化在 E 步上 求得的最大似然值来计算参数的值。 通过对以上两步的不断交替迭代,当结果 收敛到某一值时终止迭代

Company Logo
举例
经过29步迭代数据就已基本收敛,最终 结果如下

Company Logo
Contents
1 2 3
背景及简介 算法及实 举例 改进算法
4

Company Logo
改进算法
MCEM算法:
在某些情况下,EM算法的E-Step有可 能会很复杂,或者没有解析解,在这种 情况下可采用蒙特卡洛的方法来近似求 解 由于MC的方法引入MC误差,因此EM算 法的单调性质丢失,但在某些情况下, MCEM算法可以以很高的概率接近最优 解
Company Logo
Company Logo
Contents
1 2 3
背景及简介 算法及实 举例 改进算法
4

Company Logo
举例
在此以混合高斯分布为例,对该算法进行 进一步说明 混合分布的概率密度函数可表示为:

Company Logo
算法及实现
理论上已经证明每次迭代都是数值稳定 的,且满足 即每次迭代均可 使似然值增加。 在某些情况下我们通过EM算法得到的仅 是局部最优解,为了得到全局最优解, 我们通常采用广义的EM算法(GEM), 就是在M-Step估计 时应满足Q函数 增加,即:
它主要解决以下几个问题:EM算法初值 设置、规定标准差、选择混合分布的个 算法及实现
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
������ ������
������ ������ = ������������������ ������ = ������������
������=������

������ ������������ ������ =
������=������
������������������(������������ |������)
dl( p ) n dp 1 p
n
[x i ln p (1 x i )ln(1 p )] n ln(1 p ) x i[ln p ln(1 p )] i i
1 1
n 1 1 n 1 x i( ) xi 0 p 1 p 1 p p(1 p ) i 1 i 1
ˆ xi x 4. 解似然方程得: p n i 1 5. 验证在 pˆ x 时,d l( p ) 0,这表明 pˆ x 可使似 dp 然函数达到最大
2 2
11
1
n
16:54:11
小结
极大似然估计,只是一种概率论在统计学的应 用,它是参数估计的方法之一。说的是已知某 个随机样本满足某种概率分布,但是其中具体 的参数不清楚,参数估计就是通过若干次试验, 观察其结果,利用结果推出参数的大概值。最 大似然估计是建立在这样的思想上:已知某个 参数能使这个样本出现的概率最大,我们当然 不会再去选择其他小概率的样本,所以干脆就 把这个参数作为估计的真实值。
16:54:09
EM算法——最大期望算法
——吴泽邦 吴林谦 万仔仁 余淼 陈志明 秦志勇
1
16:54:10
食堂的大师傅炒了一份菜,要等分成两份给两个人吃
——显然没有必要拿来天平一点一点的精确的去称分量, 最简单的办法是先随意的把菜分到两个碗中,然后观察是 否一样多,把比较多的那一份取出一点放到另一个碗中, 这个过程一直迭代地执行下去,直到大家看不出两个碗所 容纳的菜有什么分量上的不同为止 EM算法就是这样,假设我们估计知道A和B两个参数,在 开始状态下二者都是未知的,并且知道了A的信息就可以 得到B的信息,反过来知道了B也就得到了A。可以考虑首 先赋予A某种初值,以此得到B的估计值,然后从B的当前 值出发,重新估计A的取值,这个过程一直持续到收敛为 止。

13
16:54:18
最大期望算法
这个时候,对于每一个样本或者你抽取到的人, 就有两个东西需要猜测或者估计的了,一是这个 人是男的还是女的?二是男生和女生对应的身高 的高斯分布的参数是多少? 只有当我们知道了哪些人属于同一个高斯分布的 时候,我们才能够对这个分布的参数作出靠谱的 预测;反过来,只有当我们对这两个分布的参数 作出了准确的估计的时候,才能知道到底哪些人 属于第一个分布,那些人属于第二个分布
连续:E
X =
∞ ������������ −∞
������ ������������
4
16:54:11
最大似然估计
某位同学与一位猎人一起外出打猎,一只野兔 从前方窜过.只听一声枪响,野兔应声到下, 如果要你推测,这一发命中的子弹是谁打的?
——你就会想,只发一枪便打中,由于猎人命 中的概率一般大于这位同学命中的概率,看来 这一枪是猎人射中的
19
16:54:22
EM算法推导
这里把每个人(样本)的完整描述看做是三元 组yi={xi,zi1,zi2}, xi是第i个样本的观测值 zi1和zi2表示利用男女哪个高斯分布,隐含变量 zij在xi由第j个高斯分布产生时值为1,否则 为0 。 例如一个样本的观测值为1.8,来自男生高 斯分布,则样本表示为{1.8, 1, 0}。 即若zi1和zi2的值已知,也就是说每个人我 已经标记为男生或者女生了
5
16:54:11
最大似然估计


假设我们需要调查我们学校的男生和女生的身高分布。 你在校园里随便地活捉了100个男生和100个女生。男 左女右,首先统计抽样得到的100个男生的身高。假设 他们的身高是服从高斯分布的。但是这个分布的均值u 和方差∂2我们不知道,这两个参数就是我们要估计的。 记作θ=[u, ∂]T。 数学语言:
在学校那么多男生(身高)中,我们独立地按照概率密度 p(x|θ)抽取100了个(身高),组成样本集X,我们想通过样 本集X来估计出未知参数θ。概率密度p(x|θ)我们知道了是高 斯分布N(u,∂)的形式,其中的未知参数是θ=[u, ∂]T。 抽到这100个人的概率:
似然函数:L(������) = L(x1,x2,…xn|������) =
10
16:54:11
解:
n
1. 写出似然函数 ������ ������ = (1 − ������)1−������������ 2. 对������ ������ 取对数,得对数似然函数 :
l( p )
n
������ ������������ ������ ������=1
3. 写出似然方程

为什么能这么变?
Jensen不等式
22
16:54:22
Jensen不等式 f凸函数: E[f(X)] >= f(E[X]) f凹函数: E[f(X)] <= f(E[X]) f(x) = log x, 二次导数为-1/x2<0, 为凹函数 (注意:国内外凹凸函数定义不同,本处采用 国际定义)
������为常量, X1,X2,…Xn为变量

若已知样本取值为x1,x2,…xn ,则事件 {X1 = x1 , X2 = x2,…Xn = xn }发生的概率为
������ ������=������ ������(������������ |������)

显然上面的概率随������ 改变而改变,从直观上来讲,既然样本 值x1,x2,…xn出现,即表示其出现的概率相对较大,而使得 ������ ������=������ ������(������������ ; ������)取较大的值,不妨看做������的函数
3
16:54:11
期望值(EXPECTED VALUE)
在概率和统计学中,一个随机变量的期望 值是变量的输出值乘以其机率的总和,换 句话说,期望值是该变量输出值的平均数 如果X是在概率空间(Ω, P)中的一个随机 变量,那么它的期望值E[X]的定义是 E[X] = ∫ΩX dP 离散:E X = ������ ������������ ������������

20
16:54:22

对于参数估计,我们本质上还是想获得一个使似 然函数最大化的那个参数θ,现在与最大似然不同 的只是似然函数式中多了一个未知的变量z

也就是说我们的目标是找到适合的θ和z让L(θ)最大
21
16:54:22
(1)式最大化,也就是最大化似然函数,但 是可以看到里面有“和的对数”,求导后形式会 非常复杂,所以很难求解得到未知参数z和θ。 (2)式只是分子分母同乘以一个相等的函数, 还是有“和的对数”啊,还是求解不了 (3)式变成了“对数的和”,那这样求导就容 易了。我们注意点,还发现等号变成了不等号

23
16:54:22பைடு நூலகம்
EM算法流程

E步骤:根据参数初始值或上一次迭代的模型 参数记������ (������) ,来求一个分布q(z),使得L(q,������)最大 化
12
16:54:18
最大期望算法
继续回到身高的例子,我抽到这200个人中, 某些男生和某些女生一见钟情,已经好上了, 怎么着都不愿意分开,这时候,你从这200个 人里面随便给我指一个人,我都无法确定这个 人是男生还是女生。 也就是说你不知道抽取的那200个人里面的每 一个人到底是从男生的那个身高分布里面抽取 的,还是女生的那个身高分布抽取的。用数学 的语言就是,抽取得到的每个样本都不知道是 从哪个分布抽取的。
16
16:54:18
EM:EXPECTTATION MAXIMIZATION



依然用身高的例子 Expectation:我们是先随便猜一下男生(身高)的正态 分布的参数:如均值和方差是多少。例如男生的均值是 1米7,方差是0.1米,然后计算出每个人更可能属于第 一个还是第二个正态分布中的(例如,这个人的身高是 1米8,那很明显,他最大可能属于男生的那个分布) Maximization:有了每个人的归属,或者说我们已经大 概地按上面的方法将这200个人分为男生和女生两部分, 我们就可以根据之前说的最大似然那样,通过这些被大 概分为男生的n个人来重新估计第一个分布的参数,女 生的那个分布同样方法重新估计 这时候,两个分布的概率改变了,那么我们就再需要调 整E步……如此往复,直到参数基本不再发生变化为止

14
16:54:18
先有鸡还是先有蛋
15
16:54:18
亲,还记得ppt开始分菜的厨师么?
为了解决这个你依赖我,我依赖你的循环依赖 问题,总得有一方要先打破僵局,说,不管了, 我先随便整一个值出来,看你怎么变,然后我 再根据你的变化调整我的变化,然后如此迭代 着不断互相推导,最终就会收敛到一个解
似然函数:L(������) = L(x1,x2,…xn|������) =
������ ������=������ ������(������������ |������)
8

16:54:11
最大似然估计

如何求L(������ )最大值? 考虑到有累乘,不妨取对数,这里是因为lnL函数的单 调性和L函数的单调性一致,因此L(������ )的最大值转换为 lnL(������ )的最大值
2
16:54:11
EM算法

最大期望算法(Expectation-maximization algorithm,又译期望最大化算法)在统计中被 用于寻找,依赖于不可观察的隐性变量的概率 模型中,参数的最大似然估计。
相关文档
最新文档