第三章概率密度函数的参数估计

合集下载

分布函数与概率密度函数的参数估计方法

分布函数与概率密度函数的参数估计方法在概率统计学中，分布函数和概率密度函数是用来描述随机变量的性质的重要工具。

而参数估计则是根据给定的样本数据，通过某种方法对分布函数和概率密度函数中的未知参数进行估计的过程。

本文将介绍分布函数与概率密度函数的参数估计方法，包括最大似然估计、矩估计以及贝叶斯估计。

最大似然估计（Maximum Likelihood Estimation，MLE）是一种常用的参数估计方法。

其核心思想是选择使得给定数据样本出现概率最大的参数值作为估计值。

对于给定的样本数据x1，x2，…，xn，假设其分布函数为F(x;θ)，其中θ为未知参数。

最大似然估计的目标是找到使得样本数据出现概率最大的参数值θ^。

具体来说，最大似然估计通过对似然函数L(θ)=∏(i=1)^n f(xi;θ)（其中f(x;θ)为概率密度函数）取对数，并对参数θ进行求导来求解参数值θ^。

矩估计（Method of Moments，MoM）是另一种常用的参数估计方法。

其基本原理是利用样本矩与理论分布矩的对应关系进行参数估计。

对于给定的样本数据x1，x2，…，xn，假设其概率密度函数为f(x;θ)，其中θ为未知参数。

矩估计的目标是使样本矩与理论矩之间的差异最小化，即找到使得原始矩和样本矩最接近的参数值θ^。

除了最大似然估计和矩估计之外，贝叶斯估计（Bayesian Estimation）是一种基于贝叶斯理论的参数估计方法。

其核心思想是将未知参数视为一个随机变量，并基于先验分布和样本数据来求得后验分布。

贝叶斯估计不仅考虑了样本数据的信息，还考虑了先验信息的影响，因此对于样本数据较少或者不确定性较高的情况下，贝叶斯估计能够提供更稳健的参数估计结果。

总结起来，分布函数与概率密度函数的参数估计方法主要包括最大似然估计、矩估计和贝叶斯估计。

最大似然估计通过最大化样本数据出现的概率来估计参数，矩估计通过比较样本矩和理论矩之间的差异来估计参数，而贝叶斯估计则综合考虑了先验分布和样本数据来求得后验分布。

概率参数估计方法

概率参数估计方法概率参数估计方法是统计学中一种重要的方法，用于根据给定的样本数据来估计总体分布的参数。

在统计学中，参数是总体的特征数值，而样本是从总体中取出的一部分数据。

参数估计方法旨在通过样本数据来推测总体参数的取值，从而能够更好地理解总体的分布特征。

常用的参数估计方法有最大似然估计（MLE）、矩估计（Method of Moments）、贝叶斯估计等。

下面将介绍最大似然估计和矩估计这两种主要的参数估计方法。

最大似然估计（Maximum Likelihood Estimation，MLE）是一种常用的参数估计方法，其核心思想是找到一个参数值，使得给定样本数据出现的概率最大化。

假设总体的分布函数为F(x;θ)，其中θ代表未知的参数，而样本的观测值为x1,x2,...,xn。

则MLE的目标是找到使得样本的概率密度函数L(θ;x1,x2,...,xn)最大的参数值θ。

通常我们可以采用求解对数似然方程的方式来得到MLE的估计值，即解方程logL(θ;x1,x2,...,xn)=0。

矩估计（Method of Moments）是一种基于样本矩的方法，其核心思想是将样本矩与总体矩相等，从而得到参数的估计值。

对于一个有k个未知参数的总体分布，我们可以通过样本的k个矩来得到k个方程，从而求解参数的值。

矩估计方法的优点在于易于计算，但在小样本情况下估计结果可能不够准确。

此外，贝叶斯估计是一种非常重要的参数估计方法。

贝叶斯估计是基于贝叶斯定理的原理，它将参数看作是随机变量，并将先验知识与样本数据结合，通过后验概率分布来估计参数的取值。

贝叶斯估计方法的优点在于可以利用先验知识进行参数估计，从而更好地控制估计结果的准确性。

在实际应用中，选择何种参数估计方法要根据实际情况来决定。

最大似然估计方法适用于样本量较大的情况，且不需要先验知识；矩估计方法适用于小样本情况，且易于计算；贝叶斯估计方法适用于先验信息充足的情况。

总之，参数估计方法是统计学中一种重要的方法，可以通过样本数据来推测总体参数的取值。

第三章概率密度函数的估计

当 0 ≤ x ≤ θ 时， p (x | θ ) = 的最大似然估计是
解：定义似然函数 l (θ ) =
k
1
θ
，否则为0。证明θ
max x k 。
∏ p (x
k =1
N
k
|θ )
1 dH = 0，即 − N ⋅ = 0 H (θ ) = ln l (θ ) = − N ln θ ，令 dθ θ 方程的解 θ ＝ ∝ ，但实际问题中，θ ≠∝ 。 1 已知有N个随机样本，且 0 ≤ x ≤ θ 时， p (x | θ ) =

参数估计中的基本概念统计量参数空间点估计、估计量和估计值区间估计参数估计判断标准无偏性有效性一致性

3.2最大似然估计
（1）前提假设

参数θ（待估计）是确定（非随机）而未知的量样本集分成c类，为A1，A2，…，Ac，Aj的样本是从概率密度为 p x | ω j 的总体中独立抽取出来的。
i =1 i =1 i =1 i =1
N
(
)
N
N

例3.2：设x服从正态分N(μ,σ2)，其中参数μ、 σ2未知，求它们的最大似然估计量。
N
解：设样本集 A = {x1 , x2 ,..., xN }，定义似然函数 l (θ ) = ∏ p(xi | θ )
i =1 2 ⎧ ⎡ ( xi − μ ) ⎤ ⎫ ⎪ ⎪ 1 exp⎢− H (θ ) = ln l (θ ) = ∑ ln p (xi | θ ) = ∑ ln ⎨ ⎥⎬ 2 2σ ⎪ i =1 i =1 ⎣ ⎦⎪ ⎭ ⎩ 2π σ 2 N ⎧ ⎫ ( ) x − 1 1 μ 2 i = ∑ ⎨− ln 2π − ln σ − ⎬ 2 2 2σ i =1 ⎩ 2 ⎭ N N 2

第3章 ML估计和Bayesian参数估计

θ μ 未知
x ~N , 2
给定样本集
~N 0 , 02
，已知随机变量

均值未知而方差已知。均值变量的先验分布求μ 的后验概率 p D
p D pD p p D
吸收所有与μ 无关的项
p D p
p D p D p 1 xi 2 1 1 0 2 1 exp exp 2 2 2 2 0 2 0 2 i 1
ˆ 2 但当n->∞时： 2
——渐近无偏估计
最大似然估计（ML）
ML估计总结
简单性收敛性：无偏或者渐近无偏如果假设的类条件概率模型 p x i , θi

正确，
则通常能获得较好的结果。但果假设模型出现偏差，将导致非常差的估计结果。
参数估计
参数估计(parametric
的解。而只有θ点使得似然函数最大。
方程组没有唯一解的情况
最大似然估计（ML）
1 ,1 x 2 p x 2 1 0, 其他
H N ln 2 1
H 1 N 0 1 2 1
均匀分布的情况
H 1 N 0 2 2 1
0 xi 2 i 1 0
N
由两式指数项中对应的系数相等得：
N 1 1 2 2 2 N 0 N N N ˆN 2 2 N 02
1 ˆ 其中： N N
x
i 1
N
i
2 p D ~N N , N 求解方程组得：
N p D p

概率密度函数的估计与应用

概率密度函数的估计与应用概率密度函数（probability density function，简称PDF）是概率论和数理统计中常用的概念，广泛应用于可变量的分布描述、数据拟合以及随机变量的概率计算中。

在实际应用中，我们经常用到概率密度函数的估计，以求得随机变量的分布特征和统计学参数，从而为数据分析和建模提供有力支撑。

一、概率密度函数的基本概念及分布函数概率密度函数是描述随机变量取值的概率分布的一种数学模型。

简单来说，概率密度函数是一个连续函数，其在某个点的导数表示该点处的概率密度，对于某个区间上的积分则表示该区间内的概率和。

当随机变量服从某一分布时，我们可以通过该分布的概率密度函数来描述其分布特征。

分布函数是概率密度函数的一个相关概念，其所描述的是随机变量取值在某一范围内的累积概率。

与概率密度函数不同的是，分布函数是一个非降的右连续函数，其在某一点的最左极限为该点处的概率。

二、概率密度函数的估计方法根据大数定律和中心极限定理，我们可以利用样本数据来对总体的概率密度函数进行估计。

这里介绍两种常用的概率密度函数估计方法，分别是核密度估计和最大似然估计。

1. 核密度估计核密度估计将样本数据和一个给定的核函数结合起来，通过计算核函数在每个观测值处的值和分布范围，得到在该点处的概率密度函数估计值。

核密度估计的优点在于其所得到的概率密度函数是一个连续函数，并且无需对数据做出具体的分布假设。

2. 最大似然估计最大似然估计是一种常用的参数估计方法，其原理是选择某个分布参数（如均值、方差、形状参数等），使得样本数据在该分布下的概率最大。

对于正态分布、指数分布等常见分布，最大似然估计具有较好的稳健性和准确性。

三、概率密度函数的应用概率密度函数的应用十分广泛，下面将简单介绍几个常见的应用场景。

1. 数据拟合在数据分析和建模中，常常需要使用概率密度函数来对数据进行拟合。

通过使用不同的概率密度函数，可以描述不同类型的随机变量，如正态分布、指数分布、泊松分布等。

模式识别习题及答案

第一章绪论1.什么是模式？具体事物所具有的信息。

模式所指的不是事物本身，而是我们从事物中获得的___信息__。

2.模式识别的定义？让计算机来判断事物。

3.模式识别系统主要由哪些部分组成？数据获取—预处理—特征提取与选择—分类器设计/ 分类决策。

第二章贝叶斯决策理论1.最小错误率贝叶斯决策过程？答：已知先验概率，类条件概率。

利用贝叶斯公式得到后验概率。

根据后验概率大小进行决策分析。

2.最小错误率贝叶斯分类器设计过程？答：根据训练数据求出先验概率类条件概率分布利用贝叶斯公式得到后验概率如果输入待测样本X ，计算X 的后验概率根据后验概率大小进行分类决策分析。

3.最小错误率贝叶斯决策规则有哪几种常用的表示形式？答：4.贝叶斯决策为什么称为最小错误率贝叶斯决策？答：最小错误率Bayes 决策使得每个观测值下的条件错误率最小因而保证了（平均）错误率最小。

Bayes 决策是最优决策：即，能使决策错误率最小。

5.贝叶斯决策是由先验概率和（类条件概率）概率，推导（后验概率）概率，然后利用这个概率进行决策。

参数估计的计算

参数估计的计算参数估计是统计学中最重要的分支之一，其主要目的是通过样本数据来估计总体参数。

在实际应用中，参数估计被广泛应用于各个领域，如工程、医学、金融等。

本文将对参数估计的计算方法进行详细介绍，以帮助读者更好地理解和应用参数估计。

首先，我们需要了解两种参数估计方法：点估计和区间估计。

点估计是指通过样本数据推断出总体参数的具体数值，即求出一个点估计量作为总体参数的估计值。

例如，在一个总体服从正态分布的案例中，我们可以通过样本数据计算出样本均值作为总体均值的点估计量。

区间估计则是通过样本数据来计算一个区间，该区间内包括了真实总体参数具有一定可信度的可能性。

例如，在一个样本数量为n、总体方差已知的正态分布中，我们可以通过样本数据计算一个由样本均值和向量标准误差乘以一个统计量t分布的值组成的区间，来估计总体均值的真实范围。

接下来，我们将分别介绍点估计和区间估计的计算方法。

点估计的计算方法：概率密度函数f(x)是根据样本数据构造出来的概率函数，表示总体分布的形态和特性。

根据这个概率密度函数，我们可以计算出样本的均值、方差和标准差等参数估计量。

其中，样本均值是最常见的点估计量，计算方法如下：样本均值=总体元素之和÷总体元素个数例如，样本中有n个元素，总体元素之和为x1+x2+...+xn，则样本均值为：x¯=（x1+x2+...+xn）÷n同时，我们还需要了解标准误差的概念。

标准误差是指估计量与真实参数之间的差异，通常通过方差来计算。

例如，在一个样本数量为n、总体方差未知的正态分布中，标准误差由下式计算：SE=(S÷√n)其中，S是样本标准差，n是样本数量。

区间估计的计算方法：在区间估计中，我们需要计算的是置信区间，即一个真实总体参数落在样本所计算区间内的概率。

一般情况下，我们选择95%或99%的置信度水平来构造区间。

以样本均值和总体标准差已知的情况为例，我们可以采用下面的公式来计算置信区间：CI（置信区间）=（x¯±Z*SE）其中，x¯是样本均值，Z是标准正态分布的值，SE是标准误差。

概率密度函数的估计参数估计

概率密度函数的估计参数估计概率密度函数（Probability Density Function，简称PDF）是概率统计学中一个非常重要的概念，用于描述连续随机变量的概率分布情况。

参数估计是统计学中一个关键的问题，它指的是通过样本数据来估计总体分布的参数。

本文将对概率密度函数的参数估计方法进行详细介绍。

一、参数估计的目标参数估计的目标是找到一组最合适的参数值，使得概率密度函数能够较好地拟合样本数据分布。

一般来说，参数估计可以分为两种类型：点估计和区间估计。

点估计是指利用样本数据直接估计出概率密度函数的参数值，而区间估计则是对参数进行区间估计，给出一个参数取值的范围。

二、点估计的方法1. 最大似然估计（Maximum Likelihood Estimation，简称MLE）最大似然估计是一种常用的参数估计方法，其基本思想是寻找一组参数值，使得样本观测值出现的概率最大。

对于给定的样本数据，若假设一个概率分布模型，并通过极大化似然函数来求解参数值，就得到了最大似然估计。

2. 矩估计（Moment Estimation）矩估计是通过样本矩直接估计总体矩的方法。

对于连续型分布而言，可以通过样本矩来估计分布的矩，从而得到参数的估计值。

3. 最大后验概率估计（Maximum A Posteriori Estimation，简称MAP）最大后验概率估计是贝叶斯估计的一种特殊情况，其基本思想是在最大化后验概率与似然函数的乘积，从而得到参数的估计值。

相对于最大似然估计，最大后验概率估计将先验分布考虑在内，可以有效地克服样本容量小引起的估计不准的问题。

三、区间估计的方法1. 置信区间估计（Confidence Interval Estimation）置信区间估计是通过样本数据计算出一个参数的区间估计范围，其置信水平表征了参数估计值位于置信区间内的可能性大小。

常用的置信区间估计方法有：正态分布置信区间估计、大样本置信区间估计、Bootstrap置信区间估计等。

参数估计理论与应用(第三章 )

那么它仍然有可能是一个好的估计。
考虑实随机过程{xk}的相关函数的两种估计量：
Rˆ1( )
1
N
N
xk xk ,
k 1
Rˆ2 ( )
1 N
N k 1
xk
xk
假定数据{xk}是独立观测的，容易验证
E[
Rˆ1
(
)]
E[
N
1
N
xk xk ]
k 1
1
N
N
E[ xk xk ]
k 1
Fisher 信息 Fisher 信息用J（θ）表示，定义为
J ( )
E{[
ln
p(x
| ]2}
E[
2
2
ln
p(x
| )]
（3.1.1）
2020/4/9
第三章参数估计理论与应用
当考虑 N 个观测样本 X={ x1,…,xN }, 此时，联合条件分布密度函数可表示为
p(x | ) p(x1, , xN | )
0
lim P{|
N
1 N
N
xi2 x 2 (E[ x2 ] E2[x]) | }
i 1
lim
N
P{|
ˆ
2 N
2
|
}
0,
0
2020/4/9
第三章参数估计理论与应用
于是
lim
N
P{ | ˆ1
1
|
}
3
lim
N
P{|ˆ N
|
}
0
lim
N
P{ | ˆ2
2
|
}
2
3

概率密度函数估计.

ˆ d ( x , x ,, x ) d (X )。称作最大似然估计量。样本集的函数，记作 1 2 N
为了便于分析，还可以定义对数似然函数 H ( ) ln l ( )。
3.2
最大似然估计(Maximum
Likelihood Estimation)
求解：若似然函数满足连续、可微的条件，则最大似然估计量就是方程
i
P(Xi/θi)
利用上式求出的估值，即为＝
i

上图有5个解,只有一个解最大即.
3.2
最大似然估计(Maximum
Likelihood Estimation)
正态分布下的最大似然估计示例以单变量正态分布为例
[1， , 2 ]T
p( x | ) 1
1，
2 2
1 x 2 exp 2 2
样本集
X x1 , x2 ,, x N
l ( x ) p ( X | ) p ( xk | )
k 1 N
似然函数
3.2
最大似然估计(Maximum
dl( ) / d 0 或 dH ( ) / d 0
的解（必要条件）。若未知参数不止一个，即 [1 , 2 ,, s ]T ，记梯度算子
, , , s 1 2
T
则最大似然估计量的必要条件由S个方程组成：
似然函数（likelihood function）
l ( ) p( X | ) p( x1 , x2 ,, x N | ) p( xi | )
i 1 N
—— 在参数下观测到样本集 X 的概率（联合分布）密度

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

π = (π 1 ,L, π M )
a11 a 21 A= M a M1
a12 a22 M aM 2
L a1M L a2 M O M L aMM
一阶Markov模型输出状态序模型输出状态序一阶列的概率
模型输出状态序列的概率可以由初始状态概率与各次状态转移概率相乘得到。例如：W5=w1, w1, w3, w1, w2，则模型输出该序列的概率为：
贝叶斯估计的一般理论
由于参数矢量θ是一个随机变量，所以类 θ 条件概率可以用下式计算：
p ( x D ) = ∫ p ( x, θ D ) dθ = ∫ p ( x θ ) p ( θ D ) dθ
根据贝叶斯公式，有：
p (θ D ) =
∫ p ( D θ ) p ( θ ) dθ ∫ ∏ p ( x θ ) p ( θ ) dθ
最大似然估计(MLE, Maximum Likelihood Estimation)；贝叶斯估计(Bayesian Estimation)。
非参数估计方法。
3.1 最大似然估计
样本集D中包含n个样本：x1，x2， …, xn，样本都是独立同分布的随机变量(i.i.d， independent identically distributed)。对类条件概率密度函数的函数形式作出假设，参数可以表示为参数矢量θ： θ
θ
i 1
)
基本EM算法算法基本
1.
begin initialize θ0，T，i
0；
2. 3. 4. 5. 6.
do i i+1
until Q ( θi+1 θi ) Q ( θi θi 1 ) ≤ T
) M步： = arg max Q ( θ θ ) θ
E步：计算 Q θ θi 1 ;
i θ i 1
i =1 M
GMM模型产生的维样本数据模型产生的2维样本数据模型产生的
两个高斯函数的混合
p ( x ) = 0.7 N ( 10, 2 ) + 0.3N (5,3)
混合密度模型的参数估计
混合密度模型的参数可以表示为：
θ = ( a1 , a2 ,L, aM , θ1 , θ 2 ,L, θ M )
3.2 贝叶斯估计
已有独立同分布训练样本集D；已知类条件概率密度函数p(x|θ)的形式，但参数θ未知；已知参数θ的先验概率密度函数p(θ)；
求在已有训练样本集D的条件下，类条件概率密度函数p(x|D)。
贝叶斯估计与最大似然估计的差别
最大似然估计认为θ是一个确定的未知 θ 矢量；贝叶斯估计认为θ是一个随机变量，以 θ 一定的概率分布取所有可能的值。
基本EM算法算法基本
由于Y未知，因此我们需要寻找到一个在Y 的所有可能情况下，平均意义下的似然函数最大值，即似然函数对Y的期望的最大值：
Q ( θ θi 1 ) = EY l ( θ X, Y ) X, θi 1
= EY
i
( ) ( ln p ( X, Y θ ) X, θ )
i 1
θ = arg max Q ( θ θ
2 2 2 1 σ 2 +σ 2 σ n x + σ n n f (σ ,σ n ) = ∫ exp du 2 2 2 2 σ +σn 2 σ σn
3.3期望最大化算法期望最大化算法(EM算法算法) 期望最大化算法算法
EM算法的应用可以分为两个方面：
1.
训练样本中某些特征丢失情况下，分布参数的最大似然估计；对某些复杂分布模型假设，最大似然估计很难得到解析解时的迭代算法。
i =1 i
p ( D θ) p (θ )
=
∏ p ( x θ)p (θ)
i =1 n i
n
单变量正态分布的贝叶斯估计
已知概率密度函数满足正态分布，其中方差σ2已知，均值μ未知，假设μ的先验概率满足正态分布，即：
p(x )
N ( ,σ
2
p( )
2 N ( 0 , σ 0
) )
均值的后验概率
参数的估计方法：
1.
2.
利用最优化方法直接对似然函数进行优化，如梯度下降法；引入未知隐变量Y对问题进行简化，将Y 看作丢失的数据，使用EM算法进行优化。
GMM模型的参数估计模型的参数估计
首先引入隐含数据集合: Y = { y1 , y2 ,L, yn }
y 其中：i ∈ {1,L , M } 代表第i个训练样本是由第 yi 个高斯函数产生的，将Y作为丢失 Y 数据集合，采用EM算法进行迭代估计。
最大似然估计
最大似然估计就是要寻找到一个最优矢量 θ ，使得似然函数 l ( θ) 最大。
θ = arg max l ( θ )
θ
正态分布的似然估计
Gauss分布的参数由均值矢量μ和协方差 μ 矩阵Σ构成，最大似然估计结果为： Σ
1 n = ∑ xi n i =1
1 n t Σ = ∑ ( xi )( xi ) n i=1
2 n 2 0 2 0 2
均值分布的变化
类条件概率密度的计算
p ( x D) = ∫ p ( x ) p ( D) d
=∫ 1 2 1 x 2 1 1 n exp exp d 2πσ 2 σn 2 σ 2πσ n
1 ( x n )2 f (σ , σ n ) = exp 2 2 2πσσ n 2 σ +σn
V = v1 , v2 ,L , vT
T
其中的vi为一个特征矢量，称为一个观察值。
一阶Markov模型模型一阶
一阶Markov模型由M个状态构成，在每个时刻t，模型处于某个状态w(t)，经过T个时刻，产生出一个长度为T的状态序列WT=w(1),…,w(T)。
一阶Markov模型的状态转移模型的状态转移一阶
隐含Markov模型 (Hidden Markov Model, HMM)
有一些模式识别系统处理的是与时间相关的问题，如语音识别，手势识别，唇读系统等；对这类问题采用一个特征矢量序列描述比较方便，这类问题的识别HMM取得了很好的效果。
输入语音波形
观察序列
信号的特征需要用一个特征矢量的序列来表示：
估值问题的计算
P WrT θ = π wr (1) awr (1)wr ( 2) awr ( 2) wr ( 3) L awr (T 1)wr (T )
P V T WrT
(
(
) ) = b ( ) ( v (1)) b ( ) ( v ( 2 ))Lb ( ) ( v (T ) )
wr 1 wr 2 wr T
p ( x ωi , θi )
似然函数
由独立同分布假设，样本集D出现的概率为：
p ( D θ ) = p ( x1 , x 2 ,L, x n θ ) = ∏ p ( xi θ )
i =1 n
定义对数似然函数：
l ( θ ) = ln p ( D θ ) = ∑ ln p ( xi θ )
i =1 n
HMM的工作过程的工作过程
HMM的参数表示的参数表示
θ = ( π, A, B )
状态转移矩阵：A，M*M的方阵；状态输出概率：B，M*K的矩阵；初始概率：π，包括M个元素。 M个状态，K个可能的输出值。
HMM的三个核心问题的三个核心问题
估值问题：已有一个HMM模型，其参数已知，估值问题计算这个模型输出特定的观察序列VT的概率；解码问题：已有一个HMM模型，其参数已知，解码问题计算最有可能输出特定的观察序列VT的隐状态转移序列WT；学习问题：已知一个HMM模型的结构，其参数学习问题未知，根据一组训练序列对参数进行训练；
GMM参数的估计算法参数的EM估计算法参数的
1.
2.
设定混合模型数M，初始化模型参数 θ0，阈值T， i 0；用下列公式迭代计算模型参数，直到似然函数变化小于T为止：
i am pm ( xt θim )
p ( m xt , θi ) =
∑a p (x
M j =1 i j j
t
θij )
1 n i am+1 = ∑ p ( m xt , θi ) n t =1
(
return θ = θi+1
混合密度模型
一个复杂的概率密度分布函数可以由多个简单的密度函数混合构成：
p ( x θ ) = ∑ ai pi ( x θi ),
i =1 M
∑a
i =1
M
i
=1
最常用的是高斯混合模型(GMM，Gauss Mixture Model)：
p ( x ) = ∑ ai N ( x; i , Σi )
第三章概率密度函数的参数估计
3.0 引言
贝叶斯分类器中最主要的问题是类条件概率密度函数的估计。问题可以表示为：已有c个类别的训练样本集合D1，D2，…，Dc，求取每个类别的类条件概率密度 p ( x ωi ) 。
概率密度函数的估计方法
参数估计方法：预先假设每一个类别的概率密度函数的形式已知，而具体的参数未知；
i +1 m
=
∑ xt p ( m xt , θ
n t =1 n i t =1 t
i
)
∑ p (m x ,θ )
+ Σim 1 =
∑ p ( m x , θ )( x
n i t =1 t n t =1
t
t
i +1 m i
)( x
t
i +1 m)来自t∑ p (m x ,θ )
EM算法的性质
EM算法具有收敛性； EM算法只能保证收敛于似然函数的局部最大值点（极值点），而不能保证收敛于全局最优点。