第3章 概率密度函数

合集下载

研究生数学基础课程之应用数理统计3-3

研究生数学基础课程之应用数理统计3-3

一维随机变量X 一维随机变量 连续型 X的密度函数 的密度函数
f (x, y) P{( x, y) ∈A } = ∫∫ f (x, y)dxdy
A
P{a ≤ X ≤ b}
A⊂ℜ 2
= ∫ f (x)dx
a
b
f (x, y) ≥ 0
∫ ∫


−∞ −∞
f (x, y)dxdy =1


f (x) ≥ 0
则(X,Y)称 服从D上的均匀分布. (X,Y)称 服从D上的均匀分布. (X,Y)落在 中某一区域A 落在D (X,Y)落在D中某一区域A内的概率 P{(X,Y)∈A},与 的面积成正比而与A P{(X,Y)∈A},与A的面积成正比而与A的位置 和形状无关. 和形状无关.
P{(X,Y)∈ A的面积 的面积/d P{(X,Y)∈A}= A的面积/d
σ1 > 0,σ2 > 0, | ρ |<1
性质 二维正态分布(X,Y)的概率密度函数 维正态分布(X,Y) (X,Y)的概率密度函数
f(x,y)满足: f(x,y)满足: 满足
(1) (2)
∫ ∫


−∞ −∞
f (x, y)dxdy =1
∞ −∞
令1(x) := ∫ f f1(x) =
f (x, y)d y e
其中A是常数.(1)求常数A. 其中A是常数.(1)求常数A. .(1)求常数 (2)求(X,Y)的分布函数 的分布函数; (2)求(X,Y)的分布函数; (3)计算 计算P{0<X<4,0<Y<5}. (3)计算P{0<X<4,0<Y<5}.
解: (1)
A Q∫ ∫ dxdy =1 2 2 2 −∞ −∞ π ( 16+ x )(25+ y )

概率论与数理统计第3章

概率论与数理统计第3章

例2 设(X,Y)的概率密度是
f
x,
y
2e(2 x
y),
0,
x 0, y 0, 其它.
(1) 求分布函数 F x, y; (2) 求概率 PY X .
解 (1) 当 x 0, y 0 时,
F
x, y
yx
f
u,v dudv
y 0
x 2e(2uv) dudv
0
2 y evdv x e2udu
存在,则称此极限为在条件 Y=y下X的条件分 布函数,记成 FX|Y(x|y)。若存在 fX|Y(x|y), 使得
x
FX |Y (x | y) - f X |Y (u | y) du,
则称 fX|Y(x|y)为在条件 Y=y 下X的条件概率密 度函数,简称条件概率密度。
定理1:设随机向量(X,Y)的联合概率密度 为 f (x, y),Y的边缘概率密度为fY (y)。若f (x, y) 在点(x, y) 处连续,
5c

24
c 24 5
例4 设 (X,Y) 的概率密度是
f
(
x,
y)
cy(2
0
x), ,
0 x 1,0 y x 其它
求 (1) c 的值; (2) 两个边缘密度 .

(2)
fX x
f x, ydy
当 x 1或 x 0时 , y ,, y
都有 f x, y 0,故 fX x 0 .
pi j ,i=1,2, … p• j
为在Y=yj 条件下, 随机变量X的条件概率分布。
对固定的 i,若P(X=xi) > 0,则称
P(Y=yj
|X=xi)=
P(

第三章 概率密度函数的估计

第三章 概率密度函数的估计

当 0 ≤ x ≤ θ 时 , p (x | θ ) = 的最大似然估计是
解: 定义似然函数 l (θ ) =
k
1
θ
, 否则为0。证明θ
max x k 。
∏ p (x
k =1
N
k
|θ )
1 dH = 0, 即 − N ⋅ = 0 H (θ ) = ln l (θ ) = − N ln θ ,令 dθ θ 方程的解 θ = ∝ ,但实际问题中,θ ≠∝ 。 1 已知有N个随机样本, 且 0 ≤ x ≤ θ 时 , p (x | θ ) =



参数估计中的基本概念 统计量 参数空间 点估计、估计量和估计值 区间估计 参数估计判断标准 无偏性 有效性 一致性

3.2最大似然估计
(1)前提假设

参数θ(待估计)是确定(非随机)而未知的量 样本集分成c类,为A1,A2,…,Ac,Aj的样本是 从概率密度为 p x | ω j 的总体中独立抽取出来的。
i =1 i =1 i =1 i =1
N
(
)
N
N

例3.2:设x服从正态分N(μ,σ2),其中参数μ、 σ2未知,求它们的最大似然估计量。
N
解: 设样本集 A = {x1 , x2 ,..., xN }, 定义似然函数 l (θ ) = ∏ p(xi | θ )
i =1 2 ⎧ ⎡ ( xi − μ ) ⎤ ⎫ ⎪ ⎪ 1 exp⎢− H (θ ) = ln l (θ ) = ∑ ln p (xi | θ ) = ∑ ln ⎨ ⎥⎬ 2 2σ ⎪ i =1 i =1 ⎣ ⎦⎪ ⎭ ⎩ 2π σ 2 N ⎧ ⎫ ( ) x − 1 1 μ 2 i = ∑ ⎨− ln 2π − ln σ − ⎬ 2 2 2σ i =1 ⎩ 2 ⎭ N N 2

概率论与数理统计总结之第三章

概率论与数理统计总结之第三章

第三章 多维随机变量及其分布第一节二维随机变量的概念1.二维随机变量定义:设(X,Y)是二维随机变量,记为:(,){()()}=≤⋂≤F x y P X x Y y (,)=≤≤P X x Y y (,)-∞<<∞-∞<<∞x y称(,)F x y 为X 与Y 的分布函数,或称X 与Y 的联合分布函数}}(){{(,lim (,)→+∞=≤=≤≤+∞=X y F x P X x P X x Y F x y}}(){{,lim (,)→+∞=≤=≤+∞≤=Y x F y P Y y P X Y y F x y分布函数(,)F x y 性质:1)(,)F x y 是变量x 和变量y 的不减函数,(分别关于x 和y 有单调不减性) 2)0(,)1≤≤F x y ,任意一边趋于-∞=0.F(∞,∞)=1(用来确定未知参数).3)(,)(0,)(0,0)=+=++F x y F x y F x y ,即(,)F x y 分别关于x 右连续,关于y 也右连续,4)对于任意11221212(,),(,),,,<<x y x y x x y y 下述不等式成立(可用于判定二元函数(,)F x y 是不是某二维随机变量的分布函数):22211112(,)(,)(,)(,)0-+-≥F x y F x y F x y F x y 2.二维离散型随机变量:定义:如果二维随机变量(X,Y)只取有限对或可列无穷多对,则称(X,Y)是二维离散型随机变量其概率{,},,1,2,====i i ij P X x Y y p i j …为二维离散型随机变量(X,Y)的分布律,或随机变量X 和Y 是联合分布律 性质:1.0,(i,j 1.2.....)≥=ij P2.1≤≤=∑∑i i ijx x y yp满足以上两条,即为二维离散型随机变量的分布律. 注;步骤:定取值,求概率,验证1.离散型随机变量X 和Y 的联合分布函数为(,)≤≤=∑∑i i ijx x y yF x y p,其中和式是对一切满足,≤≤i i x x y y 的i,j 来求和的边缘分布定义:对于离散型随机变量(X,Y),分量X 和Y 的分布律(), 1.2...(), 1.2..的边缘分布律:的边缘分布律:••========∑∑i i ij jJ i ij iX p P X x p i Y p P Y y p i ,0,0(, 1.2....)1•••≥≥===∑∑i j jiip p i j pi p联合确定边缘,但一般情况,边缘不能确定的联合,除非相互独立. 比如;有放回的摸球,就是X ,Y 相互独立. 不放回地摸球,是条件分布.3.二维连续型随机变量的概率密度和边缘概率密度. 对比一维的: 概率密度:()()1∞-∞==⎰f x f x dx ,分布律:{}(),≤≤=⎰b aP a x b f x dx 分布函数:()()-∞=⎰xF x f t dt二维:定义:设二维随机变量(X,Y)的分布函数为(,)F x y ,若存在非负可积函数(,)f x y ,使得对于任意实数x,y 有(,)(,)-∞-∞=⎰⎰xyF x y f u v dudv ,则称(X,Y)为二维连续型随机变量,(,)f x y 称为(X,Y)的概率密度,或联合概率密度.概率密度的性质: 1.(,)F x y ≥0 2.(,)1∞∞-∞-∞=⎰⎰f x y dxdy只要具有以下两条性质,必可作为某二维随机变量的概率密度.3.已知(X,Y)的概率密度(,)f x y ,则(X,Y)在平面区域D 内取值的概率为:{(,)}(,)∈=⎰⎰DP X Y D f x y dxdy (作二重积分)(随机点(X,Y)落在平面区域D 上的概率等于以平面区域D 为底,以曲面(,)=z f x y 顶的典顶的体积) 4.若(,)F x y 在点(x,y)连续,则有2(,)(,)∂=∂∂F x y f x y x y(连续就能根据分布律求概率密度)1) 当求()=P X Y 时,它只是一条线,所以:()0==P X Y2) 一个方程有无实根:20++=ax bx c ,即求:22240,40,40,一个实根无实根两个实根+=+<+>b ac b ac b ac均匀分布:定义:设D 为平面上的有界区域,其面积为S ,且0>S ,如果二维随机变量(X,Y)的概率密度为1,(x,y)(,)0,其它⎧∈⎪=⎨⎪⎩Df x y S,则称(X,Y)服从区域D 上的均匀分布(或叫(X,Y)在D 上服从均匀分布,记作(X,Y )D U . 两种特殊情形:1) D 为矩形,,c )≤≤≤≤a x b y d 时,1,()()(,),c )0,其它⎧⎪--=≤≤≤≤⎨⎪⎩b a dc f x y a x b y d2) D 为圆形,如(X,Y)在以原点为圆心,R 为半径的圆域上服从均匀分布,则(X,Y)的概率密度为:22221,(,))0,其它π⎧⎪=+≤⎨⎪⎩f x y x y R R定义:对连续型随机变量(X,Y),分量X,Y 的概率密度称为(X,Y)关于X 或Y 的边缘概率密度,记作(),X f x ().Y f y X 的分布函数:()(,)(,)∞-∞-∞⎡⎤=∞=⎢⎥⎣⎦⎰⎰xX F x F x f u v dv du (让Y趋于正无穷) Y 的分布函数:()(,)(,)∞-∞-∞⎡⎤=∞=⎢⎥⎣⎦⎰⎰yY F y F y f u v du dv (让X趋于正无穷) X 的概率密度:()(,),()∞-∞=-∞<<∞⎰X f x f x y dy xY 的概率密度:()(,),()∞-∞=-∞<<∞⎰Y f y f x y dx y(二维的边缘概率密度是直接以联合概率密度在负无穷到正无穷对对应元素积分,其间需要对划分区间的作分别积分)(X,Y)的概率密度:(,)(,)[(,)]-∞-∞-∞-∞==⎰⎰⎰⎰x yx yf x y f u v dudv f u v dv du二维正态分布: 二维正态221212(,)(,,,,)σσρX Y N u u 分布函数的性质:1.211()(,)σX N u ,222()(,)σY N u 边缘服从一维正态分布2.0,ρ=⇔xy X Y 独立(相关系数为O,则两个随机变量独立)3.212()()σ++k X k Y N u (线性组合按一维正态处理)4. 1212(),±±k X k Y c X c Y 服从二维正态(如:(,)+-X Y X Y ) 条件分布:设(X,Y)是二维离散型随机变量,对于固定的j ,若{}0=>j P Y y ,则称{=i P X x |{,}},1,2,{}⋅=======i j ij j j jP X x Y y p Y y i P Y y p …为在=j Y y 条件下随机变量X 的条件分布律同样地,若{}0,=>i P X x 则称{=j P Y y |{,}},1,2,{}⋅=======i j ij i i i P X x Y y p X x j P X x p …为=i X x 条件下随机变量Y 的条件分布律 变形,即得求联合分布律的方法.设二维随机变量(X,Y)的概率密度为f(x,y),(X,Y)关于Y 的边缘概率密度为()Y f y .若对于固定的y,()0,>Y f y 则称(,)()Y f x y f y 为在Y=y 的条件下X 的条件概率密度称|(,)(|)()-∞-∞=⎰⎰xxX Y Y f x y f x y dx dx f y 为在Y=y 的条件下,X 的条件分布函数,记为P{X ≤x|Y=y}或|(|)X Y F x y ,即|(,)(|){|}()-∞=≤==⎰x X Y Y f x y F x y P X x Y y dx f y 设F(x,y)及(),()X Y F x F y 分别是二维随机变量(X,Y)的分布函数及边缘分布函数,若对于所有x,y 有P{X ≤x,Y ≤y}=P{X ≤x}P{Y ≤y},即(,)()()=X Y F x y F x F y ,则称随机变量X 和Y 是相互独立的设(X,Y)是连续型随机变量,(,),(),()X Y f x y f x f y 分别为(X,Y)的概率密度和边缘概率密度,则X 和Y 相互独立的条件等价于(,)()()=X Y f x y f x f y 在平面上几乎处处成立(除去面积为0的集合以外,处处成立)第二节随机变量的独立性1. 两个随机变量的独立性 定义:设(,),().()X Y F x y F x F y 分别是二维随机变量(X,Y)的分布函数和两个边缘分布函数,若对任意实数,x y 有(,)().()=X Y F x y F x F y ,则称X 与Y 相互独立.可用于判断独立性(随机变量独立,对任意实数x,y,事件X ,Y ≤≤x y 相互独立) 以上公式等价于:(X ,Y )(X ).()≤≤=≤≤X Y P x y P x P Y y 可类推至多个函数的情况.1)如果X,Y 随机变量独立,().()连续f x g y ,(通过函数作用)则().()f x g y 也独立.(可类推至多个随机变量的情况)例:X,Y 独立,则22,x y 独立.2)如果1212,...,...,YYYm m X X X 相互独立,12m 121()()...()()()....()和,f x f x f x g y g y g y 也相互独立。

条件分布律条件分布函数条件概率密度

条件分布律条件分布函数条件概率密度
自然地引出如下定义:
§3条件分布
定义:设( X ,Y ) 是二维离散型随机变量,对于固定 的 j , 若P{Y= yj }>0, 则称
P{ X

xi
|Y

yj}

P{X xi ,Y y j } P{Y y j }
pij p j
,i 1,2,
为在Y= yj 条件下随机变量 X 的条件分布律。
y
|
,
0,
目 录 前一页
| y |< x < 1 其它。
后一页 退 出
第三章 随机变量及其分布
例 3(续)
f (x, y)
1, | y |< x, 0 < 0, 其它.
x
< 1,
fX (x)
2x, 0 < x < 1 0, 其它.
当0 < x < 1,
fY|X ( y | x)
( ) ( ) f X Y
xy

f (x, y) fY (y)

2
1

2 1
1-r2
( ) exp
2
2 1
1 1-
r2
x
-

1

r

1 2
(y
-
2
) 2


(- < x < )
结论:二元正态分布的条件分布是一元正态分布,即
( ) ( ) N
第三章 随机变量及其分布
§3条件分布
例2 设某班车起点站上车人数 X 服从参数为 ( 0)
的泊松分布,每位乘客在中途下车的概率为 p(0 < p < 1),

概率论第三章

概率论第三章

若二维随机变量( 若二维随机变量(X,Y)具有概率密度 ) 1 1 x − µ1 2 f (x, y) = exp{− ) 2 [( 2 2(1− ρ ) σ1 2πσ1σ2 1− ρ x − µ1 y − µ2 y − µ2 2 )( ) +( ) ]} − 2ρ( 其中
µ1, µ2,σ1,σ2, ρ
3.1.2、二维随机变量的联合分布函数 、 维随机变量的联合 联合分布函数
二维随机变量( 二维随机变量(X,Y) ) ( X , Y )的联合分布函数 )的联合分布函数
一维随机变量X 一维随机变量 X的分布函数 的分布函数
F(x, y) = P(X≤ x,Y ≤ y) − ∞ < x, y < ∞
xi ≤3yj ≤2
求:F(3,2) = P(X≤ 3,Y ≤ 2) = ∑∑pij
1 1 1 1 = + 0+ 0+ + + 0 = 4 8 8 2
例2 设随机变量 Y ~ E (1) ,随机变量
0 , 若Y ≤ k ( k = 1,) 2 Xk = 1 , 若Y > k 的联合概率分布列。 求 X 1 和 X 2 的联合概率分布列。
第三章 多维随机变量及其分布
到现在为止, 到现在为止,我们只讨论了一维随机变量 及其分布. 及其分布. 但有些随机现象用一个随机变量来 描述还不够, 描述还不够,而需要用几个随机变量来描述 在打靶时, 在打靶时,命中点的位置是由一 对随机变量(两个坐标)来确定的. 对随机变量(两个坐标)来确定的. 飞机的重心在空 中的位置是由三个随 机变量(三个坐标) 机变量(三个坐标)来 确定的等等. 确定的等等.
1/ 4 x 1 1 解: (3)P( X < ,Y < ) = ∫0 [∫0 3xdy]dx 4 2

概率密度定义

概率密度定义

概率密度定义概率密度定义概率密度是概率论中的一个重要概念,用于描述随机变量取值的分布情况。

在统计学、物理学、工程学等领域都有广泛应用。

一、基本概念1. 随机变量随机变量是指在随机试验中可能出现的各种结果所对应的数量。

它可以是离散型随机变量或连续型随机变量。

2. 概率密度函数对于连续型随机变量,其取值范围是一个区间,其分布情况可以用概率密度函数来描述。

概率密度函数是一个非负可积函数,其积分值等于1。

3. 概率密度概率密度是指在某个取值点上的导数值,它表示了在该点附近单位长度内出现该随机变量取值的可能性大小。

4. 累积分布函数累积分布函数是指连续型随机变量小于等于某个取值时的概率。

它可以由概率密度函数通过积分得到。

二、公式推导1. 概率密度与累积分布函数的关系设X为一个连续型随机变量,其累积分布函数为F(x),概率密度函数为f(x)。

则有:F(x) = P(X ≤ x) = ∫f(t)dt其中,积分上限是x,下限是负无穷。

2. 概率密度的性质(1)非负性:概率密度函数f(x) ≥ 0。

(2)可积性:概率密度函数在定义域上可积,即∫f(x)dx存在且有限。

(3)归一性:概率密度函数的积分值等于1,即∫f(x)dx = 1。

3. 概率计算公式对于连续型随机变量X,其在区间[a, b]内取值的概率可以表示为:P(a ≤ X ≤ b) = ∫a^bf(x)dx三、应用场景1. 统计学中的应用在统计学中,概率密度函数常用于描述样本数据的分布情况,并通过参数估计推断总体数据的分布情况。

2. 物理学中的应用在物理学中,概率密度函数常用于描述粒子在空间中出现的分布情况,并通过波函数求解得到粒子运动规律。

3. 工程学中的应用在工程学中,概率密度函数常用于描述信号、噪声等随机变量的分布情况,并通过信号处理等技术进行分析和处理。

四、总结概率密度是描述连续型随机变量分布情况的重要工具,其可以通过累积分布函数推导得到。

在统计学、物理学、工程学等领域都有广泛应用,是理解这些领域中随机变量分布情况的基础。

概率密度函数

概率密度函数

3、设Ai “第 i只晶体管150h 失效” i 1, 2, 3, 4. 10
P Ai

PX
150

1 3
由于 A1 A2 A3 A4 相互独立, 则所求的概率为
P( A1 A2 A3 A4 ) 1 P(A1 A2 A3 A4 )
1 P( A1)P( A2 )P( A3)P( A4 ) 1 ( 2)4 65
x

x

pt d
t
求 Fx.
对 x < 0, Fx 0
对 0 x 1,
F(x) 2 x 1 dt 2 arcsin x
0 1t2

对 x 1, Fx 1
0
x0

F
(
x)

2

arcsin
x
0 x 1
1
x 1
18
例5 x, 0 x 1
p (x)
F ( x)
0x
x
12
连续性随机变量分布函数的性质
(1) Fx是连续的单增函数
0 Fx 1 x ,
F(x)= x p(t)dt px 0

F ( x)
p (x)
F ( x)
1
0x
x
0
x
13
(2)若 px在点x 处连续,则有 F(x) px
0 x1 x2 x
px lim Px X x x
x0
x
若不计高阶无穷小,有: Px X x x px x
这表示X落在小区间[x,x+Δx] 上的概率近似地等于pxx.
5
对 p(x) 的进一步理解:
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
返回本章首页
• 参数估计——包括监督参数估计和非监督参数估 计 • 监督参数估计——样本所属的类别及类条件总体 概率密度函数的形式为已知,而表征概率密度函 数的某些参数是未知的 • 非监督参数估计——已知总体概率密度函数的形 式但未知样本所属类别,要求推断出概率密度函 数的某些参数 • 参数估计的方法——最大似然估计和Bayes估计 • 非参数估计——已知样本所属类别,但未知总体 概率密度函数的形式,要求我们直接推断概率密 度函数本身 • 参数估计的方法——Parzen窗法和 k N 近邻法
k=1
N
(2-26)
p(X|θ)是θ的函数(将其称为相对于样本集X的θ的似然函数, 记为l(θ) ),即
l(θ) = p(X|θ) = ∏ p(xk|θ)
k=1
N
(2-27)
注:(1) l(θ)给出了从总体中抽出x1,…,xN这样N个样本的概率。
(2) 未知参数θ的最大似然估计θ’被定义为使l(θ)最大的θ值。
返回本章首页
R
N N N

ˆ H ) p ( H )dH R( ˆ ) p( H ) d p( H )dH ( ˆ ) p( H ) p( H )d dH (
Bayes估计的基本思想:所求得的 的估计值 ˆ应使估计损失 ˆ H) 的期望最小,这种使 R 或等价地使 R ( 取最小值的 的估 ˆ ,可得到不 计值 ˆ 称为 的Bayes估计。对于 不同的 ( ) 同的最佳Bayes估计。 这里假定损失函数为平方误差,即
ˆ ) ( ˆ)T ( ˆ) (
返回本章首页
R
N N

ˆ ) p( H ) p( H )d dH ( ˆ)T ( ˆ) p( H ) p( H )d d H (
N
ˆ)T ( ˆ) p( H )d ] p( H )d H [ (
L( ) p( x1 , x2 ,„, x N ) p( xk )
k 1 N
返回本章首页
极大似然估计的基本思想 如果在一次观察中一个事件出现了,那么我们就认为该 事件出现的可能性很大。事件 H x1 , x2 ,„,xN 在一 次观察中出现了,那么我们就可以认为达到了极大值。 使似然函数极大化的 ˆ 值就是 的极大似然估计。直观 ˆ 这个值是同实际观察到的样本最一致的参数 上看, 值。 用一个简单的例子来解释极大似然估计的基本思想。如 下图所示,一维样本服从正态分布 p( x ) N (, 2 ) ,并且 方差已知,要求通过抽取到的样本集 H x1 , x2 ,„,xN 用极大似然估计得到它的均值。
H(θ)极大的θ同样使l(θ)取极大值。
H(θ) = ln l(θ) = ln p(X|θ)
= ln p(x1,…,xN|θ)
(2-28)
设 是有 r个分量的列向量 (1 ,2 ,„,r )T 用 表示梯度算子 1 r
(3) 当X的N个样本确定后,似然函数l(θ)只是θ的函数。
(4) 但若换一组样本,l(θ)的形式也会发生改变。即使l(θ)的值
最大的θ’是样本x1,x2,…,xN的函数,记为θ’=d(x1,x2,…,xN)(其称 为θ的最大似然估计量)。
• l(θ)的对数形式ln l(θ)(记为H(θ),称其为对数似然函数),使
T ˆ ˆ ˆ) p( H )d R( H ) ( ) (

ˆ H) min R min R(
返回本章首页
ˆ H) min R(
ˆ H) R( ˆ

ˆ) p( H ) d 0 2 (


ˆ) p ( H ) d p ( H ) d ˆ p ( H )d (
ˆ H ) ( ˆ ) p( H ) d R ( H x1 , x2 ,„, x N R ( i x ) ( i , j ) P( j x )
j 1 c

i 1, 2,, c
ˆ H) R ( 考虑到 H 的各种取值,我们应求 在空间 中的 期望 , N E d E d E d 。
返回本章首页
假定某一类样本集
H x1 , x2 ,„,xN
N
由于样本是独立抽取的
p( H ) p( x1 , x2 ,„, x N ) p( xk )
k 1
似然函数的定义 N 个随机变量 x1 , x2 ,„,xN的似然函数是 N个随机变 量的联合密度,这个密度可以看成是 的函数。具体的 说,若 x1 , x2 ,„,xN 是独立地抽自密度 p( xk ) 总体 的样本,那么似然函数就是
, , c ——状态空间
,, a ——决策空间 (i , j ) i 1, 2,, a j 1, 2,, c——损失函数,表示 真实状态为 j 而所采取的决策为 i 时所带来的某种损 失。
返回本章首页
给定 x ,我们采取决策 i 情况下的条件期望损失:
R(i x) (i , j ) P( j x)
j 1
c
i 1,2,, c
x 是特征空间 E d中取任意值的随机变量,条件风险的期 望
R R(i x ) p( x )d x (i , j ) P( j x ) p( x )d x
Ed E d j 1
c
(i , j ) P( x, j )d x
R 表示采取决策 k 总的平均损失。 R称为Bayes风险, 使R 最小的决策 k 称为Bayes决策。
返回本章首页
c
E d j 1
Bayes决策 确定 x 的真实状态 (模式类) i Bayes估计 根据一个样本集 H x1 , x2 ,„,x,找出估 N 计量 ˆ ,估计 H 所属总体分布的某个真实参数 使带来 的Bayes风险最小
(3) 总体的子样:一个模式类中某些模式(总体中的一些元素) 的集合称之这个总体的子样。 (4) 统计量:由样本构造的函数d(xi,…,xn ),即针对不同要求构造 出样本的某种函数。
(5) 经验分布:由样本推断的分布。
(6) 估计:由样本按某种规则构造的一个统计量
θ’=θ(x1,x2,…,xn),用θ’的值作为被估参数集θ的近似值。
H ( ) 为对数似然函数
N
H ( ) ln p( x1 , x2 ,„,x N ) ln p( xk ) ln p( xk ) ˆ H ( ) ln p( xk ) 0
k 1 k 1 k 1
N
N
返回本章首页
在N个样本独立抽取时,且设参数向量 {1 ,... s }
(7) 点估计:构造一个统计量d(x1,…,xn )作为参数θ的估计θ’。
(8) 估计量:在统计学中称θ’为θ的估计量。
(9) 估计值:将类别wi中的几个样本观察值x1i,…,xni代入统计量d 中所求得的第i类的具体数值θ’。 (10) 区间估计:在一区间内对θ进行估计,此区间称为置信区间。 (11) 参数空间:在概率密度形式已知,而未知的是其所含(几个) 参数时,则未知参数(记为θ)的取值范围(即集合)称为参数空间。
返回本章首页
p( H )

x1 C x2
x3
A
x4 x5 B x6
返回本章首页
最大似然估计的求解
• 设已得到属于同一类的N个样本,即
X = {x1,…,xN}
它们具有概率密度p(xk|θ) (k=1,…,N),且样本是独立抽取的, 则 p(X|θ) = p(x1,…,xN|θ) = ∏ p(xk|θ)
3.1 最大似然估计
这里我们首先作如下 的合理假设: 1)估计的参数 是确定(非随机)而未知的量; 2)样本集按类别分开,假定有 c 类,则可分成 c个样本 集H1 , H 2 ,, H c ,其中 H j中的样本都是从概率密度为 的 p( x j ) 总体中独立的抽取出来的; 3)类条件概率密度函数 p( x j )具有某种确定的函数形 式。为表示 p( x j ) 同 j有关 ,记为 p( x j , j。 ) 4)假定 H i 中的样本不包含关于 j的任何信息,也就是 说不同类别的参数在函数上是独立的,即 H i 中的样本只 对 i 提供有关的信息,这样就可对每类进行独立处理。

p ( H )d ˆ

p(

H )d 1
ˆ) p( H )d 0 ˆ p( H )d E[ H ] 2 (

返回本章首页
由于 R 是关于 ˆ 的二次函数, ˆ 确使 R (ˆ H ) 或 R 最 小。上式表明, 的最小方差Bayes估计是在观测 条 件下的 的条件期望。在许多情况下,最小方差Bayes 估计是最理想的Bayes最优估计器。 对平方误差损失函数情况求解Bayes估计量的步骤如下: (1)确定 的先验分布 p( ); (2)由样本集 H x1 , x2 ,„,xN 求出样本联合分布 p( H ) (3)求 的后验分布 p( H ) p( ) p( H ) p(H ) p( )d
计。 ② 有时上述方程组无解,如无极值点。则,根据实际情况求 最大值点。
返回本章首页
返回本章首页
返回本章首页
返回本章首页
3.2 Bayes估计和Bayes学习
1 Bayes估计 这里我们先回顾一下前面讲述的最小风险Bayes决策。 x ——观察或测量到的 d 维模式特征向量;
1 , 2 1 , 2
H ( ) ln p( xk | ) ln p( xk | )
k 1 k 1
N
N
在该式对θ的偏导等于零的解,就是θ’。
相关文档
最新文档