最小方差性的证明 - 360文档中心

数理统计8：点估计的有效性、一致最小方差无偏估计（UMVUE）、零无偏估计法

数理统计8：点估计的有效性、⼀致最⼩⽅差⽆偏估计（UMVUE）、零⽆偏估计法在之前的学习中，主要基于充分统计量给出点估计，并且注重于点估计的⽆偏性与相合性。

然⽽，仅有这两个性质是不⾜的，⽆偏性只能保证统计量的均值与待估参数⼀致，却⽆法控制统计量可能偏离待估参数的程度；相合性只能在⼤样本下保证统计量到均值的收敛性，但却对⼩样本情形束⼿⽆策。

今天我们将注重于统计量的有效性，即⽆偏统计量的抽样分布的⽅差。

由于本系列为我独⾃完成的，缺少审阅，如果有任何错误，欢迎在评论区中指出，谢谢！⽬录Part 1：⼀致最⼩⽅差⽆偏估计⾸先考虑这样的问题：如何刻画⼀个统计量的有效程度？注意到，⼀个统计量的取值既可能⾼于待估参数，亦可能低于待估参数，要综合考虑统计量对待估参数误差，需要⽤平⽅均衡这种双向偏差，因此，提出均⽅误差的概念：若\hat g(\boldsymbol{X})是g(\theta)的估计量，则\hat g(\boldsymbol{X})的均⽅误差定义为\mathrm{MSE}(\hat g(\boldsymbol{X}))= \mathbb{E}[\hat g(\boldsymbol{X})-g(\theta)]^2.对于确定的统计量\hat g(\boldsymbol{X})⽽⾔，\mathrm{MSE}(\hat g(\boldsymbol{X}))是\theta的函数。

显然，⼀个统计量的均⽅误差越⼩，它就越在待估参数真值附近环绕，由此，⽤统计量的⼀次观测值作为待估参数的估计就有着越⼤的把握。

如果对于g(\theta)的两个估计量\hat g_1(\boldsymbol{X})和\hat g_2(\boldsymbol{X})，恒有\mathrm{MSE}(\hat g_1(\boldsymbol{X}))\le \mathrm{MSE}(\hatg_2(\boldsymbol{X}))，且严格不等号⾄少在某个\theta处成⽴，就称\hat g_1(\boldsymbol{X})在均⽅误差准则下优于\hat g_2(\boldsymbol{X})。

离散型随机变量的期望与方差的相关公式的证明

离散型随机变量的期望与方差的相关公式的证明凭祥高中谢松兴地址：凭祥市新华路95号邮编：532600关键词：二项分布几何分布期望方差公式证明摘要：本文主要介绍离散型随机变量的期望和方差的定义，着重用多种方法介绍高中数学课本中没有具体给出的二项分布、几何分布的期望和方差相关公式的证明推导过程，并能指导读者通过相关公式的应用解决一些高考题目和解决一些实际问题．前言人教版高中数学第三册（选修II ）中离散型随机变量的期望与方差的相关公式的给出比较直接突然，很多学生想知道其中的具体原因。

作为高考已经不要求推导公式，本着为学生答疑解惑的原则，本文作者结合大学和高中相关知识，给出以下证明方法，以便学有余力的学生自由阅读。

-、数学期望的来由早在17世纪，有一个赌徒向法国著名数学家帕斯卡挑战，给他出了一道题目，题目是这样的：甲乙两个人赌博，他们两人获胜的机率相等，比赛规则是先胜三局者为赢家，赢家可以获得100法郎的奖励。

当比赛进行到第三局的时候，甲胜了两局，乙胜了一局，这时由于某些原因中止了比赛，那么如何分配这100法郎才比较公平？用概率论的知识，不难得知，甲获胜的概率为1/2+(1/2)*(1/2)=3/4，或者分析乙获胜的概率为(1/2)*(1/2)＝1/4。

因此由此引出了甲的期望所得值为100*3/4=75法郎，乙的期望所得值为25法郎。

这个故事里出现了“期望”这个词，数学期望由此而来。

定义1 若离散型随机变量ξ可能取值为i a （i =1，2，3 ，…），其分布列为i p （i =1，2，3， …），则当i i i p a ∑∞=1<∞时，则称ξ存在数学期望，并且数学期望为E ξ=∑∞=1i i i p a ，如果i i i p a ∑∞=1=∞，则数学期望不存在。

[]1定义2 期望：若离散型随机变量ξ，当ξ=x i 的概率为P （ξ=x i ）=P i （i =1，2，…，n ，…），则称E ξ=∑x i p i 为ξ的数学期望，反映了ξ的平均值.期望是算术平均值概念的推广，是概率意义下的平均.E ξ由ξ的分布列唯一确定.二、数学期望的性质（1）设C 是常数，则E(C )=C 。

最小方差无偏估计

xi 2
−
5s
2
,
ϕ

=0
，所以
1 n
n i =1
xi 2
− 5s2
是
µ 2 − 4σ 2 的ቤተ መጻሕፍቲ ባይዱ小方差无偏估计。
7.
设总体的概率函数为
p(x;θ
)
，满足定义
6.3.1
的条件，若二阶导数
∂2 ∂θ 2
p(x;θ ) 对一
切的θ ∈ Θ 存在，证明费歇信息量
I (θ ) = −E( ∂2 ln p(x;θ )) ∂θ 2
2.3 节最小方差无偏估计内容概要
1、一致最小方差无偏估计
设θˆ 是θ 的一个无偏估计，如果对另外任意一个θ 的无偏估计θ~ ，在参数空间 Θ = {θ}
上都有
Varθ (θˆ) ≤ Varθ (θ~)
则称θˆ 是θ 的一致最小方差无偏估计，简记为 UMVUE。
2、判断准则
设 θˆ = θ (x1, , xn ) 是 θ 的一个无偏估计， Var(θˆ) < ∞ 。如果对任意一个满足
分为 0 的项，有
∫ ∫ ∑ ( ) ∑ ∞ −∞
ϕ x ⋅ ∞ n 2
−∞ i=1 i
2πσ 2
−n 2
exp
−
1 2σ
2
n i=1
xi2
+
nx σ2
µ
−
nµ 2 2σ 2

dx1
dxn = 0
∑ ( ) n
这表明 E(ϕ ⋅ xi2 ) = 0 ，由此可得到 E s2ϕ = 0 ，因而
注意到 g = E(gˆ | T ) ，这说明

方差的性质

9
一般地，一般地，
若 i ~ N(µi ,σi2 ), i =1 2,L , 且互立则 X , n 相独，
C1X1 +C2 X2 +L+Cn Xn +C ~ N∑Ciµi +C, i=1
n
∑C σ . i=1
n 2 2 i i
这， 1,C2,L Cn是全 0 常。里 C , 不为的数
i=1 i =1 i =1 j≠i n n n n
2
性质4: 若随机变量性质若随机变量X1, X2, …, Xn相互独立，相互独立，则
Var( X1 + L+ X n ) = Var( X1 ) + L+ Var( X n )
n＝2时由于＝时由于 Var(X±Y)= Var(X) +Var(Y) ±2E(X-EX)(Y-EY) ± 独立，若X, Y 独立，则 Var(X±Y)= Var(X) +Var(Y) ±
23
例9. 设 ( X ,Y ) ~ N ( µ1, σ12,µ2,σ22,ρ), 求 ρXY 解: cov( X,Y) = ∫−∞ ∫−∞(x − µ1)( y − µ2) f (x, y)dxdy
x−µ1 令 =s
+∞ +∞
σ1 y−µ2 =t σ2
+∞ +∞ σ1σ2 = ∫−∞ ∫−∞ ste 2π 1− ρ2
E | X | = ∫ | x | f (x)dx≥ ∫ | x | f (x)dx+ ∫ | x |α f (x)dx
−∞ −ε −∞
α
α
α
ε
≥ ∫ ε f (x)dx+ ∫ ε f (x)dx

计量经济学讲义第二讲(共十讲)

第二讲普通最小二乘估计量一、基本概念：估计量与估计值对总体参数的一种估计法则就是估计量。

例如，为了估计总体均值为u ，我们可以抽取一个容量为N 的样本，令Y i 为第i 次观测值，则u 的一个很自然的估计量就是ˆiY uY N==∑。

A 、B 两同学都利用了这种估计方法，但手中所掌握的样本分别是12(,,...,)A A AN y y y 与12(,,...,)B B B N y y y 。

A 、B 两同学分别计算出估计值ˆAiA y uN=∑与ˆBiB y uN=∑。

因此，在上例中，估计量ˆu是随机的，而ˆˆ,A B u u 是该随机变量可能的取值。

估计量所服从的分布称为抽样分布。

如果真实模型是：01y x ββε=++，其中01,ββ是待估计的参数，而相应的OLS 估计量就是：1012()ˆˆˆ;()iiix x yy x x x βββ-==--∑∑ 我们现在的任务就是，基于一些重要的假定，来考察上述OLS 估计量所具有的一些性质。

二、高斯-马尔科夫假定●假定一：真实模型是：01y x ββε=++。

有三种情况属于对该假定的违背：（1）遗漏了相关的解释变量或者增加了无关的解释变量；（2）y 与x 间的关系是非线性的；（3）01,ββ并不是常数。

●假定二：在重复抽样中，12(,,...,)N x x x 被预先固定下来，即12(,,...,)N x x x 是非随机的（进一步的阐释见附录），显然，如果解释变量含有随机的测量误差，那么该假定被违背。

还存其他的违背该假定的情况。

笔记：12(,,...,)N x x x 是随机的情况更一般化，此时，高斯-马尔科夫假定二被更改为：对任意,i j ,i x 与j ε不相关，此即所谓的解释变量具有严格外生性。

显然，当12(,,...,)N x x x 非随机时，i x 与j ε必定不相关，这是因为j ε是随机的。

●假定三：误差项期望值为0，即()0,1,2i E i N ε==。

第三节最小二乘估计量的性质

第三节最小二乘估计量的性质三大性质：线性特性、无偏性和最小偏差性一、线性特性的含义线性特性是指参数估计值1ˆβ和2ˆβ分别是观测值t Y 或者是扰动项t μ的线性组合，或者叫线性函数，也可以称之为可以用t Y 或者是t μ来表示。

1、2ˆβ的线性特征证明（1）由2ˆβ的计算公式可得： 222222()ˆt tttt ttttttt tt tt x y x Y x Y xxx xx x x x β--===⎛⎫== ⎪ ⎪⎝⎭∑∑∑∑∑∑∑∑∑∑∑Y Y Y Y需要指出的是，这里用到了因为t x 不全为零，可设2tt tx b x =∑，从而，t b 不全为零，故2ˆt t b β=∑Y 。

这说明2ˆβ是t Y 的线性组合。

（2）因为12t t t Y X ββμ=++，所以有()212122ˆt t t t t t t t t t t tb b X b b X b b βββμββμβμ==++=++=+∑∑∑∑∑∑Y这说明2ˆβ是t μ的线性组合。

需要指出的是，这里用到了220t t t t t x x b x x ===∑∑∑∑∑以及 ()2222222201t t tt t t tt ttttttttx x X x b X X x x x x X x X x x x x x⎛⎫+⎪== ⎪⎝⎭++==+=∑∑∑∑∑∑∑∑∑∑∑∑∑2、1ˆβ的线性特征证明（1）因为12ˆˆY X ββ=-，所以有 ()121ˆˆ1t t t t tY X Y X b nXb n ββ=-=-⎛⎫=- ⎪⎝⎭∑∑∑Y Y这里，令1a Xb n=-，则有1ˆt a β=∑Y 这说明1ˆβ是t Y 的线性组合。

（2）因为回归模型为12t t t Y X ββμ=++，所以()11212ˆt t t t t t t t t ta a X a a X a βββμββμ==++=++∑∑∑∑∑Y因为111t t t a Xb X b nn⎛⎫=-=-=⎪⎝⎭∑∑∑∑。

计量经济学复习笔记（二）：一元线性回归（下）

计量经济学复习笔记（⼆）：⼀元线性回归（下）回顾上⽂，我们通过OLS推导出了⼀元线性回归的两个参数估计，得到了以下重要结论：ˆβ1=∑x i y i∑x2i,ˆβ0=¯Y−ˆβ1¯X.注意总体回归模型是Y=β0+β1X+µ，同时我们还假定了µ∼N(0,σ2)，这使得整个模型都具有正态性。

这种正态性意味着许多，我们能⽤数理统计的知识得到点估计的优良性质，完成区间估计、假设检验等，本⽂就来详细讨论上述内容。

1、BLUE我们选择OLS估计量作为⼀元线性回归的参数估计量，最主要的原因就是它是最⼩⽅差线性⽆偏估计(Best Linear Unbiased Estimator)，这意味着它们是：线性的。

⽆偏的。

最⼩⽅差的。

不过，光给你这三个词，你可能会对定义有所困扰——⽐如，关于什么线性？⼜关于什么是⽆偏的？我们接下来就对OLS估计量的BLUE性详细讨论，包括简单证明。

原本我认为，证明在后⾯再给出会更合适，引⼊也更顺畅，但是我们接下来要讨论的许多，都有赖于OLS估计量的BLUE性，因此我还是决定将这部分内容放在这⾥。

⾸先是线性性，它指的是关于观测值Y i线性，这有什么意义呢？注意到，在之前的讨论中，我们总讨论在给定X的取值状况下的其他信息，如µ的条件期望、⽅差协⽅差等，因此我们往往会在这部分的讨论中将X视为常数（⽽不是随机变量）看待，这会带来⼀些好处。

⽽因为µ∼N(0,σ2)且µi是从µ中抽取的简单随机样本，且µi与X i⽆关，所以由正态分布的性质，有Y i|X i∼N(β0+β1X i,σ2).实际上，由于参数真值β1,β1是常数，所以每⼀个Y i在给定了X i的⽔平下，都独⽴地由µi完全决定，⽽µi序列不相关（在正态分布的情况下独⽴），所以Y i之间也相互独⽴。

这样，如果有⼀个统计量是Y i的线性组合，那么由正态分布的可加性，这个统计量就⾃然服从正态分布，从⽽我们可以很⽅便地对其进⾏参数估计、假设检验等。

最小方差控制

这时采用最小二乘法等即可得到i和i 的无偏估计。
• 为了保证预报模型在闭环下的参数可辨识性的要求,可以设
定多项式(q-1)的首项系数0为一合理的估计值^0,则可列
写出如下自回归方程
y(k+d)-^0u(k)=T(k)+(k+d)
(28)
其中
θ [0 ... n-1 β1 ... βnd 1]
(k) [ y(k) ... y(k - n 1) u(k -1) ... u(k - n d 1)]
g0 3.2, g1 0.2
则由式(17)可得最小方差控制：
u(k)
-
G (q 1 ) B(q1)F (q1)
y(k)
-
3.2 0.2q1 1 0.5q1
y(k)
而：var[ y(k)] 2
• 其次考虑时滞d=2的情况，这时设G(q-1)与前面一致。而 • 设F(q-1)=1+f1q-1 • 则通过比较系数可得f1=3.2,g0=5.64,g1=-2.24.
yˆ (k
d
k)
B(q1)F (q1) C (q 1 )
u(k)
G (q 1 ) C (q 1 )
y(k)
(12)
最小方差预测估计的误差 ~y(k d k) y(k d) - yˆ(k d k)的方差为
var{~y(k
d
k )}
E{[F (q 1 )e(k
d)]2} (1
f1，式(10)可写为
J E{[F (q1)e(k d )]2}
与 yˆ(k d k) 的选择无关
E{[ yˆ (k
d
k)
B(q1)F (q1) C (q 1 )
u(k)
G (q 1 ) C (q 1 )

4-一致最小方差无偏估计解析

p( x; ), X 1 , X 2 , , X n 定理2 设总体概率密度函数是证明：设X 和Y 的联合密度为 p( x, y) 设X和YT 都是连续是其样本， T ( X 1 ,r.v X 2., ,X ) 是的充分统计量， n 给定 y下X的条件密度 h( x(|X y ) , X , , X ) , 令 ˆ ˆ 则对 Y 的任一无偏估计 1 2 n ~ ~ p( x , y ) ˆ xh ( x | y )dx x dx ( y ) E ( |T 则的无偏估计，且 E( X ), |Y y也是 ) pY ( y ) ~ ˆ Var( ) Var( )
相合估计量仅在样本容量 n 足够大时,才显示其优越性.
n
n
ˆ 注：大量实践证明，随着n的增加，估计量与的偏差应愈来愈小，这是好的估计量应具有的性质。若不然，不论我们收集多少资料，也无法把估计的足够精确，这样的估计量是不可取的。所以相合性被认为是对估计的一个最基本要求。

由此即有 ˆ θ| ε ) P (|θ ˆ Eθ ˆ | ε / 2) P (|θ n n n 4 ˆ ) 0 (n ). 2 Var( n ε
1 x e 例4 X ~ f ( x ; ) 0
x 0, x0
0 为常数
矩法得到的估计量一般为相合估计量
§6.3 最小方差无偏估计
引例设总体 X 的密度函数为
1 e f ( x; ) 0
2
n
，

x

x 0, x0
0 为常数
X与n min{ X 1 , X 2 , , X n }都是的无偏估计，

5-一致最小方差无偏估计

1 p( x; θ ) p( x; θ ) 1 2 p( x; θ ) 2 p( x; θ )dx 2 θ p( x; θ ) p ( x; θ ) θ

2 p( x; θ ) 1 p( x; θ ) p( x; θ )dx dx 2 θ θ p( x; θ )
2
2 p( x; θ ) ln p( x; θ ) dx p( x; θ )dx 2 θ
2
ln p( X ; ) E I ( )
2
2ln p( X ; ) I ( ) E 2
ln p 2 (3) ,0 I ( ) ( ) p( x; )dx

若X 1，，X n 是取自总体的样本，则存在未知参数 ˆ ˆ 的最大似然估计ˆ θ ( X ，，X ), 且θ 具有相合性 θ
n n 1 n n
对任意一个满足 ( ( X )) 0的 ( X )，都有 E ˆ Cov ( , ) 0, ,

定理给出了一致最小方差无偏估计的充要条件 .
无偏估计的最小方差到底能小到什么程度呢？下面将介绍著名的 ramer Rao不等式. C
0 p( x; )dx p( x; )dx 2 (5)期望E[ ln p( X ; )] 存在，则称 2 I( ) E[ ln p( X ; )] 为总体分布的费希尔 (Fisher) 信息量. 称该分布族为 R正则分布族， - (5)称为正则条件 C (1) .
p( x; ) (5) 若亦存在，且进一步有 2 2 p( x; ) dx 2 p( x; )dx 0