第七章参数估计

合集下载

第七章参数估计

第七章参数估计对给定的统计问题，在建立了统计模型以后，我们的任务就是依据样本对未知总体进行各种推断，参数估计是统计推断的重要内容之一。

本章主要介绍进行参数估计的方法及其评价等。

7.1 点估计方法参数估计，就是要从样本出发去构造一个统计量作为总体中某未知参数的一个估计量。

若总体X的分布函数的形式为已知，但它的一个或多个参数未知，则由总体X的一个样本去估计总体未知参数的值的问题就是参数的点估计问题。

例如，某钢筋厂日生产某种型号钢筋10000根，为了要得知这批钢筋的强度，质量检察员从中抽取50跟进行检查。

如何从抽查的50根钢筋强度的数据去估计整批钢筋强度的平均值？这就是参数估计要解决的问题。

在实际问题中，我们常常以统计量作为总体X的期望值的估计量。

设总体X的分布函数为F (x，θ )，其中θ 为未知参数。

X1，X2， (X)为总体X的一个样本。

点估计的问题就是由样本构造一个统计量作为未知参数θ 的一个估计量。

若x1，x2，…，xn是样本观察值，则代入估计量中即可以得到一个关于参数θ 的估计值。

在不致混淆的情况下，我们把估计量或估计值简称为估计。

构造估计的方法很多，下面介绍三中常用的方法。

7.1.1 频率替换法假定在n次实验中，事件A发生了n A次，(n A / n)为A发生的频率，设P (A ) = p (0< p<1)，则由概率论的大数定律：频率(n A / n)依概率收敛于事件A 发生的概率p，即对任意ε >0，成立，于是，当n较大时，(n A / n)与p非常接近，自然地取(n A / n)作为p的估计，.这种由频率估计相应的概率而得到的估计量的方法称为频率替换法。

例1 估计一批产品的次品率p。

设产品只区分正品与次品，分别以X取0和1表示产品为正品和次品，所以总体X服从参数为p的(0-1)分布，即p为未知的待估参数。

令事件A表示“产品为次品”，则p = P (A) = P (X=1)。

7 参数估计

3个抽样实验结果图示
均数
均数
5. 15 5. 36 5. 57 5. 77 5. 98 6. 19
频数 100 150 200 250 300 350 400 450 50 0
n = 30; SX = 0.0920
均数
3. 71 3. 92 4. 12 4. 33 4. 54 4. 74 4. 95 5. 15 5. 36 5. 57 5. 77 5. 98 6. 19
t= X −µ X −µ = SX S/ n t变换
σX
N(0,1) 0 t(ν) (
X
0
t 分布与正态分布的比较
t 分布：形状与分布：形状与N(0,1)相似，相似，相似分布中间较小，但t分布中间较小，两侧较大。分布中间较小两侧较大。
随着v增大，分布逼近随着增大，t分布逼近增大分布逼近N(0,1)；； v ∞时，t分布演变成时分布演变成分布演变成N(0,1)。。
参数估计
parameter estimation
统计学
统计描述
统计推断
参数估计
假设检验
总体、总体、个体和样本
总体(population)：调查研究的事物或现象的全体个体(item unit)：组成总体的每个元素样本(sample)：从总体中所抽取的部分个体样本容量(sample size)：样本中所含个体的数量
总体参数
µ、σ、π
可信区间(confidence interval, CI) 可信区间
可信区间
均数
率
方差
σ2 未知
σ2 已知
总体均数的估计
点估计：点估计：point estimation 区间估计：区间估计：interval estimation 样本统计量点估计) (点估计)

概率论与数理统计第7章

x 0 , x 0 ,x 1 ,x 2 ,
,x n 为总体 X
的一个样本 ,则未知参数的矩估计 ˆ _ _ _ _ _ _ _ _ _ _ _ .
这个例子所作的推断已经体现了极大似然法的基本思想 .
最大似然估计原理：
设X1,X2,…Xn是取自总体X的一个样本，样本的联合密度(连续型）或联合分布律 (离散型)为
f (x1,x2,… ,xn ; ) .
当给定样本X1,X2,…Xn时，定义似然函数为：
L() f (x1, x2 ,…, xn; )
得
pˆ1Βιβλιοθήκη nn i 1xix
即为 p 的最大似然估计值 .
从而 p 的最大似然估计量为
p ˆ(X1,
1n ,Xn)ni1Xi X
求最大似然估计(MLE)的一般步骤是：
(1) 由总体分布导出样本的联合分布率(或联合密度);
(2) 把样本联合分布率 ( 或联合密度 ) 中自变
量看成已知常数,而把参数看作自变量,得到似然函数L();
要求：领会
2.2 估计量的有效性、相合性，要求：领会
3.区间估计
3.1 置信区间的概念，
要求：领会
3.2 求单个正态总体均值和方差的置信区间，要求：简单应用
参数估计
现在我们来介绍一类重要的统计推断问题
参数估计问题是利用从总体抽样得到的信息来估计总体的某些参数或者参数的某些函数.
估计新生儿的体重
1 p
n
pxi (1p)1xi
i1
n
n
xi
n xi
pi1 (1p) i1
n
n
xi
n xi
L(p)pi1 (1p) i1

概率论与数理统计第7章参数估计PPT课件

5
a1(1, ,k )=v1
1 f1(v1, ,vk )
假定方程组a2(1, ,k ) v2 ,则可求出2 f2(v1, ,vk )
ak (1, ,k ) vk
k fk (v1, ,vk )
则x1 xn为X的样本值时，可用样本值的j阶原点矩Aj估计vj，其中
Aj
1 n
n i1
xij ( j
L(x1, ,xn;ˆ)maxL(x1, ,xn;)，则称ˆ(x1, ,xn)为
的一种参数估计方法 .
它首先是由德国数学家
高斯在1821年提出的 ,然而，这个方法常归功于英国统
Gauss
计学家费歇（Fisher） . 费歇在1922年重新发现了
这一方法，并首先研究了这
种方法的一些性质 .
Fisher
10
极大似然估计是在已知总体分布形式的情形下的点估计。
极大似然估计的基本思路：根据样本的具体情况
注：估计量为样本的函数，样本不同，估计量不同。
常用估计量构造法：矩估计法、极大似然估计法。
4
7.1.1 矩估计法
矩估计法是通过参数与总体矩的关系，解出参数，并用样本矩替代总体矩而得到的参数估计方法。（由大数定理可知样本矩依概率收敛于总体矩，且许多分布所含参数都是矩的函数）
下面我们考虑总体为连续型随机变量的情况：
n
它是的函数，记为L(x1, , xn; ) f (xi , ), i 1
并称其为似然函数，记为L( )。
注：似然函数的概念并不仅限于连续随机变量，
对于离散型随机变量，用 P {Xx}p(x,)
替代f ( x, )
即可。
14
设总体X的分布形式已知，且只含一个未知参数，

第七章参数估计

第三节总体均数估计
估计总体平均数的步骤：估计总体平均数的步骤： X与S 1、计算样本 2、计算 σ X 3、确定置信水平或显著性水平并查表 4、计算置信区间 5、解释总体平均数的置信区间
一、正态估计法， σ２已知、
1、前题条件：、前题条件：
总体正态, n不论大小总体正态, n不论大小
点估计与区间估计的比较
定义: 定义
直接以样本统计量（数轴上的一个点）点估计 :直接以样本统计量（数轴上的一个点）作为总体参数的估计值
区间估计：按一定概率要求，区间估计：按一定概率要求，根据样本统计量估计总体参数可能落入的范围的一种统计方法。计总体参数可能落入的范围的一种统计方法。也就是说整体参数所落的有把握的范围整体参数所落的有把握的范围。就是说整体参数所落的有把握的范围。
D=0.95时时
75.7 ≤ µ ≤ 81.3
5、解释：用样本1估计，总体的平均数落在、解释：用样本1估计， 73.6-82.4之间的可能性为95%，之间的可能性为95% 73.6-82.4之间的可能性为95%，超出这一范围的可能性为5% 5%。围的可能性为5%。用样本2估计，总体的平均数落在76.7 80.3之 76.7用样本2估计，总体的平均数落在76.7-80.3之间的可能性为95% 落在75.7 81.3的可能性为 95%， 75.7间的可能性为95%，落在75.7-81.3的可能性为 99%。 99%
X ± 2.58σ X
置信限：就是总体参数所落区间的上下界限。置信限：就是总体参数所落区间的上下界限。即
X − 1.96σ X ≤ µ ≤ X + 1.96σ X
置信下限置信上限
标准误
标准误（中心极限定理）标准误（中心极限定理3）

概率论第七章参数估计

L( ) max L( )
称^为
的极大似然估计（MLE）.
求极大似然估计(MLE)的一般步骤是：
(1) 由总体分布导出样本的联合概率分布 (或联合密度);
(2) 把样本联合概率分布(或联合密度)中自变量看成已知常数,而把参数看作自变量, 得到似然函数L( );
(3) 求似然函数L( ) 的最大值点(常常转化为求ln L( )的最大值点) ，即的MLE;
1. 将待估参数表示为总体矩的连续函数 2. 用样本矩替代总体矩，从而得到待估参
数的估计量。
四. 最大似然估计（极大似然法）
在总体分布类型已知条件下使用的一种参数估计方法 .
首先由德国数学家高斯在1821年提出。英国统计学家费歇1922年重新发现此
方法，并首先研究了此方法的一些性质 .
例：某位同学与一位猎人一起外出打猎.一只野兔从前方窜过 . 一声枪响，野兔应声倒下 .
p值 P(Y=0) P(Y=1) P( Y=2) P(Y=3) 0.7 0.027 0.189 0.441 0.343 0.3 0.343 0.441 0.189 0.027
应如何估计p?
若：只知0<p<1, 实测记录是 Y=k
(0 ≤ k≤ n), 如何估计p 呢?
注意到
P(Y k) Cnk pk (1 p)nk = f (p)
第七章参数估计
参数估计是利用从总体抽样得到的信息估计总体的某些参数或参数的某些函数.
仅估计一个或几个参数.
估计新生儿的体重
估计废品率
估计降雨量
估计湖中鱼数
…
…
参数估计问题的一般提法:
设总体的分布函数为 F(x, )，其中为未知参数 (可以是向量).从该总体抽样，得样本

第七章参数估计

第七章参数估计
1、正态总体、方差已知或非正态总体，大样本当总体服从正态分布且方差已知时，或者总体不是正态分布但是大样本时，样本均值的抽样分布均为正态分布，其数学期望为总体均值u，方差为Ϭ2/n。而样本均值经过标准化以后的随机变量则服从标准正态分布，即 Z=(x-u)/(Ϭ/n0.5)~N(0,1) 根据上式和正态分布的性质可以得出总体均值u在1-α置信水平下的置信区间为： xα+是(-)事Z(α先/2)所(Ϭ确/n定0.5的)。而其一中个，概x率+Z值(α/2，) (Ϭ也/n称0.为5)为风置险信值上，限是，总x体-Z均(α/2值) (Ϭ不/包n0.含5)为在置置信信下区限间，的概是率估；计1总- 体α称均为值置时信的水估平计，误Z差(α/。2) 是标准正态分布右侧面积为α/2的z值；Z(α/2) (Ϭ/n0.5) 也即是说，总体均值的置信区间由两个部分构成：点估计值和描述估计量精度的 +(-)值，这个+(-)值称为估计误差。
第七章参数估计
在区间估计中，由样本统计量所构造的总体参数的估计区间称为置信区间。
其中，区间的最小值称为置信下限，最大值称为置信上限。
由于统计学家在某种程度上确信这个区间会包含真正的总体参数，所以给它取名为置信区间。原因是：如果抽取了许多不同的样本，比如说抽取100个样本，根据每一个样本构造了一个置信区间，这样，由100个样本构造的总体参数的100个置信区间中，有95%的区间包含了总体参数的真值，而5%则没有包含，则95%这个值称为置信水平。一般，如果将构造置信区间的步骤重复多次，置信区间中包含总体参数真值的次数所占的比例称为置信水平，也称为置信度或置信系数。
自然使用估计效果最好的那种估计量。什么样的估计量才算一个好的估计量呢？统计学家给出了评价估计量的一些标准，主要包括以下几个：

概率论与数理统计-参数估计

第七章参数估计
例：
引言
设总体 X 是服从参数为的指数分布，其中参数
未知，
0 ．X1 ,,
X
是总体
n
X
的一个样本，
我们的任务是根据样本，来估计的取值，从
而估计总体的分布．
这是一个参数估计问题．
第七章参数估计
§1 点估计 §2 估计量的评选标准 §3 区间估计
第七章参数估计 §1 点估计
2
令
A1
A2
, (
2
1)
.
第七章参数估计
例6(续）
解此方程组，得
§1 点估计
ˆ
A1 2 A2 A12
,
ˆ
A2
A1 A12
.
ˆ X 2 ,
即
B2
ˆ X .
B2
其中 B2
1 n
n i 1
Xi X
2 为样本的二阶中心矩．
第七章参数估计（第二十二讲）三、极大似然法
§1 点估计
1
第七章参数估计
例6(续）
EX 2 x 2 f
x dx x 2
x 1e x dx
0
§1 点估计
2 2 x ( e 2)1 x dx
2 0 2
2 2
1 2
1
2
因此有
EX
,
EX
2
1 .
⑵ 在不引起混淆的情况下，我们统称估计量
与估计值为未知参数的估计．
第七章参数估计
二、矩估计法
§1 点估计
设X为连续型随机变量，其概率密度为
f ( x;1 ,, k ), X为离散型随机变量，其分布列为

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第四节样本容量的确定
• 影响样本容量的因素 • （一）总体的变异程度(总体方差)。在其它条件相同的情况下，有较大方差的总体，样本的容量应该大一些，反之则应该小一些。 • （二）允许误差的大小。允许误差指允许的抽样误差， ˆ 记为。所以，在其他条件不变的情况下，如果误差小，那么样本容量就要大一些；反之，则样本容量可以小一些。 • （三）概率保证度1－α的大小。概率保证度说明了估计的可靠程度。所以，在其他条件不变的情况下，如果要求较高的可靠度，就要增大样本容量；反之，可以相应减少样本容量。
第七章参数估计
• 第一节点估计 • 第二节区间估计
点估计
• 点估计也称定值估计，它是以抽样得到的样本指标作为总体指标的估计量，并以样本指标的实际值直接作为总体未知参数的估计值的一种推断方法。
• 点估计的方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等。这里仅介绍最为简单、直观又常用的矩估计法和最大似然估计法。
练习
• • • • • 某企业对某批电子元件进行检验，随机抽取100只，测得平均耐用时间为1000小时，标准差为50小时，合格率为94%，求：（1）以耐用时间的允许误差范围Δx＝10小时，估计该批产品平均耐用时间的区间及其概率保证程度。（2）以合格率估计的误差范围不超过2.45%，估计该批产品合格率的区间及其概率保证程度。（3）试以95%的概率保证程度，对该批产品的平均耐用时间做出区间估计。（4）试以95%的概率保证程度，对该批产品的合格率做出区间估计。
• • • •
讲解例题 111页例7.8 112页例7.9 练习：133页第7题
• 一、两个总体均值之差的区间估计
• （二）两个总体均值之差的估计：匹配样本 • 113页例7.10
• • • • •
二、两个总体比率之差的区间估计 114页例7.11 三、两个总体方差比的区间估计 115页பைடு நூலகம்7.12 练习：133页第8题
（一）矩估计法
• 在统计学中，矩是指以期望为基础而定义的数字特征，一般分为原点矩和中心矩。 • 设X为随机变量，对任意正整数k，称E（Xk）为随机变量X的k阶原点矩，记为： • mk＝E（Xk） • 当k＝1时， • m1＝E（X）＝μ • 可见一阶原点矩为随机变量X的数学期望。 • 我们把Ck＝E[X－E（X）]k称为以E（X）为中心的k 阶中心矩。 • 显然，当k＝2时， • C2＝E[X－E（X）]2＝可见二阶中心矩为随机变量X 的方差。
2
估计总体均值时样本容量的确定不重复抽样
ˆ Nt 2 2 n 2 ˆ N x t 2 2
重复抽样估计成数时样本容量的确定不重复抽样
t 2 pq n 2 p
Nt 2 pq n 2 N p t 2 pq
• 117页例7.13 • 例7.14
练习：确定样本容量
• 对某批木材进行检验，根据以往经验，木材长度的标准差为0.4米，而合格率为90%。现采用重复抽样方式，要求在95.45%的概率保证程度下，木材平均长度的极限误差不超过0.08米，抽样合格率的极限误差不超过 5%，问必要的样本单位数应该是多少？
• 求（1）的计算步骤： • ①求样本指标：
x＝ 1000小时
x＝
n ＝ 50 100
＝50 （小时）
＝（小时） 5
• ②根据给定的Δx ＝10小时，计算总体平均数的上、下限： • 下限 x x＝1000－10＝990 （小时）（小时） • 上限 x＋＝1000＋10＝1010 • ③根据t＝Δx/μx＝10/5＝2，查概率表得F （t）＝95.45% • 由以上计算结果，估计该批产品的平均耐用时间在990～1010小时之间，有95.45%的概率保证程度。
F (z) 95.45% x 0.8 0.4 2 2 z2 2 2 0.4 100(棵) n 2 样本平均数的单位数 x 0.082
p 90%
p 5%
样本成数的单位数
2 z 2 p(1 p) 2 0.90.1 144(棵) n 2 0.052 p
2 2
2
1 x＝（ 1502 1453 1367 1650 1493 ＋＋＋）＝ 4 1502 1493 2＋（－） 1453 1493 2＋（－） 1367 1493 2＋（－） 1650 1493 2 －） 2 （ S ＝ 4－1 ＝140687 . S＝118.61
2．最大似然法设总体X的概率分布为 Px;
或 0
似然方程
估计量优劣的标准 1、无偏性是指样本估计量的均值应等于被估计总体参数的真值，即 E ( ) ˆ
P( X )
无偏
有偏
A
C

X
一、点估计
2、有效性是指作为优良的估计量，除了满足无偏性外，其方差应比较小。
P(X )
均值的抽样分布
B A
中位数的抽样分布

X
一、点估计
3、一致性也称相合性，是指随着样本容量的增大，估计量越来越接近被估计的总体参数
较大的样本容量
P(X )
B A
较小的样本容量

X
区间估计
• 区间估计的思想： • 区间估计就是以一定的概率保证估计包含总体参数的一个值域，即根据样本指标和抽样平均误差推断总体指标的可能范围。 • 它包括两部分内容：一是这一可能范围的大小；二是总体指标落在这个可能范围内的概率。 • 区间估计既说清估计结果的准确程度，又同时表明这个估计结果的可靠程度，所以区间估计是比较科学的，它是本节阐述的重点。
• 求（4）的计算步骤： • ①求样本指标： • p＝94% 2
p＝p（1－p）＝0.94 0.06＝0.0564
p（－p） 1 p＝＝2.37％ n P＝t p＝1.96 2.37％＝0.046
• ②下限p－Δp＝94%－4.6%＝89.4% • 上限p＋Δp＝94%＋4.6%＝98.6%。 • 所以，以95%的概率保证程度估计该批产品的合格率在89.4%～98.6%之间。
• （四）抽样方法不同。
• 在相同的条件下，重复抽样需要更大的样本容量，而不重复抽样的样本容量则可小一些。
•
单个总体样本容量的确定在设计抽样时，先确定允许的误差范围和必要的概率保证程度，然
后根据历史资料或试点资料确定总体的标准差，最后来确定样本容量。
重复抽样
ˆ n t 2 2 / x
• 练习 • 133页第11题
• 我们分别用样本平均数和样本修正方差来估计总体数学期望和总体均方差，即有： 1 n ˆ ˆ ＝（X 1，X 2，，X n）＝ X i＝X n
i 1
ˆ ˆ ＝（X 1，X 2， X n）＝

i 1
n
2 （X i X）
n
例题
• 已知某种灯泡的寿命X～N（μ，），其 2 中，μ，都是未知的，今随机取得4只灯泡，测得寿命（单位：小时）为1502， 1453，1367，1650，试估计μ和。 • 解：因为μ是全体灯泡的平均寿命，为样本的平均寿命，很自然地会想到用去估计μ；同理用S去估计。由于
确定样本容量应注意的问题
• 计算样本容量时，一般总体的方差与成数都是未知的，可用有关资料替代：
– 一是用历史资料已有的方差与成数代替； – 二是在进行正式抽样调查前进行几次试验性调查，用试验中方差的最大值代替总体方差； – 三是成数方差在完全缺乏资料的情况下，就用成数方差的最大值0.25代替。
• • • •
两个总体样本容量的确定 118页例7.15 118页例7.16 练习：133页第10题
第五节不同组织方式下的参数估计与样本容量的确定
• • • • • • 简单随机抽样——例7.17、7.18 类型抽样——例7.19、7.20 等距抽样——例7.21 整群抽样——例7.22 多阶段抽样——例7.23 重点：不同抽样形式下样本均值、标准差的计算
x
• 求（2）的计算步骤： • ①求样本指标： • p＝94%
2＝p（－p）＝0.94 0.06＝0.0564 1 p
p（－p） 0.0564 1 ＝＝2.38％ n 100 • ②根据给定的Δp＝2.45%，求总体合格率的上、下限：
p＝
• 下限 p p＝94％－2.45％＝91.55％ • 上限 p＋ p＝94％＋2.45％＝96.45％ • ③根据t＝Δp /μp＝2.45%/2.38%＝1.03，查概率表得F（t）＝69.70% • 由以上计算结果，估计该批产品的合格率在91.55%～ 96.45%之间，有69.70%的概率保证程度。
f x; 其中
或概率密度为
是未知参数。
如何求极大似然估计量呢？
求最大似然估计量的步骤为:
(1)对给定的总体X，写出似然函数
P( x ; )或 f ( x ; )
i i i 1 i 1
n
n
d ln L( x1 , x2 ,, xn ; ) 0 (2)列出似然方程 d
(3)求解上述方程，得关于的解即为的最大似然估计量。
5.1.2 点估计的常用方法
含多个参数
1 , 2 ,, m
令
1 , 2 ,, m
* * 1 , 2 ,, m * *
ln L 0 *
最大似然解
L *
• 解：求（3）的计算步骤： • ①求样本指标：
x＝ 1000小时
＝50 （小时）
x＝

n
＝
50 100
＝（小时） 5
• ②根据给定的F（t）＝95%，查概率表得t＝1.96。 • ③根据Δx＝t×μx＝1.96×5＝9.8，计算总体平均耐用时间的上、下限： x x＝ 1000 9.8＝990.（小时）－ 2 • 下限 x＋ x＝ 1000 9.8＝＋ 1009.（小时） 8 • 上限 • 所以，以95%的概率保证程度估计该批产品的平均耐用时间在990.2～1009.8小时之间。

第七章 参数估计

第七章参数估计

7 参数估计

概率论与数理统计第7章

概率论与数理统计第7章参数估计PPT课件

第七章 参数估计

概率论 第七章 参数估计

第七章 参数估计

概率论与数理统计-参数估计

第七章参数估计

第七章参数估计

概率论第七章参数估计

第七章参数估计