第四章 参数估计
第四章中心极限定理与参数估计

当 n 很大时,近似地服从正态分布.
第四章 中心极限定理与参数估计
例 1、对敌人的防御工事进行 80 次轰炸,每次轰炸命中目标炸弹 数目的数学期望为 2,方差为 0.8,且各次轰炸相互独立,求在 80 次轰炸中有 150 颗~170 颗炸弹命中目标的概率。 解:第 i 次轰炸命中目标炸弹的数目 X i (i 1,2,,80) 都是离散型随机
根据随机变量数学期望的性质,计算数学期望
80
80
80
E( X ) E( X i ) E( X i ) 2 160
i 1
i 1
i 1
第四章 中心极限定理与参数估计
由于离散型随机变量变量 X 1 , X 2 ,, X 80 相互独立,根据随机
变量方差的性质,计算方差
80
80
80
D( X ) D( X i ) D( X i ) 0.8 64 82
分大时,离散型随机变量 X 近似服从参数为 np, npq ( p q 1)
的正态分布,即近似有离散型随机变量 X ~ N(np, npq) 定理4.22表明:
正态分布是二项分布的极限分布, 当n充分大时, 可 以利用该定理来计算二项分布的概率.
随机变量 X 的取值在数学期望 E(X ) 附近的密集程度越低。
第四章 中心极限定理与参数估计
(3)在使用切贝谢夫不等式时,要求随机变量 X 的数学期望 E( X ) 与方差 D( X ) 一定存在,这时无论随机变量 X 的概率分布已知或未
知,都可以对事件 X E(X ) 发生的概率进行估计。 2、切贝谢夫不等式的应用举例 例1、 已知电站供电网有电灯 10000 盏,夜间每一盏灯开灯的概率 皆为 0.8,且它们开关与否相互独立,试利用切贝谢夫不等式估计夜 晚同时开灯的灯数在 7800 盏~8200 盏之间的概率。
第四章参数估计

z x ~ N(0,1)
n
• 根据式4-1可以得出总体均值 所在的1 置信水平下的置信区
间为:
x z 2
n
其中,x z 2 n 称为置信下限, x z 2
n
称为置信上限;
是事先所
确定的总体均值不包括在置信区间的概率; 1 称为置信水平。
总体均值的估计
总体方差未知且为小样本情况下估计
• 实验4-1:下面以2008年某地区20户家庭年收入数据为例进行均值估计, 20户家庭年收入的原始数据如图4.1所示,通过样本数据来估计该地区 家庭年收入的均值。
• 我们可以在EXCEL2003中“公式”选项卡中选择“插
入函数”按钮,打开如图4.2所示的“插入函数”对话
框来进行总体均值估计。
EXCEL 2003 统计应用
总体均值的估计
总体方差未知且为小样本情况下估计
• 使用函数进行总体均值估计的 步骤如下:
(1)计算样本个数
• 选择单元格D3并依次选择“公 式”|“插入函数”,打开“插 入函数”对话框;选择计数函 数COUNT,单击“确定”按钮, 打开“函数参数”对话框;在 Value1中输入数据范围 “A2:A21”如图4.3所示,单击 确定得到如图4.4所示的样本个 数。
EXCEL 2003 统计应用
参数估计概述
评价参数估计的标准
• 在参数估计时,人们可以构造很多个估计量,但不是所有的估计 量都一样优良。例如,要估计总体平均数,估计量有算术平均数、 中位数、众数等,到底用哪一个估计量更合适,就需要有评价的 标准。通常,评价估计量好坏的标准有三个:无偏性、有效性、 一致性。
第四章 参数估计

x
n
总体标准差,若 未知,可用样本
标准差代替
36
总体均值的置信区间引例
(2 未知)
例:某商场从一批袋装食品中随机抽取10袋,测得 每袋重量(单位:克)分别为789,780,794, 762,802,813,770,785,810,806,要 求以95%的把握程度,估计这批食品的平均每袋 重量的区间范围。假定食品重量服从正态分布。
0.95,Z/2=1.96
x Z 2
n
,
x
Z
2
n
26 1.96 6 ,26 1.96 6
100
100
24.824,27.176
我们可以95%的概率保证平均每天 参加锻炼的时间在24.824~ 27.176 分钟之间。
一般置信水平
一般使用的置信水平是:90%, 95%, 99%
Confidence Level
▪ 总体服从正态分布,且总体方差(2)已知 ▪ 如果不是正态分布,可以由正态分布来近似 (n 30)
2. 使用正态分布统计量Z
Z
x s
m ~ N (0,1)
n
3. 总体均值 在1-置信水平下的置信区间为
s
s
x
Za 2
,x n
Za 2 n
总体均值的置信区间
(2 已知)
抽样极限误差:
s x Za 2 n
❖ 定理1
当总体 X ~ N ( m , s 2 ) 时,抽自该总体
的简单随机样本 x1 , x 2 , , x n 的样本平均数
服从数学期望为 ,方差为 s2的正态分布,
n
即 x ~ N (m, s2 ) 。
n
Z x ~ N (0,1) n
(04)第4章 参数估计

(2)99%的置信区间是多少?
(3)若样本容量为40,而观测的数据不变,则 95%的置信区间又是多少?
5 - 31
统计学
STATISTICS
总体均值的区间估计
(例题分析)
12, s 4.1
解:(1)已知n=15, 1- = 95%, =0.05 ,x
统计学
STATISTICS
总体均值的区间估计
统计学
STATISTICS
大样本的估计方法
不论总体是不是服从正态分布,在大样本 (n 30)时,样本均值均服从正态分布。 若已知 2 x
x ~ N ( ,
总体均值 在1- 置信水平下的置信区间为
n
)
z
n
~ N (0,1)
z 2
有效性:对同一总体参数的两个无偏点估计量, 有更小标准差的估计量更有效
ˆ P( )
ˆ1 的抽样分布
B A
ˆ2 的抽样分布
ˆ
5 - 11
ˆ ˆ1 是比 2 更有效,是一个更好的估计量
统计学
STATISTICS
有效性
(efficiency)
x1 x2 x3 样本均值 x 3 x1 2 x2 3x3 和 x1 6
统计学
STATISTICS
第 4 章 参数估计
4.1 参数估计的基本原理 4.2 一个总体参数的区间估计 4.4 样本容量的确定
5-1
统计学
STATISTICS
4.1 参数估计的一般问题
4.1.1 估计量与估计值 4.1.2 点估计与区间估计 4.1.3 评价估计量的标准
第四章 参数的区间估计(Confidence Interval Estimation)

Chap 4-34
PHStat用于解决此类问题
PHStat | confidence intervals | estimate for the population total Excel spreadsheet for the voucher example
第四章 参数的区间估计 (Confidence Interval Estimation)
阅读教材:第7章
Chap 4-1
本章概要
估计的步骤(Estimation process) 点估计(Point estimates) 区间估计(Interval estimates) 均值的置信区间( 已知) 样本容量的确定(Determining sample size) 均值的置信区间 ( 未知) 比例的置信区间
n
) 1
Chap 4-9
区间估计的要素
置信度
区间内包含未知总体参数的确定程度 与未知参数的接近程度 获得容量为 n 的样本所需付出的代价
精度
成本
Chap 4-10
置信度
以 100 1 %表示,如:90%,95%,99% 相对频率意义上的解释
从长期来看, 所构建的所有置信区间中,100 1 % 的置信区间都将含有未知参数,即未知参数落入区间的 概率;
n
( z 2 ) (1 )
2
E2
其中: E z 2
(1 )
n
2. 3.
E的取值一般小于0.1 (=p) 未知时,可取最大值0.5
第四章线性系统参数估计的最小二乘法

测得铜导线在温度Ti (o C) 时的电阻 Ri (Ω ) 如表 6-1,求电阻 R 与温度 T 的近似函数关系。
i
1
2
3
4
5
6
7
Ti (o C) Ri (Ω )
19.1 76.30
25.0 77.80
30.1 79.25
36.0 80.80
40.0 82.35
45.1 83.90
50.0 85.10
使用(1,1.8),(2,2.2)两个点得到的方
1.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6
程为 y=1.4 + 0.4x;使用(1,1.8),(6,3.3)两个点得到的方程为 y=1.5 + 0.3x,而使用(3,3)和(6,3.3)
两个点得到的方程是 y=2.7+0.1x。
(4.1)
其中,θ=(θ1, θ2, …, θn)是一个参数集。在系统辨识中它们是未知的。我们希望通过不同时刻
对Y及X的观测值来估计出它们的数值。
例如,在研究两个变量(x,y)之间的
4
关系时,通常的做法是取一个变量作为自
变量,另一个作为因变量。改变自变量可
3.5
得到相应的因变量。将所得到的一系列数
据对描绘在直角坐标系中,得到一系列的
X T XΘˆ = X TY
(4.7)
得
Θˆ=( X T X )−1 X TY
(4.8)
这样求得的Θˆ 就称为Θ的最小二乘估计(LSE),在统计学上,方程(4.7)称为正则方程,称ε
为残差。
在前面讨论的例子中,把 6 个数据对分别代入直线方程y=a0 + a1x中可得到 1 个由 6 个直线
统计学概论04

(二)概率 1. 概率的定义 概率就是指随机事件发生的可能性,或称为机率, 概率就是指随机事件发生的可能性,或称为机率, 是对随机事件发生可能性的度量. 进行n次重复试 是对随机事件发生可能性的度量. 进行 次重复试 随机事件A发生的次数是 发生的次数是m次 验,随机事件 发生的次数是 次,发生的频率是 m/n,当试验的次数 很大时,如果频率在某一数值 很大时, ,当试验的次数n很大时 p附近摆动,而且随着试验次数 的不断增加,频率 附近摆动, 的不断增加, 附近摆动 而且随着试验次数n的不断增加 的摆动幅度越来越小,则称p为事件 发生的概率, 为事件A发生的概率 的摆动幅度越来越小,则称 为事件 发生的概率, 记为: 记为:P(A)=p.在古典概型场合 即基本事件发生的 .在古典概型场合, 概率都一样的场合: 概率都一样的场合 m A包含的样本点个数 A的有利场合数 = P( A) = = 样本点总数 n 样本点总数
4-8
只黑球和1只白球 例:袋中装有4只黑球和 只白球,每次从袋中随机 袋中装有 只黑球和 只白球, 地摸出1只球 并换入1只黑球 连续进行, 只球, 只黑球. 地摸出 只球,并换入 只黑球.连续进行,问第三 次摸到黑球的概率是多少? 次摸到黑球的概率是多少? 解: 记A为"第三次摸到黑球",则 为"第三次 为 第三次摸到黑球" A A 摸到白球" 先计算P( ). 摸到白球".先计算 . 由于袋中只有1只白球 如果某一次摸到了白球, 只白球, 由于袋中只有 只白球,如果某一次摸到了白球,换 入了黑球,则袋中只有黑球了.所以相当于第一, 入了黑球,则袋中只有黑球了.所以相当于第一, 第二次都是摸到黑球,第三次摸到白球. 第二次都是摸到黑球,第三次摸到白球.注意这是 一种有放回的摸球,样本点总数为53, 一种有放回的摸球,样本点总数为 ,有利场合数 是42×1.故: 2 × . 4 1 16 P( A )= 5 3 = 125 , 所以 42 1 109
第4章参数估计和假设检验

第4章参数估计和假设检验第四章参数估计与假设检验掌握参数估计和假设检验的基本思想是正确理解和应⽤其他统计推断⽅法的基础,后⾯将要学习的⽅差分析、⾮参数检验、回归分析、时间序列等统计推断⽅法都是在此基础上展开的。
需要特别指出的是,所有的统计推断都要以随机样本为基础。
如果样本是⾮随机的,统计推断⽅法就不适⽤了。
由于相关知识在先修课程中已经学习过,本章主要在回顾相关知识的基础上,补充讲解必要样本容量的计算、p值、参数估计和假设检验⽅法的软件操作和结果分析等内容。
本章的主要内容包括:(1)参数估计的基本思想和软件实现。
(2)简单随机抽样情况下样本容量的计算。
(3)假设检验的基本原理。
(4)假设检验中的p值。
(5)⼏种常⽤假设检验的软件实现。
第⼀节参数估计⼀、参数估计的基本概念参数估计是指利⽤样本信息对总体数字特征作出的估计。
例如,我们可以通过估计⼀部分产品的合格率对整批产品的合格率作出估计,通过调查⼀个样本的⼈⼝数来对全国的⼈⼝数作出估计,等等。
参数估计可以分为点估计和区间估计。
点估计是指根据样本数据给出的总体未知参数的⼀个估计值。
对总体参数进⾏估计的⽅法可以有多种,例如矩估计法、极⼤似然估计法等,得到的估计量(样本统计量)并不是唯⼀的。
例如我们可以使⽤样本均值对总体均值作出估计,也可以使⽤样本中位数对总体均值进⾏估计。
因此,在参数估计中我们需要对估计量的好坏作出评价,这就涉及到估计量的评价准则问题。
常⽤的估计量评价准则包括⽆偏性、有效性、⼀致性等。
⽆偏性是指估计量的数学期望与总体参数的真实值相等;有效性的含义是,在两个⽆偏估计量中⽅差较⼩的估计量较为有效,⽅差越⼩越有效;⼀致性是指随着样本容量的增⼤,估计量的取值应该越来越接近总体参数。
样本的随机性决定了估计结果的随机性。
由于每⼀个点估计值都来⾃于⼀个随机样本,所以总体参数真值刚好等于⼀个具体估计值的可能性极⼩。
区间估计的⽅法则以概率论为基础,在点估计的基础上给出了⼀个置信区间,并给出了这⼀区间包含总体真值的概率,⽐点估计提供了更多的信息。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
方差 方差
大样本 大样本 Z分布
小样本 σ 未知, σ22 未知,
t 分布 t 分布
分布 分布
2 2
第四章 参数估计
第二节 总体参数估计
四、单个总体均值的估计
(一)大样本的总体均值估计
【例1】某企业生产A产品的工人有1000人,某日采用不重 复抽样从中随机抽取 100 人调查他们的当日产量,样本人 均产量为 35 件,产量的样本标准差为 4.5件。请以 95.45% 的置信度估计该日人均产量的置信区间。
第四章 参数估计
第二节 总体参数估计
解:①计算样本指标
x
x
i 1
n
i
n
n
789 780 794 762 802 813 770 785 810 806 791.(克) 1 10
s
2 x x i i 1
n 1 2642 .9 10 1 17.136 (克)
2
x
Z
1
2
x
2 0.4269 0.8538 (件)
第四章 参数估计
第二节 总体参数估计
③确定置信区间 估计区间上限: X U 35 0.8538 35.85 ( 件) 估计区间下限: X L 35 0.8538 34.15( 件) 故,可以95.45%的置信度断言,该日人均产量在 34.15~35.85件之间。
抽样调查必须按照随机原则来抽取被调查单位。
第四章 参数估计
第一节 抽样调查的意义
(二)抽样调查的特点 1. 随机抽取样本单位 2. 推断总体数量特征 3. 抽样调查结果只有可控性误差
二、抽样调查的应用范围
1. 用于不可能进行全面调查的现象 2. 用于经济上不允许或精度上不必要进行全面调查的现象 3. 用于时效性要求较强的调查
p
P(1 P) 0.80(1 0.80) 4.000 % n 100
第四章 参数估计
第二节 总体参数估计
②计算抽样极限误差
Z 1 1 645 .. 645 由 ( 1 ) 0.90 ,查正态概率表得 Z 1 1
第四章 参数估计
第二节 总体参数估计
(三)抽样极限误差
在一次抽样中允许的最大误差范围称为抽样极限误差。 是变动的抽样指标与唯一确定的但又是未知的全及指标 之间离差的可能范围。 设 X 与 p 分别表示样本平均数与样本比率的抽样极 限误差,则有:
X X
p p P
第四章 参数估计
第四章 参数估计
第二节 总体参数估计
代表性误差是指用样本指标推断相应的总体指标时, 因样本结构与总体结构不同,致使样本不能完全代表总体 而产生的误差。
代表性误差包括系统误差和随机误差:
系统误差是指由于非随机因素引起的样本代表性不足 而产生的误差,表现为样本估计值系统性偏高或偏低,故 也称偏差。 随机误差是指由于随机抽样引起的样本结构不同于总 体而产生的样本估计值与总体参数真值之间的离差。通常 所说的抽样误差(sampling error)就是这一随机误差。
③计算抽样极限误差
由( 1 ) 0.9973 ,查正态概率表得 Z1 3
x Z
1
(件) x 3 0.08762 0.2629
2
2
④确定置信区间 估计区间上限: X U 150.3 0.2629 150.6(克)
估计区间下限: X L 150.3 0.2629 150.0 (克) 所以,该批茶叶的平均重量在150.0-150.6克之 间,可靠保证程度为99.73%。
第四章 参数估计
第二节 总体参数估计
三、区间估计
区间估计就是根据样本估计量以一定可靠程度推断总体 参数所在的区间范围。 区间估计有三项基本要素:①估计值,主要是样本的平均 数、比率和方差;②估计值的可能误差范围(或说允许误 差范围),即抽样极限误差 p 和 x ;③与误差范围相对 应的概率保证程度——参数估计的置信度。
第四章 参数估计
第二节 总体参数估计
误差来源
登记性误差
代表性误差
系统误差
随机误差
第四章 参数估计
第二节 总体参数估计
2. 影响抽样误差的因素 1) 总体变异度 2) 样本容量 3) 抽样方法 4) 抽样组织方式 (二)抽样平均误差 1. 抽样平均误差的概念 抽样平均误差是指所有可能样本的估计值与所要估计 参数离差的平均数。
④确定置信区间 估计区间上限:X U 791.1 12.26 803.36 (克) 估计区间下限:X L 791.1 12.26 778.84 (克) 故,在95%的置信度下,这批食品平均每袋重量的置信 区间是778.8~803.4克。
(9) 2
第四章 参数估计
第二节 总体参数估计
五、单个总体成数的估计
总体比率P是总体是非标志的的平均数,前面讲的平 均数估计理论都适用于总体比率P的估计,只是估计量的 形式略有不同。 【例 5】 某厂对一批产品的质量进行抽样检验,随机抽取 样品 100只,调查得样本优质品率为80%,试计算当把握 程度为90%时该批产品优质品率的区间范围。 解:①计算抽样平均误差
第四章 参数估计
第二节 总体参数估计
一、抽样误差 二、抽样估计的置信度 三、区间估计 四、单个总体均值估计
五、单个总体成数估计
﹡六、单个总体方差估计
第四章 参数估计
第二节 总体参数估计
一、抽样误差
(一)抽样误差的意义
1. 抽样误差的概念
抽样调查过程中的误差根据其来源大体上可以归纳 为两类:一类是登记性误差,另一类是代表性误差。 登记性误差是指在调查时对样本各单位观察、测量、 登记过程中出现的差错 (含被调查者提供虚假资料而造 成的误差 ) 及汇总样本、计算样本指标等工作产生的误 差。
②计算该抽样估计的概率度
z
x x
0.5 2.67 ,即 0.1872
Z
1
2
2.67
第四章 参数估计
第二节 总体参数估计
③确定估计结果的置信度 查正态概率表得 F( 2.67 ) 0.9962 即
1
2
0.9962
由此可算得
1 1 2 ( 1 0.9962) 0.9924
第二节 总体参数估计
抽样极限误差通常需要以抽样平均误差为标准单位来加 以衡量,把抽样极限误差除以相应的抽样平均误差,得出数 值 z ,称为概率度,以表明抽样极限误差是抽样平均误差的 多少倍。 即:z来自x x
或z
p p
第四章 参数估计
第二节 总体参数估计
二、抽样估计的置信度
抽样估计时总体参数落在某个区间的概率保证程度称为抽 样估计的置信度。 抽样估计的置信度(confidence interval)和抽样极限误 差有着密切联系。当抽样极限误差范围增大时,抽样估计 的置信度也随之有规律地增大,抽样估计的精确程度则随 之有规律地降低,反之亦然。
第四章 参数估计
第二节 总体参数估计
【例 3】考察某些人的平均身高,随机抽取 1000人,测 是平均身高为 168cm ,标准差为 5.92cm ,要求误差不 得超过0.5cm,试确定估计的可靠程度。 解:①计算该调查的抽样平均误差
x
2
n
s2 n
5.922 cm 0.1872 1000
第四章 参数估计
第二节 总体参数估计
抽样平均误差一般如下公式表示:
X
X
m i 1
i
X
2
m
X
m i 1
i
2
m
2 p P i i 1 m
p
p p
m i 1 i
2
m
m
m
是样本可能数目
第四章 参数估计
第二节 总体参数估计
2. 抽样平均误差的计算 (1)样本平均数的抽样平均误差 (即为样本均值的标准差) 1) 重复抽样
第四章 参数估计
第四章 参数估计
【学习目标】通过对本章的学习,掌握参数估计的方法; 掌握抽样调查的基本概念;了解抽样调查的意义和抽样组织设 计的应用。重点:抽样平均误差的计算与控制;单个总体均值、 成数的区间估计;必要样本单位数的确定。 第一节 抽样调查的意义 第二节△总体参数估计 第三节△抽样设计
所以,该抽查结果的可靠程度为99.24%。
第四章 参数估计
第二节 总体参数估计
(二)小样本的总体均值估计
【例4】某商场从一批袋装食品中随机抽取 10袋,测得每 袋重量 ( 单位:克 ) 分别为 789 、 780 、 794 、 762 、 802 、 813、 770 、785、 810、 806,要求以95%的把握程度, 估计这批食品平均每袋重量的区间范围。
2 2 x x (x x) (x x) f
备注 70包 大于 150 克/包
-1.8 -0.8 0.2 1.2 …
3.24 0.64 0.04 1.44 …
32.40 12.80 2.00 28.80 76.00
合计
第四章 参数估计
第二节 总体参数估计
解:①计算样本指标
x
x
i 1 k i 1
第四章 参数估计
第二节 总体参数估计
解:①计算抽样平均误差
x
2 N n
s2 n 4.52 100 件 1 1 0.4269 n N 1 n N 100 1000