第四章_参数估计

合集下载

第四章中心极限定理与参数估计

第四章中心极限定理与参数估计
k 1
当 n 很大时,近似地服从正态分布.
第四章 中心极限定理与参数估计
例 1、对敌人的防御工事进行 80 次轰炸,每次轰炸命中目标炸弹 数目的数学期望为 2,方差为 0.8,且各次轰炸相互独立,求在 80 次轰炸中有 150 颗~170 颗炸弹命中目标的概率。 解:第 i 次轰炸命中目标炸弹的数目 X i (i 1,2,,80) 都是离散型随机
根据随机变量数学期望的性质,计算数学期望
80
80
80
E( X ) E( X i ) E( X i ) 2 160
i 1
i 1
i 1
第四章 中心极限定理与参数估计
由于离散型随机变量变量 X 1 , X 2 ,, X 80 相互独立,根据随机
变量方差的性质,计算方差
80
80
80
D( X ) D( X i ) D( X i ) 0.8 64 82
分大时,离散型随机变量 X 近似服从参数为 np, npq ( p q 1)
的正态分布,即近似有离散型随机变量 X ~ N(np, npq) 定理4.22表明:
正态分布是二项分布的极限分布, 当n充分大时, 可 以利用该定理来计算二项分布的概率.
随机变量 X 的取值在数学期望 E(X ) 附近的密集程度越低。
第四章 中心极限定理与参数估计
(3)在使用切贝谢夫不等式时,要求随机变量 X 的数学期望 E( X ) 与方差 D( X ) 一定存在,这时无论随机变量 X 的概率分布已知或未
知,都可以对事件 X E(X ) 发生的概率进行估计。 2、切贝谢夫不等式的应用举例 例1、 已知电站供电网有电灯 10000 盏,夜间每一盏灯开灯的概率 皆为 0.8,且它们开关与否相互独立,试利用切贝谢夫不等式估计夜 晚同时开灯的灯数在 7800 盏~8200 盏之间的概率。

统计学教材课后答案 第三版 袁卫 庞皓 曾五一 贾俊平主编

统计学教材课后答案  第三版 袁卫 庞皓 曾五一 贾俊平主编

第四章、参数估计1.简述评价估计量好坏的标准答:评价估计量好坏的标准主要有:无偏性、有效性和相合性。

设总体参数θ的估计量有1ˆθ和2ˆθ,如果()1ˆE θθ=,称1ˆθ是无偏估计量;如果1ˆθ和2ˆθ是无偏估计量,且()1ˆD θ小于()2ˆD θ,则1ˆθ比2ˆθ更有效;如果当样本容量n →∞,1ˆθθ→,则1ˆθ是相合估计量。

2.说明区间估计的基本原理答:总体参数的区间估计是在一定的置信水平下,根据样本统计量的抽样分布计算出用样本统计量加减抽样误差表示的估计区间,使该区间包含总体参数的概率为置信水平。

置信水平反映估计的可信度,而区间的长度反映估计的精确度。

3.解释置信水平为95%的置信区间的含义答:总体参数是固定的,未知的,置信区间是一个随机区间。

置信水平为95%的置信区间的含义是指,在相同条件下多次抽样下,在所有构造的置信区间里大约有95%包含总体参数的真值。

4.简述样本容量与置信水平、总体方差、允许误差的关系答:以估计总体均值时样本容量的确定公式为例:()22/22z n E ασ= 样本容量与置信水平成正比、与总体方差成正比、与允许误差成反比。

练习题:●1.解:已知总体标准差σ=5,样本容量n =40,为大样本,样本均值x =25,(1)样本均值的抽样标准差σ5=0.7906 (2)已知置信水平1-α=95%,得 α/2Z =1.96,于是,允许误差是E =α/2Z 6×0.7906=1.5496。

●2.解:(1)已假定总体标准差为σ=15元,则样本均值的抽样标准误差为x σ15=2.1429(2)已知置信水平1-α=95%,得 α/2Z =1.96,于是,允许误差是E=α/2Z 6×2.1429=4.2000。

(3)已知样本均值为x =120元,置信水平1-α=95%,得 α/2Z =1.96,这时总体均值的置信区间为±α/2x Z 0±4.2=124.2115.8 可知,如果样本均值为120元,总体均值95%的置信区间为(115.8,124.2)元。

第四章参数估计

第四章参数估计
经过标准化以后的随机变量则服从标准正态分布,即:
z x ~ N(0,1)
n
• 根据式4-1可以得出总体均值 所在的1 置信水平下的置信区
间为:

x z 2
n
其中,x z 2 n 称为置信下限, x z 2
n
称为置信上限;
是事先所
确定的总体均值不包括在置信区间的概率; 1 称为置信水平。
总体均值的估计
总体方差未知且为小样本情况下估计
• 实验4-1:下面以2008年某地区20户家庭年收入数据为例进行均值估计, 20户家庭年收入的原始数据如图4.1所示,通过样本数据来估计该地区 家庭年收入的均值。
• 我们可以在EXCEL2003中“公式”选项卡中选择“插
入函数”按钮,打开如图4.2所示的“插入函数”对话
框来进行总体均值估计。
EXCEL 2003 统计应用
总体均值的估计
总体方差未知且为小样本情况下估计
• 使用函数进行总体均值估计的 步骤如下:
(1)计算样本个数
• 选择单元格D3并依次选择“公 式”|“插入函数”,打开“插 入函数”对话框;选择计数函 数COUNT,单击“确定”按钮, 打开“函数参数”对话框;在 Value1中输入数据范围 “A2:A21”如图4.3所示,单击 确定得到如图4.4所示的样本个 数。
EXCEL 2003 统计应用
参数估计概述
评价参数估计的标准
• 在参数估计时,人们可以构造很多个估计量,但不是所有的估计 量都一样优良。例如,要估计总体平均数,估计量有算术平均数、 中位数、众数等,到底用哪一个估计量更合适,就需要有评价的 标准。通常,评价估计量好坏的标准有三个:无偏性、有效性、 一致性。

第四章 参数估计

第四章 参数估计

x
n
总体标准差,若 未知,可用样本
标准差代替
36
总体均值的置信区间引例
(2 未知)
例:某商场从一批袋装食品中随机抽取10袋,测得 每袋重量(单位:克)分别为789,780,794, 762,802,813,770,785,810,806,要 求以95%的把握程度,估计这批食品的平均每袋 重量的区间范围。假定食品重量服从正态分布。
0.95,Z/2=1.96
x Z 2
n
,
x
Z
2
n
26 1.96 6 ,26 1.96 6
100
100
24.824,27.176
我们可以95%的概率保证平均每天 参加锻炼的时间在24.824~ 27.176 分钟之间。
一般置信水平
一般使用的置信水平是:90%, 95%, 99%
Confidence Level
▪ 总体服从正态分布,且总体方差(2)已知 ▪ 如果不是正态分布,可以由正态分布来近似 (n 30)
2. 使用正态分布统计量Z
Z
x s
m ~ N (0,1)
n
3. 总体均值 在1-置信水平下的置信区间为
s
s
x
Za 2
,x n
Za 2 n
总体均值的置信区间
(2 已知)
抽样极限误差:
s x Za 2 n
❖ 定理1
当总体 X ~ N ( m , s 2 ) 时,抽自该总体
的简单随机样本 x1 , x 2 , , x n 的样本平均数
服从数学期望为 ,方差为 s2的正态分布,
n
即 x ~ N (m, s2 ) 。
n
Z x ~ N (0,1) n

(04)第4章 参数估计

(04)第4章 参数估计
(1)平均办理时间的95%的置信区间是多少?
(2)99%的置信区间是多少?
(3)若样本容量为40,而观测的数据不变,则 95%的置信区间又是多少?
5 - 31
统计学
STATISTICS
总体均值的区间估计
(例题分析)
12, s 4.1
解:(1)已知n=15, 1- = 95%, =0.05 ,x
统计学
STATISTICS
总体均值的区间估计
统计学
STATISTICS
大样本的估计方法

不论总体是不是服从正态分布,在大样本 (n 30)时,样本均值均服从正态分布。 若已知 2 x
x ~ N ( ,

总体均值 在1- 置信水平下的置信区间为
n
)
z

n
~ N (0,1)
z 2
有效性:对同一总体参数的两个无偏点估计量, 有更小标准差的估计量更有效
ˆ P( )
ˆ1 的抽样分布
B A
ˆ2 的抽样分布
ˆ
5 - 11
ˆ ˆ1 是比 2 更有效,是一个更好的估计量

统计学
STATISTICS
有效性
(efficiency)
x1 x2 x3 样本均值 x 3 x1 2 x2 3x3 和 x1 6
统计学
STATISTICS
第 4 章 参数估计
4.1 参数估计的基本原理 4.2 一个总体参数的区间估计 4.4 样本容量的确定
5-1
统计学
STATISTICS
4.1 参数估计的一般问题
4.1.1 估计量与估计值 4.1.2 点估计与区间估计 4.1.3 评价估计量的标准

第四章 参数的区间估计(Confidence Interval Estimation)

第四章 参数的区间估计(Confidence Interval Estimation)
总体总值95% 的置信区间为1,000,559.15, 到 1,152,220.85
Chap 4-34
PHStat用于解决此类问题

PHStat | confidence intervals | estimate for the population total Excel spreadsheet for the voucher example
第四章 参数的区间估计 (Confidence Interval Estimation)
阅读教材:第7章
Chap 4-1
本章概要



估计的步骤(Estimation process) 点估计(Point estimates) 区间估计(Interval estimates) 均值的置信区间( 已知) 样本容量的确定(Determining sample size) 均值的置信区间 ( 未知) 比例的置信区间

n
) 1
Chap 4-9
区间估计的要素

置信度

区间内包含未知总体参数的确定程度 与未知参数的接近程度 获得容量为 n 的样本所需付出的代价

精度


成本

Chap 4-10
置信度

以 100 1 %表示,如:90%,95%,99% 相对频率意义上的解释

从长期来看, 所构建的所有置信区间中,100 1 % 的置信区间都将含有未知参数,即未知参数落入区间的 概率;
n
( z 2 ) (1 )
2
E2
其中: E z 2
(1 )
n
2. 3.
E的取值一般小于0.1 (=p) 未知时,可取最大值0.5

第四章线性系统参数估计的最小二乘法

第四章线性系统参数估计的最小二乘法

测得铜导线在温度Ti (o C) 时的电阻 Ri (Ω ) 如表 6-1,求电阻 R 与温度 T 的近似函数关系。
i
1
2
3
4
5
6
7
Ti (o C) Ri (Ω )
19.1 76.30
25.0 77.80
30.1 79.25
36.0 80.80
40.0 82.35
45.1 83.90
50.0 85.10
使用(1,1.8),(2,2.2)两个点得到的方
1.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6
程为 y=1.4 + 0.4x;使用(1,1.8),(6,3.3)两个点得到的方程为 y=1.5 + 0.3x,而使用(3,3)和(6,3.3)
两个点得到的方程是 y=2.7+0.1x。
(4.1)
其中,θ=(θ1, θ2, …, θn)是一个参数集。在系统辨识中它们是未知的。我们希望通过不同时刻
对Y及X的观测值来估计出它们的数值。
例如,在研究两个变量(x,y)之间的
4
关系时,通常的做法是取一个变量作为自
变量,另一个作为因变量。改变自变量可
3.5
得到相应的因变量。将所得到的一系列数
据对描绘在直角坐标系中,得到一系列的
X T XΘˆ = X TY
(4.7)

Θˆ=( X T X )−1 X TY
(4.8)
这样求得的Θˆ 就称为Θ的最小二乘估计(LSE),在统计学上,方程(4.7)称为正则方程,称ε
为残差。
在前面讨论的例子中,把 6 个数据对分别代入直线方程y=a0 + a1x中可得到 1 个由 6 个直线

第4章参数估计和假设检验

第4章参数估计和假设检验

第4章参数估计和假设检验第四章参数估计与假设检验掌握参数估计和假设检验的基本思想是正确理解和应⽤其他统计推断⽅法的基础,后⾯将要学习的⽅差分析、⾮参数检验、回归分析、时间序列等统计推断⽅法都是在此基础上展开的。

需要特别指出的是,所有的统计推断都要以随机样本为基础。

如果样本是⾮随机的,统计推断⽅法就不适⽤了。

由于相关知识在先修课程中已经学习过,本章主要在回顾相关知识的基础上,补充讲解必要样本容量的计算、p值、参数估计和假设检验⽅法的软件操作和结果分析等内容。

本章的主要内容包括:(1)参数估计的基本思想和软件实现。

(2)简单随机抽样情况下样本容量的计算。

(3)假设检验的基本原理。

(4)假设检验中的p值。

(5)⼏种常⽤假设检验的软件实现。

第⼀节参数估计⼀、参数估计的基本概念参数估计是指利⽤样本信息对总体数字特征作出的估计。

例如,我们可以通过估计⼀部分产品的合格率对整批产品的合格率作出估计,通过调查⼀个样本的⼈⼝数来对全国的⼈⼝数作出估计,等等。

参数估计可以分为点估计和区间估计。

点估计是指根据样本数据给出的总体未知参数的⼀个估计值。

对总体参数进⾏估计的⽅法可以有多种,例如矩估计法、极⼤似然估计法等,得到的估计量(样本统计量)并不是唯⼀的。

例如我们可以使⽤样本均值对总体均值作出估计,也可以使⽤样本中位数对总体均值进⾏估计。

因此,在参数估计中我们需要对估计量的好坏作出评价,这就涉及到估计量的评价准则问题。

常⽤的估计量评价准则包括⽆偏性、有效性、⼀致性等。

⽆偏性是指估计量的数学期望与总体参数的真实值相等;有效性的含义是,在两个⽆偏估计量中⽅差较⼩的估计量较为有效,⽅差越⼩越有效;⼀致性是指随着样本容量的增⼤,估计量的取值应该越来越接近总体参数。

样本的随机性决定了估计结果的随机性。

由于每⼀个点估计值都来⾃于⼀个随机样本,所以总体参数真值刚好等于⼀个具体估计值的可能性极⼩。

区间估计的⽅法则以概率论为基础,在点估计的基础上给出了⼀个置信区间,并给出了这⼀区间包含总体真值的概率,⽐点估计提供了更多的信息。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
N—总体容量 总体容量
δ2 1 n 1 n D x = D ∑xi = 2 ∑D(xi ) = n n i=1 n i=1
9
()
抽样分布
2. 抽样分布
若 体 ~ µ,δ 2 , x1, x2 ,Lxn 是 自 体 随 样 , 总 X N 取 总 的 机 本 1 n x = ∑xi , 则 n i=1 δ2 x−µ ; x ~ N µ, , δ n ~ N(0 1) n
0
x
11
抽样分布
2. 抽样分布
E( p) = P
E(p)—随机变量 p 的数学 随机变量 期望 P—总体比率 总体比率
对于样本某一指标的比例 p ,满足下面两 个条件时认为样本容量足够大: 个条件时认为样本容量足够大: —— np ≥ 5 ——
n(1− p) ≥ 5
P(1− P) δp = n
σp
pp的分布 的分布
p−P ~ (0 1) N , P(1− P) n
n—样本容量 样本容量 N—总体容量 总体容量
12
抽样分布
2. 抽样分布
0.30
s2 服从卡方分布,但其分布 服从卡方分布, S的分布 的分布 函数不便于用数学式直接表达。 函数不便于用数学式直接表达。可 以得出与其相联系的一个服从自由 的卡方分布的统计量。 度为 n-1的卡方分布的统计量。 的卡方分布的统计量
2 其中µ和 2是未知总体参数。从中随机抽取5只灯 布N(µ,δ ),其中 和δ 是未知总体参数。从中随机抽取 只灯 ( , ),其中
小时、 小时、 小时、 泡,测得使用寿命分别为1529小时、1513小时、1600小时、 测得使用寿命分别为 小时 小时 小时 1527小时、1111小时。试估计 和δ2。 小时、 小时。 小时 小时 试估计µ和
E(x) = µ
样本均值的期望与 样本容量无关
δx =
δ
n
样本均值的标准差 与样本容量有关
n = 30
δx = 730.30
51800
14
二、点 估 计
点估计的概念 估计量的优良性
15
1. 点估计的概念
某连续生产线上生产的灯泡构成的总体的使用寿命X服从正态分 某连续生产线上生产的灯泡构成的总体的使用寿命 服从正态分
(
)
当总体为正态概率分布时 当总体为正态概率分布时, 对任何样本容量的样本均值 的分布也是正态分布。 的分布也是正态分布。 x
当总体为任意分布时, 当总体为任意分布时
中心极限定理( 中心极限定理(central limit theorem) )
当样本容量n→ 时 当样本容量 →∞时, 样本 均值 的抽样分布渐进为正
___
x =
∑x = 1529 +1513 +1600 +1527 +1411 =1516
n 5
2
___ x − x ∑ 2 2 = (1529 −1516) +L+ (1411−1526) = 4595 2 s = n −1 5 −1
从总体中抽取一个样本, 从总体中抽取一个样本,构造适当的统计量 来估计对应的总体参数θ 来估计对应的总体参数θ。
第四章 参数估计
参数估计的基本理论
1
参数估计的基本理论
抽样与抽样分布 点估计 区间估计
2
一、抽样与抽样分布
1.抽样方法 抽样方法 2.抽样分布 抽样分布 3.样本容量与抽样分布 样本容量与抽样分布 样本容量与
3
总体容量 (population size) ) N=45
1. 抽样方法
样本容量(sample size) 样本容量( ) 为推断总体的某些特征, 为推断总体的某些特征, 而从总体中按一定方法抽取若干 总体( 总体(population) ) 个体,这一过程称为抽样, 个体,这一过程称为抽样,所抽 抽样 取的个体组成的局部整体称为样 本。 抽样( 抽样(sampling) ) 样本( 样本(sample) )
简单随机样本
6
的。
抽样分
2. 抽样分
随机性 随机抽样随Fra bibliotek性 计算 样 本
理 论 上 可 计 算
总 体
统计量
X , S2 , p
样本统计量作为随机变量,具有特定的概率分 样本统计量作为随机变量, 的分 总 体 的 , 样本统计量的分 为抽样分 为抽样分
总体 定 性
µ,σ 2 , P
7
抽样分布 0.30 0.25 0.20 0.15 0.10
自正态总体抽样时, 自正态总体抽样时,总体均值与总 体中位数相同, 体中位数相同,而中位数的标准误差大 约比均值的标准误差大25%。因此,样 约比均值的标准误差大 。因此, 本均值更有效。 本均值更有效。
(2)有效性 )
x
Me
的抽样分布
的抽样分布
____
X
20
一致性
(3)一致性 )
∧ 如 lim P θ −θ p ξ =1(ξ为 意 果 任 小数 为 本容 ) ,n 样 量 n→∞ 则 θ 为θ的 足 致 标准 点估 量 称 满 一 性 的 计
9 23 36 38 25 12 23 7 2 3
从有限总体抽取的简单随机抽样
5
无限总体
1. 抽样方法
自无限总 体的简单 随机抽样
自无限总体抽取样本, 自无限总体抽取样本,采用无放回抽 如果满足以下两个条件, 样。如果满足以下两个条件,则称简 单随机抽样: 单随机抽样: (1)每个个体来自同一个总体。 )每个个体来自同一个总体。 (2)样本中每个个体的抽取是独立 )

s2 p 均为一致性估计量 x
n较 时 抽 分 大 的 样 布
ˆ θ1的抽样分布
ˆ θ2的抽样分布
θ
两个无偏点估计量的抽样分布
ˆ θ
n较小时的抽样分布
θ
两个不同容量样本的点估计量的抽样分布
21
ˆ θ
三、区间估计
1.总体均值的区间估计 总体均值的区间估计 2.总体比率的区间估计 总体比率的区间估计 3.样本容量的确定 样本容量的确定 4.总体方差的区间估计 总体方差的区间估计
__ x− µ P− Zα p p Zα =1−α 2 2 n σ
显著性水平 α
α=
α
2
+
α
2
__ σ σ __ Px− Zα p µ p x+ Zα =1−α 2 2 n n
置信度 1-α α 1−α
α
0
α
2
2
显著性水平α下 显著性水平 下,µ在1- α置信水平下的 在 置信水平下的 置信区间: 置信区间:
x 的分布
2. 抽样分布
N=1000名公司员工总体,抽取 名公司员工总体, 名公司员工总体 500个容量为 个容量为n=30的简单随机 个容量为 的简单随机 样本的平均年薪、 样本的平均年薪、大学毕业生比
0.05
率、年薪标准差的分布直方图。 年薪标准差的分布直方图。
50000 51000 52000 53000 54000 0.40 0.30 0.25 0.20 0.15 0.10 0.10 0.05 0.05 2600 3400 4200 5000 0.32 0.48 0.64 0.80 0.35
的分布即可用正态近似。 值 x 的分布即可用正态近似。
10
抽样分布
中心极限定理作用下
x 的概率密度
f ( x)
2. 抽样分布
1
δx =
δ
n
f ( x) =
(x−µ) −
e
2δ x2
2
δ x 2π
E(x) = µ
x
标准正态分布
x−µ 1 = f e δ n 2π
x − 2
2
X~ µ, .152 0
(
)
α = 0.05
n = 9σ = 0.15 1−α = 0.95x = 2.14 α = 0.025 Zα 2 =1.96 2
__
σ __ σ __ , x + Zα x − Zα 2 2 n n
0.15 0.15 21.4 −1.96 ,21.4 +1.96 = (21.302 9 9 21.498)
∧ Eθ ≠ θ
偏差
θ

参数θ等于抽样 参数 等于抽样 参数θ不等于抽样 参数 不等于抽样 分布的均值(无 分布的均值( 分布的均值( 分布的均值(有偏 _ _ _ 偏估计量) 偏估计量) 估计量) E x = µ 估计量)
E ( p) = P E ( s2
θ

µ 设任意总体均值为 , 方差为δ 2 , x1, x2 ,Lxn 是取自总体的随机样本 , 1 n 态分布。 态分布。 x = ∑xi, 则当 n → ∞时 n i=1 δ2 x−µ 实践中, 实践中,当n≥30,样本均 , x ~ N µ, ; 1 n δ n ~N(0,)
X
μ———总体的均值 总体的均值
1 n 1 n E x = E ∑xi = ∑E(xi ) = µ n i=1 n i=1
()
S=
σ
n
设总体均值为µ, 设总体均值为 ,总体方 差为σ 则有: 差为 2 ,则有:
S—随机变量 x 的标准差 随机变量 σ—总体的标准差 总体的标准差 n—样本容量 样本容量

θ

这说明, 的点估 这说明,µ的点估 计是1516小时; 小时; 计是 小时 σ2 的点估计是 16 2 4595小时 小时
2. 估计量的优良性
无偏性 有效性 一致性
相关文档
最新文档