第7章 统计学参数估计

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

N的另一个点估计公式是: N=m(1+1/k)-1 , 其中m是缴获到的最大的坦克编号,k是被俘虏坦 克个数。假如你俘虏了10 辆坦克,其中最大编 号是50,那么坦克总数的一个估计是 (1+1/10)50-1=54。此处我们认为坦克的实际 数略大于最大编号。
从战后发现的德军记录来看,盟军的估计值非 常接近所生产的坦克的真实值。记录仍然表明统 计估计比通常通过其他情报方式作出估计要大大 接近于真实数目。统计学家们做得比间谍们更漂 亮!
点估计
含义:从总体中抽取一个样本,根据该样本的统计 量对总体的未知参数作出一个数值点的估计。
1. 点估计的可靠性用标准误差来衡量。 2. 一个具体的点估计值无法给出估计的可靠性度量
区间估计
含义:在点估计的基础上,给出总体参数估计取 值的一个区间范围。
置信区间
样本统计量 (点估计)
置信下限
置信上限
x t
2
s n
【例】某时装店的管理人员想估计其顾客的平均
年龄,随机抽取了16位顾客进行了调查,得到 样本均值为32岁,样本标准差为8岁,假定顾客 的年龄近似服从正态分布,求该店全部顾客平均
年龄在置信度为95%的置信区间。
解:因为总体近似服从正态分布,方差未知, 所抽样本为小样本,则总体均值的置信区间为
假设我们是盟军手下 负责解决这个问题的统计 人员。制造出来的坦克总 数肯定大于等于记录的最 大编号。为了找到它比最 大编号大多少,我们先找 到被缴获坦克编号的平均 值,并认为这个值是全部 编号的中点。因此样本均 值乘以2就是总数的一个 估计;当然要特别假设缴 获的坦克代表了所有坦克 的一个随机样本。
常用置信水平的临界值(Zα/2值)
置信水平
90% 95% 99%
α
0.10 0.05 0.01
α/2
0.05 0.025 0.005
Zα/2
1.645 1.96 2.58
评价估计量的标准
1. 无偏性

E(θ) =θ
2. 有效性
对同一总体参数的两个无偏估计量,标准差 越小的估计量估计效果越好,称估计量越有效。
总体分布 正态分布 非正态分布
样本量
大样本 (n≥30)
小样本 (n≤30)
大样本 (n≥30)
σ已知
x Z
2
n
x Z
2
n
x Z
2
n
σ未知
x Z
2
s n
x t
2
s n
x Z
2
s n
7.2.2 总体比例的区间估计
当样本为大样本时,样本比例p近似服从正态分布,
E( p) ,
2 p
(1 )
n
z p ~ N (0,1) (1 ) / n
【例】某超市想要估计每个顾客平均每次购物
花费的金额。根据过去的经验,标准差大约
为120元,现要以95%的置信水平去估计每 个顾客平均购物金额的置信区间,并要求边
际误差不超过20元,应抽取多少个顾客作 为样本?
解:已知=120(元),Z/2=1.96,E=20(元)
应抽取的样本容量为
n
Z2 2 2
解:已知n=100,zα/2 =1.96, p=42/100=0.42
p1 p
0.421 0.42
p z / 2
0.42 1.96 n
100
0.42 0.097
因此,该校找到工作的应届毕业生中女 同学的比例为0.323-0.517
【例】某企业在一项关于职工流动原因的
研究中,从该企业前职工的总体中随机 选取了200人组成一个样本。在对其进 行访问时,有140人说他们离开该企业 是由于同管理人员不能融洽相处。试对
总体方差的区间估计
1. 估计一个总体的方差或标准差
2. 假设总体服从正态分布
3. 总体方差 2 的点估计量为s2,且
n 1s 2 ~ 2 n 1
2
4. 总体方差在1- 置信水平下的置信区间

n 1s2
2
2
n
1
2
n 1s2
2 1
2
n 1
总体方差的区间估计
总体方差的
1 的置信区间
2
1
2
2
2
n , x Z 2
n
26 1.96
6 ,26 1.96 100
6 100
24.824,27.176
在95%的置信水平下估计大学生平均 每 天 参 加 锻 炼 的 时 间 在 24.824 ~ 27.176 分钟之间。
2. 方差未知,大样本(n≥30)
总体均值μ在1-α的置信水平下的置信区间为
(24)
39.3641
2 1
2
(n
1)
2 0.975
(24)
12.4011
25 1 93.21 2 25 1 93.21
39.3641
12.4011
56.83 2 180.39
该企业生产的食品总体重量标准差的的置 信区间为7.54g~13.43g
一个总体参数的区间估计
待估参数
均值
比例
大样本
s
8
x t0.025(161)
32 2.131 32 4.262 27.738
n
16
x t0.025(161)
s 32 2.131 n
8 32 4.262 36.262 16
因此,有95%的把握估计全部顾客平均年龄在 27.738至36.262之间。
不同情况下总体均值的区间估计
由于这种原因而离开该企业的人员的真 正比例构造95%的置信区间。
解:已知 n=200 ,p =0.7 , np =140>5,
n(1- p)=60>5,= 0.95,Z/2=1.96
pˆ Z 2
pˆ (1 pˆ ) n
0.7 1.96 0.7(1 0.7) 200
0.636,0.764
我们可以95%的概率保证该企业职工由 于同管理人员不能融洽相处而离开的比 例在63.6%~76.4%之间
小样本
大样本
2已知
2已知
Z分布
Z分布
Z分布
2未知
2未知
Z分布
t分布
方差 2分布
7.3 样本量的确定
样本量、置信水平、置信区间三者的关系
样本量
不变 不变 扩大 扩大
置信水平
提高 降低 不变 提高
置信区间
扩大 缩小 缩小 不变
估计总体均值时样本量的确定
总体均值的置信区间为
x Z
2
n
边际误差
E Z
2
区间估计的图示
x z 2 x
x
- 2.58x
-1.65 x
+1.65x
+2.58x
x
-1.96 x
+1.96x
90%的样本
95% 的样本
99% 的样本
1. 置信区间 ※
由样本统计量对总体参数进行估计时的估计 区间。
在某种程度上确信置信区间中包含总体参数的真值
2. 置信水平(置信度、置信系数)※
包含总体参数真值的置信区间占所有置信区间 的比例。常用1-α表示置信水平。
a. 总体参数的真值是未知的、固定的,构造出的 置信区间可能包含真值,也可能不包含真值;
b. 设置信水平为95%,则说明有95%的置信区间 包含总体真值,有5%的置信区间不包含总体真值。
练习题
1. 一个95%的置信区间是指( )
解 : 已 知 2=1800000 , =0.05 , Z/2=1.96,E=500
E2
(1.96) 2120 2
202
138.2976 139
结论:应抽取139个顾客作为样本。
【例】一家广告公司想估计某类商店去年
所花的平均广告费用有多少。经验表明 ,总体方差约为1800000元。如置信度 取95%,并要使估计处在总体平均值附 近500元的范围内,这家广告公司应抽 多大的样本?
107.5
95.0
108.8
115.6
100.0
123.5
102.0
101.6
102.2
116.6
95.4
97.8
108.6
105.0
136.8
102.8
101.5
98ቤተ መጻሕፍቲ ባይዱ4
93.3
解:已知n=25,1-=95% ,根据样本数据计算得
s2 =93.21
2置信度为95%的置信区间为
2
2
(n
1)
2 0.025
n
样本量
n
z / 2 2 2
E2
圆整法则
样本量与置信水平、总体方差、边际误差的关系
➢ 样本量与置信水平成正比,在其他条件不变的 情况下,置信水平越大,所需的样本量越大;
➢ 样本量与总体方差成正比,在其他条件不变的 情况下,总体的差异越大,所需的样本量越大;
➢ 样本量与边际误差的平方成反比,在其他条件 不变的情况下,可以接受的边际误差的平方越大, 所需的样本量越小;
当总体比例π已知时,总体比例π在1-α置信水 平下的置信区间为:
p z / 2
(1 )
n
实际情况中,π值是未知的,要被估计 的,所以需要用样本比例p来代替π,则 总体比例的置信区间为:
p(1 p)
p z / 2
n
【例】某所大学想要了解应届毕业生在大四找 到工作的学生中女生所占的比例,随机抽取了 100名找到工作的应届毕业生,其中42人为女 生。试以95%的置信水平估计该校找到工作的 应届毕业生中女同学的比例的置信区间。
2
自由度为n-1的2
总体方差的区间估计
【例】一家食品生产企业以生产袋装食品为主,现从某
天生产的一批食品中随机抽取了25袋,测得每袋重量如 下表所示。已知产品重量的分布服从正态分布。以95% 的置信水平建立该种食品重量方差的置信区间
25袋食品的重量
112.5
101.0
103.0
102.0
100.5
102.6
置信区间为:
x Z
2
s 40 1.645 n
5 40 1.37 36
则投保人平均年龄在90%的置信度下的
置信区间为38.63岁-41.37岁。
3. 正态总体、方差未知、小样本
用样本方差s2代替总体方差σ2
样本均值经标准化处理后服从自由度为
(n-1)的t分布
t x ~ t(n 1)
s/ n
总体均值μ在1-α的置信水平下的置信区间为
第7章 参数估计
统计方法
描述统计
推断统计
参数估计
假设检验
7.1 参数估计
1. 用样本统计量去估计总体参数。
2. 估计量——用来估计总体参数的统计量 估计值——一个具体样本计算出的统计 量的数值
参数估计的方法
点估计
区间估计
二战中的点估计—
德军有多少辆坦克?
二战期间,盟军非常想知
道德军总共制造了多少辆坦克。 德国人在制造坦克时是墨守成规 的,他们把坦克从1开始进行了 连续编号。在战争过程中,盟军 缴获了一些敌军坦克,并记录了 它们的生产编号。那么怎样利用 这些号码来估计坦克总数呢?在 这个问题中,总体参数是未知的 坦克总数N,而缴获坦克的编号则 是样本。
【例】某大学从该校学生中随机抽取100人, 调查到他们平均每天参加体育锻炼的时间为 26分钟。试以95%的置信水平估计该大学 全体学生平均每天参加体育锻炼的时间(已 知总体方差为36分钟)。
解:虽然总体分布未知,但总体方差已知,
样本量充分大, x=26, =6,n=100, Z
/2=1.96
x Z 2
1.正态总体,方差已知或非正态总体、大样本
样本均值 X~N(μ,σ2/n)
z x ~ N (0,1) / n
总体均值μ在1-α的置信水平下的置信区间为
x Z
2
n
【例】某厂成批生产某种金属棒,其长度服从
正态分布,标准差为0.06厘米,对一个由25 根棒组成的随机样本进行了测量,平均长度为
7.48厘米,求这批金属棒平均长度μ的置信度 为95%的置信区间。
A 总体参数有95%的概率落在这一区间内 B 总体参数有5%的概率落在这一区间内 C 在用同样方法构造的总体参数的多个区间
中,有95%的区间包含该总体参数 D 在用同样方法构造的总体参数的多个区间
中,有95%的区间不包含该总体参数
2. 根据一个具体的样本求出的总体均值的95% 的置信区间( )
A 以95%的概率包含总体均值 B 有5%的可能性包含总体均值 C 一定包含总体均值 D 要么包含总体均值,要么不包含总体均值
3. 一致性
随着样本量的增大,点估计量的值越来越接 近被估总体的参数。
7.2 一个总体参数的区间估计
7.2.1 总体均值的区间估计
总体均值的置信区间=样本均值±边际误差
• 总体是否为正态分布 • 总体方差是否已知 • 样本是大样本还是小样本
1.正态总体,方差已知或非正态总体、大样本 2.分布未知,方差未知,大样本 3.正态总体,方差未知,小样本
x Z
2
s n
【例】一家保险公司收集到由36位投保人组成 的随机样本,他们的平均年龄为40岁,标准差 为5岁,求这家保险公司的所有投保人的平均 年龄在90%的置信水平下的置信区间。
解:总体的分布未知,总体方差也未知,但所抽
样本容量36为大样本,因此,求总体均值的 置信区间可用样本标准差代替总体标准差
解:总体服从正态分布,方差已知,置信度为95% 则z0.025=1.96,
x Z
2
7.48 1.96 0.06 7.48 0.024 7.456
n
25
x Z
2
7.48 1.96 0.06 7.48 0.024 7.504
n
25
在置信度为95%水平下,金属棒的平均长度在 7.456~7.504厘米之间。
相关文档
最新文档