统计学教案
统计学
设θ是未知参数,12(,,,)n X X X L 是来自总体的样本,构造两个统计量
11?T θ=12(,,,)n X X X L ,22
?T θ=12(,,,)n X X X L ,对于给定的α(0<α<1),若1?θ、2?θ满足
{
1?P θ≤ }2
?θθ≤ 1α=-
则称随机区间[1?θ,2?θ]是参数θ的置信水平为1α-的置信区间, 1α-称为[1
?θ,2?θ]的置信度,1?θ,2?θ称为置信限。
这里有几点需要说明:
(1)区间[1?θ,2?θ]的端点1?θ,2?θ及长度2?θ-1
?θ都是样本的函数,从而都是随机变量,因此[1?θ,2
?θ]是一个随机区间。 (2){
1?P θ≤ }2
?θθ≤ 1α=-是说随机区间
[1?θ,2
?θ]以1α-的概率包含未知参数真值,区间长度2?θ-1
?θ描述估计的精度,置信水平1α-描述了估计的可靠度。 (3)因为未知参数θ是非随机变量,所以不能说θ落入区间[1?θ,2?θ]的概率是1α-,而应是随机区间[1?θ,2?θ]包含θ的概率是1α-。
通俗地说,在点估计的基础上,给出总体参数的一个范围称为区间估计。 (二)总体均值的区间估计
1.正态总体且方差已知;或非正态总体、方差未知、大样本情况下
在这种情况下,样本均值的抽样分布呈正态分布,其数学期望为总体均值μ,方差为
2
n
σ。则2
X Z n
ασ
±?
称为总体均值在1α-置信水平下的置信区间。
区间估计步骤:
1.计算样本统计量
p
x ,p p )
1(-σ
2.计算抽样平均误差
3.计算极限误差
4.确定置信区间
5.估计总量指标
注意抽样方法的不同
[例]保险公司从投保人中随机抽取36人,计算得36人的平均年龄39.5X =岁,已知投保人平均年龄近似服从正态分布,标准差为岁,试求全体投保人平均年龄的置信水平为99%的置信区间。
解:10.99,0.01,αα-==查(0,1)N 表得2
2.575Z α=
2
7.2
39.5 2.57536.4136X Z n
α
σ
-=-?
= 2
7.2
39.5 2.57542.5936
X Z n
α
σ
+=+?
= 故全体投保人平均年龄的置信水平为99%的置信区间为[,] 若总体方差2σ未知,可用样本方差S 2
代替
即±=,,投保人平均年龄在90%的置信水平下的置信区间为岁~岁。
p
p x x μμαα2
2
Z =?Z =?[][]
p
p
x
x
p p x x ?+?
-?+?-,,NP
X
N
在简单随机不重复抽样条件下,
2
2
22222
Nz n N z αασ
σ
=
?+
σ或S 通常未知。一般按以下方法确定其估计值:
①过去的经验数据;②试验调查样本的S 。
[例] 在某企业中采用简单随机抽样调查职工月平均奖金额,设职工月奖金额服从标准差为10元的正态分布,要求估计的绝对误差为3元,可靠度为95%,试问应抽多少职工
解:已知2
10
3
10.95 1.96z ασα=?=-==则
2
2222
2
2
1.96104
2.68433
z n ασ
?=
==≈? 即需抽取43名职工作为样本进行调查。 (三)估计成数时样本大小的确定 在简单随机重复抽样条件下,得到样本容量:
2
22
(1)
P
Z P P n α-=
?(重复抽样条件下)
在简单随机不重复抽样条件下,我们可以得出估计总体比例时样本容量的计算公式为:
2
2
22
2(1)
(1)
P NZ P P n N Z P P αα-=
?+-(不重复抽样条件下)
[例]根据以往的生产统计,某种产品的合格率为90%,现要求绝对误差为5%,在置信水平为95%的置信区间时,应抽取多少个产品作为样本
已知,90%P = 5%P ?= 2
1.96Z α=
则222
(1)P
Z P P n α-=?=221.960.9(10.9)
1390.05??-= 必要样本容量的影响因素
1.总体方差的大小;
2.允许误差范围的大小;
3.概率保证程度;
4.抽样方法;
5.抽样的组织方式。
第三节抽样的组织形式
抽样的组织形式有纯随机抽样、机械抽样、类型抽样、整群抽样和多阶段抽样。
一、纯随机抽样
1.含义:对总体单位逐一编号,然后按随机原则直接从总体中抽出若干单位构成样本
2.特点:最符合抽样调查的随机原则,是基本形式。简便易行。
3.范围:仅适用于单位数不多、标志变异较小、分布较均匀的总体
二、类型抽样
1.含义:先将全及总体中的所有单位按某一主要标志分组,然后在各组中采用纯随机抽样或机械抽样方式,抽取一定数目的调查单位构成所需的样本。又叫分层抽样或分类抽样。
2.方法:
A比例分配法 n i/n=N i/N
B 最佳分配法根据各层单位的变异程度的大小来分配
C经济分配法除了考虑单位数目和变异程度外,还有调查费用。
3.特点:能保证分布的均匀性,提高样本的代表性,误差较小;能同时推断总体指标和各子总体的指标
三、机械抽样
1.含义:是先将全及总体所有单位按某一标志顺序编号排列,然后按照固定顺序和相等的空间距离或间隔,从中抽取样本单位的一种抽样组织方式。又叫等距抽样或系统抽样。