04第四章分层抽样
合集下载
04-第四章_分层随机抽样

L
下面讨论估计量的期望与方差。 (1)对于一般分层抽样
ˆ )也 对于一般的分层抽样,若 Y h 是 Y h 的无偏估计量,则 Y st (或 Y st
是 Y (或 Y )的无偏估计:
Ù
Ù
E (Y st ) = å Wh E (Y h ) = Y
h =1
Ù
L
Ù
ˆst ) = NE (Y st ) = N Y = Y E (Y
L
2 L Sh S2 - å Wh2 h nh h =1 Nh
=å
简便公式
2 L Wh2 Sh W S2 -å h h nh N h =1 h =1
V ( y st ) = V (å Wh y h )
h =1
L
= å Wh2V ( y h )
h =1 L
L
= å Wh2
h =1
Sh2 (1 - f h ) nh
åN
h =1
L
h
=N。
Wh =
Nh 称为层权,它也是已知的。 N
以 Yhi 表示第 h 层总体的第 i 个单元的指标值,以 yhi 表示第 h 层样本的 第 i 个单元的指标值。
Yh =
1 Nh 1 nh
åY
i =1 nh i =1
Nh
hi
表示第 h 层的总体均值,
yh =
åy
hi
表示第 h 层的样本均值(其中 nh 是第 h 层的样本量) ,
h =1 h =1 h =1 L L Ù L Ù Ù
Ù
3
(2)对于分层随机抽样
Ù
特别对于分层随机抽样,Y h 一般均取为简单估计:层样本均值 y h ,因 此 Y 的简单估计为:
第4章分层随机抽样-精品文档

L
ˆ ˆ ˆ ˆ Yu sY ( ), Yu sY ( ) 1 1 2 2
9
例4.2 调查某地区的居民奶制品年消费支出,以居民户为 抽样单元,根据经济及收入水平将居民户分为4层,每层 按简单随机抽样抽取 10 户,调查数据如下,估计该地区 居民奶制品年消费总支出及估计的标准差。 样本户奶制品年消费支出
5
例4.1 总体由1000人组成,按以往的收入情况将总体分成两 层:第一层(高收入层),20人;第二层(低收入层), 980人。从第一层随机抽取2人,调查上月收入,得数据 (单位:元)1200及1600;从第二层随机抽取8人,调查上 月收入,得数据(单位:元)220、230、180、320、400、 340、280、360。估计这1000人上月平均收入。 解: ˆ ˆ Ny Ny Y ˆ 1 Y 2 2 2 Y 11 W Wy 1y 1 2 2 N N 2 0 9 8 0 1 4 0 0 2 9 1 .2 53 1 3 .4 3 1 0 0 0 1 0 0 0
Y 的 置 信 度 为 1 的 置 信 区 间 为 : u s (y , y u s (y y s t s t) s t s t) 1 1 2 2
2 . 总 体 总 和的 Y 估 计 : ˆ Ny ˆ Y ˆ NY Y h h h h st
h 1 h 1 h 1 L L L
f 21 h 2 ˆ ˆ 方 差 V ( Y ) V ( Y ) N V ( y ) N S h s t h h n h 1 h 1 h 1 h
L L 2 h L
1 f 2 2 h ˆ ˆ 方 差 V ( Y ) 的 无 偏 估 计 : v ( Y ) N s h h n h 1 h Y 的 置 信 度 为 1 的 置 信 区 间 为 :
ˆ ˆ ˆ ˆ Yu sY ( ), Yu sY ( ) 1 1 2 2
9
例4.2 调查某地区的居民奶制品年消费支出,以居民户为 抽样单元,根据经济及收入水平将居民户分为4层,每层 按简单随机抽样抽取 10 户,调查数据如下,估计该地区 居民奶制品年消费总支出及估计的标准差。 样本户奶制品年消费支出
5
例4.1 总体由1000人组成,按以往的收入情况将总体分成两 层:第一层(高收入层),20人;第二层(低收入层), 980人。从第一层随机抽取2人,调查上月收入,得数据 (单位:元)1200及1600;从第二层随机抽取8人,调查上 月收入,得数据(单位:元)220、230、180、320、400、 340、280、360。估计这1000人上月平均收入。 解: ˆ ˆ Ny Ny Y ˆ 1 Y 2 2 2 Y 11 W Wy 1y 1 2 2 N N 2 0 9 8 0 1 4 0 0 2 9 1 .2 53 1 3 .4 3 1 0 0 0 1 0 0 0
Y 的 置 信 度 为 1 的 置 信 区 间 为 : u s (y , y u s (y y s t s t) s t s t) 1 1 2 2
2 . 总 体 总 和的 Y 估 计 : ˆ Ny ˆ Y ˆ NY Y h h h h st
h 1 h 1 h 1 L L L
f 21 h 2 ˆ ˆ 方 差 V ( Y ) V ( Y ) N V ( y ) N S h s t h h n h 1 h 1 h 1 h
L L 2 h L
1 f 2 2 h ˆ ˆ 方 差 V ( Y ) 的 无 偏 估 计 : v ( Y ) N s h h n h 1 h Y 的 置 信 度 为 1 的 置 信 区 间 为 :
2-1-3分层抽样4

1 L yst = ∑ Wh yh (或 = ∑ N h yh ) 或 N h =1 h =1 ~ 的无偏估计可选为: 总体总和 Y 的无偏估计可选为:
L
(4.2)
% yst = N ⋅ yst = N ⋅ ∑ Wh yh = ∑ N h yh
h =1 h =1
L
L
(4.3)
的方差为: 估计量 y st 的方差为: L Var ( yst ) = Var ( ∑ Wh yh ) 由于各个小盒子的抽样过程是相互独立的,故各个 yh相互 由于各个小盒子的抽样过程是相互独立的, 独立,由独立随机变量之和的方差计算公式, 独立,由独立随机变量之和的方差计算公式,有
含义 的层权 抽样比 总体均值 样本均值
记号 公式
Yh
yh
2 Sh
2 sh
∑Y
i =1
Nh
hi
= N hYh
∑y
i =1
nh
hi
= nh yh
(Yhi − Yh )2 ∑
i =1
Nh
( yhi − yh )2 ∑
i =1
nh
Nh −1
nh − 1
代表的 第 h 层的 第 h 层的 第 h 层的 第 h 层的 含义 总体总量 样本总量 总体方差 样本方差
h=1 i =1 L
h =1
L
(4.5)
(4.5)式两端各除以 -1),假如各层的单元数 N h都很大,当 式两端各除以(N- , 都很大, 式两端各除以 近似认为: 近似认为: N h ≈ N h − 1 ≈ N h = W (4.6) h
N −1
N −1
N
因此直接来自总体的简单随机抽样平均数的方差大约为: 因此直接来自总体的简单随机抽样平均数的方差大约为: L 1 1 L 2 2 Var ( y ) = ( − ) ∑ Wh Sh + ∑ Wh (Yh − Y ) (4.7) n N h =1 h =1 (4.7)式花括弧内第一项为各个小盒子方差的加权和,而第二 式花括弧内第一项为各个小盒子方差的加权和, 式花括弧内第一项为各个小盒子方差的加权和 项则表示了各小盒子之间的差异平方和。比较(4.4)和(4.7), 项则表示了各小盒子之间的差异平方和。比较 和 , 那么易见(4.4)式变为 若取 nh n = Wh ,那么易见 式变为 1 1 L 2 Var ( yst ) = ( − )∑ Wh S h n N h =1
分层随机抽样

抽样均按简单随机抽样进行,求全市年 平均户收入的估计及其 90%的置信区间。
解: 计算层权: W1=N1/N=0.137, W2=N2/N=0.863。 (1) y st W1 y1 W2 y 2 0.137 15180 0.863 9856 10585.39
(2)求v( y st )
6 第 h 层抽样比为:
nh fh Nh
第二节 简单估计量及其性质
一、对总体均值与总量的估计
(一)对总体均值与总量的估计 1 对一般分层抽样:
ˆ WY ˆ, Y hh st
h 1 L
ˆ Y ˆ Y st h
h 1
L
ˆ , 则: ˆ NY 如果每个Y h h h ˆ ˆ Y NY
s( y st ) v( y st ) 142.312 1 90%, 1.645 全市年户均收入Y 的90%的置信区间为 10585.39 1.645 142.312,即: [10351.29元, 10819.49元]
二、对总体比例(成数) 的估计
1 成数 P 或总数 A 的估计: 层比例 Ph=Ah/Nh , Qh=1-Ph 层样本比例 ph=ah/nh , qh=1-ph Ah 与 ah 是第 h 层总体及样本中具有 所研究特征的单元数。
st st
2 对一般的分层抽样:
ˆ 是Y 的无偏估计, 若Y h h ˆ (Y ˆ )也是Y (Y )的无偏估计: 则Y
st st
由于各层的抽样是相互独立的,因此: ˆ ) V( W Y ˆ ) W 2V (Y ˆ) V (Y h h h st
h 1 h 1 L L
ˆ ) V (Y ˆ) V (Y st h
分层抽样 课件

B.某社区有500户家庭,其中高收入的家庭125户,中等收入的家庭
280户,低收入的家庭95户,为了了解生活购买力的某项指标,要从中
抽取一个容量为100户的样本
C.从1 000名工人中抽取100人调查上班途中所用时间
D.从生产流水线上抽取样本检查产品质量
解析:A项中总体所含个体无差异且个数较少,适合用简单随机抽
岁的职工;50岁及其以上的职工.
(2)确定每层抽取个体的个数,抽样比为
1
100
500
1
= ,
5
则在不到35 岁的职工中抽取 125× = 25(人);
5
1
在 35 岁到 49 岁的职工中抽取 280× = 56(人);
5
1
在 50 岁及其以上的职工中抽取 95× = 19(人).
5
(3)在各层分别按抽签法或随机数法抽取样本.
(4)抽样:各层分别按简单随机抽样或系统抽样的方法抽取
样本.(Biblioteka )成样:综合各层抽样,组成样本分层,计算,定数,抽样,成样
当总体由差异明显的几部分组成时,往往采用分层抽样
归纳总结分层抽样的特点:
(1)分层抽取;
(2)按比例抽取;
(3)必须结合简单随机抽样或系统抽样完成.
【做一做】 有一批产品,其中一等品10件,二等品25件,次品5件.
数目 =
样本容量
总体容量
× 该层个体数目.
2.选择抽样方法的原则
剖析:(1)若总体由差异明显的几部分组成,则选用分层抽样.
(2)若总体所含个体没有差异,则考虑采用简单随机抽样或系统抽
样.
当总体容量较小时宜用抽签法;当总体容量较大,样本容量较小
时宜用随机数法;当总体容量较大,样本容量也较大时宜用系统抽
280户,低收入的家庭95户,为了了解生活购买力的某项指标,要从中
抽取一个容量为100户的样本
C.从1 000名工人中抽取100人调查上班途中所用时间
D.从生产流水线上抽取样本检查产品质量
解析:A项中总体所含个体无差异且个数较少,适合用简单随机抽
岁的职工;50岁及其以上的职工.
(2)确定每层抽取个体的个数,抽样比为
1
100
500
1
= ,
5
则在不到35 岁的职工中抽取 125× = 25(人);
5
1
在 35 岁到 49 岁的职工中抽取 280× = 56(人);
5
1
在 50 岁及其以上的职工中抽取 95× = 19(人).
5
(3)在各层分别按抽签法或随机数法抽取样本.
(4)抽样:各层分别按简单随机抽样或系统抽样的方法抽取
样本.(Biblioteka )成样:综合各层抽样,组成样本分层,计算,定数,抽样,成样
当总体由差异明显的几部分组成时,往往采用分层抽样
归纳总结分层抽样的特点:
(1)分层抽取;
(2)按比例抽取;
(3)必须结合简单随机抽样或系统抽样完成.
【做一做】 有一批产品,其中一等品10件,二等品25件,次品5件.
数目 =
样本容量
总体容量
× 该层个体数目.
2.选择抽样方法的原则
剖析:(1)若总体由差异明显的几部分组成,则选用分层抽样.
(2)若总体所含个体没有差异,则考虑采用简单随机抽样或系统抽
样.
当总体容量较小时宜用抽签法;当总体容量较大,样本容量较小
时宜用随机数法;当总体容量较大,样本容量也较大时宜用系统抽
分层抽样要求

将相近的单位归为一层,且每一层必有若干 单位抽中,所以,避免了样本明显偏高或偏 低情况。
比较定额抽样,与分层抽样有何区别?
①分类②确定每类抽选比例③主观抽样
第四章 分层抽样
2.分层抽样不仅能对总体指标进行推算, 而且能对各层指标进行推算。
有时调查的目的不仅要推算总体指标,可能 还要推算各层的指标。
第四章 分层抽样
在不重复抽样下,根据前一章公式可知
2 xi
1
fi
(第 i层单位数占总体
单位数的比重)
则:
Xˆ
K
Wi xi
第四章 分层抽样
二、分层抽样简单估计的抽样标准误
如果我们对总体方差 进2 行分解,可得
2
2 i
2 P
即
总体方差=平均层内方差+层间方差
我们知道,纯随机抽样的抽样误差,是按总体 方差计算的,对于分层抽样,由于对各层而言 是全面调查,故层间不存在抽样误差问题。所 以,其抽样方差等于平均层内方差。
二、使用场合与分层原则
第四章 分层抽样
根据分层抽样的特点,分层除了可以提供子总 体指标和便于调查的组织实施外,通常,使用分 层抽样的主要目的是为了提高估计的精度。为充 分利用分层抽样的特点,在一项抽样调查项目中 ,往往反复使用分层抽样方法。
在对层进行具体划分时,通常考虑如下原则:
1.层内单元具有相同性质。
通常按调查对象的不同类型进行划分。这时, 分层抽样能够对每一类的目标量进行估计。
第四章 分层抽样
2.使层间单元的差异尽可能大。从而达到提 高抽样估计精度的目的。
3.既按类型又按层内单元标志值相近的原则 进行多重分层,同时达到实现估计层值以及提 高估计精度的目的。
比较定额抽样,与分层抽样有何区别?
①分类②确定每类抽选比例③主观抽样
第四章 分层抽样
2.分层抽样不仅能对总体指标进行推算, 而且能对各层指标进行推算。
有时调查的目的不仅要推算总体指标,可能 还要推算各层的指标。
第四章 分层抽样
在不重复抽样下,根据前一章公式可知
2 xi
1
fi
(第 i层单位数占总体
单位数的比重)
则:
Xˆ
K
Wi xi
第四章 分层抽样
二、分层抽样简单估计的抽样标准误
如果我们对总体方差 进2 行分解,可得
2
2 i
2 P
即
总体方差=平均层内方差+层间方差
我们知道,纯随机抽样的抽样误差,是按总体 方差计算的,对于分层抽样,由于对各层而言 是全面调查,故层间不存在抽样误差问题。所 以,其抽样方差等于平均层内方差。
二、使用场合与分层原则
第四章 分层抽样
根据分层抽样的特点,分层除了可以提供子总 体指标和便于调查的组织实施外,通常,使用分 层抽样的主要目的是为了提高估计的精度。为充 分利用分层抽样的特点,在一项抽样调查项目中 ,往往反复使用分层抽样方法。
在对层进行具体划分时,通常考虑如下原则:
1.层内单元具有相同性质。
通常按调查对象的不同类型进行划分。这时, 分层抽样能够对每一类的目标量进行估计。
第四章 分层抽样
2.使层间单元的差异尽可能大。从而达到提 高抽样估计精度的目的。
3.既按类型又按层内单元标志值相近的原则 进行多重分层,同时达到实现估计层值以及提 高估计精度的目的。
分层抽样

2 3
400 750
4 1500
50
35
15
0
20
30
25
10
30
25
解: N = 200+400+750+1500=2580 nh =10( h=1,2,3,4) 各层的层权及抽样比为:
N1 200 W1 0.07018 N 2850 N 400 W2 2 0.14035 N 2850 N 750 W3 3 0.26316 N 2850 N 4 1500 W4 0.52632 N 2850
三、符号说明
关于第h层的记号如下:
第二节 估计量
一.总体均值的估计 (一)简单估计量的定义 对于分层样本,对总体均值Y 的估计是通过对各层的Yh 的估计, 按层权 Wh 加权平均得到的。 公式为:
1 ˆ ˆ Yst WhYh N h 1
L
ˆ N Y hh
h 1
L
如果得到的是分层随机样本,则总体均值 Y 的简单估 计为:
f1 n1 10 0.05 N1 200
n2 10 f2 0.025 N2 400 f3 f4 n3 10 0.013 3 N3 750 n4 10 0.006 7 N4 150 0
各层样本均值及样本方差为:
1 y1 y1i 39.5 n1 i 1 y2 105 y3 165 y4 24
y 15180 300 9856 250 / 550 1)简单估计量的定义 总体比例P的估计为:
L
pst Wh ph
h 1
(二)估计量的性质 如果定义 1, 第i个单元具有所考虑的特征 Yi , 其他 i=1,2 … N 0
抽样技术第4章分层抽样

4.7 事后分层
在实际当中,有时进行事先分层会存在 一定的困难。 1.各层的抽样框无法得到。 2.几个变量都适合于分层,而要进行事先的 多重交叉分层存在一定困难。 3.总体规模太大,事先分层太费事等。 在这种情况下,就可以考虑采用事后分层 技术。
事后分层的具体实施办法是:先采用简
单随机抽样的方法从总体中抽取一个样本
第四章 分层抽样
4.1 什么是分层抽样
在例2.4中我们用简单随机抽样估计每 个郡的平均农场面积。我们提到,即使我 们认真细致地产生了一个随机样本,还是 有一些地区被过分代表,而另一些则根本 没有代表。例4.1用分层抽样保持分层变量 在样本中的均衡,从而使得总体得到全面 的估计。
使用分层抽样的理由: 1.我们要防止得到一个很差的样本。
分层抽样比例
如我们在2.3中所观察到的一样,比例是取
值为0到1之间的一个变量的均值,为了得
到比例的推断,我们用等式(4.1)—
(4.5),其中
,
,
则有
估计总体单元的总数有一个特别相似的性质:
因此,总体单元的总数估计量是每层总数估
计量之和 。类似有
。
例4.3 美国团体学习委员会(ACLS)用分层随 机抽样在七门学科中选取ACLS中的团体研究出版 物格局和属于这些团体的学者使用电脑和图书馆 的情况。数据见表4.2.
单元数。这样第h层中第j个单元入样的概率
为
。因此,抽样权重只是抽样概率
的倒数:
(4.8)
抽样权重之和等于总体容量N,每个抽样单 元代表一特定数量的总体单元。因此,整 个样本代表整个总体。这个定义可以用于 检验权重变量是否正确:如果样本权重之 和是其它的数,而不是N,那么肯定有某个 地方出错了。 总体总数的估计量可以写成以下形式:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
⑥分层抽样中除了可以推断总体参数外,还可以推断各不 同层的数量特征,并进一步作对比分析,从而满足不同方 面的需要,也能帮助人们对总体作更全面、更深入的了解。 但对各层的估计缺乏精度保证。
⑦分层抽样调查实施中的组织管理及数据收集和汇总处理 可以分别在各层内独立地进行,因此较之简单随机抽样更 方便。
变量容易确定。
第二节 总体参数的估计
一、分层抽样相关符号说明 在分层抽样中,先将含有 N个单位的总体分成分别含有
N1, N2 ,个单, N位L 的 层,这L 些层之间互不重复,且有:
N1 N2 NL N
从每层中抽取一个子样本,而且抽样在各层中独立进行, 若各层内样本量分别用n1, n2 ,表, n示L ,则将这些子样本合起来 就是从总体中所抽取的一个样本。其样本容量 显然n满 足: n1 n2 ,对nL于分n 层抽样,经常使用下列一些符号:
第三节 总样本量的分配
一、总样本量在各层间的分配
在分层抽样中,一个重要的问题是总的样本量如何在各层之 间进行分配。通常考虑:⑴精度和费用问题。即如何分配才 能在费用一定时使总的精度和各层估计精度最高?⑵数据处 理问题。即如何分配才能使调查数据的处理工作更加简洁, 也使估计量及其方差的确定形式更为简单明了?⑶各层的容
分层抽样具有以下特点:
①分层抽样能够充分地利用关于总体的各种已知信息进行 分层,因此抽样的效果一般比简单随机抽样要好。但当对 总体缺乏较多的了解时,则无法分层或不能保证分层的效 果。
②在分层抽样中,总体的方差一般可以分解为层间方差和 层内方差两部分。由于分层抽样的误差只与层内差异有关, 而与层间差异无关,因此,分层抽样可以提高估计量的精 度。
也Yˆh 相互独立,因此总体均值 估Y计量的方差是总体各层均 值估计量方差的加权平均,即
式中
V (Yˆst ) V ( yst ) L Wh2V (Yˆh )
h
V是(Yˆ第h ) h层总体均值估计量的方差。
对于分层随机抽样,则有:
V ( yst )
L h
Wh
2
1
n
f
h
h
Sh2
L h
Wh
第四章 分层抽样
第一节 第二节 第三节 第四节
分层抽样概述 总体参数的估计 总样本量的分配 分层与提高精度
第一节 分层抽样概述
分层抽样是在抽样之前,先将总体按一定标志划分为若 干个层(组),然后在各层内分别独立地进行抽样。由 此所抽得的样本称之为分层样本。各层所抽的样本也是 互相独立的。
L
Yˆst Nyst N h yh
h
3、总体比例P的估计量
按照总体均值估计量的公式,可推出总体比例(成数)P 的估计量为:
L
L
Pˆst Wh Pˆh Wh ph
h
h
可以证明,在分层随机抽样中,yst是Y 的无偏估计量,Yˆ是 Y 的无偏估计量,Pˆs是t P的无偏估计量。
三、估计量的方差 1、总体均值估计量的方差 对于一般的分层抽样,由于各层的抽样是相互独立的,诸
N h 第h 层总体中的单位数; nh 第h 层样本中的单位数;
Yh 第h 层的总体总量;
yh 第h 层的样本总量;
Yhi 第h 层第i 个总体单元(单位)的取值;
i yhi 第h 层第 个样本单元(单位)的取值;
Wh
Nh N
第h 层的总体层权;
fh
nh Nh
Yh
1 Nh
Nh
Yhi
i 1
2、总体总和估计量的方差
有了总体均值估计量的方差,就可推导出总体总和估计 量的方差:
V (Yˆst ) N 2V (Yˆst ) L N h 2V (Yˆh )
h
对于分层随机抽样,则有:
V (Yˆst )
L h
Nh2
1
f nh
h
S
h
2
L h
Nh (Nh
nh )
Sh2 nh
3、总体比例估计量的方差
其中等号只有在以下情形时才成立(达到极小值):
Chnh nh Ch K
Wh Sh
Wh Sh
nh
( 为K常数),这意味着:
nh
K Wh Sh Ch
则 n nh K Wh Sh Ch
因此
K
n
Wh Sh Ch
所以使达到极小的最优分配即为
即
nh Wh Sh
n
L
Wh Sh
h 1
Ch Ch
柯西—许瓦兹(Cauchy-Schwarz)不等式 对于任意的 ah 0,b,h 有0 :
( ah2 )( bh2 ) ( ahbh )2
h
h
h
当且仅当 ah (k 为常k 数)时,等号成立。
bh
根据柯西—许瓦兹(Cauchy-Schwarz)不等式,有
V C ( Wh Sh Ch )2
2
(
1 nh
1 Nh
)S
h
2
L Wh 2 Sh 2 1
h nh
N
L h
Wh Sh 2
1 N2
L h
N h (N h
nh )
Sh2 nh
可见,在分层抽样中,总体均值估计量的方差只与各层 内的方差有关,而同层间方差无关。而总体方差又是由 层内方差与层间方差两部分构成的。所以,估计量的方 差小于总体方差。
L
C C0 Ch nh h 1
其中C是0 固定费用,如组织宣传费、分层及编制抽样框的 费用等, 是Ch在第h层抽取一个单元的平均费用,包括调查 员报酬、旅差费、调查测试费等。
根据前面的论述,在估计总体均值时,对给定的各层样本
量nh,估计量的方差为:
V
Wh 2 Sh 2 1
nh
N
Wh Sh 2
满足下述条件时,分层在精度上会有很大的得益: ①总体是由一些大小差异很大的单元组成的,即总体差异
大; ②分层后,每层所包含的总体单元数应是可知的,也即分
层后各层的权重是确知的或可以精确估计的; ③要调查的主要变量(标志)与单元的大小是密切相关的; ④对单元的大小有很好的测量资料可用于分层,也即分层
h
为各层内成数方差的平均。
(二)最优分配
1、一般情形
在分层随机抽样中,在给定的费用条件下,使估计量的方 差达到最小,或在精度要求(常用方差表示)一定条件下, 使总费用最小的各层样本量的分配称为最优分配。
在分层随机抽样中,费用函数可能是简单线性的,也可能 是其它复杂形式,这里主要考虑简单线性的费用函数:
第h 层的总体均值;
第h 层的抽样比;
1 nh
yh nh i1 yhi 第h 层的样本均值;
S
2 h
1 Nh 1
Nh
(Yhi
i 1
Yh )2
第h 层的总体方差;
sh2
1 nh 1
nh i 1
( yhi
yh )2
第h 层的样本方差。
L Nh
Y =
yhi 为总体总量;
h1 i1
L表示分层的层数; h表示层的编号(h=1,2,3,…,L);
NhSh L NhSh h 1
Ch Ch
nh
n
Wh Sh
L
Wh Sh
h 1
Ch Ch
n
NhSh
L
Ch
NhSh Ch
(nh应取整)
h 1
可见,最优分配的结果既考虑了总体各层的差异,也同时
考虑了总体各层内变异程度上的差异和各层内平均调查费
用的差异。当层的容量愈大、层内变异程度愈大,层内每
调查一个单元的费用愈小,则在该层中抽取的单元应愈多。
L
Wh yh
h1
1 N
L
Nh yh
h1
yst
y
1 n
L
nh yh
h 1
原果这因每种在层情于都况权有称数为yst问n按h题/比n。或例在N分hy/中配sNt ,的,每分nhn即h/层层N都抽h ,有样n /则精,N 确各完的层全权的fh 相数抽等f样N于h比。/ N相如y。
同。
2、总体总和Y的估计量 有了总体均值的估计量,就可推出总体总和的估计量:
估计总体比例,当N充h 分大时,有:
L
V (Pˆst ) Wh 2V (Pˆh )
h
对于分层随机抽样,则有:
V (Pˆst )
L h
Wh
2
1
n
f
h
h
Ph (1 Ph )
(N h N h 1)
1 N2
L h
Nh (Nh
nh )
Ph (1 nh
Ph )
四、方差的估计量
按上述方法确定估计量的方差时,要求各层的总体方差应 事先已知,但实际工作中,各层的总体方差又常常是未知 的,此时,一般可用对应的各层样本方差替代,以对估计 量的方差作出估计。
如果每层中的抽样都是简单随机的,则这种抽样就叫做 分层随机抽样。由此所得到的样本称做分层随机样本。
分层时应遵循“尽可能使层内差异小,而使层间差异大” 的原则,同时要使分层的结果既无重复又无遗漏。
进行分层抽样时应注意:①层内抽样设计的选择;②分 层变量的选择;③各层样本量的分配;④层数;⑤层的 分界。以前只重视③,近年来,④和⑤引起了越来越多 的关注。
当用样本资料估计方差V (Pˆ时st ) ,可将
用 Ph (1 Ph) nh
替ph代n(1h ,1ph )则得:
Vˆ(Pˆst )
L h
Wh 2 (1
fh )
ph (1 ph ) nh 1
是
1 L
的无偏N 2估h计Nh。(Nh
nh
)
ph (1 ph nh 1
⑦分层抽样调查实施中的组织管理及数据收集和汇总处理 可以分别在各层内独立地进行,因此较之简单随机抽样更 方便。
变量容易确定。
第二节 总体参数的估计
一、分层抽样相关符号说明 在分层抽样中,先将含有 N个单位的总体分成分别含有
N1, N2 ,个单, N位L 的 层,这L 些层之间互不重复,且有:
N1 N2 NL N
从每层中抽取一个子样本,而且抽样在各层中独立进行, 若各层内样本量分别用n1, n2 ,表, n示L ,则将这些子样本合起来 就是从总体中所抽取的一个样本。其样本容量 显然n满 足: n1 n2 ,对nL于分n 层抽样,经常使用下列一些符号:
第三节 总样本量的分配
一、总样本量在各层间的分配
在分层抽样中,一个重要的问题是总的样本量如何在各层之 间进行分配。通常考虑:⑴精度和费用问题。即如何分配才 能在费用一定时使总的精度和各层估计精度最高?⑵数据处 理问题。即如何分配才能使调查数据的处理工作更加简洁, 也使估计量及其方差的确定形式更为简单明了?⑶各层的容
分层抽样具有以下特点:
①分层抽样能够充分地利用关于总体的各种已知信息进行 分层,因此抽样的效果一般比简单随机抽样要好。但当对 总体缺乏较多的了解时,则无法分层或不能保证分层的效 果。
②在分层抽样中,总体的方差一般可以分解为层间方差和 层内方差两部分。由于分层抽样的误差只与层内差异有关, 而与层间差异无关,因此,分层抽样可以提高估计量的精 度。
也Yˆh 相互独立,因此总体均值 估Y计量的方差是总体各层均 值估计量方差的加权平均,即
式中
V (Yˆst ) V ( yst ) L Wh2V (Yˆh )
h
V是(Yˆ第h ) h层总体均值估计量的方差。
对于分层随机抽样,则有:
V ( yst )
L h
Wh
2
1
n
f
h
h
Sh2
L h
Wh
第四章 分层抽样
第一节 第二节 第三节 第四节
分层抽样概述 总体参数的估计 总样本量的分配 分层与提高精度
第一节 分层抽样概述
分层抽样是在抽样之前,先将总体按一定标志划分为若 干个层(组),然后在各层内分别独立地进行抽样。由 此所抽得的样本称之为分层样本。各层所抽的样本也是 互相独立的。
L
Yˆst Nyst N h yh
h
3、总体比例P的估计量
按照总体均值估计量的公式,可推出总体比例(成数)P 的估计量为:
L
L
Pˆst Wh Pˆh Wh ph
h
h
可以证明,在分层随机抽样中,yst是Y 的无偏估计量,Yˆ是 Y 的无偏估计量,Pˆs是t P的无偏估计量。
三、估计量的方差 1、总体均值估计量的方差 对于一般的分层抽样,由于各层的抽样是相互独立的,诸
N h 第h 层总体中的单位数; nh 第h 层样本中的单位数;
Yh 第h 层的总体总量;
yh 第h 层的样本总量;
Yhi 第h 层第i 个总体单元(单位)的取值;
i yhi 第h 层第 个样本单元(单位)的取值;
Wh
Nh N
第h 层的总体层权;
fh
nh Nh
Yh
1 Nh
Nh
Yhi
i 1
2、总体总和估计量的方差
有了总体均值估计量的方差,就可推导出总体总和估计 量的方差:
V (Yˆst ) N 2V (Yˆst ) L N h 2V (Yˆh )
h
对于分层随机抽样,则有:
V (Yˆst )
L h
Nh2
1
f nh
h
S
h
2
L h
Nh (Nh
nh )
Sh2 nh
3、总体比例估计量的方差
其中等号只有在以下情形时才成立(达到极小值):
Chnh nh Ch K
Wh Sh
Wh Sh
nh
( 为K常数),这意味着:
nh
K Wh Sh Ch
则 n nh K Wh Sh Ch
因此
K
n
Wh Sh Ch
所以使达到极小的最优分配即为
即
nh Wh Sh
n
L
Wh Sh
h 1
Ch Ch
柯西—许瓦兹(Cauchy-Schwarz)不等式 对于任意的 ah 0,b,h 有0 :
( ah2 )( bh2 ) ( ahbh )2
h
h
h
当且仅当 ah (k 为常k 数)时,等号成立。
bh
根据柯西—许瓦兹(Cauchy-Schwarz)不等式,有
V C ( Wh Sh Ch )2
2
(
1 nh
1 Nh
)S
h
2
L Wh 2 Sh 2 1
h nh
N
L h
Wh Sh 2
1 N2
L h
N h (N h
nh )
Sh2 nh
可见,在分层抽样中,总体均值估计量的方差只与各层 内的方差有关,而同层间方差无关。而总体方差又是由 层内方差与层间方差两部分构成的。所以,估计量的方 差小于总体方差。
L
C C0 Ch nh h 1
其中C是0 固定费用,如组织宣传费、分层及编制抽样框的 费用等, 是Ch在第h层抽取一个单元的平均费用,包括调查 员报酬、旅差费、调查测试费等。
根据前面的论述,在估计总体均值时,对给定的各层样本
量nh,估计量的方差为:
V
Wh 2 Sh 2 1
nh
N
Wh Sh 2
满足下述条件时,分层在精度上会有很大的得益: ①总体是由一些大小差异很大的单元组成的,即总体差异
大; ②分层后,每层所包含的总体单元数应是可知的,也即分
层后各层的权重是确知的或可以精确估计的; ③要调查的主要变量(标志)与单元的大小是密切相关的; ④对单元的大小有很好的测量资料可用于分层,也即分层
h
为各层内成数方差的平均。
(二)最优分配
1、一般情形
在分层随机抽样中,在给定的费用条件下,使估计量的方 差达到最小,或在精度要求(常用方差表示)一定条件下, 使总费用最小的各层样本量的分配称为最优分配。
在分层随机抽样中,费用函数可能是简单线性的,也可能 是其它复杂形式,这里主要考虑简单线性的费用函数:
第h 层的总体均值;
第h 层的抽样比;
1 nh
yh nh i1 yhi 第h 层的样本均值;
S
2 h
1 Nh 1
Nh
(Yhi
i 1
Yh )2
第h 层的总体方差;
sh2
1 nh 1
nh i 1
( yhi
yh )2
第h 层的样本方差。
L Nh
Y =
yhi 为总体总量;
h1 i1
L表示分层的层数; h表示层的编号(h=1,2,3,…,L);
NhSh L NhSh h 1
Ch Ch
nh
n
Wh Sh
L
Wh Sh
h 1
Ch Ch
n
NhSh
L
Ch
NhSh Ch
(nh应取整)
h 1
可见,最优分配的结果既考虑了总体各层的差异,也同时
考虑了总体各层内变异程度上的差异和各层内平均调查费
用的差异。当层的容量愈大、层内变异程度愈大,层内每
调查一个单元的费用愈小,则在该层中抽取的单元应愈多。
L
Wh yh
h1
1 N
L
Nh yh
h1
yst
y
1 n
L
nh yh
h 1
原果这因每种在层情于都况权有称数为yst问n按h题/比n。或例在N分hy/中配sNt ,的,每分nhn即h/层层N都抽h ,有样n /则精,N 确各完的层全权的fh 相数抽等f样N于h比。/ N相如y。
同。
2、总体总和Y的估计量 有了总体均值的估计量,就可推出总体总和的估计量:
估计总体比例,当N充h 分大时,有:
L
V (Pˆst ) Wh 2V (Pˆh )
h
对于分层随机抽样,则有:
V (Pˆst )
L h
Wh
2
1
n
f
h
h
Ph (1 Ph )
(N h N h 1)
1 N2
L h
Nh (Nh
nh )
Ph (1 nh
Ph )
四、方差的估计量
按上述方法确定估计量的方差时,要求各层的总体方差应 事先已知,但实际工作中,各层的总体方差又常常是未知 的,此时,一般可用对应的各层样本方差替代,以对估计 量的方差作出估计。
如果每层中的抽样都是简单随机的,则这种抽样就叫做 分层随机抽样。由此所得到的样本称做分层随机样本。
分层时应遵循“尽可能使层内差异小,而使层间差异大” 的原则,同时要使分层的结果既无重复又无遗漏。
进行分层抽样时应注意:①层内抽样设计的选择;②分 层变量的选择;③各层样本量的分配;④层数;⑤层的 分界。以前只重视③,近年来,④和⑤引起了越来越多 的关注。
当用样本资料估计方差V (Pˆ时st ) ,可将
用 Ph (1 Ph) nh
替ph代n(1h ,1ph )则得:
Vˆ(Pˆst )
L h
Wh 2 (1
fh )
ph (1 ph ) nh 1
是
1 L
的无偏N 2估h计Nh。(Nh
nh
)
ph (1 ph nh 1