04第四章分层抽样

合集下载

04-第四章_分层随机抽样

L
下面讨论估计量的期望与方差。（1）对于一般分层抽样
ˆ ）也对于一般的分层抽样，若 Y h 是 Y h 的无偏估计量，则 Y st （或 Y st
是 Y （或 Y ）的无偏估计：
Ù
Ù
E (Y st ) = å Wh E (Y h ) = Y
h =1
Ù
L
Ù
ˆst ) = NE (Y st ) = N Y = Y E (Y
L
2 L Sh S2 - å Wh2 h nh h =1 Nh
=å
简便公式
2 L Wh2 Sh W S2 -å h h nh N h =1 h =1
V ( y st ) = V (å Wh y h )
h =1
L
= å Wh2V ( y h )
h =1 L
L
= å Wh2
h =1
Sh2 (1 - f h ) nh
åN
h =1
L
h
=N。
Wh =
Nh 称为层权，它也是已知的。 N
以 Yhi 表示第 h 层总体的第 i 个单元的指标值，以 yhi 表示第 h 层样本的第 i 个单元的指标值。
Yh =
1 Nh 1 nh
åY
i =1 nh i =1
Nh
hi
表示第 h 层的总体均值，
yh =
åy
hi
表示第 h 层的样本均值（其中 nh 是第 h 层的样本量），
h =1 h =1 h =1 L L Ù L Ù Ù
Ù
3
（2）对于分层随机抽样
Ù
特别对于分层随机抽样，Y h 一般均取为简单估计：层样本均值 y h ，因此 Y 的简单估计为：

第4章分层随机抽样-精品文档

L
ˆ ˆ ˆ ˆ Yu sY ( ), Yu sY ( ) 1 1 2 2
9
例4.2 调查某地区的居民奶制品年消费支出，以居民户为抽样单元，根据经济及收入水平将居民户分为4层，每层按简单随机抽样抽取 10 户，调查数据如下，估计该地区居民奶制品年消费总支出及估计的标准差。样本户奶制品年消费支出
5
例4.1 总体由1000人组成，按以往的收入情况将总体分成两层：第一层（高收入层），20人；第二层（低收入层）， 980人。从第一层随机抽取2人，调查上月收入，得数据（单位：元）1200及1600；从第二层随机抽取8人，调查上月收入，得数据（单位：元）220、230、180、320、400、 340、280、360。估计这1000人上月平均收入。解： ˆ ˆ Ny Ny Y ˆ 1 Y 2 2 2 Y 11 W Wy 1y 1 2 2 N N 2 0 9 8 0 1 4 0 0 2 9 1 .2 53 1 3 .4 3 1 0 0 0 1 0 0 0
Y 的置信度为 1 的置信区间为： u s (y , y u s (y y s t s t) s t s t) 1 1 2 2
2 . 总体总和的 Y 估计： ˆ Ny ˆ Y ˆ NY Y h h h h st
h 1 h 1 h 1 L L L
f 21 h 2 ˆ ˆ 方差 V ( Y ) V ( Y ) N V ( y ) N S h s t h h n h 1 h 1 h 1 h
L L 2 h L
1 f 2 2 h ˆ ˆ 方差 V ( Y ) 的无偏估计： v ( Y ) N s h h n h 1 h Y 的置信度为 1 的置信区间为：

2-1-3分层抽样4

1 L yst = ∑ Wh yh (或 = ∑ N h yh ) 或 N h =1 h =1 ~ 的无偏估计可选为：总体总和 Y 的无偏估计可选为：
L
(4.2)
% yst = N ⋅ yst = N ⋅ ∑ Wh yh = ∑ N h yh
h =1 h =1
L
L
(4.3)
的方差为：估计量 y st 的方差为： L Var ( yst ) = Var ( ∑ Wh yh ) 由于各个小盒子的抽样过程是相互独立的，故各个 yh相互由于各个小盒子的抽样过程是相互独立的，独立，由独立随机变量之和的方差计算公式，独立，由独立随机变量之和的方差计算公式，有
含义的层权抽样比总体均值样本均值
记号公式
Yh
yh
2 Sh
2 sh
∑Y
i =1
Nh
hi
= N hYh
∑y
i =1
nh
hi
= nh yh
(Yhi − Yh )2 ∑
i =1
Nh
( yhi − yh )2 ∑
i =1
nh
Nh −1
nh − 1
代表的第 h 层的第 h 层的第 h 层的第 h 层的含义总体总量样本总量总体方差样本方差
h=1 i =1 L
h =1
L
(4.5)
(4.5)式两端各除以－1)，假如各层的单元数 N h都很大，当式两端各除以(N－，都很大，式两端各除以近似认为：近似认为： N h ≈ N h − 1 ≈ N h = W (4.6) h
N −1
N −1
N
因此直接来自总体的简单随机抽样平均数的方差大约为：因此直接来自总体的简单随机抽样平均数的方差大约为： L 1 1 L 2 2 Var ( y ) = ( − ) ∑ Wh Sh + ∑ Wh (Yh − Y ) (4.7) n N h =1 h =1 (4.7)式花括弧内第一项为各个小盒子方差的加权和，而第二式花括弧内第一项为各个小盒子方差的加权和，式花括弧内第一项为各个小盒子方差的加权和项则表示了各小盒子之间的差异平方和。比较(4.4)和(4.7)，项则表示了各小盒子之间的差异平方和。比较和，那么易见(4.4)式变为若取 nh n = Wh ，那么易见式变为 1 1 L 2 Var ( yst ) = ( − )∑ Wh S h n N h =1

分层随机抽样

抽样均按简单随机抽样进行，求全市年平均户收入的估计及其 90%的置信区间。
解：计算层权： W1=N1/N=0.137, W2=N2/N=0.863。 (1) y st W1 y1 W2 y 2 0.137 15180 0.863 9856 10585.39
(2)求v( y st )
6 第 h 层抽样比为：
nh fh Nh
第二节简单估计量及其性质
一、对总体均值与总量的估计
（一）对总体均值与总量的估计 1 对一般分层抽样：
ˆ WY ˆ, Y hh st
h 1 L
ˆ Y ˆ Y st h
h 1
L
ˆ , 则： ˆ NY 如果每个Y h h h ˆ ˆ Y NY
s( y st ) v( y st ) 142.312 1 90%, 1.645 全市年户均收入Y 的90%的置信区间为 10585.39 1.645 142.312，即： [10351.29元， 10819.49元]
二、对总体比例（成数）的估计
1 成数 P 或总数 A 的估计: 层比例 Ph=Ah/Nh , Qh=1－Ph 层样本比例 ph=ah/nh , qh=1－ph Ah 与 ah 是第 h 层总体及样本中具有所研究特征的单元数。
st st
2 对一般的分层抽样：
ˆ 是Y 的无偏估计，若Y h h ˆ (Y ˆ )也是Y (Y )的无偏估计：则Y
st st
由于各层的抽样是相互独立的，因此： ˆ ) V( W Y ˆ ) W 2V (Y ˆ) V (Y h h h st
h 1 h 1 L L
ˆ ) V (Y ˆ) V (Y st h

分层抽样课件

B.某社区有500户家庭,其中高收入的家庭125户,中等收入的家庭
280户,低收入的家庭95户,为了了解生活购买力的某项指标,要从中
抽取一个容量为100户的样本
C.从1 000名工人中抽取100人调查上班途中所用时间
D.从生产流水线上抽取样本检查产品质量
解析:A项中总体所含个体无差异且个数较少,适合用简单随机抽
岁的职工;50岁及其以上的职工.
(2)确定每层抽取个体的个数,抽样比为
1
100
500
1
= ,
5
则在不到35 岁的职工中抽取 125× = 25(人);
5
1
在 35 岁到 49 岁的职工中抽取 280× = 56(人);
5
1
在 50 岁及其以上的职工中抽取 95× = 19(人).
5
(3)在各层分别按抽签法或随机数法抽取样本.
(4)抽样:各层分别按简单随机抽样或系统抽样的方法抽取
样本.(Biblioteka )成样:综合各层抽样,组成样本分层,计算,定数,抽样,成样
当总体由差异明显的几部分组成时,往往采用分层抽样
归纳总结分层抽样的特点:
(1)分层抽取;
(2)按比例抽取;
(3)必须结合简单随机抽样或系统抽样完成.
【做一做】有一批产品,其中一等品10件,二等品25件,次品5件.
数目 =
样本容量
总体容量
× 该层个体数目.
2.选择抽样方法的原则
剖析:(1)若总体由差异明显的几部分组成,则选用分层抽样.
(2)若总体所含个体没有差异,则考虑采用简单随机抽样或系统抽
样.
当总体容量较小时宜用抽签法;当总体容量较大,样本容量较小
时宜用随机数法;当总体容量较大,样本容量也较大时宜用系统抽

分层抽样要求

将相近的单位归为一层，且每一层必有若干单位抽中，所以，避免了样本明显偏高或偏低情况。
比较定额抽样，与分层抽样有何区别？
①分类②确定每类抽选比例③主观抽样
第四章分层抽样
2．分层抽样不仅能对总体指标进行推算，而且能对各层指标进行推算。
有时调查的目的不仅要推算总体指标，可能还要推算各层的指标。
第四章分层抽样
在不重复抽样下，根据前一章公式可知

2 xi
1
fi

（第 i层单位数占总体
单位数的比重）
则：
Xˆ

K
Wi xi
第四章分层抽样
二、分层抽样简单估计的抽样标准误
如果我们对总体方差进2 行分解，可得

2

2 i

2 P
即
总体方差=平均层内方差+层间方差
我们知道，纯随机抽样的抽样误差，是按总体方差计算的，对于分层抽样，由于对各层而言是全面调查，故层间不存在抽样误差问题。所以，其抽样方差等于平均层内方差。
二、使用场合与分层原则
第四章分层抽样
根据分层抽样的特点，分层除了可以提供子总体指标和便于调查的组织实施外，通常，使用分层抽样的主要目的是为了提高估计的精度。为充分利用分层抽样的特点，在一项抽样调查项目中，往往反复使用分层抽样方法。
在对层进行具体划分时，通常考虑如下原则：
1．层内单元具有相同性质。
通常按调查对象的不同类型进行划分。这时，分层抽样能够对每一类的目标量进行估计。
第四章分层抽样
2．使层间单元的差异尽可能大。从而达到提高抽样估计精度的目的。
3．既按类型又按层内单元标志值相近的原则进行多重分层，同时达到实现估计层值以及提高估计精度的目的。

分层抽样

２３
４００７５０
４１５００
５０
３５
１５
０
20
３０
２５
１０
３０
２５
解: N = 200+400+750+1500=2580 nh =10( h=1,2,3,4) 各层的层权及抽样比为：

N1 200 W1 0.07018 N 2850 N 400 W2 2 0.14035 N 2850 N 750 W3 3 0.26316 N 2850 N 4 1500 W4 0.52632 N 2850
三、符号说明
关于第h层的记号如下：
第二节估计量
一．总体均值的估计 (一)简单估计量的定义对于分层样本,对总体均值Y 的估计是通过对各层的Yh 的估计, 按层权 Wh 加权平均得到的。公式为:
1 ˆ ˆ Yst WhYh N h 1

L
ˆ N Y hh
h 1
L
如果得到的是分层随机样本,则总体均值 Y 的简单估计为:
f1 n1 10 0.05 N1 200
n2 10 f2 0.025 N2 400 f3 f4 n3 10 0.013 3 N3 750 n4 10 0.006 7 N4 150 0
各层样本均值及样本方差为：
1 y1 y1i 39.5 n1 i 1 y2 105 y3 165 y4 24

y 15180 300 9856 250 / 550 1)简单估计量的定义总体比例P的估计为:
L
pst Wh ph
h 1
(二)估计量的性质如果定义 1, 第i个单元具有所考虑的特征 Yi , 其他 i=1,2 … N 0

抽样技术第4章分层抽样

4.7 事后分层
在实际当中，有时进行事先分层会存在一定的困难。 1.各层的抽样框无法得到。 2.几个变量都适合于分层，而要进行事先的多重交叉分层存在一定困难。 3.总体规模太大，事先分层太费事等。在这种情况下，就可以考虑采用事后分层技术。
事后分层的具体实施办法是：先采用简
单随机抽样的方法从总体中抽取一个样本
第四章分层抽样
4.1 什么是分层抽样
在例2.4中我们用简单随机抽样估计每个郡的平均农场面积。我们提到，即使我们认真细致地产生了一个随机样本，还是有一些地区被过分代表，而另一些则根本没有代表。例4.1用分层抽样保持分层变量在样本中的均衡，从而使得总体得到全面的估计。
使用分层抽样的理由： 1.我们要防止得到一个很差的样本。
分层抽样比例
如我们在2.3中所观察到的一样，比例是取
值为0到1之间的一个变量的均值，为了得
到比例的推断，我们用等式（4.1）—
（4.5），其中
，
，
则有
估计总体单元的总数有一个特别相似的性质：
因此，总体单元的总数估计量是每层总数估
计量之和。类似有
。
例4.3 美国团体学习委员会（ACLS）用分层随机抽样在七门学科中选取ACLS中的团体研究出版物格局和属于这些团体的学者使用电脑和图书馆的情况。数据见表4.2.
单元数。这样第h层中第j个单元入样的概率
为
。因此，抽样权重只是抽样概率
的倒数：
（4.8）
抽样权重之和等于总体容量N，每个抽样单元代表一特定数量的总体单元。因此，整个样本代表整个总体。这个定义可以用于检验权重变量是否正确：如果样本权重之和是其它的数，而不是N，那么肯定有某个地方出错了。总体总数的估计量可以写成以下形式：

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

⑥分层抽样中除了可以推断总体参数外，还可以推断各不同层的数量特征，并进一步作对比分析，从而满足不同方面的需要，也能帮助人们对总体作更全面、更深入的了解。但对各层的估计缺乏精度保证。
⑦分层抽样调查实施中的组织管理及数据收集和汇总处理可以分别在各层内独立地进行，因此较之简单随机抽样更方便。
变量容易确定。
第二节总体参数的估计
一、分层抽样相关符号说明在分层抽样中，先将含有 N个单位的总体分成分别含有
N1, N2 ,个单, N位L 的层，这L 些层之间互不重复，且有：
N1 N2 NL N
从每层中抽取一个子样本，而且抽样在各层中独立进行，若各层内样本量分别用n1, n2 ,表, n示L ，则将这些子样本合起来就是从总体中所抽取的一个样本。其样本容量显然n满足： n1 n2 ，对nL于分n 层抽样，经常使用下列一些符号：
第三节总样本量的分配
一、总样本量在各层间的分配
在分层抽样中，一个重要的问题是总的样本量如何在各层之间进行分配。通常考虑：⑴精度和费用问题。即如何分配才能在费用一定时使总的精度和各层估计精度最高？⑵数据处理问题。即如何分配才能使调查数据的处理工作更加简洁，也使估计量及其方差的确定形式更为简单明了？⑶各层的容
分层抽样具有以下特点：
①分层抽样能够充分地利用关于总体的各种已知信息进行分层，因此抽样的效果一般比简单随机抽样要好。但当对总体缺乏较多的了解时，则无法分层或不能保证分层的效果。
②在分层抽样中，总体的方差一般可以分解为层间方差和层内方差两部分。由于分层抽样的误差只与层内差异有关，而与层间差异无关，因此，分层抽样可以提高估计量的精度。
也Yˆh 相互独立，因此总体均值估Y计量的方差是总体各层均值估计量方差的加权平均，即
式中
V (Yˆst ) V ( yst ) L Wh2V (Yˆh )
h
V是(Yˆ第h ) h层总体均值估计量的方差。
对于分层随机抽样，则有：
V ( yst )
L h
Wh
2
1
n
f
h
h
Sh2
L h
Wh
第四章分层抽样
第一节第二节第三节第四节
分层抽样概述总体参数的估计总样本量的分配分层与提高精度
第一节分层抽样概述
分层抽样是在抽样之前，先将总体按一定标志划分为若干个层（组），然后在各层内分别独立地进行抽样。由此所抽得的样本称之为分层样本。各层所抽的样本也是互相独立的。
L
Yˆst Nyst N h yh
h
３、总体比例P的估计量
按照总体均值估计量的公式，可推出总体比例（成数）Ｐ的估计量为：
L
L
Pˆst Wh Pˆh Wh ph
h
h
可以证明，在分层随机抽样中，yst是Y 的无偏估计量，Yˆ是 Y 的无偏估计量，Pˆs是t Ｐ的无偏估计量。
三、估计量的方差１、总体均值估计量的方差对于一般的分层抽样，由于各层的抽样是相互独立的，诸
N h 第h 层总体中的单位数； nh 第h 层样本中的单位数；
Yh 第h 层的总体总量；
yh 第h 层的样本总量；
Yhi 第h 层第i 个总体单元（单位）的取值；
i yhi 第h 层第个样本单元（单位）的取值；
Wh
Nh N
第h 层的总体层权；
fh
nh Nh
Yh
1 Nh
Nh
Yhi
i 1
２、总体总和估计量的方差
有了总体均值估计量的方差，就可推导出总体总和估计量的方差：
V (Yˆst ) N 2V (Yˆst ) L N h 2V (Yˆh )
h
对于分层随机抽样，则有：
V (Yˆst )
L h
Nh2
1
f nh
h
S
h
2
L h
Nh (Nh
nh )
Sh2 nh
３、总体比例估计量的方差
其中等号只有在以下情形时才成立(达到极小值)：
Chnh nh Ch K
Wh Sh
Wh Sh
nh
( 为K常数),这意味着：
nh
K Wh Sh Ch
则 n nh K Wh Sh Ch
因此
K
n
Wh Sh Ch
所以使达到极小的最优分配即为
即
nh Wh Sh
n
L
Wh Sh
h 1
Ch Ch
柯西—许瓦兹(Cauchy-Schwarz)不等式对于任意的 ah 0,b，h 有0 ：
( ah2 )( bh2 ) ( ahbh )2
h
h
h
当且仅当 ah （k 为常k 数）时，等号成立。
bh
根据柯西—许瓦兹(Cauchy-Schwarz)不等式，有
V C ( Wh Sh Ch )2
2
(
1 nh
1 Nh
)S
h
2
L Wh 2 Sh 2 1
h nh
N
L h
Wh Sh 2
1 N2
L h
N h (N h
nh )
Sh2 nh
可见，在分层抽样中，总体均值估计量的方差只与各层内的方差有关，而同层间方差无关。而总体方差又是由层内方差与层间方差两部分构成的。所以，估计量的方差小于总体方差。
L
C C0 Ch nh h 1
其中C是0 固定费用，如组织宣传费、分层及编制抽样框的费用等, 是Ch在第h层抽取一个单元的平均费用，包括调查员报酬、旅差费、调查测试费等。
根据前面的论述，在估计总体均值时，对给定的各层样本
量nh，估计量的方差为：
V
Wh 2 Sh 2 1
nh
N
Wh Sh 2
满足下述条件时，分层在精度上会有很大的得益： ①总体是由一些大小差异很大的单元组成的，即总体差异
大； ②分层后，每层所包含的总体单元数应是可知的，也即分
层后各层的权重是确知的或可以精确估计的； ③要调查的主要变量（标志）与单元的大小是密切相关的； ④对单元的大小有很好的测量资料可用于分层，也即分层
h
为各层内成数方差的平均。
（二）最优分配
１、一般情形
在分层随机抽样中，在给定的费用条件下，使估计量的方差达到最小，或在精度要求（常用方差表示）一定条件下，使总费用最小的各层样本量的分配称为最优分配。
在分层随机抽样中，费用函数可能是简单线性的，也可能是其它复杂形式，这里主要考虑简单线性的费用函数：
第h 层的总体均值；
第h 层的抽样比；
1 nh
yh nh i1 yhi 第h 层的样本均值；
S
2 h
1 Nh 1
Nh
(Yhi
i 1
Yh )2
第h 层的总体方差；
sh2
1 nh 1
nh i 1
( yhi
yh )2
第h 层的样本方差。
L Nh
Y ＝
yhi 为总体总量；
h1 i1
Ｌ表示分层的层数； h表示层的编号（h＝１，２，３,…,Ｌ）；
NhSh L NhSh h 1
Ch Ch
nh
n
Wh Sh
L
Wh Sh
h 1
Ch Ch
n
NhSh
L
Ch
NhSh Ch
（nh应取整)
h 1
可见，最优分配的结果既考虑了总体各层的差异，也同时
考虑了总体各层内变异程度上的差异和各层内平均调查费
用的差异。当层的容量愈大、层内变异程度愈大，层内每
调查一个单元的费用愈小，则在该层中抽取的单元应愈多。
L
Wh yh
h1
1 N
L
Nh yh
h1
yst
y
1 n
L
nh yh
h 1
原果这因每种在层情于都况权有称数为yst问n按h题/比n。或例在N分hy/中配sNt ，的，每分nhn即h/层层N都抽h ，有样n /则精，N 确各完的层全权的fh 相数抽等f样N于h比。/ N相如y。
同。
２、总体总和Ｙ的估计量有了总体均值的估计量，就可推出总体总和的估计量：
估计总体比例，当N充h 分大时，有：
L
V (Pˆst ) Wh 2V (Pˆh )
h
对于分层随机抽样，则有：
V (Pˆst )
L h
Wh
2
1
n
f
h
h
Ph (1 Ph )
(N h N h 1)
1 N2
L h
Nh (Nh
nh )
Ph (1 nh
Ph )
四、方差的估计量
按上述方法确定估计量的方差时，要求各层的总体方差应事先已知，但实际工作中，各层的总体方差又常常是未知的，此时，一般可用对应的各层样本方差替代，以对估计量的方差作出估计。
如果每层中的抽样都是简单随机的，则这种抽样就叫做分层随机抽样。由此所得到的样本称做分层随机样本。
分层时应遵循“尽可能使层内差异小，而使层间差异大” 的原则，同时要使分层的结果既无重复又无遗漏。
进行分层抽样时应注意：①层内抽样设计的选择；②分层变量的选择；③各层样本量的分配；④层数；⑤层的分界。以前只重视③，近年来，④和⑤引起了越来越多的关注。
当用样本资料估计方差V (Pˆ时st ) ，可将
用 Ph (1 Ph) nh
替ph代n(1h ，1ph )则得：
Vˆ(Pˆst )
L h
Wh 2 (1
fh )
ph (1 ph ) nh 1
是
1 L
的无偏N 2估h计Nh。(Nh
nh
)
ph (1 ph nh 1