第四章分层随机抽样
合集下载
04-第四章_分层随机抽样

L
下面讨论估计量的期望与方差。 (1)对于一般分层抽样
ˆ )也 对于一般的分层抽样,若 Y h 是 Y h 的无偏估计量,则 Y st (或 Y st
是 Y (或 Y )的无偏估计:
Ù
Ù
E (Y st ) = å Wh E (Y h ) = Y
h =1
Ù
L
Ù
ˆst ) = NE (Y st ) = N Y = Y E (Y
L
2 L Sh S2 - å Wh2 h nh h =1 Nh
=å
简便公式
2 L Wh2 Sh W S2 -å h h nh N h =1 h =1
V ( y st ) = V (å Wh y h )
h =1
L
= å Wh2V ( y h )
h =1 L
L
= å Wh2
h =1
Sh2 (1 - f h ) nh
åN
h =1
L
h
=N。
Wh =
Nh 称为层权,它也是已知的。 N
以 Yhi 表示第 h 层总体的第 i 个单元的指标值,以 yhi 表示第 h 层样本的 第 i 个单元的指标值。
Yh =
1 Nh 1 nh
åY
i =1 nh i =1
Nh
hi
表示第 h 层的总体均值,
yh =
åy
hi
表示第 h 层的样本均值(其中 nh 是第 h 层的样本量) ,
h =1 h =1 h =1 L L Ù L Ù Ù
Ù
3
(2)对于分层随机抽样
Ù
特别对于分层随机抽样,Y h 一般均取为简单估计:层样本均值 y h ,因 此 Y 的简单估计为:
2-1-3分层抽样4

1 L yst = ∑ Wh yh (或 = ∑ N h yh ) 或 N h =1 h =1 ~ 的无偏估计可选为: 总体总和 Y 的无偏估计可选为:
L
(4.2)
% yst = N ⋅ yst = N ⋅ ∑ Wh yh = ∑ N h yh
h =1 h =1
L
L
(4.3)
的方差为: 估计量 y st 的方差为: L Var ( yst ) = Var ( ∑ Wh yh ) 由于各个小盒子的抽样过程是相互独立的,故各个 yh相互 由于各个小盒子的抽样过程是相互独立的, 独立,由独立随机变量之和的方差计算公式, 独立,由独立随机变量之和的方差计算公式,有
含义 的层权 抽样比 总体均值 样本均值
记号 公式
Yh
yh
2 Sh
2 sh
∑Y
i =1
Nh
hi
= N hYh
∑y
i =1
nh
hi
= nh yh
(Yhi − Yh )2 ∑
i =1
Nh
( yhi − yh )2 ∑
i =1
nh
Nh −1
nh − 1
代表的 第 h 层的 第 h 层的 第 h 层的 第 h 层的 含义 总体总量 样本总量 总体方差 样本方差
h=1 i =1 L
h =1
L
(4.5)
(4.5)式两端各除以 -1),假如各层的单元数 N h都很大,当 式两端各除以(N- , 都很大, 式两端各除以 近似认为: 近似认为: N h ≈ N h − 1 ≈ N h = W (4.6) h
N −1
N −1
N
因此直接来自总体的简单随机抽样平均数的方差大约为: 因此直接来自总体的简单随机抽样平均数的方差大约为: L 1 1 L 2 2 Var ( y ) = ( − ) ∑ Wh Sh + ∑ Wh (Yh − Y ) (4.7) n N h =1 h =1 (4.7)式花括弧内第一项为各个小盒子方差的加权和,而第二 式花括弧内第一项为各个小盒子方差的加权和, 式花括弧内第一项为各个小盒子方差的加权和 项则表示了各小盒子之间的差异平方和。比较(4.4)和(4.7), 项则表示了各小盒子之间的差异平方和。比较 和 , 那么易见(4.4)式变为 若取 nh n = Wh ,那么易见 式变为 1 1 L 2 Var ( yst ) = ( − )∑ Wh S h n N h =1
分层随机抽样

抽样均按简单随机抽样进行,求全市年 平均户收入的估计及其 90%的置信区间。
解: 计算层权: W1=N1/N=0.137, W2=N2/N=0.863。 (1) y st W1 y1 W2 y 2 0.137 15180 0.863 9856 10585.39
(2)求v( y st )
6 第 h 层抽样比为:
nh fh Nh
第二节 简单估计量及其性质
一、对总体均值与总量的估计
(一)对总体均值与总量的估计 1 对一般分层抽样:
ˆ WY ˆ, Y hh st
h 1 L
ˆ Y ˆ Y st h
h 1
L
ˆ , 则: ˆ NY 如果每个Y h h h ˆ ˆ Y NY
s( y st ) v( y st ) 142.312 1 90%, 1.645 全市年户均收入Y 的90%的置信区间为 10585.39 1.645 142.312,即: [10351.29元, 10819.49元]
二、对总体比例(成数) 的估计
1 成数 P 或总数 A 的估计: 层比例 Ph=Ah/Nh , Qh=1-Ph 层样本比例 ph=ah/nh , qh=1-ph Ah 与 ah 是第 h 层总体及样本中具有 所研究特征的单元数。
st st
2 对一般的分层抽样:
ˆ 是Y 的无偏估计, 若Y h h ˆ (Y ˆ )也是Y (Y )的无偏估计: 则Y
st st
由于各层的抽样是相互独立的,因此: ˆ ) V( W Y ˆ ) W 2V (Y ˆ) V (Y h h h st
h 1 h 1 L L
ˆ ) V (Y ˆ) V (Y st h
第4章__抽样调查

4.1.3抽样误差的确定
❖1)抽样误差的概念
❖2)影响抽样平均误差的因素
1、全及总体标志变异程度 2、样本容量 3、抽样组织方式 4、抽样方法
❖3)降低调查误差的途径
1、提高样本的代表性
2、注重样本量的控制
3、提高抽样设计的效率 4、重视抽样方案的审评
5、努力降低调查员的误差 6、努力调查被调查者的误差
❖ (4)如果这一地区街对面从第一号开始都没有住户,在第一号对面的街区转 一圈,并遵循右手法则。(即按顺时针方向在街区转一圈。)试着沿路线每 隔两户访问一户。
❖ (5)在起始门牌号对面邻近的街区绕过一圈后,如果你没有完成所需的访问, 就按顺时针方向到下一个街区访问。
❖ (6)如果第三个街区的住户数不够完成你的任务,就再做几个街区直到要求 的户数完成为止;这些区要按顺时针方向绕原有的街区来找。
❖5)简单随机抽样方式的优缺点
随机抽样方式的优点
方法简单直观,当总体名单完整时,可直接从中随机抽取样本。由于 抽取概率相同,计算抽样误差及对总体指标加以推断比较方便。
随机抽样方式的缺点
尽管简单随机抽样在理论上是最符合随机原则的,但是在实际应用中 有一定的局限性。第一,采用简单随机抽样,一般需对总体各单位加以 编码,而实际市场调查活动中所需调查总体往往是十分庞大的,单位非 常多,逐一编码几乎是不可能的;第二,对于某些事物无法使用简单随 机抽样,如对连续不断产生的大量产品进行质量检验,就不能对全部产 品进行编号抽样;第三,当总体的标志变异程度较大时,简单随机抽样 的代表性就不如经过分组后再抽样的代表性高;第四,由于抽出样本单 位较为分散,所以调查人力、物力、费用消耗较大。
2)抽样调查的特征
❖(1)抽取样本的客观性 ❖(2)抽样调查可以比较准确地推断总体
分层抽样要求

将相近的单位归为一层,且每一层必有若干 单位抽中,所以,避免了样本明显偏高或偏 低情况。
比较定额抽样,与分层抽样有何区别?
①分类②确定每类抽选比例③主观抽样
第四章 分层抽样
2.分层抽样不仅能对总体指标进行推算, 而且能对各层指标进行推算。
有时调查的目的不仅要推算总体指标,可能 还要推算各层的指标。
第四章 分层抽样
在不重复抽样下,根据前一章公式可知
2 xi
1
fi
(第 i层单位数占总体
单位数的比重)
则:
Xˆ
K
Wi xi
第四章 分层抽样
二、分层抽样简单估计的抽样标准误
如果我们对总体方差 进2 行分解,可得
2
2 i
2 P
即
总体方差=平均层内方差+层间方差
我们知道,纯随机抽样的抽样误差,是按总体 方差计算的,对于分层抽样,由于对各层而言 是全面调查,故层间不存在抽样误差问题。所 以,其抽样方差等于平均层内方差。
二、使用场合与分层原则
第四章 分层抽样
根据分层抽样的特点,分层除了可以提供子总 体指标和便于调查的组织实施外,通常,使用分 层抽样的主要目的是为了提高估计的精度。为充 分利用分层抽样的特点,在一项抽样调查项目中 ,往往反复使用分层抽样方法。
在对层进行具体划分时,通常考虑如下原则:
1.层内单元具有相同性质。
通常按调查对象的不同类型进行划分。这时, 分层抽样能够对每一类的目标量进行估计。
第四章 分层抽样
2.使层间单元的差异尽可能大。从而达到提 高抽样估计精度的目的。
3.既按类型又按层内单元标志值相近的原则 进行多重分层,同时达到实现估计层值以及提 高估计精度的目的。
比较定额抽样,与分层抽样有何区别?
①分类②确定每类抽选比例③主观抽样
第四章 分层抽样
2.分层抽样不仅能对总体指标进行推算, 而且能对各层指标进行推算。
有时调查的目的不仅要推算总体指标,可能 还要推算各层的指标。
第四章 分层抽样
在不重复抽样下,根据前一章公式可知
2 xi
1
fi
(第 i层单位数占总体
单位数的比重)
则:
Xˆ
K
Wi xi
第四章 分层抽样
二、分层抽样简单估计的抽样标准误
如果我们对总体方差 进2 行分解,可得
2
2 i
2 P
即
总体方差=平均层内方差+层间方差
我们知道,纯随机抽样的抽样误差,是按总体 方差计算的,对于分层抽样,由于对各层而言 是全面调查,故层间不存在抽样误差问题。所 以,其抽样方差等于平均层内方差。
二、使用场合与分层原则
第四章 分层抽样
根据分层抽样的特点,分层除了可以提供子总 体指标和便于调查的组织实施外,通常,使用分 层抽样的主要目的是为了提高估计的精度。为充 分利用分层抽样的特点,在一项抽样调查项目中 ,往往反复使用分层抽样方法。
在对层进行具体划分时,通常考虑如下原则:
1.层内单元具有相同性质。
通常按调查对象的不同类型进行划分。这时, 分层抽样能够对每一类的目标量进行估计。
第四章 分层抽样
2.使层间单元的差异尽可能大。从而达到提 高抽样估计精度的目的。
3.既按类型又按层内单元标志值相近的原则 进行多重分层,同时达到实现估计层值以及提 高估计精度的目的。
分层抽样

L
ˆ) Wh 2V (Y h
h 1
性质2 对于分层随机抽样, Yst 是 Y 的无偏估计, Yst 的方差为: L L 1 fh 2 2 V yst Wh V yh Wh2 Sh
h 1 h 1
nh
2 2 2 L L W S W S 1 1 2 ( )Wh2 S h h h h h Nh nh N h 1 nh h 1 h 1 L
L
h 1
y st . ˆ Rc x st
对于分层随机抽样的联合比估计,若总样本量
n
比较大,则有 E ( y RC ) Y
MSE ( y RC ) V ( y RC ) Wh2 (1 f h ) 2 2 ( S yh R 2 S xh 2 R h S yh S xh ) nh h 1
i 1
nh
第h层总体方差
2 1 S Yhi Yh N h 1 i 1 2 h
Nh
nh 1 2 第h层样本方差: s 2 yhi yh h nh 1 i 1
简单估计量
一、总体均值的估计
在分层抽样中,对总体均值 Y 的估计是通过对各层的 Y h 的估计,按层权 W 加权平均得到的。公式为:
L
ˆ ) MSE (YRS ) V (Y RS
L
2 Nh (1 f h ) 2 2 2 ( S yh Rh S xh 2 Rh h S yh S xh ) nh h 1
2 2 S yh , S xh , h , Rh 分别为第h层指标Y和X的方差、相关系数以
及比率估计量。
证明:当 nh
比较大时,有
E ( y Rh ) Yh
分层抽样

2 3
400 750
4 1500
50
35
15
0
20
30
25
10
30
25
解: N = 200+400+750+1500=2580 nh =10( h=1,2,3,4) 各层的层权及抽样比为:
N1 200 W1 0.07018 N 2850 N 400 W2 2 0.14035 N 2850 N 750 W3 3 0.26316 N 2850 N 4 1500 W4 0.52632 N 2850
三、符号说明
关于第h层的记号如下:
第二节 估计量
一.总体均值的估计 (一)简单估计量的定义 对于分层样本,对总体均值Y 的估计是通过对各层的Yh 的估计, 按层权 Wh 加权平均得到的。 公式为:
1 ˆ ˆ Yst WhYh N h 1
L
ˆ N Y hh
h 1
L
如果得到的是分层随机样本,则总体均值 Y 的简单估 计为:
f1 n1 10 0.05 N1 200
n2 10 f2 0.025 N2 400 f3 f4 n3 10 0.013 3 N3 750 n4 10 0.006 7 N4 150 0
各层样本均值及样本方差为:
1 y1 y1i 39.5 n1 i 1 y2 105 y3 165 y4 24
y 15180 300 9856 250 / 550 1)简单估计量的定义 总体比例P的估计为:
L
pst Wh ph
h 1
(二)估计量的性质 如果定义 1, 第i个单元具有所考虑的特征 Yi , 其他 i=1,2 … N 0
第四章 抽样技术

• (五)多阶段抽样
– 含义:multistage sampling-----即先抽大的调 查单元,在大单元中抽小单元,再在小单元 中抽更小的单元。如:我国的城市职工家计 调查,采用三阶段抽样,先城市-基层单位调查户。
第四章 抽样技术
– 应用:在复杂、大规模的市场调查中。
• (六)抽样技术的选用原则
• (四)常用术语
– 1.总体(population)与样本(sample) – 2.总体指标和样本指标
• 总体指标-------反映总体数量特征的指标,有总 体平均数µ,总体比例P, 总体方差 σ 2
第四章 抽样技术
– 样本指标------又称样本估计量或统计量,用 以估计和推断相应总体指标的综合指标,有 样本平均数 x ,样本比例p ,样本方差S2。
第四章 抽样技术
• 成数------分总体成数与样本成数 • 含义------总体中具有某种特征的单位占全部单 位的比例,称总体成数(总体比例) • 如:产品的合格率,市场占有率等。 • 样本成数的抽样分布
– 当从总体中抽出一个容量为n的样本时,样本中具有 某种特征的单位数x服从二项分布,即有x~B(n, π),且 有E(x)=n π V(x)=n π(1- π). – 因而样本比例p=x/n也服从二项分布,且有: – E(p)=E(x/n)= π – V(p)=V(x/n)=1/n π(1- π)
第四章 抽样技术
第四章 抽样技术
第四章 抽样技术
本章要点
• 1.抽样调查的含义、特点与程序; • 2.随机抽样技术的类型及其各自的特点、 方法; • 3.非随机抽样技术的类型及其各自的特 点、方法; • 4.抽样误差的含义及其计算方法 。
第四章 抽样技术
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
解: yst W1 y1 W2 y2
23560 15180 148420 9856 10585.39
171980
171980
3、分层随机抽样中,总体比例P的简单估计 设Ph的简单估计为ph,则
L
Wh 2
h1
•1 fh nh
Sh2
L
Wh 2
h1
•1 fh nh
•
Nh Nh 1
PhQh
10
层 居民
户总 数
1
样本户奶制品年消费支出 23456789
1 200 10 40 0 110 15 10 40 80 90 0 2 400 50 130 60 80 100 55 160 85 160 170 3 750 180 260 110 0 140 60 200 180 300 220 4 1500 50 35 15 0 20 30 25 10 30 25
4627
42
45岁以上
5366
50
总计
35050
320
试估计总体中会计算机者占的比例。
样本中会使 用计算机的
人数
24 12
22
11
4
解:
5
(1) pst Wh ph 0.2286
h1
(2)v( pst )
5
Wh2 (1
h1
fh)
ph (1 ph ) nh 1
0.000534
(3)P置信度为95%的置信区间为:
Vmin ( yst )
L Wh2Sh2
n h1
h
L Wh2Sh2 h1 N
L
( WhSh
h1
L
ch )( WhSh / h1
n
ch )
L
Wh Sh2
h1 N
特例:Neyman分配:
指每层抽取一个单元费用相同(ch c, h 1,, L)时的最优分配。
nh
n
Wh S h
L
, h 1,2,, L
L
6.45, n3 n
W3 s3
L
23.53
Wh sh
Wh sh
h 1
h 1
n4 n
W4 s4
L
7.23
Wh sh
h 1
各层样本量为3、6、24、7。
4.4 样本总量的确定
1.在分层随机抽样中,影响样本总量n的因素: (1)只讨论对总体参数的精度要求; (2)样本量的分配形式。 2.在估计总体均值时,若精度要求给定,样本总量n的确定公式:
u1 2
s
(
y
st
)
2.总体总和Y的估计:
Yˆ
L
Yˆh
L
NhYˆh L
Nh yh
h1
h1
h1
方差V(Yˆ)
L
V(Yˆh)
h1
L h1
N h 2V(yh)
L h1
Nh2
1 fh nh
Sh2
例4.2:调查某地区的居民奶制品年消费支出,以居民户为抽样单元, 根据经济及收入水平将居民户分为4层,每层按简单随机抽样抽 取10户,调查数据如下,估计该地区居民奶制品年消费总支出 及估计的标准差。表:样本户奶制品年消费支出
4.1.2分层抽样的适用场合: (1)不仅需要估计总体参数,也需要估计各层
参数。 (2)便于管理,按现成的地理分布或行政划分
来分层。 (3)希望样本中能包含各个部分,以增加代表
性。 (4)把一个内部差异很大的总体分成几个内部
比较相似的子总体(层)进行分层抽样,可以 提高估计量的精度。如果有极端值,也可以把 它们分离出来形成一层。
解:
y1 39.5
各层样本均值及方差为:y2 105 y3 165
y4 24
s12 1624.722 s22 2166.667 s32 8205.556 s42 193.333
L
(1)Yˆ Nh yh h 1
200 39.5 400 105 750 165 1500 24
sh2
1 nh 1
nh
(yhi
i 1
yh)2
一、分层抽样中
若对任一层,假设为第h层,都有Yˆh NYˆh,
L
Y Yh
h1
(1)Yˆ L Yˆh L NhYˆh
h1
h1
方差V(Yˆ)
L
V(Yˆh)
L
N h 2V(Yˆh)
h1
h1
L
(2)Yˆst
Yˆh
h1
N
L h1
Nh N
Yˆh
Wh S h
h1
在Neyman分配下,Yˆ的方差达到最小值Vm(in yst):
Vm(in yst)
1( n
h
Wh
S
)2
h
1 N
Wh 2 S h 2
h
例.在例4.3中,样本量仍为n=550。
城镇居民23560户,农村居民148420户。
城镇居民与农村居民的年收入的标准差分别为 S1=3000元,S2=2500元。 对城镇居民与农村居民抽样平均每户的费用比 为1:2,
2166.667 6.5330
W3s3
750 2850
8205.556 23.8380
1500 W4s4 2850 193.333 7.3181
L
Whsh 40.51775 h 1
n1 n
W1s1
L
Wh sh
40 2.8286 2.79 40.51775
h1
n2 n
W2 s2
试求城镇与农村两层比例分配与最优分配的 样本量。
又若不考虑费用因素,那么最优分配的结果 如何?
例3.2:调查某地区的居民奶制品年消费支出,以居民户为抽样单元, 根据经济及收入水平将居民户分为4层,每层按简单随机抽样抽 取10户,调查数据如下,估计该地区居民奶制品年消费总支出 及估计的标准差。表:样本户奶制品年消费支出
209650
(2)Yˆ的方差V (Yˆ)的估计:
v(Yˆ )
v(Nyst )
L h 1
Nh2
•
1
f nh
h
sh
2
5.39 108
s(Yˆ) v(Yˆ) 23208
(3)该地区居民奶制品年消费总支出的置信度为95%的置信区间为
Yˆ
u1 2
s(Yˆ ), Yˆ
u1 2
s(Yˆ )
164162,255138
h1 N
对给定的n
,估计量的方差为
h
V
L h1
Wh
2
1
f nh
h
Sh2
L h1
Wh
2
(
1 nh
1 Nh
)
Sh
2
L Wh2Sh2 L WhSh2
n h1
h
h1 N
(
L h1
WhSh nh
2 L
)(
h 1
2
Chnh )
在最优分配中,Yˆ的方差达到最小值Vmin ( yst ):
yhi
y
1 f
n
l
Wh S h2
h1
1 n
f
l
S
2 w
,
其中S
2 w
Wh S h2为各层方差按层权的加权平均。
h1
例:假设某公司欲估计某类产品的用户的每年平均支出。企划人员 拟就整个潜在用户的名单,共8000户。
层
每层中的潜在用户
少用 中等 多用 总和
2000 4000 2000 N=8000
例4.3:某市进行家庭收入调查,分城镇居民及农村居 民两部分抽样,在全部城镇居民23560户中随机抽取 300户,在全部农村居民148420户中随机抽取250户, 调查结果是城镇年平均户收入为15180元,标准差为 2972元;农村年平均户收入为9856元,标准差为 2546元。求全市年平均户收入的置信度为90%的置信 区间。
L WhYˆh
h1
方差V(Yˆst) L Wh2V (Yˆh ) h1
分层随机抽样, 则Yˆh的简单估计为yh
1.Y的无偏简单估计Yˆst为:yst L WhYˆh L Wh yh ,Yˆst记为yst
h1
h1
Y 的置信度为1 的置信区间为:
yst
u1 s( yst ), 2
yst
3
3
sw2 Whsh2 Wh phqh
h 1
h 1
48107 0.27 0.73 12419 0.18 0.82 6875 0.17 0.83
67401
67401
67401
0.182
s( pst )
v( pst )
1 f n
sw2
1 1500 67401 0.182 0.011 1500
L
C c0 chnh h1
1.比例分配:指按各层层权(各层单元数占总体单元数的比例)进行
分配。
nh n
Nh N
Wh
fh
nh Nh
n N
f
L
则:y prop Wh yh
h1
L h1
Nh N
•1 nh
nh i 1
yhi
L h1
nh n
•1 nh
nh i 1
yhi
1 n
L h1
nh i 1
每个县的户数 Nh
48107 12419 6875 N=67401
每个县被抽出 的户数nh
1071 276 153
n=1500
每个县的样本收 视率 ph
0.27 0.18 0.17