抽样调查-第8章 多阶段抽样

合集下载

抽样调查第8章多阶段抽样18210

抽样调查第8章多阶段抽样18210

置信度为95%的置信区间为:160800±1.96×9216 在上面的方差估计式中,第一项是主要的,第二项 要小得多!
返回
(二)对总体比例的估计
如果要估计总体中具有所研究特征的二级单元数占全 体全体二级单元数的比例,则
P
1 N
N
Pi
i1
1 NM
N i1
Ai
式中,Ai 为第i个初级单元中具有所研究特征的二级单元
(1)多阶段抽样保持了整群抽样的样本比较集中、 便于调查、节约费用等优点。
(2)多阶段抽样不需要编制所有小单元的样本框。
三、抽选方法与推断原理
多阶段抽样时,每一个阶段的抽样可以相同,也 可以不同。它通常与分层抽样、整群抽样、系统抽样 结合使用。多阶段抽样时,抽样是分步进行的,因此, 讨论估计量的均值及其方差时,需要分阶段进行这要
S 2 2i
M
1 i
1
Mi j 1
(Yij
Y i )2,
s 2 2i
1 mi 1
mi
( yij
j 1
yi )2
返回
二、估计量及其性质
(一)对初级单元进行简单随机抽样
如果二阶抽样中每个阶段都采用简单随机抽样,并且 每个初级单元中二级单元的抽样是相互独立的,则对 总体总和的估计可以采用简单估计,也可以考虑采用 比率估计。
表中红字为抽中的房号。 这时,初级单元有15个,每个初级单元拥有二级单元 12个。首先将单元从1到15编号,在15单元中随机抽取 5个单元,分别是1,6,9,12,13号;然后在被抽中的 单元中,进行第二次抽样,即分别在12户居民户中随机 抽取4户。
一、符号说明
初级单元和初级单元拥有的二级单元个数:N,M 第一阶段和第二阶段抽样的样本量:n ,m

多阶段抽样方法的实施步骤

多阶段抽样方法的实施步骤

多阶段抽样方法的实施步骤1. 引言多阶段抽样方法是一种在大规模调查中常用的抽样技术,其优点是能够有效地减少调查成本和时间。

本文将介绍多阶段抽样方法的实施步骤,并详细说明每个步骤的操作流程和注意事项。

2. 步骤一:确定调查目标和研究问题在进行多阶段抽样之前,需要明确调查的目标和研究问题。

这有助于确定抽样的样本量、抽样层次和抽样规则。

•确定调查目标:明确调查的目的,例如了解人口流动情况、探索消费者购买行为等。

•确定研究问题:制定明确的研究问题,例如“什么因素影响用户选择特定品牌?”或“哪些因素导致人们离开农村?”3. 步骤二:确定抽样层次和抽样框在多阶段抽样中,需要确定抽样的层次和抽样框。

抽样层次是指调查中样本抽取的层次,而抽样框是指每个抽样层次的基本单位。

•确定抽样层次:根据调查目标和研究问题,确定需要抽样的层次。

例如,如果要了解全国各省的人口流动情况,抽样层次可以是省份和县级市。

•确定抽样框:选择合适的抽样框,即每个抽样层次的基本单位。

例如,在省份层次,可以选择各省的行政区划划分为抽样框。

4. 步骤三:确定每个抽样层次的抽样单元在多阶段抽样中,需要确定每个抽样层次的抽样单元,也称为抽样单元划分。

抽样单元是每个抽样层次中可以独立进行抽样的单位。

•确定抽样单元:根据调查目标和研究问题,确定每个抽样层次中的抽样单元。

例如,在省份层次,抽样单元可以是各省内的县级行政区划。

•确定抽样单元划分方法:选择合适的方法将抽样层次划分为抽样单元,例如随机抽取一定数量的县级行政区划。

5. 步骤四:制定抽样规则和确定样本量在多阶段抽样中,需要制定明确的抽样规则和确定所需的样本量。

抽样规则是确定每个抽样单元的抽样方式和抽样比例,样本量是根据需求确定的每个抽样单元的样本数量。

•制定抽样规则:根据调查目标和抽样层次确定抽样规则。

例如,在县级行政区划层次,可以采用等概率抽取的抽样规则。

•确定样本量:根据抽样层次、抽样单元数量和研究目的确定每个抽样单元的样本量。

《抽样技术》第八章-二阶及多阶抽样

《抽样技术》第八章-二阶及多阶抽样
j 1
m
Yi Yi / M ,
yi yi / m
Y Yij / NM Yi / N ,
i 1 j 1 n m i 1
N
M
N
y yij / nm yi / n
i 1 j 1 i 1 N n 2 1 1 2 2 2 S1 Yi Y , s1 yi y N 1 i 1 n 1 i 1 N M 2 1 1 N 2 S Yij Yi S 2i N M 1 i 1 j 1 N i 1 2 2 M 2 1 2 其中S 2i Yij Yi M 1 j 1 n m 2 1 s yij yi n(m 1) i 1 j 1 2 2
n


二、总体均值Y 的估计量及其性质

如果二阶抽样中的每一阶抽样都是简单随机的,且 对每个初级单元,第二阶抽样是相互独立的,则样 本按次级单元的均值 1 n m 1 n y yij yi nm i 1 j 1 n i 1
是总体均值
1 N M 1 N Y Yij Yi NM i 1 j 1 N i 1 的无偏估计,即E y Y ,且
其中Qi =1−Pi。故p是P的无偏估计,其方差为 N 1 f1 1 N 1 f2 M 2 V p PQ Pi P i i n N 1 i 1 nm N M 1 i 1 V(p)的一个无偏估计为 n n f 1 f 1 f 2 1 2 1 s2 p p p pi qi i 2 n n 1 i 1 n m 1 i 1 其中qi =1−pi。




ˆ Y 1 2 ˆ i ˆ s YHH YHH n n 1 i 1 zi ˆ M y 是Yi 的无偏估计 如果第二阶抽样是简单随机的,则 Y i i i ,而 1 2 2 ˆ V2 Yi M i V2 yi M i2 1 f 2i S 2 i mi 于是有 n M i yi 1 ˆ YHH n i 1 zi

多阶段抽样(PPT69页)

多阶段抽样(PPT69页)

2.比率估计量 为了减小方差,可以考虑将初级单元的大小
Mi作为辅助变量,采用比率估计量对总体总 和进行估计。 对总体总和的比率估计量:
这个比率估计量是有偏的,但随着样本量的增加,其偏倚将趋于0。
• 其近似均方误差为:
• 因为 的差异一般不会很大,因此,当Mi相
差很大时,
要比无偏估计量 的方差
在多阶段抽样中,各阶抽样的方法可以采用简 单随机抽样,也可以采用放回或不放回的不等 概抽样,或者用系统抽样。
三、多阶段抽样的特点及作用
1、实施方便,节省费用
保持了整群抽样的优点,即由于样本比较集中,便于调查、节省 费用;.
2、对抽中的次级单元进行再抽样,提高了效率
多阶段抽样能充分发挥抽样的效率,克服了整群抽样的缺点,即 避免了对小单元过多调查造成的浪费。
• 估计量p的方差为: V(p)的无偏估计为:
类似于前面总体方差的表达形式,有:
• 【例8.2】欲调查某个新小区居民户家庭装潢聘请专业装潢 公司的比例。在15个单元中随机抽取了5个单元,在这5个 单元中分别随机抽取了4户居民并进行了调查,对这20户 调查结果如下:
样本单元 一栋A座 二栋C座 三栋C座 四栋C座
样本企业
1
60
13
2
43
39
3
58
39
4
50
7
5
57
19
置信区间:
三、对总体的比例的估计
总体中具有所研究特征的二级单元占全体二级 单元数的比例为:
式中:Ai为第i个初级单元中具有所研究特征的二级单元数。 对总体比例P的估计是:
式中:ai为第i个样本初级单元中具有所研究特征的二级单元数 。
• 性质3: 对于二阶抽样,如果两个阶段都是简单 随机抽样,则有

多阶段抽样

多阶段抽样


假设总体由N个初级单元组成,每个初级单元 又由若干个二级(次级)单元组成,若在总体 中按一定的方法抽取n个初级单元,对每个被 抽中的初级单元再抽取若干二级单元进行调查, 这种抽样被称为二阶段抽样。 如果每个二级单元又由更小的三级单元组成, 那么可以对每个被抽中的二级单元中的三级单 元再进行抽样,则整个抽样过程就是三阶段抽 样。以此类推,可以定义更高阶的多阶段抽样。
1 N s ( yi y ) 2 为样本初级单元间的方差。 n 1 i 1
2 1
n m 1 s ( yij yi ) 2 为样本初级单元内的方差。 n(m 1) i 1 j 1 2 2
1 m yi yij m j 1
(一)总体均值的估计

如果采用简单随机抽样的方法,第一阶段抽出n个初级单 元,第二阶段从每个抽中的单元中抽出m个次级单元,其 中每个初级单元都含有M个次级单元,且对每个初级单元, 第二阶段抽样都是相互独立的,则样本按次级单元的均 值 是总体均值 的无偏估计,即 Y y
总体中具有某种特征的次级单元对总体中所有次 级单元数比例P的无偏估计量 p 的方差V ( p)为
N 1 f1 1 N 1 f2 M 2 V ( p) ( Pi P) PQ i i n N 1 i 1 nm N ( M 1) i 1
V ( p) 的一个无偏估计为
2 2



初级单元大小相等 时的二阶段抽样
符号说明
设总体划分为N个初级单元,每个初级单元中含有M个次级单元。
Yij 为总体第i个初级单元中第j个次级单元的指标值。
Yi Yij 为总体第i个初级单元的指标和。
j 1
M
1 Yi M

第8章 抽样设计

第8章 抽样设计



又叫多重抽样,先抽取一有很多单位的大样本,收集 基本信息,然后在这个大样本中抽一个子样本,收集 更详细的信息。第一相收集的数据能够用于分层及筛 选信息,同时也可以用来提高估计的效率。 适用于抽样框缺乏辅助信息,而想对总体进行分层或 筛选部分总体的情况。如:养牛场信息调查。 适用于预算不足,或工作量太大,或调查内容中项目 数据收集成本差异太大。如:健康调查。
14
抽样框的评估

1.抽样框的可能缺陷



不完全覆盖(如新注册成立的公司) 过涵盖(如破产注销的公司) 重复 分类错误
15

2.合格抽样框的标准



关联性:抽样框与目标总体对应的程度和据此与目标 总体的个体接触难易程度的一种度量。 精确性:涵盖误差、分类误差、联系资料。 时效性:抽样框的更新日期与调查标准日期的接近程 度来计量。 费用大小:衡量建立抽样框花费的总费用;并与本次 调查的总费用进行比较。
39

缺点:

注册会计师的审计PPS抽样例子
40


6.其他概率抽样方法
1)多阶段抽样


两个或以上连续阶段抽取样本的过程。第一阶段抽取的单位 成为初级单位,第二阶段抽取的单位称为次级抽样单位,以 此类推。 例如:第一阶段:地理区域,第二阶段:小区内住所; 例如:第一阶段:时间单位,第二阶段:乘客;若更复杂则 第二阶段:达到的客机,第三级单位:飞机上实际座位。

3.分层抽样


又叫分类随机抽样,指将调查总体中的所有单位按照 一定的属性或特征分为不相重叠的若干层次(或类 别),然后每一个层次中进行简单随机抽样或等距抽 样。 对总体分层的标志为总体的某种重要属性或特征。 分层的目的是使样本在各层、类中分布均匀,具有更 好代表性,因此层间要差别明显,层内应保持一致性。

第八章(多阶段抽样)

第八章(多阶段抽样)

E1[
S22i ]
n
S12
1 f2 m
S22
抽样调查
原理与方法
所以S12 的无偏估计为
Sˆ12
s12
1
f2
m
s22
将(2)、(3)式结合,得到
(y)
1 f1 n
s12

f1(1 f nm
2
)
s22
(3)
抽样调查
原理与方法
类似的,可以构造三阶抽样 y 的估计方差
( y) 1 f1
抽样过程
前二阶采用PPS,最后一阶按等概率抽取最终单元,且各阶 段样本量对不同单元都等于常数,则所得样本是自加权的。 此时有:
Zi

Mi M0
, Zij

Kij Mi
, Zij

1 Kij
抽样调查
原理与方法
N
N Mi
M 0 Mi
Kij
Yˆ M0 n nmk
m
k
抽样调查
原理与方法
第八 章 多阶段抽样
抽样调查
原理与方法
第一节 概述
一.什么是多阶段抽样
分多个阶段抽到最终接受调查的样本。 初级单元(PSU)----Primary Sampling Unit 二级单元 (SSU)----Second-stage Sampling Unit 三级单元(TSU)----Third-stage Sampling Unit 最终单元 (SSU)----Ultimate Sampling Unit
在 PPS 抽样中
Zi

Mi M0
,代入上式,得
YˆPPS

M0 n

统计学第八章 抽样推断

统计学第八章 抽样推断


和P的使用及使用条件
(1)σ2取最大值;(2)P取接近于0.5的值
(3)可以用样本 s或2 代p替;(4)可以用估计值或实验值代替。
计算例题:
在10000只电池中,随机抽检1%的产品进行检查,检查结果如下:
电流强度 (安培) 4-4.5 4.5-5 5-5.5 5.5-6 6-6.5 6.5-7
2
f
P 2N 0 1 P 2 N1
f
N
P2N0 1 P2 N1 P2Q 1 P2 P
N
N
P2Q Q2P PQP Q PQ P1 P
例(1):已知某产品的合格率为95%,则其标准差为:
0.951 0.95 21.79%.
2、样本指标(统计量)
根据样本总体各单位的数量标志值或属性计算所得的指 标,称为样本指标。样本指标通常包括:
统计指标 抽样平均数 抽样成数 抽样平均数的标准差 抽样成数的标准差 抽样平均数的方差
抽样成数的方差
未分组资料
x x n
p n1 n
sx
xx 2
n
分组资料
x xf f
sx
x
2
x
f
f
sP p(1p)
s2
2
xx
x
n
sP2 p(1 p)
s2
2
xx f
x
f
四、抽样方法(P151)
(二)抽样极限误差的意义
(三)抽样极限误差的计算
平均数的抽样极限误差
Δx
t
μ x
成数的抽样极限误差
Δp
t
μ p
正态分布图示
68.27%
95.45%
99.73%
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

表中红字为抽中的房号。 这时,初级单元有15个,每个初级单元拥有二级单元 12个。首先将单元从1到15编号,在15单元中随机抽取 5个单元,分别是1,6,9,12,13号;然后在被抽中的 单元中,进行第二次抽样,即分别在12户居民户中随机 抽取4户。
一、符号说明
初级单元和初级单元拥有的二级单元个数:N,M 第一阶段和第二阶段抽样的样本量:n ,m
用到下面的性质。
返回
性质1 对于两阶段抽样,有


E( ) E1E2 ( )



V ( ) V1[E2 ( )] E1[V2 ( )]
式中,E2,V2 为在固定初级单元时对第二阶抽样求均 值和方差; E1,V1 为对第一阶抽样求均值和方差。
性质1可以推广到多阶段抽样的情形,例如 对于三阶段抽样,有
§8.1 引 言
前面提到的整群抽样虽然 有很多优点,但是由于群内单 元通常具有相似性(表现为群 内相关系数大于零)。尤其是 当群比较大时,人们自然会想 到没有必要对群内所有单元都 进行调查,而只要对群内单元 进行再抽样,对被抽中的单元 进行调查,这就是常用的多阶 段抽样。
返回
一、多阶段抽样的定义
先在总体单元(初级单元)中抽出样本单 元,并不对这个样本单元中的所有下一级单元 (二级单元)都进行调查,而是在其中再抽出若 干个二级单元并进行调查。
返回
二、估计量及其性质
(一)总体均值的估计
性质2 对于初级单元大小相等的二阶抽样,如果两个阶
段都是简单随机抽样,且对每个初级单元,第二阶抽样
是相互独立进行的,则对总体均值 Y 的无偏估计为:

Y

y

1 n
n i1
yi

1n nm i1
m j 1
yij
其方差为:
V
(
y)

1 n
f1
返回
第一阶和第二阶的抽样比:
f1

n N
;
f2i

mi Mi
二级单元个数:
N
n
M 0 M i , m0 mi
i 1
i 1
N
指标总和: Y
Mi
Yij , y
n
mi
yij
i1 j1
i1 j1
Mi
mi
第i个初级单元指标总和: Yi Yij , yi yij

N n
n i1
M
2 i
(1

mi
f2i )s22i
式中,

Yu
1
n

Yi
n i1
返回
2.比率估计量
由于初级单元的大小
M
不同,往往
i
造成初级单元的观测值

Yi
差异很大,使得估计量方差
V (Y u )的第一项很大,从而估计量的方差也就变得很大。
这时,可以考虑将初级单元的大小 M i 作为辅助变量,
如果二阶抽样中每个阶段都采用简单随机抽样,并且 每个初级单元中二级单元的抽样是相互独立的,则对 总体总和的估计可以采用简单估计,也可以考虑采用 比率估计。
1.简单估计量 对总体总和的简单估计为:

Yu

N n
n i1
Mi
yi

N n
n
Yi
i1
根据性质1,不仅可以证明这个估计量是无偏的,并
n i1
m
( yij
j 1

yi )2

S
2 2
的表达式可知,若记
S 2 2i

1 M 1
M
(Yij
j 1
Y i )2
则有
S22

1 N
N
S2 2i j 1

S 22 是
S2 2i
的平均值。同理有
s 2 2i

1 m 1
m
( yij
j 1

yi )2
s22

1 n
n
s2 2i j 1
p)2

f1(1 f2 ) n2 (m 1)
n

i1
pi qi
式中, Qi 1 Pi ; qi 1 pi.
返回
【例8.2】 欲调查某个新小区居民家庭装潢聘请装潢
公司的比例。我们在15个单元中随机抽取了5个单元,在 这5个单元分别随机抽取了4户居民进行调查,对这20户 的调查结果如下表:
采用比率估计量对总体总和进行估计。
样本企业
第一日
第二日
第三日
1
57
59
64
2
38
41
50
3
51
60
63
4
48
53
49
5
62
55
54
要求根据这些数据推算不100家企业该指标的总量,并
给出估计的95%置信区间。
返回
解 将企业作为初级单元,将每一天看着二级单元。
调查月内拥有30天(即拥有30个二级单元)。 首先在初级单元中抽取一个n=5的简单随机样本再
N i1
(Y i
Y )2 ,
s12

1 n 1
n i1
( yi

y)2,
第i个初级单元二级单元间的方差:
S 2 2i

1 Mi
Mi
1
(Yij
j 1
Y i )2,
s2 2i

1 mi 1
mi
( yij
j 1

yi )2
返回
二、估计量及其性质
(一)对初级单元进行简单随机抽样
S12

1 f2 nm
S
2 2
V
(
y)的无偏估计为:v(
y)

1 n
f1
s12
1 f2 nm
s22
返回
【例8.1】欲调查4月份100家企业的某项指标,首先
从100家企业中抽取了一个有板有5家样本企业的简单随 机样本,调查人员对5家企业分别在调查月内随机抽取3 天作为调查日,要求样本企业只填写这3天的流水帐。 调查的结果如下。
对每个样本的二级单元分别独立抽取一个m=3的简单 随机样本
由题意,N=100,M=30,n=5, m=3
f1

n N
5 100

0.05,
f2

m M

3 30

0.10
首先计算样本初级单元的均值 yi 、方差 s22i:
返回
样本企业
yi
s2 2i
1
60
13
2
43
39
3
58
39
4
50
7
5
57
19
于是得到:
y

1 n
n

i1
yi

1 (60 5
43
58
50 57)

53.6
s12

1 n 1
n i1
( yi

y)2

49.3
s22

1 n
n i1
s2 2i

23.4
返回
v( y) 1 0.05 49.3 0.05(1 0.10) 23.4 9.4372
f2
4 12
因此,
p

1
nm
n i1
ai

1 (2 11 0 1) 54

0.25
其方差的估计为:
v(
p)

1 f1 n(n 1)
n
(
i1
pi

p)2

f1(1 f2 ) n2 (m 1)
n

i1
pi qi
0.00657
s( p) v( p) 0.081
P的置信区间为: 0.25 1.96 0.081


E( ) E1E2E3( )




V ( ) V1[E2E3( )] E1{V2[E3( )]} E1E2[V3( )]
返回
§8.2 初级单元大小相等的二阶抽样
第一阶段在总体N个初级单元中,以简单随机 抽样抽取n个初级单元,第二阶段在被抽中的初级 单元包含的M个二级单元中,以简单随机抽样抽取 m个二级单元,即最终接受调查的单元。
返回
§8.3 初级单元大小不等的二阶抽样
一般而言,初级单元的大小是不相等的,如果按初 级单元的大小分层后,层内初级单元的大小差别仍很大, 则需用本节介绍的方法来处理二阶抽样的问题。当初级 单元大小不等时,一般采用不等概抽样。
一、符号说明
总体中初级单元个数及第一阶抽取的样本量:N,n
第i个初级单元中二级单元数: M i 第i个初级单元中第二阶抽样的样本量:mi 第i个初级单元中第j个二级单元的观测值:Yij 样本中第i个初级单元中第j个二级单元的观测值:yij
返回
性质3 对于二阶抽样,如果两个阶段都是简单随机 抽样,则有 E( p) P
估计量 p 的方差为:
V
(
p)

1 n
f1
1
N
1
N i1
(
Pi

P)2
1 f2 nm
M N(M
N

1) i1
PiQi
V ( p) 的无偏估计为:
v(
p)

1 f1 n(n 1)
n
(
相关文档
最新文档