多阶抽样
多阶段抽样

设总体由N个初级单元组成,每个初级单元又 由若干二级(次级)单元组成,若在总体中按 一定方法抽取n个初级单元,对每个被抽中的 初级单元再抽取若干二级单元进行调查,则这 种抽样称为二阶抽样,或二级抽样(two-stage sampling)
在二阶抽样中,全部抽样是分两步实施的:
第一步是从总体中抽初级单元,称为第一阶抽样; 第二步是从每个被抽中的初级单元中抽二级单元,
1
Yi
Mi
Mi j1
Yij
Yi Mi
yi
ai
1 (21101) 54
10.25 4
v(p)
1- f1 n(n-1)
n i1
(pi
p)2
f1(1f2) n2(m-1)
n i1
piqi
1 5 15
2
1
2
1
1
2
1
1
2
0
1
2
1
1
2
5(51) 4 4 4 4 4 4 4 4 241
2 4
多阶段抽样每一阶段的抽样可以相同,也 可以不同,它通常与整群抽样、分层抽样、 系统抽样结合使用.
实际工作中,多阶段抽样通常与整群抽 样结合使用,即前几阶是多阶段抽样, 最后一阶为整群抽样。
多阶段抽样时,抽样是分步进行的,因此, 讨论估计量 ˆ的均值及方差时需要分阶段 进行,则用到下面的性质:
性质1 对于两阶段抽样,有
E(ˆ)E( 1 E2(ˆ)) V(ˆ)V1[E2(ˆ)]E1[V2(ˆ)]
• 式中,E2、V2为在固定初级单元时对第 二阶抽样求均值和方差;E1 、 V1为对第 一阶抽样求均值和方差.
上述1式是显然的。
2式证明如下:
第九章 多阶段抽样

第九章 多阶段抽样第一节 多阶抽样概述一、 多阶抽样的概念1、单阶抽样:从总体中通过一次抽样就能够产生一个完整的样本,这类抽样即为单阶抽样。
前面介绍的几种抽样方式均为单阶抽样。
适合用于总体单元数相对较少的抽样过程。
2、多阶抽样:将整个抽样过程分成若干个阶段,一个阶段一个阶段地进行抽样以完成整个抽样过程,这种抽样即为多阶抽样。
当我们面对的总体单元数很庞大,而且分布范围很广时,如果使用前面所学习的单阶抽样方法,不仅工作量大,而且在精度上很难把握,此时如果改用多阶抽样方法,就会避免上述困难,从而达到理想的抽样效果。
3、关于多阶抽样的具体描述:如果我们面对的一阶单元内总体基本单元数相当大,作全面的调查就会比较困难,或者一阶单元内各二阶单元可以给出相近的结果,作全面的调查又无必要。
此时从费用和抽样估计效率考虑,便可以从总体中随机抽取一部分一阶单元,然后再从被抽中的一阶单元内,随机抽取部分二阶单元并对他们作全面调查,我们把这种抽样技术称为两阶抽样。
如果在被抽中的二阶单元中,再抽取部分三阶单元组成样本,并对抽中的三阶单元进行全面的调查,这就是三阶抽样。
类似地,可以定义四阶抽样或更高阶的抽样,通常将两阶以上的抽样称为多阶抽样。
需要指出的是,多阶抽样中,各阶可以采用不同的抽样方法,也可采用同一种抽样方法,要视具体情况和要求而定。
在两阶抽样中,总体各一阶单元所包含的二阶单元数,有相等和不相等的两种情况。
前者无论在样本的抽取还是在指标的估算方面都相对比较简单,然而在抽样实践中却很少有这种情况的存在,但作为基本方法仍然有其实际意义;后种情况在抽样和指标的估算方法上都较为复杂,然而在实际中普遍存在此种情况。
4、两阶抽样与分层抽样和整群抽样的关系:将总体分为若干个一阶单元,如果在每一个一阶单元中,都随机抽取部分二阶单元,由这些二阶单元中的总体基本单元组成的样本,在抽样的方式上,就相当于分层抽样;如果在全部的一阶单元中,只抽取了部分一阶单元,并对抽中的一阶单元中的所有的基本单元都做全面调查,这就是整群抽样。
第八章(多阶段抽样)

E1[
S22i ]
n
S12
1 f2 m
S22
抽样调查
原理与方法
所以S12 的无偏估计为
Sˆ12
s12
1
f2
m
s22
将(2)、(3)式结合,得到
(y)
1 f1 n
s12
f1(1 f nm
2
)
s22
(3)
抽样调查
原理与方法
类似的,可以构造三阶抽样 y 的估计方差
( y) 1 f1
抽样过程
前二阶采用PPS,最后一阶按等概率抽取最终单元,且各阶 段样本量对不同单元都等于常数,则所得样本是自加权的。 此时有:
Zi
Mi M0
, Zij
Kij Mi
, Zij
1 Kij
抽样调查
原理与方法
N
N Mi
M 0 Mi
Kij
Yˆ M0 n nmk
m
k
抽样调查
原理与方法
第八 章 多阶段抽样
抽样调查
原理与方法
第一节 概述
一.什么是多阶段抽样
分多个阶段抽到最终接受调查的样本。 初级单元(PSU)----Primary Sampling Unit 二级单元 (SSU)----Second-stage Sampling Unit 三级单元(TSU)----Third-stage Sampling Unit 最终单元 (SSU)----Ultimate Sampling Unit
在 PPS 抽样中
Zi
Mi M0
,代入上式,得
YˆPPS
M0 n
多阶抽样

多阶抽样第九章 多阶段抽样第一节 多阶抽样概述一、 多阶抽样的概念将整个抽样过程分成若干个阶段,一个阶段一个阶段地进行抽样以完成整个抽样过程,这种抽样即为多阶抽样。
分层抽样实际是第一阶抽样比为100%时的一种特殊的两阶抽样;而整群抽样实际上是第二阶抽样比为100%时的一种特殊的两阶抽样,故也称单级整群抽样。
多阶抽样的特征:便于组织抽样;抽样方式灵活,有利于提高抽样的估计效率;多阶段抽样对基本调查单元的抽选不是一步到位的;多阶段抽样实质上是分层抽样与整群抽样的有机结合;多阶抽样在抽样时并不需要二阶或更低阶单元的抽样框;多阶抽样还可用于“散料”的抽样,即散料抽样。
第二节 一阶单元等大小的二阶抽样第一阶段在总体N 个初级单元中,以简单随机抽样抽取n 个初级单元,第二阶段在被抽取的初级单元包含的M 个二级单元中,以简单随机抽样抽取m 个二级单元,即最终接受调查的单元。
(一)估计量及其方差对于二阶抽样,若两个阶段的抽样都是简单随机的,则其总体均值Y 的无偏估计量为0111ˆ1n mnij i i j i Y y y m y n ======∑∑∑.由于在每个一阶单元中的第二阶抽样是相互独立进行的,所以,在二阶段都用不放回方法抽样时,其总体均值估计量的方差可构造为22221111)(S mnf S n f y V -+-==NS mn S M SS n 21222221)(1-+- 可以证明其方差的无偏估计量为2221211)1(1)(ˆs mnf f s n f y V -+-=其中,22s 为22S 的无偏估计,21s 不属于21S 的无偏估计,21S 的无偏估计为22221211ˆs mf s S --=式中右边第一部分相当于第一阶段抽样的误差,它只与各一阶单元间差异大小有关;第二部分相当于第二阶段抽样的误差,它只与各一阶单元内(即各二阶单元间)差异有关。
(二)最佳抽样比的确定在总费用一定时,考虑下述简单的线性费用函数:nm C n C C C 210++=若一阶级单元间的旅费不占重要位置,则上述费用函数被证明是适用的。
第九章(多阶抽样)

copyright©princebf,2006-2007
f2=m/M 第二阶段抽样比
copyright©princebf,2006-2007
#二阶抽样图示
总 体
样本
copyright©princebf,2006-2007
• 在上述过程中,如果次级单元又由若干三级单元组成,在抽样 时对每个被抽中的次级单元内的三级单元再进行抽样,则是三 阶抽样。更高阶的抽样以此类推。 • 如果对三级单元不再抽样,而是进行全面调查,则称为二阶整 群抽样。更高阶的多阶整群抽样以此类推。 • 可见,整群抽样可以看作是二阶抽样的特例:第一阶抽取群,
§9.2 初级单元大小相等时的二阶抽样
一、相应符号 二、总体均值的估计和性质
三、总体总量的估计和性质
四、总体比例的估计和性质
copyright©princebf,2006-2007
• 初级单元大小相等是指初级单元内包含的次级单元数目相同, 不妨设每个初级单元包含M个次级单元
• 此时,两阶抽样中的每一阶抽样都可采用简单随机抽样
1 n 2 s2 i n i 1
样本中初级单元内的方差
copyright©princebf,2006-2007
二、总体均值的估计和性质
• 按前述抽样方式(每一阶抽样都是简单随机的;第二阶抽样是 相互独立的),则有:样本按次级单元的均值是总体均值的无偏 估计。即:
ˆ 1 1 Y y yij n yi nm i 1 j 1 i 1
大学统计学-多阶段抽样的例子

全国电视观众抽样调查抽样方案
• 本抽样方案采用分层五阶抽样。各阶抽样 单元确定为:
– 第一阶抽样:区(地级市以上城市的市辖区)、 县(包括县级市等);
– 第二阶抽样:街道、乡、镇; – 第三阶抽样:居委会、村委会; – 第四阶抽样:段分层:一 类区是东部省市, 二类是中部省市, 三类是西部省市自 治区。 每个子层中包含若 干个区县,例如子 层23中含安微和江 西的43个区县
抽样方式
阶段 第一 第二 第三 第四 第五
抽样单元 区县 街道乡镇 村居委会 家庭 个人
抽样方式 分层 整群 整群 系统 简单随机
样本量 全部子层 抽取2或3个 抽取2个 抽取15户 抽取13岁以上1人
抽样调查-第8节多阶段抽样

1 1
性质1可以推广到多阶段抽样的情形,例如
对于三阶段抽样,有
E ( ) E1 E2 E3 ( ) V ( ) V1[ E2 E3 ( )] E1{V2 [ E3 ( )]} E1 E2 [V3 ( )]
N n 1 1 按二级单元的平均值: Y Y i , y y i N i 1 n i 1 N 1 2 2 ( Y Y ) , 初级单元间的方差: S1 i N 1 i 1
1 n 2 s ( y y ) i n 1 i 1
2 1
返回
N M 1 2 S ( Y Y ) i ij N ( M 1) i 1 j 1 初级单元内的方差: 2 2 n m 1 2 s ( yij y i ) n(m 1) i 1 j 1 2 2
n
第i个初级单元二级单元间的方差:
mi 1 2 2 1 2 2 s ( y y ) S 2i (Yij Y i ) , 2i ij i mi 1 j 1 M i 1 j 1 Mi
号
9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 返回
式中,
Qi 1 Pi ; qi 1 pi.
返回
【例8.2】 欲调查某个新小区居民家庭装潢聘请装潢
常见的抽样方案有哪几种方法

常见的抽样方案有哪几种方法常见的抽样方案有哪几种方法摘要:抽样是研究和调查中常用的一种方法,可以在大规模数据中选择合适的样本来代表整体。
本文将介绍六种常见的抽样方案,包括简单随机抽样、系统抽样、分层抽样、整群抽样、多阶段抽样以及方便抽样,并对每种抽样方案的优缺点进行详细分析。
通过本文的阅读,读者将能够更好地了解各种抽样方案的适用场景,为自己的研究和调查工作选择合适的抽样方法提供参考。
一、简单随机抽样简单随机抽样是最基本和最常见的抽样方法之一。
在这种抽样方案中,每个个体都有相等的机会被选入样本,且每次抽取是独立的。
简单随机抽样通常需要在目标总体中进行抽签或使用随机数表来进行随机抽取。
优点:1. 简单易行,实施成本较低。
2. 抽样结果具有代表性,能够有效地反映总体特征。
缺点:1. 当总体规模较大时,抽样过程可能较为费时费力。
2. 在总体中存在明显分层的情况下,简单随机抽样可能无法充分利用总体的层次特征。
二、系统抽样系统抽样是一种有规律的抽样方法,通过按照一定的规则从总体中选择样本,例如每隔固定的间隔选择一个样本。
系统抽样通常需要在总体中选择一个起始点,然后按照固定的间隔选择样本。
优点:1. 相对于简单随机抽样,系统抽样更加高效,能够节省时间和成本。
2. 抽样结果具有代表性,能够反映总体特征。
缺点:1. 如果总体中存在某种规律或周期性,系统抽样可能导致抽样偏差。
2. 对于周期性出现的特征,系统抽样可能会导致样本集中在某些特定的时段。
三、分层抽样分层抽样是将总体按照某些特定的特征划分为若干层次,然后在每个层次内进行抽样。
每个层次可以根据需要设定不同的抽样比例。
优点:1. 能够充分利用总体的层次特征,提高抽样效率。
2. 可以保证每个层次都有代表性的样本。
缺点:1. 对于总体中存在的较小层次,分层抽样可能导致样本数量不足。
2. 需要对总体进行合理的划分和层次设定,增加了实施难度。
四、整群抽样整群抽样是将总体按照某种特征划分为若干群体,然后在每个群体中进行全面抽样。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
两阶抽样与整群抽样的主要区别在于:整群抽 两阶抽样与整群抽样的主要区别在于: 样是对总体中抽取的每个样本群体所包含的基本单 元进行全面调查; 元进行全面调查;而两阶抽样则把总体中所有的群 体视为一阶单元, 体视为一阶单元,对每一个被抽中的一阶单元所包 含的二级单元(即基本单位) 含的二级单元(即基本单位),不是进行全面的调 查,而是再进行一次抽样调查(也称抽子样本)。 而是再进行一次抽样调查( 也称抽子样本) 即两阶抽样,产生两级样本, 即两阶抽样,产生两级样本,最后综合估算出总的 一级样本指标。至于在综合估算的方式方法上, 一级样本指标。至于在综合估算的方式方法上,两 阶抽样与整群抽样也是极其相似的, 阶抽样与整群抽样也是极其相似的,只不过前者为 就被抽一级单元的样本指标进行综合估算, 就被抽一级单元的样本指标进行综合估算,后者为 就被抽样群体单元的全体指标进行综合估算。 就被抽样群体单元的全体指标进行综合估算。
对5家企业的调查结果: 家企业的调查结果:
样本企业 1 2 3 4 5 第一日 57 38 51 48 62 第二日 59 41 60 53 55 第三日 64 50 63 49 54
要求根据这些数据推算100家企业该指标的总 要求根据这些数据推算100家企业该指标的总 100 并给出估计的95 的置信区间。 95% 量,并给出估计的95%的置信区间。 对这个问题, 解 : 对这个问题 , 我们可以利用二阶抽样的 思路解决。 首先将企业作为初级单元, 思路解决 。 首先将企业作为初级单元 , 将每一天 看作二级单元, 每个企业在调查月内都拥有30 30天 看作二级单元 , 每个企业在调查月内都拥有 30 天 即拥有30个二级单元) 30个二级单元 (即拥有30个二级单元)。 在这个问题中, 在这个问题中 , 调查人员首先在初级单元中 抽取了一个n= 的简单随机样本, n=5 抽取了一个 n=5 的简单随机样本 , 然后对每个样 本单元的二级单元分别独立抽取了一个m= m=3 本单元的二级单元分别独立抽取了一个 m=3 的简 单随机样本, 这就是初级单元大小相等的二阶抽 单随机样本 , 样问题。 样问题。
当我们面对的总体单元数很庞大, 当我们面对的总体单元数很庞大, 而且分布范 围很广时,如果使用单阶抽样方法,不仅工作量大, 围很广时,如果使用单阶抽样方法,不仅工作量大, 而且在精度上很难把握, 而且在精度上很难把握,此时从费用和抽样估计效 率考虑,如果改用多阶抽样方法, 率考虑,如果改用多阶抽样方法,就会避免上述困 从而达到理想的抽样效果。 难,从而达到理想的抽样效果。
1.总体均值的估计 1.总体均值的估计 对于二阶抽样, 对于二阶抽样,若两个阶段的抽样都是简单 随机的, 的无偏估计量为: 随机的,则其总体均值 Y 的无偏估计量为:
n m ˆ 1n Y = y = ∑∑ yij m0 = ∑ yi n i=1 i =1 j =1
由于在每个一阶单元中的第二阶抽样是相互独立 进行的,所以,在二阶段都用不放回方法抽样时, 进行的,所以,在二阶段都用不放回方法抽样时, Y 其总体均值估计量的方差可构造为 1 − f1 2 1 − f 2 2 V ( y) = S1 + S2 n mn 1 2 S2 2 S 2 2 S12 )+ = ( S1 − − n M mn N 可以证明其方差的无偏估计量为
第九章
第一节 第二节 第三节
多阶抽样
多阶抽样概述 一阶单元等大小的两阶抽样 一阶单元不等大小的两阶抽样
第一节 多阶抽样概述
一、多阶抽样的基本概念 单阶抽样: 1. 单阶抽样 : 从总体中通过一次抽样就能够 产生一个完整的样本, 这类抽样即为单阶抽样。 产生一个完整的样本 , 这类抽样即为单阶抽样 。 前面介绍的几种抽样方式均为单阶抽样。 前面介绍的几种抽样方式均为单阶抽样 。 适合用 于总体单元数相对较少的抽样过程。 于总体单元数相对较少的抽样过程。 多阶抽样: 2. 多阶抽样 : 根据实际情况将整个抽样程序 分成若干个阶段, 一个阶段一个阶段地进行抽样, 分成若干个阶段 , 一个阶段一个阶段地进行抽样 , 以完成整个抽样过程,这种抽样就叫多阶抽样。 以完成整个抽样过程,这种抽样就叫多阶抽样。
ˆ ˆ ˆ V (Y ) = N 2 M 2V ( y ) = 1002 × 302 × 9.4372 = 84934800
ˆ Y 的标准差为: 的标准差为:
ˆ ˆ ˆ s (Y ) = V (Y ) = 84934800=9216
在置信度95%的条件下,对应的t=1.96,因此, 在置信度95%的条件下,对应的t=1.96,因此, 95%的条件下 t=1.96 ˆ 的置信区间为: 的置信区间为: Y
3.最佳抽样比的确定 3.最佳抽样比的确定 考虑简单线性费用函数 C = C 0 + C1 n + C 2 nm 和方差函数
二、多阶抽样的特点 便于组织抽样; (一)便于组织抽样; 抽样方式灵活, (二)抽样方式灵活,有利于提高抽样的估计效 率; (三)多阶段抽样对基本调查单元的抽选不是一 步到位的; 步到位的; (四)多阶段抽样实质上是分层抽样与整群抽样 的有机结合; 的有机结合; (五)多阶抽样在抽样时并不需要二阶或更低阶 单元的抽样框; 单元的抽样框; 多阶抽样还可用于“散料”的抽样, (六)多阶抽样还可用于“散料”的抽样,即散 料抽样。 料抽样。
160800 ± 1 . 96 × 9216
2.总体比例的估计 若两阶段的抽样都是不放回简单随机的, 若两阶段的抽样都是不放回简单随机的,则 总体比例P 总体比例P的无偏估计量为
1 n ˆ P = p = , ∑ pi n i =1 1− f 1− f2 2 ˆ 其方差为 V ( P) = V ( p) = , 1 S1 2 + ˆ S1 n Mn 1 − f1 2 1 − f 2 2 ˆ 方差估计量为 V ( p) = s1 + s2 n mn 1 n 1 N s12 = ( pi − p ) 2 式中 S12 = ( Pi − P)2 ∑ ∑ n − 1 i =1 N − 1 i =1 n N m M 2 2 2 s2 = pi (1 − pi )2 S2 = ∑ ∑ Pi (1− Pi ) n(m −1) i=1 N (M −1) i=1
ˆ ( y ) = 1 − f1 s 2 + f1 (1 − f 2 ) s 2 V 1 2 n mn 1 − 0.05 0.05(1 − 0.1) = × 49.3 + × 23.4 = 9.4372 5 5× 3
计算
ˆ ˆ) Y 及 Vˆ ( Y :
Yˆ = NM y = 100 × 30 × 53 . 6 = 160800
第二节 一阶单元等大小的两阶抽样
一、估计量及其方差 由于二阶抽样中,抽样过程分成两步,因此, 由于二阶抽样中,抽样过程分成两步,因此, 对于总体参数的估计量求均值和方差时, 对于总体参数的估计量求均值和方差时,必须把 这两阶抽样过程所能产生的所有样本加以平均, 这两阶抽样过程所能产生的所有样本加以平均, 即 E (θˆ ) = E 1 [E 2 (θˆ ) ]
f1 = 1 当 时,二阶抽样可视为分层抽样, f2 < 1 f1 < 1 当 时,二阶抽样可视为整群抽样 f2 = 1
两阶抽样与分层抽样的主要区别在于: 分层 两阶抽样与分层抽样的主要区别在于所有的样本进行抽查; 样 , 再对所有的样本进行抽查 ; 而两阶抽样则把 总体中所有的群体视为一阶单元, 总体中所有的群体视为一阶单元 , 对这些一阶单 元进行抽样, 将抽出的样本再次进行抽样( 元进行抽样 , 将抽出的样本再次进行抽样 ( 两次 都不是进行全面的调查) 产生两级样本, 都不是进行全面的调查 ) , 产生两级样本 , 最后 综合估算出总的一级样本指标。 综合估算出总的一级样本指标。
60 43 58 50 57
s
13 39 39 7 19
于是得到: 于是得到:
1 n 1 y = ∑ y i = (60 + 43 + 58 + 50 + 57) = 53.6 n i =1 5 1 n 2 s1 = ( y i − y ) 2 = 49.3 ∑ n − 1 i =1 1 n 2 2 s 2 = ∑ s 2i = 23.4 n i =1
ˆ ( y ) = 1 − f1 s 2 + f1 (1 − f 2 ) s 2 V 1 2 n mn
欲调查4月份100家企业的某项指标, 100家企业的某项指标 例 : 欲调查 4 月份 100 家企业的某项指标 , 首 先从100家企业中抽取了一个含有5 100家企业中抽取了一个含有 先从 100家企业中抽取了一个含有 5家样本企业的 简单随机样本, 简单随机样本 , 由于填报一个月的数据需要每天 填写流水账,为了减轻样本企业的负担, 填写流水账 , 为了减轻样本企业的负担 , 调查人 员对这5家企业分别在调查月内随机抽取3 员对这 5家企业分别在调查月内随机抽取 3天作为 调查日,要求样本企业只填写这三天的流水帐。 调查日 , 要求样本企业只填写这三天的流水帐 。 调查结果如下: 调查结果如下:
由题意,N=100 M=30 n=5,m=3 100, 30, 由题意,N=100,M=30,n=5,m=3
n 5 m 3 f1 = = = 0 . 05 , f 2 = = = 0 .1 N 100 M 30
首先计算样本初级单元的均值
样本企业 1 2 3 4 5
yi
、方差
2 s 2i 2 2i
yi
从总体中随机抽取一部分一阶单元, 从总体中随机抽取一部分一阶单元,然后再从被 抽中的一阶单元内, 抽中的一阶单元内,随机抽取部分二阶单元并对它们 进行全面调查,我们把这种抽样技术称为两阶抽样。 进行全面调查,我们把这种抽样技术称为两阶抽样。 它是由印度统计学家马哈拉诺比斯首先提出来的。 它是由印度统计学家马哈拉诺比斯首先提出来的。 如果在被抽中的二阶单元中, 如果在被抽中的二阶单元中,再抽取部分三阶单 元组成样本,并对抽中的三阶单元进行全面的调查, 元组成样本,并对抽中的三阶单元进行全面的调查, 这就是三阶抽样。类似地, 这就是三阶抽样。类似地,可以定义四阶抽样或更高 阶的抽样,通常将两阶以上的抽样称为多阶抽样。 阶的抽样,通常将两阶以上的抽样称为多阶抽样。