多阶段抽样抽样技术蒋妍
抽样调查第8章多阶段抽样18210

置信度为95%的置信区间为:160800±1.96×9216 在上面的方差估计式中,第一项是主要的,第二项 要小得多!
返回
(二)对总体比例的估计
如果要估计总体中具有所研究特征的二级单元数占全 体全体二级单元数的比例,则
P
1 N
N
Pi
i1
1 NM
N i1
Ai
式中,Ai 为第i个初级单元中具有所研究特征的二级单元
(1)多阶段抽样保持了整群抽样的样本比较集中、 便于调查、节约费用等优点。
(2)多阶段抽样不需要编制所有小单元的样本框。
三、抽选方法与推断原理
多阶段抽样时,每一个阶段的抽样可以相同,也 可以不同。它通常与分层抽样、整群抽样、系统抽样 结合使用。多阶段抽样时,抽样是分步进行的,因此, 讨论估计量的均值及其方差时,需要分阶段进行这要
S 2 2i
M
1 i
1
Mi j 1
(Yij
Y i )2,
s 2 2i
1 mi 1
mi
( yij
j 1
yi )2
返回
二、估计量及其性质
(一)对初级单元进行简单随机抽样
如果二阶抽样中每个阶段都采用简单随机抽样,并且 每个初级单元中二级单元的抽样是相互独立的,则对 总体总和的估计可以采用简单估计,也可以考虑采用 比率估计。
表中红字为抽中的房号。 这时,初级单元有15个,每个初级单元拥有二级单元 12个。首先将单元从1到15编号,在15单元中随机抽取 5个单元,分别是1,6,9,12,13号;然后在被抽中的 单元中,进行第二次抽样,即分别在12户居民户中随机 抽取4户。
一、符号说明
初级单元和初级单元拥有的二级单元个数:N,M 第一阶段和第二阶段抽样的样本量:n ,m
多阶段抽样

设总体由N个初级单元组成,每个初级单元又 由若干二级(次级)单元组成,若在总体中按 一定方法抽取n个初级单元,对每个被抽中的 初级单元再抽取若干二级单元进行调查,则这 种抽样称为二阶抽样,或二级抽样(two-stage sampling)
在二阶抽样中,全部抽样是分两步实施的:
第一步是从总体中抽初级单元,称为第一阶抽样; 第二步是从每个被抽中的初级单元中抽二级单元,
1
Yi
Mi
Mi j1
Yij
Yi Mi
yi
ai
1 (21101) 54
10.25 4
v(p)
1- f1 n(n-1)
n i1
(pi
p)2
f1(1f2) n2(m-1)
n i1
piqi
1 5 15
2
1
2
1
1
2
1
1
2
0
1
2
1
1
2
5(51) 4 4 4 4 4 4 4 4 241
2 4
多阶段抽样每一阶段的抽样可以相同,也 可以不同,它通常与整群抽样、分层抽样、 系统抽样结合使用.
实际工作中,多阶段抽样通常与整群抽 样结合使用,即前几阶是多阶段抽样, 最后一阶为整群抽样。
多阶段抽样时,抽样是分步进行的,因此, 讨论估计量 ˆ的均值及方差时需要分阶段 进行,则用到下面的性质:
性质1 对于两阶段抽样,有
E(ˆ)E( 1 E2(ˆ)) V(ˆ)V1[E2(ˆ)]E1[V2(ˆ)]
• 式中,E2、V2为在固定初级单元时对第 二阶抽样求均值和方差;E1 、 V1为对第 一阶抽样求均值和方差.
上述1式是显然的。
2式证明如下:
第九章二阶与多阶抽样抽样调查理论与方法北京商学院

2、能够满足各级政府部门对抽样调查资料的需求。因为各 级政府领导都关心全国和本地区、本部门的社会经济发展状
况,希望抽样调查能同时满足全国性和地方性的需要。因而
采用二阶或多阶抽样,在一定程度上能够满足各级政府、部
门对调查资料的需求。
3、有利于减少抽样误差、提高抽样估计精度。这种抽样调查 方法,可以使每个一阶样本单位分布比较均匀,具有很好的
方差及其方差估计是已知的,因此:
Var( yst )
k h1
Wh2
(
1
f1h nh
S12h
1 f2h nhmh
S22h )
(9.11)
v(
yst
)
k h1
Wh2
(
1
f1h nh
s12h
f1h (1 f2h nhmh
)
s22h
)
(9.12)
其中
f1h
nh Nh
、f2h
mh Mh
分别为第 h 层中的两个抽样比。
S0
S2 c1
m
c2m
或者m的最优取值为:
mopt
S2 S0
c1 c2
(9.7)
一般地, mopt不是整数,记 [mopt ]为 mopt的最小整数部分,那 么 mopt [mopt ] a ( a 为 mopt的小数部分,且 a 0 )。
如果a2 (1 2a)[mopt ] ,则取 m [mopt ] 1
S22i
1 Mi 1
Mi
(Yij
j 1
Yi )2
—第
i 初级单元内方差
Байду номын сангаас
1、只抽取一个初级单元情形(n=1)
先考虑从 N 个初级单元中随机选取 1 个以推断总体. 这种情形看起来似乎很特殊,但在生活中也不少见,例如在 随机地选的一个班级中抽取几个人进行考试以测试全年级的 教育质量。只选取 1 个单元,仍有等概率与不等概率之分.
第九章 多阶段抽样

第九章 多阶段抽样第一节 多阶抽样概述一、 多阶抽样的概念1、单阶抽样:从总体中通过一次抽样就能够产生一个完整的样本,这类抽样即为单阶抽样。
前面介绍的几种抽样方式均为单阶抽样。
适合用于总体单元数相对较少的抽样过程。
2、多阶抽样:将整个抽样过程分成若干个阶段,一个阶段一个阶段地进行抽样以完成整个抽样过程,这种抽样即为多阶抽样。
当我们面对的总体单元数很庞大,而且分布范围很广时,如果使用前面所学习的单阶抽样方法,不仅工作量大,而且在精度上很难把握,此时如果改用多阶抽样方法,就会避免上述困难,从而达到理想的抽样效果。
3、关于多阶抽样的具体描述:如果我们面对的一阶单元内总体基本单元数相当大,作全面的调查就会比较困难,或者一阶单元内各二阶单元可以给出相近的结果,作全面的调查又无必要。
此时从费用和抽样估计效率考虑,便可以从总体中随机抽取一部分一阶单元,然后再从被抽中的一阶单元内,随机抽取部分二阶单元并对他们作全面调查,我们把这种抽样技术称为两阶抽样。
如果在被抽中的二阶单元中,再抽取部分三阶单元组成样本,并对抽中的三阶单元进行全面的调查,这就是三阶抽样。
类似地,可以定义四阶抽样或更高阶的抽样,通常将两阶以上的抽样称为多阶抽样。
需要指出的是,多阶抽样中,各阶可以采用不同的抽样方法,也可采用同一种抽样方法,要视具体情况和要求而定。
在两阶抽样中,总体各一阶单元所包含的二阶单元数,有相等和不相等的两种情况。
前者无论在样本的抽取还是在指标的估算方面都相对比较简单,然而在抽样实践中却很少有这种情况的存在,但作为基本方法仍然有其实际意义;后种情况在抽样和指标的估算方法上都较为复杂,然而在实际中普遍存在此种情况。
4、两阶抽样与分层抽样和整群抽样的关系:将总体分为若干个一阶单元,如果在每一个一阶单元中,都随机抽取部分二阶单元,由这些二阶单元中的总体基本单元组成的样本,在抽样的方式上,就相当于分层抽样;如果在全部的一阶单元中,只抽取了部分一阶单元,并对抽中的一阶单元中的所有的基本单元都做全面调查,这就是整群抽样。
nonsampling error 抽样技术——蒋妍

项目无回答 对每个缺失值都寻找一个或多个尽可能与其类似的插 补值。一般的插补模型可以表示为: Z = f(X) + e
式中,Z是插补值,X是无回答单位的辅助变量向量,f() 是辅助数据的某一函数,e是残差。 插补法的效率如何,取决于插补值与原无回答数据的 相似程度。
插补法
根据插补值是否包括残差,插补法可分为确定性插补 和随机性插补。 根据确定插补值时是否使用辅助变量,将插补法分为 使用辅助变量插补法和不使用辅助变量插补法。 使用辅助信息的插补法又可根据信息来源分为热卡法 和冷卡法。热卡法(Hot-Deck)中的辅助信息来自当 前调查,冷卡法(Cold-Deck)中的辅助信息来自以前 的同类调查或其它已有的关于无回答单位的相关资料。 根据对每个缺失值的插补值的数,插补法又可分为单 一 插 补 法 ( single imputation ) 和 多 重 插 补 法 (multiple imputation)。
为了对个体无回答进行调整,该调查利 用了入户未访问调整因子WHHNAF (within-household noninterview adjustment factor)。NCVS访员们收 集了无回答者的人口统计信息,使用该 信息可将所有人划分到24个加权调整单 元中去。而这些单元是根据受访者的年 龄、与户主的关系以及户主的种族等进 行定义的
回归法
通过建立y与辅助变量间的回归方程来补入缺 失的y值。 优点:方法简单,对无回答的估计效果好, 对每个被插补变量,可以利用不同的预测变 量 缺点:如果没有随机误差项,可能导致高估; 可能造成多重共线性;可能降低方差。
ˆ Pi log 2.56 0.0896 age ˆ 1 Pi
多阶段抽样方法在医药调查中的综合应用讨论

阶抽样与分层抽样相结合 的应用。
力, 达到满意的调查效果。抽样调查方法可分为概率抽样 和非概率抽样 , 中 , 率抽样方法包 括简单随机 抽样 、 其 概 系统抽样 、 分层抽样 、 群抽样和多 阶段 抽样等 , 整 本文将
主要介绍多阶段抽样方法在医药调查中的应用 。
一
、
多阶段抽样方法介绍
二、 多阶抽样方法在医药调查中的应用
二级 、 一级医 院) 用分层 抽样的方 法抽 取相 应类型不 , 采
同级别 的医疗 机构 ; 确 定阶段和 层次 划分完 毕 , 以 在 可
在多阶抽样过程中 , 可 哿不同的抽样方法进行结合 采 用随 机或 者配额 抽样 等方 法抽取 具体被 调查 的医疗
( ) 一 聚类 分 析 方 法
多阶段抽样 , 分层抽样 是对 每 3 个省市按照上述指标 1
的样本进行抽查 ; 阶段 抽样 亦有别于整群抽样 , 多 整群抽 进 行划分 , 由于 各指标单位不 一致, 需要进 行数据标准化
样是对总体中抽取的每个样本群体所包含的基本 单元 进 处理 。数据标准化处理 主要包括数据同趋化处理和无量
在多阶抽样 的分层过程 中 ,涉及到如何选择有代表
性的若干省市作为被调查对象的问题 ,“ 表性 ” 代 表示选
的有最小 一 最大标准化 、—CF 标准化和 按小数定标标准 Z SOe
化等。
1直 接 聚 类 法 .
直接 聚类 法是 相对 简单 、 准确 率较 高的方法 , 基本 其
择的省市能够反映不 同层次 的水 平。如图 1 的第一阶段 原理是先把各省市单独视为一类 ,然后根据距 离最小 的 抽样 中 ,可 以不用按照大 区划 分 ,而 直接对省市进行分 原则 , 依次选 出一对 省市 并成 新类 , 依此 类推 , 经过 I一 T1 l 层 ,采用恰当的抽样指标和分层方法将有助于 省币 层次 次合并就可以把全部省市 归为一类, 归并的先后顺序 根据 的合理划分, 从而保证抽样的代表性 。 抽样 指标 的选 取应在抽样 目标确定后 以及调查 区域 划分之前进行 ,应 该根据不同项 目目标和 实际 情况进 行 可 以作 出聚类谱 系图。直接聚类法简单易行 、准确率较 高, 在工作中得到广泛运用 。 采用标准化后的指标值对 全国 3 个省市直接聚类 , 1
中国教育追踪调查(CEPS

中国教育追踪调查(CEPS)抽样设计中国教育追踪调查(CEPS)是我国第一个针对初中阶段学生群体的全国性、连续性的大型社会调查项目,基线调查于2013-2014学年进行。
调查采用多阶段的概率与规模成比例(PPS)的抽样方法。
本报告将对调查的抽样设计进行说明。
(一)多阶段抽样设计中国教育追踪调查(CEPS)采用多阶段的概率与规模成比例(PPS)的抽样方法,抽样过程分为四个阶段。
(二)抽样框设计1.第一阶段抽样第一阶段,以县(区)级行政单位作为PSU。
根据2010年全国第六次人口普查数据,将全国(31个省、自治区、直辖市,不含港澳台)共2870个有常住人口的县(区)级行政单位形成3个抽样框,共抽取28个县(区),其中核心样本15个县(区),补充样本13个县(区)。
1在计算权数时只考虑学生,而不考虑家长、班主任、主科目(语数英)任课教师以及学校领导。
抽样框1:全国所有2870个县(区)级行政单位。
从中抽取15个区(县)作为核心样本。
抽样框2:上海市所辖18个县(区)。
为充分反映特大城市上海市的特殊情况,本次调查将上海市所辖18个县(区)单独作为一个抽样框,从中抽取3个县(区)作为补充样本。
具体而言,在抽样框2中,由于上海市多个县(区)拥有大量外来流动人口,为了更好地反映这种特殊性,在抽样时首先从上海市全部18个县(区)中抽取1个县(区)作为抽样框2的核心样本,再将18个县(区)中拥有大量流动人口2的13个县(区)作为一个子抽样框,从中抽取2个县(区)作为抽样框2的补充样本。
抽样框3:全国拥有大量流动人口的120个县(区)。
为使更多流动儿童、随迁子女进入样本,从而充分反映流动人口的特殊属性对教育过程和教育不平等的影响,本次调查从全国拥有大量流动人口的120个县(区)中抽取10个县(区)作为补充样本。
2.第二阶段抽样第二阶段,以学校作为SSU。
由地方合作单位通过入样县(区)教育部门收集当年(2013-2014学年)最新统计的学校名单3、学校类型4和学校规模5等基础资料。
金勇进(第二版)抽样调查理论与方法-绪论

统计量是根据样本的n个单元的变量值计算出的一个量, 也叫估计量,用于对总体参数的估计。 常用的估计量: (1)均值估计; (2)总值估计; (3)比例估计; (4)比率估计。 统计量是随机变量,结果取决于抽样设计和被选入样本的 总体基本单元的特定组合。
估计量方差、偏差、均方误差(1)
估计量方差:估计量分布的方差,它是从平均 意义上说明估计值与待估参数的差异状况,也 是我们对抽样方案进行评价的标准之一。
2
2
抽样误差与非抽样误差
抽样误差:抽样误差是由于抽取样本 的随机性造成的样本值与总体值之间 的差异,只要采用抽样调查,抽样误 差就不可避免。 抽样误差是一个一般的概念,它 可以用不同的量值来表示。例如: 估计量方差或估计量标准差。
抽 样 误 差
样本量
非抽样误差:是相对于抽样误差而言的,它不是由 于抽样的随机性,而是由于其它多种原因引起的估 计值与总体参数之间的差异。 •包括:抽样框误差、计量误差、无回答误差等
多阶段抽样
例如,全国性调查,省;市或县;街道、镇、 或乡,等等。 在大规模的抽样调查中,特别是当抽样单元 为各级行政单位时,通常都采用多阶段抽样。 优点:
样本单位相对集中,实施调查比较方便,可以节 省调查费用; 抽样时并不需要全部低级单位的抽样框。
系统抽样
系统抽样是将N个总体单位按一定顺序排列, 先随机抽取一个单位作为样本的第一个单元, 然后按某种确定的规则抽取样本的其它单元。 其中最简单也是最常用的规则是等间隔抽取。 所以系统抽样又称等距抽样。
依赖研究者个人的经验和判断; 无法估计和控制抽样误差,无法用样本的量化数据 来推断总体。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 n(m 1)
n
m
(yij yi )2
与整群抽样 比较一下
抽样调查
原理与方法
二、Y 估计量的性质
Yˆ y 1 n
n
yi
1 nm
n
m
yij
E(y) Y
抽样调查
原理与方法
E(
y)
E1 E 2
(1 n
n
yi )
E1[
1 n
n
E2 ( yi )]
1 E1[ n
n
Yi ] Y
抽样调查
抽样调查
原理与方法
推导 过程
记 E(ˆ) ,
V (ˆ) E(ˆ )2 E1E2 (ˆ )2 E2 (ˆ )2 E2 (ˆ )2 2E2 (ˆ) 2
E2 (ˆ)2 V2 (ˆ ) 2E2 (ˆ) 2 对 两 边 求 E1 , 得
V (ˆ) E1 E2 (ˆ)2 E1 V2 (ˆ ) E1E2 (ˆ)2 V1 E2 (ˆ) E1 V2 (ˆ )
抽样调查
原理与方法
二、多阶段抽样特点
1. 构造抽样框相对容易 2. 节省人力、物力 3. 行政上便于组织 4. 某些条件可满足各级需要 5. 可用于散料的抽样 6. 划分阶段不宜过多
抽样调查
原理与方法
多阶段抽样推断原理
以单位大小相同的二阶段抽样为例
E() E1[E2 ()]
V() V1[E2 ()] E1[V2 ()]
i 1
1 f2 m
n
S
2 2i
i 1
1 f2 nm
n
S 22i
i1
n
Yi
i1
2
Yn
(n 1)(1 nm
f2)
n
S
2 2i
i 1
E
s12
E1 E2
s12
E1
1 n 1
n i1
(Yi
Y
)
2
1 f2 m
E1
1 n
n i 1
S
2 2i
S12
1 f2 m
S
2 2
抽样调查
原理与方法
E1
n2
n i 1
1
f2 m
S22i
1 f2 nm
E1
1 n
n i 1
S22i
1 f2 nm
1 N
N i 1
S22i
1 f2 nm
S
2 2
抽样调查
原理与方法
V ( y)的无偏估计为
v( y) 1 f1 n
s12
f1
(1 nm
f
2
)
s22
证明:
E
(
s
2 2
)
S
2 2
(2)
即
s22
是
S
2 2
的无偏估计
但
s12
1 n 1
n
(yi y)2
不是 S12
1 N 1
N
(Yi
Y )2的无偏估计
计算 S12时 Yi 不受二阶抽样影响,计算s12 的 yi 则不然。
即:
抽样调查
原理与方法
E
s22
E1 E2
s22
E1
E2
1
n(m
1)
n i1
m
( yij
原理与方法
估计量方差一般公式为:
V (ˆ) V1 E2 (ˆ) E1 V2 (ˆ)
于是有:
V ( y) 1 f1 n
S12
1 f2 mn
S22
(1)
抽样调查
原理与方法
假定n=1, 第二阶段抽取m个单位
用
yi
估计 Yi
,
误差大小取决于
S
2 2
和m,即
V2 ( yi )
S
2 2
m
其次,用 Yi 推断 Y 时,第二次推断误差大小取决于 S12 和n,
yi
)2
j 1
1
E1
n
n i1
E2
1
m
1
m
( yij
j 1
yi
)
2
E1
1 n
n i1
1 M 1
M
(Yij
j 1
Yi
)2
E1
1 n
n i1
S
2 2i
1 N
N
S22i
i 1
S22
抽样调查 原理与方法 E2
n 1
s12
E2
n i 1
yi y
2
n
E2
i 1
yi2
nE2
y2
n i1
E2
yi
2
V2
yi
n
E2
y 2 V2
y
n i1
Yi
2
1 f2 m
S22i
n
1 n
i
n 1
Yi
2
1 f2 nm
n
S
2 2i
i1
记
Yn
1 n
n
Yi
i 1
,(注意 Yn
Y
),则
E2
n 1
s12
n
Yi
2
n
Yn
2
抽样调查
原理与方法
Chapter 8 Multi--Stage sampling
抽样调查
原理与方法
第一节 概述
一.什么是多阶段抽样
分多个阶段抽到最终接受调查的样本。 初级单元(PSU)----Primary Sampling Unit 二级单元 (SSU)----Second-stage Sampling Unit 三级单元(TSU)----Third-stage Sampling Unit 最终单元 (USU)----Ultimate Sampling Unit
抽样调查
原理与方法
第二节 初级单元大小相 等时的二阶抽样
采用 srs,从 N 中抽 n 个初级单元 采用 srs 从每个中选初级单元中抽取 m 个次级单元
一、符号
Yij ,总体中第 i 个初级单元中第 j 个次级单元指标值
i =1,2,….N, j=1,2,….M
yij ,样本中第 i 个初级单元中第 j 个次级单元观测值 i =1,2,…n, j=1,2,….m
V1
1 n
i
n 1
Yi
V1
1 n
i
n 1
Yi
1 f1 n
1 N 1
N i 1
Yi Y
2
1 n
f1
S12
E1 V2
y
E1
V2
1 n
n i 1
yi
E1
1 n2
n
V2
i1
yi
1
E1
n2
i
n 1
1
f m
2
1M M 1 j 1
Yij Yi
2 1
抽样调查
原理与方法
n
m
f1 N , f2 M
M
Yi Yij
m
yi yij
Yi
Yi M
抽样调查
原理与方法
yi
yi m
Y N Yi
N
y n yi
n
抽样调查
原理与方法
S12
1 N 1
N
(Yi
Y
)2
s12
1 n 1
n
(yi
y
)2
S22
1 N(M
1)
N
M
(Yij Yi )2
s22
当n=1时,V1 (Yi ) S12 ,这时
V ( y)
S12
S
2 2
m
若以n个 yi 的均值 y 推断 Y ,其方差为
V ( y)
S12
S
2 2
n nm
再考虑fpc,则(1)式成立。
抽样调查
原理与方法
V
y
1 n
f1
S12
1 f2 nm
S22
V1 E2
y
V1
E2
1 n
n i1
yi
抽样调查
原理与方法
【例8.1】欲调查4月份100家企业的某项指 标,首先从100家企业中抽取了一个含 有5家样本企业的简单随机样本,由于 填报一个月的数据需要每天填写流水帐 ,为了减轻样本企业的负担,调查人员 对这5家企业分别在调查月内随机抽取3 天作为调查日,要求样本企业只填写这 3天的流水帐。调查的结果如下:
所以 S12 的无偏估计为
Sˆ12
s12
1 f2 m
s22
将(2)、(3)式结合,得到
(y)
1 n
f1
s12
f1
(1 nm
f
2
)
s
2 2
(3)
抽样调查
原理与方法
类似的,可以构造三阶抽样 y 的估计方差
( y) 1 f1
n
s12
f1
(1 nm
f2
)
s22
f1 f2 (1 nmk
f3 ) s32