抽样调查：不等概率抽样

合集下载

不等概率抽样调查的应用

PPS抽样方法的研究及其在我国农村居民消费支出估计的应用〔摘要〕不等概率抽样估计是一种十分有效的抽样推断方法，它在实践中有着广泛的应用，采用不等概率抽样修正等概率抽样，可以弥补抽样调查中等概率抽样估计的不足。

由于金融危机引起出口增长受阻，国内投资增长缓慢，城镇居民消费预期恶化且收入分配差距过大，农村有效需求的扩大成为备受关注的问题。

因此，有必要通过市场调查，了解和掌握我国农村居民的消费状况。

应用PPS 抽样方法对我国农村居民生活消费支出进行估计，可以得到相关数据，进而为制定有效的产业策略提供参考依据。

〔关键词〕PPS 抽样；Hansen-Hurvitz 估计量；农村居民消费支出一、引言近20多年来，我国经济连续高速增长主要是由投资带动的，而作为拉动经济增长的最重要的要素———消费需求却严重不足。

消费率是指最终消费额占GDP 的比重，消费率是衡量消费需求的一个重要指标。

如果消费率下降，那么表明消费需求不足，如果消费率上升，则表明消费需求扩张。

近年来，我国消费率数据也遵循了这一规律，最终消费占GDP的比重一直呈下降趋势。

市场经济改革以来，我国最终消费率持续下降，投资与消费增速的差距拉大。

1990我国最终消费率是62.5％，投资率34.9％,消费率高出投资率的27.6％。

2009年最终消费率降到4 8％，投资率是47.7％,消费率仅高出投资率0.3％。

据国外经验来看，在国外很多发达国家和发展中国家，他们的投资率一般在20％~30％左右，消费率一般在7 0％~80％左右。

对比中国的情况，投资率显著高于国外的平均水平，消费率也明显偏低。

目前，“三农”问题已经成为中央政府及有关各部门和理论界极为关注的热点问题。

消费是经济的原动力，消费、投资和净出口被誉为拉动经济增长的“三架马车”，其中消费的作用是最重要的。

当前，我国消费市场的形势并不乐观。

由于金融危机引起出口增长受阻，国内投资增长缓慢，城镇居民消费预期恶化且收入分配差距过大，在这种情况下，人们自然地将增加有效需求的注意力转向了农村。

抽样调查第3章不等概抽样

N
i
2、对自然数集合{ 1,2, … , X }作有放回简单随机抽样，根据抽得随机数a决定入样单元.若
a {1,2,, X1}, 则第一个单元入样
若a { X j 1, X j 2,, X j },
j 1 j 1 j 1 i 1 i 1 i
则第i个单元入样，i =2,3,…, N 3、重复2，直至抽得n个单元.
不等概πPS抽样的实现
实现步骤
2、取出第一个样本单元后不放回，当第一个样本单元为U j时，以概率pi抽取第二个样本单元 pi pi (i j ) 1 p j
i 2 pi
Ui ,U j同时入样的概率为：
2 pi p j D (1 pi p j ) (1 2 pi )(1 2 p j )
每次抽取后抽中的单元不放回要求各单元的入样概率正比于规模测度ps抽样的概念修正概率修正概率数必须给一个修正概率在不同的抽取次抽样次数较多时确定修正概率很麻烦通常将总体分成许多层在每层使用样本量为2的ps抽样不等概不等概psps抽样的实现抽样的实现brewerbrewer抽样方法抽样方法抽取第一个样本单元以概率1963年由brewer提出大体思路设计好第一次抽取概率令第二次抽取概率正比实现步骤的入样概率表示不等概不等概psps抽样的实现抽样的实现抽取第二个样本单元时以概率单元为后不放回当第一个样取出第一个样本单元不等概不等概psps抽样的实现抽样的实现durbindurbin抽样方法抽样方法抽取第一个样本单元以概率大体思路第一次抽取概率正比于p调整第二次的抽取概率使总的入样概率正比于x实现步骤抽取第二个样本单元时以概率单元为后不放回当第一个样取出第一个样本单元不等概不等概psps抽样的实现抽样的实现不等概不等概psps抽样的实现抽样的实现sensenmidzunomidzuno抽样方法抽样方法抽取第一个样本单元以概率大体思路解决样本量超过2的麻烦使ii近似地正比于近似地正比于xxii实现步骤2从剩下的n1个单元中抽取容量为n1的简单随机样本不放回估估值值法法horvitzhorvitzthompsonthompson估计估计其均方偏差为的无偏估计是总体总估计抽样ps321htht估计估计总体总数总体总数yy的估计值为的估计值为估估值值法法无偏估计量为估计的均方偏差的两个定理htps322ijijsinghrao1973且较少负值较稳定通过大量模拟发现例

不等概率抽样

不等概率抽样引例: O ’Brien et al. (1995) 对Philadelphia 地区的病人进行抽样, 目的是了解病人对于医疗服务的偏好。

目标总体是这一区域的所有注册的医院的病人。

总共有294家医院,27652个床位(抽样以前,研究人员只知道床位数,不知道病人数)。

等概率的抽取样本医院的缺点？首先，可能医院中愿意接受CPR 治疗的病人数量会正比与医院床位的数量，采用等概率简单估计量可能会有大的方差。

其次，自加权的等概率样本可能难于管理。

可能仅仅为了调查一两个病人就需要去一家医院，并且合理分配调查人员的工作负担也是比较困难的。

第三，调查成本在调查开始的时候是未知的,一个40个医院的样本可能包括了主要的大的医院，这会导致比预计更大的成本。

其他办法？ 1、调查人员还可以采用与医院病床数量成比例的方法抽取57个医院，然后从每个样本医院中抽取30个简单随机样本床位。

2、如果病人数等于床位数，并且医院实际的床位数和抽样时依据的病床数据一致，每个病人是否有相同的入样概率？3、而且成本在调查实施前是已知的，因为每个访员在每个医院访问的病人数量是相同的。

而且，总体总量的方差可能更小。

4、分层抽样：抽样选择概率小的单位会有较高的权数。

5、采用不等概率抽样来减少抽样方差而不采用清晰的分层。

采用不同的概率来选择初级样本单元，并且在估计中采用不同的权数来进行弥补。

抽样的关键是每个样本的选择概率是已知的。

i P ψ）＝在第一次抽取中被抽中单元i ( i P π被选入样本）＝单元i (一、不等概率抽样适用情况第一，抽样单元在总体中所占的地位不一致。

第二，调查的总体单元与抽样总体的单元不一致。

第三，改善估计量。

不等概率抽样的优点主要是大大提高了估计精度，减少抽样误差，但使用它也由条件，就是必须要有说明每个单元规模大小的辅助变量来确定每个单元入样的概率，这在抽样设计及估计时都是必须得。

二、不等概率抽样的分类 1、放回不等概率抽样每次在总体中对每个单元按入样概率进行抽样，抽取出来的样本单元放回总体，然后进行下一次抽样，这样，每次抽样过程都是从同一个总体独立进行的，这种不等概率抽样称为（有）放回不等概率抽样。

不等概率抽样的概念和特点

通常的做法：牺牲“简单”来提高抽样效率。
（1）将总体单元按规模分层，对较大单元的层抽样比高一些，特大层的抽样比甚至可以100%，而较小单元的层抽样比低一些。
（2）采用不等概抽样来减少抽样方差，即赋予每个单元与其规模成比例的入样概率，然后在估计中采用不同的权数来进行弥补。
分层抽样：抽样选择概率小的单位会有较高的权数。
n
N
Wi yi n
yi
又如，对于霍维茨——汤普森估计量
YˆHT
yi
i
在入选概率与规模成比例条件下，
的性质为
i
i
nZi
则
YˆHT
n
yi nZ i
1 n
n
yi Zi
YˆHH
πPS抽样的实施
n=2条件下严格的πPS抽样
布鲁尔方法德宾方法
n >2条件下严格的πPS抽样
inijninn???1?????ininiihtywyy??????iiw?1?n固定条件下的包含概率第i单位入样概率第ij单位都入样概率21kin1in1inikkikiik2iiiyyy1?kkininikiikkihtyyyv???????????????????????????????????????sskkkii2is2iiyy2y1?iikikkiihtyv?????????kkiiik2sksk?kkiiiiikikkihtyyyv??????????????2?jjiinijijjinhtyyy????????????hty?是y的无偏估计i1ji?hty?是?htyv的无偏估计hhy?ppshty?ps其他公式在某种程度上可用这两个公式表现
2拉希里方法
不需要累计，两次随机数决定抽中的单位。第一次：1-N之间的随机数i 第二次： 1-maxM之间的随机数m 如果Mi> m,第i个单位被抽中

抽样技术第6章不等概率抽样

不等概率抽样
不等概率抽样是抽样调查中一个重要的方法，如当所要研究的总体单元规模相差很大，采用不等概率抽样可以提高估计的精度，减少抽样误差。本文首先介绍不等概率抽样原理，并以抽取一个初级样本单元psu(n=1)为例,介绍其思想；然后考虑抽取多个初级样本单元(n>1)，分别详细讨论采用有放回和无放回方法得到的估计量的均值和方差。
• 令为第i个psu中元素个数，K为总体中
元素个数，则
。有了概率，我
们得到pps抽样。对于一阶段pps抽样，
所以：
3.两阶段有放回抽样
• 两阶段有放回的不等概率抽样的估计量与一阶段的相同。具体的，有放回的抽取一些psu’s，以已知概率抽取第i个psu。如一阶段抽样一样，是在样本中出现的次数。然后在第i个psu中，抽取一个子单元的概率样本。虽然其他任何概率抽样方法都可用，无放回的简单随机抽样或系统抽样通常用于选取子样本。
• 两阶段有放回抽样和一阶段有放回抽样的唯一区别在于：在两阶段抽样中，我们需要估计。如果psu i在样本中出现多次，则会产生个总体估计值：
• 子样本抽样程序必须满足两个要求：
①无论何时被抽取作为样本，同样的子样本抽样设计用于从这个中选取第二个子样本, 即ssu’s。虽然是从同一个抽取不同的子样本，但必须是独立的抽取。
单元i在至少一次在样本中的总概率为:
• 这样，不等概率抽样思想变得非常简单。有放回抽取n个psu’s。然后估计总体总值，使用前部分的估计量，独立的抽取每一个初级样本单元（psu）。有些psu’s可能被抽取多次，使用一个给定psu计算的总体总值
包括的次数跟psu被抽取的次数一样多。因为psu’s被有放回地抽取，所以我们可得到n 个独立的总体总值估计值。则我们去这n个

第七章不等概率抽样

](j
i)
• 具体抽取中，每个单元的抽取可使用代码法完成。此时累计的 “Mi”就是上述相应概率。【例5.9，P179】
3、莫蒂方法（Murthy）
• n>2时的一种非严格的πPS抽样方法。
• 抽样方法：（逐个抽取法）
◎ ◎
第第一二个个单单元元按在与剩余ZNi －MM1个0i 单成元比中例，的按概与率抽取Z j
NN
NN
N
ij (ij,i固定）(n1)i n(n1)
i1 ji
i1 ji
i1
that is:
N i1
N ji
ij
1n(n1) 2
• 与放回的PPS抽样类似，对于不放回不等概率抽样，最感兴趣的仍然是πi与单元大小Mi成比例的情形，即：πi～k* Mi。
• 记单元大小的一个相对度量为：Zi＝Mi/M0（注意Zi在此处仅表示一个相对度量，不具有第2节“入样概率”的含义）。则有：
这种不等概率抽样为多项抽样（multinominal sampling）
• 特别地，当总体中每个单元具有一个说明其“大小”或“规模”
的度量Mi时，则可将每个单元的入样概率取为：
Zi
M M0i ,(M0
N
i1
Mi)
此时每个单元在每次抽样中的入样概率与单元大小成比例，称
这种特殊的多项抽样为与大小成比例的概率抽样（sampling
则由数理统计（放回简单随机抽样），有：
E(YˆHH)E()Y;
V(YˆHH)n1V()n1iN 1Zi(YZii Y)2
而样本方差：
v()n11in1(m yii YˆHH)2
是 V ( ) 的无偏估计从而：
v(Y ˆH H )n 1v()n (n 1 1)i n 1(z yiiY ˆH H )2

抽样技术7不等概率抽样

抽样技术：7不等概率抽样1. 引言在进行数据分析和统计研究时，抽样是一种常用的技术。

抽样技术允许我们从总体中选择一个样本，以便推断总体的性质。

在抽样技术中，不等概率抽样是一种常见的方法，它允许我们以非均匀的概率抽取样本。

本文将介绍关于7种不等概率抽样方法的详细信息。

2. 简单随机抽样简单随机抽样是最基本的抽样方法之一，它要求每个个体被选中的概率相等且任意组合都是可能的。

然而，在某些情况下，简单随机抽样可能并不适用，例如当总体分布不均匀时，或者我们希望在样本中增加一定的多样性。

这时，我们可以考虑使用不等概率抽样方法。

3. 整群抽样整群抽样是一种不等概率抽样方法，它将总体划分为若干个互不重叠的群组（或称为簇），然后从每个群组中抽取样本。

整群抽样可以有效地减少抽样过程中的复杂性，并提高样本的效率。

整群抽样常用于调查社会群体或大型组织等场景。

4. 分层抽样分层抽样是一种根据总体特点进行划分的抽样方法，它将总体划分为若干个层级或相似的子群（层），然后从每个层中抽取样本。

通过分层抽样，我们可以保证样本在各层中的分布情况与总体相似，从而更为准确地推断总体的特征。

5. 系统抽样系统抽样是一种按照固定间隔选择样本的抽样方法。

它类似于简单随机抽样，但是通过定义一个间隔，我们可以按照一定的规律抽取样本。

例如，我们可以在总体中选取每隔一定数量的个体作为样本。

系统抽样在样本大小较大时表现出较高的效率。

6. 按比例分层抽样按比例分层抽样是一种常用的不等概率抽样方法，它根据总体各层的比例确定各层的样本容量。

比例分层抽样可以使得样本在各层中的分布与总体的比例相对应。

这种抽样方法适用于总体中的各个层存在不同比例的情况。

7. 两阶段抽样两阶段抽样是一种复杂的不等概率抽样方法，它将抽样过程分为两个阶段。

在第一阶段，我们从总体中选择一部分群组（或称为簇），在第二阶段，我们从每个群组中抽取一定数量的样本。

两阶段抽样适用于总体较大或分布复杂的情况下，可以提高抽样的效率。

抽样调查：不等概率抽样

二、估值法
PPS抽样法的估值法的理论依据
定理3.1.1 在有放回PPS抽样下，
Yˆ PPS
1 n
是总体Y总 N数 Yi 的无偏.估计
n
i1
yi pi
i 1
(pi为i个第样y本 i时单的元抽取总概体率 i单中，元第而对不应 .)是的
估计的均方偏差为：
VY ˆ(PP)Sn 1 i n1pi(p yii Y)2.
例3.1 设某总体共有N=8个单元，相应 M i及代码如表所示
i
Mi
30 Mi
累计
代码
1
2/5
12
2
1/2
15
3
2/3
20
4
4/3
40
5
8/5
48
6
3/5
18
7
2/3
20
8
1
30
12
1～12
27
13～27
47
28～47
87
48～87
135 88～135
153 136～153
173 154～173
2、Hansen-Hurwitz （汉森—赫维茨）估计量
若 y1,y2, ,yn是按 Z i为入样概率的多项抽样而得的样本数据，它们相应的 Z i 值自然记为 z1,z2, ,zn ，则对总
体总和， Hansen-Hurwitz 给出了如下的估计量：
yHH
1 n
n i 1
yi zi
且 E(yHH)Y ，即 y HH 是总体总和 Y 的无偏估计。
为整数。见下表。
表3—1 pps 抽样时各单元的代码数
单元 i 单元大小M i

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

——Sampling with Probability Proportional to Size
总体单元 Yi 规模测度 Mi 0. 在抽取样本单元时，各单元被抽取的概率正比于Mi .
有放回PPS 抽样是常见的一种不等概率抽样方案。每次抽取，第i
单元Yi 被抽中的概率p i
正
比
于
M
响，只有 Mi m时它才入样，因此第 i 个单元入样的概率与
Mi的大小成正比，此时 Zi Mi M0
二、估值法
PPS抽样法的估值法的理论依据
定理3.1.1 在有放回PPS抽样下，
是总体总数Y
N
Yi
Yˆ PPS
的无偏估计.
பைடு நூலகம்
1 n
n
i 1
yi pi
i 1
( pi为第i个样本单元yi时的抽取概率，而不是总体中第i单元对应的抽取概率.)
i j ij
j
) yi
yj
,
v2 ( YˆHT
)
Nn
( i
j
ij
i1 ji
ij
) (
yi
i
yj
j
)2 .
注：两估计量均有可能取负值，通过模拟比较，v2较稳定且
较少取负值。
§3.3 Rao-Hartley-Cochran随机分群抽样
拉奥-哈特利-科克伦（1962）
设总体个体单元总数N nM k( 0 k n ) 1. 将总体随机分成n个群其中k个群有M 1个个体单元，n k个群有M个个体单元； 2. 在每一个群中，以正比于规模测度的概率抽取一个单元作为样本单元。
估计的均方偏差为：
V(Yˆ PPS
)
1n
n i1
pi (
yi pi
Y
)2 .
证明考虑随机变量Z，
则Z
yi
P{
Z
Yi pi
}
pi
,
是随机变量Z的独立同分布样本，故
pi
E(
zi
)
N
Yi
p i 1 i
pi
Y
,
E( YˆPPS
)
1 n
n
E(
i 1
zi
)
Y
,
V
( YˆPPS
)
var(
z
)
1 n2
n
2. 设计好第一次抽取的概率，第二次抽取的概率与 pi成
正比，使总的入样概率正比于X i .
（2）Durbin（德宾）方法（1967）
第一步：以pi pi的概率抽取第一个样本单元，设第i个单元入样，取出后不放回；
第二步：以概率pi抽取第2个样本单元。
为总体总数Y的无偏估计。
该估计量的均方偏差为：
V(Yˆ RHC ) [1 -
n-1 N-1
k(n - k) 1 N ]
N(N - 1) n i1
pi (
Yi pi
Y
)2 ,
其中pi X i
N
Xi .
i 1
在随机分群抽样下，估计的均方偏差V(Yˆ RHC )的无偏估计
v(Yˆ RHC )
N2 N 2(
n ( yi
z i 1
i
y%HH )2
§3.2 不等概 PS 抽样
有放回不等概率抽样：从实施上还是从估计计算以及精度估计都显得
十分方便。但一个单元被抽中两次以上总会使样本的代表性打折扣，从而引起抽样误差的增加。实际调查工作者一般倾向于使用不放回形式。
问题：最简单的不放回不等概率抽样方式自然会想到逐一抽样这在第
例如，要了解上海地区钢铁企业的景气状况，总体有上钢一厂、三厂、五厂……等等，再加上宝钢。由于宝钢规模极大，它是否景气对整个上海地区钢铁工业起着至关重要的作用。而在抽样中将它与其它规模较小的单位处于同等地位就会既不公正又使抽样推断结果有较大可能发生大的偏差。
§3.1 PPS 抽样
PPS抽样：抽取概率正比于规模测度。
体总和， Hansen-Hurwitz 给出了如下的估计量：
y%HH
1 n
n i 1
yi zi
且 E( y%HH ) Y% ，即 y%HH 是总体总和 Y%的无偏估计。
Var( y%HH )
1 n
N i 1
Z
i
(
Yi Zi
Y%)2
Var( y%HH ) 的无偏估计为
v( y%HH )
1 n(n 1)
n! t1 !t2 !L
tN
!
Z t1 1
Z t2 2
L
Z tN N
N
ti n (3.1)
i 1
这是我们熟悉的多项分布，多项抽样其名正出于此。
多项分布(3.1)具有如下性质：
E(ti ) Var(ti )
nZi nZ
i
(1
Z
i
)
Cov(ti , t j ) nZi Z j
i 1, 2,L , N i j
pi
p
i
(
1
1 2p
i
1 1 2pj
)
2D .
特点：
1. 对这种抽样，总体中个体单元i 的入样概率为
i 2 pi ,
ij
2 pi pj D
( 1 pi pj ) ( 1 2 pi )( 1 2 pj
)
.
2. 第一次抽取的概率与 pi成正比，第二次抽取的概率使
总的入样概率正比于X i .
在第t群中，抽中单元i的概率为
p ti
X i Zt
,
当i属于t群，
0，当i不属于t群；
其
中Z
t
为t群
中
全
体
单
元
规
模
测
度X
的
i
和.
在随机分群抽样下，记第t群抽出的样本单元为 yit ，其对应的抽取概率为 pit ，则估计量
Yˆ py RHC
n
it
t 1 it
总体总数Y的无偏估计量为：
YˆHT
该估计量的均方偏差为：
n
yi
i 1 i
V (YˆHT
)
N
(
1
i
i 1
i
)Yi 2
N
N
( ij
i
j
i 1 j1 ji
i j
) YiYj .
HT估计的均方偏差的两个无偏估计量为
v1( YˆHT
)
n
i 1
(
1
2 i
i
)
y2 i
N
2
n
( ij
i
i1 ji
40
5
8/5
48
6
3/5
18
7
2/3
20
8
1
30
12
1～12
27
13～27
47
28～47
87
48～87
135 88～135
153 136～153
173 154～173
203 174～203
M0 203
假设第 i 个单元在 n次抽样中被抽中 ti 次，则(t1, t2,L , tN )
是一个随机向量，其联合分布为：
n
k( n 1)
k k
) Nn (n k )
N
i 1
Zt X
(
yit pit
Yˆ RHC )2 ,
其中pit 是样本单元yit 对应的总体中正比于规模测度的概率，
即
N
pit X it
Xi .
i 1
表3—1 pps 抽样时各单元的代码数
单元 i 单元大小Mi
代码数
1
M1
2
M2
M
M
N
MN
1, 2,L , M1
M1 1, M1 2,L , M1 M2
M
N 1
N 1
N 1
Mi 1, Mi 2,L , Mi M N M0
i 1
i 1
i 1
每次抽样前，先在整数
1, 2,L
,
M
里面随机等可能的选
]
注：
可用Yˆ PPS估计总体总数Y;
用
1 N
Yˆ PPS估
计
总
体
平
均
值Y;
其
均方误差的
估计分别为v(Yˆ PPS
)和(
1 N
)2
v(Yˆ PPS
).
例一村庄有8个果园，分别由果树50, 30, 65, 80, 140, 44, 20,
100棵，要调查该村庄水果产量，以正比于果树棵树的概率取3 个果园作样本.
（2）最大规模法或 Lahiri(拉希里)方法
当 N 相当大时，累计的 M0将很大，给代码法的实施带
来很多不方便。Lahiri提出下列方法：令
M*
max{
1i N
Mi
}
每次抽取 1～N 中一个随机整数 i 及 1～M *内一个随机整数
m ，如果Mi m，则第 i 个单元入样；若 Mi m，则按前面步骤重抽 (i, m) ，显然，第 i 个单元的入样与否受到m 的影
var(
i 1
zi
)
1 n
var(
z1
)
1
N
(
Yi
n p i1 i
E( z1
))2
pi
1 n
N
i 1
pi
(
Yi pi
Y

抽样调查：不等概率抽样

不等概率抽样调查的应用

抽样调查第3章 不等概抽样

不等概率抽样

不等概率抽样的概念和特点

抽样技术第6章不等概率抽样

第七章不等概率抽样

抽样技术7不等概率抽样

抽样调查：不等概率抽样

抽样调查第3章不等概抽样