抽样调查不等概率抽样

合集下载

抽样调查第3章 不等概抽样

抽样调查第3章 不等概抽样

N
i
2、对自然数集合{ 1,2, … , X }作有放回简单随机抽 样,根据抽得随机数a决定入样单元.若
a {1,2,, X1}, 则第一个单元入样
若a { X j 1, X j 2,, X j },
j 1 j 1 j 1 i 1 i 1 i
则第i个单元入样,i =2,3,…, N 3、重复2,直至抽得n个单元.
不等概πPS抽样的实现
实现步骤
2、取出第一个样本单元后不放回,当第一个样本 单元为U j时,以概率pi抽取第二个样本单元 pi pi (i j ) 1 p j
i 2 pi
Ui ,U j同时入样的概率为:
2 pi p j D (1 pi p j ) (1 2 pi )(1 2 p j )
每次抽取后抽中的单元不放回要求各单元的入样概率正比于规模测度ps抽样的概念修正概率修正概率数必须给一个修正概率在不同的抽取次抽样次数较多时确定修正概率很麻烦通常将总体分成许多层在每层使用样本量为2的ps抽样不等概不等概psps抽样的实现抽样的实现brewerbrewer抽样方法抽样方法抽取第一个样本单元以概率1963年由brewer提出大体思路设计好第一次抽取概率令第二次抽取概率正比实现步骤的入样概率表示不等概不等概psps抽样的实现抽样的实现抽取第二个样本单元时以概率单元为后不放回当第一个样取出第一个样本单元不等概不等概psps抽样的实现抽样的实现durbindurbin抽样方法抽样方法抽取第一个样本单元以概率大体思路第一次抽取概率正比于p调整第二次的抽取概率使总的入样概率正比于x实现步骤抽取第二个样本单元时以概率单元为后不放回当第一个样取出第一个样本单元不等概不等概psps抽样的实现抽样的实现不等概不等概psps抽样的实现抽样的实现sensenmidzunomidzuno抽样方法抽样方法抽取第一个样本单元以概率大体思路解决样本量超过2的麻烦使ii近似地正比于近似地正比于xxii实现步骤2从剩下的n1个单元中抽取容量为n1的简单随机样本不放回估估值值法法horvitzhorvitzthompsonthompson估计估计其均方偏差为的无偏估计是总体总估计抽样ps321htht估计估计总体总数总体总数yy的估计值为的估计值为估估值值法法无偏估计量为估计的均方偏差的两个定理htps322ijijsinghrao1973且较少负值较稳定通过大量模拟发现例

不等概率抽样的概念和特点

不等概率抽样的概念和特点
通常的做法:牺牲“简单”来提高抽样效率。
(1)将总体单元按规模分层,对较大单元的层抽样比高一些,特大层的 抽样比甚至可以100%,而较小单元的层抽样比低一些。
(2)采用不等概抽样来减少抽样方差,即赋予每个单元与其规模成比例 的入样概率,然后在估计中采用不同的权数来进行弥补。
分层抽样:抽样选择概率小的单位会有较 高的权数。
n
N
Wi yi n
yi
又如,对于霍维茨——汤普森估计量
YˆHT
yi
i
在入选概率与规模成比例条件下,
的性质为
i
i
nZi

YˆHT
n
yi nZ i
1 n
n
yi Zi
YˆHH
πPS抽样的实施
n=2条件下严格的πPS抽样
布鲁尔方法 德宾方法
n >2条件下严格的πPS抽样
inijninn???1?????ininiihtywyy??????iiw?1?n固定条件下的包含概率第i单位入样概率第ij单位都入样概率21kin1in1inikkikiik2iiiyyy1?kkininikiikkihtyyyv???????????????????????????????????????sskkkii2is2iiyy2y1?iikikkiihtyv?????????kkiiik2sksk?kkiiiiikikkihtyyyv??????????????2?jjiinijijjinhtyyy????????????hty?是y的无偏估计i1ji?hty?是?htyv的无偏估计hhy?ppshty?ps其他公式在某种程度上可用这两个公式表现
2拉希里方法
不需要累计,两次随机数决定抽中的单位。 第一次:1-N之间的随机数i 第二次: 1-maxM之间的随机数m 如果Mi> m,第i个单位被抽中

抽样技术第6章不等概率抽样

抽样技术第6章不等概率抽样

不等概率抽样
不等概率抽样是抽样调查中一个重要 的方法,如当所要研究的总体单元规模相 差很大,采用不等概率抽样可以提高估计 的精度,减少抽样误差。本文首先介绍不 等概率抽样原理,并以抽取一个初级样本 单元psu(n=1)为例,介绍其思想;然后考 虑抽取多个初级样本单元(n>1),分别详 细讨论采用有放回和无放回方法得到的估 计量的均值和方差。
• 令 为第i个psu中元素个数,K为总体中
元素个数,则
。有了概率 ,我
们得到pps抽样。对于一阶段pps抽样,
所以:
3.两阶段有放回抽样
• 两阶段有放回的不等概率抽样的估计量与 一阶段的相同。具体的,有放回的抽取一 些psu’s,以已知概率 抽取第i个psu。 如一阶段抽样一样, 是在样本中出现的 次数。然后在第i个psu中,抽取一个 子单元的概率样本。虽然其他任何概率抽 样方法都可用,无放回的简单随机抽样或 系统抽样通常用于选取子样本。
• 两阶段有放回抽样和一阶段有放回抽样的 唯一区别在于:在两阶段抽样中,我们需 要估计 。如果psu i在样本中出现多次, 则会产生 个总体估计值:
• 子样本抽样程序必须满足两个要求:
①无论何时被抽取作为样本,同样的子样本 抽样设计用于从这个中选取第二个子样本, 即ssu’s。虽然是从同一个抽取不同的子样 本,但必须是独立的抽取。
单元i在至少一次在样本中的总概率为:
• 这样,不等概率抽样思想变得非常简单。 有放回抽取n个psu’s。然后估计总体总值, 使用前部分的估计量,独立的抽取每一个 初级样本单元(psu)。有些psu’s可能被抽 取多次,使用一个给定psu计算的总体总值
包括的次数跟psu被抽取的次数一样多。因 为psu’s被有放回地抽取,所以我们可得到n 个独立的总体总值估计值。则我们去这n个

第七章不等概率抽样

第七章不等概率抽样

](j
i)
• 具体抽取中,每个单元的抽取可使用代码法完成。此时累计的 “Mi”就是上述相应概率。【例5.9,P179】
3、莫蒂方法(Murthy)
• n>2时的一种非严格的πPS抽样方法。
• 抽样方法:(逐个抽取法)
◎ ◎
第第一二个个单单元元按在与剩余ZNi -MM1个0i 单成元比中例,的按概与率抽取Z j
NN
NN
N
ij (ij,i固定)(n1)i n(n1)
i1 ji
i1 ji
i1
that is:
N i1
N ji
ij
1n(n1) 2
• 与放回的PPS抽样类似,对于不放回不等概率抽样,最感兴趣 的仍然是πi与单元大小Mi成比例的情形,即:πi~k* Mi。
• 记单元大小的一个相对度量为:Zi=Mi/M0(注意Zi在此处仅表 示一个相对度量,不具有第2节“入样概率”的含义)。则有:
这种不等概率抽样为多项抽样(multinominal sampling)
• 特别地,当总体中每个单元具有一个说明其“大小”或“规模”
的度量Mi时,则可将每个单元的入样概率取为:
Zi
M M0i ,(M0
N
i1
Mi)
此时每个单元在每次抽样中的入样概率与单元大小成比例,称
这种特殊的多项抽样为与大小成比例的概率抽样(sampling
则由数理统计(放回简单随机抽样),有:
E(YˆHH)E()Y;
V(YˆHH)n1V()n1iN 1Zi(YZii Y)2
而样本方差:
v()n11in1(m yii YˆHH)2
是 V ( ) 的无偏估计 从而:
v(Y ˆH H )n 1v()n (n 1 1)i n 1(z yiiY ˆH H )2

抽样技术7不等概率抽样

抽样技术7不等概率抽样

抽样技术:7不等概率抽样1. 引言在进行数据分析和统计研究时,抽样是一种常用的技术。

抽样技术允许我们从总体中选择一个样本,以便推断总体的性质。

在抽样技术中,不等概率抽样是一种常见的方法,它允许我们以非均匀的概率抽取样本。

本文将介绍关于7种不等概率抽样方法的详细信息。

2. 简单随机抽样简单随机抽样是最基本的抽样方法之一,它要求每个个体被选中的概率相等且任意组合都是可能的。

然而,在某些情况下,简单随机抽样可能并不适用,例如当总体分布不均匀时,或者我们希望在样本中增加一定的多样性。

这时,我们可以考虑使用不等概率抽样方法。

3. 整群抽样整群抽样是一种不等概率抽样方法,它将总体划分为若干个互不重叠的群组(或称为簇),然后从每个群组中抽取样本。

整群抽样可以有效地减少抽样过程中的复杂性,并提高样本的效率。

整群抽样常用于调查社会群体或大型组织等场景。

4. 分层抽样分层抽样是一种根据总体特点进行划分的抽样方法,它将总体划分为若干个层级或相似的子群(层),然后从每个层中抽取样本。

通过分层抽样,我们可以保证样本在各层中的分布情况与总体相似,从而更为准确地推断总体的特征。

5. 系统抽样系统抽样是一种按照固定间隔选择样本的抽样方法。

它类似于简单随机抽样,但是通过定义一个间隔,我们可以按照一定的规律抽取样本。

例如,我们可以在总体中选取每隔一定数量的个体作为样本。

系统抽样在样本大小较大时表现出较高的效率。

6. 按比例分层抽样按比例分层抽样是一种常用的不等概率抽样方法,它根据总体各层的比例确定各层的样本容量。

比例分层抽样可以使得样本在各层中的分布与总体的比例相对应。

这种抽样方法适用于总体中的各个层存在不同比例的情况。

7. 两阶段抽样两阶段抽样是一种复杂的不等概率抽样方法,它将抽样过程分为两个阶段。

在第一阶段,我们从总体中选择一部分群组(或称为簇),在第二阶段,我们从每个群组中抽取一定数量的样本。

两阶段抽样适用于总体较大或分布复杂的情况下,可以提高抽样的效率。

抽样调查:不等概率抽样

抽样调查:不等概率抽样
——Sampling with Probability Proportional to Size
总体单元 Yi 规模测度 Mi 0. 在抽取样本单元时,各单元被抽取的概率正比于Mi .
有放回PPS 抽样是常见的一种不等概率抽样方案。每次抽取,第i
单 元Yi 被 抽 中 的 概 率p i



M
响,只有 Mi m时它才入样,因此第 i 个单元入样的概率与
Mi的大小成正比,此时 Zi Mi M0
二、估 值 法
PPS抽样法的估值法的理论依据
定理3.1.1 在有放回PPS抽样下,
是总体总数Y
N
Yi
Yˆ PPS
的无偏估计.
பைடு நூலகம்
1 n
n
i 1
yi pi
i 1
( pi为第i个样本单元yi时的抽取概率,而不是总体中第i单元对应的抽取概率.)
i j ij
j
) yi
yj
,
v2 ( YˆHT
)
Nn
( i
j
ij
i1 ji
ij
) (
yi
i
yj
j
)2 .
注:两估计量均有可能取负值,通过模拟比较,v2较稳定且
较少取负值。
§3.3 Rao-Hartley-Cochran随机分群抽样
拉奥-哈特利-科克伦(1962)
设总体个体单元总数N nM k( 0 k n ) 1. 将总体随机分成n个群 其中k个群有M 1个个体单元,n k个群有M个个体单元; 2. 在每一个群中,以正比于规模测度的概率抽取一个单元 作为样本单元。
估计的均方偏差为:
V(Yˆ PPS
)

抽样调查:不等概率抽样

抽样调查:不等概率抽样

二、估 值 法
PPS抽样法的估值法的理论依据
定理3.1.1 在有放回PPS抽样下,
Yˆ PPS
1 n
是总体Y总 N数 Yi 的无偏.估计
n
i1
yi pi
i 1
(pi为i个 第样y本 i时单 的元 抽取总 概体 率 i单 中 , 元 第 而 对不 应 .)是 的
估计的均方偏差为:
VY ˆ(PP)Sn 1 i n1pi(p yii Y)2.
例3.1 设某总体共有N=8个单元,相应 M i及代码如表所示
i
Mi
30 Mi
累计
代码
1
2/5
12
2
1/2
15
3
2/3
20
4
4/3
40
5
8/5
48
6
3/5
18
7
2/3
20
8
1
30
12
1~12
27
13~27
47
28~47
87
48~87
135 88~135
153 136~153
173 154~173
2、Hansen-Hurwitz (汉森—赫维茨)估计量
若 y1,y2, ,yn是按 Z i为入样概率的多项抽样而得的样 本数据,它们相应的 Z i 值自然记为 z1,z2, ,zn ,则对总
体总和, Hansen-Hurwitz 给出了如下的估计量:
yHH
1 n
n i 1
yi zi
且 E(yHH)Y ,即 y HH 是总体总和 Y 的无偏估计。
为整数。见下表。
表3—1 pps 抽样时各单元的代码数
单元 i 单元大小M i

07-第七章 不等概率抽样

07-第七章 不等概率抽样

(7.4)
(7.5)
5
3. 若 n > 1 ,则
ˆ )= v(Y HH
n æ yi ˆ 1 ç - YHH å n(n - 1) i =1 ç è zi
ö ÷ ÷ ø
2
(7.6)
ˆ ) 的无偏估计。 是 V (Y HH ˆ 的 在证明上述性质以前,我们先就 PPS 抽样这种特殊情形,说明 Y HH
*
[1,24] 中的一个随机数为 9,由于 M 4 = 6 < 9 ,因此需要重抽。设第二次抽
到的一组随机数为 (7,15) ,则仍然不满足要求,还需要抽。若再次抽到的随 机数组为 (2,8) ,则由于 M 2 = 10 > 8 ,故第 2 个单元被抽中。如此重复直 到抽到 n 个单元(允许重复)为止。 拉希里法适用于 N 很大的情况,因为它不需要列出如表 7.1 这样的表。 7.2.3 汉森——赫维茨估计量及其性质 对于 多 项 抽样,由于抽样是不等概率的,每个样本单元的 观测 值 ,因此对于总体参数的估计与等概率抽样 y1 , y 2 , , y n 就不再是“平等的” 不同。前已提到,这个估计也与样本单元 Z i 的取值 z1 , z 2 , , z n 有关。汉森 ——赫维茨(Hansen-Hurwitz)提到的对总体总和 Y 的估计如下:
Mi
8 10 17 6 24 9 5 7 4 10
累计 M i 8 18 35 41 65 74 79 86 90 100
代码 1~8 9~18 19~35 36~41 42~65 66~75 76~79 80~86 87~90 91~100
M 0 = 100
在 [1,100] 范围内产生 5 个随机数,设分别为 04,73,25,49 及 82,则 第 1,第 6,第 3,第 5 及第 8 个单元即为抽中的单元。如果我们欲再增加 一个样本单元,产生的随机数为 58,则又对应第 5 个单元,这个单元即为 抽中两次。由于单元愈大,被赋予的代码数就愈多,因此每个单元入样的概
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

响,只有 Mi m时它才入样,因此第 i 个单元入样的概率与
Mi的大小成正比,此时 Zi Mi M0
二、估 值 法
PPS抽样法的估值法的理论依据
定理3.1.1 在有放回PPS抽样下,
是总体总数Y

N
Yi
Yˆ PPS
的无偏估计.

1 n
n

i 1
yi pi
i 1
( pi为第i个样本单元yi时的抽取概率,而不是总体中第i单元对应的抽取概率.)
yi pi
1 [15 (140) 12 (100) 7 ( 65 )]
3 529
529
529
59.04 .

这一估计的均方偏差的估计为
v( YˆPPS
)
1
n
(
n( n 1 ) i1
yi pi
YˆPPS
)2

4.93
2、Hansen-Hurwitz (汉森—赫维茨)估计量
单 元Yi 被 抽 中 的 概 率p i



M

i
pi

Mi
N
Mj

Mi M
j 1
一次抽取后,放回被抽中的单元再作下次抽取。
不等概率 抽样
有放回不等概率抽样 (PPS)
无放回不等概率抽样
( pPsS)
一、实现方法
(1)累积和法 或 代码法
它适合于 N 若在实际中存在
M不i不太是大整的数情的形话。,假则定可所以有乘的以M一i 为个整倍数数,使倘其
估计的均方偏差为:
V(Yˆ PPS
)
1n
n i1
pi (
yi pi
Y
)2 .
证明 考虑随机变量Z,
则Z

yi
P{
Z

Yi pi
}
pi ,
是随机变量Z的独立同分布样本,故
pi
E(
zi
)
N

Yi
p i 1 i
pi
Y
,
E( YˆPPS
)
1 n
n
E(
i 1
zi
)

Y
,
V
( YˆPPS
)

var(
z
)

1 n2
n
var(
i 1
zi
)

1 n
var(
z1
)

1
N

(
Yi
n p i1 i
E( z1
))2
pi

1 n
N

i 1
pi
(
Yi pi
Y
)2

定理3.1.2 在有放回PPS抽样下,
v( YˆPPS
)
1
n
(
n( n 1 ) i1
yi pi
YˆPPS
,
M
里面随机等可能的选
0
取一个整数,设为m ,若代码 m 属于第 j个单元拥有的代码
数,则第 j个单元入样。整个过程重复 n次,得到 n个单元
入样(当然存在重复的可能性)构成 pps 样本。
例3.1 设某总体共有N=8个单元,相应 Mi及代码如表所示
i
Mi
30 Mi
累计
代码
1
2/5
12
2
1/2
15
3
2/3
20
4
4/3
40
5
8/5
48
6
3/5
18
7
2/3
20
8
1
30
12
1~12
27
13~27
47
28~47
87
48~87
135 88~135
153 136~153
173 154~173
203 174~203

M0 203
假设第 i 个单元在 n次抽样中被抽中 ti 次,则(t1, t2, , tN )
为整数。见下表。
表3—1 pps 抽样时各单元的代码数
单元 i 单元大小Mi
代码数
1
M1
2
M2
1, 2, , M1
M1 1, M1 2, , M1 M2
N 1
N 1
N 1
N
MN
Mi 1, Mi 2, , Mi M N M0
i 1
i 1
i 1
每次抽样前,先在整数 1, 2,
,N
Cov(ti , t j ) nZi Z j
i j
倘若单元有一个数值度量其大小,诸如职工人数、工厂产值
商店销售额等,或者感兴趣的调查指标在上一次普查时的数
据也可以作为其单元大小的一种度量。记 M为i 第 i 个单元的
“大小”,并记M0

N
i 1
Mi
若取 n=3,在1~203中随机有放回地产生3个随机整数,不 妨设为45、89、101,则第 3 个单元入样一次,第 5 个单 元入样 2 次。
§3.1 PPS 抽 样
PPS抽样:抽取概率正比于规模测度。
——Sampling with Probability Proportional to Size
总体单元 Yi 规模测度 Mi 0. 在抽取样本单元时,各单元被抽取的概率正比于Mi .
有放回PPS 抽样是常见的一种不等概率抽样方案。每次抽取,第i
是一个随机向量,其联合分布为:
n! t1 !t2 !
tN
!
Z t1 1
Z t2 2
Z tN N
N
ti n (3.1)
i 1
这是我们熟悉的多项分布,多项抽样其名正出于此。
多项分布(3.1)具有如下性质:

E(ti ) Var(ti )
nZi nZ
i
(1

Z
i
)
i 1, 2,
100棵,要调查该村庄水果产量,以正比于果树棵树的概率取3 个果园作样本.
果园序号 1 2 3 4 5
678
规模测度X 50 30 65 80 140 44 20 100
如果实地调查得第5、第8、第3号三个果园的产量分别为 15,12,7,求该村八个果园的总产量估计.
解: Yˆ PPS

1n
n i1
若 y1 , y2 , , yn 是按 Zi为入样概率的多项抽样而得的样 本数据,它们相应的 Zi值自然记为 z1, z2 , , zn ,则对总
体总和, Hansen-Hurwitz 给出了如下的估计量:
yHH

1 n
n i 1
yi zi
且 E( yHH ) Y ,即 yHH 是总体总和 Y 的无偏估计。
)2

1
n
[(
n( n 1 ) i1
yi pi
)2

nYˆP2PS
]
注:
可用Yˆ PPS估计总体总数Y;

1 N
Yˆ PPS估





值Y;
其均
方误差的估计
分别为v(Yˆ PPS
)和(
1 N
)2
v(Yˆ PPS
).
例 一村庄有8个果园,分别由果树50, 30, 65, 80, 140, 44, 20,
(2)最大规模法 或 Lahiri(拉希里)方法
当 N 相当大时,累计的 M0将很大,给代码法的实施带
来很多不方便。Lahiri提出下列方法:令
M*

max{
1i N
M
i
}
每次抽取 1~N 中一个随机整数 i 及 1~M *内一个随机整数
m ,如果Mi m,则第 i 个单元入样;若 Mi m,则按前面 步骤重抽 (i, m) ,显然,第 i 个单元的入样与否受到m 的影
Var( yHH )
1 n
N i 1
Z
i
(
Yi Zi
相关文档
最新文档