抽样技术 7 不等概率抽样
(硕)《抽样技术》第三讲 等概率与不等概率抽样比较研究

三、严格的πPS抽样
n是固定的;一阶包含概率与单 是固定的; 位规模大小严格成比例, 位规模大小严格成比例,即
πi = nZi
1.当 n = 2 的情况下 1.当 布鲁尔估计法: 布鲁尔估计法: 要求: 要求:总体中最大的单位必须小 于全部单位大小总和的 1 2
记第一个被抽取的单位为i 记第一个被抽取的单位为i,第一个单位 成比例的概率抽取。 按与 Z i (1 − Z i ) 成比例的概率抽取。
设从总体中不放回地抽去 n 个 单位, 单位, 令 π i 为第 i 个单位入样的概率 (一阶包含概率). 一阶包含概率). π ij 为第 i 和第 j 个单位同时入 样的概率(二阶包含概率). 样的概率(二阶包含概率).
1. 霍维茨 汤普森估计量 霍维茨-汤普森 汤普森估计量
总体总值的估计量 X ˆ 估计量的方差为
2
( )
ˆ xi XHH M = ∑ m − M n ( n −1) i=1 i 0
第三节 不重复的 不等概率抽样
一、基本概念 1. πPS 抽样:不放回的与单元规模 抽样:
大小成比例的概率抽样称为严格的
πPS 抽样。 抽样。
2. 在不重复的不等概率抽样中,总 在不重复的不等概率抽样中, 体中的每个单位每次被抽中的概率 为 Zi 。
两个单位同时入样概率称为 二阶包含概率。 二阶包含概率。
包含概率的性质: 包含概率的性质:
(1)
∑π
i =1 N
N
i
=n = ( n − 1) π i
(2)
∑π
i≠ j N
ij
1 ∑∑i π ij = 2 n ( n − 1) (3) i =1 j >
N
抽样技术第七章整群抽样ppt课件

11
三、群内相关系数与设计效应
群内相关系数
c
E(Yij Y E(Yij
)(Yik Y Y )2
)
上式中的分子为
NM
(Yij Y )(Yik Y )
i1 jk
NM (M 1) 2
12
上式中的分母为
NM
i1
(Yij Y )2
j 1
NM
1S2
1N
1N
Y
M0
i1
Yij
j 1
M0
Yi
i1
M0
M iYi
i1
21
二、按简单随机抽样抽群
1.简单估计 2.比估计 3.总体比例的估计
22
1.简单估计
在大多数情形,群大小Mi是不相等的。此时,若Mi 相差不多,则仍可按§7.2中的方法处理,用平均群
大 则小这种M方法N1精iN1度M较i 差代。替M。反之,若Mi相差较多,
n
1 n
n 1 i1
yi y 2
1 f nM
sb2
其中f=n/N为抽样比。可见,sb2 是Sb2的无偏估计。
8
当n足够大时,总体均值Y 的置信度为1−α的置信区 间为:
y u 2s y
例7.1 在一次某城市居民小区居民食品消费量调查 中,以每个楼层(相当于居民小组)为群进行整群抽 样。每个楼层都有M=8个住户。用简单随机抽样在 全部N=510个楼层中抽取n=12个楼层。全部96个 样本户人均月食品消费额yij及按楼层的平均数yi 与 标准差si ,如下表所示。试估计该居民小区人均食 品消费额的户平均值 ,并给出其0.95的置信区间。
不等概率抽样

二、不等概率抽样的优点和局限性
(一)优点:能够大大提高抽样精度,减少抽样误差。
(二)局限性:必须具有能够说明单元规模大小的辅助变 量来确定各个单元的入样概率或包含概率。
三、不等概率的适用场合:总体单元之间的差异较大。
四、不等概率抽样分类:
我们最关心也是最重要的情形是抽样容量 n固定时, 单元入样的概率(不放回抽样)或每次抽样的概率(有放回 抽样)与单元的大小严格成比例。这种情况下的有放回抽样
( i
j
ij
)
Yi
i
Yj
j
2
(7.13)
3、几种严格的不放回 ps 抽样方法
前面已经指出,所谓“严格不放回 ps ”是指样本容量
n 固定,严格不放回、 i nZi 的抽样。仅介绍n=2的情形。
(1)Brewer(布鲁尔)方法(1963)
假设对所有 i,均有Zi
响,只有 Mi m时它才入样,因此第 i 个单元入样的概率与
Mi的大小成正比,此时 Zi Mi M0
2、Hansen-Hurwitz (汉森—赫维茨)估计量
若 y1 , y2 , , yn 是按 Zi为入样概率的多项抽样而得的样 本数据,它们相应的 Zi值自然记为 z1, z2 , , zn ,则对总
不等概率抽样调查的应用

PPS抽样方法的研究及其在我国农村居民消费支出估计的应用〔摘要〕不等概率抽样估计是一种十分有效的抽样推断方法,它在实践中有着广泛的应用,采用不等概率抽样修正等概率抽样,可以弥补抽样调查中等概率抽样估计的不足。
由于金融危机引起出口增长受阻,国内投资增长缓慢,城镇居民消费预期恶化且收入分配差距过大,农村有效需求的扩大成为备受关注的问题。
因此,有必要通过市场调查,了解和掌握我国农村居民的消费状况。
应用PPS 抽样方法对我国农村居民生活消费支出进行估计,可以得到相关数据,进而为制定有效的产业策略提供参考依据。
〔关键词〕PPS 抽样;Hansen-Hurvitz 估计量;农村居民消费支出一、引言近20多年来,我国经济连续高速增长主要是由投资带动的,而作为拉动经济增长的最重要的要素———消费需求却严重不足。
消费率是指最终消费额占GDP 的比重,消费率是衡量消费需求的一个重要指标。
如果消费率下降,那么表明消费需求不足,如果消费率上升,则表明消费需求扩张。
近年来,我国消费率数据也遵循了这一规律,最终消费占GDP的比重一直呈下降趋势。
市场经济改革以来,我国最终消费率持续下降,投资与消费增速的差距拉大。
1990我国最终消费率是62.5%,投资率34.9%,消费率高出投资率的27.6%。
2009年最终消费率降到4 8%,投资率是47.7%,消费率仅高出投资率0.3%。
据国外经验来看,在国外很多发达国家和发展中国家,他们的投资率一般在20%~30%左右,消费率一般在7 0%~80%左右。
对比中国的情况,投资率显著高于国外的平均水平,消费率也明显偏低。
目前,“三农”问题已经成为中央政府及有关各部门和理论界极为关注的热点问题。
消费是经济的原动力,消费、投资和净出口被誉为拉动经济增长的“三架马车”,其中消费的作用是最重要的。
当前,我国消费市场的形势并不乐观。
由于金融危机引起出口增长受阻,国内投资增长缓慢,城镇居民消费预期恶化且收入分配差距过大,在这种情况下,人们自然地将增加有效需求的注意力转向了农村。
抽样技术7不等概率抽样

抽样技术:7不等概率抽样1. 引言在进行数据分析和统计研究时,抽样是一种常用的技术。
抽样技术允许我们从总体中选择一个样本,以便推断总体的性质。
在抽样技术中,不等概率抽样是一种常见的方法,它允许我们以非均匀的概率抽取样本。
本文将介绍关于7种不等概率抽样方法的详细信息。
2. 简单随机抽样简单随机抽样是最根本的抽样方法之一,它要求每个个体被选中的概率相等且任意组合都是可能的。
然而,在某些情况下,简单随机抽样可能并不适用,例如当总体分布不均匀时,或者我们希望在样本中增加一定的多样性。
这时,我们可以考虑使用不等概率抽样方法。
3. 整群抽样整群抽样是一种不等概率抽样方法,它将总体划分为假设干个互不重叠的群组〔或称为簇〕,然后从每个群组中抽取样本。
整群抽样可以有效地减少抽样过程中的复杂性,并提高样本的效率。
整群抽样常用于调查社会群体或大型组织等场景。
4. 分层抽样分层抽样是一种根据总体特点进行划分的抽样方法,它将总体划分为假设干个层级或相似的子群〔层〕,然后从每个层中抽取样本。
通过分层抽样,我们可以保证样本在各层中的分布情况与总体相似,从而更为准确地推断总体的特征。
5. 系统抽样系统抽样是一种按照固定间隔选择样本的抽样方法。
它类似于简单随机抽样,但是通过定义一个间隔,我们可以按照一定的规律抽取样本。
例如,我们可以在总体中选取每隔一定数量的个体作为样本。
系统抽样在样本大小较大时表现出较高的效率。
6. 按比例分层抽样按比例分层抽样是一种常用的不等概率抽样方法,它根据总体各层的比例确定各层的样本容量。
比例分层抽样可以使得样本在各层中的分布与总体的比例相对应。
这种抽样方法适用于总体中的各个层存在不同比例的情况。
7. 两阶段抽样两阶段抽样是一种复杂的不等概率抽样方法,它将抽样过程分为两个阶段。
在第一阶段,我们从总体中选择一局部群组〔或称为簇〕,在第二阶段,我们从每个群组中抽取一定数量的样本。
两阶段抽样适用于总体较大或分布复杂的情况下,可以提高抽样的效率。
不等概率抽样的概念和特点

(1)将总体单元按规模分层,对较大单元的层抽样比高一些,特大层的 抽样比甚至可以100%,而较小单元的层抽样比低一些。
(2)采用不等概抽样来减少抽样方差,即赋予每个单元与其规模成比例 的入样概率,然后在估计中采用不同的权数来进行弥补。
分层抽样:抽样选择概率小的单位会有较 高的权数。
n
N
Wi yi n
yi
又如,对于霍维茨——汤普森估计量
YˆHT
yi
i
在入选概率与规模成比例条件下,
的性质为
i
i
nZi
则
YˆHT
n
yi nZ i
1 n
n
yi Zi
YˆHH
πPS抽样的实施
n=2条件下严格的πPS抽样
布鲁尔方法 德宾方法
n >2条件下严格的πPS抽样
inijninn???1?????ininiihtywyy??????iiw?1?n固定条件下的包含概率第i单位入样概率第ij单位都入样概率21kin1in1inikkikiik2iiiyyy1?kkininikiikkihtyyyv???????????????????????????????????????sskkkii2is2iiyy2y1?iikikkiihtyv?????????kkiiik2sksk?kkiiiiikikkihtyyyv??????????????2?jjiinijijjinhtyyy????????????hty?是y的无偏估计i1ji?hty?是?htyv的无偏估计hhy?ppshty?ps其他公式在某种程度上可用这两个公式表现
2拉希里方法
不需要累计,两次随机数决定抽中的单位。 第一次:1-N之间的随机数i 第二次: 1-maxM之间的随机数m 如果Mi> m,第i个单位被抽中
抽样技术第6章不等概率抽样

不等概率抽样
不等概率抽样是抽样调查中一个重要 的方法,如当所要研究的总体单元规模相 差很大,采用不等概率抽样可以提高估计 的精度,减少抽样误差。本文首先介绍不 等概率抽样原理,并以抽取一个初级样本 单元psu(n=1)为例,介绍其思想;然后考 虑抽取多个初级样本单元(n>1),分别详 细讨论采用有放回和无放回方法得到的估 计量的均值和方差。
• 令 为第i个psu中元素个数,K为总体中
元素个数,则
。有了概率 ,我
们得到pps抽样。对于一阶段pps抽样,
所以:
3.两阶段有放回抽样
• 两阶段有放回的不等概率抽样的估计量与 一阶段的相同。具体的,有放回的抽取一 些psu’s,以已知概率 抽取第i个psu。 如一阶段抽样一样, 是在样本中出现的 次数。然后在第i个psu中,抽取一个 子单元的概率样本。虽然其他任何概率抽 样方法都可用,无放回的简单随机抽样或 系统抽样通常用于选取子样本。
• 两阶段有放回抽样和一阶段有放回抽样的 唯一区别在于:在两阶段抽样中,我们需 要估计 。如果psu i在样本中出现多次, 则会产生 个总体估计值:
• 子样本抽样程序必须满足两个要求:
①无论何时被抽取作为样本,同样的子样本 抽样设计用于从这个中选取第二个子样本, 即ssu’s。虽然是从同一个抽取不同的子样 本,但必须是独立的抽取。
单元i在至少一次在样本中的总概率为:
• 这样,不等概率抽样思想变得非常简单。 有放回抽取n个psu’s。然后估计总体总值, 使用前部分的估计量,独立的抽取每一个 初级样本单元(psu)。有些psu’s可能被抽 取多次,使用一个给定psu计算的总体总值
包括的次数跟psu被抽取的次数一样多。因 为psu’s被有放回地抽取,所以我们可得到n 个独立的总体总值估计值。则我们去这n个
抽样调查:不等概率抽样

总体单元 Yi 规模测度 Mi 0. 在抽取样本单元时,各单元被抽取的概率正比于Mi .
有放回PPS 抽样是常见的一种不等概率抽样方案。每次抽取,第i
单 元Yi 被 抽 中 的 概 率p i
正
比
于
M
响,只有 Mi m时它才入样,因此第 i 个单元入样的概率与
Mi的大小成正比,此时 Zi Mi M0
二、估 值 法
PPS抽样法的估值法的理论依据
定理3.1.1 在有放回PPS抽样下,
是总体总数Y
N
Yi
Yˆ PPS
的无偏估计.
பைடு நூலகம்
1 n
n
i 1
yi pi
i 1
( pi为第i个样本单元yi时的抽取概率,而不是总体中第i单元对应的抽取概率.)
i j ij
j
) yi
yj
,
v2 ( YˆHT
)
Nn
( i
j
ij
i1 ji
ij
) (
yi
i
yj
j
)2 .
注:两估计量均有可能取负值,通过模拟比较,v2较稳定且
较少取负值。
§3.3 Rao-Hartley-Cochran随机分群抽样
拉奥-哈特利-科克伦(1962)
设总体个体单元总数N nM k( 0 k n ) 1. 将总体随机分成n个群 其中k个群有M 1个个体单元,n k个群有M个个体单元; 2. 在每一个群中,以正比于规模测度的概率抽取一个单元 作为样本单元。
估计的均方偏差为:
V(Yˆ PPS
)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
汉森-赫维茨估计量估计给出总体总量的估计, 如果对总体均值估计可按下公式:
假设M 0是总体规模大小的度量
Y HH
Y HH 1 n yi M 0 M 0 n i 1 zi
n yi 1 2 v(Y HH ) 2 ( Y ) HH M 0 n(n 1) i 1 zi
6
放回不等概抽样
PPS抽样:有放回的不等概抽样
设总体包含N 个单元,M i是第i个单元的大小或规模的度量, i 1, ,N,总体的总规模度量为:M 0 M i
i 1 N Mi 则第i个单元的抽选概率为:Z i 0, Z i 1 M0 i 1 N
即抽样概率正比于规模度量,一次抽完后再放回,进行下 一次抽取。独立地进行这样的抽样n次,共抽到n个单元 (有可能重复,只调查一次,但计算时按重复数计算)。
因为是放回抽样,所以是独立样本,数理统计的结 论可以在这里应用。
对上述结论加以说明:
独立同分布样本 抽中概率 新变量 t
n
y1 z1 y1/ z1
i
y2 z2 y2 /z2
… … …
yn zn yn/zn
样本均值 t
t
i 1
n
1 n yi ˆ Y HH n i 1 zi
ˆ )的无偏估计量为: V ()即 t V (Y HH
i
mi
yi
i
mi
yi
i
mi
yi
1*
2 3 4 5 6 7 8
38.23
13.70 0.75 2.85 2.00 5.00 10.80 2.00
10926
1024 13 30 1102 600 290 430
10
11 12 13 14 15 16 17
5.50
15.00 7.00 15.00 12.30 3.86 15.80 9.00
令M max M i
1i N
每次从 1,N 中简单随机地抽取一随机数a, 同时再独立从 1,M 中简单随机地抽取一随机数b。 若b M a , 则第a个单元入样,若b M a则重抽。 第i个单元被抽中的概率: 1 Mi zi =p{a=i,b M i }=p{a=i} p{b M i }= . N M 显然,zi M i
放回不等概率抽样实施方法 1.代码法
单元i 单元大小M i 1 2 N M1 M2 MN
代码 1, 2, M 1 M 1 1,M 1 2, ,M 1 M 2
M
j1
N 1
j
1, , M j 2, M j MN M0
j1 j1
N 1
N 1
累计 6 151
代码 1~6 7~151
3
4 5 6 7
1.5
13.7 7.8 15 10
15
137 78 150 100
166
303 381 531 631
152~166
167~303 304~381 382~531 532~631
8
9 10
3.6
6 1.1 =73.8
36
60 11 738
667
1900
864 17 1045 220 4600 2370 940
19
20 21 22* 23 24 25 26
1.50
8.00 28.42 9.01 0.75 5.00 28.43 9.97
10
80 13672 3845 480 311 9284 842
9
8.81
992
18*
21.00
640
27
5.20
727 738
632~667
668~727 728~738
假设在[1,738] 中等概产生第一个随机数为354,再在[1,738]中产生第二 个随机数为553,最后在[1,738]中产生第三个随机数为493,则它们所对 应的第5,7,6号单元被抽中。
例:假设有10个乡,每个乡的村庄数不同,按pps抽3个乡 乡 1 2 3 村庄数Mi 累计 5 5 28 26 33 59 代码 1~5 6~33 34~59 结合一下整群抽样、 多阶段抽样
不等概率抽样的特点
1、凡需使用不等概率抽样的场合,必须提供总体单
元的某种辅助信息。 例如:每个单元的“大小”度量Mi。注意:比估计 和回归估计是估计方法用到了辅助信息,本章是抽 样方法用到辅助信息.
2、不等概率抽样的主要优点是由于使用了辅
助信息,提高了抽样策略的统计效率, 能 显著地减少抽样误差。
i 1 2 3 4 5 6 7 8 9 10
mi 15 23 9 29 8 31 24 29 13 19
yi 75 134 37 152 45 185 133 173 74 87
i 11 12 13 14 15 16 17 18 19 20
mi 40 32 17 26 11 36 25 5 38 42
95422 75 56163 2 134 56163 2 177 56163 2 [( ) ( ) 2 ... ( ) ] 30 29 15 9542 23 9542 30 9542 2806070 ˆ ) 1675 v(Y (头) HH
例5.2:某部门要了解所属8500家生产企业当月 完成的利润,该部门手头已有一份去年各企 业完成产量的报告,将其汇总得到所属企业 去年完成的产量为3676万吨。考虑到时间紧, 准备采用抽样调查来推算当月完成的利润。 根据经验,企业的产量和利润相关性比较强, 且企业的特点是规模和管理水平差异比较大, 通常大企业的管理水平较高些,因此采用与 去年产量成比例的PPS抽样,从所属企业中抽 出一个样本量为30的样本。
不等概率抽样的分类
放回不等概抽样:按照总体单元的规模大小来确定在每次抽 中的概率。抽取后放回总体,再进行下一次抽样,每次抽 样都是独立的。这种抽样称为放回不等概抽样(sampling with probabilities proportional to sizes,简称PPS抽样) • 不放回的不等概抽样:每次在总体中对每个单元按入样概 率进行抽样,抽出的样本不再放回总体,因此,在抽取了 第一个单元后,余下的单元再以什么概率被抽取就较复杂。 这种抽样不是独立的,无论是抽样方法还是方差估计,都 要比放回抽样繁复得多。不放回抽样通常称为πPS抽样。
拉希里法抽样举例: 例5.1中,M=150,N=10.在[1,10],[1,150] 中分别产 生( i,m)如下: 第一次 (3,121) , M3=15<121, 舍弃,重抽 ; 第二次(8,50),M8=36<50, 舍弃,重抽 ;
第三次 (7,77) , M7=100>77, 第7号单元入样;
4
5 6 7 8
14
10 38 7 50
73
83 121 128 178
60~73
74~83 84~121 122~128 129~178
9
10
2
8
180
188
179~180
181~188
放回不等概率抽样实施方法 2.拉希里法(二次抽取法)(统计学家Lahiri最先提出): 设 M1, M2,…MN为单元的规模
样本单元被抽中的概率z1, ,zn , 则对总体总量Y的估计是
n 1 ˆ yi Y HH n i 1 zi ˆ ) Y (1) E (Y HH N Yi 1 ˆ (2)V (YHH ) Z i ( Y ) 2 n i 1 Zi n yi ˆ 2 1 ˆ ) ˆ )的无偏估计。 (3)v(Y ( YHH ) 是V (Y HH HH n(n 1) i 1 zi
第四次(5,127),M5=78<127, 舍弃,重抽 ; 第五次 (4,77), M4=137>77, 第4号单元入样; 第六次(9,60),M9=60≥60, 第9号单元入样; 因此第4,7,9号单元被抽中。
放回不等概率抽样对总体特征的估计 三、Hansen-Hurwitz(汉森-郝维茨)估计量及其性质:
yi 258 186 69 156 49 221 145 33 288 304
i 21 22 23 24 25 26 27 28
mi 19 26 37 21 7 43 18 30
yi 124 160 215 104 49 336 96 177
其中第2、19号被抽中两次
解:根据题中所给资料,n=30,M0=9542, 利用汉森-郝维茨估计量,则有:
Y HH 1 n yi M 0 n 1 zi n yi 1 mi
n
9542 75 134 177 ( 2 ... ) 56163(头) 30 15 23 30
2 n n y M yi ˆ 2 1 2 i 0 ˆ ) ˆ v(Y ( Y ) = ( YHH ) HH HH n(n 1) i 1 zi n(n 1) i 1 mi
不等概率抽样概述
2、抽样单元在总体中所占的地位不一致:例 如:要反映某小麦品种的优良情况,以村作 为抽样单位,但各村的种植面积不同,一些 种植面积大的村庄在抽样中是否被抽中对推 断总体的结果有很大影响 ,所以让“大单元” 被抽到的概率大,“小单元”被抽到的概率 小,这样能够大大提高样本的代表性,减少 抽样误差。
在PPS抽样中,赋予每个单元与Mi相等的代码 数,将代码数累加得到M0,每次抽样都等概产 生一个[1,M0]之间的随机数,设为m,代码m 所对应的单元被抽中。
例5.1 设某个总体有10个单元,相应的单元大小及其代码 数如下表,在其中产生一个n=3的样本。
i
1 2
Mi
0.6 14.5
Mi*10
6 145