不等概抽样.ppt

合集下载

不等概抽样

不等概抽样
(1)放回不等概抽样;
(2)不放回不等概抽样;
精选ppt
5
放回不等概抽样
最常用的是按照总体单元的规模大小来确定单
元再每次入样的概率。假设总体中第i个单元
N
的大小和规模为
M
i
,总体的总规模
M 0 M i i 1
,每次抽样中第i个单元被抽中的概率用 Z i
表示,如果
Z i
Mi M0
Mi
N
Mi
i 1
精选ppt
17
5.3 多阶段有放回不等概抽样
5.3.1 两阶段有放回不等概抽样
对总体总值的估计通常是先构造初级单元总值
Y i 的无偏估计 Y i ,然后利用汉森-赫维茨 (Hansen-hurwitz)估计量对总体总值 Y 进行 估计。
YHH
1 n
n i1
Yi Zi
精选ppt
18
总体总值的方差:
Y1 ni n1Z yii M n0 i n1M yii M0y
估计量的方差:
V (Y ˆH H )1 niN 1Z i(Z Y ii Y )2M n 0iN 1M i(Y i Y )2
v (Y ˆH H ) n (n 1 1 )i n 1(Z y ii Y )2 n (M n 0 2 1 )i n 1(y i y )2
这种不等概抽样称作放回的与规模大小成比例的概
率抽样(Probability Proportional to Size),,简称 PPS。
精选ppt
6
1代码法案例
i
Mi
M i 10 累计 M i 10
1
0.6
6
6
2
14.5
145
151

抽样技术7不等概率抽样

抽样技术7不等概率抽样

抽样技术:7不等概率抽样1. 引言在进行数据分析和统计研究时,抽样是一种常用的技术。

抽样技术允许我们从总体中选择一个样本,以便推断总体的性质。

在抽样技术中,不等概率抽样是一种常见的方法,它允许我们以非均匀的概率抽取样本。

本文将介绍关于7种不等概率抽样方法的详细信息。

2. 简单随机抽样简单随机抽样是最根本的抽样方法之一,它要求每个个体被选中的概率相等且任意组合都是可能的。

然而,在某些情况下,简单随机抽样可能并不适用,例如当总体分布不均匀时,或者我们希望在样本中增加一定的多样性。

这时,我们可以考虑使用不等概率抽样方法。

3. 整群抽样整群抽样是一种不等概率抽样方法,它将总体划分为假设干个互不重叠的群组〔或称为簇〕,然后从每个群组中抽取样本。

整群抽样可以有效地减少抽样过程中的复杂性,并提高样本的效率。

整群抽样常用于调查社会群体或大型组织等场景。

4. 分层抽样分层抽样是一种根据总体特点进行划分的抽样方法,它将总体划分为假设干个层级或相似的子群〔层〕,然后从每个层中抽取样本。

通过分层抽样,我们可以保证样本在各层中的分布情况与总体相似,从而更为准确地推断总体的特征。

5. 系统抽样系统抽样是一种按照固定间隔选择样本的抽样方法。

它类似于简单随机抽样,但是通过定义一个间隔,我们可以按照一定的规律抽取样本。

例如,我们可以在总体中选取每隔一定数量的个体作为样本。

系统抽样在样本大小较大时表现出较高的效率。

6. 按比例分层抽样按比例分层抽样是一种常用的不等概率抽样方法,它根据总体各层的比例确定各层的样本容量。

比例分层抽样可以使得样本在各层中的分布与总体的比例相对应。

这种抽样方法适用于总体中的各个层存在不同比例的情况。

7. 两阶段抽样两阶段抽样是一种复杂的不等概率抽样方法,它将抽样过程分为两个阶段。

在第一阶段,我们从总体中选择一局部群组〔或称为簇〕,在第二阶段,我们从每个群组中抽取一定数量的样本。

两阶段抽样适用于总体较大或分布复杂的情况下,可以提高抽样的效率。

抽样调查第3章 不等概抽样

抽样调查第3章 不等概抽样

N
i
2、对自然数集合{ 1,2, … , X }作有放回简单随机抽 样,根据抽得随机数a决定入样单元.若
a {1,2,, X1}, 则第一个单元入样
若a { X j 1, X j 2,, X j },
j 1 j 1 j 1 i 1 i 1 i
则第i个单元入样,i =2,3,…, N 3、重复2,直至抽得n个单元.
不等概πPS抽样的实现
实现步骤
2、取出第一个样本单元后不放回,当第一个样本 单元为U j时,以概率pi抽取第二个样本单元 pi pi (i j ) 1 p j
i 2 pi
Ui ,U j同时入样的概率为:
2 pi p j D (1 pi p j ) (1 2 pi )(1 2 p j )
每次抽取后抽中的单元不放回要求各单元的入样概率正比于规模测度ps抽样的概念修正概率修正概率数必须给一个修正概率在不同的抽取次抽样次数较多时确定修正概率很麻烦通常将总体分成许多层在每层使用样本量为2的ps抽样不等概不等概psps抽样的实现抽样的实现brewerbrewer抽样方法抽样方法抽取第一个样本单元以概率1963年由brewer提出大体思路设计好第一次抽取概率令第二次抽取概率正比实现步骤的入样概率表示不等概不等概psps抽样的实现抽样的实现抽取第二个样本单元时以概率单元为后不放回当第一个样取出第一个样本单元不等概不等概psps抽样的实现抽样的实现durbindurbin抽样方法抽样方法抽取第一个样本单元以概率大体思路第一次抽取概率正比于p调整第二次的抽取概率使总的入样概率正比于x实现步骤抽取第二个样本单元时以概率单元为后不放回当第一个样取出第一个样本单元不等概不等概psps抽样的实现抽样的实现不等概不等概psps抽样的实现抽样的实现sensenmidzunomidzuno抽样方法抽样方法抽取第一个样本单元以概率大体思路解决样本量超过2的麻烦使ii近似地正比于近似地正比于xxii实现步骤2从剩下的n1个单元中抽取容量为n1的简单随机样本不放回估估值值法法horvitzhorvitzthompsonthompson估计估计其均方偏差为的无偏估计是总体总估计抽样ps321htht估计估计总体总数总体总数yy的估计值为的估计值为估估值值法法无偏估计量为估计的均方偏差的两个定理htps322ijijsinghrao1973且较少负值较稳定通过大量模拟发现例

抽样调查:不等概率抽样

抽样调查:不等概率抽样
——Sampling with Probability Proportional to Size
总体单元 Yi 规模测度 Mi 0. 在抽取样本单元时,各单元被抽取的概率正比于Mi .
有放回PPS 抽样是常见的一种不等概率抽样方案。每次抽取,第i
单 元Yi 被 抽 中 的 概 率p i



M
响,只有 Mi m时它才入样,因此第 i 个单元入样的概率与
Mi的大小成正比,此时 Zi Mi M0
二、估 值 法
PPS抽样法的估值法的理论依据
定理3.1.1 在有放回PPS抽样下,
是总体总数Y
N
Yi
Yˆ PPS
的无偏估计.
பைடு நூலகம்
1 n
n
i 1
yi pi
i 1
( pi为第i个样本单元yi时的抽取概率,而不是总体中第i单元对应的抽取概率.)
i j ij
j
) yi
yj
,
v2 ( YˆHT
)
Nn
( i
j
ij
i1 ji
ij
) (
yi
i
yj
j
)2 .
注:两估计量均有可能取负值,通过模拟比较,v2较稳定且
较少取负值。
§3.3 Rao-Hartley-Cochran随机分群抽样
拉奥-哈特利-科克伦(1962)
设总体个体单元总数N nM k( 0 k n ) 1. 将总体随机分成n个群 其中k个群有M 1个个体单元,n k个群有M个个体单元; 2. 在每一个群中,以正比于规模测度的概率抽取一个单元 作为样本单元。
估计的均方偏差为:
V(Yˆ PPS
)

《抽样技术》第三讲 等概率与不等概率抽样比较研究[学习课堂]

《抽样技术》第三讲  等概率与不等概率抽样比较研究[学习课堂]

ij
n 1 N 1
N N
n 2
Zi*
Z
* j
n N
2 n
课件类别
27
2)布鲁尔法
样本单位是逐个抽取的.令
Zi
1 n
设第一个单位按与 例的概率抽取。
Zi 1 Zi
1 nZi
成比
剩下的n-1个单位按与 成比例的概率抽取
Zi 1 Zi 1 n r 1
Zi
,
因为 i nZi ,
r 2,3,L , n
B.按单位规模的大小决定入样的概 率,使规模大的单位入样概率大, 规模小的单位入样概率小。
课件类别
3
2)群大小不等的整群抽样 3)初级单位大小不同的阶段
抽样
4)等距抽样中的应用
课件类别
4
3. 优点与不足
1)优点:
比较有效地解决调查的总体单位 与抽样的总体单位不一致、调查 单位在总体中所占的比重不一致 的问题。
?布鲁尔方法的包含概率为??112iiizzz??1jizz?2iiz????????1411212112ijijijniijiizzzzzzzz????????????????23课件类别令?可以写成??1112niiiizzdz?????ij?????1212111212ijijijijijijzzzzdzdzzzdzz?????????????????24课件类别总值估计?方差估计耶茨格伦迪森121212121?2bxxxxxzz??????????????21212121212?ygsbxxvx???????????????25课件类别2
第一个单位按 Zi 的概率抽取;
Zj
第二个单位按 1 Zi 的概率在余
下的N-1个单位中抽取;

07-第七章 不等概率抽样

07-第七章 不等概率抽样

(7.4)
(7.5)
5
3. 若 n > 1 ,则
ˆ )= v(Y HH
n æ yi ˆ 1 ç - YHH å n(n - 1) i =1 ç è zi
ö ÷ ÷ ø
2
(7.6)
ˆ ) 的无偏估计。 是 V (Y HH ˆ 的 在证明上述性质以前,我们先就 PPS 抽样这种特殊情形,说明 Y HH
*
[1,24] 中的一个随机数为 9,由于 M 4 = 6 < 9 ,因此需要重抽。设第二次抽
到的一组随机数为 (7,15) ,则仍然不满足要求,还需要抽。若再次抽到的随 机数组为 (2,8) ,则由于 M 2 = 10 > 8 ,故第 2 个单元被抽中。如此重复直 到抽到 n 个单元(允许重复)为止。 拉希里法适用于 N 很大的情况,因为它不需要列出如表 7.1 这样的表。 7.2.3 汉森——赫维茨估计量及其性质 对于 多 项 抽样,由于抽样是不等概率的,每个样本单元的 观测 值 ,因此对于总体参数的估计与等概率抽样 y1 , y 2 , , y n 就不再是“平等的” 不同。前已提到,这个估计也与样本单元 Z i 的取值 z1 , z 2 , , z n 有关。汉森 ——赫维茨(Hansen-Hurwitz)提到的对总体总和 Y 的估计如下:
Mi
8 10 17 6 24 9 5 7 4 10
累计 M i 8 18 35 41 65 74 79 86 90 100
代码 1~8 9~18 19~35 36~41 42~65 66~75 76~79 80~86 87~90 91~100
M 0 = 100
在 [1,100] 范围内产生 5 个随机数,设分别为 04,73,25,49 及 82,则 第 1,第 6,第 3,第 5 及第 8 个单元即为抽中的单元。如果我们欲再增加 一个样本单元,产生的随机数为 58,则又对应第 5 个单元,这个单元即为 抽中两次。由于单元愈大,被赋予的代码数就愈多,因此每个单元入样的概

抽样技术(第5版)课件PPT课件第5章

抽样技术(第5版)课件PPT课件第5章
抽样。如果超市的营业面积近似正比于超市的销
售额,那么超市A的销售额就占所有超市销售额
的1/16,因此超市A的销售额乘16可以近似的估
计所有超市的销售额。因此,样本量为1的不等
概率抽样的总体总量估计量为
෠ = ෍ = ෍
式中




1
1
=
=
(单元在样本中)
第二节 放回不等概抽样
nn 1 i 1 mi M 0


s YˆHH v YˆHH
765404
2
174454

s YˆHH
174118
r t
1.96
=45%
757087

HH
相对误差达到20%时所需样本量对误差达到20%
时所需样本量nnnnnnn
n= 150
第二节 放回不等概抽样
Z
Z
nm
n i 1 Z i
i 1 Z i
1

j
1

i
ij
i


它的一个无偏估计量为
v(Yˆ )
n
1 n ˆ2
1
2
2
ˆ
ˆ
ˆ
nY

Y

)
Y

Y
(
i
i

n n 1 i 1
n n 1 i 1

M i 1 Kij Yiju2

2
Y



Mi
1
常数K
nZi mi
f0
这里,f 0 为总体中任意一个二级单元被抽中的概率。如果f 事先确定,则

三阶段不等概率抽样设计

三阶段不等概率抽样设计

三阶段不等概率抽样设计
三阶段不等概率抽样设计是一种常用的抽样方法,用于从整体群体中选择代表性样本。

它将样本选择过程分为三个阶段,每个阶段的概率不等,具体步骤如下:
1. 第一阶段:按照一定的抽样概率,从总体中选择第一阶段的样本单元。

这可能涉及到某些抽样单元的非选择或重复选择,以达到样本的多样性。

2. 第二阶段:在第一阶段选择的样本单元中,按照一定的概率再次进行抽样,选择第二阶段的样本单元。

这个阶段的抽样概率可能与第一阶段有所不同,以达到更好的样本覆盖和精度。

3. 第三阶段:在第二阶段选择的样本单元中,按照一定的概率再次进行抽样,选择最终的样本个体。

同样,这个阶段的抽样概率可能与前两个阶段有所不同。

通过三阶段不等概率抽样设计,可以灵活地选择样本单元,并通过控制抽样概率来保证样本的代表性和可靠性。

这种设计方法在实际应用中可以更好地适应不同的调查需求和场景,提高样本选择的效果。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Y )2
v(YˆHH
)
1 n
n
( yi Zi
YˆHH )2
(n 1)
v YˆHH
1 n
可以证明
1 n 1
n i 1
yi zi
YˆHH
2
n
M
2 0
n 1
n
yi
YˆHH
2
i1 mi M 0
E(YˆHH ) Y
E v(YˆHH ) V (YˆHH )
例5.2
某部门要了解所属8500家生产企业当月完成的 利润,该部门手头已有一份去年各企业完成产 量的报告,将其汇总得到所属企业去年完成的 产量为3676万吨。考虑到时间紧,准备采用抽 样调查来推算当月完成的利润。根据经验,企 业的产量和利润相关性比较强,且企业的特点 是规模和管理水平差异比较大,通常大企业的 管理水平较高些,因此采用以与去年产量成比 例的PPS抽样,从所属企业中抽出一个样本量 为30的样本,
一、不等概抽样的必要性 *提高估计精度 *放回的PPS抽样简化方差 计算
例如“水野法”抽 样使得比估计为无 偏估计量
应用条件:通常需要知道 一个辅助变量,用以确定 其入样的概率
入样概率不同是否 导致估计偏差?
类型
放回不等概抽样 不放回不等概抽样
逐个抽取 重抽法 全样本抽取;样本量随机 系统抽样法
2拉希里方法
不需要累计,两次随机数决定抽中的单 位。
第一次:1-N之间的随机数i 第二次: 1-maxM之间的随机数m 如果Mi> m,第i个单位被抽中
3不等概等距抽样
K=M0/n
Ui Mi
M i 区域
1 88
2 20 28
3 40 68
...
...
.
.
.
1—8 9—28 29—68
. . .
第五章 不等概抽样
Sampling With Unequal Probabilities
每个单元入样的概率
?--------非概率,等概率,不等概

O’Brien et al.(1995) 对Philadelphia地区 的病人进行抽样,目的是了解病人对于 医疗服务的偏好。目标总体是这一区域 的所有注册的医院的病人。 总共有294 家医院,27652个床位(抽样以前,研 究人员只知道床位数,不知道病人数)。
Mi <k不重复 >k可能重复 >2k肯定重复
估计量
对于放回不等概抽样,对总体总量的估 计是汉森-赫维茨(Hansen-hurwitz)估 计
YˆHH
1 n
n i 1
yi zi
M0 n
n yi m i1 i
例如:估计超市销售额, m:员工人数 解释公式意义
V
(YˆHH
)
1 n
N
Zi
(
Yi Zi
分层抽样:抽样选择概率小的单位会有较高的 权数。
采用不等概率抽样来减少抽样方差而不采用清 晰的分层。采用不同的概率来选择初级样本单 元,并且在估计中采用不同的权数来进行弥补。
抽样的关键是每个样本的选择概率是已知的。
P(单元i在第一次抽取中被抽中)= i
P(单元i被选入样本)= i
场合:总体单元差异比较大时; 抽样审计; 多阶段的PSU.
等概率的抽取样本医院的缺点?
首先,可能医院中愿意接受CPR治疗的病人数 量会正比与医院床位的数量,采用等概简单估 计量可能会有大的方差。
其次,自加权的等概率样本可能难于管理。可 能仅仅为了调查一两个病人就需要去一家医院, 并且合理分配调查人员的工作负担也是比较困 难的。
第三,调查成本在调查开始的时候是未知的---一个40个医院的样本可能包括了主要的大的 医院,这会导致比预计更大的成本。
其他办法?
调查人员还可以采用与医院病床数量成比例的 方法抽取57个医院,然后从每个样本医院中抽 取30个简单随机样本床位。
如果病人数等于床位数,并且医院实际的床位 数和抽样时依据的病床数据一致,每个病人是 否有相同的入样概率?
而且成本在调查实施前是已知的,因为每个访 员在每个医院访问的病人数量是相同的。而且, 总体总量的方差可能更小。
145
3
1.5
15
4
13.7
137
5
7.8
78
6
15
150
7
10
100
8
3.6
36
9
6
60
10
1.1
11
M0 =738
738
一种多项抽样
Mi 100
累计 6
151 166 303 381 531 631 667 727 738
代码 1~6
7~151 152~166 167~303 304~381 382~531 532~631 632~667 668~727 728~738
二、放回的 PPS 抽样 (Probability Proportional to Size)
Ui Mi 18
M i 区域
8
1—8
Zi
Mi M0
Mi
N
Mi
i 1
2 20 28 3 40 68
9—28 29—68
也称PPZ
.
.
.
.
.
.
.
.
.
.
.
.
1代码法案例
i
Mi
Mi 100
1
0.6
6
2
14.5
6.20Biblioteka 510YˆHHM0 n
n i 1
yi mi
3676 30
10926 38.23
10926 38.23
1024 13.70
510 6.2
757087(元)
v YˆHH
M
2 0
n n 1
n yi i1 mi
YˆHH M0
2
s YˆHH v YˆHH 174118
i
mi
yi
i
1* 38.23 10926 10
mi
yi
i
6.50 1900 19
mi
1.50
yi
10
2 13.70 1024 11 15.00 864 20
8.00
80
3
0.75
13 12
7.00
17 21 28.42 13672
4
2.85
30 13 16.00 1045 22* 9.01 3845
5
2.00 1102 14 12.30 220 23
0.75
480
6
5.00
7 10.80
600 15 290 16
3.86 4600 24 15.80 2370 25
6.00 28.43
311 9284
8
2.00
430 17
9.00 940 26
9.97
842
9
8.81
992 18* 21.00 640 27
r
t
s YˆHH YˆHH
1.96 174118 757087
=45%
相对误差
相对误差达到20%时所需样本量?
n 0.45 2 30 152 0.2
二、不放回不等概抽样
Horvitz_Thompson 估计量
i , ij 的含义,
不放回的与单元大 小成比例的概率抽 样为πPS抽样
相关文档
最新文档