第七章(不等概率抽样)
抽样技术第七章整群抽样ppt课件

11
三、群内相关系数与设计效应
群内相关系数
c
E(Yij Y E(Yij
)(Yik Y Y )2
)
上式中的分子为
NM
(Yij Y )(Yik Y )
i1 jk
NM (M 1) 2
12
上式中的分母为
NM
i1
(Yij Y )2
j 1
NM
1S2
1N
1N
Y
M0
i1
Yij
j 1
M0
Yi
i1
M0
M iYi
i1
21
二、按简单随机抽样抽群
1.简单估计 2.比估计 3.总体比例的估计
22
1.简单估计
在大多数情形,群大小Mi是不相等的。此时,若Mi 相差不多,则仍可按§7.2中的方法处理,用平均群
大 则小这种M方法N1精iN1度M较i 差代。替M。反之,若Mi相差较多,
n
1 n
n 1 i1
yi y 2
1 f nM
sb2
其中f=n/N为抽样比。可见,sb2 是Sb2的无偏估计。
8
当n足够大时,总体均值Y 的置信度为1−α的置信区 间为:
y u 2s y
例7.1 在一次某城市居民小区居民食品消费量调查 中,以每个楼层(相当于居民小组)为群进行整群抽 样。每个楼层都有M=8个住户。用简单随机抽样在 全部N=510个楼层中抽取n=12个楼层。全部96个 样本户人均月食品消费额yij及按楼层的平均数yi 与 标准差si ,如下表所示。试估计该居民小区人均食 品消费额的户平均值 ,并给出其0.95的置信区间。
抽样技术第七章整群抽样ppt课件

NM
NM
故有 可推得
NM
2
(Yij Y )(Yik Y )
c
i1 jk
(M 1)(NM 1)S 2
c
1
NMSw2 (NM 1)S 2
1
Sw2 S2
13
ρc可估计为
ˆc
sb2
sb2 (M
sw2 1) sw2
y 的方差可写成如下形式:
《抽样技术》第七章
1
第七章 整群抽样
§7.1 概述 §7.2 群大小相等的情形 §7.3 群大小不相等的情形 §7.4 按与群大小成比例的不等概率抽样抽群
2
§7.1 概述
设总体由N个大单元,即初级单元组成,每个初级 单元又由若干个较小的次级单元或二级单元组成。 从总体中按某种方式抽取n个初级单元,观测其中所 包含的所有次级单元。这种抽样称为整群抽样。确 切地说,应称为单阶整群抽样。
1N N 1 i1
Yi Y
2 1 f nM
Sb2
s2 y 1 f
n
1 n
n 1 i1
yi y 2
1 f nM
sb2
其中f=n/N为抽样比。可见,sb2 是Sb2的无偏估计。
8
当n足够大时,总体均值Y 的置信度为1−α的置信区 间为:
y u 2s y
例7.1 在一次某城市居民小区居民食品消费量调查 中,以每个楼层(相当于居民小组)为群进行整群抽 样。每个楼层都有M=8个住户。用简单随机抽样在 全部N=510个楼层中抽取n=12个楼层。全部96个 样本户人均月食品消费额yij及按楼层的平均数yi 与 标准差si ,如下表所示。试估计该居民小区人均食 品消费额的户平均值 ,并给出其0.95的置信区间。
不等概率抽样的概念和特点

(1)将总体单元按规模分层,对较大单元的层抽样比高一些,特大层的 抽样比甚至可以100%,而较小单元的层抽样比低一些。
(2)采用不等概抽样来减少抽样方差,即赋予每个单元与其规模成比例 的入样概率,然后在估计中采用不同的权数来进行弥补。
分层抽样:抽样选择概率小的单位会有较 高的权数。
n
N
Wi yi n
yi
又如,对于霍维茨——汤普森估计量
YˆHT
yi
i
在入选概率与规模成比例条件下,
的性质为
i
i
nZi
则
YˆHT
n
yi nZ i
1 n
n
yi Zi
YˆHH
πPS抽样的实施
n=2条件下严格的πPS抽样
布鲁尔方法 德宾方法
n >2条件下严格的πPS抽样
inijninn???1?????ininiihtywyy??????iiw?1?n固定条件下的包含概率第i单位入样概率第ij单位都入样概率21kin1in1inikkikiik2iiiyyy1?kkininikiikkihtyyyv???????????????????????????????????????sskkkii2is2iiyy2y1?iikikkiihtyv?????????kkiiik2sksk?kkiiiiikikkihtyyyv??????????????2?jjiinijijjinhtyyy????????????hty?是y的无偏估计i1ji?hty?是?htyv的无偏估计hhy?ppshty?ps其他公式在某种程度上可用这两个公式表现
2拉希里方法
不需要累计,两次随机数决定抽中的单位。 第一次:1-N之间的随机数i 第二次: 1-maxM之间的随机数m 如果Mi> m,第i个单位被抽中
抽样技术7不等概率抽样

抽样技术:7不等概率抽样1. 引言在进行数据分析和统计研究时,抽样是一种常用的技术。
抽样技术允许我们从总体中选择一个样本,以便推断总体的性质。
在抽样技术中,不等概率抽样是一种常见的方法,它允许我们以非均匀的概率抽取样本。
本文将介绍关于7种不等概率抽样方法的详细信息。
2. 简单随机抽样简单随机抽样是最基本的抽样方法之一,它要求每个个体被选中的概率相等且任意组合都是可能的。
然而,在某些情况下,简单随机抽样可能并不适用,例如当总体分布不均匀时,或者我们希望在样本中增加一定的多样性。
这时,我们可以考虑使用不等概率抽样方法。
3. 整群抽样整群抽样是一种不等概率抽样方法,它将总体划分为若干个互不重叠的群组(或称为簇),然后从每个群组中抽取样本。
整群抽样可以有效地减少抽样过程中的复杂性,并提高样本的效率。
整群抽样常用于调查社会群体或大型组织等场景。
4. 分层抽样分层抽样是一种根据总体特点进行划分的抽样方法,它将总体划分为若干个层级或相似的子群(层),然后从每个层中抽取样本。
通过分层抽样,我们可以保证样本在各层中的分布情况与总体相似,从而更为准确地推断总体的特征。
5. 系统抽样系统抽样是一种按照固定间隔选择样本的抽样方法。
它类似于简单随机抽样,但是通过定义一个间隔,我们可以按照一定的规律抽取样本。
例如,我们可以在总体中选取每隔一定数量的个体作为样本。
系统抽样在样本大小较大时表现出较高的效率。
6. 按比例分层抽样按比例分层抽样是一种常用的不等概率抽样方法,它根据总体各层的比例确定各层的样本容量。
比例分层抽样可以使得样本在各层中的分布与总体的比例相对应。
这种抽样方法适用于总体中的各个层存在不同比例的情况。
7. 两阶段抽样两阶段抽样是一种复杂的不等概率抽样方法,它将抽样过程分为两个阶段。
在第一阶段,我们从总体中选择一部分群组(或称为簇),在第二阶段,我们从每个群组中抽取一定数量的样本。
两阶段抽样适用于总体较大或分布复杂的情况下,可以提高抽样的效率。
抽样调查:不等概率抽样

二、估 值 法
PPS抽样法的估值法的理论依据
定理3.1.1 在有放回PPS抽样下,
Yˆ PPS
1 n
是总体Y总 N数 Yi 的无偏.估计
n
i1
yi pi
i 1
(pi为i个 第样y本 i时单 的元 抽取总 概体 率 i单 中 , 元 第 而 对不 应 .)是 的
估计的均方偏差为:
VY ˆ(PP)Sn 1 i n1pi(p yii Y)2.
例3.1 设某总体共有N=8个单元,相应 M i及代码如表所示
i
Mi
30 Mi
累计
代码
1
2/5
12
2
1/2
15
3
2/3
20
4
4/3
40
5
8/5
48
6
3/5
18
7
2/3
20
8
1
30
12
1~12
27
13~27
47
28~47
87
48~87
135 88~135
153 136~153
173 154~173
2、Hansen-Hurwitz (汉森—赫维茨)估计量
若 y1,y2, ,yn是按 Z i为入样概率的多项抽样而得的样 本数据,它们相应的 Z i 值自然记为 z1,z2, ,zn ,则对总
体总和, Hansen-Hurwitz 给出了如下的估计量:
yHH
1 n
n i 1
yi zi
且 E(yHH)Y ,即 y HH 是总体总和 Y 的无偏估计。
为整数。见下表。
表3—1 pps 抽样时各单元的代码数
单元 i 单元大小M i
07-第七章 不等概率抽样

(7.4)
(7.5)
5
3. 若 n > 1 ,则
ˆ )= v(Y HH
n æ yi ˆ 1 ç - YHH å n(n - 1) i =1 ç è zi
ö ÷ ÷ ø
2
(7.6)
ˆ ) 的无偏估计。 是 V (Y HH ˆ 的 在证明上述性质以前,我们先就 PPS 抽样这种特殊情形,说明 Y HH
*
[1,24] 中的一个随机数为 9,由于 M 4 = 6 < 9 ,因此需要重抽。设第二次抽
到的一组随机数为 (7,15) ,则仍然不满足要求,还需要抽。若再次抽到的随 机数组为 (2,8) ,则由于 M 2 = 10 > 8 ,故第 2 个单元被抽中。如此重复直 到抽到 n 个单元(允许重复)为止。 拉希里法适用于 N 很大的情况,因为它不需要列出如表 7.1 这样的表。 7.2.3 汉森——赫维茨估计量及其性质 对于 多 项 抽样,由于抽样是不等概率的,每个样本单元的 观测 值 ,因此对于总体参数的估计与等概率抽样 y1 , y 2 , , y n 就不再是“平等的” 不同。前已提到,这个估计也与样本单元 Z i 的取值 z1 , z 2 , , z n 有关。汉森 ——赫维茨(Hansen-Hurwitz)提到的对总体总和 Y 的估计如下:
Mi
8 10 17 6 24 9 5 7 4 10
累计 M i 8 18 35 41 65 74 79 86 90 100
代码 1~8 9~18 19~35 36~41 42~65 66~75 76~79 80~86 87~90 91~100
M 0 = 100
在 [1,100] 范围内产生 5 个随机数,设分别为 04,73,25,49 及 82,则 第 1,第 6,第 3,第 5 及第 8 个单元即为抽中的单元。如果我们欲再增加 一个样本单元,产生的随机数为 58,则又对应第 5 个单元,这个单元即为 抽中两次。由于单元愈大,被赋予的代码数就愈多,因此每个单元入样的概
经济统计学第7章抽样调查

参数的假设检验是根据样本,对总体参数某种假设的正确性作出判断。 可以分别提出两种假设: 前一种不能轻易拒绝的假设为原假 设,后一种为备选假设。假设检验就是根据样本,检验 是否成立, 不成立就接受备选假设 。
一、基本思想: 小概率原则:认为在一次实验中 小概率事件几乎是不可能发生的,小概率事件的概率为显著性水平 。
一个总体的检验
Z 检验 (单尾和双尾)
t 检验 (单尾和双尾)
Z 检验 (单尾和双尾)
2检验 (单尾和双尾)
均值
一个总体
比例
方差
总体方差已知时的均值检验 (双尾 Z 检验)
均值的双尾 Z 检验 (2 已知)
假定条件 总体服从正态分布 若不服从正态分布, 可用正态分布来近似(n30) 原假设为:H0: =0;备择假设为:H1: 0
单侧检验 (原假设与备择假设的确定) 例如,某灯泡制造商声称,该企业所生产的灯泡的平均使用寿命在1000小时以上
除非样本能提供证据表明使用寿命在1000小时以下,否则就应认为厂商的声称是正确的 建立的原假设与备择假设应为
H0: 1000 H1: < 1000
第二节
一个正态总体参数的假设检验
-10
100
20
25
-5
25
30
30
0
0
离差
40
35
5
25
50
40
10
100
10
25
-5
25
20
30
0
0
30
35
5
25
40
40
10
100
50
45
15
07章抽样调查基础知识

总 体 指 标 是 指 根 据 总 体 各 单 位 标 志 值 计 算 的 综 合 指 标 , 又 称 为 总 体 参 数 。 常 用 的 总 体 指 标 有 总 体 平 均 数 X, 总
体 成 数 P, 总 体 方 差 ( x2或 p2) 和 标 准 差 ( x或 p) .
样本指标是根据样本各单位标志值计算的综合指标。常 用的样本指标有样本平均数,样本成数p,样本方差(sx2 或sp2)和标准差(sx或sp),其计算方法与总体指标计算 方法相同,只是公式中所用的符号不同。
随机原则是在抽取调查单位时,完全排除人 为的主观因素影响,保证每一个调查单位都 有相等的中选可能的原则。就概率意义而言, 又称为等可能性原则。
抽样调查遵守随机原则的原因:
抽样调查的目的是用样本来推断总体的数 量特征,这就要求抽样的部分单位能够充 分的代表总体。遵守随机原则,可以使样 本结构与总体结构相同,进而可以按概率 理论计算误差,并进行统计推断。
(2)系统随机抽样
系统随机抽样也称为机械随机抽样或等距随 机抽样。它是先将总体中各单位按一定的标 志排队,然后每隔一定的距离抽取一定单位 构成样本。
(3)分层随机抽样
分层随机抽样又称为类型随机抽样、分类随机抽 样。它是按照某一标志,先将总体分成若干组 (类),其中每一组(类)称为一层,再在层内 按简单随机抽样方法进行抽样。
△=tu=2*2=4小时
某玻璃器皿厂某日生产15000只印花 玻璃杯,现从中抽取150只进行质量检 验,结果有147只合格,其余3只为不 合格品,以68.27%的可靠程度,求这 批印花玻璃杯合格率(成数)的极限误 差。按重复抽样
△=tu=1*1.14%=1.14%
参数估计
一、点估计 点估计是直接用一个样本指标估计总体指标的 推断方法。如用样本指标和p直接代替总体指标和 P。特点:方法简便,但可靠程度不高。 二、区间估计 区间估计是在一定的概率保证下,根据点估计 值,联系一定的误差范围估计总体指标值的一种 推断方法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Z
i 1
N
i
1
独立进行n次这种抽样,共抽到n个单元(有可能重复),则称 这种不等概率抽样为多项抽样(multinominal sampling) • 特别地,当总体中每个单元具有一个说明其“大小”或“规模” 的度量Mi时,则可将每个单元的入样概率取为:
N Mi Zi ,( M 0 M i ) M0 i 1
• 霍维茨-汤普森估计量的方差为:
ˆ V (YHT )
i 1
N
1i
i
ij i j Yi 2 YiY j i j i 1 j i
N N 2
◎当n固定时,这一方差为:
ˆ V (YHT ) ( i j ij )(
i 1 j i
N
N
i
Yi
Yj
j
)2
copyright©princebf,2006-2007
• 霍维茨-汤普森估计量方差的无偏估计为:
ˆ v(YHT )
i 1
n
1i
i2
ij i j y 2 yi y j i 1 j i i j ij
n n 2 i
◎当n固定时,有耶茨-格伦迪-森估计(Yates-Grundy- Sen)也是上述方差的无偏估计:
则在不放回的情形下,这一抽样就是一个与单元大小成比例的
不等概率抽样。 • 称这种不放回的与单元大小成比例的概率抽样为π PS抽样
copyright©princebf,2006-2007
二、πPS抽样的估计
• 对于不放回不等概率抽样,对于总体总量,霍维茨-汤普森 (Horvitz-Thompson)提出如下估计量:
i j ij yi y j 2 ˆ v ygs (YHT ) ( )( ) ij i j i 1 j i
copyright©princebf,2006-2007
• 但是如果总体单元相差较大,等概率抽样效果不一定好 ◎例如估计昆明市商业零售总额,大型商场、中型超市和小型 商店的差别非常明显,平等对待显然不合理 • 对这一情况,处理方式有多种: ◎分层抽样:按规模分层,大型抽样比高、小型抽样比低 ◎目录抽样:少数大单元普查而大多数小单元进行抽样 ◎不等概率抽样
ˆ YHH
1 n yi n i 1 zi
• 特别地,对PPS抽样: z mi i 有:
M0
yi m i 1 i
n
ˆ YHH
M0 n
copyright©princebf,2006-2007
• 意义:将Y理解为商店销售额,度量M理解为商店人数,则:
yi / mi
1 ( yi / m i ) n
• 当n>1时,这一方差的无偏估计为:
n yi ˆ 2 1 ˆ ) v(YHH ( z YHH ) n(n 1) i 1 i
copyright©princebf,2006-2007
Yi 证明:设随机变量 , 具有N 取值i ( i 1, 2,..., N ) Zi 且:P( Yi Zi ) Zi
一、包含概率与πPS抽样
• 放回不等概率抽样中,每个单元的入样概率Zi是关键
• 不放回不等概率抽样中,每个单元被包含到样本的概率π i及 任意两个单元都包含到样本的概率π ij都起着重要的作用,它 们统称为包含概率(inclusion probability)
•设总体容量为N,样本量n(固定),包含概率具有以下性质: ◎所有N个单元的入样概率之和为n,即:
copyright©princebf,2006-2007
§7.2 放回不等概率抽样
一、多项抽样与PPS抽样 二、PPS抽样的实施 三、PPS抽样的估计
copyright©princebf,2006-2007
一、多项抽样与PPS抽样
• 设总体包含N个单元,对其进行放回抽样。设在每次抽样中, 抽到第i个单元的概率为Zi(i=1,2,…,N),
• 【例5.4,P169; 例5.5,P171】
copyright©princebf,2006-2007
#总体均值的估计 • 基于汉森-赫维茨总和估计量基础上的总体均值的估计量为:
ˆ YHH ˆ YHH 1 n yi N Nn i 1 zi
• 方差: • 方差估计:
Yi 1 1 N ˆ ) V (YHH Z i ( Y )2 Z N 2 n i 1 i
i 1 j i
N
N
ij
( ij , i固定) ( n 1) i n( n 1)
i 1 N ji i 1
N
N
N
that is :
ij n(n 1)
i 1 j i
N
1 2
copyright©princebf,2006-2007
copyright©princebf,2006-2007
而样本方差:
1 n yi ˆ 2 v( ) ( m YHH ) n 1 i 1 i
是 V ( ) 的无偏估计 从而:
n yi ˆ 2 1 1 ˆ ) v( ) v(YHH ( z YHH ) n n(n 1) i 1 i
一、不等概率抽样的提出与含义
• 前述概率抽样方式,具有“等概率” 的特点。
◎简单随机抽样下总体中每一个单元的入样概率均相等
◎分层随机抽样下,层内每一个单元的入样概率均相等
◎特别地,按比例分配的分层随机抽样对于总体中每一个单元
的入样概率均相等 • 等概率抽样的基本出发点是将总体(或层)中的每一个单元看 作是平等的,不“偏向”也不“疏远”某些特定的单元 • 如果总体单元差异不大,这种方式既简单也合理
i 1
N
i
n
※如此可以保证在一次抽样中可以同时抽出容 量为n的一个样本
copyright©princebf,2006-2007
◎ 固定第i个单元后,剩余的任意一个单元与其同时出现的概率 之和为:
ji
N
ij
i Pr( j | i ) ( n 1) i ;
ji
N
◎ 总体中任意两个不同单元同时入样的概率之和为:
copyright©princebf,2006-2007
三、不等概率抽样的分类
• 不等概率抽样有很多,布鲁尔与哈尼夫在1983年专著《不等概 率抽样》中曾列举了50多种方法。不过真正常用的在10种左右 • 这些方法按其实施方法或特性可以分成许多不同的类型 ◎按抽样过程中被抽到的单元是否被放回总体而分为放回抽样和 不放回抽样。常用的是放回抽样。 ◎按单元的入样概率是否严格地与单元大小成比例,还有最终杨 本量n是固定还是随机的。 ◎不放回的抽样,按样本单元抽取方式还可以分为逐个抽取法、 重抽法、系统抽取法等等。
第i个样本商店的人均销售额。 所有样本商店的人均销售额的平均。 所有商店的销售总额
M0 * A
copyright©princebf,2006-2007
※ 估计量的性质
ˆ • 汉森-赫维茨估计量是总体总和的无偏估计: E(YHH ) Y
• 汉森-赫维茨估计量的方差为:
Yi 1 N ˆ ) V (YHH Z i ( Y )2 Z n i 1 i
则:
N Yi Y E ( ) Zi Y ,V ( ) Z i ( i Y )2 Zi Zi i 1 i 1
N
ˆ YHH
1 n i 是n次独立观测值yi/zi的样本平均数 n i 1
则由数理统计(放回简单随机抽样),有:
ˆ E (YHH ) E ( ) Y ; Yi 1 1 N ˆ ) V ( ) V (YHH Z i ( Y )2 Z n n i 1 i
j 1 j 1 i 1 i
• 每次抽样时在整数1-M0之间产生一个随机数m,则代码m所 属的单元即为抽中单元,如此重复n次即可获得n个样本单元。 若有的随机数相同或属于同一单元,则该单元被重复抽中
copyright©princebf,2006-2007
2、拉希里法(二次抽取法,Lahiri,印度) • 设总体单元数为N,单元规模为Mi,记:M * max( Mi ) ◎ 在1-N范围内产生一个随机数,设为j;
copyright©princebf,2006-2007
• 不等概率抽样(sampling with unequal probability)是指在抽 取样本之前给总体中的每一个单元赋予一定的入样概率,从而 保证大的(重要的)单元抽到的概率大,而小的(不重要的) 的单元抽到的概率小。这里每个单元被赋予的入样概率通常与 某个辅助变量有关(比如单元规模等) • 不等概率抽样是抽样理论发展的产物。 ◎代表性抽样:主观、有意识的抽样 ◎等概率的随机抽样:每个单元平等 ◎分层抽样:不同层不等概率,但层内等概率
yi ˆ YHT
i 1
n
i
• 特别地,对于π PS抽样: 有:
i nZi
◎这里yi不可重复
ˆ YHT
1 n yi M 0 n yi m n i 1 z i n i 1 i
copyright©princebf,2006-2007
※ 估计量的性质
ˆ • 霍维茨-汤普森估计量是总体总和的无偏估计: E(YHT ) Y
此时每个单元在每次抽样中的入样概率与单元大小成比例,称 这种特殊的多项抽样为与大小成比例的概率抽样(sampling with probability proportional to size),简称PPS抽样。
copyright©princebf,2006-2007
二、PPS抽样的实施
1、代码法(累积总和法,汉森-赫维茨法,1943)
◎ 在1-M*范围内的随机数m