整群抽样
第七章 整群抽样

y 1 yi i M M
y
j 1
M
总体总值及按群平均的总体均值:
Y Yi Yij
i 1 i 1 j 1 A A M
Y 1 A Y Yi A A i 1
样本总值及按群平均的样本均值:
y yi yij
i 1 i 1 j 1 a a M
• 总体均值 Y 的无偏估计: y y 1 aM aM
V ( y) 1 f 2 Sb aM
1 a y y y ij i a M i 1 j 1 i 1
a
M
• 方差:
2 • 方差的无偏估计: v ( y ) 1 f sb
aM
第二节
群大小相等的整群抽样
LOGO
第一节
抽样方式
LOGO
• 实施理由: ① 缺少调查单位的必要信息无法对其直接编制抽样框实施 概率抽样,而由调查单位组成的群是现成的或者群很容 易划分从而编制群抽样框非常容易时,常采用整群抽样。 ② 使调查实施便利、节省费用而采用整群抽样。 ③ 对某些由特殊结构的群组成的总体实施整群抽样能使精 度有较大提高。
第七章 整群抽样
本章要点
LOGO
对于整群抽样,本章给出了群大小相等和群大小不等 的整群抽样方法及与之匹配的估计量、估计量的方差及方差 的估计量。 • 具体要求: • 掌握群大小相等情形对群进行简单随机抽样简单估计量的 无偏性、方差及方差的无偏估计,掌握群的划分原则;了 解群内方差、群间方差概念及其对整群抽样精度的影响。 • 掌握群大小不等情形与简单随机抽样相匹配的简单估计量、 比率估计量及与抽样相匹配的汉森-赫维茨估计量及性质。 • 掌握估计总体比例的整群抽样方法及简单估计量、比率估 计量。
等概率整群抽样和多阶段抽样

M02V ( y)
N 2M 2V ( y)
N 2 (1 n
总体均值估计为 y
y n
i1 i
M n i 1 i
这里辅助变量不是Xi而是群规模Mi
总体总量估计为
Yˆ M0 y M0
y n
i1 i
M n
i 1 i
估计量的方差分别是
N
N
V (y) 1 f
(Yi
i 1
YMi )2
1
f
M
2 i
(Yi
Y
)2
i 1
nM 2 N 1
nM 2
N 1
N
V (Yˆ)
(NM 1)(M 1)S 2
用简单随机抽样方法抽取n个群,每个群内的M个
单元全部进入样本,则等群抽样均值估计量 y 的方
差可用群内相关系数近似表示
N
2
V (y)
1 V(y) 1 f
Yi Y
i 1
M2
nM 2 N 1
1 f n
(NM 1) M 2 (N 1)
S2
1
M
1
1 f nM
deff V ( y) 1 (M 1)
Vsrs ( y)
整群抽样的估计效率,与群内相关系数 的关系密切。
当 1 时,deff=M
当 0时,deff=1
当 为负时,deff<1
群内方差为0 群内方差与总体方差相等
群间方差为0
的取值范围是
1 M 1
,1
群内相关系数也可由样本统计量 sw2 , sb2 估计
总体总值 的估计量 及其方差
【例4.1】
在一次对某中学在校零花钱的调查中, 以宿舍作为群进行整群抽样。每个宿舍 都有M=6名学生。用简单随机抽样在全 部N=315间宿舍中抽取n=8个宿舍。全 部48个学生上周每人的零花钱 yij 及相关 计算数据如表4-2所示。试估计该学校学 生平均每周的零花钱 Y ,并给出其95% 的置信区间。
统计学例子——第七章例子整群抽样1

-
106
计算:
每分钟为一群,总体被分为: R = 24×60 = 1 440 群 r = 1 440÷144 = 10 样本平均数:
x 1010 101 公 斤 ) x (
r 10
组间方差:
δx
2
( x x)
r 1
2
106 11.78 况表:
样本编号
1 2 3 4 5 6 7 8 9 10
各群每袋平均重量 x
98 102 104 106 100 98 100 96 100 106
( x x)
-3 1 3 5 -1 -3 -1 -5 -1 5
( x x )2
9 1 9 25 1 9 1 25 1 25
合 计
1 010
δx R r 11.78 1440 10 (公斤) 1.082 r R 1 10 1440 1
2
μx
统计学例子第七章例子整群抽样1整群抽样例子整群抽样的例子统计学第七章课后答案统计学抽样方法统计学抽样调查统计学抽样统计学随机抽样统计学例子误用统计学方法的例子
整群抽样平均误差计算:
某水泥厂大量连续100公斤装水泥,一昼夜产量 为14 400袋。现每隔144分钟抽取1分钟的产量( 10袋为一群),共10群,全部检验。相关数据如 下,试求抽样平均误差。
整群抽样[1]
![整群抽样[1]](https://img.taocdn.com/s3/m/ac10c8f4f705cc17552709c9.png)
习题七一、 单选题1.整群抽样中的群的划分标准为( A )。
A.群的划分尽可能使群间的差异小,群内的差异大B.群的划分尽可能使群间的差异大,群内的差异小C.群的划分尽可能使群间的差异大,群内的差异大D.群的划分尽可能使群间的差异小,群内的差异小 2.整群抽样的一个主要特点是( C )。
A.方便B.经济C.可以使用简单的抽样框D.特定场合中具有较高的精度 3.群规模大小相等时,总体均值Y 的简单估计量为( A )。
A.∑∑===n i Mj ijynM Y 111ˆB.()∑∑==-=n i Mj ij y M n Y 1111ˆ C.∑∑===n i Mj ij y n Y 111ˆD.∑∑===n i Mj ijyNY 111ˆ4.下面关于群内相关系数的取值说法错误的是(D )。
A.若群内次级或基本单元变量值都相等则20S ω=,此时ρ取最大值1B.若群内方差与总体方差相等,则0≈ρ,此时表示分群是完全随机的C.若群内方差大于总体方差时,则ρ取负值D.若20b S =时,ρ达到极小值,此时11-=M ρ5.整群抽样中,对比例估计说法正确的是( B )。
A.群规模相等时,总体比例P 的估计可以为:11ni i p n A ==∑B.群规模不等时,总体比例P 的估计可以为:11()/()n niii i p A M===∑∑C.群规模相等时,总体比例P 的方差估计为:211()(1)()n i v p in n p P ==--∑D.群规模不等时,总体比例P 的方差估计为:2121()1()ni i i v p n n p A M M==•--∑二、多选题1.下面关于整群抽样的说法,有哪些是正确的?(ABC DE ) A.通常情况下抽样误差比较大B.整群抽样可以看作为多阶段抽样的特殊情形,即最后一阶抽样是100%的抽样C.调查相对比较集中,实施便利,节省费用D.整群抽样的方差约为简单随机抽样的方差的1(1)cM ρ+-倍E.为了获得同样的精度,整群抽样的样本量是简单随机抽样的1(1)cM ρ+-倍2.关于整群抽样(群规模相等)的设计效应,下面说法正确的有(ABCD ) A.()1(1)()c srsV y deff M y V ρ=≈+-B.为了获得同样的精度,整群抽样的样本量是简单随机抽样的1(1)cM ρ+-倍C.群内相关系数的估计值为2222(1)ˆb cbM s s ss ωωρ-=+-D.要提高整群抽样估计效率,可通过增大群内单元的差异实现E.整群抽样的精度取决于群内相关系数,群内相关系数越大,则估计量的精度越高 3.关于群规模不等时,可以采用的估计量形式有( B CD )。
08-第八章_整群抽样

i = 1,2, , N ; j = 1,2,, M 。记 y ij 为样本第 i 群中第 j 的小单元(次级
单元)的指标值, i = 1,2, , n ; j = 1,2, , M ,又 f =
n 是抽样比。 N
Yi = å Yij , y i = å y ij
j =1 j =1
M
M
分别是总体和样本中第 i 群的指标和,简称为群和。
过程完毕。 在求出了总体均值 Y 的无偏估计量 y 及其方差 V ( y ) 后,我们现在求估 计量方差的估计量 v( y ) 。 容易知道, v( y ) = 过程如下: 因为对群的抽样是简单随机的, 若将 Y i =
1- f 2 sb nM Yi 看作是单元指标值, 则Y i M
的样本方差
2 sb S2 2 2 是总体方差 b 的无偏估计,从而 sb 是 Sb 的无偏估计。也 M M
N
N
M
因为中间项等于零
N é M ù ( Y Y )( Y Y ) = ( Y Y ) (Yij - Y i )ú i i i ê åå å å ij i =1 j =1 i =1 ë j =1 û N M
= å (Y i - Y ) × 0
i =1
N
=0
所以平方和的分解式变为
åå (Yij - Y ) 2 = åå (Yij - Y i ) 2 + åå (Y i - Y ) 2
过程如下: 如果将 Z i =
1 M (Yij - Y i ) 2 作为单元的指标值,则它的样本均值 å M - 1 j =1
n M 1 n é 1 M 1 2ù 2 y y = ( ) ( yij - y i )2 = sw åê å ij i ú n( M - 1) åå n i =1 ë M - 1 j =1 i =1 j =1 û
整群抽样与阶段抽样

实验(实训)报告项目名称整群抽样与阶段抽样的实例所属课程名称抽样调查项目类型综合性实验实验(实训)日期班级学号姓名指导教师浙江财经学院教务处制实验六报告整群抽样与阶段抽样的实例(2课时)班级姓名学号成绩实验类型:综合性实验一、整群抽样实验目的:熟练掌握群大小相同的整群抽样的总体平均数的估计,方差估计量的计算和群内相关系数和设计效应的计算。
实验要求:根据所给样本数据:(1)求出在群大小相等的情况下,几个常用参数的估计及其方差。
(2)群内相关系数和设计效应的计算和具体含义。
实验内容上级部门想了解某学院学分制情况,从该学院500个寝室(每室住6人),随机无放回的抽取10个宿舍,询问每个学生这学期副课的选修门数,具体数据见表,试问全院人均选修副课的门数,并给出95%下的置信区间,以及群内相关系数与设计效应。
实验步骤:第一步:根据公式,求出各群的均值和方差; 第二步:求出样本群间方差和总方差 第三步:求出置信区间; 第四步:计算样本群内方差;第五步:根据公式计算群内相关系数和设计效应; 第六步:分析设计效应的意义。
500=N 10=n 6=M 02.050010===Nn f25.2101.832.52.52.672.51.52.332.672.171.831111=+++++++++===∑∑∑===ni i ni Mj ij y nnMy y ()015876.0972.061002.0112=⨯⨯-=-=b s nMf y v()()==y v y s 0.126()[][]49696.2,00304.296.1=⨯±=y v y Y二 阶段抽样 实验目的:使学生熟练掌握二阶及多阶抽样的几种方法;会求各种方法中几个常用统计量的估计量及其方差。
实验要求:根据抽样要求:(1)设计抽样方案;(2)求在所设计方案下,几个常用统计量的估计及其方差。
实验内容:在一次某城市居民小区居民食品消费量的调查中,采用二阶抽样的方法,现已知楼层数N=510,每个楼层有住户M=8,用简单随机抽样抽取n=24个楼层和在被抽中的 楼层中用随机抽样抽取m=4进行调查,具体资料见表。
08整群抽样
8.3群大小不等的整群抽样
一、记号
M i 表示群的大小,M 0 M i为总体中小单元的总数。
i 1 N
群和: 第i群的 平均数: 平均
Yi Yij
j 1
Mi
yi yij
j 1
Mi
Yi Yi Mi
yi yi Mi 1 n y yi n i 1
ij
1 Y N 群和: 按小 单元 的均值: Y
估计量 1 ˆ Y Ny N yi n i 1 估计量的理论方差
2 1 N 2 1 f ˆ) N V (Y Yi Y n N 1 i 1 n
估计量的方差估计 ˆ ) N 1 f 1 y y 2 v(Y i n n 1 i 1
n 2
1 f 1 n 2 v (Y ) N yi y 2 nM 0 n 1 i 1
群内方差 群间方差
1 N S M Yi Y N 1 i 1
2 b
2
故 则
2 N ( M 1) S w ( N 1) Sb2 S2 , 若 NM 1 NM , N 1 N , NM 1 2 ( M 1) S w Sb2 2 S M
三、设计效应
2
为对这两个方差作比较,需对( NM 1) S 2作分解:
三、设计效应
Y
N M i 1 j 1
ij
Y
2 w
2
Yij Yi M Yi Y
N M 2 N i 1 j 1 i 1
2
记
N M 2 1 S yij Yi N ( M 1) i 1 j 1
抽样调查整群抽样与系统抽样
个体的次序随机排列
对总体的某种排列次序,系统抽样精度可能优于 简单随机抽样也可能劣于简单随机抽样,但对N个个 体的所有N!种排列而言,系统抽样的平均精度与简单 随机抽样相等
V(YˆS
K
Y)SK
N0
(
N0
Yij
Yj)2
i1 j1
j1
N 0
K
K(Y ji Y i)22 K K N 0N 0(Y ji Y i)Y (jl Y l)
i 1j 1
j 1i l
K N0N0
(Yji
Yi)
(Yjl
Yl)0,系统
抽
样
优
于样分
j1 il
系统抽样的效率
例 假设总体有表中的30个单元,欲取5个构成系统样 本,与简单随机抽样和分层抽样同样本量的结果进行 比较(两种排列方式).
个体指标与其次序有线性关系 个体指标与其次序有某种周期关系 个体的次序随机排列
个体指标与其次序有线性关系
Y ii,i 1 ,2 , ,N 设 U i(Y i)/i
则 U N 2 1 ,S 2N 1 1iN 1(U i U )2 (N 1 1 )N 2
系统抽样
U ˆSYSN1 2N(NK) V(UˆSY)SN2(1K221)
然后对号码1,2,…,K作随机抽样,若i入样,则 K+i,2K+i,…,皆入样,组成一个系统样本
若将同一列个体看做一个群,系统抽样可视为整群抽样
一般假定N=KN0,并且只从1~K中抽选一个样本单元
抽样检查的四种方案
抽样检查的四种方案抽样检查是一种常见的质量管理方法,通过从总体中选取一部分样本进行检查,以了解样本所代表的总体特征。
在质量控制和市场调研领域都有广泛的应用。
本文将介绍四种常见的抽样检查方案,以帮助读者选择适合自己需求的方案。
一、简单随机抽样(Simple Random Sampling)简单随机抽样是最基本的抽样方法,其核心思想是从总体中随机地选择样本,使得每个样本有相等的机会被选中。
这种抽样方法要求总体必须完全标识出来,并且每一个样本都是相互独立的。
简单随机抽样适用于总体规模较小,且样本之间相互独立的情况。
二、系统抽样(Systematic Sampling)系统抽样是通过按照一定的规则从总体中选取样本,例如每隔一定间隔选择一个样本。
系统抽样的优势在于抽样过程相对简便,而且可以保持总体特征的一致性。
然而,如果总体中存在一定的周期性或规律性,这种抽样方法可能导致样本不具有代表性。
因此,在使用系统抽样时,要确保总体中的周期性和规律性与样本需求一致。
三、分层抽样(Stratified Sampling)分层抽样是将总体划分为若干个层次,然后从每个层次中分别抽取样本。
分层抽样的优势在于可以更好地保持总体特征的同时,提高样本的代表性。
分层抽样适用于总体具有明显特征分布的情况,通过将总体划分为若干层次,可以更好地捕捉到不同层次之间的差异。
然而,分层抽样在实际操作中可能会面临层次划分不准确的问题,因此,必须在划分层次时慎重考虑。
四、整群抽样(Cluster Sampling)整群抽样是将总体划分为若干个相互独立、相似或相互联系的群组,然后随机地选择部分群组进行抽样,再对所选群组中的所有个体进行调查。
整群抽样的优势在于可以减少样本选择的复杂度,节省调查成本,同时通过对群组内所有个体的调查,提高样本的代表性。
然而,整群抽样要求群组内个体的相似性较高,如果群组内个体之间差异较大,这种抽样方法可能导致样本的失真。
综上所述,抽样检查的四种方案分别是简单随机抽样、系统抽样、分层抽样和整群抽样。
抽样检查的四种方案
抽样检查的四种方案抽样检查的四种方案摘要:抽样检查是一种有效的质量控制方法,可以帮助企业在大规模生产过程中对产品进行检查和评估。
本文将介绍抽样检查的四种常用方案,包括简单随机抽样、系统抽样、分层抽样和整群抽样。
通过详细分析每种方案的优缺点和适用场景,帮助职业策划师在实际工作中选择合适的抽样检查方案,以提高产品质量和客户满意度。
第一部分:简单随机抽样简单随机抽样是最基本的抽样方法,适用于总体中各个样本具有相同概率被选中的情况。
该方法的步骤包括:确定总体大小、确定样本容量、通过随机数表或随机数生成器选择样本、对样本进行检查和评估。
简单随机抽样的优点是简单易行、样本具有代表性,但缺点是可能出现抽样误差。
第二部分:系统抽样系统抽样是一种按规律选择样本的方法,适用于总体中样本具有某种规律的情况。
该方法的步骤包括:确定总体大小、确定样本容量、计算抽样间隔(总体大小除以样本容量)、从总体中随机选择一个起始点、按照抽样间隔选择样本。
系统抽样的优点是比简单随机抽样更具效率,并且仍能保持样本的代表性,但缺点是可能出现周期性抽样误差。
第三部分:分层抽样分层抽样是将总体划分为若干层,并在每一层中进行抽样的方法,适用于总体具有明显差异的情况。
该方法的步骤包括:确定总体大小、确定层的划分标准(如产品类型、地区等)、确定每一层的样本容量、按照每一层的比例进行抽样。
分层抽样的优点是可以更准确地反映总体的特征,但缺点是可能需要更多的时间和成本。
第四部分:整群抽样整群抽样是将总体划分为若干群,并选择其中的群进行抽样的方法,适用于总体中群与群之间差异较大的情况。
该方法的步骤包括:确定总体大小、确定群的划分标准、确定每一群的样本容量、按照每一群的比例进行抽样。
整群抽样的优点是可以更快速地进行抽样、减少成本,但缺点是可能导致群内的差异被忽略。
结论:在实际工作中,职业策划师需要根据具体情况选择适合的抽样检查方案。
简单随机抽样适用于总体中样本具有相同概率被选中的情况,系统抽样适用于总体中样本具有某种规律的情况,分层抽样适用于总体具有明显差异的情况,整群抽样适用于总体中群与群之间差异较大的情况。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第七章 整群抽样第一节 整群抽样概述一、整群抽样的概念整群抽样是先将总体各单元划分成若干群(组),然后以群为单位,从中随机抽取一部分群,对中选群内的所有单元进行全面调查。
确切地说,这种抽样组织形式应称为单级整群抽样。
采用整群抽样的两个理由:抽选群能大大降低数据收集的费用,当总体的分布比较广且调查采用面访时更是如此;从总体中直接抽选个体在实际中并不总是可行的(没有关于个体的抽样框);有时,抽选单元组成群体组更简便易行(如整个住户)。
二、群的划分问题关于群的划分,有两个问题:一是如何定义群,即当群并非是一个自然形成的单位时,确定每个群的组成;二是如何确定群的规模即群的大小。
群的划分应该是:尽量扩大群内差异,而缩小群间差异。
这样,每个群都具有足够好的代表性。
如果所有的群都相似,那么抽少数群就可获得相当好的精度;反之,若群内的单元比较相似,而群与群之间的差别较大,则整群抽样的效率就低。
所以分群的原则使“群内差异大、群间差异小”与分层的原则使“层内差异小,层间差异大”是恰好相反的。
至于群的规模的选择,一是取决于精度与费用之间的平衡,二是从抽样实施的组织管理等因素来考虑。
三、整群抽样的特点同其他抽样组织形式相比较,整群抽样具有如下特点:整群抽样则不需要编制庞大的抽样框;在样本单元数相同的条件下,整群抽样与简单随机抽样相比,样本单元的分布相对较集中,组织实施过程更加便利,同时还可以大大地节省调查费用;整群抽样的随机性体现在群与群间不重叠,也无遗漏,群的抽选按概率确定;如果把每一个群看作一个单位,则整群抽样可以被理解为是一种特殊的简单随机抽样;整群抽样也是多阶段抽样的前提和基础;整群抽样有特殊的用途;整群抽样要求分群后各群所含次级单元数目应该确知,否则会给抽样推断带来不便。
第二节 等概率整群抽样的情形一、群的大小相等时(一)估计量1、总体均值Y 的估计∑===ni i Y n y Y 11ˆ2、总体总和Y 的估计y nN Y nN y NM Yni i ∑===•=1ˆ 3、总体比例P的估计∑∑=====ni in i i nMP n p P 1111ˆα(二)估计量的方差及其估计由于群是按简单随机方法抽取的,因此,估计量Y Y ˆ,ˆ与P ˆ的方差及方差的无偏估计量可直接按第三章的方法构造:1)(1)(122---=∑=N Y YnM f y V Ni i22221])1(1[1)1,1(1)1(1[)1(1bC C S nMf M S nM f NM NM N N N M S NM nM f -=-+-≈-≈-≈--+•-•-=ρρ 21211)(1)(ˆb ni is nMf n y Ynf y V-=--•-=∑= 1)()1()()ˆ(ˆ12222---=•=∑=N Y Yn f N y V M N Y VNi i≈22)1(b S nf M N - 1)()1()(ˆ)ˆ(ˆ21222--•-=•=∑=n y Ynf N y V M N Y Vni i≈22)1(b s nf M N -1N )P (P nf 1)Pˆ(V N1i 2i---=∑=1n )PˆP(n f1)P ˆ(Vˆn1---=∑=i i三、群的大小不等时(一)简单估计如果群的抽取是简单随机的,则可将每个群的总和i Y 看作是第i 群的指标,于是总体总和∑==N1i i Y Y 的简单估计可依照简单随机抽样的情形来做,即:y N Y n N Y ˆn 1i i ==∑=可以证明,Yˆ是Y 的无偏估计,其方差为: 1N )Y Y(n)f 1(N )Yˆ(V N1i 2i2--•-=∑=方差估计量为:11N Y ˆ(Vˆ122---=∑=n y Y n f ni i)()())Y ˆ(Vˆ为)Y ˆ(V 无偏估计。
有了总体总和的估计量,则可得出总体均值的无偏估计量。
(二)比估计 当群的大小不等时,在对群进行简单随机抽样的情况下,∑∑===Ni iNi iMY Y 11,我们注意到它同比率∑∑===Ni iNi iXY R 11形式上完全相同,只不过在这里是将各群的大小i M 作为辅助变量。
因此,可采用比估计的方法得出有关参数的比估计量。
按前面的论述,比估计量是有偏的,但当n 充分大时,其偏差可以很小,近似无偏。
所以,Y 的近似无偏估计量为∑∑====ni ini iR MY y Y 11ˆRY ˆ的近似无偏估计量为 ∑∑====ni ini iR R MY M Y M Y 1100ˆˆ根据比估计的原理,可相应推导出上述估计量的近似方差为:)ˆ(R Y V ≈1)(1122--•-∑=N M Y YMn f Ni i i]2[11)(122221222my m y Ni ii RS S R S M n f N Y Y M M n f -+-=--•-=∑= )ˆ(R Y V ≈1)()1()ˆ(122220--•-=•∑=N Y Y Mnf N Y V M Ni i i R其方差估计量为:,1)ˆ(1)ˆ(ˆ1222--•-=∑=n Y Y M m n f Y V n i R i R)1(1∑==ni i M n m1)ˆ()1()ˆ(ˆ122222--•-=∑=n Y Y M mN f M N Y V ni R i i R1)ˆ()1(1222--•-=∑=n Y Y M nf N n i R i i (当m M =)第三节 不等概率整群抽样的情形一、 放回的不等概率抽样不等概率抽样通常是按与群的大小成比例进行抽样。
当采用放回(重复)抽样时(PPS 抽样),其估计量可按汉森—赫维茨方法构造。
即y M Yn M M Y nM Z Y ni ini ii n i i i01101HH n 1Y ˆ====∑∑∑===故∑====ni i HH Y n y M Y 1011ˆ 其中HH Y ˆ与HHY ˆ分别为Y 与Y 的无偏估计。
估计量的方差为:2102N 1i i HH )()(Z n 1)Y ˆ(V Y Y Mn M Y Z Y i Ni ii i -=-=∑∑==21020)(1)ˆ(1)ˆ(Y Y MNM Y V M Y V Ni i iHHHH -==∑=方差的无偏估计量为:212021)()1()ˆ()1(1)ˆ(ˆy Y n n M Y Z Y n n Y V n i i HHn i i i HH --=--=∑∑==, ∑=--=n i i HH y Y n n Y V 12)()1(1)ˆ(ˆ 二、不放回的不等概率抽样若群的抽取是用严格的PS π抽样方法进行的,则Y 的估计应该用霍维茨-汤普森方法。
即:∑==n i ii HTY Y 1ˆπ 21))(()ˆ(ˆjji i ijj Ni N ij i HT Y Y Y V πππππ--=∑∑=>(n 固定时)21)()ˆ(ˆj j i i ni nij ij ij j i HTY Y Y V ππππππ--=∑∑=>(n 固定时)HT Y ˆ是Y 的无偏估计;)Y ˆ(V ˆHT 是)Y ˆ(V HT的无偏估计。
第四节 设计效应一、设计效应仍用总体均值估计量的方差进行讨论,并且考虑等概率抽样的情形。
由前面的分析可知,Y 的估计量y 的方差为])1M (1[S nMf 1)y (V C 2ρ-+-≈如果按简单随机抽样从总体中抽取nM 个次级单元,则:2srs S nMf 1)y (V -=所以,整群抽样的设计效应为:)y (V )y (V Deff srs =≈2C 2S nMf 1])1M (1[S nM f 1--+-ρ≈C )1M (1ρ-+当0C >ρ时,1Deff <,则整群抽样的精度较简单随机抽样在相同样本量时要差一些。
当0c <ρ时,1Deff <,则整群抽样的精度较相同样本量的简单随机抽样要高。
二、最佳群大小的确定如果样本大小固定,虽然调查费用随着群大小的增加和群数的减少而变小,但从前面的结果看出,抽样误差将随着群大小的增加和群数的减少而变大。
因此,就要考虑求得最佳的群数或群的大小以便在给定费用条件下使抽样误差最小,或在给定抽样误差条件下使费用最省。
为此,需要先分析整群抽样的方差函数和费用函数。
根据前面的讨论,整群抽样的方差是总体群数N 、总体方差2S 、群内相关系数C ρ、群的大小M 以及样本群数n 的一个函数,其费用函数可以简单地表示为210nMC nC C C ++=其中210C ,C ,C ,C 分别为总费用、固定费用、平均每个群的调查费用和平均每个单元的调查费用。
在一般情况下,2C 会比1C 小得多。
如果总费用C 固定为C ',则由费用函数可得210MC C C C n +-'=代入方差函数得])1M (1[S MC C C C M f1)y (V C 2210ρ-++-'-==])1M (1[S )C C (M )MC C )(f 1(C 2021ρ-+-'+-当N 比n 大得多或以放回方式抽样时,上式可进一步整理成)]M)1M (1)(C C M 1[(C C S C )y (V C12021ρ-++-'=由此可知,使方差)y (V 得极小值的最佳M 值可用方括号内的项对M 的图形来决定。
各种不同M 值下的C ρ值,可由对研究变量与其它的辅助变量作部分事先普查或试查得到,1C 和2C 的值也通过试调查得到。
同理,当误差控制要求确定时,也可以导出使费用极小化的最佳M 值。