第十一章非抽样误差及其控制
抽样调查-调查中的非抽样误差培训课件PPT课件

根据非抽样误差的来源、性质 可分为以下三类:
(1)抽样框误差,即由不完善的抽样框引起的
误差; (2)无回答误差,即由于种种原因没有从被调 查单元获得调查结果,造成调查数据的缺失; (3)计量误差,即所获得的调查数据与其真值 之间不一致造成的误差。
§11.2 抽样框误差
一、概念
抽样调查中的总体有两个: 目标总体—调查研究对象的全体。 抽样总体—从中抽取样本的总体。 (即抽样框) 理想抽样框的标志是目标总体和抽样总 体完全重合。否则抽样框就是不完善的。
●抽样框存在的问题,有些是不容易解决的。 因此抽样框的维护、抽样框使用情况的不断 总结与研讨,对于经常性的调查项目来说是 十分必要的。
●抽样框的不完善并不是不能使用。可以进 行修补、调整。
N1
(3)抽样框误差的影响
设目标总体单元:N
抽样框中单元:N1 抽样框中丢失的单元:N0
N=N1+N0 ■ 总体总量的估计 总体总量的真值是:
W0 (Y1 Y0 ) W0 (1 r)
Y
rW0 (1 W0 )
由上式可以看出,如果丢失单元的均值与
抽样单元的均值相同,即
r
1
,则估计量
Y
是目标变量 Y 的无偏估计。
r 反之,如果 r 1 ,偏倚状况则随着
的变化而变化。
Y
三、不完善抽样框的使用
抽样框不完善并不是不能使用,因为构造一个完 善的抽样框有时是非常困难的。使用不完善抽样框时 若能采用一些补救措施,有助于减小抽样框误差。主 要采用以下三项补救措施:
ቤተ መጻሕፍቲ ባይዱ
N N1 N0
R1
N1 N
, R0
N0 N
则总体均值为: Y R1Y 1 R0Y 0
11-第十一章_非抽样误差

(
)
(11.3)
这表明此时估计量低估了总体总和。若令 r 为丢失单元指标均值 Y 0 与抽样 框单元指标均值 Y A 之比:
r=
Y0 YA
又 W0 是丢失单元占全部目标总体单元的比重:
3
W0 =
N0 N
则 N A y A 的相对偏倚可表示为:
-
Y0 W0 r =Y W0 r + (1 - W0 )
2
多或多对一的现象。例如在一项入户调查中若目标总体单元系独立的家庭 户, 而抽样框采用的按地区的门牌号, 那么一个家庭也许有两个或两个以上 的住所, 在一个门牌号内也可能住着两户或更多户的家庭。 这种情况称为抽 样框(抽样总体)与目标总体存在着复合连接。 4. 有些复杂抽样框还包含辅助信息(当采用分层抽样、不等概率抽样 以及使用比估计或回归估计等情形) ,如果这些辅助信息不完全或不正确, 不仅不能提高抽样的效率,反而会降低估计的准确性,从而导致误差。 *11.2.2 丢失总体单元引起的抽样框误差 丢失目标总体单元是抽样框误差中影响最为显著而且也较难进行补救 的一种,为此我们对它作稍微深入的研究。 首先我们对丢失目标总体单元引起的误差进行定量分析。 我们主要分析 由此产生的估计量的偏倚。 设目标总体由 N A 个抽样总体单元以及另外 N 0 个没有包含在该抽样总 体的丢失单元组成, N = N A + N 0 ,则总体总和
ˆ (a ) = N y (a ) Y A a A
(11.7)
7
ˆ (ab) = N y (ab) Y A ab A
(11.8)
其中 y A ( a ) 与 y A ( ab) 分别是落在区域 a 与区域 ab 样本观测值的平均数。 类似地根据从框 B 的样本,对区域 b 的总和 Yb 与对区域 ab 的总和 Yab 的估 计分别为:
非抽样误差抽样理论与方法,河南财政学院

(n
1 1)P2
( m )(1 n
m n
)是V(ˆ
)的无偏估计
A
2021/4/4
30
10.5 计量误差
一、计量误差分类: 设计引起的误差 由调查员引起的误差 由被调查者引起的误差
2021/4/4
31
10.6 离群值的检测和处理
一、 yi离数据中心的相对距离di 法 y1,y2,…,yn是要观测的样本数据 m和s分别是测度数据集中趋势和离散趋势的指标
则相对偏倚可以写为
E(y) Y R0(Y1 Y0 )
Y
Y
2021/4/4
14
1.汉森-赫维茨的再抽样调整 总体均值的估计值
Y
1 n
(n1 y1
n0
y
' 0
)
w1
y1
w0
y
' 0
V(Y)
V1
(y)
E1
(w0
k
n
1
s02
)
1
n
f
S2
W0
k
n
1
S02
S02 为总体中无回答层的方差 k n0
得k的最优值kopt
c0 (S2 W0S02 ) S0(2 c c1W1)
给定V,使C达到最小值,得nopt 2021/4/4
N(S2
(k 1)W0S02 ) NV S2
18
例:第一个样本用邮寄方式取得,预计回答率为50%。希
望达到的精度月容量为1000的简单随机样本(全部回答)
所达到的精度一样。邮寄一张问卷的费用是0.1美元。派
估计分别为:
Yˆ B (b)
Nb nb
yB (b)
市场调查中非抽样误差的产生和控制

市场调查中非抽样误差的产生和控制摘要:非抽样误差直接与市场调查的准备阶段、抽样阶段、问卷设计阶段、实地访问阶段、统计处理阶段等各阶段的工作质量好坏存在密切的关联。
本文在具体分析这些阶段导致非抽样误差产生的工作情形后,提出了科学设计调查方案、重视对调查员的培训和管理、减少被调查者误差和做好调查资料的汇总工作等几方面控制非抽样误差的对策。
关键词:非抽样误差;调查方案;调查员;被调查者一、非抽样误差的产生非抽样误差产生的原因多种多样,尤其在实施调查过程中最为常见。
非抽样误差直接与调查的准备阶段、抽样阶段、问卷设计阶段、实地访问阶段、统计处理阶段等各阶段的工作质量好坏存在密切的关联。
1.准备阶段准备阶段是整个调查的起始阶段,准备阶段的主要任务是:确定调查任务,设计调查方案,组织调查队伍。
调查设计者首先要列出具体研究目标,从而确定所要研究的问题和识别研究的总体,最后明确调查任务并给整个调查活动一个纲领。
具体说来,设计调查方案包括调查指标的设计、调查总体方案的设计和调查方案可行性研究三方面的内容。
在本阶段可能产生误差的工作主要有:(1)调查设计者可能误解了主办者的目的意图,制定了错误方针,误导研究方向。
(2)目标总体与实际的调查总体不一致。
例如,进行电话访谈时,社区周边的居民用户电话号码可能没有列到电话号码簿中,另一些用户可能已经搬迁而导致电话为空号,因此目标总体和被调查总体出现一定的差异。
(3)调查设计者没有事先预先设定好调查的具体步骤和时间表、可能出现的问题以及未事先培训和挑选恰当的调查员,因而导致计量质量的下降。
(4)预算的限定。
任何调查都有费用,市场调查也同样。
并且由于市场调查的主办者一般都是企业,因此费用上的限制就更为明显。
如果资金短缺,只能缩小研究范围或进一步寻求资金。
上述第一点是调查设计者误解调查主办者的目的,这必然导致系统误差,使调查信度和效度下降。
第二点由于空号的原因,造成缺失值误差。
第三点由于没有预先设定调查步骤和很好的培训访问员,即没有制定标准化的市场调查结构,这样也会降低信度。
非抽样误差与现场数据收集质量控制

4. 实时监控与反馈
在数据收集过程中实时监控数据质量,并在发现问题时及时反馈给调查员,以便他们进 行调整和修正。
案例二:数据收集质量控制的实践经验
1 2
5. 事后审核与清理
在数据收集完成后,进行事后审核和清理工作, 以识别并修正潜在的错误和不一致之处。
03
02
定期评估与反馈
对收集到的数据进行定期评估,及 时发现并纠正误差。
建立纠错机制
建立数据纠错机制,对已发现的误 差进行修正和追溯。
04
05 案例分析与实践
案例一:现场数据收集中的非抽样误差分析
总结词
现场数据收集中的非抽样误差分析
VS
详细描述
在现场数据收集过程中,非抽样误差是一 个常见的问题。非抽样误差通常是由于调 查设计、样本选择、数据采集和编码等方 面的错误或缺陷所引起的。这些误差可能 导致数据失真,影响分析结果的准确性和 可靠性。因此,对非抽样误差进行识别、 评估和控制是数据收集质量控制的重要环 节。
在相同的受访者群体上重复进行调查,比较两次调查结果 的一致性程度。通过计算重测信度系数,可以评估非抽样 误差的大小和控制效果。
详细描述
为了评估非抽样误差控制的实际效果,可以采用以下几种 方法进行评估
1. 对比验证
通过与其他已知效度高的调查数据进行对比,验证新方法 的准确性。例如,可以将新方法的数据与传统的现场调查 数据进行对比,观察是否存在显著差异。
非抽样误差与现场数据收集质量控 制
contents
目录
• 非抽样误差概述 • 现场数据收集方法 • 数据收集质量控制 • 非抽样误差的识别与控制 • 案例分析与实践
统计学中的抽样误差与非抽样误差

统计学中的抽样误差与非抽样误差【统计学中的抽样误差与非抽样误差】统计学作为一门重要的科学方法,广泛应用于各个领域。
在进行数据分析和研究过程中,抽样误差和非抽样误差是其中关键的概念。
本文将从定义、影响因素、测量方法以及减少误差的策略等方面,深入探讨统计学中的抽样误差与非抽样误差。
1. 抽样误差的定义和影响因素抽样误差指的是从总体中选取样本所导致的估计误差。
在真实总体很大的情况下,由于实际调查的限制,我们很难直接获得全体数据,因此需要采用抽样方法。
抽样误差的大小直接关系到样本数据的代表性和准确性,主要受以下因素影响:(1) 样本容量:样本容量越大,抽样误差越小。
(2) 抽样方法:合理的抽样方法可降低抽样误差。
(3) 抽样框的准确性:抽样框是指包含总体的框架,若抽样框不准确,则会增加抽样误差。
2. 非抽样误差的定义和影响因素非抽样误差指的是除抽样误差以外的其他误差来源,主要包括调查设计、数据采集过程中的操作和测量等误差。
非抽样误差的大小直接影响着最终统计结果的准确性,以下是一些常见的非抽样误差来源:(1) 调查设计偏差:调查设计的不完善或缺陷会引入误差。
(2) 非回应误差:调查对象拒绝参与或无法联系到的情况。
(3) 数据处理误差:包括数据录入、清洗和分析过程中的误差。
3. 抽样误差和非抽样误差的测量方法对于抽样误差,一种常用的测量方法是计算标准误差。
标准误差是样本观测值与总体参数估计值之间的差异度量,可以用来评估样本数据的准确性和稳定性。
同时,还可以利用置信区间来估计总体参数的范围和可信度。
对于非抽样误差,常用的测量方法是检查数据质量和进行误差分析。
数据质量的检查包括对数据的完整性、准确性和一致性等方面进行评估,并采取纠正措施。
误差分析可以通过对调查过程的审查和再次检测等方式,发现和纠正非抽样误差。
4. 减少抽样误差和非抽样误差的策略在实际研究和调查中,减少抽样误差和非抽样误差是提高数据分析效果和可信度的关键。
非抽样误差产生的原因及控制.

非抽样误差产生的原因及控制抽样调查是目前我国搜集统计资料的一种主要方法,但抽样调查的结果始终要受到抽样误差和非抽样误差的影响。
抽样误差是由于样本随机性引起的,根据样本数据计算的对总体目标量的估计是随样本而异的,由此产生的误差即是抽样误差。
抽样误差是不可避免的,其大小可以通过调查样本容量,改变抽样方式等加以控制。
非抽样误差是指除抽样误差以外。
由于各种原因引起的。
非抽样误差由于其产生的原因及其复杂且具有不易观测和非随机性等特点而难以控制。
两种误差构成了总方差,两者之间呈此消彼长的关系。
一般情况下同时减少两类误差是很困难的。
非抽样误差占据了很大的一部分,怎样通过降低非抽样误差,从而降低总方差,有着非常重要的现实意义。
一、非抽样误差分类自1902年K?皮尔逊首次讨论非抽样误差这个概念以来,在非抽样误差的分类上。
主要有以下几种:(一)希里1957年把非抽样误差分为3类:1、范围误差:指由于样本单位的遗漏或重复产生的误差。
2、确定误差:指在资料收集、编辑、编码和计算输入阶段所产生的样本单位特征值的测量误差和回答偏差。
3、替代误差:由于对缺失数据进行替代和(或)在最后估计阶段对缺失数据进行替代所产生的误差。
(二)科克伦把非抽样误差分为3类:1、对被抽选出的样本中的一些单位未能进行计量而产生的误差。
2、一个单位的计量误差。
3、对调查结果进行编辑、编码和汇总过程中产生的误差。
(三)戴伦纽斯1988年把非抽样误差按调查活动分为3类:1、资料搜集过程中产生的误差。
2、测量过程中产生的误差。
3、资料加工过程中产生的误差。
在我国比较常见的分类方式有两种:第一,按性质和处理方法不同分为抽样框误差、无回答误差和计量误差。
第二,按产生的环节不同分为设计误差、调查误差和汇总误差。
二、各类非抽样误差产生的原因1、调查设计过程中引起的误差设计阶段误差是由于这一阶段某些失误而导致调查结果产生的偏误,调查设计有两个主要环节,即调查设计和抽样设计。
非抽样误差

非抽样误差又称“工作误差”。
指在调查过程中由于种种人为因素所造成的代表性误差及登记性误差的总称。
前者通常是指调查方案设计有缺陷,如题器或指标含义不清、有诱导性;调查员在实施调查中不遵守随机原则,有意多选较好或较差的单位,等等。
后者是指在记录、汇总、计算、抄写调查数据资料时所发生的差错。
人为因素所造成的代表性误差通常表现为一种系统性的偏差。
它与抽样误差由于随机地观察总体中的一部分单位所造成的样本统计量的波动而产生的代表性误差有着明显的不同。
抽样误差是围绕分布中心所表现出的没有方向性的非系统性的误差,工作误差则是稳定的、有方向性的系统性偏差。
避免非抽样误差的主要措施是:(一)严格遵守随机原则,规定应抽选作为样本的调查对象都必须一一调查,不能随便更换、减少或增加,避免有意多选较好或较坏的调查对象来达到自己原定要说明某个问题的目的;(二)搞好问卷设计,严守客观公正的原则,避免题器设计所产生的诱导性因素,并努力使调查项目所涉及的概念指标尽可能地操作化到清晰、明确、唯一的程度; (三)认真培训调查登记人员,做好一切必要的准备工作,尽量不发生填表、登记之类过程中的差错。
原因分析引起非抽样误差的原因很多,比如抽样框不齐全,访问员工作经验有限,被访者不配合访问而加以虚假的回答,问卷设计本身存在缺陷等等。
通常,在技术性调查中,会出现由于缺乏回答知识而产生的非抽样误差。
另外两种类型的非抽样误差是选择误差和数据处理误差。
当调查中包含不恰当的项目时,就会生产选择误差。
假设设计一个抽样调查,来描述有胡须的男人外观。
对“有胡须的男人”的理解,如果有些采访人员认为应包括有小胡子的男人,而其他采访人员则不这样认为,这样,调查的结果资料将有缺陷。
当有登记错误或输入错误时,就会出现数据处理误差。
如将调查表中的资料输入计算机时产生的错误,即为输入错误。
尽管在大多数的调查中,会出现一些非抽样误差,但通过周密的计划可使它们达到最小,这些计划包括注意保证抽样总体与目标总体的一致、遵循良好调查表的设计原则、培训采访人员等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十一章 非抽样误差及其控制数据的准确性与可靠性是抽样调查的生命力之所在。
如前所述,在抽样调查中,除存在抽样误差外,还经常出现一些非抽样误差,主要的非抽样误差产生原因有抽样框不完善、无回答的出现、调查过程的差错以及数据整理登记过程中的差错等。
因此,抽样调查中,不仅要控制抽样误差,而且还要控制非抽样误差。
如何有效地控制非抽样误差,取得准确可靠的数据资料,以及如何对已经取得的数据进行质量评价,一直是抽样调查理论和实践中所经常关注和着力研究解决的重要问题。
第一节 抽样框误差及其控制一、抽样框误差的产生抽样框是有关总体全部单元的名录或地图等的框架,是抽取样本单元的依据。
理想的抽样框(也称抽样总体)应该同所研究现象的总体(也即目标总体)一致,但在实践中,抽样总体与目标总体常常不一致,由此产生的误差就是抽样框误差。
考察抽样框误差的成因,大致有以下几个方面:(1)丢失目标总体单元。
在此情形下,抽样框没有能够覆盖全部目标总体单元,也就是使部分目标总体单元没有包括在抽样框中,因而也就没有机会被选入样本。
由于存在丢失单元,使得总体总和的估计偏低,总体均值的估计也可能会出现偏差。
丢失单元是一种威胁性较大的抽样框误差,具有较强的隐蔽性,不易被发现。
(2)包含非目标总体单元。
有时,抽样框中也可能包含了一些不属于研究对象总体即非目标总体的单元,由此容易导致总体总和的估计偏高。
但这种类型的抽样框误差一般要比丢失单元的威胁性小。
因为在调查中,非目标总体单元往往更容易被发现,并予以剔除。
(3)复合联接。
实践中常可能会遇到这种情况:抽样框中的单元与目标总体单元不完全为一一对应,而是一对多或多对一,即存在复合联接。
在这种情形下,目标总体中各个单元的入样概率可能会受到相应的影响,从而导致非抽样误差的扩大。
但是,有时候采用经过精心设计的有复合联接的抽样框可以提高稀有元素被抽中的概率。
(4)不正确的辅助信息。
一般将不包含辅助信息的抽样框称之为简单抽样框,而将包含辅助信息的抽样框称为复杂抽样框。
复杂抽样框中的辅助信息可以用于分层抽样、不等概率抽样,以及使用比估计和回归估计等。
如果辅助资料不完全或不正确,则不但不能提高抽样估计的效率,反而会降低估计的准确性。
(5)抽样框陈旧。
有时由于构成抽样框的抽样单元资料“老化”,抽样框所提供的信息与现实情况差距较大,也会导致抽样框误差。
并且这类误差也可能进一步引起前面四类抽样框误差中的一种或几种同时发生。
二、抽样框误差的确定(一)丢失目标总体单元时的影响前已指出,丢失目标总体单元是抽样框误差中威胁最为严重的一种。
现设目标总体是由N A 个抽样总体单元及另外N 0个没有包含在抽样框中的单元(即丢失单元)组成,即N=N A +N 0,则总体总和应为0A A N N i i iiY Y Y Y Y =++∑∑其中A Y 为抽样总体总和,0Y 为丢失单元总和,i Y 为第i 单元的观测值。
现从抽样框的N A 个单元中随机抽取n A 个单元组成样本,则A Y 的无偏估计。
当用N AYA 来估计Y 时,结果就会出现大小为0Y 的偏差,即0()AyA A E N Y Y Y Y -=-=-这表明Y 被低估了。
如果以r 表示丢失单元与抽样框中单元的均值之比,即/O A r Y Y =又以W 0表示丢失单元占全部目标总体单元的比重,即00/W N N =,则总和估计量AyA N 的相对偏差可表示为0000(1)rY W Y rW W -=-+- 当估计总体均值Y 时,用A y 估计Y 的偏差为0()A A O Y Y W Y Y -=-;此时的相对偏差为0000()(1)(1)A O Y Y W W r rW W Y--=+- 表10.1与表10.2分别给出了不同的丢失单元比重W 0对总体总和与均值估计的相对偏差。
其中关于Y 0与N 0的值可依有关资料进行估计,对此,后面将专门讨论。
(二)包含非目标总单元时的影响如果以M 0表示抽样框中所含非目标总体单元数,M T 表示抽样框中所含目标总体单元数,则抽样框所含全部单元数0T M M M =+,在抽样框中不存在丢失单元,也没有复合联接时,0T M N =则抽样总体总和F Y 可表示为00TM M M F i i i iiiY Y Y Y Y Y ==+=+∑∑∑其中,0Y 是非目标总体单元观测值之和,Y 是目标总体总量,i Y 为第i 单元的观测值。
现从抽样框的M 个单元中随机抽取m 个单元组成样本,则mF i iMM y Y m=∑为F Y 的无偏估计。
当用F M y 来估计Y 时,就会产生()F F E M y Y Y Y Y -=-=的偏差,这表明Y 被高估了。
如果以u 表示非目标总体单元与目标总体单元均值之比,0Q 表示非目标总体单元占抽样总体单元的比重,即0M Q m =,0Y u Y= 则总和估计量F M y 的相对偏差可表示为0001u Y Q Y Q =- 当估计总体均值Y 时,以F y 估计Y 的偏差为00()F Y Y Q Y Y -=-此时的相对偏差为000()(1)Q Y Y Q u Y-=-表10.3和表10.4分别给出了不同的0Q 与u 时总体总和与均值估计的相对偏差。
表10.3 总和估计中的相对偏差在实际调查中,如果将那些被选入样本的非目标总体单元剔除,而以样本中剩余的属目标总 体单元的资料进行估计,由于减少了样本容量则会使估计的误差增大。
令: i Y 若i 是目标总体单元 i Y '= 0 否则则总体总和估计为ˆmi iM YY m'=∑此时有222000ˆ()[(1)(1)]y M V Y Q S Q Q Y m=-+- 其中221()1TM y i T iS Y Y M =--∑ 同完善的抽样框(即00Q =)相比,包含非目标总体单元抽样框使得估计误差增大222000[(1)]y M Q Q Y Q S m-- (三)复合联接的影响对于复合联接的影响问题,Kiranandana 曾于1976年进行过研究。
如果抽样框中没有丢失单元也不包括非目标总体单元,同时也没有将抽样框作分层处理,即假定:00N =, 00M =,1i N =, 目标总体单元与抽样总体单元正确联接,*0i N = 没有目标总体单元与抽样总体单元的错误联接,以及j M ≥1, 有一个以上的抽样总体单元同一个目标总体单元联接(复合联接),*0j M = 不存在错误的复合联接,则抽样框中的单元数目j jM M =∑大于目标总体中的单元数目。
假定j M 的最大值是Γ,则j M 的范围是从1到Γ。
令r T 表示当j M =r(r=1,2,…Γ)时目标总体单元的数量,则目标总体单元的总数为1rr r N T ==∑,抽样总体单元总数为rr rM rT =∑于是有221()1rT yri r i S Y Y Tr =--∑, 21()rT i r r iY Y T ≈-∑ 令/r r a T N =,则222[()]y r yr r rrS a S Y Y ≈+-∑又设Y r 为具有复合联接r 次的那些单元观测值之和,即rT r i iY Y =∑,则存在复合联接的抽样总体观测值总和为F r rrY rY =∑.而目标总体的观测值总和为r rrY Y =∑.现从M 个抽样总体单元随机抽取m 个单元组成样本,如果对复合联接不作调整,则总和估计的偏差为(1)F r rrY Y r Y -=-∑,相对偏差为(1)r rrr rrrr a Yra Y-∑∑,在均值r Y 均相等时,相对偏差则简化为:M NN-. 在估计总体均值时,由于1mF i iy Y m =∑,估计量的偏差为1()F r rrr Y Y Y M N-=-∑ 当所有的r Y 都相等时,偏差则为0。
估计量的相对偏差是相对偏差()1rrF r rrrrTrYy rM a Y =-∑∑.(四)不正确的辅助信息的影响抽样框中不正确的辅助信息会降低调查估计的精确度。
Szameitat 和Schaffer 曾于1963年对分层抽样中使用不正确的辅助信息所造成的影响进行过专门的研究。
设依据辅助变量的信息,将总体分成L 层,用简单随机不放回方式抽选出一个样本,对目标总体第q 个部分的总和q Y 进行估计。
令 ,qh N +为q 部分中目标单元的数量, qh N 为q 中被正确归入h 的单元数,*qh N 为q 中被不正确归入h 的单元数,h N +为h 层中单元总数,则*,qh qh qh N N N +=+.又设目标单元与抽样单元是一对一联接,且令hi Y 若抽样单元是q 中的目标单元,hi Y '= 0,否则. 则hn h hi iY Y ''=∑于是q 部分的总和q Y 的估计量为,ˆh Lh h hN YY n +'=∑, 其方差为2,22,,,,1ˆ()(1)()h Lh h gh gh gh qyh gh h h h h hn N N N N V Y S Y N n N N N +++++-=-+⋅∑.三、抽样框误差的补救根据前面的分析可以看出,当抽样框不完善时常会给抽样估计产生程度不同的影响,但在实际中取得一个好的抽样框又可能十分困难,我们常常不得不面对各种有缺陷的抽样框。
但这并不等于说我们就只能使用这种不完善的抽样框,事实上可以有多种办法用来对抽样框误差进行调整和补救。
(一)丢失单元抽样框的补救基本思路有两条:一是想办法将丢失的目标总体单元纳入到不完善的抽样框中,二是对产生于不完善抽样框的数据进行调整。
具体方法有: (1)对丢失单元实行联接。
当在调查过程中能够查明丢失单元时,在调查前可以确定某种规则,将丢失单元同抽样总体中的单元联接起来,以便将查明的丢失单元纳入到不完善的抽样框中,并赋于其与抽样总体相同的抽选概率。
(2)采用辅助抽样框。
即将查明的丢失单元单独编制成一个辅助抽样框,并同原抽样框一起使用。
(3)利用有关资料进行推算。
通过分析丢失单元的特征,尤其将丢失单元同抽样总体单元进行比较,结合其它一些资料,则可以大致对丢失单元的统计特征性作出一个估计或判断,并以其对实际调查的结果进行调整的基础上作出估计,这样也可以减弱丢失单元造成影响。
(4)用复查结果调整。
也就是采用核查和质量检查的方式,查明丢失单元的影响程度,并做为对原调查结果调整的依据。
这种方法在我国的农产量调查中得到应用,在那里,抽样是依据上报面积进行,而在推算过程中是以核实面积调整上报面积(具体是用核实系数),又以丈量面积调整核实面积。
(二)其它类型不完善抽样框的补救对于包含非目标总体单元的抽样框的补救,可以利用有关信息来进行调整,也可以通过对抽样框进行质量检查的方法以查明和剔除非目标总体单元。