第十章非抽样误差及其控制
采样误差和非抽样误差的区别与处理

采样误差和非抽样误差的区别与处理在统计学中,我们经常会遇到两种类型的误差,即采样误差和非抽样误差。
这两种误差在数据分析和研究中起着重要的作用,正确地理解它们的区别,并采取相应的处理方法,对于保证研究的准确性和可靠性至关重要。
首先,我们来了解一下采样误差。
采样误差是由于从总体中选择样本而引入的误差。
当我们进行抽样调查或实验时,往往无法对整个总体进行研究,而只能从中抽取一部分样本进行研究。
由于样本的选择是随机的,因此样本与总体之间会存在差异。
这种差异就是采样误差。
采样误差的大小取决于多个因素,包括样本容量、样本选择方法和总体特征等。
通常情况下,样本容量越大,采样误差越小,因为大样本更能代表总体的特征。
此外,合理选择样本的方法也可以降低采样误差的大小。
例如,使用简单随机抽样、分层抽样或系统抽样等方法,可以确保样本具有代表性。
然而,除了采样误差之外,我们还需要考虑非抽样误差。
非抽样误差是指除了采样过程中引入的误差之外的其他误差来源。
这些误差可能来自于调查设计、数据收集、数据处理和数据分析等环节。
非抽样误差的存在可能导致结果的偏差和不准确性。
非抽样误差的处理需要根据具体情况进行。
首先,我们应该在研究设计阶段尽可能减少非抽样误差的产生。
合理设计调查问卷、合理选择调查对象和采用标准化的数据收集方法,都可以降低非抽样误差的大小。
其次,在数据处理和分析过程中,我们需要注意非抽样误差的影响,并采取相应的纠正措施。
例如,通过加权处理或使用回归分析等方法,可以对非抽样误差进行修正。
此外,我们还可以利用多种方法来评估和控制非抽样误差。
例如,通过进行重复测量或使用多个独立的数据源,可以检验结果的一致性和可靠性。
同时,我们还可以进行敏感性分析,评估不同的假设和方法对结果的影响。
这样可以帮助我们更好地理解非抽样误差的影响,并采取相应的措施进行处理。
总结起来,采样误差和非抽样误差是统计学中常见的两种误差类型。
采样误差是由于样本选择过程引入的误差,可以通过增加样本容量和合理选择样本方法进行减小。
第10章 非抽样误差

如果令 R1 = =1,总体中回答层与无回答层的均值分 别为 Y 1和 Y 0,样本中回答层的均值为 y1,那 么当以 y1来估计总体均值 Y 时,就会有偏 差为: E(y1)- Y = Y 1 - Y = Y 1 -(R1Y 1 +R 0 Y 0 ) = R 0( Y 1 -Y 0 )
N1 R N 为总体回答率, 1 + R 0
二、非抽样误差的特点
• 非特有性 :为非抽样调查所特有; • 非一致性 :使抽样估计结果产生偏差 ,并 且样本越大产生偏差的可能性越大; • 难测定性 :难以对其进行描述和测定,具 有很强的隐蔽性; • 难评价性 :非抽样误差的存在使得对抽样 效果的评价与衡量复杂化; • 全过程性 :存在于抽样调查的所有阶段。
4.加权调整法
这种方法是通过一定的权数对调查中 的回答数据进行加权来达到对数据进行调 整、减少因无回答造成的估计偏差的目的。 权数由调查中的回答概率来确定,一般是 该概率的倒数。即回答概率大的赋予较小 的权,回答概率小的赋予较大的权,从而 使估计量的偏差得到一些纠正。具体的加 权调整法又有 Politz Simmons调整法、加 权组调整法和事后分层调整法等。
Chap10 nonsampling error
一、非抽样误差的来源
非抽样误差就是由抽样误差以外因素引起的, 因样本观察数据非同质、或残缺、或不真实而产 生的误差。 为了使非抽样误差问题简单化,我们可以按 照抽样调查的过程来考察其来源。 ◆抽样方案设计阶段 ◆数据收集阶段 ◆数据处理阶段
• 抽样误差与非抽样误差 • 非抽样误差的特点
二、无回答误差的统计影响
• 导致估计量估计偏差
若无回答者与回答者在调查项目的数量特征上存在差异,这种无回答 就会导致无回答偏差
第十章(非抽样误差)

西蒙斯随机化回答模型
沃纳模型中随机化回答的两个问题是同一敏感问题的两个方面,有些被 调查者仍可能有疑虑不肯合作,而且从精度方面考虑,当P与0.5很接近 时,方差大,而太远,增加了疑虑。所以西蒙斯(W.R.Simmons)进行了 改进,将第二个问题改为与所要调查的敏感性问题完全无关的另一个 非敏感性问题。西蒙斯随机化回答模型中两个问题一般表述为: I 你具有特征A吗? II 你具有特征B吗? 其中特征A为敏感性问题,特征B为无关问题。需要估计的是特征A的比例, 特征B的比例为在设计时要求已知。两个问题在随机化过程中出现的比例 仍假设为P: (1-P),其中P为已知。 仍以调查考试作弊为例,两问题的设置
• 例:某电影公司调查学生每月看电影的次 数,随机抽取了1000人, • 进行问卷调查,其中800人作了回答,回答 的均值为2.5;若对无回答 • 的200人中,又随机抽取了50人进行面访, 结果这50人的平均每月看 • 电影次数为1.2次,求偏倚的估计值。
此例指出了调整无回答误差的一个途径。即可通过多次访问。
2.
3.
根据非抽样误差的来源、性质和处理方法不 同常分为以下三类: (1)抽样框误差 (2)无回答误差 (3)计量误差
抽样框误差
抽样框:一份包含全部抽样单元的清单或图示 ( 抽样框是用来抽取抽样单元的依据。) 目标总体:希望从中获取信息的总体 调查总体(抽样总体):实际调查所覆盖的总体。
理想状态下,两个总体应该完全一致。调查总体与目标总体 一般不完全相同。因此就产生了抽样框误差。主要如下
若用Ny1估计总体总和,偏倚为 E ( Ny1 ) Y NR0 (Y1 Y0 ) 以上两种估计量的相对偏倚都是 R0 (Y1 Y0 ) / Y
根据以上分析,无回答的偏倚大小由两方面决定。一为回答率,二为 回答层与无回答层均值的差异。无论何种情况,降低无回答率对于减 少估计量的偏倚是重要的。
市场调查中非抽样误差的产生和控制

市场调查中非抽样误差的产生和控制摘要:非抽样误差直接与市场调查的准备阶段、抽样阶段、问卷设计阶段、实地访问阶段、统计处理阶段等各阶段的工作质量好坏存在密切的关联。
本文在具体分析这些阶段导致非抽样误差产生的工作情形后,提出了科学设计调查方案、重视对调查员的培训和管理、减少被调查者误差和做好调查资料的汇总工作等几方面控制非抽样误差的对策。
关键词:非抽样误差;调查方案;调查员;被调查者一、非抽样误差的产生非抽样误差产生的原因多种多样,尤其在实施调查过程中最为常见。
非抽样误差直接与调查的准备阶段、抽样阶段、问卷设计阶段、实地访问阶段、统计处理阶段等各阶段的工作质量好坏存在密切的关联。
1.准备阶段准备阶段是整个调查的起始阶段,准备阶段的主要任务是:确定调查任务,设计调查方案,组织调查队伍。
调查设计者首先要列出具体研究目标,从而确定所要研究的问题和识别研究的总体,最后明确调查任务并给整个调查活动一个纲领。
具体说来,设计调查方案包括调查指标的设计、调查总体方案的设计和调查方案可行性研究三方面的内容。
在本阶段可能产生误差的工作主要有:(1)调查设计者可能误解了主办者的目的意图,制定了错误方针,误导研究方向。
(2)目标总体与实际的调查总体不一致。
例如,进行电话访谈时,社区周边的居民用户电话号码可能没有列到电话号码簿中,另一些用户可能已经搬迁而导致电话为空号,因此目标总体和被调查总体出现一定的差异。
(3)调查设计者没有事先预先设定好调查的具体步骤和时间表、可能出现的问题以及未事先培训和挑选恰当的调查员,因而导致计量质量的下降。
(4)预算的限定。
任何调查都有费用,市场调查也同样。
并且由于市场调查的主办者一般都是企业,因此费用上的限制就更为明显。
如果资金短缺,只能缩小研究范围或进一步寻求资金。
上述第一点是调查设计者误解调查主办者的目的,这必然导致系统误差,使调查信度和效度下降。
第二点由于空号的原因,造成缺失值误差。
第三点由于没有预先设定调查步骤和很好的培训访问员,即没有制定标准化的市场调查结构,这样也会降低信度。
第十章 非抽样误差(抽样理论与方法,河南财政学院)

费用函数为
c 0n 0 cn c1n1 k c是进行第一次调查,每个样本单元的平均费用 c1 是对第一次调查作出回答的问卷进行数据处理的费用 c 0 是进行第二次调查并对问卷进行数据处理的费用
c 0 W0n 则平均总费用 C T cn c1 W1n k c 0 W0n (c c1 W1 )n k
10.4 敏感性问题调查 与随机化回答技术
一、 敏感性问题: 指所调查的内容涉及私人机密而不愿或不便于公开 表态或陈述的问题。
河南财经学院
二、沃纳随机化回答模型 例:某大学欲调查本科生考试作弊现象。从本科生中抽取 100个学生进行调查。在一个密闭容器中有完全相同的 三个球,其中有2个红球,1个白球。抽中红球就回答问 题1,抽中白球就回答问题2。设计的问题为:
1 ' ' Y (n 1 y 1 n 0 y 0 ) w 1 y 1 w 0 y 0 n
V( Y) V1 ( y ) E1 ( w 0
S0
2
k 1 2 1 f 2 k 1 2 s0 ) S W0 S0 n n n
为总体中无回答层的方差
n0 k m
河南财经学院
2
2
给定V,使C达到最小值,得 n opt 河南财经学院
例:第一个样本用邮寄方式取得,预计回答率为50%。希望 达到的精度月容量为1000的简单随机样本(全部回答) 所达到的精度一样。邮寄一张问卷的费用是0.1美元。派 人作一次上门调查的费用为4.10美元。应当寄出多少份 问卷?对不回答者派人上门调查 的百分比试多少?(假 定 S 2 S 0 2 ,且N很大) 解: c 0.1,c 0.4,c 4.5,S 2 S 2
河南财经学院
非抽样误差与现场数据收集质量控制

4. 实时监控与反馈
在数据收集过程中实时监控数据质量,并在发现问题时及时反馈给调查员,以便他们进 行调整和修正。
案例二:数据收集质量控制的实践经验
1 2
5. 事后审核与清理
在数据收集完成后,进行事后审核和清理工作, 以识别并修正潜在的错误和不一致之处。
03
02
定期评估与反馈
对收集到的数据进行定期评估,及 时发现并纠正误差。
建立纠错机制
建立数据纠错机制,对已发现的误 差进行修正和追溯。
04
05 案例分析与实践
案例一:现场数据收集中的非抽样误差分析
总结词
现场数据收集中的非抽样误差分析
VS
详细描述
在现场数据收集过程中,非抽样误差是一 个常见的问题。非抽样误差通常是由于调 查设计、样本选择、数据采集和编码等方 面的错误或缺陷所引起的。这些误差可能 导致数据失真,影响分析结果的准确性和 可靠性。因此,对非抽样误差进行识别、 评估和控制是数据收集质量控制的重要环 节。
在相同的受访者群体上重复进行调查,比较两次调查结果 的一致性程度。通过计算重测信度系数,可以评估非抽样 误差的大小和控制效果。
详细描述
为了评估非抽样误差控制的实际效果,可以采用以下几种 方法进行评估
1. 对比验证
通过与其他已知效度高的调查数据进行对比,验证新方法 的准确性。例如,可以将新方法的数据与传统的现场调查 数据进行对比,观察是否存在显著差异。
非抽样误差与现场数据收集质量控 制
contents
目录
• 非抽样误差概述 • 现场数据收集方法 • 数据收集质量控制 • 非抽样误差的识别与控制 • 案例分析与实践
10非抽样误差及其控制

? 子样本轮换是从总体中抽出若干套子样本, 每次调查一定数量的子样本,逐次轮换其中 的部分子样本。
? 子样本轮换实际上就是每次采用交叉子样本, 它不仅能有效地减少和控制估计偏差,而且 由于每个交叉子样本都能代表总体,即使有 的子样本资料搜集不到,也可用其他的子样 本甚至一个子样本来推断总体。同时,用交 叉子样本还可以考察非抽样误差发生的程度。 因此,在三种样本轮换方法中,子样本轮换 是比较好的一种方法。
值;二是一些回答单元的数据会被多次使用。因此, 作为改进,一方面可以将回答单元融合在一起构成一 个完整的回答单元集,并以其作为替代单元集,当出 现无回答时,在替代单元集中随机抽选回答单元数据 进行替代(或称插补),另一方面,可以允许多重替代, 但要对每个回答单元数据用于替代的次数加以控制。 使用“热卡”方法的一种更为简便的情形是,以回答 单元数据的平均值代替缺失值。“热卡”方法实质上 只是使资料看起来是完整的,这样便于运用统计方法 进行运算处理和分析研究,但这种替代的数据对统计 分析的结果并不产生影响。
? “冷卡”方法是用来自其他调查或过去调查的资料 作为当前调查中缺失数据的替代。这种方法在周期 性调查中是很有用的,因为在这种情况下,可以用 前一期的调查数据替代目前调查的缺失值。
? “热卡”方法是对调查中发现的项目缺失值,用按一 定准则选出的、同一调查中与无回答单元具有相似性 的回答单元的数值进行替代。当然,这可能会引出两 个问题:一是一些回答单元的数据没有机会成为替代
? 二、无回答的控制
? 为了减少无回答的数量,缩小无回答的影响,我们 需要进一步讨论控制无回答的措施。
? 控制无回答可以采取一些预防性的措施,比如:在 问卷设计中注意问题用词的选择,问题的排列顺序, 说明词的制作等,精心选择调查实施的时间,精心 选择培训调查员,确定准确的调查方位,给被调查 者适当的物质奖励,向被调查者预先通知,事后提 醒、催促等,这些都可能会产生程度不同的影响。
非抽样误差产生的原因及控制.

非抽样误差产生的原因及控制抽样调查是目前我国搜集统计资料的一种主要方法,但抽样调查的结果始终要受到抽样误差和非抽样误差的影响。
抽样误差是由于样本随机性引起的,根据样本数据计算的对总体目标量的估计是随样本而异的,由此产生的误差即是抽样误差。
抽样误差是不可避免的,其大小可以通过调查样本容量,改变抽样方式等加以控制。
非抽样误差是指除抽样误差以外。
由于各种原因引起的。
非抽样误差由于其产生的原因及其复杂且具有不易观测和非随机性等特点而难以控制。
两种误差构成了总方差,两者之间呈此消彼长的关系。
一般情况下同时减少两类误差是很困难的。
非抽样误差占据了很大的一部分,怎样通过降低非抽样误差,从而降低总方差,有着非常重要的现实意义。
一、非抽样误差分类自1902年K?皮尔逊首次讨论非抽样误差这个概念以来,在非抽样误差的分类上。
主要有以下几种:(一)希里1957年把非抽样误差分为3类:1、范围误差:指由于样本单位的遗漏或重复产生的误差。
2、确定误差:指在资料收集、编辑、编码和计算输入阶段所产生的样本单位特征值的测量误差和回答偏差。
3、替代误差:由于对缺失数据进行替代和(或)在最后估计阶段对缺失数据进行替代所产生的误差。
(二)科克伦把非抽样误差分为3类:1、对被抽选出的样本中的一些单位未能进行计量而产生的误差。
2、一个单位的计量误差。
3、对调查结果进行编辑、编码和汇总过程中产生的误差。
(三)戴伦纽斯1988年把非抽样误差按调查活动分为3类:1、资料搜集过程中产生的误差。
2、测量过程中产生的误差。
3、资料加工过程中产生的误差。
在我国比较常见的分类方式有两种:第一,按性质和处理方法不同分为抽样框误差、无回答误差和计量误差。
第二,按产生的环节不同分为设计误差、调查误差和汇总误差。
二、各类非抽样误差产生的原因1、调查设计过程中引起的误差设计阶段误差是由于这一阶段某些失误而导致调查结果产生的偏误,调查设计有两个主要环节,即调查设计和抽样设计。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
PPT文档演模板
第十章非抽样误差及其控制
¡ 另一方面,在经常性抽样调查中,不论调查 对象是人或者物,如果样本使用时间过长, 必然会使调查资料的提供者产生厌烦心理。 因此,除非他们具有较高的思想境界和受到 强有力的物质刺激,否则,一般情况下他们 可能表现为:或者不愿意继续配合调查,或 者有意无意地提供一些不完全正确的资料, 或者形成一种回答问题的思维定势,等等。 从而造成调查质量下降,使非抽样误差进一 步加大。因此,作为对全新样本和固定样本 的折衷,就引出样本轮换的问题。
PPT文档演模板
第十章非抽样误差及其控制
3rew
演讲完毕,谢谢听讲!
再见,see you again
PPT文档演模板
2020/11/28
第十章非抽样误差及其控制
¡ 二、调查误差的控制
¡ (一)随机子抽样方法 ¡ (二)交叉子样本方法 ¡ (三)数值异常情况
PPT文档演模板
第十章非抽样误差及其控制
第三节 无回答及其控制
¡ 一、无回答及其影响
¡ “无回答”是指被抽中的一些样本单元未能计量, 也即发生计算遗漏。具体可归纳为几种类型:一 是遗漏。某些样本单元找不到,或由于一些客观 原因而无法找到,或由于调查员自身的某些原因 而没有找到等。二是不在家。如果调查项目涉及 到人,在调查中可能碰巧遇到被调查者不在家或 某个事先确定地点的情形,由此会引起无回答现 象。三是不能回答。被调查者对所调查的问题由 于缺少资料或了解不多而无法回答或无法完整回 答。四是拒绝回答。
PPT文档演模板
第十章非抽样误差及其控制
¡ 四、缺失数据的处理
¡ 实际中,可能还会遇到项目无回答(即缺失数据)的 问题,从而影响调查结果的系统性和完整性,给进 一步的统计分析带来一系列麻烦,因此,有必要对 缺失数据的处理问题作一些讨论。
¡ 缺失数据的弥补主要是采用插值法,一般分成“冷 卡”(Cold—deck)法和“热卡”(Hot—deck)法。
于三个因素:调查总体发生变化的速度;被调查 者对重复调查在时间和次数上的心理接受程度; 以及调查费用、抽样精度、工作难易等的允许程 度。由于不同的经常性抽样调查有不同的调查总 体、不同的被调查者和不同的精度要求,这就使 得要从理论上给出一个考虑所有影响因素的样本 轮换率是比较困难的。
PPT文档演模板
PPT文档演模板
第十章非为了减少无回答的数量,缩小无回答的影响,我们 需要进一步讨论控制无回答的措施。
¡ 控制无回答可以采取一些预防性的措施,比如:在 问卷设计中注意问题用词的选择,问题的排列顺序, 说明词的制作等,精心选择调查实施的时间,精心 选择培训调查员,确定准确的调查方位,给被调查 者适当的物质奖励,向被调查者预先通知,事后提 醒、催促等,这些都可能会产生程度不同的影响。
PPT文档演模板
第十章非抽样误差及其控制
¡ 二、抽样框误差的确定 ¡ (一)丢失目标总体单元时的影响 ¡ (二)包含非目标总单元时的影响 ¡ (三)复合联接的影响 ¡ (四)不正确的辅助信息的影响 ¡ 三、抽样框误差的补救 ¡ (一)丢失单元抽样框的补救 ¡ 基本思路有两条:一是想办法将丢失的目标总体
10第十章非抽样误差及 其控制
PPT文档演模板
2020/11/28
第十章非抽样误差及其控制
¡ 第一节 ¡ 第二节 ¡ 第三节 ¡ 第四节
抽样框误差及控制 调查误差及控制 无回答及其控制 样本轮换的理论与方法
PPT文档演模板
第十章非抽样误差及其控制
第一节 抽样框误差及其控制
¡ 一、抽样框误差的产生 ¡ 抽样框是有关总体全部单元的名录或地图等的框
PPT文档演模板
第十章非抽样误差及其控制
¡ 如果无回答层和回答层在所研究标志方面 没有显著差异,则无回答的影响不大。但 如果无回答层与回答层存在显著差异(大 多数情况下是这样),则由于无回答层没 有提供样本数据,而在估计总体参数时会 产生较大的影响。其最重要的后果是:(1) 估计量可能成为有偏的,因为样本中没有 调查到的部分可能与被调查到的部分显著 不同;(2)由于实际调查到的样本比目标 样本小,所以估计误差就可能会增大。
PPT文档演模板
第十章非抽样误差及其控制
¡ 二、样本轮换方法 ¡ 样本换换的方法主要有三种:随机轮换、等
距轮换和子样本轮换。 ¡ 随机轮换是在进行轮换时按确定的轮换比例,
从原有样本中随机抽出若干单元不再调查, 而从其余未包括在样本中的总体单元中抽取 相同数目的单元来代替。 ¡ 等距轮换是在总体抽样框中确定出各个等距 抽样的样本,在各次调查中,按相应位置的 等距样本单元进行轮换。我国农村住户调查 就是采用这种轮换方式。
第十章非抽样误差及其控制
¡ 确定样本轮换率的一般指导原则是:如果 调查总体变化的速度较快,被调查者对重 复调查在时间和次数上的心理接受程度较 低,并且调查费用比较宽松,则样本轮换 率应该高一些。反之,则样本轮换率可以 低一些。
¡ 在不考虑费用的条件下确定最佳样本轮换 率的基本思路是使估计量的方差达到最小。
PPT文档演模板
第十章非抽样误差及其控制
¡ 其次,在正式开始调查前,应允许被调查者检 查卡片,了解调查员的记录方式,使其相信这 种方法不带欺诈的成份。
¡ 最后,在使用西蒙斯模型时,要注意选择与敏 感性问题无关的非敏感性问题作为问题B,同时 非敏感性问题应尽量简单,以方便被调查者的 回答。
¡ 此外,要指出的是,随机化回答技术只适用于 解决二项问题(即是非问题)的回答,而对数值 型敏感问题不起作用。
PPT文档演模板
第十章非抽样误差及其控制
第二节 调查误差及其控制
¡ 一、调查误差及其影响
¡ 在调查工作过程中,由于测量工具的不准确,调 查员的某些工作失误(如计量错误、计算错误、 记录错误等),以及由于被调查者没有提供真实 情况等因素影响,常使调查结果的准确性受到损 害,产生一定的误差,这类误差就是调查误差, 也称之为登记性误差。
架,是抽取样本单元的依据。理想的抽样框(也 称抽样总体)应该同所研究现象的总体(也即目标 总体)一致,但在实践中,抽样总体与目标总体 常常不一致,由此产生的误差就是抽样框误差。 ¡ 考察抽样框误差的成因,大致有以下几个方面: ¡ (1)丢失目标总体单元。 ¡ (2)包含非目标总体单元。 ¡ (3)复合联接。 ¡ (4)不正确的辅助信息。 ¡ (5)抽样框陈旧。
¡ 对于调查过程中产生的无回答,可以考虑采取
¡ 多次访问;抽子样本;替换。
PPT文档演模板
第十章非抽样误差及其控制
¡ 三、敏感性问题的调查 ¡ (一)沃纳随机化回答模型 ¡ (二)西蒙斯改进随机化回答模型 ¡ (三)使用随机化回答技术应注意的问题 ¡ 提出随机化回答方法,目的是减少或消除被调查者
在回答敏感性问题时可能存在的疑虑,与调查员充 分合作,完成对敏感性问题的调查。在具体使用这 种方法时应注意以下几个问题: ¡ 首先,要求调查员能充分理解这种方法,这样才能 很好地向被调查者解释清楚,使他们相信,调查人 员无法根据他们的回答,判断他们是否具有某种特 征,唯有如此,才能达到消除被调查者的顾虑,取 得好的调查效果的目的。
PPT文档演模板
第十章非抽样误差及其控制
第四节 样本轮换的理论与方法
¡ 一、样本轮换的意义
¡ 在经常性抽样调查中不可避免地会遇到这样的 问题:每次调查的样本应如何形成?是用固定样 本还是全新样本好呢?全新样本能增强对现期总 体的代表性,但抽取和调查新的样本单元会比 调查老单元费时、费力,且费用高;而采用固 定样本虽可以相对节省人、财、物,所得资料 的可比性也比较强,但由于实际总体常常是随 着时间的推移而变化的,因此,样本长期固定 不变就不再对变化了的总体具有代表性,或其 代表性会降低,也不能被看作是从现期总体中 抽出的随机样本。
单元纳入到不完善的抽样框中,二是对产生于不 完善抽样框的数据进行调整。具体方法有:
PPT文档演模板
第十章非抽样误差及其控制
¡ (1)对丢失单元实行联接;(2)采用辅助抽样框; (3)利用有关资料进行推算;(4)用复查结果调整。
¡ (二)其它类型不完善抽样框的补救 ¡ 三、最佳样本轮换的确定 ¡ 在调查目的既定的条件下,样本轮换率主要取决
¡ “冷卡”方法是用来自其他调查或过去调查的资料 作为当前调查中缺失数据的替代。这种方法在周期 性调查中是很有用的,因为在这种情况下,可以用 前一期的调查数据替代目前调查的缺失值。
PPT文档演模板
第十章非抽样误差及其控制
¡ “热卡”方法是对调查中发现的项目缺失值,用按一 定准则选出的、同一调查中与无回答单元具有相似性 的回答单元的数值进行替代。当然,这可能会引出两 个问题:一是一些回答单元的数据没有机会成为替代 值;二是一些回答单元的数据会被多次使用。因此, 作为改进,一方面可以将回答单元融合在一起构成一 个完整的回答单元集,并以其作为替代单元集,当出 现无回答时,在替代单元集中随机抽选回答单元数据 进行替代(或称插补),另一方面,可以允许多重替代, 但要对每个回答单元数据用于替代的次数加以控制。 使用“热卡”方法的一种更为简便的情形是,以回答 单元数据的平均值代替缺失值。“热卡”方法实质上 只是使资料看起来是完整的,这样便于运用统计方法 进行运算处理和分析研究,但这种替代的数据对统计 分析的结果并不产生影响。