第十一章 调查中的非抽样误差讲解

合集下载

第十一章非抽样误差

第十一章非抽样误差
非抽样误差就是由抽样误差以外因素引起的, 因样本观察数据非同质、或残缺、或不真实而产生 的误差。 为了使非抽样误差问题简单化,我们可以按照 抽样调查的过程来考察其来源。
◆抽样方案设计阶段 ◆数据收集阶段 ◆数据处理阶段
第十一章非抽样误差
◆在抽样方案设计阶段,非抽样误差的来源: (1)抽样框的编制与准备不够充分完善; (2)问卷设计不够科学合理。
第十一章非抽样误差
二、抽样框误差的影响
(一)丢失单位的影响
在假定不存在其他原因的抽样框误差时,丢失单位 对抽样效果的影响主要取决于两个方面:丢失单位 的分布特征和丢失单位数所占的比重。其中,对总 体均值的估计只与前者有关,而对总体总值的估计 则与两者都有关。
第十一章非抽样误差
(1)丢失单位是目标总体中的一个随机样本,具有 与目标总体相同的期望与方差,则其对总体均值的 估计影响不大,但对总体总值的估计会低估。
第十一章非抽样误差
无回答误差。
(二)无回答的成因
1、遗漏了被调查者; 2、被调查者地址不详; 3、调查内容未达被调查者; 4、被调查者拒绝回答; 5、回答不准确或不知如何回答; 6、忘记回答。
以上各种原因,有的属于客观性,有的则属于主 观性;有的属于有意识,有的则属于无意识;有的 属于调查人员方,第有十一的章则非抽属样于误差被调查者方。
非抽样误差
抽样框误差无回答误差计量误差
其中计量误差包括抽样方案设计阶段有缺陷的问卷设 计、数据收集阶段有错误的调查数据和数据处理阶段 工作上的差错所带来的误差,也就是调查性误差。
第十一章非抽样误差
二、非抽样误差的特点
• 非特有性 :为非抽样调查所特有; • 非一致性 :使抽样估计结果产生偏差 ,并且样本
第十一章非抽样误差

抽样调查-调查中的非抽样误差培训课件PPT课件

抽样调查-调查中的非抽样误差培训课件PPT课件

根据非抽样误差的来源、性质 可分为以下三类:
(1)抽样框误差,即由不完善的抽样框引起的
误差; (2)无回答误差,即由于种种原因没有从被调 查单元获得调查结果,造成调查数据的缺失; (3)计量误差,即所获得的调查数据与其真值 之间不一致造成的误差。
§11.2 抽样框误差
一、概念
抽样调查中的总体有两个: 目标总体—调查研究对象的全体。 抽样总体—从中抽取样本的总体。 (即抽样框) 理想抽样框的标志是目标总体和抽样总 体完全重合。否则抽样框就是不完善的。
●抽样框存在的问题,有些是不容易解决的。 因此抽样框的维护、抽样框使用情况的不断 总结与研讨,对于经常性的调查项目来说是 十分必要的。
●抽样框的不完善并不是不能使用。可以进 行修补、调整。
N1
(3)抽样框误差的影响
设目标总体单元:N
抽样框中单元:N1 抽样框中丢失的单元:N0
N=N1+N0 ■ 总体总量的估计 总体总量的真值是:
W0 (Y1 Y0 ) W0 (1 r)
Y
rW0 (1 W0 )
由上式可以看出,如果丢失单元的均值与
抽样单元的均值相同,即
r
1
,则估计量
Y
是目标变量 Y 的无偏估计。
r 反之,如果 r 1 ,偏倚状况则随着
的变化而变化。
Y
三、不完善抽样框的使用
抽样框不完善并不是不能使用,因为构造一个完 善的抽样框有时是非常困难的。使用不完善抽样框时 若能采用一些补救措施,有助于减小抽样框误差。主 要采用以下三项补救措施:
ቤተ መጻሕፍቲ ባይዱ
N N1 N0
R1
N1 N
, R0
N0 N
则总体均值为: Y R1Y 1 R0Y 0

抽样技术-课件全-抽样技术-第11章全文

抽样技术-课件全-抽样技术-第11章全文
CPS的样本轮换采用的是4—8—4模式,即一个 住户单位在连续的4个月内接受调查,在接下来 的8个月中退出样本,然后再接受连续4个月的调 查,最终退出样本。轮换方案的设计使得具有相 同特征的住户单位替换退出的住户单位。
CPS的样本轮换具有如下主要特征
1.在任何一个月内,都有八分之一的住户单位第一次接受 调查,八分之一的住户单位第二次接受调查,如此下去
2.每个月都有新的样本组代替从样本中永久退出的老样本 组
3.每个月都有一个样本组在8个月的闲置后重新接受调查。 重新接受调查的样本组代替了刚刚退出,进入闲置期的 样本组
4.设计保证了每个样本单元在两个年份的4个相同月份中 接受调查
5.在连续的两个月内,有四分之三的样本是相同的;在连 续的两年中,有二分之一的样本是相同的。
劳动力特征
3. 抽样时以州为总体,因而设计也是以州为总体的设 计
4. 样本量由变异系数CV及可靠性要求所决定 5. 在失业率为6%的自定义下,各州对变异系数的要求 在8%—9%之间。这样就能保证进行全国估计的变异系 数控制在1.8%之内
11.2.2第一阶段的抽样
第一阶段的抽样涉及三个方面的工作。这些工 作是:初级抽样单元(PSU)的界定;将初级抽 样单元PSU分层;PSU的抽选
11.4.5 广义方差(Generalized Variance)
广义方差函数GVF用于产生人口总量x估计值的估计方差。 函数形式为
Var( Xˆ ) aX 2 bX 式中,a和b是用最小二乘法得到的估计参数。该模型的原理是假定x的方差可以表示为简 单随机样本的方差与设计效应(deff)的乘积。设计效应deff是指某一复杂抽样设计相对于
第11章 设计与方法-美国CPS案例
美国人口现状调查(Current Population Survey,简称CPS)被认为是全国性大规模居 民住户抽样调查的典范。

11-第十一章_非抽样误差

11-第十一章_非抽样误差

(
)
(11.3)
这表明此时估计量低估了总体总和。若令 r 为丢失单元指标均值 Y 0 与抽样 框单元指标均值 Y A 之比:
r=
Y0 YA
又 W0 是丢失单元占全部目标总体单元的比重:
3
W0 =
N0 N
则 N A y A 的相对偏倚可表示为:
-
Y0 W0 r =Y W0 r + (1 - W0 )
2
多或多对一的现象。例如在一项入户调查中若目标总体单元系独立的家庭 户, 而抽样框采用的按地区的门牌号, 那么一个家庭也许有两个或两个以上 的住所, 在一个门牌号内也可能住着两户或更多户的家庭。 这种情况称为抽 样框(抽样总体)与目标总体存在着复合连接。 4. 有些复杂抽样框还包含辅助信息(当采用分层抽样、不等概率抽样 以及使用比估计或回归估计等情形) ,如果这些辅助信息不完全或不正确, 不仅不能提高抽样的效率,反而会降低估计的准确性,从而导致误差。 *11.2.2 丢失总体单元引起的抽样框误差 丢失目标总体单元是抽样框误差中影响最为显著而且也较难进行补救 的一种,为此我们对它作稍微深入的研究。 首先我们对丢失目标总体单元引起的误差进行定量分析。 我们主要分析 由此产生的估计量的偏倚。 设目标总体由 N A 个抽样总体单元以及另外 N 0 个没有包含在该抽样总 体的丢失单元组成, N = N A + N 0 ,则总体总和
ˆ (a ) = N y (a ) Y A a A
(11.7)
7
ˆ (ab) = N y (ab) Y A ab A
(11.8)
其中 y A ( a ) 与 y A ( ab) 分别是落在区域 a 与区域 ab 样本观测值的平均数。 类似地根据从框 B 的样本,对区域 b 的总和 Yb 与对区域 ab 的总和 Yab 的估 计分别为:

非抽样误差抽样理论与方法,河南财政学院

非抽样误差抽样理论与方法,河南财政学院

(n
1 1)P2
( m )(1 n
m n
)是V(ˆ
)的无偏估计
A
2021/4/4
30
10.5 计量误差
一、计量误差分类: 设计引起的误差 由调查员引起的误差 由被调查者引起的误差
2021/4/4
31
10.6 离群值的检测和处理
一、 yi离数据中心的相对距离di 法 y1,y2,…,yn是要观测的样本数据 m和s分别是测度数据集中趋势和离散趋势的指标
则相对偏倚可以写为
E(y) Y R0(Y1 Y0 )
Y
Y
2021/4/4
14
1.汉森-赫维茨的再抽样调整 总体均值的估计值
Y
1 n
(n1 y1
n0
y
' 0
)
w1
y1
w0
y
' 0
V(Y)
V1
(y)
E1
(w0
k
n
1
s02
)
1
n
f
S2
W0
k
n
1
S02
S02 为总体中无回答层的方差 k n0
得k的最优值kopt
c0 (S2 W0S02 ) S0(2 c c1W1)
给定V,使C达到最小值,得nopt 2021/4/4
N(S2
(k 1)W0S02 ) NV S2
18
例:第一个样本用邮寄方式取得,预计回答率为50%。希
望达到的精度月容量为1000的简单随机样本(全部回答)
所达到的精度一样。邮寄一张问卷的费用是0.1美元。派
估计分别为:
Yˆ B (b)
Nb nb
yB (b)

市场调查中非抽样误差的产生和控制

市场调查中非抽样误差的产生和控制

市场调查中非抽样误差的产生和控制摘要:非抽样误差直接与市场调查的准备阶段、抽样阶段、问卷设计阶段、实地访问阶段、统计处理阶段等各阶段的工作质量好坏存在密切的关联。

本文在具体分析这些阶段导致非抽样误差产生的工作情形后,提出了科学设计调查方案、重视对调查员的培训和管理、减少被调查者误差和做好调查资料的汇总工作等几方面控制非抽样误差的对策。

关键词:非抽样误差;调查方案;调查员;被调查者一、非抽样误差的产生非抽样误差产生的原因多种多样,尤其在实施调查过程中最为常见。

非抽样误差直接与调查的准备阶段、抽样阶段、问卷设计阶段、实地访问阶段、统计处理阶段等各阶段的工作质量好坏存在密切的关联。

1.准备阶段准备阶段是整个调查的起始阶段,准备阶段的主要任务是:确定调查任务,设计调查方案,组织调查队伍。

调查设计者首先要列出具体研究目标,从而确定所要研究的问题和识别研究的总体,最后明确调查任务并给整个调查活动一个纲领。

具体说来,设计调查方案包括调查指标的设计、调查总体方案的设计和调查方案可行性研究三方面的内容。

在本阶段可能产生误差的工作主要有:(1)调查设计者可能误解了主办者的目的意图,制定了错误方针,误导研究方向。

(2)目标总体与实际的调查总体不一致。

例如,进行电话访谈时,社区周边的居民用户电话号码可能没有列到电话号码簿中,另一些用户可能已经搬迁而导致电话为空号,因此目标总体和被调查总体出现一定的差异。

(3)调查设计者没有事先预先设定好调查的具体步骤和时间表、可能出现的问题以及未事先培训和挑选恰当的调查员,因而导致计量质量的下降。

(4)预算的限定。

任何调查都有费用,市场调查也同样。

并且由于市场调查的主办者一般都是企业,因此费用上的限制就更为明显。

如果资金短缺,只能缩小研究范围或进一步寻求资金。

上述第一点是调查设计者误解调查主办者的目的,这必然导致系统误差,使调查信度和效度下降。

第二点由于空号的原因,造成缺失值误差。

第三点由于没有预先设定调查步骤和很好的培训访问员,即没有制定标准化的市场调查结构,这样也会降低信度。

浅析规模以下抽样调查中的非抽样误差

浅析规模以下抽样调查中的非抽样误差
二 . 夏 西餐 蔓差
由部分推 断总体 ,从而产生 的误差 ,它是可 以事先计算并加 以
控 制 的 。 只 要选 定 了抽 样 方法 ,就 能 根 据 相 应 的公 式 计 算 出误
差值 的大小 。但在经费许可 的范围 内,增加样本容量 、改变抽
样 方 法就 能得 到有 效 的控 制 。 非抽 样 误 差 是 指 抽 样 误 差 以外 所 有误 差 的 总和 , 它是 不 能 够 通 过 数 学 方 法 加 以计 算 和 控 制 的 , 普 遍 存 在 于 各 种 形 式 的调 查 中 ,可 能 发 生 在 从 计 划 、 实 施 ,直
到数 据 处 理 的 每 一 个 调 查 环 节 。 大体 来 说 ,非 抽 样 误 差 主 要 有
三 种 类 型 :抽 样 框 误 差 、 无 回 答 误 差和 计 量误 差 。大 家 知道 , 调 查 质 量 与 抽 样 误 差 和 非 抽 样 误 差 存 在 以 下 关 系 调 查 质 量
般具 有某 类特征 ,如拥 有高收入 等,用这样 的样本对 目标总
类是非抽样误差 ( 也称 工 作 误差 、 登记 误 差 或调 查 误 差 )。
抽 样 误 差 是 由于 调 查 设 计 时 有 意识 地 只研 究 总体 中 的一 部 分 ,
体进行推算会产生偏差。 4不 正 确 的 辅 助 信 息 :复 杂抽 样 框 中 的 辅助 信 息 可 以 用于 . 特 殊 的抽 样 方法 ( 分层 抽 样 和 P S 样 ) 不 同 的 估计 方 法 如 P抽 和 ( 比 率 估 计 和 回 归 估 计 等 )。 如 果辅 助 信 息 不 完 全 或 不 准 如 确 ,会 影 响 估计 的 准 确 度 。 另 外 ,抽 样 框 陈 旧是 导 致 误差 产 生 的 重 要 原 因 , 因为 总 体 单 位 是 动 态 的 ,但 具 体 可 能 包含 上 述 四 种误 差 中 的 一种 或 几 种 ,故 没 有 单 列 为一 类 。

非抽样误差产生的原因及控制.

非抽样误差产生的原因及控制.

非抽样误差产生的原因及控制抽样调查是目前我国搜集统计资料的一种主要方法,但抽样调查的结果始终要受到抽样误差和非抽样误差的影响。

抽样误差是由于样本随机性引起的,根据样本数据计算的对总体目标量的估计是随样本而异的,由此产生的误差即是抽样误差。

抽样误差是不可避免的,其大小可以通过调查样本容量,改变抽样方式等加以控制。

非抽样误差是指除抽样误差以外。

由于各种原因引起的。

非抽样误差由于其产生的原因及其复杂且具有不易观测和非随机性等特点而难以控制。

两种误差构成了总方差,两者之间呈此消彼长的关系。

一般情况下同时减少两类误差是很困难的。

非抽样误差占据了很大的一部分,怎样通过降低非抽样误差,从而降低总方差,有着非常重要的现实意义。

一、非抽样误差分类自1902年K?皮尔逊首次讨论非抽样误差这个概念以来,在非抽样误差的分类上。

主要有以下几种:(一)希里1957年把非抽样误差分为3类:1、范围误差:指由于样本单位的遗漏或重复产生的误差。

2、确定误差:指在资料收集、编辑、编码和计算输入阶段所产生的样本单位特征值的测量误差和回答偏差。

3、替代误差:由于对缺失数据进行替代和(或)在最后估计阶段对缺失数据进行替代所产生的误差。

(二)科克伦把非抽样误差分为3类:1、对被抽选出的样本中的一些单位未能进行计量而产生的误差。

2、一个单位的计量误差。

3、对调查结果进行编辑、编码和汇总过程中产生的误差。

(三)戴伦纽斯1988年把非抽样误差按调查活动分为3类:1、资料搜集过程中产生的误差。

2、测量过程中产生的误差。

3、资料加工过程中产生的误差。

在我国比较常见的分类方式有两种:第一,按性质和处理方法不同分为抽样框误差、无回答误差和计量误差。

第二,按产生的环节不同分为设计误差、调查误差和汇总误差。

二、各类非抽样误差产生的原因1、调查设计过程中引起的误差设计阶段误差是由于这一阶段某些失误而导致调查结果产生的偏误,调查设计有两个主要环节,即调查设计和抽样设计。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Y0 N0 r ,W0 Y1 N
(一)丢失目标总体单元时的影响

则估计Y的相对偏倚为:
Y0 rW0 Y rW0 (1 W0 )

则均值的相对偏倚为:
W0 (Y1 Y0 ) W0 (1 r ) Y rW0 1 W0


由此可见,相对便宜取决于r和W0两个因素。 当r=1是,均值估计量是无偏的。
第十一章 调查中的非抽 样误差
1、误差的来源及特点 2、抽样框误差 3、无回答误差 4、计量误差
为什么要研究误差?




数据的准确性与可靠性是抽样调查的生命 力之所在。 换言之,一次抽样调查是够成功的关键是 选取的样本能否很好地代表总体,样本和 总体之间的差异有多大。 如果不考虑样本的代表性和误差,很可能 会得出错误的结论。 如美国选举前的调查。
考察抽样框误差的成因,大致有 以下几个方面:

(1)丢失目标总体单元。在此情形下,抽样框 没有能够覆盖全部目标总体单元,也就是使部 分目标总体单元没有包括在抽样框中,因而也 就没有机会被选入样本。由于存在丢失单元, 使得总体总和的估计偏低,总体均值的估计也 可能会出现偏差。丢失单元是一种威胁性较大 的抽样框误差,具有较强的隐蔽性,不易被发 现。

其中,Y0是非目标总体单元观测值之和,Y是 目标总体总量,Yi为第i单元的观测值。现从抽 样框的M个单元中随机抽取m个单元组成样本, 则 为YF的无偏估计。当用来估计Y时,就会产生 偏差,这表明被高估了。
样本数据误差的来源
误差
抽样误差 由抽样的随 机性造成 非抽样误差
抽样框不完善、无回答、 调查过程的差错、数据 整理过程的差错
抽样误差的特点




在抽样调查中,抽样误差是不可避免的,但是 可以估算出抽样误差的大小; 增大样本量可以减少抽样误差; 选择更适合的抽样方法可有效减小抽样误差, 如分层抽样、多阶段抽样等; 利用辅助变量改进估计方法也可提高估计的精 度,如比估计和回归估计。 预先可知。

(4)不正确的辅助信息。 一般将不包含辅助信息的抽样框称之为简单抽 样框,而将包含辅助信息的抽样框称为复杂抽 样框。复杂抽样框中的辅助信息可以用于分层 抽样、不等概率抽样,以及使用比估计和回归 估计等。如果辅助资料不完全或不正确,则不 但不能提高抽样估计的效率,反而会降低估计 的准确性。

返回
非抽样误差的特点



非抽样误差不随样本量增大而减小 造成估计量有偏,且难以从样本中估计出来, (知道存在,但无法估计出误差的大小); 有些非抽样误差难以识别和测定,(不知道是 不是存在非抽样误差);如班级人数 成因复杂,有社会的、经济的、心里的等多方 面的因素,处理方法复杂,且较困难。
非抽样误差的产生
Y Yi Yi Y1 Y0
i 1 i 1
N1
N0
(一)丢失目标总体单元时的影响


其中Y1为抽样总体总和,Y0为丢失单元总和, Yi为第i单元的观测值。现从抽样框的N1个单元 中随机抽取n1个单元组成样本,则 N1 y1 是Y1的 无偏估计。当估计Y时,结果就会出现偏差, 偏差为- Y0。 如果以r表示丢失单元与抽样框中单元的均值 之比,又以W0表示丢失单元占全部目标总体 单元的比重。

1、调查及抽样设计阶段

问卷设计:词汇、问题能导致多种理解 抽样框不完善 无回答:没有填写 信息不真实:没有填对

2、数据采集阶段


3、数据处理与分析阶段

审核、整理、录入时出错 估计方法不当:抽样方法必须和估计方法一致。
NEXT
问卷设计阶段可能出现的问题

您是否认为使用电脑数字技术制作的广告 更具有吸引力?

(5)抽样框陈旧。 有时由于构成抽样框的抽样单元资料“老化”, 抽样框所提供的信息与现实情况差距较大,也 会导致抽样框误差。并且这类误差也可能进一 步引起前面四类抽样框误差中的一种或几种同 时发生。 比如,以2000年的人口普查资料作为抽样框。
二、抽样框误差的确定


(一)丢失目标总体单元时的影响 前已指出,丢失目标总体单元是抽样框 误差中威胁最为严重的一种。现设目标 总体是由N1个抽样总体单元及另外N0个 没有包含在抽样框中的单元(即丢失单元) 组成,即N=N1+N0,则总体总和应为:

(2)包含非目标总体单元。 有时,抽样框中也可能包含了一些不属于研究 对象总体即非目标总体的单元,由此容易导致 总体总和的估计偏高。但这种类型的抽样框误 差一般要比丢失单元的威胁性小。因为在调查 中,非目标总体单元往往更容易被发现,并予 以剔除。常可能会遇到这种情况:抽样框中 的单元与目标总体单元不完全为一一对应, 而是一对多或多对一,即存在复合联接。 在这种情形下,目标总体中各个单元的入 样概率可能会受到相应的影响,从而导致 非抽样误差的扩大。但是,有时候采用经 过精心设计的有复合联接的抽样框可以提 高稀有元素被抽中的概率。 比如:一个门牌号内有几户人家,或一个 家庭有几处住房。
总体总和估计偏倚
总体均值估计偏倚
(二)包含非目标总单元时的影响

如果以M0表示抽样框中所含非目标总体单元数, MT表示抽样框中所含目标总体单元数,则抽 样框所含全部单元数M=MT+M0,在抽样框中不 存在丢失单元,也没有复合联接时MT=N,则 抽样总体总和可表示为
(二)包含非目标总单元时的影响
美国选举案例




谁会在1936选举中获胜 ?Alf London还是 F.D.R.(罗斯福)? Literary Digest (文摘)送出一千万份问卷(返 回二百四十万份)后,预测London 会赢。 而Gallop(盖洛普)只问了5000人说 Roosevelt (罗斯福)会赢。 最后罗斯福和盖洛普都赢了。文摘倒闭了。
人们认为长虹牌彩电质量不错,你觉得怎么样 ? 您觉得产品的包装不好看吗?


返回
抽样框不完善
抽 样 框
目标总体
抽样框
抽 样 框
返回
抽样框误差及其控制

一、抽样框误差的产生 抽样框是有关总体全部单元的名录或地图等的 框架,是抽取样本单元的依据。理想的抽样框 (也称抽样总体)应该同所研究现象的总体(也即 目标总体)一致,但在实践中,抽样总体与目 标总体常常不一致,由此产生的误差就是抽样 框误差。
相关文档
最新文档