抽样调查第11章 调查中的非抽样误差课件
《调查抽样》PPT课件

27
分层抽样的优缺点
优点: 层内差异比较小,样本代表性高,可能得到较高 精度的推断结果 可对各层的特性加以比较
不足: 有时分层不容易划分,增加工作难度.工作量 和费用较大
4. 整群抽样
整群抽样又称聚类抽样、整体抽样,也称集团 抽样,是在当总体的所在基本单位自然组合为或 被划分为若干个群后,从中随机抽取部分群并对 抽中群内全部基本单位进行调查的一种抽样组合 形式。
39
独立控制的定额抽样举例
调查某地居民消费情况,计划抽取样本200 人。先将这些人按年龄、职业和收入特征 分层,再决定配额数量。
在这三层中虽然年龄、职业和收入都有具体规定, 但三者之间的交叉关系没有作规定,如高收入40 人既可以从18~34岁中选取,也可以从35~49岁 中选取,这些都没具体规定,完全由调查者根据 判断来选取。
与分层抽样的比较
同:先分层,后在各层中抽样。 异:分层抽样中各层的子样本是随机抽取 的,而配额抽样中各层的子样本是非随机 抽取的。
37
定额抽样分类
独立控制的定额抽样 相互控制的定额抽样
38
1)独立控制的定额抽样
又称单项特征配额,只对具有某种特征的 样本数规定配额,而对具有两种特征或两 种以上特征的样本数则不作规定。
合计
40
110
43
50
200
一项关于某品牌洗发水的消费者座谈会的抽样
研究对象:18~40岁 的女性,30人
经济
高低
选择“经济收入”和 “发型”为控制特征
收入
配额要求高低收入者 按1:1,烫发和直发按 3:2
依上述要求,设计一 个配额抽样控制表。
发 直发 型
抽样调查-调查中的非抽样误差培训课件PPT课件

根据非抽样误差的来源、性质 可分为以下三类:
(1)抽样框误差,即由不完善的抽样框引起的
误差; (2)无回答误差,即由于种种原因没有从被调 查单元获得调查结果,造成调查数据的缺失; (3)计量误差,即所获得的调查数据与其真值 之间不一致造成的误差。
§11.2 抽样框误差
一、概念
抽样调查中的总体有两个: 目标总体—调查研究对象的全体。 抽样总体—从中抽取样本的总体。 (即抽样框) 理想抽样框的标志是目标总体和抽样总 体完全重合。否则抽样框就是不完善的。
●抽样框存在的问题,有些是不容易解决的。 因此抽样框的维护、抽样框使用情况的不断 总结与研讨,对于经常性的调查项目来说是 十分必要的。
●抽样框的不完善并不是不能使用。可以进 行修补、调整。
N1
(3)抽样框误差的影响
设目标总体单元:N
抽样框中单元:N1 抽样框中丢失的单元:N0
N=N1+N0 ■ 总体总量的估计 总体总量的真值是:
W0 (Y1 Y0 ) W0 (1 r)
Y
rW0 (1 W0 )
由上式可以看出,如果丢失单元的均值与
抽样单元的均值相同,即
r
1
,则估计量
Y
是目标变量 Y 的无偏估计。
r 反之,如果 r 1 ,偏倚状况则随着
的变化而变化。
Y
三、不完善抽样框的使用
抽样框不完善并不是不能使用,因为构造一个完 善的抽样框有时是非常困难的。使用不完善抽样框时 若能采用一些补救措施,有助于减小抽样框误差。主 要采用以下三项补救措施:
ቤተ መጻሕፍቲ ባይዱ
N N1 N0
R1
N1 N
, R0
N0 N
则总体均值为: Y R1Y 1 R0Y 0
《抽样调查》PPT课件

顺序的不重复抽样、不考虑顺序的重复抽样和不考虑顺序的不
重复抽样。
2021/5/27
浙江财经大学
14
2、样本可能数目
1〕考虑顺序的重复抽样
BNn k N n
2〕考虑顺序的不重复抽样
ANn k N (N 1)
(N n 1) N ! (N n)!
3〕不考虑顺序的不重复抽样
CNn
k
N (N 1)
P(1 P) (1 n )
n
N
p(1 p) (1 n )
n
N
现实中,总体标准差往往是未知的,此时采用样本
标准差和样本成数作为总体标准差和总体成数的估计
值。当总体单位总数未知时,那么默认采用重复抽样
的2计021算/5/公27式。假设N,浙未江说财经明大重学 复或不重复抽样,那26
2、抽样平均误差的影响因素:
2021/5/27
浙江财经大学
21
二、抽样平均误差的计算 1、理论公式
第十一章非抽样误差及其控制

第十一章 非抽样误差及其控制数据的准确性与可靠性是抽样调查的生命力之所在。
如前所述,在抽样调查中,除存在抽样误差外,还经常出现一些非抽样误差,主要的非抽样误差产生原因有抽样框不完善、无回答的出现、调查过程的差错以及数据整理登记过程中的差错等。
因此,抽样调查中,不仅要控制抽样误差,而且还要控制非抽样误差。
如何有效地控制非抽样误差,取得准确可靠的数据资料,以及如何对已经取得的数据进行质量评价,一直是抽样调查理论和实践中所经常关注和着力研究解决的重要问题。
第一节 抽样框误差及其控制一、抽样框误差的产生抽样框是有关总体全部单元的名录或地图等的框架,是抽取样本单元的依据。
理想的抽样框(也称抽样总体)应该同所研究现象的总体(也即目标总体)一致,但在实践中,抽样总体与目标总体常常不一致,由此产生的误差就是抽样框误差。
考察抽样框误差的成因,大致有以下几个方面:(1)丢失目标总体单元。
在此情形下,抽样框没有能够覆盖全部目标总体单元,也就是使部分目标总体单元没有包括在抽样框中,因而也就没有机会被选入样本。
由于存在丢失单元,使得总体总和的估计偏低,总体均值的估计也可能会出现偏差。
丢失单元是一种威胁性较大的抽样框误差,具有较强的隐蔽性,不易被发现。
(2)包含非目标总体单元。
有时,抽样框中也可能包含了一些不属于研究对象总体即非目标总体的单元,由此容易导致总体总和的估计偏高。
但这种类型的抽样框误差一般要比丢失单元的威胁性小。
因为在调查中,非目标总体单元往往更容易被发现,并予以剔除。
(3)复合联接。
实践中常可能会遇到这种情况:抽样框中的单元与目标总体单元不完全为一一对应,而是一对多或多对一,即存在复合联接。
在这种情形下,目标总体中各个单元的入样概率可能会受到相应的影响,从而导致非抽样误差的扩大。
但是,有时候采用经过精心设计的有复合联接的抽样框可以提高稀有元素被抽中的概率。
(4)不正确的辅助信息。
一般将不包含辅助信息的抽样框称之为简单抽样框,而将包含辅助信息的抽样框称为复杂抽样框。
抽样技术-课件全-抽样技术-第11章全文

CPS的样本轮换具有如下主要特征
1.在任何一个月内,都有八分之一的住户单位第一次接受 调查,八分之一的住户单位第二次接受调查,如此下去
2.每个月都有新的样本组代替从样本中永久退出的老样本 组
3.每个月都有一个样本组在8个月的闲置后重新接受调查。 重新接受调查的样本组代替了刚刚退出,进入闲置期的 样本组
4.设计保证了每个样本单元在两个年份的4个相同月份中 接受调查
5.在连续的两个月内,有四分之三的样本是相同的;在连 续的两年中,有二分之一的样本是相同的。
劳动力特征
3. 抽样时以州为总体,因而设计也是以州为总体的设 计
4. 样本量由变异系数CV及可靠性要求所决定 5. 在失业率为6%的自定义下,各州对变异系数的要求 在8%—9%之间。这样就能保证进行全国估计的变异系 数控制在1.8%之内
11.2.2第一阶段的抽样
第一阶段的抽样涉及三个方面的工作。这些工 作是:初级抽样单元(PSU)的界定;将初级抽 样单元PSU分层;PSU的抽选
11.4.5 广义方差(Generalized Variance)
广义方差函数GVF用于产生人口总量x估计值的估计方差。 函数形式为
Var( Xˆ ) aX 2 bX 式中,a和b是用最小二乘法得到的估计参数。该模型的原理是假定x的方差可以表示为简 单随机样本的方差与设计效应(deff)的乘积。设计效应deff是指某一复杂抽样设计相对于
第11章 设计与方法-美国CPS案例
美国人口现状调查(Current Population Survey,简称CPS)被认为是全国性大规模居 民住户抽样调查的典范。
非抽样误差(1).pptx

1)R0
10001
1 0.4608
1
0.4
1468
n0 587, n1 881,n0 271
CT 1.0 1468 1.2 881 13.5 271 6183.7(0 元)
(二)加权调整法
一般是:回答率低的赋予大的权数,回答率 高的赋予较小的权数
如每个样本单元回答率Pi,那么对回答数据 进行加权调整时,以1/Pi为权数进行调整, 不过,一般Pi是未知的。
二、表现:
1.单元无回答和项目无回答 单元无回答: 项目无回答: 2.有意无回答和无意无回答
三、无回答的影响
1.无意无回答的影响: 2.有意无回答的影响: 主要影响有效样本量,会造成估计量方
差的增大,造成估计的偏倚。
四、降低无回答的措施与方法
1.改进调查的组织,加强对调查员的培训 2.多次访问 3.替换样本单元 4.对敏感性问题(所调查的内容涉及私人机密而
波利茨、西蒙斯的调整方法
ti是其他5晚在家的可接受调查的天数。
Pˆi
pi
1 (t 6
1),t
0.1.2.3.4.5
按t分为6组,t组均值yt ,频数nt
总体均值的估计为:
5
5
yt nt / pt
yt nt /(t 1)
y ps
t 0 5
t0 5
nt / pt
nt /(t 1)
N[S 2
(1/
0
1)
R0
S
2 0
NV S 2
给定CT,则:n
c
CT c1R1
c0
0 R0
当S
2 0
S 2且N较大时, 0和n的简化式为
0
11-第十一章_非抽样误差

(
)
(11.3)
这表明此时估计量低估了总体总和。若令 r 为丢失单元指标均值 Y 0 与抽样 框单元指标均值 Y A 之比:
r=
Y0 YA
又 W0 是丢失单元占全部目标总体单元的比重:
3
W0 =
N0 N
则 N A y A 的相对偏倚可表示为:
-
Y0 W0 r =Y W0 r + (1 - W0 )
2
多或多对一的现象。例如在一项入户调查中若目标总体单元系独立的家庭 户, 而抽样框采用的按地区的门牌号, 那么一个家庭也许有两个或两个以上 的住所, 在一个门牌号内也可能住着两户或更多户的家庭。 这种情况称为抽 样框(抽样总体)与目标总体存在着复合连接。 4. 有些复杂抽样框还包含辅助信息(当采用分层抽样、不等概率抽样 以及使用比估计或回归估计等情形) ,如果这些辅助信息不完全或不正确, 不仅不能提高抽样的效率,反而会降低估计的准确性,从而导致误差。 *11.2.2 丢失总体单元引起的抽样框误差 丢失目标总体单元是抽样框误差中影响最为显著而且也较难进行补救 的一种,为此我们对它作稍微深入的研究。 首先我们对丢失目标总体单元引起的误差进行定量分析。 我们主要分析 由此产生的估计量的偏倚。 设目标总体由 N A 个抽样总体单元以及另外 N 0 个没有包含在该抽样总 体的丢失单元组成, N = N A + N 0 ,则总体总和
ˆ (a ) = N y (a ) Y A a A
(11.7)
7
ˆ (ab) = N y (ab) Y A ab A
(11.8)
其中 y A ( a ) 与 y A ( ab) 分别是落在区域 a 与区域 ab 样本观测值的平均数。 类似地根据从框 B 的样本,对区域 b 的总和 Yb 与对区域 ab 的总和 Yab 的估 计分别为:
非抽样误差抽样理论与方法,河南财政学院

(n
1 1)P2
( m )(1 n
m n
)是V(ˆ
)的无偏估计
A
2021/4/4
30
10.5 计量误差
一、计量误差分类: 设计引起的误差 由调查员引起的误差 由被调查者引起的误差
2021/4/4
31
10.6 离群值的检测和处理
一、 yi离数据中心的相对距离di 法 y1,y2,…,yn是要观测的样本数据 m和s分别是测度数据集中趋势和离散趋势的指标
则相对偏倚可以写为
E(y) Y R0(Y1 Y0 )
Y
Y
2021/4/4
14
1.汉森-赫维茨的再抽样调整 总体均值的估计值
Y
1 n
(n1 y1
n0
y
' 0
)
w1
y1
w0
y
' 0
V(Y)
V1
(y)
E1
(w0
k
n
1
s02
)
1
n
f
S2
W0
k
n
1
S02
S02 为总体中无回答层的方差 k n0
得k的最优值kopt
c0 (S2 W0S02 ) S0(2 c c1W1)
给定V,使C达到最小值,得nopt 2021/4/4
N(S2
(k 1)W0S02 ) NV S2
18
例:第一个样本用邮寄方式取得,预计回答率为50%。希
望达到的精度月容量为1000的简单随机样本(全部回答)
所达到的精度一样。邮寄一张问卷的费用是0.1美元。派
估计分别为:
Yˆ B (b)
Nb nb
yB (b)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
学习交流PPT
18
三、降低无回答的措施
学习交流PPT
6
N1
(3)抽样框误差的影响
设目标总体单元:N
抽样框中单元:N1 抽样框中丢失的单元:N0
N=N1+N0 ■ 总体总量的估计 总体总量的真值是:
N1
N1
N0
Y Yi Yi Y1Y0
i1
i1
现从抽样框中的N1个单元中采用简单随机 抽样抽出容量为n的一个样本,由于n取自于N1 对总体总量的估计为:
(即抽样框) 理想抽样框的标志是目标总体和抽样总 体完全重合。否则抽样框就是不完善的。
学习交流PPT
4
二、抽样框误差的类型及影响
(1) 抽样框误差的类型 ● 丢失目标总体单元。 ● 包含非目标总体单元。 ● 抽样框中的单元与目标总体单元不一一对 应。(存在一对多或多对一的情况) ●不正确的辅助信息。(如分层抽样、不等
学习交流PPT
16
无回答的影响: 回答层(N1)
总体(N) 无回答层(N0)
NN1N0
R1
N1 N
,R0
N0 N
则总体均值为: YR1Y1R0Y0
回答层样本(n1 ) 总体样本(n)
无回答层样本(n0 )
学习交流PPT
17
根据回答层单元计算出的样本均值为
y1
用 y 1作为总体真值 Y得估计量,其偏倚为:
学习交流PPT
12
从无回答的内容来看可分为: 单元无回答 (被调查单元没有参入或拒绝受调查,他
们交的是一份白卷) 项目无回答 (被调查单元虽然接受了调查,但对其
中的一些项目没有回答)
学习交流PPT
13
从无回答的性质来看可分为: 有意无回答
(有意无回答常常与调查内容有关,如对调 查内容反感,或涉及个人隐私不愿意回答)
学习交流PPT
15
二、无回答产生的原因及影响
如果把采集数据的过程划分为查找、接触和 采访三个阶段,三个阶段都有可能出现无回答。
1、查找阶段 调查人员无法找到被调查者, 主要原因有地址不详、被调查者搬迁、调查人 员不熟悉地址; 2、接触阶段 被调查生病、对调查不感兴趣 或别的原因拒访; 3、采访阶段 调查开始后被调查者对某些问题 不愿提供答案、调查员由于粗心遗漏某些项目等
无意无回答
(无意无回答常常与调查内容无关,之所以 无回答是因为被调查者生病或很忙,无法接 受调查)
学习交流PPT
14
有意无回答对数据质量的影响很大,回 答者和不回答者之间往往存在系统性差异。 这种不回答不仅减少了有效样本量,造成估 计量方差增大,而且会带来估计偏倚。
无意无回答可以看成是随机的,这种不 回答虽然会造成估计量方差增大,但通常认 为不会带来估计偏倚。
学习交流PPT
7
Y
N1 n
n
yi
i 1
显然此时的估计是有偏的,偏倚为:
E(Y)YY1YY0
这表明估计量低估了总体总量,令
r
Y0 Y1
,W0
N0 N
Y的相对偏倚可以写为
Y0
W0r
Y
rW 0 (1W0)
学习交流PPT
8
r
由上式可知,总体总和的相对偏倚取决于
r和 W 0
■ 总体均值的估计
在抽样框存E ( y 1 ) Y Y 1 ( R 1 Y 1 R 0 Y 0 ) R 0 ( Y 1 Y 0 )
R0
相对偏倚
(y1)
R0(Y1 Y0) Y
由上式可以看出:无回答偏倚主要来自两
个方面:一个是回答层与无回答层之间的数量
差异 (Y1 Y 0 ) ;一个是无回答率 R 0 。
2、在抽样调查中,由于非抽样误差的影响,往往造成 估计量的有偏;
3、有些非抽样误差难以识别和测定。如抽样框是不完 善的,而调查设计人员并没有意识到;
4、有些非抽样误差成因复杂,对其研究不够,因此, 在很多时候非抽样误差比抽样误差造成的影响更严重, 对此必须引起高度重视。
学习交流PPT
2
根据非抽样误差的来源、性质 可分为以下三类:
第十一章 调查中的非抽样误差
§11.1 引言
非抽样误差是指除抽样误差以外的,由于 各种原因引起的误差。
在概率抽样、非概率抽样、其他全面调 查和非全面调查已及普查中,非抽样误差都 有可能存在。
学习交流PPT
1
同抽样误差相比,非抽样误差有如下特点:
1、非抽样误差不是由于抽样的随机性带来的,所以在 抽样调查中,它不可能随着样本量的增大而减小;
(1)抽样框误差,即由不完善的抽样框引起的 误差;
(2)无回答误差,即由于种种原因没有从被调 查单元获得调查结果,造成调查数据的缺失;
(3)计量误差,即所获得的调查数据与其真值 之间不一致造成的误差。
学习交流PPT
3
§11.2 抽样框误差
一、概念 抽样调查中的总体有两个:
目标总体—调查研究对象的全体。 抽样总体—从中抽取样本的总体。
Y
的变化而变化。
学习交流PPT
10
三、不完善抽样框的使用
抽样框不完善并不是不能使用,因为构造一个完 善的抽样框有时是非常困难的。使用不完善抽样框时 若能采用一些补救措施,有助于减小抽样框误差。主 要采用以下三项补救措施:
●利用核查,掌握误差情况,对不完善抽样框 进行调整;
●事先制定一些规则,对发现的抽样框问题进 行现场处理;
概抽样、比率估计和回归估计等所需的辅助 信息)
学习交流PPT
5
(2)对抽样框误差的基本认识
●有些误差来自构成抽样框资料本身,而不 是由于抽样设计的问题。
●抽样框存在的问题,有些是不容易解决的。 因此抽样框的维护、抽样框使用情况的不断总 结与研讨,对于经常性的调查项目来说是十分 必要的。
●抽样框的不完善并不是不能使用。可以进 行修补、调整。
r
Y
Y
1 n
n i 1
yi
此时估计量的偏倚为:E(Y)YW0(Y1Y0)
Y 的相对偏倚可以写为:
W0(Y1 Y0) W0(1r)
Y
rW 0(1W0)
学习交流PPT
9
由上式可以看出,如果丢失单元的均值与
抽样单元的均值相同,即
r
1
,则估计量
Y
是目标变量 Y 的无偏估计。
r 反之,如果 r 1 ,偏倚状况则随着
●使用多个抽样框进行抽样。
学习交流PPT
11
§11.3 无回答误差
一、概念
无回答误差是指在调查中由于各种原因, 调查人员没能够从入选样本的单元处获得所需 要的信息,由于数据缺失造成估计量的偏差。
无回答误差是一种重要的非抽样误差,这 种现象十分普遍,对估计量的危害也比较大, 所以国际上对这方面的讨论一直比较热烈,目 前这种讨论还在继续。