第十章(非抽样误差)
非抽样误差(1).pptx

1)R0
10001
1 0.4608
1
0.4
1468
n0 587, n1 881,n0 271
CT 1.0 1468 1.2 881 13.5 271 6183.7(0 元)
(二)加权调整法
一般是:回答率低的赋予大的权数,回答率 高的赋予较小的权数
如每个样本单元回答率Pi,那么对回答数据 进行加权调整时,以1/Pi为权数进行调整, 不过,一般Pi是未知的。
二、表现:
1.单元无回答和项目无回答 单元无回答: 项目无回答: 2.有意无回答和无意无回答
三、无回答的影响
1.无意无回答的影响: 2.有意无回答的影响: 主要影响有效样本量,会造成估计量方
差的增大,造成估计的偏倚。
四、降低无回答的措施与方法
1.改进调查的组织,加强对调查员的培训 2.多次访问 3.替换样本单元 4.对敏感性问题(所调查的内容涉及私人机密而
波利茨、西蒙斯的调整方法
ti是其他5晚在家的可接受调查的天数。
Pˆi
pi
1 (t 6
1),t
0.1.2.3.4.5
按t分为6组,t组均值yt ,频数nt
总体均值的估计为:
5
5
yt nt / pt
yt nt /(t 1)
y ps
t 0 5
t0 5
nt / pt
nt /(t 1)
N[S 2
(1/
0
1)
R0
S
2 0
NV S 2
给定CT,则:n
c
CT c1R1
c0
0 R0
当S
2 0
S 2且N较大时, 0和n的简化式为
0
11-第十一章_非抽样误差

(
)
(11.3)
这表明此时估计量低估了总体总和。若令 r 为丢失单元指标均值 Y 0 与抽样 框单元指标均值 Y A 之比:
r=
Y0 YA
又 W0 是丢失单元占全部目标总体单元的比重:
3
W0 =
N0 N
则 N A y A 的相对偏倚可表示为:
-
Y0 W0 r =Y W0 r + (1 - W0 )
2
多或多对一的现象。例如在一项入户调查中若目标总体单元系独立的家庭 户, 而抽样框采用的按地区的门牌号, 那么一个家庭也许有两个或两个以上 的住所, 在一个门牌号内也可能住着两户或更多户的家庭。 这种情况称为抽 样框(抽样总体)与目标总体存在着复合连接。 4. 有些复杂抽样框还包含辅助信息(当采用分层抽样、不等概率抽样 以及使用比估计或回归估计等情形) ,如果这些辅助信息不完全或不正确, 不仅不能提高抽样的效率,反而会降低估计的准确性,从而导致误差。 *11.2.2 丢失总体单元引起的抽样框误差 丢失目标总体单元是抽样框误差中影响最为显著而且也较难进行补救 的一种,为此我们对它作稍微深入的研究。 首先我们对丢失目标总体单元引起的误差进行定量分析。 我们主要分析 由此产生的估计量的偏倚。 设目标总体由 N A 个抽样总体单元以及另外 N 0 个没有包含在该抽样总 体的丢失单元组成, N = N A + N 0 ,则总体总和
ˆ (a ) = N y (a ) Y A a A
(11.7)
7
ˆ (ab) = N y (ab) Y A ab A
(11.8)
其中 y A ( a ) 与 y A ( ab) 分别是落在区域 a 与区域 ab 样本观测值的平均数。 类似地根据从框 B 的样本,对区域 b 的总和 Yb 与对区域 ab 的总和 Yab 的估 计分别为:
抽样知识点

1. 抽样调查广义的抽样调查:是从研究对象的全体(总体) 中抽取一部分单位作为样本,根据对所抽取的样本进行调查,获得有关总体目标量的了解。
从总体中抽取样本的方法看,抽取方法可以分为两类:一类是非随机抽样(非概率抽样);一类是随机抽样(概率抽样),狭义上的抽样就是随机抽样。
2. 随机抽样(概率抽样)随机抽样是从总体中按随机原则抽取样本,并依据样本观察值对总体的数量特征取得具有一定可靠性的推断,从而达到对总体的认识。
随机抽样的特点:1.所谓随机原则就是在抽取样本时排除主观上有意识地抽取调查单元,使每个单元都以一个事先已知的非零概率有机会被抽中。
2.每个单元被抽中的概率是已知的,或是可以计算出来的,按照给定的入样概率通过一定的随机化程序进行抽样。
3.估计量不仅与样本单元的观测值有关,也与其入样概率有关。
随机抽样的主要优点是:随机抽样比非随机抽样更具有客观性,而且随机抽样可以依据调查结果计算抽样误差,从而得到对总体目标量进行推断的可靠程度。
3. 非随机抽样(非概率抽样)非随机抽样是相对于随机抽样而言的。
非随机抽样的共同特点是:抽取样本时,是依据主观判断有目的、有意识地进行,或根据方便的原则进行。
⎪⎪⎪⎪⎪⎪⎪⎪⎩⎪⎪⎪⎪⎪⎪⎪⎪⎨⎧⎪⎪⎪⎪⎪⎪⎪⎩⎪⎪⎪⎪⎪⎪⎪⎨⎧⎪⎪⎩⎪⎪⎨⎧⎪⎪⎪⎪⎩⎪⎪⎪⎪⎨⎧滚雪球抽样判断抽样定额抽样便利抽样)随意调查非随机调查系统抽样不等概率抽样多阶抽样整群抽样分层抽样简单随机抽样随机调查非全面调查全面调查统计调查(4. 抽样调查的基本程序 一、确定调研问题——二、抽样调查设计(抽样设计、问卷设计)——三、实施调查过程——四、数据处理分析——五、撰写调查报告——六、总结评估5. 总体、目标总体与抽样总体、抽样框、样本(包含第十章抽样框误差定义)所要研究对象的全体称为总体,组成这个总体的每个个别对象就称为总体单元或总体单位。
总体又有目标总体与抽样总体之分。
目标总体就是抽样调查预先确定的所要认识的对象的全体,也就是从样本中得到信息对之进行说明的总体。
整理[所有分类]统计调查技能培训班练习题
![整理[所有分类]统计调查技能培训班练习题](https://img.taocdn.com/s3/m/ba15f37ce518964bce847c2c.png)
统计调查技能培训班练习题第二章:1、调查设计的首要任务是()。
A.确定调查的精度B.清楚地说明调查的信息需求C.确定调查的操作性定义D.建立调查的分析方案2、操作性定义主要是规定()。
A.调查所涉及的新概念B.调查所要测量的对象C、调查所要测量的内容D.B和C3、在定义“贫困人口”后,需要进一步定义“收入”和“家庭”,如何定义这两个概念,取决于()。
A.对贫困人口的定义B.调查数据的使用者和主要用途C.调查的精度要求D.调查的时间限制4、建立分析方案通常采用()的形式。
A.规划书B.计划分析列表C.计算机分析软件D.客户要求的格式5、调查的具体主题与()有关。
A.要进行调查的变量B.问卷设计和样本设计C.数据收集方法的选择D.与上述各项都有关6、计划列表可以帮助确定问卷的()。
A.问题排列顺序B.回答问题的详尽程度C.回答指南D.问题提问方式第三章1、普查和抽样调查的主要区别在于()。
A.二者的成本不同B.二者的精度不同C.二者调查的总体单元数不同D.二者的时效性不同2、当总体中具有某一特征的单元较普遍时,适宜采用()。
A.抽样调查B.普查C.先采用抽样调查,再采用普查D.先采用普查,再采用抽样调查3、非抽样误差()。
A.仅在抽样调查中存在B.仅在普查中存在C.在抽样调查和普查中都存在D.在抽样调查和普查中都不存在4、目标总体与被抽样总体()。
A.在理想状态下,两个总体应该相对应B.无论在什么情况下,两个总体都没有差别C.前者一般小于后者D.两者都是实际调查时从中抽取样本的总体5、在抽样框中,识别资料是()。
A.帮助调查者唯一识别抽样框中某个单元的项目B.用于抽样框中进行分类抽选的项目C.用来寻找抽样框中某个单元的项目D.是对调查有帮助的项目6、实际目录框是()。
A.实际的总体单元的目录B.在调查实际进行时才出现的总体的项目C.概念性的总体单元的目录D.可以加以定义的总体单元的目录7、在使用区域框进行抽样调查时,需要使用指示单元,它是()。
人教版七年级数学下册第十章单元测试及答案

人教版七年级数学下册第十章单元测试及答案11.要考察的全体对象称为总体,样本中个体的数目称为样本大小。
12.在统计学中,数据的分散程度称为数据的()。
12.在统计学中,数据的分散程度称为数据的离散程度。
13.组距是一组数据中最大值与最小值的差,将其分成若干个等宽的区间,每个区间的长度就是()。
13.组距是一组数据中最大值与最小值的差,将其分成若干个等宽的区间,每个区间的长度就是组距。
14.用频率分布直方图表示一组数据时,横轴表示(),纵轴表示()。
14.用频率分布直方图表示一组数据时,横轴表示数据的区间,纵轴表示对应区间的频数或频率。
15.样本均值是样本中所有数据之和除以样本大小,它是描述样本集中趋势的一种统计量,通常用()表示。
15.样本均值是样本中所有数据之和除以样本大小,它是描述样本集中趋势的一种统计量,通常用x表示。
16.样本标准差是样本中每个数据与样本均值的差的平方和的平均数的平方根,它是描述样本离散程度的一种统计量,通常用()表示。
16.样本标准差是样本中每个数据与样本均值的差的平方和的平均数的平方根,它是描述样本离散程度的一种统计量,通常用s表示。
17.在正态分布曲线中,均值、中位数、众数重合,且曲线呈钟形。
正态分布曲线的两侧分别以()为界限,分别包含了曲线下的68.26%和95.44%的面积。
17.在正态分布曲线中,均值、中位数、众数重合,且曲线呈钟形。
正态分布曲线的两侧分别以标准差的1倍为界限,分别包含了曲线下的68.26%和95.44%的面积。
18.相关系数的取值范围是(),当相关系数为1时,表示两个变量之间存在完全正相关关系,当相关系数为-1时,表示两个变量之间存在完全负相关关系。
18.相关系数的取值范围是-1到1,当相关系数为1时,表示两个变量之间存在完全正相关关系,当相关系数为-1时,表示两个变量之间存在完全负相关关系。
19.在假设检验中,原假设通常是指(),备择假设通常是指()。
第10章 非抽样误差

二、无回答误差的统计影响
• 导致估计量估计偏差
若无回答者与回答者在调查项目的数量特征上存在差异,这种无回答 就会导致无回答偏差
E ( y回答 ) Y Y回答 (
N回答 N
Y回答
N 无回答 N
• 降低估计效率
N 无回答 Y无回答) (Y回答 Y无回答) N
无回答减少了实际调查的样本数量,因而扩大估计量的方差,导致估 计效率降低
s
1 ˆ i i
yi
关于加权的一些注意事项
• 要求很高:即假定每一个加权单元中,回 答者和无回答者是相似的,也就是说不管 同一加权组中各单位的回答值是否相等, 它们回答的可能性都相等。 • 加权法可能会改进估计量,但它并不能消 除所有的无回答偏差。 • 常用于处理单位无回答,而非项目无回答
5.插补法(imputation method)
2
从而估计量方差增大的量为: n1 2 2 2 1 n n1 S n S S r0 2 2 =S = S n1 = n n1 n n n
1
n1 n0 其中 r 0 = = 1- n 为样本无回答率。 n
1
估计量方差增大的程度则为:
n1 r0 -1= (1 r 0) n
在这种情况下,为了达到抽样方案所 规定的抽样估计效果,就需要增加样本 N0 容量。如果总体无回答率为 R 0 = ,那 n N n 么样本容量应该确定为 = (1 R ) 。
四、无回答的补救措施
• • • • • 替代法 汉森与赫维茨(Hansen and Hurwitz,1946)方法 复制估算法 加权调整法 插补法
1.替代法
• 访员可以在实际调查现场选择一个替代单位或使 用事先准备的指定替代单位 • 1975年密歇根州进行的物品滥用情况调查 (Michigan Survey of Substance Abuse)就是为 了估计在前一年内使用过16类物品的人数。根据 抽样设计,该调查采用分层多阶段抽样对2100个 住户进行了访问。对每一个住处都重复访问3次, 若仍没有人则尝试其右侧的住户,接下来再尝试 左侧住户。
第10章 森林抽样调查

1、
总体总量估计为:Xˆ
N
X
A a
1 n
n i 1
xi
A a
X
A
X a
2、 总体总量估计区间:Xˆ Xˆ N x N (X x)
较差法估计:
总体平均数估计值仍用简单随机抽样公式:
较差法的方差估计值
重复抽样:
s2 (
y) sy
1 2(n 1)
(y
j
y
j 1)2
不重复抽样:
s2 (
另外,在森林资源较多的山区,森林的自然分布呈现出的 某些周期性变化,有的明显,而有的不明显。如:从大地 域看,深山区密林多;同一条山脉山脊上多为矮林,山谷 里多为高密林;在某些地区,山的中部以上多为林地,中 部以下多为人们破坏的次生林和疏林地甚至为荒山;某些 地区,阳坡多为疏林、树种单一,阴坡多为密林,树种复 杂等等。
它不是抽样估计特有的,即使是全面实测调查也会产生, 无法消除,只不过随着量测单元数的增加,随机产生的量 测误差会逐渐减小罢了。
其中记录误差(过失误差)是由于观测者不细心所引起 的误差。可通过调查人员的培训、教育、宣传、检查 等措施来排除。
偏差:是系统误差或恒定误差。
三个方面的来源:
1、测量仪器 ; 2、抽样过程 ; 3、估计方法。
⑶ 图上布点
随机确定起点,按样地图面间距和一定顺序统一编号样地 点位。直至满足所应布设的样地数量为止。可采用网眼板或 方格纸进行。总体面积较大时,采用地形图公里网交叉点。
(二)、外业调查
1、样地的现地定位
根据具体情况采用以下方法: (1)目视法。主要针对不涉及林木又有明显地物点的样地。 (2) 引点法。引线起点、磁方位角确定、引线量测。 (3) 基线法。当样地间距L较小时(一般<200米,可按某样
第十章 非抽样误差(抽样理论与方法,河南财政学院)

费用函数为
c 0n 0 cn c1n1 k c是进行第一次调查,每个样本单元的平均费用 c1 是对第一次调查作出回答的问卷进行数据处理的费用 c 0 是进行第二次调查并对问卷进行数据处理的费用
c 0 W0n 则平均总费用 C T cn c1 W1n k c 0 W0n (c c1 W1 )n k
10.4 敏感性问题调查 与随机化回答技术
一、 敏感性问题: 指所调查的内容涉及私人机密而不愿或不便于公开 表态或陈述的问题。
河南财经学院
二、沃纳随机化回答模型 例:某大学欲调查本科生考试作弊现象。从本科生中抽取 100个学生进行调查。在一个密闭容器中有完全相同的 三个球,其中有2个红球,1个白球。抽中红球就回答问 题1,抽中白球就回答问题2。设计的问题为:
1 ' ' Y (n 1 y 1 n 0 y 0 ) w 1 y 1 w 0 y 0 n
V( Y) V1 ( y ) E1 ( w 0
S0
2
k 1 2 1 f 2 k 1 2 s0 ) S W0 S0 n n n
为总体中无回答层的方差
n0 k m
河南财经学院
2
2
给定V,使C达到最小值,得 n opt 河南财经学院
例:第一个样本用邮寄方式取得,预计回答率为50%。希望 达到的精度月容量为1000的简单随机样本(全部回答) 所达到的精度一样。邮寄一张问卷的费用是0.1美元。派 人作一次上门调查的费用为4.10美元。应当寄出多少份 问卷?对不回答者派人上门调查 的百分比试多少?(假 定 S 2 S 0 2 ,且N很大) 解: c 0.1,c 0.4,c 4.5,S 2 S 2
河南财经学院
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
西蒙斯随机化回答模型
沃纳模型中随机化回答的两个问题是同一敏感问题的两个方面,有些被 调查者仍可能有疑虑不肯合作,而且从精度方面考虑,当P与0.5很接近 时,方差大,而太远,增加了疑虑。所以西蒙斯(W.R.Simmons)进行了 改进,将第二个问题改为与所要调查的敏感性问题完全无关的另一个 非敏感性问题。西蒙斯随机化回答模型中两个问题一般表述为: I 你具有特征A吗? II 你具有特征B吗? 其中特征A为敏感性问题,特征B为无关问题。需要估计的是特征A的比例, 特征B的比例为在设计时要求已知。两个问题在随机化过程中出现的比例 仍假设为P: (1-P),其中P为已知。 仍以调查考试作弊为例,两问题的设置
• 例:某电影公司调查学生每月看电影的次 数,随机抽取了1000人, • 进行问卷调查,其中800人作了回答,回答 的均值为2.5;若对无回答 • 的200人中,又随机抽取了50人进行面访, 结果这50人的平均每月看 • 电影次数为1.2次,求偏倚的估计值。
此例指出了调整无回答误差的一个途径。即可通过多次访问。
2.
3.
根据非抽样误差的来源、性质和处理方法不 同常分为以下三类: (1)抽样框误差 (2)无回答误差 (3)计量误差
抽样框误差
抽样框:一份包含全部抽样单元的清单或图示 ( 抽样框是用来抽取抽样单元的依据。) 目标总体:希望从中获取信息的总体 调查总体(抽样总体):实际调查所覆盖的总体。
理想状态下,两个总体应该完全一致。调查总体与目标总体 一般不完全相同。因此就产生了抽样框误差。主要如下
若用Ny1估计总体总和,偏倚为 E ( Ny1 ) Y NR0 (Y1 Y0 ) 以上两种估计量的相对偏倚都是 R0 (Y1 Y0 ) / Y
根据以上分析,无回答的偏倚大小由两方面决定。一为回答率,二为 回答层与无回答层均值的差异。无论何种情况,降低无回答率对于减 少估计量的偏倚是重要的。
沃纳随机化回答模型
此模型由沃纳(S.L.Warner)提出,设计是向被调查者显示两个与 敏感性问题(特征A)有关,但完全对立的问题。一个问题是“你具 有特征A吗?”另一个问题是“你具有特征 ”表示不具有特征A。 A 这两个问题的答案只有肯定和否定的,“是”“否”。关键在于设计一 种 随机化装置,使被调查对象以概率P来回答第一个问题,和概率1-P 回答第二个问题。重要的是只有被调查对象本人知道自己回答哪个 问题,而调查员是不知道它回答哪个问题。
• 例子:某大学要正确估计本校学生在考试 中有没有舞弊行为的比例a,随 • 机抽取了n个学生进行调查,对每个学生显 示两个问题 • I 你在考试中作过弊,对吗? • II 你在考试不作弊,对吗?
实施:交给学生一个密闭容器,其中装有两种颜色的球,比如红与黑,但其他完 全相同,红球与黑球的比例为P:(1-P),被调查学生从该容器中随机抽取一个球, 不向任何人显示,只有他本人知道。如抽到红球如实回答I,抽中,黑球如 实回答II.由于答案只有“是(对)”或“否(不对)”,因此别人又不知道你回答 的是哪一个问题,因此会给出符合实际的答案。沃纳模型的特点是使每个人理解实 验 装置的被调查者能真实回答,另一方面能够通过调查得到所要估计的目标量a。 结果: n个调查对象中m个回答“是” 计算: 有两种情况回答“是” 1 抽到红球,调查对象曾作过弊 2 抽到黑球,调查对象没有作过弊 抽到红球的概率为P,抽到黑球的概率为1-P,而无论抽到红球还是黑球 作过弊的概率都是a(是我们所要估计的量)。 因此:条件概率公式 Pr(是)=Pr(抽到红球)Pr(是|抽中红球)+Pr(抽中黑球)Pr(是|抽中黑球)
4.和随机化回答技术
敏感性问题(sensitive question)是指所调查内容涉及私人机密或不 便于公开表态或陈述的问题。比如学生在考试的作弊现象,赌博, 偷税漏税等等。 对于敏感性问题若直接提问被调查者往往会拒绝回答,或不提供真 实情况。因此这类调查,必须经过特别设计的调查方法,以消除调 查者的疑虑,使他们如实回答。 对于敏感性问题调查的特别设计技术就是随机化回答技术。基本特 征为被调查对象对所调查的问题采取随机回答的方式,避免在没有 任何保护的情况下直接回答敏感性问题,从而既对被调查者的隐私 或秘密加以保护,而且能获得所需要的真实资料。
由于当偏倚愈大,差别就越大,因此 ˆ u MSE ( ˆ) 用区间 ˆ u Var ( ˆ) 1 Bias 2 ( ˆ) Var ( ˆ) 即 作为的近似置信区间
由于实际问题中偏倚是得不到的,因此,上面的讨论只是理论说明。但 当所要估计的目标量是总体比例P时,情况要简单些。
p1 (1 p1 ) R0 n1
• 例:某项民意测验,样本量为1000,回答 率为90%,根据回答样本 • 的统计,反对人数比例为20%,求总体比 例估计的95%的(保守的) • 置信区间。
降低无回答的措施和方法
1 改进调查的组织,加强对调查员的培训
调查员的选择上,选择高度责任心和较强人际交往能力的人。调查员的 培训中,要使他们明白调查的内容和相关的解释,还有访谈技巧等等。
2.多次访问
当主要原因是被调查对象不在家,或有事不方便的时候,通常隔些时候再访 会获得 成功。多次访问(call backs)即通过对无回答产生的原因的分析,调整 访问策略,对无回答的单元进行追踪调查从而提高回答率。国外应用多年。我 国在一些项目上有所应用。 例:在一次服装消费行为问卷中,样本量为1000户,第一次访问答卷为345份, 对没有回答的样本单元再进行第二次访问得到163份答卷,更换调查员之后, 对还没有回答的对象进行第三次访问,得到50份。对每一次访问,分别计算 被调查人均月收入指标。结果如表
公式表示为: Pr(是)=Pa+(1-P)(1-a) 1 1 m ˆ 当p ,a (1 p ) 根据调查结果, Pr( 是 )1 的估计值是 m/n 2 2p n ,因此,a的估计值可通过
ˆ是a的极大似然估计,是无偏的。 沃纳指出a m/n=Pa+(1-P)(1-a) a (1 a ) p (1 p ) 得到确定。 ˆ) Var (a n n(2 p 1) 2 可见方差包含两部分,一部分是每人都能真实回答的方差, 还有一部分就是设计所产生的误差。 m m (1 ) ˆ (1 a ˆ) a p (1 p ) n n ˆ) 无偏估计为var (a (n 1)(2 p 1) 2 n n(2 p 1) 2
I 你在考试中作过弊,对吗? II 你出生的月份是公历一月,对吗?
实施方法一样,交给学生一个密闭容器,其中装有两种颜色的球,比如红与黑, 但其他完全相同,红球与黑球的比例为P:(1-P),被调查学生从该容器中随机 抽取一个球,不向任何人显示,只有他本人知道。如抽到红球如实回答I,抽中, 黑球如实回答II.由于答案只有“是(对)”或“否(不对)”,因此别人又不知道你 回答的是哪一个问题,因此会给出符合实际的答案。
无回答(non-response)误差
所谓无回答是指由于种种原因没有能够对被抽中样本单元 进行测量,从而没有获得有关这些单元的数据。 无回答的类型:a. 遗漏 b.被调查对象不在家 c.不能回答 d. 坚决拒绝回答
政府行为的调查配合率高,对于一般市场信息调查的抽样相对无回 答非常高。
无回答的表现为调查对象(入样单元)没有或拒绝接受调 查(“单元无回答”)和接受调查但对某些调查项目没有 或拒绝给予回答(“项目无回答”)
无回答的影响
将调查总体分为两个层 • 回答层 单元倾向于回答 • 不回答层 单元倾向于不回答
回答层的单元数为N1,无回答层的单元数为N 0,则总体单元数为N N1 N 0 . N N1 , 总体无回答率R0 0 . N N 回答层的均值Y1,无回答层的均值Y0; 总体回答率R1 总体均值Y R1Y1 R0Y0; 样本容量n, 其中回答的单元数n1 , 无回答的单元数n0; n n1 , 样本无回答率r0 0 , n n 回答单元的样本平均数y1,若不考虑无回答样本, 样本回答率r1 直接用y1去估计Y ,会造成偏倚 E ( y1 ) Y Y1 Y Y1 ( R1Y1 R0Y0 ) R0 (Y1 Y0 )
结果表明:平均月收入随着逐次访问而不断上升,反映了高收入者不愿暴露自 己的收入趋势,多次回访不仅降低了无回答率,而且对资料分析提供了无回答 单元的一些信息。 当然多次访问需要考虑经费的问题,当减少的偏倚大于增加的费用时,多次访问 才合算。
3. 替换样本单元
对找不到的样本单元或拒绝回答的单元进行替换。需要谨慎,因为处理不当 容易产生新的误差。 更换的原则:替代者与被替代者有相同的或相似的特征,属于同一类。替换 原则在调查前要确定,不能通过调查员主观意愿或方便而任意取。
若仅用回答比例为p1来估计总体比例P 偏倚为E ( p1 ) P R0 ( P 1P 0) 其中0 P0 1, P的置信度为1 的置信区间为(若只考虑方差) p1 u p1 (1 p1 ) ; n1
而实际上总体比例P R1 P 1 R0 P 0; 因此在求解时常采用求P的置信下限时,令P0 0; ˆ 和置信上限P ˆ 在P的置信上限时,令P0 1,于是得到P的保守置信下限P L U ˆ 分别为PL R1 p1 u ˆ R p u P U 1 1 p1 (1 p1 ) n1
非抽样误差产生于抽样调查的各个环节,在调查和抽样设 计中,调查实施与数据采集以及数据的汇总分析与处理中。主 要原因如下: 1. 抽样设计过程中引起的误差 a.问卷调查中,问卷的设计,指标的概念和范围的明确 b.抽样框的问题 调查实施过程中 a.样本的抽取(样本抽取不是按照设计要求抽取,主观抽取; 虽按照设计要求抽取,但是样本不合适时舍弃不用或重抽,直 至“满意”;因种种原因,调查对象找不到或拒绝回答而任意 更换样本) b.调查员的工作失误 c.被调查者的拒绝接受调查和提供虚假的数据 d.计量工具或测试工具本身的误差 数据汇总和处理中产生的误差