抽样调查理论与方法基本概念

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

抽样调查理论与方法基本概念

（2011年12月22日整理）

一、基本概念

（一）抽样调查与非抽样调查

1.调查分类：①根据调查是否针对总体的所有单元分为全面调查和非全面调查；②根据调查单元是否按照一定的概率入样分为概率抽样调查和非概率抽样调查。

2.非全面调查相对于全面调查的优点：①时间短速度快；②费用少成本低；③调查结果比较准确；④应用范围广泛。

3.概率抽样

分类：①根据调查单元的入样概率是否相等分为等概率抽样和不等概率抽样；②根据具体的抽样方式分为简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样等。

优点：①能够保证样本的代表性，避免人为干扰的因素；②用概率抽样取得的样本去估计总体特征时，可以对抽样产生的抽样误差进行估计。

4.非概率抽样

分类：①根据具体的抽样方式分为判断抽样、便利抽样、自愿样本、滚雪球抽样、配额抽样等；②判断抽样包括典型调查和重点调查两种取样方式。

缺点：①难以评价样本的代表性；②无法估计抽样误差；③偏倚往往较大。

5.抽样调查，是非全面调查中的一种重要方法，它是按照一定程序从

所研究对象的全体（总体）中抽取一部分（样本）进行调查或观察，获取数据，并以此对总体的一定目标量（参数）作出推断（例如估计）。

（二）总体与样本

1.总体：分为目标总体和实际总体，目标总体是研究目标所针对的总体；实际总体是实际调查时所针对的有限的、具体的总体。

2.抽样框与抽样单元

包含所有抽样单元的总体称为抽样框，构成抽样框的单元称为抽样单元。

抽样框的形式：名单、手册、地图、数据包等。

抽样框的要求：①抽样框必须是有序的，即抽样单元必须编号，且根据某种顺序进行了排列；②抽样框中包含的抽样单元必须“不重不漏”，否则将会出现抽样框误差。

3.抽样与样本

样本：从总体中按照一定程序抽得的那部分个体或者抽样单元。

（三）总体特征与估计量

1.总体特征：总体某个特征或属性的数量表现。通常有4种：①总体总值Y；②总体均值Y；③总体比例P；④总体比率R。

总体总值、总体均值和总体比例三者是统一的，都可以用总体均值Y 来表示。

2.估计量：以样本指标为基础构造的，用以估计总体指标的规则或者形式，是随机变量。

估计方法：最常见的是简单线性估计，除此之外，还可以借助于辅助

变量。辅助变量必须具备两个条件：一是与估计量的变量高度相关；二是其总体信息已知。

①简单估计

点估计：定值估计，以所抽样本资料为依据，直接根据所选的估计量对总体指标作出一个确定值的估计。

区间估计：以点估计为依据，用一个具有一定可靠程度的区间范围来估计总体指标。

②比估计与回归估计：利用调查指标和辅助变量之间的相关关系（成比例关系或线性回归关系），可以构造一类估计量，即比估计量或回归估计量。

比估计量与回归估计量都是非线性的较为复杂的估计量，但是只要调查主要指标和辅助变量之间具有良好的线性相关关系，则比估计的精度比简单估计高，而回归估计总是优于简单估计，在通常条件下也较比估计的精度高。可用于简单随机抽样和分层随机抽样。

比估计与回归估计的使用限制是要求辅助变量的总体或者均值是已知的。

3.抽样分布：抽样估计量的概率分布，由估计量的可能性取值与之对应的概率组成。对于一个固定的总体，用相同的抽样方法反复从中抽取容量为n的样本，就会产生m个估计值，把这些估计值形成频率分布，即形成k（k<=n）种不同的估计值及其相应频率分布，就是抽样分布。

抽样分布的渐进正态性：当从一个比较大的总体N中抽取一个中等容量（30以上）的样本时，无论总体是何种分布，其样本均值的抽样分布都

近似于正态分布。样本量越大，越接近正态。

（四）误差与精度

抽样调查中的误差分为两类：抽样误差和非抽样误差。

1.抽样误差：是由于抽样的非全面性和随机性引起的偶然性误差，即因抽样的估计随样本而异造成的误差。抽样误差表现为三种形式：抽样实际误差、抽样标准误、抽样极限误差。

抽样实际误差是指抽样估计值与总体指标之间的离差。每一次抽烟的实际误差是不可知的，它是随机变量，若估计量无偏，所有可能的实际误差的总和为0。

抽样标准误是衡量抽烟误差大小的核心指标，是对总体指标作出区间估计的一个重要因素，狭义上所指的抽样误差就是抽样标准误，它就是抽样分布或抽样估计量得标准差，是抽样分布方差或者抽样估计量方差（均方误差）的平方根。

抽样分布的方差或标准差越大（小），估计量的抽样分布就越分散（集中），抽取样本估计总体的误差平均来讲就越大（小）。影响抽样标准误的主要因素有:总体内在差异；样本容量；抽样方式、方法；估计量。

抽样极限误差是指以样本估计总体所允许的最大误差范围，也即在一次抽样估计时，抽样估计量所允许的最高值或者最低值与总体指标之间的绝对离差。抽样极限误差取决于两个因素：抽样标准误和置信水平（抽样估计概率保证程度）

2.非抽样误差：是有随机抽样的的偶然性因素以外的原因引起的误差。非抽样误差主要有三类：抽样框误差、无回答误差、计量误差。

抽样框误差是目标总体（研究对象的全体）与抽样总体之间的不一致导致的误差。

无回答误差是指由于种种原因没有能够对被抽出的样本单元进行计量，从而没有获得有关这些单元的数据导致的误差。

降低无回答的措施有：①改进调查的组织，加强对调查员的培训；②多次访问；③替换样本单元；④对敏感性问题的调查采取随机化回答技术。

随机化回答技术模型有两个：沃纳随机化回答模型（Warner）和西蒙斯随机化回答模型（Simmons）。

计量误差是指调查中所获得的数据与欲调查指标的真值之间不一致而造成的误差，也成为回答误差。误差产生的原因可以分为由设计引起的误差、由调查员引起的误差、由被调查者引起的误差及由其它原因引起的误差等。

3.置信区间与误差限

置信区间是由样本对某总体参数所做的区间估计，该区间以一定的置信度(概率)包含该参数的真值。

误差限：即是在某种概率意义下的最大绝对误差或相对误差。分为绝对误差限d和相对误差限r，r=d/ ，其中为某个待估的参数。

4.费用与效率

调查的费用是一个与样本量有关的函数，最简单是的线性费用函数，增大样本量可以提高估计量的精度，但与此同时调查的费用也增加了。

效率是指以最小的费用达到要求的精度或在给定费用的情况下达到最大的精度。