抽样调查的基本原理

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2
总体应具备同质性、大量性和差异性的特征。总体应具备同质性、大量性和差异性的特征。在抽样调查中，在抽样调查中，通常将反映总体数量特征的综合指标称为总体参数。常见的总体参数主要有：指标称为总体参数。常见的总体参数主要有：总体总和、总体均值、总体比率、总体比例。总体总和、总体均值、总体比率、总体比例。
11
第三节抽样误差
一、抽样调查中的误差来源误差就是调查结果与现象的实际结果之间的偏差。在抽样调查中，按照形成原因的不同，偏差。在抽样调查中，按照形成原因的不同，一般可将误差分成抽样误差和非抽样误差两大类。般可将误差分成抽样误差和非抽样误差两大类。抽样误差是用样本统计量推断总体参数时的误差，它属于一种代表性误差。误差，它属于一种代表性误差。抽样误差通常会随样本量的大小而增减；随样本量的大小而增减；影响抽样误差的因素还所研究现象总体变异程度的大小；有：所研究现象总体变异程度的大小；抽样的方式方法。式方法。
5
三、必要样本容量和样本可能数目样本中包含的抽样单元个数称为样本容量。样本中包含的抽样单元个数称为样本容量。样本容量与总体容量之比为抽样比，用f表示，即 f=n/N。 f=n/N。样本可能数目则是在容量为N 样本可能数目则是在容量为N的总体中抽取容量的样本时，所有可能被抽中的不同样本的个数。为n的样本时，所有可能被抽中的不同样本的个数。正确理解样本可能数目的概念，正确理解样本可能数目的概念，对于准确理解和把握抽样误差的计算、样本统计量的抽样分布、握抽样误差的计算、样本统计量的抽样分布、抽样估计的优良标准等一系列理论和方法问题都有十分重要的帮助。重要的帮助。
15
二、抽样估计的方法抽样估计的方法多种多样。抽样估计的方法多种多样。如果以估计中所依据的资料不同来区分，一般可以有简单估计、依据的资料不同来区分，一般可以有简单估计、比估计和回归估计等三种方法。比估计和回归估计等三种方法。简单估计是最简最基本的一种估计方法，单、最基本的一种估计方法，在实际中应用也最为广泛。为广泛。如果以估计结果的表示方式来区分，如果以估计结果的表示方式来区分，则抽样估计可以有两种形式，即定值估计和区间估计。估计可以有两种形式，即定值估计和区间估计。定值估计是指给所要估计的总体参数只给出一个明确的点估计值，同时确定出估计结果的误差。明确的点估计值，同时确定出估计结果的误差。
4
一般将反映样本数量特征的综合指标称之为统计量。统计量是n元样本的一个实值函数，统计量。统计量是n元样本的一个实值函数，是一个随机变量，统计量的一个具体取值即为统计值。个随机变量，统计量的一个具体取值即为统计值。主要的样本统计量有：样本总和、样本均值、主要的样本统计量有：样本总和、样本均值、样本比率、样本比例。本比率、样本比例。
12
非抽样误差不是由于抽样引起的。非抽样误差不是由于抽样引起的。它又包括调查误差、无回答误差、调查误差、无回答误差、抽样框误差以及登记性误差。同抽样误差相反，误差。同抽样误差相反，非抽样误差是随着样本量的增加而增大的。量的增加而增大的。
wk.baidu.com
13
二、抽样误差的计算由于从一个总体中抽取容量为n的样本时，由于从一个总体中抽取容量为n的样本时，有多种可能的结果，所以样本指标是随机变量，多种可能的结果，所以样本指标是随机变量，而总体指标是唯一确定的常量，总体指标是唯一确定的常量，故抽样误差也是一个随机变量。个随机变量。
6
四、抽样框抽样框是在抽样前，为便于抽样工作的组织，抽样框是在抽样前，为便于抽样工作的组织，在可能条件下编制的用来进行抽样的、在可能条件下编制的用来进行抽样的、记录或表明总体所有抽样单元的框架，在抽样框中，明总体所有抽样单元的框架，在抽样框中，每个抽样单元都被编上号码。抽样单元都被编上号码。抽样框可以是一份清单( 名单抽样框) 抽样框可以是一份清单 ( 名单抽样框 ) 、一张地图(区域抽样框) 也可以是一段时序。地图(区域抽样框)，也可以是一段时序。
7
第二节样本统计量的抽样分布
标准的统计问题为：总体未知，标准的统计问题为：总体未知，故需从总体中抽取一个较小的、花费不多的随机样本，抽取一个较小的、花费不多的随机样本，然后构造样本统计量，并以其估计总体。样本统计量，并以其估计总体。问题是用样本指标估计总体指标的可靠程度如何? 估计总体指标的可靠程度如何 ? 为此要研究样本统计量的抽样分布。计量的抽样分布。在此之前，在此之前，有必要先回顾一下有关正态分布的知识。知识。
三、置信区间一般地说，若估计量是无偏的，且呈正态分布，一般地说，若估计量是无偏的，且呈正态分布，则参数θ的置信度为1 则参数θ的置信度为1-α的置信区间可以写成 )， ( θˆ -KS( θˆ )， θˆ +KS( θˆ )) 当调查变量的总体方差σ 已知时，当调查变量的总体方差σ2已知时，上述置信区间可表示为 )， ( θˆ -Zα/2S( θˆ )， θˆ + Zα/2S( θˆ )) 即取K= 即取K= Zα/2, Zα/2的值可以通过查正态分布双侧临界值表加以确定。双侧临界值表加以确定。
第二章
第一节第二节第三节第四节
抽样调查的基本原理
有关基本概念样本统计量的抽样分布抽样误差抽样估计
1
第一节有关基本概念
一、总体总体也叫母体，它是所要认识对象的全体，总体也叫母体，它是所要认识对象的全体，是具有同一性质的许多单位的集合。具有同一性质的许多单位的集合。组成总体的每个个体叫做单位。个体叫做单位。在抽样以前，在抽样以前，把总体划分成若干个互不重叠并且能组合成总体的部分，且能组合成总体的部分，每个部分称为一个抽样单不论总体是否有限，元，不论总体是否有限，总体中的抽样单元数一定是有限的。抽样单元又有大小之分，是有限的。抽样单元又有大小之分，一个大的抽样单元可以分成若干个小的抽样单元，最小的抽样单单元可以分成若干个小的抽样单元，元就是每一个个体。元就是每一个个体。
18
当调查变量的总体方差σ2未知时，则用相应当调查变量的总体方差σ 未知时，的样本方差s 代替。然而，的样本方差s2代替。然而，这时有可能会使误差产生一个增量，特别是当样本较小时，生一个增量，特别是当样本较小时，更容易影响估计的精度。因此，为了保持1 的置信度，计的精度。因此，为了保持1-α的置信度，就应该适当加宽置信区间，即用较大的t 值来代替Z 适当加宽置信区间，即用较大的tα/2值来代替Zα/2。此时，置信区间就可以表示成此时， )， ( θˆ -tα/2 ( θˆ )， θˆ +tα/2 ( θˆ )) 其中t 的值可通过查t分布临界值表来确定，其中tα/2的值可通过查t分布临界值表来确定， ˆ 在这里自由度为df=n df=n)表示以代替σ 表示以s 在这里自由度为df=n-1；( )表示以s2代替σ2后 θ ˆ 对抽样标准误S( )的估计量的估计量。对抽样标准误S( )的估计量。 θ
14
第四节抽样估计
抽样估计就是以样本的实际资料为依据，抽样估计就是以样本的实际资料为依据，计算一定的样本统计量，算一定的样本统计量，并按照一定的方法对总体参数作出估计和推断。参数作出估计和推断。一、抽样估计的特点第一，第一，抽样估计在逻辑上运用的是归纳推理而不是演绎推理。而不是演绎推理。第二，第二，抽样估计在方法上运用不确定的概率估计法而不是运用确定的数学分析法。估计法而不是运用确定的数学分析法。第三，第三，抽样估计的结论存在着一定程度的抽样误差。样误差。
19
四、估计量的优良标准要判断一种估计量的好环，要判断一种估计量的好环，仅从某一次试验的结果来衡量是不够的，而应从多次重复试验中，的结果来衡量是不够的，而应从多次重复试验中，看这种估计量是否在某种意义上最接近于被估计参数的真值。一般地说，参数的真值。一般地说，用抽样指标估计总体指标应该有三项基本要求或标准：标应该有三项基本要求或标准： 1.无偏性 2.一致性 3.有效性
8
一、正态分布一个正态分布完全由总体的理论平均数和理论方差这两个参数所决定。如果一个随机变量X 方差这两个参数所决定。如果一个随机变量 X 服从正态分布，则其分布的密度函数(分布曲线方程) 正态分布，则其分布的密度函数(分布曲线方程)为：
1 f (x) = e σ 2π
1 x−µ 2 − ( ) 2 σ
( X -σ, X +σ)概率是 68.27％； ( X -2σ, X +2σ)概率是 95.45％； ( X -3σ, X +3σ)概率是 99.73％； ( X -1.96σ, X +1.96σ)概率是 95％。
10
二、抽样分布样本统计量是个随机变量。样本统计量是个随机变量。把根据所有可能样本计算出来的某一统计量的数值分布，样本计算出来的某一统计量的数值分布，称为抽样分布。样分布。抽样分布理论是理解抽样调查基本原理的基础。的基础。常见的抽样分布有极限分布和精确分布两类。两类。极限分布也叫做大样本分布，极限分布也叫做大样本分布，它只有正态分布一种形式。布一种形式。精确分布又叫做小样本分布，精确分布又叫做小样本分布，其前提是总体服从正态分布，它是正态分布的导出分布，服从正态分布，它是正态分布的导出分布，包括分布、分布和χ 分布等形式。有t分布、F分布和χ2分布等形式。
20
本章内容讲授结束
16
区间估计则是在一定的概率保证程度(置信度) 区间估计则是在一定的概率保证程度(置信度) 之下，根据允许的最大绝对误差范围，之下，根据允许的最大绝对误差范围，确定出一个以点估计值为中心的区间作为总体待估参数θ 个以点估计值为中心的区间作为总体待估参数 θ 的估计区间。的估计区间。
17
3
二、样本样本是由从总体中所抽选出来的若干个抽样单元组成的集合体。抽样前，样本是一个n维随机变元组成的集合体。抽样前，样本是一个 n 属样本空间；抽样后，样本是一个n元数组，量，属样本空间；抽样后，样本是一个 n 元数组，是样本空间的一个点。是样本空间的一个点。抽样的效果好不好，抽样的效果好不好，依赖于样本对总体是否有充分的代表性。充分的代表性。影响样本代表性的因素有以下几个方面：方面：总体标志值分布的离散程度。 (1)总体标志值分布的离散程度。抽样单元数的多少(或称样本容量的大小) (2) 抽样单元数的多少 ( 或称样本容量的大小 ) 。抽样方法。 (3)抽样方法。
ˆ) = E (θ − θ ) 2 ˆ MSE (θ
一般情况下，一般情况下，均方误差说明了估计量的准确性，而估计量的方差则表明了其估计结果的精确通常将精确度定义为估计量方差的倒数，性。通常将精确度定义为估计量方差的倒数，而将准确度定义为估计量均方误差的倒数。将准确度定义为估计量均方误差的倒数。
9
任何正态分布，它的样本落在任意区间(a,b) 任何正态分布，它的样本落在任意区间 (a,b) 内的概率等于直线x=a x=b，横坐标和曲线f(x) x=a，内的概率等于直线 x=a ， x=b ，横坐标和曲线 f(x) 所夹的面积( 可由正态分布概率积分表查得) 所夹的面积 ( 可由正态分布概率积分表查得 ) 。经计算,正态总体的样本落在：计算,正态总体的样本落在：