抽样调查基本原理与样本设计doc

抽样调查的类型

概率抽样：依据概率论的基本原理，按照随机原则进行，避免抽样过程中的人为误差。

非概率抽样：依据研究者的主观意愿、判断、是否方便等抽取对象，误差较大，样本代表性无法保证。

简单随机抽样

系统抽样

概率抽样分层抽样

整群抽样

多阶段抽样

抽样方法

偶遇抽样

非概率抽样判断抽样

定额抽样

滚雪球抽样

非概率抽样方法

1、偶遇抽样/方便抽样/自然抽样

“碰到谁就选谁”。

这种抽样方式表面上看与简单随机抽样一样。实则不然。因为它不能保证总体中的每一个元素都有同样的被抽取机

会。那些最先碰到、最容易碰到、最方便碰到的对象具有比其他对象大得多的机会被抽中。

因此，不能用偶遇抽样得到的样本来推论总体。

在人大东门过街天桥上拦截过往人群而开展的各式调查，以及在当代商场拦截顾客而进行的有关化妆品、服装等各式商品的调查，都属于这样的抽样。来自这种抽样的结果，当然，也不能用来推论“全国”、“北京市”，哪怕是“人大附近”的任何群体的情况。

有些话题因为比较敏感、涉及隐私等原因，很多人不愿意接受调查。但总会有一些人比较“积极”，“志愿”配合，接受调查。这种调查，也属于方便调查，其结果也不能用于推断总体。

这种抽样方式常常用来作为试验问卷的手段。

2、判断抽样/目标抽样/立意抽样/主观抽样

研究者依据自己研究的目标和主观的分析来选择和确定研究对象的抽样方法。

这种抽样首先要确定抽样标准。

比如，为了体现某个群体的先进性，我们在调查时刻意去收集这个群体中那些特别先进的成员进行调查。

由于标准的确定带有较大的主观性，故，用这种方法得到结果与研究者的经验、对研究对象的熟悉程度等有较大关系。所得结果不能用于推论总体。

我们过去十分熟悉的“典型调查”，实际上属于这种主观调查。

这种抽样方式可以用来作为试验问卷的手段；

还常用来对总体中的次级集合进行比较研究：比如，要对“左派”和“右派”进行对比分析，可以选择一个被认为是“左派”的群体，和一个被认为是“右派”的群体，对该两群体的成员进行抽样调查。这种调查的结果并不能对“左派”或“右派”进行完整的描述，但通过它们还是可以大致了解二者间的一般差别。

作为研究“异常案例”的手段：比如，为了对学生中“孤独”者进行研究，可以在学生集会上选取那些“躲在角落”的学生或者那些根本不参加学生活动的学生进行调查。

3、定额抽样/配额抽样

根据总体中具有不同特征的成员的比例来确定样本在相应特征方面的分布。

配额抽样假定：（1）只要类型划分较细，那么，同一类型中的每一个个体都是同质的，因而无须采用随机抽样。（2）只要类型划分合理，且分配给各类的名额符合总体中各类人员的分布，那么，样本就可以准确地反映总体。

上述假设在理论上是成立的。但是，在实施过程中却难以做到。（1）难以获得有关总体的众多属性分布材料；或者，即使能够获得相应的材料，在选择样本时也无法一一顾及总

体的所有属性，而只能照顾到总体的某些主要属性。（2）有关总体分布变化的最新信息常常难以获得，因而配额分配的合理性就难以保证，这可能成为影响调查结果的致命因素，

例如，1948年美国总统选举预测。选举之前，盖洛普等民意测验机构预测杜威会战胜杜鲁门成为总统，但他们失败了。原因之一是：他们使用了配额抽样的调查方法，所使用的选民配额比例是1940年人口普查所提供的选民结构数据。但是，二战促使大量美国人从农村涌入城市，从1940年到1948年，美国人口的城乡结构发生了巨大变化。从分城乡人口的政治倾向来看，农村人口更支持共和党，城市人口更支持民主党。这样，当调查者在使用过时的人口城乡结构资料进行配额调查时，就可能错误地预测选举结果。

4、滚雪球抽样

先收集目标群体少数成员的资料，然后再向这些成员询问相关信息，找出他们认识的其他总体成员。

这种方法产生的样本代表性受到怀疑，因而它常常用于探索性研究。在特定总体的成员难以找到时，这种方法是最合适的抽样方法。比如，对吸毒者、同性恋者、非法移民、地下组织成员的调查等的调查。

概率抽样：

一、常见的几种概率抽样方式：

简单随机抽样

概率抽样的最基本形式。

按等概率的原则从含有N个元素的总体中随机抽取n个元素组成样本（N>n）。

常见的实施方式：

1、抓阄方式

步骤：

获取全体总体元素（N个）――》给每个元素编上号――》将这些号置于一装置中，并搅拌均匀――》从装置中随便抽出n个元素，这些元素构成样本。

2、使用随机数表

抓阄方式在日常生活中比较常见。但是，当N很大时，要完成所有元素逐一书写号码、置于装置中、搅拌均匀等工作是十分困难的，甚至是不可能的。

这时，一个更可行的方式是使用随机数表。

获取全部总体元素（抽样框）――》将所有元素一一按顺序编号――》用随机数表抽选n个元素：首先确定随机数表的起点；确定如何选择随机数的原则；按照确定的原则，在

随机数表上逐一获取随机数，与抽样框的编号比对，符合者被选中，直到选取n个元素为止。

简单随机抽样是概率抽样的理想类型，没有偏见，简单易行，并且在用样本统计值对总体参数进行推断时，有很健全的规则。

简单随机抽样的不足：总体元素的数量太大时，采用这种方式不仅费时，工作量大，而且费用很高；更重要的是，当总体异质性大时，使用这种方式的误差比较大。

课下实践：

我们都很希望知道自己的英文（中文）词汇量。如何测定自己的词汇量呢？

试设计用简单随机抽样方法测定自己英文词汇量的抽样方案。

分层抽样

1、什么是分层抽样？

所谓分层抽样，就是这样一种抽样方法：先将总体按照一种或者几种特征分为若干个子总体（类、群），每一个子总体称为一层；然后从每一层中随机抽取一个子群体；将这些抽中的子群体合在一起构成总体的样本。

分层的原因：社会现象的复杂性和异质性。

2、分层抽样的优点：

第一，当总体异质性较高时，分层能够克服简单随机抽样的弱点：从不同的层中抽取样本，保证了样本结构与总体结构的尽可能相似，从而改善了样本对总体的代表性。

第二，有些调查不仅要了解总体的情况，而且还要了解某些类别的情况。分层抽样可以同时满足这两个方面的要求，因为我们可以将每个层本身当成一个总体来处理。

3、如何分层？

常用的分层原则是：

（1）以所要研究的变量或主要相关变量作为分层的标准。

分层的理想变量是所要研究的变量。

比如，要研究家庭购书量，最好的办法是以年购书量为标准，将家庭分为购书0－4本，5－9本，10－14本，15－19本，20本以上等类别，然后从这些类别中抽取家庭。

但是，在实际的抽样设计过程中，这种办法不可行，因为在调查结束之前，我们基本无法了解家庭的购书情况，因而也就无从进行这样的分层。

有效的替代办法是：寻找与研究变量高度相关的变量，依据这样的变量来对总体进行分层。比如，研究发现，家庭成员的受教育程度高低以及家庭中是否有在校学生这两个变量与一个家庭的购书两有十分密切的关系。于是，我们可以根据这两个变量来对总体进行分层。

（2）分层时，力争使层内同质性高，层间的异质性高。

（3）选用那些已有明显层次区分的变量作为分层变量。比如，以往的社会研究发现，性别、年龄、受教育程度、职业等对很多社会属性都有直接的影响作用。因此，这些变量常常作为分层的依据。

4、分层的比例问题

在不同的层中抽取多少元素，这是分层抽样需要解决的一个重要问题。

常见的办法有二：等比例分层抽样、不等比例分层抽样。

（1）等比例分层抽样：

各层抽中的元素数量的比例关系与总体中各层的数量的比例关系相同。

优点：样本的结构与总体的结构相同，便于推断。

（2）不等比例分层

有时候（比如，总体中某层的元素数量极少时），不适合进行等比例分层，此时，特别小的层被抽中的元素数会特别少，无助于对这种层的了解。

此时，可以进行不等比例分层抽样：人为地加大规模较小的层的元素被抽中的机会。这样得到的样本就可能使我们对规模较小的层也有充分了解。

但是，这样得到的样本的结构与总体的结构不一致，不能直接进行推断。

如果要用这样的样本推断总体，需要样本进行加权处理。

等距抽样（系统抽样 / 机械抽样）

将构成总体的单位进行编号排序后，计算出抽样间距，然后按该固定的间距抽取个体的号码来组成样本的抽样方法。

抽样步骤：

（1）制定抽样框：给总体的每一个单位按顺序编号。

（2）计算抽样间距K：抽样间距K等于总体规模除以样本规模。

（3）在抽样框的最前面K个单位中，采用简单随机抽样的方法抽取一个单位（设该单位的编号为A），该单位为样本的第一个单位。

（4）在抽样框中，自A开始，每隔K个单位抽取一个单位，A，A+K ，A+2K，……, A+(n-1)K。

（5）上述被抽中的单位构成样本。

等距抽样的优点：与简单随机抽样相比，它更简单易行，特别是当总体规模及样本规模都比较大时，这一优点更显突出。正因为这一优点，在实际的调查研究中，等距抽样比简单随机抽样更多地被采用。

使用等距抽样的注意事项：相对于研究的变量而言，总体元素的排列顺序应该是随机的，而不能出现与研究变量相关的规则分布。否则，抽样结果有可能出现系统的偏差。

出现这类偏差的典型情况是：

情况1：总体元素的排序是按照研究变量的高低（大小）进行的。一旦N和n确定后，K也确定了。这时候，起点A 可能发挥重要作用。在一个依据研究变量从大到小顺序配料的抽样框中，起点A越靠近整个抽样框的起点，则抽选的样本的均值越大；反之，起点A越远离整个抽样框的起点，则抽选的样本的均值越小。

情况2：在抽样框中，总体元素的排列存在与抽样间距相同的周期性分布。

比如，在人民大学的1栋教师住宅楼中，有18层，每层有8套住房。在每层中，1号住房面积最小，2号略大，3号更大，……，8号最大。

101，102， (108)

201，202，……208，

……

1801，1802，……1808。

一个研究者希望研究该居民楼住户的家庭规模、家庭结构等。他用等距抽样的方式选择调查的住户。

恰好他的抽样间距K等于每层的套房数8。

这个时候，他的抽样就面临比较严重的调整了。

为什么？

原来，人民大学当初在“分配”住房时，是严格按照职称（职务）来进行的。总起来讲，职称（职务）高的人是年龄比较大，资格比较老的人，他们集中地住在各层的7或8号房。而年龄小、资历浅的人则高度集中在各层的1或2号房。与此同时，年龄又高度地和一个人的家庭结构、家庭规模等相关。

这样，这个研究者不论是抽中1号房，还是8号房，抑或别的任何一组住房，都会出现系统的偏差。

所以，在使用等距抽样的方法时，在编制抽样框的过程，要特别注意避免上述情况的出现。

整群抽样

整群抽样与前3种抽样方法最大的不同在于：前3种抽样的抽样单位就是总体的元素；而整群抽样的抽样单位是由总体元素构成的群体。

抽样步骤：先从总体中随机抽取一些由元素构成的群体，然后由所抽中的群体的全部元素构成样本。

比如，在研究人民大学学生消费情况时，先从全校1000个班级中抽选10个班级，然后对这10个班级的全体同学进

行调查。

整群抽样的优点：由于在整个抽样过程中，组织者接触和处理的对象由总体元素变为群体，这样就使得资料收集工作的难度大大降低，从而降低了工作的复杂程度，节省调查费用。

也因为如此，在实际的社会调查研究中，整群抽样方法应用非常普遍。

整群抽样的不足：样本的分布面不广，样本对总体的代表性相对缩小。

为了克服上述不足，解决的办法之一是适当地扩大被调查的群的数量。

另外，在抽样设计时，要精心研究总体的特点。当构成总体的各个群体之间的差别不大，而群内差异较大时，适宜于选用整群抽样方法。（与此形成对比的是，在分层抽样中，我们主张，在层间差异大、层内差异小时，适合于采用分层抽样。）

多阶段抽样：在抽选样本时不是一次直接从总体中抽取，而是分两个或两个以上的阶段来进行。

二、概率抽样程序

1、界定总体

所确定的总体必须是研究目标所要考察的那一个总体。

如果总体确定存在问题，抽样结果也将面临问题。

反例：1936年美国总统大选，《文摘》杂志的调查：

从电话号码薄和车牌登记薄中抽出1000万人进行调查。收回200万份调查表，结果为：候选人兰登得票57%，候选人罗斯福得票43%。==》兰登将获胜。

实际大选结果为：罗斯福得票61%。

《文摘》杂志为什么失败？

原因之一：他们所界定的总体有问题！有电话或汽车的人不等于全部选民。而且，1936年正是美国大萧条的后期，有电话或汽车的人与全体选民之间的差距可能更大。他们确定的这个总体排斥了穷人，而正是穷人在后来的选举中选择了罗斯福（穷人们支持罗斯福的新经济政策！）。

2、确定抽样框

确定抽样框很重要。

但在实际调查中又非常困难。

对抽样框的基本质量要求是：抽样单位与抽样框清单号码要一一对应：

第一，一个抽样单位不能对应两个及以上号码；

第二，一个号码不能对应两个及以上抽样单位；

第三，抽样框不能有遗漏（有些抽样单位未被包括到抽样框中）；

第四，抽样框中不能有空缺（清单号码不能有空号）。

3、决定抽样方案

依据研究目的、现实条件等确定选择何种抽样方法。

4、抽取样本

需要注意的问题是：按照既定方案抽取的样本，在调查中不能任意更改。

2000年普查中“长表”部分出现的一个问题就是极少数普查员在普查时更改长表被调查户，从而可能导致部分长表项目失真。

5、评估样本质量

样本评估：对样本的质量、代表性、偏差等进行检验和衡量。

主要方法是对一些重要指标的总体参数值和样本统计值进行比较。

例如：2000年全国老年人生活状况一次性调查：第一阶段调查所得60岁以上老年人口的性别比为138 (58％：42％)。这一结果表明该次调查在样本选择上出现了较大的偏差，必然影响其代表性。（后来的补救办法：一是在性别比严重偏高的省重新进行调查；二是在对数据的统计分析中，总体的相应结构做权数加以调整。）

三、样本设计的原则