复杂样本的方差估计

复杂样本的方差估计
复杂样本的方差估计

复杂样本的方差估计

一、引言对复杂样本按照理论直接推导出方差估计一则十分困难, 二则从节约费用和时间的角度考虑代价也很大。通常采用的替代方法主要有随机组法、平衡半样本方法、刀切法和自助法等。本文研究采用基于逆抽样设计的方法对复杂样本进行方差估计, 并将该方法与传统方法进行比较, 探讨其适用条件。

二、逆抽样设计方法简介

逆抽样设计(Inverse Sampling Design, 简称ISD 方法) 的思想由Hinkins 等提出,Rao 等研究了该方法的一些理论性质。该方法的基本思想是, 通过选择一个抽样机制,对调查得到的复杂样本进行二次抽样。二次抽样机制的设计抵消了初始复杂样本中的分层、整群抽样等效应, 使得按照该抽样机制抽选出来的子样本具有简单随机样本结构, 后续分析基于这些具有简单随机样本结构的子样本进行。下图为该方法的流程示意图:

用数学符号来表示, 假设进行某项调查,按照某种复杂抽样设计从一有限总体中抽出了一个大小为n 的初始样本Sp, 其中下标p(primary) 表示初始样本。现希望从Sp 中抽出一个大小为n' 的子样本s', 使得s' 被抽中的无条件概率p(s') 和简单随机抽样

匹配,也即

由于抽取子样本s' 是一个两步的过程, 由全概率公式, 有

其中,p(sp)为初始样本sp被抽中的概率,为sp已被抽选出来

的前提下,s' 被抽中的条件概率。

如果不依赖于sp, 则由(1) 式, 有

(2)式即为从初始样本sp 中选择s' 的抽样机制。

逆抽样设计方法包括了如下基本的三个步骤:

(1)逆掉初始样本的复杂抽样设计, 使得能够产生具有简单随机样本结构的子样本;

(2)重复执行逆抽样设计, 以产生多个这样的子样本;

(3)基于每一个子样本数据进行分析, 最后再以适当的方式进行合并。

三、逆抽样设计方法下的估计量构造

假设总体目标参数为e,基于某复杂抽样设计p(sp),调查得到一个复杂样本sp。若存在对应于该复杂抽样设计p(sp)的逆抽样设计,并将该逆抽样设计独立地重复执行B次,得到了B个具有简单随机样本结构的子样本(=1,2,⋯,B) 。令和表示由第个子样本得到的总体参数估计和该估计量的方差估计, 则e 的估计可构造为如果是e 的无偏估计, 那么也同样会是e 的无偏估计。

将基于初始复杂样本Sp的总体参数e的估计记为,则的方差估计可构造为:

由(4) 式, 如果无偏, 则也是无偏的。

四、与传统方法的比较研究

作为一种新的复杂样本方差估计方法, 与现有方法相比较有哪些特征?本文用一个基于实际调查数据的模拟, 对这些问题进行分

析。

(一)数据说明

模拟分析的数据取自2007中国公民科学素质调查, 为全国数据。中国公民科学素质调查是通过全国性的抽样调查, 来了解分析我国18—69周岁的公民对科学的理解和对科学技术的态度等与公民科学素质相关问题的状况。调查的核心指标是中国公民在科学术语、科学观点、科学方法和科学与社会关系四个方面的具备比例和对应的得分。在对这四个方面的具备比例和对应的得分进行适当加权之后, 得到一个总的科学素质具备比例和得分。调查的总样本量是10080,通过对出现单元无回答的问卷进行删除处理,最终得到的有效问卷共1 0059份。

以该数据集作为模拟总体, 将各省份数据按照东、中、西部地区划分成三层, 东、中、西部的划分情况如下: 东部地区包括北京、天津、河北、辽宁、上海、江苏、浙江、福建、山东、广东、广西、海南1 2个省、自治区、直辖市; 中部地区包括山西、内蒙古、吉林、黑龙江、安徽、江西、河南、湖北、湖南9 个省、自治区;西部地区包括重庆、四川、贵州、云南、西藏、陕西、甘肃、宁夏、青海、新疆10 个省、自治区。将这三层以按比例分配的方式从这个模拟总体中抽出5%的样本。关注的指标有两个, 一个是总体均值,为科学素质指数的总平均得分,用来表示;另一个是总体比率,为科学方法项平均得分与总平均得分之比, 用来表示, 其中为科学素质指数科学方法项的平均得分。模拟总体的层结构及各层抽取的样

本量等信息如表1 所示:

(二)抽样方法的逆设计

由于采用分层抽样从模拟总体中抽取了一个初始样本, 由逆抽样设计方法的三个步骤, 首先需要逆掉产生初始样本的分层抽样设计。

对于本例,

Nh 和nh 分别表示第h 层中的总体和样本单元数,h=1,2,3 。我们的目的是要从sp 中抽取一个大小为n' 的子样本s', 使得, 其中。显然,n' 不能大于min(nh), 因为子样本s' 可能会全部来自于h 层中的某一层。令n=(,,)T 表示子样本s' 中各层的样本单元数,其中O ww n',,则由⑵ 式,有:观察(5)式背后的概率机制,得出所采用的分层抽样方法的逆设计步骤如下:

(1)决定所要抽取的子样本大小n',n' 最大不能超过

min(nh);

(2)从超几何分布中产生3个随机数{,,},其中++=n',

且,,>0;

(3)在第h层内,从nh个初始样本中以不放回简单随机抽样的方式抽出一个大小为的子样本, 各层之间的抽取相互独立;

(4)合并从各层中抽得的子样本。如此便从初始样本sp 中抽

得了一个大小为n' 、完全意义上的简单随机样本, 从而实现了初始抽样的逆设计

(三)对应的ISD估计量

设将上述分层抽样的逆设计独立地重复执行了B次,得到了

B个大小为n'的子样本(=1,2,⋯,B)。则总体均值的ISD估计为

的方差估计为

其中,和分别表示抽出的第个子样本中X的均值和方差。

总体比率R的ISD估计为

的方差估计为

其中,和的定义如前所述,和分别表示第个子样本中Y的均

值和方差,则表示第个子样本中X和Y的协方差。

(四)模拟比较从四个方面将逆抽样设计方法与传统复杂样本的

方差估计

方法进行对比: 精度、灵活性、管理因素和泄密控制。对比的方法有: 随机组法(Random Group) 、刀切法(Jackkinfe) 和自助法(Bootstrap) 。实际中泰勒级数法和平衡半样本方法也有广泛的应用, 但泰勒级数法本身并不能单独使用, 需要结合其它方法; 而平衡半样本方法则最常用于分层的、每层抽两个单元的设计, 这与本文模拟分析所采用的抽样设计并不一致, 因而这里没有将泰勒级数和平衡半样本方法纳入比较范围。

1.精度

从模拟总体中抽出大小为503的样本,基于此样本,用不同方法对研究变量进行方差估计。为了更好地对不同方法的效果进行对比,尽量避免由于抽样的随机性造成的影响,进行100次独立重复抽

相关主题
相关文档
最新文档