中国人民大学题库问题详解-抽样技术

中国人民大学

同等学力申请硕士学位课程考试试题

课程代码：123105 课程名称：抽样技术与方法

试题卷号： 1

名词解释

非概率抽样

非概率抽样又称为非随机抽样，是调查者根据自己的方便或主观判断抽取样本的方法，其最主要的特征是抽取样本时并不依据随机原则。包含有判断选样、方便抽样、自愿样本、配额抽样等。

最优分配

在分层随机抽样中，对于给定的费用，使估计量的方差V(y_st)达到最小，或者对于给定的估计量方差V，使总费用达到最小的各层样本量的分配，称为最优分配。

PPS抽样

是有放回的按规模大小成比例的概率抽样。其抽选样本的方法有代码法、拉希里方法等。

PPS 抽样是按概率比例抽样，属于概率抽样中的一种。是指在多阶段抽样中，尤其是二阶段抽样中，初级抽样单位被抽中的机率取决于其初级抽样单位的规模大小，初级抽样单位规模越大，被抽中的机会就越大，初级抽样单位规模越小，被抽中的机率就越小。就是将总体按一种准确的标准划分出容量不等的具有相同标志的单位在总体中不同比率分配的样本量进行的抽样。

自加权样本

指调查中每个样本单元的设计权数是相同的，也就是说每个单元最终入样的概率是相等的。在不考虑非抽样误差的情况下，可以认为自加权样本完全代表总体，因为每个样本单元都代表了总体中相同数目的单元。（此时可以使用标准统计方法来进行点估计。此外，自加权样本往往方差较小，样本统计量更稳健）

简述题

有人认为“抽样调查除了调查误差以外，还有抽样误差，因此抽样调查不如全面调查准确”，请对此加以评价。

一项调查的误差来自多个方面，抽样调查因为只调查总体中的一小部分，用部分的调查结果推断总体，所以存在着抽样误差，但这只是所有误差中的一部分。对于抽样调查，误差包括抽样误差和非抽样误差。有些情况下，全面调查由于参与的人员众多、涉及范围大，因此虽然没有抽样误差，但在数据采集和数据汇总整理的过程中却有产生其他误差的更大可能性，所以调查规模并不是越大越好。与全面调查相比，抽样调查的工作量小，这就为使用素质较高的工作人员并对他们进行深入的培训创造了条件。此外，如果能对调查过程实施更为细致的监督、检查和指导，可以使抽样调查所得到的数据质量比同样的全面调查数据质量更高，从而使调查的总误差更小。

试对分层抽样中的联合比率估计和分别比率估计方法进行比较。

如果每一层都满足比率估计量有效的条件，则除非R h=R，都有分别比率估计量的方差小于联合比率估计量的方差。但当每层的样本量不太大时，还是采用联合比率估计量更可靠些，因为这时分别比率估计量的偏倚很大，从而使总的均方误差增大。

实际使用时，如果各层的样本量都较大，且有理由认为各层的比率R h差异较大，则分别比率估计优于联合比率估计。当各层的样本量不大，或各层比率R h差异很小，则联合比率估计更好些。此外，联合比估计不像分别比那样需要已知每层的辅助信息X h。

计算题

某住宅区调查居民的用水情况，该区共有N =1000户，调查了n =100户，得y _

=12.5吨，s 2

=1252，有40户用水超过了规定的标准。

要求计算：

（1）该住宅区总的用水量及95%的置信区间；

（2）若要求估计的相对误差不超过10%，应抽多少户作为样本？（3）以95%的可靠性估计超过用水标准的户数；

（4）若认为估计用水超标户的置信区间过宽，要求缩短一半应抽多少户作为样本？

【解】已知N=1000,n=100,f= =

=0.1, y _

=12.5, s 2

=1252

（1）估计该住宅区总的用水量Y 为：Y ^

=Ny _

=1000*12.5=12500吨估计该住宅区总的用水量Y 的方差和标准差为：

V(Y ^

)=N 2

v(y _

)=N

s 2

=10002

*1252=11268000

s(Y ^

)=SQRT(v(Y ^

))= ≈ 3356.7842

因此，在95%的置信度下，该住宅总的用水量的置信区间估计为： Y ^

±z 0.025s(Y ^

)=12500±1.96*3356.7842≈12500±6579

即，我们可以以95%的把握认为该住宅总的用水量在 5921吨～19079吨之间。

（2）根据题意，要求估计的相对误差不超过10%，即r ≤0.1，假定置信度为95% 根据公式：n 0=

≈3078

由于

=3.078>0.05,所以需要对n 0进行修正：

≈755

若要求估计的相对误差不超过10%，应抽不少于755户作为样本。

或：n 0=1/(1/N+d 2/(z α/22s 2)) ≈755 （d=ry _

=1.25）

（3）令超过用水标准的户数为A ，样本中超过用水标准的户数为a = 40，估计超过用水标准的比例p 为：p=a/n=40/100=40%

估计超过用水标准的比例p的方差和标准差为：

v(p)=p(1-p)=*40%*60%≈0.002182

s(p)==≈4.67%

在95%的可靠性下，超过用水标准的比例p的估计区间为：

p±z0.025 s(p)=40%±1.96*4.67%

因此，我们有95%的把握认为，超过用水标准的比例p在30.85%-49.15%之间，超过用水标准的户数的点估计为：1000*40%=400户，超过用水标准的户数在1000*30.85%户～1000*49.15%户之间，即309户～492户之间。

或：p±z0.025代入得(0.3089,0.4911)

（4）若要置信区间的宽度缩小为原来一半，即要求应抽取的户数n满足方程

z0.025 = 1/2 * z0.025≈0.045766代入数据解得

n=306.25≈306户。

为估计市区人均居住面积，按与各区人数呈比例的概率从12个区中抽了4个区，经调查的数据如下：

^【解】设居住面积为Y，人口数为X，N=12，n=4，f=n/N=1/3。人均居住面积点估计值为R =r= = ≈4.363米2/人.

s y2=== [(2835326-4.363*604746)2+(1670996-4.363*456035)2+(1835226-4.363*470981)2+(2895 058-4.363*585257)2)≈ 101742707182.336373

V(R^)=V(r)≈=≈ * ≈0.24215

s(R^)=≈0.492

因此置信度为95%的区间估计为：4.363±1.96*0.492,即(3.3987,5.3273) 试题卷号： 2

名词解释

概率抽样

也称随机抽样，是指依据随机原则，按照某种事先设计的程序，从总体中抽取部分单

元的抽样方法。（概率抽样就是使总体中的每一个单位都有一个已知的、不为零的概率进

入样本的抽样方法。）

具体说来，概率抽样具有以下几个特点：（1）按一定的概率以随机原则抽取样本。（2）

每个单元被抽中的概率是已知的，或是可以计算出来的。（3）当用样本对总体目标量进行

估计时，要考虑到该样本（或每个样本单元）被抽中的概率。也就是说，估计量不仅与样

本单元的观测值有关，也与其入样概率有关。

概率抽样最主要的优点是，可以依据调查结果计算抽样误差，从而得到对总体目标量

进行推断的可靠程度。从另一方面讲，也可以按照要求的精确度，计算必要的样本单元数目。

因此，概率抽样可以排除调查者的主观影响，抽选出较其他方法更具代表性的样本。事后分层

又称抽样后分层，是对一个总体先进行简单随机抽样或系统抽样，抽取一个样本量为

n的样本，然后对样本中的单元按某些特征进行分层并进行分层抽样估计。

πPS抽样

是不放回的与单元大小成比例的概率抽样（该抽样方法是在总体抽取样本时，借助总

体单元大小或规模（M i）的辅助变量来确定单元入样概率（Z i）或包含概率（πi, πij）的

方法）

随机化回答

在调查中当一个问题是敏感性的或高度私人机密性的，则就会发生拒绝回答或回避回答的情况。为了获得对这类问题总体比例进行估计的资料，就需要采用随机化的方式来获取回答信息并进行估计的技术，我们称之为随机化回答。

简述题

什么是抽样框？简述抽样框的类型和作用，以及良好抽样框的标志。

总体的具体表现是抽样框。通常，抽样框是一份包含所有抽样单元的名单，给每一个抽样单元编上一个号码，就可以按一定的随机化程序进行抽样。抽样框又称“抽样框架”、“抽样结构”，是指对可以选择作为样本的总体单位列出名册或排序编号，以确定总体的抽样范围和结构。设计出了抽样框后，便可采用抽签的方式或按照随机数表来抽选必要的单位数。若没有抽样框，则不能计算样本单位的概率，从而也就无法进行概率选样。

抽样框有不同类型：名录框（总体中所有单元实际的名录清单，如在校学生名单、企业名册、电话号码簿等）、区域框（其单元由地理区域构成的集合，抽样总体由这些地理区域组成）、自然框（把相关的自然现象概念（如时间、距离等）作为抽样框使用）。抽样框对抽样调查具有十分重要的作用。1）首先，抽样框是代表总体进行抽样的，抽样框的缺陷会造成目标总体与调查总体不一致，在估计中出现偏差；2）其次，抽样框中的联系资料是用来确定总体单元所在的位置和联系地址的，如果出现错误，可能会产生无法联系而造成无回答；3）抽样框中的辅助资料可以用来进行分层等以改进抽样设计或改进估计方法，以提高抽样效率。因此完备的抽样框是做好抽样调查的前提条件。

良好抽样框的标志是具有充分的辅助信息、目标总体和抽样总体完全重合，也就是目标总体单元和抽样总体单元完全呈一一对应的关系。具体来讲：1）关联性，指抽样框与目标总体的对应程度，要求两者之间尽可能地关联；2）准确性，涵盖误差尽可能小，分类是否准确？联系资料是否完整？辅助资料是否齐全等；3）时效性，抽样框是否及时更新；4）最后还可以从建立抽样框的费用进行评估。

对多阶段抽样中自加权的有关问题进行论述。

由于不等概率抽样往往不满足自加权，因此在多阶段抽样中，最后一阶按等概率（如SRS等）抽取最终单元（USU），其它阶段采用PPS，且各阶段样本量对不同单元都等于常数，则所得样本是自加权的。

计算题

从某农村的200户中随机等概率（无放回）抽取50户，发现其中8户有自行车，这8户人数分别为3，5，3，4，7，4，4，5人。根据这一资料要求：

（1）估计该村具有自行车的户数及其估计精度；

（2）估计该村具有自行车的总人数及其估计精度。

【解】由已知得：N=200,n=50,f=n/N=0.25总体中具有自行车户数的比例为P

（1）这次简单随机抽样得到的P的估计值p=8/50=0.16，即具有自行车的户数估计值Y^ =Np=0.16*200=32. 所以总体比例P在95%情况下的置信区间可以写为:

p±z0.025其中v(p)=≈ 0.002057，v(Y^)=v(Np)=N2v(p)=82.28

故P的置信区间：

0.16±1.96*=0.16±0.0889。所以户数的置信区间为：

200*(0.16±0.0889)即[14,50]

（2）有自行车家庭人数M，则n0=8, m_==4.375, 从而具有自行车的总人数估计值为M^=Y^m_=32*4.375=140。

s2=≈1.696

则V(m_)=s2=*1.696=0.159，因此V(M^)=V(Y^m_)=Y^2V(m_)=322*0.159=162.816

s(M^)=≈13

某城市共有1000家餐馆，分为大中小三层，现预估计在餐馆就餐的人数，采用抽样调查，根据以往资料

（1）若欲估计就餐总人数的误差不超过4000人，可靠性为95%，采用最优分配应抽多少家餐馆作为样本（假设每层每户的调查费用相等）；

（2）若不按比例抽样在数据上比较复杂，其费用相当于调查50家餐馆，因此从效益上看改为按比例抽样是否值得？

【解】根据如上表格按中、小、大依次分层：N1=300,N2=600,N3=100,N=1000，S12=2500,S22=400,S32=1000

（1）总人数绝对误差限d y=4000，所以y_st的绝对误差限为d=d y/N=4. W1=0.3,W2=0.6,W3=0.1考虑每层每户调查费用相等，所以使用内曼分配，从而抽取餐馆数：

n=??

= ≈≈ 173

即应抽取173家餐馆作为样本。

（2）如果采用比例分配，则

n0=??

=≈≈207

由于n0-n=207-173=34<50，所以从效益上看改为按比例抽样更值得。

试题卷号： 3

名词解释

配额抽样

是将总体中的各单元按一定标准划分为若干类型，将样本数额分配到各类型中，从各类型中抽取样本的方法则没有严格限制，一般采用方便抽样的方法抽取样本单元。

设计效应

为一个特定的抽样设计（包括抽样方法以及对总体目标量的估计方法）估计量的方差与相同样本量下不放回简单随机抽样（SRSWOR）的估计量的方差之比，即

Deff =所考虑的抽样设计估计量的方差/相同样本量下简单随机抽样估计量的方差如果deff < 1，则所考虑的抽样设计比简单随机抽样的效率高；反之，如果deff > 1，则所考虑的抽样设计比比简单随机抽样的效率低。deff对复杂抽样时确定样本量有很大作用，在一定精度条件下，简单随机抽样所需的样本量n’比较容易得到，如果可以估计复杂抽样的deff，那么复杂抽样所需的样本量为：n = n’*deff

整群抽样

将总体中若干个基本单元合并为组，这样的组称为群。抽样时直接抽取群，然后对中选群中的所有基本单元全部实施调查，这样的抽样方法称为整群抽样。

沃纳模型

沃纳模型论及总体是简单的二元总体，即总体中的每个单元或者属于A类或者不属于A类（即基于敏感特征设立两个对立的问题），除此之外，别无他属。

我们向被调查人员提出两个问题，要求其回答“是”或者“不是”，调查人员并不知道被调查者回答了哪个问题，只知道两个问题被提出的概率为P和1-P，这样就可以使被调查者确信其回答不会泄露本人隐私。

简述题

试述概率抽样，非概率抽样各自的特点、作用和局限。

概率抽样也称随机抽样，是指依据随机原则，按照某种事先设计的程序，从总体中抽取部分单元的抽样方法。概率抽样包括等概率抽样（单元之间被抽中的概率相等）与不等概率抽样两种。概率抽样有几个特点：1）按一定的概率以随机原则抽取样本。2）每个单元被抽中的概率是已知的，或是可以计算出来的。3）当用样本对总体目标量进行估计时，要考虑到该样本（或每个样本单元）被抽中的概率。估计量不仅与样本单元的观测值有关，也与其入样概率有关。概率抽样的优点：能得到总体目标量的估计值，并能计算出每个估计值的抽样误差，从而得到对总体目标量进行推断的可靠程度。另外，也可以按照要求的精确度，计算必要的样本单元数目。这两大优点为调查方案的评估提供了有力的依据。与非概率抽样相比，概率抽样比较复杂，对调查人员的专业技术要求高，调查费用较高，但其优点是其他调查方法无可替代的，所以概率抽样成为抽样调查中最主要的方式。

非概率抽样：抽取样本时不依据随机原则。常见的非概率抽样方法有：判断选样（由调查人员人为确定样本单元）、方便抽样（例如“拦截式”调查，比较适合探索性研究）、

自愿样本（比如网上调查）、配额抽样（将总体中的各单元按一定标准化分为若干类型，将样本数额分配到各类型中，从各类型中抽取样本的方法则没有严格限制，一般采用方便抽样的方法抽取样本单元）。非概率抽样的优点是操作简单，不需要抽样框，经济、快速，调查数据的处理也容易，所以有广阔的应用空间。非概率抽样的局限是不能计算抽样误差，不能从概率的意义上控制误差，样本数据不能对总体情况进行推断。同时由于抽取样本时具有较大的随意性，从而导致被调查单元间存在系统性差异。简述辅助信息在抽样调查中的作用。

在抽样调查中，辅助信息可以用于抽样的设计、目标量的估计，还可以用于调查数据的处理。

1）抽样设计：在抽样设计阶段，许多抽样方法都需要利用辅助信息。如分层抽样需

要利用辅助信息进行分层，把总体各单元按相应规则分到各个层中。好的分层应该做到去定合理的层数、层界，单元应该分别归属于哪层，每层样本量多少等（如不等概抽样中单元规模这个辅助信息）。可以说，进行任何抽样设计都需要辅助信息，抽样框是辅助信息集中的体现，辅助信息内容越多、质量越高，就为进行良好的抽样设计提供更多更好的素材，具有充分的辅助信息也是良好抽样框的重要标志。（有些辅助信息在抽样前不知道，事后分层等…） 2）估计：在抽样估计阶段（即估计量设计阶段），可以利用辅助信息改进估计方法，

提高估计的精度，这一点在比率估计和回归估计中表现明显（举例，如比率估计等引入辅助变量x ；事后分层等）

3）关于数据调整：一个是对入样单元进行权数的计算和调整；另一个是利用辅助信

息减小调查中无回答的偏差，提高了估计的精度。（如调查中男女比率差异，按性别辅助信息引入分层等）

计算题

为了解某小区住户的平均月支出（单位：元），在7000户家庭中按不放回简单随机抽样抽

出200户进行调查，并得到样本均值y _

=1800，样本方差s 2

=640000。（1）试估计该小区住户的平均月支出，并给出95%置信度下的区间估计。（2）若要求估计的相对误差不超过10%，则需抽出多少户家庭进行调查？【解】由已知得：N=7000,n=200, y _

=1800,s 2

=640000,s=800, f=n/N ≈0.02857

（1）该小区住户的平均月支出估计值为 =y _

=1800 v(y _

s 2

* 640000 ≈ 3108.576

95%置信度下的区间估计为：

y _

±z 0.025 = 1800±1.96* = 1800±109.28 因此区间估计为：[1690.72, 1909.28] （2）n 0= z 0.0252

* s 2

/(r 2y _

) =

≈ 75.88

则需抽取76户家庭进行调查。有下列数据

设n=1000

（1）采用按比例分层抽样的方法估计Y _

和P 并计算其标准误；

（2）采用奈曼分配的方法估计Y _

和P 并计算标准误；

（3）将按比例分配和奈曼分配与简单随机抽样相比能提高效率多少。【解】

（1）根据题中已知条件，采用按比例分层抽样的方法估计Y _

为：

=y _prop = ? ? =0.35*3.1+0.55*3.9+0.1*7.8=4.01

估计Y _

的方差和标准误差为： v prop (y _

st )=

? ?

≈

(0.35*22+0.55*3.32+0.1*11.32)≈0.0201585

s prop (y _st )= = ≈0.141981 估计P 及其方差和标准误差为：

p prop=

=0.35*0.54+0.55*0.39+0.1*0.24=0.4275

v(p prop)≈

???

≈(0.35*0.54*0.46+0.55*0.39*0.61+0.1*0.24*0.76)≈0.000218

s(p prop)==≈0.014765

（2）采用Neyman分配的方法估计Y_和P的方法和与（1）是一样的，即

=y_st=

=0.35*3.1+0.55*3.9+0.1*7.8=4.01

p prop=

=0.35*0.54+0.55*0.39+0.1*0.24=0.4275

但是采用Neyman分配估计Y_和P的方差的方法不同，分别为：

v(y_st)=

??2 -

≈(0.35*2+0.55*3.3+0.1*11.3)2≈0.013286

s(y_st)==≈0.115265

v(p st)≈

???

=(0.35* + 0.55* + 0.1*)≈0.000236

s(p st)===0.015362

（3）由于V srs(y_)=2≈(

????

)≈0.0201585+0.0017329=0.0218914

比例分配的设计效应为deff prop= v(y_prop)/ V srs(y_)=≈0.9208,所以与简单随机抽样相比比例分配能提高效率1-deff prop=7.92%；

内曼分配的设计效应为deff opt= v(y_st)/ V srs(y_)=≈0.6069，所以与简单随机抽样相比内曼分配能提高效率1-deff opt=39.31%.

试题卷号： 4

名词解释

目标总体和抽样总体

目标总体也可简称为总体，是指所有研究对象的总体，或者是研究人员希望从中获取信息的总体，它是研究对象中所有性质相同的个体所组成。

抽样总体是指从中抽取样本的总体。通常情况下，抽样总体应该与目标总体完全一致，但实践中两者不一致的情况却时常发生。

分层抽样

也叫类型抽样法，是将抽样单元按某种特征或某种规则划分为不同的层，然后从不同的层中独立、随机地抽取样本，将各层的样本结合起来，对总体的目标量进行估计。

交叉子样本

在抽样时，对同一个总体按照同样的抽样方法，独立或非独立地来进行两个或两个以上样本的抽取，并使得每个子样本对总体参数都提供一个有用的估计，则被抽取的子样本称为交叉子样本。交叉子样本方法最早是由印度统计学家马哈拉诺比斯(P.C.Mahalanobis，1936年)所提出，最初用于总体参数的估计，以后扩大应用于抽样和非抽样误差的估计。

逆抽样方法

针对样本中含有稀少项目很少或没有（设比例为P）的情况（调查产生比较大的偏差），事先根据调查精度和成本的要求，制定出样本中出现稀少项目的单元个数为n，然后一个一个地随机抽取样本，直到样本中具有这种属性的单元个数为n为止，然后对样本容量X 的分布及P的估计的方法。

简述题

说明总体方差和估计量方差各自的作用，以及它们之间的相互关系。

总体方差是未知的，但是确定存在的。估计量方差可以由样本数据计算出来，但只是总体的近似反映，未必等于真实值。

试述随机化回答技术作用、特点，谈谈你对随机化回答技术的理解。

在调查中当一个问题是敏感性的或高度私人机密性的，则就会发生拒绝回答或回避回答的情况。为了获得对这类问题总体比例进行估计的资料，就需要采用随机化回答技术。

其基本特点是1）被调查者对所调查的问题采取随机回答的方式，调查人员无法从被调查者的回答中得知对方是否具有某种特征。这样，就可以在一定程度上消除被调查者的担心和顾虑，使他们参与调查，并提供真实情况。2）另一方面，调查人员通过对所有调查结果的汇总。利用概率原理进行推算，又可以得到总体中具有该特征人数比例的估计值，从而实现调查的目的。因而，随机化回答技术被认为是对敏感性问题进行调查，并对总体的特征比例进行数量推算的有效方法。

个人对随机化回答技术有如下理解：1）从理论上讲，随机化回答技术既可以用于访问调查，也可以用于邮寄问卷等其他方式的调查。但是，随机化回答问卷的设计比其他一般性调查问卷的设计要复杂。例如，在邮寄问卷调查中，被调查者很可能因为看不懂问卷而不知如何回答，在访问调查中，调查人员可以详细地向被调查者说明随机化回答技术的原理，并讲解如何回答这种类型的问卷，必要时还可以进行示范，帮助被调查者理解和掌握。所以，与其他调查方法相比，访问调查在使用随机化回答技术方面有更多的便利条件。

2) 传统的随机化回答技术（如Warner）都是针对单变量数据的，其主要目的是为了获得具有敏感特性回答的概率估计。然而，被调查者的辅助信息却在一些情况下格外有用，以至于可以将其与肯定回答相联系。Maddala( 1983)以及Scheers和Dayton (1988)便将这些带有辅助信息的解释变量纳入随机化回答模型中。其优点在于可以减少标准误差，并可以确立协变量信息与敏感特性的总体概率之间关系。传统的随机化回答模型的另一个主要缺点是只能获得与总体水平有关的结论——总体概率的估计和相关置信区间。这与当时仅对单变量数据进行相关与无关随机化回答方法的发展目的一致，但却不能满足于调查者对单位水平参数的研究，这也导致无法对一些产生敏感特性的原因进行剖析。

此外在具体设计与操作上应该注意：1）要使被调查者充分理解这种方法的特点，特别是一定要让被调查者明白，他究竟回答的是哪一个问题，别人是不知道的，因此在正式抽取并回答问题前，要让被调查者作几次试验；2）所提问题必须简单明了，防止有不同的理解。3）在应用西蒙斯模型时，无关问题的选择特别重要。一定要隐蔽性强的，即调查人无从猜测被调查人对该问题回答的答案。

计算题

有下列数据

现令n=40，要求

（1）样本在各层中进行的按比例分配；

（2）样本在各层中进行的最优分配；

（3）计算最优分配较按比例分配的得益；

（4）计算按比例分配较简单随机抽样的得益。

【解】由已知得：L=3,n=40,N=

=100, f=n/N=40/100=0.4

（1）由n h=nN h/N=N h f 得n1=0.4*60=24, n2=0.4*30=12, n3=0.4*10=4,

V prop(y_st)=

=*(0.6*4+0.3*16+0.1*225)=0.4455

（2）由内曼分配n h= ??

?? * n，代入得

=60*2+30*4+10*15=390

n1=*40 ≈ 12.30 ≈ 12 n2=*40≈ 12.30 ≈ 12 n3=*40≈ 15.38 ≈ 15

V opt(y_st)=

??-

*(0.6*2+0.3*4+0.1*15)2-*(0.6*4+0.3*16+0.1*225)= 0.38025-0.297=0.08325 （3）由1,2得最优分配较按比例分配的得益为1- V opt(y_st)/ V prop(y_st)=1-≈81.31%

（4）由于S2≈

??+

,y_=

=(0.6*3+0.3*5+0.1*12)=4.5从

而简单随机抽样方差

V srs(y_st)=S2=

??+

= V prop(y_st)+

=0.4455+*(0.6*1.52+0.3*0.52+0.1*7.52)= 0.4455+0.10575=0.55125

按比例分配较简单随机抽样的得益为：1- V prop(y_st)/ V srs(y_st)=19.18%

要调查学生对某课程的兴趣问题，设我们将问题陈述为“我对该课程感兴趣”和“我对该课程不感兴趣”，对此问题我们采用沃纳模型处理，预先设定P=4/5,在接受调查并作出明确回答的320人中（假定被调查者如实回答问题），结果统计出回答“是”的人数为156人，请估计对该课程感兴趣学生比例的置信区间。

【解】按Warner模型，我们假定（p:卡片A的比例；1-p：卡片B的比例；n：样本量；n1：回答是的人数；n2：回答否的人数；πA：总体中具有卡片A特征的人数的比例；）

由已知得P=4/5, n=320，则

点估计式：π^A= () – () = * - *=-=≈ 0.4792

πA的方差估计量：

V(π^A)= π^A (1-π^A)/n + ≈ 0.000780+0.001389 = 0.002169

从而95%的区间估计式为π^A±Z0.025 = π^A±1.96*=

0.4792±0.09128，因此该比例的置信区间为[0.3879,0.5705]

试题卷号： 5

名词解释

抽样框

抽样框又称“抽样框架”、“抽样结构”，是指对可以选择作为样本的总体单位列出名册或排序编号，以确定总体的抽样范围和结构。设计出了抽样框后，便可采用抽签的方式或按照随机数表来抽选必要的单位数。若没有抽样框，则不能计算样本单位的概率，从而也就无法进行概率选样。

比例分配

= 或记为f h=f，在分层抽样中，若每层的样本量n h都与层的大小N h成比例，即?

h=1,2,…,L 则称样本量的这种分配方式为比例分配。（比例分配的分层抽样是一种等概率抽样）

系统抽样

将总体中的所有单元（抽样单元）按一定顺序排列，在规定的范围内随机抽取一个单元作为初始单元，然后按事先规定好的规则确定其他样本单元，这种抽样方法称为系统抽样。（典型的系统抽样是先从数字1～k中随机抽取一个数字r作为初始单元，以后依次取第r+k，r+2k，…单元。）

西蒙斯模型

是1967年由西蒙斯（Simmons）提出的。其设计思想仍是基于沃纳的相关问题随机化选答的思想，只是在设计中，改用无关的问题代替了沃纳模型中的敏感性问题的对立问题。通常选用与敏感性问题无关并且容易获得的样本特点作为无关问题进行提问（如生日、性别等）。比传统的‘去敏感化’技术更具有保密性，因此更容易获得调查者的配合，适宜于调查敏感性程度很高的问题。

简述题

什么是样本量？试对影响样本量的因素进行分析。

样本量又称“样本容量”，指一个样本的必要抽样单位数目。在组织抽样调查时,抽样误差的大小直接影响样本指标代表性的大小,而必要的样本单位数目是保证抽样误差不超过某一给定范围的重要因素之一。（样本量直接影响抽样误差、调查的费用、调查所需的时间、调查访员的数量以及其他一些重要的现场操作的限制条件。样本量过大，会造成人力、物力和财力的浪费；样本量过小，会造成抽样误差增大，影响抽样推断的可靠程度。）因此,在抽样设计时,必须决定样本单位数目,因为适当的样本单位数目是保证样本指标具有充分代表性的基本前提。

影响样本容量的因素：研究目的、个体变异、检验水准、对精确度的要求、（把握度/置信度）等。具体描述为：

1）抽样推断的可靠程度。要求推断的可靠程度越高，概率度的数值越大，抽样单位数也就要求多些；反之，则可少抽一些。

2）总体标志变异程度。方差大，需要多抽一些；方差小，可少抽一些。

3）极限误差的大小。极限误差大可以少抽些，极限误差小则应多抽些。

4）抽样方法与组织方式。在相同条件下，重复抽样需要多抽一些，不重复抽样可少抽一些。

5）实际调查运作的限制（人力、物力和财力的可能条件）。客户提供的经费能支持多大的样本？调查持续的时间有多长？需要多少访员？能招聘到的访员有多少？

在确定调查最终所需的样本量时，还必须考虑样本量计算统计科普公式没有涉及到的这些限制。

试述在什么情况下需要采用不等概率抽样，并举例说明。

不等概抽样适用于如下情况：

1）抽样单元在总体中所占的地位不一致。例如，对某市商业销售额进行调查时，以商场为抽样单元。虽然大型或特大型的商场数量不多，但占总销售额的份额较大；而小商店数量多，市场份额却不大。对于这种情况，将大型商场和小商店同等对待并不合理；

另外，由于规模和管理水平的原因，对大型商场的调查往往比较容易，可以做得细致一些，而对小商店的调查往往比较困难，也没有必要对占市场份额不大的这部分单元花太大的精力做过多的调查，因此在调查时，大型商场应该处于更重要的地位。

2）调查的总体单元与抽样总体的单元不一致。例如某大型单位准备对职工家庭情况进行调查，一种自然的办法是以人事部门的职工花名册作为抽样框进行抽样，该单位中的少数家庭有两名职工在该单位工作，如果对职工进行简单随机抽样，则双职工家庭被

抽中的概率大，而调查者希望对家庭进行等概率抽样。除了对抽样框进行整理，将双职工家庭中的一名成员从抽样框中剔除，还可以对职工采用不等概抽样，一种做法是对每名职工记录其家庭成员在该单元工作的人数，然后对每名职工按与人数成反比的概率进行抽样。

3）改善估计量。不等概抽样可用于对估计量进行改善，例如简单随机抽样比率估计量是

渐进无偏的，要使其成为无偏估计，只要每个大小为n 的样本被抽中的概率与其辅助变量的和成比例（例如水野法）

，这时的比率估计量就是无偏估计量，这个样本并不是简单随机样本，而是一个不等概抽样获得的样本。

不等概抽样除了应用于上述几种情况，还广泛应用于整群抽样、多阶段抽样中初级单元规模相差较大的情形。

不等概抽样的优点主要是大大提高了估计精度，但使用它有前提条件，即必须要有说明每个单元规模大小的辅助变量来确定每个单元入样的概率，这在抽样设计及估计时都是必须的。

计算题

某住宅区调查居民的用水

某镇在2000户家庭中随机抽选36户家庭调查生活费用支出，以y 表示食物支出费用，x

表示总支出费用，得恩格尔系数（食物支出在总支出中所占的比例），r=y _/x _

=41.7%，y 与

x 的样本变异系数分别是c y =0.09，c x =0.085，y 与x 的相关系数ρ^

=0.79，给定置信度95%，求恩格尔系数的区间估计。

【

解】由

已知得：

r=0.417,c y =0.09,c x =0.085, ρ

=0.79,N=2000,n=36,f=n/N=36/2000=0.018 V(R ^

)=V(r)≈

≈ 0.00001536

从而恩格尔系数95%置信度的区间估计为：r ±z 0.025 =0.417±1.96* 即[0.4093, 0.5478]

试题卷号： 6

名词解释

总体参数

描述总体特性的指标称为总体参数，简称参数。总体的均值、方差等都是总体参数。（总体参数4种类型总体均值、总体总值、总体比例、总体比率等）内曼分配

分层随机抽样中，各层中每个单位费用一样（即C h =C ）时样本单位的最优分配方法。设n h 为各层的样本含量，N h 为h 层单位总数，S h 为h 层标准差，n 为样本总含量(固定)，内曼(Neyman)1934年证明，当n h =nN h S h / ? ?? 时，这种分配为最优分配即V(y _

st ) 达到最小值。不等概抽样

不等概率抽样是指在抽取样本之前给总体的每一个单元赋予一定的被抽中概率（最常用的是按总体单元的规模大小来确定抽选的概率）。不等概率抽样分为放回与不放回两种情况。直线等距抽样

假设总体单元数为N ，样本容量为n ，N=nk ，且总体中的N 个单元已按某种确定顺序编号为1,2，…，N 。抽样程序是先从k 个单元编号中随机抽出一个单元编号，然后每隔k 个单元编号抽出一个单元编号，直到抽出n 个单元编号为止，则这种等距抽样称为直线等距抽样。