抽样调查样本量的确定_侯志强
抽样调查与样本数量的确定和抽样方法讲解

本r4 抽取的概率为P4
总体中个体被抽取的概率P, 要求P=P1 ·P2 ·P3 ·P4 =n/N
28.04.2020
P4 =
n/N P1 ·P2 ·P3
27
多阶段抽样举例
某省对农民家庭的调查,要从1700万户中抽取1000户。每户被抽 取的概率是P=n/N=0.1/17005.8810-5 。假定,总体按地理位置分 成东、西、南、北四层,第一阶段抽取30个县,第二阶段从每个 样本县中抽取5个乡,第三阶段从每个样本乡中抽取3个村,第四 阶段从样本村中按P4抽取若干户。前三个阶段可以采用等距抽样 或比例抽样。假定南部某村有250户,该村所在的乡有05万户,而 乡所在的县有10万户,该县所在的南部有320万户。
28.04.2020
6
总体定义举例
例:2000年中国18岁以上的女性(人口统计) 例:最近一个月出国旅游的上海居民(使用情况) 例:已经看到过某广告的消费者(认知度) 例:复旦大学在读的各类MBA学生
总体定义不清楚的举例
例:患高血压的上海居民
例:有神经性疾病的上海居民
例:上海的个体户
例:深圳市高收入的家庭
抽样框的作用是它使我们在抽样中,避免了直接对总体中 的个体这具体的对象进行抽样,借助相应的表达单元在书面就 可以进行抽样了(可以纸上谈兵)。
如,抽取复旦大学在读的MBA学生样本,就可以用他们的 花名册来进行。
28.04.2020
5
调查对象总体
在调查前,先要确定要调查的对象总体,即要对对象总体进行定 义,明确他们是由什么样的个体组成,他们的特征什么。
23
等距抽样问题及处理
抽样样本量的确定_图文

除了估计值的精度以外,调查实际操作的限制条件 也许是影响样本容量的最大因素。
客户提供的经费能支持多大容量的样本 整个调查持续的时间有多长 调查需要多少访员 能招聘到的访员有多少
1.给定精度水平下样本容量的确定
样本容量的大小与调查估计值所要求的精度紧密相关
数据是通过抽样而不是普查收集的,就会产生抽样误差。 精度是由抽样方差来测量的。 随着样本容量的增加,调查估计值的精度也会不断提高。
表3: 显示了不同规模的总体在P=0.5时,使用简单随机 抽样,且以误差界限为0.05、置信度为95%的标准估计P 所需的样本容量
总体规模 50 100 500
1,000 5,000 10,000 100,000 1,000,000 10,000,000
所需的样本量 44 80 222 286 370 385 398 400 400
抽样方差的几种计量方法
标准误差 误差界限 变异系数
抽样调查中样本容量的确定,也经常会使 用一种或多种这样的计量方法来对精度进行说 明。
非抽样误差
非抽样误差会对调查估计值的精度产生显著的影响 非抽样误差的大小与样本容量的大小却没有很大的关系 确定样本容量,就不必将这些误差作为影响因素加以考虑 为确保调查结果的准确性,应该消除非抽样误差,至少应尽 可能使之最小化
对于小规模总体,通常必须调查较大比 例的样本,以取得所期望的精度。因此,实 际操作中,对小规模总体经常采用普查而不 是抽样调查。
6.样本设计和估计量
计算样本容量时,通常假定采用的抽样方式为简单随 机抽样(SRS)。所以,如果样本容量计算公式假定为简单随 机抽样。
分层抽样得到的估计值通常比相同规模的简单随机抽 样更精确,或者至少 一样精确。 整群抽样得到的估计值,其精度通常低于使用同一估 计量进行估计时的简单随机抽样的估计值的精度
《市场调查与预测》第十章 抽样估计与样本量确定(45P)

样本比例的中心极限定理
设从比例为π、方差为 2的一个任意总体中随机抽取容量为n的样
本,当n足够大(n 30)时,样本比例的抽样分布近似服从比例为π、
方差为(1-)/n的正态分布。
2019/5/15
18
正态分布及标准值Z
正态分布有以下几个重要特征:
正态曲线呈钟形,曲线下的面积等于1,表明它 包括了所有的调查结果。
LOGO
第10章 抽样估计与样本量确定
2019/5/15
1
【教学目标】
了解加权的含义与加权的基本形式 理解平均数的抽样分布与抽样误差 理解样本比例的抽样分布与抽样误差 了解正态分布及标准值的含义 掌握样本量问题的考虑和计算
2019/5/15
2
开篇案例
“百脑汇”调研中的样本计划问题
“百脑汇”在中国华北几个省市经营连锁电脑超市,它希 望获得更多关于其现有客户特点方面的信息。接受调研委 托的李文博士指派班上的王洪同学为样本计划小组的负责 人。
抽样分布:样本统计量的抽样分布,是指在重复选取容
量为n的样本时,由该统计量的所有可能取值形成的相 对频数分布。抽样分布是一种理论分布。
抽样分布提供了样本统计量长远而稳定的信息,是进行 推断的理论基础。
表10-6 各种分布的均值、比例和标准差的符号表示
分布类型
均值
比例
标准差
总体分布
样本分布 X
抽样分布
x
P
S
P
SX SP
2019/5/15
15
样本均值的抽样分布
样本均值的抽样分布,是 指在重复选取容量为n的 样本时,由样本均值的所 有可能取值形成的相对频 数分布。
抽样样本量的确定

SSI
精品
第10页
2.误差界限
误差界限是标准误差的倍数 标准误差是估计量抽样方差的平方根 乘数因子取决于在调查估计中所希望
达到的置信水平(或称置信度)
SSI
精品
第11页
对于估计值 t, 在给定其标准误差 t的情况下, 置信区间的公式可以表示为:(t-zt t+zt)
这里 zt是误差界限, z是对应于某一置
SSI
精品
第37页
如果误差界限设为e,那么:
e z (1 n ) S Nn
这里Z是对应于某一置信水平的标准正态分布的分位点值。
解n,得:
n
e2
z2S 2 z2S 2
N
SSI
精品
第38页
为确定n,需要知道
期望的误差界限e 置信水平 对应的标准正态分布的分位点值 Z 总体规模 N 总体方差 S2
精品
第3页
分层抽样分配样本的标准
1. 总的样本容量事先确定 2. 估计值要求达到的精度预先给定
SSI
精品
第4页
影响调查样本容量的因素
调查估计值所希望达到的精度 调查估计值所能允许的误差。 估计量的抽样方差较小,估计值是精确的 估计值的精度越高,所需的样本容量就越大 影响精度的因素也同样影响着样本容量的大小 所研究指标在总体中的变异程度 总体的大小 样本设计和所使用的估计量 无回答率
标准误差误差界限变异系数抽样方差的几种计量方法抽样调查中样本容量的确定也经常会使用一种或多种这样的计量方法来对精度进行说非抽样误差非抽样误差会对调查估计值的精度产生显著的影响非抽样误差的大小与样本容量的大小却没有很大的关系确定样本容量就不必将这些误差作由于我们将在某一给定误差界限下阐述样本容量确定的过程所以有必要复习一下臵信区间的概念
在社会调查中,如何确定样本规模?

在社会调查中,如何确定样本规模?
具体每一个社会调查研究究竟应当选择多大规模的样本,主要取决于以下几点:
(1)总体规模:根据抽样原理,样本规模与总体规模越接近,样本值与总体值就越一致,抽样误差就越小,样本的代表性也越强。
但是当总体规模大到一定程度以后,样本规模的加大就不是那么必要了。
因此,对于10000个单位以下的总体来说,样本规模应尽可能大;而对于那些超大型的总体,则可以按照一两万个单位的总体规模来确定样本规模,以避免不必要的浪费。
(2)抽样的精确性:从理论上说,样本的精确度越高越好,但相应的样本规模也要越来越大,这就意味着调查者的时间和人财物力的消耗也要增加好几倍。
而对于大多数社会调查研究来说,实际上并不要求太高的精确度。
因此,调查者应当根据必要性和可能性,适当地确定样本精确度,决不能因一味追求精确度的提高而拼命扩大样本规模,否则将导致巨大的浪费。
(3)总体的异质性程度:要达到同样的精确度,在同质性较高的总体中抽样时,样本规模可以小一些;在异质性较高的总体中,样本规模则应该大一些。
为了提高了样本反映总体的精确度,人们通常用分类抽样的方法将总体划分为不同的类别或层次,让这些不同类别或层次在样本中都有代表,并使得抽样误差中基本不存在类与类之间的误差成
分,而只存在类内各单位之间的误差成分,其效果相当于缩小了总体的异质性程度和单位分布的不均匀状态。
(4)调查者所拥有的经费、人力、物力和时间:尽管从样本的代表性、抽样的精确性考虑,样本规模应尽可能大,但一般调查的经费、人力、物力和时间总是有限的。
样本规模的大小必须与之相匹配,否则或抽样无力完成,或根据抽样结果所做的调查研究无力进行。
生物实验中的抽样方法选择和样本大小确定

生物实验中的抽样方法选择和样本大小确定在生物实验中,抽样方法选择和样本大小的确定是非常重要的步骤。
正确选择抽样方法和确定合适的样本大小,可以保证实验结果的准确性和可靠性。
本文将探讨生物实验中的抽样方法选择和样本大小确定的一些常见策略。
一、抽样方法选择1. 简单随机抽样:简单随机抽样是最基本的抽样方法,每个样本有相同的机会被选中。
这种方法适用于总体分布均匀的情况,如人群中的某种基因型分布。
2. 分层抽样:分层抽样是将总体划分为若干个层次,然后从每个层次中随机选择一部分样本。
这种方法适用于总体具有明显特征的情况,如不同年龄段的动物群体。
3. 系统抽样:系统抽样是按照一定的规则从总体中选择样本,如每隔一定间隔选择一个样本。
这种方法适用于总体中没有明显特征,但有一定的规律性的情况,如植物群落中的植株分布。
4. 整群抽样:整群抽样是将总体分为若干个群体,然后随机选择其中的若干个群体进行抽样。
这种方法适用于总体中群体间差异较大的情况,如不同地理区域的动物种群。
二、样本大小确定确定合适的样本大小是保证实验结果准确性的关键。
样本大小的确定应考虑以下几个因素:1. 效应大小:效应大小是指所研究的变量之间的差异程度。
效应越大,需要的样本大小越小;效应越小,需要的样本大小越大。
2. 显著水平:显著水平是指在假设检验中所允许的错误发生的概率。
常见的显著水平有0.05和0.01。
较严格的显著水平要求需要更大的样本大小。
3. 统计方法:不同的统计方法对样本大小的要求有所不同。
例如,方差分析需要更大的样本大小,而相关分析需要较小的样本大小。
4. 实验设计:实验设计的复杂程度也会影响样本大小的确定。
复杂的实验设计需要更大的样本大小。
在确定样本大小时,可以使用统计软件进行计算,根据以上因素输入相应的参数,得出合适的样本大小。
总结起来,生物实验中的抽样方法选择和样本大小确定是确保实验结果准确性的重要步骤。
正确选择抽样方法和确定合适的样本大小可以提高实验的可靠性和可重复性。
中国劳动力调查样本轮换方法的新改进

作者: 侯志强[1,2]
作者机构: [1]北方工业大学统计系,北京100041;[2]中国人民大学统计学院,北京100872出版物刊名: 统计与决策
页码: 4-5页
主题词: 中国劳动力调查;样本轮换;两层次样本轮换;轮换模式
摘要:中国劳动力调查采用的两层次样本轮换方法不能使得村级单元的样本量在轮换过程中保持恒定不变,因而需要改进:文章在笔者先前提出的改进方法的基础上,对劳动力调查样本轮换方法作了进一步改进。
在新的改进方法中,村级单元的轮换模式为16in,小区的轮换模式为8in。
抽样检验中样本容量的确定

抽样检验中样本容量的确定林鹤凯、宋明展、杨琨、孔京生摘要: 在实验工作中,常遇到如何把握采集样本的容量的问题,本文结合实际,从三个方面论述如何求出一个既满足精度,又相对较小的样本容量。
求解的主体思想,为区间估计,即给定区间范围从而求得最佳n 值。
另外,在假设检验中,本文从生产和检验双方考虑,得到两种不同的容量取值方法,在生产中具有一定意义。
根据所做估计,本文用matlab 编程进行了仿真实验。
经失败实验的统计,当n>30的阶段实验,失败实验的次数小于5次,可以说实验的成功率为95%,置信水平在0.05下的实验,从而仿真结果还是真实可信。
关键词:参数检验、假设检验、最佳检验、样本容量、matlab 实验验证 1、问题简述:在实验工作中常遇到问题是如何把握采集样本的容量,如果容量n 太小,估计问题不那么精确,检验问题就不太可靠;容量太大,又会造成人力物力的浪费。
在此我们的就是要结合实际求出一个即满足精度又相对较小的样本容量。
2、问题求解[1]:● 参数估计1、 点估计以正态总体为例,有 ,已知 为其样本。
a 的无偏估计为 ,且 ,若要求 ,其中,δ 是已知常数,则 ,从而使估计可以更精确 。
2、区间估计以正态总体 为例有: 当 已知有 ()/~(0,1)a N ξσ-当 未知有a 的置信水平为1-α的区间估计分别为:● 假设检验(以参数检验为主)1、 参数检验基本思想:2~(,)N a ξσ12n ,,,ξξξ⋅⋅⋅⋅⋅⋅ξ2()/D n ξσ=()D ξδ<2/n σδ>2(,)N a σσσ11()/~n a S t ξ--____/2/2((a u uααξξ+≥≥-____/2/2(1)((1)(t n a t n ααξξ+-≥≥--假设总体(,)N a ξσ,其中σ已知,a 未知,显著水平为α(1)提出假设,如:原假设:a aH = 备选假设1:a a H ≠(2)构造统计量,该统计量满足一个已知的分布,如:__0()/(u a ξσ=-(3)构造拒绝域,如:(0,1)u N 从而/2u u α>2、样本容量n 确定的本质: (1)区间估计(2)根据接收域去求n 的范围,显然n 在满足的范围内越小越好3、原理及方法: (1)双侧检验: 1)假设总体(,)N a ξσ,其中σ未知,a 未知,显著水平为α原假设:a a H = 备选假设10:a a H ≠可以得置信水平为1α-的区间估计 ____/2/2(),()n n u u ααξσξσ⎛⎫-+ ⎪⎝⎭定义/2()n u ασ∆=为估计精度。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
新视角108 经济理论研究抽样调查样本量的确定侯志强1,2 吴启富3(1.北方工业大学,北京100041;2.中国人民大学统计学院,北京100872;3.首都经济贸易大学统计学院,北京100026)摘要:样本量确定是抽样调查中的一个重要内容。
确定样本量需要综合考虑费用与精度。
抽样方式也是影响样本量的一个重要因素。
简单随机抽样估计总体比例确定样本量需要同时考虑两个精度要求,即估计量方差上限与估计量离散系数上限。
分层随机抽样的样本量还受各层样本量分配方式的影响。
复杂抽样的样本量需要借助抽样设计效应才能计算。
样本量经过调整后才能满足实际调查的需要。
关键词:抽样调查;样本量;费用;精度;设计效应一、引言抽样调查是按照随机原则从总体中抽取部分个体进行观察并据此对总体参数作出一定可靠程度推断的科学。
抽取个体的数量称为样本量。
在一定抽样方式下,样本容量越大,估计精度就越高,所需费用也就越大。
因此,样本量受费用与精度的双重制约。
简单随机抽样样本量的确定是其它抽样方式样本量确定的基础。
在简单随机抽样中,经常需要估计几个总体比例,有些总体比例较大,有些则较小,但许多人总是根据估计量方差上限这个唯一的精度要求确定所谓的“保守”样本量,殊不知当所要估计的总体比例很小时,这个“保守”的样本量根本谈不上“保守”。
本文试图解决这个问题,并探讨其它抽样方式下样本量的确定问题。
二、简单随机抽样样本量的确定在简单随机抽样下,若给定费用要求,则可通过费用函数确定样本量。
通常的费用函数为C T =c 0+c 1n (1)其中,C T 表示总费用,c 0表示固定费用,c 1表示调查一个样本单元的平均费用,n 表示样本量。
那么,样本量为n =C T -c 0c 1 (2)通过式(2)可以确定样本量的上限,即总费用所允许的最大样本量,记为n U 。
简单随机抽样的样本量还可通过精度确定,通常规定估计量方差的上限。
例如,已知总体方差为 2,需估计总体均值X —,其简单估计量为样本均值x —,则在重复抽样条件下,估计量方差为D (x —)= 2n (3)若要求估计量x —的方差不许超过常数V ,则有2n≤V (4)从而样本量满足n ≥ 2V (5)通过式(5)可以确定样本量的下限,即精度所允许的最小样本量,记为n L 。
当n L ≤n U 时,样本量可取n L 与n U 之间的任何值;当n L >n U 时,必需认真权衡费用与精度,若费用更重要,则取n U ;否则,取n L。
若需要估计总体比例P ,则其简单估计量为样本比例p ,在重复抽样条件下,估计量方差为D (p )=P (1-P )n (6)若要求估计量P 的方差不许超过常数V ,则有P (1-P )n≤V (7)从而样本量满足n ≥P (1-P )V (8)容易知道,P (1-P )在P =0.5时取到最大值0.25,从而可得一个“保守”的样本量n a =0.25V (9)许多人正是根据式(9)来确定所谓的“保守”样本量,但对于较小的总体比例P ,这个“保守”样本量从估计量离散系数的角度看根本谈不上“保守”。
详述如下:已知估计量p 的离散系数为C V (p )=D (p )P =1-Pn P (10)从式(10)可以看出,当n 取“保守”的样本量n a 时,随着总体比例P 从1到0变化,估计量的离散系数C V (p )逐渐增加。
不难想象,当P 小到一定程度时,C V (p )将大到不能容忍的程度。
一个自然的修正方法是:除根据估计量的方差上限确定样本量外,再根据估计量的离散系数上限确定样本量,然后取两者中较大者。
设最小的总体比例P =P L ,限定估计量p 的离散系数不许超过常数C 。
则根据式(10),可得另一个“保守”的样本量n b =1-PC 2P L (11)这样,取这两个“保守”样本量的较大者,即n =m a x (n a ,n b ) (12)新视角经济理论研究109 则可同时满足估计量方差上限与估计量离散系数上限这两个精度要求。
当总体比例P 特别小且又得不到较可靠的估计p 时,利用式(9)或式(11)计算的样本量不太令人满意,这是因为n a 对于p 的波动非常敏感,p 的较小波动会导致n a 的较大波动。
逆抽样方法可以解决这个问题。
逆抽样方法要求事先确定一个较小的正整数m (m 越大,估计精度就越高),然后进行简单随机抽样,直到抽中m 个具有所考虑特征的单元为止。
设此时样本量为n ,容易知道,n 是一个随机变量,且近似服从负二项分布,其期望为E (n )=mP (13)三、分层随机抽样样本量的确定在分层随机抽样中,由于各层的总体方差不同,单位调查费用也不同,所以,各层样本量的分配既影响总费用又影响估计精度。
在样本量一定的情况下,要使估计量方差达到最小,可以证明各层的样本量应为n h =n W h S h c h∑L h =1W h S h c h (h =1,2,…,L ) (14)其中,h 为层的编号,L 为层的个数,n h 为第h 层的样本量,n 为总样本量,W h 为第h 层的总体单位数占各层总体单位数之和的比例,S h 为第h 层的标准差,c h 为第h 层每调查一个单位的平均费用。
假设总费用函数为C T =c 0+∑Lh =1n h c h (15)则将式(14)代入式(15)可解得总样本量为n =(C T -c 0)W h S h c h∑Lh =1W h S h c h (16)式(16)所确定的样本量既能满足总费用要求,又使得估计精度最高。
四、复杂抽样样本量的确定复杂抽样的估计量方差通常不容易用常规方法导出,因此,样本量就不能用常规方法得到。
事实上,对于复杂抽样,常采用下式计算样本量n c =n ·d e f f (17)其中n c为复杂抽样的样本量,n 为相同精度下简单随机抽样的样本量,d e f f 为复杂抽样的设计效应,其定义为d e f f =所考虑复杂抽样估计量的方差相同样本量下简单随机抽样估计量的方差d e f f 通常采用经验法或历史数据法等估计。
以美国的C P S (C u r r e n t P o p u l a t i o n S u r v e y )为例说明复杂抽样样本量的确定过程。
C P S 抽样设计极其复杂。
其主体部分是分层两阶段抽样,第一阶段采用分层P P S 抽样抽取初级抽样单元(P S U ),第二阶段采用整群系统抽样抽取最终抽样单元(U S U )。
当实际产生的U S U 过大时,还需要进行第三阶段抽样。
C P S 对全国失业率估计的精度要求是离散系数不许超过1.8%。
假定全国失业率的下限P L =5%则根据式(11)可以确定简单随机抽样的样本量n b =58642人,即需调查58642个经济活动人口。
按每户两个经济活动人口折算,共需调查29321户家庭。
根据历史数据,d e f f 值在1.3左右,因此,C P S 的样本量应为29321×1.3=38118户。
五、样本量的调整抽样调查不可避免存在无回答现象,所以,实际调查中,必须对上述样本量进行调整。
调整公式为调整后样本量=调整前样本量有效回答率在C P S 中,假如有效回答率为75%,则调整后样本量应为50824户,这个数字与实际调查的样本量5万户十分接近。
六、结论样本量的确定过程本质上是费用与精度的权衡过程。
在简单随机抽样需要估计多个总体比例时,对于较大的总体比例,宜用估计量方差上限确定样本量,对于较小的总体比例,宜用估计量离散系数上限确定样本量,然后取这两个样本量中的较大者作为调查的样本量。
分层随机抽样的样本量还受各层样本量分配方式的影响。
复杂抽样的样本量等于相同精度下简单随机抽样的样本量乘以复杂抽样的设计效应。
实际调查中必须按照有效回答率对样本量进行调整。
参考文献:[1]孙山泽.抽样调查[M ].北京:北京大学出版社.2004.2.[2]倪家勋主译,孙山泽校译.抽样调查[M ].北京:中国统计出版社,1997.10.[3]冯士雍,倪加勋,邹国华.抽样调查原理与方法[M ].北京:中国统计出版社,1998.3.[4]金勇进,蒋妍,李序颖.抽样技术[M ].北京:中国人民大学出版社,2002.6.[5]杜子芳.抽样技术[M ].北京:中国统计出版社,2004.11.[6]W i l l i a mG .C o c h r a n ,《S a m p l i n g T e c h n i q u e s 》[M ].3r d e d i -t i o n ,J o h n W i l e y &S o n s ,1977.[7]U .S .C e n s u s B u r e a u a n d B u r e a u o f L a b o r S t a t i s t i c s ,C u r r e n tP o p u l a t i o n S u r v e y ,D e s i g n a n dM e t h o d o l o g y [J ],T e c h n i c a l P a p e r 63R V ,2002.3.作者简介:1.侯志强,北方工业大学统计学系讲师,中国人民大学统计学院博士,研究方向:抽样技术。
2.吴启富,首都经济贸易大学统计学院副教授,首都经济贸易大学硕士毕业,研究方向:经济统计。