样本量的确定

样本量的确定
样本量的确定

样本量的确定

北京广播学院新闻传播学院

调查统计研究所

二零零一年五月

沈浩

本讲主要内容

如何计算简单随机抽样的样本量确定

如何实现分层抽样中各层样本单位数的分配样本容量的确定

样本量=费用+精度 (函数)

确定样本容量,需要处理好预定的精度与现有经费,同时也要考虑资源和时间等限

制条件,最终的样本量确定是在上述因素之间的权衡关系。分层抽样分配样本的标准

总的样本容量事先确定

估计值要求达到的精度预先给定

影响调查样本容量的因素

调查估计值所希望达到的精度

调查估计值所能允许的误差。

估计量的抽样方差较小,估计值是精确的

估计值的精度越高,所需的样本容量就越大

影响精度的因素也同样影响着样本容量的大小

所研究指标在总体中的变异程度

总体的大小

样本设计和所使用的估计量

无回答率

客户提供的经费能支持多大容量的样本

整个调查持续的时间有多长

调查需要多少访员

能招聘到的访员有多少

除了估计值的精度以外,调查实际操作的限制条件也许是影响样本容量的最大因

素。

11>(给定精度水平下样本容量的确定样本容量的大小与调查估计值所要求的精度紧密相关

数据是通过抽样而不是普查收集的,就会产生抽样误差。

精度是由抽样方差来测量的。

随着样本容量的增加,调查估计值的精度也会不断提高。标准误差

误差界限

变异系数

抽样方差的几种计量方法

抽样调查中样本容量的确定,也经常会使用一种或多种这样的计量方法来对精度进

行说明。

非抽样误差

非抽样误差会对调查估计值的精度产生显著的影响

非抽样误差的大小与样本容量的大小却没有很大的关系

确定样本容量,就不必将这些误差作为影响因素加以考虑

为确保调查结果的准确性,应该消除非抽样误差,至少应尽可能使之最小化由于我们将在某一给定误差界限下,阐述样本容量确定的过程,所以有必要复习一下置信区间的概念。

对于具有正态分布的估计量来说,95%的置信区间意味着在同样的条件下,反复抽样100次所得的100个样本中,有95个样本的估计值所确定的区间包含总体真值,这个区间以样本的估计值为中心,半径为1.96倍的标准误差。

置信区间

2(误差界限

误差界限是标准误差的倍数

标准误差是估计量抽样方差的平方根

乘数因子取决于在调查估计中所希望

达到的置信水平(或称置信度)

对于估计值 t, 在给定其标准误差 ??t的情况下, 置信区间的公式可以表示为:(t-z??t

t+z??t)

这里 z??t是误差界限, z是对应于某一置

信水平的标准正态分布的分位点值

该z值可从标准正态分布表中查得,大多

数统计学教材中都附有这样的统计表

常用的z值包括

对于 90% 的置信度,对应的z值为 1.64

对于 95% 的置信度,对应的z值为 1.96

对于 99% 的置信度,对应的z值为 2.56

3(多大的抽样方差是可接受的

调查估计值能容忍多大的不确定性,。

常用的95%的置信度、?5%的误差界限对我们的

调查目标是否适宜

估计值是否需要更高(或更低)精度

如果调查结果将用于进行一项有重大意义或有较大风险的决策,

那么,估计值可能需要较高的精度;

如果我们只是简单地希望取得所研究总体某个特征的感性认识,

那么,稍低一点的精度就可以满足要求了

多大抽样方差是可以接受

是否需要对调查的子总体(或称作域)进行估计,

调查结果可能需要包括一些细分的数据

这些数据称为子总体估计值(或域估计值)

为使数据满足调查要求,应该确定合适的精度

与调查估计值有关的抽样方差有多大,

对于不同的子总体,对精度的要求可能有所不同

例如,在一次全国范围的抽样调查中,对国家层次的数据,调查主办者可能需要?3%的误差界限;但对于省级层次的估计值,?5%的误差界限可能就可以满足要求;

而对于省级以下层次的估计值,?10%的误差界限可能就足够了。

在这种情况下,通常对每个研究域都进行分层,

并单独计算各层的样本容量

将各个研究域中所有层的样本容量相加,便得到

了调查所需的总样本容量

调查估计值有关的抽样方差有多大

为达到调查结果要求的精度,最小的调查估计值是什

么,假设我们进行比例估计。其中,一些指标的比例

可能是P=50%或更高,但是其它指标的比例则可能较

低,如P=5% 或者 P=10%

事实上,P可以是P=0 到 P=1.0之间的任一数值。在确

定调查估计值所需的精度时,应该考虑当某个既定精

度达到时所得的最小估计值。如果最小的估计值是

P=5%,那么误差界限就应该小于5%。

例如:

某公司决定,如果公司所在的地区中,至少有P=4%的人群对某一种产品存在需求,那么该公司就决定生产这种产品。因此,该公司的市场调研部准备对当地的居民一项调查,以便估计他们在这种产品上的消费需求。

对于P=4%?5%水平左右的调查估计值就不太合适,应规定更小的误差界限,如小于或等于?0.01、 ?0.02等,这时候置信区间应该是( 0.05 ? 0.01) 或

( 0.05 ?0 .02)。 Table 1

样本容量和在P=0.5时运用简单随机抽样估计P值得到的误差界限 0.032 1000

0.045

500

0.10

100

0.14

50

误差界限

样本容量

最佳的解决办法

不应为追求最小的误差界限而选择最大可能的样本

可以接受一个较大的误差界限,同时有效地利用现有资源

在此基础上,获得具有相对较高精度的估计结果

采用一个较小的样本而不是大样本而节省下来的费用,

可以用来修正其它影响调查结果精度的因素

例如减少无回答率(如回访拒答者、实施小型的试点调查、

培训访员,等等),这样做可能更有效率

4(总体的变异程度

调查总体中,我们所研究的项目或指标,对于不同的个人、住户或企业,得到的估计结果可能会有很大的不同。虽然我们不能控制这种变异性,但它的大小却影响到了给定精度水平下,研究项目所必需的样本容量。

我们来看假设有一个首次开展的调查,试图估计对某企业提供的服务持满意态度的顾客比例。对“顾客满意”这一指标,设置两个可能的值:满意或者不满意。

表2

列出了持满意和不满意态度的顾客可能占的比例的组合

10% 满意

0% 满意

11

90% 满意

10% 满意

10

80% 满意

20% 满意

9

70% 满意30% 满意8

60% 满意40% 满意7

50% 满意50% 满意6

40% 满意60% 满意5

30% 满意70% 满意4

20% 满意80% 满意3

10% 满意90% 满意2

0% 满意100% 满意

1

要精确地测量总体中具有高度变异性或不

经常出现的特征是很困难的。

要对这样的变量提供精确的估计值,需要

较大的样本容量。

当研究的特征具有最大的变异程度时,调

查需要的样本容量也最大。

对于只取两个值的特征,则当这两个值在

总体中以50—50的比例出现时,特征的变

异程度最大。

总体的变异程度

如果所研究特征的真实变异程度大于确定

样本容量时我们估计的变异程度,那么,

调查估计值的精度就会低于期望的精度。

相反,如果所研究特征的真实变异程度与

我们所估计的变异程度相比要小,那么,

与调查目标所要求的估计值相比,抽样调

查得到的估计值会更加精确。

确保达到调查要求的精度

对某一特征的总体变异程度进行保守估计

如果事先不知道调查中要测量特征变异程度的

数据,假定研究特征具有最大的变异程度

对于只有两个可能取值的变量,应该假设总体

中该变量的变异程度为两个取值50—50平分。建议在计算所需样本容量

多个测量的指标

抽样调查时,测量指标(或称项目,特征)

通常不止一个,有时数目是很大的

每个指标的变异程度可能都不相同

对某一指标来说足够大的样本,对变异程度

较大的另一个指标来说可能就有些偏小

为确保样本容量对所有的研究指标都足够大,

应该根据具有最大变异程度或被认为最重要

的那个指标,确定样本容量。

5.总体的大小

总体所起的作用视它规模的大小而有所差异

小规模总体的大小将起重要作用

对于中等规模的总体,其作用中等重要

大总体的规模对样本容量确定则不起作用在样本容量确定的过程中

表3: 显示了不同规模的总体在P=0.5时,使用简单随机抽样,且以误差界限为0.05、置

信度为95%的标准估计P 所需的样本容量 400

1,000,000

400

10,000,000

398

100,000

385

10,000

370

5,000

286

1,000

222

500

80

100

44

50

所需的样本量

总体规模

对于小规模总体,通常必须调查较大比例的样本,以取得所期望的精度。因此,实际操

作中,对小规模总体经常采用普查而不是抽样调查。

计算样本容量时,通常假定采用的抽样方式为简单随机抽样(SRS)。所以,如果样

本容量计算公式假定为简单随机抽样。

6(样本设计和估计量

分层抽样得到的估计值通常比相同规模的简单随机抽样更精确,或者至少一样精确。

整群抽样得到的估计值,其精度通常低于使用同一估计量进行估计时的简单随机抽样的估

计值的精度

设计效果因子

一般来说,当样本容量的计算公式假定为简单随机抽样SRS,但使用的是更复杂的

选样方式时,达到既定精度所需的样本容量应该乘以设计效果因子。设计效果=对于同样规模的样本容量,给定样本设计下

估计量的抽样方差对简单随机抽样估计量的

抽样方差的比率。

对于简单随机抽样设计,设计效果 = 1

对于分层抽样设计,设计效果 ?? 1

对于整群抽样设计,设计效果 ?? 1

7(回答率

所有的调查都会遇到无回答的困扰即:

由于某些原因,不能获得被抽中样本单位的信息

当一个被调查单位的所有或几乎所有的数据都缺

失时,我们就称之为完全无回答(或称单位无回答)

某次调查的回答率是用调查得到的有效问卷数占

预期样本容量的一个百分比来表示的

完全无回答会减少有效样本的数量,从而会增加

抽样误差,并进而降低估计值的精度

例如,如果初始样本容量是400,而通过上述途径估计的回答率为75%,那么选择的样本容

量就应该为:

根据预计的回答率调整样本容量

一个最简单的例子

没有无回答的简单随机抽样样本容量的计算公式

简单随机抽样下,通常使用误差界限和估计量的标准误来确定所需的样本容量。在无放回简单随机抽样情况下

总体均值估计量的标准误差的表达式

其中,S 是总体的标准差

如果误差界限设为e,那么:

解n,得:

这里Z是对应于某一置信水平的标准正态分布的分位点值。

其中,总体方差S2是最不容易得到的,通常需要根据过去对类似总体所做的研究

作近似计算。

为确定n,需要知道

期望的误差界限e

置信水平

对应的标准正态分布的分位点值 Z

总体规模 N

总体方差 S2

求比例样本容量的确定

下面用一个例子,说明估计比例问题时样本容量的确定过程。

在这一例子中,所需的精度是根据误差界限确定的,所研究的指标取两个值,即P和1-P。

在这种情况下,对于大总体,且估计量服从正态分布时, P的总体方差为: 若总体真值已知,那么直接将它代入上面的等式

就可以得到样本容量

若总体真值未知,而且也没有以前的信息可以利

用,那么可以P=0.5 用,因为这时的方差最大,

可以求得一个比较保守的样本容量

计算比例估计样本容量的详细步骤

先计算初始样本容量,然后根据总体的大小、设计效果和回答率分别对它进行调整,

最后求得最终的样本容量。

第1步:计算初始样本容量

注意,公式(1)使用了有限总体校正因子n/N,对总体规模进行校正。如果忽略这个因子,

初始样本容量n1就可以按下列公式计算:

如果e 和 P都不用比例表示,而用百分数表示, n1 的计算公式同样成立。第2步:使用下列等式对总体的大小进行调整

第3步:设计效果调整样本容量

如果样本设计不是采用简单随机抽样,那么可以使用下列公式,即用抽样设计效果对样本容

量进行调整 :

其中,是设计效果,并且有:

在简单随机抽样设计下,B = 1,

在分层抽样设计下, B ?? 1,

在整群抽样设计下, B ?? 1。

根据无回答再次进行调整,以确定最终的样本容量n

其中, r = 估计的回答率。

第4步:无回答调整样本容量

样本容量确定的例子

下面用实例说明样本容量的计算过程。

例 1.

某杂志出版商希望得到读者对该杂志综合满意程度的估计值。通过邮寄调查,出版

商可以联系到所有的2500个订户。但是,由于时间的限制,出版商决定使用简单随机抽样

进行电话调查。请问应访问多少个读者 ,

如果真实的总体比例落在总体比例的样本估计值的??0.10范围内,则该出版商将感到满意。

换句话说,误差界限e为0.10 。

出版商希望调查估计值的置信度为95%,这就意味着20次抽样中只有1次,所得的样本估

计值确定的置信区间不包含总体真值P,而且,Z=1.96。使用简单随机抽样SRS。

估计回答率为65% ,即r =0.65。

由于事先没有关于顾客满意度真实比例P 的可利用的信息,因此,我们假定方差取最大的

情况,即假设 P=0.5。

假设

样本容量的计算步骤

第 1步:计算初始样本容量n1

注意,随着P 趋向0.50,P(1-P) 的值将达到最大值,因此选择P=0.5,可得到最保守的n1

的估计值。

第 2步:调整初始样本容量

将总体的大小这一影响样本容量确定的因素也考虑进来。 (记住,这一步只适于小规模总体以及中等规模的总体) 第3步: 根据抽样设计效果来调整样本容量对这个例子来说,由于假设使用简单随机抽样设计,所以取 B= 1。第4步:根据无回答情况进行调整

确定最终的样本容量n

例 2.

现准备实施一项民意调查,以决定赞成建立一个公园的居民的比例。总体由所有在两个

城市和一个农村地区居住的、年龄在18岁及以上的居民组成。通过从每个城市或农村中各

抽取一个简单随机样本,可以得到一个分层随机样本。问每一层需要多大的样本容量,

总体的单位数为 657,500

总体在各层的分布情况如下:

657,500

合计

7,500

农村地区

3

250,000

城市2

2

400,000

城市1

1

总体(Nh)

H

所需要的样本容量取决于调查对数据的具体要求,

为此,可以考虑以下两个方案。

方案一

假设不需要得到各个层估计值的精度,而且如果整个地区的估计值达到95%的置信度、?5%的误差界限,就认为估计值足够可靠了。由于没有整个地区赞成建立省级公园居民比例的真值,所以我们假设P=0.5,预计回答率为50%。

计算过程如下:

第 1步:计算初始样本容量n

第 2步:计算初步修正的样本容量n2

(注意:如果 n1 /N 可以忽略不计, 则可取 n2=n1)

第 3步:根据设计效果,再次进行调整n3

对于分层随机抽样,通常 B< 1。

但这里,由于没有可利用的B的估计值,因此,取B= 1

得到保守(即更大)的样本容量。

第4步:根据无回答情况

确定最终的样本容量n

即根据该方案,调查所需的样本容量为 768。

方案二

假设对每一层,都要求得到误差界限为0.05、置信度为95%的估计结果,那么就需要单独计算各层的样本容量(即将每一层作为一个总体,估计调查所需的样本容量)。

计算之前,考虑到城市1和城市2是大总体,因而可以认为,对它们来说,总体的大小对样本容量的确定没有影响。由此,如果第1、2层中的取值与案例1相同,就可以认为这两层需要的样本容量都是768。然而,对于农村地区,由于总体是小规模的,因此总体的大小对该层样本容量的确定会产生一定的影响。

计算步骤如下:

城市 1

由于

可以认为

所以

城市 2

因为城市2也是一个大城市,所以,同样可以忽略有限总体校正因子对样本容量的影响:

农村地区

因此,方案2所需的总样本容量为

768 + 768 + 732 = 2,268。

比较方案2的总样本容量2,268和方案1的样本容量768,可以发现方案2的样本容量几乎是方案1样本容量的3倍之大。

换句话说,如果仅仅需要得到包含所有层的整个总体的估计值,那么要求的样本容量将大大小于需要分别对各层进行估计时所需的样本容量。

因为对各层分别进行估计时,需要确保使每一层的样本容量都足够大。两种方案比较

例2 清楚地说明了要求对各研究域分别进行估计时,审查每一层精度要求的重要性。

但如果调查涉及到许多研究域,这一要求可能会使总的样本容量显著增大,并可能导致样本容量超出调查研究者的预算和现有资源的承受能力。

一般来说,要求估计的研究域越多,所需要的样本容量也就越大。

因此,可能需要在精度与费用之间进行折衷,以保证估计的误差在可接受的范围之

内。

通过增大每一层估计值的允许误差,或合并其中两个或多个域,就可以使精度和费

用达成权衡。

分层抽样的样本分配

决定分层抽样效率的一个重要因素是样本单位在层间的分配方式。分层抽样设计

主要理由:

使抽样方案的效率高于简单随机抽样或系统抽样。

确保对要进行分析的特定研究域有足够的样本量,

以便进行分析。

避免抽到一个“差的”样本。

采用分层抽样时,总体被分为同质的、互不重叠的几个子总体(层)。然后,在每

一个层中独立地抽取样本。可以使用任何一种抽样方法来对每个层进行抽样,从比较简单的

方法如简单随机抽样、系统抽样,到较复杂的方法如概率与大小成比例的抽样(PPS)、整群

抽样、多阶段抽样或多相抽样。

包含N个单位的总体,被分成大小分别为:

N1,N2,…,NL的L个互不重叠的子总体(层)。

其中:N=N1+N2+…+NL。

从每层中分别独立抽取一个样本,各层内样本容量

分别为nh(h=1,2,…,L)。

其中: n=n1+n2+…+nL。

分层抽样分配样本的标准

固定样本容量:先确定总的样本容量,然后

再在层间分配样本。

固定变异系数:先根据预定的精度,确定每

层所需样本容量,然后将各层的样本容量加

总得到总的样本容量。

固定样本容量

第一步:确定总的样本容量n

第二步:计算分配给第h层的样本比例ah

ah=nh/n 0<ah<1 且

第三步:计算第h层的样本容量

nh=nah 给定变异系数C下总样本容量n的计算

Nh 是第h层单位总数

Sh2是第h层单位yi的真实方差

C 是Y的总体变异系数

Y 是总体总值的真值

ah 是分配给第h层的样本比例

分配方法

按比例分配

不按比例分配按比例分配

每一层的样本容量nh与该层的总体规模Nh的

比例相同,即各层的抽样比fh=nh/Nh是相同的

,并等于总的抽样比n/N。

层的规模越大,分配的样本容量越就越多。

例2方案1中,计算总样本容量=768,按比例分配方法的各层样本容量确定如下:

第一步:计算各层的分配因子ah

城市1

城市2

农村

第二步:计算各层样本容量nh

城市1

城市2

农村

0.0012 768

1

657,500 合计

0.0012 9

0.0114 7,500

抽样调查样本量确定

抽样调查样本量的确定 在贸易统计中, 对于限额以下批零餐饮企业普遍采用抽样调查方法进行解决。然而,由于当前市场经济情况的多样性,经济发展的不均衡性,以及地域宽广性,导致情况多种多样;实际情况的复杂,决定了方案的复杂性,增加了具体抽样的难度。经过多年的探讨,区域二相抽样调查比较符合当前我国的实际情况,我们在这里根据试点所掌握的情况针对采用区域二相抽样调查的贸易抽样方案中如何确定样本量进行分析。 一、样本单位数量的确定原则 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。 从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于: (1)研究对象的变化程度,即变异程度; (2)要求和允许的误差大小,即精度要求; (3)要求推断的置信度,一般情况下,置信度取为95%; (4)总体的大小; (5)抽样的方法。 也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。

样本量的确定

样本量的确定 1. 二值分布(估计比例时的样本容量) 这种情况下,表明可能的采样结果只有两种情况,即是与非的问题。比如调查某一批产品的合格率。样本量的确定主要受以下几个因素影响:置信水平α、所能接受的抽样偏差e (估计值与真实值的最大偏差)、总体数量N ;通过置信水平即可查表确定z 。 通常情况下置信水平选择95%。抽样偏差为±5%,不过也不完全一定,抽样偏差的确定还是要考虑实际情况,比如最小的调查估计值p=5%,此时抽样偏差就应该小于5%。 这时,就可以确定样本量: 22 2(1)(1)z p p n z p p e N -=-+ P 值的确定:用以前类似样本得到的结果来近似,如果完全不知道就设p=,因为此时方差最大,可求得一个比较保守的样本容量。 样本容量和在p=时运用简单随机抽样估计p 值得到的抽样偏差e 如果总体容量N 非常大,可近似为无穷,那么上面这个公式可简化成:

22 (1)z p p n e -= 事实上当总体容量很小时,不会采用抽样调查,而是普查了。 2. 正态分布(估计均值时的样本容量) 在这种情况下,表明采样的结果是具有多样性的,并不局限在0、1上。比如对某一城市老年人的患病年龄进行统计。这个时候,样本量同样受如下几个因素影响:置信水平α、所能接受的抽样偏差e (估计值与真实值的最大偏差)、总体数量N 。 样本量为: 22 22 2 z S n z S e N =+ S 表明的是总体标准差,这个可以用以前类似样本得到的S 或是实验调查样本的S 来近似。 同样,如果总体容量N 非常大,可近似为无穷,那么上面这个公式可简化成: 22 2 z S n e = 理论基础: 根据数理统计知识,样本均值对总体均值可构造如下统计量: x X u σ-,他满足标准正态分 布,查表即可得到某一显著性水平下这个统计量的值,这里面的x σ表示总体均值估计量的标准误差。 在无放回简单随机抽样情况下,总体均值估计量的标准误差表达式: x σ= 如果误差界限设为e ,那么:

样本量的确定

样本量的确定 北京广播学院新闻传播学院 调查统计研究所 二零零一年五月 沈浩 本讲主要内容 如何计算简单随机抽样的样本量确定 如何实现分层抽样中各层样本单位数的分配样本容量的确定 样本量=费用+精度 (函数) 确定样本容量,需要处理好预定的精度与现有经费,同时也要考虑资源和时间等限 制条件,最终的样本量确定是在上述因素之间的权衡关系。分层抽样分配样本的标准 总的样本容量事先确定 估计值要求达到的精度预先给定 影响调查样本容量的因素 调查估计值所希望达到的精度 调查估计值所能允许的误差。 估计量的抽样方差较小,估计值是精确的 估计值的精度越高,所需的样本容量就越大 影响精度的因素也同样影响着样本容量的大小 所研究指标在总体中的变异程度 总体的大小

样本设计和所使用的估计量 无回答率 客户提供的经费能支持多大容量的样本 整个调查持续的时间有多长 调查需要多少访员 能招聘到的访员有多少 除了估计值的精度以外,调查实际操作的限制条件也许是影响样本容量的最大因 素。 11>(给定精度水平下样本容量的确定样本容量的大小与调查估计值所要求的精度紧密相关 数据是通过抽样而不是普查收集的,就会产生抽样误差。 精度是由抽样方差来测量的。 随着样本容量的增加,调查估计值的精度也会不断提高。标准误差 误差界限 变异系数 抽样方差的几种计量方法 抽样调查中样本容量的确定,也经常会使用一种或多种这样的计量方法来对精度进 行说明。 非抽样误差 非抽样误差会对调查估计值的精度产生显著的影响 非抽样误差的大小与样本容量的大小却没有很大的关系 确定样本容量,就不必将这些误差作为影响因素加以考虑

如何确定抽样统计的最小样本量

如何确定抽样统计的最小样本量(附:随机抽样统计的抽样误差Excel计算表格) 在电视节目中经常看到关于选举的报道中经常会后有支持率的数字,例如:调查结果为 ?a方支持率为%; ?b方支持率为%; ?c方支持率为%; ?... 最后都会说明一下,此次电话调查的数量2352,置信度为95%﹐最大抽样误差为±%。 抽样调查的典型情景:对一个大的集合(比如:数千万选民)做一次调查的成本较高,抽样调查可以低成本的用近似的(可接受的)数据反映实际情况;在用户调研中,也经常通过通过抽样调查的方式并对比打分的方法做评估。这里就需要了解置信度和抽样误差的概念; 抽样误差:假如相同规模的抽样调查进行多次,抽样均值在真实均值的上下波动,相对于整体均值的偏移波动就是抽样误差,而这个误差的分布是符合的,例如下图:横轴为整体的均值,圆点是每次抽样的均值,而红色那次抽样就是加上误差后都未覆盖到均值线的情况); 最小抽样量的计算公式:抽样量需要> 30个才算足够多,可以用以下近似的误差/样本量估算公式; n:为样本量; :,抽样个体值和整体均值之间的偏离程度,抽样数值分布越分散方差越大,需要的采 样量越多; E:为抽样误差(可以根据均值的百分比设定),由于是倒数平方关系,抽样误差减小为 1/2,抽样量需要增加为4倍; : 为可靠性系数,即置信度,置信度为95%时,=,置信度为90%时,=,置信度越高需要的样本量越多;95%置信度比90%置信度需要的采样量多40%; 为了体现相对差距:假设抽样为y 相对抽样误差h = E / y C= σ / y 以下是基于抽样得分的抽样误差估算表格:方差越大需要的样本量越多,数据离散度越低,需要的抽样量越少; 置信度相对抽样误差(假设:C=

【科研】如何确定临床实验设计中的样本量

【科研】如何确定临床实验设计中的样本量? 在临床实验研究中,无论是实验组还是对照组都需要有一定数量的受试对象。这是因为同一种实验处理在不同的受试对象身上表现出的实验效应是存在着变异的。仅凭一次实验观测结果或单个受试者所表现出来的实验效应说明 不了什么问题。必须通过一定数量的重复观测才能把研究总体真实的客观规律性显示出来,并且可以对抽样误差做出客观地估计。但重复观测次数越多(即样本含量越大)试验所要消耗的人力、物力、财力和时间越多,可能会使试验研究成为不可能。而且,样本含量过大还会增加控制试验观测条件的难度,有可能引入非随机误差,给观测结果带来偏性(bias)。所以在实验设计中落实重复原则的一个重要问题就是如何 科学合理确定样本量。由于在各对比组例数相等时进行统计推断效能最高,因此多数情况下都是按各组样本含量相等来估计。但在个别情况下,也可能要求各组样本含量按一定比例来估计。 1 与样本含量估计有关的几个统计学参数 在估计样本含量之前,首先要对以下几个统计学参数加以确定或作出估计。 1.1 规定有专业意义的差值δ,即所比较的两总体参数值相差多大以上才有专业意义。δ是根据实验目的人为规定的,

但必须有一定专业依据。习惯上把δ称为分辨力或区分度。δ值越小表示对二个总体参数差别的区分度越强,因而所需样本含量也越大。 1.2 确定作统计推断时允许犯Ⅰ类错误(“弃真”的错误)的概 率α,即当对比的双方总体参数值没有差到δ。但根据抽样观测结果错误地得出二者有差别的推断结论的可能性,α确定的越小,所需样本含量越大。在确定α时还要注意明确是单侧检验的α,还是双侧检验的α。在同样大小的α条件下;双侧检验要比单侧检验需要更大的样本含量。 1.3 提出所期望的检验效能power,用1-β表示。β为允许犯Ⅱ类错误(“取伪”的错误)的概率。检验效能就是推断结论不犯Ⅱ类错误的概率1-β称把握度。即当对比双方总体参数值间差值确实达到δ以上时,根据抽样观测结果在规定的α水准上能正确地作出有差别的推断结论的可能性。在科研设计中常把1-β定为0.90或0.80。一般来说1-β不宜低于0.75,否则可能出现非真实的阴性推断结论。 1.4 给出总体标准差σ或总体率π的估计值。它们分别反映计量数据和计数数据的变异程度。一般是根据前人经验或文献报道作出估计。如果没有前人经验或文献报道作为依据,可通过预实验取得样本的标准差s或样本率P分别作为σ和π的估计值。σ的估计值越大,π的估计值越接近0.5,所需样本含量越大。

实例教程 手把手教你计算样本量

实例教程:手把手教你计算样本量 作者:张耀文 小玲看了新英格兰医学杂志的一篇文章[1]后,有些地方不明白,于是来找小咖讨论。 小玲:我觉得这个研究做的棒棒哒,但有一点没看明白,就是原文中统计方法部分的样本量计算到底写了个啥: 小咖:你没看明白就对了。这段话确实没有讲明白样本量到底怎么计算来的。你应该去看看这个研究的Protocol和Supplementary Appendix,里面应该会详细写到。因为限于篇幅,有些研究会在正文中省略一些信息。 小玲:那么,哪里能找到这个研究的Protocol和Supplementary Appendix呢? 小咖:来,跟着我操作。首先搜到新英格兰医学杂志的这篇文章,然后点击①PDF下载这篇文章,再点开②Supplementary Material。

下载③Protocol 和④Supplentary Appendix 。 小玲:原来是这样啊,那我赶紧再去读一读这两个文件。 小玲读完后,又来找小咖。 小玲:我找到啦,原来在Protocol 的84-85页有样本量计算的详细介绍。 小咖:很好。你先总结一下大意。 小玲:比较主要结局(体重变化)时,按照P =0.05进行双侧t 检验。对于另一个主要结局(二分类变量)——体重下降5%及以上、10%以上的人数比例,采用双侧卡方检验比较。假设对照组体重下降10%以上的人数比例为10%,利拉鲁肽组的这个比例为14%。当利拉鲁肽组和对照组的样本量分别为2400例、1200例时,可以有超过90%的把握度发现这种差异。 小咖:很好,你get 到了所有的point 。以本研究为例,计算样本量时,需要

如何确定样本量

如何确定样本量 来回答:对于13万的人,做调查,得取多少样本,这个得看你要求的精确度,统计学上有这样的一套公式, https://www.360docs.net/doc/4617200168.html,/peixun/pei21.HTM 而对于市场调查; 在市场研究中,常常有客户和研究者询问:“要掌握市场总体情况,到底需要多少样本量?”,或者说“我要求调查精度达到95%,需要多少样本量?”。对此,我往往感到难以回答,因为要解决这个问题,需要考虑的因素是多方面的:研究的对象,研究的主要目的,抽样方法,调查经费…。有人说,北京这么大,上千万人口,我们怎么也得做一万人的访问才能代表北京市吧。根据统计学原理,完全不必。只要在500-1000左右就够了。当然前提是,我们要按照科学的方法去抽样。 根据市场调查的经验,市场潜力等涉及量比较严格的调查所需样本量较大,而产品测试,产品定价,广告效果等人们间彼此差异不是特别大或对量的要求不严格的调查所需样本量较小些。 样本量的大小涉及到调研中所要包括的人数或单元数。确定样本量的大小是比较复杂的问题,既要有定性的考虑也要有定量的考虑。 从定性的方面考虑样本量的大小,其考虑因素有:决策的重要性,调研的性质,变量个数,数据分析的性质,同类研究中所用的样本量,发生率,完成率,资源限制等。具体地说,更重要的决策,需要更多的信息和更准确的信息,这就需要较大的样本;探索性研究,样本量一般较小,而结论性研究如描述性的调查,就需要较大的样本;收集有关许多变量的数据,样本量就要大一些,以减少抽样误差的累积效应;如果需要采用多元统计方法对数据进行复杂的高级分析,样本量就应当较大;如果需要特别详细的分析,如做许多分类等,也需要大样本。针对子样本分析比只限于对总样本分析,所需样本量要大得多。 具体确定样本量还有相应的统计学公式,根据样本量计算公式,我们知道,样本量的大小不取决于总体的多少,而取决于(1) 研究对象的变动程度;(2) 所要求或允许的误差大小;(3) 要求推断的置信程度。也就是说,当所研究的现象越复杂,差异越大时,样本量要求越大;当要求的精度越高,可推断性要求越高时,样本量越大。因此,如果不同城市分别进行推断时,"大城市多抽,小城市少抽"这种说法原则上是不对的。在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。 总之,在确定抽样方法和样本量的时候,既要考虑调查目的,调查性质,精度要求(抽样误差)等,又要考虑实际操作的可实施性,非抽样误差的控制、经费预算等。专业调查公司在这方面会根据您的情况及调查性质,进行综合权衡,达到一个最优的样本量的选择。 实际研究中的一些经验 根据一些学者的研究,以及远东零点在市场研究中的经验,市场调查中确定样本量通常的做法是: 1、通过对方差的估计,采用公式计算所需样本量,主要做法有: 2、用两步抽样,在调查前先抽取少量的样本,得到标准差S的估计,然后代入公式中,得到下一步抽样所需样本量n; 3、如果有以前类似调查的数据,可以使用以前调查的方差作为总体方差的估计。 4、根据经验,确定样本量,主要方法有: 5、如果以前有人做过类似的研究,初学者可以参照前人的样本。 6、如果是大型城市、省市一级的地区性研究,样本数在500-1000之间可能比较适合;而对于中小城市,样本量在200-300之间可能比较适合;如果是多省市或者全国性的研究,则样本量可能在1000-3000之间比较适合。 7、作为一个常识(主要是为了显著性检验),要进行分组研究的每组样本量应该不少于50个。 8、通过试验设计所作的研究,可以采用较小的样本量。如产品试用(留置)调查,在经费有限的情况下,可以将每组的样本量降低至30个左右,最好每组在50以上。此外,我们在多次的实际研究

样本容量的确定

样本容量的确定分类: 在参数区间估计的讨论中,估计值和总体的参数之间存在着一定的差异,这种差异是由样本的随机性产生的。在样本容量不变的情况下,若要增加估计的可靠度,置信区间就会扩大,估计的精度就降低了。若要在不降低可靠性的前提下,增加估计的精确度,就只有扩大样本容量。当然,增大样本容量要受到人力、物力和时间等条件的限制,所以需要在满足一定精确度的条件下,尽可能恰当地确定样本容量。 一、影响样本容量的因素 (一)总体的变异程度(总体方差) 在其它条件相同的情况下,有较大方差的总体,样本的容量应该大一些,反之则应 该小一些。例如:在正态总体均值的估计中,抽样平均误差为它反映了样本均值相对于总体均值的离散程度。所以,当总体方差较大时,样本的容量也相应要 大,这样才会使较小,以保证估计的精确度。 (二)允许误差的大小 允许误差指允许的抽样误差,记为,例如,样本均值与总体均值之间的 允许误差可以表示为,允许误差以绝对值的形式表现了抽样误差的可能范围,所以又称为误差。 允许误差说明了估计的精度,所以,在其他条件不变的情况下,如果要求估计的精度高,允许误差就小,那么样本容量就要大一些;如要求的精确度不高,允许误差可以大些,则样本容量可以小一些。 (三)概率保证度1-α的大小 概率保证度说明了估计的可靠程度。所以,在其他条件不变的情况下,如果要求较高的可靠度,就要增大样本容量;反之,可以相应减少样本容量。 (四)抽样方法不同 在相同的条件下,重复抽样的抽样平均误差比不重复抽样的抽样平均误差大,所需要的样本容量也就不同。重复抽样需要更大的样本容量,而不重复抽样的样本容量则可小一些。

此外,必要的抽样数目还要受抽样组织方式的影响,这也是因为不同的抽样组织方式有不同的抽样平均误差。 二、样本容量的确定 (一) 估计总体均值的样本容量 在总体均值的区间估计里,置信区间是由下式确定的: 例如,对于正态总体以及非正态总体大样本时,都是以它为置信区间。 从图6–1中可以看到,从估计量x的取值到点的距离实际上为置信区间长 度的。这段距离表示在一定置信水平1-α下,用样本均值估计总体均值时所允许的最大绝对误差即允许误差Δ。显然,若以x的取值为原点,则允许误差Δ可以表示为: (6–15) x=0 图6–1 允许误差示意图 公式(6–15)反映了允许误差Δ、可靠性系数、总体标准差与样本容量之间的相互制约关系。只要这四个因素中的任意三个因素确定后,另一个因素也就确定了。 在重复抽样条件下,把允许误差Δ的计算公式变形整理,则得到样本容量的计算公式: (6–16)

市场研究中样本量的确定

在市场研究中,常常有客户和研究者询问:“要掌握市场总体情况,到底需要多少样本量?”,或者说“我要求调查精度达到95%,需要多少样本量?”。对此,我往往感到难以回答,因为要解决这个问题,需要考虑的因素是多方面的:研究的对象,研究的主要目的,抽样方法,调查经费…。本文将根据自己的经验,探讨在市场研究中确定调查所需样本量的一些基本方法,相信这些方法对于其他的社会调查研究也有一定的借鉴意义。 确定样本量的基本公式 在简单随机抽样的条件下,我们在统计教材中可以很容易找到确定调查样本量的公式: Z2 S2 n = ------------ (1) d2 其中: n代表所需要样本量 Z:置信水平的Z统计量,如95%置信水平的Z统计量为1.96,99%的Z为2.68。 S:总体的标准差; d :置信区间的1/2,在实际应用中就是容许误差,或者调查误差。 对于比例型变量,确定样本量的公式为: Z2 ( p ( 1-p)) n = ----------------- (2) d2 其中: n :所需样本量 z:置信水平的z统计量,如95%置信水平的Z统计量为1.96,99%的为2.68 p:目标总体的比例期望值 d:置信区间的半宽

关于调查精度 通常我们所说的调查精度可能有两种表述方法:绝对误差数与相对误差数。如对某市的居民进行收入调查,要求调查的人均收入误差上下不超过50元,这是绝对数表示法,这个绝对误差也就是公式(1)中置信区间半宽d。 而相对误差则是绝对误差与样本平均值的比值。例如我们可能要求调查收入与真实情况的误差不超过1%。假定调查城市的真实人均收入为10000元,则相对误差的绝对数是100元。 公式的应用方法 对于公式的应用,一些参数是我们可以事先确定的:Z值取决于置信水平,通常我们可以考虑95%的置信水平,那么Z=1.96;或者99%,Z=2.68。然后可以确定容许误差d(或者说精度),即我们可以根据实际情况指定置信区间的半宽度d。因此,公式应用的关键是如何确定总体的标准差S。如果我们可以估计出总体的方差(标准差),那么我们可以根据公式计算出样本量: 例如:要了解该城市的居民收入,假定我们知道该市居民收入的标准差为1500,要求的调查误差不超过100元,则在95%的置信水平下,所需的样本量为 n=1.962*15002/1002=8,643,600/10,000=864 即需要调查的样本量为864个。 最大样本量 以上公式只是理论上的,在实际调查中确定合理的样本量,必须考虑多方面的因素。 首先,由于人们通常缺乏对标准差的感性认识,因此对标准差的估计往往是最难的。总体的标准差是123,还是765?如果没有一点对样本的先验知识,那么对标准差的估计是不可能的。好在我们通常能对变量的平均值进行估计,如我们通过历史资料估计该地区目前的年人均收入大致为10,000元,那么根据统计学知识,我们引入变异系数的概念: 变异系数V=标准差S/平均值X<= 1 因此,我们知道人均收入的标准差应该小于平均值,就是说标准差应该在10000以下。当然,这对于我们确定样本量还不能起太大的作用。然而如果我们采用相对误差表述的精度,对公式(1)变形,我们有: Z2(S2/X2) Z2V2 Z2 n = --------------------= -------------<= ---------- d2/X2 P2 P2

样本量的确定方法.

如对你有帮助,请购买下载打赏,谢谢!样本量的确定方法(2008-10-14 09:12:34) 一、样本单位数量的确定原则 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。 从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于: (1)研究对象的变化程度,即变异程度; (2)要求和允许的误差大小,即精度要求; (3)要求推断的置信度,一般情况下,置信度取为95%; (4)总体的大小; (5)抽样的方法。 也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。 二、样本量的确定方法 如何确定样本量,基本方法很多,但是公式检验表明,当误差和置信区间一定时,不同的样本量计算公式计算出来的样本量是十分相近的,所以,我们完全可以使用简单随机抽样计算样本量的公式去近似估计其他抽样方法的样本量,这样可以更加快捷方便,然后将样本量根据一定方法分配到各个子域中去。所以,区域二相抽样不能计算样本量的说法是不科学的。

样本量的确定方法

样本量的确定方法(2008-10-14 09:12:34) 一、样本单位数量的确定原则 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。 从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于: (1)研究对象的变化程度,即变异程度; (2)要求和允许的误差大小,即精度要求; (3)要求推断的置信度,一般情况下,置信度取为95%; (4)总体的大小; (5)抽样的方法。 也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。 二、样本量的确定方法 如何确定样本量,基本方法很多,但是公式检验表明,当误差和置信区间一定时,不同的样本量计算公式计算出来的样本量是十分相近的,所以,我们完全可以使用简单随机抽样计算样本量的公式去近似估计其他抽样方法的样本量,这样可以更加快捷方便,然后将样本量根据一定方法分配到各个子域中去。所以,区域二相抽样不能计算样本量的说法是不科学的。

样本量的确定方法

样本量的确定方法 The pony was revised in January 2021

样本量的确定方法(2008-10-14 09:12:34) 一、样本单位数量的确定原则 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。 从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于: (1)研究对象的变化程度,即变异程度; (2)要求和允许的误差大小,即精度要求; (3)要求推断的置信度,一般情况下,置信度取为95%; (4)总体的大小; (5)抽样的方法。 也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城

样本量计算

1.估计样本量的决定因素 1.1 资料性质 计量资料如果设计均衡,误差控制得好,样本可以小于30例; 计数资料即使误差控制严格,设计均衡, 样本需要大一些,需要30-100例。 1.2 研究事件的发生率 研究事件预期结局出现的结局(疾病或死亡),疾病发生率越高,所需的样本量越小,反之就要越大。 1.3 研究因素的有效率 有效率越高,即实验组和对照组比较数值差异越大,样本量就可以越小,小样本就可以达到统计学的显著性,反之就要越大。 1.4 显著性水平 即假设检验第一类(α)错误出现的概率。为假阳性错误出现的概率。α越小,所需的样本量越大,反之就要越小。α水平由研究者具情决定,通常α取0.05或0.01。 1.5 检验效能 检验效能又称把握度,为1-β,即假设检验第二类错误出现的概率,为假阴性错误出现的概率。即在特定的α水准下,若总体参数之间确实存在着差别,此时该次实验能发现此差别的概率。检验效能即避免假阴性的能力,β越小,检验效能越高,所需的样本量越大,反之就要越小。β水平由研究者具情决定,通常取β为0.2,0.1或0.05。即1-β=0.8,0.1或0.95,也就是说把握度为80%,90%或95%。 1.6 容许的误差(δ) 如果调查均数时,则先确定样本的均数( )和总体均数(m)之间最大的误差为多少。容许误差越小,需要样本量越大。一般取总体均数(1-α)可信限的一半。 1.7 总体标准差(s) 一般因未知而用样本标准差s代替。 1.8 双侧检验与单侧检验 采用统计学检验时,当研究结果高于和低于效应指标的界限均有意义时,应该选择双侧检验,所需样本量就大; 当研究结果仅高于或低于效应指标的界限有意义

样本量计算

样本量计算 Last revision date: 13 December 2020.

1.估计样本量的决定因素 资料性质 计量资料如果设计均衡,误差控制得好,样本可以小于30例; 计数资料即使误差控制严格,设计均衡, 样本需要大一些,需要30-100例。 研究事件的发生率 研究事件预期结局出现的结局(疾病或死亡),疾病发生率越高,所需的样本量越小,反之就要越大。 研究因素的有效率 有效率越高,即实验组和对照组比较数值差异越大,样本量就可以越小,小样本就可以达到统计学的显着性,反之就要越大。 显着性水平 即假设检验第一类(α)错误出现的概率。为假阳性错误出现的概率。α越小,所需的样本量越大,反之就要越小。α水平由研究者具情决定,通常α取或。 检验效能 检验效能又称把握度,为1-β,即假设检验第二类错误出现的概率,为假阴性错误出现的概率。即在特定的α水准下,若总体参数之间确实存在着差别,此时该次实验能发现此差别的概率。检验效能即避免假阴性的能力,β越小,检验效能越高,所需的样本量越大,反之就要越小。β水平由研究者具情决定,通常取β为,或。即1-β=,或,也就是说把握度为80%,90%或95%。 容许的误差(δ) 如果调查均数时,则先确定样本的均数( )和总体均数(m)之间最大的误差为多少。容许误差越小,需要样本量越大。一般取总体均数(1-α)可信限的一半。 总体标准差(s) 一般因未知而用样本标准差s代替。 双侧检验与单侧检验 采用统计学检验时,当研究结果高于和低于效应指标的界限均有意义时,应该选择双侧检验,所需样本量就大; 当研究结果仅高于或低于效应指标的界限有意义时,应该选择单侧检验,所需样本量就小。当进行双侧检验或单侧检验时,其α或β的Ua界值通过查标准正态分布的分位数表即可得到。

抽样调查样本量确定.

抽样调查样本量确定.

抽样调查样本量的确定 在贸易统计中, 对于限额以下批零餐饮企业普遍采用抽样调查方法进行解决。然而,由于当前市场经济情况的多样性,经济发展的不均衡性,以及地域宽广性,导致情况多种多样;实际情况的复杂,决定了方案的复杂性,增加了具体抽样的难度。经过多年的探讨,区域二相抽样调查比较符合当前我国的实际情况,我们在这里根据试点所掌握的情况针对采用区域二相抽样调查的贸易抽样方案中如何确定样本量进行分析。 一、样本单位数量的确定原则 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。 从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于: (1研究对象的变化程度,即变异程度; (2要求和允许的误差大小,即精度要求; (3要求推断的置信度,一般情况下,置信度取为95%; (4总体的大小; (5抽样的方法。

也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。 二、样本量的确定方法 如何确定样本量,基本方法很多,但是公式检验表明,当误差和置信区间一定时,不同的样 本量计算公式计算出来的样本量是十分相近的,所以,我们完全可以使用简单随机抽样计算 样本量的公式去近似估计其他抽样方法的样本量,这样可以更加快捷方便,然后将样本量根 据一定方法分配到各个子域中去。所以,区域二相抽样不能计算样本量的说法是不科学的。 1.简单随机抽样确定样本量主要有两种类型: (1对于平均数类型的变量 对于已知数据为绝对数,我们一般根据下列步骤来计算所需要的样本量。已知期望调查 结果的精度(E, 期望调查结果的置信度(L,以及总体的标准差估计值σ的具体数据,总体

如何确定抽样统计的最小样本量

?a方支持率为45.3%; ?b方支持率为30.2%; ?c方支持率为8.5%; ?... 最后都会说明一下,此次电话调查的数量2352,置信度为95%﹐最大抽样误差为±2.5%。 抽样调查的典型情景:对一个大的集合(比如:数千万选民)做一次调查的成本较高,抽样调查可以低成本的用近似的(可接受的)数据反映实际情况;在用户调研中,也经常通过通过抽样调查的方式并对比打分的方法做评估。这里就需要了解置信度和抽样误差的概念; 抽样误差:假如相同规模的抽样调查进行多次,抽样均值在真实均值的上下波动,相对于整体均值的偏移波动就是抽样误差,而这个误差的分布是符合标准正态分布的,例如下图:横轴为整体的均值,圆点是每次抽样的均值,而红色那次抽样就是加上误差后都未覆盖到均值线的情况);

最小抽样量的计算公式:抽样量需要> 30个才算足够多,可以用以下近似的误差/样本量估算公式; n:为样本量; :方差,抽样个体值和整体均值之间的偏离程度,抽样数值分布越分散方差越大,需要的采样量越多; E:为抽样误差(可以根据均值的百分比设定),由于是倒数平方关系,抽样误差减小为1/2,抽样量需要增加为4倍; : 为可靠性系数,即置信度,置信度为95%时,=1.96,置信度为90%时,=1.645,置信度越高需要的样本量越多;95%置信度比90%置信度需要的采样量多40%; 为了体现相对差距:假设抽样均值为y 相对抽样误差h = E / y 变异系数C= σ / y

以下是基于抽样得分的抽样误差估算表格:方差越大需要的样本量越多,数据离散度越低,需要的抽样量越少; 相对抽样误差(假设:C=0.4) π为按照经验得出的最后比例,在未知时π可取50%,待算出结果后再重新拟合,比例越悬 从而看出大部分的电话抽样调查:95%置信度的情况下,误差要控制在2%以内取样量一般在2000-5000;为了方便计算抽样调查的误差和估算抽样量,制作了一个Excel表格附后,调整颜色框中的抽样量数字就可以得到相应的误差或根据指定的误差范围估算出抽样量;

样本量的确定方法

样本量的确定方法 (2008-10-14 09:12:34) 一、样本单位数量的确定原则 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。 从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于: (1)研究对象的变化程度,即变异程度; (2)要求和允许的误差大小,即精度要求; (3)要求推断的置信度,一般情况下,置信度取为95%; (4)总体的大小; (5)抽样的方法。 也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,

样本量的计算

而对于市场调查; 在市场研究中,常常有客户和研究者询问:“要掌握市场总体情况,到底需要多少样本量?”,或者说“我要求调查精度达到95%,需要多少样本量?”。对此,我往往感到难以回答,因为要解决这个问题,需要考虑的因素是多方面的:研究的对象,研究的主要目的,抽样方法,调查经费…。有人说,北京这么大,上千万人口,我们怎么也得做一万人的访问才能代表北京市吧。根据统计学原理,完全不必。只要在500-1000左右就够了。当然前提是,我们要按照科学的方法去抽样。 根据市场调查的经验,市场潜力等涉及量比较严格的调查所需样本量较大,而产品测试,产品定价,广告效果等人们间彼此差异不是特别大或对量的要求不严格的调查所需样本量较小些。 样本量的大小涉及到调研中所要包括的人数或单元数。确定样本量的大小是比较复杂的问题,既要有定性的考虑也要有定量的考虑。 从定性的方面考虑样本量的大小,其考虑因素有:决策的重要性,调研的性质,变量个数,数据分析的性质,同类研究中所用的样本量,发生率,完成率,资源限制等。具体地说,更重要的决策,需要更多的信息和更准确的信息,这就需要较大的样本;探索性研究,样本量一般较小,而结论性研究如描述性的调查,就需要较大的样本;收集有关许多变量的数据,样本量就要大一些,以减少抽样误差的累积效应;如果需要采用多元统计方法对数据进行复杂的高级分析,样本量就应当较大;如果需要特别详细的分析,如做许多分类等,也需要大样本。针对子样本分析比只限于对总样本分析,所需样本量要大得多。 具体确定样本量还有相应的统计学公式,根据样本量计算公式,我们知道,样本量的大小不取决于总体的多少,而取决于(1) 研究对象的变动程度;(2) 所要求或允许的误差大小; (3) 要求推断的置信程度。也就是说,当所研究的现象越复杂,差异越大时,样本量要求越大;当要求的精度越高,可推断性要求越高时,样本量越大。因此,如果不同城市分别进行推断时,"大城市多抽,小城市少抽"这种说法原则上是不对的。在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。 总之,在确定抽样方法和样本量的时候,既要考虑调查目的,调查性质,精度要求(抽样误差)等,又要考虑实际操作的可实施性,非抽样误差的控制、经费预算等。专业调查公司在这方面会根据您的情况及调查性质,进行综合权衡,达到一个最优的样本量的选择。 实际研究中的一些经验 根据一些学者的研究,以及远东零点在市场研究中的经验,市场调查中确定样本量通常的做法是: 1、通过对方差的估计,采用公式计算所需样本量,主要做法有:

最小样本量确定方式

最小样本量确定方式 从数理统计的范畴来看,在样本量确定过程中,样本总体所起的作用因它的大小而有所差异。在其他条件一定的情况下,即误差、置信度一定,样本量随总体的大小而变化。但是,总体越大,其变化越不明显,而总体较小时,则变化明显。也就是说,即对于小规模总体,总体的大小对样本量起着重要作用;而大总体对样本量影响的作用很小,二者之间的变化并非是线性关系。所以,样本量并不是越大越好。据此,形成以下两种最小样本量抽取方法: 最小样本量确定方法一: 综合以上,在总体样本量很大,已达到数万乃至数十万、数百万,此时,最低样本量与顾客的总数已无必然联系,而主要受到误差和置信水平的水平的影响,计算公式如下所示,其最低样本量的确定以“一定误差和置信水平下的最小样本数量表”为主要依据。一般情况下,以允许误差3%、置信水平95%取样,此时最低样本总量为1068个。 样本量计算公式: n=Z2σ2/d2 其中: n:代表所需要样本量 Z:置信水平的Z统计量,如95%置信水平的Z统计量为1.96,99%的Z为2.68。 σ:总体的标准差,一般取0.5; d:置信区间的1/2,在实际应用中就是容许误差,或者调查误差。 该样本量确定方法主要适用于:整体客户满意度测评研究项目、重点客户接触环节测评项目、服务标准达标测评项目。 一定误差和置信水平下的最小样本数量表

最小样本量确定方法二: 在总体样本量较小的情况,样本总体会对抽取的样本规模产生较大影响,进而影响调查的误差与准确性。因此,抽样时,就必须考虑样本总体数量的影响,可以用如下公式计算所需样本数量: n=n1/(1+n1/N) n1:在总体很大时根据一定的置信度和允许误差计算所得的样本量N:表示总体单位数。 不过,如果样本量极少,或者要求必须全部检测或调查到,例如总体单位数低于50个时,此时,完全可以全部抽取,不需要采用以上公式机械计算。

抽样调查的样本容量的确定方法

抽样调查的样本容量的确定方法 摘要:确定样本容量是抽样调查中重要的环节,影响到抽样估计的精确度和调查的成本和效益。单位标志变异程度、抽样极限误差、抽样推断的可靠度、抽样类型和方法等影响到样本容量地确定。样本容量的确定可以根据由抽样误差、抽样极限误差和概率度推算出来的公式计算,也可以根据建立在过去抽取满足统计方法要求的样本量所累积下来的经验法则来确定。 关键词:样本容量;抽样调查;抽样误差;极限误差 抽样调查是根据随机原则,从总体中抽取部分实际数据构成样本,同时运用概率估计方法,依据样本信息推断总体数量特征的一种非全面统计调查。根据抽选样本的方法,抽样调查可以分为等概率抽样和非概率抽样两类。等概率抽样又称为随机抽样,是按照概率论和数理统计的原理,从调查研究的总体中,根据随机原则来抽选样本,并从数量上对总体的某些特征做出估计推断,对推断出可能出现的误差可以从概率意义上加以控制。样本是从总体中抽出的部分单位的集合,样本中所包含的单位数被称为样本容量,一般用 n 表示。确定样本容量是制定抽样调查方案中的一个非常重要的环节。 1.确定样本容量的必要性 1.1 样本容量大小影响抽样估计的精确度 抽样估计的精确度是指样本的统计量与其所代表的总体值的接近程度。调查结果相对于总体真实值的精确度与样本容量直接相关。样本容量越大,抽样误差相对就会减少,估计精度就会提高;若样本容量太小,抽样误差就会增大,从而影响抽样估计的精确度。 1.2 样本容量大小影响抽样调查的成本和效益样本量的设计通常受到研究经费及调查时间的限制。根据数理统计规律,样本量增加呈直线递增的情况下(样本量增加一倍,成本也增加一倍),而抽样误差只是样本量相对增长速度的平方根递减。若样本容量过大,调查单位增多,不仅增加人力、财力和物力的耗费,增加调查费用,而且还影响到抽样调查的时效性,从而不能充分发挥抽样调查的优越性。 因此,为节省调查费用,体现出抽样调查的优越性,在确定样本容量时,应在满足抽样调查对估计数据的精确度的前提下,尽量减少调查单位数,确保必要的抽样数目。 2.影响必要样本容量的主要因素影响样本容量的因素是多方面的,在抽样调查总体、调查费用和调查时间既定的情况下,为确定最佳的样本容量,应首先分析影响样本容量的因素。从理论上说,影响样本容量的因素有以下几个方面: 2.1 单位标志变异程度 单位标志变异程度一般用方差2或成数方差 P(1-P)的大小来表示。在其他条件不变的情况下,为了达到同样的研究目的,总体单位标志的变异程度大,样本容量应越大;反之,总体单位标志的变异程度越小,则样本容量就应越少。二者成正比

相关文档
最新文档