抽样检验中样本容量的确定

抽样检验中样本容量的确定
抽样检验中样本容量的确定

抽样检验中样本容量的确定

林鹤凯、宋明展、杨琨、孔京生

摘要: 在实验工作中,常遇到如何把握采集样本的容量的问题,本文结合实际,从三个方

面论述如何求出一个既满足精度,又相对较小的样本容量。求解的主体思想,为区间估计,即给定区间范围从而求得最佳n 值。另外,在假设检验中,本文从生产和检验双方考虑,得到两种不同的容量取值方法,在生产中具有一定意义。根据所做估计,本文用matlab 编程进行了仿真实验。经失败实验的统计,当n>30的阶段实验,失败实验的次数小于5次,可以说实验的成功率为95%,置信水平在0.05下的实验,从而仿真结果还是真实可信。

关键词:参数检验、假设检验、最佳检验、样本容量、matlab 实验验证 1、问题简述:

在实验工作中常遇到问题是如何把握采集样本的容量,如果容量n 太小,估计问题不那么精确,检验问题就不太可靠;容量太大,又会造成人力物力的浪费。在此我们的就是要结合实际求出一个即满足精度又相对较小的样本容量。

2、问题求解[1]:

● 参数估计

1、 点估计

以正态总体为例,有 ,已知 为其样本。

a 的无偏估计为 ,且 ,若要求 ,其中,δ 是已知常数,则 ,从而使估计可以更精确 。 2、区间估计

以正态总体 为例有: 当 已知有

)/

~(0,1)

a N ξσ- 当 未知有

a 的置信水平为1-α的区间估计分别为:

● 假设检验(以参数检验为主)

1、 参数检验基本思想:

2

~(,)N a ξσ12n ,,,ξξξ??????ξ2()/D

n ξσ=()D ξδ<2

/n σδ>2

(,)N a σσ

σ1

)/~n a S t ξ-

-____

/2/2((a u u ααξσξσ+≥≥

-____

/2/2

(1)((1)(t n a t n ααξξ+-≥≥--

假设总体(,)N a ξσ ,其中σ已知,a 未知,显著水平为α (1)提出假设,如:原假设

:a a H

=

备选假设1

:a

a H ≠

(2)构造统计量,该统计量满足一个已知的分布,如:__

()/(/u a

ξσ=-

(3)构造拒绝域,如:(0,1)u N 从而 /2

u

u α

>

2、样本容量n 确定的本质: (1)区间估计

(2)根据接收域去求n 的范围,显然n 在满足的范围内越小越好

3、原理及方法: (1)双侧检验:

1)假设总体(,)N a ξσ ,其中σ未知,a 未知,显著水平为α 原假设

:a a H

=

备选假设1

:a

a H ≠

可以得置信水平为1α-的区间估计 ____

/2/2((u u ααξσ

ξσ

?

?-+

??

?

定义/2

(u α

σ?=

为估计精度。

若事先给定?值,则()2

/2/n u

α

σ=?

在有些问题中,构造的统计量所服从的分布函数与n 有关,则我们需要采用试差法来

如课本135页的形式,

2)假设总体(,)N a ξσ ,其中σ、a 未知,显著水平为α 原假设

:a a H

=

备选假设1

:a

a H ≠

构造统计量__

()/(1)S n t a

t

ξ=

-

-

,拒绝域

(1)n t

t α>

-

进而求出其置信水平为1α-的区间估计为

__

__

(1)(1)n S n S

t t ααξξ?

--+

- ?

在给定?后,我们可以得到

2

2

2

1()(1)n n s

t α=+-?

,其中0.05α=

从t 分布临界表中看到,对于显著水平0.05α≤ 的情形,当30n >时,其

临界值(1)2n t α-≈,这个临界值对于30n >各个n 值的影响不太大,因此我们可以先采

用近似公式2

2

1()4n s

=+?

,若求得的n 大大超过30,则与(1)2n t α-≈不矛盾了。

否则采用试差法来确定n ,其步骤为: a) 先用2

2

1()4n s

=+?

计算出n

b) 再用上一步算出来的n 作为(1)n t α-中的n ,将(1)n t α-代入

2

2

2

1()(1)n n s

t α=+-?

求出新的n

c) 循环b)直至2

2

2

1()(1)n n s t α=+-?

两边n 值相同或差异很小为止

(2)单侧检验:

假设总体(,)N a ξσ ,其中σ已知,a 已知,显著水平为α 原假设 0

:a a H

=

备选假设1

:a a

H

>

可以将备选假设转化为10

:a a

H δ+=,其中δ为有实际意义的最小差值,也就是说

如果0

a

a

δ+>,则我们可以直接认为在考虑随机因素的情况下0

a

a >

由拒绝域__

()/(/u a

u αξσ=->

可以推出(u αδ

σ>

从而可得()

2

n u ασδ

>,满足该式且最小的整数n 极为最合理的样本容量

注:

(1)以上所讲的双侧检验的?以及单侧检验的δ均是由检验方制定的精度(有利于检验方),以此来确定合理的n ,这与实际情况是相符的。然而我们也应该看到,如果从利于生产方的角度来说,生产方显然希望n 较小,这可以从直观上理解。当然这里的n 有一个可以接受的上限,以u 检验为例,从接受域 得到

,即在这个

范围内检验是 生产商乐于接受的

(2)对于两个总体假设检验样本容量的确定参见课本138页,其思想与单参数假设检验样本容量的确定一致

(3)对于非参数检验(以皮尔苏检验为例)可以求出

()1

212m n

α?

?≥--+

??X

满足该式且最小的整数n 极为最合理的样本容量

4、例题

某种电子仪器额定电流的总体方差2

200σ

≈,

经校验确定的置信水平0.95的置信区间的

/2u u α≤2

2/0u n a ασξ??

≤??-??

长度为20mA ,问要检验多少台仪器,才能满足这样的要去? 解:取2

200,10S =?=,由2

2

1()4n s

=+?可得

9n =

由于30n <,所以要使用试差法

查得临界值0.05(8) 2.31t =,代入2

2

2

1()(1)n n s t α=+-? 得 11.67n =

又0.05(11) 2.20t =,代入2

2

2

1()(1)n n s

t α=+-?

得 10.94

n =

因为10,94与11比较接近,所以不用在“试差”了,即样本容量为11

最佳检验(两种错误发生的概率均已知)

1、最佳检验的回顾(只考虑两点检验)

两类错误:原假设

H

1

H 观察值

12(,,,)

n T x x x

H

的否定域为

A ,a 为置信水平

第一类错误(弃真):

00{}P T A H a

∈=

第二类错误(取伪):01{}P T A H β?=

2、 样本容量n 确定的本质:

(1) 控制两类错误在较小的范围内

(2) 建立错误概率与分布函数的等式关系,求解n

3、原理及方法(不同问题统一的作法)

假设假设检验的参数为θ,(;)T ξθ为满足Z 分布的随机变量函数,ξ为样本的某个统计量,

(,)F x θ为(;)T ξθ分布函数,Z α为Z 分布的分为点。

0011:,:H a H a θθ==的两点假设。

第一类错误概率:00{(;)}P T H ξθα∈Ω=,及00(,)(,)1F Z a F a αα--∞=- (1) 第二类错误概率:01{(;)}1P T H ξθβ∈Ω=-,及11(,)(,)F Z a F a ββ--∞= (2) 解得n.

举例:ξ服从(,)N a σ分布,a 未知,σ已知,不妨设10a a >, (否则按照书P130的例题8.4.4)。

则对于假设0011:,:H a a H a a ==。

最佳否定域应该为A ξ≥,ξ服从 (,/

N a σ分布。

这里可知00(;))/T a a ξξσ=-,满足标准正态分布。

令0)/U a ξσ=

-,由第一类错误(1)与第二类错误(2)知

{}P U u αα≥=,{}P U u ββ≤=。

U u α≥

,故0)/u A a ασ=-

,1)/u A a βσ=

-

查表得两个分为点,从而解方程组得

2

2

2

10()/()n u u a a αβσ

=--。

3、 例题

某种电子仪器额定电流的总体方差 ,经校验确定的置信水平0.95的置信区间的长度为20mA ,问要检验多少台仪器,才能满足这样的要去?

解:取 ,由

可得 ,由于

,所以要使用试差法 查得临界值 ,代入

得 又 ,代入

由自由度10,得 带入 ,得 因为10.94 与 10.68比较接近,所以不用在“试差”了,即样本容量为 11。

3、仿真实验[2]:给定分布函数,生成足够多数据的随机数,通过观察分析这些随机数的

统计量来仿真抽样,从而观察样本容量对抽样结果影响。为了方便操作,该实验使用标准正态分布函数。 3.1问题假设

(1).假设随机变量方差未知,运用t-检验。

(2).根据实际操作,样本容量不会太大,假设在60以内。 (3).

0.05() 2.0,30

t n n ≈≥,查表可知,假设n<10的部分,分为点2.4;10

为点为2.2; 3.2实验内容:

2

200,10S =?=2

2

1()4n s =+?30n <0.05(8) 2.31t =22

21()(1)n n s t α=+-?n 2

200σ≈9n =11.67n =0.05(11) 2.20t =2

2

2

1()(1)n n s t α=+-?10.68n =0.05(10) 2.23

t =2

2

2

1()(1)n n s t α=+-?10.94

n =10.68n =

(1).样本容量从5到60,分别生成随机数向量;

(2).计算统计量,画出统计量的变化趋势;

(3).设置t检验的置信水平为α的置信区间,每种样本容量进行100次实验,统计检验量落入接受域的实验的次数。

3.3实验结果(结果具有相似性,所以给出某次实验的结果)

3.3.1实验的期望与方差,方差估计式为 22

1

n

S

n

σ=

-,是方差的无偏估计。

3.3.2失败统计(每种)

3.4结果分析

从期望方差图可以看出,统计量在预估值之间震荡,可解释为受随机因素的影响。

同样给出此时的频数分布图可以看出,在样本容量不大的情况下,样本分布不接近正态分布,因此产生结果的随机性很明显,统计量没有收敛趋势。

比如n取很大的时候才接近正态分布。

经失败实验的统计,当n>30的阶段实验,失败实验的次数小于5次,可以说实验的成功率为95%,置信水平在0.05下的实验,从而仿真结果还是真实可信。

4、总结和体会

1、我们在做参数估计等实验之前能够预估需要多大的样本容量才能达到实验目的,这对今后不管走上研究道路还是管理道路都很有帮助。

2、其实样本容量的确定,是一个十分重要的工作。正如在前文假设检验中所示,如果从生产方的角度考虑问题,自然希望n越小越好,样本容量有一个可接受的上限;而从检验方的角度考虑,n则是越大越好,在满足精度范围就要有一个起码的下限。说的功利一些,这里的n所取值是和一方的利益相关的,选取自然需要谨慎。

3、我们在做实验时,是根据具体问题出发的,从而抽象出一个概念或模型,在做出这个模型后,还必须同具体问题进行对照,否则将无法对这个模型的准确性进行判断。这就帮助我们在今后做事时,也要注意同实际情况进行比较。

4、样本容量在数理统计的多个方面都有体现,是一个与实践情况联系紧密的概念。我们组所研究的假设检验中的样本容量确定,其实是一种提高假设检验“效率”的方式。事实求是的讲,我组所做成的结论是在一定简化基础上得到的,之后还可以有更多的研究。

参考文献:

[1] 概率论及数理统计(第4版)下册.高等教育出版社:中山大学,2009.

[2] 何正风.Matlab概率论与数理统计分析.机械工业出版社,2012.

附录:matlab仿真程序

n=60;

N=0;

ta=2.4;

for i=5:n

clear d

h=0;

for j=1:100

d=randn(i,1);

ksai(i-4)=mean(d);

sgma1(i-4)=std(d);

ssgma(i-4)=(i)*var(d)/(i-1);

sgma2=sqrt(ssgma);

t=sqrt(i-1)*ksai(i-4)/sgma1(i-4);

if i>=30

ta=2.0;

end

if 30>i|i>10

ta=2.2;

end

if (t>ta|t<-ta)

h=h+1;

end

end

N(i-4)=h;

end

X=-3:0.1:3;

figure(1)

hist(d,X);

c=1;

x=0;

j=5:1:60;

figure(2);

title('100′?êμ?é꧰ü′?êy') subplot(2,1,1);

plot(j,N,'*');

subplot(2,1,2);

hist(N);

figure(3);

plot(j,ksai,'-*r');

hold on;

plot(j,sgma2,'-ob');

hold off

市场调查中样本容量的确定

16 CHINA STATISTICS 市场调查中样本容量的确定 文/陈克明 宁震霖 在市场调研工作中,采用随机抽样进行资料采集时,需要预先确定样本量的大小。我们知道,在系统误差确定的条件下,抽样调查的准确性取决于抽样误差,而抽样误差的大小又与样本容量有直接的关系,即样本容量越大,抽样误差就越小。当然,这并不能说在抽样调查中样本容量越大就越好,因为样本容量越大,调查的费用就越高。因此,决定样本容量大小的主要因素是特定的调研项目对抽样误差的要求和项目预算经费这两个方面。在实际工作中,样本容量的确定实际上就是在抽样误差与经费预算之间求得最佳的平衡,即在可以接受的抽样误差的条件下使用最少的经费,当然,有时候则可能是在一定的经费额度条件下争取最小的抽样调查误差,而这个误差当然必须是可以接受的。所以,在市场调研中,随机抽样调查样本容量的确定,通常都是先根据调查对抽样误差的要求来考虑。 根据抽样误差要求确定的样本容量 根据随机抽样的基本原理,样本容量可以通过抽样误差、极限误差及置信度等因素的分析来加以确定。设在简单随机抽样(重复抽样)的条件下,置信度(t )与抽样误差(μ)及极限误差(Δ)的关系为t =Δ/μ,均值指标的抽样误差(μ)是由总体标准差(δ)和样本容量(n )决定的,即 显然,整理可得: 这就是说,只要我们能够确定总体标准差(δ)、置信度(t)和极限误差(Δ),样本容量即可确定。 第一,总体标准差的确定。总体标准差虽然是客观存在的,但我们是无法直接得到准确的数据的,所以在抽样调查中只能使用近似值,通常有几种简便的处理办法。 1.试验性抽样调查。在调研总体规模较大的情况下,可采用抽样调查方法估计δ。 即根据抽样调查所取得的样本标准差S的结果求得δ。根据概率论和数理统计的有关知识可知: 而 (其中X i 是样本值,X - 是样本 均值,n 是样本容量,δ是δ的最大似然估计),所以有 。 在样本容量n 满足大样本(一般不少于30个)的情况下, ,即 。也就是说,可以专门做一次n>30的抽样调查,用该样本资料可以计算得到样本标准差S,用样本标准差代替总体标准差。 2.利用历史资料或二手资料。一般地,大多数企业过去都曾经做过相关的市场调查,或相关部门(企业内部或企业外部)存有相关的二手统计资料,可以利用这些资料来估计总体标准差δ。 3.估算。根据概率论和数理统计的有关知识可知,在标准正态分布条件下,距离中心 的范围内分布了相当于总体的99.73%的变量,我们可将99.73%近似于总体的全部变量,即近似于100%。据此,只要能找出总体中最大值X max 和最小值X mi x ,然后根据近似公式 ,求得总体标准差δ。 4.运用管理人员的经验判断。在抽样调查实践中,如果要求不是非常严格,可以根据管理人员的有理有据的经验判断来估计总体标准差δ。 第二,极限误差或最大允许误差的确定。它是抽样调查实施者愿意接受或可容忍的最大误差,极限误差是一个临界值, 即误差超过这个临界值在很大的可能性上会改变事物的性质,如我们确定月收入在1000-1500元的为中等收入,其平均收入 水平为1250元,如果极限误差超出±250,则可能发生本来实际上属于中等收入水平的被划归入高收入阶层或低收入阶层,从而导致得出完全不同的分析结论,导致错误。 极限误差的确定需要具体问题具体分析。在抽样调查实践中,极限误差的确定可以根据经验和定性分析,先确定一个初始值,然后对这个初始值进行分析认定,如果太大就逐步加以缩小,如果太小就逐步扩大,放大该初始值,直到该值达到可能导致分析失误的临界状态,这个临界值就可以作为极限误差。

抽样调查习题

抽样调查练习 适合对口升学 一.单选题 1. 随机抽样的基本要求是严格遵守( )。 A.准确性原则 B.随机原则 C.代表性原则 D.可靠性原则 2. 抽样调查的主要目的是( )。 A.广泛运用数学的方法 B.计算和控制抽样误差 C.修正普查的资料 D.用样本统计量推算总体参数 3. 抽样总体单位亦可称为( )。 A.样本 B.单位样本数 C.样本单位 D.总体单位 4. 抽样误差产生于( )。 A.登记性误差 B.系统性误差 C.登记性误差与系统性误差 D.随机性的代表性误差 5. 在实际工作中,不重复抽样的抽样平均误差的计算,采用重复抽样的公式的情况是( )。 A.样本单位数占总体单位数的比重很小时 B.样本本单位数占总体单位数的比重很大时 C. 样本单位数目很少时 D. 样本单位数目很多时 6. 在同样条件下,不重复抽样的抽样平均误差与重复抽样的抽样平均误差大小关系是( )。 A.两者相等 B.前者小于后者 C.两者有时相等,有时不等 D.后者小于前者 7. 在抽样推断中,样本的容量( )。 A.越小越好 B.越大越好 C.取决于统一的抽样比例 D.取决于对抽样推断可靠性的要求 8. 用简单随机抽样(重复抽样)方法抽取样本单位,如果要使抽样平均误差降低50%,则样本容量需扩大到原来的( )。 倍倍倍倍 9. 在重复简单随机抽样下,抽样平均误差要减少1/3,则样本单位数就要扩大到( )。

倍倍倍倍 10. 某企业今年5月试制新产品,试生产60件,其中合格品与不合格品各占一半,则该新 产品合格率的成数方差为( )。 %%%% 11. 点估计( )。 A.不考虑抽样误差即可靠程度 B.考虑抽样误差及可靠程度 C.适用于推断的准确度要求高的情况 D.无需考虑无偏性、有效性、一致性 12. 反映样本统计量与总体参数之间抽样误差可能范围的指标是( )。 A.概率 B.允许误差的大小 C.概率保证程度 D.抽样平均误差的大小 13. 在区间估计中,有三个基本要素,它们是( )。 A.概率度、抽样平均误差、抽样数目 B.概率度、统计量值、误差范围 C.统计量值、抽样平均误差、概率度 D.误差范围、抽样平均误差、总体单位数 二.多选题 1. 抽样技术是一种( )。 A.搜集统计资料的方法 B.对现象总体进行科学的估计和推断方法 C.随机性的非全面调查方法 D.全面、准确的调查方法 2. 抽样调查的特点有( )。 A.只调查样本单位 B.抽样误差可以计算和控制 C.遵循随机原则 D.用样本统计量估计总体参数 3. 适用于抽样推断的有( )。 A.连续大量生产的某种小件产品的质量检验 B.某城市居民生活费支出情况 C.具有破坏性与消耗性的产品质量检查

如何确定抽样统计的最小样本量

如何确定抽样统计的最小样本量(附:随机抽样统计的抽样误差Excel计算表格) 在电视节目中经常看到关于选举的报道中经常会后有支持率的数字,例如:调查结果为 ?a方支持率为%; ?b方支持率为%; ?c方支持率为%; ?... 最后都会说明一下,此次电话调查的数量2352,置信度为95%﹐最大抽样误差为±%。 抽样调查的典型情景:对一个大的集合(比如:数千万选民)做一次调查的成本较高,抽样调查可以低成本的用近似的(可接受的)数据反映实际情况;在用户调研中,也经常通过通过抽样调查的方式并对比打分的方法做评估。这里就需要了解置信度和抽样误差的概念; 抽样误差:假如相同规模的抽样调查进行多次,抽样均值在真实均值的上下波动,相对于整体均值的偏移波动就是抽样误差,而这个误差的分布是符合的,例如下图:横轴为整体的均值,圆点是每次抽样的均值,而红色那次抽样就是加上误差后都未覆盖到均值线的情况); 最小抽样量的计算公式:抽样量需要> 30个才算足够多,可以用以下近似的误差/样本量估算公式; n:为样本量; :,抽样个体值和整体均值之间的偏离程度,抽样数值分布越分散方差越大,需要的采 样量越多; E:为抽样误差(可以根据均值的百分比设定),由于是倒数平方关系,抽样误差减小为 1/2,抽样量需要增加为4倍; : 为可靠性系数,即置信度,置信度为95%时,=,置信度为90%时,=,置信度越高需要的样本量越多;95%置信度比90%置信度需要的采样量多40%; 为了体现相对差距:假设抽样为y 相对抽样误差h = E / y C= σ / y 以下是基于抽样得分的抽样误差估算表格:方差越大需要的样本量越多,数据离散度越低,需要的抽样量越少; 置信度相对抽样误差(假设:C=

抽样调查样本量确定

抽样调查样本量的确定 在贸易统计中, 对于限额以下批零餐饮企业普遍采用抽样调查方法进行解决。然而,由于当前市场经济情况的多样性,经济发展的不均衡性,以及地域宽广性,导致情况多种多样;实际情况的复杂,决定了方案的复杂性,增加了具体抽样的难度。经过多年的探讨,区域二相抽样调查比较符合当前我国的实际情况,我们在这里根据试点所掌握的情况针对采用区域二相抽样调查的贸易抽样方案中如何确定样本量进行分析。 一、样本单位数量的确定原则 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。 从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于: (1)研究对象的变化程度,即变异程度; (2)要求和允许的误差大小,即精度要求; (3)要求推断的置信度,一般情况下,置信度取为95%; (4)总体的大小; (5)抽样的方法。 也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。

抽样调查的样本容量的确定方法

抽样调查的样本容量的确定方法 摘要:确定样本容量是抽样调查中重要的环节,影响到抽样估计的精确度和调查的成本和效益。单位标志变异程度、抽样极限误差、抽样推断的可靠度、抽样类型和方法等影响到样本容量地确定。样本容量的确定可以根据由抽样误差、抽样极限误差和概率度推算出来的公式计算,也可以根据建立在过去抽取满足统计方法要求的样本量所累积下来的经验法则来确定。 关键词:样本容量;抽样调查;抽样误差;极限误差 抽样调查是根据随机原则,从总体中抽取部分实际数据构成样本,同时运用概率估计方法,依据样本信息推断总体数量特征的一种非全面统计调查。根据抽选样本的方法,抽样调查可以分为等概率抽样和非概率抽样两类。等概率抽样又称为随机抽样,是按照概率论和数理统计的原理,从调查研究的总体中,根据随机原则来抽选样本,并从数量上对总体的某些特征做出估计推断,对推断出可能出现的误差可以从概率意义上加以控制。样本是从总体中抽出的部分单位的集合,样本中所包含的单位数被称为样本容量,一般用n表示。确定样本容量是制定抽样调查方案中的一个非常重要的环节。 1.确定样本容量的必要性 1.1样本容量大小影响抽样估计的精确度 抽样估计的精确度是指样本的统计量与其所代表的总体值的接近程度。调查结果相对于总体真实值的精确度与样本容量直接相关。样本容量越大,抽样误差相对就会减少,估计精度就会提高;若样本容量太小,抽样误差就会增大,从而影响抽样估计的精确度。 1.2样本容量大小影响抽样调查的成本和效益 样本量的设计通常受到研究经费及调查时间的限制。根据数理统计规律,样本量增加呈直线递增的情况下(样本量增加一倍,成本也增加一倍),而抽样误差只是样本量相对增长速度的平方根递减。若样本容量过大,调查单位增多,不仅增加人力、财力和物力的耗费,增加调查费用,而且还影响到抽样调查的时效性,从而不能充分发挥抽样调查的优越性。 因此,为节省调查费用,体现出抽样调查的优越性,在确定样本容量时,应在满足抽样调查对估计数据的精确度的前提下,尽量减少调查单位数,确保必要的抽样数目。 2.影响必要样本容量的主要因素 影响样本容量的因素是多方面的,在抽样调查总体、调查费用和调查时间既定的情况下,为确定最佳的样本容量,应首先分析影响样本容量的因素。从理论上说,影响样本容量的因素有以下几个方面: 2.1单位标志变异程度 或成数方差P(1-P)的大小来表示。在其他单位标志变异程度一般用方差2

第7章 抽样调查及答案

第七章 抽样调查 一、本章重点 1.抽样调查也叫做抽样推断或参数估计,必须坚持随机抽样的原则。它是一种非全面调查,其意义在于对总体的推断上,存在可控制性误差。是一种灵活快捷的调查方式。 2.抽样调查有全及总体与样本总体之区分。样本容量小于30时一般称为小样本。对于抽样调查来讲全及总体的指标叫做母体参数,是唯一确定的未知的量,样本指标是根据样本总体各单位标志值计算的综合性指标,是样本的一个函数,是一个随机变量,抽样调查就是要用样本指标去估计相应的总体指标。样本可能数目与样本容量有关也与抽样的方法有关。抽样方法可以分为考虑顺序的抽样与不考虑顺序的抽样;重复抽样与不重复抽样。 3.大数定律、正态分布理论、中心极限定理是抽样调查的数理基础。正态分布的密度函数有两个重要的参数(σ;x )。它有对称性、非负性等特点。中心极限定理证明了所有样本指标的平均数等于总体指标如X x E =)(。推出了样本分布的标准差为: 1--=N n N n x σμ。 4.抽样推断在逻辑上使用的是归纳推理的方法、在方法上使用的是概率估计的方法、存在着一定误差。无偏性、一致性和有效性是抽样估计的优良标准。 抽样调查既有登记性误差,也有代表性误差,抽样误差是一个随机变量,而抽样的平均误差是一个确定的值。抽样误差受总体标志值的差异程度、样本容量、抽样方法、抽样组织形式的影响。 在重复抽样下抽样的平均误差与总体标志值的差异程度成正比,与样本容量的平方根成反比即n x σμ=,不重复抽样的抽样平均误差仅与重复抽样的平均误差相差一个修正因子即 N n n x -=1σμ。在通常情况下总体的方差是未知的,一 般要用样本的方差来代替。 把抽样调查中允许的误差范围称作抽样的极限误差x ?或p ?。μt =?,用抽 样的平均误差来度量抽样的极限误差。把抽样估计的把握程度称为抽样估计的臵信度。抽样的极限误差越大,抽样估计的臵信度也越大。抽样估计又可区分为点估计和区间估计。按估计的指标不同又可分为总体平均数的估计、总体成数的估计和总体方差的估计。 二、难点释疑 1.要区分样本可能数目与必要抽样数目。样本可能数目是指从总体N 中抽取一个样本容量为n 的子样最多有多少种抽法,一般用M 表示。而必要抽样数目则是为了使抽样误差控制在一定的范围内,至少应抽取多少个单位作样本,是样本容量(n )的另一种表现形式。 2.大数定律、正态分布理论、中心极限定理都是假定从N 中抽取一个样本容量为n 的子样,把所有的样本都抽到(有M 种抽法)之后进行验证的,在实际工作中不可能办到。只能用样本的相应指标去推测总体的相应指标。这些理论只是为了验证抽样推断的科学性。

样本容量的确定

样本容量的确定分类: 在参数区间估计的讨论中,估计值和总体的参数之间存在着一定的差异,这种差异是由样本的随机性产生的。在样本容量不变的情况下,若要增加估计的可靠度,置信区间就会扩大,估计的精度就降低了。若要在不降低可靠性的前提下,增加估计的精确度,就只有扩大样本容量。当然,增大样本容量要受到人力、物力和时间等条件的限制,所以需要在满足一定精确度的条件下,尽可能恰当地确定样本容量。 一、影响样本容量的因素 (一)总体的变异程度(总体方差) 在其它条件相同的情况下,有较大方差的总体,样本的容量应该大一些,反之则应 该小一些。例如:在正态总体均值的估计中,抽样平均误差为它反映了样本均值相对于总体均值的离散程度。所以,当总体方差较大时,样本的容量也相应要 大,这样才会使较小,以保证估计的精确度。 (二)允许误差的大小 允许误差指允许的抽样误差,记为,例如,样本均值与总体均值之间的 允许误差可以表示为,允许误差以绝对值的形式表现了抽样误差的可能范围,所以又称为误差。 允许误差说明了估计的精度,所以,在其他条件不变的情况下,如果要求估计的精度高,允许误差就小,那么样本容量就要大一些;如要求的精确度不高,允许误差可以大些,则样本容量可以小一些。 (三)概率保证度1-α的大小 概率保证度说明了估计的可靠程度。所以,在其他条件不变的情况下,如果要求较高的可靠度,就要增大样本容量;反之,可以相应减少样本容量。 (四)抽样方法不同 在相同的条件下,重复抽样的抽样平均误差比不重复抽样的抽样平均误差大,所需要的样本容量也就不同。重复抽样需要更大的样本容量,而不重复抽样的样本容量则可小一些。

此外,必要的抽样数目还要受抽样组织方式的影响,这也是因为不同的抽样组织方式有不同的抽样平均误差。 二、样本容量的确定 (一) 估计总体均值的样本容量 在总体均值的区间估计里,置信区间是由下式确定的: 例如,对于正态总体以及非正态总体大样本时,都是以它为置信区间。 从图6–1中可以看到,从估计量x的取值到点的距离实际上为置信区间长 度的。这段距离表示在一定置信水平1-α下,用样本均值估计总体均值时所允许的最大绝对误差即允许误差Δ。显然,若以x的取值为原点,则允许误差Δ可以表示为: (6–15) x=0 图6–1 允许误差示意图 公式(6–15)反映了允许误差Δ、可靠性系数、总体标准差与样本容量之间的相互制约关系。只要这四个因素中的任意三个因素确定后,另一个因素也就确定了。 在重复抽样条件下,把允许误差Δ的计算公式变形整理,则得到样本容量的计算公式: (6–16)

抽样调查心得

抽样技术学习心得 姓名:赵胜男 学号:6 学院:理学院 班级:信息102班 教师:刘红梅

大三下学期我们学习了抽样调查这门课程,抽样调查是统计学专业的专业基础课,虽然我们不是统计学专业的学生,我认为了解与掌握有关抽样调查的知识和技能也是非常重要的。学了这门课程,我受益匪浅,我了解了抽样调查相关的概念与发展历史,同时抽样调查存在实际意义,在政府部门、各社会团体、企业单位等地方得到了非常广泛的应用,是了解情况和收集信息的最主要的方式。下面我浅谈下对于抽样调查这门课程的感悟,以及学习到的知识: 一.抽样调查概念 抽样调查是根据随机的原则从总体中抽取部分实际数据进行调查,并运用概率估计方法,根据样本数据推算总体相应的数量指标的一种统计分析方法。 二.抽样调查特点 抽样调查从研究对象的总体中抽取一部分个体作为样本进行调查,据此推断有关总体的数字特征。有较好的经济性,实效性,同时适应面广,准确性高。抽样调查是根据部分实际调查结果来推断总体标志总量的一种统计调查方法,属于非全面调查的范畴。它是按照科学的原理和计算,从若干单位组成的事物总体中,抽取部分样本单位来进行调查、观察,用所得到的调查标志的数据以代表总体,推断总体。 与其它调查一样,抽样调查也会遇到调查的误差和偏误问题。通常抽样调查的误差有两种:一种是工作误差(也称登记误差或调查误差),一种是代表性误差(也称抽样误差)。但是,抽样调查可以通过抽样设计,通过计算并采用一系列科学的方法,把代表性误差控制在允许的范围之内;另外,由于调查单位少,代表性强,所需调查人员少,工作误差比全面调查要小。特别是在总体包括的调查单位较多的情况下,抽样调查结果的准确性一般高于全面调查。因此,抽样调查的结果是非常可靠的。 抽样调查数据之所以能用来代表和推算总体,主要是因为抽样调查本身具有其它非全面调查所不具备的特点,主要是: (1)调查样本是按随机的原则抽取的,在总体中每一个单位被抽取的机会是均等的,因此,能够保证被抽中的单位在总体中的均匀分布,不致出现倾向性误差,代表性强。 (2)是以抽取的全部样本单位作为一个“代表团”,用整个“代表团”来代表总体。而不是用随意挑选的个别单位代表总体。 (3)所抽选的调查样本数量,是根据调查误差的要求,经过科学的计算确定的,在调查样本的数量上有可靠的保证。 (4)抽样调查的误差,是在调查前就可以根据调查样本数量和总体中各单位之间的差异程度进行计算,并控制在允许范围以内,调查结果的准确程度较高。 基于以上特点,抽样调查被公认为是非全面调查方法中用来推算和代表总体的最完善、最有科学根据的调查方法。

样本量的确定方法.

样本量的确定方法(2008-10-14 09:12:34) 一、样本单位数量的确定原则 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。 从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于: (1)研究对象的变化程度,即变异程度; (2)要求和允许的误差大小,即精度要求; (3)要求推断的置信度,一般情况下,置信度取为95%; (4)总体的大小; (5)抽样的方法。 也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。 二、样本量的确定方法 如何确定样本量,基本方法很多,但是公式检验表明,当误差和置信区间一定时,不同的样本量计算公式计算出来的样本量是十分相近的,所以,我们完全可以使用简单随机抽样计算样本量的公式去近似估计其他抽样方法的样本量,这样可以更加快捷方便,然后将样本量根据一定方法分配到各个子域中去。所以,区域二相抽样不能计算样本量的说法是不科学的。

如何确定抽样统计的最小样本量

?a方支持率为45.3%; ?b方支持率为30.2%; ?c方支持率为8.5%; ?... 最后都会说明一下,此次电话调查的数量2352,置信度为95%﹐最大抽样误差为±2.5%。 抽样调查的典型情景:对一个大的集合(比如:数千万选民)做一次调查的成本较高,抽样调查可以低成本的用近似的(可接受的)数据反映实际情况;在用户调研中,也经常通过通过抽样调查的方式并对比打分的方法做评估。这里就需要了解置信度和抽样误差的概念; 抽样误差:假如相同规模的抽样调查进行多次,抽样均值在真实均值的上下波动,相对于整体均值的偏移波动就是抽样误差,而这个误差的分布是符合标准正态分布的,例如下图:横轴为整体的均值,圆点是每次抽样的均值,而红色那次抽样就是加上误差后都未覆盖到均值线的情况);

最小抽样量的计算公式:抽样量需要> 30个才算足够多,可以用以下近似的误差/样本量估算公式; n:为样本量; :方差,抽样个体值和整体均值之间的偏离程度,抽样数值分布越分散方差越大,需要的采样量越多; E:为抽样误差(可以根据均值的百分比设定),由于是倒数平方关系,抽样误差减小为1/2,抽样量需要增加为4倍; : 为可靠性系数,即置信度,置信度为95%时,=1.96,置信度为90%时,=1.645,置信度越高需要的样本量越多;95%置信度比90%置信度需要的采样量多40%; 为了体现相对差距:假设抽样均值为y 相对抽样误差h = E / y 变异系数C= σ / y

以下是基于抽样得分的抽样误差估算表格:方差越大需要的样本量越多,数据离散度越低,需要的抽样量越少; 相对抽样误差(假设:C=0.4) π为按照经验得出的最后比例,在未知时π可取50%,待算出结果后再重新拟合,比例越悬 从而看出大部分的电话抽样调查:95%置信度的情况下,误差要控制在2%以内取样量一般在2000-5000;为了方便计算抽样调查的误差和估算抽样量,制作了一个Excel表格附后,调整颜色框中的抽样量数字就可以得到相应的误差或根据指定的误差范围估算出抽样量;

抽样调查方案设计

武汉商学院天堂雨伞市场需求抽样 调查方案设计 一.抽样调查的目的 抽样调查的目的在于根据样本调查的结果来推断总体的数量特征。从而明确整个市场的需求,确定企业的发展新方向和新目标。在此次的调查中我们旨在解决市场的最新需求。准确系统的把天堂雨伞这个发展成熟的市场进行深入的调查,分析出自身与竞争对手的实力的差距或者优势明确市场需求特征以求更好的满足其需求。找出自己的市场竞争点的所在,做出新的市场分析。力求做到把握市场的最新动向,了解自己与竞争对手的实力对比做到有的放矢。在调查的过程中做到数据有效性,得到的数据要具有明显得针对性。没有对市场的正确认识和分析,就不可能在日益激烈的市场竞争中战胜对手,壮大自己,发展自己。正确及时而客观的市场调查,可帮助天堂雨伞正确评估自身市场态势、市场地位、市场竞争力,帮助天堂雨伞迅速及时地作出经营决策,化解经营中各种矛盾冲突,保持天堂雨伞良好态势和健康的发展。市场调查成为天堂雨伞发展中不可或缺的重要工具。争取根据样本推断总体中时从中发现一些对于调整市场营销策 略及课程结构调整有价值的数据,从而知道自己的优势和劣势,发 现不足,扬长避短,找准未来的发展方向。 二.抽样市场调查的优点和缺点 抽样市场调查又称概率抽样调查或随机抽样调查,是指调查者为

了特定的调研目的,按照随机原则从调查总体中抽取一部分单位作为样本而进行的一种非全面调查。 其主要特点为:首先样本是按随机原则抽取的,其次是用样本数据推断总体的数量特征。再次为抽样误差不可避免,但可以计算和控制。 抽样市场调查的优点:首先是调查方式的科学性,它有充分的数据依据,能够将调查样本的代表性误差控制在允许的范围内,调查费用的经济性调查规模比全面调查小,资料收集,汇总处理工作量小可以节省人力,物力,财力,从而降低市场调查费用,信息获取的时效 性和调研结果的准确性,其样本按随机原则抽取的,从而排除了主观因素的干扰,能够保证样本推断总体的客观性。 三.确定总体范围和总体单位 总体是所要调查研究的现象的全体,它是由具有同质性和差异性的许多个别事物的集合体。样本是按随机原则从总体中抽出来的一部分单位的综合体,样本中包含的单位个数成为样本量 总体范围的确定应该从时间和空间两方面考虑,即被调查者的入学时间和所在的区域分布。本次调研的总体范围是武汉商学院的在校学生,通过时间及空间的界定,对于时间我们界定在在校的大学生主要是大二和大三学生。本次调研总体还应划分系部,我们主要的调查对象是武汉商学院的全体在校学生。总共预计500名被调查者,即有500名总体单位。然后从中抽取50个样本进行调查。 四.确定抽样推断的主要项目

最新样本量的确定知识讲解

样本量的确定 1. 二值分布(估计比例时的样本容量) 这种情况下,表明可能的采样结果只有两种情况,即是与非的问题。比如调查某一批产品的合格率。样本量的确定主要受以下几个因素影响:置信水平α、所能接受的抽样偏差e (估计值与真实值的最大偏差)、总体数量N ;通过置信水平即可查表确定z 。 通常情况下置信水平选择95%。抽样偏差为±5%,不过也不完全一定,抽样偏差的确定还是要考虑实际情况,比如最小的调查估计值p=5%,此时抽样偏差就应该小于5%。 这时,就可以确定样本量: 22 2(1)(1)z p p n z p p e N -=-+ P 值的确定:用以前类似样本得到的结果来近似,如果完全不知道就设p=0.5,因为此时方差最大,可求得一个比较保守的样本容量。 样本容量和在p=0.5时运用简单随机抽样估计p 值得到的抽样偏差e

如果总体容量N 非常大,可近似为无穷,那么上面这个公式可简化成: 22 (1)z p p n e -= 事实上当总体容量很小时,不会采用抽样调查,而是普查了。 2. 正态分布(估计均值时的样本容量) 在这种情况下,表明采样的结果是具有多样性的,并不局限在0、1上。比如对某一城市老年人的患病年龄进行统计。这个时候,样本量同样受如下几个因素影响:置信水平α、所能接受的抽样偏差e (估计值与真实值的最大偏差)、总体数量N 。 样本量为: 22 222 z S n z S e N = + S 表明的是总体标准差,这个可以用以前类似样本得到的S 或是实验调查样本的S 来近似。 同样,如果总体容量N 非常大,可近似为无穷,那么上面这个公式可简化成: 22 2 z S n e = 理论基础: 根据数理统计知识,样本均值对总体均值可构造如下统计量: x X u σ-,他满足标准正态分 布,查表即可得到某一显著性水平下这个统计量的值,这里面的x σ表示总体均值估计量的标准误差。 在无放回简单随机抽样情况下,总体均值估计量的标准误差表达式: x σ=

抽样检验中样本容量的确定

抽样检验中样本容量的确定 林鹤凯、宋明展、杨琨、孔京生 摘要: 在实验工作中,常遇到如何把握采集样本的容量的问题,本文结合实际,从三个方 面论述如何求出一个既满足精度,又相对较小的样本容量。求解的主体思想,为区间估计,即给定区间范围从而求得最佳n 值。另外,在假设检验中,本文从生产和检验双方考虑,得到两种不同的容量取值方法,在生产中具有一定意义。根据所做估计,本文用matlab 编程进行了仿真实验。经失败实验的统计,当n>30的阶段实验,失败实验的次数小于5次,可以说实验的成功率为95%,置信水平在0.05下的实验,从而仿真结果还是真实可信。 关键词:参数检验、假设检验、最佳检验、样本容量、matlab 实验验证 1、问题简述: 在实验工作中常遇到问题是如何把握采集样本的容量,如果容量n 太小,估计问题不那么精确,检验问题就不太可靠;容量太大,又会造成人力物力的浪费。在此我们的就是要结合实际求出一个即满足精度又相对较小的样本容量。 2、问题求解[1]: ● 参数估计 1、 点估计 以正态总体为例,有 ,已知 为其样本。 a 的无偏估计为 ,且 ,若要求 ,其中,δ 是已知常数,则 ,从而使估计可以更精确 。 2、区间估计 以正态总体 为例有: 当 已知有 )/ ~(0,1) a N ξσ- 当 未知有 a 的置信水平为1-α的区间估计分别为: ● 假设检验(以参数检验为主) 1、 参数检验基本思想: 2 ~(,)N a ξσ12n ,,,ξξξ??????ξ2()/D n ξσ=()D ξδ<2 /n σδ>2 (,)N a σσ σ1 )/~n a S t ξ- -____ /2/2((a u u ααξσξσ+≥≥ -____ /2/2 (1)((1)(t n a t n ααξξ+-≥≥--

抽样调查基础

第九章抽样调查基础 一、本章重点 1.抽样调查也叫做抽样推断或参数估计,必须坚持随机抽样的原则。它是一种非全面调查,其意义在于对总体的推断上,存在可控制性误差。是一种灵活快捷的调查方式。 2.抽样调查有全及总体与样本总体之区分。样本容量小于30时一般称为小样本。对于抽样调查来讲全及总体的指标叫做母体参数,是唯一确定的未知的量,样本指标是根据样本总体各单位标志值计算的综合性指标,是样本的一个函数,是一个随机变量,抽样调查就是要用样本指标去估计相应的总体指标。样本可能数目与样本容量有关也与抽样的方法有关。抽样方法可以分为考虑顺序的抽样与不考虑顺序的抽样;重复抽样与不重复抽样。

3.大数定律、正态分布理论、中心极限定理是抽样调查的数理基础。正态分布的密度函数有两个重要的参数(σ;x )。它有对称性、非负性等特点。中心极限定理证明了所有样本指标的平均数等于总体指标如X x E =)(。推出了样本分布的标准差为:1--=N n N n x σμ。 4.抽样推断在逻辑上使用的是归纳推理的方法、在方法上使用的是概率估计的方法、存在着一定误差。无偏性、一致性和有效性是抽样估计的优良标准。 抽样调查既有登记性误差,也有代表性误差,抽样误差是一个随机变量,而抽样的平均误差是一个确定的值。抽样误差受总体标志值的差异程度、样本容量、抽样方法、抽样组织形式的影响。 在重复抽样下抽样的平均误差与总体标志值的差异程度成正比,与样本容量的平方根成反比即n x σ μ=,不

重复抽样的抽样平均误差仅与重复抽样的平均误差相差一个修正因子即N n n x -=1σμ。在通常情况下总体的方差是未知的,一般要用样本的方差来代替。 把抽样调查中允许的误差范围称作抽样的极限误差x ?或p ?。μt =?,用抽样的平均误差来度量抽样的极限误差。把抽样估计的把握程度称为抽样估计的置信度。抽样的极限误差越大,抽样估计的置信度也越大。抽样估计又可区分为点估计和区间估计。按估计的指标不同又可分为总体平均数的估计、总体成数的估计和总体方差的估计。 二、难点释疑 1.要区分样本可能数目与必要抽样数目。样本可能数目是指从总体N 中抽取一个样本容量为n 的子样最多有多少种抽法,一般用M 表示。而必要抽样数目则是为了使抽样误差控制在一定的范围内,至少应抽取多

抽样检验标准()

1.0说明 1.0适用范围 1)对于形成过程连续,具有自然连续性和整体均匀性的流程性材料,不能进行计数只能进行计量的物料,如没有明确规定抽样检验方式的,按本标准中的2.0有关抽 检规定执行。 2)没有明确规定抽样检验方式的其他批量物料,执行本标准中的3.0、4.0、5.0有关规定,这部分物料包括:外购物料、委外加工的零部件、自制零部件等。 1.1引用标准 本标准依据GB/T 2828.1-2003/ISO 2859-1:1999 计数抽样检验程序制定。 2.0流程性材料抽检规定 2.1规格、型号相同,由同一个供应商供货的同批流程性材料作为一个检验批,对于塑料 或树脂、钢材炉批号等相同的物料为一个检验批。 2.2钢材的理化试验,每批抽检一组试样 2.3不易展开的物料在端头进行常规检验,如线材类等 3.0术语及符号 3.1批量(N):产品生产批次数,同一个供应商采用相同材质、技术工艺、车间、人员及 设备生产出的产品统称为批次.构成一个批的产品产生条件须尽可能相同 采购件:规格、型号相同,由同一个供应商供货的的同批产品。 外协件:同一个外协厂按同一图纸,采用相同的工艺方法的同批产品。 自制件:同一班次按同一图纸,采用相同的材料、工艺方法和设备的产品。 3.2样本量(n):样本中产品数量 3.3样本的抽取:按简单随机抽样(见GB/T 3358.1-1993的5.7)从批中抽取作为样本。 样本可在制作完成后或在制作期间抽取。由本公司自制件的首件必须报捡。二次或多 次抽样的样本应从同一批的剩余部分抽取。 3.4正常、加严、放宽检验 1)概念 正常检验:在规定的时段或生产量内平均过程水平优于可允许的最差过程平均质量水平可使用正常检验方法。

下列抽样调查中,样本

竭诚为您提供优质文档/双击可除下列抽样调查中,样本 篇一:6-2第六章抽样(习题解答) 第六章抽样 一、辨析题 1、一般来说,任意抽样技术适用于正式的实际调查。 错误。适用于非正式的探测性调查,或调查前的准备工作。 2、一般说来,总体中各单位之间标志值的变异程度越大,需要抽样的样本数目越多;反之,需要抽样的样本数目越少。 正确 3、分层最佳抽样法指的是等比例分层抽样。 错误。这是非比例分层抽样。 4、一般而言,抽样的样本占总体的比例同抽样误差成反向关系,即抽样比例越大,抽样误差相对越小。 正确 5、抽样误差是随机抽样调查中必然发生的代表性误差,所以平均误差是不可避免的。而且,这种误差一般包括了技

术性误差,即调查工作中的误差。 错误。这种误差一般不包括技术性误差即调查工作中的误差。 6、总体单位之间标志变异程度越大,抽样误差越大;反之则越小。 正确 7、样本单位数目越多,抽样误差越大,反之则越小。 错误。样本单位数目越多,抽样误差越小,反之则大。 8、一般来说,简单随机抽样比分层、分群抽样误差大,不重复抽样比重复抽样误差大。 错误。重复抽样比不重复抽样误差大。 9、点值估计是考虑了抽样误差,直接以样本指标作为总体指标的估计值,作近似的估计。 错误,不考虑抽样误差。 二、名词解释 1、抽样调查 抽样调查也称为抽查,是指从调查总体中抽选出一部分要素作为样本,对样本进行调查,并根据抽样所得的结果推断总体的一种专门性的调查活动。 2、抽样 抽样是指在抽样调查时采用一定的方法,抽选具有代表性的样本,以及各种抽样操作技巧和工作程序等的总称。

3、随机抽样 随机抽样又称为概率抽样或机率抽样,是对总体中每一个体都给予平等的抽取机会的抽样技术。在随机抽样的条件下,每个个体抽中或抽不中完全凭机遇,排除了人的主观因素的选择。 4、分层随机抽样 分层随机抽样又称为分类随机抽样,是把调查总体按其属性不同分为若干层次(或类型)然后在各层(或类型)中随机抽取样本的技术。 5、分群随机抽样 分群随机抽样(clustersampling),又称整群抽样,是把调查总体区分为若干个群体,然后用单纯随机抽样法,从中抽取某些群体进行全面调查的技术。 6、系统抽样 系统抽样(systematicrandomsampling),又称等距离随机抽样或机械随机抽样。它是在总体中先按一定标志顺序排列,并根据总体单位数和样本单位数计算出抽样距离(即相同的间隔),然后按相同的距离或间隔抽选样本单位的技术。 7、非随机抽样 非随机抽样(non-probabilitysampling),亦称为非概率抽样或非可能率抽样等,是对总体中每一个个体不具有被

样本量计算

1.估计样本量的决定因素 1.1 资料性质 计量资料如果设计均衡,误差控制得好,样本可以小于30例; 计数资料即使误差控制严格,设计均衡, 样本需要大一些,需要30-100例。 1.2 研究事件的发生率 研究事件预期结局出现的结局(疾病或死亡),疾病发生率越高,所需的样本量越小,反之就要越大。 1.3 研究因素的有效率 有效率越高,即实验组和对照组比较数值差异越大,样本量就可以越小,小样本就可以达到统计学的显著性,反之就要越大。 1.4 显著性水平 即假设检验第一类(α)错误出现的概率。为假阳性错误出现的概率。α越小,所需的样本量越大,反之就要越小。α水平由研究者具情决定,通常α取0.05或0.01。 1.5 检验效能 检验效能又称把握度,为1-β,即假设检验第二类错误出现的概率,为假阴性错误出现的概率。即在特定的α水准下,若总体参数之间确实存在着差别,此时该次实验能发现此差别的概率。检验效能即避免假阴性的能力,β越小,检验效能越高,所需的样本量越大,反之就要越小。β水平由研究者具情决定,通常取β为0.2,0.1或0.05。即1-β=0.8,0.1或0.95,也就是说把握度为80%,90%或95%。 1.6 容许的误差(δ) 如果调查均数时,则先确定样本的均数( )和总体均数(m)之间最大的误差为多少。容许误差越小,需要样本量越大。一般取总体均数(1-α)可信限的一半。 1.7 总体标准差(s) 一般因未知而用样本标准差s代替。 1.8 双侧检验与单侧检验 采用统计学检验时,当研究结果高于和低于效应指标的界限均有意义时,应该选择双侧检验,所需样本量就大; 当研究结果仅高于或低于效应指标的界限有意义时,应该选择单侧检验,所需样本量就小。当进行双侧检验或单侧检验时,其α或β的Ua 界值通过查标准正态分布的分位数表即可得到。

抽样调查基础.doc

第九章 抽样调查基础 一、本章重点 1.抽样调查也叫做抽样推断或参数估计,必须坚持随机抽样的原则。它是一种非全面调查,其意义在于对总体的推断上,存在可控制性误差。是一种灵活快捷的调查方式。 2.抽样调查有全及总体与样本总体之区分。样本容量小于30时一般称为小样本。对于抽样调查来讲全及总体的指标叫做母体参数,是唯一确定的未知的量,样本指标是根据样本总体各单位标志值计算的综合性指标,是样本的一个函数,是一个随机变量,抽样调查就是要用样本指标去估计相应的总体指标。样本可能数目与样本容量有关也与抽样的方法有关。抽样方法可以分为考虑顺序的抽样与不考虑顺序的抽样;重复抽样与不重复抽样。 3.大数定律、正态分布理论、中心极限定理是抽样调查的数理基础。正态分布的密度函数有两个重要的参数(σ;x )。它有对称性、非负性等特点。中心极限定理证明了所有样本指标的平均数等于总体指标如X x E =)(。推出了样本分布的标准差为:1 --=N n N n x σ μ。 4.抽样推断在逻辑上使用的是归纳推理的方法、在方法上使用的

是概率估计的方法、存在着一定误差。无偏性、一致性和有效性是抽样估计的优良标准。 抽样调查既有登记性误差,也有代表性误差,抽样误差是一个随机变量,而抽样的平均误差是一个确定的值。抽样误差受总体标志值的差异程度、样本容量、抽样方法、抽样组织形式的影响。 在重复抽样下抽样的平均误差与总体标志值的差异程度成正比,与样本容量的平方根成反比即n x σ μ=,不重复抽样的抽样平均误差仅与重复抽样的平均误差相差一个修正因子即N n n x -=1σ μ。在通常情况下总体的方差是未知的,一般要用样本的方差来代替。 把抽样调查中允许的误差范围称作抽样的极限误差x ?或p ?。μt =?,用抽样的平均误差来度量抽样的极限误差。把抽样估计的把握程度称为抽样估计的置信度。抽样的极限误差越大,抽样估计的置信度也越大。抽样估计又可区分为点估计和区间估计。按估计的指标不同又可分为总体平均数的估计、总体成数的估计和总体方差的估计。 二、难点释疑 1.要区分样本可能数目与必要抽样数目。样本可能数目是指从总体N 中抽取一个样本容量为n 的子样最多有多少种抽法,一般用M

抽样调查方案设计样本

武汉商学院天堂雨伞市场需求抽样调查方案设计 一.抽样调查的目的 抽样调查的目的在于根据样本调查的结果来推断总体的数量特征。从而明确整个市场的需求, 确定企业的发展新方向和新目标。在此次的调查中我们旨在解决市场的最新需求。准确系统的把天堂雨伞这个发展成熟的市场进行深入的调查, 分析出自身与竞争对手的实力的差距或者优势明确市场需求特征以求更好的满足其需求。找出自己的市场竞争点的所在, 做出新的市场分析。力求做到把握市场的最新动向, 了解自己与竞争对手的实力对比做到有的放矢。在调查的过程中做到数据有效性, 得到的数据要具有明显得针对性。没有对市场的正确认识和分析, 就不可能在日益激烈的市场竞争中战胜对手, 壮大自己, 发展自己。正确及时而客观的市场调查, 可帮助天堂雨伞正确评估自身市场态势、市场地位、市场竞争力, 帮助天堂雨伞迅速及时地作出经营决策, 化解经营中各种矛盾冲突, 保持天堂雨伞良好态势和健康的发展。市场调查成为天堂雨伞发展中不可或缺的重要工具。争取根据样本推断总体中时从中发现一些对于调整市场营销策略及课程结构调整有价值的数据, 从而知道自己的优势和劣势, 发现不足, 扬长避短, 找准未来的发展方向。 二.抽样市场调查的优点和缺点 抽样市场调查又称概率抽样调查或随机抽样调查, 是指调查者为了特定的调研目的, 按照随机原则从调查总体中抽取一部分单

位作为样本而进行的一种非全面调查。 其主要特点为: 首先样本是按随机原则抽取的, 其次是用样本数据推断总体的数量特征。再次为抽样误差不可避免, 但能够计算和控制。 抽样市场调查的优点: 首先是调查方式的科学性, 它有充分的数据依据, 能够将调查样本的代表性误差控制在允许的范围内, 调查费用的经济性调查规模比全面调查小, 资料收集, 汇总处理工作量小能够节省人力,物力, 财力, 从而降低市场调查费用, 信息获取的时效性和调研结果的准确性, 其样本按随机原则抽取的, 从而排除了主观因素的干扰, 能够保证样本推断总体的客观性。 三.确定总体范围和总体单位 总体是所要调查研究的现象的全体, 它是由具有同质性和差异性的许多个别事物的集合体。样本是按随机原则从总体中抽出来的一部分单位的综合体, 样本中包含的单位个数成为样本量总体范围的确定应该从时间和空间两方面考虑, 即被调查者的入学时间和所在的区域分布。本次调研的总体范围是武汉商学院的在校学生, 经过时间及空间的界定, 对于时间我们界定在在校的大学生主要是大二和大三学生。本次调研总体还应划分系部, 我们主要的调查对象是武汉商学院的全体在校学生。总共预计500名被调查者, 即有500名总体单位。然后从中抽取50个样本进行调查。 四.确定抽样推断的主要项目 调查项目和内容主要包括以下几个方面:

相关文档
最新文档