样本容量的确定

合集下载

样本容量的确定

样本容量的确定
抽样结果的点估计在很少的情况下完全准确 因此人们更偏于区间估计 区间估计就是 对变量值如总体平均值的区间或范围进行估计 除了要说明区间大小外 习惯上还要说明实 际总体平均值在区间范围以内的概率 这一概率通常被称为置信系数或者置信度 区间则被 称为置信区间
都在此范围内 而通过简单随机样本对总体做的估计为实际总体平均值 2 倍标准误差范围 内的概率为 95 在实际总体平均值 3 倍标准误 差范围内的概率为 99.7 5.5.3 点估计和区间估计
当利用抽样要对总体平均值进行估计时 有两种估计方法 点估计和区间估计 点估计 是指把样本平均值作为总体平均数的估计值 观察图 5.3 的平均数抽样分布可知某一特定的 抽样结果 其平均数很可能相对更接近总体平均数 但是 样本平均数分布中的任一个值都 可能是这一特定样本的平均值 有一小部分的样本平均值与实际总体平均值有相当的差距 这种差距就叫抽样误差
在任何确定样本容量的问题中 都必须认真考虑所要分析并要据此做统计推断的总体样 本的各个子群的数目的预期容量 例如 从整体上看样本容量为 400 很符合要求 但若要分 别分析男性和女性被调查者 并且要求男性与女性的样本各占一半 那么每个子群的容量仅
1
广州方舟市场研究有限公司
统计学基础知识
为 200 这个数字是否符合要求 能使分析人员对两组的特征做出预期的统计推断呢 再如 要按年龄和性别分析调研结果 问题就变得更复杂了 假设要按以下方式将总体样本划分为 四组
5
广州方舟市场研究有限公司
统计学基础知识
5.5.2 根据单个样本做出推断 在实际操作中 人们往往不愿从总体中抽出所有可能的随机样本 画出像表 5.3 和图 5.4
那样的频率分布表和直方图来 人们希望进行简单的随机抽样 并据此对总体进行统计推断 问题出现了 通过任一简单的随机样本对总体均数进行的估计 其估计值在总体平均值 1 个标准误差内的概率究竟为多大 根据表 5.2 可知概率为 68 因为所有样本平均数有 68

第十三章 确定样本容量

第十三章 确定样本容量
小总体情况是指在其样本超过总体总容量 的5% 如果是小总体, 如果是小总体,则样本容量的公式就需要用有限 乘数来进行调整。 乘数来进行调整。有限乘数是指近似于不包括样 本的总体比率的平方根的一个调整因素。 本的总体比率的平方根的一个调整因素。
采用有限乘数来计算样本容量的公式如 下:
N −n 样 容 =样 容 公 × 本 量 本 量 式 N −1
(二)、用平均数确定样本容量 )、用平均数确定样本容量
其公式如下:
s2 z2 n= 2 联 的标准误差来表明);s为由估计的标准差表明的 可变性;e为样本估计值相对于总体的精确度或可 接受误差。
三、确定样本大小时实际应考虑的问题
(一)如何估计总体的差异性 一
)、置信区间法 (五)、置信区间法
运用差异性置信区间、 置信区间法:运用差异性置信区间、样本分布 以及平均数标准误差或百分率标准误差等概念来 创建一个有效的样本。 创建一个有效的样本。 1、差异性的概念 、 差异性是指受访者对某一特定问题的答案在相异 差异性是指受访者对某一特定问题的答案在相异 或相似性)方面的总括。 性(或相似性)方面的总括。 如果多数回答都接近同一个数字, 如果多数回答都接近同一个数字,而且大多数的 回答都集中在某一小范围内,则差异性小;反之, 回答都集中在某一小范围内,则差异性小;反之, 则差异性大。 则差异性大。
平均数标准误差的计算公式如下: 平均数标准误差的计算公式如下: 的计算公式如下
S Sx = n 式 : x为 均 标 误 ; 为 本 准 ; 中 S 平 数 准 差 S 样 标 差 n为 本 量 样 容 。
百分率标准误差计算公式如下: 百分率标准误差计算公式如下: 计算公式如下
p×q Sp = n 式 : p为 分 标 差 p为 本 的 分 ; 中 s 百 率 准 ; 样 中 百 率 q为 100 − p) n为 本 量 ( ; 样 容 。

第五章 抽样:样本容量的确定(市场调研-北京大学,胡健颖)

第五章  抽样:样本容量的确定(市场调研-北京大学,胡健颖)

9
第五章 抽样:样本容量的确定
3) 均值或比例的标准误差(standard error) ,或抽 样平均误差,公式为: 均值 比例
x

n
P
P(1 P) n
2014-2-6
北京大学光华管理学院 胡健颖
10
第五章 抽样:样本容量的确定
4) 通常总体标准差 σ 是未知的,在这种情况下,可以通过 下面的公式从样本中估计总体的标准差: 均值 比例
思考题: ① 迪斯尼世界的调查表明,有 60%的老顾客喜欢玩滑行铁道。 若要求误差不超过 2%, 置信度为 90% (Z 值查参考书 552 页) , 求所需的样本容量。 ② 客户要求置信度为 99%,允许抽样误差为 2%,按此计算出 需要样本容量为 500,调查费用是 20,000 美元,但他只有 17,000 美元的预算,问有没有其他方案可供选择? ③ 在具有什么条件下,进行调查前就可以将样本容量确定下 来?
在确定估计比例所需的样本容量时有一个优势:如果缺乏估计 P 的依据,可以对 P 值做最糟糕的假设。给定 Z 值和 E 值,P 值 为多大时要求的样本容量最大呢?当 P=0.05 时, “P(1-P)”有极大 值 0.25 存在。
2014-2-6
北京大学光华管理学院 胡健颖
30
第五章 抽样:样本容量的确定
2014-2-6
北京大学光华管理学院 胡健颖
25
第五章 抽样:样本容量的确定
表 5-1 1000 个样本平均数的概率分析:最近 30 天内吃快餐的平均次数 次数分组 2.6-3.5 3.6-4.5 4.6-5.5 5.6-6.5 6.6-7.5 7.6-8.5 8.6-9.5 9.6-10.5 10.6-11.5

生物统计学8样本容量的确定

生物统计学8样本容量的确定
t 再以df=2(n1-1)为自由度查出 0.05 / 2,2n1 2 的值,代
入公式求出n2,直到求出的n(i-1)= n(i)为止。
例:有个家畜饲料比较试验,它们是对一种猪在育肥期饲以两 种饲料C1和C2,经过一个月后,调查量其重量(斤数),借 以判明两种饲料的育肥效果。若 = 4斤时,试验就要有一半 的可能性辨别出来,取s2=30,(此数据)是根据以往的试验 数据得出的),则该试验每处理的样本容量应为多少?
u
n
若:
u
x 0 1
n
µ0
µ1
x0
接受H0。
1 - 0 u u
n
接受HA。
二、平均数差异显著性测验中的样本容量问题
(一)单个样本平均数的差异显著性测验中的样本容量问题
1、已知时
n
u2 0.05 / 2
2
L2
其中 :2 =总体的方差
这个数据一般是依靠前人或本人对同类数据的试验来约略估计 的
L = 要求该调查或试验有一半的可能达到的对平均数估计的精 确范围。
L即距平均数上下的95%的置信区间(即置信半径)
该样本容量估算中,β的概率为50%(Ⅱ型错误的概率)。
2、 未知时:
样本容量:
n
t2 0.05 / 2
L2
s2
s2为对总体方差2 的估计值
(这个数据一般是依靠前人或本人对同类数据的试验来约略
则样本容量 n 为:
L u / 2
pˆ 1 pˆ
n
n
u2
/2
pˆ (1 L2
pˆ )
当显著水平为0.05时(置信度为0.95),上述公式的经验公
式为:
n
4
pˆ (1 L2

《统计学》样本容量的确定

《统计学》样本容量的确定
5.7 样本容量的确定
样本容量确定的两难
样本容量取得较大,收集的信息 就相对多,从而估计精度较高,但 进行观测所投入的费用、人力及时 间就比较多; 样本容量取得较小,则投入的费 用、人力及时间就相对节约,但收 集的信息也较少,从而估计精度较 低; 所以,精度和费用对样本量的影 响和要求是矛盾的,不存在既使精 度最高又使费用最省的样本量 。
估计总体均值时样本容量的确定 (例题分析)
解: 已知=2000,d=400, 1-=95%, z/2=1.96 置信度为95%的置信区间为:
n ( z 2 )2 2 (1.96 )2 20002
d2
4002
96.04 97
即应抽取97人作为样本。
估计总体比例时样本容量的确定
估计总体比例时ห้องสมุดไป่ตู้本容量的确定
1. 根据比例区间估计公式可得样本容量n为:
• •
重复抽样n
(
z
2
)2
d2
(1
)

2.
不重复抽n样
(
N
N( z 2 )2 (1 ) 1)d2 ( z 2 )2 (1
)
d的取值一般小于0.1
其中: d z 2
p(1 p ) n
3. π未知,以样本比例p替代
4. π或p都未知时,可取0.5,这是一种谨慎估计
1. 估计总体均值时样本容量n为:
• •
重复抽样 n
(
z
2
d
)2
2
2

不重复抽样
n
(N
N( z 2 )2 2 1)d2 ( z 2 )2 2
其中:d
Z
2

n
2. 样本容量n与总体方差成正比,与绝对误差成

样本容量的确定

样本容量的确定
x n N 1
样本容量的调整公式:Fra bibliotekn nN N n 1
其中 n ----修改后的样本量
n ----原样本量
N ----总量
练习二
1、估计最近90天内曾在网上购物的成年人 比例为5%,现要从成年人总体中抽取一个 随机样本,假设可接受的误差范围为±2%, 抽样估计在实际总体比例的±2%范围以内 的置信度为95%,那么该随机样本的样本 量为多少?在99%的置信水平下,样本量 为多少?
2.抽样误差的概念与种类
非观察误差
覆盖不全
不在家
非抽样误差 观察误差
无回答
拒答
被访问者原因
故意错答 误解而错答 访问员过失
访问者原因
访问员作弊
图1 非抽样误差产生原因
2.抽样误差的概念与种类
抽样误差产生的原因 (1)抽取的样本量 (2)样本选择方法 在随机抽样时,抽样误差可以加以计算
并可以得到控制
3.正态分布
1)中心极限定理 对于任何总体,不论其分布如何,随着样本容量的增加,
抽样平均数的分布趋近于正态分布。 2)正态分布特征 正态分布呈钟形,且只有一个众数; 正态分布关于其平均值对称; 正态分布的特殊性由其平均数和标准差决定 正态曲线下方面积等于1; 正态曲线下方在任意两个变量值之间的面积,等于在这一
是甲为400元,乙为500元,丙为700元,丁 为800元。 求:(1)μ(总体平均工资) (2)假定从4个人中间抽选2个人进行 调查,可抽多少个样本(样本数量)? (3)抽样平均误差是多少?
4.总体分布、样本分布与抽样分布
N (μ, σ)
总体
样本i(i=1……m)
服从N ( x , s)
样本一

怎样确定统计量的样本容量

怎样确定统计量的样本容量

样本量的确定方法一、样本单位数量的确定原则一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。

以及实际操作的可行性、经费承受能力等。

根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。

实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。

但是这只能原则上确定样本量大小。

具体确定样本量还需要从定量的角度考虑。

从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。

归纳起来,样本量的大小主要取决于:(1)研究对象的变化程度,即变异程度;(2)要求和允许的误差大小,即精度要求;(3)要求推断的置信度,一般情况下,置信度取为95%;(4)总体的大小;(5)抽样的方法。

也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。

对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。

实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。

二、样本量的确定方法如何确定样本量,基本方法很多,但是公式检验表明,当误差和置信区间一定时,不同的样本量计算公式计算出来的样本量是十分相近的,所以,我们完全可以使用简单随机抽样计算样本量的公式去近似估计其他抽样方法的样本量,这样可以更加快捷方便,然后将样本量根据一定方法分配到各个子域中去。

随机抽样中样本容量的确定

随机抽样中样本容量的确定

X ~ N ( , 2 ) ,对于给定的显著性水平 ,当假定原假设H0:μ=μ0成立时,因 T X 0 ~ t (n 1) ,选择临界值 t (n 1) ,使得 P T t ( n 1) , S n X 0 P t (n 1) 1 n
从上面的式子(2)、(4)我们可以看到,对总体平均数进行参数估计或假 设检验时必要样本容量具有以下三个特点: (1)总体方差 2 或样本方差 S 2 越大,必要样本的容量n就越大; (2)最大允许误差△越小,必要样本的容量n就越大; (3)置信水平 1 越高,必要样本的容量n就越大。
参考文献:
Z n 2
2
(2)
2. 在 2 未知条件下的必要样本容量 在 2 未知条件下,我们可以得到总体平均数μ在 1 置信水平下的置信区 间为 ( x
S n t (n 1), x S n t (n 1) ,而在对总体平均数进行假设检验时,由于

(3)
(3)式同样回答了两个问题:当原假设H0:μ=μ0成立时,给出了H0的否定 域;二是在μ未知时,给出了总体平均数μ在置信水平 1 时的区间估计
(x S n t (n 1), x S n t (n 1)
同样可以看到,在 2 未知条件下,不论是对总体平均数进行参数估计还是 假设检验,均得到了一个相同的置信区间 ( x
[1]李贤平,沈崇圣,陈子毅.概率论与数理统计[M].复旦大学出版社,2005. [2]邵志芳.心理与教育统计学[M].上海科学普及出版社,2004. [3]耿修林.均值估计时样本容量的确定[J].统计与决策,2007,(10). [4]刘爱芹.随机抽样中样本容量确定的影响因素分析[J].山东财政学院学 报,2006,(05). [5]陈克明,宁震霖.市场调查中样本容量的确定[J].中国统计,2005,(03).
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(1.96) 2 0.5 (1 0.5)
0.05 2 384.16 385
故需取385人的样本。
统计学——第八章参数估计
影响样本容量n的因素
a) 总体个单位之间的差异 b) 概率保证程度 c) 允许误差的大小 d) 抽样方式 e) 抽样的组织形式
statistics
统计学——第八章参数估计
解:已知 =4000,E=1000,1-=95%,
Zα/2=1.96,所以,应抽取的样本容量为:
n(zα2)2σ2
(1.926)40020
E2
10020
61.4762
即应抽取62人作为样本。
二、估计总体比例时样本容量的确定
1.重复抽样
一旦确定了置信水平(1-α),Zα/2的值就确定了。由于总体比例的值是固定 的,所以允许误差由样本容量来确定,样本容量越大允许误差就越小。估计的 精度就越好。因此,对于给定的的π值,就可以确定任一希望的允许误差所需 要的样本容量。令E代表所希望达到的允许误差,即:
statistics
第四节 样本容量的确定
统计学——第八章参数估计
• 样本容量:
样本中个体的数目或组成抽样总体的单位数。
• 必要样本容量:
亦称必要样本单位数,是指满足调查目的要求的情况下, 至少需要选择的样本单位数。
statistics
一、估计总体均值时样本容量的确定
1.重复抽样
一旦确定了置信水平(1-α),Zα/2的值就确定了,对于给定的的值 和总体标准差σ,就可以确定任一希望的允许误差所需要的样本容量。令 E代表所希望达到的允许误差,即:
确定样本容量的注意事项
一、在实际中采用不重复抽样,但常用重复抽样下的公式代替; 二、若和p未知,其处理方式是:
1.用过去近期的数据代替, 2.用样本数据代替, 3.取p=0.5或最接近0.5的值; 三、对同一总体,若求出的Nx,Np不等,这时取较大的作为必要样本容量, 以同时满足做两种调查的需要; 四、在实际工作中,常使用重复抽样下的简单随机抽样公式。
π(1π)
Ezα 2
n
由此可以推导出重复抽样和无限总体抽样条件确定样本容量的公式如下:
n
(zα
2)2 π(1π) E2
二、估计总体比例时样本容量的确定
2.不重复抽样
n
(
N
N( z 2 )2 (1 ) 1)d2 ( z 2 )2 (1
)
• d的取值一般小于0.1
• π未知,以样本比例p替代 • π或p都未知时,可取0.5,这是一种谨慎估计
例:某社区想通过抽样调查了解居民参加体育活动的比率,如果 把误差范围设定在5%,问如果以95%的置信水平进行参数估计, 需要多大的样本?
解:由于1-α=0.95,α=0.05,Zα/2 =1.96。 因为π的值不知道,取使π(1-π)达到最大值的0.5,即π取0.5,
于是:
n (z α 2 ) 2 π(1 π) E2
E zα 2
σ n
由此可以推到出确定样本容量的公式如下:
n
(zα
2 )2 E2
σ2
一、估计总体均值时样本容量的确定

N( z 2 )2
1)d2 ( z
2 2
)2
2
• 样本容量n与总体方差成正比, • 与绝对误差成反比, • 与概率度成正比。
例:拥有MBA学位的研究生年薪的标准差大约为4000 元,假定想 要估计年薪95%的置信区间,希望允许误差为10000 元,应抽取多 大的样本容量?
相关文档
最新文档