第七章 样本设计 ——样本容量的确定

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

14
正态分布重要的原因
许多变量的概率分布趋于正态分布。爱吃快餐 的人平均每月吃快餐的次数,每星期看电视的 小时数,男性身高的分布等。 中心极限定理—对于任何总体,不论其分布如 中心极限定理 何,随着样本容量的增加,抽样平均数的分布 趋近于正态分布
15
正态分布
f (x) = 1 2πσ
2 1 − 2 ( x−µ )2 2σ
Sx =
pq 1 = n n CN
( pi − P)2 ∑
i =1
CN
Sp百分率标准误差;p为样本中的百分率;q=1-p; n 为样本容量。 例:假设抽选中的100名驾驶者中有40%的人表示其汽车上 配有辐射状轮胎。则标准误差为:=4.899
22
计算样本容量——均值问题
∵ x ~ N (µ , x −µ
利用以前的结果 2. 进行试验性调查 3. 利用二手资料 4. 通过判断,把许多管理人员的判断集中起来进 行分析
1.
25
例如:估计快餐族平均每月吃快餐的平均次数: 与公司的管理者进行磋商后,市场调研经理认为有必要估计 一下吃快餐的平均次数。考虑到管理者对精确度的要求,他 规定估计值不得超过实际值的0.10。这个值将作为h带入公式。 此外,市场调研经理还认为,考虑全局,需要把实际总体平 均值在区间以内的置信度定为95%。而若要置信度为95%, 就必须是在2倍标准误差范围内(严格为1.96)。因此2作为 Z值代入公式 最后确定公式中的σ值,幸好公司做过类似的调查。调查对 象是最近30天内吃快餐的平均次数。标准差为1.39,带入样 本容量的公式。经过计算,可知样本容量为722时,可以满 足提出的要求。
汽车行驶的里程数。
受访者的回答可以制成图表。
7
图7.1 年驾驶里程分布阐明了差异性
如果多数回答都接近于同一个数字,而且大多数的回答 者都集中在某一小范围内,则差异性小;反之,则差异 性就大 8
图7.2 分布的伸展反映了差异性总 和
9
传统统计方法
差异性
差异性的基本概念就是指回答的相似程度。差 异性小意味着回答相当相似,差异性大表示回 答很不相似。 如果答案曲线图显示十分集中或呈“尖峰”状 态,则差异性小。如果曲线图显示受访者在各 种可能的答案选项间平均分布,则差异性大。 测量差异性的指标——标准差
2
确定概率抽样的样本容量
样本容量的确定通常是介于理论上的完善方案与 实际上可行方案之间的一个折中方案
教条式方法
以“经验性”为幌子,认为样本容量应该是“为 保证精度,一般至少应该是总体的5%” 例如关于鞋子的调查:1万名铁人三项运动员;耐 克对“飞人乔丹”进行调查,200万名潜在的篮 球鞋购买者 简单易行,但不是一种高效率、经济的方法,教 条式方法忽略了抽样的精确度问题。
5
确定概率抽样的样本容量
传统统计方法
运用以下概念来创见一个有效的样本。
总体标准差的估计值 抽样误差的允许范围 抽样结果在特定范围内的预期置信度
6
传统统计方法
差异性
指受访者对某一特定问题的答案在相异性(或相似 性)方面的总括。 对于有明确答案选项的资料。
你购买可乐是否选择“可口可乐?”
区间性资料、具有多种选项的资料
e
, −∞ < x < ∞
f (x)
•f(x) = 随机变量 X 的频数 •µ = 正态随机变量X的均值 •σ 2= 正态随机变量X的方差 •π = 3.1415926; e = 2.71828 •x = 随机变量的取值 (-∞ < x < ∞)
x
x ~ N (µ ,σ 2 )
16
正态分布
标准正态分布
Sx 其均值为 µ ,且标准差等于: n为样本容量, σ为总体的标准差
=
σ
n
σ2
n )
x ~ N (µ ,
20
Hale Waihona Puke Baidu
平均数或百分率标准误差的概念
实际总体值与所预期的典型样本结果的差距。 实际总体值与所预期的典型样本结果的差距。
平均数标准误差,即样本均值的标准差(抽样误差)。 平均数标准误差,即样本均值的标准差(抽样误差)。
第七章 样本设计
——样本容量的确定
1
确定概率抽样的样本容量
样本容量不能决定代表性,但可影响结果的精度。 样本的精度
样本的统计量(如对一特定问题回答的平均数)与其所 代表的总体的值的接近程度。 大样本比小样本更精确,但是没有成倍的关系。
财务和统计问题
一般原则: 样本越大,抽样误差越小 样本大,耗费的成本也高 抽样成本随样本容量直线递增,抽样误差却只是以样本 量增长速度的平方根递减
26
计算样本容量——比率问题
n
=
Z2 PQ
h2
保守估计可取P值为.50 保守估计可取 给定 Z 和 E, P 将得到最大可能样本 P=0.50 将会使 将会使PQ 最大
27
1 Sx = = n CN n
σ
( xi − X )2 ∑
i =1
n CN
由于总体标准差σ是未知的,一般由样本标准差s代替。 例如:驾驶里程调查中,样本容量n是100名驾驶者,标 准差是3000公里,则平均数标准误差=300。
21
平均数或百分率标准误差的概念
标准误差还适用于研究百分率的调查,称之为百分率标 百分率标 准误差。 准误差。 n
12
正态分布的特征(根据以上图形)
1. 2.
3.
4.
正态分布呈钟形且只有一个众数 关于均值对称,集中趋势的三个衡量标准 (平均数、众数、中位数)相等 一个正态分布的特殊性由其均值和标准差决 定 正态曲线下方的面积等于1
13
5.正态曲线下方任意两个变量值之间的面积,等 于在这一范围内随机抽取一个观察对象的概 率 6.在均值的给定比例标准差范围内的概率为固定 值。即所有的正态分布在平均数+-1个标准差 之间的面积相同,都占曲线下方面积的 68.26%,或者说占全部调查总体结果的 68.26%。这叫正态分布的比例性。
在简单随机抽样的条件下,样本容量为
n
=
Z2 σ2
h2
其中: 其中 Z = 标准误差的置信水平 σ = 总体标准差 h = 允许误差(可接受误差水平) 允许误差(可接受误差水平)
24
计算样本容量——均值问题
置信水平Z和误差E的确定需要由调研人员同客 户进行磋商后确定,要在精确度、置信度和成 本之间进行衡量。 估计总体标准误差的四种方法
σ
n
2
)

σ
x −µ n
~ N (0 ,1)
即 p{
σ
≤ Z} = 1−α
n 则 µ 的 置 信 度 为1 − α 的 置 信 区 间 为 : {x − Z ⋅ σ n , x + Z ⋅σ n } 令 h=Z ⋅ σ n
Z2 ⋅σ h为 可 接 受 的 误 差 水 平 , 则 n= h2
23
计算样本容量——均值问题
18
抽样分布的概念
总体分布
总体中全部单位的频率分布,平均数为µ,标准差σ
样本分布
单个样本中所有单位的频率分布,具体的分布形式依赖 于总体分布。
抽样分布
一个总体中许多独立样本均值的理论分布。在大样本的 情况下,其分布近似服从于正态分布。
19
抽样分布的概念
如果样本是随机的且容量足够大,则样本均值的分布 近似于正态分布 理论基础是中心极限定理:随着样本容量的增加,从 任一总体中抽取的大量随机样本平均数的分布接近服 从正态分布。
任何正态分布都可以转化为标准正态分布 均值等于0 标准差等于1
17
置信区间的概念
是一个范围,其终点指定了对于一个问题的某 一应答百分率。 正态曲线的属性是,标准差的1.96倍从理论上 表示95%的分布终点,标准差的2.58倍表明了 99%的分布终点。 95%的置信区间 的置信区间=1.96个标准差 (±)均值 的置信区间 个标准差 ± 均值 99%的置信区间 的置信区间=2.58个标准差 (±)均值 的置信区间 个标准差 ± 均值 以95% 来举例说明。
( x i - x )2 ∑ 标准差=
i=1 n
n −1
10
如何运用标准差来测定差异性呢?
将两个样本的标准差进行比较,以判定相关的差异 性。
11
传统统计方法
比较两个图形,可以得出结论: 在1955年汽车拥有者的驾驶里程较少(平均),而且 差异性也不大(标淮差),但现在的车主们年平均驾 驶里程较多,差异性也较大。
3
确定概率抽样的样本容量
约定式方法
认为某一个“约定”或某一个数量就是正确的 样本容量。 样本容量是一个恒量,不受总体容量的影响, 但也是其缺点,总体容量可能少于恒量;精度 的要求也会发生变化。
4
确定概率抽样的样本容量
成本基础法
将成本作为确定样本容量的基础。 样本容量的确定不是将调查所获得的信息的价 值作为首要考虑因素,而是把预算作为考虑因 素,通常会忽视调查结果对管理决策的价值。 如何才能在不考虑成本的情况下确定样本容量?
相关文档
最新文档