第七章样本设计 ——样本容量的确定

合集下载

样本量的确定

要对这样的变量提供精确的估计值，需要较大的样本容量。
当研究的特征具有最大的变异程度时，调查需要的样本容量也最大。
对于只取两个值的特征，则当这两个值在总体中以50—50的比例出现时，特征的变异程度最大。
SSI
第23页
如果所研究特征的真实变异程度大于确定样本容量时我们估计的变异程度，那么，调查估计值的精度就会低于期望的精度。
注意，公式（1）使用了有限总体校正因子n/N，对总体规模进行校正。如果忽略这个因子，初始样本容量n1就可以按下列公式计算：
SSI
第30页
设计效果因子
一般来说，当样本容量的计算公式假定为简单随机抽样SRS，但使用的是更复杂的选样方式时，达到既定精度所需的样本容量应
该乘以设计效果因子。
设计效果=对于同样规模的样本容量，给定样本设计下估计量的抽样方差对简单随机抽样估计量的抽样方差的比率。
对于简单随机抽样设计，设计效果 = 1
SSI
第20页
我们来看假设有一个首次开展的调查，试图估计对某企业提供的服务持满意态度的顾客比例。对 “顾客满意”这一指标，设置两个可能的值：满意或者不满意。
SSI
第21页
SSI
表2 列出了持满意和不满意态度的顾客可能占的比例的组合
1
100% 满意
2
90% 满意
3
80% 满意
4
70% 满意
5
60% 满意
6
50% 满意
7
40% 满意
8
30% 满意
9
20% 满意
10
10% 满意
11
0% 满意
0% 满意 10% 满意 20% 满意 30% 满意 40% 满意 50% 满意 60% 满意 70% 满意 80% 满意 90% 满意 10% 满意

样本量的确定方法及公式

样本量的确定方法及公式在统计学和实证研究中，样本量的确定对于获得可靠的结果非常重要。

一个足够大的样本量可以减少统计误差和提高研究的可信度。

样本量的确定需要考虑多个因素，包括所需的可靠性水平，总体大小和总体变异性等。

以下是一些常用的样本量确定方法和公式。

一、样本量计算方法：1. 参数估计方法（Parameter Estimation）：用于计算总体均值、总体比例等参数的估计。

通常使用的方法有点估计和区间估计。

在参数估计方法中，一般需要考虑总体的平均数、标准差、置信水平和误差容忍度等因素。

2. 假设检验方法（Hypothesis Testing）：用于检验两个总体之间差异是否显著。

常用的假设检验方法有t检验、方差分析等。

在假设检验方法中，需要考虑所需的显著性水平、效应大小、标准差等因素。

3. 相关分析方法（Correlation Analysis）：用于研究两个或多个变量之间的关联关系。

常用的相关分析方法有皮尔逊相关系数、斯皮尔曼等级相关系数等。

在相关分析方法中，需要考虑相关系数、显著性水平等因素。

二、样本量计算公式：1.参数估计中的样本量计算公式：a.总体比例（Proportion）：n = [(Z * Z) * P * (1-P)] / E^2其中，n表示样本量，Z表示所需的置信度对应的Z值，P表示总体比例的估计值，E表示误差容忍度。

b.总体均值（Mean）：n = [(Z * s) / E]^2其中，n表示样本量，Z表示所需的置信度对应的Z值，s表示总体标准差的估计值，E表示误差容忍度。

2.假设检验中的样本量计算公式：a.均值差异（Mean Difference）：n = [(Z * s) / E]^2其中，n表示样本量，Z表示所需的显著性水平对应的Z值，s表示总体标准差的估计值，E表示效应大小。

b.总体比例差异（Proportion Difference）：n = [(Z * Z) * (P1* (1-P1) + P2 * (1-P2))] / E^2其中，n表示样本量，Z表示所需的显著性水平对应的Z值，P1和P2分别表示两个总体比例的估计值，E表示效应大小。

《统计学》样本容量的确定

5.7 样本容量的确定
样本容量确定的两难
样本容量取得较大，收集的信息就相对多，从而估计精度较高，但进行观测所投入的费用、人力及时间就比较多；样本容量取得较小，则投入的费用、人力及时间就相对节约，但收集的信息也较少，从而估计精度较低；所以，精度和费用对样本量的影响和要求是矛盾的，不存在既使精度最高又使费用最省的样本量。
估计总体均值时样本容量的确定 (例题分析)
解: 已知=2000，d=400, 1-=95%， z/2=1.96 置信度为95%的置信区间为：
n ( z 2 )2 2 (1.96 )2 20002
d2
4002
96.04 97
即应抽取97人作为样本。
估计总体比例时样本容量的确定
估计总体比例时ห้องสมุดไป่ตู้本容量的确定
1. 根据比例区间估计公式可得样本容量n为：
• •
重复抽样n
(
z
2
)2
d2
(1
)
•
2.
不重复抽n样
(
N
N( z 2 )2 (1 ) 1)d2 ( z 2 )2 (1
)
d的取值一般小于0.1
其中： d z 2
p(1 p ) n
3. π未知，以样本比例p替代
4. π或p都未知时，可取0.5，这是一种谨慎估计
1. 估计总体均值时样本容量n为：
• •
重复抽样 n
(
z
2
d
)2
2
2
•
不重复抽样
n
(N
N( z 2 )2 2 1)d2 ( z 2 )2 2
其中：d
Z
2
•
n
2. 样本容量n与总体方差成正比，与绝对误差成

样本量的确定方法

样本量的确定方法确定样本量的方法有多种，下面将详细介绍常用的几种方法。

一、基于统计学原理的方法：1.基于统计显著性检验力：该方法主要依据研究者希望能够检测到的效应大小和所设定的显著性水平，确定样本量。

研究者可以根据先前的研究或者相关文献查到的相似研究结果估计出所需样本量。

2.基于置信区间的方法：该方法根据预期的效应大小和所期望的置信水平，计算所需的样本量。

一般来说，置信区间的宽度越小，研究的推广性和准确性就越高。

3.基于效应大小的方法：该方法依据研究者希望检测到的最小实际效应大小来估计样本量。

研究者需要仔细考虑研究的实际意义和可用资源，从而确定合适的效应大小。

二、基于预计标准差的方法：1.基于样本均值和标准差的方法：该方法需要先确定所关注的变量的样本均值和标准差，然后依据所期望的误差限和显著性水平，计算所需的样本量。

2.基于样本方差的方法：该方法是基于样本的方差来估计所需的样本量。

研究者需要根据先前的研究或者相关文献估计出目标变量的方差，并根据所期望的误差限和显著性水平，计算所需的样本量。

三、基于经验和专家意见的方法：有时候，研究者可能会依赖经验或专家意见来决定样本量。

这可以是因为先前的研究或者相关研究在相似的研究领域有类似的样本大小要求，或者专家对于研究领域有充分的了解和经验。

以上是确定样本量的三种常用方法，但在确定样本量时，还需要注意以下几个方面：1.研究目标的清晰：研究者需要确切地了解自己的研究目标和问题，以便选择合适的样本量确定方法。

2.研究设计的合理性：研究设计需要尽可能地控制潜在的混杂变量，以提高研究的内部有效性和可靠性。

3.统计方法的选择：在确定样本量时，需要考虑研究所使用的统计方法，以确保所需的样本量是有效可靠的。

4.合理分配资源：研究者需要合理估计研究所需要的人力、物力和时间等资源，并将其纳入样本量的计算。

综上所述，确定样本量是研究设计中不可忽视的重要环节。

研究者可以根据研究目标、设计、效应大小、统计方法和资源等多个因素，选择合适的样本量确定方法。

随机抽样中样本容量的确定

即
（3）
（3）式同样回答了两个问题：当原假设H0:μ=μ0成立时，给出了H0的否定域；二是在μ未知时，给出了总体平均数μ在置信水平 1 时的区间估计
(x S n t (n 1), x S n t (n 1)
同样可以看到，在 2 未知条件下，不论是对总体平均数进行参数估计还是假设检验，均得到了一个相同的置信区间 ( x
n
即
（1）
（1）式回答了两个问题：一是当原假设H0:μ=μ0成立时，给出了H0的否定
域；二是在μ未知时，给出了总体平均数μ在置信水平 1 时的区间估计
(x
Z , x Z ) 。 n 2 n 2
我们可以看到，在 2 已知条件下，不论是对总体平均数进行参数估计还是
(x
(4)
事实上，当总体方差 2 未知时，我们可以用由经验确定的 0 2 代替 S 2 ，对于给定的显著性水平，只要查得临界值 t (n 1) ，这时n的值就能由（4）式确定。但实际上，确定临界值 t (n 1) 本身，事先就需要知道n的值，即自由度n-1 的值，因此（4）并没有真正解决n值的计算问题。然而，我们通过分析t分布临界值表可以发现，对于显著性水平 ≤0.05的情形，当n≥30时，其临界值 t (n 1) ≈2，这个临界值对于大于30的各个n值影响均不太大，因此我们可以采用近似公式
Z n 2
2
(2)
2. 在 2 未知条件下的必要样本容量在 2 未知条件下，我们可以得到总体平均数μ在 1 置信水平下的置信区间为 ( x
S n t (n 1), x S n t (n 1) ,而在对总体平均数进行假设检验时，由于

论文中的样本选择与样本容量

论文中的样本选择与样本容量在统计学和研究领域中，样本选择和样本容量是进行有效实证研究和进行可靠推断的关键要素。

在撰写论文时，研究者需要认真考虑样本选择的合理性和样本容量的大小，以保证研究结果的准确性和可靠性。

本文将探讨在论文中进行样本选择和确定样本容量的方法和原则。

一、样本选择的原则和方法样本选择是指从总体中选择一部分样本进行研究，以推断总体特征。

在确定样本选择的原则和方法时，需考虑以下几个因素：1. 代表性：样本应具有总体的代表性，能够全面反映总体的特征和差异。

代表性的样本能够减少抽样误差，并保证研究结论的一般性。

2. 随机性：样本选择应基于随机抽样原则，使每个个体都有同等机会被选入样本，避免主观选择引入偏差。

常用的随机抽样方法有简单随机抽样、分层抽样、整群抽样等。

3. 可获得性：样本选择应考虑数据获取的可行性和实际条件，避免因数据收集困难导致研究无法进行或结果不可靠。

在论文中，可以通过描述样本来源、抽样方法和样本选择的原则等，来说明样本选择的合理性和代表性。

同时，在文中明确说明是否采用随机抽样方法，并解释为什么选择该方法。

二、样本容量的确定样本容量是指进行研究的样本数量。

样本容量的大小直接影响到推断结果的精确度和统计检验的效力。

确定样本容量时，需要考虑以下几个因素：1. 总体大小：总体大小是确定样本容量的重要依据之一。

总体越大，样本容量越大，以保证具有足够的统计效力。

2. 误差容忍度：研究者需根据研究目的和需求确定可接受的误差容忍度。

误差容忍度越小，需要的样本容量越大。

3. 显著性水平和效应值：研究中常需要根据显著性水平和效应值来确定样本容量。

显著性水平是指在统计检验中犯错误的概率，常用的显著性水平为0.05或0.01。

效应值是指总体差异或关联的大小，根据研究需求确定合理的效应值。

一般来说，可利用统计软件或样本容量计算公式来确定所需的样本容量。

在论文中，可以详细描述使用的公式和参数，并说明样本容量的合理性和足够性。

抽样方法与样本容量的确定

第七章抽样方法 Chapter 7 Sampling Methods
抽样是通过抽取总体中的部分单元，收集这些单元的信息，用来对作为整体的总体进行统计推断的一种手段。本章讨论了抽样的基本问题。 Sampling is a means of selecting a subset of units from a population for the purpose of collecting information for those units, usually to draw inference about the population as a whole.
非概率抽样的优点是： The advantages of non-probability sampling are that:

快速简便；费用相对较低；不需要抽样框；对探索性研究和调查的设计开发很有用。 It is quick and convenient It is relatively inexpensive It requires no sampling frame It can be useful for exploratory studies and survey development
抽样的两种主要类型是概率抽样与非概率抽样。 There are two types of sampling: nonprobability sampling and probability sampling
非概率抽样 non-probability 的用途是有限的，因为抽选单元的倾向性不允许对调查总体进行推断。然而非概率抽样快速简便，对探索性研究很有用，特别是在市场调查中应用非常广泛。
1.随意抽样Haphazard sampling

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

18
抽样分布的概念
总体分布
总体中全部单位的频率分布，平均数为µ，标准差σ
样本分布
单个样本中所有单位的频率分布，具体的分布形式依赖于总体分布。
抽样分布
一个总体中许多独立样本均值的理论分布。在大样本的情况下，其分布近似服从于正态分布。
19
抽样分布的概念
如果样本是随机的且容量足够大，则样本均值的分布近似于正态分布理论基础是中心极限定理：随着样本容量的增加，从任一总体中抽取的大量随机样本平均数的分布接近服从正态分布。
任何正态分布都可以转化为标准正态分布均值等于0 标准差等于1
17
置信区间的概念
是一个范围，其终点指定了对于一个问题的某一应答百分率。正态曲线的属性是，标准差的1.96倍从理论上表示95%的分布终点，标准差的2.58倍表明了 99%的分布终点。 95%的置信区间的置信区间=1.96个标准差 (±)均值的置信区间个标准差 ± 均值 99%的置信区间的置信区间=2.58个标准差 (±)均值的置信区间个标准差 ± 均值以95% 来举例说明。
第七章样本设计
——样本容量的确定
1
确定概率抽样的样本容量
样本容量不能决定代表性，但可影响结果的精度。样本的精度
样本的统计量（如对一特定问题回答的平均数）与其所代表的总体的值的接近程度。大样本比小样本更精确，但是没有成倍的关系。
财务和统计问题
一般原则: 样本越大，抽样误差越小样本大，耗费的成本也高抽样成本随样本容量直线递增，抽样误差却只是以样本量增长速度的平方根递减
Sx =
pq 1 = n n CN
( pi − P)2 ∑
i =1
CN
Sp百分率标准误差；p为样本中的百分率；q=1-p； n 为样本容量。例：假设抽选中的100名驾驶者中有40%的人表示其汽车上配有辐射状轮胎。则标准误差为：=4.899
22
计算样本容量——均值问题
∵ x ~ N (µ , x −µ
在简单随机抽样的条件下，样本容量为
n
=
Z2 σ2
h2
其中: 其中 Z = 标准误差的置信水平 σ = 总体标准差 h = 允许误差（可接受误差水平）允许误差（可接受误差水平）
24
计算样本容量——均值问题
置信水平Z和误差E的确定需要由调研人员同客户进行磋商后确定，要在精确度、置信度和成本之间进行衡量。估计总体标准误差的四种方法
1 Sx = = n CN n
σ
( xi − X )2 ∑
i =1
n CN
由于总体标准差σ是未知的，一般由样本标准差s代替。例如：驾驶里程调查中，样本容量n是100名驾驶者，标准差是3000公里，则平均数标准误差=300。
21
平均数或百分率标准误差的概念
标准误差还适用于研究百分率的调查，称之为百分率标百分率标准误差。准误差。 n
汽车行驶的里程数。
受访者的回答可以制成图表。
7
图7.1 年驾驶里程分布阐明了差异性
如果多数回答都接近于同一个数字，而且大多数的回答者都集中在某一小范围内，则差异性小；反之，则差异性就大 8
图7.2 分布的伸展反映了差异性总和
9
传统统计方法
差异性
差异性的基本概念就是指回答的相似程度。差异性小意味着回答相当相似，差异性大表示回答很不相似。如果答案曲线图显示十分集中或呈“尖峰”状态，则差异性小。如果曲线图显示受访者在各种可能的答案选项间平均分布，则差异性大。测量差异性的指标——标准差
14
正态分布重要的原因
许多变量的概率分布趋于正态分布。爱吃快餐的人平均每月吃快餐的次数，每星期看电视的小时数，男性身高的分布等。中心极限定理—对于任何总体，不论其分布如中心极限定理何，随着样本容量的增加，抽样平均数的分布趋近于正态分布
15
正态分布
f (x) = 1 2πσ
2 1 − 2 ( x−µ )2 2σ
5
确定概率抽样的样本容量
传统统计方法
运用以下概念来创见一个有效的样本。
总体标准差的估计值抽样误差的允许范围抽样结果在特定范围内的预期置信度
6
传统统计方法
差异性
指受访者对某一特定问题的答案在相异性(或相似性)方面的总括。对于有明确答案选项的资料。
你购买可乐是否选择“可口可乐？”
区间性资料、具有多种选项的资料
3
确定概率抽样的样本容量
约定式方法
认为某一个“约定”或某一个数量就是正确的样本容量。样本容量是一个恒量，不受总体容量的影响，但也是其缺点，总体容量可能少于恒量；精度的要求也会发生变化。
4
确定概率抽样的样本容量
成本基础法
将成本作为确定样本容量的基础。样本容量的确定不是将调查所获得的信息的价值作为首要考虑因素，而是把预算作为考虑因素，通常会忽视调查结果对管理决策的价值。如何才能在不考虑成本的情况下确定样本容量？
e
, −∞ < x < ∞
f (x)
•f(x) = 随机变量 X 的频数 •µ = 正态随机变量X的均值 •σ 2= 正态随机变量X的方差 •π = 3.1415926; e = 2.71828 •x = 随机变量的取值 (-∞ < x < ∞)
x
x
利用以前的结果 2. 进行试验性调查 3. 利用二手资料 4. 通过判断，把许多管理人员的判断集中起来进行分析
1.
25
例如：估计快餐族平均每月吃快餐的平均次数：与公司的管理者进行磋商后，市场调研经理认为有必要估计一下吃快餐的平均次数。考虑到管理者对精确度的要求，他规定估计值不得超过实际值的0.10。这个值将作为h带入公式。此外，市场调研经理还认为，考虑全局，需要把实际总体平均值在区间以内的置信度定为95%。而若要置信度为95%，就必须是在2倍标准误差范围内（严格为1.96）。因此2作为 Z值代入公式最后确定公式中的σ值，幸好公司做过类似的调查。调查对象是最近30天内吃快餐的平均次数。标准差为1.39，带入样本容量的公式。经过计算，可知样本容量为722时，可以满足提出的要求。
2
确定概率抽样的样本容量
样本容量的确定通常是介于理论上的完善方案与实际上可行方案之间的一个折中方案
教条式方法
以“经验性”为幌子，认为样本容量应该是“为保证精度，一般至少应该是总体的5%” 例如关于鞋子的调查：1万名铁人三项运动员；耐克对“飞人乔丹”进行调查，200万名潜在的篮球鞋购买者简单易行，但不是一种高效率、经济的方法，教条式方法忽略了抽样的精确度问题。
σ
n
2
)
∴
σ
x −µ n
~ N (0 ,1)
即 p{
σ
≤ Z} = 1−α
n 则 µ 的置信度为1 − α 的置信区间为： {x − Z ⋅ σ n , x + Z ⋅σ n } 令 h=Z ⋅ σ n
Z2 ⋅σ h为可接受的误差水平，则 n= h2
23
计算样本容量——均值问题
Sx 其均值为 µ ，且标准差等于: n为样本容量， σ为总体的标准差
=
σ
n
σ2
n )
x ~ N (µ ,
20
平均数或百分率标准误差的概念
实际总体值与所预期的典型样本结果的差距。实际总体值与所预期的典型样本结果的差距。
平均数标准误差，即样本均值的标准差（抽样误差）。平均数标准误差，即样本均值的标准差（抽样误差）。
( x i - x )2 ∑ 标准差=
i=1 n
n −1
10
如何运用标准差来测定差异性呢？
将两个样本的标准差进行比较，以判定相关的差异性。
11
传统统计方法
比较两个图形，可以得出结论：在1955年汽车拥有者的驾驶里程较少(平均)，而且差异性也不大(标淮差)，但现在的车主们年平均驾驶里程较多，差异性也较大。
12
正态分布的特征（根据以上图形）
1. 2.
3.
4.
正态分布呈钟形且只有一个众数关于均值对称，集中趋势的三个衡量标准（平均数、众数、中位数）相等一个正态分布的特殊性由其均值和标准差决定正态曲线下方的面积等于1
13
5．正态曲线下方任意两个变量值之间的面积，等于在这一范围内随机抽取一个观察对象的概率 6．在均值的给定比例标准差范围内的概率为固定值。即所有的正态分布在平均数+-1个标准差之间的面积相同，都占曲线下方面积的 68.26%，或者说占全部调查总体结果的 68.26%。这叫正态分布的比例性。
26
计算样本容量——比率问题
n
=
Z2 PQ
h2
保守估计可取P值为.50 保守估计可取给定 Z 和 E, P 将得到最大可能样本 P=0.50 将会使将会使PQ 最大
27