第九章第三节抽样误差

合集下载

抽样误差——精选推荐

抽样误差、抽样平均误差与抽样极限误差一、基本概念抽样误差是指由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构，而引起抽样指标和全及指标之间的绝对离差。

因此，又称为随机误差，它不包括登记误差，也不包括系统性误差。

影响抽样误差的因素有：1、总体各单位标志值的差异程度；2、样本的单位数；3、抽样的方法;4、抽样调查的组织形式。

抽样误差又分为两种：1、抽样平均误差。

抽样平均误差是反映抽样误差一般水平的指标，它的实质含义是指抽样平均数（或成数）的标准差。

即它反映了抽样指标与总体指标的平均离差程度。

抽样平均误差的作用首先表现在它能够说明样本指标代表性的大小。

平均误差大，说明样本指标对总体指标的代表性低；反之，则高。

（记为μx 或μp ）2、抽样极限误差。

抽样极限误差指在进行抽样估计时，根据研究对象的变异程度和分析任务的要求所确定的样本指标与总体指标之间可允许的最大误差范围（记为∆）。

二、计算公式（一）抽样平均误差1、样本平均数的平均误差以μx 表示样本平均数的平均误差，σ表示总体的标准差。

根据定义：即n x σμ=，（若为不重复抽样，则总体方差σ要用进行修正）它说明在重复抽样的条件下，抽样平均误差与总体标准差成正比，与样本容量的平方根成反比。

例1:有5个工人的日产量分别为（单位：件）：6，8，10，12，14，用重复抽样的方法，从中随机抽取2个工人的日产量，用以代表这5个工人的总体水平。

则抽样平均误差为多少？解：根据题意可得：(件)总体标准差(件)抽样平均误差(件)注意：在计算抽样平均误差时，通常得不到总体标准差的数值，一般可以用样本标准差来代替总体标准差。

2、抽样成数的平均误差总体成数P 可以表现为总体是非标志的平均数。

即E(X)＝P ，它的标准差。

根据样本平均误差和总体标准差的关系，可以得到样本成数的平均误差的计算公式。

（不重复抽样时要修正）注意：当总体成数未知时，可以用样本成数来代替。

统计学第9章抽样与抽样估计

第九章抽样与抽样估计
整理ppt
1
第1节抽样与抽样分布
一、有关抽样的基本概念
总体(Population) 研究对象的全体称为总体
样本（子样）(Sample) 从总体中抽取一部分个体进行试验或观察，这种从总体
中抽取个体的行为称为抽样。而从总体中抽样所得的一部分个体叫样本总体参数（Population parameter）
整理ppt
10
抽样平均误差和抽样极限误差
抽样平均误差：所有可能的样本指标与总体指标间的平均差异程度。
x (xm X)2, p (p m P )2
整理ppt
11
抽样极限误差
样本指标与总体指标之间允许的误差范围叫抽样极限误差。也称抽样允许误差。
它是样本指标可允许变动的上限或下限与总体指标之差的绝对值。
X
X 2.5
X2
1.250.625 2
整理ppt
18
大数定律及中心极限定理
不重复抽样：
（1）总体是正态分布，样本必然是正态分布（2）样本平均数的平均数等于总体平均数（3）样本平均数的方差等于总体方差除以样本
容量n
x2
2
n
Nn N1
（4）n越大，样本平均数越趋近于正态分布
整理ppt
19
抽样平均误差（1）均值重复抽样：
整理ppt
22
例、从某校1000名学生中简单随机抽取50名学生，称得平均体重为50千克，若已知总体标准差为10千克，计算重复抽样及不重复抽样下抽样平均误差。
解：重复抽样条件下，
V ( x ) 2 10 2 2 n 50
x
n
2 1.41
不重复抽样条件下，

抽样误差及其测定

抽样设计
12
三、抽样平均误差
抽样平均误差是指所有样本抽样误差的平均数。它不是一个简单的算术平均数，而是抽样平均数或抽样成数的标准差，即可能出现的样本指标的平均离差。
抽样设计
13
ห้องสมุดไป่ตู้
由于抽样指标有平均指标和成数指标之分，抽样方法又有重复抽样和不重复抽样两种，因此计算抽样平均误差方法也有所差别，其计算公式为：
抽样设计
9
抽样误差的大小，主要受以下三个因素影响：
（1）被研究总体各个体标志值的变异程度。总体的方差和均方差越大，抽样误差就越大；反之，则抽样误差越小。
抽样设计
10
（2）抽取的调查个体数目。在其他条件不变的情况下，抽样个体数越多，抽样误差就越小；反之，抽样误差就越大。
抽样设计
11
（3）抽样调查技术。抽样误差也受抽样调查技术的影响，一般说来，按照系统抽样和分层抽样方式抽样，由于经过划类或排队，可以缩小差异程度，因而抽取相同数目的样本，其抽样误差要比用简单随机抽样方式小些。
抽样设计
21
四、极限抽样误差
抽样平均误差可以用来测定抽样指标对总体指标的可能离差。根据概率原理，用一定的概率可以保证抽样误差不超过某一给定范围，这个给定的范围叫做极限抽样误差。
t
抽样设计
22
中心极限定理已证明，概率度t和概率P成函数关系，即 P＝F（t），t每取一个值，都有一个惟一确定的P值与之相对应。在实际工作中，为了使用的方便，将不同的 t值与其相应的概率P预先算好，编成概率表，供调查时查用。
如果以前没有进行过这种调查，可在大规模调查前，组织一次小规模的试点调查，以获得有关方差资料，并取代总体资料。

统计学各章练习——抽样推断

第九章抽样推断一、名词1、抽样推断：即由样本指标来推断总体指标的统计方法。

2、抽样误差：是指抽样指标和全及指标之间的绝对离差。

3、抽样极限误差：是指样本指标与全及指标之间产生的抽样误差被允许的最大可能范围，也叫允许误差。

4、点估计：就是直接用样本指标代表总体指标的估计方法。

5、区间估计：就是把抽样指标与抽样平均误差结合起来，来推断总体指标所在的可能范围的方法。

6、假设检验：就是先对研究总体的参数做出某种假设，然后抽取样本，构造适当的统计量，利用样本提供的信息对假设的正确性进行判断的过程。

二、填空题1.抽样推断是由（样本指标）来推断（相应的全及指标）的统计方法。

2.影响抽样误差大小的因素主要有：总体各单位标志值的差异程度、（样本的单位数目）、（抽样的具体方法）和抽样调查的组织形式。

3.抽样误差是由于抽样的（随机性）而产生的误差，这种误差不可避免，但可以控制在（所允许的范围）之内。

4.抽样平均误差是样本平均数的（标准差），是所有可能样本指标与总体指标之离差的（平均数）。

5.抽样极限误差，是指样本指标与全及指标之间产生的（抽样误差）被允许的（最大可能范围）。

6.用样本指标估计总体指标，要做到三个要求，即：（无偏性）、（一致性）、（有效性）。

7．抽样估计的方法有（点估计）和（区间估计）两种。

8.总体参数的区间估计必须同时具备（估计值）、（抽样误差范围）和（概率保证程度）三个要素。

9.总体中各单位标志值之间的变异程度越大，要求的样本单位数就（越多），即样本容量就（越大），总体各单位标志值变异程度与样本容量之间成（正比）。

10.允许误差越大，需要的样本单位数目就（越少）；允许误差越小，需要的样本单位数目就（越多）。

11.对推断结果要求的可靠程度越高，必要样本单位数目就（越多）；反之，可靠程度越低，必要样本单位数目就（越少）。

12.参数估计是用样本统计量估计（总体参数），而假设检验则是先对总体参数（提出假设），然后，运用样本资料验证假设（是否成立）。

第九章多阶段抽样

第九章多阶段抽样第一节多阶抽样概述一、多阶抽样的概念1、单阶抽样：从总体中通过一次抽样就能够产生一个完整的样本，这类抽样即为单阶抽样。

前面介绍的几种抽样方式均为单阶抽样。

适合用于总体单元数相对较少的抽样过程。

2、多阶抽样：将整个抽样过程分成若干个阶段，一个阶段一个阶段地进行抽样以完成整个抽样过程，这种抽样即为多阶抽样。

当我们面对的总体单元数很庞大，而且分布范围很广时，如果使用前面所学习的单阶抽样方法，不仅工作量大，而且在精度上很难把握，此时如果改用多阶抽样方法，就会避免上述困难，从而达到理想的抽样效果。

3、关于多阶抽样的具体描述：如果我们面对的一阶单元内总体基本单元数相当大，作全面的调查就会比较困难，或者一阶单元内各二阶单元可以给出相近的结果，作全面的调查又无必要。

此时从费用和抽样估计效率考虑，便可以从总体中随机抽取一部分一阶单元，然后再从被抽中的一阶单元内，随机抽取部分二阶单元并对他们作全面调查，我们把这种抽样技术称为两阶抽样。

如果在被抽中的二阶单元中，再抽取部分三阶单元组成样本，并对抽中的三阶单元进行全面的调查，这就是三阶抽样。

类似地，可以定义四阶抽样或更高阶的抽样，通常将两阶以上的抽样称为多阶抽样。

需要指出的是，多阶抽样中，各阶可以采用不同的抽样方法，也可采用同一种抽样方法，要视具体情况和要求而定。

在两阶抽样中，总体各一阶单元所包含的二阶单元数，有相等和不相等的两种情况。

前者无论在样本的抽取还是在指标的估算方面都相对比较简单，然而在抽样实践中却很少有这种情况的存在，但作为基本方法仍然有其实际意义；后种情况在抽样和指标的估算方法上都较为复杂，然而在实际中普遍存在此种情况。

4、两阶抽样与分层抽样和整群抽样的关系：将总体分为若干个一阶单元，如果在每一个一阶单元中，都随机抽取部分二阶单元，由这些二阶单元中的总体基本单元组成的样本，在抽样的方式上，就相当于分层抽样；如果在全部的一阶单元中，只抽取了部分一阶单元，并对抽中的一阶单元中的所有的基本单元都做全面调查，这就是整群抽样。

重庆大学生物统计学_第九章抽样原理与方法

x

t
s x
抽样误差
2、样本频率的标准误和置信区间
无限总体的样本频率的标准误：sp
pq n
有限总体的样本频率的标准误：s pq 1 n
x
n
N
其1 概率水平下的置信区间为：
p u sp , p u sp
【例9.1】从一批平菇中随机抽出10株，其单株鲜重的平均值为464.8g，标准误为46.59g，试计算样本平均数的标准误，并在95%的置信度下估计出这批平菇平均单株鲜重的置信区间。
整体抽样
整体抽样也称整群抽样。把总体分成若干群，以群为单位，进行随机抽样，对抽到的样本做全面调查。
特点： 1、一个群只要一个编号，因而减少了抽样单位编号数，且因抽样单位数减少，工作方便。 2、与简单随机抽样相比，常常能提供较为准确的总体估计值，特别是害虫危害作物这类不均匀的研究对象，采用整体抽样更为有利 3、只要各群抽选单位相等，整体抽样也可提供总体平均的无偏估计
因而良种耕牛在该乡的百分率为88％～92％。
样本容量的确定
在确定了抽样允许误差(L)之后，可根据样本资料的标准差（s），确定一定概率水平下的样本容量。在95％的概率水平下：
平均数资料样本容量：
n

t
s2
0.05
2
L2

4s2 L2
频率资料样本容量：
n

t2 0.05
pq
L2

4 pq L2
样本容量的确定
样的样本不一定能保证样本的代表性。适合于个体间差异较小，所需抽取的样本单位数较小
分层随机抽样
分层随机抽样是一种混合抽样。首先将总体单位按某一个标志分层；然后在各层按随机抽样的方法分别抽出各层的样本。

抽样误差及t检验PPT课件

如样本均数的标准差称为均数的标准误， x
n
均数的标准误表示样本均数的变异度
当总体标准差未知时，用样本方差代替，s x 前者称为理论标准误，后者称为样本标准误
s n
因为标准差Ｓ随着样本含量的增加而趋于稳定，故增加样本含量可以降低抽样误差。
-
7
• n 越大，均数的均数就越接近总体均数；
• n 越大，变异越小，分布越窄；
区间。
3、与样本含量
• 标准差是随着样本含量- 的增多，逐渐趋于稳定。 9 • 标准误是随着样本含量的增多，逐渐减少。
与标准差的关系
• 首先，标准差和标准误都是变异指标，说明个体之间的变异用标准差，说明统计量之间的变
联异用标准误。
• 其次，当样本含量不变时，标准差大，标准误
系亦越大，均数的标准误与标准差成正比。
抽样误差及t检验
盛法林，华海峰
-
1
抽样误差的概念
• 抽样研究的过程中，样本统计量与总体参数间的差异称为抽样误差。
这在抽样研究中是不可避免的。
•
抽样误差的表现形式：
• 异
１）总体参数与样本统计量之间的差异；如μ与 X 之间的差
• 差异
２）样本统计量与样本统计量之间的差异；如X 与X 之间的
-
2
• 理论上，如果进行n次抽样，可能会得到n 个各个不相同的样本统计量。如果我们的抽样方法一致的话则n多个统计量之间存在着规律可循。
-
5
均数的抽样误差及标准误
• 各样本均数未必等于总体均数； • 样本均数间存在差异；
• X 的分布很有规律，围绕着，中间多，两边少，
左右基本对称; • 样本均数的变异范围较之原变量的变异范围大大

《统计学》第9章抽样与抽样分布

二、抽样中的基本概念
⚫ 样本比例（成数）
p = n1 ，q = n0 = 1− p
n
n
⚫ 样本是非标志的标准差
(n = n0 + n1)
sp =
n p (1− p) =
n −1
n pq n −1
⚫ 样本是非标志的方差
s
2 p
=
n n −1
p(1 −
p)
=
n n −1
pq
第一节抽样和抽样方法
三、抽样方法
三、抽样方法
⚫ 多阶段抽样
⚫ 在实践中总体所包括的单位数很多，分布很广，通过一次抽样就选出有代表性的样本是很困难的。此时可将整个抽样过程分为几个阶段，然后逐阶段进行抽样，最终得到所需要的有代表性的样本。
第一节抽样和抽样方法
三、抽样方法
⚫ 多阶段抽样
⚫ 阶段数不宜过多，一般采用两个、三个阶段，至多四个阶段为宜，否则，手续繁琐，效果也不一定好。
第一节抽样和抽样方法
二、抽样中的基本概念
⚫ 总体参数
⚫ 总体参数是根据总体各单位的标志值或特征计算的、反映总体某一属性的综合指标。
⚫ 总体参数是唯一的、确定的常数，但一般情况下又是未知的。
⚫ 常用的总体参数有 ⚫ 总体均值 ⚫ 总体标准差、总体方差 ⚫ 总体比例（成数）
第一节抽样和抽样方法
⚫ 样本标准差
s =
1 n −1
n i =1
(xi
−
x )2，或s
=
1
m
m
(xi − x )2 fi
fi −1 i=1
i =1
⚫ 样本方差
( ) ( ) s2 = 1 n n −1 i=1

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第九章第三节定量资料的统计推断
回顾:
统计分析: 统计描述
统计推断:
统计推断参数估计假设检验
点估计区间估计
参数估计：运用统计学原理，利用样本统计量，对总体参数进行估计。例如：总体均数的参数估计
假设检验：又称显著性检验，是指由现成的样本间存在的差别推断所代表的总体间是否有差别。例如：均数u检验、均数t检验
每次均抽取30例（n= 30）组成一份样本，可以算
出每一份样本的平均身高.共抽取这样的样本100 次，最终计算得到156.7, 158.1, 155.6,····157.7等100个样本均数,如表：
均数的抽样误差
均数的抽样误差(sampling error of mean) 随机抽取样本引起的样本均数与总体均数之间或样本均数与样本均数之间的差异称为均数的抽样误差。是客观存在不可避免的。
例5-1 2000年某研究者随机调查某地健康成年男子27人，得到血红蛋白量的均数为125 g /L，标准差为15 g /L。试估计该样本均数的抽样误差。
sX = s / n = 15 / 27 = 2.89g /L
标准差和标准误的区别和联系
标准差
标准误
统计符号
总体标准差用表示；样本标准差用 S 表示。
称，也服从正态分布；
由此得出：
原始总体
μ
SAMPLE 1：x11 x12 x13 x14...x1n
X1
SAMPLE 2：x21 x22 x23 x24...x2n
X2
SAMPLE k：xk1 xk2 xk3 xk4...xkn
Xk
⑴.从正态总体中随机抽取例数为n的样本，其所有样本均数的分布仍服从正态分布
抽样误差的表现
抽样误差的表现
样本统计量和总体参数间的差别
Xi
样本统计量和样
本统计量间的差
别
Xi X j
既然抽样误差不可避免且是有规律的，那么到底它的分布规律到底是怎样的？ (以均数的抽样误差为例)
假定某年某地所有13岁女学生身高服从总体均数 =155.4cm,总体标准差 =5.3cm的正态分布N（， 2）。在这样一个有限的总体中作随机抽样，
合计
频数
1 4 4 22 25 21 17 3 2 1
100
频率%
1.0 4.0 4.0 22.0 25.0 21.0 17.0 3.0 2.0 1.0
100
样本均数的抽样分布具有以下4个特点：
1. 各样本均数未必等于总体均数; 2. 样本均数之间存在差异; 3. 样本均数的分布很有规律，围绕着总体均数（155.4cm），中间多、两边少，左右基本对
现将这100个样本均数。看成新的随机变量绘制频数分布表，如下表：
从正态总体N (155.4, 5.32)抽样得到的100个样本均数的频数分布（n =30）
组段下限值(cm)
152.6~ 153.2~ 153.8~ 154.4~ 155.0~ 155.6~ 156.2~ 156.8~ 157.4~ 158.0~
抽样误差
医学研究中，对总体中的所有对象进行观测是没有必要的也是不可能的，因此通常要采用抽样研究的方法。
抽样研究的目的是用样本信息推断总体特征
假如事先知道某地七岁男童的平均身高为119.41cm。研究者从所有符合要求的七岁男童中每次抽取100人，共计抽取了三次。
μ＝119.41cm σ= 4.38cm
⑵.从偏态总体中抽样，当n足够大时，其所有样本均数的分布也服从正态分布
——中心极限定理
4.这100个样本均数的均数为155.4cm，其标准差为 0.95cm，而原数据的标准差为5.3，说明样本
均数之间的变异要比原数据之间的变异减小;
XX
为了区别原个体值的标准差和样本均数之间的标准差，
原来数据的标准差：
标准误的意义
反映了样本统计量（样本均数）分布的离散程度，体现了抽样误差的大小。
标准误越大，说明样本统计量（样本均数）的离散程度越大，即用样本统计量来直接估计总体参数越不可靠。反之亦然。
标准误的大小与标准差有关，在例数n一定时，从标
准差大的总体中抽样，标准误较大；而当总体一定时，样本例数越多，标准误越小。说明我们可以通过增加样本含量来减少抽样误差的大小。
描述均数的抽样误差大小
联系
SX
S n
t 分布
若随机变量X服从正态分布N（,2），
经过u转换
u X
可以变成标准正态分布。
从正态分布N（,2）总体中抽取例数为n的几份
样本，得到的几个样本均数 X 也服从正态分布记
为： N
,
2
X
t 分布
对正态变量X 作u正态分布 N(0,,12 )
样本均数的标准差： X
标准误：样本均数的标准差。通常用SX 代替 X
标准误
标准误的计算公式：
X
n
sX
s n
标准误的大小与标准差成正比，与样本含量n的平方根成反比，即在同一总体中随机抽样，样本含量n越大，
抽样误差越小。所以在实际应用中可通过增加样本含
量n来减小样本均数的标准误，从而降低抽样误差。
即u分布也称z分布。
实际工作中，当 X未知时，常用 sX 来代替
X
sX 则代替后不再服从标准正态分布
t 分布
英国统计学家W.S.Gosset于1908年以“Student”笔名
证明它服从自由度 = n 1的t分布，即
t X X
sX s / n
~ t分布， = n 1
X 118.21cm s=4.45cm
X 120.81cm s=4.33cm
X 120.18cm s=4.90cm
三次抽样得到了不同的结果，原因何在？
不同男童的身高不同
每次抽到的人几乎不同
个体变异
随机抽样
抽样误差
由于存在个体差异，即使非常严格取出的样本计算得到的各种样本指标都不可能完全等于总体参数值——抽样误差(sampling error) ，比如均数。
标准误用表示； X
其估计值用 S X 表示。
区
别计算公式 S
(X X )2
n 1
SX
S n
标准误越小，样本均数的分布越集统计学标准差越小，个体值相对越集中，中，样本均数与总体均数的差别越
意义均数对数据的代表性越好。
小，抽样误差越小，由样本均数估计总体均数的可靠性越大。
用途
描述个体值的变异程度