抽样误差与假设检验

合集下载

第三章抽样误差与假设检验详解演示文稿

[ u (x ) / x]，也可变换为标准正
态分布N (0,1)。
（二）t分布
由于在实际工作中，往往σ是未知的，常用s作为σ的估计值，为了与Z变换区别，称为t 变换t = x ，统计量 t 值的分布称为t 分布。 sx
t分布有如下特征
1．以0为中心，左右对称的单峰分布；
2．t分布是一簇曲线，其形态变化与n（确切地说与自由度ν）大小有关。自由度ν越小，t分布曲线越低平；自由度ν越大，t分布曲线越接近标准正态分布（u分布）曲线，如图4.1。
从什么分布，X 的抽样分布均近似正态。
抽样分布
图抽样分布示意图
二．均数的抽样误差
如上所述，数理统计研究表明，抽样误差具有一定的规律性，可以用特定的指标来描述。这个指标称为标准误（standard error SE）。
标准误除了反映样本统计量之间的离散程度外，也反映样本统计量与相应总体参数之间的差异，即抽样误差大小。
标准误的计算公式：
x / n
sx
s n
•意义：反映抽样误差的大小。标准误越小，抽样误差越小，用样本均数估计总体均数的可靠性越大。
•与样本量的关系：S 一定，n↑，标准误↓
例4.1 在某地随机抽查成年男子140人，计算得红细胞均数4.77×1012/L，标准差 0.38 ×1012/L ，试计算均数的标准误。
第三章抽样误差与假设检验详解演示文稿
优选第三章抽样误差与假设检验
第三章抽样误差与假设检验
熟悉： 1、抽样误差的概念 2、引起抽样误差的原因 3、均数的标准误的计算 4、标准差和标准误的区别
第一节抽样分布与抽样误差
一．抽样研究（一）抽样研究的意义
总体

统计学中的抽样误差分布

统计学中的抽样误差分布在统计学中，抽样误差是指样本统计量与总体参数之间的差异。

当我们从总体中抽取一个样本，并用样本统计量来估计总体参数时，由于抽取的样本并不是总体的全部，因此存在抽样误差。

抽样误差的分布是统计学中一个重要的概念，它描述了抽样误差的概率分布情况。

本文将介绍统计学中的抽样误差分布。

一、抽样误差的产生原因抽样误差的产生主要有以下几个原因：1. 随机抽样：在统计学中，我们通常采用随机抽样的方法来获取样本。

由于样本是从总体中随机选择的，因此样本与总体之间的差异是不可避免的。

2. 样本大小：样本大小对抽样误差有影响。

样本越大，抽样误差越小；样本越小，抽样误差越大。

3. 总体分布的形状：总体分布的形状也会对抽样误差的分布产生影响。

当总体呈正态分布时，抽样误差往往服从正态分布。

二、抽样误差的分布在统计学中，常见的抽样误差分布有以下几种：1. 正态分布：当总体分布是正态分布，并且样本大小足够大时，根据中心极限定理，样本均值的抽样误差大致服从正态分布。

这也是许多统计推断方法的基础。

2. t分布：在实际应用中，当总体分布未知且样本大小较小的情况下，我们通常使用t分布来描述样本均值的抽样误差。

3. 二项分布：在二项分布中，我们关注的是成功与失败的次数。

当样本来自二项分布总体时，样本比例的抽样误差可以用二项分布来描述。

4. 指数分布：在某些情况下，我们关注的是事件发生的时间间隔。

当事件按照指数分布发生时，我们可以使用指数分布来描述事件发生时间的抽样误差。

三、抽样误差的影响抽样误差的分布对统计推断和决策具有重要影响：1. 置信区间：在统计推断中，我们常常需要给出一个参数的置信区间。

抽样误差的分布决定了置信区间的宽度，即置信水平的精度。

2. 假设检验：在假设检验中，我们常常需要计算p值来判断统计显著性。

抽样误差的分布决定了p值的计算方式。

3. 决策风险：在决策分析中，我们常常需要权衡风险和效益。

抽样误差的分布决定了决策的可靠性和风险程度。

抽样推断的一般问题抽样误差

三、抽样平均误差
抽样平均误差是抽样平均数或抽样成数的标准差，反映了抽样指标与总体指标的平均误差程度。
例如：假设总体包含1、2、3、4、5，五个数字。
则：总体平均数为 =(1+2+3+4+5)/5=3
现在，采用重复抽样从中抽出两个，组成一个样本。可能组成的样本数目：25个。
如：(1+3)/2=2、(1+4)/2=2.5、(2+4)/2=3、(3+5)/2=4…
二、抽样推断的内容
参数估计：参数估计是依据所获得的样本观察资料，对所研究现象总体的水平、结构、规模等数量特征进行估计。
假设检验：假设检验是利用样本的实际资料来检验事先对总体某些数量特征所作的假设是否可信的一种统计分析方法。
三、有关抽样的基本概念
（一）总体和样本
总体：又称全及总体。指所要认识的研究对象全体。总体单位总数用“N”表示。
上式可变形为：Δ=tμ（极限误差是t倍的抽样平均误差）
例题二：某厂生产一种新型灯泡共2000只，随机抽出400只作耐用时间试验，测试结果
平均使用寿命为4800小时，样本标准差为300小时，求抽样推断的平均误差？
解:已知：N=2000n=400σx=300 =4800
则：
计算结果表明：根据部分产品推断全部产品的平均使用寿命时，采用不重复抽样比重复抽样的平均误差要小。
②抽样平均数的标准差仅为总体标准差的
③可通过调整样本单位数来控制抽样平均误差。
例题：假定抽样单位数增加2倍、0.5倍时，抽样平均误差怎样变化？
解：抽样单位数增加2倍，即为原来的3倍
则：
即：当样本单位数增加2倍时，抽样平均误差为原来的0.577倍。
抽样单位数增加0.5倍，即为原来的1.5倍

总体均数的估计和假设检验PPT课件

5、t’检验
当方差不齐时，两小样本均数的比较用t’
检验。检验统计量：t'
x1 x2 s12 s22 n1 n2
临界值：
t'
s2 x1
t ,v1
s2
s2 x2
s2
t ,v2
x1
x2
如果t’ ＞t’α，则P＜α，则拒绝原假设。
6、z检验
当样本含量较大时，可用z检验来进行
两样本均数的比较。它是用于两大样本均数的比较，目的是推断两总体均数是否相同。所用公式：
4、成组t检验
(3) 资料要求：两样本来自正态或近似正态分布，并且两组总体方差相等。
(4) 对数正态分布的资料，在进行t检验时，
要先把数据进行对数转换，用对数值作为
新变量进行成组t检验。
4、成组t检验
(4) 公式： H0： μ1＝ μ2 H1：μ1 ≠ μ2
t x1 x2 s
x1 x2
(1) 小样本资料的估计(未知)
P(t ,＜t＜t , ) 1
由1-αx时 t，,计( 算sn )总＜体＜均x数的t,可( 信sn区)可间得的到通当式可为信：度
即：x
t
,
s x
例2：试求例1中该地1岁婴儿血红蛋白平均值的95%的可信区间。
s
由ν于＝nn＝－215＝，24s=，11α.取9g双/L尾, 0s.x 05，n查t2界.3值8 g表/ L得：
准差s2＝1.626 mg/dl，配对t检验结果，t ＝－
3.098，P<0.05，故认为脑病病人尿中类固醇排出量高于正常人。
表3 正常人和脑病病人尿中类固醇排出量（mg/dl）
正常人
2.90 5.41 5.48 4.60 4.03 5.10 4.97 4.24 4.37 3.05 2.78脑ຫໍສະໝຸດ 病人差别是由抽样误差引起的。

抽样误差与假设检验(ppt 43页)

认为治疗前后有差别。
假设检验的基本思想—利用反证法的思想
利用小概率反证法思想，从问题的对立面（H0）出发间接判断要解决的问题（H1）是否成立。然后在H0成立的条
件下计算检验统计量，最后获得P值来判断。当P小于或等于预先规定的概率值α，就是小概率事件。根据小概率事件
的原理：小概率事件在一次抽样中发生的可能性很小，如果他发生了，则有理由怀疑原假设H0，认为其对立面H1成立
判断观察对象的某
项指标正常与否
• 某地调查100人得收缩压均数为18.62kPa，标准差为1.33kPa。试估计：
• 该地95％的人收缩压在什么范围？ • 该地所有人收缩压的均数可能在什么范围？
假设检验的意义和步骤
(Hypothesis Test)
要求：掌握：假设检验的基本思想和基本步
骤，样本均数与总体均数的比较，配对资料的比较，两个样本均数的比较，假设检验应注意的问题。
4 .7， 7 S0 .3， 8 n 140
下限： X － u /2 . S X 4 . 7 1 . 9 7 0 . 3 6 /1 8 4 . 7 ( 1 0 1 1 /L 2 0 ) 上限： X u / 2 . S X 4 . 7 1 . 9 7 0 . 3 6 /1 8 4 . 8 ( 1 0 3 1 / L 2 0 )
24
1.711 2.064 2.492 2.797
25
1.708 2.060 2.485 2.787
2①6 自由度1相.7同06时，2│.0t5│6值越2.4大79，概2率.77P9越小；
2②7 t值相同1.时70，3 t0.025/.20,2522= t02.0.2457,223=2.20.7747。1

统计学各章练习——抽样推断

第九章抽样推断一、名词1、抽样推断：即由样本指标来推断总体指标的统计方法。

2、抽样误差：是指抽样指标和全及指标之间的绝对离差。

3、抽样极限误差：是指样本指标与全及指标之间产生的抽样误差被允许的最大可能范围，也叫允许误差。

4、点估计：就是直接用样本指标代表总体指标的估计方法。

5、区间估计：就是把抽样指标与抽样平均误差结合起来，来推断总体指标所在的可能范围的方法。

6、假设检验：就是先对研究总体的参数做出某种假设，然后抽取样本，构造适当的统计量，利用样本提供的信息对假设的正确性进行判断的过程。

二、填空题1.抽样推断是由（样本指标）来推断（相应的全及指标）的统计方法。

2.影响抽样误差大小的因素主要有：总体各单位标志值的差异程度、（样本的单位数目）、（抽样的具体方法）和抽样调查的组织形式。

3.抽样误差是由于抽样的（随机性）而产生的误差，这种误差不可避免，但可以控制在（所允许的范围）之内。

4.抽样平均误差是样本平均数的（标准差），是所有可能样本指标与总体指标之离差的（平均数）。

5.抽样极限误差，是指样本指标与全及指标之间产生的（抽样误差）被允许的（最大可能范围）。

6.用样本指标估计总体指标，要做到三个要求，即：（无偏性）、（一致性）、（有效性）。

7．抽样估计的方法有（点估计）和（区间估计）两种。

8.总体参数的区间估计必须同时具备（估计值）、（抽样误差范围）和（概率保证程度）三个要素。

9.总体中各单位标志值之间的变异程度越大，要求的样本单位数就（越多），即样本容量就（越大），总体各单位标志值变异程度与样本容量之间成（正比）。

10.允许误差越大，需要的样本单位数目就（越少）；允许误差越小，需要的样本单位数目就（越多）。

11.对推断结果要求的可靠程度越高，必要样本单位数目就（越多）；反之，可靠程度越低，必要样本单位数目就（越少）。

12.参数估计是用样本统计量估计（总体参数），而假设检验则是先对总体参数（提出假设），然后，运用样本资料验证假设（是否成立）。

假设检验

假设检验是用来判断样本与样本，样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。

其基本原理是先对总体的特征作出某种假设，然后通过抽样研究的统计推理，对此假设应该被拒绝还是接受作出推断。

生物现象的个体差异是客观存在，以致抽样误差不可避免，所以我们不能仅凭个别样本的值来下结论。

当遇到两个或几个样本均数（或率）、样本均数（率）与已知总体均数（率）有大有小时，应当考虑到造成这种差别的原因有两种可能：一是这两个或几个样本均数（或率）来自同一总体，其差别仅仅由于抽样误差即偶然性所造成；二是这两个或几个样本均数（或率）来自不同的总体，即其差别不仅由抽样误差造成，而主要是由实验因素不同所引起的。

假设检验的目的就在于排除抽样误差的影响，区分差别在统计上是否成立，并了解事件发生的概率。

在质量管理工作中经常遇到两者进行比较的情况，如采购原材料的验证，我们抽样所得到的数据在目标值两边波动，有时波动很大，这时你如何进行判定这些原料是否达到了我们规定的要求呢？再例如，你先后做了两批实验，得到两组数据，你想知道在这两试实验中合格率有无显著变化，那怎么做呢？这时你可以使用假设检验这种统计方法，来比较你的数据，它可以告诉你两者是否相等，同时也可以告诉你，在你做出这样的结论时，你所承担的风险。

假设检验的思想是，先假设两者相等，即：μ＝μ0，然后用统计的方法来计算验证你的假设是否正确。

假设检验的基本思想1.小概率原理如果对总体的某种假设是真实的，那么不利于或不能支持这一假设的事件A（小概率事件）在一次试验中几乎不可能发生的；要是在一次试验中A竟然发生了，就有理由怀疑该假设的真实性，拒绝这一假设。

2.假设的形式H0——原假设，H1——备择假设双尾检验：H0:μ = μ0，单尾检验：，H1:μ < μ0，H1:μ > μ0假设检验就是根据样本观察结果对原假设（H0）进行检验，接受H0，就否定H1；拒绝H0，就接受H1。

第三章总体均数的估计与假设检验

2
Sd
d
d Sd / n
2

(
d)
n
n 1
S d 0.1087 t 2.7424 0.1087/ 10 7.925
v 10 1 9
3）确定P值，作出推断结论 T0.05,9=2.262, 7.925>2.262,故P<0.05.可以认为两种方法对脂肪含量的测定结果不同。
167.41, 2.74
165.56, 6.57
168.20, 5.36 n j=10
…. 165.69, 5.09
将上述100个样本均数看成新变量值，则这个 100个样本均数构成一新分布，绘制直方图
样本均数的抽样分布具有如下特点：
1) 各样本均数未必等于总体均数
2) 各样本均数间存在差异
3) 样本均数的分布很有规律，围绕着总体均数，中间多，两边少，左右基本对称，也服从正态分布
假设检验的基本步骤：
1、建立检验假设
Ｈ0: 检验假设, 无效假设，零假设 μ=μ0
H1: 备择假设,对立假设
μ≠μ0
2、确定检验水准 α=0.05 单双侧
3、选定检验方法和计算检验统计量
4、确定P值和作出推论结论。
P值是指从H0所规定的总体进行随机抽样，获得大于（或等于及小于）现有样本获得的检验统计量值的概率。
（1012/L)
血红蛋白（g/L)
女
男女
255
360 255
4.18
134.5 117.6
0.29
7.1 10.2
4.33
140.2 124.7
*标准值：使用内科学（1976年）所载均数（转位法定单位）
1）说明女性的红细胞数与血红蛋白的变异程度何者为大？ 2）抽样误差是？ 3）试估计该地健康成年女性红细胞数的均数？ 4) 该地健康成年男女血红蛋白含量是否不同？ 5）该地男性两项血压指标是否均低于上表的标准值（若测定方法相同）？

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

X t / 2, S X )
25
2.n较大（n>50)
(X
u
/ 2,
S X
,
X
u / 2,
S X
)
26
例4.2 某医生测得25名动脉粥样硬化患者血浆纤维蛋白原含量的均数为3.32g/L，标准差为 0.57g/L，试计算该种病人血浆纤维蛋白原含量总体均数的95%可信区间。
下限：X t /2, SX 3.32 2.064 0.57 / 25 3.08 上限：X t /2, SX 3.32 2.064 0.57 / 25 3.56
t分布的特征：
1、以0为中心，左右对称的单峰分布。 2、t分布曲线是一簇曲线，其形态变化与自由度ν的大小有关系（ ν =n-1）。
自由度越小，t分布的峰越低，而两侧尾部翘得越高；自由度逐渐增大时，t分布逐渐逼近标准正态分布，当自由度为无穷大时， t分布就是标准正态分布。
21
为便于使用，统计学家编制了不同自由度ν对应的t界值表。
在可信度确定的情况下，增加样本量，可减少区间长度，提高精密度。
14
二、总体均数可信区间的计算 t分布是t检验的基础，亦称 student t检验，是计量资
料中最常用的假设检验方法。
戈塞特 (William Sealey Gosset)
英国著名统计学家。出生于英国肯特郡坎特伯雷市，求学于曼彻斯特学院和牛津大学，主要学习化学和数学。
S S 0.38 0.032 (1012 / L) x n 140
10
第二节总体均数的估计
一、可信区间的概念
1.统计推断（statistical inference）在总体中随机抽取一定数量观察单位作为样本进行抽样研究，然后由样本信息推断总体特征，这一过程称为统计推断。
统计推断
参数估计假设检验
统计上用标准误来衡量抽样误差的大小！
8
由于在实际工作中，总体标准差σ往往未知，而是用样本标准差S来代替σ，故只能求得样本均数标准误的估计值S X ，其计算公式为：
估计
9
例 4.1 某市随机抽查成年男子140人，得红细胞均数4.77×1012/L，标准差 0.38×1012/L，计算其标准误。
3
μ=155.4cm σ=5.3cm
XS
1. 156.7 5.16
2. 158.1 5.21
一百
3. 155.6 5.32
个
样
本
99. 154.6 5.15
100. 156.6 5.25
4
抽样误差(smpling error)
这种由抽样造成的样本统计量与总体参数之间的差异成为抽样误差.
总体
参数
15
1899年作为一名酿酒师进入爱尔兰的都柏林一家啤酒厂工作，在那里他涉及到有关酿造过程的数据处理问题。
由于酿酒厂的规定禁止戈塞特发表关于酿酒过程变化性的研究成果，因此戈塞特不得不于1908年，首次以“学生” (Student)为笔名，在《生物计量学》杂志上发表了“平均数的概率误差”。Gosset在文章中使用Z统计量来检验常态分配母群的平均数。由于这篇文章提供了“学生t检验”的基础，为此，许多统计学家把1908年看作是统计推断理论发展史上的里程碑。
率
不本身存在差别
P<0.05
等（来自不同总体）
32
二、假设检验的基本步骤
1.建立假设检验和确定检验水准
H0（无效假设）：μ=μ0
H1（备择假设Leabharlann ）：μμ≠<>μμμ00（0(单双侧侧检检验验）) α=0.05
检验水准：在实际工作中一般取0.05。它确定了小概率事件的标准，即规定了概率不超过α就是小概率事件。
该种病人血浆纤维蛋白原含量总体均数的 95%可信区间为3.09g/L～ 3.56g/L
27
例4.3 试计算例4.1中该地成年男子红细胞总体均数的95%可信区间。
下限：X u /2, SX 4.77 1.96 0.38 / 140 4.71 上限：X u /2, SX 4.77 1.96 0.38 / 140 4.83
点估计区间估计（可信区间）
11
2.参数估计（parameter estimation）是指由样本统计量估计总体参数，是统计推断的一个重要内容。（1）点估计（point estimation）用样本统计量直接作为总体参数的估计值。（2）区间估计（interval estimation）又称可信区间（置信区间，CI）按预先给定的概率，计算出一个区间，使它能够包含未知的总体均数。
流行病与卫生统计学教研室
金英良
1
本章主要内容:
第一节均数的抽样误差与标准误差第二节总体均数的估计第三节假设检验的意义和步骤
2
第一节均数的抽样误差与标准误差
假定某年某地所有13岁女学生身高服从总体均数μ=155.4cm，总体标准差σ=5.3cm的正态分布 N(155.4，5.32）。随机抽取 3 0 人为一个样本（n=30），并计算样本的均数和标准差，共抽取 100次，可以得到100份样本，每份样本可以计算相应的均数和标准差。
16
随机变量X N（m，s2）
u变换
标准正态分布 N（0，12）
当总体均数与标准差未知时
17
均数 X
N (, 2 n)
标准正态分布 N（0，12）
在实际工作中，往往未知，常用代替进行变换，即
不服从标准正态分布！而服从自由度υ=n-1的t分布
18
f(t) =∞(标准正态曲线)
=5 =1
u
X
n
-1.96
P(1.96
X
1.96)
0.95
n
( X 1.96 , X 1.96 )
X
X
( X u / 2 X ,
X u / 2 X )
2.5%
+1.96
24
（二）σ未知
1.n较小（n<50)
P(t / 2,
X
S
-t 0
t / 2, ) 1
t
n
( X t / 2, S X ,
S=0.40kg
X 与μ0之间的差异（不相等），有两种可能： 1、 μ= μ0，仅因为用 X去估计μ时存在抽样误差，所以导致了与μX0之间的差异。 2、 μ与μ0本身就不相等，所以导致了 X与μ之间的差异。
31
假设检验的基本原理:
两抽样误差所致
P>0.05
均（来自同一总体）
数两
? 假设检验回答
k
2
X
n
6
原始总体
μ
SAMPLE 1：x11 x12 x13 x14...x1n
SAMPLE 2：x21 x22 x23 x24...x2n
X1
X2
SAMPLE k：xk1 xk2 xk3 xk4...xkn
Xk
k个样本均数的频数分布图
7
标准误(standard error,SE)
样本均数的标准差。它反映了来自同一总体的样本均数之间的离散程度以及样本均数和总体均数的差异程度,即均数的抽样误差的大小。
33
单、双侧检验
H1： μ≠μ0，双侧，μ<μ0与μ>μ0都有可能 H1： μ>μ0，单侧 H1： μ<μ0，单侧
例如：要比较经常参加体育锻炼的中学男生心率是否低于一般中学男生的心率，就属于单侧检验。
单双侧问题要由专业知识确定
34
2.选择检验方法和计算统计量根据资料的类型和分析目的选择适当的检验方法，并根据选择的方法计算相应的统计量。 3.确定概率P值和作出统计推断
该地成年男子红细胞总体均数的95%可信区间为4.71×1012/L～ 4.83×1012/L
28
第三节假设检验的意义和步骤
一、假设检验的基本思想 “反证法”的思想先根据研究目的建立假设，从H0假设出发，先假设它
是正确的，再分析样本提供的信息是否与H0有较大矛盾，即是否支持H0，若样本信息不支持H0，便拒绝之并接受H1，否则不拒绝H0 。
随机抽样
样本
统计量
只要有个体变异和随机抽样研究，抽样误差就是不可避免的。
5
中心极限定理
若从正态总体N(μ， σ 2）中，反复多次随机抽取样本含量固定为n的样本，那么这些样本均数也服从正态分布。样本均数的X 总体均数仍为μ，样本均数的标准差为 ,其计X 算公式为：
X
k i 1
Xi
t分布的用途：
主要用于总体均数的区间估计及t检验。
22
总体均数可信区间的计算方法，随总体标准差 s是否已知，以及样本含量n的大小而异。
通常有t分布和u分布两类方法：
s未知且 n较小（n<50）
但n足够大（n>50） s已知
按t分布按u分布按u分布
23
（一）σ已知
95%
2.5%
u变换公式：
0.3
0.2
0.1
-4 -3 -2 -1 0 1 2 3 4
t分布
19
皮肌炎图片——皮肌炎的症状表现
皮肌炎是一种引起皮肤、肌肉、心、肺、肾等多脏器严重损害的，全身性疾病，而且不少患者同时伴有恶性肿瘤。它的1症状表现如下：
1、早期皮肌炎患者，还往往伴有全身不适症状，如-全身肌肉酸痛，软弱无力，上楼梯时感觉两腿费力；举手梳理头发时，举高手臂很吃力；抬头转头缓慢而费力。
29
例4.4 以往通过大规模调查已知某地新生儿出生体重为3.30kg. 从该地难产儿中随机抽取35名新生儿作为研究样本，平均出生体重为3.42kg, 标准差为0.40kg。