第五章统计推断(1)

合集下载

生物统计学教案(5)

生物统计学教案第五章统计推断教学时间：5学时教学方法：课堂板书讲授教学目的：重点掌握两个样本的差异显著性检验，掌握一个样本的差异显著性检验，了解二项分布的显著性检验。

讲授难点：一个、两个样本的差异显著性检验统计假设检验：首先对总体参数提出一个假设，通过样本数据推断这个假设是否可以接受，如果可以接受，样本很可能抽自这个总体，否则拒绝该假设，样本抽自另外总体。

参数估计：通过样本统计量估计总体参数。

5.1 单个样本的统计假设检验5.1.1 一般原理及两种类型的错误例：已知动物体重服从正态分布N(μ，σ2)，实验要求动物体重μ＝10.00g。

已知总体标准差σ＝0.40g，总体平均数μ未知，为了得出对总体平均数μ的推断，以便决定是否接受这批动物，随机抽取含量为n的样本，通过样本平均数，推断μ。

1、假设：H0: μ=μ0或H0: μ－μ0＝0H A: μ>μ0 μ<μ0 μ≠μ0三种情况中的一种。

本例的μ0＝10.00g，因此H0: μ=10.00H A: μ>10.00或μ<10.00或μ≠10.002、小概率原理小概率的事件，在一次试验中几乎是不会发生的，若根据一定的假设条件计算出来该事件发生的概率很小，而在一次试验中，它竟然发生了，则可以认为假设的条件不正确，从而拒绝假设。

从动物群体中抽出含量为n的样本，计算样本平均数，假设该样本是从N(10.00，0.402)中抽取的，标准化的样本平均数服从N (0,1)分布，可以从正态分布表中查出样本抽自平均数为μ的总体的概率，即P (U >u ), P (U <－u ), 以及P (|U |>u )的概率。

如果得到的值很小，则x 抽自平均数为μ0的总体的事件是一个小概率事件，它在一次试验中几乎是不会发生的，但实际上它发生了，说明假设的条件不正确，从而拒绝零假设，接受备择假设。

显著性检验：根据小概率原理建立起来的检验方法。

第05章统计推断

单侧检验 α=0.05或0.01 统计推断第五章
§5.1 单个样本的统计假设检验
5.1.2 单个样本的显著性检验程序
统计假设检验的三步曲： 1、建立零假设(null hypothesis)——假设差异不显著或无关； 2、计算统计量（u-检验，t-检验，x2-检验，F-检验）；
3、判断假设。对于带备择假设的零假设：需根据备择假设的拒
F
s , df n 1, df n 1 s
下侧临界点F1-α的值，按右式计算
解释： F< F0.05，或P>0.05，接受H0； F> F0.05，或P<0.05，拒 Fdf1,df2,α，df 1附表7中没有给出 df 2为分母自由度为分子自由度， 1 绝H0， ② F < F 1-α
s ③HA：μ≠μ0，包括μ＞μ0和μ＜μ0 此时相应各备择假设的H0的拒绝域分别为：
①t > tα解释： t<t0.05，接受H0； t>t0.05，拒绝H0 ②t < -tα ③|t| > tα/2，或表示为|t| > tα(两侧)
t n 1
n
第五章统计推断
§5.1 单个样本的统计假设检验
379.2 377.2 u 1.82 3. 3 n 9 由于u 1.82 u0.05 1.645 ，所以拒绝H0假设、接受HA。
即栽培条件的改善显著地提高了豌豆籽粒重量。
x 0
第五章统计推断
§5.1 单个样本的统计假设检验
5.1.4 σ未知时平均数的显著性检验——t 检验（t-test）检验的程序： (1)零假设H0：μ=μ0 备择假设：①HA：μ＞μ0，若已知μ不可能小于μ0 (2)计算统计量： x 0 (3)判断统计量： ②HA：μ＜μ0，若已知μ不可能大于μ0

《统计学原理》第5章：抽样推断

σ
n )
抽样推断的基本原理
抽样推断的优良标准
设θ 为待估计的总体参数， θ为样本统计量，则 θ的优良标准为：１若 E(θ ) =θ ，则称 θ为 θ 的无偏估计量（无偏性）
更有效的估计量（有效性）２若σθ1 < σθ2，则称θ1为比θ2
３若越大σθ 越小，则称 θ 为θ 的一致估计量（一致性）
即中选成分相同但中选顺序不同的视为同一样本
抽样推断的一般问题
抽样组织方式
简单随机抽样类型抽样整群抽样等距抽样多阶段抽样多重抽样
抽样推断的一般问题
样本可能数目
按照一定的抽样方法和组织方式,从总体N中抽取n个单位构成样本,一共可以抽出的不同样本的数量,一般用M表示. 考虑顺序的不重复抽样考虑顺序的重复抽样不考虑顺序的不重复抽样不考虑顺序的重复抽样
抽样推断的一般问题
全及总体指标：参数（未知量）统计推断样本总体指标：统计量（已知量）
抽样推断的一般问题
抽样推断的特点按随机原则抽取样本运用概率论的理论和方法，用样本指标来推断总体指标。推断的误差可以事先计算和控制。
抽样推断的一般问题
抽样推断的应用无法或很难进行全面调查而又需要了解其全面情况时某些可以采用全面调查的社会经济现象，也可采用抽样推断。可用于生产过程的质量控制进行假设检验
抽样推断的基本原理
抽样推断的优良标准——有效性中位数的抽样分布
9 8 7 6 5 4 3 2 1 0 -1 45 50 55 60 65 70 75
平均数的抽样分布
E(x) =
E ( me ) =
e
σx <σm
抽样推断的基本原理

计数资料的统计描述与统计推断

2 nnARn2C 1
(一) 多个样本率的比较：
表3.8 三种药物治疗高血压的疗效
处理
有效
无效
合计
有效率%
复方哌唑嗪 35
5
40
87.50
复方降压片 20
10
30
66.67
安慰剂
7
25
32
21.88
合计
62
40
102
60.78
38
H0:三种处理方法的有效率相等, 即π1= π2= π3 H1:三种处理方法的有效率不等或不全相等
某类死因构某成同年比年某死类亡死总因人死 1数亡 0% 0人数
8
（二）疾病统计指标
某病发病一率定该时期期间内新可病发能的生例发平的数生均某某人 K病
某病患病率某该时时点点某受病检现人患口病 K数例数
某
病
病死同因率期某某病
死亡人数病病 10人 % 0 数
29
31
（三）四格表χ2检验的专用公式
2
(ad b)c2n
(ab)c(d)a (c)b (d)
两组人群尿棕色素阳性率比较
组别
阳性数
阴性数
合计
铅中毒病人对照组
29（a) 9(c)
7(b) 28(d)
36(a+b) 37(c+d)
合计
38(a+c)
35(b+d)
73(n)
阳性率（%） 80.56 24.32 52.05
712 142 185
61
1100
4
0.6
9
6.3

应用统计学(第五章统计推断)

差与已知总体的方差存在显著差异
检验统计量： χ2 (n 1) s2 σ02
例题5 已知某农田受到重金属污染，抽样测定其镉含量
(μg/g)分别为：3.6、4.2、4.7、4.5、4.2、4.0、3.8、
3.7，试检验污染农田镉含量的方差与正常农田镉含量的方差0.065是否相同。
解：假设 H0：σ 2 σ02 , H A：σ 2 σ02
P(μ-1.960 σ x ≤ x < μ+1.960 σ x)=0.95
否定区
接受区
否定区
左尾
0.025
μ-1.960σ x
0.95
0.025
0 μ+1.960σ x
右尾
临界值： ± uσ x= ± 1.960σ x
双尾检验 = 0.01
P(μ-2.576 σ x ≤ x < μ+2.576 σ x)=0.99
解：假设： H0： μ ≤ μ0， HA ： μ > μ0 确定显著水平：α＝0.05 检验统计量：u x μ0 379.2 377.2 1.818 σ n 3.3 9 u0.05=1.645，计算得：u=1.818>u0.05，P<0.05
推断：否定H0，接受HA。
即：栽培条件的改善，显著提高了豌豆籽粒重量。
4)推断
接受/否定H0(HA，实际意义)
例题1 正常人血钙值服从的正态分布，平均值为2.29 mM，标准差为 0.61mM。现有8名甲状旁腺减退患者经治疗后，测得其血钙值平均为 2.01mM，试检验其血钙值是否正常。
1)提出假设 2)确定显著水平 3)计算概率 4)推断
1)提出假设
H0
零假设 /无效假设
对 /检验假设

统计学第五章课后题及答案解析

第五章一、单项选择题1．抽样推断的目的在于( ）A．对样本进行全面调查 B．了解样本的基本情况C．了解总体的基本情况 D．推断总体指标2．在重复抽样条件下纯随机抽样的平均误差取决于( )A．样本单位数 B．总体方差C．抽样比例 D．样本单位数和总体方差3．根据重复抽样的资料,一年级优秀生比重为10%，二年级为20％，若抽样人数相等时，优秀生比重的抽样误差（ )A．一年级较大 B．二年级较大C．误差相同 D．无法判断4．用重复抽样的抽样平均误差公式计算不重复抽样的抽样平均误差结果将( ）A．高估误差 B．低估误差C．恰好相等 D．高估或低估5．在其他条件不变的情况下，如果允许误差缩小为原来的1/2，则样本容量( ）A．扩大到原来的2倍 B．扩大到原来的4倍C．缩小到原来的1/4 D．缩小到原来的1/26．当总体单位不很多且差异较小时宜采用（ )A．整群抽样 B．纯随机抽样C．分层抽样 D．等距抽样7．在分层抽样中影响抽样平均误差的方差是（）A．层间方差 B．层内方差C．总方差 D．允许误差二、多项选择题1．抽样推断的特点有（）A．建立在随机抽样原则基础上 B．深入研究复杂的专门问题C．用样本指标来推断总体指标 D．抽样误差可以事先计算E．抽样误差可以事先控制2．影响抽样误差的因素有( ）A．样本容量的大小 B．是有限总体还是无限总体C．总体单位的标志变动度 D．抽样方法E．抽样组织方式3．抽样方法根据取样的方式不同分为( ）A．重复抽样 B．等距抽样 C．整群抽样D．分层抽样 E．不重复抽样4．抽样推断的优良标准是（ )A．无偏性 B．同质性 C．一致性D．随机性 E．有效性5．影响必要样本容量的主要因素有（ )A．总体方差的大小 B．抽样方法C．抽样组织方式 D．允许误差范围大小E．要求的概率保证程度6．参数估计的三项基本要素有（）A．估计值 B．极限误差C．估计的优良标准 D．概率保证程度E．显著性水平7．分层抽样中分层的原则是( ）A．尽量缩小层内方差 B．尽量扩大层内方差C．层量扩大层间方差 D．尽量缩小层间方差E．便于样本单位的抽取三、填空题1．抽样推断和全面调查结合运用，既实现了调查资料的_______性，又保证于调查资料的_______性。

第五章统计推断的理论基础

（三）Ｆ分布
• F分布是由两个卡方分布构造而成的一个新的分布。若随机变量，F=S12/S22，则F函数的分布规律称为 F(n1,n2) 分布，其中参数 n1、n2是两个自由度，任意一个自由度不同就是另一个F分布。
• F分布在一象限内，呈正偏态，随着两个自由度的增大，趋近于正态分布。
Ｆ分布图
• 概率分布就是描述随机变量统计规律的重要工具。
一个赌博实例
• 口袋中有8黑8白共16个玻璃球，从中随机抽取8个玻璃球，如果刚好抽到4 黑4白，庄家赢，其他任何情况，庄家都会不同程度的输。
经过计算，找规律
X
w8
w7b w6b2 w5b3 w4b4 w3b5 w2b6 wb7
b8
P（X） 1/12870 0.5% 6%
T分布图
T分布概率表（附表2）
• 查T分布概率表时，按自由度及相应的概率去找到对应的 t 值。例如T0.05(8)的查表方法就是，在第一列找到自由度8这一行，在第一行中找到概率0.05这一列，行列的交叉处即是2.306。
（二）卡方（χ2）分布
1. 若n个相互独立的随机变量ξ1，ξ2，…， ξn ，均服从标准正态分布，则这n个服从标准正态分布的随机变量的平方和∑ξ2i构成一新的随机变量，其分布规律称为χ2(n) 分布，其中参数 n 称为自由度，自由度不同就是另一个χ2分布。
区间
例题2
• 已知一项考试的成绩服从平均数82,标准差为8的正态分布，问成绩落在80～90分之间考生占多大比例？
• 解：此题实质上求成绩落在80分和90分之间的概率。必须
先把原始分转化成标准分：Z1=-0.25， Z2=1
•
通过画示意图，可以发现我们所求的是两块可查表面

05第五章抽样推断

置信水平
(confidence level)
1.
2.
将构造置信区间的步骤重复很多次，置信区间包含总体参数真值的次数所占的比例，也称置信度表示为 (1 - 为是总体参数未在区间内的比例
3.
常用的置信水平值有 99%, 95%, 90% 相应的为0.01，0.05，0.10
总体参数估计就是以样本统计量来估计总体参数。参数估计要求：
1. 精确性—适当的极限误差范围；
2. 可靠性—估计结果正确的概率。
参数估计—点估计和区间估计。
2014-3-30 第五章抽样推断 20
2.2 点估计(point estimate)
点估计就是根据总体参数与样本统计量之间的内在联系，直接以样本统计量作为相应总体参数的估计值，点估计又称为定值估计。常用的点估计量有：
第五章
抽样推断
第一节抽样推断及其特点
第二节总体参数估计第三节假设检验概述
统计名言
不象其他科学，统计从来不打算使自己完美无缺，统计意味着你永远不需要确定无疑
—— Gudmund R.Iversen
参数估计在统计方法中的地位
统计方法
描述统计推断统计
参数估计
2014-3-30 第五章抽样推断
ˆ x X
2014-3-30
2 ( x x )
ˆp ˆ 2 S2 P
n1

21
第五章抽样推断
估计量与估计值
(estimator & estimated value)
1. 2.
3. 4.
参数估计 (parameter estimation) 就是用样本统计量去估计总体的参数估计量：用于估计总体参数的统计量的名称如样本均值，样本比例，样本方差等例如: 样本均值就是总体均值的一个估计量参数用表示，估计量用表示 ˆ 估计值：估计参数时计算出来的统计量的具体值如果样本均值 x =80，则80就是的估计值

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2检验是根据s判断抽出该样本的总体其标准差是否等于
某一给定值。
检验程序：
(a) 确定假设H 0和H A： H 0：＝ 0；H A 有三种可能的形式：（ 1 ） 0 （2） 0 (若已知不可能小于 0 ) （3） 0 (若已知不可能大于 0 )
(b)计算检验的统计量：
1. 单个样本平均数检验
在实际研究中，常常要检验一个样本平均数 x与已知的总体平均数0是否有显著差异，即检验该样本是否来自某一已知的总体。
已知的总体平均数一般为一些公认的理论数值。如畜禽正常的生理指标、怀孕期、生产性能指标等，都可以样本平均数与之比较，检验差异显著性。
1.1 在σ已知的情况下，单个平均数的显著性检验－u检验检验程序：
• 两类错误之间的关系如何？
二者的区别是I型错误只有在否定H0的情况下发生，而 II型错误只有在接受H0时才会发生。二者的联系是，在样本容量相同的情况下，I型错误减小，II型错误就会增大；反之II型错误减小，I型错误就会增大。比如，将显著性水平α从0.05提高到0.01，就更容易接受H0，因此犯I型错误的概率就减小，但相应地增加了犯II型错误的概率。
第一节假设检验的基本步骤及原理
1. 假设检验的基本步骤
我们通过一个例子来介绍假设检验的基本步骤：
例一，已知某品种玉米单穗重X ~ N (300,9.52 )，即单穗重总体平均数0 300g，标准差 9.5 g。在种植过程中喷洒了某种药剂的植株中随机抽取9个果穗，测得平均单穗重 x 308g，试问这种药剂对该品种玉米的平均单穗重有无真实影响？
• （一）提出假设
首先对样本所在的总体作一假设。假设喷洒了药剂的玉米单穗重总体平均数与原来的玉米单穗重总体平均数0之间没有真实差异，即＝0。也就是说表面差异（ x 0）是由抽样误差造成的。
0被称为零假设或无效假设，记为 H0 : 0 .
所谓“零”就是指处理（药剂）没有效果
3 双侧检验与单侧检验
在例一里，备择假设是 H A : 0。H A实际上包含了 0 或 0这两种情况，此时水平的拒绝域为 (， u / 2 ] 和[u / 2 , )。
这种利用两个尾部进行的检验称作双侧检验。双侧检验的目的在于判断与0有无差异，而不考虑与0谁大谁小。
H 0是待检验的假设，它有可能被接受，也有可能被否定。因此，需要设定一个对立的假设，称为备择假设。
所谓备择假设就是在零假设被否定时，准备接受的假设，记为 H A : 0 .
• （二）计算概率
在假定零假设成立的前提下，根据检验统计量的分布（第四章的内容），来计算现有样本发生的概率。
(a ) 确定假设H 0和H A： H 0：＝ 0；H A 有三种可能的形式：（ 1 ） 0 （2） 0 (若已知不可能小于 0 ) （3） 0 (若已知不可能大于 0 )
x 0 (b)计算检验的统计量： u / n
(c)求临界值并确定拒绝域。相对于H A的不同形式，拒绝域为
(c)求临界值并确定拒绝域。相对于H A的不同形式，拒绝域为
(1)
t / 2
t / 2
( 2)
t
(3)
t
(d )下结论
2 解：由于总体方差 0 未知，且新品种的千粒重可能高于
也可能低于汕优 63 的千粒重，故采用双侧 t检验法。
(1)提出假设 H0 : 0 27.5 ; H A : 27.5
(2)计算检验统计量的值 s2 x
2
( x ) 2 / n n 1
2
97635 (987) 2 / 10 24.23 9

2
(n 1) s
2
9 24.23 1.11 196
(3)求出临界值，确定拒绝域。
2
(n 1) s 2

2
, 它服从自由度为 n 1
的卡方分布
(c)求临界值并确定拒绝域。相对于H A的不同形式，拒绝域为
(1)
12 / 2
2 /2
( 2)
2
(3)
(d )下结论
12
解：由于这是单样本变异性检验，故采用 2检验法。
(1) 提出假设 H0 : 0 14 ; H A : 0 14
(1)
u / 2
u / 2
( 2)
u
(3)
u
(d )下结论
2 解：由于总体方差 0 已知，且新品种的鲜果穗重可能高于
也可能低于原品种，故采用双侧u检验。
(1)提出假设 H0 : 0 216.5 ; H A : 216.5
(2)计算检验统计量的值 x 255.0 185.0 278.5 x 227.9( g ) n 8
但在有些情况下，双侧检验不一定符合实际情况。如采用某种新的配套技术措施以提高鸡的产蛋量，已知此种技术不会降低产蛋量。此时，若进行新技术与常规技术的比较，零假设仍为H 0 : 0，而备择假设应为 H A : 0，即新技术提高产蛋量。
• 双侧检验与单侧检验的选择：应根据专业知识在试验设计时就确定。
II型错误的概率记为β ，其数值依据真实差异的程 H0不正确
否定H0
接受H0
I型错误（α）
推断正确（1－α）
推断正确（1－β ） II型错误（β ）
• 如何降低两类错误的概率？
一般通过增加样本含量n，获得更多的关于总体的信息，从而降低推断中可能出现的错误的概率。
(2)计算检验统计量的值 x 32.5 28.6 29.7 x 29.255( g ) n 9
s
x
2
( x) 2 / n n 1
(32.52 29.7 2 ) (263.3) 2 / 9 2.587 9 1
x 0 29.255 27.5 t 2.036 s/ n 2.587/ 9
x 0 227.9 216.5 u 0.712 0 / n 45.2 / 8
(3)求出双侧临界值，确定拒绝域。＝0.05
u u0.025 1.96
2
(4)下结论。因统计量 u 0.712没有落在拒绝域内，我们不否定 H 0，因此新品种与苏玉糯 1号鲜果穗重差异不显著。
第五章统计推断
由样本推断总体得过程叫统计推断。统计推断能排除试验误差得影响，揭示事物的内在规律。
假设检验
对总体的参数预先提出一个假设，如＝3.6， 2＝4.5等，然后通过样本数据去推断这个假设是否可以接受。
统
（显著性检验）
计
推
断
参数估计
通过样本统计量去直接估计参数，如用样本平均数 x去估计等。这在下一章里讨论。
1.2 在σ未知的情况下，单个平均数的显著性检验－t检验检验程序：
(a ) 确定假设H 0和H A： H 0：＝ 0；H A 有三种可能的形式：（ 1 ） 0 （2） 0 (若已知不可能小于 0 ) （3） 0 (若已知不可能大于 0 )
x 0 (b)计算检验的统计量： t s/ n
u / 2
u / 2
• 注意：假设检验选用的显著性水平应根据实验的要求而定。
• 如果实验中难以控制的因素很多，试验精度不是很高，则显著性水平α的值可稍大点； • 如果实验的精度很高，真实差异不容易被误差所掩盖，处理的作用容易被检验出来，这时显著性水平α可适当取小些。
• 无论如何，显著性水平α的值必须在实验开始前就已经确定下来。
• 一般若事先不知道所比较的两个处理效果谁好谁坏，分析的目的在于推断两个处理之间有无显著差异，则选用双侧检验；
• 若根据理知识或实践经验判断甲处理的效果不会比乙处理的效果差，分析的目的在于推断甲处理是否真的比乙处理号，这时应用单侧检验
4 两类错误
假设检验可能发生两类错误：I型错误与II型错误。
从第（二）步概率计算中得到，在H0成立的假设下，观察到现有样本的概率是0.014。如果我们把小概率标准定为0.05（也称为显著性水平），那么现有样本的发生是小概率事件，根据小概率事件实际不可能原理，是不可能得到现有样本的。
但是，在我们的实验中确实得到了现有的样本，这只能说明H0成立的前提是错误的。因此，我们在显著性水平为0.05的情况下，否定 H0，而接受HA。所以这种药剂对玉米单穗重有显著的影响。
(3) 求出双侧临界值，确定拒绝域。 df n 1 8时, ＝0.05的双侧临界值 t / 2 2.306
查表 4 a
2.306
2.306
(4)下结论。因统计量 t 2.036没有落在拒绝域内，我们不否定 H 0，因此新品种的千粒重与汕优63没有显著差异。
2 单个样本的方差检验－χ2检验
本例的u的尾区概率： P(| u | 2.526) 2P(u 2.526) 2 0.00570 0.0114 1.14%
• （三）统计推断（下结论）
若随机事件的概率很小，例如小于0.05或0.01，称之为小概率事件
小概率事件不可能原理：小概率事件在一次试验中实际上是不可能发生的。
I型错误：H0实际上是正确的，但假设检验的结果却否定H0。通俗地讲，就是没有差异说成了有差异。
以例一为例。假如H0是正确的，由于抽样的随机性，仍有一部分样本的u值会落在拒绝域内，利用这些样本作假设检验就会拒绝H0，从而犯下I型错误。由于拒绝域的面积为α，所以I型错误的概率约为α。
II型错误：H0实际上是错误的，但假设检验的结果却接受H0。通俗地讲，就是有差异说成了没有差异。
本例是在假定 H 0 : 0 300 的前提下，研究得到这个样本的概率。从样本平均数的抽样分布入手。