[医学]第04章 抽样误差与假设检验 - 副本
合集下载
第4章 抽样误差与假设检验0819

医学统计学
第四章 抽样误差与假设检验
反证法
命题:一个三角形至少有两个锐角。 证:假设一个三角形只有一个锐角,[1.反命题] 因为三角形有三个角,那么另两个角均为直角或钝角(≥90度),[2.推导过程] 则三角形之和≥180度。 [矛盾,与“三角之和为180度”公理矛盾] 所设,接受命题]
三、假设检验(三个基本步骤)
1.
建立假设和确定检验水准; 选择检验方法和计算检验统计量; 确定P值和作出统计推断结论。
2.
3.
中英文翻译
抽样误差 sampling error 标准差SD standard deviation 标准误SE standard error 参数估计 parameter estimation 点估计 point estimation 区间估计 interval estimation 可信区间CI confidence interval 假设检验 hypothesis test; significant test 无效假设 null hypothesis 备择假设 alternative hypothesis
假设检验中的反证法思想
反证法 命题
1.
假设检验
H1:备择假设
1.
提出反命题;
建立假设H0:无效假设(零假设);
2.
推导过程;
2.
选择检验方法和计算检验统计量;
出现矛盾,作出统计推断结论。
3.
出现矛盾,否定反命题,接受命题。 3.
小概率事件原理! 小概率事件在一次 试验中不会发生!
u、t、χ2、F检验
假设检验中的反证法思想
反证法 命题
1.
假设检验
第四章 抽样误差与假设检验
反证法
命题:一个三角形至少有两个锐角。 证:假设一个三角形只有一个锐角,[1.反命题] 因为三角形有三个角,那么另两个角均为直角或钝角(≥90度),[2.推导过程] 则三角形之和≥180度。 [矛盾,与“三角之和为180度”公理矛盾] 所设,接受命题]
三、假设检验(三个基本步骤)
1.
建立假设和确定检验水准; 选择检验方法和计算检验统计量; 确定P值和作出统计推断结论。
2.
3.
中英文翻译
抽样误差 sampling error 标准差SD standard deviation 标准误SE standard error 参数估计 parameter estimation 点估计 point estimation 区间估计 interval estimation 可信区间CI confidence interval 假设检验 hypothesis test; significant test 无效假设 null hypothesis 备择假设 alternative hypothesis
假设检验中的反证法思想
反证法 命题
1.
假设检验
H1:备择假设
1.
提出反命题;
建立假设H0:无效假设(零假设);
2.
推导过程;
2.
选择检验方法和计算检验统计量;
出现矛盾,作出统计推断结论。
3.
出现矛盾,否定反命题,接受命题。 3.
小概率事件原理! 小概率事件在一次 试验中不会发生!
u、t、χ2、F检验
假设检验中的反证法思想
反证法 命题
1.
假设检验
4抽样误差与假设检验

X
s n
南昌大学公共卫生学院卫生统计学教研室
2020年10月10日星期六
抽样误差与假设检验
抽样误差
例4.1 试计算均数的标准误。在某地随机 抽查成年男子140人,计算得红细胞均数 4.77×1012/L,标准差0.38 ×1012/L ,
S S0.380.032(1012/L) X n 140
标准误是抽样分布的重要特征之一,可用于 衡量抽样误差的大小,更重要的是可以用于参数 的区间估计和对不同组之间的参数进行比较。
表示观察值波动的大小
表示抽样误差的大小
用于计算变异系数
用于均数的假设检验
计算标准误
估计参考值范围
估计参数的可信区间
南昌大学公共卫生学院卫生统计学教研室
2020年10月10日星期六
抽样误差与假设检验
t分布
t分布的概念 从正态分布N(,2)抽得样本的均数也服从
正态分布,记为N( ,X2 )。对正态变量X 作变换 :
南昌大学公共卫生学院卫生统计学教研室
2020年10月10日星期六
抽样误差与假设检验
标准差与标准误的联系和区别
联系
都是变异指标。S反映个体观察值的变异;
s X
反映统计量的变异。
当n不变时,标准差↑,标准误↑
s
s
X
n
南昌大学公共卫生学院卫生统计学教研室
2020年10月10日星期六
抽样误差与假设检验
标准差与标准误的联系和区别
抽样分布
样本均数的抽样分布与抽样误差
假定某年某地所有13岁女学生身高服从总体均 数 =155.4cm, 总体标准差 =5.3cm的正态分布。 在这样一个有限的总体中作随机抽样,共抽100次,每 次均抽取30例(ni = 30,i=1,2,…100)组成一份样本, 可以算出每一份样本的平均身高。最终计算得到100 个样本均数。现将这100个样本均数看成新的随机变 量绘制频数分布表,如表所示 。
s n
南昌大学公共卫生学院卫生统计学教研室
2020年10月10日星期六
抽样误差与假设检验
抽样误差
例4.1 试计算均数的标准误。在某地随机 抽查成年男子140人,计算得红细胞均数 4.77×1012/L,标准差0.38 ×1012/L ,
S S0.380.032(1012/L) X n 140
标准误是抽样分布的重要特征之一,可用于 衡量抽样误差的大小,更重要的是可以用于参数 的区间估计和对不同组之间的参数进行比较。
表示观察值波动的大小
表示抽样误差的大小
用于计算变异系数
用于均数的假设检验
计算标准误
估计参考值范围
估计参数的可信区间
南昌大学公共卫生学院卫生统计学教研室
2020年10月10日星期六
抽样误差与假设检验
t分布
t分布的概念 从正态分布N(,2)抽得样本的均数也服从
正态分布,记为N( ,X2 )。对正态变量X 作变换 :
南昌大学公共卫生学院卫生统计学教研室
2020年10月10日星期六
抽样误差与假设检验
标准差与标准误的联系和区别
联系
都是变异指标。S反映个体观察值的变异;
s X
反映统计量的变异。
当n不变时,标准差↑,标准误↑
s
s
X
n
南昌大学公共卫生学院卫生统计学教研室
2020年10月10日星期六
抽样误差与假设检验
标准差与标准误的联系和区别
抽样分布
样本均数的抽样分布与抽样误差
假定某年某地所有13岁女学生身高服从总体均 数 =155.4cm, 总体标准差 =5.3cm的正态分布。 在这样一个有限的总体中作随机抽样,共抽100次,每 次均抽取30例(ni = 30,i=1,2,…100)组成一份样本, 可以算出每一份样本的平均身高。最终计算得到100 个样本均数。现将这100个样本均数看成新的随机变 量绘制频数分布表,如表所示 。
抽样误差与假设检验.pptx

S S 0.38 0.032(1012 / L) X n 140
标准误的用途: 标准误是抽样分布的重要特征之一,可用于衡量抽 样误差的大小,更重要的是可以用于参数的区间估 计和对不同组之间的参数进行比较。
标准差与标准误的区别与联系
意义
标准差:描述个体值间的变异,标准差较 小,表示观察值围绕均数的波动较小。 说明样本均数的代表性。
假定某年某地所有13岁女学生身高服从
N(155.4,5.32),在该总体中作100次随
机抽样,ni = 30
总体
样本n1 样本n2
样本nk
样本均数
X1
153.6
X2
153.1
····
Xk 157.7
各样本均数不相同,为什么?
从正态总体N(155.4,5.32)抽样得到的100个样本均数的频数分布
抽样分布
抽样分布示意图
三、标准误(Standard Error)
样本均数的标准差称为标准误。样本均数的变
异越小说明估计越精确,因此可以用标准误表示
抽样误差的大小:
X
n
实际中总体标准差 往往未知,故只能求得样 本均数标准误的估计值 : S
X
S
S
X
n
例4.1 在某地随机抽查成年男子140人,计算 得红细胞均数4.77×1012/L,标准差0.38 ×1012/L ,试计算均数的标准误。
第四章 抽样误差与假设检验
要求:
掌握:均数的抽样误差与标准误,t分 布的特征,t界值表,总体均数可信区间及
其与参考值范围的区别。
了解:t变换。
第一节 均数的抽样误差与标准误
一、均数的抽样误差
在医学研究中,绝大多数情况是由样本信息研究 总体。由于个体存在差异,因此通过样本推论总体 时会存在一定的误差,如样本均数 往X往不等于总 体均数 ,这种由抽样造成的样本均数与总体均数 的差异称为抽样误差。对于抽样研究,抽样误差不 可避免。
标准误的用途: 标准误是抽样分布的重要特征之一,可用于衡量抽 样误差的大小,更重要的是可以用于参数的区间估 计和对不同组之间的参数进行比较。
标准差与标准误的区别与联系
意义
标准差:描述个体值间的变异,标准差较 小,表示观察值围绕均数的波动较小。 说明样本均数的代表性。
假定某年某地所有13岁女学生身高服从
N(155.4,5.32),在该总体中作100次随
机抽样,ni = 30
总体
样本n1 样本n2
样本nk
样本均数
X1
153.6
X2
153.1
····
Xk 157.7
各样本均数不相同,为什么?
从正态总体N(155.4,5.32)抽样得到的100个样本均数的频数分布
抽样分布
抽样分布示意图
三、标准误(Standard Error)
样本均数的标准差称为标准误。样本均数的变
异越小说明估计越精确,因此可以用标准误表示
抽样误差的大小:
X
n
实际中总体标准差 往往未知,故只能求得样 本均数标准误的估计值 : S
X
S
S
X
n
例4.1 在某地随机抽查成年男子140人,计算 得红细胞均数4.77×1012/L,标准差0.38 ×1012/L ,试计算均数的标准误。
第四章 抽样误差与假设检验
要求:
掌握:均数的抽样误差与标准误,t分 布的特征,t界值表,总体均数可信区间及
其与参考值范围的区别。
了解:t变换。
第一节 均数的抽样误差与标准误
一、均数的抽样误差
在医学研究中,绝大多数情况是由样本信息研究 总体。由于个体存在差异,因此通过样本推论总体 时会存在一定的误差,如样本均数 往X往不等于总 体均数 ,这种由抽样造成的样本均数与总体均数 的差异称为抽样误差。对于抽样研究,抽样误差不 可避免。
抽样误差与假设检验(ppt 43页)

认为治疗前后有差别。
假设检验的基本思想—利用反证法的思想
利用小概率反证法思想,从问题的对立面(H0)出发间 接判断要解决的问题(H1)是否成立。然后在H0成立的条
件下计算检验统计量,最后获得P值来判断。当P小于或等 于预先规定的概率值α,就是小概率事件。根据小概率事件
的原理:小概率事件在一次抽样中发生的可能性很小,如果 他发生了,则有理由怀疑原假设H0,认为其对立面H1成立
判断观察对象的某
项指标正常与否
• 某地调查100人得收缩压均数为18.62kPa, 标准差为1.33kPa。试估计:
• 该地95%的人收缩压在什么范围? • 该地所有人收缩压的均数可能在什么范围?
假设检验的意义和步骤
(Hypothesis Test)
要求: 掌握:假设检验的基本思想和基本步
骤,样本均数与总体均数的比较,配对 资料的比较,两个样本均数的比较,假 设检验应注意的问题。
4 .7, 7 S0 .3, 8 n 140
下限: X - u /2 . S X 4 . 7 1 . 9 7 0 . 3 6 /1 8 4 . 7 ( 1 0 1 1 /L 2 0 ) 上限: X u / 2 . S X 4 . 7 1 . 9 7 0 . 3 6 /1 8 4 . 8 ( 1 0 3 1 / L 2 0 )
24
1.711 2.064 2.492 2.797
25
1.708 2.060 2.485 2.787
2①6 自由度1相.7同06时,2│.0t5│6值越2.4大79,概2率.77P9越小;
2②7 t值相同1.时70,3 t0.025/.20,2522= t02.0.2457,223=2.20.7747。1
假设检验的基本思想—利用反证法的思想
利用小概率反证法思想,从问题的对立面(H0)出发间 接判断要解决的问题(H1)是否成立。然后在H0成立的条
件下计算检验统计量,最后获得P值来判断。当P小于或等 于预先规定的概率值α,就是小概率事件。根据小概率事件
的原理:小概率事件在一次抽样中发生的可能性很小,如果 他发生了,则有理由怀疑原假设H0,认为其对立面H1成立
判断观察对象的某
项指标正常与否
• 某地调查100人得收缩压均数为18.62kPa, 标准差为1.33kPa。试估计:
• 该地95%的人收缩压在什么范围? • 该地所有人收缩压的均数可能在什么范围?
假设检验的意义和步骤
(Hypothesis Test)
要求: 掌握:假设检验的基本思想和基本步
骤,样本均数与总体均数的比较,配对 资料的比较,两个样本均数的比较,假 设检验应注意的问题。
4 .7, 7 S0 .3, 8 n 140
下限: X - u /2 . S X 4 . 7 1 . 9 7 0 . 3 6 /1 8 4 . 7 ( 1 0 1 1 /L 2 0 ) 上限: X u / 2 . S X 4 . 7 1 . 9 7 0 . 3 6 /1 8 4 . 8 ( 1 0 3 1 / L 2 0 )
24
1.711 2.064 2.492 2.797
25
1.708 2.060 2.485 2.787
2①6 自由度1相.7同06时,2│.0t5│6值越2.4大79,概2率.77P9越小;
2②7 t值相同1.时70,3 t0.025/.20,2522= t02.0.2457,223=2.20.7747。1
抽样误差与假设检验

/ 2 ,
d:治疗前后血清甘油三酯的差值;
d :治疗前后血清甘油三酯差值的平均值;
Sd:治疗前后血清甘油三酯差值的标准差;
n:30名患者;
10
可编辑ppt
三、假设检验(基Biblioteka 步骤)3. 确定P值和作出统计推断结论。
计算获得t值的概率P值,并与检验水准α比较。
若P≤α,小概率事件发生,矛盾,拒绝H0 ,接受H1;认
为μd≠0,即治疗前后血清甘油三酯差异有显著统计学 意义。
若P> α,不能拒绝拒绝H0 ;认为μd=0,即治疗前后血清 甘油三酯差异无显著统计学意义。
11
可编辑ppt
三、假设检验(三个基本步骤)
1. 建立假设和确定检验水准; 2. 选择检验方法和计算检验统计量; 3. 确定P值和作出统计推断结论。
7
假设检验(双侧检验和单侧检验)
可编辑ppt
0.025 -1.96
0.025 1.96
8
三、假设检验(基本步骤)
1. 建立假设和确定检验水准; 例4.4 使用黑加仑油软膏治疗高脂血症,30名患者治疗前后
血清甘油三酯检测结果的差值为1.38±0.76(mmol/L),问 治疗前后血清甘油三酯是否有所改善?
可编辑ppt
建立假设(反证法的假设命题)
无效假设H0: μd=0 备择假设H1: μd≠0
确定检验水准α(小概率事件定义)
α=0.05或α=0.01
9
三、假设检验(基本步骤)
2. 选择检验方法和计算检验统计量;
可编辑ppt
t d 0 S/ n
d
t以1-α的概率落在范围:
t t t
/ 2 ,
可编辑ppt
抽样误差与假设检验

19
假设检验的基本步骤
1.Байду номын сангаас
①
建立假设和确定检验水准
无效假设( 无效假设(null hypothesis) 符号 0, 即认为样本均数 ) 符号H 与总体均数相等。 与总体均数相等。 记为H 记为 0 : µ=µ0 或 µ - µ0 = 0 若不拒绝H 则认为两均数的差异由抽样误差所致。 若不拒绝H0 ,则认为两均数的差异由抽样误差所致。
第四章 抽样误差与假设检验
1
第一节 均数的抽样误差与标准误
假设某地12岁男孩身高的总体均数为 假设某地 岁男孩身高的总体均数为138.7cm, 现 岁男孩身高的总体均数为 在随机抽取200例,其身高的样本均数为139.6cm, 例 其身高的样本均数为 在随机抽取 , 两均数不相等,为什么? 两均数不相等,为什么?
对所估计的总体首先提出一个假设, 对所估计的总体首先提出一个假设,然后通过样本 数据去推断是否拒绝这一假设, 数据去推断是否拒绝这一假设,称为假设检验 testing) (hypothesis testing) 假设检验是利用小概率反证法思想, 假设检验是利用小概率反证法思想,从问题的对立 面(H0)出发间接判断要解决的问题 1)是否成立。然后 出发间接判断要解决的问题(H 是否成立。 出发间接判断要解决的问题 是否成立 成立的条件下计算检验统计量, 在H0 成立的条件下计算检验统计量,最后获得 P 值来 判断。 判断。
生化某项指标的波动范 围。 个体值的波动范围 总体中作100次重复抽样,可得100个可 次重复抽样,可得 个可 总体中作 次重复抽样 信区间,平均有95个可信区间包含总体 信区间,平均有 个可信区间包含总体 均数,只有5个可信区间不包含总体均 均数,只有 个可信区间不包含总体均 数。 总体均数的可能范围 n≥50: : n<50:
假设检验的基本步骤
1.Байду номын сангаас
①
建立假设和确定检验水准
无效假设( 无效假设(null hypothesis) 符号 0, 即认为样本均数 ) 符号H 与总体均数相等。 与总体均数相等。 记为H 记为 0 : µ=µ0 或 µ - µ0 = 0 若不拒绝H 则认为两均数的差异由抽样误差所致。 若不拒绝H0 ,则认为两均数的差异由抽样误差所致。
第四章 抽样误差与假设检验
1
第一节 均数的抽样误差与标准误
假设某地12岁男孩身高的总体均数为 假设某地 岁男孩身高的总体均数为138.7cm, 现 岁男孩身高的总体均数为 在随机抽取200例,其身高的样本均数为139.6cm, 例 其身高的样本均数为 在随机抽取 , 两均数不相等,为什么? 两均数不相等,为什么?
对所估计的总体首先提出一个假设, 对所估计的总体首先提出一个假设,然后通过样本 数据去推断是否拒绝这一假设, 数据去推断是否拒绝这一假设,称为假设检验 testing) (hypothesis testing) 假设检验是利用小概率反证法思想, 假设检验是利用小概率反证法思想,从问题的对立 面(H0)出发间接判断要解决的问题 1)是否成立。然后 出发间接判断要解决的问题(H 是否成立。 出发间接判断要解决的问题 是否成立 成立的条件下计算检验统计量, 在H0 成立的条件下计算检验统计量,最后获得 P 值来 判断。 判断。
生化某项指标的波动范 围。 个体值的波动范围 总体中作100次重复抽样,可得100个可 次重复抽样,可得 个可 总体中作 次重复抽样 信区间,平均有95个可信区间包含总体 信区间,平均有 个可信区间包含总体 均数,只有5个可信区间不包含总体均 均数,只有 个可信区间不包含总体均 数。 总体均数的可能范围 n≥50: : n<50:
第四章抽样误差与假设检验

单侧界值 :一侧尾部面积为时对应的t值 t,v 对称性得:单侧曲线下面积=2双侧曲线下面积 给定曲线下面积对应的界值与自由度有关 同样的尾部面积,t分布的界值要大于标准正态
分布的界值
t分布的界值
t分布界值示意图,表示阴影的面积
习题
一、名词解释
1.抽样误差 2.均数标准误 3.置信区间
习题
3.σ未知且n较小时,按t分布计算总 体均数的可信区间
双侧 1 可信区间为:
X t 2, SX
思考
总体均数可信区间与 参考值范围的区别和联系?
第三节 t 分布
X ~ N,(标,准正2 )态分布与U统计量
U X ~ N (0,1) n
实际研究中未知,用样本的标准差S作为
的一个近似值(估计值)代替,得到变换后的 统计量并记为
4.30
154.1-
94
9.40
13.70
154.7-
191
19.10
32.80
155.3-
255
25.50
58.30
155.9-
216
21.60
79.90
156.5-
116
11.60
91.50
157.1-
63
6.30
97.80
157.7-
20
2.00
99.80
158.3-158.9
2
0.20
100.00
注意区别:
SX
SX n
S 和S X
和 X
第二节 总体均数的估计
参数的估计
点估计:将样本统计量作为 总体参数的估计
区间估计:按预先给定的概率确定 一个包含未知总体参数的范围,称 为参数的可信区间或置信区间 (confidence interval,CI)
分布的界值
t分布的界值
t分布界值示意图,表示阴影的面积
习题
一、名词解释
1.抽样误差 2.均数标准误 3.置信区间
习题
3.σ未知且n较小时,按t分布计算总 体均数的可信区间
双侧 1 可信区间为:
X t 2, SX
思考
总体均数可信区间与 参考值范围的区别和联系?
第三节 t 分布
X ~ N,(标,准正2 )态分布与U统计量
U X ~ N (0,1) n
实际研究中未知,用样本的标准差S作为
的一个近似值(估计值)代替,得到变换后的 统计量并记为
4.30
154.1-
94
9.40
13.70
154.7-
191
19.10
32.80
155.3-
255
25.50
58.30
155.9-
216
21.60
79.90
156.5-
116
11.60
91.50
157.1-
63
6.30
97.80
157.7-
20
2.00
99.80
158.3-158.9
2
0.20
100.00
注意区别:
SX
SX n
S 和S X
和 X
第二节 总体均数的估计
参数的估计
点估计:将样本统计量作为 总体参数的估计
区间估计:按预先给定的概率确定 一个包含未知总体参数的范围,称 为参数的可信区间或置信区间 (confidence interval,CI)
第4章抽样误差与假设检验ppt课件

治疗前后血清甘油三酯疗效的无效假设和备择假
设分别为
H : 0
0
d
H : 0
1
d
检验水准 是预先规定的拒绝域的概率值,实
际中一般取 0.05 。
[说明] :备择假设有双侧和单侧两种情况。双侧
检验指不论正方向还是负方向的误差,若显著地超出
检验水准则拒绝H0,H1
:
μ d
0即为双侧检验;单侧
检验指仅在出现正方向或负方向误差超出规定的水准
第一节 均数的抽样误差与标准误
一、均数的抽样误差
在医学研究中,绝大多数情况是由样本信息研 究总体。由于个体存在差异,因此通过样本推论 总体时会存在一定的误差,如样本X均数 往往不 等于总体 均数 ,这种由抽样造成的样本均数与总 体均数的差异称为抽样误差。对于抽样研究,抽 样误差不可避免。
二、抽样误差的分布
对上面问题可以作如下考虑:
治疗前后甘油三
酯的变化(差值)
d
样本
n 30 S 0.76 d 1.38 d
0? d
问题归纳: 样本疗效
药物作用 + 机遇
d 1.38
μ 0? d
问题:| d 0 | 究竟多大能够下“有效”的结论?
假定治疗前后血清甘油三酯检测结果的差值服从正态分
布,若 H : 0 则 t d 0 服从t 分布。
上限: X u/2.SX 4.77 1.96 0.38/ 140 4.83(1012 / L)
ቤተ መጻሕፍቲ ባይዱ
三、模拟实验
模拟抽样成年男子红细胞数。设定:
4.75, 0.39,n 140
产生100个随机样本,分别计算其95%的可信区间, 结果用图示的方法表示。从图可以看出:绝大多数 可信区间包含总体参数 4.75 ,只有6个可信区间 没有包含总体参数(用星号标记)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(X u /2 X ,X u /2 X )
其中
u
/
为标准正态分布的双侧界值。
2
2020/12/5
(二) 未知
通常未知,这时可以用其估计量S 代替,
但(X)/(S/ n)
已不再服从标准正态分布,而是
服从著名的 t 分布f 。( t )
v 标准正态分布 v5 v 1
2020/12/5
图4-2 不同自由度的 t 分布图
0
1
2
3
S代替
u X
X
u X
N(0,1) 标准正态分布
0.025
0.025
-1.96
0
1.96
2020/12/5
t分布 特征
X
• S X 不服从标准正态分布,小样本时服
从自由度ν=n-1的t分布 • t分布曲线是以0为中心的对称分布
• 自由度较小时,曲线峰的高度低于标准正 态曲线,且曲线峰的宽度也较标准正态分 布曲线峰狭,尾部面积大于标准正态曲
2020/12/5
Hale Waihona Puke 问题提出• 样本统计量(样本均数)与总体参数( 总体均数)有否差异?
• 若有差异,其规律如何?用什么指标来 衡量?
• 怎样用样本信息来推断总体,从而作出 结论。
2020/12/5
二、抽样误差的分布
理论上可以证明:若从正态总体 N( , 2 ) 中,反 复多次随机抽取样本含量固定为n 的样本,那么 这些样本均数X 也服从正态分布,即X 的总体均 数仍为 。
标准误是抽样分布的重要特征之一,可用于衡 量抽样误差的大小,更重要的是可以用于参数的区 间估计和对不同组之间的参数进行比较。
2020/12/5
第二节t分布
样本均数正态分布
——t值与t分布的引入
N(, 2 ) X
N(,2) 观察值正态分布
-3
-2
-1
t X S
X
t分布
0
1
2
3
u X
X
-3
-2
-1
• 例如=9,单侧=0.05 ,查附表2得单侧
t0.05,9=1.833 • 自由度n-135-134 ,查附表2,得
t0.05/2,34=2.032
2020/12/5
第三节 总体均数的估计 一、可信区间的概念(Confidence Interval)
参数估计
点估计:不考虑抽样误差,如 X 区间估计:考虑抽样误差
线尾部面积,而且自由度越小,t分布的这
种特征越明显 (翘尾低狭峰)
2020/12/5
t分布 特征
• 自由度ν越大,t分 布越接近于正态分 布;当自由度ν逼 近∞时,t分布趋向 于标准正态分布。
f(t)
ν─>∞(标准正态曲线)
ν=5
ν=1
• 自由度ν不同,曲 -5
-4
-3
-2
-1
0
1
2
3
4
5
线形态不同, t分
2020/12/5
例4.3 试计算例4.1中该地成年男子红细胞总体 均数的95%可信区间。
本例属于大样本,可采用正态近似的方法计算
可信区间。因为 4 .7 , 7 0 .3 , 8 n 14 ,则0 95%可
信区间为:
下限: X - u / 2 . S X 4 . 7 1 . 9 7 0 . 3 6 /1 8 4 4 . 7 ( 1 0 1 1 / L 2 ) 0 上限: X u / 2 . S X 4 . 7 1 . 9 7 0 . 3 6 /1 8 4 4 . 8 ( 1 0 1 3 / L 2 ) 0
2020/12/5
抽样分布
抽样分布示意图
中心极限定理: 当样本含量很大的情况下,无论原始测量变量服
从什么分布,X 的抽样分布均近似正态。
抽样分布
2020/12/5
抽样分布示意图
三、标准误(Standard Error)
样本均数的标准差称为标准误。样本均数的
变异越小说明估计越精确,因此可以用标准误表
t
布是一簇曲线
2020/12/5
概率、自由度与t值关系 ——t界值
• 标准正态分布中u值大小与尾部面积(概率)有关,
以 (单侧u)和u/2(双侧)表示;
• 在t分布中,当自由度一定时越小,|t|越大; • 在一定时,自由度越小,|t|越大,大于u值 • 在t分布中,t值与、的大小有关; • 在单侧时(尾部面积取单侧)t 界值表示为t , , 双
第四章 抽样误差与假设检验
(Sampling Error and Hypothesis Test) 宁波大学医学院 沈其君
2020/12/5
问题提出
• 研究方法:对总体进行研究,抽样研究 • 除对关乎国计民生和严重危害人民健康
的需对总体进行研究外,一般用抽样研 究 • 有些领域只能用抽样研究方法 • 研究的目的是对总体下结论,而研究信 息来自样本
区间估计:指按预先给定的概率,计算出一个区间, 使它能够包含未知的总体均数。事先给定的概率
1 称为可信度,通常取 10.9。5
2020/12/5
二、可信区间的计算 (一) 已知
u X / n
P1.9 6 X/ n1.960.95
PX1.96 nX1.96 n0.95
可信区间:
一般情况
(X 1 .96 X ,X 1 .96 X )
示抽样误差的大小:
X
n
实际中总体标准差 往往未知,故只能求
得样本均数标准误的估计值 S : X
S S
X
n
2020/12/5
例4.1 在某地随机抽查成年男子140人,计算得 红细胞均数4.77×1012/L,标准差0.38 ×1012/L , 试计算均数的标准误。
S S0.380.032(1012/L) X n 140
可信区间的计算: 计算可信区间的原理与前完全相同,仅仅是两
侧概率的界值有些差别。即
P (- t/2() S X - / nt/2())= 1 -
可信区间:
(X - t/2 ().S X , X + t/2 ().S X)
需要注意:在小样本情况下,应用这一公式的
条件是原始变量服从正态分布。在大样本情况下
(如n>100),也可以用u / 2
替换 t /2
近似计算。
2020/12/5
例4.2 某医生测得25名动脉粥样硬化患者血浆 纤维蛋白原含量的均数为3.32 g/L,标准差为0.57 g/L,试计算该种病人血浆纤维蛋白原含量总体均 数的95%可信区间。
下限: 上限:
X - t /2 ( ).S X 3 .3 2 2 .0 6 0 .5 4 /7 2 3 5 .0(9 g/L) X t /2 ( ).S X 3 .3 2 2 .0 6 0 .54 /7 2 3 5 .5(6 g/L)
侧时表示为t/2, ,其意义为
• 单 侧 P ( t t , ) 或 P ( t t , )
双侧 P( t t/ 2 , ) P( t t/ 2 ),
2020/12/5
概率、自由度与t值关系 ——t界值
• 一定自由度和概率下的 t值t , , t/2, 可通过查t界值表——附表2获得;