研究生统计学第三章总体均数估计与假设检验(4版)

合集下载

总体均数的估计与假设检验

总体均数的估计与假设检验

(standard error of mean, SEM)
X n S SX n
11
标准差与标准误的区别
S 意 义 描述个体值的离散程度; 衡量样本均数对样本个体 值的代表性 算
S (X X )2 n1
SX
反映抽样误差的大小; 衡量样本均数估计总体均 数的可靠性
SX S n
14
William Seely Gosset(1876~1937,英)
15
t 分布的概念
X ~ N(, ) N(0,1)
2
X u
X ~ N(, ) N(0,1) n
2
X u n
X ~ N(, ) t分布 n
2
X t S n
-t
0
t
0.0025 0.005 127.321 14.089 7.453 5.598 4.773 2.871 2.839 2.820 2.813 2.8070
0.001 0.002 318.309 22.327 10.215 7.173 5.893 3.174 3.131 3.107 3.098 3.0902
借助抽样研究。
4
欲了解某地18岁男生身高值的平均水平,
随机抽取该地10名男生身高值作为样本。 由于个体变异与抽样的影响,抽得的样本 均数不太可能等于总体均数,造成样本统 计量与总体参数间的差异(表现为来自同一 总体的若干样本统计量间的差异),称为抽 样误差。 抽样误差是不可避免的。 抽样误差是有规律的。
第三章 总体均数的估计 与假设检验
第二军医大学卫生统计学教研室 张罗漫
1
讲课内容
均数的抽样误差与标准误
t 分布 总体均数的估计 t 检验 假设检验的注意事项 正态性检验和两样本方差比较的F检验

医学统计学第三章总体均数的估计与假设检验

医学统计学第三章总体均数的估计与假设检验
第一节 均数的抽样误差与标准误
1
统计推断:由样本信息推断总体特征。
样本统计指标 总体统计指标
(统计量)
(参数)
正态(分布)总体:N ~ (, 2 ) 推断 ! 说明!
为说明抽样误差规律,先用一个实例,后 引出理论。
2
例 3-1 若某市 1999 年 18 岁男生身高服从均
数μ=167.7cm、标准差 =5.3cm 的正态分布。对
故该地 18 岁男生身高均数的 95%可信区间
为(164.35, 169.55)cm。
P25,15号样本
31
(2) n 60 时:按 u 分布。 ➢ 已知:
u / 2
X
u / 2

X u 2 X X u 2 X
X
( X u 2 X , X u 2 X )
➢ 未知但 n 较大:
30
本例 n=10,按公式(3-2)算得样本均数的标准误为
S X
3.64 1.1511 10
(cm)
=n1=101=9,双尾 =0.05,
查附表 2 的 t 界值表得 t0.05 2,9 2.262 。
按公式(3-5) (166.95 2.262 1.1511)
即(164.35, 169.55)cm
组32例(n2),采用小剂量氨甲喋呤(MTX)进行治
疗 。 测 得 对 照 组 治 疗 前 IL-2 的 均 数 为 20.10
IU/ml ( X1),标准差为7.02 IU/ml ( S1 );试验组
治疗前IL-2的均数为16.89 IU/ml ( X 2 ),标准差
为8.46 IU/ml ( S2 )。问两组治疗前基线的IL-2总
异较大。其图形如下:

总体均数的估计和假设检验

总体均数的估计和假设检验
(2)两个要素:准确度,即1-α,精度, 即区间的长度。
(3)与医学正常值范围不同
四.假设检验(hypothesis test)
假设检验(hypothesis testing)也称显著 性检验(significance test)。二十世纪二、 三十年代Neyman和Pearson建立了统计 假设检验问题的数学模型。
估计该地成年男子红细胞数的总体均数μ,由
于抽样误差 x ≠μ, -μx称均数的抽样误差。
2.分布
(1)x~N(μ, σ2) 则 ~x N(μ, σ2/n)
x是偏态总体,n>30 x 近似正态
(2) x 的总体均数为μ,
标准差 x=σ/ n
3.标准误
x 抽样误差的标准差称为标准误,
反映了用样本均数代替总体均数的可靠 性程度的大小,增加样本容量可以降低 抽样误差。 σ未知时,用样本标准差s估计
t检验的应用条件要求两个总体方差相等, 如不等时,可以:
1. 变量变换 2. 非参数检验 3. 近似t检验(即t’检验) 有3种不同的算法:
Cochran & Cox法(1950) Satterthwaite法(1946) Welch法(1947)
八.假设检验应注意的问题
1. 要有严密的抽样研究计划 要保证样本是从同质总体中随机抽取。 除了对比的因素外,其它影响结果的因素应 一致。 2.选用的假设检验方法应符合其应用条件 要了解变量的类型是计量的还是计数的,设计 类型是配对设计还是成组设计,是大样本还 是小样本。
患者号
1
2
3
4
5
6 ……
冷消化 2.41 12.07 2.90 1.64 2.75 1.06 …… 法
热消化 2.80 11.24 3.04 1.83 1.88 1.45 …… 法

第三章 总体均数的估计与假设检验

第三章 总体均数的估计与假设检验
2
Sd
d
d Sd / n
2

(
d)
n
n 1
S d 0.1087 t 2.7424 0.1087/ 10 7.925
v 10 1 9
3)确定P值,作出推断结论 T0.05,9=2.262, 7.925>2.262,故P<0.05.可以认为两种 方法对脂肪含量的测定结果不同。
167.41, 2.74
165.56, 6.57
168.20, 5.36 n j=10
…. 165.69, 5.09
将上述100个样本均数看成新变量值,则这个 100个样本均数构成一新分布,绘制直方图
样本均数的抽样分布具有如下特点:
1) 各样本均数未必等于总体均数
2) 各样本均数间存在差异
3) 样本均数的分布很有规律,围绕着总体均 数,中间多,两边少,左右基本对称,也 服从正态分布
假设检验的基本步骤:
1、建立检验假设
H0: 检验假设, 无效假设,零假设 μ=μ0
H1: 备择假设,对立假设
μ≠μ0
2、确定检验水准 α=0.05 单双侧
3、选定检验方法和计算检验统计量
4、确定P值和作出推论结论。
P值是指从H0所规定的总体进行随机抽样,获 得大于(或等于及小于)现有样本获得的检验 统计量值的概率。
(1012/L)
血红蛋白 (g/L)

男 女
255
360 255
4.18
134.5 117.6
0.29
7.1 10.2
4.33
140.2 124.7
*标准值:使用内科学(1976年)所载均数(转位法定单位)
1)说明女性的红细胞数与血红蛋白的变异程度何者为大? 2)抽样误差是? 3)试估计该地健康成年女性红细胞数的均数? 4) 该地健康成年男女血红蛋白含量是否不同? 5)该地男性两项血压指标是否均低于上表的标准值(若测 定方法相同)?

医学统计学之总体均数的估计与假设检验

医学统计学之总体均数的估计与假设检验

已知或未知但 n﹥60: 偏态分布 X u X 或 X u S X
PX~ P100X
按预先给定的概率, 含 确定未知参数 的可 能范围。实际上一次 抽样算得的可信区间 要么包含总体均数, 要么不包含。 95%CI 估 义 计错误的概率≤0.05.
总体均数的波动范围
正常人” 的解剖, 生理,生 化某项指 标的波动 范围。
(1)建立检验假设,确定检验水准 H0: =0=140g/L , 从 事 铅 作 业 男 性工人平均血红蛋白含量与正常成 年男性平均值相等。 H 1: ≠ 0 , =0 。 (2)计算检验统计量
X X 0 130.83 140 t 2.138 S 25.74 SX n 36 n 1 36 1 35
在 t界值表中,一侧尾部面积称单侧概 率,两侧尾部面积之和称双侧概率。
t 值增大, P减小; 在相同自由度时, 在相同 t 值时,双尾 P 为单尾 P 的两倍。 如双尾 t0.10 / 2,10 =单尾 t0.05,10 =1.812。
SX X
t , t 2,
1.812 t0.10 0.05,10 / 2,10

个体值的 波动范围


绝 大 多 数 ( 如 总体均数的区间估 95%) 观 计 察 对 象 某 项 指 标 的 分 布范围
第四节
t 检验和u检验
由样本信息推断总体特征,除参数 估计外,还会遇到这样的问题:
某一样本均数是否来自于已知均数 总体?两个不同样本均数是否来自 均数相同的总体等? 要回答这类问题,更多的是用统计 推断的另一方面 假设检验 (hypothesis test)。
一、单样本t 检验
即 X (代表未知)与已知 0(理论值 、标准值或稳定值)比较。

医学统计学第三章总体均属的估计与假设检验.

医学统计学第三章总体均属的估计与假设检验.

本例 n=10,按公式(3-2)算得样本均数的标准误为
S X
3.64 1.1511 10
(cm)
=n1=101=9,双尾 =0.05,
查附表 2 的 t 界值表得 t0.05 2,9 2.262 。
按公式(3-5) (166.95 2.262 1.1511)
即(164.35, 169.55)cm
variance test
2
第一节 均数的抽样误差与标准误
3
统计推断:由样本信息推断总体特征。
样本统计指标 总体统计指标
(统计量)
(参数)
正态(分布)总体:N ~ (, 2 ) 推断 ! 说明!
为说明抽样误差规律,先用一个实例,后 引出理论。
4
例 3-1 若某市 1999 年 18 岁男生身高服从均
线下的单面侧积概率。或单尾概率:用t, 表示; 单侧概单侧率概或率单或尾单尾概概率率::用用t , 表表示示;; 双侧概双率侧或概率双或尾双概尾概率率::用用t /2, 表表示示。。
双侧概率或双尾概率:用t /2, 表示。
22
自由度
单侧 双侧
1
2 3 4 5
6 7 8 9 10
21 22 23 24 25
3.143 2.998 2.896 2.821 2.764
1.721 1.717 1.714 1.711 1.708
2.080 2.074 2.069 2.064 2.060
2.518 2.508 2.500 2.492 2.485
-t
0
t
0.005 0.01
63.657 9.925 5.841 4.604 4.032
图3-2 从正态分布总体N(167.7, 5.32)随机抽样所得样本均数分布

第3章-总体均数的估计和假设检验

第3章-总体均数的估计和假设检验

x ± u 0.05/2 · sχ x ± u 0.05/2 · σχ

x ± 1.96 · sχ
x ± 1.96 · σχ
总体均数99%可信区间 ( 99% confidence interval , 99% CI ) x ± t 0.01/2 · · Sχ
x ± u 0.01/2 · sχ x ± u 0.01/2 · σχ
公式:
t= d–0
Sd
=
d
Sd /√n
= n -1
d : 每对数据的差值 d : 差值的样本均数 Sd :差值的标准差 Sd :差值均数的标准误 n : 对子数 Sd=

∑d2 – (∑d )2 / n
n-1
例1:
为研究女性服用某避孕新药后是否影响其血清 总胆固醇含量,将20名女性按年龄配成10对。每对 中随机抽取1人服用新药,另一人服用安慰剂。经过 一定时间后测定血清总胆固醇含量 ( mmol/L) 得下 表结果。问该新药是否影响女性血清总胆固醇含量?
3. 确定 P 值,推断结论 t 0.05,24 = 2.064 P > 0.05 P> 不拒绝H0 山区健康成年男子脉搏均数与一般健康男子相同
(二) 配对 t 检验 paired / matched t - test
配对方法: 1. 两个同质受试对象接受两种不同的处理 2. 同一受试对象分两部分接受两种不同的处理 3. 同一受试对象处理前与处理后的结果 目的:推断两种处理的效果有无差别或推断某种 处理有无作用 条件:样本来自正态总体
推断: 是否等于0
1. 建立检验假设,确定检验水准 H0: = 0 = 72次/分 H1: ≠ 0 = 72次/分 = 0.05 2. 选定检验方法,计算检验统计量 74.2 – 72 x -μ0 x -μ0 = t= = = 1.833 6/√25 Sχ S/√n

总体均数的估计和假设检验 PPT课件

总体均数的估计和假设检验 PPT课件

x

n
s sx n
4.标准差和标准误的区别和联系
(1)区别:
指标
意义 衡量观察值离散趋势。 标准 s越大,表示观察值越 差 分散,均数的代表性 越差。
样本均数的变异程度, 标准 表示抽样误差的大小。 误 标准误越大,样本均 数的可靠性越小。
应用 统计描述:正态分布资 料的离散趋势、频数分 布;医学参考值范围的 估计。
即: x t , s x
例2:试求例1中该地1岁婴儿血红蛋白平 均值的95%的可信区间。
s 2.38g / L 由于n=25,s=11.9g/L, s x n ν =n-1=24,α 取双尾0.05,查t界值表得: t0.05,24=2.064,代入通式中,得到所求可信区 间为: (123.7-2.064×2.38,123.7+2.064 ×2.38) 即:(118.79,128.61)g/L。
总体均数的估计和假设检验
Statistical inference: Estimation of Parameter and Hypothesis Test
内 容
均数的抽样误差和标准误 t分布 总体均数的估计 假设检验 t检验和z检验

一、均数的抽样误差和标准误
1. 统计推断:由样本信息推断总体特征。 2. 抽样误差:样本指标值与总体指标值之间 的差异。根源在于个体变异,不可避免, 但规律可以认识。 3. 标准误:样本均数的标准差称为标准误, 它是说明均数抽样误差大小的指标。可通 过增加样本例数减少标准误。
三、总体均数的估计
(2)σ已知,或σ未知但是大样本资料时,按z分
布 ,通式为: σ已知: x z
n
<<x z
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Gui
第一节 均数的抽样误差和标准误 由于所研究变量在总体中各观察单位(个体)间存在变异,抽样研究必然会导致抽 样误差(sampling error) 。 抽样误差是不可避免的,但我们可以探究抽样误差的规律,控制抽样误差在允许的 范围内。
Gui
第一节 均数的抽样误差和标准误 为探讨抽样误差的规律,我们做一个放回式随机抽样实验。假设某年某地13岁女学生 身高(X)服从总体均数μ=155.4cm,总体标准差σ=5.3cm的正态分布N(155.4,5.32)。 每次抽取的30例构成一个样本,并计算出样本均数。 如此共抽取100个样本,计算得到 100个样本均数。
本例n>100,可按正态分布原理近似计算:
SXS n0.92 次/分
95 %C: I Xu2SX73 .551.960.9271 .7, 475 .36
该地正常人脉搏总体均数的95%可信区间为71.74~75.36次/分。
Gui
三、总体均数置信区间的解释 • 总体均数可信区间的计算和解释有两种理论依据,一是是Pearson、Fisher、Neyman等人 的经典理论,另一个是Bayes理论。 • 经典理论假定样本x1、x2 、… 、xn来自正态分布N(μ,σ2),其中σ2已知,μ是一个客观存在的常 数。对置信区间的解释是:从总体中随机抽样,每个样本可以算得一个置信区间,该置信 区间包括总体均数(估计正确)的概率是1-α。 • Bayes理论则认为参数μ是随机变量。对置信区间的解释是:μ有1-α的可能性落在该区间, 或者说μ在这个区间内的概率是1-α。
Gui
总体均数的估计 例9.2 某医师随机抽查了某地20名正常成人,测得血糖值的均数为4.92mmol/L,标准差为
0.48mmol/L,试估计该地正常成人血糖值总体均数的95%和99%可信区间。 本例: 今v=20-1=19,查t值表得t0.05,19=2.093,t0.01,19=2.861。 95%可信区间为:
X u σ ❖ σ未知,n足够大(如n>100),按u分布近似计算: α2 X
X tα S 2,ν X
X uα 2SX
Gui
总体均数置信区间的计算 例 测得某地健康男子20人收缩压的均数为118.4mmHg,标准差为10.8mmHg,试估计该地健 康男子收缩压总体均数的95%可信区间。 本例v=20-1=19,查t 值表得 t0.05,19 =2.093 。 代入公式得:
研究生统计学第三章总体均数估计与假设 检验(4版)
第三章 总体均数估计与假设检验
• 均数的抽样误差与标准误 • t 分布 • 总体均数的估计 • 假设检验的基本原理和步骤 • t 检验 • 假设检验的注意事项 • 正态性检验和两样本方差比较的F检验
Gui
参数估计基础 统计学研究的目的通常是要了解总体的情况。如果要了解总体情况,有两种方法: ▪ 全面研究 ▪ 抽样研究 全面研究在许多情况下难以办到,因此,常用的方法是抽样研究,即从同质总体中随机 抽取一部分观察单位作为样本,并由样本信息(包括样本变量值的分布及其用于描述的统计量) 来推断总体情况,即统计推断(statistical inference)。
Gui
Gui
Gui
Gui
第一节 均数的抽样误差和标准误 实际工作中,往往不知道 ,因此,通常用样本标准差s 来代替 ,得到均数标准误的估计值:
S
S
X
n
例 调查某地120名正常成人的血糖值的均数为4.92mmol/L,标准差为0.48mmol/L,试计算标准 误。
SX
S n
0.480.044(m /Lm) ol 120
x
X
x
u Xμ σX
Gui
第二节 t 分布
s 实际上 往往未知,故用 作为 的估计值,这时可以对样本均数作 t 变换:
x
x
x
t X μ SX
则t 值的分布是以0为中心的正态分布,即t 分布(student’s t distribution)。1908年W S Gosset以笔名student发表了他的研究论文,开创了小样本统计推断之先河。
Gui
对100个样本均数组成的数据资料 进行统计描述,结果:
X 155.51(cm) S 0.96(cm)
Gui
30
25
f
20
15
10
5
0 152.6 153.2 153.8 154.4 155 155.6 156.2 156.8 157.4 158 158.6
均数
图5-1 100个样本均数的频数分布图
X tα 2 ,ν S X 1.4 1 2 .0 8 9 1 .8 / 3 0 2 ( 0 1.3 1 ,1.5 3 2 )
该地健康男子收缩压总体均数的95%可信区间为113.3~123.5mmHg。
Gui
总体均数置信区间的计算
例 测得某地150名正常人脉搏的均数为73.53次/分,标准差为11.30次/分,试估计该地正常 人脉搏总体均数的95%可信区间。
Gui
第一节 均数的抽样误差和标准误
从一个总体均数为μ ,标准差为σ 的总体中,随机抽取若干个含量为n 的样本。那么,这若 干个样本的均数不会完全相同,其频数分布是以总体均数μ为中心的正态分布,其变异程度可用 这若干个样本均数的标准差表示,称样本均数的标准误(standard error)。
x
n
Gui
Gui
表5-1 从正态总体N(155.4, 5.32)随机抽取 100份样本(n=30)的算术均数
156.7 156.9 156.1 156.3 155.1 155.7 153.6 155.8 154.9 155.1 158.1 154.0 155.0 155.2 155.3 153.7 155.6 153.9 154.6 156.6 155.6 154.4 154.7 156.0 156.3 154.8 155.2 156.2 154.6 156.0 155.2 156.5 154.5 155.6 156.6 155.6 156.7 156.0 157.5 155.8 155.0 155.9 155.2 156.5 155.4 154.8 154.7 154.2 155.9 156.1 156.4 155.5 154.6 155.3 155.9 155.6 155.1 155.4 156.5 152.7 154.9 156.9 156.1 155.2 155.3 158.2 155.7 156.6 156.4 155.1 156.5 156.9 155.7 155.5 154.6 154.9 156.4 155.6 154.7 155.3 155.0 153.4 155.1 155.0 156.1 153.4 155.1 156.8 156.2 154.6 155.9 154.8 156.1 155.5 154.7 156.4 154.9 155.3 154.6 156.6
-
3.75
1
-1.55
3.06
1
-0.69
2.65
1
-0.41
2.37
1
-0.28
1.68
5
-0.69
1.19
10
-0.49
0.97
10
-0.22
0.84
10
-0.13
0.75
10
-0.09
0.53
50
-0.15
0.37
100
-0.16
0.24
300
-0.13
0.17
500
-0.07
SE减少(%)
-29.29 -18.40 -13.40 -10.56 -29.28 -29.46 -18.69 -13.61 -10.77 -22.06 -29.29 -35.94 -30.17
Gui
第一节 均数的抽样误差和标准误 均数标准误的用途:
❖ 衡量样本均数的可靠性; 标准误愈小,说明样本均数与总体均数越接近,即抽样误差越小,用样本均数推论总体均 数的真实性越好。反之,标准误越大,抽样误差越大,样本均数对总体均数的代表性越差。 ❖ 估计总体均数的置信区间; ❖ 用于均数的假设检验。
第一节 均数的抽样误差和标准误
在前述放回式随机抽样实验中,已知总体标准差σ=5.3cm,每次抽样的样本含量 n=30,代入公式得:
x
5.30.9(8cm )
n 30
按实际抽取的100个样本均数计算,标准误为0.96,与上述公式计算结果基本一致。
Gui
x
样本均数的分布
Gui
X (n=30 ,
Gui
放回式随机抽样实验
总体
μ=155.4cm σ = 5.3 cm
n 1 30 , x 1 156 . 7 cm n 2 30 , x 2 158 . 1 cm n 3 30 , x 3 155 . 6 cm n 4 30 , x 4 155 . 2 cm n 5 30 , x 5 155 . 0 cm n 6 30 , x 6 156 . 4 cm ......
1-
-t
0
/2 -t /2
1- 0
/2 +t /2
Gui
第二节 t 分布 由于t 分布的形态随自由度而变化,t也随自由度而变化。不同自由度时的t值可查附 表2 t 界值表得到。
Gui
Gui
一、 t 分布
Gui
第三节 总体均数的估计 一、 可信区间的概念
• 点值估计(point estimation) • 区间估计(interval estimation)
=0.98)
x
X (n=10 ,
=1.68 )
x
x
X(n=5 ,
=2.37)
x
X ( =155.4 , =5.3 )
相关文档
最新文档