均数的抽样误差和标准误
标准误、t 分布

教 学 内 容 标准误 t分布
二、 t 分布: 三)、应用: 2、t 检验--- 3)、两样本均数的比较: A)、两小样本比较: 检验步骤: 1、建立假设,确定检验水准α 及单双侧 H0:无效假设:(两总体相同)该地急性克山病患者和健康人 的血磷值是否相同, μ 1= μ 2 H1:备择假设:(两总体不同) μ 1 ≠ μ 2 α =0.05 (双侧) 2、选择和计算统计量值: SX1-X2 = t = ( X1-X2 )/SX1-X2 [SC2(1/n1+1/n2)]1/2 = (1.521-1.085)/0.1729 =2.522 3、确定P值:按 v = v1+v2 = n1+n2-2 = 11+13-2 = 22 查t界值 表,得: P < 0.02 4、判断结果: P < 0.05 (α ), 故H1成立, 即该地急性克山病患者和健康人 的血磷值不同。
教 学 内 容 标准误 t分布
二、 t 分布: 三)、应用: 2、t 检验: 3)、两样本均数的比较: A)、两小样本比较: t = (X1-X2)/SX1-X2 B)、两大样本比较: t = (X1-X2)/SX1-X2
v=n1+n2-2 v=n1+n2-2
SX1-X2 = ( S12/n1+S22/n2 )1/2 例: 抽查了25--29岁正常人群的RBC数(mmol/L) 其中男性156人,得均数为4.561,标准差为0.548 ;女性74人,得均数为4.222,标准差为0.442。问 该人群男、女的RBC数有无不同? 已知样本1 已知样本2 问题: 两样本所属总体 均数是否相同?(μ 1= μ 是否成立 ?)
教 学 内 容 标准误 t分布
二、 t 分布: 三)、应用: 2、t 检验--- 1)、样本均数与总体均数比较:
标准误

情况,两者不能混淆。下面用抽样试验进一步说明之。
红细胞数抽样实验用的正态总体 μ=500 σ=43(单位:万/立方厘米)
383 445 465 478 489 500 511 522 535 555
以上介绍了求标准误的三种方法,其实我们平常用 的只是式(3),而通过前两种方法的对比则可使我们明瞭 标准误的含义。标准误是描述样本均数变异情况的一个 指标,它的大小与总体标准差σ(一般只能用S估计)成 正比,而与样本含量n的平方根成反比,因此若标准差 小或样本含量大时,求出的标准误就小(标准误小表示 样本均数与总体均数较接近),X代表μ较可靠,所以假 若手头资料中观察值的变异程度较大(S大)时,为了 保证样本代表总体比较可靠,就得适当增大样本含量 (n)根据中心极限定理样本含量(n)大于30。
σ的估计值。这样,公式中的σ就要用S代替, x 改为
Sχ,
Sx
S n
61.65 10
9.50
(3)
S x 将成为10.74,余类 再若将第2号样本的数字代入, 推。由于不同样本的标准差并不相等,可见 S x 也有抽样 波动,这一点是值得注意的,但它仍不失为 x 的较好 估计值。
标准差(Standard Deviation -S或SD)
标准差与标准误(差)的区别
抽样误差和系统误差不一样,关于系统误差,当人们
一旦发现它之后,是可能找到产生原因而采取一定措施加
以纠正的,而抽样误差则无法避免。因为客观上既然存在
个体差异,那么刚巧这一样本中多抽到几例数值大些的,
所求样本均数就会稍大,另一样本多抽到几例数值小些, 该样本均数就会稍小,这是不言而喻的。 抽样误差既然是样本统计数指标与总体参数指标之间 的误差,那么抽样误差小就表示从样本算得的平均数或百
总体均数估计与假设检验

t 检验
t-test
三、t检验和Z检验(参数检验)
以t分布为基础的检验称为t检验。 t分布的发现使得小样本统计推断成为 可能。因而,它被认为是统计学发展历 史中的里程碑之一。
在医学统计学中,t检验是重要的 假设检验方法之一。常用于两个均数之 间差别的比较,并根据资料的分布情况 及设计类型,选择不同的t检验方法。
配对样本t检验
Paired design t-test
关系:随着样本含量增加,都减小。
联系:都是表示变异度的指标,当样本量一定时,两者成正比。
标准误用途
衡量样本均数的可靠性:标准误越小,表明 样本均数越可靠;
参数估计:估计总体均数的置信区间(区 域);
假设检验:用于总体均数的假设检验(比 较)。
二、t分布:
标准正态分布
开创了小样本统计的新纪元,t分布主要用于总体均数的 区间估计和t检验!
假设检验(Hypothesis test)
假设检验的推断原理 假设检验的基本步骤 t检验和Z检验 两样本总体方差齐性检验 正态性检验 假设检验的两类错误 注意事项
一、假设检验的推断原理
上面介绍过的区间估计方法是统计 推断的内容之一,假设检验是统计推 断的另一重要内容。正是应用统计推 断的理论和方法,人们才能顺利地通 过有限的样本信息去把握总体特征, 实现抽样研究的目的。
s / n 25.74 36
在H0成立的前提下,当前t值出现的概率有多 大???
如何给出这个量的界限?
小概率事件在一次试验 中基本上不会发生 !
从附表2中查出在显著性水平 =0.05(双侧),自由度为35所 对应的t界值=2.318,即为拒绝 域与接受域的界限。如果计算
计量资料的标准差和标准误有何区别与联系1

1、计量资料的标准差和标准误有何区别与联系标准差和标准误都是变异指标,但它们之间有区别,也有联系。
区别: ①概念不同;标准差是描述观察值(个体值)之间的变异程度;标准误是描述样本均数的抽样误差;②用途不同;标准差与均数结合估计参考值范围,计算变异系数,计算标准误等。
标准误用于估计参数的可信区间,进行假设检验等。
③它们与样本含量的关系不同: 当样本含量n 足够大时,标准差趋向稳定;而标准误随n的增大而减小,甚至趋于0 。
联系: 标准差,标准误均为变异指标,当样本含量不变时,标准误与标准差成正比。
2、二项分布、Poission分布的应用条件二项分布的应用条件:医学领域有许多二分类记数资料都符合二项分布(传染病和遗传病除外),但应用时仍应注意考察是否满足以下应用条件:(1) 每次实验只有两类对立的结果;(2) n次事件相互独立;(3) 每次实验某类结果的发生的概率是一个常数。
Poisson分布的应用条件:医学领域中有很多稀有疾病(如肿瘤,交通事故等)资料都符合Poisson分布,但应用中仍应注意要满足以下条件:(1) 两类结果要相互对立;(2) n次试验相互独立;(3) n应很大, P应很小。
3、极差、四分位数间距、标准差、变异系数的适用范围有何异同?答:这四个指标的相同点在于均用于描述计量资料的离散程度。
其不同点为:极差可用于各种分布的资料,一般常用于描述单峰对称分布小样本资料的变异程度,或用于初步了解资料的变异程度。
若样本含量相差较大,不宜用极差来比较资料的离散程度。
四分位数间距适用于描述偏态分布资料、两端无确切值或分布不明确资料的离散程度。
标准差常用于描述对称分布,特别是正态分布或近似正态分布资料的离散程度。
变异系数适用于比较计量单位不同或均数相差悬殊的几组资料的离散程度。
4.中位数、均数、几何均数的适用条件有何异同。
(1)均数适用于描述对称分布,特别是正态分布的数值变量资料的平均水平;(2)几何均数适用于描述原始数据呈偏态分布,但经过对数变换后呈正态分布或近似正态分布的数值变量资料的平均水平;(3)中位数适用于描述呈明显偏态分布(正偏态或负偏态),或分布情况不明,或分布的末端有不确切数值的数值变量资料的平均水平。
卫生统计学

第三章总体均数的区间估计和假设检验第一节均数的抽样误差与标准误一、标准误的意义及计算标准误是反映均数抽样误差大小的指标;同类性质的资料,标准误越小,表示样本均数与总体均数越接近,也就是抽样误差越小,说明样本均数推论总体均数的可靠性越大;反之,标准误越大,说明抽样误差越大,表示样本均数推论总体均数的可靠性越小。
数理统计已证明:标准误的大小与总体标准差成正比,而与样本含量的平方根成反比,即,当总体中各变量值都相等时,即σ=0,则抽取的各样本均数与总体均数必然相同,即抽样误差为零;而当总体中变量值间的变异度越大时,即σ越大,则抽取的各样本均数间离散度也越大,即抽样误差也越大;同时,当样本含量n越大时,则样本均数与总体均数越接近,抽样误差越小;反之,抽样误差越大。
因此可以适当增加样本例数来缩小抽样误差。
实际工作中总体标准差σ往往是不知道的,而只知道样本标准差S,所以只能用S代替,求得标准误的估计值,即二、标准误的应用▲表示抽样误差的大小,从而说明样本均数的可靠性。
(在医学文献上常用样本均数加减标准误的形式表示资料的均数及可靠程度)进行总体均数的区间估计进行均数的t检验第二节t分布一、t分布的概念如果从一个正态总体中,抽取样本含量为n的许多样本,分别计算其和,然后求出每一个t值,这样可有许多t值。
这些t值有大有小,有正有负,其频数分布是一种连续性分布,这就是统计上著名的t分布。
二、t分布曲线的特征▲特征:①t分布曲线是单峰分布,以0为中心,左右两侧对称,曲线的中间比标准正态曲线(u分布曲线)低,两侧翘得比标准曲线略高。
②当样本含量越小(严格地说是自由度v=n-1越小),t分布与u分布差别越大;当v逐渐增大时,t分布逐渐逼近u分布,当v=∞时,t分布就完全成为u分布。
所以t分布曲线的形状随v的变动而变化。
在自由度为v的t分布曲线下双侧尾部合计面积或单侧尾部面积为指定值α时,常把横轴上相应的t界值记为tα,v。
第三章 总体均数的估计与假设检验

Sd
d
d Sd / n
2
(
d)
n
n 1
S d 0.1087 t 2.7424 0.1087/ 10 7.925
v 10 1 9
3)确定P值,作出推断结论 T0.05,9=2.262, 7.925>2.262,故P<0.05.可以认为两种 方法对脂肪含量的测定结果不同。
167.41, 2.74
165.56, 6.57
168.20, 5.36 n j=10
…. 165.69, 5.09
将上述100个样本均数看成新变量值,则这个 100个样本均数构成一新分布,绘制直方图
样本均数的抽样分布具有如下特点:
1) 各样本均数未必等于总体均数
2) 各样本均数间存在差异
3) 样本均数的分布很有规律,围绕着总体均 数,中间多,两边少,左右基本对称,也 服从正态分布
假设检验的基本步骤:
1、建立检验假设
H0: 检验假设, 无效假设,零假设 μ=μ0
H1: 备择假设,对立假设
μ≠μ0
2、确定检验水准 α=0.05 单双侧
3、选定检验方法和计算检验统计量
4、确定P值和作出推论结论。
P值是指从H0所规定的总体进行随机抽样,获 得大于(或等于及小于)现有样本获得的检验 统计量值的概率。
(1012/L)
血红蛋白 (g/L)
女
男 女
255
360 255
4.18
134.5 117.6
0.29
7.1 10.2
4.33
140.2 124.7
*标准值:使用内科学(1976年)所载均数(转位法定单位)
1)说明女性的红细胞数与血红蛋白的变异程度何者为大? 2)抽样误差是? 3)试估计该地健康成年女性红细胞数的均数? 4) 该地健康成年男女血红蛋白含量是否不同? 5)该地男性两项血压指标是否均低于上表的标准值(若测 定方法相同)?
均数的抽样误差和标准误

x
x Sx
t值的分布是以0为中心,两侧对称的类似正态 分布的一种分布,即t分布。 自由度越大,t分布曲线峰越高 ,反之越低 自由度趋向于无穷时,t分布曲线即为正态分 布曲线 。
t值的意义:举例
双侧t0.05(9) =2.262, t<-2.262及t>2.262的
概率是0.05
t0.05, 24 1.711
H 0 : 0 , 72 H1 : 0 , 72
0.05单侧
今n 25, x 74.2, s 6.5, 0 72 x 0 74.2 72 t 1.692 s 6.5 25 n n 1 25 1 24 查表t0.05, t0.05, 24 1.711 t t0.05, 24 , P 0.05 ,不拒绝H 0
标准误 x , x2 ,… 1
x100
样本均数总体的特点
如果原分布是正态分布,新分布呈正态。 如果原分布呈偏态,当样本含量足够大时, 新分布也呈正态。 样本均数的均数等于总体均数。 样本均数的标准差称为标准误, x = n S s
x
n
标准误与标准差的区别与联系
x - t 0.05, v t 0.05, v Sx
x
- t0.05,v
S x ﹤﹤ x
,
+ t0.05,v
Sx
x ±1.96 S x
x ±2.58 S x
总体均数可信区间与正常值范围的区别
总体均数可信区间
意义
正常值范围
在某个预先给定的范围 正常个体的某些 (如95%)内包括总体均 生理、生化等指 数的可能性的大小,或说 标的波动范围 该范围有多大的把握度包 含了总体均数
标准误、t 分布

教 学 内 容 标准误 t分布
二、 t 分布: 三)、应用: 2、t 检验: 2)、配对计量资料的比较: t = ( d-0)/Sd v=n-1
例: 某药对Hb的影响研究结果 病人编号 治疗前 治疗后 差数 d 1 140 113 27 2 138 150 -12
3 140 150 … … .. 10 120 123 问:某药对Hb有无影响? -10 … -3
t = (X1-X2)/SX1-X2
P = 95% f
-t0.05,v -t0.01,v
0
t0.05,v tt0 Nhomakorabea01,v
(-t0.05,v , t0.05,v) 有 95%的 t 值,P=95%=0.95 (-t0.01,v , t0.01,v) 有 99%的 t 值,P=99%=0.99
P > 0.1
教 学 内 容 标准误 t分布
P 值含义与两类错误:
P 值含义:由H0所规定的总体做随机抽样,获得等于及大
于(或等于及小于)依据现有样本信息所计算得到的检验统 计量的概率。 I类错误:H0正确,但由于抽样的偶然性得到 t>=tα , P<=α 的检验结果,拒绝了H0 (即“弃真”) ,接受了H1, 这种错误称I类错误(“弃真”错误),其概率大小为α ; II类错误:H0不正确,但由于抽样的偶然性得到 t<tα , P>α 的检验结果,接受了H0 (即“存伪”) ,拒绝了H1, 这种错误称I类错误(“弃真”错误),其概率大小为 。
教 学 内 容 标准误 t分布
教 学 内 容
一、样本均数的标准误:样本均数的标准差。其大小与标 准差成正比,与样本含量n的算术平方根成反比。 σ X =σ /n1/2 或 SX = S/n1/2
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
t0.05, 24 1.711
H 0 : 0 , 72 H1 : 0 , 72
0.05单侧
今n 25, x 74.2, s 6.5, 0 72 x 0 74.2 72 t 1.692 s 6.5 25 n n 1 25 1 24 查表t0.05, t0.05, 24 1.711 t t0.05, 24 , P 0.05 ,不拒绝H 0
x
x Sx
t值的分布是以0为中心,两侧对称的类似正态 分布的一种分布,即t分布。 自由度越大,t分布曲线峰越高 ,反之越低 自由度趋向于无穷时,t分布曲线即为正态分 布曲线 。
t值的意义:举例
双侧t0.05(9) =2.262, t<-2.262及t>2.262的
概率是0.05
单侧t0.005(9) =3.25, t0.005(9)<-3.25或 t0.005(9) >3.25的概率是0.005 t值越大,p值越小。
总体均数的估计
双侧t0.05(ν ) =a,t≥ a及t< -a的概率是 0.05,那么-a < t﹤ a的概率是1-0.05=0.95
P236-判断正误;P237-4
t=9.2554 t 0.05,39=2.021
t > t 0.05,39, p<0.05。
Exercise Answer
P237-1. T0.05,38=2.021 T 0.01,38 =2.704 t=5.5278 P237-2 T0.05,8=2.306 T=0.5163
例9-4大量调查已知,某地婴儿出生体重 均数为3.20kg,标准差为0.39kg,今随机 调查本地25名难产儿平均出生体重为 3.42kg,问出生体重与难产是否有关?
已知 0=3.20kg σ =0.39kg
n=25 X = 3.42kg
H0:难产儿出生体重总体均数 和普通婴儿出生体重总 体均数 0相等,即 = 0
公式 用途
x
± t , S x ; x u s
x
x
± u , s
对总体均数做区间பைடு நூலகம்计
判断某个体某项 指标正常与否
假设检验
例9-4大量调查已知,某地婴儿出生体重均数 为3.20kg,标准差为0.39kg,今随机调查本地 25名难产儿平均出生体重为3.42kg,问出生体 重与难产是否有关? 两个随机样本的样本均数不同,原因有两个方 面:①可能是因为两随机样本确实来自两不同 的总体,存在着实质的差别;②可能仅仅是因 为抽样误差所造成,两样本来自同一总体。
标准差越大,标准误越大 n越大,标准误越小。n趋向无穷大时, 标准误趋向0。但标准差是一固定值。 标准差越大,变量值的离散趋势越大, 均数的代表性越差;标准误越大,样本 均数的离散趋势越大,样本均数估计总 体均数的可靠性越小。
标准误的用途
参数估计 假设检验
t值及t分布
u=
t
x
x
假设检验
课时目标
掌握标准误的概念,计算及用途 比较标准差与标准误的区别 能利用标准误进行参数估计 能对参数可信区间进行正确解释
均数的抽样误差
例如:欲了解在淄博市居住的年满10岁的男童 的身高情况,进行抽样调查。假设每次随机抽 取100个儿童,共抽取100次,每次测得的平均 身高(x1, x2 , x3 x100 )可能都是不等或不全相等 的,而且与总体平均身高( )相比也存在着 差异。这种样本指标与样本指标之间,样本指 标与总体指标之间的差异称为抽样误差。 变异的存在---样本均数不等于总体均数 由于随机抽样,个体差异造成的样本统计量与 总体参数之间的差异。
H1:
≠
3.42 3.20 x 0 0.39 =2.82 t= = x 25 ν =25-1=24 ,t0.05,24=2.064, p<0.05
拒绝H0,接受H1。
=0.05
0
补充例题
根据大量调查,已知健康成年男子脉搏 的均数为72次/分,某医生在一个山区随 机调查了25名健康成年男子,求得其脉 搏均数为74.2次/分,标准差为6.5次/分, 能否据此认为该山区成年男子的脉搏均 数高于一般。
标准误 x , x2 ,… 1
x100
样本均数总体的特点
如果原分布是正态分布,新分布呈正态。 如果原分布呈偏态,当样本含量足够大时, 新分布也呈正态。 样本均数的均数等于总体均数。 样本均数的标准差称为标准误, x = n S s
x
n
标准误与标准差的区别与联系
均数的抽样误差和标准误
计量资料的统计推断
统计推断
根据样本资料所提供的信息,对总体的特征作出 推断 根据样本资料所提供的信息,对总体指标的大小 或所在范围作出估计 ,分为点估计和区间估计两 种. 首先对总体参数提出假设,再根据样本信息及有 关统计量分布理论,对该假设作出拒绝或不拒绝 的判断。
参数估计
x - t 0.05, v t 0.05, v Sx
x
- t0.05,v
S x ﹤﹤ x
,
+ t0.05,v
Sx
x ±1.96 S x
x ±2.58 S x
总体均数可信区间与正常值范围的区别
总体均数可信区间
意义
正常值范围
在某个预先给定的范围 正常个体的某些 (如95%)内包括总体均 生理、生化等指 数的可能性的大小,或说 标的波动范围 该范围有多大的把握度包 含了总体均数
例题t值
例题9-3:t 0.05,7=2.365;t 0.01,7=3.499 例题9-4:t 0.05,36=2.021;t 0.01,36=2.704
假设检验的基本步骤
建立假设
无效假设(H0):
备择假设(H1): 确定检验水准()
= 1 ≠
1
2
2
=0.05
0.05,ν
选择检验方法并计算相应的统计量 查表确定概率P值 :|t|≥t |t|﹤t 0.05,ν , P﹥0.05 结论推断
,P≤0.05 ;
P≤0.05,有统计意义 ,拒绝H0,接受H1。 P﹥0.05 ,无统计意义 。不拒绝H0。