医学统计学抽样误差和t分布

合集下载

医学统计学总结

医学统计学总结

医学统计学总结医学统计学总结1、随机现象:在同一条件下进行试验,一次试验结果不能确定,而在一定数量的重复试验之后呈现统计规律的现象。

2、同质:统计学中对研究指标影响较大的,可以控制的主要因素。

3、变异:同质基础上各观察单位某变量值的差异。

数值变量:变量值是定量的,由此而构成的资料称为数值变量资料或计量资料,其数值是连续性的,称之为连续型变量。

变量无序分类变量:所分类别或属性之间无顺序和程度上的差异分类变量:定性变量有序分类变量:有顺序和程度上的差异4总体和无限总体。

5、样本:是按随机化原则从同质总体中随机抽取的部分观察单位某变量值的集合。

样本代表性的前提:同质总体,足够的观察单位数,随机抽样。

统计学中,描述样本特征的指标称为统计量,描述总体特征的指标称为参数。

6、概率:描述随机事件发生的可能性大小的一个度量。

若P(A)=1,则称A为必然事件;若P(A)=0,则称A为不可能事件;随机事件A的概率为0<P<1.小概率事件:若随机事件A的概率P≤α,则称随机事件A为小概率事件,其统计学意义为:小概率事件在一次随机试验中认为是不可能发生的。

统计描述1、频数分布有两个重要的特征:集中趋势和离散程度。

频数分布有对称分布和偏态分布之分。

后者是指频数分布不对称,集中趋势偏向一侧,如偏向数值小的一侧为正偏态分布,如偏向数值大的一侧为负偏态分布。

2、常用的集中趋势的描述指标有:均数,几何均数,中位数等。

均数:适用于正态或近似正态的分布的数值变量资料。

样本均数用_表示,总体均数用μ几何均数:适用于等比级数资料和对数呈正态分布的资料。

注意观察值中不能有零,一组观察值中不能同时有正值和负值。

中位数:适用于偏态分布资料以及频数分布的一端或两端无确切数据的资料。

3、常用的离散程度的描述指标有:全距,四分位数间距,方差,标准差,变异系数。

全距:任何资料,一组中最大值与最小值的差。

四分位数间距:适用于偏态分布以及分布的一端或两端无确切数据资料。

标准误、t 分布

标准误、t 分布

教 学 内 容 标准误 t分布
二、 t 分布: 三)、应用: 2、t 检验--- 3)、两样本均数的比较: A)、两小样本比较: 检验步骤: 1、建立假设,确定检验水准α 及单双侧 H0:无效假设:(两总体相同)该地急性克山病患者和健康人 的血磷值是否相同, μ 1= μ 2 H1:备择假设:(两总体不同) μ 1 ≠ μ 2 α =0.05 (双侧) 2、选择和计算统计量值: SX1-X2 = t = ( X1-X2 )/SX1-X2 [SC2(1/n1+1/n2)]1/2 = (1.521-1.085)/0.1729 =2.522 3、确定P值:按 v = v1+v2 = n1+n2-2 = 11+13-2 = 22 查t界值 表,得: P < 0.02 4、判断结果: P < 0.05 (α ), 故H1成立, 即该地急性克山病患者和健康人 的血磷值不同。
教 学 内 容 标准误 t分布
二、 t 分布: 三)、应用: 2、t 检验: 3)、两样本均数的比较: A)、两小样本比较: t = (X1-X2)/SX1-X2 B)、两大样本比较: t = (X1-X2)/SX1-X2
v=n1+n2-2 v=n1+n2-2
SX1-X2 = ( S12/n1+S22/n2 )1/2 例: 抽查了25--29岁正常人群的RBC数(mmol/L) 其中男性156人,得均数为4.561,标准差为0.548 ;女性74人,得均数为4.222,标准差为0.442。问 该人群男、女的RBC数有无不同? 已知样本1 已知样本2 问题: 两样本所属总体 均数是否相同?(μ 1= μ 是否成立 ?)
教 学 内 容 标准误 t分布
二、 t 分布: 三)、应用: 2、t 检验--- 1)、样本均数与总体均数比较:

医学统计学考试重点

医学统计学考试重点

1. 统计工作的步骤:统计设计、搜集资料、整理资料、分析资料。

2. 统计资料类型:定量资料、定性资料、等级资料。

3. 定量资料:也称计量资料,是对每个观察单位用定量的方法测定某项指标所获得的资料。

4. 分类资料:也称定性资料,是将观察单位按属性或类别分组后,清点各组的观察单位个数所获得的资料。

分无序分类资料和有序分类资料。

5. 变异:指示同质的个体间各种指标存在的差异。

6. 总体:是根据研究目的所确定的同质观察单位某项变量值的集合。

7. 样本:是从总体中随机抽取的部分观察单位变量值的集合。

8. 抽样误差:由于随机抽样所引起的样本统计量与总体参数之间的差异以及各样本统计量之间的差异,抽样误差不可避免。

9. 概率:是指某时间发生可能性的大小。

一般用P 表示,P 的变化在0—1之间。

10. 小概率事件:是指发生概率很小的事件。

一般将概率值定为P ≤0.05或P ≤0.01。

11. 小概率原理:是指小概率事件在一次试验中几乎不可能发生。

据此原理,在假设检验中可根据计算出的概率P 值的大小作出拒绝活不拒绝某项假设的判断。

12. 频数表的编制步骤:计算全距、确定组距、划分组段、统计频数、频率与累积频率。

13. 集中趋势(用平均数描述)常用指标:算术均数、几何均数、中位数、百分位数。

14. 平均数:用于反映一组观察值的平均水平,是描述计量资料集中趋势的指标。

15. 常用离散指标(离散趋势):极差、四分位数间距、方差、标准差(最常用)、变异系数。

16. 方差:反映一组数据中每个变量值与其均数之间的变异。

标准差:是方差的开平方,意义与方差相同。

17. 标准误:样本均数的标准差称为均数的标准误,简称标准误,用来反映均数抽样误差大小的指标。

18. 标准差和标准误的区别标准差S标准误X S 表示个体变量值的变异度大小,即原始变量值的离散程度,公式为)(12--=∑n X X S表示样本均数抽样误差的大小,即样本均数的离散程度,公式为n S S x = 计算变量值的频数分布范围,如(s x 96.1±)计算总体均数的可信区间,如(x S x 96.1±) 可对某一个变量值是否在正常值范围内作出初步判断可对总体均数的大小作出初步的判断 用于计算标准误 用于进行假设检验19. t 分布曲线的特征①t 分布曲线是单峰分布,以0为中心,左右两侧对称②曲线的中间比标准正太曲线低,两侧翘得比标准正态曲线略高③当样本含量越小即自由度v 越小,t 分布于u 分布差别越大;当v 逐渐增大时,t 分布逐渐逼近于u 分布④t 分布曲线的形状随v 的变动而变动。

[医学]医学统计学总体均数估计1603

[医学]医学统计学总体均数估计1603

12
均数的标准误的影响因素
• 从标准误的计算公式中看出它与原先个体观察 值的总体标准差有关,同时也和样本含量n有 关
• 在固定样本含量的情况下,总体标准差越大, 则样本均数间越参差不齐,抽样误差越大;但 是总体标准差是参数,在抽样之前就已经存在, 无法改变它的大小
• 故可行的方法是通过扩大样本含量减少标准误; 从而减少抽样误差
(4)计算标准误
19
t分布
• t分布的由来 • t分布的特征 • t分布曲线下的面积
20
样本均数标准正态性转ห้องสมุดไป่ตู้中 的实际问题
• 要对样本均数进行Z转换,必须要知道总体的标准差; 但是在实际的情况下,并没有对总体中所有的个体进
行观察,所以无法得知 ;而且通常我们也只作一次 抽样研究,只能得到s ,只能用样本标准误的估计值
右对称
②与正态分布相比,曲线最 高处较矮,两尾部翘得高( 见红线)
③其形态变化与自由度的 大小有关。自由度越小, 则t值越分散,曲线越低平 ;随自由度增大,曲线逐渐 接近正态分布。
33
它与样本例数 n 或自由度ν 有关,某个自 由度对应于一条 t 分布曲线。当 n 或ν不同时,
曲线形状不同。当 时,t 分布趋近于标
• 1.从正态分布N(m,2)中,以固定n抽取样本,
样本均数的分布仍服从正态分布,样本均数
的总体均数仍为m,样本均数的标准差为 X
• 2.即使是从偏态分布总体抽样,只要n足够 大,样本均数的分布也近似正态分布;
• 3.随着样本量的增大, 样本均数的变异范围 也逐渐变窄。
11
样本均数的标准误
• 为了与个体的标准差相互区别,样本均数的标 准差又称为样本均数的标准误( SE),或理论 标准误

医学统计学重点概要

医学统计学重点概要

第一章 绪论总体:根据研究目的确定的同质的所有观察单位某种变量值的集合。

总体包括有限总体和无限总体。

样本:从总体中随机抽取的部分观察单位,其实测值的集合。

获取样本仅仅是手段,通过样本信息来推断总体特性才是研究的目的。

资料的类型计量资料、计数资料和等级资料。

误差包括随机误差、系统误差和非系统误差。

抽样误差:由抽样造成的样本统计量和总体参数之间的差异或者是各个样本统计量之间的差异称为抽样误差。

概率:是描述随机事件发生可能性大小的一个度量。

取值范围0≤P ≤1。

小概率事件:表示在一次实验或观察中该事件发生的可能性很小,可以认为很可能不发生。

P ≤0.05或P ≤0.01。

医学统计学的步骤:设计、收集资料、整理资料和分析资料。

统计分析包括:统计描述和统计推断。

统计推断包括:参数估计和假设检验。

第二章计量资料的统计描述频数表和频数分布图的用途:(1)描述频数分布的类型,以便选择相应的统计指标和分析方法。

对称分布:集中位置在中间,左右两侧頻数基本对称。

偏态分布:正、负偏态分布正偏态集中位置偏向值小一侧,负偏态反之。

(2)描述頻数分布的特征;(3)便于发现资料中的可疑值;(4)便于进一步计算统计指标和进行统计分析。

计量资料集中趋势包括算术均数、几何均数和中位数。

算术均数:直接法(样本小):n x x ∑=;頻数表法(样本大)x =nfx ∑ 几何均数:直接法:)lg (lg 1n x G ∑-=;頻数表法)lg (lg )lg (lg 11n x f fx f G ∑∑∑--==(常用于等比资料或对数正态分布资料)中位数:直接法:n 为奇数2/)1(+=n x M ,n 为偶数2/)(12/2/++=n n x x M ;頻数表法:∑-⨯+=)%50(L M M f n f iL M 。

中位数的应用注意事项:可用于各种分布资料,不受极端值的影响,主要用于(1)偏态分布资料(2)端点无确切值的资料(3)分布不明确的资料。

医学统计学总体均数的估计与假设检验

医学统计学总体均数的估计与假设检验

三、 总体均数的估计
(1)点估计: X µ (2)区间估计:
按一定的概率(1 - )估计总体均数所在范围 (或称可信区间),常用95%和99%的概率估计。
1)当未知时
x t /2, Sx , x t,/2 Sx
例2.12 11名18岁男大学生身高得均数 172.25厘米,标准差3.31厘米,试估计该地 18岁男大学生总体身高均数的95%可信区间。
结论:按照 = 0.05水准,拒绝H0 ,故可 认为该山区健康成年男子脉搏高于一般人群。
上例如用双侧检验,查表得双侧 t0.05,24 = 2.064
则: t =1.833< t0.05,24 , P > 0.05。 结论相反。
单侧检验效率要高于双侧检验。 如何选择单侧或双侧检验? 主要根据专业知识而定。 如某指标只高不低或只低不高。
分析两均数不等的原因有两种可能性:
(1)仅仅由于抽样误差所致; (2)除抽样误差外还由于环境条件的影响。
如何判断? 统计上是通过假设检验来回答这个问题。 (1)建立假设:
H0: (检验假设或无效假设) 总体参数相等 为什么称其为无效假设?
H1: (备择假设) 总体参数不等
(2)确立检验水准 指拒绝实际上成立 H0 的所犯错误的概率
被测者编号 ⑴
1 2 3 4 5 6 7 8 9 10 11 12
Wright 法 ⑵
490 397 512 401 470 415 431 429 420 275 165 421
Mini 法
d

(4)
525
35
415
18
508
-4
444
43
500
30
460

标准误、t 分布

标准误、t 分布

教 学 内 容 标准误 t分布
二、 t 分布: 三)、应用: 2、t 检验: 2)、配对计量资料的比较: t = ( d-0)/Sd v=n-1
例: 某药对Hb的影响研究结果 病人编号 治疗前 治疗后 差数 d 1 140 113 27 2 138 150 -12
3 140 150 … … .. 10 120 123 问:某药对Hb有无影响? -10 … -3
t = (X1-X2)/SX1-X2
P = 95% f
-t0.05,v -t0.01,v
0
t0.05,v tt0 Nhomakorabea01,v
(-t0.05,v , t0.05,v) 有 95%的 t 值,P=95%=0.95 (-t0.01,v , t0.01,v) 有 99%的 t 值,P=99%=0.99
P > 0.1
教 学 内 容 标准误 t分布
P 值含义与两类错误:
P 值含义:由H0所规定的总体做随机抽样,获得等于及大
于(或等于及小于)依据现有样本信息所计算得到的检验统 计量的概率。 I类错误:H0正确,但由于抽样的偶然性得到 t>=tα , P<=α 的检验结果,拒绝了H0 (即“弃真”) ,接受了H1, 这种错误称I类错误(“弃真”错误),其概率大小为α ; II类错误:H0不正确,但由于抽样的偶然性得到 t<tα , P>α 的检验结果,接受了H0 (即“存伪”) ,拒绝了H1, 这种错误称I类错误(“弃真”错误),其概率大小为 。

教 学 内 容 标准误 t分布
教 学 内 容
一、样本均数的标准误:样本均数的标准差。其大小与标 准差成正比,与样本含量n的算术平方根成反比。 σ X =σ /n1/2 或 SX = S/n1/2

医学统计学名词解释

医学统计学名词解释

统计学(Statistics):运用概率论、数理统计的原理与方法,研究数据的搜集;分析;解释;表达的科学。

总体(population):大同小异的研究对象全体。

更确切的说,总体是指根据研究目的确定的、同质的全部研究单位的观测值。

样本(sample):来自总体的部分个体,更确切的说,应该是部分个体的观察值。

样本应该具有代表性,能反映总体的特征。

利用样本信息可以对总体特征进行推断。

抽样误差(sampling error)在抽样过程中由于抽样的偶然性而出现的误差。

表现为总体参数与样本统计量的差异,以及多个样本统计量之间的差异。

可用标准误描述其大小。

标准误(Standard Error) 样本统计量的标准差,反映样本统计量的离散程度,也间接反映了抽样误差的大小。

样本均数的标准差称为均数的标准误。

均数标准误大小与标准差呈正比,与样本例数的平方根呈反比,故欲降低抽样误差,可增加样本例数区间估计(interval estimation):将样本统计量与标准误结合起来,确定一个具有较大置信度的包含总体参数的范围,该范围称为置信区间(confidence interval,CI),又称可信区间。

参考值范围描述绝大多数正常人的某项指标所在范围;正态分布法(标准差)、百分位数法,参考值范围用于判断某项指标是否正常置信区间揭示的是按一定置信度估计总体参数所在的范围。

t分布法、正态分布法(标准误)、二项分布法。

置信区间估计总体参数所在范围参数统计(parametric statistics)非参数统计(nonparametric statistics)是指在统计检验中不需要假定总体分布形式和计算参数估计量,直接对比较数据(x)的分布进行统计检验的方法。

变异(variation):对于同质的各观察单位,其某变量值之间的差异同质(homogeneity):研究对象具有的相同的状况或属性等共性。

回归系数有单位,而相关系数无单位β为回归直线的斜率(slope)参数,又称回归系数(regression coefficient)。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

-4
-3
-2
-1
0
1
2
3
4
图3.2 自由度分别为1、5、∞时的t分布
t分布的特征
• t分布为一簇单峰分布曲线 • t分布以0为中心,左右对称
• t分布与自由度有关,自由度越小,t分布的峰越
低,而两侧尾部翘得越高,;自由度逐渐增大时, t分布逐渐逼近标准正态分布;当自由度为无穷大 时,t分布就是标准正态分布。
四个非正态分布的总体抽样结果
(A偏三角分布、B均匀分布、C指数分布、D双峰分布)
• 图3.1描述了来自不同总体的样本均数之抽样误差和 抽样分布规律。事实上,任何一个样本统计量均有其 分布。统计量的抽样分布规律是进行统计推断的理论 基础。
标准差与标准误的联系和区别
• 联系
–都是变异指标。S反映个体观察值的变异;
• 样本均数的标准差称为标准误。此标准误与个体
变异 成正比,与样本含量n的平方根成反比。
• 实际工作中, 往往是未知的,一般可用样本标准差s
代替 :
sX s n
• 因为标准差s随样本含量的增加而趋于稳定,故增加样
本含量可以降低抽样误差。
• 中心极限定理表明,即使从非正态总体中随 机抽样,只要样本含量足够大,样本均数的 分布也趋于正态分布 ,见图3.1 。
与 n 的关系 n →∞,s →
n →∞, s → 0 X
应用
表示观察值波动的大小
表示抽样误差的大小
用于计算变异系数
用于均数的假设检验
计算标准误
结合样本均数和正态分布的规律, 结合样本均数和正态分布的规律,
估计参考值范围
估计参数的可信区间
t分布
• 设从正态分布N(, )中随机抽取含量为n的样本,样本均数
t分布的特征
• 每一自由度下的t分布曲线都有其自身分布规律
• t分布表明,从正态分布总体中随机抽取的样本,由样本计算的t值接 近0的可能性较大,远离0的可能性较小。t0.05,10=2.228,表明,从 正态分布总体中抽取样本含量为n=11的样本,则由该样本计算的t值
大于等于2.228的概率为0.025,小于等于-2.228的概率亦为0.025。
和标准差分别为 和s,设:
X
X X
t
sX
sn
• 则t值服从自由度为n-1的t分布(t-distribution)。Gosset于
1908年在《生物统计》杂志上发表该论文时用的是笔名
“Student”,故t分布又称Student t分布。
f(t)
=∞(标准正态曲线)
=5
=1 0.3
0.2
0.1
P(t≤-2.228)+P(t≥2.228)=0.05 或:P(-2.228<t<2.228)=1-0.05=0.95。
t , t0.05,10 2.228
-2.228
2.228
反映统计量的变异。 –当n不变时,标准差↑,标准误↑
s sX
n
区别
s
意义
描述原始数据的离散程度,
衡量均数对原始数据的代表性
计算
直接法、加权法
与均数的关系s 越小, X 对样本数据的代表性好
s X
反映抽样误差的大小, 衡量样本均数估计总体均数的可靠 性s
sX n
s X 越小, X 估计的可靠性大
3.抽样误差和 t 分布
Sampling error and t distribution
抽样误差的概念
• 由抽样引起的样本统计量与总体参数间的差异 • 两种表现形式
–样本统计量与总体参数间的差异 –样本统计量间的差异
抽样误差产生的条件
• 抽样研究 • 个体变异
均数的抽样误差及标准误
• 表现一:样本均数与总体均数之差值 • 表现二:多个样本均数间的离散度
中心极限定理(central limit theorem)
• 从均数为、标准差为 的总体中独立随机抽样,
当样本含量n增加时,样本均数的分布将趋于正态
分布,此分布的均数为,标准差为x
X n标准误(来自tandard error,SE)
• 样本统计量的标准差称为标准误,用来衡量抽样 误差的大小。
相关文档
最新文档