医学统计学-知识梳理(精.选)

医学统计学-知识梳理(精.选)
医学统计学-知识梳理(精.选)

均数±2.58标准差:表示集中位置、离散程度均数±2.58标准误:表示平均水平、抽样误差大小P75

一、标准差的主要作用是估计正常值的范围

实际应用中,估计观察值正常值范围应该用标准差(s),表示为“Mean±SD”。此写法综合表达一组观察值的集中和离散特征的变异情况,说明样本平均数对观察值的代表性。s 的大或小说明数据取值的分散或集中。s与样本均数合用, 主要是在大样本调查研究中, 对正态或近似正态分布的总体正常值范围进行估计。如果不是为了正常值范围估计,一般不用。当数据与正态分布相差很大,或者虽为正态分布, 但样本容量太小(小于30 或100),也不宜用估计正常值范围。

二、标准差还可用来计算变异系数(CV)

当两组观察值单位不同, 或两均数相差较大时,不能直接用标准差比较其变异程度的大小, 须用变异系数系数来做比较。:

2.2 标准误的正确使用

一、标准误用来衡量抽样误差的大小和了解用样本平均数来推论总体平均数的可靠程度。在抽样调查中,往往通过样本平均数来推论总体平均数,样本标准误适用于正态或近似正态分布的数据, 是主要描述小样本试验中,样本容量相同的同质的多个样本平均均数间的变异程度的统计量。即如果多次重复同一个试验, 它们之间的变异程度用。显然它越小,样本平均数变异越小,越稳定,用样本平均数估计总体均数越可靠。因此,为说明它的稳定性、可靠性或通过几个对几组数据进行比较(这是科研论文中最常见的),应当用描述数据。实际应用中应该写成“平均数±标准误”或而英文表示为“Mean±SE”的形式。

二、标准误还可以进行总体平均数的区间估计与点估计(置信区间)。

根据正态分布原理,与合用还可以给出正态总体平均数的可信区间估计即推论总体平均数的可靠区间,例如常用(其中t0.05 (n-1) 为样本容量是n的t界值)表示总体均值的95%可信区间, 意指总体平均数有95%的把握在所给范围内。

三、标准误还可用来进行平均数间的显著性检验,从而判断平均数间的差别是否是由抽样误差引起的。例如:某当地小麦良种的千粒重=34克,现在从外地引入一新品种,通过多小区的田间试验得到千粒重的平均数=35.2克,问新引进品种千粒重与当地良种有无显著差异?新引进品种千粒重与当地良种有无显著差异实质是判断与的差别是否是有田间试验是抽样误差引起,所以要进行显著性检验,这里用t测验进行检验,而,由于,故,所以认为新引进品种千粒重与当地良种千粒重的不同是由于田间试验是抽样

误差引起,因此他们之间无显著差异。所以在进行平均数间的显著性检验是必须用到。

总之,标准差和标准误最常用的统计量,二者都是衡量样本变量(观察值) 随机性的指标,只是从不同角度来反映误差,二者在统计推断和误差分析中都有重要的应用。如果没有标准差,人们就无法看出一组观察值间变异程度有多大,这些数字到底有无代表性,如果没有标准误又很难看出我们的样本平均数是否可以代表总体平均数。所以二者都非常重要。

定量资料的统计描述:

频数分布表:全距,R=最大值-最小值;组距=全距/组数,(组数8-9人一组)

频数分布图:直方图

集中位置的描述:平均数3

1.算数均数:μ总体均数,X样本均数。适用定量资料,对称分布,正态或近似正态

2.几何均数:G,适用变量值呈倍数关系,偏态尤其对数变换后正态或近似正态

3.中位数:M,各种分布(不对称,两端无确切值,分布不明确),正态等于算数均数,对数正态等于几何均数。

离散程度描述:5

1.极差:R,同全距,各种分布,但一般单峰、对称、小样本

2.四分位数间距:P75—P25,(不对称,两端无确切值,分布不明确),P25,P50,P75,共三点将全部观察值分为四部分

3.方差:总体σ2,样本S2(计算时除以自由度n-1)。单峰对称。

4.标准差:总体σ,样本S。单峰对称,对数变换后正态或近似正态使用几何标准差。

5.适用不同计量单位(身高和体重),或均数相差很大

正态分布及其应用:N(μ,σ2)

特征:4①横轴上方均数处最高;②均数为中线,左右对称;③位置参数/总体均数μ,形态参数/标准差σ;④曲线下面积分布有一定规律,对称,1.645—90.00%,1.96—95.00%,2.58—99.00%。

6.正态分布:N (μ,2

σ)经标准化转换

为标准正态分布/Z 分布:Z (0,1)

7.制定医学参考限值时,分双侧(±)、单侧,单侧又分只有下限(-)、只有上限(+)。 定性资料描述:分类/计数资料,性别,疾病感染情况,病情轻重...,相对数进行统计描述。 相对数:3

1.率:频率(发病率、患病率),0到1之间;速率(肿瘤患者5年生存率),分母乘以时间数(125人追踪2年死亡2人,年死亡率=2/125*2 *100%)0到∞。

2.构成比:

3.相对比:两个有关联的指标比值(变异系数,相对危险度,比值比..) 应用注意:①足够的观察单位数;

②不能以构成比代替率,事物内部各组分所占比重不能说明某现象发生的频率或强度大小; ③分别将分子和分母合计求合计率;

④相对数的比较注意可比性,其他的年龄、性别等相同或相近,可分层或标准化再比较; ⑤样本率、样本构成比应做假设检验再比较(是比较其所代表的总体~有无差异)。 率的标准化: 标准化率:p ’=

N

p N

i

i

∑(p i 被标化组死亡率,N i 标准组年龄别人口,N 标准组总人口)

标准化死亡率比:SMR=被标化组实际死亡数/预期死亡数

被标化组实际死亡数=本年龄组死亡率*标准组本年龄组人口(用被标化组年龄别死亡率去预测标准人口中可能死亡人数) 总体均数的估计:

抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。 样本均数的标准差=

(进行一次抽样即可估计均数标准误) t 分布 1n

S/-X S -X t X

-===n v ,μμ (总体均数的区间估计,t 检验...)

t 分布特征:①以t=0为左右对称的单峰分布;

②曲线形态取决于自由度大小,n 越小,X S 越大,样本X 间差异越大,n →∞,t 分布就是标准正态分布(Z 分布)。 总体均数的估计:

点估计用X 作为μ,无法评价可信程度。 区间估计:2

1、单样本:n 不论大小,μ双侧(1-α)置信区间 X v S t X ,2/α±(确切法)

n >100,t 接近Z ,μ双侧(1-α)置信区间 X v S Z X ,2/α± (1.645 1.96 2.58)(正态近似法) 2、两样本:

两均数之差的标准误:① n 1、n 2不论大小,)1

1(

2

12

2

1n n S S

C X X +=-(确切法) ② n 1、n 2均较大时,t 接近Z ,则2

2122

1n S n S S

C

C X X +

=

-(正态近似法) 两总体均数差值的置信区间:(μ1-μ2) 为

2

12/21-X

X v S t X X -±,α(t 与Z 根据条件可互换) t 检验:Student ’s t 检验,从样本均数推总体均数 条件:①t 检验,单样本中,n <50,总体正态分布。

②t ’检验,两小样本,总体正态分布,但两样本总体方差不等。公式好复杂,P 96

N

X C 2

)(∑=

③Z 检验,两大样本,n 均>50,单峰、近似正态。

1、单样本t 检验:样本所代表的总体均数μ与已知总体均数μ0比较 1n

S/-X S -X t 0X

0-===n v ,μμ

2、配对t 检验:①配对的两受试对象分别接受2种不同处理;②同一样品用两种方法或仪器检测;③同一受试对象两不同部位测定数据。

H 0为两总体均数相同,差值的样本均数d 所代表的总体均数d μ为0,则 1n

/S d n

/S 0-d S -d t d d d -==

==n v d ,μ(n 为对子数)

3、两独立样本/成组t 检验:两样本分别正态分布,H 0为两总体均数相等,则

① n 1、n 2不论大小,

2

)2

111(

21221-+=+-=n n v n n S X X t c ,(确切法)

② n 1、n 2均>50,t 接近Z ,

2

2

2

12121n S n S X X Z +-=

(正态近似法)

4、两样本几何均数t 检验:(抗体滴度等)不服从正态,但服从对数正态,公式同成组t 检验。 正态性检验:①图示法:P-P 图法,Q-Q 图法

②统计检验法:W 检验(n ≤50),矩法检验(总体偏度、峰度),D 检验 方差齐性检验:①两总体方差齐性检验,判断两总体方差是否相等,F 检验

11(22112

2

2

1-=-==n v n v S S F ,,(较小)较大)(进行假设检验,α=0.10,查F 界值表) ②多样本方差齐性检验:q 检验!!!Levene 检验(可两总体),Bartlett 检验。用于方差分析。 方差分析ANOV A/F 检验:总体均数之间差别?

多样本均数的比较,通过对数据变异的分析来推断两个/多个样本均数所代表的总体均数是否有差别。 应用条件:①各样本是相互独立的随机样本,均服从正态;②各样本总体方差相等,即方差齐性。

总变异:数据的均方MS 总,处理影响+随机误差(个体差异+测量误差)

组间变异:MS 组间,处理因素的影响 组内变异:MS 组内,随机误差的影响 21,v v MS MS F 分母(服从自由度分子组内

组间

=

) 1、完全随机设计资料:成组设计的多个样本~,单因素两水平/多水平方差分析。3变异 同质的受试对象 随机分配到各处理组,各组样本含量相等或不等。 SS 总=SS 组间+SS 组内 1

X MS

2

--=

∑N C

N

X C k C

n X v i

i

2

21

/SS MS )(,)(组间

组间组间∑∑∑=

--=

=

V 总=V 组间+V 组内

v

=N-1 V 组间=k-1 V 组内=N-k 21,v v MS MS F 分母(服从自由度分子组内

组间

=

) v1组间,v2组内 注意:总体均数不全相同,两两之间比较用另外的方法。 2、随机区组设计资料;配伍组设计,两因素。3变异

受试对象按照性质分成b 个区组/配伍组,每个区组随机分配到k 个处理组。 MS 总=MS 处理组+MS 区组+MS 误差

v

SS =

MS v 总=v 处理组+v 区组+v 误差 =(处理-1)+(区组-1)+误差=N-1

)540(≥≥T n , 处理误差处理处理,v MS MS F =

区组误差

区组

区组,v MS MS F =

同理:总体均数不全相同,两两之间比较用另外的方法。 3、多个样本均数两两比较,即上面的“注意”、“同理” ①SNK 法,q 检验 ②Dunnett-t 检验 4、交叉设计资料,分两阶段和多阶段(×)

两阶段交叉设计:一、二组患者和A 、B 处理方法,一患者服药顺序A →B ,二组患者B →A 。 5、析因设计资料 6、重复测量资料

2x 检验:样本率或构成比推总体率/构成比之间两个及以上的比较

1、独立样本列联表资料

1)2×2列联表(四格表)成组 连续性校正(Yates 校正)3种 )

)()()(()(22c d b d c a b a n bc ad x ++++-=

① ②(n ≥40,1≤T <5) )

)()()(()2n -(22

c d b d c a b a n bc ad x ++++-=

③(n <40,或T <1) ()∑

-=

T

T A x 22

(确切概率法,以上均适用)A 实际频数,T 理论频数(总有效率乘以各组人数)

2)R 行×C 列 列联表资料 多个样本率/两个或多个构成比 ?

??

?

??-=∑12

2C R n n A n x v=(R-1)(C-1) 注意:①必须绝对数,不能相对数,因x 2与频数有关;

②理论频数太小:1/5以上格子的理论频数<5,或一个格子理论频数<1。或计算最小理论频数

总数

数的乘积最小行、列对应的合计=

min T ≥5,可以计算;(太小解决方法:增大样本含量;确切概率法;与邻近行或列合并;删去)。

③有序多分类变量用秩和检验/Ridit 检验;

④多个样本率(或构成比)拒绝无效假设时,只能说各总体率之间总的来说有差别,不能说明彼此之间有差别或两者之间有差别。

2、配对设计资料

1)配对2×2列联表 配对设计且结果为“二分类”(独立列联表数据相互独立,配对设计为研究对象先按某种方式配对,再按两种属性统计,结果不是相互独立)。又称McNemar 检验,H 0成立:B=C 连续性校正:

①()12

2=+-=v c b c b x , ②b+c ≤40, ()112

2=+--=v c

b c b x ,

2)配对R ×R 列联表 求统计量T 服从x 2分布,自由度R-1 3、拟合优度的~ 4、先行趋势的~

5、四格表的Fisher 确切概率法,好复杂P 147

秩和检验:基于原始数据在整个样本中按大小排列所占的位次计算统计量,总体分布不明,少量离群值小样本。 1、符号秩和检验(Wilcoxon )

单一样本与总体中位数的比较,配对设计计量差值的比较。

1)配对设计两样本~ 差值是否来自于中位数为0的总体,进而推断两总体中位数有无差别 顺序:求差值→编秩→分别求正、负秩和→确定检验统计量T →查T 界值表

①编秩按绝对值由小到大;差值“0”舍去不计,n 也减1;差值绝对值等,求平均秩次,正负相同可顺次编秩; ②正、负秩和T ++T -=n(n+1)/2,相等则秩和计算无误。 ③任取T +或T -作为统计量。

④5<n ≤50,界值内P >α,界值外P <α,n 大T 大P 减小。 概率内大外小 相持较多,须校正 ⑤N >50,近似正态分布,Z 检验,公式P 152

2)单一样本与总体中位数~ 差值=健康人群指标—样本数值 公式同上 2、成组设计两样本的~ 两独立样本代表的总体分布位置是否有差别 1)原始数据的两样本~ 两种处理方式的测量值统一从小到大排序 例数较小者为n 1、T 1, T 1+T 2=N(N+1)/2

n 1≤10

且n 2-n 1≤10时,查T 界值表 n 1≠n 2时T=T 1, n 1=n 2时,T=T 1或T 2

n 1>10或n 2-n 1>10时,计算Z 值,查t 界值表 2)等级资料的两样本~ 两种处理方法疗效的等级,

秩次范围:两组数据按等级顺序(疗效)统一从小到大排序(如痊愈的两种处理结果合计数,1~合计数;痊愈合计数+1~显效合计数,类推)。

平均秩次:痊愈组=1+痊愈合计数/2,显效组=痊愈合计数+1+显效合计数/2,类推。 秩和:此处理组的此疗效原始数据×此疗效平均秩次。 例数较小者为n 1、T 1,

n 1≤10且n 2-n 1≤10时,查T 界值表 n 1≠n 2时T=T 1, n 1=n 2时,T=T 1或T 2 n 1>10或n 2-n 1>10时,计算Z 值,查t 界值表 3、成组设计多样本~ K-W H 秩和检验

1)原始数据多样本~ 三种(...)处理方式数据统一从小到大编秩。 相同数据求平均秩次 求各组秩和R 1R 2R 3.... 统计量H 值 ()()13112

2+-+=

∑N n R N N H i

i N=n 1+n 2+... ①组数k=3,n i ≤5时,查H 界值表;

②当k 、n i 超出H 界值表,则使用v=k-1,x 2≈H 查x 2界值表

2)等级资料多样本~ 编秩、各疗效组平均秩次、秩和同两样本等级资料 ①组数k=3,n i ≤5时,查H 界值表;

②当k 、n i 超出H 界值表,则使用v=k-1,x 2≈H 查x 2界值表

3)多个独立样本间的多重比较 K-W H 秩和检验H1仅得到各总体分布位置不全相同,两两比较回答哪两个总 体位置不同 H0:任意两个处理组总体分布位置相同 H1:任意两个处理组总体分布位置不同 4、随机区组设计的~ 配伍组

1)多个相关样本比较的Friedman M 检验 多区组、多剂量(处理)

()2

∑-=R R M i ()2

1+=

k b R R i 为各处理组秩和,b 为区组数,k 处理组数 2)多个相关样本的两两比较

双变量关联性分析 两随机变量的关联方向、密切程度 1、直线相关/简单相关 两随机变量之间呈直线趋势的关系 1)直线相关系数/Pearson 积矩相关系数 ()[]()[]

n y y n x x n y x xy l l l r yy

xx xy ∑∑∑∑∑∑∑---=

=

2

2

2

2

L yy :离均差乘积和 ①r 无单位,[-1,1];

②正、负号标示相关方向(正相关、负相关、零相关、散点为无相关); ③绝对值大小表示相关密切程度。

2)相关系数的统计推断 对总体相关系数ρ是否为0做假设检验

假设变量x 、y 均服从正态,H0:ρ=0,无直线相关关系 H1:ρ≠0,有直线相关关系

t 检验

2

102

--=-=

n r r S r t r r 自由度v=n -2 注意:①相关分析前先绘制散点图; ②要求变量x 、y 均服从正态;

③出现离群点慎用相关(核实数据、重复观察); ④相关关系不一定是因果关系; ⑤分层资料不可盲目合并。

2、秩相关 不服从正态,总体分布未知,存在极端值,原始数据用等级表示 1)变量x 、y 分别从小到达编秩,p 为x 的秩次,q 为y 的秩次 Spearman 秩相关系数/等级相关系数 ()[]()[]

n q q n p p n q p pq l l l r qq

pp pq s ∑∑∑∑∑∑∑---=

=2

2

2

2

同样[-1,1],正相关、负相关 2)假设检验

①n ≤50,直接查等级相关系数界值表; ②n >50,公式同直线相关,做t 检验。

3、分类变量的关联性 统计量服从四格表x 2分布,自由度为1,有关联,求Pearson 列联系数 n

x x r +=

22 4、R ×C 列联表的关联性 x 2确切概率公式,自由度为(R-1)(C-1),有关联,求

Pearson 列联系数 n

x x r +=

22 直线回归分析 一个变量预测另一个变量 1、直线回归方程的建立

1)y ?随x 变化的方程为直线回归方程/直线回归模型 bx a y +=? a 为直线截距,x 为0时y 的平均估计值;

b 为直线斜率/回归系数,x 每改变一个单位时y 的平均改变量;

个体观察值不一定总等于其均数,散点图各点不会恰好都在回归直线上。 2)方程的估计 b=lxy / lxx x b y a -= 2、统计推断

1)总体回归系数β=0则无直线回归关系 方差分析(F 统计量) SS 总:总离均差平方和,不考虑回归关系时y 的总变异;

SS 回:回归平方和,y 的总变异中回归关系所解释的部分,越大回归效果越好; SS 残:残差平方和,除回归关系外所有因素对y 的变异作用。

SS 总 = SS 回 + SS 残 v 总=v 回+v 残 v 总=n-1 v 回=1

v 残=n-2 对应上式

有无直线关系 ①F 检验 残残回回残回v SS v SS MS MS F ==

②t 检验 2

-=n SS l b t xx 残

2)总体回归系数β置信区间

()b n S t b 2-±,α

3)决定系数R 2

SS SS R =

2 取值[0,1],表示回归贡献的相对程度。

生存分析 不仅关心结局,还关心发生这种结局所经历的时间 1、特点:①蕴含结局、时间两个信息; ②结局为两分类互斥事件;

③一般通过随访收集,从某一时间点开始(确诊、入院、实施手术...),到某规定时间点截止; ④常因失访造成研究对象生存时间数据不完整,分布类型复杂,通常不服从正态。 2、基本概念

①死亡事件:失效事件/终点事件。 ②生存时间:观察到的存活事件。

完全数据:观察起点到死亡事件的时间。

截尾数据:结尾值/删失值/终检值,除死亡事件的其他原因引起的截止(失访、退 出、观察终止(“+”表示))。 此时使用校正人口数=年初观察例数—1/2截尾例数。

③死亡概率:单位时段开始存活的个体在该时段内死亡的可能性 生存概率:有截尾,分母校正。)

④生存率:观察对象活过t k (T 为观察对象存活时间,有截尾,分母

校正)。实为累积生存概率,3年生存率=第一年、第二年、第三年生存概率的连乘积。 ⑤生存曲线:各时点生存率连接(阶梯形,标有截尾值)。

⑥中位生存时间:半数生存期,生存率为0.5时对应的生存时间,表示50%的观察对象可以活到此时。 3、未分组资料的~

每个观察单位的原始测得值组成的资料。 乘积极限法/Kaplan-Meier 法/K-M 法

注意:统计时间比t k 时间少1,如生存时间t 为4月的生存率为p1*p2*p2,t 为5月的生存概率为1-d 4/n 4

估计总体生存率的置信区间 SE 为S 的标准误

4、分组资料的~ 将原始资料按照生存时间分组,再进行分析。 寿命表法

5、生存曲线的比较 对数秩检验

假定无效假设成立,两总体生存曲线位置相同,理论死亡数与实际死亡数相差应该不大 ①乘积极限法估计各组患者不同时点的生存率,绘制生存曲线; ②将两组患者按生存时间统一从小到大排序,并标明组别

统计量计算

1-组数=v

假设检验:检验水准α,可能性P 值,无效假设,备择假设。

Ⅰ型错误:=α,弃真,假阳性,误诊。拒绝实际正确的H 0 。 样本量确定时,α、β呈反比。 Ⅱ型错误:=β,存伪,假阴性,漏诊。不拒绝实际错误的H 0 。 检验效能:=(1-β),检验方法能发现H 1成立的能力。 【Ⅰ型错误、Ⅱ型错误】

1. 重点减少Ⅰ型错误:α可取小,如0.01;重点减少Ⅱ型错误:α可取大,如0.2。

2. α越大,Ⅱ型错误越小,检验效能1-β越大。

3. P ≤α拒绝H 0时,只犯Ⅰ型错误;P>α不拒绝H 0时,只犯Ⅱ型错误。

4. 双侧检验P ≤α,单侧必得P ≤α;单侧检验P >α,双侧必得P >α。

5. 单侧检验易犯Ⅰ型错误,双侧检验易犯Ⅱ型错误,单侧效能高于双侧。 【t 检验】

【方差分析】

【x2检验】

【非参数检验的优、缺点】

优点:①适用于任何分布的资料;

②不受总体方差一致的限制;

③可用于等级资料的统计分析;

④有些问题本身没有适当的参数检验方法而非参数检验则恰能处理。缺点:①由于它没有充分利用原始数据中所提供的信息故检验效能低;

②其效果有一定近似性。

【直线回归与直线相关分析区别与联系】

【秩和检验】

最新文件仅供参考已改成word文本。方便更改

相关文档
最新文档