(完整word版)医学统计学公式整理

(完整word版)医学统计学公式整理
(完整word版)医学统计学公式整理

集中趋势的描述

算术均数: 频数表资料(X0为各组段组中值)

n fX

f

fX x O

O

∑∑∑==

几何均数:

n n

X X X G ...21= 或

)

log (

log 1n

X G ∑-=

频数表资料:

?

?????=????????=∑∑∑--n X f f X f G log lg log log 11 中位数:(1)*

2

1

+=n X M (2)

)

(21*

12*2++=

n n X X M

百分位数

??

?

??-?+

=L X X f n X f i L P 100其中:L 为欲求的百分位

数所在组段的下限 , i 为该组段的组距 , n 为总频数 , X f 为

该组段的的频数 ,

L f 为该组段之前的累计频数

方差: 总体方差为:式(1); 样本方差为 式(2)

(1)

N X 2

2

)(μσ-∑=

(2)

1)(2

2--∑=

n X X S

标准差:

1

)(2

--∑=

n X X S

或 1/)(22-∑-∑=

n n

X X S

频数表资料计算标准差的公式为

1/)(22-∑∑∑-∑=

f f

fx fx S

变异系数:当两组资料单位不同或均数相差较大时,对变异

大小进行比较,应计算变异系数 %

100?=X S

CV

常用的相对数指标 (一)率 (二)相对比(三)构成比 1.直接法标准化

N

p

N p i

i

∑=

'

∑=i i p N N p )(

' 2.间接法标准化

预期人数实际人数=

SMR ∑=i

i P n r

SMR S M R P P ?='

正态分布:密度函数:

)2/()(2221)(σμπ

σ--=

X e X f

分布函数: 小于X 值的概率,即该点正态曲线下左侧面积

)()(x X P x F <=

特征:(1)关于x=μ对称。(2)在x=μ处取得该概率密度函数的最大值,在σμ±=x 处有拐点,表现为钟形曲线。(3)曲线下面积为1。(4)μ决定曲线在横轴上的位置,σ决定曲线的形状 。(5)曲线下面积分布有一定规律

标准正态分布:对任意一个服从正态分布的随机变量,作如下标准化变换

σ

μ-=

X u ,u 服从总体均数为0、总体标准

差为1的正态分布。

u 值左侧标准正态曲线下面积为标准正态分布函数,记作

)(u Φ 医学参考值的确定方法:(1)百分位法:双侧(P 25,P 975),单侧P 95以下或P 5以上,该法适用于任何分布型的资料。(2)正态分布法:若X 服从正态分布,双侧医学参考值范围为

S X 96.1±

样本均数标准误的估计值为

X

s =

t 分布的概念:小样本总体标准差未知时,服从自由度为n-1

的t 分布

X X X t s μ-=

总体均数可信区间的计算:

大样本或总体标准差已知:式(1); 小样本:式(2)

(1)

n S

X ?±96.1 (2)n

S n t t ?±-)1(,05.0

单样本t 检验:检验统计量:式(1);样本例数估计:式(2) (1)

n S X t /0μ-=

自由度为 n-1;(2)2

2/]

)([δσβαZ Z N +=

配对样本t 检验: 检验统计量:

n

S d t d /0-=

样本量计算同前

两样本t 检验:检验统计量:

)

11(2

12

1n n S X X t c +-=

(错)

2

)()(2)1()1(21222211212222112-+-+-=

-+-+-=∑∑n n X X X X n n S n S n S c

随机分组方法: 样本例数估计)

(])([

1

21122/--++=Q Q Z Z N δ

σ

βα

方差不齐的近似t 检验

检验统计量:式(1) ;校正自由度为:式(2)

(1)

2

2

2

1212

1'

n S n S X X t +-=

(2)

11)(24142222

1

21-+-+=

n s n s s s x x x x ν

方差齐性检验:H 0:两总体方差齐,H 1:两总体方差不齐,α=0.1

检验统计量:(较小)(较大)2

2

2

1

S S F =分子自由度为n1-1,分母自由度为n2-1

方差分析的基本思想: 1、总变异:总离均差平方和:

2() 1

T ij i

j

SS SS X X N νν=-==-∑∑总总=

∑∑-=n X X /)(2

2

2. 组间变异:组间变异反映了处理因素的影响(如处理确实有作用),同时也包括了随机误差(含个体差异和测量误差)。

21() 1

B i i i

SS SS n X X k νν-==-∑组间组间==

=

C

n X i

i

ij -∑

∑2

)(

3. 组内变异:组内变异仅反映随机误差(含个体差异和测量误差),故又称误差变异。

222()(1) W E ij i i i i

j

i

SS SS SS X X n S N k νν===-=-==-∑∑∑

组内组内

2()(1) W E ij i i i i j i

SS SS SS X X n S N k νν===-=-==-∑∑∑组内组内

1(1)()N k N k ννν=-=-+-=+总组间组内

组间均方与组内均方比值一般地服从分子自由度为ν1,分母

自由度为ν2的F 分布

12 1 MS F k N k MS νννν=

==-==-组间

组间组内组内

多个样本间的多重比较

Dunnett 检验:用于各实验组与对照组比

i

X X i S X X t --=

)(误差i x x n n MS S i 11+=

- 查dunnett 界值表,确定P ,自由度等于方差分析中ν误差 SNK-q 检验:用于各组间全面的两两比较 Q= )11(2/

)(B

A B A X

X B

A n n MS X X S X

X B

A +-=--误差

查q 界值表确定相应的概率P ,自由度等于方差分析中ν

误差,表中a 为按均值大小排序,两对比组所包含的组数。 二项分布的概率函数P (X ):

X

n X X n

C X P --=)1()(ππ;

)!

(!!X n X n C X n -=

二项分布的均数和标准差 :进行n 次独立重复试验,出现X 次阳性结果

X 的总体均数为πμn = 总体方差为)1(2ππσ-=n

总体标准差为)1(ππσ

-=n

如果将阳性结果用频率表示n

X p =

率的总体均数

π

μ=p 标准差

n

p )

1(ππσ-=

n p p n p p S p )1(1

)

1(-≈--=

又称率的标准误它反映率的抽样误差的大小。

单侧累积概率计算:出现阳性的次数至多为k 次的概率为

∑∑

==---==≤k

X k

X X

n X X n X n X P k X P 0

0)1()!

(!!

)()(ππ

出现阳性的次数至少为k 次的概率

∑∑

==---==≥n

k

X n

k X X n X X n X n X P k X P )1()!

(!!

)()(ππ

率的可信区间的估计 正态近似法:当)1(,p n np -均大于等于5时

n

p p p n p p P )1(96.1,)1(96.1-+-?

-

样本率与总体率的比较:

检验假设H 0:π=π0,H 1:π≠π0 1 . 满足正态近似时,计算检验统计量

)

1(000

πππ--=

n n X Z 或

n p Z )

1(000

πππ--=

2. 不满足正态近似时用直接概率计算法

两样本率的比较:H0:π1=π2,H1:π1≠π2, 检验统计量:

)

1

1)(1(|

|2

121n n p p p p Z c c +--=

2

121n n X X p c ++=

Poisson 分布的概率函数为

!

)(X e X P X λλ

-=

POISSON 分布的应用:

单侧累计概率计算:稀有事件发生次数至多为k 次的概率

∑∑==-==≤k

X k

X X X e

X P k X P 00

!)()(λλ

发生次数至少为k 次的概率为

)1(1)(-≤-=≥k X P k X P

总体均数的区间估计:正态近似法

95%总体均数的可信区间为X X X X 96.1,96.1+- 样本率和总体率的比较

正态近似法: 当满足正态近似条件时, 对检验假设 H0:λ=λ0,H1:λ≠λ0, 检验统计量为

λ

λ-=

X Z

两组独立样本资料的Z 检验 :当两总体均数都大于20时, 对检验假设H0:λ1=λ2, H1:λ1≠λ2,当两样本观测单位数相等时,检验统计量为:式(1);当两样本观测单位数不等时,检验统计量为:式(2)

(1)

2

12

1

X X X X Z +-= (2)

2

2

1121n X n X X X Z +-=

四格表χ2检验的步骤: 1.检验假设, H0:两总体率相等,H1:两总体率不等。Α=0.05 。2.统计量3. 确定p 值。4. 结论。

n ≥40,且T ≥5,ν=(行数-1)(列数-1) ∑

-=T T A 22)(χ,

n n

n T c

r =,

)

)()()(()(22d b c a d c b a n

bc ad ++++-=

χ 当n ≥40,如果有某个格子出现1<T <5,校正公式

--=T

T A 22)5.0(χ

)

)()()(()2/|(|2

2d b c a d c b a n n bc ad ++++--=

χ

注意如果出现n <40或一个T <1则不能用χ2检验

多样本率和构成比的χ2检验:假设H0:各总体率相等,H1:各总体率不等或不全等,α=0.05,自由度 ν=(行数-1)(列数-1)。统计量为

-=T T A 22

)(χ 或

?

??? ??-=∑12

2

c r n n A

n χ

构成比的比较:假设H0:构成比相同,H1:构成比不同 配对四格表的χ2检验:配对设计列表:假设H0:B=C 两阳性率相等; H1:B ≠C 两阳性率不等

检验统计量:式(1) 若 b+c <40:式(2) (1)

c

b c b +-=

22)(χ (2)c b c b +--=

2

2)1|(|χ

两分类变量的关联性检验:假设:H0:两分类变量无关 (满足概率独立性) ,H1:两分类变量有关

配对设计资料的符号秩和检验:正态近似法:计算u 统计量,如果数据超出表的范围可计算u统计量。下式中tj 为第j(j=1,2…)次相持所含相同秩次的个数 48)

(24)12)(1(4

/)1(3

∑--

+++-=

j j

c t t n n n n n T Z

两独立样本比较的秩和检验:确定P 值和作出推断结论。如果n 1或n 2-n 1超出了成组设计T 界值的范围,可用正态近似

检验。

12

)1(2)1(2121211++++-=

n n n n n n n T Z

c Z Z c =

)

/()(133N N t t c j j ---=∑ 完全随机化设计多组独立样本的秩和检验:

统计量

∑+-+=)1(3)1(12

2N n R N N H i

i 确定P 值并做出推断结论:如取相同秩次个数较多时需校正

c H

H c =

)

)(13

3N N t t

c j j ---

=∑

随机化区组设计资料的秩和检验:计算统计量M 值

∑-=2

)

(R R M j ,∑+-=4/)

1(2

2

2

k k b R M

j

确定P 值并做出推断结论:χ2分布近似法:当处理数k 或区组数b 超出M 界值表的范围时,采用近似 χ2 分布法

)1(122

+=

k bk M r

χ 或

)

1(3)1(121

22+-+=∑=k b R

k bk k

j j

r χ

自由度为(k-1) 。当各区组间出现相同秩次时,需进行校正 ,校正公式为(其中b 为区组个数,k 为处理组个数)

c c 2

2χχ=

)

1()(12

3---=∑k bk t t c j j

直线相关:

Pearson 积差相关系数:描述线性相关程度

∑∑∑===----=

=

n i n

i n

i yy

xx xy y y x x y y x x l l l r 1

1

2

2

1

)

()()

)((n x x l n i i n

i i xx 2

112

???

??-

=∑∑==,n y y l n i i n i i yy 2

112??? ??-=∑∑==

n

y

x y x l n i n

i i

i n

i i i xy ∑∑∑===-

=1

1

1

式中Lxx,Lyy,Lxy 分别表示X 的离

均差平方和、Y 的离均差平方和、X 与Y 的离均差乘积和。 相关系数的统计推断:检验假设为H0 :ρ=0,H1 :ρ≠0

r

r s r t 0-=

212--=n r s r 自由度为n-2的t 分布

直线回归:反应变量(Y )依赖于另一自变量(X )

简单线性回归模型表述为i i i

X Y

εβα++=,Yi 为第 i

个个体的反应变量值,Xi 为其自变量值,α为回归直线的截

距参数,β为回归直线的斜率参数, εi 为误差。

线性表达式称为回归方程:bX a Y

+=?,a 与b 分别为模型参数α与β的估计;是与X 相对应的Y 的平均值 回归参数估计的最小二乘原则 :

残差为)(?i

i

i

i

i

bX a Y Y

Y e +-=-=,用一定的数学方法确定a 和b 的适宜值,使所有n 个数据点的残差平方和达

到最小值,则称这一对a 和b 为和的最小二乘估计

∑∑==---=

n i i

n

i i i

X X

Y Y X X

b 1

2

1

)

())((∑∑∑∑∑=====--

=

n

i n

i i i

n

i n

i i n i i i i n

X X

n Y X Y X b 1

2

121

1

1

)()

()(

回归截距a :X

b Y a -=

回归系数的统计推断:H 0: β=0, H 1:β≠0 (1)t 检验(自由度为n-2)

b

b S b t β-=

,

∑=-=

n

i i

x

y b X X

s s 1

2

.)(,

2

)

?(1

2

.--=

∑=n Y Y s n

i i

i

x y

(2)方差分析法:总变异SS 总,回归平方和SS 回,残差平方和SS

残, SS 总=SS 回+SS 残; MS 是均方,即SS 与自由度之商。MS 回与MS 残之比值就是F 值。

∑∑∑-=-=2

2

2

()(总y y y y SS /n

xx

xx

xy

xy l b l l l b SS ?==

?=22

回,

总残SS SS SS -=

回归方程的应用: (1)Y

的总体均数的(1-α)置信区间

y

n S t Y ?2,?-±α,

2

2

.?)()(1X X X X n S S i p x y y p

-∑-+

=

(2)个体Y 预测值的区间估计

p X Y n p S t y

|2,?-±α

2

2

.|)()(11X X X X n S S p X

Y X Y p --+

+=∑

样本含量的估计:单样本均数检验(1)两样本均数比较(2)单样本率检验(3)两样本率比较检验(4)

22/])([

δ

σ

βαZ Z N +=)

(])([

1

21122/--++=Q Q Z Z N δ

σ

βα

()

0021][

ππδ

β

α-+=Z Z N 2

211πππQ Q +=2

2

12

221111211]/)1(/)1())(1([

ππππππππβα--+-++-=--Q Q Z Q Q Z N

多元线性回归的数学模型为

i ki k i i i x x x Y εββββ+++++=...22110 其中,Yi

为第i 样品反应变量的实际观测值;β0为常数项,εi 第i

样品的误差项,要求服从N(0,σ2)分布

样本估计回归方程 k k x b x b x b b y ++++=...?22110 Logistic 回归模型: Logistic 回归与多元回归的不同之处

p p p p X X X

X e e P ββββββ+++++++=......1101101)

...(11011p p X X e

P βββ+++-+= x x x m

m P

P

itP ββββ++++=-= 221101ln

log Logistic 回归的参数估计:似然函数:通常用最大似然估计法求解模型中参数的估计值。参数的意义与比数比: )()()(11ln *2*221*11

*

*x x x x x x P P m m m P P -++-+-=???

? ??--βββ 等式左边为比数比。logistic 回归系数的意义是:在其他自变量固定不变的情况下,自变量的暴露水平每改变一个观测单位时所引起的比数比的自然对数改变量

连续型变量总体均数的估计:总体均数的置信区间 :

)SE(1,2/x t x n -±α )SE(2/x Z x α±

样本均数的标准误 :

n

s N n x x -

=1)SE( 0-1变量总体概率的估计:样本率的标准误 :

n p p n p p p )

1(1

)

1()SE(-≈--=

,1)

1(1)SE(---

=n p p N n p

总体率的置信区间

)SE(2/p Z p α±

连续型变量总体均数估计的样本:

样本例数估计主要依据为总体指标可信区间

n

z X σ

α?

±

规定容许误差为δ:

n z σ

δα?

= 则有:

2

2

2

δσα?

=z n

常用医学统计学方法汇总

选择合适的统计学方法 1连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。 1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验,如Wilcoxon检验。 1.1.3 资料方差不齐,(1)采用Satterthwate 的t’检验;(2)采用非参数检验,如Wilcoxon检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布,采用配对t检验。 1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal-Wallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用成组的Wilcoxon检验。 1.4 多组随机区组样本比较 1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon检验。 ****需要注意的问题: (1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t 检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。 (2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。**绝不能对其中的两

医学统计学总结

医学统计学总结 一、绪论 1,医学统计学:运用概率论与数理统计学得原理与方法,研究医学领域中随机现象有关数据得搜集、整理、分析与推断,进而阐明其客观规律性得一门应用科学。 2,医学统计学得主要内容: 1) 统计研究设计调查研究设计与实验研究设计 2) 医学统计学得基本原理与方法研究设计与数据处理中得基本统计理论与方法。A:资料得搜集与整 理 B:常用统计描述,集中趋势与离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计与假设检验。 3)医学多元统计方法多元线性回归与逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、 logistic回归与Cox回归分析。 3,统计工作步骤: 1) 设计明确研究目得与研究假说,确定观察对象与观察单位,样本含量与抽样方法,拟定研究方案,预 期分析指标,误差控制措施,进度与费用。 2) 搜集材料 A, 搜集材料得原则及时、准确、完整 B, 统计资料得来源医学领域得统计资料得来源主要有三个方面。一就是统计报表,二就是经常性工作记录,三就是专题调查或专题实验。 C, 资料贮存 3) 整理资料 a检查核对b设计分组c拟定整理表d归表 4) 分析资料统计分析包括统计描述与统计推断 4,同质(homogeneity):指被研究指标得影响因素相同。 变异(variation):同质基础上得各观察单位间得差异。 变量(variable):收集资料过程中,根据研究目得确定同质观察单位,再对每个观察单位得某项 特征进行测量或观察,这种特征称为变量 变量值:变量得观察结果或测量值。 5,总体(population) 根据研究目得所确定得同质研究对象中所有观察单位某变量值得集合。总体 具有得基本特征就是:同质性 样本(sample) 从总体中随机抽取部分观察单位,其变量值得集合构成样本。样本必须具有代表 性。代表性就是指样本来自同质总体,足够得样本含量与随机抽样得前提。 统计量(statistics)描述样本变量值特征得指标(样本率,样本均数,样本标准差)。 参数(parameter)描述总体变量值特征得指标(总体率,标准差,总体均数)。

医学统计学符号-公式-重点

第一章 医学统计中的基本概念 1、医学统计学是研究医学数据的收集、整理、分析、解释和呈现其结果的一门学科。 2、个体:研究的基本观察单位。 3、变量:用于观察研究对象的指标。 4、观察值:个体变量的数值。 5、资料:又称为数据,由变量的观察值构成。 变异:个体观察值之间具有 的差异。 变异和同质是对统计学数据 的要求! 变异是统计学研究的真正对 象! 统计学是研究变异规律的科 学! 同质:个体观察值之间的变 异在允许范围内。 异质:个体观察值之间的变 异超出允许范围。 一、总体、抽样、样本、参数、统计量 总体:同质的个体所构成的全体研究对象。总体同时具有同质和变异两个特点。 有限总体:总体中的个体 数量是有限的。 无限总体:总体中的个体 数量是无限的。 样本:从总体中随机抽取 的部分个体。 样本量:样本所包含的个

体数目。 参数:刻画总体特征的指标。 统计量:刻画样本特征的指标。 抽样:从总体中随机抽取部分个 体的过程。抽样具有代表性、随机性、可靠性、可比性; 原则:代表性:样本能充分反映 总体特征。 随机性:保证总体中每个个体都有相同的几率被抽样。 随机性是代表性的保证; 生活中随机性的例子(思考题); 计数资料计量资料 (分类资料)资料 等级资料(有序多分类资料) 二分类资料 无序多分类资料 计量资料:由连续变量的观察值构成的资料。对每个观察对象的观察指标用定量方法测定其数值大小 所得的资料,一般有度量衡单位,例如年龄、身高、 血糖。 计数资料:由离散变量的观察值构成的资料。先将 观察对象的观测指标按性 质或类别进行分组,然后 计数各组的数目所得的资料,例如性别、患病、血型。 等级分组资料:由等级变量的观测值构成的资料。具有计数资料的特征,同

医学统计学重点总结

医学统计学 第一章 医学统计中的基本概念 1 医学统计工作的内容:设计,收集资料,整理资料,分析资料。 2 资料的类型:计量资料(数值变量),计数资料(无序分类),等 变异(variation):在同质的基础上被观察个体的差异。级分组资料(有序分类)。 3 同质(homogeneity):对研究指标有影响的非实验因素相同。 4 总体(population):根据研究目的确定的同质的全部研究对象称总体 。 样本(sample):根据随机化的原则从总体中抽出有代表性的一部分观察单位组成的子集称样本。 5 参数(parameter):总体的设计指标称为参数。 统计量(statistic):样本的统计指标称为统计量。 6 变量(variable):观察对象的特征或指标称为变量,测量的结果即为变量值。 7 概率(probability):描述随机事件发生的可能性的大小的一个量度,其概率介于0与1之间。 第二章 集中趋势的统计描述 一 算术均法(mean)简称为均数,适用于正态或近似正态分布资料 (一)直接法 X n x n X X X n ∑= +?++= 21 (二)加权法(针对频数表)n fx n x f f f X k k ∑= +++= (21) 二 几何均数(geometic mean,G)适用于倍数关系变化,经对数转换后呈正态分布(如:抗体滴度, 血清凝集效价,细菌计数,某些物质浓度等) G= n n X X X ?21 为了计算方便,常改用对数的形式计算,即=G lg 1 -( n X ∑lg ) 对于频数表资料,可用公式 G=lg 1 -( n x f ∑lg ) 三 中位数(M)与百分位数 中位数:适用于偏态分布资料,末端无确切数值的资料及分布情况不确定 公式:M=L+( M L f f n -5.0) M i L,M i ,M f 分别为M 所在组段的下限,组距与频数,L f 为M 所在组段之前各组数的累积频数。 百分位数:用符号X P 表示,x 即百分位 公式:x P =L+( x L f f x n -%·)x i 式中L,x i ,x f 分别为x P 所在组段的下限,组距与频数,L f 为x P 所在组段之前各组段的累积频数

预防医学与医学统计学总结

绪论 进和维护健康,预防疾病、失能和早逝 二.预防医学特点:1.工作对象包括个体及确定的群体,主要着眼于健康和无症状患者;2研究方法注重微观和宏观相结合,但更侧重于影响健康的因素与人群的关系;3.采取的对策更具积极的预防作用,具有较临床医学更大的人群健康效应。 三.健康决定因素:指决定个体和人群健康状态的因素。包括:1、社会经济环境。2、物质环境3.个人因素。4卫生服务。 四.三级预防策略:1.第一级预防:又称病因预防,即防止疾病的发生。2.第二级预防:在疾病的临床前期做好早起发现、早期诊断、早起治疗的“三早”预防工作,以控制疾病的发展和恶化。3.第三级预防:对已患某些病者,采取及时的、有效的治疗措施,防止病情恶化,预防并发症和伤残,延长生命。 第一章流行病学概论 进健康的策略和措施的科学。 流行病学定义涵:1.流行病学的研究对象时人群。2.流行病学关注的事件包括疾病与健康状况。3.流行病学主要研究容是:(1)揭示现象(2)找出原因(3)评价效果。4.流行病学研究和实践的目的是防治疾病、促进健康。 二.流行病学基本原理:1.分布论。2.病因论。3.健康-疾病连续带。4预防控制理论(三级预防理论)5.数理模型。6.流行病学的几个基本原则:(1)群体原则(2)现场原则(3)对比原则(核心)(4)代表性原则 三.流行病学的用途:1.描述疾病及健康状况的分布。2.探讨疾病的病因。3.研究疾病自然史,提高临床诊断、治疗水平和预后评估。4.疾病的预防控制及其效果评价。5.流行病学分支。 第二章疾病分布 的存在方式及其发生、发展规律。 二.疾病分布的测量指标:1.发病率:指在一定期间(一般为1年)特定群中某病新病例出现的频率。 病频率的测量(日、周、旬、月),常用于疾病暴发或流行时的调查。 例。患病率=发病率*病程。 病的人数占所有易感接触者总数的百分率。 5.死亡率:指在一定时间期间(通常为1年),某人群中死于某病(或死于所有原因)的频率。死亡率是测量入群死亡危险最常用的指标。 6.病死率:表示一定时期,患某病的全部病人中因该病死亡者所占的比例。 三.疾病的分布形式(“三间分布”) 1.地区分布:疾病的地方性:由于自然环境和社会因素的影响而使一些疾病无需从外地输入,只存在于某一地区,或在某一地区的发病率水平总是较高,这种现象称为疾病的地方性。 2.时间分布 3.人群分布:出生队列分析:将同一时期出生的人划归为一组称为一个出生队列,对其随访观察若干年,观察死亡等情况。 4.判断疾病地方性的依据:(1)该病在当地居住的各群组

医学统计学总结

医学统计学总结 一。绪论 1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学. 2,医学统计学的主要内容: 1) 统计研究设计调查研究设计和实验研究设计 2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法.A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验. 3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析. 3,统计工作步骤: 1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。 2)搜集材料 A,搜集材料的原则及时、准确、完整 B, 统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。 C,资料贮存 3)整理资料 a检查核对b设计分组c拟定整理表d归表 4)分析资料统计分析包括统计描述和统计推断 4,同质(homogeneity):指被研究指标的影响因素相同。 变异(variation):同质基础上的各观察单位间的差异。 变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某项 特征进行测量或观察,这种特征称为变量 变量值:变量的观察结果或测量值。 变量类型变量值表现实例资料类型 数值变量离散型 定量测量值,有计量单位产前检查次数 计量资料 连续型身高 分类变量无 序 二分类对立的两类属性性别(男女) 计数资料多分类不相容的多类属性血型(A,B,O,AB) 有 序 多分类类间有程度差异的属性受教育程度(小学,中 学,高中,大学…)等级资料5,总体(population) 根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。总体具有的基本特征是:同质性 样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。样本必须具有代表性.代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。 统计量(statistics)描述样本变量值特征的指标(样本率,样本均数,样本标准差)。

医学统计学公式整理 简洁版

集中趋势的描述 算术均数: 频数表资料(X0为各组段组中值) n fX f fX x O O ∑∑∑== 几何均数: n n X X X G ...21= 或 ) log ( log 1 n X G ∑-= 频数表资料: ? ?????=????????=∑∑∑--n X f f X f G log lg log log 11 中位数:(1)* 2 1 +=n X M (2) ) (21* 12*2++= n n X X M 百分位数 ?? ? ??-?+ =L X X f n X f i L P 100其中:L 为欲求的百分位 数所在组段的下限 , i 为该组段的组距 , n 为总频数 , X f 为 该组段的的频数 , L f 为该组段之前的累计频数 方差: 总体方差为:式(1); 样本方差为 式(2) (1) N X 2 2 )(μσ-∑= (2) 1)(2 2--∑= n X X S 标准差: 1)(2--∑= n X X S 或 1/)(22-∑-∑= n n X X S 频数表资料计算标准差的公式为 1/)(22-∑∑∑-∑= f f fx fx S 变异系数:当两组资料单位不同或均数相差较大时,对变异 大小进行比较,应计算变异系数 %100?= X S CV 常用的相对数指标 (一)率 (二)相对比(三)构成比 1.直接法标准化 N p N p i i ∑= ' ∑=i i p N N p )(' 2.间接法标准化 预期人数实际人数= SMR ∑=i i P n r SMR S M R P P ?=' 正态分布:密度函数: )2/()(2221)(σμπ σ--= X e X f 分布函数: 小于X 值的概率,即该点正态曲线下左侧面积 )()(x X P x F <= 特征:(1)关于x=μ对称。(2)在x=μ处取得该概率密度函数的最大值,在σμ±=x 处有拐点,表现为钟形曲线。(3)曲线下面积为1。(4)μ决定曲线在横轴上的位置,σ决定曲线的形状 。(5)曲线下面积分布有一定规律 标准正态分布:对任意一个服从正态分布的随机变量,作如下标准化变换 σ μ-= X u ,u 服从总体均数为0、总体标准 差为1的正态分布。 u 值左侧标准正态曲线下面积为标准正态分布函数,记作 )(u Φ 医学参考值的确定方法:(1)百分位法:双侧(P 25,P 975),单侧P 95以下或P 5以上,该法适用于任何分布型的资料。(2)正态分布法:若X 服从正态分布,双侧医学参考值范围为 S X 96.1± 样本均数标准误的估计值为 X s = t 分布的概念:小样本总体标准差未知时,服从自由度为n-1 的t 分布 X X X t s μ-= 总体均数可信区间的计算: 大样本或总体标准差已知:式(1); 小样本:式(2) (1)n S X ? ±96.1 (2)n S n t t ?±-)1(,05.0(前一个t 表示均数) 单样本t 检验: n S X t /0 μ-= 自由度为 n-1; 配对样本t 检验: 检验统计量: n S d t d /0-= 自由度为n-1(n 为对子数) 两样本t 检验:检验统计量: ) 11(2 12 1n n S X X t c +-= (错: Sc 的平方) 2 )()(2)1()1(21222211212 222112-+-+-= -+-+-= ∑∑n n X X X X n n S n S n S c 方差齐性检验:H 0:两总体方差齐,H 1:两总体方差不齐,α=0.1 检验统计量: (较小)(较大)2 2 2 1 S S F = 分子自由度为n 1-1,分母自由度为n 2-1 方差分析的基本思想: 1、总变异:总离均差平方和: 2() 1 T ij i j SS SS X X N νν=-==-∑∑总总= ∑∑-=N X X ij ij /)(22 ∑=N X C ij /)( 2 2. 组间变异:组间变异反映了处理因素的影响(如处理确实有作用),同时也包括了随机误差(含个体差异和测量误差)。 21() 1 B i i i SS SS n X X k νν-==-∑组间组间== = C n X i i ij -∑ ∑2 )( 3. 组内变异:组内变异仅反映随机误差(含个体差异和测量误差),故又称误差变异。 222()(1) W E ij i i i i j i SS SS SS X X n S N k νν===-=-==-∑∑∑组内组内 2()(1) W E ij i i i i j i SS SS SS X X n S N k νν===-=-==-∑∑∑组内组内 1(1)()N k N k ννν=-=-+-=+总组间组内 组间均方与组内均方比值一般地服从分子自由度为ν1,分母 自由度为ν2的F 分布 12 1 MS F k N k MS νννν= ==-==-组间 组间组内组内 , 二项分布的概率函数P (X ): X n X X n C X P --=)1()(ππ; )! (!!X n X n C X n -= 二项分布的均数和标准差:进行n 次独立重复试验,出现X 次阳性结果 X 的总体均数为πμn = 总体方差为)1(2ππσ-=n 总体标准差为)1(ππσ -=n 如果将阳性结果用频率表示 n X p = 率的总体均数 π μ=p 标准差 n p ) 1(ππσ-= n p p n p p S p )1(1 ) 1(-≈--= 又称率的标准误它反映率的抽样误差的大小。 单侧累积概率计算:出现阳性的次数至多为k 次的概率为 ∑∑ ==---==≤k X k X X n X X n X n X P k X P 0 0)1()! (!! )()(ππ 出现阳性的次数至少为k 次的概率 ∑∑ ==---==≥n k X n k X X n X X n X n X P k X P )1()! (!! )()(ππ 率的可信区间的估计 正态近似法:当)1(,p n np - 均大于等于5时 n p p p n p p P )1(96.1,)1(96.1-+-? - 样本率与总体率的比较: 检验假设H 0:π=π0,H 1:π≠π0 1 . 满足正态近似时,计算检验统计量 ) 1(000 πππ--= n n X Z 或 n p Z ) 1(000 πππ--= 2. 不满足正态近似时用直接概率计算法 两样本率的比较:H0:π1=π2,H1:π1≠π2, 检验统计量: ) 1 1)(1(| |2121n n p p p p Z c c +--= 2121n n X X p c ++= Poisson 分布的概率函数为 ! )(X e X P X λλ -= POISSON 分布的应用: 单侧累计概率计算:稀有事件发生次数至多为k 次的概率为 ∑∑==-==≤k X k X X X e X P k X P 0 ! )()(λλ 发生次数至少为k 次的概率为 )1(1)(-≤-=≥k X P k X P 总体均数的区间估计:正态近似法 95%总体均数的可信区间为X X X X 96.1,96.1+- 样本率和总体率的比较 正态近似法: 当满足正态近似条件时, 对检验假设 H0:λ=λ0,H1:λ≠λ0, 检验统计量为 λ λ-= X Z 两组独立样本资料的Z 检验 :当两总体均数都大于20时, 对检验假设H0:λ1=λ2, H1:λ1≠λ2,当两样本观测单

医学统计学总结

医学统计学总结 一.绪论 1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。 2,医学统计学的主要内容: 1)统计研究设计调查研究设计和实验研究设计 2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验。 3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。 3,统计工作步骤: 1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。 2)搜集材料 A,搜集材料的原则及时、准确、完整 B,统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。 C,资料贮存 3)整理资料 a检查核对b设计分组c拟定整理表d归表 4)分析资料统计分析包括统计描述和统计推断 4,同质(homogeneity):指被研究指标的影响因素相同。 变异(variation):同质基础上的各观察单位间的差异。 变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某 项特征进行测量或观察,这种特征称为变量 变量值:变量的观察结果或测量值。 5,总体(population)根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。总 体具有的基本特征是:同质性 样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。样本必须具有代 表性。代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。 统计量(statistics)描述样本变量值特征的指标(样本率,样本均数,样本标准差)。

医学统计学公式总结

一 资料的描述性统计 (一)算术均数(mean) (1)简单算术平均值定义公式为(直接法): (2)利用频数表计算均数(加权法): (二)方差(即标准差的平方) (三)变异系数 二 参数估计与参考值范围 (一)均数的标准误 (二)样本率的标准误 (p 为样本率) (三)T 分布 (u 为总体均数) (四)总体均数的区间估计 (一般要求 计算95%或99%的可信区间) (五)总体率的区间估计 (六)参考值范围估计 双侧1-a 参考值范围: s u x a 2/± 单侧1-a 参考值范围: s u x a ->或s u x a +< (可信区间计算是用标准误,参考值范围计算用标准差,百分位数法大家自己看书) 三 T 检验与方差分析 (一)T 检验 (1)单样本T 检验 n x n x x x x x n ∑= ++++= 321∑∑= ++++++++=f fx f f f f x f x f x f x f x k k k 3213322111 )(2 2--= ∑n x x s 22 2()/1 x x n s n -= -∑∑%100?= x s CV n s s x = n p p s p ) 1(-=n s x t μ-=x x s t x s t x ναναμ,2/,2/+<<-p p s u p s u p 2/2/ααπ+<<-

检验假设: (假设样本来自均数为0 u 的正态总体) 统计量t 值的计算: (2)配对T 检验 检验假设: 统计量t 值的计算: (d 为两组数据 的差值,Sd 为差值的标准差) (3)两样本T 检验 检验假设: 统计量t 值的计算: 其中 两样本方差齐性检验 (即为两样本方差的比值) (二)单因素方差分析 SS MS F SS MS νν= = B B B W W W (1)完全随机设计资料的方差分析 这里 (T 即为该组数据之和) (2)随机单位组设计资料的方差分析 SS 总=SS 处理+SS 区组+SS 误差 V 总=V 处理+V 区组+V 误差 μμ=:H 1 ,/0 0-=-=-= n n s x s x t x νμμ0210==-μ μμ:H d d t s μ-== 1 -=n ν210μμ=:H 2 1)()(2121x x s x x t ----=μμ2 21-+=n n ν ? ??? ??+=-2121121n n s s C x x 2)()(112222112-+∑-∑+-=n n x x x x s C 2221s s F =111-=n ν1 2 2-=n ν组内组间总SS SS SS +=组内 组间总ννν+=2()/C x N =∑ij j T x = ∑

医学统计学考试重点整理

一、基本概念 1.总体与样本 总体:所有同质观察单位某种观察值(即变量值)的全体 样本:是总体中抽取部分观察单位的观察值的集合 2.普查与抽样调查 普查:就是全面调查,即调查目标总体中全部观察对象 抽样调查:是一种非全面调查,即从总体中抽取一定数量的观察单位组成样本,对样本进行调查 3.参数与统计量 参数:总体的某些数值特征 统计量:根据样本算得的某些数值特征 4.Ⅰ型与Ⅱ型错误 假设检验的结论真实情况拒绝H 0不拒绝H H 正确Ⅰ型错误(ɑ)推断正确(1?ɑ) H 不正确推断正确(1?β)Ⅱ型错误(β) Ⅰ型错误(ɑ错误):H 为真时却被拒绝,弃真错误 Ⅱ型错误(β错误):H 为假时却被接受,取伪错误 5.随机化原则与安慰剂对照 随机化原则:是将研究对象随机分配到实验组和对照组,使每个研究对象都有同等机会被分配到各组中去,以平衡两组中已知和未知的混杂因素,从而提高两组的可比性,避免造成偏倚。(意义:①是提高组间均衡性的重要设计方法;②避免有意扩大或缩小组间差别导致的偏倚;③各种统计学方法均建立在随机化基础上) 安慰剂对照:是一种常用的对照方法。安慰剂又称伪药物,是一种无药理作用的制剂,不含试验药物的有效成分,但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样,不能被受试对象和研究者所识别。(安慰剂对照主要用于临床试验,其目的在于控制研究者和受试对象的心理因素导致的偏倚,并提高依从性。安慰剂对照还可以控制疾病自然进程的影响,显示试验药物的效应) 6.误差与标准误(区分率与均数) ㈠均数 抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。 标准误:是指样本均数的标准差,反映抽样误差大小的定量指标,其公式表示为S x =S/√n ㈡样本率 率的抽样误差:样本率p和总体率π的差异 率的标准误:样本率的标准差,公式为σp=√π(1-π)/n 7.方差分析 方差分析:又称F检验,是通过对数据变异按设计类型的不同,分解成两个或多个样本

医学统计学重点总结

<<医学统计学>>重点总结 1. 总体:根据研究的目的确定的同质研究对象中所有的观察单位变量值的集合。 2. 样本:按随机化原则从同质总体中随机抽取的部分观察单位某变量值的集合。 3. 同质:影响研究指标的主要因素易控制的因素基本上相同。 4. 抽样误差:在抽样研究中,由于变异的存在,即使在同一总体中抽取的几个样本,各样本统计量往往不等。样本统计量与总体参数也不等,这种由于抽样研究所至样本之间和样本与总体之间的差异称为。。。 5. 变量:观察指标在统计学上统称为指标变量,它反应的是生物个体间的变异情况,根据其性质可分为定性变量(分类)和定量变量(连续)。 6. 截尾数据:生存时间观察过程被人为的截止称为截尾,又称删失或终检。原因:失访/退出/ 终止(研究时限已到而终止观察)。 7. 卡方基本思想:X2分布是一种连续型分布,可用于检验资料的实际频数和按检验假设计算的理论频数是否相等等问题。X2反应实现了实际频数与理论频数的吻合程度。如果检验假设成立,则A-T 一般不大,X2应很小,即出现大X2值概率很小。即X2越大,P越小,若P≤a时,就怀疑假设的成立,拒绝H0。若P>a则没有理由拒绝H0。 8. X2用途: (1)实际频数与拟合频数拟合优度:A推断两个或两个以上总体率或构成比有无差别(四格表/行x 列表)。B两变量之间有无相互关系。C频数分布的拟合优度检验(判断次样本是否来自某种分布)。(2)某些分布可用X2近似。 (3)间接应用:如t分布和F分布就是在X2分布基础上推导出来的。 9. 方差分析的基本思想:根据研究目的和设计类型,把总体变异中离均差平方和分解成两部分或更多部分,也把总变异中的自由度相应分成两部分或更多部分,然后再进行比较,评价由某种因素引起的变异是否具有统计学意义。 10. 假设检验中P,a,b(倍他)的关系及统计学意义: a:检验水准,即显著性检验,在此概率之下的认为是小概率事件,统计学上以为此事件“不可能发生”,以此判断是否不拒绝H0无效假设,在假设检验中,按a检验水准,拒绝了原来正确的H0,即犯了第1类错误,犯此错误的概率为a。 b:在T假设检验中,按照a检验标准,没有拒绝原来错误的无效假设,即犯了第2类错误,犯次错误的概率是b。 P:是在H0成立时大于等于用样本计算的统计值出现的概率用P值与检验水准a比较,根据比较的结果作出统计判断。如果P≤a时,就怀疑假设的成立,拒绝H0。若P>a则接受H0拒绝H1。P值越小只能说明作出拒绝H0,接受H1的推论时犯错误的机会越小。 11.行x列表X2检验应注意: (1)行x列表中不宜有1/5以上格子的理论频数小于5或有一个格子的理论频数小于1,若发生上述情况可采用:A将理论频数过小的格子所在的行或列与性质相近的邻近行或列中的实际频数合并,使重新计算的理论频数增大。B删去理论频数过小的行或列。C增大样本含量以增大理论频数。 (2)当效应按强弱分为若干级别,则按实验结果可整理为单向有序行x列表,在比较各处理组的效应有无差别时,宜用秩和检验,ridit分析等。如作X2检验只说明各组构成比的差异有无统计学意义。

医学统计学相关公式汇总

医学统计学相关公式汇总 Chapter 基本概念 显著性检验(test of significance ):计算P 值 医学统计工作的内容: 1、实验设计:最关键最重要 2、收集资料:最基础 原始资料:实验数据 现场调查资料 医疗卫生工作记录 报表 报告卡 质量控制——精度和偏倚 3、整理资料 (1) 资料的逻辑检查(坏数) (2) 一致性检查 (3) 原始数据加工:频数分布表 4、分析资料:统计描述(表、图、离散趋势、集中趋势)和统计推断 统计描述类型的选择: 集中趋势 离散趋势 对称、正态 μ,x S SS ,, 对数正态 G S lgX 偏态及其他 M Q ,R 单位不同或均数差别大 CV 医学统计的资料类型:计量资料、计数资料、等级分组资料 医学统计学的对象:有变异的事物 总体和样本: 总体(population )的特性:同质性、大量性、差异性。

抽样的要求:代表性、随机性、可靠性、可比性。 样本的三性:代表性、随机性、可靠性。 可靠性(reliability ):实验的结果要具有可重复性。即由科研课题的样本得出的结论所推测总体的结论有较大的可信度。 两样本间具有:可比性。 误差的类别: 1、系统误差(system error ):在资料的收集过程中,由于仪器初始状态没有调零、标准试剂未经矫正、标准指定偏高或偏低等原因,造成的观察结果的倾向性的偏大或偏小。必须克服。 2、随机测量误差(random measurement error ):在避免系统误差的情况下,由于各种偶然因素的影响造成对同一对象多次测量值的不一致。 3、抽样误差(sampling error ):由于抽样造成的的样本统计量与总体参数之间的差别。不可避免。样本含量越大,抽样误差越小。如均数的抽样误差:|-X | 。 概率(probability ):P (A ) 小概率事件:P ≤0.05(有统计学意义)或P ≥0.01(有高度统计学意义)。 Chapter 集中趋势的统计描述 手工整理资料频数表(frequency table )的步骤: 1、求极差(全距) 2、确定组数、组距 参考组距=全距 / 组数 3、确定组段 4、手工编制划记表 直方图(histogram ): 高度:各组的频数 纵轴 宽度:组距 横轴表示组限 均数(average ): 适用:对称分布或偏度不大的资料,尤其适合正态分布。 抽样 总体 样本 推断

医学统计学重点总结

1.简述总体和样本的定义,并且举例说明。 总体是研究目的确定的所有同质观察单位的全体。样品是从研究总体中抽取部分有代表性的观察单位。 2.简述参数和统计量的定义,并且举例说明。 描述总体特征的指标称为参数,描述样本特征的指标称为统计量。 3.变量的类型有哪几种?举例说明各种类型变量有什么特点。 ①定量数据:计量资料;定量的观测值是定量的,其特点是能够用数值的大小衡量其水平的 高低。 ②定性数据:计数资料;变量的观测值是定性的,表现为互不相容的类别或属性。 ③有序数据:半定量数据/等级资料;变量的观测值是定性的,但各类别(属性)有程度或顺 序上的差异。 4.请举例说明一种类型的变量如何变换为另一种类型的变量。定量数据>有序数据>定性数据 ---------------> 5.请简述什么是小概率事件? 概率是描述事件发生可能性大小的度量,P0.05事件称为小概率事件。 6.举例说明什么是配对设计。 配对设计是将受试对象按某些重要特征相近的原则配成对子,每对中的两个个体随机地给予两种处理。①同源配对:同一受试对象或同一标本的两个部分,随机分配接受两种不同处理;②异源配对:为消除混杂因素的影响,将两个同质受试对象配对分别接受两种处理。 7.非参数假设检验适合什么类型数据进行分析? ①总体分布类型未知或非正态分布数据;②定量或半定量数据;③数据两端无确定的数值。 8.简述P 25 P 50 P 75 的统计学意义。(条件:明显偏态且不能转化为正态或近似对称;一端或两端无 确定数值;分布情况未知) 用来描述资料的观测值序列在某百分位置的水平,四分位数间距可以作为说明个体差异的指标(说明个体在不同位置的变异情况)。 9.直条图、直方图、圆饼图的使用条件是什么? 直条图:各自独立的统计指标的数值大小和他们之间的对比; 直方图:连续变量频数分布情况; 圆饼图:全体中各部分所占的比例。 10.统计分析包括哪两个方面的内容?为什么要进行统计推断? 统计描述和统计分析; 统计描述用来描述及总结一组数据的重要特征,其目的是使实验或观察得到的数据表达清楚并便于分析。统计推断指由样本数据的特征推断总体特征的方法,包括参数估计(点估计和区间估计)和假设检验(判断随机波动引起差别的概率大小)。 统计推断是通过样本推断总体的统计方法/根据样本提供的信息和抽样分布的规律,以一定的概率推断总体的特征。总体是通过总体分布的数量特征即参数 (如方差) 来反映的。很多时候并不知道总体的参数,只能由样本统计量推断获得。 11.定量数据如何进行统计描述?请举例说明。通过具体数值反应高低水平。 12.定性数据如何进行统计描述?请举例说明。根据类别或属性的不同分类。 13.简述均数的抽样误差及率的抽样误差。 由抽样造成的样本统计量与总体参数的差异称为抽样误差,样本均数不等于总体均数μ,总体率参数π不等于样本率p。 14.简述正态分布和标准正态分布的关系。 (μ=0,)关系:标准正态分布是正态分布的一种,具有正态分布的所有特征。所有 正态分布都可以通过Z分数公式转换成标准正态分布。 区别:正态分布的平均数为μ,标准差为σ;不同的正态分布可能有不同的μ值和d值,正态分布曲线形态因此不同。标准正态分布平均数μ=0,标准差σ=1,μ和σ都是固定值;标准正态分布曲线形态固定。

常用医学统计学方法的选择

常用医学统计学方法的选择 1. 多组率的比较用卡方检验(χ2检验,chi-square test) 直接用几个率的数值比较,与直接用原始数据录入比较,结果会有什么不同?卡方值会受样本量的影响,样本越多,卡方值越大。 2.多组计量资料比较采用方差分析(F检验) ,不能用t检验。当方差分析结果为P<0.05时,只能说明k组总体均数之间不完全相同。若想进一步了解哪两组的差别有统计学意义,需进行多个均数间的多重比较,即SNK-q检验(多个均数两两之间的全面比较)、LSD-t检验(适用于一对或几对在专业上有特殊意义的均数间差别的比较)和Dunnett检验(适用于k-1个实验组与一个对比组均数差别的多重比较)。 3.非正态分布多组数据之间比较选用非参数检验、单样本中位数检验(符号检验和Wilcoxon 检验)、双样本中位数检验(Mann-Whitney 检验)、方差分析(Kruskal-Wallis、Mood 中位数和Friedman 检验) 4.按血糖水平从低到高分成多组,进行多组之间死亡率的比较,由于死亡率同样受年龄、性别、病史、您身边的论文好秘书:您的原始资料与构思,我按您的意思整理成优秀论文论著,并安排出版发表,扣1550116010 、766085044自信我会是您人生路上不可或缺的论文好秘书血脂等因素的影响,所以需选取合适统计方法实现“调整年龄、性别等危险因素后,按血糖分组进行死亡率的比较(由血糖从低到高分成的4组)”。 ①年龄是定量变量(是数值),调整年龄的方法可在Logistic回归中运用,连续性变量年龄加入covariate中,当成协变量,就可以调整年龄,age-adjusted odds ratio就能得到了。 ②性别性别是二分类变量,不是定量变量,不可在LOGISTIC回归里比较。调整性别可在卡方检验中采取分层的方法比较。 如果为多分类LOGISTIC回归,在选择用multinomianl LOGISTIC回归中,可选入年龄等进入covariate,观察年龄的配比情况。可把性别选入factors(自变量)。这样可以实现调整年龄、性别等危险因素。 5.回顾性研究(1)临床妊娠率和女性年龄的关系+(2)男性影响临床妊娠的精子参数比较: 数据类型及变量的说明:y:计量 拟采用的分析方法:卡方检验 拟采用的分析软件:spss 原始数据附件及格式:word表 能否用其他方法统计分析:可用卡方分割,调整检验水准(根据比较的次数N,校正后的检验水准为0.05/N)。 6.重复t检验:多个样本均数间的两两比较(又称多重比较)不宜用t检验,因为重复数次,t 检验将增加第一类错误的概率,使检验效率降低。此时宜用方差分析,并在此基础上用两两比较方法(如.SNK、LSD、Duncan法等)。 对于同一对均数间的差异,用t检验无显著性,而两两比较可能有显著性,可见错误选用统计方法将推出错误结论。 统计方法的选择: 分计量、计数、等级资料三

医学统计学 (2)

第一单元概述 1.研究设计应包括那几方面内容? 答:包括:专业设计和统计设计。 专业设计是针对专业问题进行的研究设计,如选题、形成假说等。统计设计是针对统计数据收集和分析进行的设计,如样本来源、样本量等。统计设计是统计分析的基础。任何设计上的缺陷,都不能在统计分析阶段弥补和纠正。 第二单元资料描述性统计 1.描述计量资料的集中趋势和离散趋势的指标有哪些?各指标的适用范围如何? 答:集中趋势的指标有:算术均数、几何均数、中位数。算术均数适用于描述对称分布资料的集中位置,尤其是正态分布资料;几何均数用来描述等比资料和对数正态分布资料的集中位置;中位数可用于任何资料。 描述离散趋势有:极差、四分位数间距、方差、标准差和变异系数。极差和四分位数间距可用于任何分布,但两个指标都不能反映变异程度;方差和标准差常用于资料为近似正态分布;变异系数可用于多组资料间量纲不同或均数相差较大时变异程度间的比较。 2.变异系数和标准差有何区别和联系? 答:区别:1.计算公式不同:CV=S/X*100%,标准差是方差的平方根。2.单位不同:变异系数无量纲,标准差量纲和原指标一致。3.用途不同。联系:都是适用于对称分布的资料,尤其是正态分布的资料,并且由公式所知,在均数一定时,CV与s呈正比。 3.频数表的用途有哪些? 答:1.描述资料的频数分布的特征;2.便于发现一些特大或特小的可疑值;3.将频数表作为陈述资料的形式,便于进一步的统计分析和处理;4.当样本量足够大时,可以以频数表作为概率的估计值。 4.用相对数时应注意哪些问题? 答:1.在实践工作中,应注意各相对数的含义,避免以比代率的错误现象。2.计算相对数时分母应该有足够的数量,如资料的总数过少,直接报告原数据更为可取。3.正确计算频数指标的合并值。4.相对数的比较具有可比性。5.在随机抽样的情况下,从样本估计值推断总体相对数应该考虑抽样误差,因此需要对相对数指标进行参数估计和假设检验。 第三单元医学统计推断基础 1.正态分布和标准正态分布的联系和区别? 答:联系:均为连续型随机变量分布。区别:标准正态分布是一种特殊的正态分布(均数为0,标准差为1)。一般正态分布变量经标准化转换后的新变量服从标准正态分布。 4.简述二项的应用条件? 答:条件为:1.每次试验只会发生两种互斥的可能结果之一,即两种互斥结果的概率之和为1;2.每次试验产生某种结果固定不变;3.重复试验是相互杜立的,即任何一次试验结果的出现不会影响其他试验结果的概率。 5.简述Q-Q图法的基本原理? 答:u-变换可以把一个一般正态分布变量变换为标准正态分布变量,反之,u-变换的逆变换也可以把一个标准正态分布变量变换为一个正态变量。Q-Q图法实际上就是首先求的小于某个x的积累频率,再通过该积累频率求得相应的u值,如果该变量服从正态分布,则点(u,x)应近似在一条直线上(u-变换直线),否则(u,x)不会近似在一条直线上。Q-Q图法正是根据(u,x)是否近似在一条直线上来判断是否为正态分布。 第四单元参数估计与参考值范围的估计 1.均数的标准差和标准误的区别和联系? 答:区别和联系:标准差是描述个体值变异程度的指标,为方差的算术平方根,该变异不能

医学统计学试题答案

第一套试卷及参考答案 一、选择题(40分) 1、根据某医院对急性白血病患者构成调查所获得的资料应绘制(B ) A 条图 B 百分条图或圆图C线图D直方图 2、均数和标准差可全面描述D 资料的特征 A 所有分布形式B负偏态分布C正偏态分布D正态分布和近似正态分布 3、要评价某市一名5岁男孩的身高是否偏高或偏矮,其统计方法是(A ) A 用该市五岁男孩的身高的95%或99%正常值范围来评价 B 用身高差别的假设检验来评价 C 用身高均数的95%或99%的可信区间来评价 D 不能作评价 4、比较身高与体重两组数据变异大小宜采用(A ) A 变异系数 B 方差 C 标准差 D 四分位间距 5、产生均数有抽样误差的根本原因是(A ) A.个体差异 B. 群体差异 C. 样本均数不同 D. 总体均数不同 6. 男性吸烟率是女性的10倍,该指标为(A ) (A)相对比(B)构成比(C)定基比(D)率 7、统计推断的内容为(D ) A.用样本指标估计相应的总体指标 B.检验统计上的“检验假设” C. A和B均不是 D. A和B均是 8、两样本均数比较用t检验,其目的是检验(C ) A两样本均数是否不同B两总体均数是否不同 C两个总体均数是否相同D两个样本均数是否相同

9、有两个独立随机的样本,样本含量分别为n1和n2,在进行成组设计资料的t检验时,自由度是(D ) (A)n1+ n2 (B)n1+ n2–1 (C)n1+ n2 +1 (D)n1+ n2 -2 10、标准误反映(A ) A 抽样误差的大小B总体参数的波动大小 C 重复实验准确度的高低 D 数据的离散程度 11、最小二乘法是指各实测点到回归直线的(C) A垂直距离的平方和最小B垂直距离最小 C纵向距离的平方和最小D纵向距离最小 12、对含有两个随机变量的同一批资料,既作直线回归分析,又作直线相关分析。令对 相关系数检验的t值为t r,对回归系数检验的t值为t b,二者之间具有什么关系(C) A t r>t b B t rχ,ν可认为(A ) A各总体率不同或不全相同B各总体率均不相同 C各样本率均不相同D各样本率不同或不全相同

相关文档
最新文档