医学统计学知识点梳理

医学统计学知识点梳理
医学统计学知识点梳理

第一章绪论

一、名词解释

1.统计学:是一门关于收集、分析、解释和表达数据的科学。

2.设计(design):根据研究的问题与目的,从统计学的角度对各步提前做出的周密计

划和安排。是整个研究的基础,是关键的一步。

3.收集资料(data collection):获得研究所需要的原始数据的过程。

4.整理资料(data storing):对收集到的原始资料进行归类整理汇总的过程。

5.分析资料(data analysis):对整理的资料进行统计分析,获取资料中有关信息的过程。

6.n同质(homogeneity):对观察指标影响较大且可以控制的主要因素尽可能的相同。

7.n变异(variation):同质基础上个体间的差异。

8.n.总体(population):根据研究目的确定的,所有同质研究对象的某些指标的集合。

9.n样本(sample):从总体中随机抽取的、数量足够的、能代表总体特征的部分研究

对象某些指标的集合。

10.参数(parameter):描述总体特征的指标称为参数。

11.统计量(statistic):描述样本特征的指标

12.变异(variation):对同质研究对象某指标值得波动性称为变异。

13.误差(error):实际观察值与客观真实值之差

14.系统误差(systematic error):在实际观测过程中,由受试对象、研究者、仪器设备、

研究方法、非实验因素影响等原因造成的有一定倾向性或规律性的误差。

15.过失误差:由科研工作者的失误或过错造成的误差。

16.n.抽样误差(Sampling error):由个体变异产生的,由于抽样造成的样本统计量与总

体参数的差异,称为抽样误差。

17.随机误差(random error):在没有过失误差和系统误差的条件下仍存在大量偶然无

法消除的不确定因素所引起的误差为随机误差。

18.n频率(frequency):在相同条件下,独立重复实验n次,其中事件A出现了m次,

那么事件A发生的频率记为f(A)=m/n,0≤f(A)≤1

19.变量(variable):观察结果的取值不能事先确定的某一特征叫随机变量(random

variable)简称变量

20.n概率(Probability):描述随机事件发生可能性大小的度量(P)。取值范围:不可能

事件0~1。估计方法:当n足够大时,用频率估计概率。小概率事件:P ≤0.05(5%)或P ≤0.01(1%)称为小概率事件(习惯),统计学上认为不大可能发生。小概率原理即某事件发生的概率很小,可以视为只进行一次实验时,我们说这个事件是“不会发生的”,这句话在大多数情况下是正确的,但他一定有犯错误的时候。

21.资料(data):变量全部或部分测量值构成资料

22.计量资料(measurement data):每个研究对象的变量值为一数值,表现出有量的大

小,由这样一组研究对象定量观测值所构成的资料为计量资料。

23.计数资料(enumeration data):每个研究对象的变量值为互不相同的属性之一,由

这样一组研究对象定性变量值组成的资料为技术资料。

24.等级资料(ranked data):每个研究对象变量值为互不相容的属性之一,且这些属性

间有程度的递进或递减关系,有这样一组研究对象变量值组成的资料为等级资料。

25.实验因素(study factor):研究者根据研究目的在实验中需要观察并阐明其效应的因

26.实验对象(subject):处理因素作用的客体

27.实验效应(experimental effect):试验因素作用于受试对象后受试对象产生的变化。

28.随机化(randomization):在抽样或分组时必须做到总体中每个个体都有相等的机会

被抽入样本或分配到各组中

29.重复原则(replication):在相同的实验条件下进行的受试对象需具有一定数量。

二、简答题

1.三种误差的区别

误差:实际观察值与客观真实值之差

①过失误差:

人为失误

不应出现的

②系统误差:

因测量仪器、实验方法导致的

测量时不可避免,但可通过一些方法改善或消除

③随机误差:

排除上述误差后尚存的误差

受多种无法控制的因素的影响

有一定的规律,可以估计出来

2.资料和变量分类

3.统计工作的基本步骤

①设计

②数据收集

③数据清理与转换

④统计描述

⑤统计估计(推断)

⑥做出与专业有关的结论

4.设计的方法

①调查研究(横断面、现状)

②实验研究(对照)

③队列研究(时间变化的影响)

通过对照实验设计,可以达到发现因果关系的目的。

通过队列研究,可以发现时间对因果关系变化的影响。

5.设计的原则

①随机化原则

随机抽样

随机分配

②对照的原则

控制实验中其它非实验影响因素和偏倚

③重复的原则

足够的样本含量

第三章定量资料的统计描述

一、名词解释

1.统计描述:是用统计图(表)、统计指标来描述资料的分布规律及其数量特征。

2.统计推断:用样本信息推断总体特征。

3.频数(frequency):资料中相同数值或同种属性的观察单位个数。

4.极差(range):所有数据的范围,定义为一组中观察值的最大值和最小值的差,又称

全距。

5.组距:将极差分成若干组段,相邻组段之间的区间长度为组距。

6.集中趋势(central tendency):大多数观察值所在的中心位置。

7.离散趋势(tendency of dispersion):变量值围绕集中位置的分布情况。(各观察值

远离中心值的程度。)

8.直方图(histogram):组段为横坐标,频数或频率为纵坐标,用矩形面积表示连续变

量的频数分布。

9.算术均数(arithmetic mean):用来描述一组对称分布数值的平均水平。计算方法有

直接法和加权法。

10.几何均数(geometric mean):多用于对正态分布或观测值之间存在倍数关系的资

料,描述它的平均水平。计算方法有直接法和加权法。

11.中位数(median):将一组观察值按大小顺序排列后位置居中的数值。

12.百分位数(percentile):将一组观察值按大小顺序排列后,第X位观察值为第X百分

数,记作Px。

13.四分位数间距(inter-quartile range,IQR):第75位百分数P75和第25位百分数P25

之差。

14.方差(variance):反应每个观察值的平均变异的数值,总体方差用σ2表示,计算公

式为

15.标准差(standard deviation):方差的平方根。

16.变异系数(coefficient of variation,CV):用于比较两个或多个度量衡单位不同指标

的变异程度,或者虽然单位相同但均数相差悬殊的情况,是标准差与均数之比。

17.正态分布(normal distribution):又称高斯分布,频数分布以均数为中心两侧基本

对称,越接近均数分布越多,越远离均数频数越少。

18.医学参考值范围(medical reference range):是指绝大多数“正常”人的解剖、生

理、生化指标及组织代谢产物含量等数据的波动范围。

19.P-P图:以实际观测值的累计频率为横轴,以正态分布的理论或期望累计概率为纵

轴绘制散点图。

20.Q-Q图:以实际观测值的分位数Px为横轴,以正态分布的理论或期望分位数为纵

轴绘制散点图。

21.标准误(standard error of mean):样本均数的标准差,是描述均数抽样分布的

离散程度及衡量均数抽样误差大小的尺度

二、简答题

1.标准差和标准误的区别

SD=√S2; SE=

√n

?标准差SD用于描述离散程度,用于使用样本对总体的变异进行估计。在标准正态分布中,约95%的总体个体值落在均数的1.96个标准差之内(mean±1.96SD)。

?标准误是对均数可靠程度的估计,表示的是抽样误差。

论文中应标明使用的是标准差还是标准误

3.如何将一个一般的正态分布转换为标准正态分布

将样本中的每个数值减去μ,再除σ2

Z=X?μσ2

4.制定参考值范围的注意事项

(1)选定足够例数的同质正常人作为研究对象

判断是否分组(为保证足够的同质性)

性别年龄种族……

(2)控制检测误差

(3)单、双侧界值

①双侧:白细胞计数,血清总胆固醇……

②单侧:上限: 转氨酶,尿铅,发汞……

③下限: 肺活量,IQ ……

(4)选择百分界值

(5)选择合适的算法来计算参考值范围

5.正态曲线下面积常用数据

-σ~σ:0.6827

-1.96σ~1.96σ:0.9500

-2.58σ~2.58σ:0.9900

三、课件要点

1.表示集中趋势的统计量:

(1)Arithmetic mean 算数平均数:适用于正态分布

(2)Median 中位数:适用于不对称的分布,正、负偏态分布

(3)Geometric mean 几何平均数:适用于正偏态分布

2.描述离散趋势的统计量(变异):

极差R=最大值-最小值

四分位数、四分位间距:适用于偏态分布

方差

标准差

变异系数

3.正态分布是单峰分布,以均数为中心,左右完全对称,呈钟形。

正态分布的参数

μ为位置参数,描述正态分布的集中位置

σ为尺度参数,决定了正态分布的形状

4.曲线下面积分布有一定的规律性

正态曲线下的总面积恒等于1,正态曲线下一定区间的面积可用积分法求出。

对于服从正态分布的指标,只要知道总体均数μ与标准差σ,就可用公式:

求得曲线下(X1,X2)范围内的面积。5.正态分布的判定

2

22

1

()

2

12

()

2

x

x

x

P x X x e dx

μ

σ

σπ

--

<≤=?

第四章 定量资料的参数估计与假设检验基础

一、名词解释

1.统计推断(statistical inference):从总体中随机抽取一定数量的观察单位作为样本进行抽样研究,然后由样本信息推断总体特征。

2.抽样误差(sampling error):由于个体变异存在,抽样研究所造成的各样本统计量之间以及样本统计量与总体参数之间的变异。

3.可信区间(confidence interval,CI):从已知总体中以固定n 重复随机抽样,根据每个样本可算得一个可信区间,则平均有1-α的可信区间包含了总体参数,而不是总体参数落在该范围的可能性是1-α。

4.中心极限定理(central limit theorem):讨论随机变量序列部分和分布渐近于正态分布的一类定理

5.小概率事件(small probability event ):概率≤0.05的随机事件,在以此观察或事件中发生的可能性很小,可认为不发生

二、简答题

1.可信区间和个体容许值参考区间 95%总体均数可信区间:

(μ?1.S

√n μ+1.S

n )

95%个体值容许区间 (医学参考值范围):

(μ?1.96S,μ+1.96S)

2. 假设检验的基本步骤

(1) 建立假设,确定检验水准

① H 0: μ = μ0 [零假设/无效假设] ② H 1: μ ≠ μ0 [备择假设] ③ α = 0.05 [检验水准] (2) 计算统计量

[根据资料的类型和分析目的选择适当的检验方法] 根据检验方法计算。 (3) 确定P 值,做出统计推断

(4) 根据统计量,查界值表得到P 值,根据P 和α确定假设成立与否,作出统计结论。 (5) P>α, 不拒绝H 0……

(6) P <α, 拒绝H 0,接受H 1……

可信区间的两个要素

准确度:反映在可信度上,可信度越大,准确度越高。

精密度:精密度反映在可信区间的宽度上,宽度越小,精密度越高。

在样本含量固定的情况下,增加可信度(1)α-,α变小,t 变大,可信区间变大——不能同时增加准确度和精密度。

但是在可信度(1)α-固定的情况下,增加样本含量,可缩小可信区间,提高精密度。

/2,/2,(αα-+v

v X t X t

第五章定量资料的t检验

一、名词解释

1.配对设计(paired design):一种比较特殊的设计形式,能较好控制非实验因素对研究结果的影响。

2.Ⅰ类错误:实际情况与H0一致,仅仅由于抽样的原因,使得统计量的观测值落到拒绝域,拒绝原本正确的H0,导致推断错误结论,这样的错误称为Ⅰ类错误。I类错误α(P<α时才会发生) 统计结果拒绝H0,但实际上H0是正确的。

3.Ⅱ类错误:实际情况与H0不符,由于抽样的原因,使得统计量的观测值落到接受域,不能拒绝原本错误的H0 ,导致推断错误,这样的错误成为Ⅱ类错误。II类错误β(P>α时才会发生)统计结果不拒绝H0,但实际上H0是错误的。

二、简答题

1.α和β的关系

1.样本量固定,α确定后,可计算β

2.样本量固定时,α越小,β越大。

3.若要同时减小α和β,需增加样本量。

不拒绝H0时,应了解检验效能的大小。

2.单样本t检验

t=X??μ

S X?

=

X??μ

S/√n

已知:

1.某样本A的均数X?

2.某总体B的均数μ

用途:检验某样本是否来自于某总体

适用条件:单样本定量资料且来自正态总体

3.配对样本t 检验

t =

d

??0S d /√n

用途:判断不同的处理方式是否有差别 适用情况:配对设计,差值服从正态分布

4.两独立样本t 检验

t =X ?1?X ?2S X ?1?X ?2

=

X

??X ?√S c 2(n 1

+

n 2

)

S X ?1?X ?2=√S c

2(1n 1+1n 2

) S c

2=(n 1?1)S 12+(n 2?1)S 2

2n 1+n 2?2=∑(X 1?X ?1)2+∑(X 2?X ?2)2n 1+n 2?2

ν=n 1+n 2?2

适用条件:

①两样本所代表的总体分别服从正态分布。 ②两总体方差相等。

③若方差不等,应使用t’检验。

用途:判断两个独立的组是否有差别

方差不齐:t ′=

?1?2√S 1n 1+S 2n 2

5.答题模板

①检验假设:

H0:μ0=μ1,总体均数相等 H1:μ0≠μ1,总体均数不相等 α=0.05

②计算统计量t 单样本 t =?0S/√n 配对样本 t =

?S /√n 两独立样本 t =X

?1?X ?2S X

?1?X ?2=

?1?2√S c

(1n 1+1n 2

)方差不齐 t ′=

?1?2√S 1n 1+S 2n 2

③确定p值:

t=xxx,查表得p=xxx<0.05,在α=0.05的水平上拒绝H0,接受H1,差异有统计学意义(或p>0.05,不拒绝H0,差异无统计学意义)。

四、课件要点

1.t检验基本适用条件

(1)设计:样本是来自总体的随机样本

(2)资料:定量

(3)分布:正态

(4)方差:相等(方差齐性)

2.正态性检验

(1)建立假设,确定检验水准

①H0: μ = μ0 [零假设/无效假设]

②H1: μ≠ μ0 [备择假设]

③α = 0.1 [检验水准]

(2)计算统计量

W检验或K-S检验等计算公式

(3)确定P值,做出统计推断

查界值表得P>0.1

按ɑ=0.1的检验水准,不拒绝H0,差异无统计学意义。即可以认为样本来自

于正态总体。

3.假设检验应注意的问题

(1)要有严密的研究设计

(2)选择检验方法必须符合资料的适用条件

(3)单侧检验和双侧检验的选择

(4)正确理解P值的意义

(5)结论不能绝对化

(6)可信区间与假设检验的区别和联系

第六章定量资料的方差分析

一、名词解释

1.总变异(total variation):样本中每个数值与总体均数不同,这种变异称为总变异。

2.组间变异(variation between groups):在实验中每个分组的均数与总均数不同,这种变异称为组间变异。

3.组内变异(variation within groups):每组中的每个观察值与该组的样本均数不同,这种变异称为组内变异。

4.完全随机设计(completely radomized design):将同质的受试对象随机分配到各个处理组,再观察其实验效应,是研究单因素多水平的实验设计方法。

5.单向方差分析(one-way ANVOA):完全随机设计只考察一个处理因素,统计分析处理因素各个水平组建均属有无显著差别。

6.随机区组设计(radomized block design):又称配伍设计,通常是将受试对象按性质相同或相近者组成b个区组,每个区组中的受试对象分别随机分配到k个处理组中。

7.析因设计(factorial design):将两个或多个实验因素的各水平进行全面组合,对各种组合都进行试验,探讨各实验因素的单独效应、主效应以及各因素之间的交互效应。

二、简答题

1.方差分析适用条件

①各样本是相互独立的随机样本,均服从正态分布。

②各样本的总体方差相等,可通过方差齐性检验来判断方差齐性。

不符合条件时:对数变换(log) 、box-cox变换

2.完全随机设计、随机区组设计的方差分析是如何分解变异的?

3.方差齐性检验的方法

? F 检验:22

2

1S S F =要求资料服从正态分布,只适用于两样本方差齐性检验。

? Batlett 检验:要求资料服从正态分布,可以用于多个样本的方差齐性检验。 ?

Levene 检验:不依赖总体分布的具体形式,而且可以用于多个样本的方差齐性检验。

4.两两比较的方法

①SNK (Students Newman Keuls)法:目的是比较每两个样本均数所代表的总体均数是否不同,其检验统计量为q ,又称q 检验。

②Dunnett 法:比较任意处理组与对照组的均数是否相同

在设计阶段就根据研究目的或专业知识而计划好的某些均数间的两两比较,它常用于事先有明确假设的证实性研究,如多个处理组与对照组的比较,某一对或某几对在专业上有特殊意义的均数间的比较等,可采用Dunnett 检验。Dunnett 法检验统计量为t D ,又称Dunnett-t 检验。

5.答题模板 ①假设

H0:X 组总体均数相同

H1:X 组总体均数不全相同 α=0.05

②计算统计量

③P=xxx <0.05,在α=0.05的检验水准上拒绝H0,差异有统计学意义,可认为X 组总体均数不完全相同,但还需进行两两比较(或p >0.05,不拒绝H0,差异无统计学意义,尚不能认为总体均数不全相同)

=T C T C D e

X X X X X X t S νν--==

=A B A B e X X X X X X q S νν--==

第七章 卡方检验

一、名词解释

1.行x 列表:行数或列数至少有一个超过2的统计表称为行(Row)×列(Column)表,也可以表示为R ×C 表。 可使用卡方检验的基本公式,也可以使用下面的专用公式:

2.卡方分布是一种连续型随机变量的概率分布。

①卡方分布是只有自由度v 一个参数的一簇曲线; ②自由度v ≤2时,曲线呈 L 型;

③随着自由度的增加,曲线逐渐趋于对称; ④自由度v →∞时,χ2分布趋于正态分布。

二、简答题

1.卡方检验基本思想和基本公式

基本思想:实际频数和理论频数吻合的程度

基本公式

A 为实际频数 (actual frequency)

T 为理论频数(theoretical frequency)

四格表专用公式(实际频数直接计算)

2.完全随机设计卡方检验

①n ≥40,T ≥5,可用基本公式或专用公式计算 ②n ≥40,1≤T <5,用Yates 校正公式 或

③n <40或T <1,或前两种方法p ≈α,用Fisher 确切概率法。

3.配对四格表的卡方检验(McNemar 检验)——格子里是对子数

T n n

n

R C

=)

)()()(()(22

d b c a d c b a n bc ad ++++-=

χ2

2

1R C A n n n χ??=- ?

??

∑)1- )(1-(列数行数=ν∑

-=T

T A 2

2

)(χ∑

--=T T A 22)5.0(χχ22

2=

--++++(/)()()()()ad bc n n

a b c d a c b d !!!!!)!

()!()!()!(n d c b a d b c a d c b a P ++++=

基本公式

当b+c<

当b+c<25,确切概率法。

4.RxC表注意事项

5.卡方分割法(Bonferroni 法)

6.答题模板

①假设:

H0:π1=π2,率相同

H1:π1≠π2,不同

α=0.05

②计算统计量(注意各种检验的适用条件和校正条件)

③X2=xxx,P=xxx<0.05,在α=0.05的检验水准拒绝H0,差异有统计学意义,可认为不同/不完全相同(或P>0.05,不拒绝H0,差异无统计学意义,尚不能认为不同)

注:当基本公式p值与校正公式p值对结果判定不同时,以Fisher确切概率为准

三、课件要点

1.卡方检验的用途

(1)多个样本率的比较

(2)两个或多个样本构成比的比较

(3)双向无序分类资料的关联性检验

第八章定性资料的统计描述

一、名词解释

1.相对数(relative number):指两个有联系的指标之比。

(1)率(rate):说明某现象出现的频率大小或强度。

(2)构成比(constituent ratio):说明某事物内部各组成部分所占比重或分布,常用

百分数表示。

(3)相对比(relative ratio):两个有关事物的指标之比,用以描述两者的对比水平。

2.动态数列(dynamic series):按时间顺序将一系列统计指标排列起来,用以观察

和比较该事物在事件上的变化和发展趋势。

二、课件要点

1.标准化法注意事项

(1)需要同时比较几个标准化率时,应使用同一个标准。

(2)标准化后的率不再反应实际水平,若要研究实际水平,应使用未标化的率。

(3)各组率若出现明显交叉,不应使用标准化法进行比较,如年龄组的率若出现明

显交叉,宜分别比较各年龄组死亡率,不应比较总死亡率。

(4)样本的标准化率的比较应进行假设检验。

2.应用相对数的注意事项

(1)计算相对数应有足够的观察单位数。

(2)不能以构成比代替率。

(3)对观察单位不等的几个率不能相加求平均率,应分别将分子和分母合计求合计

(4)相对数进行比较应注意可比性

(5)两个或多个率比较需进行假设检验

第九章秩和检验

一、名词解释

1.参数检验(parametric test):假定随机样本依赖于某已知分布的总体,推断对两个或两个以上总体参数是否相同的方法。

2.非参数检验(non-parametric test):不对总体分布做明确限定,仅对两个及两个以上样本是否来自同一分布总体进行假设检验的一种方法。

3.秩(Rank):对于样本,按由小到大排成一列,若数据X在这一列中占据第i位,称i

为X的秩。

4.相同秩(Ties,相持):在许多情况下,数据中会有相同的值出现,此时如果排秩的话就会出现同秩的现象,这种情况被称为数据中的相同秩。

二、简答题

1.非参数检验的优点:

(1)适用范围广。分布不明确的定量资料;等级资料;含有超限值资料

(2)受限制条件少。

(3)具有稳健性。对于难以确定分布又出现少量异常值的小样本数据,非参数检验

在剔除这些数据前后所得结论显示出其较好的稳健性

2.非参数检验的缺点:

(1)对于符合参数统计分析条件者,采用非参数统计分析,其检验效能较低

3.非参数检验的适用范围

(1)计量资料不满足正态或方差齐性条件

(2)对于分布不知是否正态的小样本资料

(3)超限值资料(一端或两端无确定数值)

(4)等级资料进行等级强度差别的比较

答题模板

(1)建立假设并确定检验水准

H0:两种方法检测结果相同,即差值的总体中位数为0

H1:两种方法检测结构不同,差值的总体中位数不为0

α=0.05

(2)计算统计量T

①省略所有差值为0的对子,令余下的有效对子数为n

②对剩余的差值的绝对值从小到大编秩,并根据差值的正负号标上符号。编秩时

遇到绝对值相同时取平均秩次。

③分别求正负秩次之和,用T+和T-表示,并任选正秩和或负秩和作为统计量值。

(3)确定P值,作出统计推断

三、课件要点

1.配对设计Wilcoxon符号秩检验(Wilcoxon signed-rank test)

● 比较目的是推断配对样本差值得总体中位数是否为0,也可以说是推断配对的两个

相关样本所来自的两个总体中位数是否相等。

● 符号秩和检验若用于

秩和检验。但对于等级资料大样本。 ● 步骤:

(1) 建立假设并确定检验水准 (2) 计算统计量

① 省略所有差值为0的对子,令余下的有效对子数为n

② 对剩余的差值的绝对值从小到大编秩,并根据差值的正负号标上符号。编

秩时遇到绝对值相同时取平均秩次。

③ 分别求正负秩次之和,用T+和T-表示,并任选正秩和或负秩和作为统计

量值。

(3) 确定P 值,做出统计推断

① 查表法: 5≤ n ≤50查界值表,若T 在上下界值范围内,P 大于表中上方

对应的概率水平;若T 等于上侧界值或下侧界值,P 近似等于表中上方对应的概率水平;若T 不在上下界值范围内,P 小于表中上方对应的概率水平。(内大外小)

② 正态近似法:当n>50超出界值表的范围时,可以使用正态近似法作Z 检

验。

=

Z 式中0.5为连续性校正数。

③ 排序时,出现相同秩次的现象称为相持或相同秩(tie )。当相持较多时(超

过总数的25%),用上式计算的Z 值偏小,需校正:

tj 为第j 个相同秩次的个数

2.两个独立样本比较的Wilcoxon 秩和检验● 两独立样本比较的Wilcoxon 秩和检验用于推断计量资料或样本所来自的两个总体分布是否有差别。 ● 步骤:

(1) 建立假设并确定检验水准 (2) 计算统计量:

① 把两样本数据混合小到大编秩,遇到数据相同的取平均秩次

② 分别求两样本秩次之和,用T 1和T 2表示(样本含量小的为T 1),选择T 1

作为统计量值T 。若样本含量相等,任取一个秩和作为T (T 1或T 2)。

(3) 确定p 值:

① 查表法:当n 1≤10以及n 2-n 1≤10时,可以查界值表确定概率值。查界值

表,若T 在上下界值范围内,P 大于表中上方对应的概率水平;若T 等于上侧界值或下侧界值,P 近似等于表中上方对应的概率水平;若T 不在上下界值范围内,P 小于表中上方对应的概率水平。(内大外小)

② 当n 1>10或者n 2-n 1>10时,可使用正态近似法作Z 检验。 c Z =Z ()331C j j Z t t C n n

-=-

-∑

当相持出现较多时

3.多个独立样本比较的秩和检验(Kruskal-Wallis H test)

● Kruskal-Wallis H 检验用于推断计量资料或等级资料的多个独立的样本所来自的多

个总体分布是否有差别。

● K-W H 检验的两两比较方法有很多,如:Nemenyi 法、Bonferron 调整法、扩展t

检验法等 ● 步骤

(1) 建立假设并确定检验水准 (2) 计算统计量

① 把各个样本数据混合小到大编秩,遇到数据相同的取平均秩次 ① 分别求各样本秩次之和,用R i 表示。 ② 计算统计量H n i 为第i 个样本的样本容量;R i 为第i 个样本的秩和n=∑n i

③ 当出现相同秩次时,算得H 值偏小,应进行校正,求校正H C 值。

t j 为第j 个相同秩次的个数

(3) 确定P 值,做出统计推断

① 查表法:当样本个数k=3以及每个样本例数n i ≤5时,可以查界值表确定

概率值。 ② 当k>3或k=3且至少有一组例数n i >5,则H 或H C 近似服从ν=k -1的χ

2

分布,可以查χ2

界值表确定概率值。

4.随机区组设计资料比较的秩和检验(Friedman ’s M test) ● 步骤

(1) 建立建设并确定检验水准 (2) 计算统计量M 值

① 将每个区组的数据小到大编秩,遇到数据相同的取平均秩次 ② 分别求各样本秩和

③ 计算M (3) 确定P 值,做出统计推断

① 查M 界值表:当b≤15以及k≤15时,可以查M 界值表确定概率值。 ② χ2界值表:超出界值表范围时,M 值近似服从自由度ν=k -1的χ2分布。

● Friedmen 检验两两比较可以使用q 检验

? 步骤

(1) 建立假设并确定假设检验 (2) 计算统计量q 值

① 按各组秩和由小到大排位次,并注明原组别和秩次

计算q

(3) 确定P 值,做出统计推断

● 在多组样本秩和检验中,对多个样本反复两两比较,会增 加第一类错误的概率。为保证第一类错误的概率总共不超过α 故对α 进行调整。 (1) 多组间的两两比较 k 组样本间,任两组均进行比较时,比较的次数为 k(k-1)/2,

212

()3(1)

(1)i i

R H n n n n =-++∑()()

33

1C j j H H C t t n n ==---∑,212

3(1)(1)

i M R b k bk k =-++∑(1)

12

q bk k +

检验水准α'为

(2)实验组与同一个对照组的比较k 组样本中,一个指定的对照组与其余各组比

较时,比较的次数为k ?1,检验水准α'为

总结:统计方法的选择

第九章简单回归与相关

第一节 直线回归分析 Simple Linear Regression

● 回归分析是研究一个变量和另外一个或一些变量间线性或非线性数量依存关系统

计分析方法。

● 总体线性回归方程

? μY │X 为对于X 各个取值相应的Y 的总体均数

? α常数项,即回归直线在Y 轴上的截距,回归直线与Y 轴的交点到原点的距离 ? 常数项α的取值有3种情况:

◆ α>0 回归直线与Y 轴的交点在原点上方 ◆ α=0 回归直线过原点

◆ α<0 回归直线与Y 轴的交点在原点下方 ? β为回归系数,即回归直线的斜率 ? 回归系数β的取值有3种情况:

◆ β>0 回归直线从左下方指向右上方,X 、Y 同向变化

◆ β=0 回归直线与X 轴平行,X 、Y 之间不存在线性依存关系 ◆ β<0 回归直线从左上方指向右下方,X 、Y 反向变化

? 回归系数β的统计学意义:自变量X 每改变一个单位,应变量Y 平均改变的单

位数。

● 样本回归方程

? ?为X 所对应的Y 的总体均数μY │X 的一个样本估计值,称为回归方程的预测值或

Y 的估计值 ? a 为常数项或截距,是α的样本估计值 ? b 为回归系数,是β的样本估计值

? 当a 、b 确定时,回归方程就可以唯一确定,所以求方程实际上就是指求解a 、

Y X αβε

=++Y X X μαβ=+?Y

a bX =+2)?(∑

-Y Y

b ,要求根据求解的a 、b 画出的直线能最好的代表数据点。 ● “最小二乘”原则:各点的残差平方和最小

● 残差:实测值Y 与回归直线上的Y 的估计值?的纵向距离Y-? ● 根据“最小二乘”原则,a 、b 的计算公式: ●

式中:l XY 为X 、Y 的离均差积和;

l XX 为X 的离均差平方和

● 回归分析的统计推断

(一)回归方程的假设检验

由资料求出样本回归方程,只是完成了统计分析中两变量关系的统计描述,但由于进行抽样研究中避免不了抽样误差,所以需要对样本所来自的总体是否存在直线回归关系进行检验,即:推断总体回归系数β是否为0。

? 1.方差分析

三个平方和以及相应自由度的关系: SS 总=SS 回归+SS 残差

ν总=ν回归+ν残差

? 2.t 检验 ?

(二)拟合优度检验与决定系数

()2

2

2

??()()

Y Y Y Y Y Y -=-+-∑∑∑MS SS F MS SS νν==

回归回归回归残差残差残差22XY XY XX XX

SS bl l l b l ===回归SS SS SS =-总残差回归2

b

b

t n S ν=

=-XY XX

l b l a Y bX ==-

医学统计知识点整理(1)

医学统计学知识点整理 第一节统计学中基本概念 一、同质与变异 同质:统计研究中,给观察单位规定一些相同的因素情况。 如儿童的生长发育,规定同性别、同年龄、健康的儿童即为同质的儿童。 变异:同质的基础上个体间的差异。 “同质”是相对的,是客观事物在特定条件下的相对一致性,而“变异”则是绝对的 二、总体与样本 1、总体:是根据研究目的所确定的,同质观察对象(个体)所构成的全体。 2、样本:是从总体中随机抽取的部分观察单位变量值的集合。 三、参数与统计量 总体参数:根据总体个体值统计计算出来的描述总体的特征量。用希腊字母表示。μ.δ.π 样本统计量:根据样本个体值统计计算出来的描述样本的特征量。用拉丁字母表示。X.S.p 总体参数一般是不知道的,抽样研究的目的就是用样本统计量来推断总体参数,包括区间估计和假设检验 四、误差:实测值与真值之差★ 1.随机误差:是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。随机测量误差、抽样误差。 2.系统误差:是一类恒定不变或遵循一定变化规律的误差,其产生原因往往是可知的或可能掌握的。 3.非系统误差:过失误差,可以避免或清除。 五、概率 是用来描述事件发生可能性大小的一个量值,常用P表示。概率取值0~1。 统计上一般将P≤0.05或P≤0.01的事件称为小概率事件,表示其发生的概率很小,可以认为在一次抽样中不会发生。 第二节统计资料的类型★

变量:确定总体之后,研究者应对每个观察单位的某项特征进行观察或测量,这种特征能表现观察单位的变异性,称为变量。 一、数值变量资料 又称为计量资料、定量资料:观测每个观察单位某项指标的大小而获得的资料。表现为数值大小,带有度、量、衡单位。如身高(cm)、体重(kg)、血红蛋白(g)等。 二、无序分类变量资料 又称为定性资料或计数资料:将观察对象按观察对象的某种类别或属性进行分组计数,分组汇总各组观察单位后得到的资料。 分类:二分类:+ -;有效,无效;多分类:ABO血型系统 特点:没有度量衡单位,多为间断性资料 【例题单选】某地A、B、O、AB血型人数分布的数据资料是( ) A.定量资料 B.计量资料 C.计数资料 D.等级资料 【答案】C 【解析】ABO血型系统人数分布资料属于无序分类变量资料,又称为计数资料。因为是按照变量的血型分类,血型表现为互不相容的属性。所以本题选C。 【例题单选】测量正常人的脉搏数所得的变量是() A.二分类变量 B.多分类变量 C.定量变量 D.定性变量 【答案】C 【解析】脉搏数有数值大小,有度量衡,所以这个资料属于定量资料。本题选C。 三、有序分类变量资料 半定量资料或等级资料:将观察对象按观察对象的某种属性的不同程度分成等级后分组计数,分组汇总各组观察单位后得到的资料。 特点:每一个观察单位没有确切值,各组之间有性质上的差别或程度上的不同举例:- + ++ +++ 第三节统计工作的基本步骤★ 1.统计设计 2.收集资料

医学统计学知识点范文.doc

第一章绪论 1、统计学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。 2、研究对象:具有不确定性结果的事物。 3、统计学作用:能够透过偶然现象来探测其规律性,使研究结论具有科学性。 4、统计分析要点:正确选用统计分析方法,结合专业知识作出科学的结论。 5、医学统计学基本内容:统计设计、数据整理、统计描述、统计推断。 6、医学统计学中的基本概念 (1) 同质与变异 同质,指根据研究目的所确定的观察单位其性质应大致相同。 变异,指总体内的个体间存在的、绝对的差异。 统计学通过对变异的研究来探索事物。 (2) 变量与数据类型 变量,是反映实验或观察对象生理、生化、解剖等特征的指标。 变量的观测值,称为数据 分为三种类型:定量数据,也称计量资料,指对每个观察单位某个变量用测量或其他定量方法准确获得的定量结果。(如身高、体重、血压、温度等) 定性数据,也称计数资料,指将观察单位按某种属性分组计数的定性观察结果。包括二分类、无序多分类。(进一步分为二分类和多分类,如性别分为男和女,血型分为A、B、O、AB等) 有序数据,也称半定量数据或等级资料,指将观察单位按某种属性的不同程度或次序分成等级后分组计数的观察结果,具有半定量性质。 统计方法的选用与数据类型有密切的关系。 (3)总体与样本 总体,指根据研究目的确定的所有同质观察单位的全体,包括所有定义范围内的个体变量值。 样本,是从研究总体中随机抽取部分有代表性的观察单位,对变量进行观测得到的数据。抽样,是从研究总体中随机抽取部分有代表性的观察单位。 参数,指描述总体特征的指标。 统计量,指描述样本特征的指标。 (4)误差 误差,指观测值与真实值、统计量与参数之间的差别。 可分为三种:系统误差,也称统计偏倚,是某种必然因素所致,不是偶然机遇造成的,误差的大小通常恒定,具有明确的方向性。 随机测量误差,是偶然机遇所致,误差没有固定的大小和方向。 抽样误差,是抽样引起的统计量与参数间的差异。 抽样误差主要来源于个体的变异。 统计学主要研究抽样误差。 (5)概率 概率,是描述某事件发生可能性大小的量度。 必然事件,事件肯定发生,概率P(U)=1; 随机事件,事件可能发生,可能不发生,概率介于0≤P(A)≤ 1; 不可能事件,事件肯定不发生,概率P(∮)=0; 小概率事件,事件发生的可能性很小,概率P(A)≤ 0.05、或P(A)≤ 0.01。 医学科研中,P(A)≤0.05作为事物差别有统计意义,P(A)≤ 0.01作为事物差别有高度统

医学统计学总结

医学统计学总结 一、绪论 1,医学统计学:运用概率论与数理统计学得原理与方法,研究医学领域中随机现象有关数据得搜集、整理、分析与推断,进而阐明其客观规律性得一门应用科学。 2,医学统计学得主要内容: 1) 统计研究设计调查研究设计与实验研究设计 2) 医学统计学得基本原理与方法研究设计与数据处理中得基本统计理论与方法。A:资料得搜集与整 理 B:常用统计描述,集中趋势与离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计与假设检验。 3)医学多元统计方法多元线性回归与逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、 logistic回归与Cox回归分析。 3,统计工作步骤: 1) 设计明确研究目得与研究假说,确定观察对象与观察单位,样本含量与抽样方法,拟定研究方案,预 期分析指标,误差控制措施,进度与费用。 2) 搜集材料 A, 搜集材料得原则及时、准确、完整 B, 统计资料得来源医学领域得统计资料得来源主要有三个方面。一就是统计报表,二就是经常性工作记录,三就是专题调查或专题实验。 C, 资料贮存 3) 整理资料 a检查核对b设计分组c拟定整理表d归表 4) 分析资料统计分析包括统计描述与统计推断 4,同质(homogeneity):指被研究指标得影响因素相同。 变异(variation):同质基础上得各观察单位间得差异。 变量(variable):收集资料过程中,根据研究目得确定同质观察单位,再对每个观察单位得某项 特征进行测量或观察,这种特征称为变量 变量值:变量得观察结果或测量值。 5,总体(population) 根据研究目得所确定得同质研究对象中所有观察单位某变量值得集合。总体 具有得基本特征就是:同质性 样本(sample) 从总体中随机抽取部分观察单位,其变量值得集合构成样本。样本必须具有代表 性。代表性就是指样本来自同质总体,足够得样本含量与随机抽样得前提。 统计量(statistics)描述样本变量值特征得指标(样本率,样本均数,样本标准差)。 参数(parameter)描述总体变量值特征得指标(总体率,标准差,总体均数)。

医学统计学章节重点归纳

医学统计学章节重点归纳 第一节概述 1、主要内容:a、卫生统计学的基本原理和方法(研究设计和数据处理中的统计理论和方法)b、健康统计(医 学人口统计、疾病统计和生长发育统计)c、卫生服务统计(卫生资源、医疗卫生服务的需求和利用、医疗保健制度和管理中的统计问题)。 2、 卫生统计工作的步骤:设计、资料的搜集、资料的整理、资料的分析 3、医学统计资料主要四个方面:统计报表、报告卡(单)、日常医疗卫生工作记录,专题研究或实验。 4、观察单位:是获得数据的最小单位,观察单位是根据研究目的确定的,观察单位可以是人、标本、家庭、国 家等。 5、变异:是指客观事物的多样性和不确定性。 6、变量: 观察单位的某种特征,称为变量。a、数值变量(定量变量)b、分类变量(定型变量或字符变量)。 7、总体:根据研究目的所确定的同质研究对象的全体。确切的说是性质相同的所有观察单位的某种变量的集合。 8、样本:从总体中随机抽取部分观察单位,其变量值就构成样本,通过样本信息来推断总体特征。 9、概率:事件发生的可能性大小的量度,通常以符号P表示。 10、误差:测量值与真值之差或样本指标和总体指标之差。分为随机误差和系统误差。 第二节数值资料的统计描述 1、频数分布就是观察值在所取得范围内分布的情况。重要特征:集中趋势和离散趋势。 2、频数分布类型:正态分布型频数、正偏态分布型频数,负偏态分布型频数。 3、集中趋势指标:算术平均数(均数)、几何均数、中位数。 指标使用条件计算公式 算术平均数适用于正态或近似正态分布 的数值变量资料 几何均数①对数正态分布,即数据经 过对数变换后呈正态分布的 资料;②等比级数资料,即 观察值之间呈倍数或近似倍 数变化的资料。 中位数①非正态分布资料(对数正 态分布除外);②频数分布 的一端或两端无确切数据的 资料③总体分布不清楚的资 料。为奇数 , 为偶数, 4、离散型趋势指标:极差、标准差和变异系数 指标计算公式主要优缺点 极差R=Xmax-Xmin 计算简单,便于理解;只考虑最大值与最小值之差异,不能反映 组内其它观察值的变异度,不稳定,受样本量影响很大。

医学统计学知识点总结

医学统计学 1. 对定量资料进行统计描述时,如何选择适宜的指标 定量资料统计描述常用的统计指标及其适用场合描述内容指 标 意义适用场合 平均水平;均 数 个体的平均值· 对称分布 几何均数平均倍数取对数后对称分布 中位数[ 位次居中的观察值 ①非对称分布;②半定量资料;③末端开 口资料;④分布不明 众 数 频数最多的观察值不拘分布形式,概略分析 ? 调和均数 基于倒数变换的平均值正偏峰分布资料 变异度全 距 观察值取值范围不拘分布形式,概略分析 标准差 (方差) 观察值平均离开均数的 程度对称分布,特别是正态分布资料 四分位数 间距 ? 居中半数观察值的全距 ①非对称分布;②半定量资料;③末端开 口资料;④分布不明 变异系数标准差与均数的相对比①不同量纲的变量间比较;②量纲相同但 数量级相差悬殊的变量间比较 定性资料:阳性事件的概率,概率分布,强度和相对比。 ¥ 2. 应用相对数时应注意哪些问题 答:(1)防止概念混淆相对数的计算是两部分观察结果的比值,根据这两部分观察结果的特点,就可以判断所计算的相对数属于前述何种指标。 (2)计算相对数时分母不宜过小样本量较小时以直接报告绝对数为宜。 (3)观察单位数不等的几个相对数,不能直接相加求其平均水平。 (4)相对数间的比较须注意可比性,有时需分组讨论或计算标准化率。 3. 常用统计图有哪些分别适用于什么分析目的 常用统计图的适用资料及实施方法 < 图形 适用资料实施方法 条图组间数量对比用直条高度表示数量大小 直方图用直条的面积表示各组段的频数或频率

( 定量资料的分布 百分条图构成比用直条分段的长度表示全体中各部分的构成比 饼图构成比用圆饼的扇形面积表示全体中各部分的构成比 定量资料数值变动线条位于横、纵坐标均为算术尺度的坐标系 、 线图 半对数线图定量资料发展速度线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标 系 散点图} 双变量间的关联点的密集程度和形成的趋势,表示两现象间的相关关系箱式图定量资料取值范围用箱体、线条标志四分位数间距及中位数、全距的位置茎叶图定量资料的分布' 用茎表示组段的设置情形,叶片为个体值,叶长为频数 第3章概率分布(连续随机变量的正态分布;离散随机变量的二项分布及Poisson分布)1. 服从二项分布及Poisson分布的条件分别是什么 二项分布成立的条件:①每次试验只能是互斥的两个结果之一;②每次试验的条件不变;③各次试验独立。 Poisson分布成立的条件:除二项分布成立的三个条件外,还要求试验次数n很大,而所关心的事件发生的概率 很小。 、 2. 二项分布、Poisson分布分别有什么特征 ①二项分布、Poisson分布都是离散型分布。 ②二项分布的形状取决于π与n的大小。π=时,不论n大小,对称分布。π≠时,图形呈偏态,随n增大而逐渐对称。当n足够大,π或1-π不太小,二项分布近似正态。 ③Poisson分布μ越小,分布越偏。μ越大,分布越对称。当n足够大时,分布接近正态。 4、正态分布应用 ①估计变量值的频数分布 《 ②制定参考值范围 ③质量控制 ④正态分布是很多统计方法的基础 5. 正态分布特征 ①以均数为中心,左右对称 ②正态曲线在横轴上方均数处取得最高点 ~ ③正态分布有两个参数,即均数(位置参数)和标准差(变异度参数)(μ,σ2 ;标准0,1)

医学统计学知识点汇总(精华)

医学统计学知识点汇总(精华) 一.概论 1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。 2,医学统计学的主要内容: 1)统计研究设计调查研究设计和实验研究设计 2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。 A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验。 3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。 3,统计工作步骤: 1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。 2)搜集材料 A,搜集材料的原则及时、准确、完整 B,统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。 C,资料贮存 3)整理资料 a检查核对b设计分组c拟定整理表d归表 4)分析资料统计分析包括统计描述和统计推断

4,同质(homogeneity):指被研究指标的影响因素相同。 变异(variation):同质基础上的各观察单位间的差异。 变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每 个观察单位的某项特征进行测量或观察,这种特征称为变量变量值:变量的观察结果或测量值。 5,总体(population)根据研究目的所确定的同质研究对象中所有观察单位某 变量值的集合。总体具有的基本特征是:同质性 样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。 样本必须具有代表性。代表性是指样本来自同质总体,足够的样 本含量和随机抽样的前提。

医学统计学重点总结

医学统计学 第一章 医学统计中的基本概念 1 医学统计工作的内容:设计,收集资料,整理资料,分析资料。 2 资料的类型:计量资料(数值变量),计数资料(无序分类),等 变异(variation):在同质的基础上被观察个体的差异。级分组资料(有序分类)。 3 同质(homogeneity):对研究指标有影响的非实验因素相同。 4 总体(population):根据研究目的确定的同质的全部研究对象称总体 。 样本(sample):根据随机化的原则从总体中抽出有代表性的一部分观察单位组成的子集称样本。 5 参数(parameter):总体的设计指标称为参数。 统计量(statistic):样本的统计指标称为统计量。 6 变量(variable):观察对象的特征或指标称为变量,测量的结果即为变量值。 7 概率(probability):描述随机事件发生的可能性的大小的一个量度,其概率介于0与1之间。 第二章 集中趋势的统计描述 一 算术均法(mean)简称为均数,适用于正态或近似正态分布资料 (一)直接法 X n x n X X X n ∑= +?++= 21 (二)加权法(针对频数表)n fx n x f f f X k k ∑= +++= (21) 二 几何均数(geometic mean,G)适用于倍数关系变化,经对数转换后呈正态分布(如:抗体滴度, 血清凝集效价,细菌计数,某些物质浓度等) G= n n X X X ?21 为了计算方便,常改用对数的形式计算,即=G lg 1 -( n X ∑lg ) 对于频数表资料,可用公式 G=lg 1 -( n x f ∑lg ) 三 中位数(M)与百分位数 中位数:适用于偏态分布资料,末端无确切数值的资料及分布情况不确定 公式:M=L+( M L f f n -5.0) M i L,M i ,M f 分别为M 所在组段的下限,组距与频数,L f 为M 所在组段之前各组数的累积频数。 百分位数:用符号X P 表示,x 即百分位 公式:x P =L+( x L f f x n -%·)x i 式中L,x i ,x f 分别为x P 所在组段的下限,组距与频数,L f 为x P 所在组段之前各组段的累积频数

医学统计学知识点梳理

医学统计学知识点梳理 Revised as of 23 November 2020

医学统计学知识点梳理 医学统计学:是用统计学原理和方法研究生物医学问题的一门学科。他包括了研究设计、数据收集、整理、分析以及分析结果的正确解释和表达。 统计描述:用统计指标、统计图表对资料的数量特征及分布规律进行客观的描述和表达。 统计推断:在一定的置信度和概率保证下,用样本信息推断总体特征: ①参数估计:用样本的指标去推断总体相应的指标 ②假设检验:由样本的差异推断总体之间是否可能存在的差异 同质:一个总体中有许多个体,他们之所以共同成为人们研究的对象,必定存在共性,我们说一些个体处于同一总体,就是指他们大同小异,具有同质性。 总体(population)是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。总体可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。 样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。样本应具有代表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。 随机抽样:随机抽样(random sampling)是指按照随机化的原则(总体中每一个观察单位都有同等的机会被选入到样本中),从总体中抽取部分观察单位的过程。随机抽样是样本具有代表性的保证。 变异:在自然状态下,个体间测量结果的差异称为变异(variation)。变异是生物医学研究领域普遍存在的现象。严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。 (1)计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data)。计量资料亦称定量资料、测量资料。.其变量值是定量的,表现为数值大小,一般有度量衡单位。 (2)计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(count data)。计数资料亦称定性资料或分类资料。其观察值是定性的,表现为互不相容的类别或属性。 (3)等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinal data)。

预防医学与医学统计学总结

绪论 进和维护健康,预防疾病、失能和早逝 二.预防医学特点:1.工作对象包括个体及确定的群体,主要着眼于健康和无症状患者;2研究方法注重微观和宏观相结合,但更侧重于影响健康的因素与人群的关系;3.采取的对策更具积极的预防作用,具有较临床医学更大的人群健康效应。 三.健康决定因素:指决定个体和人群健康状态的因素。包括:1、社会经济环境。2、物质环境3.个人因素。4卫生服务。 四.三级预防策略:1.第一级预防:又称病因预防,即防止疾病的发生。2.第二级预防:在疾病的临床前期做好早起发现、早期诊断、早起治疗的“三早”预防工作,以控制疾病的发展和恶化。3.第三级预防:对已患某些病者,采取及时的、有效的治疗措施,防止病情恶化,预防并发症和伤残,延长生命。 第一章流行病学概论 进健康的策略和措施的科学。 流行病学定义涵:1.流行病学的研究对象时人群。2.流行病学关注的事件包括疾病与健康状况。3.流行病学主要研究容是:(1)揭示现象(2)找出原因(3)评价效果。4.流行病学研究和实践的目的是防治疾病、促进健康。 二.流行病学基本原理:1.分布论。2.病因论。3.健康-疾病连续带。4预防控制理论(三级预防理论)5.数理模型。6.流行病学的几个基本原则:(1)群体原则(2)现场原则(3)对比原则(核心)(4)代表性原则 三.流行病学的用途:1.描述疾病及健康状况的分布。2.探讨疾病的病因。3.研究疾病自然史,提高临床诊断、治疗水平和预后评估。4.疾病的预防控制及其效果评价。5.流行病学分支。 第二章疾病分布 的存在方式及其发生、发展规律。 二.疾病分布的测量指标:1.发病率:指在一定期间(一般为1年)特定群中某病新病例出现的频率。 病频率的测量(日、周、旬、月),常用于疾病暴发或流行时的调查。 例。患病率=发病率*病程。 病的人数占所有易感接触者总数的百分率。 5.死亡率:指在一定时间期间(通常为1年),某人群中死于某病(或死于所有原因)的频率。死亡率是测量入群死亡危险最常用的指标。 6.病死率:表示一定时期,患某病的全部病人中因该病死亡者所占的比例。 三.疾病的分布形式(“三间分布”) 1.地区分布:疾病的地方性:由于自然环境和社会因素的影响而使一些疾病无需从外地输入,只存在于某一地区,或在某一地区的发病率水平总是较高,这种现象称为疾病的地方性。 2.时间分布 3.人群分布:出生队列分析:将同一时期出生的人划归为一组称为一个出生队列,对其随访观察若干年,观察死亡等情况。 4.判断疾病地方性的依据:(1)该病在当地居住的各群组

医学统计学考试重点整理

一、基本概念 1.总体与样本 总体:所有同质观察单位某种观察值(即变量值)的全体 样本:是总体中抽取部分观察单位的观察值的集合 2.普查与抽样调查 普查:就是全面调查,即调查目标总体中全部观察对象 抽样调查:是一种非全面调查,即从总体中抽取一定数量的观察单位组成样本,对样本进行调查 3.参数与统计量 参数:总体的某些数值特征 统计量:根据样本算得的某些数值特征 4.Ⅰ型与Ⅱ型错误 假设检验的结论 真实情况拒绝H0不拒绝H0 H0正确Ⅰ型错误(ɑ) 推断正确(1 ?ɑ) H0不正确推断正确(1?β) Ⅱ型错误(β) Ⅰ型错误(ɑ错误): H0为真时却被拒绝,弃真错误 Ⅱ型错误(β错误): H0为假时却被接受,取伪错误 5.随机化原则与安慰剂对照 随机化原则:是将研究对象随机分配到实验组和对照组,使每个研究对象都有同等机会被分配到各组中去,以平衡两组中已知和未知的混杂因素,从而提高两组的可比性,避免造成偏倚。(意义:①是提高组间均衡性的重要设计方法;②避免有意扩大或缩小组间差别导致的偏倚;③各种统计学方法均建立在随机化基础上) 安慰剂对照:是一种常用的对照方法。安慰剂又称伪药物,是一种无药理作用的制剂,不含试验药物的有效成分,但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样,不能被受试对象和研究者所识别。(安慰剂对照主要用于临床试验,其目的在于控制研究者和受试对象的心理因素导致的偏倚,并提高依从性。安慰剂对照还可以控制疾病自然进程的影响,显示试验药物的效应) 6.误差与标准误(区分率与均数) ㈠均数 抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。 标准误:是指样本均数的标准差,反映抽样误差大小的定量指标,其公式表示为S x =S/√n ㈡样本率 率的抽样误差:样本率p和总体率π的差异 率的标准误:样本率的标准差,公式为σp=√π(1-π)/n

医学统计学总结

医学统计学总结 一。绪论 1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学. 2,医学统计学的主要内容: 1) 统计研究设计调查研究设计和实验研究设计 2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法.A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验. 3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析. 3,统计工作步骤: 1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。 2)搜集材料 A,搜集材料的原则及时、准确、完整 B, 统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。 C,资料贮存 3)整理资料 a检查核对b设计分组c拟定整理表d归表 4)分析资料统计分析包括统计描述和统计推断 4,同质(homogeneity):指被研究指标的影响因素相同。 变异(variation):同质基础上的各观察单位间的差异。 变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某项 特征进行测量或观察,这种特征称为变量 变量值:变量的观察结果或测量值。 变量类型变量值表现实例资料类型 数值变量离散型 定量测量值,有计量单位产前检查次数 计量资料 连续型身高 分类变量无 序 二分类对立的两类属性性别(男女) 计数资料多分类不相容的多类属性血型(A,B,O,AB) 有 序 多分类类间有程度差异的属性受教育程度(小学,中 学,高中,大学…)等级资料5,总体(population) 根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。总体具有的基本特征是:同质性 样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。样本必须具有代表性.代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。 统计量(statistics)描述样本变量值特征的指标(样本率,样本均数,样本标准差)。

医学统计学总结

医学统计学总结 一.绪论 1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。 2,医学统计学的主要内容: 1)统计研究设计调查研究设计和实验研究设计 2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验。 3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。 3,统计工作步骤: 1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。 2)搜集材料 A,搜集材料的原则及时、准确、完整 B,统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。 C,资料贮存 3)整理资料 a检查核对b设计分组c拟定整理表d归表 4)分析资料统计分析包括统计描述和统计推断 4,同质(homogeneity):指被研究指标的影响因素相同。 变异(variation):同质基础上的各观察单位间的差异。 变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某 项特征进行测量或观察,这种特征称为变量 变量值:变量的观察结果或测量值。 5,总体(population)根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。总 体具有的基本特征是:同质性 样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。样本必须具有代 表性。代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。 统计量(statistics)描述样本变量值特征的指标(样本率,样本均数,样本标准差)。

医学统计学知识点梳理

第一章绪论 一、名词解释 1.统计学:是一门关于收集、分析、解释和表达数据的科学。 2.设计(design):根据研究的问题与目的,从统计学的角度对各步提前做出的周密计 划和安排。是整个研究的基础,是关键的一步。 3.收集资料(data collection):获得研究所需要的原始数据的过程。 4.整理资料(data storing):对收集到的原始资料进行归类整理汇总的过程。 5.分析资料(data analysis):对整理的资料进行统计分析,获取资料中有关信息的过程。 6.n同质(homogeneity):对观察指标影响较大且可以控制的主要因素尽可能的相同。 7.n变异(variation):同质基础上个体间的差异。 8.n.总体(population):根据研究目的确定的,所有同质研究对象的某些指标的集合。 9.n样本(sample):从总体中随机抽取的、数量足够的、能代表总体特征的部分研究 对象某些指标的集合。 10.参数(parameter):描述总体特征的指标称为参数。 11.统计量(statistic):描述样本特征的指标 12.变异(variation):对同质研究对象某指标值得波动性称为变异。 13.误差(error):实际观察值与客观真实值之差 14.系统误差(systematic error):在实际观测过程中,由受试对象、研究者、仪器设备、 研究方法、非实验因素影响等原因造成的有一定倾向性或规律性的误差。 15.过失误差:由科研工作者的失误或过错造成的误差。 16.n.抽样误差(Sampling error):由个体变异产生的,由于抽样造成的样本统计量与总 体参数的差异,称为抽样误差。 17.随机误差(random error):在没有过失误差和系统误差的条件下仍存在大量偶然无 法消除的不确定因素所引起的误差为随机误差。 18.n频率(frequency):在相同条件下,独立重复实验n次,其中事件A出现了m次, 那么事件A发生的频率记为f(A)=m/n,0≤f(A)≤1 19.变量(variable):观察结果的取值不能事先确定的某一特征叫随机变量(random variable)简称变量 20.n概率(Probability):描述随机事件发生可能性大小的度量(P)。取值范围:不可能 事件0~1。估计方法:当n足够大时,用频率估计概率。小概率事件:P ≤0.05(5%)或P ≤0.01(1%)称为小概率事件(习惯),统计学上认为不大可能发生。小概率原理即某事件发生的概率很小,可以视为只进行一次实验时,我们说这个事件是“不会发生的”,这句话在大多数情况下是正确的,但他一定有犯错误的时候。 21.资料(data):变量全部或部分测量值构成资料 22.计量资料(measurement data):每个研究对象的变量值为一数值,表现出有量的大 小,由这样一组研究对象定量观测值所构成的资料为计量资料。 23.计数资料(enumeration data):每个研究对象的变量值为互不相同的属性之一,由 这样一组研究对象定性变量值组成的资料为技术资料。 24.等级资料(ranked data):每个研究对象变量值为互不相容的属性之一,且这些属性 间有程度的递进或递减关系,有这样一组研究对象变量值组成的资料为等级资料。 25.实验因素(study factor):研究者根据研究目的在实验中需要观察并阐明其效应的因 素

医学统计学知识点

实用标准 文档大全第一章绪论 1、统计学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。 2、研究对象:具有不确定性结果的事物。 3、统计学作用:能够透过偶然现象来探测其规律性,使研究结论具有科学性。 4、统计分析要点:正确选用统计分析方法,结合专业知识作出科学的结论。 5、医学统计学基本内容:统计设计、数据整理、统计描述、统计推断。 6、医学统计学中的基本概念 (1) 同质与变异 同质,指根据研究目的所确定的观察单位其性质应大致相同。 变异,指总体内的个体间存在的、绝对的差异。 统计学通过对变异的研究来探索事物。 (2) 变量与数据类型 变量,是反映实验或观察对象生理、生化、解剖等特征的指标。 变量的观测值,称为数据 分为三种类型:定量数据,也称计量资料,指对每个观察单位某个变量用测量或其他定量方法准确获得的定量结果。(如身高、体重、血压、温度等) 定性数据,也称计数资料,指将观察单位按某种属性分组计数的定性观察结果。包括二分类、无序多分类。(进一步分为二分类和多分类,如性别分为男和女,血型分为A、B、O、AB 等) 有序数据,也称半定量数据或等级资料,指将观察单位按某种属性的不同程度或次序分成等级后分组计数的观察结果,具有半定量性质。 统计方法的选用与数据类型有密切的关系。 (3)总体与样本 总体,指根据研究目的确定的所有同质观察单位的全体,包括所有定义范围内的个体变量值。 样本,是从研究总体中随机抽取部分有代表性的观察单位,对变量进行观测得到的数据。抽样,是从研究总体中随机抽取部分有代表性的观察单位。 参数,指描述总体特征的指标。 统计量,指描述样本特征的指标。 (4)误差 误差,指观测值与真实值、统计量与参数之间的差别。 可分为三种:系统误差,也称统计偏倚,是某种必然因素所致,不是偶然机遇造成的,误差的大小通常恒定,具有明确的方向性。 随机测量误差,是偶然机遇所致,误差没有固定的大小和方向。 抽样误差,是抽样引起的统计量与参数间的差异。 抽样误差主要来源于个体的变异。 统计学主要研究抽样误差。 (5)概率 概率,是描述某事件发生可能性大小的量度。 必然事件,事件肯定发生,概率P(U)=1; 随机事件,事件可能发生,可能不发生,概率介于0≤P(A)≤ 1; 不可能事件,事件肯定不发生,概率P(∮)=0; 小概率事件,事件发生的可能性很小,概率P(A)≤ 0.05、或P(A)≤ 0.01。

医学统计学重点总结

<<医学统计学>>重点总结 1. 总体:根据研究的目的确定的同质研究对象中所有的观察单位变量值的集合。 2. 样本:按随机化原则从同质总体中随机抽取的部分观察单位某变量值的集合。 3. 同质:影响研究指标的主要因素易控制的因素基本上相同。 4. 抽样误差:在抽样研究中,由于变异的存在,即使在同一总体中抽取的几个样本,各样本统计量往往不等。样本统计量与总体参数也不等,这种由于抽样研究所至样本之间和样本与总体之间的差异称为。。。 5. 变量:观察指标在统计学上统称为指标变量,它反应的是生物个体间的变异情况,根据其性质可分为定性变量(分类)和定量变量(连续)。 6. 截尾数据:生存时间观察过程被人为的截止称为截尾,又称删失或终检。原因:失访/退出/ 终止(研究时限已到而终止观察)。 7. 卡方基本思想:X2分布是一种连续型分布,可用于检验资料的实际频数和按检验假设计算的理论频数是否相等等问题。X2反应实现了实际频数与理论频数的吻合程度。如果检验假设成立,则A-T 一般不大,X2应很小,即出现大X2值概率很小。即X2越大,P越小,若P≤a时,就怀疑假设的成立,拒绝H0。若P>a则没有理由拒绝H0。 8. X2用途: (1)实际频数与拟合频数拟合优度:A推断两个或两个以上总体率或构成比有无差别(四格表/行x 列表)。B两变量之间有无相互关系。C频数分布的拟合优度检验(判断次样本是否来自某种分布)。(2)某些分布可用X2近似。 (3)间接应用:如t分布和F分布就是在X2分布基础上推导出来的。 9. 方差分析的基本思想:根据研究目的和设计类型,把总体变异中离均差平方和分解成两部分或更多部分,也把总变异中的自由度相应分成两部分或更多部分,然后再进行比较,评价由某种因素引起的变异是否具有统计学意义。 10. 假设检验中P,a,b(倍他)的关系及统计学意义: a:检验水准,即显著性检验,在此概率之下的认为是小概率事件,统计学上以为此事件“不可能发生”,以此判断是否不拒绝H0无效假设,在假设检验中,按a检验水准,拒绝了原来正确的H0,即犯了第1类错误,犯此错误的概率为a。 b:在T假设检验中,按照a检验标准,没有拒绝原来错误的无效假设,即犯了第2类错误,犯次错误的概率是b。 P:是在H0成立时大于等于用样本计算的统计值出现的概率用P值与检验水准a比较,根据比较的结果作出统计判断。如果P≤a时,就怀疑假设的成立,拒绝H0。若P>a则接受H0拒绝H1。P值越小只能说明作出拒绝H0,接受H1的推论时犯错误的机会越小。 11.行x列表X2检验应注意: (1)行x列表中不宜有1/5以上格子的理论频数小于5或有一个格子的理论频数小于1,若发生上述情况可采用:A将理论频数过小的格子所在的行或列与性质相近的邻近行或列中的实际频数合并,使重新计算的理论频数增大。B删去理论频数过小的行或列。C增大样本含量以增大理论频数。 (2)当效应按强弱分为若干级别,则按实验结果可整理为单向有序行x列表,在比较各处理组的效应有无差别时,宜用秩和检验,ridit分析等。如作X2检验只说明各组构成比的差异有无统计学意义。

卫生统计学知识点总结

卫生统计学知识点总结-CAL-FENGHAI-(2020YEAR-YICAI)_JINGBIAN

卫生统计学 统计工作基本步骤:统计设计(调查设计和实验设计)、资料分析{收集资料、整理资料、分析资料【统计描述和统计推断(参数估计和假设检验)】。 ★统计推断:是利用样本所提供的信息来推断总体特征,包括:参数估计和假设检验。a参数估计是指利用样本信息来估计总体参数,主要有点估计(把样本统计量直接作为总体参数估计值)和区间估计【按预先设定的可信度(1-α),来确定总体均数的所在范围】。b假设检验:是以小概率反证法的逻辑推理来判断总体参数间是否有质的区别。 变量资料可分为定性变量、定量变量。不同类型的变量可以进行转化,通常是由高级向低级转化。 资料按性质可分为计量资料、计数资料和等级资料。 定量资料的统计描述 1频率分布表和频率分布图是描述计量资料分布类型及分布特征的方法。离散型定量变量的频率分布图可用直条图表达。 2频率分布表(图)的用途:①描述资料的分布类型;②描述分布的集中趋势和离散趋势;③便于发现一些特大和特小的可疑值;④便于进一步的统计分析和处理;⑤当样本含量足够大时,以频率作为概率的估计值。 ★3集中趋势和离散趋势是定量资料中总体分布的两个重要指标。 (1)描述集中趋势的统计指标:平均数(算术均数、几何均数和中位数)、百分位数(是一种位置参数,用于确定医学参考值范围,P50就是中位数)、众数。算术均数:适用于对称分布资料,特别是正态分布资料或近似正态分布资料;几何均数:对数正态分布资料(频率图一般呈正偏峰分布)、等比数列;中位数:适用于各种分布的资料,特别是偏峰分布资料,也可用于分布末端无确定值得资料。 (2)描述离散趋势的指标:极差、四分位数间距、方差、标准差和变异系数。四分位数间距:适用于各种分布的资料,特别是偏峰分布资料,常把中位数和四分位数间距结合起来描述资料的集中趋势和离散趋势。方差和标准差:都适用于对称分布资料,特别对正态分布资料或近似正态分布资料,常把均数和标准差结合起来描述资料的集中趋势和离散趋势;变异系数:主要用于量纲不同时,或均数相差较大时变量间变异程度的比较。 标准差的应用:①表示变量分布的离散程度;②结合均数计算变异系数、描述对称分布资料;③结合样本含量计算标准误。 定性资料的统计描述 1定性资料的基础数据是绝对数。描述一组定性资料的数据特征,通常需要计算相对数。定性变量可以通过频率分布表描述其分布特征。 2 指标频率型指标强度型指标相对比型指标 概念近似反映某一时间出现概率单位时间内某现象的发生 率 两个有关联的指标A和B之比 计算 公式 A/B 有无 量纲 无有可有、可无 取值 范围 【0,1】可大于1无限制 本质大样本时作为概率近似值分子式分母的一部分频率强度,即概率强度的 似 值 表示相对于B的一个单位,A有多少 位 A和B可以是绝对数、相对数和平均

医学统计学知识点梳理

医学统计学知识点梳理公司内部编号:(GOOD-TMMT-MMUT-UUPTY-UUYY-DTTI-

医学统计学知识点梳理 医学统计学:是用统计学原理和方法研究生物医学问题的一门学科。他包括了研究设计、数据收集、整理、分析以及分析结果的正确解释和表达。 统计描述:用统计指标、统计图表对资料的数量特征及分布规律进行客观的描述和表达。 统计推断:在一定的置信度和概率保证下,用样本信息推断总体特征: ①参数估计:用样本的指标去推断总体相应的指标 ②假设检验:由样本的差异推断总体之间是否可能存在的差异 同质:一个总体中有许多个体,他们之所以共同成为人们研究的对象,必定存在共性,我们说一些个体处于同一总体,就是指他们大同小异,具有同质性。 总体(population)是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。总体可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。 样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。样本应具有代表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。 随机抽样:随机抽样(random sampling)是指按照随机化的原则(总体中每一个观察单位都有同等的机会被选入到样本中),从总体中抽取部分观察单位的过程。随机抽样是样本具有代表性的保证。

变异:在自然状态下,个体间测量结果的差异称为变异(variation)。变异是生物医学研究领域普遍存在的现象。严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。 (1)计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data)。计量资料亦称定量资料、测量资料。.其变量值是定量的,表现为数值大小,一般有度量衡单位。 (2)计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(count data)。计数资料亦称定性资料或分类资料。其观察值是定性的,表现为互不相容的类别或属性。 (3)等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinal data)。 概率:概率(probability)又称几率,是度量某一随机事件A发生可能性大小的一个数值,记为P(A),P(A)越大,说明A事件发生的可能性越大。0﹤P(A)﹤1。 频率:在相同的条件下,独立重复做n 次试验,事件A 出现了m 次,则比值m/n 称为随机事件A 在n 次试验中出现的频率(freqency)。当试验重复很多次时P (A)= m/n。 随机误差(random error)又称偶然误差,是指排除了系统误差后尚存的误差。它受多种因素的影响,使观察值不按方向性和系统性而随机的变化。误差变量一般服从正态分布。随机误差可以通过统计处理来估计。

相关文档
最新文档