医学统计学重点Word版

医学统计学重点

第一章绪论

1.基本概念：

总体：根据研究目的确定的性质相同或相近的研究对象的某个变量值的全体。

样本：从总体中随机抽取部分个体的某个变量值的集合。

总体参数：刻画总体特征的指标，简称参数。是固定不变的常数，一般未知。

统计量：刻画样本特征的指标，由样本观察值计算得到，不包含任何未知参数。

抽样误差：由随机抽样造成的样本统计量与相应的总体参数之间的差异。

频率：若事件A在n次独立重复试验中发生了m次，则称m为频数。称m/n为事件A在n次试验中出现的频率或相对频率。

概率：频率所稳定的常数称为概率。

统计描述：选用合适统计指标(样本统计量)、统计图、统计表对数据的数量特征及其分布规律进行刻画和描述。

统计推断：包括参数估计和假设检验。用样本统计指标(统计量)来推断总体相应指标(参数)，称为参数估计。用样本差别或样本与总体差别推断总体之间是否可能存在差别，称为假设检验。

2.样本特点：足够的样本含量、可靠性、代表性。

3.资料类型：

（1）定量资料：又称计量资料、数值变量或尺度资料。是对观察对象测量指标的数值大小所得的资料，观察指标是定量的，表现为数值大小。每个个体都能观察到一个观察指标的数值，有度量衡单位。

（2）分类资料：包括无序分类资料（计数资料）和有序分类资料（等级资料）

①计数资料：是将观察单位按某种属性或类别分组，清点各组观察单位的个数(频数)，由

各分组标志及其频数构成。包括二分类资料和多分类资料。

二分类：将观察对象按两种对立的属性分类，两类间相互对立，互不相容。

多分类：将观察对象按多种互斥的属性分类

②等级资料：将观察单位按某种属性的不同程度、档次或等级顺序分组，清点各组观察单

位的个数所得的资料。

4.统计工作基本步骤：统计设计、资料收集、资料整理、统计分析。

第二章实验研究的三要素

1.实验设计三要素：被试因素、受试对象、实验效应

2.误差分类：随机误差（抽样误差、随机测量误差）、系统误差、过失误差。

3.实验设计的三个基本原则：对照原则、随机化分组原则、重复原则。

4.实验设计方法

有析因设计正交试验设计均匀试验设计

交互作用两组：异体配对设计同体配对设计交叉设计无随机同期对照实验设计（单因素两水平）扩展

多组：单因素多水平配伍组设计拉丁方设计

（两因素多水平）（三因素多水平）配伍组设计：也称随机区组设计，将条件相近的受试对象配伍，每个配伍组中的对象随机分配到各处理组中。

析因设计：考察两个或两个以上的处理因素，将各个因素的水平进行全面组合,每个组合下至少有两个以上的观察对象重复测量。一般来讲，应尽可能安排等重复试验，以简化计算，2-3个水平数。优点是全面性和均衡性较好，可同时分析处理因素的效应及因素间的交互作用。拉丁方设计：用于三因素等水平无交互。

第三章定量资料的统计描述、参考值范围

1.频数表编制过程（了解）

（1）找出样本数据的最大值和最小值，计算极差 R；

（2）分组：确定分组的组距 d 和组数 k；

一般n<50，5-6组；n在100左右，7-10组；n>100，10-15组

（3）求频率密度：统计频数，算出频率、频率密度和累积频率；

（4）画出直方图。

2.频数表和直方图的作用：用于观察个数较多资料的统计描述，可以直观提示资料的分布特征和分布类型。

3.集中趋势、离散趋势的指标及适用范围

（1）集中趋势：x，G，M，P

x ，M

算术均数：适用于对称分布；

不适用于偏态分布和资料中出现极值的资料。

几何均数：适用于呈倍数关系的资料或对数正态分布的资料，尤其是正偏态分布。

不适用与观察值中有0或正负数值同时出现的资料。

中位数：适用于大样本偏态分布或分布情况不明的资料或资料中有不确定数值的资料。

百分位数的作用：多个百分位数结合使用，全面描述数据分布的特征;

用于确定医学参考值范围（偏态或分布不明的资料）。

众数：适用于大样本，较粗糙。

（2）离散趋势：

极差：优点：简单明了、容易使用。

缺点：①只反映最大值和最小值间的差异，不能反映其他观察值的变异程度。

②样本容量越大，极差可能越大。

③极差的抽样误差大，不稳定。

四分位数间距：适用于确定医学参考值范围，与中位数一起描述偏态分布资料变异程度。

缺点：类似于极差，利用度低。

方差与标准差：与均数一起描述对称分布,特别是正态分布的分布特征。

变异系数：适用于：①适用于比较度量衡单位不同资料的变异度。

②比较均数相差悬殊的资料的变异度。

③衡量实验精密度和稳定性的常用指标。

（3）频数分布特征

高峰在中间，左右大致对称，称为对称分布。平均数=中位数=众数

高峰偏向小值的一侧（左侧），称正偏态分布（亦称右偏态）。平均数>中位数>众数高峰偏向大值的一侧（左侧），称负偏态分布（亦称左偏态）。平均数<中位数<众数

对称分布正（右)偏态分布负（左)偏态分布 4.正态分布图形的特点及意义

（1）特点：①f （x ）关于x=μ对称 ②x=μ时取得最大值

③在x=μ±σ处为拐点，且以 x 轴为水平渐近线 ④f （x ）大于0

⑤P （x=a ）=0

⑥若 f (x) 在点 x 处连续，则F ′（x ）=f (x) （2）意义：?

+∞∞

-)(x f =1，f （x ）在负无穷到正无穷的积分值为1，即曲线下方面积为1。

5.μ和σ2的意义

μ：位置参数，当σ固定时，μ增大，曲线沿横轴向右移动；μ减小，曲线沿横轴向左移动。 σ2：形状参数，当μ固定时，σ越大，曲线越矮胖；σ越小，曲线越高瘦。

6.标准化变换

-x x ～N （μ，σ2） z ～N （0，1） F （x)=Ф(σμ-x )=Ф(z) 即P (X ≤x)=Ф(σ

-x )=P (Z ≤z)

P (a

σμ-b )-Ф(σμ-a P (σμ-a <σ

μ-x <σμ-b )=P (σμ-a < Z <σμ

-b )

7.标准正态分布界值

规定：界值右侧曲线下方面积等于它的下角标。下角标一致，x 轴上方中间面积一致。双

侧

界

值

：

P (|z|≤z 2α)=1-α P (z

α)=1-2α

P (|z|≥z 2α)=α P (z>z 2

α)=2α

单侧界值：

上限：下限：

P （z>z α）=α P （z>z 1-α）=1-α P （z

8.正常值范围及意义

概念：医学临床中，常将就诊者的某些生理、生化、免疫学指标的测定结果，与排除了对研究指标有影响的疾病和有关因素的大多数“正常人”的相应数值进行比较，以就诊者的测定值是否超出了大多数“正常人”相应指标的波动范围，作为临床诊断的重要参考，又称医学参考值范围。

意义：95%的参考值范围含义是指：样本中有95%的个体测定值在所求范围之内。以95%的置信区间来说，意义是：该区间以95%的概率包含了待估计的参数，这种估计的可信度是95%，会冒5%的风险。公式：双侧95%的界限值：x ±1.96s 单侧95%的上限值：x +1.645s 单侧95%的上限值：x -1.645s

第四章总体均数的估计、假设检验

1.标准误

（1）概念：每次样本计算出的x 不同，这些x 的标准差称为均数的标准误。

（2）意义：是衡量样本统计量抽样误差大小的统计指标。

（3）与标准差的区别：二者都是描述变异程度的指标，标准差描述个体值的变异，标准误描述统计量的变异。（4）均数标准误的公式：S x =

s 2.置信区间

（1）定义：设θ为总体的未知参数，若由样本确定的两个统计量θ1（x 1、x 2、…、xn)和θ2(x 1、 x 2、…、x n )，且θ1<θ2，对于预先给定的值α(0<α<1)，若满足P(^θ1<^

θ2）=1-α，则称随机区间（^θ1，^θ2）为θ的1-α置信区间，其中称为^θ1置信下限，称为^

θ2 置信上限，1-α称置信度。

（2）意义：区间（^θ1，^θ2）包含有参数θ的概率为1-α，不能说θ在（^θ1，^

θ2）的概率为 1-α。

例：可以说（a ，b ）包含均数μ的概率为95%，不能说μ在（a ，b ）的概率为95%。（3）公式：单个正态总体均数μ的区间估计

①σ已知：

双侧：n

z x σα2

± 即 x z x σα2

z 分布

单侧：n

z x σ

± 即 x z x σα±

②σ未知：

双侧：n s

t x 2

± 即 x s t x 2

α± 小样本（n ≤50） t 分布

单侧：n

t x α± 即 x s t x α±

双侧：n s

z x 2

± 即 x s z x 2

α± 大样本（n>50） z 分布

单侧：n

z x α± 即 x s z x α± （4）两要素：

准确度：由1-α 决定，1-α 越大，准确度越高。精确度：由区间长度决定。

99%置信区间准确度高于95%置信区间。95%置信区间精确度更高。

3.抽样分布

（1）t 分布

①定义：来自正态总体的一组样本，x 和s 分别是样本的均数和标准差。则t=n

s x /μ-～

t 分布，自由度 df=n-1，极限分布是标准正态分布。 ②图形分布特征：

以0为中心，左右对称的单峰分布。自由度越大，越高瘦 ③界值：双侧：

P (|t|≤t 2α)=1-α P (t

α)=1-2α

P (|t|≥t 2α)=α P (t>t 2

α)=2α

单侧：

上限：下限：

P （tt α）=α P （t>t 1-α）=1-α （2）χ2分布

①定义：若从均数为μ，标准差σ的正态总体中，每次抽取样本含量为n 的样本，计算样本标准差s ，则χ2=（n-1）s 2/σ2服从自由度df=n-1的χ2分布。 ②图形分布特征：曲线偏向左边自由度越小曲线越偏 ③

界

值：

双侧：

P (x 2

>x 2

α)=2α P (x 2>212α-

x )=1-2α P (x 2

α)=1-2α P (x 2<212α-

x )=

2α 单侧：

上限：下限：

P （x 2>x 2α）=α P （x 2>x 21-α）=1-α P （x 2

①定义：如果分别从两个正态总体N （μ1，σ1）和N （μ1，σ1）中随机抽取样本含量 n 1、n 2的两个样本，算出样本均数和方差分别为x 1，s 21和x 2，s 2

2，则σ

σ22

22121//s s F =

服从df 1=n 1-1，df 2=n 2-1的F 分布。

若χ1

、χ2

分别服从自由度df 1

、df 2

的χ2

分布，则F=df

1//

χχ～df 1df 2

②图形分布特征曲线偏向左边

df 1、df 2同时增大，曲线趋向于对称 ③倒数性质：F df df )(),1(2,1α-=

F df df

)

(

④界值：双侧：

P (F>F 2α)=2α P (F>2

1α-F )=1-2α

P (F

α)=1-2α P (F<2

1α-F )=2α

单侧：

上限：下限：

P （F>F α）=α P （F>F 1-α）=1-α P （F

）

=1-α P （F

）

=α

4.假设检验

（1）基本思想：反证法、小概率事件原理

（2）基本步骤：

①建立假设，确定检验水准

H0：原假设，差异存在但不显著或差异无统计学意义

H1：备择假设，差异显著或差异有统计学意义

②在原假设成立条件下，选择统计方法并计算检验统计量。（认为误差由抽样产生）

参数检验统计量要求满足：

i)在H0成立的条件下，服从特定的抽样分布；

ii)必须包含要检验的总体参数；

iii)对于给定的样本数据，能计算出该检验统计量的数值。

③对于给定的α值做出检验结论，并给以专业解释

判断P值：（与界值比较，反查界值表确定范围，软件计算）

若P>α，则接受 H

0，拒绝H

;若P<α，则拒绝 H

，接受H

。

（3）检验方法：

正态性检验、方差齐性检验、t检验

（4）两类错误

①第一类错误又称弃真错误、假阳性错误，第二类错误又称取伪错误、假阴性错误。

②P≤α时，拒绝H

，可能犯Ⅰ类错误（α）。此时，P值越小，犯Ⅰ类错误的概率越小，结论越可靠。

③P>α时，接受H

，可能犯Ⅱ类错误（β）。此时，虽然β未知，但P值越大，犯Ⅱ类错误的概率越小，结论越可靠。

④减少（增加）I型错误，将会增加（减少）II型错误

⑤增大n，可以同时降低两类错误。

第五章方差分析

1.方差分析基本思想

目的：根据各个总体的样本观测值，检验各个总体均值间和两两总体均值间是否存在显著性差异。

基本思想：根据离差来源的不同，将总离差平方和分解为两部分：

由试验的随机因素（误差）引起的组内离差，

由因素的作用（即处理水平不同）引起的组间离差。

总离差平方和 = 组内离差平方和+ 组间离差平方和（SS

T = SS

+ SS

）

2.方差分析

单因素方差分析、配伍组设计方差分析、析因设计方差分析

拉丁方设计方差分析、正交设计方差分析

交叉设计方差分析、组内分组设计方差分析

第六章双变量相关与回归

1.散点图特征

正相关完全正相关负相关完全负相关

不相关

2.相关系数意义及分类

（1）意义：

①相关系数r 的大小反映随机变量X 和Y 之间线性关系的密切程度：若 r=0，则 X 与 Y 不相关；若 |r|=1，则 X 与 Y 完全相关。

②相关系数r 的符号反映随机变量X 和Y 之间线性关系的相关方向：若 0

①积差相关系数：双变量为服从正态分布的计量资料

②等级相关系数：等级或相对数资料；不服从正态分布；总体分布类型未知。（3）适用范围：

两个变量必须是随机变量，即变量的取值在实验前或测定前是无法预先知道的。

3.线性相关分析和回归分析的联系与区别

（1）联系： ①r=l

l xy

/ l xx 、l xy 分别是x 、y 的标准差

②方向一致，r 与b 方向一致

③r 与b 的假设检验等价，即同一样本存在：t r =t b

④回归强度与相关强度：R 2=SS 回/SS 总=r 2 （仅限Ⅱ型回归）

（2）区别： ①资料