[临床医学]常用医学统计方法胡国清

合集下载

〖医学〗常用医学统计方法--医学统计方法概述

2020/10/8
二、资料的类型
1、定量变量(numerical variable)
也称数值变量或计量资料,即用定量方法测得的变量值称为定量变量。表现为数值的大小, 常有度量衡单位。
2、定性变量(categorical variable)
也称分类变量,即按某种属性或类别分组,所得的各组变量值个数称为定性变量。表现为互不相容的类别或属性。
У
Ю砺厶逑 - 东方医学和西方医学（即西医）的融合形成现代系统医学。该体系所涉及的一切问题不管从广度上，还是从深度上，都应该远远超过现有的中西医学理论，并将现有中西医学理论纳入自己的理论框架范围之内。为了肩负起这一历史使命，原创人生、医学理论体系 ——灵魂医学 soul medicine应运而生，她不但从宏观上或战略上圆满解释并解决了存在于人类医学及人文社会科学史上的一切疑难模糊问题，而且还能够使人们得以启迪人生，不得不重新认识人类自身、不得不重新认识人类赖以生存的这个多维世界对象的医学科学，故不能解现今医学分为传统医学、基于“ 生物-医学模
根据各类别之间有无程度上的差别又分为无序分类(unordered categories)和有序分类(ordinal categories)变量,有序分类又称等级资料。
2020/10/8
根据分析的需要,各类变量间可以互相转换。但原始资料应尽量保存数值变量,以便分析资料时可根据需要进行转换。
例9.1(P155),某市某年调查的120名8岁男孩身高(cm)资料。
同质(homogeneity)是指被研究指标(变量)的影响因素相同。在统计学中可以把同质理解为除处理因素外,影响被研究指标较大的、可以控制的主要因素尽可能相同。

常用医学统计学方法汇总

选择合适的统计学方法1连续性资料1.1 两组独立样本比较1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。

1.1.2 资料不符合正态分布，（1）可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验；（2）采用非参数检验,如Wilcoxon检验。

1.1.3 资料方差不齐，（1）采用Satterthwate 的t’检验；（2）采用非参数检验,如Wilcoxon 检验。

1.2 两组配对样本的比较1.2.1 两组差值服从正态分布，采用配对t检验。

1.2.2 两组差值不服从正态分布，采用wilcoxon的符号配对秩和检验。

1.3 多组完全随机样本比较1.3.1资料符合正态分布，且各组方差齐性，直接采用完全随机的方差分析。

如果检验结果为有统计学意义，则进一步作两两比较，两两比较的方法有LSD检验，Bonferroni法，tukey 法，Scheffe法，SNK法等。

1.3.2资料不符合正态分布，或各组方差不齐，则采用非参数检验的Kruscal－Wallis法。

如果检验结果为有统计学意义，则进一步作两两比较，一般采用Bonferroni法校正P值，然后用成组的Wilcoxon检验。

1.4 多组随机区组样本比较1.4.1资料符合正态分布，且各组方差齐性，直接采用随机区组的方差分析。

如果检验结果为有统计学意义，则进一步作两两比较，两两比较的方法有LSD检验，Bonferroni法，tukey 法，Scheffe法，SNK法等。

1.4.2资料不符合正态分布，或各组方差不齐，则采用非参数检验的Fridman检验法。

如果检验结果为有统计学意义，则进一步作两两比较，一般采用Bonferroni法校正P值，然后用符号配对的Wilcoxon检验。

****需要注意的问题：（1）一般来说，如果是大样本，比如各组例数大于50，可以不作正态性检验，直接采用t 检验或方差分析。

因为统计学上有中心极限定理，假定大样本是服从正态分布的。

循证医学实践中常用的统计分析指标和方法

循证医学实践中常用的统计分析指标和方法循证医学是一种基于科学方法、临床经验和病患价值观的医学实践方法。

在循证医学中，统计分析是非常重要的一环，帮助医生和研究人员判断不同治疗方法的有效性和副作用。

本文将介绍循证医学中常用的统计分析指标和方法。

一、描述性统计指标1. 平均数（Mean）：平均数是一组数据的总和除以数据的个数，用来表示样本或总体的中心位置。

2. 中位数（Median）：中位数是一组数据按顺序排列后位于中间的数值，可以用来衡量数据的分布偏移程度。

3. 众数（Mode）：众数是一组数据中出现次数最多的数值，常用于表达数据的集中趋势。

4. 方差（Variance）：方差衡量数据集中在平均值附近的程度，是各数据离平均值的偏差平方的平均，用来衡量数据的离散程度。

5. 标准差（Standard Deviation）：标准差是方差的平方根，用来度量数据偏离平均值的平均距离，标准差越大表示数据的离散程度越大。

二、推断统计方法1. 假设检验（Hypothesis Testing）：假设检验用于判断两组数据之间的差异是否具有统计学意义，常用于对比不同治疗方法的疗效。

2. 置信区间（Confidence Interval）：置信区间是用来表示样本估计值的不确定性范围，通常以95%的置信水平表示。

3. 相关分析（Correlation Analysis）：相关分析用来研究两组变量之间的关系强度和方向，常用于评估治疗方法与结果之间的关联性。

4. 回归分析（Regression Analysis）：回归分析用来建立预测模型，通过研究自变量与因变量之间的关系，预测结果变量的数值。

5. 生存分析（Survival Analysis）：生存分析用来研究某一事件发生时间与其他因素之间的关系，常用于评估治疗方法对患者生存时间的影响。

三、实例应用以某种药物疗效评估为例，研究者收集了100位患者的数据，其中50位接受药物A治疗，50位接受药物B治疗。

临床科研中常用的统计分析方法

2.2 临床试验的优效性、等效性、非劣效性检验方法
差异性检验：通常所用的统计分析方法都是进行的差异性检验
临床试验的三种检验，确切的说是为三种设计而进行的分析方法
金丕焕. 临床试验. 复旦大学出版社.p86
统计分析方法同差异性检验方法，但是单侧检验。须在研究设计阶段确定。
可信区间估计
0
S
2 1a
S
2 2a
S
2 aa
协方差阵的球对称性是指该对角线元素（方差）
相等、非主对角线元素（协方差）为零
若球对称性得不到满足，方差分析的F值是有偏的，会增大Ⅰ类错误的概率
2. 用Mauchly法检验协方差阵的球形性质
如果P值大于α，说明协方差阵的球对称性质得到满足。否则，必须对与时间有关的F统计量的分子和分母自由度进行调整，减少Ⅰ类错误的
平行性假定：
•各组协变量和因变量的关系是线性的
•各组残差正态 •各组回归斜率相等，即各组回归线是平行的
ˉ
三、协方差举例
1、比较三种猪饲料 A1，A3，A3对猪催肥的效果，测得每头猪增加的重量（y）与初始重量（x）与数据如表。试测定三种饲料对猪的催肥有无显
著的不同？初始重量与猪的增加重量之间有无明显的关系？
受试者 1 2: n
测量时间点
1 2…
p
yy1211
yy1222
… …
yy12pp
yn1 yn2 …
y np
2.多组重复测量（多组并不等于多因素）
指将受试者按处理的不同水平分为几个组，对这些组内的每一受试者，都在不同时间点对他们的反应变量进行测量。
表3.1（余松林）
● 单变量重复测量方差分析
1. 单组重复测量数据方差分析 2. 两组重复测量数据方差分析

临床医学科研中的常用统计方法-2013.7.16

四、数据的统计描述
2、常用统计图的类型和图形的选择
返回目录
五、统计学检验方法的选择
（一）单变量定量资料统计学检验方法的选择
五、统计学检验方法的选择
（二）单变量定性资料的统计学检验方法的选择
五、统计学检验方法的选择
（三）单变量等级资料统计学检验方法的选择
等级资料分组比较多用非参数检验，
若为两组配对等级资料的比较，选Wilcoxon符号秩和检验若为两组独立样本等级资料的比较，选Wilcoxon两样本秩和检验若为多组独立样本等级资料的比较，选Kruskal-Wallis H检验若为多组配伍设计的等级资料的比较，选用随机区组设计的Friedman M检验。
2）标目：有横标目和纵标目。横标目反映主要研究的事物和现象，位于表的左侧，说明每行数字的含义；纵标目是用来说明主语的统计指标，位于表的上端，说明各列数字的含义。标目的文字应简明扼要，有单位的要用括号注明单位
四、数据的统计描述
2、列表要求 3）线条：最基本的线有三条，即顶线、底线和纵标目与表体之间的分隔线。如需合计，则各组数字与“合计”数字之间也可有分隔线。如果需要有总标目，则纵标目与总标目之间也要画线分开。表中更不能有斜线和纵线 4）数字：表中的数字一律使用阿拉伯数字，同类指标数据应取相同的小数位，位次对齐。当数据不详时可用“…”填充，无数据时用“－”表示，零值应用“０”表示 5）备注：一律列在表的下方，可用“*”等符号表
2、分类变量的代码：输入计算机进行统计分析表示：如性别（男/女）、疾病（有/无）、结局（存活/死亡）等二分类变量，采用代码0、1表示，对于多分类变量，可以采用代码1、2、3、4、5…来表示各个类别
二、变量类型及处理

常用医学统计的分析方法

VS
详细描述
平均数是一组数据之和除以数据的个数，用于描述数据的平均水平。中位数是将数据从小到大排序后，位于中间位置的数值，用于描述数据的中心位置。众数是一组数据中出现次数最多的数值，用于描述数据的普遍水平。这些指标可以帮助我们了解数据的集中趋势和中心位置。
离散趋势的测量
总结词
离散趋势的测量是描述数据离散程度的指标，常用的指标有方差、标准差和变异系数。
检验生存函数差异
通过统计学检验，判断不同组别之间的生存函数是否存在显著差异。
绘制比较图
将不同组别的生存曲线绘制在同一张图上，直观比较各组之间的生存情况。
Cox比例风险模型
1 2 3
模型建立
Cox比例风险模型是一种半参数模型，用于分析生存数据，评估多个因素对生存时间的影响。
风险函数
Cox模型通过风险函数来描述各因素对生存时间的影响，风险函数中的比例系数表示各因素对生存时间的相对影响。
参数估计
参数估计
01
根据样本数据推断总体参数的过程，包括点估计和区间估计两
种方法。
点估计
02
利用样本统计量直接估计总体参数的值，如样本均数、样本率
等。
区间估计
03
基于样本统计量，给出总体参数的可能取值范围，如置信区间。
假设检验
假设检验
通过设立假设并检验假设是否成立，对总体参数作出推断的过程。
假设设立
04
生存分析
生存函数的估计
估计生存时间
通过医学数据，估计每个患者的生存时间，通常以月、年为单位。
计算生存率
根据生存时间，计算患者的生存率，以百分比表示。
绘制生存曲线
将患者的生存时间与生存率绘制成曲线，直观展示患者的生存情况。

医学研究中常用的数据统计方法

1− r2 n−2
( ) SCV =
CV2 1+2CV2 2n
（13）（14）
7
5．分位数间距(centile range) 即同一组资料中的两个分位数之差。具体地说，有四分位数间距、十分位数间距和百分位数间距等，其中四分位数间距用得最多。可以反映偏态分布资料的离散水平。
6．变异系数(coefficient of variation) 是不受单位影响的一种变异指标，通常用CV表示。特别适用于下列两种场合下比较两组或两组以上定量资料间变异程度的大小。一是单位不同的资料；二是均数相差较大的资料。其计算公式为： CV = S ×100% (15) X
4
¾ 试验结果的统计描述
定性反应资料绝对数、率、百分比、相对比等等级反应资料秩和或Ridit平均计分等定量反应资料均数、标准差，参考值范围等反应时间资料 x年生存率、x年复发率等
1．算术平均数(arithmetic mean) 算术平均数简称为均数，适合于表达
对称分布资料的平均水平或Байду номын сангаас心位置。样本均数一般用表示，总体均
集中趋势 ① 算术平均数 ② 几何均数 ③ 中位数与百分位数 ④ 调和平均数 ⑤ 众数
2. 几何平均数(geometric mean) 适合于表达呈对数正态分布（即资
料取对数后服从正态分布）资料的平均水平或中心位置。几何均数
一般用G表示。对于原始资料和频数分布表资料，其计算公式分别
为5-3和5-4。
9 无序分类变量资料
无序分类变量资料又称为计数资料(counting data)，是将观察单位按照某种属性或类别进行分组计数汇总而得的资料，其变量值是定性的，表现为互不相容的属性或类别。如观察治疗的疗效为有效或无效，病人的性别（男性或女性），血型（A、B、AB或O）,疾病家族史的有无等等。

第三章常用医学统计方法

2
3
统计资料（数据）：由变量值构成资料。
7
统计资料类型：
1
计量资料(定量资料或称数值资料)：变量值表现为有数字大小和单位的数据。
例：身高值 (m) ：1.65，1.70，1.58 … 住院天数（天）：15，18，10 … 脉搏数（次/分）：72，66，80 … 脑电图波形变化率%：29%，37% …

1）.原始资料的核查：（1）逻辑检查（2）计算检查（3）补充缺漏项、删去重复、纠正错误 2）.分组整理：（1）质量分组（2）数量分组 3）.归纳汇总，拟制整理表 4）.数据的录入整理资料存在的问题主要表现在：① 编制整理表时，未将有联系的项目安排适当，不便说明事物之间相互的规律性。② 分组不合理；③ 有意将过高或过低数据筛选掉或无意舍弃掉，使原始资料所提供的信息变样；④ 统计表编制不规范；⑤ 计算错误。
例：病情分级（Ｘ1）：Ⅰ，Ⅱ，Ⅲ 疗效（X２）：痊愈、显效、有效、无效病人满意度（X３）：好、中、差
三类资料间关系
例：一组2040岁成年人的血压
<8 低血压
等级资料
8
12
正常血压
轻度高血压
计量资料计数资料
15
17
中度高血压
重度高血压
以12kPa为界分为正常与异常两组，统计每组例数
5
概率（probability）：P
概率：描述随机事件发生可能性大小的指标。取值在0～1间。频率（frequency）：重复n次事件，结果A在 n次中出现的比例（A/n)。小概率事件：P≤0.05 or P≤0.01
概率推断：小概率事件在一次试验或抽样中是不可
变量：被观察单位的某一项特征，习惯用X表示。变量值：变量的测得值称为变量值或观察值。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2020/11/29
3
留给统计学的问题
▪ 如何简洁地、准确地从一大批杂乱无章的数据中提炼出代表性信息？（统计描述）
▪ 如何合理地由样本的信息（部分信息）推断总体的信息（总体信息）？（统计推断）
2020/11/29
6
统计方法的主要应用
1. 通过种种手段以最合适的方法搜集数据。 2. 采用统计指标、统计表、统计图描述数据的
…
2020/11/29
红细胞数 3.98 4.54 4.74 5.13 4.43 4.81 4.98 3.79
…
编号
… 143 144 145 146 147 148 149 150
红细胞数
… 4.67 5.40 5.29 4.77 5.38 5.15 4.64 5.19
20
一、描述集中趋势的特征数（平均指标）
1. 极差：任何计量资料，是参考变异指标 2. 四分位数间距：与中位数配套用 3. 标准差：与算术均数配套用 4. 变异系数：描述对称分布（特别是正
态分布）资料的相对变异程度。
2020/11/29
11
示例1：率和构成比的区分
2020/11/29
12
示例2：如某种疗法治疗5例病人5例全部治愈，则计算治愈率为5/5×100% =100%，若4例治愈，则治愈率为4/5×100% =80%，由 100%至80%波动幅度较大，但实际上只有 1例的变化。
XG n X1X2Xn
lgXG
1 n(lgX1
lgX2
lgXn)
lgX n
XG lg1
lgX n
2020/11/29
23
几何均数的示例
血清的抗体效价滴度的倒数分别为：10、100、 1000、10000、100000，求几何均数。
G lg 1 l1 g10 l1 g20 l1 g 530 l1 g40 l1 g50 100
规律。 3. 采用合适的统计方法对数据进行分析，对整
个研究的结果下结论。
2020/11/29
7
问题2：数据被恰当地表达了吗？
1. 统计指标的使用准确吗？
▪
X S 还是
X
S X
?各自使用的条件是什么？
▪
是万用通行证吗？
▪ 率X 与S 构成比搞清楚了吗？如此计算率合适吗？
2. 统计表正确吗？
3. 统计图正确吗？
总称为平均数（average）反映了资料的集中趋势（ central tendency ）。常用的有： 1. 算术均数(arithmetic mean)，简称均数 (mean) 2. 几何均数(geometric mean) 3. 中位数 (median)
2020/11/29
21
1. 算术均数（mean）
检验，或是精确概率检验？ ▪ 是配对设计，还是成组设计的四格表资料？
2020/11/29
16
误区4：统计检验决定论与统计无用论
▪ P值一定要小于0.05或者0.01才行吗？ ▪ P值的决定因素您考虑了哪几个？ ▪ 统计检验判断结果与专业判断结果相比，
哪个更重要？
2020/11/29
17
2. 数据特征与统计描述基本知识
定义：是将一批数据从小至大排列后位次居中的数据值，反映一批观察值在位次上的平均水平。
符号：Md/M 适用条件：适合各种类型的资料。尤其适合于① 大样本偏态分布的资料； ②资料有不确定数值；③资料分布不明等。
此例的算术均数为22222 问题：描述此类型资料集中趋势时，为什么倾向选用几何均数？
2020/11/29
24
频数表资料的几何均数
G l g 1
Hale Waihona Puke filfiX g i l g 1 f1 lX g 1 f2 lX g 2 fi fn lX g n
抗体滴度 ⑴
1:4 1:8 1:16 1:32 ┇ 1:512 合计
常用医学统计分析方法基本知识
胡国清副教授
中南大学公共卫生学院流行病与卫生统计学系
2020/11/29
1
一. 统计学应用中的常见误区
2020/11/29
2
问题1：统计学是数字游戏？
▪ 数字形式仅是表面现象。几个示例 ▪ 统计学(Statistics)：是一门研究数据的搜集、整理、
分析的科学。更主要的是帮助人类探索未知事物规律的工具。 ▪ 统计学存在的必要性？
2020/11/29
8
2020/11/29
9
▪ 集中趋势的描述——平均数平均数：描述一组变量值的集中位置或平均水平的指标体系。
1. (算术)均数：对称分布，尤其是正态分布；
2. 几何均数：对数转换后呈对称分布，尤其是对数正态分布；
3. 中位数：一般偏态分布；
2020/11/29
10
▪ 离散趋势描述：描述一组变量值的离散趋势或变异程度的指标体系。
符号：总体
样本 X
适用条件：资料呈对称分布，尤其是正态或近似正态。
计算：（1）直接法
（2）频数表法
XX1X2 XnX
n
n
X f1 X 1 f2 X 2 f3 X 3 fkX k fX i
f1 f2 f3 fk
fi
2. 几何均数（geometric mean）
适用条件：呈倍数关系的等比资料或对数正态分布（正偏态）资料；如抗体滴度资料。
人数, f ⑵
1 5 6 2 ┇ 5 72
滴度倒数, X ⑶
4 8 16 32 ┇ 512
lgX ⑷
0.6021 0.9031 1.2041 1.5051
┇ 2.7093
f·lgX ⑸
0.6021 4.5155 7.2246 3.0102
┇ 13.5465 72.2471
2020/11/29
25
3. 中位数（median）
2020/11/29
18
计量资料的常用统计指标
▪ 描述集中趋势的特征数（选代表） ▪ 描述离散趋势的特征数（代表程度）
▪ 目的：简单、明了传达信息
2020/11/29
19
问题：谁能一眼看出下述数据的分布规律？
表某地150名正常成年男子红细胞数（1012/L）
编号 1 2 3 4 5 6 7 8
2020/11/29
13
表10-3 不同心理分值的冠心病危险因素水平比较
2020/11/29
14
统计图的误导作用
直条图的纵轴尺度起点必须为零示意图
2020/11/29
15
问题3：t检验、卡方检验是万能的吗？
▪ 正态分布、方差齐性的条件满足了吗？ ▪ 是t检验还是方差分析； ▪ 是t检验还是U检验？ ▪ 是成组t检验还是配对t检验？ ▪ 是t检验，还是校正t检验，或者是非参数检验？ ▪ 对于计数资料，是通常的卡方检验，还是Yates校正