方积乾《卫生统计学》2观察性研究的设计与实施1

合集下载

2018精选版卫生统计学第7版方积乾主编课件第二章定量资料的统计描述-精心整理

8～ 10～ 12～ 14～ 16～ 18～ 20～ 22～ 24～ 26～ 28～
血清铁含量(μ mol/L)
6～
8～ 10～ 12～ 14～ 16～ 18～ 20～ 22～ 24～ 26～ 28～
血清铁含量(μ mol/L)
图2-2 120名健康成年男子血清铁含量（μmol/L)分布
努力
30 25 20
数据如下。试编制血清铁含量的频率分布表。
努力
频率表的编制步骤如下：
1. 计算极差 (range, R)，亦称全距，即最大值与最小值之差。本例最大值为29.64，最小值为7.42，故R=29.64-7.42=22.22 (μmmo/L)。
2. 确定组段数与组距(class interval)
靠近的整数作为组距，本例取i＝2。
6～ 8～ 10～ 12～ 14～ 16 ～ 18 ～ 20 ～ 22 ～ 24 ～ 26 ～ 28～30
1 3 6 8 12 20 27 18 12 8 4 1
120
0.83 2.50 5.00 6.67 10.00 16.67 22.50 15.00 10.00 6.67 3.33 0.83
100.00
最大值。注意各组段不能重合，每组段只写出下限，如6～，8～，最后
一个组段可包括其上限值，如本例28～30。 4. 列表清点各组的频数，计算频率、累积频率数和累计频率。
努力
表2-2 120名正常成年男子血清铁含量(μmmo/L)频率分布组段 (1) 频数 (2) 频率(%) (3) 累计频数 (4) 累计频率(%) (5)
检查次数（1） 0 1 2 3 4 5 >5 频数（2） 4 7 11 13 26 23 12 频率（%）（3） 4.2 7.3 11.5 13.5 27.1 24.0 12.5 累计频数（4） 4 11 22 35 61 84 96 累计频率(%) （5） 4.2 11.5 22.9 36.5 63.5 87.5 100.0

观察性研究的设计与统计分析(方积乾1)

实例
两项有关糖尿病的观察性研究
(1) 基于现场调查资料 ----传统观察性研究
胰岛素治疗的2型糖尿病患者中胰岛素和胰岛素类似物的剂量与癌症之间的关系
研究方法及设计

本研究克服了以往相关研究的不足1-4 - 巢式病例对照研究 - 多因素 logistic回归分析 - 纳入每种胰岛素平均日用剂量作为变量入选标准 - 2型糖尿病;入选前5年未用过胰岛素;无恶性肿瘤史患者平均随访75.9月，在此期间患者暴露于甘精胰岛素、地特胰岛素、赖脯胰岛素、门冬胰岛素、人胰岛素（基础、餐时）
连续收集 1533例门诊2型糖尿病患者
• 患者来源：佛罗仑萨大学糖尿病门诊 • 于1998年1月1日至2007年12月31 日间起始胰岛素治疗
排除193例既往肿瘤病史的患者
1340例2 型糖尿病患者纳入研究
中位随访75.9月 [27.4;133.7 ]
病例组对照组
随访期间，共 112例患者诊断新发肿瘤（发生率为1.9/100人年）
病病例，同时从N1a例未发肾病中随机选取多达 5名风险匹配的对照
•
同时匹配性别、年龄(5岁分层) 、基线肾功能
预先计划的比较
在肾病组和对照组之间比较 • 使用各种治疗的人数所占比例 • 使用各种治疗的剂量、时间和剂量×时间使用各种治疗大剂量、长时间的人数所占比例（事先制定“大剂量、长时间”的定义）需要事先规定：用于病例与对照匹配的指标，例如，年龄、性别等校正若干基线重要指标（混杂变量），例如，糖化血红蛋白、共患疾病等 25
肿瘤风险与胰岛素日用剂量的相关性
•每种胰岛素“平均日剂量≥0.3IU/day*kg ”：“大剂量” •经Chalrson同病指数、二甲双胍暴露、总胰岛素平均日剂量校正后

卫生统计学7版方积乾主编二定量资料的统计描述课件

2023/10/16
26
(2 ) 频率表法当例数较多时，先将变量值从小到大编制频率表，并分别计算累计频数和累计频率(见表2-5)。先
从累计频率找出M所在的组段，然后按下式计算。
式中L 为中位数所在组段的下限， i 为该组段的组距， fm 为该组段的频数，ΣfL为小于L的各组段累计频数。
例2-8 50例链球菌咽颊炎患者的潜伏期(小时)如表2-5，试计算潜伏期的中位数。
A组
. . ...
B组
.....
C组
. ... .
常用的离散指标有：
极差、四分位数间距、方差、标准差和变异系数，最常用的指标为标准差。
2023/10/16
33
一、极差和四分位数间距
1.极差
极差(range,R)亦称全距，即一组变量值中最大值与最小值之差。R值大，离散度就大； R值小，离散度就小。
用中位数表示平均水平主要适用于： ① 变量值中出现个别特小或特大的数值;②资料的分布呈明显偏态，即大部分的变量值偏向一侧;③变量值分布一端或两端无确定数值，只有小于或大于某个数值;④资料的分布不清。
2023/10/16
24
(1)直接法当例数较少时，先将变量值由小到大顺序排列，再按以下公式计算。
2.频率表法：当资料中相同变量值的个数f (即频数) 较多时，可通过频率表法计算几何均数，公式为
表2-4 52例慢性肝炎患者的 HBsAg滴度资料
2023/10/16
19
本例ΣflgX= 108.06977 ， Σf=52 ，代入公式得
52例慢性肝炎患者的 HBsAg滴度的几何均数为1:119.75
式中L为Px所在组段的下限， i为该组段的组距， fx为该组段

卫生统计学选择题(方积乾)

一、选择题（一）A1题每一道题下面有A、B、C、D、E五个被选答案，请从中选择一个最佳答案。

1.下面的变量中，属于分类变量的是（B）A.脉搏B.血型C.肺活量D.红细胞计数E.血压2.下面的变量中，属于定量变量的是（B）A.性别B.体重C.血型D.职业E.民族3.某人记录了50名病人体重的测定结果：小于50kg的13人，介于50kg和70kg间的20人，大于70kg的17人，此种资料属于（A）A.定量资料B.分类资料C.有序资料D.二分类资料E.名义变量资料4.上述资料可以转换为（C）A.定量资料B.分类资料C.有序资料D.二分类资料E.名义变量资料5.若要通过样本作统计推断，样本应是（C）A.总体中典型的一部分B.总体中任一部分C.总体中随机抽取的一部分D.总体中选取的有意义的一部分E.总体中信息明确的一部分6.统计量(E)A.是统计总体数据得到的量B.反映总体统计特征的量C.是根据总体中的全部数据计算出的统计指标D.是用参数估计出来的E.是由样本数据计算出的统计指标7.因果关系(C)A.就是变量间数量上的联系B.可以用统计方法证明C.必定表现为数量间的联系D.可以通过单独考察两个变量间关系得出E.可以通过变量间数量上的联系来证明（二）A2型每一道题以一个小案例出现，其下面都有A、B、C、D、E五个备选答案，请从中选择3一个最佳答案。

1.教材中提及美国人1954年实施了旨在评价Salk疫苗预防小儿麻痹或死于脊髓灰质炎效果的临床试验。

有180万儿童参与，约有1/4参与者得到了随机化。

这180万儿童是（C）A.目标总体B.研究总体C.1份样本D.1份随机样本E.180万份样本2.上述试验最终肯定了索尔克疫苗的效果。

请问此结论是针对（C）而言。

A.180万儿童B.每个儿童C.所有使用索菲克疫苗的儿童D.所有儿童E.180万儿童中随机化的1/4二、是非题1.定量变量、分类变量和有序变量可以相互转换。

（×）2.假变量可以参与计算，所以假变量是定量变量。

观察性研究

病例对照研究主要步骤和方法
• 成组对照：1、一组病例与一组对照；2、一组病例和二组对照；3、
一组病例和多组对照
• 匹配：在选择对照组时，应用一种限制性方法，使对照与病例在某些混
杂变量保持同质性，以达到控制混杂偏倚因素的目的。1、个体匹配：1：1匹配、1：M匹配；2、频数匹配：成组匹配，首先弄清楚病例组匹配因素的频数分布，然后按此频数分布去选对照组，使其与病例组一致或相近。匹配因素的确定：1、已知或非常怀疑是混杂因素，应将此因素作为匹配条件 2、某些复合变量作为匹配条件如居住地、血缘关系3、匹配因素的数量一般不超过5个；4、匹配因素中年龄、性别是最常见的混杂因素，它与许多疾病和许多危险因素都有联系。匹配过头：将不起混杂作用的变量作为匹配因素进行匹配
点：1、设计、实施与数据分析比较复杂2、重复和遗漏不易发现3、不适于变异很大的人群4、不适于需要普查普治的计划5、对于发病率很低的疾病，小样本不能提供所需的数据，而样本达到总体的75%时则不如直接普查 • 保证样本具有代表性的条件：1、是否做到随机抽样2、样本的大小。 • 抽样方法：1、单纯随机抽样：基本原则是每个抽样个体被抽中选入样本的机会是相等的。利用随机数字表 2、系统抽样：按照一定顺序，机械地每隔一定数量的单位抽取一个单位进入样本，每次抽样的起点必须是通过随机确定的 3、分层抽偶样：从分布不均匀的研究人群中抽取有代表性样本的方法，先按照某些人口学特征或某些标志将研究人群分为若干层，然后从每层抽取一个随机样本，各层的随机样本组成一个大样本，即研究样本。分为1、比例分配分层随机抽样2、最优分配分层随机抽样
抽样方法
4、整群抽样：抽样单位不是个体而是群体，首先将目标人群分为若干单位，然后在这些单位中进行随机抽样。抽到的各单位组成内的所有个体均作为研究的对象进行调查。

方积乾《卫生统计学》1绪论和统计描述

在解释统计分析的结果以及下结论时, 务必对“因果”二字慎之又慎。
5. 设计与分析统计学方面的设计 (design)是医药卫生科研设计不可或缺的部分。设计不仅要符合统计学原则，运用统计学方法和技术，而且，在设计的时候要明确日后用什么统计方法处理数据。只有明确了设计的样式和分析的方法才得以进一步考虑数据应当如何收集、样本量应当多大。
第一节频率分布表与频率分布图
频数分布表（frequency distribution table）又称频数表
1. 离散型定量变量的频数分布例2-1 1998年某山区96名孕妇产前检查次数资料如下： 0， 3， 2， 0， 1， 5， 6， 3， 2， 4， 1， 0， 6， 5，1，3，3，…，4，7
G X 1 X 2 ... X n
n
G log
1
log X ( ) n
例2-5 7名慢性迁延性肝炎患者的HBsAg滴度资料为1:16，1:32，1:32，1:64， 1:64，1:128，1:512。试计算其几何均数。 G 7 16 32 32 64 64 128 512 64
学习目的与方法
（1）统计思维享用一生（2）理解概念是首位（3）重在理解和解释结果（4）电脑实验（5）考试 * 笔试：理论、方法不记公式，无数学推导，无复杂计算 * 上机考试：已做过的电脑实验；不编程序
第二章定量变量的统计描述
统计描述
----从数据中获取知识最直观的方法

把握数据的基本特征为统计分析打下基础统计表、统计图描述性统计量
1 * * M (X n X n ) 1 2 2 2
2
百分位数（percentile） PX

方积乾卫生统计学-1实验研究的设计与实施2

• 药物对目标适应症患者的治疗作用和安全性； • 为III期临床试验研究设计和给药剂量方案的确定提供依据。
• 可以根据具体的研究目的，采用多种形式。
2020/4/5
33
III期临床试验：治疗作用确证阶段。
• 进一步验证药物对目标适应症患者的治疗作用和安全性; • 最终为药物注册申请的审查提供充分的依据; • 一般应为具有足够样本量的随机盲法对照试验。 IV期临床试验：
缺点：时间长，不适用于具有自愈倾向或病程短的研究；两种处理之间应有足够长的洗脱期。数据缺失，增加统计困难。
应用：药物在短期内有效（如一两周内）；不使用药物之后药物效果不持久（没有剩效应)。
五、析因设计（Factorial design）
例14-4 欲研究煤焦油(因素A)以及作用时间(因素B)
(3) 重复
• 在研究方案实施前，根据统计学要求对样本含量 N作出估计。
• Ⅱ期临床试验：治疗组不得少于100例； • III期临床试验：试验组不得少于300例，对照组不
得少于100例； • 当估计出的N大于国家对病例数的最低要求时，
以N为样本含量；反之，按最低要求确定样本含量。
2020/4/5
• 在试验进行中除试验药物不相同外，其它条件均保持均衡；
• 应尽量选择公认有效的对照药
2020/4/5
35
(2) 随机
• 多中心临床试验，按照中心进行分层； • 受试对象的招募按先后顺序适当分段
(block)，在各段内进行随机化； • 应用专业随机程序来实现受试对象的随机化。
2020/4/5
36
22(12
)
2
2
2 1.96
0.35(10.35) 0.84 20.25(10.25)20.45(10.45)

《卫生统计学》理论课教学大纲

《卫生统计学》理论课教学大纲（供本科预防医学、公共事业管理专业使用）Ⅰ前言本教学大纲是根据方积乾主编的《卫生统计学》（卫生部规划教材，供预防医学等专业用，第七版）编写而成。

卫生统计学教学分课堂讲授、课堂讨论与实习两部分。

理论部分对学生有三种要求，即：掌握的内容、熟悉的内容和了解的内容。

掌握部分要求教师在课堂上讲深讲透，使学生深刻理解、记忆并融会贯通；熟悉内容教师要详细讲解，使学生充分理解；了解内容教师可作一般介绍也可鼓励学生自学，以扩大学生知识面。

课堂讨论与实习内容皆与课堂讲授中的掌握内容密切相关，该部分内容要求学生在教师的指导下独立思考，充分发挥主观能动性，加强操作能力，加深统计学原理的理解，最终达到提高学生运用卫生统计学原理对研究课题设计和分析的能力。

本大纲适用于五年制本科预防医学专业及四年制本科公共事业管理专业使用总教学参考学时为68/72学时教材：《卫生统计学》（卫生部规划教材），人民卫生出版社，方积乾，第7版，2015年。

II 正文第一章绪论一教学目的通过本章的学习，使学生了解卫生统计学的发展史；统计学与公共卫生的关系。

掌握一些常见的统计学基本概念。

二教学要求（一）掌握统计学的常用术语、资料类型。

（二）熟悉统计工作的基本步骤。

（三）了解卫生统计学的作用和意义。

三教学内容（一）卫生统计学在临床医学中的作用和意义，卫生统计学的发展史；统计学与公共卫生的关系。

（二）统计工作的基本步骤1 研究设计2 搜集资料3 整理资料4 分析资料（三）统计学的几个常用术语及统计方法选择1 常用术语：观察单位(observation unit)、变量(variable)、变异、总体(population)、样本(sample)、抽样误差(sampling error)、概率(probability)、小概率事件、参数、统计量2 资料的类型：定量变量、定性变量、等级资料第二章定量变量的统计描述一教学目的通过本章学习，使学生学会定量资料集中趋势、离散趋势的描述指标；学习定量资料的频数分布表的编制方法和分布规律。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1．1:1配对设计资料的分析
例 16-10 子宫内膜癌与服用雌激素关系的病例-对照研究
正常 (对照)
合计服用雌激素未服
子宫内膜癌服用雌激素
27 对
29 对 56 对
(病例)
未服
3对
4对 7对
合计
30 对
33 对 63 对
4/4/2020
19
2．1: m 匹配设计资料的分析
暴露分2个水平; 1:4小组中服用
人数不同
例 16-11 子宫内膜癌与服用雌激素关系的 1:4 病例-对照研究
正常 (对照)
服用雌激素
未服
子宫内膜癌服用雌激素
(病例)
未服
1 17 组 4组
2 16 组 1组
3
4
0
15 组 5 组 3 组
1组 1组 0组
病例：63 名（其中 56 名服用雌激素）；对照：63×4 = 252 名匹配组：63 个
病例组层1
层2 …… 层k
对照组层1
层2 …… 层k
匹配设计
病例: 对照 = 1 : 1 ; 病例: 对照 = 1 : m
病例与对照在非处理因素方面具有可比性
4/4/2020
9
二、病例-对照研究资料的分析
4/4/2020
10
（一）成组设计病例-对照研究资料的分析
1．单个四格表资料的分析暴露，2水平
相对危险度RR=风险之比
归因危险度AR=风险之差
RR 的（1-α）置信区间：
RR
1 Z / 2
2 MH
AR 的（1-α）置信区间：
AR1
Z / 2
2 MH
RR 的 95%置信区间：
RR
1 Z / 2
2 MH
1 1.96
22.56 571.47
AR 的 95%置信区间：
AR1
Z / 2
2 MH
每层有一个四格表
指标
发病人数观察人年数
RR
按年龄分层
<50
≥50
未按年龄分层
危险因素
有(1)
无(0)
小计
危险因素
有
无
小计
危险因素小计
有无
28(a) 22(b) 50(m)
785 95 880 813 122 935
18250(T1) 46149(T0) 64399(T) 48814 19898 68712 67064 66047 133111
多个水平
每日饮酒量(g/天) Xk
病例数 ak (Tk)
0-39 0
29(85.13)
40-79 1
75(72.82)
80-119 2
51(28.31)
120+ 3
45(13.74)
合计 200( n1 )
对照数 bk
386
280
87
22
775(n0)
合计人数 mk
415
355
138
67
975(n)
4/4/2020
5
表 16-1 单纯随机抽样标准误及区间估计计算公式
总体类型
无限总体
总体均数
标准误
区间估计
S S
X
n
X t / S 2,n1 X
总体概率标准误
SP
P(1 P) n 1
区间估计 P Z / 2SP
有限总体
S Nn S X N 1 n
X t / S 2,n1 X
N n P(1 P) SP N 1 n 1
P Z / 2SP
注：有限总体校正因子
N n N 1
n 较大时，可用 Z / 2 代替 t / 2,n1
4/4/2020
6
二、分层抽样调查的实施与分析
等比例分配 (proportional allocation)
大层多抽，小层少抽；各层抽取的比例与该层在总体中所占比例相同
ni Ni nN 非等比例分配 (non- proportional allocation)
描述疾病或治疗模式的现状评估某种暴露对健康的影响监测某种转归（如药物不良反应）探索病因和预防措施
4/4/2020
2
观察性研究
描述性研究（descriptive study）
最常见：横断面研究
分析性研究（analytical study）
病例-对照研究（case-control study） ---- 回顾性
合计
56 组 7组
63 组
4/4/2020
20
第四节队列研究的实施与分析
4/4/2020
21
一、队列研究
危险因素 Risk factor
暴露 Exposure
危险因素 Risk factor
暴露人群 Cohort
对照人群 Cohort
暴露结局 Outcome
对照结局 Outcome
4/4/2020
RR
按年龄分层
<50
≥50
未按年龄分层
危险因素
有(1)
无(0)
小计
危险因素
有
无
小计
危险因素小计
有无
28(a) 22(b) 50(m1)
785 95 880 813 122 935
18250(T1) 46149(T0) 64399(T) 48814 19898 68712 67064 66047 133111
3.22
3.38
6.56
（2）RR 的检验 H0：RR=1 H1：RR≠1
Mantel-Haenszel 2 统计量
理论频数
实际频数
2 MH
H
ah
h1
H
h1
m1hT1h Th
2
H
h1
m1hT1hT0 Th2
h
( 28
785)
( 50 18250 64399
(
50
18250 46149 643992
优势比 OR
1.0
3.57
7.80
27.23
H0:不存在剂量-反应线性关系； H1:存在剂量-反应线性关系
检验统计量
K
[ X k (ak Tk )]2 (n3 n)
2
k 0 K
K
=152.99
n1n0[n
mk
X
2 k
(
mk X k )2 ]
df=1
k 0
k 0
4/4/2020
18
（二）匹配设计资料的分析 *
而以前所学Pearson 2 统计量的分子上：N
N 较大时，两者等价
4/4/2020
12
（3）优势比的区间估计
① Woolf 法
1111 Var(ln OR)
abcd
lnOR： lnOR 1.96 Var(lnOR)
OR：
OR e1.96 Var(lnOR)
例 16-7
Var（ln OR）
11.6620 6.8576
21.6694 10.6701
13.9317 7.4392
H ahdh
OR
h1 H
nh bhch
58.5386 5.29 11.0716
n h1 h
对象分层
合计病对例照 96 109 104 666
5.64
58.5386 11.0716 48.5329 26.0437
2
OR
1 1.96
5.64 110.14 (4.08,7.79)
4/4/2020
14
2．分层四格表资料的分析
例16-8 食管癌与饮酒关系病例-对照研究
每日饮酒量 (g/天)
80+ 0～79
ORh
25～44 病对例照 5 35 5 270
7.71
年龄组（岁）
45～54 病对例照
55～64 病对例照
第十六章观察性研究的设计与分析
郭艳中山大学公共卫生学院
2015.12.23
4/4/2020
1
观察性研究
(observational study)
不对研究对象施加任何干预措施的情况下，通过观察或访问的方法，客观地记录被研究事物的状况。也称非实验研究 (non- experimental study)
22
暴露组二、队列研究数据的统计分析
1. 单个四格表的分析
例16-15 为研究鼻咽癌与EB病毒关系，某市进行
了EB病毒抽样调查，共检查25-70岁居民41471人，
其中38550人EB病毒抗体阴性，2921人阳性。以
EB病毒抗体阴的队列研究。
人年资料
随访人群发病数暴露人年数人年发病率（/10 万）
15
（2）对公共优势比 OR 的假设检验
H 0 ：OR＝1，
H1 ：OR ≠ 1
检验统计量
H
H
( ah Th )2
2
h1
h1
MH
H
Vh
h1
Th：对应于 ah 的理论频数
Vh：对应于 ah 的方差
Vh
n1hn0hm1hm0h nh3 nh
例 16-8
2 MH
(ah Th )2 Vh
（96 48.5329）2 86.51 26.0437
队列研究（cohort study） ---- 前瞻性
4/4/2020
3
第二节横断面研究的实施与分析
4/4/2020
4
一、单纯随机抽样调查的实施与分析
（一）单纯随机抽样调查资料的分析