匹配(1比1)病例对照研究样本量计算

SPSS操作：搞定病例与对照的1：1匹配

SPSS操作：搞定病例与对照的1：1匹配说起病例对照研究(case control study)，相信各位⼩伙伴并不陌⽣。

简单来说，就是把患有某种疾病的⼀组病⼈作为病例组(case)，不患该疾病但是可⽐的另⼀组个体作为对照组(control)，通过⽐较两组中我们关⼼的暴露因素的⽐例，从⽽推断暴露因素和疾病之间的关联。

讲到这⾥，就不得不提到确保病例组和对照组可⽐性的绝招——匹配！⼀般来说匹配包括频数匹配和个体匹配，前者只要保证匹配的因素在两组分布⽐例相同，⽐如说病例组男、⼥各半，对照组也应该⼀样；后者要求病例组每⼀个研究对象，在对照组中也有⼀个匹配因素相近或⼀致的研究对象与之匹配，⽐如说病例组有⼀个23岁男性，对照组中应给他匹配⼀个23岁左右的男性。

本期和⼤家⼀起学习如何使⽤SPSS搞定病例与对照的1:1匹配。

需要注意的是，SPSS22及以上版本才提供病例对照匹配(Case Control Matching)的功能，其他的版本要想使⽤这个功能，必须安装相应插件才能实现。

本次使⽤SPSS22为⼤家演⽰。

⼀、问题与数据⽬前对于吸烟与⾼⾎压之间关系仍存在争议，拟采⽤巢⽒病例对照设计（⾼⾎压组与正常组）探讨吸烟与⾼⾎压之间的关系，其中对照组按照年龄±2岁，性别相同与病例组进⾏匹配。

已有的队列数据在匹配前是这个样⼦（见表1），可以看到两组在匹配之前的性别分布和年龄均有明显差异。

下⾯⼀起看看SPSS如何搞定匹配！表1. 两组基线情况⽐较（匹配前）⼆、 SPSS分析⽅法1. 数据录⼊(1) 变量视图(2) 数据视图2. 病例对照匹配选择Data→Case Control Matching，就进⼊病例对照匹配的主对话框。

将需要匹配的变量(Age, Sex)放⼊Variables to Match on中；Match Tolerance⽤来设置匹配条件，⼀般分类变量要求相同，设置为“0”，对于连续变量，可根据具体情况限定⼀个范围，⽐如这⾥我们限定年龄±2岁，设置为“2”，但是需要注意，设置匹配条件必须与匹配变量放置顺序相⼀致，并且⽤“空格”隔开；Group Indicator指定分组，⼀般病例组赋值为“1”，对照组赋值为“0”；Case ID确定观测对象的ID，⼀般为病例号，调查编码等；Names for Match ID Variables设定⼀个变量，⽤来明确对照组中匹配成功的ID；Names for Matchgroup Variables 设定⼀个变量，⽤来明确病例组中相同条件的观测对象，⽐如有两个23岁男性。

病例对照研究方法精要-203-2019年华医网继续教育答案

2019年华医网继续教育答案-病例对照研究方法精要备注:红色选项或后方标记“[正确答案]”为正确选项
(一)病例对照研究基本原理
详见
1、匹配法注意事项包括
A、慎重选择匹配因素
B、可疑病因不作为匹配因素
C、比例一般为1:1，最多不超过1:4
D、以上都正确[正确答案]
E、以上都不正确
2、有关匹配说法正确的是
A、每一个病例选择一个或几个对照，使病例与对照配成对
B、要求对照在某些因素或特征上与病例保持一致
C、目的提高研究效率，控制混杂因素
D、以上都正确[正确答案]
E、以上都不正确
3、病例对照研究特点不包括
A、回顾性
B、由果到因的研究
C、观察法
D、采用随机分组的方法[正确答案]
E、一般不能确证暴露与疾病的因果关系
4、流行病学中的病例对照研究属于
A、观察性研究[正确答案]
B、实验性研究
C、理论性研究
D、描述性研究
E、以上都不是
5、病例对照基本原理不包括。

样本量计算教程：非劣效性试验+生存分析

样本量计算教程：非劣效性试验+生存分析医咖会之前推送过的“非劣效性试验的样本量计算”教程中，研究结局是连续变量或者分类变量，那如果是生存数据，又该如何计算样本量呢？一、研究问题与数据某研究者拟开展一项非劣效的随机对照试验，探讨某免疫抑制剂对肺癌的疗效。

估计对照组的中位生存时间（mOS）为8月，假设试验组相对于对照组的HR的非劣效性界值为1.3。

研究的入组时间预计为T1=10月，随访时间计划为T2=12月。

试验组对照组比例1:1。

取α=0.025（单侧），把握度1-β=0.8。

则需要多少样本量？二、对问题的分析在介绍样本量计算之前，首先介绍几个参数的概念。

1. 中位生存时间mOS：即50%的患者死亡时所对应的时间。

如果将所有患者生存时间按从小到大排序，中位生存时间即顺序处于中间的患者的生存时间。

2. 入组时间：入组患者很难瞬间完成，尤其对于发病率比较低的肿瘤，因此患者入组往往要经过相对较长的时间。

入组时间为第1例患者入组到最后一例患者入组所经历的时间。

3. 随访时间：在最后一例患者入组完成后，还需对所有患者随访一段时间。

从最后一例患者入组，到试验截止日期的间隔称为随访时间。

注意，这里的随访时间，跟患者的观察时间意义不同。

如果一个临床试验入组时间为12个月，随访时间为24个月，那么对于第一例入组的患者，其观察时间最长为12+24=36个月（尽管该患者可能在试验截止前就已死亡）。

而对于最后一例入组的患者，其最长观察时间为24个月，即各个患者观察时间不同。

观察时间越长，观察到结局发生的可能性越大。

如图1的3号患者，其观察时间（33个月）大于研究的随访时间（24个月）。

图1. 入组时间、随访时间和观察时间示意图4. 入组模式是指研究对象入组的速度是匀速（等比例）还是非匀速。

常见的入组模式是匀速入组，即单位时间内，研究对象入组的数量相等（图2）。

图2. 匀速入组示意图5. HR：风险比，是两组患者瞬时死亡概率之比，是衡量干预效果最常用的参数。

病例对照研究实习

1:1匹配病例对照资料整理表
对照组
+ －
病例组 + a c － b d
合计对子数
a+b c+d
合计对子数
a+c
b+d
N
显著性检验检验暴露史是否与疾病有联系。
(b c) X bc
2 2
当b+c＜40时校正公式：
X
2
( b c 1) bc
2
求比值比
c OR b
(11.96/ x2 )
习题4 2001年1月～12月，在西安市某口腔医院门诊进行了一项关于“吸烟与口腔粘膜白斑病之间关系”的配比病例对照研究。对照选自该口腔医院门诊的非口腔粘膜白斑病就诊者，对照与病例的配比条件：同性别、年龄相差2岁以内、西安市居民并近10年来居住在该市。结果：病例与对照均吸烟者共45对；均不吸烟者20对，病例吸烟而对照不吸烟25对；病例不吸烟而对照吸烟10对。请： ① 将以上资料整理成四格表！ ② 对资料进行分析 ③ 根据此研究结果，如何下结论？
习题2：一项吸烟与食管癌的病例对照研究结果：
吸烟与食管癌关系的病例对照研究资料整理表
食管癌吸烟不吸烟 309 126
对照 208 243
合计 517 369
合计
435
451Байду номын сангаас
886
请对此研究结果进行统计推断和分析，并简要解释！
习题3
一项雌激素与子宫内膜癌关系的配对病例对照研究共70对，病例与对照均有雌激素暴露史的25对，病例与对照均无雌激素暴露史的5 对，病例组有暴露史而对照组无暴露史的30对，请进行推断分析！
素或具备某种特征或处于某种状态，即为暴露因素，也叫研究变量。有害的有益的

流行病学：第5章病例对照研究

16
对照的选择
对照选择原则：必须来自产生病例的总体对照与病例比较的方法来源
研究的总体人群或抽样人群中具有代表性的非病例；医院中患有其他疾病的病人；亲属、邻居、同事；社会团体人群中的非该病病例或健康人；社区人口中的非病例或健康人群；队列内进行的病例对照研究选择未发病者作为对照。其中以第5种最接近全人群的无偏样本，以第(1)种使用最多。
因有后两个因素存在才使用己烯雌酚治疗做出结论：
母亲在妊娠早期服用己烯雌酚使她们在子宫中的女儿以后发生阴道腺癌的危险性增加。
2020/11/10
流行病学
11
病例对照研究特点
研究开始可以选择病例研究对象分病例和对照组暴露通过回顾获得由果及因比较暴露率或计算OR来分析暴露与疾病的联系
可以探索一种疾病与多种暴露因素的关系可以以较少病例展开病因分析实施相对容易经济
2020/11/10
流行病学
12
应用
广泛地探索疾病的可疑危险因素，为前瞻性研究提供明确病因线索；深入检验某个或几个病因假说；初步评价干预措施效果、治疗措施效果、副作用大小。
2020/11/10
流行病学
13
第二节病例对照研究的实施
提出假设,明确研究目的制定研究计划
病例与对照的选择
选择病例与对照比较的方法病例的诊断方法；病例与对照的来源与方法；
巢式病例对照研究（nested case-control study）病例队列研究（case-cohort study）随访患病率研究（follow-up prevalence study）病例-病例研究（case-only study）病例交叉研究（case crossover study）等等，

随机对照试验样本量计算公式

随机对照试验样本量计算公式概述在医学研究和实验设计中，随机对照试验是一种常用的研究方法。

为了确保研究结果的可靠性和准确性，我们需要合理地计算样本量。

本文将介绍随机对照试验的样本量计算公式及其应用。

什么是随机对照试验？随机对照试验是一种将研究对象分为实验组和对照组进行比较的研究设计。

在随机对照试验中，实验组接受新的治疗方法或干预措施，而对照组接受传统治疗方法或安慰剂。

通过比较两组的疗效或效果，我们可以评估新的治疗方法的有效性。

为什么需要样本量计算？样本量计算是随机对照试验设计的重要组成部分。

合理的样本量计算可以确保试验的科学性和统计学有效性，减少因样本量不足或过多带来的结果偏差。

通过样本量计算，我们可以确定需要多少研究对象才能达到预期的研究目标。

样本量计算公式随机对照试验样本量计算涉及多个因素，包括临床意义差异、功效、显著性水平和变异度。

常用的样本量计算公式如下：n = (Z_1-α/2 + Z_1-β)^2 * (σ_1^2 + σ_2^2) / (μ_1 - μ_2)^2其中， - n为所需的总样本量； - Z_1-α/2是给定显著性水平（通常为0.05）下的标准正态分布的上分位数； - Z_1-β是给定功效（通常为0.8）下的标准正态分布的上分位数； -σ_12和σ_22分别是两个组的总体方差； - μ_1和μ_2分别是两个组的总体均值。

样本量计算实例我们通过一个具体的例子来说明如何使用随机对照试验样本量计算公式。

假设我们正在研究一种新的药物治疗某种疾病的有效性。

我们希望通过随机对照试验比较新药和传统治疗方法的疗效。

根据以往的研究结果，我们假设新药和传统治疗方法的疗效差异为10%。

显著性水平为0.05，功效为0.8。

两组的总体方差分别为1和1.5。

根据样本量计算公式，我们可以计算出所需的总样本量：n = (Z_1-α/2 + Z_1-β)^2 * (σ_1^2 + σ_2^2) / (μ_1 - μ_2)^2= (1.96 + 0.84)^2 * (1 + 1.5) / (0.1^2)= 93.072根据计算结果，我们需要至少93个研究对象才能进行这个随机对照试验。

病例对照研究解析

三、病例对照研究的衍生类型
（一）巢式病例对照研究
1.概念
是在队列内套用病例对照研究的一种设计，其研究对象
是在队列研究的基础上确定的，以队列中所有的病例作为病例组，再根据病例发病时间，在研究队列的非病例中随机匹配一个或多个对照，组成对照组。但是其研究方法和分析方法仍与病例对照研究相同。此种研究设计尤其适合于研究因素包括有复杂的化学或生化分析的前瞻性研究。
结果 2.1 单因素分析
2.2多因素Logistic回归分析
2.3 剂量效应梯度分析
应用实例
橡胶职业接触与肺癌关系的病例—队列研究
1.研究对象：1972年上海市中山医院对某橡胶厂职工进行缺血性心
脏病普查，参加者共1598人(男934人，女664人)作为队列成员，并
从1973年1月1日始随访至1995年12月31日，期间死亡共475人，失访49人，死亡诊断按医院的死亡证明，并通过上海市肿瘤登记中心
三、病例与对照的来源与选择
（1）病例选择
①选择原则：应选择无偏样本。
②入选标准：尽量使用通用标准，标准要客观、严格、统一。 ③病例来源：医院（方便，代表性差，可产生选择偏倚）社区（代表性好，工作量大）。
新发病例所提供的信息较为准确
（2）对照选择
①目的：为比较病例组的暴露情况和暴露量提供一个基准。
2.影响样本含量的因素
①被研究因素在对照人群中的暴露率（率越高样本越小）。 ②估计该因素造成的相对危险度（RR）或暴露比值比（OR） OR越大样本越小。 ③需要达到的检验显著性水平，α=0.01样本大于α=0.05。 ④要求的把握度1-β 把握度要求越高样本越大。
3.样本量计算方法
①查表法 ②公式法

(完整版)样本量计算(DOC)

1.估计样本量的决定因素1.1资料性质计量资料如果设计均衡,误差控制得好,样本可以小于30例;计数资料即使误差控制严格,设计均衡,样本需要大一些,需要30-100例。

1.2研究事件的发生率研究事件预期结局出现的结局（疾病或死亡），疾病发生率越高，所需的样本量越小，反之就要越大。

1.31.41.5度为1.61.71.8双侧检验与单侧检验采用统计学检验时,当研究结果高于和低于效应指标的界限均有意义时,应该选择双侧检验,所需样本量就大;当研究结果仅高于或低于效应指标的界限有意义时,应该选择单侧检验,所需样本量就小。

当进行双侧检验或单侧检验时，其α或β的Ua?界值通过查标准正态分布的分位数表即可得到。

2.样本量的估算由于对变量或资料采用的检验方法不同，具体设计方案的样本量计算方法各异，只有通过查阅资料，借鉴他人的经验或进行预实验确定估计样本量决定因素的参数，便可进行估算。

护理中的量性研究可以分为3种类型：①描述性研究：如横断面调查，目的是描述疾病的分布情况或现况调查；②分析性研究：其目的是分析比较发病的相关因素或影响因素；③实验性研究：即队列研究或干预实验。

研究的类型不同，则样本量也有所不同。

2.1描述性研究护理研究中的描述性研究多为横断面研究，横断面研究的抽样方法主要包括单纯随机抽样、系统抽样、分层抽样和整群抽样。

分层抽样的样本量大小取决于作者选用的对象是用均数还是率进行抽样调查。

例.要做一项有关北京城区护士参与继续教育的学习动机和学习障碍的现状调查，采用分层多级抽样，选用的是均数抽样的公式，Uα为检验水准α对应的υ值，σ为总体标准差，δ为容许误差，根据预实验得出标准差σ=1.09，取α=0.05，δ=0.1，样本量算得520例，考虑到10%-15%的失访率和抽样误差，样本扩展到690例。

2.2分析性研究2.2.1探索有关变量的影响因素研究有关变量影响因素研究的样本量大多是根据统计学变量分析的要求，样本数至少是变量数的5-10倍。