倾向值评分匹配方法PSM-PPT参考幻灯片
倾向性评分匹配的原理及文献解读PPT课件

真实世界研究控制混杂方法
2006年美国流行病学杂志Am J Epidemiol总结了真实世界研究 控制混杂常用的五种方法,包括: 1. 多元回归模型调整混杂 2. 倾向性评分匹配(PSM)后构建回归模型 3. 回归模型调整倾向性评分(PS) 4. 回归模型+加权(IPTW)处理 5. 回归模型+加权(SMR)处理
倾向性评分匹配原理及文献解读
目录
CONTENTE
01 倾向性评分匹配的原理介绍
02 倾向性评分匹配的实例
03 倾向性评分匹配应用的注意事项
01 倾向性评分匹配的原理介绍
临床研究常见的类型
X是否人为分配?Assigned
exposure X?
No
Yes
观察性 Observational
实验性 Experimental
1.RCT研究简介 药物临床试验(GCP)采用的就是严格按照RCT研究研究也有其不可避免的缺陷: ①有些研究无法解决伦理问题。如吸烟和肺癌,就不能做RCT研究
②RCT研究是在理想条件下对特定人群的干预结局,并不能很好的外推到真实的临 床环境中,如:药物的RCT一般都会限制研究人群,年龄有限制,小孩不要,老人 不要,有基础疾病的不要,但在真实的临床环境中,如果遇到了这些人群,究竟用 不用这个药,用多少,有什么风险…,这些都不清楚。
3.倾向性评分匹配的原理介绍
混杂偏倚可能改变着研究结果的真实性,从而使观察性临床研究结果的实际运用价 值受到相应的限制。观察性临床研究中,是否有效控制偏倚成为其成功与否的关键,在 这种情况下,倾向性评分匹配就横空出世了。
20世纪80年代Rosenbaum和Rubin首次提出了了倾向性评分法这一概念。倾向性 评分法是运用倾向性评分值来综合所有的观察变量信息从而达到均衡变量、减少偏倚的 目的。
倾向匹配得分教程(附PSM操作应用、平衡性检验、共同取值范围、?核密度函数图)

倾向匹配得分教程(附PSM操作应用、平衡性检验、共同取值范围、核密度函数图)展开全文本文主要包括倾向匹配得分命令简介、语法格式、倾向匹配得分操作步骤思路,涉及倾向匹配得分应用、平衡性检验、共同取值范围检验、核密度函数图等内容。
1命令简介Stata does not have a built-in command for propensity score matching, a non-experimental method of sampling that produces a control group whose distribution of covariates is similar to that of the treated group. However, there are several user-written modules for this method. The following modules are among the most popular:Stata没有一个内置的倾向评分匹配的命令,一种非实验性的抽样方法,它产生一个控制组,它的协变量分布与被处理组的分布相似。
但是,这个方法有几个用户编写的模块。
以下是最受欢迎的模块(主要有如下几个外部命令)psmatch2.adopscore.adonnmatch.adopsmatch2.ado was developed by Leuven and Sianesi (2003) and pscore.ado by Becker and Ichino (2002). More recently, Abadie, Drukker, Herr, and Imbens (2004) introduced nnmatch.ado. All three modules support pair-matching as well as subclassification.You can find these modules using the .net command as follows:net search psmatch2net search pscorenet search nnmatchYou can install these modules using the .ssc or .net command, for example:ssc install psmatch2, replaceAfter installation, read the help files to find the correct usage, for example:help psmatch2上述主要介绍了如何获得PSM相关的命令,总结一下目前市面上用的较好的命令为psmatch2.PSM 相关命令help psmatch2help nnmatchhelp psmatchhelp pscore持续获取最新的 PSM 信息和程序findit propensity scorefindit matchingpsmatch2 is being continuously improved and developed. Make sure to keep your version up-to-date as follows ssc install psmatch2, replacewhere you can check your version as follows:which psmatch22语法格式语法格式为:help psmatch2••••••psmatch2 depvar [indepvars] [if exp] [in range] [, outcome(varlist) pscore(varname) neighbor(integer) radius caliper(real) mahalanobis(varlist) ai(integer) population altvariance kernel llr kerneltype(type) b width(real) spline nknots(integer) common trim(real ) noreplacement descending odds index logit ties q uietly w(matrix) ate]选项含义为:depvar因变量;indepvars表示协变量;outcome(varlist)表示结果变量;logit指定使用logit模型进行拟合,默认的是probit模型;neighbor(1)指定按照1:1进行匹配,如果要按照1:3进行匹配,则设定为neighbor(3);radius表示半径匹配核匹配 (Kernel matching)其他匹配方法广义精确匹配(Coarsened Exact Matching) || help cem局部线性回归匹配 (Local linear regression matching)样条匹配 (Spline matching)马氏匹配 (Mahalanobis matching)pstest $X, both做匹配前后的均衡性检验,理论上说此处只能对连续变量做均衡性检验,对分类变量的均衡性检验应该重新整理数据后运用χ2检验或者秩和检验。
PSM-DID分析ppt课件

(1)基数小,增长快(一张白纸可以画出更美丽的画卷) (2)税收优惠政策对西部地区的增长具有促进作用,效果
将越来越微弱; (3)西部地区与发达地区之间的区域差距仍在继续扩大。
15
政策陷阱效应
• 优惠政策构成了西部地区经济增长的驱动力,但 其增长对能源、资源开发的依赖度很高;由于体 制弊端和配套政策缺失,会造成地方政府的短视 行为,容易忽视人才和技术要素,弱化社会制度 和软环境构建。
PSM—DID及其应用
1
1、介绍PSM-DID方法 2、分析论文
——西部大开发是增长驱动还是政策陷阱
3、stata操作过程
2
双重差分法
• 双重差分(difference in differences,DID)嘛,就是 差分两次。
• 一种专门用于分析政策效果的计量方法。 • 将制度变迁和新政策视为一次外生于经济系统的“自然实
大开发之前的处理组、西部大开发之后的处理组、西部大开发之前的 控制组和西部大开发之后的控制组。
• du=1代表西部地区的地级市,du=0代表其他地区的地级市,dt= 0代表西部大开发之前的年份,dt=1代表西部大开发之后的年份。
• 下标i和t分别代表第i个地级市和第t年,Z代表一系列控制变量, e为随机扰动项,被解释变量Y度量经济增长,具体指标包括人均实 际GDP和实际GDP的对数值。
城市的GDP增长率,Yi Yi1 Yi0
• (2)求处理效应:
1
1
Y N1
(Yi Di 1) N2
(Yi Di 0)
修建铁路对城市经济的促进作用 6
修建铁路对沿线城市经济的影响
• 可以换一个写法 • T=1,建铁路之后 • T=0,建铁路之前 • Treated代表在某一期,某一类城市是不是建了铁路。第零
倾向指数ppt课件

ppt课件.
15
• 局部匹配法也称最近可用匹配,是指暴露组从第一个个体 开始,在对照组中寻找倾向指数与其最接近的个体,直到 暴露组所有个体都有匹配的个体,其优点在于匹配集的最 大化,最大程度保留了研究样本的信息。
• 全局匹配法是把匹配问题转化为运筹学中网络流(network flows)问题,把暴露组和对照组个体看作节点(node),把 匹配转化为求最小化节点间的总距离,不保证每个处理都 能找到最优的匹配,也就是说,与暴露组个体匹配的对照 组个体倾向指数的差值并不是最小的。但是能保证匹配集 倾向指数总体差值的最小化,这个优势是其他匹配方法无 法比拟的。
ppt课件.
7
倾向指数的基本原理
• 倾向指数的理论值,记为E(X),由以下函数模型产生: E(X)=பைடு நூலகம்(Z=1|X=x)
(其中分组变量=Z,Z=1代表样本接受处理组,Z=0代 表样本接受对照组,X=x代表除处理因素以外的所有 已知的混杂因素,即特征变量。)假定分组变量Z和特 征变量Xi相互独立,则
• 倾向指数,它是多个协变量的一个函数,通过倾 向指数的变化可以表示多个协变量共同作用的结 果,来均衡处理组和对照组间的协变量分布。倾向 指数是所有协变量的一个函数,在大样本情况下, 经过倾向指数调整的组间个体,除了处理因素和 结果变量分布不同外,其他协变量应当均衡可比, 相当于“事后随机化”,使观察性数据达到“接 近随机分配数据”的效果。
倾向指数
ppt课件.
1
1、什么是倾向指数
2、倾向指数的研究类型
3、倾向指数的应用范围
目 录
4、倾向指数应用的关键问题
5、倾向指数的优点和局限性
倾向性评分匹配新手速成含模板

2020/1/2
SPSS操作:轻松实现1:1倾向性评分匹配(PSM)
B. 确定匹配成功标识:match_id为吸烟组和不吸烟组相互匹配成功的ID,这里将 不吸烟组match_id变量转换为ID变量,这时候相同的match_id即为匹配成功的对 子 。 具 体 操 作 : 将 Analysis 数 据 集 中 , 不 吸 烟 组 match_id 替 换 成 ID 编 号 : Transform→Compute Variable→if smoke=0, match_id=ID→OK
https:///s?src=3×tamp=1577940493&ver=1&signature=z*ELGMVabxHVrwZ7Hr2FuH2Mnn0hyLsj293*17vBbGj55r*87TSsg9iEAs… 8/12
2020/1/2
SPSS操作:轻松实现1:1倾向性评分匹配(PSM)
2020/1/2
SPSS操作:轻松实现1:1倾向性评分匹配(PSM)
Variable for Number of Eligible Cases设定一个变量,用来明确病例组中某一个 观测对象,在对照组中有多少个观测对象满足与其匹配的条件,比如说病例组有一 个观测对象PS=0.611,对照组可能有一个0.610,一个0.612。
3、与马氏配比结合的PSM:PSM与马氏配比结合后可以增加个别重点变量平衡能
倾向性评分匹配的原理与应用 临床案例版PPT

RCT 观察性研究
随机化分组 倾向评分匹配 “事后随机化”
组间均衡可比
三、倾向性评分匹配的原理介绍
倾向性评分匹配的研究步骤:
➢ 根据临床经验和实际要求,以暴露(处理)因素为应变量(Y),混杂因素 为自变量(X)构建logistic模型;
➢ 根据拟合的回归模型计算每个个体的倾向指数,指数范围为0-1之间,反映 个体被分到实验组的概率数。
连续性变量计算公式
分类变量计算公式
三、倾向性评分匹配的实例介绍
28
匹配前后混杂因素组间差异描述,以观察匹配效果。
二、倾向性评分匹配的实例介绍
三、倾向性评分匹配的实例介绍
30
对匹配后数据进行分析。
31
谢谢大家!
19730
一、倾向性评分匹配的背景介绍
各年发表的倾向性评分相关论文分布情况:
propensity-score matching
二、倾向性评分匹配的原理介绍
➢ 倾向性评分匹配(Propensity score matching,PSM)是倾向性评分法应用的 一个方面,指通过一个方程模型将其他特征变量(混杂变量)综合成一个混杂变 量,即倾向评分,再利用倾向评分从对照组中为暴露(试验组)每个个体寻找一 个或多个背景特征相似的个体作为对照,最终两组的混杂变量也趋于均衡可比。
饮酒 不饮酒
PSM
饮酒 不饮酒
二、倾向性评分匹配的原理介绍
二、倾向性评分匹配的原理介绍
自然状态下饮酒情况
1. 性别 2. 年龄 3. 家庭经济情况 4. 文化水平 5. ......
降维
倾向性评分
性别 A
年龄 B
经济 C
文化 D
对所有条件进行逐一匹配,使两组具有可比性;但如果有100个因素呢?
PSM-DID分析ppt课件

修建铁路对沿线城市经济的影响
• 为了解决以上问题,我们需要观察到至少两期, 第一期是建铁路之前, T=0;第二期是建铁路之 后, T=1 。
• 设穿过Di=1,否则Di=0。
• 两次差分,(1)先求出在修建铁路前后每一个
期肯定没有建铁路,第一期只有Di=1的城市建了铁路。 基 本模型为:
Yit β0 β1Di β2T β3 (Di T ) β4 Xit εit
• 对时间差分: Yi β2 β3Di εit • 再次差分: Y β3 εit
• 所以实际做的时候,可以直接跑这个式子的回归, 得到的交乘项的系数就是所要估计的处理效应。
• 如果我们简单地将是否执行了某项事件作为虚拟
变量,而对总体进行回归的话,参数估计就会产
生偏误,因为在这样的情况下,我们只观察到了
某一个对象他因为发生了某一事件后产生的表现,
并且拿这种表现去和另一些没有发生这件事情的
其他对象去做比较。这样的比较显然是不科学的,
因为比较的基础并不同。
4
修建铁路对沿线城市经济的影响
PSM—DID及其应用
1
1、介绍PSM-DID方法 2、分析论文
——西部大开发是增长驱动还是政策陷阱
3、stata操作过程
2
双重差分法
• 双重差分(difference in differences,DID)嘛,就是 差分两次。
• 一种专门用于分析政策效果的计量方法。 • 将制度变迁和新政策视为一次外生于经济系统的“自然实
• 现在要修一条铁路,铁路是条线,所以必然会有 穿过的城市和没有被穿过的城市;
倾向评分配对简介课件

文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系本人改正。
Why PSM? (2)
Y i W iXi'i
The independent variable w is usually correlated with the error term . The consequence is inconsistent and biased estimate about the treatment effect .
accomplish raConsider E(Y1|W=1) – E(Y0|W=0) . Add and subtract
E(Y0|W=1), we have E{E(Y(Y0|W1|W=0=)1}) – E(Y0|W=1)} + {E(Y0|W=1) Crucial: E(Y0|W=1) E(Y0|W=0)
• What are the effects of bureaucratic performance standards,
local labor markets and individual characteristics on administrative decisions to accept applicants and place them in specific programs?
Day 2
• Practical issues, concerns, and strategies • Questions and discussions
文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系本人改正。
PSM References
Check website: /VRC/Lectures/index.htm
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2020/3/5
16
2020/3/5
17
14
• 比较的效果是接受治疗后1 年内的生存率,成本是所有疾病相关 的医疗成本,研究分别对成本和效果未经过调整的结果、多元回 归结果、基于倾向值匹配的结果和基于倾向值分层的结果进行了 比较。
2020/3/5
15
讨论
倾向值分析只能尽量减少混杂因素产生的影响,并不能完全消除, 其消除程度取决于可以被观测和控制的变量数量以及匹配的质量。 此外,倾向值分析只能对可观测的混杂因素进行平衡和控制,并不 能够控制不可观测的混杂因素,当有重要的混杂因素缺失或不可观 测时,采用倾向值分析所得结果可能与真实值存在较大偏差。
• 倾向值(propensity score)是在控制其他混杂因素的条件下个体接 受 干预的概率,对其在干预组和控制组间进行控制或匹配以估计干 预效 果,可以用来控制大量的混杂因素变量。
• 目的:将多个变量(多维)转化为一个中间变量(一)
• 特点:不在关注每个需要控制的混杂因素的具体取值,转为关注将这 些变量纳入logistic回归方程后预测出来的倾向值。只要保证倾向值匹 配,这些所有需要控制的混杂因素都考虑了。
score
Select the matching method
Assessing balance (test
model)
Estimating the
treatment effect
2020/3/5
7
选择协变量
找出既影响干预分组又影响结果的混杂因素: 一般协变量是根据已有经验或理论依据来选取的。 通过双变量检验,与干预分组变量和结果变量都相关的协变量均应包含在估计 倾向值的模型中; 与结果变量相关的协变量也应包含在估计倾向值的模型中(不管其与分组变量 是否相关),这样有助于降低估计结果的方差; 而只与协变量不应包含在估计倾向值的模型中。干预分组相关,但与结果变量 无关的
• 该研究中用到的混杂因素包括患者年龄、性别、心源性休克、急性和慢性肾衰竭、 有并发症的糖尿病、充血性心力衰竭、脑血管疾病、恶性肿瘤、肺水肿、心律失 常、Charlson 合并症指数和家庭中位收入。对两组基线协变量的比较发现,大多 数协变量存在显著性差异,即两组患者的基线信息不平衡。
2020/3/5
2020/3/5
8
估计倾向值
• Logistic 回归模型 • 令y=组别,x为各协变量
每个个体在给定可观测混杂因素的条件下接受干预的条件概率。
2020/3/5
9
选择匹配方法
最近邻匹配
2020/3/5
卡钳匹配 马氏距离匹配
贪婪匹配法
10
匹配后的均衡性检验
• 协变量的平衡可通过均值上的绝对标准化差值来衡量
• 最大的优点:不丢失样本量。
2020/3/5
12
应用
• 1:关注的结果变量只考察成本或效果 • 2:分开检验混杂因素对成本和效果的影响
2020/3/5
13
• Manca 等应用倾向值分析对不同手术方案的成本和效果进行研究
• 通过加拿大安大略湖省的心肌梗死数据库(OMID),对经皮腔内冠状动脉成形 术(PTCA)和冠状动脉旁路移植手术(CABG)对因急性心肌梗死(AMI)入院 患者的成本和效果进行评价。
倾向值匹配法(PSM)
1
RCT:很多限制,如费用,伦理学要 求,操作困难,不适合发病率很低的 疾病 非RCT:避免以上繁杂的问题,容易 组间基线不齐,使之成为处理效应的 混杂因素从而产生偏移
2
• 为了消除混杂因素的影响,传统的解决方式是,用多变 量配对,多变量分析模型,M-H分层分析,协变量分析。
2020/3/5
5
PSM适用情形
• 前提:logistic多因素分析已经无法校正 • 1:实验组与对照组人数相差甚远(>4:1) • 2:两组变量差异太大,可比性差,如基线不齐,或混杂因素多 • 3:变量过多,样本量偏少
2020/3/5
6
步骤
Select covariates
Estimate propensity-
• 通常dX>dXm,说明在匹配后样本的平衡程度有所改善。
2020/3/5
11
使用倾向值加权
• 还可在不匹配的情况下使用倾向值,将倾向值作为抽样权重进行 多元分析。倾向值加权的目的在于对干预组和控制组的成员分配 权重,使其能够代表研究总体。可以对加权后的总体直接进行多 元分析,也可用于非参数回归的倾向值分析,进行基于内核的匹 配。
• 当需要匹配的变量很多时,多变量配对通常是不可行的; 当混杂因素很多或有多个亚组时,分层分析也是不可行 的;多因素回归则要求不同组间的协变量具有一致的分 布
2020/3/5
3
倾向值分析是分析观察性数据常用的一类 方法,目前也越来越多地用于采用观察性 数据开展的药物经济学评价。
2020/3/5
4
倾向值分析简介