倾向匹配(PSM)分析:观察性研究的统计学利器 - 预防医学讨论版 -丁香园论坛
propensity score matching 连续变量

propensity score matching 连续变量
倾向得分匹配(Propensity Score Matching,简称PSM)是一种在观察性研究中用于校正选择偏差的方法。
在倾向得分匹配中,如果自变量是连续变量,可以使用以下方法进行匹配:
1. 构建倾向得分:对于每个个体,计算其接受处理(如治疗组)的倾向得分。
倾向得分是一个个体接受处理的概率,可以通过逻辑回归或其他模型来估计。
在逻辑回归中,自变量是连续变量,可以直接将其纳入模型。
2. 设定匹配比例:确定每个个体在处理组和对照组之间的匹配比例。
通常,匹配比例可以设置为1:1 或1:n,其中1 表示处理组,n 表示对照组。
3. 进行匹配:根据倾向得分和设定的匹配比例,将处理组和对照组中的个体进行匹配。
可以使用各种匹配算法,如最近邻匹配、半径匹配、核匹配等。
4. 检查平衡性:匹配后,检查处理组和对照组在协变量上的平衡性。
可以通过比较匹配前后的标准化差异或计算均衡性检验统计量来评估平衡性。
5. 分析匹配后的样本:使用匹配后的样本进行后续的分析,以评估处理效果。
在使用倾向得分匹配时,需要满足一些假设,如共同支撑假设和无混淆假设。
同时,匹配过程可能会导致样本损失,因此需要确保匹配后的样本具有足够的样本量进行分析。
SCI编辑问:倾向性评分后,你验证了吗?

SCI编 辑 问 : 倾 向 性 评 分 后 , 你 验 证 了 吗 ?
缘起
精鼎48期SPSS统计软件实战训练营开班啦!
倾向性评分(PS)绝对可以算上近年统计分析领域的网红了,很多大牛期刊近年都有PS相 关的论文刊出。实现倾向性评分匹配目前常用软件有,SPSS、stata、R。本号也推过几期 PSM的推文。
然而权威杂志,对PS论文都有一个要求,就是你倾向性评分匹配后,你进行了匹配效果验证 了吗?
松哥统计说 倾向性评分是一种统计学上的不就方法,常用于观察性研究,但对实验性研究,但基线不均衡 时,也可以操作。
该方法的思想:就是在现有的个案中,选择一部分符合基线条件的个案进行后续分析。虽然增 加了可比性,但也损失了样本量。倾向性评分有4种处理方法,松哥新书里有详细说明. 匹配后数据均衡性检验,对于计量资料可以采用t检验,计数资料可以采用卡方检验。
算出后,进行画图即可。
【赠人玫瑰,手留余香】 【2055】SPSS25,作图优化啦,bayes也可统计了 【2054】SPSS太不靠谱,明明没有缺失值,非说有缺失值,难道是真的? 【2053】Cox比例风险模型,等比例风险你验证了吗? 【2052】SCI编辑让做控制协变量的生存曲线 【2051】趋势性检验集锦 【2050】析因设计方差分析 【2049】SCI作图又一技能-嵌入图
【2041】为什么SPSS读取Excel数据乱码或空值,真实案例 【2040】谁说SPSS不能画统计地图
> 10%; significant P-values) in baseline variables between propensity score-matched groups should not be overlooked .】 那么你会问,这这绝对标准差值如何算呢,请参考如下公式,分别针对计量与计数资料:
PSM原理及软件操作

3.实例操作
④匹配后数据展示 打开EXCEL后PP.score变量展示的是所有记录的倾向性评分。
3.实例操作
④匹配后数据展示 再回到软件左侧“病例对照配对”分支树里的“PROJ1_1tbl.htm”处单击右键,选
2.需要对匹配前后混杂因素组间差异进行描述,以观察匹配效果。
3.实例操作 数据读取成功
3.实例操作
②进行PSM操作 点击软件上方“数据操作”菜单, 选择“病例对照配对”。
3.实例操作
②进行PSM操作
进入“病例对照配对”界面后,病例对照分组变量处选择研究的分组变量NLR,研究对象编号处选择原始研 究编号变量id,用于配对的变量选择需要调整的混杂因素(下图右方蓝色部分)变量,再在“计算倾向性评分再 按评分配对”处打勾,1:n配对处选择n=1,最后点击下方的“查看结果”。
③RCT研究对试验条件要求高,投入也大,一般的小医院很难开展高质量、大样本 的RCT。
1.RCT研究
上市后药物扩大适应症的研究 属于药品补充注册的一种,需要研 究者进行药物临床研究, 再上报国家 食品药品监督管理局,审批通过后 才允许在说明书上面增加新适应症。
2.观察性研究简介
上面的时髦名词“真实世界研究”,其实也就是观察性的临床研究,相对于RCT研 究,观察性临床研究的研究对象所具有的各种特征是客观存在的,研究者不能对其进 行干预,其研究结果更接近实际情况,同时因其较宽的纳入排除标准,使其研究结果 更具外推性,实用性更好。
3.倾向性评分匹配的原理介绍
倾向性评分匹配的研究步骤:
①根据临床经验和实际要求,以处理因素为应变量(Y),混杂因素为自变量(X)来构建 回归模型; ②由大量观察性数据拟合回归模型的参数; ③根据拟合的回归模型计算每个个体的倾向指数,指数范围为0-1之间,反映个体被分到 实验组的概率; ④以倾向指数为依据,通过倾向评分匹配方法来均衡组间协变量的分布;
倾向性评分匹配的原理及文献解读PPT课件

真实世界研究控制混杂方法
2006年美国流行病学杂志Am J Epidemiol总结了真实世界研究 控制混杂常用的五种方法,包括: 1. 多元回归模型调整混杂 2. 倾向性评分匹配(PSM)后构建回归模型 3. 回归模型调整倾向性评分(PS) 4. 回归模型+加权(IPTW)处理 5. 回归模型+加权(SMR)处理
倾向性评分匹配原理及文献解读
目录
CONTENTE
01 倾向性评分匹配的原理介绍
02 倾向性评分匹配的实例
03 倾向性评分匹配应用的注意事项
01 倾向性评分匹配的原理介绍
临床研究常见的类型
X是否人为分配?Assigned
exposure X?
No
Yes
观察性 Observational
实验性 Experimental
1.RCT研究简介 药物临床试验(GCP)采用的就是严格按照RCT研究研究也有其不可避免的缺陷: ①有些研究无法解决伦理问题。如吸烟和肺癌,就不能做RCT研究
②RCT研究是在理想条件下对特定人群的干预结局,并不能很好的外推到真实的临 床环境中,如:药物的RCT一般都会限制研究人群,年龄有限制,小孩不要,老人 不要,有基础疾病的不要,但在真实的临床环境中,如果遇到了这些人群,究竟用 不用这个药,用多少,有什么风险…,这些都不清楚。
3.倾向性评分匹配的原理介绍
混杂偏倚可能改变着研究结果的真实性,从而使观察性临床研究结果的实际运用价 值受到相应的限制。观察性临床研究中,是否有效控制偏倚成为其成功与否的关键,在 这种情况下,倾向性评分匹配就横空出世了。
20世纪80年代Rosenbaum和Rubin首次提出了了倾向性评分法这一概念。倾向性 评分法是运用倾向性评分值来综合所有的观察变量信息从而达到均衡变量、减少偏倚的 目的。
倾向匹配得分教程(附PSM操作应用、平衡性检验、共同取值范围、?核密度函数图)

倾向匹配得分教程(附PSM操作应用、平衡性检验、共同取值范围、核密度函数图)展开全文本文主要包括倾向匹配得分命令简介、语法格式、倾向匹配得分操作步骤思路,涉及倾向匹配得分应用、平衡性检验、共同取值范围检验、核密度函数图等内容。
1命令简介Stata does not have a built-in command for propensity score matching, a non-experimental method of sampling that produces a control group whose distribution of covariates is similar to that of the treated group. However, there are several user-written modules for this method. The following modules are among the most popular:Stata没有一个内置的倾向评分匹配的命令,一种非实验性的抽样方法,它产生一个控制组,它的协变量分布与被处理组的分布相似。
但是,这个方法有几个用户编写的模块。
以下是最受欢迎的模块(主要有如下几个外部命令)psmatch2.adopscore.adonnmatch.adopsmatch2.ado was developed by Leuven and Sianesi (2003) and pscore.ado by Becker and Ichino (2002). More recently, Abadie, Drukker, Herr, and Imbens (2004) introduced nnmatch.ado. All three modules support pair-matching as well as subclassification.You can find these modules using the .net command as follows:net search psmatch2net search pscorenet search nnmatchYou can install these modules using the .ssc or .net command, for example:ssc install psmatch2, replaceAfter installation, read the help files to find the correct usage, for example:help psmatch2上述主要介绍了如何获得PSM相关的命令,总结一下目前市面上用的较好的命令为psmatch2.PSM 相关命令help psmatch2help nnmatchhelp psmatchhelp pscore持续获取最新的 PSM 信息和程序findit propensity scorefindit matchingpsmatch2 is being continuously improved and developed. Make sure to keep your version up-to-date as follows ssc install psmatch2, replacewhere you can check your version as follows:which psmatch22语法格式语法格式为:help psmatch2••••••psmatch2 depvar [indepvars] [if exp] [in range] [, outcome(varlist) pscore(varname) neighbor(integer) radius caliper(real) mahalanobis(varlist) ai(integer) population altvariance kernel llr kerneltype(type) b width(real) spline nknots(integer) common trim(real ) noreplacement descending odds index logit ties q uietly w(matrix) ate]选项含义为:depvar因变量;indepvars表示协变量;outcome(varlist)表示结果变量;logit指定使用logit模型进行拟合,默认的是probit模型;neighbor(1)指定按照1:1进行匹配,如果要按照1:3进行匹配,则设定为neighbor(3);radius表示半径匹配核匹配 (Kernel matching)其他匹配方法广义精确匹配(Coarsened Exact Matching) || help cem局部线性回归匹配 (Local linear regression matching)样条匹配 (Spline matching)马氏匹配 (Mahalanobis matching)pstest $X, both做匹配前后的均衡性检验,理论上说此处只能对连续变量做均衡性检验,对分类变量的均衡性检验应该重新整理数据后运用χ2检验或者秩和检验。
PSM-DID分析ppt课件

(1)基数小,增长快(一张白纸可以画出更美丽的画卷) (2)税收优惠政策对西部地区的增长具有促进作用,效果
将越来越微弱; (3)西部地区与发达地区之间的区域差距仍在继续扩大。
15
政策陷阱效应
• 优惠政策构成了西部地区经济增长的驱动力,但 其增长对能源、资源开发的依赖度很高;由于体 制弊端和配套政策缺失,会造成地方政府的短视 行为,容易忽视人才和技术要素,弱化社会制度 和软环境构建。
PSM—DID及其应用
1
1、介绍PSM-DID方法 2、分析论文
——西部大开发是增长驱动还是政策陷阱
3、stata操作过程
2
双重差分法
• 双重差分(difference in differences,DID)嘛,就是 差分两次。
• 一种专门用于分析政策效果的计量方法。 • 将制度变迁和新政策视为一次外生于经济系统的“自然实
大开发之前的处理组、西部大开发之后的处理组、西部大开发之前的 控制组和西部大开发之后的控制组。
• du=1代表西部地区的地级市,du=0代表其他地区的地级市,dt= 0代表西部大开发之前的年份,dt=1代表西部大开发之后的年份。
• 下标i和t分别代表第i个地级市和第t年,Z代表一系列控制变量, e为随机扰动项,被解释变量Y度量经济增长,具体指标包括人均实 际GDP和实际GDP的对数值。
城市的GDP增长率,Yi Yi1 Yi0
• (2)求处理效应:
1
1
Y N1
(Yi Di 1) N2
(Yi Di 0)
修建铁路对城市经济的促进作用 6
修建铁路对沿线城市经济的影响
• 可以换一个写法 • T=1,建铁路之后 • T=0,建铁路之前 • Treated代表在某一期,某一类城市是不是建了铁路。第零
数据科学中的因果推断:探索因果推断方法在数据分析与决策中的应用

数据科学中的因果推断:探索因果推断方法在数据分析与决策中的应用摘要随着大数据时代的到来,数据科学在各个领域都发挥着越来越重要的作用。
然而,数据分析往往停留在相关性分析层面,无法揭示变量之间的因果关系。
因果推断作为一门新兴学科,为数据分析提供了更深入、更可靠的洞察。
本文将探讨因果推断方法的原理、常用技术,并结合实际案例,阐述其在数据分析与决策中的应用价值。
1. 引言在数据驱动的决策过程中,了解变量之间的因果关系至关重要。
传统的统计分析方法往往只能揭示变量之间的相关性,而无法确定因果关系。
例如,冰淇淋销量与溺水人数之间存在正相关,但这并不意味着吃冰淇淋会导致溺水。
因果推断方法通过设计合理的实验或利用观察性数据,可以帮助我们识别真正的因果关系,从而为决策提供更可靠的依据。
2. 因果推断的基本原理因果推断的核心思想是通过干预或控制某些变量,观察其他变量的变化,从而推断变量之间的因果关系。
为了实现这一目标,因果推断引入了潜在结果框架、因果图模型等概念。
2.1 潜在结果框架潜在结果框架认为,每个个体在不同干预下都存在潜在结果。
例如,一个人在接受某种药物治疗和不接受治疗的情况下,其健康状况可能会有所不同。
因果效应被定义为个体在不同干预下的潜在结果差异。
2.2 因果图模型因果图模型通过有向无环图 (DAG) 描述变量之间的因果关系。
DAG 中的节点表示变量,有向边表示因果关系的方向。
因果图模型可以帮助我们识别混杂因素、中介变量等,为因果推断提供指导。
3. 常用因果推断方法3.1 随机对照试验 (RCT)RCT 是因果推断的黄金标准。
通过随机分配干预,RCT 可以有效控制混杂因素,从而准确估计因果效应。
然而,RCT 在实际应用中存在伦理、成本等限制。
3.2 倾向得分匹配 (PSM)PSM 利用倾向得分 (即个体接受干预的概率) 将接受干预组和未接受干预组的个体进行匹配,从而模拟 RCT 的效果。
PSM 在观察性研究中具有广泛应用。
使用R和Stata软件实现倾向性评分匹配

R软件 安装 完 毕 后 ,还 需 要 进 一 步 安 装 和 加 载所
psmatch2程序 包就 是 专 门用 于 实 现 PSM 的 易 学 易 用 需 的 Matchit程 序包 ,具 体 安装 与加 载代 码 如下 :
的程 序 包 。 本 文 拟 通 过 实 例 展 示 如 何 在 R 与
instal1.packages(”M atchit”)
Stata软件 上 逐步 实现 PSM。
library(Matchlt)
倾 向性 评分 的概 念 与基本 原 理
2.数 据背 景 与加 载 数 据选 择 某 医 院 2012年 1月 1 日至 2015年 l0
倾 向 性 评 分 (propensity score,PS)的 概 念 是 月 31日期 间确 诊 的 603例 妊 娠 合 并 乙肝 孕 妇 ,探 讨
目前 被认 为 是临 床试 验 的金 标 准 ,但 在 实 际 工作 中 常 且 协变 量 的 PS值 相近 。
受 到伦 理 、经济 等 因素 的影 响 ,且 因研究 对象 有严 格 的 纳 入排 除标 准 ,使 其结 论 外 推 受 到 限制 … 。大 样 本 观
在 R软 件 上 实现倾 向性评 分 匹配
以孕妇 是 否为 HBeAg阳性 为分 组 因素 ,将 其余 变 量 作为 协变 量 纳 入 PSM 模 型 之 中 ,并 将 结 果 存 储 在 “ m . out”这一 新 变量 之 中 。匹配 的算 法 选用 了最 常 用 的最近邻 匹配算法 (nearest neighbor matching),匹配 的 比例 可通 过 设定 ratio的数 值 来 实 现 ,一 般 设 置 为 1 — 5,本 例设 置 为 1:1匹配 。程序 命 令如 下 :
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
rinyxa
科室保密
何为PSM分析呢?这个问题需要先从临床研究的类型说起。
众所周知,临床研
究分为干预性研究和观察性研究。
干预性研究的论证强度是高于观察性研究
的,原因就在于干预性研究可以通过“随机分配”的方式平衡混杂因素。
比如研究
一种药物治疗抑郁症的疗效,研究者在招募了一些抑郁症患者后,将其随机分
为实验组和对照组,实验组接受药物治疗,对照组接受安慰剂治疗。
经过治疗
一段时间后,如果两组患者的预后不同,则我们可以认为这种“预后”上的差异完
全是有治疗措施的差异引起的(实际上,我认为这句话值得商榷!),因为从
理论上讲,实验组和对照组的临床特征是相同的,或者说具有可比性的。
正因
我的丁香客精品栏目找人随便看看更多版内搜索
此时,如果贫血组和非贫血组患者在三年缺血时间发生风险上存在差异,则就
可以将原因归结为贫血,因为两组患者其他特征都是相同的。
关于PSM的统计学原理,笔者在此以JTD这篇文章为例进行一简要介绍。
其基
本流程为:首先将患者分为贫血患者非贫血患者,然后采用logistic回归,以贫
血与否作为应变量(Y),以其他所有已知的临床特征(比如BMI、NYHA分
级、高血压等)作为自变量(X),计算出每个患者的“贫血概率”。
这个贫血概
率实际上就是PSM最核心的内容之一。
然后,根据贫血概率,将实验组和对照
组进行匹配。
比如,贫血组一个患者的贫血概率为0.361,那么就在非贫血患者
sunnymilanhuang
入门站友
黄春雨
入门站友
htelyon 入门站友
影灯
麻醉科
李珂薇ake 入门站友。