GRADE指南：Ⅳ. 证据质量分级——研究的局限性(偏倚风险)

合集下载

GRADEpro证据分级(最终版)

• If you think there were very serious limitations choose very serious «this will downgrade the quality of evidence for this outcome by 2 levels»
结果不一致（ Inconsistency）
– 失访过多 – 未进行意向性分析、观 – 察到疗效就过早终止试验
– 或未报道结果（通常是未观察到疗效的一些研究）
To rate study limitations:
• If you think any limitations were negligible choose no
• If you think there were serious limitations choose serious «this will downgrade the quality of evidence for this outcome by 1 level»
• GRADE系统使用易于理解的方式评价证据质量和推荐等级，目前已被世界卫生组织（WHO）、Cochrane协作网等一批著名机构所采用。
GRADE系统较之其他系统的优势
• 由一个具有广泛代表性的国际指南制定小组制定
• 明确界定了证据质量和推荐强度 • 清楚评价了不同治疗方案的重要结局 • 对不同级别证据的升级与降级有明确、综
决定证据质量的因素
• 可能降低证据质量的因素
– 研究的局限性 – 结果不一致 – 间接证据 – 精确度不够 – 发表偏倚
• 可能增加证据质量的因素
– 效应值很大 – 可能的混杂因素会降低疗效 – 剂量-效应关系
研究设计与证据质量

GRADE指南__证据质量分级

© 2011 中国循证医学杂志编辑部
CJEBM • 451 •
Methodology
表 1 专家意见 vs. 证据
专家意见
证据
严格控制血糖 “在我临床实践的 20 年里，我开始治疗新诊断糖
பைடு நூலகம்
可以使病人感尿病患者多次。我几乎总能看到这些病人开始治
觉好多了（意疗约一周后复诊，其中绝大多数说感觉比以前好
现举一个实例来阐明证据与专家意见的区别：假设参加医学生及住院医生的小组讨论，某内分泌学家解释了糖尿病严格控制血糖的理由，他的两种断言及其所引用的支持证据见表 1。对意见 1，他引用的证据完全是他的个人临床经验。对意见 2，他引用了自己的经验并参考了临床研究证据（仅仅是一句概括性说明）。
似乎有理由认为意见 1 可能在一定程度上基于
GRADE 特别使用的术语“质量”与“偏倚风险”（ GRADE 之前版本称为“研究局限性”）要求作者们
论著 • 方法学研究
在系统评价或指南中描述其发现并进行推论时谨慎使用。实施良好的研究可能作为被定为低质量证据群的一部分，因为这些研究仅为所关心的问题提供了间接或不精确的证据。尽管临床流行病学家和其他人已经赋予了“质量”（通常是偏倚风险）一词其它意思，但我们相信此处更多地是指通常和非专业上对“质量”这个词的理解。
中国循证医学杂志 2011, 11(4): 451～455
的过程一样，系统评价员及指南制定者将有区别地使用这套标准。在本系列第五篇文章中我们将着重讨论这种标准运用上的不同，该文将涉及证据质量分级的精确性评估 [5]。
6 GRADE中的质量不仅意味着偏倚风险
临床流行病学文献中使用的“质量”通常是指对单个研究内在效度（如，偏倚风险）的判断。要作出分级，对对照试验而言，评价员考虑这样一些特征如随机、隐蔽分组、盲法及意向治疗分析的运用。对观察性研究，他们考虑恰当地测量暴露与结局及适当控制混杂。对对照试验和观察性研究他们都要考虑失访的问题，及设计、实施与分析中影响偏倚风险的其他因素。

GRADE系统简介-Cochrane

即Population（目标人群）、 Intervention（干预措施）、 Comparison（比较对象）和 Outcome（结局指标），是问题构建的基础。
证据检索、筛选和评价方法
证据检索
通过系统检索数据库、临床试验注册库、灰色文献等，获取与研究问题相关的证据。
证据筛选
根据研究设计、质量、偏倚风险等标准，对检索到的证据进行筛选。
Cochrane协作网积极推动GRADE方法的应用成果转化，与政策制定者、卫生保健提供者等合作，将评价结果转化为实际的卫生保健决策和行动。
04
GRADE系统核心框架与流程
问题构建与PICO原则
问题构建
在GRADE系统中，问题构建是第一步，需要明确研究问题、目标人群、干预措施和比较对象。
PICO原则
弥补传统评价方法的不足
传统评价方法在证据质量和推荐强度方面存在不足，GRADE系统通过明确的标准和流程，提高了评价的准确性和可靠性。
Cochrane与GRADE系统关系
Cochrane对GRADE系统的影响
Cochrane协作网在推动GRADE系统的发展和应用方面发挥了重要作用，其提倡的循证医学理念与 GRADE系统的评价原则相契合。
促进GRADE方法传播
Cochrane协作网积极推广GRADE方法，在全球范围内举办培训班、研讨会等活动，提高 GRADE方法的知名度和影响力。
支持GRADE方法应用
Cochrane协作网为GRADE方法的应用提供技术支持和咨询服务，帮助研究者更好地理解和应用GRADE方法。
Cochrane在GRADE应用实践经验分享
证据评价
采用GRADE分级方法，对筛选后的证据进行质量评价，包括研究设计、偏倚风险、不一致性、间接性、精确性和发表偏倚等方面。

GRADE指南__证据质量分级

© 2011中国循证医学杂志编辑部 C JEBMGRADE指南：Ⅲ. 证据质量分级△GRADE Guidelines: 3. Rating the Quality of Evidence△Howard Balshem*，Mark Helfanda，Holger J. Schunemann，Andrew D. Oxman，Regina Kunz，Jan Brozek，Gunn E. Vist，Yngve Falck-Ytter，Joerg Meerpohl，Susan Norris，Gordon H. Guyatt，代表GRADE工作组#摘要本文介绍证据质量分级的GRADE方法。

GRADE将证据质量分为高、中、低和极低四个级别。

该分级应用于证据群，而非针对个别研究。

系统评价中，质量反映了我们认为效应估计值正确的把握度。

对推荐意见而言，质量反映了我们认为效应估计值足以支持某特定推荐的把握度。

随机对照试验初定为高质量证据，观察性研究初定为低质量证据。

GRADE中所使用的质量一词不只是意味着偏倚风险，还可能受研究结果的不精确性、不一致性和间接性，及发表偏倚的影响。

此外，若干因素可增加我们对效应估计值的把握度。

GRADE提供了一种系统方法来思考并报告各因素。

GRADE将评估证据质量的过程与给出推荐建议的过程分开。

推荐强度的判断不仅依赖于证据质量。

关键词质量评价；证据群；不精确性；间接性；不一致性；发表偏倚1引言在本系列前两篇文章中我们介绍了GRADE，概述了GRADE方法用于作出推荐的全过程及该过程的最终产出——证据概要表和结果总结表（SoFs表），描述了构建问题和确定结果的过程[1,2]。

这是第三篇文章，我们将介绍证据质量分级的GRADE方法。

目的是提供该方法的一个概念性介绍。

更详细并附实例的说明将在那些有关可能导致降低或提△原文见J Clin Epidemiol, 2011, 64(4): 401-406.# GRADE系统由GRADE工作组开发。

GRADEpro证据分级(最新版)

GRADEpro证据分级
关闭手机
心态归零
遵守时间
课堂要求
积极参与
不要大声喧哗
注意环境卫生
课间要求
保持礼仪
课后要求
注意安全
GRADE系统简介
• GRADE（Grading of Recommendations Assessment, Development and Evaluation）是由2000年建立的GRADE工作组提出的一套评级系统。
• If you think there were very serious limitations choose very serious «this will downgrade the quality of evidence for this outcome by 2 levels»
结果不一致（ Inconsistency）
• GRADE系统使用易于理解的方式评价证据质量和推荐等级，目前已被世界卫生组织（WHO）、Cochrane协作网等一批著名机构所采用。
GRADE系统较之其他系统的优势
• 由一个具有广泛代表性的国际指南制定小组制定
• 明确界定了证据质量和推荐强度 • 清楚评价了不同治疗方案的重要结局 • 对不同级别证据的升级与降级有明确、综
符号
⊕⊕⊕⊕ ⊕⊕⊕○ ⊕⊕○○ ⊕○○○
↑↑ ↑？ ↓↓ ↓？
字母/数字
A B C D
1 2 1 2
关键步骤一导入RevMan文件
关键步骤二判断结局的重要程度
• GRADE 系统建议采用 9 级分级判断结局的重要程度:
– 1—3：不重要结局（NOT IMPORTANT） – 4—6：重要结局（IMPORTANT） – 7—9：关键结局（CRITICAL）

GRADE指南：Ⅳ. 证据质量分级——研究的局限性(偏倚风险)

1 引言本系列文章描述GRADE 证据质量评级和推荐强度分级系统。

前三篇文章探讨了构建问题和引入GRADE 方法来划分证据等级的过程，作为该系列的第四篇，本文讨论降低证据质量级别的五类原因之一：研究的局限性（偏倚风险）。

2 因偏倚风险而降低证据质量如果随机对照试验（RCT ）和观察性研究在设计或实施上存在缺陷，则可引起误导性结果的额外风险（其他出版物称为“有效性”或“内部有效性”问题），即研究的局限性或偏倚风险。

3 随机试验的研究局限性常影响RCT 研究局限性的有关问题，读者可参考许多权威论述（见表1）。

其中两点与GRADE 构想很相符，包括关注结果的特异性（如对偏倚风险的关注不是单个研究，而是单个结果，且单个试验或一系列试验的不同结果间质量可能存在差异 [1,2]）。

我们尤其强调表1中的3个标准：第一个标准即因获益而早期终止试验，最近才认识到该标准的重要性。

第二个标准即选择性报告结果，近来也有证据显示[3,4]。

而且，如何定位选择性报告结果属于哪类偏倚令人困惑。

有学者可能直觉地认为应将其归为发表偏倚，而不是单个研究内的偏倚风险问题。

最后，我们强调失访，因其常被误解。

但此前我们注意到另一个问题。

近来的证据表明，与未实施盲法和未进行分配隐藏有关的偏倚在△ 原文见J Clin Epidemiol, 2011, 64(4): 407-415.# GRADE 系统由GRADE 工作组开发。

所列作者撰写并修订了该文章。

在Journal of Clinical Epidemiology 杂志的网站上有该系列文章所有贡献者的名录。

*通讯作者，Email: guyatt@mcmaster.ca** 译者注：GRADE 指推荐分级的评估、制定与评价要点• 在GRADE 方法中，如果相关证据来自高偏倚风险的研究，则随机试验（一开始定为高质量证据）和观察性研究（一开始定为低质量证据）质量等级均可能被降低。

• 不同结果的偏倚风险可能不同，如当每一结果由不同研究子集提供资料时（如死亡率由一些试验提供，生活质量由其它试验提供）。

GRADE指南

GRADE指南1 引⾔作为介绍⽤于证据质量评价及推荐强度评级的GRADE （Grading of Recommendations Assessment ，Development ，and Evaluation ）⽅法系列⽂章的第⼀篇，我们将简要概述什么是GRADE 以及形成推要点GRADE 为卫⽣保健的系统评价及推荐意见提供了⼀种总结证据并呈现结果的透明化结构化⽅法，包括证据质量。

GRADE 为指南制定者提供了综合透明的框架来实施形成推荐意见的各相关步骤。

不论证据质量好坏，使⽤GRADE ⽅法都恰当且有帮助。

尽管GRADE 系统以⼀种系统透明的⽅式判断证据质量及推荐强度，但仍不排除对不可避免的主观判断的需要。

荐意见的GRADE 过程，并展⽰GRADE 证据总结的最终结果：证据概要表（evidence profile ，EP ）和结果总结表（the summary of findings table ，SoFs ta-ble ）。

此外，我们还将给出对GRADE 局限性的看法，提出我们关于本系列⽂章的计划。

2 什么是GRADE ?GRADE 为系统评价和指南提供了⼀个证据质量评价的体系，同时为指南中的推荐强度评级提供了⼀种系统⽅法。

该体系是为⽤以检测备选管理策略或⼲预措施的系统评价和指南⽽设计，⽽这些备选策略或⼲预措施可能没有任何⼲预，也可能有当前最佳管理⽅案。

开发GRADE 时，我们考虑了⼴泛的临床问题，包括诊断、筛检、预防及治疗。

本系列⽂章的⼤多数例⼦均为临床实例，但同样可⽤于公共卫⽣和卫⽣体系⽅⾯的问题。

GRADE 远⾮仅是⼀种评级系统，它为卫⽣保健领域的系统评价和指南总结证据，并呈现其结果及实施形成推荐意见的各个步骤，提供了⼀种透明的结构化⽅法。

GRADE 详细说明了⽤⼀种⽅法来构建问题，选择感兴趣的结局指标并评定其重要性，评价证据，并将证据与对患者和社会两者的价△原⽂见J Clin Epidemiol . 2011,64(4):383-943* GRADE 系统由GRADE ⼯作组开发。

GRADE指南_Ⅴ.证据质量评价——发表偏倚

要点・经验证据表明，一般结果有统计学意义的研究比结果无统计学意义的研究（即阴性结果研究）更易发表。・早期仅少量前导研究可得时，完成的系统评价会高估效应值，尤其当“阴性结果”研究滞后发表时更是如此。早期小样本阳性研究、尤其是小样本试验值得怀疑。・近年一些真相表明，厂商赞助研究的“阴性”结果隐瞒不报很常见。系统评价作者应特别关注发表偏倚，若当纳入的原始研究样本量都小，尤其当小样本研究受厂商资助时更需注意。・检验结果类型的经典方法（如漏斗图）可能提示发表偏倚，但需谨慎解释。
ＣｈｉｎＪＥｖｉｄ－ｂａｓｅｄＭｅｄ２０１１，１１（１２）：１４３０．１４３４
ＧＲＡＤＥ｝旨南：Ｖ．证据质量评价——发表偏倚△
ＧＲＡＤＥｇｕｉｄｅｌｉｎｅｓ：５．Ｒａｔｉｎｇｔｈｅｑｕａｌｉｔｙｏｆｅｖｉｄｅｎｃｅ－－ｐｕｂｌｉｃａｔｉｏｎｂｉａｓ△
ＧｏｒｄｏｎＨ．Ｇｕｙａｔｔ＋，ＡｎｄｒｅｗＤ．Ｏｘｍａｎ，ＶｉｃｔｏｒＭｏｎｔｏｒｉ，ＧｕｎｎＶｉｓｔ，ＲｅｇｉｎａＫｕｎｚ，
能是引起这些差异的主要原因【２１１。
未查全的检索漏检。非英语国家的作者可能将其阴性结果研究投给本国非英语期刊，这些研究必然会被任何一个只检索英语期刊的系统评价漏检【９１１０】。阴性研究可能以其它形式发表（论文、图书章节、会议摘要——有时称作“灰色文献”），故而可能被未查全的系统评价漏检…】。正因为有上述各种形式的发表偏倚，故存在高估效应值的风险。而单个系统评价很难预测未发表研究、非英语发表的研究及灰色文献的重要性。
中国循证医学杂志２０１１，１１（１２）：１４３０～１４３４
论着・毋麓醺圈
计算该结果１１２‘１５１】。Ｎ一乙酰半胱氨酸预防造影剂所致肾病的系统评价展现了若干镜像现象１１６１。在主要心脏病学杂志

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1 引言
本系列文章描述GRADE 证据质量评级和推荐强度分级系统。

前三篇文章探讨了构建问题和引入
GRADE 方法来划分证据等级的过程，作为该系列
的第四篇，本文讨论降低证据质量级别的五类原因之一：研究的局限性（偏倚风险）。

2 因偏倚风险而降低证据质量
如果随机对照试验（RCT ）和观察性研究在设计或实施上存在缺陷，则可引起误导性结果的额外风险（其他出版物称为“有效性”或“内部有效性”问题），即研究的局限性或偏倚风险。

3 随机试验的研究局限性
常影响RCT 研究局限性的有关问题，读者可参考许多权威论述（见表1）。

其中两点与GRADE 构想很相符，包括关注结果的特异性（如对偏倚风险的关注不是单个研究，而是单个结果，且单个试验
或一系列试验的不同结果间质量可能存在差异 [1,2]
）。

我们尤其强调表1中的3个标准：第一个标准即因获益而早期终止试验，最近才认识到该标准的重要性。

第二个标准即选择性报告结果，近来也有证据显示[3,4]。

而且，如何定位选择性报告结果属于哪类偏倚令人困惑。

有学者可能直觉地认为应将其归为发表偏倚，而不是单个研究内的偏倚风险问题。

最后，我们强调失访，因其常被误解。

但此前我们注意到另一个问题。

近来的证据表明，与未实施盲法和未进行分配隐藏有关的偏倚在
△ 原文见J Clin Epidemiol, 2011, 64(4): 407-415.
# GRADE 系统由GRADE 工作组开发。

所列作者撰写并修订了该文章。

在Journal of Clinical Epidemiology 杂志的网站上有该系列文章所有贡献者的名录。

*通讯作者，Email: guyatt@mcmaster.ca
** 译者注：GRADE 指推荐分级的评估、制定与评价
要点
• 在GRADE 方法中，如果相关证据来自高偏倚风险的研究，则随机试验（一开始定为高质量证据）和观察性研究（一开始定为低质量证据）质量等级均可能被降低。

• 不同结果的偏倚风险可能不同，如当每一结果由不同研究子集提供资料时（如死亡率由一些试验提供，生活质量由其它试验提供）。

• 当前系统评价对指南的有用性常有限，原因在于系统评价是按研究对所有结果的偏倚风险进行分级，而不是按结果对所有研究的偏倚风险进行分级。

1. 无隐蔽分组
招募受试者的人知道下一位受试者将被分到哪一组（或
交叉试验中的哪一时期）（按星期几、出生日期或图表编
号等来分配的“假”或“半”随机试验的主要问题）
2. 未设盲
患者、照护者、记录结果者、裁定结果者或数据分析者，
知道患者分配到哪一组（或交叉试验中目前正在接受的
药物治疗）
3. 不完整报告患者和结局事件
优效试验中的失访和未遵从意向性治疗原则；或非劣效
试验中的失访和未同时进行两种分析：仅分析坚持治疗
者和分析所有可得结果数据的患者
4. 选择性结果报告偏倚
不完整报告或不报告某些结果及基于结果的其它内容
5. 其它局限性
• 因早期获益而终止试验
• 使用未经验证的结果测量方法（如病人报告的结果）
• 交叉试验中的延滞效应
• 整群随机试验中的招募偏倚
* 此处1.3SD即SMD=1.3；** 此处0.8 SD即SMD=0.8。

1. 未能制定和使用合理的入选标准（对照人群的纳入）• 病例对照研究中匹配不足或匹配过度
• 队列研究中从不同的人群中选择暴露组和非暴露组2. 暴露和结局的测量均存在缺陷
• 暴露的测量存在差异（如病例对照研究中的回忆偏倚）• 队列研究中暴露组和非暴露组的结果监测有差异
3. 未能充分控制混杂
• 未准确测量所有已知的预后因素
• 未对预后因素进行匹配和/或在统计分析中未进行调整
4. 随访不完整
无严重局限性，不降级所有关键标准（见表）均为低偏
倚风险大多数信息来自低
偏倚风险的研究
高质量证据：真实效应接近
估计效应的病死率[26]
有严重局限性，降低1级（即质量从高降到中等级别）一个标准存在重要局限性，或多
个标准存在一定的局限性，足以
降低对效应估计值的把握度
大多数信息来自中
等偏倚风险的研究
证据质量由高降到中等：真
实效应可能接近估计效应，
但仍可能有很大的不同
阿莫地喹与SP联用较之于单
用SP，可能减少疟疾患者的
治疗失败[27]
有极严重的局限性，降低2级（即从高降到低或从中等降到极低）一个或多个标准存在重要局限
性，足以大幅降低对效应估计值
的把握度
大多数信息来自高
偏倚风险的研究
证据质量由高降到低：真实
效应可能大大不同于估计
效应
与保守治疗相比，开放式椎间
盘切除术可能减少腰椎间盘
突出症患者1年后的症状[28]
*这种解释假定不存在需要因不精确、不一致、间接性和发表偏倚而降低证据质量等级的问题；SP ：周效磺胺-乙胺嘧啶。

表 4 开放式椎间盘切除术与保守治疗相比的质量评价（Gibson等[28]）
结局指标：外科医生评定的1年期不显著/无效结果
126（1）RCT有极严重的局限性*不相关无严重的间接性严重的不精确性△不太可能结局指标：外科医生评定的4年期不显著/无效结果
126（1）RCT有极严重的局限性*不相关无严重的间接性严重的不精确性△不太可能结局指标：外科医生评定的10年期不显著/无效结果
126（1）RCT有极严重的局限性*不相关无严重的间接性严重的不精确性△不太可能* 隐蔽分组不充分，以及外科医生非盲且采用未经验证的方法而进行的评价；△ 宽的可信区间且事件数很少（16或更少）。

2005充分
计算机产生随机数#
密闭不透光的信封
盲照护者、患者和数据收集者#症状测量
Misra MC, 2000充分
计算机产生随机数#充分
密闭不透光的信封#
盲患者和医生#
描述为双盲
外观相同的安慰剂
2% /PP 未经验证的
症状测量
Godeberge P, 1994充分#充分
密闭不透光的信封#盲患者、研究医师、数据管理
者、统计学家和作者
6% /PP
Cospite M, 1994不清楚不清楚不清楚
描述为双盲12% /IT 未经验证的
症状测量
Chauvenet-M, 1994不清楚不清楚不清楚11%/PP 未经验证的
症状测量
Ho Y-H, 2000充分
密封不透光的信封#充分
密闭不透光的信封
盲各方#0% / IT 未经验证的
症状测量
Thanapongsathorn W, 1992不清楚不清楚不清楚
描述为双盲
12% /PP未经验证的
症状测量
Titapant V, 2001不清楚不清楚不清楚
描述为双盲
外观相同的安慰剂12% /PP未经验证的
症状测量
Wijayanegara H, 1992不清楚不清楚不清楚
描述为双盲3% /PP未经验证的
症状测量
Annoni F, 1986不清楚不清楚不清楚
描述为双盲
外观相同的安慰剂不确定/不清楚未经验证的
症状测量
Thorp RH, 1970不清楚不清楚盲医生和患者
描述为双盲
外观相同的安慰剂20% /PP未经验证的
症状测量
Clyne MB, 1967按照随机数字表连续
对瓶子编号不清楚盲医生和患者
描述为双盲
外观相同的安慰剂
不确定/PP未经验证的
症状测量
Sinnatamby CS, 1973不清楚不清楚盲医生和患者
描述为双盲53% /PP未经验证的
症状测量
Trochet JP, 1992按3个区组随机（方
法不清楚）不清楚盲医生
外观相同的安慰剂
不确定 /IT 未经验证的
症状测量
†：表中参考文献的完整引用参见Alonso-Coello et al.[36]；*：任何研究中类黄酮组与对照组间失访率无重要差异；IT：观察到的意向性治疗原则；#：数据由作者提供；
0Bracken
100可能非常大的偏倚无偏倚
0Pointillart
100
0Otani
100
图 1 研究类固醇对急性脊髓损伤患者运动
功能效果的3个RCT的有效性。