循证医学中文献证据等级标准的系统性综述

管红珍①　彭智聪①　傅　鹰②

摘　要　目的:了解文献证据等级的不同标准和总体概貌,探索标准制定的依据和要素。资料与方法:用“level of evidence ”等2个关键词组分别检索Alltheweb 等4个通用搜索引擎所得前20名结果为初步搜集对象,以其中有关链接或文献的引文为补充搜集对象,按一定原则选择符合要求的各种证据等级标准。介绍具有代表性的等级标准,分析和归纳标准制定的依据和要素。结果:共搜集到“证据金字塔”等16个证据等级标准或序列,其中《加拿大定期体检特别工作组的标准》等4个标准具有代表性;研究或论述的类型是证据等级分类的基本依据,研究的质量、设计、偏倚、样本、个数和结果是许多标准考虑的因素。结论:医学文献的证据等级标准多种多样、繁简不一、各有特点,可根据临床问题的特点选用某一标准或对某一标准先行增删修订后再予利用。

关键词　循证医学　医学信息　医学文献　证据等级　质量评价　系统性综述

　①武汉市儿童医院(430016);②武汉市《药物流行病学杂志》编辑部(430014)。

循证医学的一个重要的方面或环节是评价医学证据(医药学论述、文献或研究)。这不仅涉及对证据含义的理解,而且关系到证据的应用或利用。医学证据的评价指标至少应包括外在指标(载体的公认度、被引用情况和影响系数等)、程序指标(研究方案的科学性等)和内容指标(结果或结论的真实性等)。根据医学文献所用研究方法的类型,对文献的证据效力评等分级,再确定对文献的结果或结论的推荐力度,是程序评价的一个方面,被广泛地应用于循证性临床指南、医疗技术评价、大型医学证据报告和归同报告等的开发或撰写过程之中。另外,这方面的研究比较活跃和相对成熟,已经积累了比较丰富的资料。通过这些资料,分析评估指标的构成和要素,选择具有一定特点或代表性的标准给予介绍,有助于对医学证据评等分级标准的理解和应用。1　资料与方法

1.1　医学证据评等分级文献的界定

关于医药学研究或论述的方法学类型与该研究或论述的证据效力的评级分等标准的英文文献。1.2　搜集方法1.2.1　因特网

以关键词(组)level of evidence 和grade of rec 2ommendation 检索Alltheweb 、Ask Jeeves 、Excit 、Lycos 所得结果的前20个网站为初步筛选对象,以

初步筛选对象中有关网站链接或资料栏联接的网站

为补充筛选对象,用上述标准进行选择。除了回溯

标准的原始出处外,不对补充筛选对象的链接线索进行搜集。1.2.2　其他

以文献的引文为线索,进行搜集。考虑到“level of evidence ”不是主题词,不进行Medline 检索。由

于中文的关于证据等级的标准很可能译自英文,不进行中文文献的检索。

1.3　分析和集成资料的方法和内容1.3.1　代表性证据等级标准的选择和介绍

代表性标准是指最原始的,或最全面的,或应用较广泛的标准。

1.3.2　研究或论述的方法学类型

罗列所有提及的研究方法或论述方法的类型。1.3.3　方法学其他方面影响证据效力的因素

罗列所有提及的“非方法学类型”的影响研究或论述的证据效力的因素。2　结　果2.1　搜集结果

共搜集到25篇(份)证据等级标准[1-25]。25篇中,有一篇文献[13]罗列了4种标准;采用加拿大定

期体检特别工作组标准(“

86版”)的有4篇[7,12,13,23];列出美国卫生研究和质量管理局(AHCPR )标准(“92版”)的有5篇[4,9,13,14,17];有

关2种未查到原始出处的标准分别有3篇[1,5,15]和2篇[8,24]。另外,有2篇文献不是证据等级标准,

但它们是非常形象的证据类型序列[18,20]。所以,一共搜集到16种证据等级标准和2种证据类型序列。2.2　证据类型序列简介2.2.1　证据金字塔

证据金字塔(The Evidence Pyramid )[20]的原义是“图解”医学证据或论述与临床工作的关联程度。虽然它没有等级标准,但它包含等级序列,而且非常形象

2.2.2　“证据之箭”

如同证据金字塔,新西兰临床指南工作组的序

列非常简捷形象[18]:

2.3　代表性证据等级标准简介

2.3.1　加拿大定期体检特别工作组的标准

加拿大定期体检特别工作组(CTFPHE )的标

准[25,26]是最早(1979年)制定的证据等级标准,开创了证据等级标准的先河,在现在的许多标准中还可以发现其痕迹。它十分简捷,包含3个级别:

Ⅰ级:设计良好的随机对照试验、Meta 分析或系统性

综述;Ⅱ级:设计良好的队列或病例对照研究;Ⅲ级:非对照研究或归同(consensus )意见。

1986年,特别工作组对原始标准进行了修订

和改进,包括将第2级分为3个亚级[7,12,13,23]:

Ⅰ级:至少包含1项合适的随机对照试验的证据;Ⅱ1级:多项设计良好的非随机的对照试验的证据;Ⅱ22级:多项设计良好的队列或病例对照类分析性研究的证据,最好为不同机构或不同研究小组的研究;Ⅱ23级:有或无干预的多重时间序列研究(multiple time series )的证据;多项非对照试验的戏剧性结果(dramatic results );Ⅲ级:基于权威人士的临床经验的意见和建议;多项描述性研究和病例报告;专家委员会报告。

2.3.2　美国AHCPR 的标准

美国卫生研究和质量管理局(AHCPR ,AHRQ )组织或资助的有关证据报告较早(1992年)就在其

研究方法中制定了证据等级标准[4,9,13,14,17,27]。这个标准比较精悍,较易把握,随后的许多标准以其为基础进行调整和修改。

Ⅰa 级:随机对照试验的Meta 分析的证据;Ⅰb 级:至少1项随机对照试验的证据;Ⅱa 级:至少1项设计良好的非随机的对照试验的证据;Ⅱb 级:至少1项设计良好的准试验性研究(quasi 2ex 2perimental study )的证据;Ⅲ级:设计良好的非试验性研究,如对照研究、相关性研究和病例研究的证据;Ⅳ级:专家委员会的报告,或权威人士的意见或临床经验。

2.3.3　苏格兰多学科指南工作网的标准

1999年之前,该工作网借用美国AHCPR 的标

准(“92版”)。随后,他们在AHCPR 标准的基础之上,进行调整和补充,从而形成了自己的标准[21]。该标准比较简捷和实用:

16级:随机对照试验的高质量的Meta 分析、系统性综述,或出现偏倚的可能性很小(very low )的随机对照试验;

1+级:随机对照试验的质量较高的Meta 分析、系统性综述,或出现偏倚的可能性小(low )的随机对照试验;

1+级:随机对照试验的Meta 分析、系统性综述,或出现偏倚的可能性大(high )的随机对照试验;

26级:病例对照或队列研究的高质量的系统性综述,或出现混杂、偏倚和巧合的可能性很小而反映因果关联的可能性大的、高质量的病例对照或队列研究;2+级:出现混杂、偏倚和巧合的可能性小的而反映因果关联可能性较大(moderaie )的、较高质量的病例对照或队列研究;2-级:出现混杂、偏倚和巧合的可能性大的而反映因素关联可能性明显不足的病例对照或队列研究;3级:非分析性研究,即病例报告、系列病例分析;4级:专家意见。

2.3.4　牛津循证医学中心的标准[6]

该标准最为全面和复杂。它不仅包含研究或论述的类型,还根据证据应用的领域,分别制定不同

的证据等级标准(治疗等、预后、诊断、鉴别诊断等和经济学、决策分析),而且在评等分级时,还涉及到许多影响证据质量的其他因素。它的关于治疗、预防、病因和危害方面的标准如下:

1a 级:齐性的随机对照试验的系统性综述;

1b 级:窄可信区间的单个随机对照试验;

1c 级:未治疗时,所有患者均死亡,而治疗后某些患者生还,或未治疗时某些患者死亡,而治疗后患者均未死亡;

2a 级:齐性的队列研究的系统性综述;

2b 级:单个的队列研究,或低(low )质量的随机对照试验(脱试或失访大于20%);

2c级:“结局”研究(Outcome research),或病因研究(E2

cological study);

3a级:齐性的病例对照研究的系统性综述;

3b级:单个的病例对照研究;

4级:系列病例分析,或低(poor)质量的队列或病例对

照研究;

5级:未经明晰地严格评价(explicit critical appraisal)的,

或基于生理学、“归同”研究(bench research)或“第一

原则”(“first principles”,临床经验)的专家意见。2.4　研究或论述的方法学类型

所得资料中提及的方法学类型有:

Meta分析(定量系统性综述):随机对照试验的Meta分析、队列研究的Meta分析、回顾性队列研究的Meta分析、病例对照研究的Meta分析和经济学研究的Meta分析;定性系统性综述(systemat2 ic review);经济学分析;临床决策分析。

多中心(大型)随机对照试验,随机对照双盲试验、随机对照试验;非随机的对照试验:平行、历史或自身对照;队列研究:前瞻性队列研究、回顾性队列研究;病例对照研究:配对的或非配对的;现况研究;相关研究;时间系列研究;系列病例分析;病例报告。

(专家)的观点、评论和意见;动物研究;离体(试管)研究。

2.5　方法学方面的其他要素

在制定证据等级标准过程中,所有的制定者都将研究或论述的类型作为基本的和主要的因素,有的甚至将之作为唯一的依据[13],但绝大多数制定者还同时考虑方法学方面的其他要素,乃至方法学以外的因素。这些要素或因素包括:

质量:高质量的(high quality)[6,7]或适当的(properly,adequate)[3,12,13]研究;

设计和实施:设计良好的或实施良好的(well2 deigned,well conducted)[2,11,13,14,16,19,21,22]研究;

偏倚:假性或偏倚的可能性小的[false2positive (negative),bias][1,5,8,15,21,24]研究;

样本:大样本的或适当样本的或各种人群的研究[1,3,5,8,11-13,15,22,24];

随访:随访或失访情况良好的研究[6];

结果:可信区间窄的[6],或可信区间的下限高于临床价值值的[10],或结果明晰的(clear2 cut)[1,5,15],或戏剧性[12,13,19,23]的研究;

同类研究的数量[4,6,9,10,13,14,16,19,22,23];

多个研究的齐性(一致性)[3,6];

出版与否[16]。

3　讨　论

医学文献的证据等级标准是循证性临床指南、医学证据报告、医学严格评价(critical appraisal)报告和医疗技术评价报告的重要部分和环节。由于“证据等级”或“level of evidence”等词无特征性,用它们作为关键词检索医学二次文献数据库的效果非常差。另外,文献证据的评等分级极其复杂,但它属于广义“方法论”的范畴,是知识类资源,而不属(直接或实用)信息类和技术类资源,即无保密价值。所以,通过因特网搜集资料,不仅方便可行,而且所得资料的数量和质量已足以达到“了解不同的标准和总体概貌”等目的。

显然,文中采用的搜集资料的方法具有一定的局限性或缺点。首先,所用方法实际上是抽样的方法,即抽取部分资料,而非全面的完整的资料。其次,所用方法的抽样或搜集的结果很可能是“选优,未选‘劣’”,因为搜索引擎检索结果的排列顺序与检索词的吻合度或近意度成正比。再者,一般来说,因特网上的单位信息(篇)的结构完整性较差,很难查到作者、成文时间和文献依据等背景资料。文中所得资料在这方面显得特别突出:大部分文献查不到作者,部分文献查不到成文时间,特别是对于同一标准的数篇文献,很难确定哪篇最原始或其原始者出自何处。考虑到时间成本和上网成本,没有对该问题深究。由于“选优,未选‘劣’”所得结果的参考价值或许更大,及同一标准的重复文献占所得文献逾三分之一,可以认为文中所选的医学文献的证据等级标准具有一定的代表性。然而,美国AHRQ组织的4月份才公布的证据报告———科学证据的等级体系———的内容更为系统和全面[28](校稿时才查到)。

值得注意的是:①医学文献的证据等级标准多种多样、繁简不一、各有特点,在应用中应根据临床问题进行选择或修订;②证据等级标准或其他评价方式在不断发展之中,必要时可以结合起来利用;③证据等级标准或其他评价方法多是针对一般性问题进行构思和拟定,必定存在着许多情况,或证据相互矛盾、或证据匮乏、或证据特殊等,此时的选择可能包括咨询、讨论、收集和归同意见,发掘未得到的证据,等待新的证据,或进行原始研究,孕育和生产证据。

参　考　文　献

1　The Nevil Thomas Aduld C ongential Heart Library.C onsensus

report.Appendix IV.http://w w w.achd2L https://www.360docs.net/doc/f6431131.html,/ nevil2thomas/…/app24.htm,1998208210/2002202203

2　Rehabilitation for T raumatic brain injury:Summary.http:// w w https://www.360docs.net/doc/f6431131.html,/clinic/tbisumm.htm,1999210/20022022 02

3　G rading level of evidence.Methodology in the Curnret Care.

http://w w https://www.360docs.net/doc/f6431131.html,/apinei/gradlevofevm.html, 2002201211/2002202202

4　National clinical guidelines for stroke.http://w w w.ashburn2 https://www.360docs.net/doc/f6431131.html,/nanot.nationalclinicalguidelines.html,2000/20022 02203

5　AppendixⅣ:Level of evidence.http://w w https://www.360docs.net/doc/f6431131.html,/ consensus/app24.htm,1998208205/2002201216

6　Phillips B,Ball C,Sackett D,et al.Oxford centre for evi2 dence2based medicine levels of evidence(May2001).http:// https://www.360docs.net/doc/f6431131.html,/docs/level.html,1998211/20022012 08

7　Management of uninvestigated dyspepsia.Appendix2:Categ o2 rization of evidence and recommendations.http://w w w.

cma.ca/cmaj.vol2162/issue212/pdf/dyspesia.pdf,20002 04213/2002202206

8　Clinical pracitce guidelines for the care and treatment of breat cancer.Levels of evidence.http://w w w.cma.ca/cmaj/ vol2158/issue23/breastopg/0002.htm,1998202210/20022022 01

9　AHCPR.The types of evidence and the grading of recommen2 dations.http://w w https://www.360docs.net/doc/f6431131.html,hf https://www.360docs.net/doc/f6431131.html,/ahcpreng.htm,19992052 22/2002202203

10AMI:recommendation.http://w w w.courese.ahc.umn.

edu/pharmacy/5822/ami20.htm,2000201230/2002202206 11Appendix:Level of evidence(1998).http://w w w.cpsns.ns.

ca/of f ice2sales22001.htm,2002201214/2002202202

12Protocols2T able of contents.http://w w https://www.360docs.net/doc/f6431131.html,.ns.ca/ health/ens/Medical2Director/protocol,1997/2002202203

13IDSA.Diagnosis and management of group A streptococcal phar yngitis.a pracitce guideline.Clin Infect Dis,1997,27(3): 5742583(http://w w https://www.360docs.net/doc/f6431131.html,/COM PA RISONS/ PHA R YN G22nf.asp,2002201218)

14Acute pain management(clinical guide).http://hstat.nlm.

https://www.360docs.net/doc/f6431131.html,/hq/Hquest/db/local.arahcpr.arclin.apmc/

sereen/DocTitle/s/50334,1992202/2002202202

15Quantitative Critertia.http://w w w.inf ow https://www.360docs.net/doc/f6431131.html,/ohcen/ projects/transfer/restran.htm,1995201208/2002201210

16Assessment criteria:T ype&strength of evidence.http:// https://www.360docs.net/doc/f6431131.html,/bandolier,1994206/2002202203

17Berkovits EM,Netzer D.Evidence2based medicine and inter2 net:Levels of evidence(based on AHCPR1992).http:// w w w.medf orum.nl/gynf o/evidence2based2medicine2and2.

htm,2001209210/2002202201

18NZGG.Evaluating the evidence.http://w w https://www.360docs.net/doc/f6431131.html,.

nz/tools/med2literature.cf m,2002202209

19National Health and Medical Research C onncil.Levels of evi2 dence(1996).http://w w https://www.360docs.net/doc/f6431131.html,/guidelines/ breastgl/breast.htm,1996/2002202202

20G uide to rescarch method:The evidence pyramid.http:// https://www.360docs.net/doc/f6431131.html,/ebm/2001/htm,2002202201/ 2002202203

21SIG N.Forming guideline recommendation.http://w w w.

https://www.360docs.net/doc/f6431131.html,/guidelmes/f ulltext/50/section6.html,20012 02/2002202205

22ACC/AHA G uidelines for implantation of cardiac pacemakers and antiarrhythmia devices.JA CC,1998,31(50):117521209 (http://w w w.studio2delo https://www.360docs.net/doc/f6431131.html,/acc2aha.html,20002112 26/2002202202)

23Canadian T ask Force on the Periodic Health Examination.The periodic health examination.CMAJ,1986,134:7212723 (https://www.360docs.net/doc/f6431131.html,/cps/w w w/cps.htlm),20022 02202

24Levels of evidence guide for J TB articles.http://w w w.the2 berries.ns.ca,2002202201

25Canadian T ask Force on Periodic Health Examination.The pe2 riodic health examination.CMAJ,1979,121:119321254

26齐俊英,吴方建.英格兰北部的证据性指南研究项目———指南开发方法的摘要.药物流行病学杂志,1997,6(4):248 27曾晓丽,叶金朝.苏格兰的临床指南———一个SIG N的时代.药物流行病学杂志,1997,6(4):2452247

28West S,K ing V,Carey TS,et al.Systems to rate the strength of scientific evidence.http://w w https://www.360docs.net/doc/f6431131.html,, 2002204/2002205220

(2001202225收稿)

药物流行病学系列名词解释(1)

6　Ⅱ期临床试验(PhraseⅡclinical trial)

对新药的有效性和安全性做出初步评价的随机对照盲法试验。以新药预期应用的患病人群样本为对象,经对照性临床试验确定新药对其适应证的疗效并选定合理的治疗方案,同时对新药的不良反应及危险性做出评价。该期试验的设计和实施必须结合现实条件,符合临床和统计学要求,保证样本的代表性、设计的合理性和结果的可重复性,为大规模临床试验提供最佳基础。7　Ⅲ期临床试验(PhraseⅢclinical trial)

对新药的有效性和安全性做出进一步评价的扩大的多中心临床试验。以患病人群为对象,遵循随机对照试验原则,较大规模地对比性考察新药的疗效、适应证和不良反应。试验设计类似于Ⅱ期临床试验,但通过增加样本量(试验组病例数不少于300例),扩大临床试验单位(不少于3个),更为多样化的受试对象,及更为丰富的观察项目或指标等措施,进一步评价新药的有效性与安全性。Ⅲ期临床试验的条件应尽可能接近该药正常使用的条件。

Editorial Depatmant of Chinese Journal of Pharmacoepidemiology

ABSTRACT　Objective:To explore the economic result of mifepristone vs buserelin in treatment of uterine leiomyoma.Object and Method:60patients,who were diagnosed as uterine leiomyoma,were randomly,meanly divided into treated group which were given mifepristone and controlled group which received buserelin,which were assessed by cost2effectiveness analysis of pharmacoeconomics. R esult:The ratio of cost effectiveness in treated group was significantly lower than in controlled group.Conclusion:The cost2effec2 tiveness is better with mifepristone in treatment of uterine leiomyoma to provide a foundation for clinical drug2used to tend to rational2 ize.

KE Y WOR DS　Cost2effectiveness analysis;Pharmacoeconomics;Mifepristone;Buserelin;Uterine Leiomyoma

Cost2effectiveness Analysis of Three Drug Therapy in T reatment of Functional Dyspepsia

Zhu Pengcheng,Y ao Zuohua

Department of Pharmacy,Hunan Shaoyang First People’s Hospital,422001,P.R.China

ABSTRACT　Objective:To explore the economic effects with different drug therapy regimens in treatment of functional dyspepsia. Method:Domperidon,mosapride,and clebopride were analysed by cost2effectiveness analysis of pharmacoeconomics.R esult:Dom2 peridon was a best drug for functional dyspepsia.Coclusion:The cost2effectiveness analysis of pharmacoeconomics have a important effect in optimization of therapy regimen,direction of rational drug2used,and increase of economic effect.

KE Y WOR DS　Dyspepisa,functional;Domperidon;Mosapride;Clebopride;Cost2effectiveness analysis

Some Disputation on Meta2analysis and Measures to Improve its Q uality

Y ao Hongyan,Shi Lüyuan

Department of Epidemiology,Tongji Medical College,Huazhong Science and Technology University,Wuhan430030,P.R.China ABSTRACT　Objective:To explore the existing disputation on the meta2analysis and measures to improve its quality.Method:The literature are reviewed and practical experience and some opinions are posed.Conclusion:Despite the existence of some disputation in2 volved in meta2analysis in medical study,the meta2analysis is a scientific and effective integrated analysis method.A high quality meta2analysis result might be obtained in depending the high quality of every single study and the development of studying methods. KE Y WOR DS　Meta2analysis;Disputation;Quality,study

Systemic R eview of G rade Standard of Literature Evidence in Evidence2based Medicine

Guan Hongzhen,Peng Zhicog

Wuhan Children’s Hos pital,430016,P.R.China

Fu Y ing

Editorial Department of Chinese Journal of Pharmacoepidemiology

ABSTRACT　Objective:To understand the different standard of literature evidence grade and general situation,explore the founda2 tions and essential factors.Material and Method:The former20results obtained from exploring respectively“alltheweb”4common using search engine are served as preliminary explore objects,by”level of evidence”etc2key word groups,of which,the linkge2re2 lated or quotation of literature are served as supplied explore objects,various evidence grade standards accorded with requirement are selected according to certain principle.The grade standards possessed typical were introduced.The foundations and essential factors of determining standard are analysed and concluded.R esult:”evidence pyramid”etc15evidence grade standards or alignment,of which,”Canadian Task Force on Periodic Health Examination”etc4standards possess typical;the types of study and discussion are the essential foundations of evidence grade classify,the quality,design,bias,sample,number,and result are the factors of many standard consideration.Conclusion:The medical literature have various evidence grade standards,acompanied with different fea2 tures,certain standard is selected according to the feature of clinical problem,or certain stanldard is increased or decreased and revised to be used again.

KE Y WOR DS　Evidence2based medicine;Information,medicine;Literature,medicine;Evidence grade;Quality asess;Review,sys2 tem

A B ackground and Present Situation of USA Orphan Drug

Zhang Jianguo

G aomi People’s Hospital,G aomi261500,P.R.China

ABSTRACT　Objective:To introduce American Orphan Drug System.Methods:The historical background formed American Or2 phan Drug system,regulation of Orphan Drug System,preferential measure,and FDA’s approval procedure are stated.R esult and Conclusion:American government had issued”Orphan Drug Act”and other relative regulations in1983,and perfecting it continu2 ously.181kinds of Orphan Drugs were approved by FDA from1983to1998,solving the therapy problem of rare disease,It had played a key role in encouraging the home drug2used treated rare diseases of USA.

KE Y WOR DS　Orphan drug;Orphan drug regulation;Disease,rare;Orphan drug system

循证医学证据的分级

EBM证据的分级循证医学问世近20年来，其证据质量先后经历了“老五级”、“新五级”、“新九级”和“GRADE”四个阶段。前三者关注设计质量，对过程质量监控和转化的需求重视不够；而“GRADE”关注转化质量，从证据分级出发，整合了分类、分级和转化标准，它代表了当前对研究证据进行分类分级的国际最高水平，意义和影响重大。目前，包括WHO 和Cochrane 协作网等在内的28 个国际组织、协会已采纳GRADE 标准，GRADE同样适用于制作系统评价、卫生技术评估及指南。世界卫生组织已经采用GRADE 标准制定甲型流感H1N1指南。老五级证据级别内容 Ⅰ级收集所有质量可靠的RCT后作出的系统评价或Meta 分析结果；大样本多中心随机对照试验。 Ⅱ级单个大样本的RCT结果。 Ⅲ级设有对照但未用随机方法分组的研究；病例对照研究和队列研究。 Ⅳ级无对照的系列病例观察。级别临床研究结论可靠性 Ⅰ级随机对照试验（RCT）的系统评价或Meta-分析最可靠 Ⅱ级单个样本量足够的RCT 可靠性较高，建议使用 Ⅲ级设有对照组但未用随机方法分组（非RCT）有一定的可靠性，可以采用Ⅳ级无对照的病例观察可靠性较差，可供参考 Ⅴ级个人经验和观点可靠性最差，仅供参考

证据金字塔 1 随机对照研究工作队列研究病例对照研究病例系列病例报告理论研究动物研究体外研究系统评价/Meta 分析

证据质量定义高质量进一步研究也不可能改变该疗效就评估结果的可信度中等质量进一步研究很可能影响该疗效就评估结果的可信度，且可能改变该评估结果低质量进一步研究有可能影响该疗效就评估结果的可信度，且该评估结果很可能改变极低质量任何疗效评估结果很不确定

1.循证医学的证据级别和推荐等级

循证医学的证据级别和推荐等级循证医学的证据质量分级有以下几种划分方法： 1. 美国预防医学工作组(U.S. Preventive Services Task Force)的分级方法，可以用于评价治疗或筛查的证据质量: * I级证据：自至少一个设计良好的随机对照临床试验中获得的证据； * II-1级证据：自设计良好的非随机对照试验中获得的证据； * II-2级证据：来自设计良好的队列研究或病例对照研究(最好是多中心研究)的证据； * II-3级证据：自多个带有或不带有干预的时间序列研究得出的证据。非对照试验中得出的差异极为明显的结果有时也可作为这一等级的证据； * III级证据：来自临床经验、描述性研究或专家委员会报告的权威意见。英国的国家医疗保健服务部(National Health Service) 使用另外一套以字母标识的证据分级体系。上面的美国式分级体系仅适用于治疗获干预。而在评价诊断准确性、疾病自然史和预后等方面也需要多种研究提供证据。为此牛津循证医学中心(Oxford Centre for Evidence-based Medicine)提出了另外一套证据评价体系，可用于预防、诊断、预后、治疗和危害研究等领域的研究评价： * A级证据：具有一致性的、在不同群体中得到验证的随机对照临床研究、队列研究、全或无结论式研究、临床决策规则； * B级证据：具有一致性的回顾性队列研究、前瞻性队列研究、生态性研究、结果研究、病例对照研究，或是A级证据的外推得出的结论； * C级证据：病例序列研究或B级证据外推得出的结论；

* D级证据：没有关键性评价的专家意见，或是基于基础医学研究得出的证据。总的来说，指导临床决策的证据质量是由临床数据的质量以及这些数据的临床“导向性”综合确定的。尽管上述证据分级系统之间有差异，但其目的相同：使临床研究信息的应用者明确哪些研究更有可能是最有效的。此外，在临床指南和其他著述中，还有一套推荐评价体系，通过衡量医疗行为的风险与获益以及该操作基于何种证据等级来对医疗行为的医患沟通作出指导。以下是美国预防医学工作组(U.S. Preventive Services Task Force)的推荐评价标准： * A级推荐：良好的科学证据提示该医疗行为带来的获益实质性地压倒其潜在的风险。临床医生应当对适用的患者告讨论该医疗行为； * B级推荐：至少是尚可的证据提示该医疗行为带来的获益超过其潜在的风险。临床医生应对适用的患者讨论该医疗行为； * C级推荐：至少是尚可的科学证据提示该医疗行为能提供益处，但获益与风险十分接近，无法进行一般性推荐。临床医生不需要提供此医疗行为，除非存在某些个体性考虑； * D级推荐：至少是尚可的科学证据提示该医疗行为的潜在风险超过潜在获益；临床医生不应该向无症状的患者常规实施该医疗行为； * I级推荐：该医疗行为缺少科学证据，或证据质量低下，或相互冲突，例如风险与获益无法衡量和评估。临床医生应当帮助患者理解该医疗行为存在的不确定性。

循证医学的证据质量分级有以下几种划分方法

循证医学的证据质量分级有以下几种划分方法： 1. 美国预防医学工作组. Preventive Services Task Force)的分级方法，可以用于评价治疗或筛查的证据质量: * I级证据：自至少一个设计良好的随机对照临床试验中获得的证据；* II-1级证据：自设计良好的非随机对照试验中获得的证据；* II-2级证据：来自设计良好的队列研究或病例对照研究(最好是多中心研究)的证据；* II-3级证据：自多个带有或不带有干预的时间序列研究得出的证据。非对照试验中得出的差异极为明显的结果有时也可作为这一等级的证据；* III级证据：来自临床经验、描述性研究或专家委员会报告的权威意见。英国的国家医疗保健服务部(National Health Service) 使用另外一套以字母标识的证据分级体系。上面的美国式分级体系仅适用于治疗获干预。而在评价诊断准确性、疾病自然史和预后等方面也需要多种研究提供证据。为此牛津循证医学中心(Oxford Centre for Evidence-based Medicine)提出了另外一套证据评价体系，可用于预防、诊断、预后、治疗和危害研究等领域的研究评价：* A级证据：具有一致性的、在不同群体中得到验证的随机对照临床研究、队列研究、全或无结论式研究、临床决策规则；* B级证据：具有一致性的回顾性队列研究、前瞻性队列研究、生态性研究、结果研究、病例对照研究，或是A级证据的外推得出的结论；* C级证据：病例序列研究或B级证据外推得出的结论；* D级证据：没有关键性评价的专家意见，或是基于基础医学研究得出的证据。总的来说，指导临床决策的证据质量是由临床数据的质量以及这些数据的临床“导向性”综合确定的。尽管上述证据分级系统之间有差异，但其目的相同：使临床研究信息的应用者明确哪些研究更有可能是最有效的。此外，在临床指南和其他著述中，还有一套推荐评价体系，通过衡量医疗行为的风险与获益以及该操作基于何种证据等级来对医疗行为的医患沟通作出指导。以下是美国预防医学工作组. Preventive Services Task Force)的推荐评价标准：* A级推荐：良好的科学证据提示该医疗行为带来的获益实质性地压倒其潜在的风险。临床医生应当对适用的患者告讨论该医疗行为；* B级推荐：至少是尚可的证据提示该医疗行为带来的获益超过其潜在的风险。临床医生应对适用的患者讨论该医疗行为；* C级推荐：至少是尚可的科学证据提示该医疗行为能提供益处，但获益与风险十分接近，无法进行一般性推荐。临床医生不需要提供此医疗行为，除非存在某些个体性考虑；* D级推荐：至少是尚可的科学证据提示该医疗行为的潜在风险超过潜在获益；

循证医学基本特征

折叠循证医学的基本特征 1、将最佳临床证据、熟练的临床经验和患者的具体情况这三大要素紧密结合在一起寻找和收集最佳临床证据旨在得到更敏感和更可靠的诊断方法，更有效和更安全的治疗方案，力争使患者获得最佳治疗结果。掌握熟练的临床经验旨在能够识别和采用那些最好的证据，能够迅速对患者状况作出准确和恰当的分析与评价。考虑到患者的具体情况，要求根据患者对疾病的担心程度、对治疗方法的期望程度，设身处地地为患者着想，并真诚地尊重患者自己的选择。只有将这三大要素密切结合，临床医师和患者才能在医疗上取得共识，相互理解，互相信任，从而达到最佳的治疗效果。 2、重视确凿的临床证据这是和传统医学截然不同的。传统医学主要根据个人的临床经验，遵从上级或高年资医师的意见，参考来自教科书和医学刊物的资料等为患者制定治疗方案。显然，传统医学处理患者的最主要的依据是个人或他人的实践经验。主要区别传统医学并非不重视证据，更不是反对寻找证据。实际上传统医学十分强调临床实践的重要性，强调在实践中善于寻找证据，善于分析证据和善于根据这些证据解决临床实际问题。但传统医学强调的证据和循证医学所依据的证据并非一回事。在传统医学的模式下医师详细询问病史、系统作体检，进行各种实验室检查，力求从中找到有用的证据——阳性发现;医师试验性地应用治疗药物，观察病情的变化，药物的各种反应，从而获取评价治疗方法是否有效，是否可行的证据。利用这些证据，临床医师可以评估自己的处理是否恰当。如果效果不理想，则不断修正自己的处理方案。在实践中临床医师从正反两方面的经历中逐渐积累起临床经验，掌握了临床处理各种状况的方法和能力。这种实践仍然应该受到鼓励，这种个人的经验仍然值得重视，但此种实践存在局限性，不可能满足现在的临床活动的需求，因为它所反映的往往只是个人或少数人的临床活动，容易造成偏差，以偏概全。一些新的药物或治疗方法由于不为临床医师所了解而得不到应用;一些无效或有害的治疗方法，由于长期应用已成习惯，或从理论上、动物实验结果推断可能有效而继续被采用。例如二氢吡啶类钙通道阻滞剂仍在一些基层医疗单位中用来治疗慢性充血性心力衰竭，因为在理论上该药扩张动脉和静脉的作用，有助于减轻心脏的前后负荷，改善血流动力学状况;临床实践和动物实验也证实，此种作用的确可以产生有益的短期效应。但长期临床研究表明，这类药物会增加病死率，不宜作为慢性心力衰竭的基本治疗。理论上可能有效或动物实验中提示有效的治疗方法并不必定也会在临床上产生有益的治疗效果。同样是上面提到的二氢吡啶类钙通道阻滞剂用于治疗急性心肌梗死患者，不但理论上是恰当的，因为此类药可扩张冠状动脉，改善心肌的灌注状态，对缺血或损伤的心肌有益;而且动物实验中也证实实验性心肌梗死动物的状况可获改善，甚至可减少死亡率。但在临床试验中已充分证实，急性心肌梗死后应用这类药物反而增加病死率。因此，一种治疗方法的实际疗效，必须经过随机对照临床试验的验证，仅仅根据个人或少数人的临床经验和证据，是不够的。

循证医学的证据质量分级

1. 美国预防医学工作组. Preventive Services Task Force)的分级方法，可以用于评价治疗或筛查的证据质量: * I级证据：自至少一个设计良好的随机对照临床试验中获得的证据； * II-1级证据：自设计良好的非随机对照试验中获得的证据； * II-2级证据：来自设计良好的队列研究或病例对照研究(最好是多中心研究)的证据； * II-3级证据：自多个带有或不带有干预的时间序列研究得出的证据。非对照试验中得出的差异极为明显的结果有时也可作为这一等级的证据； * III级证据：来自临床经验、描述性研究或专家委员会报告的权威意见。英国的国家医疗保健服务部(National Health Service) 使用另外一套以字母标识的证据分级体系。上面的美国式分级体系仅适用于治疗获干预。而在评价诊断准确性、疾病自然史和预后等方面也需要多种研究提供证据。为此牛津循证医学中心(Oxford Centre for Evidence-based Medicine)提出了另外一套证据评价体系，可用于预防、诊断、预后、治疗和危害研究等领域的研究评价： * A级证据：具有一致性的、在不同群体中得到验证的随机对照临床研究、队列研究、全或无结论式研究、临床决策规则； * B级证据：具有一致性的回顾性队列研究、前瞻性队列研究、生态性研究、结果研究、病例对照研究，或是A级证据的外推得出的结论； * C级证据：病例序列研究或B级证据外推得出的结论； * D级证据：没有关键性评价的专家意见，或是基于基础医学研究得出的证据。总的来说，指导临床决策的证据质量是由临床数据的质量以及这些数据的临床“导向性”综合确定的。尽管上述证据分级系统之间有差异，但其目的相同：使临床研究信息的应用者明确哪些研究更有可能是最有效的。此外，在临床指南和其他著述中，还有一套推荐评价体系，通过衡量医疗行为的风险与获益以及该操作基于何种证据等级来对医疗行为的医患沟通作出指导。以下是美国预防医学工作组. Preventive Services Task Force)的推荐评价标准： * A级推荐：良好的科学证据提示该医疗行为带来的获益实质性地压倒其潜在的风险。临床医生应当对适用的患者告讨论该医疗行为； * B级推荐：至少是尚可的证据提示该医疗行为带来的获益超过其潜在的风险。临床医生应对适用的患者讨论该医疗行为；

循证医学证据的分级

证据的分级循证医学问世近20年来，其证据质量先后经历了“老五级”、“新五级”、“新九级”和“”四个阶段。前三者关注设计质量，对过程质量监控和转化的需求重视不够；而“”关注转化质量，从证据分级出发，整合了分类、分级和转化标准，它代表了当前对研究证据进行分类分级的国际最高水平，意义和影响重大。目前，包括和协作网等在内的28 个国际组织、协会已采纳标准，同样适用于制作系统评价、卫生技术评估及指南。世界卫生组织已经采用标准制定甲型流感H1N1指南。老五级证据级别内容收集所有质量可靠的后作出的系统评价或分析结果；大Ⅰ级样本多中心随机对照试验。 Ⅱ级单个大样本的结果。设有对照但未用随机方法分组的研究；病例对照研究和Ⅲ级队列研究。 Ⅳ级无对照的系列病例观察。 Ⅴ级专家意见、描述性研究、病例报告可靠性排序级别临床研究结论可靠性

Ⅰ级随机对照试验（）的系统评价或分析最可靠可靠性较高，建议使Ⅱ级单个样本量足够的用有一定的可靠性，可Ⅲ级设有对照组但未用随机方法分组（非）以采用可靠性较差，可供参Ⅳ级无对照的病例观察考可靠性最差，仅供参Ⅴ级个人经验和观点考

证据金字塔

证据质量定义高质量进一步研究也不可能改变该疗效就评估结果的可信度中等质量进一步研究很可能影响该疗效就评估结果的可信度，且可能改变该评估结果低质量进一步研究有可能影响该疗效就评估结果的可信度，且该评估结果很可能改变极低质量任何疗效评估结果很不确定证据质量分级证据质量分级方法中，无严重缺陷的随机对照试验成为高质量证据，无突出优势或有严重缺陷的观察性研究属于低质量证据。

循证医学的证据质量分级

循证医学的证据质量分级有以下几种划分方法： 1. 美国预防医学工作组(U.S. Preventive Services Task Force)的分级方法，可以用于评价治疗或筛查的证据质量: * I级证据：自至少一个设计良好的随机对照临床试验中获得的证据； * II-1级证据：自设计良好的非随机对照试验中获得的证据； * II-2级证据：来自设计良好的队列研究或病例对照研究(最好是多中心研究)的证据； * II-3级证据：自多个带有或不带有干预的时间序列研究得出的证据。非对照试验中得出的差异极为明显的结果有时也可作为这一等级的证据； * III级证据：来自临床经验、描述性研究或专家委员会报告的权威意见。英国的国家医疗保健服务部(National Health Service) 使用另外一套以字母标识的证据分级体系。上面的美国式分级体系仅适用于治疗获干预。而在评价诊断准确性、疾病自然史和预后等方面也需要多种研究提供证据。为此牛津循证医学中心(Oxford Centre for Evidence-based Medicine)提出了另外一套证据评价体系，可用于预防、诊断、预后、治疗和危害研究等领域的研究评价： * A级证据：具有一致性的、在不同群体中得到验证的随机对照临床研究、队列研究、全或无结论式研究、临床决策规则； * B级证据：具有一致性的回顾性队列研究、前瞻性队列研究、生态性研究、结果研究、病例对照研究，或是A级证据的外推得出的结论； * C级证据：病例序列研究或B级证据外推得出的结论； * D级证据：没有关键性评价的专家意见，或是基于基础医学研究得出的证据。总的来说，指导临床决策的证据质量是由临床数据的质量以及这些数据的临床“导向性”综合确定的。尽管上述证据分级系统之间有差异，但其目的相同：使临床研究信息的应用者明确哪些研究更有可能是最有效的。此外，在临床指南和其他著述中，还有一套推荐评价体系，通过衡量医疗行为的风险与获益以及该操作基于何种证据等级来对医疗行为的医患沟通作出指导。以下是美国预防医学工作组(U.S. Preventive Services Task Force)的推荐评价标准： * A级推荐：良好的科学证据提示该医疗行为带来的获益实质性地压倒其潜在的风险。临床医生应当对适用的患者告讨论该医疗行为； * B级推荐：至少是尚可的证据提示该医疗行为带来的获益超过其潜在的风险。临床医生应对适用的患者讨论该医疗行为； * C级推荐：至少是尚可的科学证据提示该医疗行为能提供益处，但获益与风险十分接近，无法进行一般性推荐。临床医生不需要提供此医疗行为，除非存在某些个体性考虑； * D级推荐：至少是尚可的科学证据提示该医疗行为的潜在风险超过潜在获益；临床医生不应该向无症状的患者常规实施该医疗行为； * I级推荐：该医疗行为缺少科学证据，或证据质量低下，或相互冲突，例

循证医学证据等级

Oxford Centre for Evidence-based Medicine Levels of Evidence (May 2001) Produced by Bob Phillips, Chris Ball, Dave Sackett, Doug Badenoch, Sharon Straus, Brian Haynes, Martin Dawes since November 1998.

Notes Users can add a minus-sign "-" to denote the level of that fails to provide a conclusive answer because of: ?EITHER a single result with a wide Confidence Interval (such that, for example, an ARR in an RCT is not statistically significant but whose confidence intervals fail to exclude clinically important benefit or harm) ?OR a Systematic Review with troublesome (and statistically significant) heterogeneity. ?Such evidence is inconclusive, and therefore can only generate Grade D recommendations. Grades of Recommendation "Extrapolations" are where data is used in a situation which has potentially clinically important differences than the original study situation.

循证医学中文献证据等级标准的系统性综述

循证医学中文献证据等级标准的系统性综述管红珍①　彭智聪①　傅　鹰② 摘　要　目的:了解文献证据等级的不同标准和总体概貌,探索标准制定的依据和要素。资料与方法:用“level of evidence ”等2个关键词组分别检索Alltheweb 等4个通用搜索引擎所得前20名结果为初步搜集对象,以其中有关链接或文献的引文为补充搜集对象,按一定原则选择符合要求的各种证据等级标准。介绍具有代表性的等级标准,分析和归纳标准制定的依据和要素。结果:共搜集到“证据金字塔”等16个证据等级标准或序列,其中《加拿大定期体检特别工作组的标准》等4个标准具有代表性;研究或论述的类型是证据等级分类的基本依据,研究的质量、设计、偏倚、样本、个数和结果是许多标准考虑的因素。结论:医学文献的证据等级标准多种多样、繁简不一、各有特点,可根据临床问题的特点选用某一标准或对某一标准先行增删修订后再予利用。关键词　循证医学　医学信息　医学文献　证据等级　质量评价　系统性综述　①武汉市儿童医院(430016);②武汉市《药物流行病学杂志》编辑部(430014)。循证医学的一个重要的方面或环节是评价医学证据(医药学论述、文献或研究)。这不仅涉及对证据含义的理解,而且关系到证据的应用或利用。医学证据的评价指标至少应包括外在指标(载体的公认度、被引用情况和影响系数等)、程序指标(研究方案的科学性等)和内容指标(结果或结论的真实性等)。根据医学文献所用研究方法的类型,对文献的证据效力评等分级,再确定对文献的结果或结论的推荐力度,是程序评价的一个方面,被广泛地应用于循证性临床指南、医疗技术评价、大型医学证据报告和归同报告等的开发或撰写过程之中。另外,这方面的研究比较活跃和相对成熟,已经积累了比较丰富的资料。通过这些资料,分析评估指标的构成和要素,选择具有一定特点或代表性的标准给予介绍,有助于对医学证据评等分级标准的理解和应用。1　资料与方法 1.1　医学证据评等分级文献的界定关于医药学研究或论述的方法学类型与该研究或论述的证据效力的评级分等标准的英文文献。1.2　搜集方法1.2.1　因特网以关键词(组)level of evidence 和grade of rec 2ommendation 检索Alltheweb 、Ask Jeeves 、Excit 、Lycos 所得结果的前20个网站为初步筛选对象,以初步筛选对象中有关网站链接或资料栏联接的网站为补充筛选对象,用上述标准进行选择。除了回溯标准的原始出处外,不对补充筛选对象的链接线索进行搜集。1.2.2　其他以文献的引文为线索,进行搜集。考虑到“level of evidence ”不是主题词,不进行Medline 检索。由于中文的关于证据等级的标准很可能译自英文,不进行中文文献的检索。 1.3　分析和集成资料的方法和内容1.3.1　代表性证据等级标准的选择和介绍代表性标准是指最原始的,或最全面的,或应用较广泛的标准。 1.3.2　研究或论述的方法学类型罗列所有提及的研究方法或论述方法的类型。1.3.3　方法学其他方面影响证据效力的因素罗列所有提及的“非方法学类型”的影响研究或论述的证据效力的因素。2　结　果2.1　搜集结果共搜集到25篇(份)证据等级标准[1-25]。25篇中,有一篇文献[13]罗列了4种标准;采用加拿大定期体检特别工作组标准(“ 86版”)的有4篇[7,12,13,23];列出美国卫生研究和质量管理局(AHCPR )标准(“92版”)的有5篇[4,9,13,14,17];有关2种未查到原始出处的标准分别有3篇[1,5,15]和2篇[8,24]。另外,有2篇文献不是证据等级标准, 但它们是非常形象的证据类型序列[18,20]。所以,一共搜集到16种证据等级标准和2种证据类型序列。2.2　证据类型序列简介2.2.1　证据金字塔