医学论文中常见统计学概念误用分析

(精品收藏)医学论文中常见统计学概念误用分析

医学统计学作为一种认识医学现象数量特征的重要工具,在医学研究的过程中起着非常重大的作用。但国内外研究者通过调查发现,在现代医学期刊中,统计方法的运用及表述却存在着较多的问题[1,2]。笔者在医学论文的编辑过程中,也发现有些作者对统计学中最常见、最基本的概念常混淆不清,因此其论文很难符合刊用的要求。我们知道,概念是逻辑思维的基本要素,只有概念明确,才能准确地表达思想,才能对事物的本质进行客观的描述,才能作出正确的判断和推理,从而得出科学的结论。为与作者共同提高论文质量,现对编辑工作中经常碰到的一些概念方面的误用问题,试图进行一些粗略的分析。

1概念混淆

1.1以比代率

比与率是临床医学研究中最常用的相对数指标。比是表示某一事物或现象各组成部分之间或各个部分在全体中所占的比重或分布。较常用的有构成比、相对比等。而率是指某种现象或事件在一定条件下,其实际发生数与可能发生此现象或事件总数的比例。临床医学论文中很多作者常把构成比当作率进行比较,造成对疾病的发生作出错误估计。如在研究性别与其疾病发病率的关系文章中,作者把男女的构成比当作发病率,从而得出某种性别的发病率高的错误结论。还有作者由于对构成比与率的概念不明确,造成计算错误。

如某农村卫生单位对7250名少儿进行粪检,检出蛔虫卵者4300人,需要进行治疗。因各种原因,有900人未行治疗。结果:已治率为79.07%,未治率为20.93%。

很明显,这是典型的以构成比代率的例子。我们根据定义,可计算如下:

出现这种错误的原因,是因为不能正确理解比与率的区别所致。一般来说,率的分子源于分母,但分子、分母具有不同的事件属性,构成比虽然分子也源于分母,但分子、分母具有相同的事件属性。

1.2不同率混用

在临床医学研究中,一些具有特殊性质的率很容易用错。最常见的有发病率与患病率,死亡率与病死率。发病率与患病率相混淆的原因主要是没有把握住观察、统计的时间。前者是指在某一时期内,某人群发生某疾病的数与该人群总数之商,它涉及在这一时间期限内变化了的状态;而后者是某人群的个体在某一时点静态的测量方法。分析两者的关系,一般来

说,发病率增加,其相应的患病率也增加。疾病持续的时间对发病率无影响,但对患病率却有影响。

死亡率与病死率也是两个不同含义的指标,不可不加区别地使用。在进行人群研究时,它们的分子可能相同,但分母不同。死亡率的分母是同期人口数,反映了观察人口因某病的死亡水平,是一个人口学指标;而病死率的分母是患某病的患者总数,反映了某病的死亡危险性。一个高的某疾病病死率,并不能说明就有高的某病死亡率。对某一医院来说,只能计算病死率,而不能计算死亡率。

1.3漏诊与误诊不辩

漏诊与误诊,是两个重要的统计学术语,表达的意义各不相同。在临床医学研究中,对误诊率与漏诊率的研究分析是不断地提高诊疗水平、改善医疗服务质量的一个有效方法。但在当前医学期刊中,它们的错用率却非常高。以A病为例,误诊是将A病诊断为非A病或将非A病诊断为A病,而漏诊是仅将A病没有诊断为A病。因而,误诊率是在临床诊断中对某种疾病在一定的观察期间对一定数量的诊断例数发生错误诊断的频数,用下式表示:

而漏诊率是表示在临床诊断中对某一种疾病在一定观察期内对一定数量的诊断例数发生遗漏诊断的频度,用下式表示:

如论文《原发性肝癌误诊原因分析(附150例报告)》一文中,作者共收治肝癌161例,入院前外院误诊2个月以上1500例,误诊率为93.17%,其中41例入院时依然未考虑本病误诊率为25.47%。仔细分析,就可发现文题中的“误诊”实际上应为“漏诊”,入院前及入院时的误诊率应为漏诊率。实际运用中,较多的是把“漏诊”当“误诊”。因此,我们在表述误诊这一概念时,应当把“误诊”与“某病”联系起来描述才正确,即“误诊为某病”。出现这类错误的原因是对这些概念似是而非,没有用科学的态度仔细研究。

2概念缺失

统计工作一般分为收集资料、整理资料和分析资料三个步骤,在每一个步骤中均应运用科学的方法才能完整、准确、有效地对资料加以归纳和总结。如果没有系统的统计学知识,对某些相关的统计学概念不熟悉、不了解,就谈不上正确地去应用这些知识。如实验设计需要遵循对照、随机和均衡的原则,常有作者的论文中不设对照组,有的设了对照组,但组内观察对象却不同质,无可比性。实验分组时受试对象不是统计学上的随机,而是随意和随便分组,这样统计学处理的结果是不能令人信服的。

统计学概念的缺失也常造成计算错误,有作者在计算观念单位不等的几个率的平均率时,将几个率直接相加求平均率,而不是将各观察单位的事件之和除以观察的各人群数之和。

3概念的内涵与外延不明确

概念包括内涵和外延两个方面。内涵是概念的本质属性,外延是概念的限定范围。如果对统计学概念的内涵与外延不清,就不能正确地处理统计资料。所得的结果或没有意义,或达不到预期的效果,或丢失原资料中所蕴藏的信息,甚至会作出违背客观事实的判断。如有作者用平均数±标准差描述两组病人的腹水丢失量,分别为1765±2001ml,2740±3044ml,经t 检验,两组间无显著性差异。观察这两组资料,可见平均数均小于标准差,说明其资料是偏态分布而不是正态分布。我们知道,算术平均数与中位数都是用来描述一组同质计量资料的集中趋势:前者的特征是,它代表一组观察值的平均值,适用于对称分布,尤其是正态分布的资料。而后者的特征是,在一组按大小顺序排列的观察值中,位次居中的数值即为中位数适用于资料分布不清或明显呈偏态分布的资料。在这里,这两个概念的特征即为其内涵,适用范围则为其外延。如果明确了这两个概念的内涵与外延,就会选用中位数而不是算术平均数来描述这两组资料。本组资料经中位数检验,两组腹水丢失量有显著性差别。

4医学文稿中常见统计学概念误用引起的思考

笔者只是对医学论文中常见统计学概念方面的误用情况做了简单的分析和总结,限于篇幅,不能详细概括出问题的全部。但有一点是很明确的,即作者只有提高认识,才能在医学研究中自觉地运用统计学原理进行医学资料的科学收集、整理和分析。客观地说,除预防医学研究运用的方法相对复杂一些外,基础医学及临床医学研究中常用的一些方法还是比较简单,易于理解的。因此,一些从事医学研究时间不长的年青学者以及以前较少接触统计学的年长研究者,应下功夫打好统计学基础,掌握统计学的基本概念。另一方面,医学编辑在编审过程中也应严格把关,尽量减少统计处理方面的疏漏,以免因不正确的结论对读者产生误导。

医学论文常见统计学错误与纠正

医学论文常见统计学错误与纠正 一、设计与实施 1.对象合格标准不明确 ●只报告来源和时间段,总体不清晰:大杂烩,得不到科学结论; ●事前未规定合格标准和排除标准,事后排除; ●不报告按照合格标准和排除标准筛选对象的过程。 2.结局指标多而杂--是事先规定的最重要的结局指标,通常以此为准来计算样本量。 常见错误:终点指标过多, 大海捞针 临床试验时,不知道哪个指标在组与组间有差异;“确定某个指标后,万一组间没有差异,岂不被动?!” 生理、生化、组织学、基因,都做;“内容丰富,显得水平高?!” 许多仪器一下子可以做许多项目;“许多项目一一分析,哪个有意义,就报告哪个指标?!” 哪些指标可能有组间差异,必须心中有数。 假说:预计将要得到的结论——假说是科研的灵魂心中无数,不要“先上马再说” ●指标多,实验工作量大。大海捞针——碰运气,不是科研! ●指标多,翻来覆去分析,制造假阳性! Nature杂志统计学指南: ➢常见错误之一。仅分析1个指标时,P(假阳性)=0.05,P(1次分析不犯错误)=0.95 λ,同时分析2个指标时,P(2次分析均不犯错误) = [P(1 次分析不犯错误)] 2 P(假阳性)=1 - 0.952 ≈ 0.10, 同时分析3 个指标时,P(假阳性)=1 - 0.953 ≈ 0.14 λ同时分析10 个指标时,P(假阳性)=1 - 0.9510 ≈ 0. 40 ➢常见错误之一(Nature) ----多重比较不校正 多重比较: 对一组数据作多项比较时,必须说明如何校正α水平,以避免增大第一类错误的机会---- Bonfferoni校正(α/k来校正,k为两两比较次数) 3 不重视对照 为何必需对照? ●消除非研究因素的混杂实验组和对照组受非研究因素的影响尽可能相同,使两组 的差异主要反映研究因素的效应。 ●鉴别研究因素的效应和自然发展结果。例如,研究某药物对口腔溃疡模型兔的疗效, 口腔溃疡有自愈的倾向,必须有对照扣除自愈效应。 常见错误 ➢没有对照!千方百计省去对照组,以减少一半工作量!? ω自身前后对照/历史对照/文献对照/ “标准”对照 ➢对照不当ω对照太弱:安慰剂对照/对照过强:西药+加中药~西药/对照剂量有争议:试验药,大剂量~对照药,中小剂量/对照基线不可比:试验组年轻、病轻~ 对 照组年老、病重 应当如何? ω事先明确研究假说,例如,新药比常规药好:以常规药为对照 ω设计:研究组新药~ 对照组常规药可比性:基线可比、过程可比、终点可比

医学论文中常见统计学概念误用分析

(精品收藏)医学论文中常见统计学概念误用分析 医学统计学作为一种认识医学现象数量特征的重要工具,在医学研究的过程中起着非常重大的作用。但国内外研究者通过调查发现,在现代医学期刊中,统计方法的运用及表述却存在着较多的问题[1,2]。笔者在医学论文的编辑过程中,也发现有些作者对统计学中最常见、最基本的概念常混淆不清,因此其论文很难符合刊用的要求。我们知道,概念是逻辑思维的基本要素,只有概念明确,才能准确地表达思想,才能对事物的本质进行客观的描述,才能作出正确的判断和推理,从而得出科学的结论。为与作者共同提高论文质量,现对编辑工作中经常碰到的一些概念方面的误用问题,试图进行一些粗略的分析。 1概念混淆 1.1以比代率 比与率是临床医学研究中最常用的相对数指标。比是表示某一事物或现象各组成部分之间或各个部分在全体中所占的比重或分布。较常用的有构成比、相对比等。而率是指某种现象或事件在一定条件下,其实际发生数与可能发生此现象或事件总数的比例。临床医学论文中很多作者常把构成比当作率进行比较,造成对疾病的发生作出错误估计。如在研究性别与其疾病发病率的关系文章中,作者把男女的构成比当作发病率,从而得出某种性别的发病率高的错误结论。还有作者由于对构成比与率的概念不明确,造成计算错误。 如某农村卫生单位对7250名少儿进行粪检,检出蛔虫卵者4300人,需要进行治疗。因各种原因,有900人未行治疗。结果:已治率为79.07%,未治率为20.93%。 很明显,这是典型的以构成比代率的例子。我们根据定义,可计算如下: 出现这种错误的原因,是因为不能正确理解比与率的区别所致。一般来说,率的分子源于分母,但分子、分母具有不同的事件属性,构成比虽然分子也源于分母,但分子、分母具有相同的事件属性。 1.2不同率混用 在临床医学研究中,一些具有特殊性质的率很容易用错。最常见的有发病率与患病率,死亡率与病死率。发病率与患病率相混淆的原因主要是没有把握住观察、统计的时间。前者是指在某一时期内,某人群发生某疾病的数与该人群总数之商,它涉及在这一时间期限内变化了的状态;而后者是某人群的个体在某一时点静态的测量方法。分析两者的关系,一般来

论文撰写中常见的统计学问题及其处理

论文撰写中常见的统计学问题及其处理 据不完全统计,在难以发表的、已凝聚着作者心血并花费较长时间与较大财力撰写的研究论文中,约半数以上是由于统计错误致其结果与原文主要结论相违背。如一文采用某新药引产,96例足月孕妇的产后出血与新生儿低Apgar评分率均为2.1%(各2例),明显低于应用原药引产的19例,其产后出血与新生儿低Apgar评分发生率均为15.8%(各3例,χ2=7.164,P<0.001)。故认为采用新药引产是一更安全的措施。原药引产组例数偏少暂且不谈,该资料比较应采用精确法分析,结果是与原结果恰恰相反(P>0.05),这样上述的主要结论就欠可靠而难以发表,否则论文可起误导作用。类似问题文稿中还常有出现。现就文稿中常见的统计问题及其相应的处理方法简述如下。 一、常用的统计术语统计学中常用的概念有总体与样本、随机化与概率、计量与计数、等级资料及正态与偏态分布资料、标准差与标准误等。如某研究采用经会阴途径测定宫颈长度,以探讨不同宫颈长度与临产时间的关系。结果显示35例宫颈长度为25~34mm者与32例宫颈长为15~24mm者临产时间的均值±标准差(x±s)各为57.6±58.1与47.3±49.1小时。该计量资料,经t检验显示t=0.780,P>0.05,并未提示不同宫颈长度的临产时间差异有显著意义;从标准差大于均值,显示各变量值离散程度大,呈偏态分布,故不能采用x±s这一算术均数法计算均数。经偏态转换成近似正态分布资料后结果是:35例与32例的临产时间各为34.5±4.1与26.7±4.1小时,(t=7.778,P<0.001),两组差异有极显著意义。可认为随着宫颈长度的缩短、临产时间也缩短。此外,当两组资料单位不同时,其S单位也不同;即使两组单位相同的变量值,若其均数差异较大,也都应以变异系数替代s来比较两组值的离散度的大小。 二、正常值范围及异常阈值的确定如何选择研究对象,至少需多少例,正确统计处理和参考一定数量的病例数据,是确定正常值范围及异常阈值的四个重要因素。1.研究对象:应为“完全健康者”,可包括患有不影响待测指标疾病的患者。如“正常妊娠”的条件:孕前月经周期规则、单胎、妊娠过程顺利、无产科并发症及其它有关合并症,分娩孕周为37~41周+6,新生儿出生体重为2500~4000g和Apgar评分≥7分。2.观察数量:观察数量应尽可能多于100例;需分组者,各组人数也是如此(标本来源困难时酌情减少)。有些指标值如雌三醇(E3)、甲胎蛋白(AFP)出书论文发表球球2043944129胎盘泌乳素(HPL)等随孕周进展而变化,应按孕周分组;邻近孕周均数相近者,可合并几周计算。若为偏态分布,应以百分位数计算,则例数应≥120例。取各孕周对象时,应考虑到所取各孕周中的例数分布大致均衡。显然,文稿中往往以少量例数求得正常值是欠可靠的。3.统计处理:应根据所得数据分布特征采用不

医学论文中统计学处理常见问题及应对措施

医学论文中统计学处理常见问题及应对措施 1存在问题1)统计软件名称和版本不全。最常见的问题是作者只写统计软件名称而漏掉了统计软件版本。2)统计数据描述含糊不清。如笼统说“用-x±s 表示”,而不分定量资料或定性资料。3)误用统计学方法并且统计方法描述不详细。例如:对定量资料盲目套用t检验,多组均数比较没有采用方差分析和q检验;对定性资料,盲目套用χ2检验;非参数检验资料没有采用秩和检验或Ridit检验; 对回归分析没有结合专业知识和散点图选用合适的回归类型,而盲目套用简单直线回归分析;在逻辑上无明显相关的2个或2个以上指标检测结果勉强进行相关性分析等;对随访资料没有使用生存分析等。另一个问题是统计学方法的描述不详细。例如: 使用t检验,没有说明是完全随机设计资料的t检验, 还是配对设计资料的t检验;使用方差分析时,没有说明是完全随机设计资料的方差分析,还是随机区组设计资料的方差分析,或是巢式设计资料的方差分析;对于四格表资料,没有交代是一般四格表资料χ2检验, 还是四格表资料的校正的χ2检验。4)假设检验结果的表达和解释中存在的问题。假设检验的结果表达没有根据不同的统计分析方法, 给出相应的检验统计量的实际值及相应的值,如t检验的t值、方差分析的F值、卡方检验的χ2值、相关分析的相关系数及相应的r值等。 此外,统计结果的解释存在如下问题:假设检验是在“无效假设”正确(比如2种药物的疗效没有差异) 的前提下,用P值大小说明实际观察结果是否符合“无效假设”。P值小(如P<0·05或P<0. 01)则怀疑“无效假设”的正确性,应得2种药物疗效的差异有统计学意义或差异有高度统计学意义的结论,而不应得差异显著或差异非常显著的结论;P值大(如P> 0·05),则不能拒绝“无效假设”,应得2种药物疗效的差异无统计学意义的结论,而不应得无差异的结论。这是典型地把统计结论作为专业结论而犯的错误。5)样本数过少。临床资料的统计学分析要求一定的病例数量,如果不够小样本分析的最少例数,就不符合医学统计分析的基本要求,得出的结果“差异显著”并无实际意义。对于少见病例的精确统计学计算,有其特殊的规定和方法,并不都适用于一般资料的统计分析。在进行多元回归分析时亦应注意样本容量和自变量个数之间要符合统计学基本要求。在日常编500第6期肖丽娟等:医学论文中统计学处理常见问题及应对措施辑工作中我们也会遇到仅仅因为病例数少而被审稿专家否定导致退稿的情形。6)统计学符号书写不规范。如不分大小写,正斜体等。 2应对措施2·1要指明所采用的统计软件的名称和版本SPSS和SAS是全世界学术界公认且最常用的2大统计软件包[4]。要标出本研究所采用的统计包软件名称和版本。 2·2弄清资料类型分类这是最关键的一步。资料类型的传统划分方法是将资料分为计量资料、计数资料和等级资料3类。资料类型的现代划分方法是将资料先粗分为定量资料和定性资料2大类,然后,再将定量资料划分为计量资料和计数资料2小类;将定性资料划分为名义资料(2项分类如性别男女,多项分类如A、B、AB、O血型)和有序资料2小类[5]。资料类型的传统划分方法是从资料的收集方式角度来定义,也可以说是就“形式”而言;而资料类型的现代划分方法是从资料的性质角度来定义,也可以说是就“本质”而言。按现代划分方法来命名统计资料, 有利于抓住问题的本质。编辑要对此做到心中有数, 才能对相关论文的统计学问题提出修改意见。 2·3正确描述统计资料例如:近似正态分布的资料用-x±s表示描述集中与离散趋势,区分资料是正态或偏态分布,可以通过SPSS、SAS统计软件程序判断,也可以通过目测数据是否有“极端值”,即特别大或特别小的数据,进行判断[6];近似对数正态分布的资料用G 描述集中趋势,偏态分布的资料用M描述集中趋势。 2·4正确选用统计分析方法依据资料类型的现代划分方法,下面分别介绍常见的统计学分析方法。1)定量资料的统计分析方法,包括参数法和非参数法。参数法如t检验(2均数比较)、方差分析(2组以上均数比较);非参数法如秩和检验。选择的关键在于弄清资料分布的类型。如果资料符合正态分布且组间方差齐(即各组标准差彼此接近),则选用参数法,不符合则选用非参数法[7]。 ①2均数比较的t检验。②多组均数比较的方差分析,又叫F检验,包括有完全随机设计的方差分析、区组随机设计的方差分析、多个样本均数的两两比较(SNK检验,亦即q检验和LSD-t检验)、析因设计的方差分析、重复测量资料的方差分析等[8]81-88。③非参数法的秩和检验,有配对设W ilcoxon符号秩和检验、2样本W ilcoxon检验、完全随机设计多样本比较的H检验、随机区组设计的M检验等[8]97-102。2)定性资料的统计。为了方便按定性资料的现代定义将定性资料整理与归纳后,主要分为3种类型, 即四格表资料(只有2组,且结果变量为2分类变量, 总格子数为4)、行×列表资料(总格子数>4)和列联表资料(又称双向有序资料)。

医学统计学错误案例

医学统计学错误案例 【篇一:医学统计学错误案例】 【关键词】医学统计学;案例教学;教学改革【中国图书分类法 分类号】r1951 application ‘inorrectcses’in medic sttistis tching wang jin鄄quan,yuan hui, yue鄄e,jinyue鄄long,yo ying 鄄shui. department reventivemedicine,wannan medi鄄 cal college,uhu 24100,china corresponding author:yo ying鄄shui,email:yingshuiyao@163com 【bstrt】 objetiv applicationeffect ‘incorrectcases’in medical statis鄄 tics teaching methos juniorstudents (n=307)of clinical medicine were selected researchsubjects randomcluster sampling werep>然而医学统计学概念和方法误用与滥用的现象普遍存在,李 长平和胡良平查阅了150篇医学博士论文,发现有92 篇(6.30%)存在统计学问题。姚实篇中医药期刊论文进行分析,发现论文在统 计描述、结果分析、统计方法的选择和科研设计等方面存在问题。bakker 和wicherts 心理学杂志,8篇中有8.%的文献报道统计学 结果不正确。这表明,医学统计学教学要注重培养学生的统计思维,提升学生分析问题和解决问题的能力。医学统计学作为所有医学专 业本科生的必修课,学生普遍认为该课程概念抽象、计算繁多,不 易理解和掌握。将“错误案例”引入统计学教学中,通过错误辨析从 逆向思维角度激发学生的学习动力,启发其思索质疑,对培养其自 主学习能力有较好效果。 对象与方法1.1 教学对象整群抽取某校临床医学专业个教学平行班 学生(37 人)作为教学对象,随机抽取其中个班学生(人)为教学改进组,其余人)作为传统教学组。两组学生年龄、性别、学习成 绩均衡可比。 1.2 教学方法教学改进组和传统教学组由同一教师授课,教学目标、教材和总学时数保持一致。传统教学组以教师讲授为主,课件结合 板书讲解理论知识,布置习题并讲解,教学案例均选自所学教材中 的例题。 教学改进组则在传统授课的基础上,教师对每个知识点均精心设计 相关的错误案例供课堂讲解和练习课讨论。所选错误案例首先要求 真实性,均来自医学期刊论文中存在的统计学错误。其次注重实用性,所选案例要求与临床实践相结合。再次,要求难易适中,不能

药学本科毕业论文统计学应用【药学论文】

药学本科毕业论文统计学应用 1对象与方法 1.1研究对象及来源 以成都医学院药学专业2016届本科毕业生撰写的163篇毕业论文作为研究对象。 1.2数据处理 逐一阅读每篇论文,对涉及统计知识做记录、整理和描述;对存在的统计学错误计算误用率,一篇论文中只要有一处统计学相关的错误即为误用,以误用的论文篇数为分子,除以应用统计学知识的论文总篇数(156篇),得到统计学方法的误用率,分析由SPSS22.0软件完成。 2结果 2.1论文的研究类型、研究内容和涉及的统计学知识163篇药学本科生毕业论文的研究类型和研究研究类型以实验研究为主(107篇,65.65%),调查研究(49篇,占30.06%),理论研究(7篇,4.29%),理

论研究主要有药物的鉴别、传统医药思想述要、处方的合理性分析等。理论研究的论文没有涉及统计学知识,实验研究和调查研究共156篇论文(95.71%)均涉及统计学知识:实验研究107篇,有7篇采用了正交设计或响应面设计,其余采用的是单组设计或成组设计;观察性研究均涉及随机抽样和样本含量计算。所有文章统计推断均采用假设检验,没有用到可信区间。另外,有16篇文章用到简单线性回归分析,都用于绘制标准曲线。2.2毕业论文中的统计学错误156篇涉及统计知识的论文中,有29篇文章(18.59%)统计学知识应用正确,其余127篇(81.41%)文章均存在或多或少的统计学错误。2.2.1研究设计缺陷有25篇存在研究设计缺陷,误用率16.03%。最常见的设计缺陷是样本不具备代表性,包括没有随机抽样、抽样方法不正确或不具体等.2.2.2统计描述或统计推断错误所有文章对计量资料统计描述指标的选择依据(有无进行正态性检验)均未介绍,故本文对统计描述指标选择是否恰当未作判断;分类资料误用构成比代替率的文章有4篇,误用率2.56%。45篇毕业论文有统计推断错误,误用率28.85%,主要表现为统计推断缺失以及假设检验方法选择错误。18篇文章(11.54%)只根据统计描述就得到了结论,没有做可信区间或假设检验。26篇文章(16.67%)假设检验方法错误。2.2.4统计结果解释错误或不当10篇毕业论文对结果的解释有错误,误用率6.41%,见表5。2.2.5统计表达不恰当53篇毕业论文有统计表达错误,误用率33.97%,主要表现为统计表和统计图的表达不规范

医学科研论文中的统计学问题汇总分析

------------------------------------------ 最新资料推荐------------------------------------ 医学科研论文中的统计学问题汇总分析医学科研论文中的统计学问题汇总分析作者: 郑华宾ARS医学统计学是一门帮助人们透过偶然现象,分析和判断事物内在规律的科学。 随着医学科研工作的深入,医学统计学的应用越来越广泛。 由于统计学的内容非常丰富,并且仍在不断发展,而医务工作者常因各种原因不愿花费许多精力钻研统计学知识,故医学论文中误用统计学的现象较为严重。 为了减少这一现象,提高论文的水平,现就论文中常见的统计学错误,分析讨论如下。 1 .文中未交待所用统计方法论文中应将所用的统计方法交待清楚,例如,是配对设计的t检验还是成组设计的t检验,是Ridit 分析还是卡方检验,是作相关分析还是作回归推断。 使用不正确的统计方法会得出错误的结论,所以统计方法交待不清或根本不予交待,会使读者对论文结论的正确与否无法判断。 有的作者只提一句经统计学处理后,就写出结论;有的甚至于直接用P值说明问题了事。 正确的做法应写明具体的统计方法,如有特殊情况,还应说明是否采用了校正,这样才有说服力。 严格地说,应写明精确的统计量值和P值,如t值、F值、2 值等,

不应笼统地以P0.05或P0.05代替。 此外,最好能交待所使用的计算工具与统计软件名称。 因采用公认的统计软件(如SAS、SPSS等)或程序型计算器进行计算,与手工计算相比,既准确又快捷,其计算结果易于被人接受。 2.使用统计方法时不考虑其应用条件每一种统计方法都有其适用条件。 在表示数值变量资料(计量资料)的平均水平时常用到平均数。 然而平均数有算术平均数(均数)、几何均数和中位数,各有其应用条件。 应用均数时,必须首先确定数据为正态分布。 如果数据是偏态分布,仍用均数表示其平均水平势必导致错误的结论,不少作者没有注意到这一点。 对于偏态分布的数据,应该用几何均数或中位数表示其平均水平。 t检验要求样本来自正态总体,作两样本均数比较时还要求方差齐。 如果不符合这些条件,则应考虑进行数据转换或用非参数检验; 当两小样本均数比较方差不齐时,可采用t检验。 例如临床研究中常涉及病人的病程,有的论文中病程5d至24 年的平均水平和离散度为(311613)年,这种标准差接近或大于均数的数据显然属于严重的正偏态,直接进行t检验,无疑是错误的。 t检验是最常用的统计方法之一,但有许多误用的情况。

医学统计典型错误论文

医学统计典型错误论文 摘要:统计方法在医学上的应用渗透到医学发展的方方面面,正是因为统计学如此强大的渗透性,反而引起一些医学实例中统计学知识被误用,推导出错误的医学结论,为医学的进一步发展带来一定程度的隐患。 本文从医学论文中常见的典型错误展开讨论,辨析其造成错误的原因,并对正确的在医学实验中运用统计学方法给出一定的建议,具有一定的参考价值。 关键词:医学实验;统计方法;典型错误 引言 随着近年来,人们对统计学知识研究的不断深入,统计学方法被不断应用在各个学科的发展中,其中以经济学和生物医学表现尤为明显。 选取正确的统计学方法帮助医学实验推导结果,是目前医学科研发展的一项重要的工作。 是否选取正确的统计方法将直接对医学科研发展中的的严谨性造成影响,方法选取正确可能带来较高价值的医学结果,而选取不当则会使得其反,甚至得出与事实严重相悖的结论。 本文从医学实验中常见的几个统计学错误:统计学表达描述出现问题、使用单因素方法考虑多因素问题、盲目套用统计分析模式以及不考虑统计推断方法使用的前提条件出发,讨论错误的成因,并就如何避免此类错误给出一点建议和对策[1]- [3]。 一、统计学表达和描述方式存在错误 在对医学实验的分析中,往往不可避免的要对所收集的众多数据进行某种意义的表达和描述,尽管常见的表达和描述方法所有人都会,看似这是一件很容易的事情。 但是,一旦应用到统计学的知识,很多人就会不可避免的犯各类错误。 表1 两类奶牛乳蛋白含量比较(%)(x+s)

表2 两类奶牛乳蛋白含量比较(%)(x+s) 表中存在标准差大于平均值的情况,显然可以判断数据不符合正态分布的规律性,此时若继续按照之前的方式描述数据,就会产生错误。 二、盲目使用单因素统计思想考虑多因素问题 但是仔细推敲,其实三个因素的独立性并没有得到正确的验证,这样盲目的分离数据的措施是相当不具有科学性和合理性的,统计分析的结论也可以说是完全没有说服力的结论。 当然,从统计学角度来说,我们也并不能完全否定上述结论,只能说上述结论也是具有一定的参考价值的,正确的做法应该是:采用logistics回归模型进一步 对相关因素进行筛选,取代单一的卡方检验方式。 三、盲目套用统计分析的模式却并没有实质性的分析 发展到现在,统计方法已经拓展的多种多样,比较常用的有卡方检验、t检验、因子分析、方差分析、回归分析等等,每一种统计方法都有其对应的特殊意义。 有一些统计方法的作用只是单纯的为了判断某两种因素是否存在关联性,有一些方法则是用来比较两组数据是否存在较为明显的线性趋势,此外还有一些统计方法可能只是为了筛选出影响数据结果的最重要因素……很多医学论文中甚至没有搞 懂不同统计方法的基本区别,就盲目套用统计分析的模式进行分析,不重结果只求分析过程的花样性,这完全丧失了统计学方法在医学实验中应用的意义。 此时正确的想法应当是检验上述二者是否具有一致性的关系,所以采取比较常见的一致性检验措施更为有效和必要,例如在这篇文章中就可以采用Kappa检验,随之也将取得更为理想的结果。 四、忽视统计方法使用的前提 通常情况下,统计方法的应用都应当是考虑其适用的前提条件,例如在我们比较常用的一些统计方法应用在医学实验的实例中的情况,都是先考虑其前提条件是否适合,再进一步进行统计推断的:t检验就是最为常见的例子,采取t检验进行

医学论文中易出现的统计学问题解析

医学论文中易出现的统计学问题解析 医学论文中易出现的统计学问题解析关键词:统计学,解析,医学论文 医学论文中易出现的统计学问题解析介绍:医学论文中,统计学分析必不可少,一项关于医学期刊的调查表明,95%的稿件均进行了统计学分析,而数据统计学处理完全正确的不足30%[1].统计学涵盖了研究的多个方面,有学者研究发现[2],在医学论文中,统计研究设计、数据的表达与描述、数据的统计分析、统计分析结果的解释等各个环节,都或多或少存在问题,其 医学论文中易出现的统计学问题解析详情: [:] 医学论文中,统计学分析必不可少,一项关于医学期刊的调查表明,95%的稿件均进行了统计学分析,而数据统计学处理完全正确的不足30%[1].统计学涵盖了研究的多个方面,有学者研究发现[2],在医学论文中,统计研究、数据的表达与描述、数据的统计分析、统计分析结果的解释等各个环节,都或多或少存在问题,其错误率平均约为80%. 统计学分析的正确与否、数据表达方式的准确与否都直接关系着的质量和学术水平。每一位医学研究工作者都应掌握一定的统计学知识。同时,这也对期刊的编辑提出了更高的要求:具备相应的统计学基础知识,能对大多数文章的统计学问题进行审核。医学期刊编辑掌握并按照统计学原理对来稿进行学术质量把关,无疑将使医学期刊的学术质量得到保证和提高[3]. 笔者结合编辑工作中遇到的实际案例,归纳医学期刊中出现比较集中的统计学方法选取和描述问题、统计描述中数值准确性的问题,以期和论文撰写者及编辑同行进行交流,从而提高医学论文中统计学方面的编校质量。

一、统计学方法问题。 医学统计学方法的准确选择与应用,直接关系着研究结果的正确性,并最终决定科学研究的质量。由于有些作者对医学科研的统计学理论和方法的应用缺乏深刻了解,在医学论文中错误应用统计学方法的现象时有发生。 (一)抽样方法描述。 论文中样本量的统计描述包括样本抽样方法、样本量的计算、入选标准、排除标准等方面的介绍。 在统计学中,把研究对象的全体称为总体,要了解总体的分布规律,在统计分析工作中,通常是从总体中抽取一部分个体进行观测,这个过程称为抽样。抽样方法分为随机抽样和非随机抽样,在医学研究中,为保证样本的代表性,通常选取随机抽样方法。在样本抽取过程中,每抽取一个个体,就是对总体进行一次随机试验,每次抽取的n 个个体称为总体的一个容量为n 的样本。随机抽样方法的要求是具有代表性和独立性。随机抽样方法主要有单纯随机抽样、系统

医学科研论文中常见的统计学问题

医学科研论文中常见的统计学问题 在医学科研论文中,统计学方法是必不可少的应用工具,可以从侧面反映出作者力求使其研究成果更具科学性、代表性。然而,辑文编译在工作中发现,有些作者对统计学理论及其方法的应用缺乏深刻了解,在实际应用中常存在如下问题,从而造成分析结果的失真。 一、不进行统计学分析,仅凭观察值的大小下结论。某些医学科研论文未对搜集到的资料做任何统计学分析,仅凭观察值的大小,就做出两者之间的差异有无统计学意义的结论。临床研究的结论不仅取决于实验组和对照组之间观察值的绝对值的大小,主要取决于随机误差的大小。 一般来说,统计资料仅反映样本的情况,不能简单地将其视为总体的真实写照。既然是样本,就不可避免地存在抽样误差。只有排除了抽样误差的影响后,方可根据样本所提供的信息去推论总体的规律性。而排除抽样误差的最有效手段是正确运用统计学知识,对具体问题提出检验假设,并计算检验统计量,再利用随机变量的概率分布规律作出合理的推断。因此,未对统计资料进行统计学处理,仅凭统计指标的绝对值大小就下结论是很不严谨的,也极易得出错误结论。 二、未注明检验方法、统计量的大小。对论文中搜集到的资料进行了统计学分析,只有假设检验的结论,未注明检验方法、现有样本算得的检验统计量、检验水准、采用的是双侧检验还是单侧检验、P 值的确切范围。 三、混淆标准误与标准差的作用。标准差表示数据相对均数的离

散程度,而标准误是表示抽样误差大小的指标。有些作者误将标准差用于可信区间的表述,将标准误用于正常值范围的表述。 四、不能正确选择假设检验的方法。每种检验方法都有其适用条件,如t检验要求样本来自正态总体,进行两样本均数比较时,两总体方差应相等。所研究变量的类型不同、设计类型不同、大样本还是小样本等,所用假设检验的方法也不同。如数值变量资料的比较常用t检验,分类变量资料的比较常用卡方检验。同为数值变量资料,配对设计与成组设计比较的t检验方法也不同,若用成组比较的t检验处理配对设计资料,不但浪费信息,还可能得出错误结论。许多作者对明显偏态分布的资料,误用t检验。 五、用t检验进行均数之间的两两比较。将各种试验设计类型视为多个单因素两水平设计,多次用t检验进行均数之间的两两比较,取代方差分析,会使犯第一类错误的概率α增大,即可能把本来无差异的两个总体均数判断为有差异。 六、误用t检验分析重复测量设计资料。重复测量是指对同一实验单位的某些观察指标在部分条件改变的前提下,进行多次重复观测。对于这种数据的统计分析,常误用t检验或一般的方差分析。由于t 检验或一般的方差分析要求数据之间相互独立,不存在相关性,而重复资料不能满足这一要求,应采用重复测量设计资料的方差分析。 七、只关心统计结论,忽视差异有无实际意义。直线相关分析中,只关心相关系数的差异是否有统计学意义,而不关心相关系数的大小有无实际意义。

医学期刊统计学错误思考

医学期刊统计学错误思考 本文作者:张巧莲郑玉建单位:新疆医科大学学报编辑部新疆医科大学公共卫生学院 在医学论文写作中,医学统计学方法应用是必不可少的,正确使用能保证科研工作顺利进行,并使科研成果更具有科学性、代表性和可靠性。反之,如果使用不当或者误用,会直接影响研究结果的质量,反而会使读者产生误解,其至有时会导致错误的结论。近年来,医学统计学方法在医学科研中的应用越来越受到国内广大医学科研工作者的重视,统计分析结果表达己成为医学论文中一个不可缺少的重要组成部分。医学统计学是评价医学科技论文质量优劣的重要依据,然而从近年发表的论文来看,有不少作者对统计方法的使用还不熟悉,实际应用中统计方法滥用、错用和误用的情况时有发生[2]。据国外20世纪60年代到80年代对不同医学期刊发表论文的调查,有统计学错误的论文比例最高者达66%,最低者也有20%[2-4]O国内有学者对5种中华医学会系列杂志论著中统计学方法的应用状况进行了调查,结果显示,2985年统计错误的论文比例为24%J995年为36%[5]。这些调查研究均说明统计方法误用的严重性以及正确应用的紧迫性。国外从20世纪70年代起就有针对医学论文的科研设计与统计方法应用情况的调查研究,国内学者也进行了相关研究[6]。这种研究有助于及时了解医学科研论文中统计方法的应用质量,发现存在的问题,提高医学科研工作者应用统计方法的水平。笔者总结了近年来已发表的医学科技论文中常见的统计学问题,希望能引起各位专家学者和临床医生 的共识与重视,促进我国医学期刊质量的提高。 1统计设计存在的常见问题 统计设计是整个研究中最重要的一环,是研究工作应遵循的依据。 常见的统计设计问题有:忽视组间均衡性,样木缺乏代表性,样木例数不足,未设置对照组,未随机分组,未提出统计分析方法等。针对以上问题,在科研设计中一定要遵循实验设计的四大原则即“随机.对照、均衡.重复"的原则[6]。 1.1不遵循或不重视随机化原则 随机化是科研设计的重要原则,直接影响研究结果的可信度。随机化既要随机抽样,还要随机分组,并有足够的样木量作前提。然而, 在医学论文中许多作者对此不够重视,主要表现在论文中统计处理随机化不突岀,随机化缺失情况比较常见,有的论文其至将随机误解为随意.随便,不采用随机化

【医学科技论文】医学科技论文统计学误用分析

医学科技论文统计学误用分析 1统计学应用中存在的常见问题 1.1单因素方差分析(ANOVA)两两比较误用独立样本t检验单因素方差分析设计3组以上的均数比较,如果总体比较有差异,需进行两两比较,一般用SNK法或LSD法。但部分研究者却将资料进行拆分,应用独立样本t检验进行两两比较,导致第Ⅰ类统计学错误发生率(假阳性率)增加,从而掉进了一个常见的“统计陷阱”,使所得结论可信度大大降低甚至得出错误结论。SNK法与LSD法虽然并非等价,实质是一致的。SNK法一般用于经方差分析结果具有统计学意义时才决定进行的两两事后比较,而LSD法可用于方差分析不足以具有统计学意义时也能进行两两比较[1]。比较两种方法在SPSS的输出结果形式,SNK是“分堆”比较,一目了然,对于组别数较多的研究更为好用,但没有具体P值,而LSD是在进行“两两”比较时,能给出具体的P值。 1.2两两比较时检验水准的重新调定χ2检验或秩和检验3组以上整体比较有差异时,需应用分割法进行两两比较,这时检验水准应由原0.05调定为0.0167,否则会增加第Ⅰ类统计学错误的发生率。特别当P值处于0.0167~0.05时,按

照P<0.0167的标准,差异无统计学意义,而按照P<0.05的标准,却有意义,与事实相悖,出现假阳性,很容易得出错误结论。这种分割法有时很保守,当行列表资料分组多且为有序时可用Mantel-Haenszel卡方检验,也称线性趋势检验(testforlineartrend)或定序检验(Linear-by-Lineartest)[2]。统计路径:用SPSS进行计数资料的趋势检验,在输出结果中读取线性关联检验统计量(Linear-by-LinearAssociation,LLA),如P<0.05可得出随着病种级别的升高,检测指标逐渐升高的趋势。 1.3临床诊断试验中的统计学方法应用在临床诊断试验研究中,经常选取单项计量指标或者联合计量指标以诊断某种疾病,若仅用初级统计学方法如t检验、单因素方差分析等往往不能有效挖掘信息,此时应采用受试者工作特征曲线(ROC)对检测结果进行分析评价。ROC曲线分析基本原理是通过诊断界点的移动[3],获得多对灵敏度和误诊率(1-特异度),以灵敏度为纵轴、误诊率为横轴,连接各点绘制曲线,然后计算曲线下的面积,面积越大诊断价值越高。ROC曲线很直观,能根据敏感性与特异性之和最大化原则自动产生最有效的诊断临界点。具体路径可以参考相关统计专著[3]。统计学处理一般描述为:采用SPSS(版次)统计软件分析数据,对单项及联合检测结果作图绘成ROC曲线,计算曲线下面积

医学论文中常用统计分析方法的合理选择

医学论文中常用统计分析方法的合理选择 目前,不少医学论文中的统计分析存在较多的问题。有报道,经两位专家审稿认为可以发表的稿件中,其统计学误用率为90%-95%[1]。为帮助广大医务工作者提高统计分析水平,本文将介绍医学论文中常用统计分析方法的选择原则及应用过程中的注意事项。 1.t 检验 t检验是英国统计学家W.S.Gosset 1908年根据t分布原理建立起来的一种假设检验方法,常用于计量资料中两个小样本均数的比较。理论上,t检验的应用条件是要求样本来自正态分布的总体,两样本均数比较时,还要求两总体方差相等。但在实际工作中,与上述条件略有偏离,只要其分布为单峰且近似正态分布,也可应用[2]。 常用的t检验有如下三类:①单个样本t检验:用于推断样本均数代表的总体均数和已知总体均数有无显著性差别。当样本例数较少(n<60)且总体标准差未知时,选用t检验;反之当样本例数较多或样本例数较少、总体标准差已知时,则可选用u检验[3]。②配对样本t检验:适用于配对设计的两样本均数的比较,在选用时应注意两样本是否为配对设计资料。常用的配对设计资料主要有如下三种情况:两种同质受试对象分别接受两种不同的处理;同一受试对象或同一样本的两个部分,分别接受不同的处理;同一受试对象处理前后的结果比较。③两独立样本t检验:又称成组t检验,适用于完全随机设计的两样本均数的比较。与配对t检验不同的是,在进行两独立样本t检验之前,还必须对两组资料进行方差齐性检验。若为小样本且方差齐,则选用t检验;反之若方差不齐,则选用校正t检验(t’检验),或采用数据变换的方法(如取对数、开方、倒数等)使两组资料具有方差齐性后再进行t检验,或采用非参数检验[4]。此外,当两组样本例数较多(n1、n2均>50)时,这时应用t检验的计算比较繁琐,可选用u检验[5]。 2.方差分析 方差分析适用于两组以上计量资料均数的比较,其应用条件是各组资料取自正态分布的总体且各组资料具有方差齐性。因此,在应用方差分析之前,同样和成组t检验一样需要对各组资料进行正态性检验、方差齐性检验。 常用的方差分析有如下几类:①完全随机设计的方差分析:主要用于推断完全随机设计的多个样本均数所代表的总体均数之间有无显著性差别。完全随机设计是将观察对象随机分为两组或多组,每组接受一种处理,形成两个或多个样本。②随机区组设计的方差分析:

队列研究医学论文中常见统计学问题

队列研究医学论文中常见统计学问题 目的了解目前我国医学期刊中采用队列研究设计的文章中统计学方法的应用情况,发现问题并提出相应对策,以提高此类文章的数据处理及撰写水平。方法检索2014~2015年中国知网、万方数据库收录的有关队列研究的论文,对其进行系统的统计学方法分析。结果论文中普遍存在的统计学问题包括χ2检验和Logistic回归的误用、研究对象描述不清楚、结局事件及其判断标准描述不全面等。结论论文作者应充分认识流行病与医学统计学方法在科学研究中的重要性,并具备一定的相关理论知识;期刊编辑部应加强论文的流行病与医学统计方法学的审查工作。 标签:医学期刊;队列研究;统计学问题;对策 队列研究又称前瞻性研究、随访研究及纵向研究,是将一个范围明确的人群按是否暴露于某可疑因素及暴露程度分为不同的亚组,追踪其各自的结局,比较亚组之间结局的差异,从而判定暴露因子与结局之间有无因果关联以及关联大小的一种观察性研究方法[1]。这里暴露是指研究对象接触过某种待研究的物质(如重金属等)、具备某种待研究的特征(如年龄、性别及遗传因素等)或行为(如吸烟等)[2]。观察的结局主要是与暴露因子可能有关的结局。队列研究中先因后果的时间顺序相对明确,受一些偏倚的影响小,是观察性研究方法中验证病因能力最强的研究方法[3],其证据等级仅次于严格设计的随机对照试验。尽管我国的前瞻性队列研究起步较晚,但自20世纪八九十年代起也陆续开展了一些队列研究[4]。如果这些研究未能正确使用该研究方法,不但不能有效验证病因假设,还有可能得出错误的结论。本文收集并分析了近年国内公开发表的队列研究论文,发现其中存在的统计学问题并提出改进意见和建议,旨在引起作者、编者和审稿专家的重视,提高期刊论文的质量。 1队列研究文献的检索 以“队列研究”“前瞻性研究”“随访研究”“纵向研究”为关键词,在中国知网(CNKI)和万方数据库中检索2014~2015年公开发表的队列研究文献共1874篇,剔除重复文献和非研究性文献后,获得研究性文献929篇(表1)。 2 载文量及统计学方法应用情况 根据李康等[5]主编的《医学统计学》和Cochrane推荐的Newcastle-Ottawa-Scale(NOS)工具[6]对检索到的文献进行统计学方法应用情况评判,评判结果在文献评价表中登记并复核,采用Excel管理和分析数据。结果发现,绝大多数队列研究采用χ2检验和Logistic回归方法进行统计推断,约占82.0%;而使用了生存分析及Cox比例风险回归模型的仅占13.0%(表2)。 3常见统计学问题

相关主题
相关文档
最新文档