常见统计学错误(2013)[文字可编辑]

合集下载

统计学中常见的错误

统计学中常见的错误

Chapter2What Can Go Wrong?■ Don’t label a variable as categorical or quantitative without thinkingabout the question you want it to answer. The same variable cansometimes take on different roles.■ Just because your variable’s values are numbers, don’t assume that it’s quantitative. Categories are often given numerical labels. Don’t let that fool you into thinking they have quantitative meaning. Look at thecontext.■ Always be skeptical. One reason to analyze data is to discover the truth.Even when you are told a context for the data, it may turn out that thetruth is a bit (or even a lot) different. The context colors our interpretationof the data, so those who want to influence what you think may slant thecontext. A survey that seems to be about all students mayin fact reportjust the opinions of those who visited a fan website. The question that respondentsanswered may have been posed in a way that influenced their responses.Chapter3Displaying and Summarizing Quantitative DataWhat Can Go Wrong?■ Don’t violate the area principle. This is probably the most common mistake in a graphical display. It is often made in the cause of artistic presentation.Here, for example, are two displays of the pie chart of the Titanicpassengers by clas、A’\‘GN;’{s:Crew Third ClassFirst Class Second Class First Class325Second Class285Third ClassCrew 70688550.0%31.5%26.7%UseMarijuanaUseAlcoholHeavyDrinkingThe one on the left looks pretty, doesn’t it? But showing the pie on a slantviolates the area principle and makes it much more difficult to comparefractions of the whole made up of each class—the principal feature that apie chart ought to show.■ Keep it honest. Here’s a pie chart that displays data on the percentage ofhigh school students who engage in specified dangerous behaviors as reportedby the Centers for Disease Control and Prevention. What’s wrongwith this plot?Try adding up the percentages. Or look at the 50% slice. Does it look right?Then think: What are these percentages of? Is there a “whole” that hasbeen sliced up? In a pie chart, the proportions shown by each slice of thepie must add up to 100% and each individual must fall into only one category.Of course, showing the pie on a slant makes it even harder to detectthe error.A data display should tell a story about the data. To do that, it must speak ina clear language, making plain what variable is displayed, what any axisshows, and what the values of the data are. And it must be consistent in thosedecisions.A display of quantitative data can go wrong in many ways. The most commonfailures arise from only a few basic errors:■ Don’t make a histogram of a categorical variable. Just because thevariable contains numbers doesn’t mean that it’s quantitative. Here’sa histogram of the insurance policy numbers of some workers.It’s not very informative because the policy numbers are just labels.A histogram or stem-and-leaf display of a categoricalvariable makesno sense. A bar chart or pie chart would be more appropriate.■ Don’t look for shape, center, and spread of a bar chart.A bar chart showingthe sizes of the piles displays the distribution of a categorical variable,but the bars could be arranged in any order left to right. Concepts likesymmetry, center, and spread make sense only for quantitative variables.■ Don’t use bars in every display—save them for histograms and barcharts. In a bar chart, the bars indicate how many cases of a categoricalvariable are piled in each category. Bars in a histogram indicate thenumber of cases piled in each interval of a quantitative variable. In bothbar charts and histograms, the bars represent counts of data values. Somepeople create other displays that use bars to representindividual data values.Beware: Such graphs are neither bar charts nor histograms. For example,a student was asked to make a histogram from data showing thenumber of juvenile bald eagles seen during each of the 13 weeks in thewinter of 2003–2004 at a site in Rock Island, IL. Instead, he made this plot:1 2 3 4 5 6 7的方差等于21 2 3 4 5 6的方差等于2.92。

常见的统计错误共31页文档

常见的统计错误共31页文档
脑有特别的 亲和力 。 27、自信是人格的核心。
28、目标的坚定是性格中最必要的力 量泉源 之一, 也是成 功的利 器之一 。没有 它,天 才也会 在矛盾 无定的 迷径中 ,徒劳 无功。- -查士 德斐尔 爵士。 29、困难就是机遇。--温斯顿.丘吉 尔。 30、我奋斗,所以我快乐。--格林斯 潘。
61、奢侈是舒适的,否则就不是奢侈 。——CocoCha nel 62、少而好学,如日出之阳;壮而好学 ,如日 中之光 ;志而 好学, 如炳烛 之光。 ——刘 向 63、三军可夺帅也,匹夫不可夺志也。 ——孔 丘 64、人生就是学校。在那里,与其说好 的教师 是幸福 ,不如 说好的 教师是 不幸。 ——海 贝尔 65、接受挑战,就可以享受胜利的喜悦 。——杰纳勒 尔·乔治·S·巴顿

医学论文中的常见统计学错误ppt课件

医学论文中的常见统计学错误ppt课件

1. 哑变量设置中的错误
下例是一个有关分类变量赋值的例子:
某个吸烟调查中一些自变量的意义及赋值
—————————————————————————————————————
变量名 变量意义
变量可能取值
研究者对变量的赋值
—————————————————————————————————————
A 如果想要烟,你认为
—————————————————————————————
1.率与构成比 某研究想了解筛查与自查相比发现的肝癌病例分期是否 存在差异,是否筛查更能发现早期肝癌病人。
7
一、计数资料分析中的常见错误举例
1. 率与构成比(续)
8
一、计数资料分析中的错误举例
2. 样本量/阳性例数较少时的统计分析
某地区乙肝表面抗原阳性率
年龄别 123451015合计
样本人数 38 56 25 87 321 1245 1453 3531
19
二、统计图表的错误使用
错误的横坐标表示
正确的横坐标表示
20
三、 Logistic 回归中的主要统计学错误
1. 哑变量设置中的错误 2. 比数比与相对危险度的关系 3. 用哑变量表示的自变量各个水平之间的比数比的估计 4. 比数比与相对危险度的正确解释(因素之间作用大小
的比较)
21
三、 Logistic 回归中的主要统计学错误
3
表1 高血压患者治疗2周后的效果
序号
001 002
性别 年龄 职业 治疗 分组
男 23 工人 A
男 32 农民 B
收缩压 舒张压 心电图
(mmHg) (mmHg)
156
120

常见统计学错误

常见统计学错误

常见统计学错误在人类社会发展的过程中,数据的重要性越来越被人们所重视。

统计学作为一门应用于数据处理、分析和解释的学科,被广泛运用于各个领域。

然而,由于统计学的复杂性和数据的多样性,常常会出现一些常见的统计学错误。

本文将会从统计学的角度对一些常见的错误进行分析。

错误一:关联误解许多人将相关性错误地解释为因果性,这是一个常见的误解。

例如,某个人认为他成功的原因是他经常使用的运动饮料,因为他发现当他使用该饮料时,他通常表现出更好的成绩。

然而,这种关联并不代表因果性。

在这种情况下,运动饮料与优秀的表现可能只是因为二者之间存在其他因素的原因。

错误二:回归分析回归分析是一种非常有用的分析方法,可以用来探索变量之间的关系。

但是,如果分析方法不正确,就可能会导致错误的结论。

例如,如果回归模型中使用了错误的自变量或母体数据,甚至丢失了一些因素,那么得到的结果就可能是不准确的。

错误三:样本选择偏差样本选择偏差是指样本失去代表性,不符合总体规律的现象。

这种情况可能会导致结果的不准确,因为样本无法代表总体。

例如,在研究城市居民身体健康的研究中,如果仅仅选择某一小部分正常体型、有规律的情况,而忽略了任何超出这个范围的人,那么这个研究的结果将忽略其他身体健康状况的可能性。

错误四:误差概率统计分析必须包括在结果中发现的误差概率。

虽然有时误差会被忽略,但没考虑误差的影响会导致结果的不确定性和不准确性的增加。

例如,考虑一个零件生产厂家使用的质量控制方法。

如果该厂家仅仅进行一次样本检查,而没有考虑样本选取的偶然性,那么可能无法获得正确的结果。

错误五:推断推断通常用于从一个样本中推广一个总体结论。

但是,如果样本不够大或者不够代表性,那么结果就不能代表总体。

例如,在某一工厂中,如果只从少数员工中调查了病假的问题,那么结果可能并不具有代表性,不能推广到整个员工群体。

总之,正确的统计分析至关重要,结果的准确性直接影响到实际应用的结果。

因此,在进行统计分析时,务必要注意常见的统计学错误,避免这些错误并提高数据分析和结论推断的准确性。

医学期刊论文中常见统计学错误

医学期刊论文中常见统计学错误

[12]刘力生.中国高血压防治指南2010[J ].中华高血压杂志,2011(08):701-743.[13]Zhao W ,Wang L ,Lu X ,et al.A coding polymorphism of thekallikrein 1gene is associated with essential hypertension :a tag-ging SNP-based association study in a Chinese Han population [J ].J Hypertens ,2007,25(9):1821-1827.[14]Kellermeyer RW ,Graham RJ.Kinins --possible physiologic andpathologic roles in man [J ].N Engl J Med ,1968,279(14):754-759.[15]Kaplan AP ,Joseph K ,Silverberg M.Pathways for bradykininformation and inflammatory disease [J ].J Allergy Clin Immunol ,2002,109(2):195-209.[16]Kellermeyer RW ,Graham RJ.Kinins --possible physiologic andpathologic roles in man [J ].N Engl J Med ,1968,279(16):859-866.[17]Rett K ,Wicklmayr M ,Dietze GJ ,et al.Insulin -induced glucosetransporter (GLUT1and GLUT4)translocation in cardiac muscle tissue is mimicked by bradykinin [J ].Diabetes ,1996,45Suppl 1:S66-S69.[18]Zhao C ,Wang P ,Xiao X ,et al.Gene therapy with human tissuekallikrein reduces hypertension and hyperinsulinemia in fructose -induced hypertensive rats [J ].Hypertension ,2003,42(5):1026-1033.[19]Potier L ,Waeckel L ,Fumeron F ,et al.Tissue kallikrein defi-ciency ,insulin resistance ,and diabetes in mouse and man [J ].JEndocrinol ,2014,221(2):297-308.[20]Slim R,Torremocha F ,Moreau T ,et al.Loss -of-function poly-morphism of the human kallikrein gene with reduced urinary kal-likrein activity [J ].J Am Soc Nephrol ,2002,13(4):968-976.[21]Biros E ,Norman PE ,Walker PJ ,et al.A single nucleotide poly-morphism in exon 3of the kallikrein 1gene is associated with large but not small abdominal aortic aneurysm [J ].Atherosclero-sis ,2011,217(2):452-457.[22]Ordovas JM ,Robertson R,Cleirigh EN.Gene -gene and gene-environment interactions defining lipid-related traits [J ].Curr Opin Lipidol ,2011,22(2):129-136.[23]Rideout TC ,Harding SV ,Jones PJ.Consumption of plant sterolsreduces plasma and hepatic triglycerides and modulates the ex-pression of lipid regulatory genes and de novo lipogenesis in C57BL /6J mice [J ].Mol Nutr Food Res ,2010,54Suppl 1:S7-S13.[24]Rothschild AM ,Melo VL ,Reis ML ,et al.Kininogen and prek-allikrein increases in the blood of streptozotocin -diabetic rats are normalized by insulin in vivo and in vitro [J ].Naunyn Schmiede-bergs Arch Pharmacol ,1999,360(2):217-220.[25]Mori MA ,Araujo RC ,Reis FC ,et al.Kinin B1receptor defi-ciency leads to leptin hypersensitivity and resistance to obesity [J ].Diabetes ,2008,57(6):1491-1500.(2018-08-21收稿)·读者·作者·编者·医学期刊论文中常见统计学错误1.统计表达和描述方面存在的错误:(1)统计表中数据的含义未表达清楚,令人费解。

医学论文中常用统计分析方法错误大全

医学论文中常用统计分析方法错误大全

医学论文中常用统计分析方法错误大全在医学研究领域,准确合理地运用统计分析方法对于得出可靠的研究结论至关重要。

然而,在实际的医学论文中,却存在着各种各样的统计分析方法错误,这些错误可能会导致研究结果的偏差,甚至得出错误的结论。

下面,我们就来详细探讨一下医学论文中常见的统计分析方法错误。

一、数据类型判断错误数据类型的正确判断是选择合适统计分析方法的基础。

医学研究中常见的数据类型包括计量资料、计数资料和等级资料。

然而,很多研究者在数据类型判断上出现失误。

例如,将原本应该是计数资料的数据(如疾病的治愈、好转、无效等)当成计量资料进行分析,错误地使用了均值和标准差等统计指标,而应该使用频率和百分比等指标,并采用卡方检验等方法。

二、样本量计算不合理样本量的大小直接影响到研究结果的可靠性和准确性。

一些医学论文在研究设计阶段没有充分考虑样本量的计算,导致样本量过小或过大。

样本量过小,可能会使研究结果缺乏统计学意义,无法检测出真实存在的差异;样本量过大,则会造成资源的浪费,同时增加研究的难度和成本。

正确的样本量计算应该综合考虑研究的设计类型、预期效应大小、检验水准和检验效能等因素。

三、选择错误的统计方法这是医学论文中常见的错误之一。

例如,对于两组独立样本的均数比较,应该使用 t 检验,但如果两组数据的方差不齐,就需要使用校正的 t 检验或者非参数检验方法(如 Wilcoxon 秩和检验)。

然而,很多研究者在这种情况下仍然使用了普通的 t 检验,导致结果不准确。

再比如,对于多组均数的比较,如果方差分析结果有统计学意义,还需要进一步进行多重比较。

但有些研究在这一步没有进行恰当的多重比较方法选择,导致结论不够准确。

四、忽视数据的正态性检验在进行某些统计分析(如 t 检验、方差分析等)时,要求数据服从正态分布。

然而,很多研究者在使用这些方法之前,没有对数据进行正态性检验。

如果数据不服从正态分布,却仍然使用基于正态分布假设的统计方法,就会得出错误的结论。

医学论文中的常见统计学错误

医学论文中的常见统计学错误
医学论文中 的常见统计学错误
中国疾病预防控制中心 金水高
精品课件
正确的统计学方法必须贯 穿于从课题的统计设计 到论文撰写的全过程。
精品课件
不管是实验室研究、临床研究还是现场调查, 其数据的归纳整理,都要列成一定的标准格 式,以便于进行计算机的录入及统计分析。 其基本要求为: 1. 横为记录,纵为变量 2. 对每个变量要起合适的变量名 3. 对分类变量中用字符表示的取值在进行计 算机录入时必须按照一定的规矩将其转换为 数值。
一、计数资料分析中的常见错误举例
1.率与构成比 2.某研究想了解筛查与自查相比发现的肝癌病例分期是 否存在差异,是否筛查更能发现早期肝癌病人。
精品课件
一、计数资料分析中的常见错误举例
1. 率与构成比(续)
精品课件
一、计数资料分析中的错误举例
2. 样本量/阳性例数较少时的统计分析
年龄别 123451015合计
对照(一水平) 1
1.56 3.56
0.86
二水平
0.64
1
0.44
1.81
三水平
0.28
2.28
1
4.14
四水平
1.16
精品课件
0.55 0.24
三、 Logistic 回归中的主要统计学错误
4. 比数比及相对危险度的正确解释 某文献在研究影响妇女产前检查的可能因素时,拟合了
一个Logistic回归模型。在进行分析后,认为‘由于 量纲相同’,可以由回归系数的绝对值‘直接判定’ 它们与产前检查关联强弱。其结论为:孕产期卫生知 识〉妇女文化程度〉妇女年龄〉丈夫文化程度〉丈夫 职业〉家庭距卫生院距离。
2.这些数据的属性:是定性还是定量资料。 确定了所关心的研究产出后,其它的变量就都可以解释为是这

统计研究设计中常见错误辨析

统计研究设计中常见错误辨析

统计研究设计中常见错误辨析统计研究设计是研究领域的一个重要环节,涉及到研究对象、研究方法、数据收集等多个方面。

在这个过程中,研究者常常会出现一些错误和偏差,影响研究的可靠性和准确性。

本文将分析和辨析统计研究设计中常见的错误和偏差。

一、样本容量偏小样本容量是统计研究中重要的参数之一,决定着研究的可靠性和准确性。

如果样本容量偏小,可能会导致样本代表性不足、误差较大,研究结论存在一定的偏差。

因此,研究者在确定样本容量时,应注意考虑研究目的、假设检验的类型、数据类型和误差范围等因素。

二、样本选择偏倚样本选择偏倚是指样本不具备代表性,未能覆盖到整个研究领域的不同方面,导致研究结果产生一定误差。

这种偏倚可能出现在多个方面,比如样本来源、样本属性、样本数量等,研究者应该尽可能地避免这种偏倚。

三、研究设计问题研究设计是研究的基础,如果研究设计存在问题,会导致研究结果无法得到充分的验证和确认。

在研究设计阶段,研究者需要明确研究目的、研究对象、研究方法等重要参数,建立完整的研究框架,以确保最终研究能够得到有效的验证和证实。

四、数据收集和处理问题数据收集和处理是研究中关键的步骤之一,直接影响到研究结论的准确性和可靠性。

在数据收集和处理过程中,研究者容易出现一些偏差和错误,如数据不完整、数据分类不准确、数据清洗不彻底等。

为避免这些问题,研究者需要制定合理的数据收集和处理程序,保证数据收集和处理的质量和准确性。

五、假设检验问题假设检验是统计研究中重要的结果分析方法之一,用来判断样本数据是否具有代表性和统计意义。

但是研究者在假设检验过程中,容易出现一些错误和偏差,如假设选择不合理、显著性水平超限、样本误差未考虑等。

因此,研究者需要严格遵循假设检验步骤,确保假设检验结果的正确性和可信度。

六、结论推断问题结论推断是统计研究中重要的结果展示方式之一,用来从样本数据中得出整体研究结论。

但是研究者在结论推断过程中,容易出现一些错误和偏差,如过度推断、推断范围不准确、结论与实际情况偏差大等。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
常见统计学错误与纠正
---- 设计与分析
方积乾
中山大学公共卫生学院 医学统计与流行病学系
2013年12月
1. 终点指标过多, 大海捞针
?临床试验时,不知道哪个指标在组与组间有差 异; “确定某个指标后,万一组间没有差异,岂 不被动!”
?生理、生化、组织学、基因,都做; “内容丰富,显得水平高!”
?许多仪器一下子可以做许多项目; “许多项目一一分析,哪个有意义,就报告 哪个指标标”
(2)预计总体标准差 ? ? 0.35mg / dL
(3)允许出现假阳性结果的机会 ? ? 0.05
(4)允许出现假阴性结果的机会 ? ? 0.20
欧洲研究的样本量估算
N
?
4???(Z?
/2
?
?
Z?
)?
?2 ??
?
4???(1.96
?
0.84) ? 0.18
0.35 ?2 ??
?
4???(1.96
P(两次分析均不犯错误)? [ P(两次分析均不犯错误)]2 P(假阳性)? 1- 0.952 ? 1? 0.90
同时分析 3 个指标时, P(假阳性)? 1- 0.953 ? 1 ? 0.86 ? 0.14 同时分析 10 个指标时, P(假阳性)? 1 - 0.9510 ? 1 ? 0.60 ? 0.40
错在哪里?
?哪些指标可能有组间差异,必须心中有数。 科研的结果应当预见 —— 假说是科研的灵 魂 心中无数,不要“先上马再说”
?指标多,实验工作量大。 大海捞针—— 碰运气,不是科研
?指标多,翻来覆去分析,制造假阳性 Nature 杂志统计学指南:常见错误之一
为何翻来覆去分析,会制造假阳性?
仅分析一个指标时, P(假阳性) ? 0.05, P(一次分析不犯错误)? 0.95 同时分析 2 个指标时,
?将随机化当作“廉价名词”,实际没做,却 写“随机分成两组” —— 科研道德?
说错和做错
?将随机化当作“廉价名词”,实际没做,却 写“随机分成两组” —— 科研道德?
?将“随意分组”当作随机化 ?将“机械分组”当作随机化 ?略去筛选过程,简单地报告将多少人随机分
组 ?略去实施过程中丢失对象,将最后两组人数
?
0.84) ? 0.18
0.35 ?2 ??
?
118.6
决定每组含61名患者。
比较两组发生某结局的百分比
(1)预计两组发生某结局的百分比约为 ? 1,? 2
(2)允许犯假阳性错误的机会 ?
(3)允许犯假阴性错误的机会 ?
?c
?
?1
??2
2
N ? ??2Z? / 2 ?
? c (1 ?
?c)
?
Z?多项比较时,必须 说明如何校正α 水平,以避免增大第一类错 误的机会
应当如何?
?主要终点(primary end point) :只能一个 次要终点(secondary end point) : 可以几个, 但勿过多
?Bonfferoni 校正 当同一组数据同时作k次分析时,若限定
?1
2? 1(1 ? ? ?2
? 1)
?
2? 2 (1 ?
?2)
?2 ? ?
南韩对比剂研究
南韩研究
(1)预计两组发生某结局的百分比约为 20% 和 8%
(2)允许犯假阳性错误的机会 ? ? 5%
(3)允许犯假阴性错误的机会 ? ? 1 ? 80% ? 20%
可能会有一部分患者失访、数据不全、违反研究方案, 计划每组 150 名
?亚组分析和校正分析必须事先在研究计划 里规定,并说明理由;写文章时,申明这 类分析是事前计划好的
?事后决定做的分析,如果想写,不能算是 正式结果,只能视为探索性分析。
3. 随机化,说而不做,做而不严
?处理分配的随机化为什么这么重要 ? (1) 消除分配处理有意或无意的偏倚。 (2) 为实施盲法创造条件。 (3) 使有可能利用概率论来描述各干预组之间 的差异有多大可能仅仅是由偶然性造成的。
说成是随机分组人数
应当如何?
?成功的随机化取决于: (1) 产生一个不可预见的分配序列; (2) “隐蔽” (allocation concealment )这个 序列,直到分配完毕(必须建立一个分配处 理的系统) 。
?报告如何随机分组,如何“隐蔽” :谁做随 机序列,谁收病人,谁分药和发药;分组方 案如何保管……
为何不鼓励事后分析?
?数据是现象,现象具有偶然性; 看到数据后进行的“分析”属于故作姿态, 变偶然为“必然” —— 忽悠!
?看到数据后增加的“分析”,也属于多重 分析,增加假阳性的机会
应当如何?
?必要的亚组分析有助于发现适应症,指导 个体化治疗;必要的校正分析有助于消除 混杂偏倚,公平、公正地比较疗效
参加者的流程图 (强烈推荐)
合格对象82例 随机分组75例
拒绝参与7例
分配至实验组38例 接受干预38例
分配至对照组37例。接受 干预36例,1例因颈部损伤未
接受干预
随访例数: 7周n=38,11 随访例数: 7周n=37,11
周 n=38 , 15 周 n=38 , 19 周n=36 ,15 周n=36 ,19
比较两组测定值的均数
(1)预计欲比较的两总体参数的差值 ? ? ?1 ? ? 2
(2)预计总体标准差 ? (3)允许出现假阳性结果的机会 ?
(4)允许出现假阴性结果的机会 ?
N
?
?( 4??
Z?
/2
?
?
Z?
)?
?2 ??
欧洲对比剂研究
? ? 0.20 ?
(1)预计欲比较的两总体参数的差值 ? ? 0.18mg / dL
周n=36
周n=35
纳入分析例数n=36
纳入分析例数 n=35 ,排除
排除分析例数 n=2(因失 分析例数n=2(1例失访,1例
访)
颈部损伤)
4. 样本量随意决定, 无依据
?样本量太小? ---- 真理应经得起重复 研究的功效太低
?样本量越大越好? ---- 时间长、经费不足 不能保证数据质量
?需要事先估算最小样本量 论文必须报告估算最小样本量的根据
犯假阳性错误的概率总共不超过 ? , 则每次分析要用 ? / k 来控制假阳性的概率。
例 ? ? 0.05, k ? 10, ? / k ? 0.005
2. 事后分析,见机行事
?事后分析(Post hoc analysis ) 看到数据之后才想起来做的分析 其结果往往不能被进一步研究所确认
?不鼓励事先并未计划的亚组分析和校正分析
相关文档
最新文档