统计学缪误

合集下载

这个著名的统计学悖论，第一次听说的人很可能怀疑人生

这个著名的统计学悖论，第一次听说的人很可能怀疑人生原创把科学带回家把科学带回家 2018-11-21作者七君我们平时在做重大决策的时候，比如择校啊，选专业啊，总是会参考这些比较对象的硬指标，比如它们的录取率啊，就业率啊等等。

像是，哪个学校的就业率高，我们就会去报考这个学校。

统计数字可以帮助我们了解这些比较对象的优劣，让我们做出明智的决策。

不光是个人，公司和国家也是这样做决策的。

那么这样做对吗？其...实...不...对今天我们就来介绍一个让人非常头疼，但非常有用的悖论，它会告诉你，很多时候统计数字相当不可靠，特别容易误导人。

先来看一个假设的例子。

小明生了慢粒白血病，她的失散多年的哥哥找到有2家比较好的医院，医院A和医院B供小明选择就医。

小明的哥哥多方打听，搜集了这两家医院的统计数据，它们是这样的：医院A最近接收的1000个病人里，有900个活着，100个死了。

医院B最近接收的1000个病人里，有800个活着，200个死了。

作为对统计学懵懵懂懂的普通人来说，看起来最明智的选择应该是医院A对吧，病人存活率很高有90%啊！总不可能选医院B吧，存活率只有80%啊。

呵呵，如果小明的选择是医院A，那么她就中计了。

就这么说吧，如果医院A最近接收的1000个病人里，有100个病人病情很严重，900个病人病情并不严重。

在这100个病情严重的病人里，有30个活下来了，其他70人死了。

所以病重的病人在医院A的存活率是30%。

而在病情不严重的900个病人里，870个活着，30个人死了。

所以病情不严重的病人在医院A的存活率是96.7%。

在医院B最近接收的1000个病人里，有400个病情很严重，其中210个人存活，因此病重的病人在医院B的存活率是52.5%。

有600个病人病情不严重，590个人存活，所以病情不严重的病人在医院B的存活率是98.3%。

画成表格，就是这样的——医院A：病情死亡存活总数存活率严重70 30 100 30%不严重30 870 900 96.7%合计100 900 1000 90%医院B：病情死亡存活总数存活率严重190 210 400 52.5%不严重10 590 600 98.3%合计200 800 1000 80%你可以看到，在区分了病情严重和不严重的病人后，不管怎么看，最好的选择都是医院B。

统计学辛普森悖论

统计学辛普森悖论引言：统计学是一门研究数据收集、分析和解释的学科，它在科学研究、商业决策、政策制定等领域都发挥着重要作用。

然而，我们常常会遇到一个现象，即当我们将数据进行细分分析后，得出的结论与整体数据的结论相反。

这就是统计学中著名的辛普森悖论。

一、什么是辛普森悖论？辛普森悖论，又称为辛普森效应，是指当我们对数据进行细分分析时，得出的结论与整体数据的结论相反的现象。

这种现象常常出现在数据集中存在不同的类别或组群时。

二、辛普森悖论的经典案例为了更好地理解辛普森悖论，我们可以通过一个经典案例来说明。

假设某个学校在招生过程中有两个不同的专业：专业A和专业B。

我们对该学校的录取情况进行统计分析，得出以下数据：专业A：200名男生中有120人被录取，300名女生中有100人被录取；专业B：300名男生中有150人被录取，200名女生中有120人被录取。

整体数据显示，男生的录取率高于女生。

然而，当我们对不同的专业进行分别分析时，却发现女生的录取率在每个专业中都高于男生。

这就是典型的辛普森悖论。

三、辛普森悖论的成因辛普森悖论产生的原因主要有两个方面：样本大小和类别之间的关系。

1. 样本大小：在上述案例中，男生和女生的样本大小存在差异，男生的样本数量要大于女生。

当我们只看整体数据时，男生的录取率较高，但当我们对不同的专业进行分别分析时，女生的录取率却在每个专业中都高于男生。

这是因为男生的样本量大，整体数据中占比较大，从而影响了整体数据的结论。

2. 类别之间的关系：在上述案例中，男生和女生在不同专业的录取情况存在差异。

男生在专业A中录取率高于专业B，而女生在专业A 中录取率低于专业B。

这种差异导致了整体数据和分组数据的结论相反。

四、如何避免辛普森悖论的影响辛普森悖论的出现给我们的数据分析带来了挑战，但我们可以采取一些方法来避免其影响。

1. 充分了解数据：在进行数据分析之前，我们应该充分了解数据的来源、样本数量以及类别之间的关系。

伯努利谬误不合逻辑的统计学与现代科学的危机_札记

《伯努利谬误不合逻辑的统计学与现代科学的危机》阅读笔记目录一、内容概要 (2)二、关于伯努利谬误 (2)1. 伯努利谬误的定义 (3)2. 伯努利谬误的来源 (3)3. 伯努利谬误在统计学中的应用 (4)三、不合逻辑的统计学 (5)1. 统计学的逻辑基础 (6)2. 不合逻辑统计学的表现 (7)3. 不合逻辑统计学对科学的影响 (8)四、现代科学的危机 (9)1. 现代科学的挑战与问题 (10)2. 科学与统计学的关系 (11)3. 现代科学危机中的统计学因素 (12)五、伯努利谬误与不合逻辑统计学在现代科学危机中的作用与影响.131. 伯努利谬误与不合逻辑统计学在科学研究中的表现与问题解析142. 对现代科学决策的影响与风险分析 (15)3. 对现代科学发展的影响与探讨对策 (16)六、案例分析 (18)1. 案例一 (19)2. 案例二 (19)七、结论与展望 (20)1. 对于伯努利谬误与不合逻辑统计学的总结 (22)2. 对现代科学危机的思考与对策建议 (23)3. 对未来科学研究与统计学发展的展望与建议 (24)一、内容概要作者通过对比古典概率论和现代概率论的发展，揭示了伯努利谬误在统计学中的普遍存在，以及它对科学研究的危害。

文章首先介绍了古典概率论的基本原理，然后分析了现代概率论的发展过程，特别是贝叶斯定理的出现，使得概率论得以更加精确地描述现实世界。

作者详细阐述了伯努利谬误的定义、特点以及在统计学中的应用，指出了它可能导致的错误结论和科学危机。

作者呼吁科学家们正视伯努利谬误的问题，加强概率论的研究和教育，以促进现代科学的健康发展。

二、关于伯努利谬误在统计学中，伯努利谬误（Bernoulli fallacy）是一种常见的逻辑谬误，它发生在人们错误地将一个概率事件的结果应用于另一个独立的概率事件上。

这种谬误通常源于对随机性和独立性的误解。

伯努利谬误的产生往往与人们对概率论的基本概念不熟悉或误解有关。

maup 辛普森悖论区间谬误

标题：探究概率统计中的maup、辛普森悖论和区间谬误在概率统计领域中，maup（多元空间分布）是一个重要概念，它探讨了在不同空间尺度下数据分析的问题；辛普森悖论则是一个令人深思的悖论，揭示了当数据分别分析和整体分析之间出现的误导性结果；而区间谬误则是在统计推断中常见的错误，值得我们深入思考。

让我们来探讨maup这一概念。

maup是多元空间分布（modifiable areal unit problem）的缩写，指的是研究在不同空间尺度下数据进行空间单位划分所带来的影响。

在实际研究中，我们常常需要通过地理单位对数据进行划分和聚合，在不同空间尺度下得到的结果可能会有所不同。

这就引发了一个重要问题，即我们应该使用何种空间尺度来进行数据分析和研究。

maup的存在使得我们需要对空间单位的选择和空间尺度效应进行深入的思考和研究。

当我们在不同区域空间尺度下进行数据分析时，可能会出现由规模效应引起的误解，这就需要我们认真对待maup所带来的挑战，并在研究中加以考虑。

让我们转向辛普森悖论的讨论。

辛普森悖论是指在数据分别分析和整体分析之间出现的悖论现象。

简单来说，这个悖论揭示了当我们将数据进行分组或细分后，可能得出与整体数据完全相反的结论。

这给我们的数据分析带来了极大的挑战，因为我们往往需要建立精细的数据模型和进行细致的分析，但同时也需要警惕分析过于细致所带来的误导性结果。

辛普森悖论提醒我们，需要在数据分析中综合考虑整体和部分的关系，避免过于片面地进行分析和解读。

对于辛普森悖论的研究和理解对于我们正确分析和解释数据具有重要意义。

让我们探讨区间谬误。

区间谬误是指在统计推断中常见的错误，主要体现在对统计量的置信区间的解释和使用上。

在统计学中，我们经常会计算出统计量的置信区间，用以估计参数或评估模型的准确性。

然而，区间谬误指出了在对置信区间的解释和使用时可能存在的问题，例如过于自信地认为真值落在置信区间中，或者过于简单地对置信区间进行比较而忽视了其他因素。

以假乱真的统计陷阱

算_翻__釋m b兹別奉献编者的话：高考是一种竞技，考验的是平时的努力。

要想在高考中取得优异成绩，贵在平时的训练，平日从严，高考坦然。

练习就是高考，高考就是练习！面对即将到来的高考，在明确命题规律的基础上，平时的训练要有针对性，要学会总结。

以微此真的说針陷巧从20世纪初开始，统计学进入了快速发展期，尤其是近几十年间，计算机技术不断发展，使统计数据的搜集、处理、分析、存贮、传递、印制等过程日益现代化，提高了统计工作的效能。

随着大数据分析的不断深入发展，相信统计在社会实践中的应用越来越广泛。

但统计学中的有一些典型的陷阱，也应引起大家的注意。

1."抽样调查"陷阱调查问卷你肯定知道，多半也曾做过。

在统计上，问卷调查属于抽样调查，再大规模的抽样调查，也都可能存在着意想不到的陷阱。

比如，1936年美国总统大选前，当时美国有一本著名的杂志《文学文摘》，杂志社在读者中做了一次问卷调查后，断言共和党的兰登将以57%对43%的绝对优势大胜民主党的罗斯福。

这个调查结果是根据240万份调查问卷得到的。

这么大规模的调查，如同宣告了兰登的胜利，可是，最后的结果却是罗斯福以62%的支持率成功连任美国总统。

其实，《文学文摘》的调查问卷虽然数量庞大，但是样本构成却大有问题。

其•，这个调查的对象一般都是这个杂志的读者，从而导致最终参加调查的人是一个有偏差的样本，结论可能会代表了这些人群，却不能推广到全体。

其二，调查问卷的回收率只有24%,忽略那些没有被回收的问卷就等于忽略了剩余的 182万人的意见。

2."统计平均"陷阱滥用平均数容易造成统计中的偏差。

比如有则广告说：我们工厂有3000人，月平均工资为5000元。

看起来这个工厂的待遇比较不错，实际上可能是一个月薪100万元的老总加上每个月拿着可怜薪水的上千名工人简单平均起来的结果。

又如，某大学数学系有教授15人、副教授40人、讲师和助教25人，这三类人的平均年薪分别是15万元、10万元、8万元，该单位|只工平均年薪为11万元。

辛普森悖论解决方法

辛普森悖论解决方法辛普森悖论是一种常见的逻辑谬误，它指的是在一个整体数据中，不同的子集数据的比较结果与整体数据的比较结果相反的现象。

这种悖论常见于统计学和社会科学领域，但也经常出现在日常生活中。

为了解决这种悖论，人们提出了多种方法。

一、分组比较法分组比较法是一种常见的解决辛普森悖论的方法。

它的基本思想是将数据分成不同的组别，然后对每个组别进行比较。

这种方法可以避免数据的混淆，从而减少悖论的发生。

例如，假设有两个医院A和B，它们的手术成功率分别为60%和70%。

但是，如果我们将这两个医院的手术类型分组比较，就会发现A医院在简单手术方面的成功率高于B医院，而在复杂手术方面的成功率低于B医院。

这样，我们就可以得出更准确的结论。

二、加权平均法加权平均法是一种将不同组别的数据进行加权平均的方法。

这种方法可以避免数据的混淆，从而减少悖论的发生。

例如，假设有两个医院A和B，它们的手术成功率分别为60%和70%，但是A医院的手术数量远远多于B医院。

如果我们使用加权平均法，将A医院的成功率乘以手术数量，再将B医院的成功率乘以手术数量，然后将两个结果相加，最后除以总手术数量，就可以得到更准确的结论。

三、多元回归分析法多元回归分析法是一种将多个变量进行回归分析的方法。

这种方法可以避免数据的混淆，从而减少悖论的发生。

例如，假设有两个医院A和B，它们的手术成功率分别为60%和70%，但是A医院的手术类型更加复杂。

如果我们使用多元回归分析法，将手术类型作为一个变量，将手术成功率作为另一个变量，就可以得到更准确的结论。

综上所述，辛普森悖论是一种常见的逻辑谬误，但是我们可以通过分组比较法、加权平均法和多元回归分析法等方法来解决它。

这些方法可以避免数据的混淆，从而得出更准确的结论。

在日常生活中，我们应该注意这种悖论的存在，并采取相应的措施来避免它的发生。

常见的统计学谬误之一——伯克森悖论

——在此前提下，在对住院病人进行研究时，
相当于控制了“住院”这个因子.正如我们所知的，
撞因子为条件这一操作制造了“疾病1”和“疾病
间的伪相关.因为辩解效应的存在，这种伪相关多呈负
相关，但在这个例子中，这种伪相关是正向的，
者住院的前提就是同时患有两种疾病（而不是只患有
一种疾病）.
然而，长期以来，流行病学家拒绝相信这一悖论
的存在.直到1979年，麦克马斯特大学的一位研究统
文化时空
张奠宙王善平
这个错误对我们来说特别有启发性，因为它精确
地说明了我们大脑思考机制的缺陷.我们在实际生活
中似乎就是遵循着共因原则行事的，无论何时，
观察到某种模式，我们就会去寻找一个因果解释。

警惕心理学研究中的统计误用

警惕心理学研究中的统计误用警惕心理学研究中的统计误用心理学研究中，统计分析是必不可少的工具。

随着计算机技术的发展，心理学家们已经可以使用各种强大的工具，如SPSS和R等软件，来处理他们的数据。

然而，统计分析也面临着一些潜在的问题和误用，这些问题可能会导致不准确的结果和不可靠的解释。

本文将讨论心理学研究中的统计误用，并分析如何避免这些问题的出现。

统计误用的类型在心理学研究中，统计误用的类型很多。

下面列举了一些常见的统计误用：1.显著性检验错误显著性检验是心理学研究中最常用的方法之一。

然而，显著性检验经常被错误地使用，导致研究者无法正确地理解他们的数据结果。

例如，某研究可能会得出“组间差异显著”的结果，而实际上，由于样本量太小，这种差异并不显著。

2.估计误差在研究中，研究者通常会使用一些统计指标来估计他们的数据结果。

然而，由于样本量较小或者因为其他原因，这些统计指标并不一定准确。

这就导致研究者不能正确地理解他们的数据结果。

3.多重比较错误在心理学研究中，经常进行多个数据集的比较。

然而，这些比较可能会导致诸如多重比较错误等的误用。

4.选择性报告选择性报告是心理学研究中常见的问题之一。

这种现象发生在研究者在分析和解释时，只关注某些结果，而忽略其他结果。

这种形式的误用通常会导致数据误解。

避免统计误用的方法统计误用有时是无可避免的。

然而，研究者可以通过以下方法来避免这些误用：1.了解统计原理研究者应该了解统计原理，掌握各种统计方法的优缺点。

研究者同时还需要了解各种统计指标的解释方式。

例如，当一个数据集显示出显著性时，他们应该询问自己这个数据集是否足够大，以确保显著性的结果能够得到充分的支撑。

2.使用鲁棒的方法研究者应该使用鲁棒的方法来避免统计误用。

例如，研究者可以使用Robust Regression和Bootstrap等方法来减少极端值和异常值的影响。

3.遵循科学方法科学方法不仅仅适用于实验研究，它在数据收集和统计分析方面也同样有用。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

统计学缪误
统计学谬误是指在统计学中常见的一些错误观念或误解，这些错误观念可能导致我们对数据的解读产生偏差或错误的结论。

本文将介绍几种常见的统计学谬误，并对其进行详细解析。

我们来谈谈“相关不意味着因果”。

在统计学中，我们常常使用相关性来描述两个变量之间的关系。

然而，相关性并不意味着因果关系。

例如，我们可以观察到在夏季冰淇淋的销量与麻疹病例数之间存在正相关关系，但这并不能说明冰淇淋的销量导致了麻疹的发病率上升。

实际上，这种相关性可能是由于夏季天气炎热，导致人们既愿意购买冰淇淋，也更容易感染麻疹。

我们来看看“小样本就能代表整体”。

在统计学中，我们常常通过对一个小样本进行观察和分析，来推断整个总体的特征。

然而，小样本并不能完全代表整体。

例如，如果我们只对10个人进行调查，然后得出结论说“80%的人喜欢吃苹果”，这显然是不准确的。

我们需要根据统计学原理，确定样本的大小和抽样方法，以确保样本能够代表整体。

另一个常见的统计学谬误是“回归到平均值”。

这个思维误区源于对回归分析的错误理解。

回归分析可以帮助我们理解变量之间的关系，并对未来的趋势进行预测。

然而，回归分析并不意味着变量会回归到平均值。

例如，如果一个人的身高远高于平均水平，回归到平均值的误解会让我们认为这个人的子女身高会更接近平均水平，
但事实上这是不正确的。

回归到平均值的观念忽略了遗传因素的影响，导致了错误的结论。

另外一个常见的谬误是“忽略了随机性”。

在统计学中，我们常常使用随机抽样来获取样本数据，并对总体进行推断。

然而，随机性并不能消除所有的偶然误差。

例如，当我们进行投票调查时，由于抽样误差或调查者的主观因素，我们可能无法完全准确地预测选举结果。

因此，我们在进行统计分析时，需要考虑到随机性的存在，并对其进行合理的解释。

最后一个要介绍的谬误是“平均数代表典型值”。

在统计学中，我们常常使用平均数来描述数据的中心趋势。

然而，平均数并不能代表数据的典型值。

例如，如果一个班级中有一位学生的年龄是30岁，其他学生的年龄都在15岁左右，那么平均年龄将会偏高。

在这种情况下，中位数可能更能反映学生的典型年龄。

因此，在进行数据分析时，我们需要综合考虑平均数、中位数和众数等多个指标。

统计学谬误是我们在进行统计分析时常常容易犯的一些错误观念或误解。

了解这些谬误并避免它们的发生，对于正确理解和解读数据是非常重要的。

通过不断学习和实践，我们可以提高自己的统计学水平，做出更加准确和严谨的统计分析。

统计学缪误

这个著名的统计学悖论，第一次听说的人很可能怀疑人生

统计学辛普森悖论

伯努利谬误不合逻辑的统计学与现代科学的危机_札记

maup 辛普森悖论 区间谬误

以假乱真的统计陷阱

辛普森悖论解决方法

常见的统计学谬误之一——伯克森悖论

警惕心理学研究中的统计误用

maup 辛普森悖论区间谬误