第六章统计学悖论

合集下载

统计学辛普森悖论

统计学辛普森悖论引言：统计学是一门研究数据收集、分析和解释的学科，它在科学研究、商业决策、政策制定等领域都发挥着重要作用。

然而，我们常常会遇到一个现象，即当我们将数据进行细分分析后，得出的结论与整体数据的结论相反。

这就是统计学中著名的辛普森悖论。

一、什么是辛普森悖论？辛普森悖论，又称为辛普森效应，是指当我们对数据进行细分分析时，得出的结论与整体数据的结论相反的现象。

这种现象常常出现在数据集中存在不同的类别或组群时。

二、辛普森悖论的经典案例为了更好地理解辛普森悖论，我们可以通过一个经典案例来说明。

假设某个学校在招生过程中有两个不同的专业：专业A和专业B。

我们对该学校的录取情况进行统计分析，得出以下数据：专业A：200名男生中有120人被录取，300名女生中有100人被录取；专业B：300名男生中有150人被录取，200名女生中有120人被录取。

整体数据显示，男生的录取率高于女生。

然而，当我们对不同的专业进行分别分析时，却发现女生的录取率在每个专业中都高于男生。

这就是典型的辛普森悖论。

三、辛普森悖论的成因辛普森悖论产生的原因主要有两个方面：样本大小和类别之间的关系。

1. 样本大小：在上述案例中，男生和女生的样本大小存在差异，男生的样本数量要大于女生。

当我们只看整体数据时，男生的录取率较高，但当我们对不同的专业进行分别分析时，女生的录取率却在每个专业中都高于男生。

这是因为男生的样本量大，整体数据中占比较大，从而影响了整体数据的结论。

2. 类别之间的关系：在上述案例中，男生和女生在不同专业的录取情况存在差异。

男生在专业A中录取率高于专业B，而女生在专业A 中录取率低于专业B。

这种差异导致了整体数据和分组数据的结论相反。

四、如何避免辛普森悖论的影响辛普森悖论的出现给我们的数据分析带来了挑战，但我们可以采取一些方法来避免其影响。

1. 充分了解数据：在进行数据分析之前，我们应该充分了解数据的来源、样本数量以及类别之间的关系。

统计学辛普森悖论的内容

统计学辛普森悖论的内容统计学辛普森悖论（Simpson's Paradox），又称辛普森效应，是指在统计数据分析中，一个总体的不同子集中出现的关系与整体数据的关系恰好相反。

简单来说，当我们将数据分组并进行分析时，得出的结论可能会与整体数据相矛盾。

辛普森悖论最早由英国统计学家E.H.辛普森于1951年提出，他在研究统计学考试成绩的数据时发现了这个现象。

为了更好地说明辛普森悖论，我们将针对一个具体的例子进行讨论。

假设某家医院正在研究针对某种疾病的两种不同疗法的疗效。

研究人员将患者分为两个子集：男性（子集A）和女性（子集B），然后比较两种疗法在不同子集中的成功率。

在子集A中，疗法A有80%的成功率，而疗法B只有40%的成功率；在子集B中，疗法A的成功率为60%，而疗法B的成功率为70%。

这个结果可能导致人们错误地认为疗法A比疗法B更有效。

然而，当我们将整体数据考虑进来时，情况就完全不同了。

整体上，疗法A的成功率为65%，而疗法B的成功率为67.5%。

这个结果与我们之前的结论相反，疗法B在整体上比疗法A更有效。

辛普森悖论的发生是由于子集A和子集B在整体数据中所占比例的差异导致的。

在这个例子中，虽然在子集A和子集B中，疗法A的成功率都不如疗法B，但是子集A在整体数据中所占比例远大于子集B。

所以，整体上疗法A的平均成功率反而比疗法B低。

为了更好地理解辛普森悖论，我们可以通过一个可视化的例子来说明。

假设我们有一个学校的招生数据，该学校有两个专业：科学（子集A）和文科（子集B）。

我们将招生成功率与考试成绩进行比较。

具体数据如下：子集A：科学专业-学生甲：考试成绩80分，成功录取-学生乙：考试成绩70分，未录取子集B：文科专业-学生丙：考试成绩80分，未录取-学生丁：考试成绩70分，成功录取看上去，科学专业的成功录取率为50%，而文科专业的成功录取率为50%。

这暗示我们两个专业的录取机会是相同的。

然而，当我们将整体数据考虑进来时，结果却完全不同。

统计力学里好几个著名的悖论

统计力学里好几个著名的悖论
统计力学中存在多个著名的悖论，这些悖论挑战了我们对物理世界的基本理解。

以下是其中几个著名的悖论：
1. 辛普森悖论（Simpson's Paradox）：这个悖论是指当两个独立实验的结果在总体上呈现出相反的趋势时，但在分组合计时却显示出一个完全不同的结果。

这种现象似乎违反了概率论中的独立性原则，因为在分组合计时，两个独立实验的相互影响导致了结果的反转。

2. 赌徒谬误（Gambler's Fallacy）：这个谬误是指一种错误地认为某事因为连续没有发生，所以下一次的结果更有可能是相反的信念。

例如，一个赌徒可能会认为，因为连续几次掷骰子都是六点，所以下一次掷骰子更可能是三点。

然而，这种观点忽略了概率的独立性原则，每次掷骰子都是独立的，不会受到前一次的结果影响。

3. 观察者效应（Observer Effect）：这个效应是指在观察过程中观察者的行为和状态会对被观察对象产生影响，从而改变被观察对象的状态或结果。

这个效应挑战了我们对客观世界的认知，因为我们无法排除观察者对被观察对象的影响。

4. 测量问题（Measurement Problem）：这个问题是关于量子力学的测量问题，它涉及到观察者对被观察对象的测量结果的影响。

根据量子力学的哥本哈根解释，当我们对一个量子系统进行测量时，我们只能得到一个确定的结果，而这个结果并不是量子系统本身的状态，而是观察者与量子系统之间的相互作用的结果。

这个解释似乎将观察者的意识引入了物理世界中，引发了许多哲学和科学上的争议。

这些悖论是统计力学中的重要问题，它们挑战了我们对物理世界的理解，并引发了许多深入的研究和讨论。

数据科学家应了解的五个悖论

数据科学家应了解的五个悖论统计悖论在机器学习模型中无处不在。

这是一些最臭名昭著的例子。

要通过人工智能（AI）重建人类认知，就必须应对许多数据无法轻易解释的现象。

长期以来，人们一直将悖论视为违反逻辑和数据规则的异常情况。

通过悖论进行推理对机器学习模型提出了难以置信的挑战，因此，数据科学家在训练新模型时应该意识到这些情况。

悖论是人类认知的奇迹之一，难以使用数学和统计学。

从概念上讲，悖论是根据问题的原始前提得出明显的自相矛盾结论的陈述。

即使是最著名的和有据可查的悖论，也经常使领域的专家蒙蔽，因为它们从根本上与常识相矛盾。

人工智能（AI）希望重现人类的认知，因此机器学习模型在训练数据中遇到自相矛盾的模式并乍一看似乎得出矛盾的结论是非常普遍的。

今天，我想探讨一些机器学习模型中常见的著名悖论。

悖论通常是在数学和哲学的交叉点上提出的。

一个臭名昭著的哲学悖论被称为These修斯之船，它质疑一个已经将其所有组成部分都替换掉的物体是否根本上仍然是同一物体。

首先，假设英雄These修斯（Thusus）在一场激烈的战斗中航行的那艘著名船已被保留在港口中作为博物馆作品。

随着时间的流逝，一些木制零件开始腐烂，并被新的木制零件取代。

一个世纪左右后，所有零件都被更换了。

'恢复'的船是否仍与原始船相同？或者，假设每个拆下的零件都存储在仓库中，并且在本世纪之后，技术不断发展，可以治愈它们的腐烂，并使它们重新组合在一起制成一艘船。

这艘'改建'的船是原船吗？如果是这样，港口中恢复的船舶还是原始船舶吗？数学和统计领域，如果充满着著名的悖论。

举几个著名的例子，传说中的数学家和哲学家贝特朗·罗素提出了一个悖论，突显了集合论中一些最强大的思想中的矛盾，而这是有史以来最伟大的数学家之一：格雷格·坎托。

本质上，罗素悖论质疑'一个不包含自身的所有列表的列表'。

悖论是在自然集合论中通过考虑并非其自身成员的所有集合的集合而产生的。

《统计学悖论》PPT课件

统计学悖论揭示了在使用统计数据进行描述时可能产生的误导。例如，吉斯莫工厂案例中，虽然平均工资为每周300元，但由于高薪阶层的存在，大多数工人的实际收入远低于此。这凸显了平均数、中位数和众数之间的关键差异。平均数将所有数值加起来后除以个数，易受极端值影响。中位数则代表数值排序后的中间值，更能反映大多数情况。众数是出现次数最多的数，揭示最常见的情况。类似地，在房价、物价涨幅、工资涨幅等议题中，单一统计量的使用也可能导致误解。如郑州市的商品住宅均价并不能真实反映各区域的房价差，以更全面、准确地理解实际情况。同时，也需认识到统计分析方法的局限性，避免被单一数据所误导。

产品经理产品分析之统计学悖论

产品分析之统计学悖论在做产品分析时，统计结果截然相反，是何种原因引起的呢？这种情况该如何应对呢？近期面试聊到了产品分析时统计结果截然相反时，分析人员变成了热锅上的蚂蚁，手足无措。

这到底是什么引起的呢？早在1951年性别歧视的案子中就发现了这种相悖的统计结果。

最典型的例子:?1973年加利福尼亚大学伯克利分校性别歧视案的例子：大家从表格里可以看到，如果只看整体录取率，那么男生的录取率是44%，女生的是30%。

但加利福尼亚大学伯克利分校的统计学教授 Peter Bickel 后来发现，如果按照院系分类，女生实际上比男生的录取率还高一些。

一、细节和整体趋势完全不同辛普森悖论（Simpsons paradox）：当你把数据拆开细看的时候，细节和整体趋势完全不同的现象。

我们简化上述表格，发现悖论是由于基数产生的影响——男生在学院1和学院2的分布和女生的分布截然相反引起的。

在日常分析工作也经常存在这样的现象，经常在两端分析时，大都以为两端作为拆分对比，如iOS、Android投放广告的转化率分析中，通过两端的转化率可以得到结论1，但将iOS、Android按照网页版本、移动版本拆分后会得到完全相反的结论：结论1: iOS的总体转化率低于Android。

基于此可以得到的结论是该批次广告不适合iOS平台；iOS平台需要做在转化过程中需要做进一步的漏斗分析以便优化。

结论2: 网页版本iOS的转换率高于Android，且移动端iOS的转化率也高于Android。

基于此可以得到的结论是该批次广告不适合Android平台；Android平台需要做在转化过程中需要做进一步的漏斗分析以便优化。

如果没有辩证的结合多个维度分析该数据表现，则会被误导，在错误的方向上投入更多的精力，甚至是完全相反的决策。

二、相关分析中，整体相关性和组间相关性相反。

假设我们有每周运动小时属于两组患者（50岁以下、50岁以上的患者）患病风险的对比数据。

常见的统计学谬误之一——伯克森悖论

——在此前提下，在对住院病人进行研究时，
相当于控制了“住院”这个因子.正如我们所知的，
撞因子为条件这一操作制造了“疾病1”和“疾病
间的伪相关.因为辩解效应的存在，这种伪相关多呈负
相关，但在这个例子中，这种伪相关是正向的，
者住院的前提就是同时患有两种疾病（而不是只患有
一种疾病）.
然而，长期以来，流行病学家拒绝相信这一悖论
的存在.直到1979年，麦克马斯特大学的一位研究统
文化时空
张奠宙王善平
这个错误对我们来说特别有启发性，因为它精确
地说明了我们大脑思考机制的缺陷.我们在实际生活
中似乎就是遵循着共因原则行事的，无论何时，
观察到某种模式，我们就会去寻找一个因果解释。

统计学第6章统计推断(3节)

第六章
统计推断
第一节统计推断及其特点
第二节总体参数估计第三节假设检验
第三节
假设检验
一、基本概念、原理及步骤
二、总体平均数的检验三、总体比例的检验
四、总体方差的检验
一、基本概念、原理与步骤
1.基本概念 2.原理 3.步骤
3
引例：某企业生产一种零件,过去的大量资料表明,零件的平均长度为4CM,标准差为 0.1CM.改革工艺后,抽查了100个零件,测得样本平均长度为3.95CM。
有证据表明这批灯泡的使用寿命有显著提高
0
1.645
Z
32
2 未知小样本均值的检验
(例题分析)
【例】某机器制造出的肥皂厚度为5cm，今欲了解机器性能是否良好，随机抽取10块肥皂为样本，测得平均厚度为5.3cm，标准差为 0.3cm ，试以 0.05 的显著性水平检验机器性能良好的假设。
2 已知均值的检验
(小样本例题分析)
H0: 1020 检验统计量: x 0 1080 1020 H1: > 1020 z 2.4 n 100 16 = 0.05 n = 16 决策: 临界值(s): 在 = 0.05的水平上拒绝H
拒绝域 0.05
0
结论:
结论:
t
不能认为制造商的产品同他所说的标准不相符
37
-1.7291 0
H0 检验实际情况 H0为真 1- H0为假
有罪
错误
正确
拒绝H0
第二类错误() 第一类功效(1) 错误()
11
假设检验中的两类错误
3. 错误和错误的关系和的关系就像翘翘板，小就大，大就小

7种常见的统计学悖论

7种常见的统计学悖论
1. 辛普森悖论（Simpson's paradox）：当将数据分组或进行比较时，两个或多个独立数据集的关系可能与整体数据集的关系相反。

这可能导致误导性的结论。

2. 聚集悖论（The aggregation paradox）：当将数据以不同的方式进行聚合时，可能会得出不同的结论。

这可能导致对整体趋势的错误理解。

3. 伯克森悖论（Berkeley's paradox）：当使用频率统计推断个体特征时，可能会得出与实际情况相悖的结论。

这是由于忽略了基本样本大小的影响。

4. 数据欺骗悖论（Data dredging paradox）：当进行多次假设检验时，可能会出现偶然的显著结果，而不是真正的关联。

这可能导致错误的结论。

5. 吉布斯悖论（Gibbs paradox）：在概率论中，当将无序事件转化为有序事件时，可能会导致悖论。

这涉及到对事件的定义和顺序的解释。

6. 奥姆斯特恩悖论（Omphaloskeptic paradox）：当进行统计推断时，可能会陷入无尽的怀疑和自我怀疑的循环中，导致无法得出可靠的结论。

7. 美索不达米亚悖论（Mesopotamian paradox）：当进行历史数据分析时，可能会面临缺乏准确和完整数据的挑战，导致无法得出确凿的结论。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1767年，约翰· 海因里希· 兰伯特（Lambert1728—1777）证明了π是无理数，1882 年，林德曼（Lindemann）证明了π是超越数。所谓超越数，是指不是有理数系数多项式的根的实数，否则称为代数数。瑞士数学家李昂纳德· 欧拉（1707—1783）在 1748年首先推导出等式：
（3）一项研究表明在某个城市心力衰竭而死亡的人数和啤酒的消耗量都急剧升高。这是否表示喝啤酒会引起心脏病发作？不！两种情况的增加是人口迅速增加的结果。若按同样的理由，心脏病发作还可以归咎于上百个其他因素，如咖啡消耗量增加，嚼口香糖的人增多，玩桥牌更加盛行，更多的人看电视，等等。（4）一项研究显示出，欧洲某个城市的人口大量增加，同时鹳鸟窝也大量增加。这是否就支持了鹳鸟送来婴儿这一信念？（欧洲有一种说法，称婴儿是鹳鸟送来的，常用鹳鸟来临表示婴儿降生）。不！它反映的事实是这个城市内的房屋增多，鹳鸟就有更多地盘来筑窝了。
（1）常常听说，汽车事故多数发生在离家不远的地方，这是否就意味着在离家很远的公路上行车要比在城里安全些呢？不是，统计只不过反映了人们往往是在离家不远的地方开车，而很少在远处的公路上开车。（2）有一项研究表明某一个国家的人民，喝牛奶和死于癌症的比例都很高。这是否说明是牛奶引起癌症呢？不！这个国家老年人的比例也很高。由于癌症通常是年龄大的人易患的病，正是这个因素提高了这个国家癌症死亡者的比例。
实际上，像这样一串7个3的数字在π中出现机会是很多的。但由于从某一位开始，出现一串7 个3的概率是10-7，因此当π中从第710161位以后出现7个3时，乍一看是很觉惊奇的。可是，如果我们的注意力放在由7个数字组成的不寻常排列的话，就会发现这种特定排列的概率变得相当高。比如说，我们可以见到像4444444或8888888，或1212121，或1234567，或7654321，或其他引人吃惊的这类数字排列。由于我们预先并不知道下一次会出现什么样的7个数字组，所以猜一猜下一组数是什么是很有趣的。就像亚里斯多德曾经说过的，最不可能的事也是极可能的事。
让我们用一副牌来模拟这种情况。先抽掉四张 K，就是四种花色，每种12张。用一种花色代表一个人，每个点数代表一个宫。如果从每一种花色中任抽一张牌，四张牌里至少两张点数一样的概率是多少？很明显，这就和四个陌生人中至少两人有同样的黄道宫的概率一样。解决这个问题最简单的方法是先算出没有两张牌的点数相同的概率，再把它从1中减去，就得到我们所要的概率。结果是41/96，大约是4/10，它也就是四个人中至少有两个是属于同一宫的概率。这差不多是
e i 1 0
全世界的数学史学家都认为这个等式是全部数学中最深奥也是最美的数学公式之一，它把加号、等号、最基本的0和1、两个超越数π和e、虚数单位i结合到一个等式之中，所有这些东西都聚在如此简单又令人神迷的表达式中。
6．圆周率π中的数字结构
如果我们认真观察π的数字排列，就会感觉到这些数字是无规则的，好像每一个数字都是随机出现的。目前，大多数数学家相信π的数字排列是无规律的，或者从某种意义上来讲，π是一个永远不能认识清楚的数学妖怪。可是当注意看看从第710154个数以下的数字是怎样排列的，就会看到一连串排有7 个3。
第六章统计学悖论
统计学是关于数量信息的收集、整理和分析的学科，它在今天高度复杂的世界里变得越来越重要了，“用数字说话”已经成为政府以及私人企业提供各种信息的信条和手段。
现代统计学有一大堆的概念和方法，诸如统计量、样本、平均值、中值、众数、置信度等等，这些概念有助于我们使用统计方法认识事物的本质。
要一个新工人。
工作人员23人。
现在吉斯莫先生正在
接见萨姆，谈工作问题。
吉斯莫：我们这里报
酬不错。平均薪金是每周
300元。你在学徒期间每
周得到75元，不过很快就可以增加工资。这里报酬不错，平均每人每周300元！
工作了几天之后，要求见厂长。萨姆：你欺骗了我！我已经找其他工人核对过了，没有一个人的工资超过每周100元。平均工资怎么可能是一周300元呢？
◆ 报纸上报道有个人在一条河中淹死了，这条
河的平均深度仅只2尺。这不使人吃惊吗？不！你
要知道，这个人是在一个10多尺深的陷坑处沉下去
的。
◆ 一个公司可能报告说它的策略是由股东们民主
制订的，因为它的50个股东共有600张选票，平均而另外5人每人有84张选票，平均数确实是每人12
每人12票。可是，如果其中45个股东每人只有4票，票，可是只有那5个人才完全控制了这个公司。
吉斯莫：我不同意你的说法！你实在是不明白道理。我已经把工资列了个表，并告诉了你，工资的中位数是200元，可这不是平均工资，而是中等工资。萨姆：每周100元又是怎么回事呢？吉斯莫：那被称为众数，是大多数人挣的工资。
中等工资！
大多数人的工资。
吉斯莫：老弟，你的问题是出在你不懂平均数、中位数和众数之间的区别。萨姆：好，现在我可懂了。我……我辞职！
教学目的： 1.了解统计学的一些概念和方法。 2.对统计学中的一些悖论进行分析和思考。 3.初步认识统计分析方法的一些局限性。
1．骗人的“平均数”
吉斯莫先生有一个小
工厂，生产超级小玩意儿。
管理人员由吉斯莫先生、他的弟弟、六个亲戚组成。工作人员由5个领工和10个工人组成。
工厂经营得很顺利，需
上述例子也许能启发大家找出其他一
些统计论述的实例，证明统计学论述在联系
到因果关系时很容易造成误解。现代的广告，
尤其是很多电视的商业广告正是以这种统计
误解为其根基的。
4．小世界的悖论
近来很多人相信巧合是由星星或别的神秘力量引起的。譬如说，有两个互不相识的的人坐同一架飞机。二人对话：
甲：这么说，你是从波士顿来的啰！我的老朋友露茜· 琼斯是那儿的律师。
统计数字还表明，在亚利桑那州死于肺结核的人比其他州的人多。这是否就意味着亚利桑那州的气候容易生肺病？正好相反。亚利桑那的气候对害肺病的人有好处，所以肺病患者纷纷前来，自然这就使这个州死于肺结核的平均数升高了。
有一个调查研究说脚大的孩子拼音比脚小的孩子好。这是否是说一个人脚的大小是他拼音能力的度量？不是的。这个研究对象是一群年龄不等的孩子。它的结果实际上是因为年龄较大的孩子脚大些，他们当然比年幼的男子拼得好些。
吉斯莫：啊，萨姆，不要激动。平均工资是300元。我要向你证明这一点。这是我每周付出的酬金。
没有人超过100元！
没骗你，看看工资表！
吉斯莫：我得2400元，我弟弟1000元，我的六个亲戚每人250元，五个领工每人200元，10个工人每人 100元。总共是每周6900元，付给23个人，对吧？萨姆：对，对，对！你是对的，平均工资是每周300元。可你还是蒙骗了我。
《大河报》B05版）。
（2）物价涨幅问题。我们经常看到一些关于物价上涨的数据，这些数据给我们大多数人的感觉
是不真实。这并不是发布数字的机构有意欺骗，而
是和我们关心的对象有关。（3）工资涨幅问题。（4）大学毕业生就业率。（ห้องสมุดไป่ตู้）城市人均收入问题。（6）国民生产总值增长率。
2.母亲英雄
这一年年底，萨姆的妻子接受了这个城的市长的奖赏。她被命名为这一年的母亲英雄。地方报纸刊登了萨姆，他的妻子和他们的13个孩子的照片。
统计学是一门归纳的学科，通过大量数据的收集、整理和分析，找出事物之间的关系和联系，将事情的真面目呈现出来。作为一门学科，统计学的概念和方法有其极为复杂的一面。对于它的一般理论，我们知道的并不多，除非我们曾经认真地研究过这门学科。由于它的应用非常广泛，因此就有人想千方百计的利用它以达到自己的目的，尽管提供给人们的数据都是真实可靠的。
我懂了，我辞职！
“平均”这个词往往是“算术平均值”的简称。算术平均值是将所有数字加起来除以所统计的数字个数。这是一个很有用的统计学的度量指标。然而，如果有少数几个很大的数，如吉斯莫的工厂中少数高薪者，“平均”工资就会给人错误的印象。中值（中位数）是按大小顺序排列的数值表中中心位置对应的数值。如果表中数值有奇数项，则中值就简单地恰好是中间的项的值。如果有偶数项，中值往往取中间两项的算术平均值。 “众数”——表中经常出现的数，即在统计的数字中出现次数最多的数。
的感受是以这个价格买不到房子。而同样是郑州市
房管局公布的另外一组数字却值得关注，即2007年
9月的商品住宅预售均价金水区为4825元/平方米，郑东新区为4959元/平方米，惠济区为2958元/平方
米，管城区为4380元/平方米（2007年10月17日
中原区为3919元/平方米，二七区为5010元/平方米，
美国心理学家斯坦利· 米尔格拉姆用一种方法逼近小世界的问题，我们很容易试一试它。他任意地选择了一组“发信人”，给每一个人一份文件，让他发给一个“收信者”，这个收信者是他不认识的，而且住在美国另外一个很远的地方。做法是通过他把信寄给他的一个朋友，这个朋友再接着发信给自己朋友，如此下去，直到将文件寄到认识收信者的某人为止。米尔格拉姆发现，在文件达到收信者手中之前，中间联系人的数目从2到10不等，其中位数是5。当你问别人这到底需要多少中间联系人时，他们多数猜想大约要100人。
乙：这个世界是多么小啊！她是我妻子最好的朋友！
这是不大可能的巧合吗？统计学家已经证明并非如此。
很多人在碰到一位陌生人，尤其是在远离家乡的地方碰到一个生人，而发现他与自己有一个共同的朋友时，他们都会感到非常惊讶。在麻省理工学院，由伊西尔领导的一组社会科学家对这个“小世界悖论”作了研究。他们发现，如果在美国随便任选两个人，平均每个人认识大约1000个人。这时，这两个人彼此认识的概率大约是1/100000，而他们有一个共同的朋友的概率却急剧升高到1/100。而他们可由一连串熟人居间联系（如上面例举的二人）的概率实际上高于百分之九十九。换言之，如果布朗和史密斯是在美国任意选出的两个人，上面的结论就表示：一个认识布朗的人，几乎肯定认识一个史密斯熟识的人。