浅谈AB测试里常见的辛普森悖论
什么是辛普森悖论?辛普森悖论的重要性

什么是辛普森悖论?辛普森悖论的重要性对于数据科学家而言,了解统计现象和问“为什么”是非常重要的。
想象这样一个场景:一天,你和朋友约好了一起吃晚饭,你们俩都想找一家完美的餐厅。
由于选项太多,两人今天的口味也不一定一样,为了避免长达数小时的争论,你们保守地采用了现代人常用的一种方法:查看美食评论。
在用同一个APP看了所有餐厅后,最终你们锁定了其中的两家:Carlos餐厅和Sophia餐厅。
你更喜欢Carlos,因为从两性数据上看来,无论是男性用餐者还是女性用餐者,他们给出的好评率都更高(例:男性好评率=男性好评数/男性评论总数);而你的朋友更倾向于Sophia,因为他发现从整体上来看,Sophia的好评率更高,口味应该更大众。
那么这到底是怎么回事?是APP统计错误了吗?事实上,这两个统计结论都是正确的,只是你们在不知不觉中已经走进了辛普森悖论。
在这里,我们能用完全相同的一组数据证明两个全然相反的论点。
什么是辛普森悖论?辛普森悖论得名于英国统计学家E.H.辛普森(E.H.Simpson),这是他于1951年阐述的一种现象:当我们以分组和聚合两种方式统计同一数据集时,最后得出的两个趋势可能是完全逆转的。
在上面这个“吃饭”案例中,Carlos餐厅的两性推荐率更高,但它的总体推荐率却低了。
如果不想被绕晕,我们可以用一些直观的数据来说明:上表清楚地表明,当数据分组时,Carlos是首选,但是当数据合并时,Sophia是首选!导致这一悖论的原因是样本大小。
当我们分组统计数据时,Carlos餐厅的女性推荐率高达90%,但它的样本只有40个,只占总评论人数的10%;而Sophia餐厅的女性推荐率虽然只有80%,但女性评论者有250个,这显然会大幅拉高餐厅的总体好评率。
所以在挑选餐厅时,我们事先要确定数据的统计方法,是合并更合理,还是分组更合理——这取决于数据生成的过程,即数据的因果模型。
相关性的逆转。
辛普森悖论简单解释

辛普森悖论简单解释在我们探讨数据和统计分析的领域中,有一个颇为有趣且令人深思的现象,那就是辛普森悖论。
首先,咱们来想象一个场景。
假设在一家医院,有两个医生 A 和 B。
咱们来比较他们治疗某种疾病的成功率。
从整体的数据来看,医生 A治疗的成功率好像低于医生 B。
但要是我们把病人按照病情的轻重程度分开来看,就会发现对于病情较轻的病人,医生 A 的治愈率高于医生 B;对于病情较重的病人,医生 A 的治愈率还是高于医生 B。
这是不是很奇怪?这就是辛普森悖论的一个简单例子。
那到底什么是辛普森悖论呢?简单来说,就是在分组比较中都占优势的一方,在总体比较中却可能处于劣势。
为什么会出现这样看似矛盾的情况呢?这通常是因为不同分组中的样本数量或者比例存在差异。
比如说,还是上面医院的例子,如果医生 B 治疗的大多是病情较轻的病人,而医生 A 治疗的更多是病情较重的病人,那么即使 A 在每个病情分组中的治愈率都更高,但由于 B 所治疗的病人整体病情较轻,容易治愈,所以从总体数据上看,就可能出现 B 的成功率高于 A 的情况。
辛普森悖论在很多领域都有出现。
比如在教育领域,我们比较两个学校学生的考试成绩。
可能学校甲在每个学科上的平均分都高于学校乙,但由于学校乙的学生中,成绩好的学生比例较大,而成绩差的学生比例较小,最终总体平均分却高于学校甲。
在市场营销中也有类似的情况。
假设我们比较两种营销策略对销售的促进效果。
在不同的地区或者不同的客户群体中,策略 A 可能表现更优,但由于策略 B 所覆盖的市场规模更大,或者所针对的是消费能力更强的群体,综合来看,策略 B 带来的总销售额反而更高。
那么,如何避免辛普森悖论带来的误导呢?首先,我们要对数据进行更细致的分析和分组。
不能仅仅看总体的数据,而是要深入挖掘不同维度和层次的数据。
比如在前面医院的例子中,除了病情轻重,还可以考虑病人的年龄、性别、基础健康状况等因素。
其次,我们要综合考虑多个相关的指标和因素。
辛普森悖论的日常例子

辛普森悖论的日常例子
辛普森悖论是一种逻辑悖论,指的是当对一个整体进行分类时,与整体有关的特征可能与对其组成部分进行分类时的特征相反。
这个悖论常常在统计学和数据分析领域中出现,但也可以在日常生活中找到一些例子来说明。
一个经典的辛普森悖论的例子是关于医院手术成功率的比较。
假设有两家医院,医院A和医院B,它们都进行了大量的手术。
医院A的整体手术成功率为80%,而医院B的整体手术成功率为70%。
看起来,医院A的手术比医院B的手术成功率更高。
然而,当我们细分考虑不同类型的手术时,情况可能会有所不同。
假设医院A主要进行低风险手术,而医院B主要进行高风险手术。
在低风险手术中,医院A的成功率为90%,远高于医院B的成功率70%。
而在高风险手术中,医院A的成功率为60%,低于医院B的成功率80%。
这个例子展示了辛普森悖论的典型情况。
当仅考虑整体数据时,医院A的整体手术成功率更高。
但当将数据细分为不同类型的手术时,我们发现在每个子类别中,医院B的手术成功率都高于医院A。
辛普森悖论的这个例子告诉我们,在进行数据分析时,不能只看整体数据,还要考虑到数据的细分。
对于复杂的问题,细分数据可能会给
我们提供更准确的结论。
在日常生活中,我们也可以应用这个原则。
比如,当对一所学校的教学质量进行评估时,仅仅看整体的考试成绩可能并不全面,我们还应该考虑不同班级或不同年级的成绩情况。
综上所述,辛普森悖论的日常例子可以帮助我们意识到在进行数据分析和评估时,细分数据是非常重要的,只看整体数据可能会掩盖真实的情况。
统计学辛普森悖论的内容

统计学辛普森悖论的内容统计学辛普森悖论(Simpson's Paradox),又称辛普森效应,是指在统计数据分析中,一个总体的不同子集中出现的关系与整体数据的关系恰好相反。
简单来说,当我们将数据分组并进行分析时,得出的结论可能会与整体数据相矛盾。
辛普森悖论最早由英国统计学家E.H.辛普森于1951年提出,他在研究统计学考试成绩的数据时发现了这个现象。
为了更好地说明辛普森悖论,我们将针对一个具体的例子进行讨论。
假设某家医院正在研究针对某种疾病的两种不同疗法的疗效。
研究人员将患者分为两个子集:男性(子集A)和女性(子集B),然后比较两种疗法在不同子集中的成功率。
在子集A中,疗法A有80%的成功率,而疗法B只有40%的成功率;在子集B中,疗法A的成功率为60%,而疗法B的成功率为70%。
这个结果可能导致人们错误地认为疗法A比疗法B更有效。
然而,当我们将整体数据考虑进来时,情况就完全不同了。
整体上,疗法A的成功率为65%,而疗法B的成功率为67.5%。
这个结果与我们之前的结论相反,疗法B在整体上比疗法A更有效。
辛普森悖论的发生是由于子集A和子集B在整体数据中所占比例的差异导致的。
在这个例子中,虽然在子集A和子集B中,疗法A的成功率都不如疗法B,但是子集A在整体数据中所占比例远大于子集B。
所以,整体上疗法A的平均成功率反而比疗法B低。
为了更好地理解辛普森悖论,我们可以通过一个可视化的例子来说明。
假设我们有一个学校的招生数据,该学校有两个专业:科学(子集A)和文科(子集B)。
我们将招生成功率与考试成绩进行比较。
具体数据如下:子集A:科学专业-学生甲:考试成绩80分,成功录取-学生乙:考试成绩70分,未录取子集B:文科专业-学生丙:考试成绩80分,未录取-学生丁:考试成绩70分,成功录取看上去,科学专业的成功录取率为50%,而文科专业的成功录取率为50%。
这暗示我们两个专业的录取机会是相同的。
然而,当我们将整体数据考虑进来时,结果却完全不同。
统计力学里好几个著名的悖论

统计力学里好几个著名的悖论
统计力学中存在多个著名的悖论,这些悖论挑战了我们对物理世界的基本理解。
以下是其中几个著名的悖论:
1. 辛普森悖论(Simpson's Paradox):这个悖论是指当两个独立实验的结果在总体上呈现出相反的趋势时,但在分组合计时却显示出一个完全不同的结果。
这种现象似乎违反了概率论中的独立性原则,因为在分组合计时,两个独立实验的相互影响导致了结果的反转。
2. 赌徒谬误(Gambler's Fallacy):这个谬误是指一种错误地认为某事因为连续没有发生,所以下一次的结果更有可能是相反的信念。
例如,一个赌徒可能会认为,因为连续几次掷骰子都是六点,所以下一次掷骰子更可能是三点。
然而,这种观点忽略了概率的独立性原则,每次掷骰子都是独立的,不会受到前一次的结果影响。
3. 观察者效应(Observer Effect):这个效应是指在观察过程中观察者的行为和状态会对被观察对象产生影响,从而改变被观察对象的状态或结果。
这个效应挑战了我们对客观世界的认知,因为我们无法排除观察者对被观察对象的影响。
4. 测量问题(Measurement Problem):这个问题是关于量子力学的测量问题,它涉及到观察者对被观察对象的测量结果的影响。
根据量子力学的哥本哈根解释,当我们对一个量子系统进行测量时,我们只能得到一个确定的结果,而这个结果并不是量子系统本身的状态,而是观察者与量子系统之间的相互作用的结果。
这个解释似乎将观察者的意识引入了物理世界中,引发了许多哲学和科学上的争议。
这些悖论是统计力学中的重要问题,它们挑战了我们对物理世界的理解,并引发了许多深入的研究和讨论。
辛普森悖论简单解释

辛普森悖论简单解释
嘿,你知道辛普森悖论不?这玩意儿可有意思啦!就好比说有两个
球队,A 队和B 队。
在和一些弱队比赛时,A 队老是大胜,表现超棒;而 B 队呢,可能赢得磕磕绊绊。
可要是碰到强队,情况就反过来了,B 队反而能表现得更好,能和强队打得有来有回,A 队却总是输得很惨。
你说怪不怪?
这就是辛普森悖论啦!它说的就是在某个条件下,分别来看两组数
据都显示出一种趋势,但合起来看的时候却完全相反了。
举个例子吧,比如说有一款药,对男人好像效果不错,对女人好像效果也还行,可
要是把男人和女人的数据放在一起看,嘿,居然发现这药整体效果不
咋地!是不是很神奇?
再想想看,就像你选工作。
有一份工作,工资高但工作时间长;另
一份工作呢,工资没那么高但工作时间短。
单独看好像各有各的好,
可真要你综合起来选,就难了吧,这也有点像辛普森悖论呀!
还有啊,在学校里,有的同学数学成绩特别好,语文成绩也不赖,
可综合成绩一排名,却不一定是最前面的,这是不是也有点那个意思?
辛普森悖论其实在很多地方都能看到呢,它就像个调皮的小精灵,
时不时就蹦出来给你制造点困惑。
它提醒我们不能只看局部,得全面
地去分析问题呀!总之,辛普森悖论就是这么个让人又爱又恨的东西,你得好好琢磨琢磨才能搞明白它呢!。
数据分析的几种常见误区

数据分析的几种常见误区“用数据说话”,已经成为一种流行语。
在很多人的心里,数据就代表着科学,科学就意味着真相。
“数据不会骗人”,也成了说服别人时常用的口头禅,事实果真如此吗?让我们来谈谈那些常见的误区。
一、控制变量谬误在做A/B测试时没有控制好变量,导致测试结果不能反映实验结果。
或者在进行数据对比时,两个指标没有可比性。
举个例子,为测试不同营销时间点对下的转化的影响,但A实验使用短信营销、B实验使用电话营销,未控制变量(营销方式),导致实验无法得出结论。
二、样本谬误1.样本量不够统计学的基础理论基石之一就是大数定律,只有当数据量达到一定程度后,才能反映出特定的规律。
如果出现样本量极少的情况,建议把时间线拉长,获得足量的样本。
或者将不重要的限定条件去掉,增加样本数。
2.存在选择性偏见或者幸存者偏见统计学的另一大理论基石是中心极限定理。
简单描述就是,总体样本中,任意一个群体样本的平均值,都会围绕在这个群体的整体平均值周围。
举个例子,在应用升级期间,衡量登录用户数、交易用户数等指标,来判断用户对新版本的喜欢是否优于老版本。
听上去非常合理,但这里实际就隐藏了选择性偏见,因为新版本发布时,第一批升级上来的用户往往就是最活跃的用户,往往这批用户的指标较好,但不代表新版本更好。
3.混入脏数据这种数据的破坏性比较大,可能得出错误的结论。
通常我们会采用数据校验的手段,屏蔽掉校验失败的数据。
同时,在分析具体业务时,也要针对特定业务,对所使用的数据进行合理性限定,过滤掉异常离群值,来确保拥有比较好的数据质量。
三、因果相关谬误会误把相关当因果,忽略中介变量。
比如,有人发现雪糕的销量和河溪溺死的儿童数量呈明显相关,就下令削减雪糕销量。
其实可能只是因为这两者都是发生在天气炎热的夏天。
天气炎热,购买雪糕的人就越多,而去河里游泳的人也显著增多。
四、辛普森悖论简单来说,就是在两个相差较多的分组数据相加时,在分组比较中都占优势的一方,会在总评中反而是失势的一方。
辛普森悖论与金融有关的例子

辛普森悖论与金融有关的例子一、什么是辛普森悖论辛普森悖论可神奇啦。
简单说呢,就是在分组比较中都占优势的一方,在总体评价中却可能是劣势的情况。
比如说在金融里吧,就有这样的怪事。
二、辛普森悖论与金融的例子1. 投资回报率假设有两个投资经理,经理A和经理B。
他们分别在大公司股票和小公司股票这两个领域进行投资。
在大公司股票投资方面呢,经理A的投资回报率在过去5年里,每年都比经理B要高一点,比如经理A每年是10%,经理B每年是8%。
在小公司股票投资方面呢,经理A的投资回报率也是每年都比经理B高一点,像经理A每年是15%,经理B每年是13%。
但要是把大公司股票和小公司股票的投资总体加起来算,可能就会发现经理B的总体投资回报率反而比经理A高了。
这就是辛普森悖论在投资回报率上的体现,是不是很有趣呢?2. 贷款违约率有两家银行,银行X和银行Y。
银行X在城市地区和农村地区都发放贷款。
在城市地区,银行X的贷款违约率低于银行Y,比如说银行X是5%,银行Y是8%。
在农村地区呢,银行X的贷款违约率同样低于银行Y,比如银行X是3%,银行Y是6%。
但是把城市和农村地区的贷款综合起来看,可能会发现银行Y的总体贷款违约率反而低于银行X了。
这就是辛普森悖论在贷款违约率方面的例子啦。
3. 基金收益假设有两个基金,基金M和基金N。
它们投资于不同类型的金融产品,比如股票基金和债券基金。
在股票基金投资中,基金M在过去几个季度的收益都比基金N高,像每个季度基金M是12%,基金N是10%。
在债券基金投资中,基金M的收益也比基金N高,例如基金M每个季度是8%,基金N是6%。
但要是把股票基金和债券基金的投资收益综合起来看,可能基金N的总体收益反而比基金M高了呢。
这也是辛普森悖论在基金收益方面的体现哦。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
总计来说男生录取率只有21%,只有女生录取率42%的一半。
为什么两个学院都是男生录取率高于女生录取率,但是加起来男生录取率却不如女生录取率呢?主要是因为这两个学院男女比例很不一样,具体的统计学原理我们后面会详细分析。
这个诡异(Counter intuitive)的现象在现实生活中经常被忽略,毕竟只是一个统计学现象,一般情况下都不会影响我们的行动。
但是对于使用科学的 AB 测试进行试验的企业决策者来说,如果不了解辛普森悖论,就可能会错误的设计试验,盲目的解读试验结论,对决策产生不利影响。
我们用一个真实的医学 AB 测试案例来说明这个问题。
这是一个肾结石手术疗法的 AB 测试结果:
看上去无论是对于大型结石还是小型结石,A 疗法都比 B 疗法的疗效好。
但是总计而言,似乎 B 疗法比 A 疗法要好。
这个 AB 测试的结论是有巨大问题的,无论是从细分结果看,还是从总计结果看,都无法真正判断哪个疗法好。
那么,问题出在哪里呢?这个 AB 测试的两个实验组的病历选取有问题,都不具有足够的代表性。
参与试验的医生人为的制造了两个试验组本身不相似,因为医生似乎觉得病情较重的患者更适合 A 疗法,病情较轻的患者更适合 B 疗法,所以下意识的在随机分配患者的时候,让 A 组里面大结石病历要多,而 B 组里面小结石病历要多。
更重要的问题是,很有可能影响患者康复率的最重要因素并不是疗法的选择,而是病情的轻重!换句话说,A 疗法之所以看上去不如 B 疗法,主要是因为 A 组病人里重病患者多,并不是因为 A 组病人采用 A 疗法。
所以,这一组不成功的 AB 测试,问题出在试验流量分割的不科学,主要是因为流量分割忽略了一个重要的“隐藏因素”,也就是病情轻重。
正确的试验实施方案里,两组试验患者里,重病患者的比例应该保持一致。
因为很多人容易忽略辛普森悖论,以至于有人可以专门利用这个方法来投机取巧。
举个例子,比赛100场球赛以总胜率评价好坏。
取巧的人专找高手挑战20场而胜1场,另外80场找平手挑战而
胜40场,结果胜率41%;认真的人则专挑高手挑战80场而胜8场,而剩下20场平手打个全胜,结果
胜率为28%,比41%小很多。
但仔细观察挑战对象,后者明显更有实力。
从这几个辛普森悖论的例子出发,联想到我们互联网产品运营的实践里,一个非常常见的误判例子是这样的:拿1%用户跑了一个试验,发现试验版本购买率比对照版本高,就说试验版本更好,我们要发布试验版本。
其实,可能只是我们的试验组里圈中了一些爱购买的用户而已。
最后发布试验版本,反而可能降低用户体验,甚至可能造成用户留存和营收数额的下降。
那么,如何才能在 AB 测试的设计,实施,以及分析的时候,规避辛普森悖论造成的各种大坑呢?
最重要的一点是,要得到科学可信的 AB 测试试验结果,就必须合理的进行正确的流量分割,保证试验组和对照组里的用户特征是一致的,并且都具有代表性,可以代表总体用户特征。
这个问题一直是 AppAdhoc A/B Testing 云服务的云端系统着力研究和解决的问题。
在这里,特别要提出一下这个问题的一个特殊属性:在流量试验越大时,辛普森悖论发生的条件越有可能触发。
这是一个和大数定理以及中心极限定理等“常规”实践经验完全不同的统计学现象。
换句话说,大流量试验比小流量试验可以消除很多噪音和不确定性,但是反而可能受到辛普森悖论的影响。
举个例子说明:如果只是拿100人做试验,50人一组随机分配,很可能是28男22女对22男28女,每个性别只是相差6个人而已。
如果是拿10000人做试验,5000人一组随机分配,很可能是2590
男2410女对2410男2590女,每个性别就差了180人,而这180人造成的误差影响就可能很大。
除了流量分配的科学性,我们还要注意 AB 测试的试验设计与实施。
在试验设计上,如果我们觉得某两个变量对试验结果都有影响,那我们就应该把这两个变量放在同一层进行互斥试验,不要让一个变量的试验动态影响另一个变量的检验。
如果我们觉得一个试验可能会对新老客户产生完全不同的影响,那么就应该对新客户和老客户分别展开定向试验,观察结论。
在试验实施上,对试验结果我们要积极的进行多维度的细分分析,除了总体对比,也看一看对细分受众群体的试验结果,不要以偏盖全,也不要以全盖偏。
一个试验版本提升了总体活跃度,但是可能降低了年轻用户的活跃度,那么这个试验版本是不是更好呢?一个试验版本提升总营收0.1%,似乎不起眼,但是可能上海地区的年轻女性 iPhone 用户的购买率提升了20%,这个试验经验就很有价值了。
分层试验,交叉试验,定向试验是我们规避辛普森悖论的有力工具。
规避辛普森悖论,还要注意流量动态调整变化的时候新旧试验参与者的数据问题,试验组和对照组用户数量的差异问题,以及其他各种问题。
而优秀的增长黑客,不会去投机取巧“制造数据”,而是认真思考和试验,用科学可信的数据来指导自己和企业的决策,通过无数次失败的和成功的AB测
试试验,总结经验教训,变身能力超强的超级英雄。
作者:王晔,吆喝科技创始人兼 CEO
人人都是产品经理()中国最大最活跃的产品经理学习、交流、分享平台。