平均数的陷阱
浅议平均数的应用及陷阱

浅议平均数的应用及陷阱平均数是常见的统计数据之一,用于描述一组数据的集中趋势,是最常被人们接受和使用的一种统计指标之一。
然而,平均数也存在一些应用和陷阱,需要我们在实际应用中加以注意。
首先,平均数在很多情况下是非常有用的。
例如,在调查中,我们经常用到平均数来描述一组数据的集中趋势。
比如,我们可以用平均年龄来描述一个国家或地区的人口结构,平均工资来描述一个地区的收入水平等。
在经济学中,我们也会用平均数来计算一个国家或地区的国内生产总值(GDP),来描述其经济发展水平。
此外,平均数还可以用于计算投资组合的平均收益率,来评估投资组合的投资效果。
在这些应用中,平均数可以提供一个简单且易于理解的数据指标,方便人们对数据进行比较和分析。
然而,平均数也存在一些陷阱,需要我们在使用时要注意。
首先,平均数对极端值非常敏感。
如果数据集中存在离群值(outliers),即极端值或异常值,那么平均数可能会被这些离群值拉动,导致整体数据的集中趋势被扭曲。
例如,有一组数据集中在1到10之间,但是存在一个极端值100,那么平均数将会受到这个极端值的影响,大幅度增加。
在这种情况下,使用中位数(将数据从小到大排列,找到中间的那个数)可能更为合适,因为中位数对极端值不敏感。
其次,平均数不能很好地描述数据的分布形态。
平均数只是描述了数据的集中趋势,而未能提供关于数据的分散程度或分布形态的信息。
例如,如果某地区的平均工资为5000元,那么不能说明这个地区的工资水平普遍较高还是较低,因为平均数无法反映工资的分布情况。
对于这种情况,我们可以使用方差或标准差来描述数据的分散程度,使用柱状图、箱线图等来描述数据的分布形态。
另外,平均数还存在一种称为“Simpson's Paradox”(辛普森悖论)的现象,即在不同条件下计算的平均数可能会出现相反的结果。
这是由于条件的不同导致数据的结构和规模发生变化,从而影响平均数的计算。
例如,在一项调查中,男性和女性的通过率分别为60%和40%,然而,当把这些数据按学院划分时,有些学院的通过率男性和女性均高于平均水平。
统计学中的几个问题

记者
一八 一二 一0 九 四 二
第一选择 A B四 C二九 D E E
第二选择 D
E
B CBC
第三选择 E
D
E
EDD
第四选择 C
C
D BCB
第五选择 B
A
A AAA
逐论选举
采用这种方式的有
奥斯卡奖评选 爱尔兰议会选举, 澳大利亚上院选举
博尔达记分法
规则:对每种选择赋予一定分值,然后累加出总分 值,以最高分者获胜。一八世纪法国数家博尔达首 先提出,故命名之。
药物 安慰剂
试验次数 三00 五四0
成功次数 二四六 四五四
平均 八二% 八四%
辛普森悖论
以上三个悖论的实质是相同的。这类问题在二0实际 初就有人讨论。
一九五一年E.H.辛普森在他发表的论文中,对此现象 进行了正式描述。于是,就把这类悖论统称为“辛 普森悖论”
这类悖论表明这样一个事实:在某些情况下,在分 组比较中都占优势的一方,会在合并后的总评中成 为失势的一方。
数值。如果数值有奇数个,则中位数就简单取中间 项的值。如果有偶数项,中位数往往取中间两项的 算术平均 众数:数项中出现次数最多的值
平均数的陷阱
算术平均容易受少数极端数值的影响,事实上,很 多和钱有关的分布,如收入房价财富等,都有很强 的右偏现象,用算术平均往往会给人以歪曲的印象。
从统计角度看,用中位数和众数表达,最大的好处 是不受两头的影响。对一些有偏的分布,用中位数 和众数往往能更好地反映情况。一般而言,有关收 入的统计若用中位数和众数来表述,较为公平。
魔术家的数魔术
魔术家大卫.科波菲尔提出一个数魔术:只要走动一 个人,就可以使整整两个国家增加他们的平均国民 收入
三支一扶:行测资料分析易错点之数据陷阱

三支一扶:行测资料分析易错点之数据陷阱资料分析是行测考试中的拿分“神器”。
好多小伙伴通过练习能达到90%以上的准确率,剩下的10%中就包含着出题人设计的陷阱,成功识别陷阱,就能让成绩更进一步。
今天就跟着中公教育一起认识一下这些常见的数据陷阱吧。
一、平均数的单位平均数作为资料分析里的重要考点,几乎每年考试都有它的身影。
平均数的基本公式为一般情况下,确定谁是总量,谁是份数,直接计算并结合选项勾选正确答案即可。
看似简单的背后,却有着小陷阱——平均数的单位。
例题2017年,某省全省园林水果面积1987.30万亩,比上年增长4.8%。
其中,枣的挂果面积为262.74万亩,同比增长12.6%;2017年,该省全省园林水果产量1801.02万吨,增长5.1%。
其中,枣的产量为87.23万吨,同比增长5.0%问题①:2017年该省枣的单位面积产量约为( )斤/亩?A.332B.445C.664D.1075【中公解析】C。
题干所求单位面积产量即平均数。
转化成平均每亩多少斤枣的问法,可知面积作份数,产量作总量。
此时代入公式结合选项易选错成A。
那么思路没有问题,具体性错在哪里呢?题目所求为每亩多少斤,题干给出的单位是万亩和万吨,需要把吨换算成斤才是正确答案。
这是考试中经常考到的易错点,在平均数答题过程中,一定要考虑单位是否需要换算。
二、倍数和翻番倍数在考试中常见,也是资料分析里容易得分的知识点。
多几倍和是几倍的问题,随着做题量的增长已经逐渐被大家克服,而翻番经常出现在综合判断题中的某个选项,遇到类似题目的情况不多,渐渐演变成了新的陷阱。
在求番数时,先求是几倍,再根据求出的倍数确定番数。
2019年全国个体户数为8261万户,其中城镇个体就业人员为11692万人。
1995年个体户数为2529万户,其中城镇个体就业人员为1560万人。
问题:2019年全国个体户数比1995年翻了三番多。
(判断正误)【中公解析】题干问的是翻番问题。
小学平均数概念的教学误区与思考

小学平均数概念的教学误区与思考平均数是老师最熟悉的统计量,但熟悉并不代表理解,老师对平均数的认识还存在不少误区。
平均数的教学就是要帮助学生理解平均数的意义,不仅要关注平均数的概念意义、算法意义,更要关注其统计意义。
然而纵观我们目前的平均数课堂教学,还没有真正凸显平均数的统计意义,主要还存在以下一些认识上的误区。
一、平均数概念教学的三大认知误区误区1:误把平均数问题当作典型应用题。
当前仍有很大一部分老师脱离统计背景将平均数的应用当作一种典型应用题加以教学。
设计的练习也纯粹从训练学生解题思路出发,人为地为了做题而做题,甚至有些题目要求远远超出我们小学的要求。
如一次公开课上某老师出的练习题:某班期末考试,女生20人平均分95,男生25人平均分90,这个班学生平均分是多少?一个人上山每小时行了4千米,沿路返回每小时行5千米,这个人的平均速度是多少?第一题是在算加权平均数:(20×95+25×90)÷(20+25),第二题是在算调和平均数:2÷(1/4 +1/5 ),而小学学习平均数的要求只是学会简单的算术平均数,即,如果有n个数x1,x2 (x)n,那么看来,我们老师不知不觉在拔高要求。
又如“一辆汽车上午行了3小时,每小时行60千米;下午4小时共行180千米,平均每小时行多少千米?”。
试想现实生活中采集数据,哪有上午每一小时采集一次数据,得“汽车每小时行60千米”;而到下午,变成4小时合在一起采集一次数据,得“共行180千米”的做法?很显然,这些做法已经完全掩盖了“平均数是描述一组数据集中趋势的量数”的统计学本质。
类似偏离平均数统计意义的例子还有很多,个别现象一旦流行,或争相仿效,或成常规训练项目,就应当警惕其中的变异。
误区2:误把平均数当作平均分的结果。
平均数的概念与过去学过的平均分的意义是不完全一样的,平均数是一个“虚拟”的数,是借助平均分的意义通过计算得到的。
“平均数”的陷阱

“平均数”的陷阱不管是学过统计的还是没有学过统计的人,对于“平均数”这个概念想必不会陌生,但是,“平均数”真的是一个很容易理解和应用的概念吗?事实上,并非如此的简单,我们经常掉入“人为设计”的统计陷阱中而不能看到事实的真相。
“平均数”这个词有很广泛的含义。
当一个家伙希望影响公共概念时,或者向其他人推销广告版面时,平均数便是一个经常被使用的诡计,有时出于无心,但更多时候是明知故犯。
在统计上,平均数有三个具体的种类,分别是:均值(mean)、中位数(median)和众数(mode)。
其含义分别是:均值(Arithmetic mean,简称为mean):是将一组数据的总和除以数据个数得到的,因此,一组数据只有一个均值,其计算公式如下:中位数(median):英文解释是:a median is described as the number separating the higher half of a sample, a population, or a probability distribution, from the lower half. 是将所有数据按照由小到大进行排列,若数据为奇数个,中位数为中间那个数据;若数据为偶数个,中位数则是中间两个数的平均值。
众数(mode):英文解释是:the value that has the largest number of observations。
是指一组数据中,出现频次最高的那个数据。
一组数据可以有多个众数,也可以没有众数。
三个平均数的关系是怎样的呢?这根数据的分布情况有关。
当数据的分布十分接近于正态分布时,它的均值、中位数和众数落在同一点上。
当数据的分布偏离正态分布时,数据的分布不再对称,而是有偏的,形状类似于孩子玩的滑梯,这时三个平均数就存在着较大的差异。
说到这里,相比大家已经很清楚这三个数据之间的差异。
一个没有加以限定的“平均数”,最终是没有意义的。
统计学误用案例

统计学误用案例案例一:平均数的陷阱。
咱就说有个小公司,老板想显示员工工资待遇还不错。
公司有10个员工,1个经理月薪10万,然后9个普通员工月薪3000。
老板一算,平均工资=(100000 + 9×3000)÷10 = 12700元。
然后对外宣称公司平均月薪12700元,好多人一听,哇,这工资挺高啊。
但实际上呢,除了那个经理,大部分普通员工的工资少得可怜,这个平均数就完全误导了大家对这个公司工资水平的真实印象。
这就像是拿姚明的身高和一群小学生的身高求平均,然后说这个平均身高就代表大家的身高水平,那可太扯了。
案例二:样本偏差。
有个保健品公司想做个产品调查,证明他们的保健品特别有效。
他们就在自己的专卖店门口找那些来买保健品的人做调查,问“您觉得我们的保健品效果好不好呀?”结果大部分人都说好。
为啥呢?因为来专卖店买的人本来就是相信这个产品才来买的呀,这就是一个有偏差的样本。
就好比你想知道大家喜不喜欢吃榴莲,你专门跑到榴莲专卖店门口去问,那肯定大部分人都说喜欢,这根本就不能代表全体人群的真实想法。
这保健品公司就拿着这个不靠谱的调查结果到处宣传,这就是对统计学的误用。
案例三:相关性误为因果性。
你看,有人发现,在某个城市,冰淇淋的销量和溺水死亡人数在夏天都上升了。
然后就有个“天才”说,冰淇淋会导致溺水。
这可就太荒谬了。
其实呢,这两者只是有相关性,因为夏天到了,天气热,吃冰淇淋的人多了,同时去游泳的人也多了,所以溺水死亡人数也增加了。
这就像每次公鸡打鸣之后太阳就升起来了,但我们不能说公鸡打鸣是太阳升起的原因一样,这种把相关性硬说成因果性的事儿,在统计学里可是个大错特错的事儿。
当心均值不等式中的陷阱

当心均值不等式中的陷阱高明区纪念中学 陈丽华 著名的平均值不等式,,,,"212121n n n n a a a na a a R a a a ≥+++∈+则若 仅当n a a a === 21),2(N n n ∈≥时等号成立”是一个应用广泛的不等式,许多外形与它截然相异的函数式,常常也能利用它巧妙地求出最值。
均值不等式是“不等式”这一章中的重要内容,也是历年高考重点考查的知识点之一,它的应用范围几乎涉及高中数学的所有章节,可以运用它来求解某些最值问题或取值范围问题,且常考常新。
在应用均值不等式时,必须注意两个条件,一是“正数”,二是“定值”,三是能使等号成立的条件,即能解出取等号时字母的值。
我们一般把这三个条件归纳为“一正、二定、三有解”。
然而,不少学生在应用这一知识时存在两个问题:一是忽视不等式成立的条件;二是不考虑实际情况如何,只会机械地套用而不会创造性变通使用。
下面举一些例子来具体分析一下。
一、 忽视不等式成立的条件,即忽视“正数”的条件例1 、求y=3tanx+cotx 的最值。
错解 32c o t x 3t a n x 2c o t x 3t a n x =⋅≥+=y ,当且仅当3tanx=cotx 即3cot ±=x 时,y 有最小值23。
剖析 这里错误在于用均值不等式时,忽略了等号的成立的条件是tanx 、cotx 为正。
正解 (1) 当tanx>0,cotx>0时, ∴32cotx 3tanx 2cotx 3tanx =⋅≥+=y 当且仅当3tanx=cotx 即3cot =x 时,y 有最小值23。
(2) 当tanx<0,cotx<0时, -tanx>0,-cotx>0 ∴32cotx 3tanx 2cotx)3tanx (cotx 3tanx -=⋅-≤---=+=y当且仅当3tanx=cotx 即3cot -=x 时,y 有最大值-23。
逃脱“平均数陷阱”

逃脱“平均数陷阱”作者:张宏亮来源:《董事会》2015年第04期平均数在日常生活中经常用到。
作为一个统计指标,平均数反映的只是数据的集中趋势,它无法描述数据的变化范围和离散程度。
也就是说,如果少数家庭拥有全部资产中的大多数,这使得城市家庭资产的平均数被严重拉高,而中位数却比较低。
因此,使用平均数的时候要注意适用范围,如果关注重点是数据的离散程度或变化范围,那么使用平均数指标是不合理的,这种不合理使用被称作“平均数陷阱”。
企业管理者通常以平均数思维方式思考问题和制定计划,从各种管理计划中经常看到平均数形式的数据,例如市场需求量、资金使用量、市场价格、项目工期等。
依据业务逻辑和管理需求,这些平均数形式的数据将被进一步组合计算,得出其他平均数形式的目标数据,例如投资回报率、年度总收入、项目总工期等。
从风险的角度看,平均数思维在企业管理上有些时候会带来严重的问题。
美国斯坦福大学教授Savage曾经说过,使用平均数方式做的管理计划平均上是错的,许多管理上的失败都来自平均数思维。
平均数形式的计划数据,在某些特定情景发生的情况下才具有意义。
如果管理者没有充分考虑这些特定情景发生的可能性,那么这些计划数据是不正确的甚至在现实中是不存在的:某药企在研发新药,研发成本2000万元,投产后外销欧美市场,预计投资回报率达16%。
首先,2000万元研发成本是平均意义上的成本。
其次,16%的投资回报率是基于项目研发成功且外销欧美市场成功情景下做出的平均估计。
那么,这些情景发生的可能性有多大呢?是100%出现吗?如果研发不成功呢?如果研发成功但外销不成功呢?不考虑这些情景,单纯地去讨论平均数形式的计划数据没有太大意义,基于这些数据进行的决策也会带来严重的问题。
好比一条河流平均水深为1米,一个人徒步过河会不会出现风险呢?假设这条河流大部分地方水深小于1米但中间一段水深为3米,那么基于平均1米水深的过河决定将会给这个人带来很大的风险。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
平均数是统计中最常用的概念之一,小到日常计算,大至GDP核算,都离不开平均数的身影;简单如速度测量,复杂至航天器稳定性测试,都要仰仗平均数出马。
它让纷繁复杂的群体有了可度量的标准,但也将事物的全貌单一化,数据的结构、数据的周期、数据的优劣全部掩盖在一个数字后面,这就给我们客观全面了解事物埋下了“陷阱”,如何跨越平均数的缺陷去客观地考察事物呢?这就需要我们熟悉平均数的陷阱。
陷阱一:安思科姆四重奏
由耶鲁大学统计学教授佛朗西斯·安思科姆提出的“四重奏”理论表明:迷信平均值而忽略数据结构将导致数据认识的严重偏差。
以下4组数据是一个典型的“安思科姆四重奏”。
对表1中4组数据统计平均数,结果如下:
X1=X2=X3=X4=9Y1=Y2=Y3=Y4=7.5
4组数据X和Y平均值相同,单从平均数指标看4组数据是无区别的。
但是在对以上4组数据绘制散点图后(见图1~图4),我们惊奇地发现,平均数“欺骗”了我们,4组数据呈现形态迥异的4种图形分布,它们之间并没有共同之处。
这是因为平均数的集中性使得我们对数据的结构分布视而不见,高度的综合掩盖了数据背后的图形规律。
陷阱二:辛普森悖论
这是某高校的研究生录取情况,从总体看,男生的平均录取率为21%,远低于女生的平均录取率42%,从平均值看男生考取这所学校可比女生难多了,实际情况是否真的如此呢?
让我们分学院再看一下录取情况,怪事发生了!无论是统计学院还是外语学院,男生的录取率都远高于女生,为什么每个学院录取中都占据优势的男生,在取总体平均数之后反而变成了弱势一方呢?从表格上我们可以看出,统计学院考取的难度较外语学院要大得多,虽然男生在两个学院的录取上都比女生有优势,但他们大多选择报考低录取率的统计学院,女生则基本选择报考录取率高的外语学院,所以男生的录取率平均后被大幅拉低,被女生的平均录取率超越了。
陷阱三:依赖平均数进行决策的误区
一家连锁餐厅做了详尽的统计分析后推出以螃蟹为主打的海鲜特惠自助餐促销,他们事先统计了吃螃蟹顾客的平均比例,每位顾客的平均螃蟹消费量以及螃蟹的市场平均售价,并以此为依据制定了促销价格,按照这个价格每位顾客可以为餐厅带来25元的利润。
促销推出后大受好评,但没多久这一特惠促销却被餐厅叫停了,原因是按照平均数精心计算的促销价格居然抵不上顾客消费的成本!这是因为单纯依据平均数计算顾客食量存在着严重的问题,当顾客要花150元消
费一只螃蟹时他们会再三打算,但在自助餐中,消费越多越划算,每个人都会大大超出按只数计算时的消费量,更雪上加霜的是随着餐厅的螃蟹消费量的急剧上升,市场上螃蟹开始供不应求,螃蟹价格也随之水涨船高。
错误地用平均消费量、平均价格代替各个价格段下的消费量及供求情况,让餐厅促销盈利的美好愿景变成了水月镜花。
陷阱四:实际中不存在的“平均数”
很多时候平均数表述的现象,例如A社区每个家庭有2 5个孩子——实际上是不存在的,用这样的数据来进行研究和应用会不会存在误区呢?再让我们来看看2 5个孩子是怎么来的吧,A社区主要是华裔、拉丁裔聚居,华裔生育少,一般只有一个孩子,但对孩子关注高,注重教育,舍得投入;拉丁裔孩子多,一个家庭往往有4~7个孩子,甚至更多,对孩子采用宽松养育,孩子的学业依靠个人自觉。
如果一家培训机构欲在A社区开设培训班,他依靠这两个客户群体的平均数——户均2 5个孩子,户均教育费用等来进行设计培训项目和收费,那可真是打错了算盘。
平均数让数据变得简单可度量,同时也掩盖了数据缺陷,丢失了宝贵的结构信息,让我们对变动和误差视而不见。
要避开平均数陷阱,首先需要我们正确地看待数据,现实中的数据往往没有那么完美,很多时候是不均衡的,不能再把平均数奉若圭臬,需要应用平均数的时候多多配合使用变异指标来反映平均数的代表性和总体分布的离散趋势,双管齐下才能客观反映总体全貌。
其次注重概率分布,很多时候我们面对的不是数据,而是数据背后的各种不确定性因素,这就要求我们既注重传统统计指标,又能采用蒙特卡洛模拟等非传统统计方法来构建和处理现实中的风险和不确定因素。
最后也是最重要的,关注个体数据,了解数据背后的故事,不论如何优良的统计手段都只是方法,数据才是根本,每一种方法,都要了解它的优劣和对数据的影响,这样你才不会让数据金矿从你手中溜走。
作者简介:汪为,杭州市经合办中级统计师。