统计学的故事
统计学数据背后的故事

统计学数据背后的故事统计学是一门研究数据收集、分析和解释的科学。
通过统计学,我们可以深入了解数据背后的故事,揭示出隐藏在数字背后的真相。
本文将探讨统计学数据背后的故事,从而窥探数据背后的真实意义。
一、数据背后的故事数据,并不仅仅是一些冰冷的数字,它是对于现实世界的抽象和总结。
而这些数字背后,往往隐藏着人们的行为、心理和社会规律。
统计学正是通过分析这些数据,帮助我们理解背后的故事。
以人口统计为例,通过对人口数量、年龄分布、性别比例等数据进行分析,我们能够了解到一个地区的人口结构和发展趋势。
从这些数据中,可以发现人口老龄化的程度,以及一些社会问题的原因和解决方案。
数据背后的故事可能包括某一地区经济的繁荣或衰退,社会的稳定或动荡等等。
同样,对于经济统计数据的分析也能揭示出一国或地区的经济发展状态。
通过分析国内生产总值(GDP)、消费指数、就业率等经济指标,我们可以判断一个经济体的发展速度、经济结构的改善和投资方向的优化等。
这些数据背后的故事可能包括某个行业的兴衰,某个地区的经济合作模式等。
二、揭示数据背后的真相统计学不仅仅是对数据的收集和整理,更重要的是通过适当的方法,揭示数据背后隐藏的真相。
在数据的分析中,我们需要小心陷入到数据的陷阱中,避免被误导。
首先,我们需要考虑数据的来源和采集方法。
数据的来源和采集方法会对数据的可靠性和有效性产生重要影响。
如果数据来源不确切或采集方法存在偏差,那么分析结果可能会出现错误的偏差。
因此,在进行数据分析时,我们需要注意对数据进行可靠性和有效性的验证。
其次,我们需要关注数据之间的关系和相关性。
在统计学中,我们通过相关性分析等方法来探究不同数据之间的关系。
相关系数的计算可以帮助我们了解两个变量之间的相关性,从而进一步解读数据的背后故事。
最后,我们需要审慎地解读数据。
数据本身并没有价值,真正的价值在于我们如何解读并运用数据。
我们需要避免盲目追求数字背后的表面含义,而是要有系统的思维和深入的分析。
统计学不得不说的二三事

统计学不得不说的二三事毫不夸张地说,绝大部分国内期刊,甚至在很多低分SCI杂志上,乱用统计学的现象多如牛毛。
还有很多医疗同行,对于统计甚为迷恋,能统计的也统计,不能统计创造条件也要统计,看见P小于0.05比亲爹还亲爹。
话说,统计是门很有神奇的学科,在讲之前我又要开始讲几个冷笑话,看懂了的可以举手。
话说:你知道吗,这个世界上绝大多数人拥有的腿的数量高于平均值?(第一遍没有看懂的小伙伴可以去面壁)再讲一个:你知道一个普通的民众有多笨吗?世界上一半的人都比他更聪明。
(其实这是不对的,世界上一多半的人都比他更聪明。
因为人类的智能有上限,愚蠢却没有下限,所以不是一个完美的正态分布。
)不过瘾,再讲一个:曼德勃罗有一次说,他出生在波兰,但在法国上的学,所以平均而言他是个德国人。
(所以,我出生在广东,但在东北上过学,所以平均而言我是个湖北人……)好冷好冷,我们还是来讲点正事,分享几则统计小故事。
1、两个指标诊断疾病的问题路人甲做了一个研究,旨在比较两个指标(A和B)对肝癌的诊断价值。
路人甲以A和B的参考范围上限作为诊断界值,得出了A和B 在该界值下对应的诊断敏感性和特异性。
结果表明,A的诊断敏感性为0.80,特异性为0.90;B的诊断敏感性为0.85,特异性为0.87。
路人甲很快撰写论文报道了自己的研究成果,指出B诊断肝癌的敏感性高于A,而特异性低于A。
路人乙是这篇文章的审稿人,当他看见这个结论后,脸色铁青,毫不犹豫地在审稿意见中写道:就敏感性而言,B高于A;就特异性而言,A高于B。
诊断敏感性和特异性与所采用的界值密切相关,作者得出的敏感性和特异性仅仅代表了一个诊断界点下面的诊断效能,无法从全局上反映A和B的诊断价值。
文章的结论到底是想说明A优秀还是B优秀呢?Reject!这个故事说明:统计指标选错了,统计出来的东西往往难以“自圆其说”。
稿件被退了,路人甲有些许郁闷。
经过认真学习科研设计与统计学知识后,路人甲终于明白了一个问题:两个指标诊断性能的比较是不能比较敏感性和特异性的,而应该比较ROC的曲线下面积,因为曲线下面积才是衡量整体诊断效率的最佳指标。
高中数学概率统计小故事

1.分赌本问题A ,B 二人赌博,各出注金a 元,每局每个人获胜的概率都是12,约定:谁先胜S 局,即赢得全部注金a 2元,现进行到A 胜1S 局、B 胜2S 局(1S 与2S 都小于S )时赌博因故停止,问此时注金a 2应如何分配给A 和B 才算公平?此问题文字最早见于1494年帕西奥利的一本著作,是对6=S ,51=S 和22=S 的情况的分析.由于对“公平分配”一词的意义没有一个公认的正确理解,在早期文献中出现过关于此问题的种种不同的解法,如今看来都不正确.例如,帕西奥利本人提出按2:S S 1的比例分配.塔泰格利亚则在1556年怀疑能找到一种数学解法的可能性,他认为这是一个应由法官来解决的问题,但他也提出了如下的解法:若2S S 1>,则A 取回自己下的注a ,并取走B 下的注的S S S 1/)(2-,这等于按)(:)(22S S S S S S 11+--+的比例瓜分注金.法雷斯泰尼在1603年根据某种理由,提出按)12(:)12(22S S S S S S 11+---+-的比例分配.卡丹诺在其1539年的著作中,通过较深的推理提出了一种解法:记1S S r -=1,22S S r -=.把注金按)1(22+r r ︰)1(11+r r 之比分给A 和B.他这个解法如今看来虽然仍不正确,但有一个重要之处,即他注意到起作用的是1S ,2S 与S 的差距,而不在其本身.这个问题的症结在于:它关乎每个人在当时状况下的期望值.从以上这些五花八门的解法中,似乎可以认为,这些作者已多少意识到这一点,但未能明确期望与概率的关系.而与此处有关的是:假定赌博继续进行下去,各人最终取胜的概率.循着这个想法问题很易解决:至多再赌121-+=r r r 局,即能分出胜负.假如A 获胜,他在这r 局中至少须胜1r 局.因此按二项分布,A 取胜的概率为r rr i A i r p -=∑⎪⎪⎭⎫ ⎝⎛=21,而B 取胜的概率为1B A p p =-.注金按B A p p :之比分配给A 和B ,因A ap 2和B ap 2是A ,B 在当时状态下的期望值.这个解是巴斯噶(B.Pascal, 1623~1662)在1654年提出的.他用了两种方法,其一是递推公式法,其二是用“巴斯噶三角”(即杨辉三角).1710年,蒙特姆特在一封信中给出了我们在前面写出的解法,且不必规定二人的获胜概率相同.后来他又把此问题推广到多个赌徒的情形.分赌本问题在概率史上起的作用,在于通过对这个在当时来说较复杂的问题的探索,对数学期望及其与概率的关系有了启示.有的解法,特别是巴斯噶的解法,使用或隐含了若干直到现在还广为使用的计算概率的工具.如组合法、递推公式、条件概率和全概率公式等.可以说,通过对这个问题的研究,概率计算从初期简单计数步入较为精细的阶段.2. 巴斯噶与费尔马的通信巴斯噶与费尔马(P. de Fermat ,1601-1665)的名字,对学习过中学以上数学的人来说,想必不陌生.巴斯噶三角,在我国称杨辉三角,中学教科书中已有提及.至于费尔马,因其“费尔马大定理”(不存在整数,,,≠xyx z y x xyz≠0和整数3≥n ,使n n n z y x =+) 于近年得到证明,名声更远播数学圈子内外.费尔马在数学上的名声主要因其数论方面的成就,其在概率史上占到一席地位,多少有些偶然,由于他与巴斯噶在1654年7~10月间来往的7封信件,其中巴致费的有3封.这几封信全是讨论具体的赌博问题.与前人一样,他们用计算等可能的有利与不利情况数,作为计算“机遇数”即概率的方法(他们没有使用概率这个名称).与前人相比,他们在方法的精细和复杂性方面大大前进了.他们广泛使用组合工具和递推公式,初等概率一些基本规律也都用上了.他们引进了赌博的值(value)的概念,值等于赌注乘以获胜概率.3年后,惠更斯改“值”为“期望” (expectation),这就是概率论的最重要的概念之一——(数学)期望的形成和命名过程.前文已指出:此概念在更早的作者中已酝酿了一段时间.这些通信中讨论的一个重要问题之一是分赌本问题,还讨论了更复杂的输光问题:甲、乙二人各有赌本a 和b 元(a ,b 为正整数),每局输赢1元,要计算各人输光的概率.这个问题拿现在的标准看也有相当的难度.由此也可看出这组通信达到的水平及其在概率论发展史上的重要性.有的学者,如丹麦概率学者哈尔德,认为巴、费2人在1654年的这些信件奠定了概率论的基础.这话相当有道理,但也应指出,这些通信的内容是讨论具体问题,没有明确陈述并提炼出概率运算的原则性内容.例如,他们想当然地使用了概率加法和乘法定理.但未将其作为一般原则凸现出来.促使巴、费2人进行这段通信的,是一个名叫德梅尔的人,他曾向巴斯噶请教几个有关赌博的问题.1564年7月29日巴斯噶首先给费尔马写信,转达了这些问题之一,请费尔马解决.所提问题并不难,但不知为何巴斯噶未亲自回答:将两颗骰子掷24次,至少掷出一个“双6”的机遇小于2/1(其值为.0)36/35(124≈-≈0.491 4).但从另一方面看,掷两颗骰子只有36种等可能结果,而24占了36的3/2,这似乎有矛盾,如何解释.现今学过初等概率论的读者都必能毫无困难地回答这个问题.巴、费通信中涉及的有关分赌本问题的解法,包含了一些在当时看很先进且直到现在仍广为使用的想法和技巧.3. 惠更斯的《机遇的规律》惠更斯是一个有多方面成就的、在当时声名与牛顿相若的大科学家.人们熟知他的贡献之一是单摆周期公式g l T /2π=.他在概率论的早期发展史上也占有重要地位,其主要著作《机遇的规律》出版于1657年,出版后得到学术界的高度重视,在欧洲作为概率论的标准教本长达50年之久.该著作的写作方式不大像一本书,而更像一篇论文.他从关于公平赌博(fair game)的值的一条公理出发,推出关于“期望”(这是他首先引进的术语)的3条定理.基于这些定理并利用递推法等工具,惠更斯解决了当时感兴趣的一些机遇博弈问题.最后,他提出了5个问题,对其中的3个给出了答案但未加证明.3条定理加11个问题,被称为惠更斯的14个命题.前3条如下述:命题1若某人在赌博中以等概率12得a ,b 元,则其期望为2/)(b a +元.命题2若某人在赌博中以等概率13得a ,b 和c 元,则其期望为3/)(c b a ++元.命题3若某人在赌博中以概率p ,)1(=+q p q 得a ,b 元,则其期望为qb pa +元.看了这些命题,现代的读者或许会感到惶惑:为何一个应取为定义的东西,要当作需要证明的定理? 答案在于,这反映了当时对纯科学的一种公认的处理方法,即应从尽可能少的“第一原理”(first principle ,即公理)出发,把其他内容推演出来.惠更斯只从一条公理出发而导出上述命题,其推理颇为别致,此处不细述.这几个命题是期望概念的一般化.此前涉及或隐含这一概念只是相当于命题3中0=b 的特例,即注金乘取胜概率,因而本质上没有超出概率这个概念的范围.惠更斯的命题将其一般化,是这个重要概念定型的决定性的一步.实际上,据惠更斯的命题不难证明:若某人在赌博中分别以概率得k a a ,,1 元,则其期望为11k k p a p a ++.这与现代概率论教科书中关于离散随机变量的期望的定义完全一致.余下的11个命题及最后的5个问题,都是在形形色色的赌博取胜约定下,去计算各方取胜的概率,其中命题4~9是关于2人和多人的分赌本问题.对这些及其他问题,惠更斯都用了现行概率论教科书中初等概率计算方法,通过列出一定的方程求解,大体上与巴斯噶的做法相似.这种方法后来被伯努利称为“惠更斯的分析方法”.最后5个问题较难一些,其解法的技巧性也较强.现举其一为例:A ,B 二人约定按ABBAABBAABB …掷两颗骰子,即A 先掷一次,然后从B 开始轮流各掷两次.若A 掷出和为6点,则A 胜;若B 掷出和为7点,则B 胜.求A ,B 获胜的概率.A 在一次投掷时掷出和为6的概率36/5=A p ,而B 在一次投掷时掷出和为7的概率6/136/6==B p .记B B A A p q p q -=-=1,1,又记i e 为在第1i -次投掷完时A ,B 都未取胜,求在这一条件下A 最终取胜的概率.利用全概率公式,并注意到约定的投掷次序,可以列出方程组:14433221,,,e q p e e q e e q e e q p e A A B B A A +===+=.由此容易得出略小于1/2.故此赌法对A 不利.机遇博弈在概率概念的产生及其运算规则的建立中,起了主导的作用.这一点不应当使人感到奇怪:虽说机遇无时不在,但要精确到数量上去考虑,在几百年前那种科学水平之下,只有在像掷骰子这类很简单的情况下才有可能.但这门学科建立后,既脱离赌博的范围又找到了多方面的应用.这也是一个有趣的例子,表明一种看似无益的活动(如赌博),可以产生对人类文明极有价值的副产物.把概率论由局限于对赌博机遇的讨论拓展出去的转折点和标志,应是1713年伯努利划时代著作《推测术》的出版,是在惠更斯的《机遇的规律》出版后56年.惠更斯这一著作,内容基本上限于掷骰子等赌博中出现各种情况的概率的计算,而伯努利这本著作不仅对以前的成果作了总结和发挥,更提出了“大数定律”这个无论从理论和应用角度看都有着根本重要性的命题,可以说其影响一直到今日而不衰.其对数理统计学的发展也有不可估量的影响,许多统计方法和理论都是建立在大数定律的基础上.有的概率史家认为,这本著作的出版,标志着概率概念漫长的形成过程的终结与数学概率论的开端.假定有一个事件A ,根据某种理论,我们算出其概率为p A P =)(.这理论是否正确呢?一个检验的方法就是通过实际观察,看其结果与此理论的推论——p A P =)(是否符合.或者,一开始我们根本就不知道)(A P 等于多少,而希望通过实际观察去估计其值.这些包含了数理统计学中两类重要问题——检验与估计.这个检验与估计概率p 的问题,是数理统计学中最常见、最基本的两个问题.要构造具体例子,最方便的做法是使用古典概率模型.拿一个缸子,里面装有大小、质地一样的球b a +个,其中白球a 个,黑球b 个.这时,随机从缸中抽出一球(意指各球有同等可能被抽出),则“抽出之球为白球”这事件A 有概率)/(b a a p +=.如果不知道a ,b 的比值,则p 也不知道.但我们可以反复从此缸内抽球(每次抽出记下其颜色后再放回缸中).设抽了N 次,发现白球出现N X 次,则用N X N /去估计p .这个估计含有一定程度不确定的误差,但我们直观上会觉得,抽取次数N 愈大,误差一般会愈小.这一点如伯努利所说:“哪怕最愚笨的人,也会经由他的本能,不需他人的教诲而理解的”.但对这个命题却无人能给出一个严格的理论证明.伯努利决心着手解决这个问题,其结果导致了以他的名字命名的大数定律的发现.这个发现对概率论和数理统计学有极重大的意义.伯努利把这一研究成果写在他的著作《推测术》的第四部分中,是该著作的精华部分.由于该书在概率统计史上的重要意义,在此对伯努利其人及此书的整个面貌先做一点介绍.4. 伯努利的《推测术》伯努利1654年出生于瑞士巴塞尔.在其家族成员中,对数学各方面做出过不同程度贡献的至少有12人,在概率论方面有5人,其中杰出的除他本人外,还有其弟弟约翰与侄儿尼科拉斯.伯努利的父亲为其规划的人生道路是神职人员.但他的爱好却是数学.他对数学的贡献除概率论外,还包括微积分、微分方程和变分法等.后者包括著名的悬链线问题.他和牛顿、莱布尼兹是同时代人,并与后者有密切的通信联系,因而非常了解当时新兴的微积分学的进展,学者们认为他在这方面的贡献,是牛、莱之下的第一人.此外,他对物理学和力学也做出过贡献.他与惠更斯长期保持通信联系,仔细阅读过惠更斯的《机遇的规律》,由此引发了他对概率论的兴趣.从他与莱布尼兹的通信中,可知他写《推测术》这一著作是在他生命的最后两年.在1705年他去世时,此书尚未整理定稿.由于家族内部的问题,整理和出版遗稿的工作,迟迟未能实现.先是其遗孀因对其弟约翰的不信任,不愿把整理和出版的事委托给他,后来又拒绝了欧洲一位富有学者捐资出版的建议.最后在莱布尼兹的敦促下,才决定由其侄儿尼科拉斯来负责这件事情.尼科拉斯也是当时重要的数学家,与欧拉和莱布尼兹保持通信联系.当时尚无科学期刊,学者的通信是学术交流的一种重要方式.《推测术》一书共239页,分四个部分.第一部分(P 2~71)对《机遇的规律》一书作了详细的注解,总量比惠更斯的原书长4倍.第二部分(P 72~137)是关于排列组合的系统的论述.第三部分(P 138~209)利用前面的知识,讨论了一些使用骰子等的赌博问题.第四部分(P 210~239)是关于概率论在社会、道德和经济等领域中的应用,其中包括了该书的精华、奠定了概率史上不朽地位的,以其名字命名的“伯努利大数定律”——大数定律的名称不是出自该书,首见于泊松1837年的一篇著作中.该书若缺了这一部分,则很可能会像某些早期概率论著作那样湮没无闻,或至多作为一本一般著作被人评价.该书最后有一长为35页的附录,用与友人通信的形式讨论网球比赛中计分问题.5. 伯努利大数定律现在我们来介绍伯努利《推测术》中最重要的部分——包含了如今被称之为“伯努利大数定律”的第四部分.回到前面的缸中抽球模型:缸中有大小、质地一样的球b a +个,其中白球a 个,黑球b 个,“抽出之球为白球”的概率为p ,则有)/(b a a p +=.假设有放回地从缸中抽球N 次,记N X 为抽到白球的次数,以N X N /估计p .这种估计法现今仍是数理统计学中最基本的方法之一.此处的条件是,每次抽取时都要保证缸中b a +个球的每一个有同等机会被抽出,但这一点在实践中并不见得容易保证.例如,产生中奖号码时可能要用复杂的装置.在实际工作中,统计学家有时用一种叫做“随机数表”的工具.这是一本很厚的书,各页按行、列排列着数字9,,2,1,0 ,它们是用据说是“充分随机”的方法产生的.在使用时,“随机地”翻到一页并随机地点到一个位置,以此处的数字确定抽出的对象.伯努利企图证明的是:用N X N /估计p 可以达到事实上的确定性——他称为道德确定性.其确切含义是:任意给定两个数0>ε和0>η,总可以取足够大的抽样次数N ,使事件{}ε>-|)/(|p N X N 的概率不超过η.这意思就很显然:ε>-|)/(|p N X N 表明估计误差未达到指定的接近程度ε,但这种情况发生的可能性可以“随心所欲地小”(代价是加大N ).为忠实于伯努利的表达形式,应指出两点:一是伯努利把ε限定于1)(-+b a ,虽然其证明对一般ε也有效.但他做这一模型限定与所用缸子模型的特殊性有关:必要时把缸中的白、黑球分别改为ra 和rb 个,则p 不变,1)(-+b a 改为1)(-+rb ra ,只须取r 足够大,便可使1)(-+rb ra 任意小.二是伯努利欲证明的是:对任给的0>c ,只要抽取次数足够大,就可使⎭⎬⎫⎩⎨⎧>->⎭⎬⎫⎩⎨⎧≤-εεp N X cP p N X P N N . (5)这与前面所说是一回事.因为由上式得.11c p N X P N +<⎭⎬⎫⎩⎨⎧>-ε (6)取c 充分大,可使(6)式右边小于η.另外要指出的是:伯努利使用的这个缸子模型使被估计的p 值只能取有理数,因而有损于结果的普遍性.但其证明对任意的p 成立,故这一细节并不重要.伯努利上述对事实上确定性数学的理解,即(5)式,有一个很值得赞赏的地方,即他在概率论的发展刚刚起步的阶段,就给出了问题的一个适当的提法.因为,既然我们欲证明的是当N 充分大时,N X N /和p 可以任意接近,则一个看来更直截了当的提法是,lim p N X N N =∞→ (7)而这不可能实现.因为原则上不能排除“每次抽到白球”的可能性,这时N X N /总为1,不能收敛到1<p .或者退一步:要求(7)式成立的概率为1,这一结论是对的,但直到1909年才由波莱尔给予证明,证明的难度比伯努利的提法大得多.设想一下,如果当时伯努利就采用该提法,他也许在有生之年不能完成这一工作.由于波莱尔的结论比伯努利的结论强,现今人们又把他们的结论分别称之为强大数定律和弱大数定律.6. 泊松公式、泊松分布与泊松大数定律泊松(Possion )的名字对学概率论与数理统计的人来说,可谓耳熟能详.原因主要在于泊松近似公式,以及更重要的是源于该近似公式的泊松分布,泊松分布的重要性和知名度在离散型分布中仅次于二项分布.泊松的另一个重要工作是把伯努利大数定律推广到每次试验中事件发生的概率可以不同的情况,现称泊松大数定律.继狄莫佛给出二项概率近似计算公式(10)之后,丹尼尔和拉普拉斯也给出了二项概率近似计算公式,但这些公式在现今的教科书上已很少提及,只有泊松近似公式则不然,其形式为,!),,(lim k e k p N b k N λλ-∞→= (11)其中Np N ∞→=lim λ,N k ,,2,1,0 =.公式(11)在教科书上通称为泊松逼近公式、泊松近似公式或泊松公式.它是泊松在1838年于《概率在法律审判的应用》一书中所引进,此公式适用于p 很小,N 很大而Np 又不很大时,这正好填补了狄莫佛公式(10)的不足,因后者只适用于p 不太接近于0和1的时候.不过,从历史上看,狄莫佛早在1712年已做出了这个结果.7. 贝叶斯及其传世之作托马斯•贝叶斯(Thomas Bayes,1701-1761)在18世纪上半叶的欧洲学术界,恐怕不能不算是一个很知名的人物.在他生前,没有发表过任何的科学论著.那时,学者之间的私人通信,是传播和交流科学成果的一种重要方式.许多这类信件得以保存下来并发表传世,而成为科学史上的重要文献,例如,前面提到的费尔马和巴斯噶的通信、伯努利与莱布尼兹的通信等.但对贝叶斯来说,这方面材料也不多.在他生前,除在1755年有一封致约翰•康顿的信(其中讨论了辛普森有关误差理论的工作)外,历史上没有记载他与当时的学术界有何重要的交往.但他曾在1742年当选为英国皇家学会会员(相当于科学院院士),因而可以想到,他必定曾以某种方式表现出其学术造诣而被当时的学术界所承认.如今,我们对这个生性孤僻、哲学气味重于数学气味的学术怪杰的了解,是因他的一篇题为“An essay towards solving a problem in the doctrine of chance(机遇理论中一个问题的解)”的遗作.此文发表后很长一个时期在学术界没有引起什么反响,但到20世纪以来突然受到人们的重视,成为贝叶斯学派的奠基石.1958年,国际权威性的统计杂志《Biometrika》(生物计量)重新刊载了这篇文章.此文也有中译本(见廖文等译《贝叶斯统计学——原理、模型及应用》的附录4,中国统计出版社1992年版).此文是他的两篇遗作之一,首次发表于1764年伦敦皇家学会的刊物《Philosophical Transactions》上.此文在贝叶斯生前已写就,为何当时未交付发表,后来的学者有些猜测,但均不足定论.据文献记载,在他逝世之前4个月,他在一封遗书中将此文及100英镑托付给一个叫普莱斯的学者,而贝叶斯当时对此人在何处也不了然.所幸的是,后来普莱斯在贝叶斯的文件中发现了这篇文章,他于1763年12月23日在皇家学会上宣读了此文,并在次年得以发表.发表时普莱斯为此文写了一个有实质内容的前言和附录.据普莱斯说,贝叶斯自己也准备了一个前言.这使人们无法确切区分:哪些思想属于贝叶斯本人,哪些又是普莱斯所附加的.贝叶斯写作此文的动机,说法也不一.一种表面上看来显然的说法是为了解决伯努利和狄莫佛未能解决的、二项分布概率p的“逆概率”问题,因为当时距这两位学者的工作发表后尚不久,有人认为他是受了辛普森误差工作的触动,想为这种问题的处理提供一种新的思想.还有人主张,贝叶斯写作此文,是为了给“第一推动力”的存在提供一个数学证明.这些说法现在都无从考证.上面提到“逆概率”这个名词.在较早的统计学著作中这个名词用得较多,现在已逐渐淡出.顾名思义,它是指“求概率这个问题的逆问题”:已知事件的概率为p,可由之计算某种观察结果出现的概率如何.反过来,给定了观察结果,问由之可以对概率p做出何种推断.推广到极处可以说,“正概率”是由原因推结果,是概率论;“逆概率”是由结果推原因,是数理统计.8. 拉普拉斯的“不充分推理原则”贝叶斯的遗作发表后很长一段时期,都没有得到学术界的注意,因而他的这种思想未能及早地发展成为一种得到广泛应用的统计推断方法.但是,也有些学者独立地朝这个方向思考,提出类似的思想并付诸实用,其中最重要的当属拉普拉斯.拉普拉斯在1774年的一篇文章中提出了所谓的“不充分推理原则”(principle of insufficient reasoning ).他的思想大致如下:如果一个问题中存在若干个不同的原因(cause) n A A A ,,,21 ,则在没有理由认为其中哪一个特别有优势时,概率应各取n /1,即认为各原因有同等机会出现.在统计问题中,这里所说的不同“cause ”n A A A ,,,21 可看作代表未知参数的不同的可能值.以E 记在这原因下可能产生的事件(例如,在某参数值之下观察到的样本),拉普拉斯提出:)|(/)|(i i A E P E A P 与i 无关. (12)用现今熟知的概率论知识很容易证明(12),但拉普拉斯在其文章中用了一个很复杂的证法.拉普拉斯的原则(12)可用于由)|(i A E P 推)|(E A P i ,这与贝叶斯的原则完全一样,也并未超出贝叶斯思想的范围.因此,现在统计学史上也把拉普拉斯视为贝叶斯统计的一个奠基者.9. 勒让德发明最小二乘法勒让德是法国大数学家,在数学的许多领域,包括椭圆、积分、数论和几何等方面,都有重大的贡献.最小二乘法最先出现在他于1805年发表的一本题为《计算彗星轨道的新方法》著作的附录中,该附录占据了这本长达80页著作的最后9页.勒让德在这本书前面几十页关于彗星轨道计算的讨论中没有使用最小二乘法,可见在他刚开始写作时,这一方法尚未在他头脑中成形.历史资料还表明,勒让德在参加测量巴黎子午线长这项工作很久以后还未发现这个方法.考虑到此书发表于1805年且该法出现在书尾的附录中,可以推测他发现这个方法应当在1805年或之前不久的某个时间.勒让德在该书72~75页描述了最小二乘法的思想、具体做法及方法的优点.他提到:使误差平方和达到最小,在各方程的误差之间建立了一种平衡,从而防止了某一极端误差(对决定参数的估计值)取得支配地位,而这有助于揭示系统的更接近真实的状态.的确,考察勒让德之前一些学者的做法,都是把立足点放在解出一个线性方程组上.这种做法对于误差在各方程之间的分布的影响如何,是不清楚的.在方法的具体操作上,勒让德指出,为实现20111()n i i ki k i x x x θθ=+++=∑最小而对各i θ求偏导数所形成的线性方程组⎪⎪⎩⎪⎪⎨⎧=====+∑∑==.,,1,,,1,0,,,,1,0110k j k r x x s k j s n i ji ri rj kr j r rj θθ (13)只涉及简单的加、乘运算,至于解线性方程组,这是当时已知的其他方法也难免的.现今我们把(13)叫做正则方程组,这是后来高斯引进的称呼.关于最小二乘法的优点,勒让德指出了以下几条:第一,通常的算术平均值是其一特例.第二,如果观察值全部严格符合某一线性方程,则这个方程必是最小二乘法的解.第三,如果在事后打算弃置某些观察值不用或增加新的观察值,对正则方程组的修改易于完成.从现在的观点看,这方法只涉及解线性方程组是其最重要的优点之一(其他的重要优点包括此法在统计推断上的一些优良性质,以及其广泛的适用性).近年发展起来的,从最小二乘法衍生出的其他一些方法,尽管在理论上有其优点,可是由于计算上的困难而影响了其应用.最小二乘法在19世纪初发明后,很快得到了欧洲一些国家的天文和地测学工作者的广泛使用.据不完全统计,自1805年至1864年的60年期间,有关这一方法的研究论文约250篇,一些百科全书,包括1837年出版的《不列颠百科全书》(第7版),都收进了有关这个方法的介绍.在研究论文中,有一些是关于。
统计学的小故事节选

统计学的小故事节选为了从数量上认识和理解,大家在日常生活和工作中看到的各种现象所发生的规律,我们就必须收集、整理和分析数据。
这样子的数据不是一个两个,而是足够多的、大量的,因为只有这样,我们才能得到一般性的规律性的结论。
比如说,出生性别比,如果你调查新出生的5个婴儿的性别,很可能你会发现这五个婴儿中只有1个,或者2个、3个、4个是女孩;如果你把调查的数目增加到10个,其中就几乎一定有3到7个婴儿是女孩;你再把调查的数目扩展到100个,你会发现,一般总是有那么四十多个或五十多个婴儿是女孩;当你把调查的数目扩展到1000个时,令你惊奇的事情发生了,你会发现男婴和女婴的数量比越来越接近于1比1,你会发现1000个婴儿中有四百七八十个男婴,五百一二十个女婴,而不是有700个男婴和300个女婴。
你跟我说,在10个婴儿当中,有7个男婴和3个女婴,这我相信。
但是如果你竟然胆敢说,随意挑选1000个婴儿,里面有700个左右的男婴和300个左右的女婴,这我是很难相信的,除非这些婴儿是经过精心挑选出来的。
所以说,几个特例并不能说明问题,只有当你掌握的数据和材料足够多时,你才有资格说话,你得出的结论才是可信的。
这,就是统计的含义所在。
其实,再说多一点,统计学的基本思想,就来源于两个源头,一个是国情调查,一个是赌博游戏。
三百多年前,在西方工业化早期,西方资本主义国家之间的竞争和资源争夺也比较激烈,那时德国的官员和学者们为了本国的强盛和发展,就搜集和调查了大~量的国情资料,其中不仅包括本国的,也包括他们的竞争对手--英国、法国等国家,他们把搜集过来的资料仔细地整理和分析,希望能够从中找到一些有益于本国长治久安的策略。
这是统计学的一个源头之一。
赌博游戏那一头呢?也是三百年前从法国开始的,那个时候法国的赌博游戏引起了数学家的极大关注。
比如说掷色子、抛硬币、赛马呀等等。
就说抛硬币吧,你抛出一枚硬币,当它落回地面的时候,它向你微笑的那一面,究竟是正面还是反面呢?这太不可预测了!你无从知道!现在你抛10次,你发现了,在地面向你微笑的硬币,它出现了4次正面,6次反面!你再抛,你抛100次,出现了45次正面,55次反面!然后你还抛,一直抛到第1000次,结果出来了,你数了数--一共出现了485次正面,515次反面。
统计学的故事

统计学的故事纪宏袁卫文2004年1月形式来描述。
用土话说,自然和社会都是有规律的,这种规律虽然不受人的主观意志的影响,却能被人的思维所理解。
又过了很多很多年,经过无数人大胆的观察、敏锐的猜想、天赋的直觉和一不怕苦二不怕死的精神,建立了现代科学的理论体系和思想体系。
在天文学、物理学、生物学、人文社会科学以及数学和哲学等领域都取得了重大成果。
虽然数百年来,科学和哲学的门派林立,各自有各自的掌门人,各自占据着各自的山头,都因自己发现真理而笑傲江湖。
但有一个基本观点被大多数人承认,即这个世界是有规律的。
我们是否可以用身边的事和通俗的语言解读一下科学巨匠们所研究的规律。
请想一想,我们身边经常发生的重复出现的、有规律的现象:太阳每天从东方升起,冬天过去春天就要来临,物体失去支撑就会坠落,“神舟五号”飞航按设计的轨道运转,经济按市场规则运行,奔波的人们按自己的哲学度日。
对不同领域中的规律进行探索和描述便形成了不同的学科。
将不同学科的理论、方法、思想进行提炼,便形成了哲学、数学、统计学这样一些横断科学。
同时,我们在发现我们周围的事物没有任何一次重复是完全的“克隆”,没有任何东西会把一切细节完全重复出来。
太阳每天从东方升起,但天安门广场上与太阳同时升起的国旗其升旗时间却每天不同;冬天过去春天就要来临,但今年的春色比去年更加明媚;物体失去支撑就会坠落,但受风速、风向、地心引力等很多细小因素的影响,两个同样重的物体坠落速度和落点会有差别;“神舟五号”飞船按设计的轨迹运转,但每次经过我国领空的时间都略有差距;经济按市场规则运行,但今年的GDP比去年增长8%;奔波的人们按自己的哲学度日,但一年又一年我们的生活逐渐发生了改变。
因此,任何科学都只能预见大体上的重复现象。
行笔至此,我们是否感到统计学太重要了。
统计学就是通过差异描述规律;透过现实走向理性,走出混沌,走向秩序的学科。
“可以毫不夸大地说,现代科学的发展是在关注大数目现象的标志下进行的,很快就不会有不了解研究的随机性——统计方法的知识分支了”。
统计学的故事

统计学的故事
对于陌生的事物,如果我们能够列出有关它的一些数据,往往就会对这个事物有比较容易的了解,而提供数据就是统计学的任务,近代专门的统计可以说是从人口统计开始的。
从1604年开始,英国伦敦教会每周发布一次“死亡公报”,记录一周内死亡者和出生者的名单和总数。
这一工作一直持续下去,提供并积累了大量的关于人口的数据。
后来有人对这些数据进行研究,一位学者得出一段时间内伦敦出生了139782个男孩,同时出生了130866个女孩,他从中分析出一个结论——人类出生的男孩和女孩数差不多相等,而男孩数略多。
这样我们就看到,人们需要收集数据,并且通过分析数据得出某些结论来,这种收集数据、分析数据的学科就是统计学。
统计学的故事
统计学的故事纪宏袁卫文2004年1月第一回人类发现①了统计统计改变了世界若想了解上帝在想什么,我们就必须学统计,因为统计学就是在量测他的旨意。
——南丁格尔列位,一般故事或小说的开头总是写的比较虚,没有什么干货,只是交代一些背景。
平均说来,到了第三回主要人物才出现,到了第五回矛盾冲突才展开。
本文也决不敢例外。
大千世界,芸芸众生,悠悠上下五千年,坐地日行八万里。
这个世界所在的宇宙真奇妙,时间上没头没尾,空间上没边没沿。
世界上的万物真复杂,自然界和人类社会好像都受到某种力量和规律的支配,可怜的是我们还无法确切地认识、把握这些力量和规律,偶然事件常常捉弄我们的命运。
这个世界上的人们真倔,非要把这个很难描述的世界,包括客观世界和我们的主观世界整明白不可,大到宇宙空间,小到基因和纳米,探索者前仆后继,没完没了。
任何值得一提的文明都探索过真理,冥思苦想的人们尽管不能完全确切的,但总是试图解释复杂多变的自然现象和人类自身。
在很早很早以前,人们认为自然是神秘、无序,甚至是恐怖的。
而人类自身也有很多谜题,例如,人类为何定居在这个地球上,人生的目的是什么,人类的终极归宿何在,等等。
这些问题的答案一般是由宗教领袖给出的。
过了很多很多年,智者、思想家和勇敢的科学先驱们,或统称为人民,逐渐摒弃了上帝按其意愿创造了人和物质世界的信仰。
他们发现人类有智慧,用思维,佐以观察或实验,就能够发现各种谜一样的自然活动和人们自己。
他们用思维与似乎瞬息万变的现象抗争,并将理性之光洒于其上。
先驱的态度是理性的、批判的和反宗教的。
由于他们的态度较好,终于得出了这样一些结论:自然和人类社会是有序的,按完美的设计而恒定地运行着,从星体的运动到树叶的颤动,从人们的行为到人们的观念,所有感官能感知的东西都能用一种精确、和谐而理想的①我们实在想不通,用“发现”和“发明”哪个词更符合实际。
形式来描述。
用土话说,自然和社会都是有规律的,这种规律虽然不受人的主观意志的影响,却能被人的思维所理解。
统计学的成功案例和警示故事
The odds of finding two identical fingerprints were 1 in 64 billion.
—Francis Galton
两个随机个体具有相同DNA 图形的概率为3×10-11;如 果同时用两种探针进行比较, 两个个体完全相同的概率小 于5×10-19。
Moral of the story
Median Quartiles Extremes
Males (87 Students)
110
95
120
55
150
Females (102 Students)
89
80
95
30
130
Simple summaries of data can tell an interesting story and are easier to digest than long lists.
Responses to “What’s the fastest you’ve ever driven?”
Dotplot
MALES
Fastest speed (mph)
FEMALES
Fastest speed (mph)
Responses to “What’s the fastest you’ve ever driven?”
Five-number summary
ห้องสมุดไป่ตู้
Males
Females
(87 Students)
(102 Students)
Median
110
89
Q一ua条rt平ile均s 水深905.4m河流绝不1会20比一个8平0 均水深0.6m95
数学故事《统计分析》
数学故事《统计分析》数学故事:《统计分析》摘要本文通过一个有趣的故事介绍统计分析的概念和方法。
故事以两位主人公小明和小红的研究项目展开,他们分别收集了一组数据,并利用统计分析方法对数据进行了深入的分析和解读。
本文旨在帮助读者了解统计分析的基本原理,掌握常用的统计分析方法,并能够将这些方法应用到实际问题中。
故事背景小明和小红是同一所大学的研究生,他们分别选择了不同的研究方向进行研究。
小明的研究方向是心理学,他收集了一组关于人们消费惯的数据;小红的研究方向是生物学,她收集了一组关于植物生长的数据。
他们希望通过对这些数据的统计分析,得出有意义的结论。
统计分析方法描述性统计分析描述性统计分析是对数据进行概括和描述的方法。
小明和小红首先对收集的数据进行了描述性统计分析。
他们计算了数据的平均值、中位数、众数等统计量,并对数据进行了图表展示,如条形图、折线图等。
通过描述性统计分析,他们可以对数据的整体分布和特征有一个初步的了解。
推断性统计分析推断性统计分析是基于描述性统计分析的结果,对总体数据进行推断和预测的方法。
小明和小红利用推断性统计分析方法,对数据进行了假设检验和置信区间估计。
他们提出了研究假设,并利用样本数据进行了假设检验,以判断研究假设是否成立。
同时,他们还计算了置信区间,以估计总体参数的可信范围。
通过推断性统计分析,他们可以对研究问题进行更深入的探讨和解释。
回归分析回归分析是研究两个或多个变量之间关系的方法。
小明和小红利用回归分析方法,研究了消费惯与其他因素之间的关系。
他们选择了消费金额作为因变量,其他可能影响消费的因素作为自变量,建立了回归模型。
通过回归分析,他们可以了解不同自变量对消费金额的影响程度,并得出相应的结论。
方差分析方差分析是研究多个组别之间差异的方法。
小明和小红利用方差分析方法,比较了不同人群在消费惯上的差异。
他们将人群分为两个组别,分别是一般消费者和重度消费者,并计算了两个组别在消费金额上的方差。
统计学故事
统计学基本原理——赌场的故事赌场为什么赚钱?没有任何trick,统计学原理。
?例子。
我有100块钱,你有10块钱,我们扔硬币,头算你赢1块,字算我赢1块。
规则:赌到输完才许结束。
那么问,各自的胜负概率多少?我赢到你的10块钱的几率大于90%!这个就是统计学基本原理。
?赌场。
庄家资金大概是入场赌徒的资金的千倍或者万倍,如果扔硬币,赌徒的胜率会有多少?自己算一下吧,0.00..01%。
因此,庄家允许玩一些花样,一方面提高赌徒的玩兴,一方面允许庄家在每笔小赌中胜率略小于50%:没关系,表面上你赢的多,最后都是我的,嘿嘿,这就是庄家。
?具体庄家胜率能小到多少?跟怎样的赌徒可以玩怎样的胜率?这些是无数赌场百年来经验积累,为什么不用统计学算一下呢??当然,你可以argue。
?1,我干吗赌完才走?我赢到满意了就走。
这种小赌徒有,但是不输到精光不停才是真正的赌徒,赌场主要生意面向真正的赌徒。
小赢就跑的人毕竟不多,对赌场没有大的损失,反而做了活广告,——“瞧,这家赌场多好玩,还能赚钱,大家以后都去阿~~~”?2,虽然庄家胜率极高极高,但是庄家只有一个,赌徒多阿~~~ ‘人海战术’打败庄家。
统计上说,多次贝努利实验的结果也是很容易算的。
赌徒数线性增长,赌场的胜率减弱却是级数型。
注意:级数增长是很可怕的,但是级数减弱缓慢得让人挠头发火。
人多到把赌场挤爆都不一定能扭转局面,庄家此时已经赚得笑不动了。
?因此,最严谨的科学——数学说:你赢不了赌场;你每次下注赢回的期望值都是正的,但是你每次去赌场回家时口袋里的期望值是零;赌钱就是happy一下,千万别沉迷。
激励我们一生的几个经典故事??? 1、勤奋,机会,乐观是成功的三要素。
(注意:传统观念认为勤奋和机会是成功的?要素,但是经过统计学和成功人士的分析得出,乐观是成功的第三要素)??? 2、(一般情况下)不想三年以后的事,只想现在的事(现在有成就,以后才能更辉煌)??? 3、把问题看宽广些,没有解决不了的事。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计学的故事纪宏袁卫文2004年1月第一回人类发现①了统计统计改变了世界若想了解上帝在想什么,我们就必须学统计,因为统计学就是在量测他的旨意。
——南丁格尔列位,一般故事或小说的开头总是写的比较虚,没有什么干货,只是交代一些背景。
平均说来,到了第三回主要人物才出现,到了第五回矛盾冲突才展开。
本文也决不敢例外。
大千世界,芸芸众生,悠悠上下五千年,坐地日行八万里。
这个世界所在的宇宙真奇妙,时间上没头没尾,空间上没边没沿。
世界上的万物真复杂,自然界和人类社会好像都受到某种力量和规律的支配,可怜的是我们还无法确切地认识、把握这些力量和规律,偶然事件常常捉弄我们的命运。
这个世界上的人们真倔,非要把这个很难描述的世界,包括客观世界和我们的主观世界整明白不可,大到宇宙空间,小到基因和纳米,探索者前仆后继,没完没了。
任何值得一提的文明都探索过真理,冥思苦想的人们尽管不能完全确切的,但总是试图解释复杂多变的自然现象和人类自身。
在很早很早以前,人们认为自然是神秘、无序,甚至是恐怖的。
而人类自身也有很多谜题,例如,人类为何定居在这个地球上,人生的目的是什么,人类的终极归宿何在,等等。
这些问题的答案一般是由宗教领袖给出的。
过了很多很多年,智者、思想家和勇敢的科学先驱们,或统称为人民,逐渐摒弃了上帝按其意愿创造了人和物质世界的信仰。
他们发现人类有智慧,用思维,佐以观察或实验,就能够发现各种谜一样的自然活动和人们自己。
他们用思维与似乎瞬息万变的现象抗争,并将理性之光洒于其上。
先驱的态度是理性的、批判的和反宗教的。
由于他们的态度较好,终于得出了这样一些结论:自然和人类社会是有序的,按完美的设计而恒定地运行着,从星体的运动到树叶的颤动,从人们的行为到人们的观念,所有感官能感知的东西都能用一种精确、和谐而理想的①我们实在想不通,用“发现”和“发明”哪个词更符合实际。
形式来描述。
用土话说,自然和社会都是有规律的,这种规律虽然不受人的主观意志的影响,却能被人的思维所理解。
又过了很多很多年,经过无数人大胆的观察、敏锐的猜想、天赋的直觉和一不怕苦二不怕死的精神,建立了现代科学的理论体系和思想体系。
在天文学、物理学、生物学、人文社会科学以及数学和哲学等领域都取得了重大成果。
虽然数百年来,科学和哲学的门派林立,各自有各自的掌门人,各自占据着各自的山头,都因自己发现真理而笑傲江湖。
但有一个基本观点被大多数人承认,即这个世界是有规律的。
我们是否可以用身边的事和通俗的语言解读一下科学巨匠们所研究的规律。
请想一想,我们身边经常发生的重复出现的、有规律的现象:太阳每天从东方升起,冬天过去春天就要来临,物体失去支撑就会坠落,“神舟五号”飞航按设计的轨道运转,经济按市场规则运行,奔波的人们按自己的哲学度日。
对不同领域中的规律进行探索和描述便形成了不同的学科。
将不同学科的理论、方法、思想进行提炼,便形成了哲学、数学、统计学这样一些横断科学。
同时,我们在发现我们周围的事物没有任何一次重复是完全的“克隆”,没有任何东西会把一切细节完全重复出来。
太阳每天从东方升起,但天安门广场上与太阳同时升起的国旗其升旗时间却每天不同;冬天过去春天就要来临,但今年的春色比去年更加明媚;物体失去支撑就会坠落,但受风速、风向、地心引力等很多细小因素的影响,两个同样重的物体坠落速度和落点会有差别;“神舟五号”飞船按设计的轨迹运转,但每次经过我国领空的时间都略有差距;经济按市场规则运行,但今年的GDP比去年增长8%;奔波的人们按自己的哲学度日,但一年又一年我们的生活逐渐发生了改变。
因此,任何科学都只能预见大体上的重复现象。
行笔至此,我们是否感到统计学太重要了。
统计学就是通过差异描述规律;透过现实走向理性,走出混沌,走向秩序的学科。
“可以毫不夸大地说,现代科学的发展是在关注大数目现象的标志下进行的,很快就不会有不了解研究的随机性——统计方法的知识分支了”。
的确,理、工、农、医、文,今天很难找到一个不使用统计的学科了,它在解决现代科学的那些最重要的和最多样化的课题中起着主导作用。
统计学是科学的“母亲”和“仆人”。
说她是“母亲”,因为统计学为其他学科起着孕育、生产新思想的作用;说她是“仆人”,因为统计学是其他学科的工具,用统计规律逼近客观规律的工具。
但是,故事总有插曲,关于统计学客观基础问题的争论,从来未停止过。
从古希腊思想家那里开始到现在,一直存在两种对立的意见。
一种意见认为,世界的本质是确定的,随机性只是由于人们认识的局限性而产生的噪音,他们总是将所有现象都解释成无微不至的事物秩序所产生的结果,在事物的重复出现中会因很多细节而产生差异,但这种差异只是目前人们还不了解这些细节而已。
统计学只是对随机性差异的度量,是主观内容的范畴,在客观世界中没有什么对应他们的东西。
虽然,统计学在科学研究中起着重要作用,但这个作用只是在认识过程中由相对真理到绝对真理的迈进中的作用。
因而,这种意见认为,只有数学才能牢固把握客观世界的所作所为,能瓦解玄秘并代之以规律和秩序。
而统计学则是由于人力所不及不得已而为之的方法,其基础不是客观的,只是人们知识不足和信息不完备的代名词,虽然统计学是我们人类自己发明的探索客观规律最好用的方法,但数学才是上帝的宠儿,统计学只是人类的智慧。
爱因斯坦给波尔的一封信中有这样一句名言:“你信仰掷骰子的上帝,我却信仰客观存在的世界中完备的定律和秩序”。
←文中暗表,那个时期人们所说的上帝似乎有两种意思,一种意思是神学中的上帝,和中国的玉皇大帝、灶王爷之类的东西相似;另一种意思是好像是指不为人们的意志为转移的客观规律,斯密的“看不见的手”与其有点相近。
在那个神学和科学混合的时代,这两种意思很难分清楚,只好麻烦读者自己判断。
直到20世纪初,科学界一直是这种观点,即机械决定论占统治地位。
牛顿力学被称为科学思想的典范,学者们总是力图使科学规律符合严格确定性的理想。
关于统计学客观基础问题的另一种意见认为,随机性本身也是客观的,统计学则反映的是知识体系中不依赖于人的关于客体的内容,上帝和人间的赌徒一样,也喜欢掷骰子。
有一个著名的故事:拉普拉斯把他写的《天体力学》献给拿破仑。
《天体力学》是一本极具影响力的书,描述了如何根据地球上的观测数据,来计算行星与彗星的位置。
拿破仑看后说:“拉普拉斯先生,你写了这本关于宇宙系统的书,却根本没有提到他的创造者——上帝”。
据传说,拉普拉斯回答道:“我不需要这个假设条件”。
拉普拉斯的《天体力学》虽不需要上帝,但它需要另一种东西,叫误差函数。
从地球上观测行星与彗星的位置与预测值并不完全吻合,拉普拉斯将其原因归结为观测误差,包括随机误差和人为误差,并都放入误差函数中。
当时的科学家都←《爱因斯坦文集》商务印书馆1976年版,第415页。
认为,随着测量越来越精确,最后一定不再需要这项误差函数。
谁知,到19世纪末,随着测量越来越精确,反而越来越测不准了。
最终人们发现,这些误差一方面是由于测量技术问题,另一方面是由于被测量的客体本身具有随机性。
机械式的宇宙观开始动摇,一些企图寻找生物学定律和社会学定律的努力也徒劳无功,甚至有些传统学科领域,如物理学和化学当时所用的那些定律,也被认为仅仅是粗略的逼近。
科学家从理论上和实践上都充分证实了严格决定论对描述客观现象的不适应性和不可归结性。
布朗运动、混沌动力学、量子力学、耗散结构都证明了经典决定论已逐渐向统计决定论转移。
人们的科学观念发生了新的变化。
自然和社会中不规则、不连续、不稳定、非平衡的领域不断扩大,其中充满了涌现、转化、意外和机遇。
科学探索也达到了这样的境界:科学家对客观事物的描述和预测的精度已不能通过改进操作技巧,提高测量的精密度加以改善,他们发现根本没有可能发现严格的因果依赖性,可以找到的只是统计的因果规律。
您瞅瞅,统计的用处有多大,尽管统计学的客观基础问题还在争论不休,但统计已改变了世界,已成为科学与管理的工作母机,现在,谁也离不开统计了。
人们形容一个智障的人时常说:“这个人缺数”,译成专业术语就是:“这个人不懂统计”。
统计也成为现代人基本素质的构成要素,成为我们世界观的一个组成部分。
人类的处境挺可怜的,我们是广褒宇宙中的流浪汉,孤单地生存在一个冷酷、陌生的空间里。
我们可能是在最近一个冰川期后起源的,在自然的劫后余迹前孤立无援,生存在茫茫的时间中。
我们依靠地球提供衣食,我们每个个体的出生都是随机事件的牺牲品。
为了解决生命的寂寞、穷困、艰险和短暂,我们要与天斗、与地斗,不知为什么还非要与人斗。
斗争中却也其乐无穷,凭着一点有限的感性知识和大脑,人类开始探究自然和自身,寻求真理和秩序,建立可以帮助我们获取有关生存环境奥妙的知识体系和解释模型,而我们的辉煌成就之一就是统计学。
尽管我们现在还不很清楚,统计学的出现是由于人的聪明,还是“天籁之音”。
多少年来,在深奥的学术争论和枯燥的统计数据背后,有好多美丽的故事和动人的传说。
我们试图收集一些讲给大家听。
一般故事中没有美女,便不引人入胜,为满足大家对美的渴望,本文下期便有美女出现,请君欣赏,请看第二回:美女午间品茶费雪突发灵感。
参考文献:[1]《统计,改变了世界》萨尔斯伯格著,叶伟文译,台湾天下文化书坊,2002.4[2]《世界统计名人传记》龚鉴尧著,中国统计出版社,2001.1[3]《统计发展史》陈善林、张浙编著,立信会计图书用品社,1987.9[4]《殴美统计学史》高庆丰,中国统计出版社,1987.8第二回美女午后品茶费雪突发灵感养猴人心中暗笑:“朝四暮三和朝三暮四,不是都等于七吗?这畜牲就是不如人聪明。
”猴子们窃窃私语:“朝四暮三和朝三暮四,虽然吃到肚子里都等于七,但朝四暮三更符合早吃饱,晚吃少的科学道理,不信去问问费雪。
人虽然比我们聪明,但没学过统计的人,智商还真不如我们高。
”——新《齐物论》二十世纪二十年代后期的一个夏日午后,一群风度翩翩的学者偕夫人及漂亮的女友,正在英国剑桥的户外餐桌旁,悠闲的品茶论道。
席间,一位美丽的女士惊呼,午茶的调制顺序对味道有很大影响。
把茶加进牛奶里和把牛奶加进茶里,喝起来风味完全不同。
出于对女性的尊重,那些学者们面带绅士的微笑,内心却不以为然,甚至是藐视,依据他们的科学头脑分析,茶和牛奶两种物质混合结果的化学成份不会因为调制顺序不同而产生不同,怎么会喝起来不一样呢?文中暗表,这个命题的假定前提是不论调制顺序如何,牛奶和茶的比例是固定的或是基本不变的。
美丽女士提出的问题是朝四暮三和朝三暮四的关系,而不是朝四暮三和朝四暮四的关系。
古板的英国绅士一定会把古板的精神带到生活细节中,所以这个假设前提一般会成立。
书归正传,正当众学者对美丽女士的说法嗤之以鼻时,有个身材瘦小的,嘴上留着灰白胡子的绅士挺身而出,抓住了这个问题。