统计学基础回顾__2013

合集下载

统计学笔记

以下是统计学中的一些基本概念和知识，供参考：
统计学基本概念
总体与样本：总体是研究对象全体的集合，样本是从总体中抽取的一部分元素的集合。

变量：用来描述数据的名称或符号。

数值变量与分类变量：数值变量是可度量的数据，如身高、体重等；分类变量是定性数据，如性别、血型等。

参数与统计量：参数是描述总体特征的指标，如总体均值、总体方差等；统计量是从样本中计算出来的指标，如样本均值、样本方差等。

描述性统计
频数分布表：将数据分为若干个组，统计每个组内的数据个数。

直方图：用直条矩形面积代表各组频数，矩形的面积总和代表频数的总和。

平均数：描述数据集中趋势的指标，计算方法有算术平均数、几何平均数、调和平均数等。

标准差：描述数据离散程度的指标，表示数据分布的宽窄程度。

概率与概率分布
概率：描述随机事件发生的可能性大小的数值。

概率分布：描述随机变量取值的概率规律的函数。

常见的概率分布有二项分布、泊松分布、正态分布等。

参数估计与假设检验
点估计：用单一的数值估计未知参数的值。

区间估计：用一定的置信水平估计未知参数的范围。

假设检验：根据样本数据对未知参数进行检验，判断假设是否成立。

常见的假设检验方法有t检验、卡方检验、F检验等。

相关分析与回归分析
相关分析：描述两个变量之间的线性关系的强度和方向。

回归分析：基于自变量和因变量之间的相关关系建立数学模型，用于预测因变量的值。

常见的回归分析方法有线性回归、逻辑回归等。

(有答案)统计学2013-2014第1学期单选题复习资料

第1章选择题1．指出下面的变量哪一个属于分类变量（）DA．年龄B．工资C．汽车产量D．购买商品时的支付方式（现金、信用卡、支票）2．指出下面的变量哪一个属于顺序变量（）DA．年龄B．工资C．汽车产量D．员工对企业某项改革措施的态度（赞成、中立、反对）3．指出下面的变量哪一个属于数值型变量（）AA．年龄B．性别C．企业类型D．员工对企业某项改革措施的态度（赞成、中立、反对）4．某研究部门准备在全市200万个家庭中抽取2000个家庭，推断该城市所有的职工家庭的年人均收入。

这项研究的总体是（）BA．2000个家庭B．200万个家庭C．2000个家庭的人均收入D．200万个家庭的人均收入5．某研究部门准备在全市200万个家庭中抽取2000个家庭，推断该城市所有的职工家庭的年人均收入。

这项研究的样本是（）AA．2000个家庭B．200万个家庭C．2000个家庭的人均收入D．200万个家庭的人均收入6．某研究部门准备在全市200万个家庭中抽取2000个家庭，推断该城市所有的职工家庭的年人均收入。

这项研究的参数是（）DA．2000个家庭B．200万个家庭C．2000个家庭的人均收入D．200万个家庭的人均收入7．某研究部门准备在全市200万个家庭中抽取2000个家庭，推断该城市所有的职工家庭的年人均收入。

这项研究的统计量是（）CA．2000个家庭B．200万个家庭C．2000个家庭的人均收入D．200万个家庭的人均收入9．一家研究机构从IT从业者中随机抽取500人作为样本进行调查，其中60%回答他们的月收入在5000元以上，50%回答他们的消费支付方式是信用卡。

这里的“月收入”是（）CA．分类变量B．顺序变量C．数值型变量D离散型变量10．一名统计学专业的学生为了完成其统计作业，在《统计年鉴》中找到了2006年城镇家庭的人均收入数据。

这一数据属于（）CA．分类数据B．顺序数据C．截面数据D．时间序列数据13．某大学的一位研究人员希望估计该大学本科生平均每月的生活费支出，为此，他调查了200名学生，发现他们每月平均生活费支出是500元，该研究人员感兴趣的参数是（）BA．该大学的所有学生人数B．该大学所有本科生的月平均生活费支出C．该大学所有本科生的月生活费支出D．所调查的200名学生的月平均生活费支出14．某大学的一位研究人员希望估计该大学本科生平均每月的生活费支出，为此，他调查了200名学生，发现他们每月平均生活费支出是500元，该研究人员感兴趣的统计量是（）DA．该大学的所有学生人数B．该大学所有本科生的月平均生活费支出C．该大学所有本科生的月生活费支出D．所调查的200名学生的月平均生活费支出15．在下列叙述中，采用推断统计方法的是（）BA．用饼图描述某企业职工的学历构成B．从一个果园中采摘36个橘子，利用这36个橘子的平均重量估计果园中橘子的平均重量C．一个城市在一月份的平均汽油价格D．反映大学生统计学成绩的条形图16．一项民意调查的目的是想确定年轻人愿意与父母讨论的话题。

统计学第八章课后题及答案解析

第八章一、单项选择题1．时间数列的构成要素是（）A．变量和次数 B．时间和指标数值C．时间和次数 D．主词和时间2．编制时间数列的基本原则是保证数列中各个指标值具有（）A．可加性 B．连续性C．一致性 D．可比性3．相邻两个累积增长量之差，等于相应时期的（）A．累积增长量 B．平均增长量C．逐期增长量 D．年距增长量4．统计工作中，为了消除季节变动的影响可以计算（）A．逐期增长量 B．累积增长量C．平均增长量 D．年距增长量5．基期均为前一期水平的发展速度是（）A．定基发展速度 B．环比发展速度C．年距发展速度 D．平均发展速度6．某企业2003年产值比1996年增长了1倍，比2001年增长了50%，则2001年比1996年增长了（）A．33% B．50%C．75% D．100%7．关于增长速度以下表述正确的有（）A．增长速度是增长量与基期水平之比 B．增长速度是发展速度减1C．增长速度有环比和定基之分 D．增长速度只能取正值8．如果时间数列环比发展速度大体相同，可配合（）A．直线趋势方程 B．抛物线趋势方程C．指数曲线方程 D．二次曲线方程二、多项选择题1．编制时间数列的原则有（）A．时期长短应一致 B．总体范围应该统一C．计算方法应该统一 D．计算价格应该统一E．经济内容应该统一2．发展水平有（）A．最初水平 B．最末水平C．中间水平 D．报告期水平E．基期水平3．时间数列水平分析指标有（）A．发展速度 B．发展水平C．增长量 D．平均发展水平E．平均增长量4．测定长期趋势的方法有（）A．时距扩大法 B．移动平均法C．序时平均法 D．分割平均法E．最小平方法三、填空题1．保证数列中各个指标值的_______是编制时间数列的最主要规则。

2．根据采用的基期不同，增长量可以分为逐期增长量和_______增长量两种。

3．累积增长量等于相应的_______之和。

两个相邻的_______之差，等于相应时期的逐期增长量。

840统计学基础 -回复

840统计学基础-回复什么是统计学基础？统计学基础是指统计学的基本概念、原理和方法论。

统计学从数量数据中提取有关现象和问题的信息，并从这些信息中做出推断和预测。

它是一门研究数据收集、分析、解释和呈现的学科，广泛应用于各个领域，包括社会科学、自然科学、经济学、医学等。

统计学基础包括以下重要内容：数据类型、数据汇总和描述、概率论、统计推断和假设检验。

一、数据类型数据可以分为定量数据和定性数据。

定量数据是以数值形式表示的数据，可以进行计量和统计分析，如身高、年龄、体重等。

定性数据是不能进行计量和统计分析的数据，只能进行描述性分析，如性别、颜色、品种等。

二、数据汇总和描述数据汇总是将原始数据进行汇总和整理的过程。

常见的数据汇总方法包括频数分布表、频率分布表和累积频数分布表。

数据描述是通过图表和指标对数据进行总结和描述，常见的数据描述方法包括直方图、条形图、饼图、折线图、散点图、平均数、中位数、众数和标准差等。

三、概率论概率论是研究随机事件发生概率规律的数学理论。

概率可以从频率的角度解释为事件发生的可能性。

概率论有助于理解和解释随机事件的规律性，并为统计学的推断和假设检验提供了基础。

四、统计推断统计推断是根据样本数据推断总体数据的过程。

通过从总体中抽取样本数据，统计学家可以推断有关总体的特征和参数。

常用的统计推断方法包括估计和假设检验。

估计可以根据样本数据推断总体参数的值，包括点估计和区间估计。

假设检验可以根据样本数据判断总体假设的成立性。

五、假设检验假设检验是通过样本数据判断总体假设的成立性的统计方法。

假设检验分为参数检验和非参数检验。

参数检验是对总体参数进行假设检验，包括均值、比例和方差等；非参数检验是对总体分布进行假设检验，如两样本的独立性、相关性和配对性等。

统计学基础是统计学的基石，掌握统计学基础对于进行科学研究和数据分析是非常重要的。

通过了解和运用统计学基础，我们可以更好地理解数据，提取数据中的有用信息，并对数据做出合理的解释和推断。

统计学基础(六套卷)

第一套一、填空1. 统计数据的直接来源主要有两个渠道：一是；二是。

2.统计的含义包括三个方面，它们是。

3.按照计量层次分类，统计数据可以分为：。

4.按照时间状况分类，统计数据可以分为：。

5.按照收集方法分类，统计数据可以分为：。

6.8、9、12、7、11、13、9、11、8、10以上10个数据的平均数是，中位数是，方差是。

7.在大样本的检验方法中，当总体方差2σ未知时，可以用样本方差2s 来近似代替总体方差，此时总体均值检验的统计量为：。

8.判定系数2R =（请用SSR SSE SST 、、表示）。

9.一般将时间序列的构成要素分成四种，即。

10.已知11p q 为报告期的销售额，10/p p 是对个体的价格指数，则价格指数的加权平均调和形式的计算公式为：。

二、单项选择1.下列数据属于品质数据的是()A.顺序数据B.截面数据C.观测数据D.实验数据 2.对一批小麦种子进行发芽率试验，这时总体是() A 该批小麦种子 B 该批小麦的发芽率 C 该批小麦中发芽的种子 D 该批小麦的发芽率3.已知均值为μ，方差为2σ的总体中，抽取容量为n 的随机样本，当n 充分大时，样本的均值和方差近似等于() A.2n nμσ B.2nμσ C. 2μσ D. 2nσμ4.下列散点图中表示非线性相关的图为( )A BC D5.在右侧检验中，利用P 值进行检验时，拒绝原假设的条件是( ) A. P α>值 B. P β>值 C. P α<值 D. P β<值三、判断题1.分层抽样除了可以对总体进行估计外，还可以对各层的子总体进行估计。

2.平均指标反映了现象总体的规模和一般水平,但掩盖了总体各单位的差异情况，因此通过平均指标不能全面认识总体的特征。

()3.总体分布为非正态分布而样本均值可能为正态分布。

( )4.抽样误差由于事先可以进行控制或计算的，所以这类误差通常是可以消除的。

( )5.在单独求一组数据计算标准差时，公式下方虚线处应为1n -四、简答题1. 河南大学数学院为了增加学生们的学习积极性，推行了一套新的制度，通过一学期的试行，由最终的成绩决定是否继续执行。

2013统计学课后习题答案

应用统计学2011级工商管理专2班秦明全第一章总论一.单项选择1.C2.B3.D4.A5.D6.A7.A8.D9.C 10.C二.填空题1.连续性离散型2.指标名称指标数值3.不变标志变异标志4.数量标志变量值5.某种综合数量特征的名称和具体数值6.有限总体无限总体7.数量品质三.判断题1.√2.×3.√四.简答题1.统计指标和标志的关系？答：区别：1.标志的说明总体单位属性的，一般不具有综合的特征；指标是说明总体综合数量特征的，具有综合的性质。

2.统计指标都可以用数量来表示；标志中，数量标志可以用数量来表示，品质标志只能用文字表示。

联系：1.统计指标的指标值是由各单位的标志值汇总或计算得来的；2.随着研究目的的不同，指标与标志之间可以相互转化。

2.什么是统计总体？它的特点是什么？答：a统计总体简称总体是我们要调查或统计某一现象全部数据的集合。

b统计总体的基本特征：总体和总体范围的确定，取决于统计研究的目的要求。

而形成总体的必要条件，亦即总体必须具备的三个特性：1大量性2同质性3变异性举例：大量性：所有的工业企业;同质性：在性质上每个工业企业的经济职能是相同的，都是从事工业活动的基本单位; 变异性：每个工业企业从事的活动内容不同，企业法人不同，员工人数不同3.什么是总体和总体单位？其关系如何？答：a总体：是一个统计问题中所涉及个体的全体。

b总体单位：是构成总体的各个个别单位，它是组成总体的基本单位，也是调查项目的直接承担者。

如：对工业企业进行调查，全国工业企业是总体，每一个工业企业就是单位。

若研究目的不同，总体和总体单位可以互换，总体有可能变成总体单位，总体单位有可能变成总体。

c①同质性。

构成总体的各个单位必须具有某一方面的共性，这个共性是我们确定总体范围的标准②大量性。

总体是由许多单位所组成的，而不是只有个别单位。

③差异性。

总体单位之间，除了必须在某一方面有共性之外，在其他方面必然存在差异。

统计学基础复习题

《统计学基础》考试复习题2013年12月一、单项选择1.对某市工业企业设备进行普查，调查对象是（）。

A.每一台设备B.各工业企业全部设备C.每一个工业企业D.全部工业企业2. 人均GDP属于（）。

A.平均指标B.比例相对指标C.强度相对指标D.结构相对指标3.按某一标志分组的结果表现为（）。

A．组内差异性，组间同质性 B．组内同质性，组间同质性C．组内同质性，组间差异性 D．组内差异性，组间差异性4.某商店2006年完成商品销售额200万元，2007年计划增长10%，实际完成231万元，超额完成计划（）。

A、5.5%B、5%C、115.5%D、15.5%5.权数本身对加权算术平均数的影响，取决于（）。

A.权数所在组标志值的大小B. 权数绝对数值的大小C.各组单位数占总体单位数比重的大小D. 总体单位数的大小6.某连续变量数列，其末组组中值为520，又知其相邻组组中值为480,则末组的下限为( )。

A、520B、510C、500D、4907.如果要对某类型号炮弹的杀伤力进行检测，则应该采用（）进行调查。

A、统计报表B、抽样调查C、重点调查D、典型调查8.时间数列中，每个指标值可以相加的是（）。

A.时点数列B. 时期数列C.平均数数列D.相对数时间数列9.平均指标的基本计算形式是( )。

A.算术平均数B.调和平均数C.几何平均数D.加权算术平均数10. 国有工业企业设备普查中，每个国有工业企业是（）。

A.调查单位B. 既是调查单位也是填报单位C. 既不是调查单位也不是填报单位D.填报单位11.三名学生的英语成绩分别为95、87和68分，这三个数值是（）。

A、变量值B、数量标志C、质量指标D、数量指标12.下列指标中属于时点指标的有（）。

A、利润总额B、人口数C、国民生产总值D、产量13. X与Y的相关系数r值为-0.98，P与Q的r值为0.95，说明（）。

A.前者的相关程度没有后者密切B.前者的相关关系比后者密切C.两者都是正相关D.两者都是负相关14.已知变量X与变量Y之间存在着正相关，指出下列回归方程中哪个肯定是错的（）。

体育统计学复习材料2013年

填空或判断：1、从性质上看，统计科分为两类：一类是描述性统计(主要针对事物的某些特征及状态进行实际的数量描述)，另一类是推断性统计(通过样本的数量特征以一定的方式估计、推断总体的特征）。

2、体育统计的基本过程是：统计资料的搜集——统计资料的整理——统计资料的分析。

3、体育统计的研究对象除了体育领域的随机现象外，还包括非体育领域但于体育有着一定联系的其他系统的随机现象。

4、体育统计研究对象的特征：运动性特征、综合性特征、客观相特征。

5、现存总体又可分为有限总体和无限总体。

6、随机变量两种类型：一是连续型变量；二是离散型变量。

7、随机变量的规律主要体现在它的概率和分布两个方面。

8、收集资料的基本要求：资料的准确性、资料的齐同性、资料的随机性。

9、简单随机抽样分为：1、抽签法2、随机数表法。

10、P27原始变量的平均数的计算公式：x=A+x’’*I=A+∑fd/∑f*I11、P30标准差的直接求法:√∑x2-(∑x）2/n/-112、P32标准差的简捷求法：13、P37变异系数(CV)其数学表达式为：CV=S/x-*100%14、对于任一均数为μ，标准差σ的随机变量X的正态分布，都可以作一个变量代换，即u=x-μ/σ.可替换为u=x—x-/S.15、标准正态分布的峰值出现在μ=0处，U变量服从参数为μ=0，σ=1的正态分布，记为U~N(0，1^2).16、P74综合评价模型的分类及其公式：1平均型综合评价模型公式：W=∑xi/n.2加权平均型综合评价模型公式：W=∑kixi (∑ki=1)17、P75几种同一变量单位的方法及公式：1、U分法公式u=x—x-/S 2、Z分法3、累进计分法公式y=kD^2-Z 4、百分位数法xi成绩的百分位数=（xi-组下限）组内数/组距+组前累计频数/n*100%。

18、统计推断的基本任务两点：一是用样本统计量来估计总体参数，即参数估计；二是通过样本的统计指标来判定总体参数是否相等的问题，即假设检验。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

53
• T检验的意义
– 如果没有这一发现，统计分析注定要使用无限次的回归。
• 没有“student”的t检验，分析者将不得不估计观测数据的4个参数，再估计这4个参数估计值的4个参数，接着估计4个新估计值的4个参数……
– Gosset 表明，分析者可以在第一步就停止这种899年从牛津大学毕业（数学和化学），进入爱尔兰都柏林的吉尼斯酿造公司。
47
• Gosset的第一项研究
– 麦芽浆准备发酵时，需要仔细地测量所用酵母的量。 – 酵母是活的有机体，酵母的培育需要保持鲜活，加入麦芽浆前它在瓶中的液体里繁殖。 – 工人需要测量清楚某个瓶中有多少酵母，以便决定用多少液体。 – 他们提取一定量的液体，在显微镜下检验，计量他们所看到的酵母细胞数。
37
K. Pearson 的革命性观念
• 任何实验结果都不是真实的。
• 它们是一组散布的数据，或者说一个数据分布中的样本。 • 数据的分布可以写成公式。
– 单个实验的结果是随机的，在这个意义上，数值是不可预测的，我们只能谈论概率值而非真实值。 – 但是分布的统计模型能使我们描述这种随机的数学性质。
43
• Pearson的视角：
– 开普勒所追踪的“行星”，实际上是用来给地球上的观测者所看到的天空中微弱光点定位的一组数据。 – 一匹马身上血液流动的实际情况，也许与在另一匹马或一个人身上可能看到的不同。 – 没有人能够生产出纯铁的样本，尽管谁都知道铁是一种元素。
44
Pearson的革命性观念
相关系数
32
偏斜分布
• 关于科学的成见：
– 科学就是测量。
– 我们精心测量，并用它寻找描述大自然的
数学公式。
• 如测量重力加速度g
33
• 测量带来的麻烦
– 测量得越多，困惑越多：
• 不同的实验，得出不同的“g”值
34
• 为何如此？
– 工作草率？ – 不够细致？ – 抄错了数据？
35
• 一个不是秘密的秘密
38
K. Pearson 的革命性观念
• 回顾：拉普拉斯的科学观念和误差函数
– 坚持数学公式的精确性，将观测值和预测值之间的离差视作微小的、无关紧要的误差。 – 误差函数：钟形曲线（正态分布）
39
Pearson的革命性观念
• 测量值本身，而不是测量的误差，就具有一种正态分布。 • 我们所测量的，其实是随机分布的一部分，其概率可以用数学函数（分布函数）描述。
– 真正存在的是单位液体中酵母细胞的概率分布。
49
• Gosset检验了数据，确定酵母细胞的数量可用已知的Poisson分布来描述。
– 这样，Gosset就能设计规则和测量方法，congenial 得到对酵母细胞浓度更为精确的度量。 – 用Gosset的方法，吉尼斯能够生产质量更稳定的啤酒。
• Gosset将这一研究以“student”的名义发表于 Pearson主编的《生物统计》上。
17
好书推荐
18
女士品茶
– 时间：20世纪20年代，一个夏日的午后 – 地点：英国，剑桥，户外桌旁 – 人物：一群大学的绅士和他们的夫人，还有一些客人
• 一位女士：把茶加进牛奶里，还是把牛奶加进茶里，不同的做法，味道会不同。 • 如何检验这一问题？
（统计推断）
19
一个实验设计
• 假说问题：女士的断言。
– 越来越多的证据表明，在物理学和化学等传统学科中，牛顿和拉普拉斯所用的那些定律，只是粗略的逼近； – 试图发现生物学和社会学定律的努力也失败了。
• 科学发展的新范式：现实世界的统计模型
15
16
统计模型的基本信念
• 世界是充满不确定性（随机性）的
• 不确定的世界仍然是有规律可循的 • 把握不确定世界中的规律需要专门的方法
56
• 例如：
– 有两个重要指标服从正态分布，如果你正打算得出这样一个正态分布的那两个参数，那么你只需要收集约50个测量值就足够了。
40
Pearson的革命性观念
• K. Pearson发现了一组分布函数：Skew distribution（偏斜分布）。 • Pearson相信，这组函数可以描述科学家在数据中可能遇到的任何分布类型。
• 这组函数中的每一个分布由四个数字确定。
41
• 神奇的四个数字：四大参数
– 均值（mean）：测量值散布状态的中间值； – 标准差（the standard deviation）：测量值的散布与平均值偏离有多远；
50
“Student”的t检验
• The Probable Error of the Mean（平均数的可能误差），生物统计，1908年。 • 小样本问题
– Pearson：假定样本足够大，从而可以确保参数没有误差 – Gosset：如果是小样本呢？我们应该如何处理计算中肯定会出现的随机误差？
• • • • 正态分布卡方分布 t分布 F分布
55
正态分布 Normal Distribution
• 正态分布的极端重要性
– 正态分布只有Pearson四个参数中的两个：均值和标准差，另外两个参数偏度和峰度均为零。 – 只要知道这两个参数，其他就都一清二楚了。 – 这两个参数是sufficient estimator（充分估计量） – 如果有足够的测量值可以用来相当精确地估计出平均数和标准差，就不再需要其他任何测量值了。
• 那么，如何得到参数值？
• Pearson的回答：我们只要能搜集到足够的数据去估计参数，就会得到参数的真实值。 • Paradox：实际上我们永远都不能确定这四个参数的真实值，而只可能从数据中进行估计。
• 参数本身也只能得到其分布！
46
Gosset和t统计量
• William Sealy Gosset其人
– 将这些数据列成表格，并反复检验… – …以寻找利用父母的测度数据来推断子女特征的某些方法，如
28
偏斜分布
• 显然高个子的父母更容易有高个子的小孩。
• 但是否存在某些数学公式， • 只用父母的身高就可以预测孩子将有多高呢？
29
偏斜分布
• 相关与回归
– 高尔顿发现了“regression to the mean”的现象
• 所有观测到的现象，都只是随机的映像，都不是真实的，真实的是概率分布。 • 科学中真实的东西并不是我们所能观测到或者能把握住的，它们只能通过用来描述我们所观测到事物随机性的数学函数来反映。
• 科学研究中，我们真正要确定的是分布的四个参数。
45
Pearson的一个软肋
• Pearson的观念：我们不能确定真实值，而只能确定分布的参数。
– 是系列单元测试，还是每次考试都从考试前所教学的全部内容中选取一部分？
– 一个月考一次，一星期考一次，还是每天考一次？ – 。。。。。。
25
实验设计
是统计学中的重要问题
26
随机变量及其分布
27
偏斜分布
• 高尔顿的生物统计实验室
– 动员不同家庭来做测量
• 搜集身高、体重数据，测量特殊的骨骼和家庭成员的其他特性
统计学基础回顾
1
计量经济学和统计学之关系
• 统计学是计量经济学的基础
– 二者都希望能够识别出事物之间的因果关系 – 统计学在严格的假设前提下展开研究
– 计量经济学的研究常常不满足统计学所需的严格假设
• （数据可得性问题，可控实验与观测数据）
– 计量经济学是统计学基础上的发展
2
本讲的目的
• 回顾统计学的基本知识
21
实验设计的问题
• 应该为那位女士奉上多少杯茶？
• 这些茶应该按什么顺序奉上？ • 关于这些茶奉上的顺序，应该告诉那位女士多少信息？ • 。。。
22
类似的实验设计问题
• 老师该如何组织考试…
• …以准确掌握学生对知识掌握的情况？
• 面临的问题：任何一个单一的考试都不可能对学生的学习情况提供可靠地评估。
– 所有的实验都是草率的；
– 即使最精心的科学家，也很少得到确切的数值。
• 每个实验室都存在不可预见和不可观察的小扰动
– 室内空气可能过于潮湿 – 旁边飞过的昆虫可能造成气流的轻微扰动
36
K. Pearson 的革命性观念
• 人们从任何一个实验中得到的都是散乱的数据，其中没有任何一个单个数据是真实的，但所有这些数据可以用来对真实值进行近似的估计。
– 对现实世界的一切现象进行描述和预测需要
• 一套完整的公式 • 一组足够精确的数据
• 海王星的发现使得反对意见灰飞烟灭。
9
拉普拉斯不需要上帝
– 拉普拉斯写了一本书，论述如何根据地球上少数观察数据来计算行星和彗星的未来位置。 • 拿破仑：拉普拉斯先生，我发现你的论述中没有提到上帝啊！ • 拉普拉斯：我不需要这个假设条件。
10
拉普拉斯的确不需要上帝… …但他需要误差函数

观察到的星体位置，与公式的预测不完全吻合。
拉普拉斯和他的同事们将其归因于观察误差，并将所有误差都放入一个误差函数中。

11
12
• 当时的科学家相信：
• 随着测量日益精确，对误差函数的需求将逐渐消失。
13
“上帝不掷骰子。”
14
• 但到19世纪末，测量日趋精确，误差却也日益增多。
• 非常高的父亲，其儿子往往要比父亲矮一些 • 非常矮的父亲，其儿子往往要比父亲高一些
– 似乎存在某种神秘力量，使得人类身高从高矮两极移向所有人的平均值。 – 不止是人类身高如此，几乎所有的科学观察都着了魔似的向均值回归。
30
偏斜分布
• “向均值回归”的必然性：保持稳定性