统计学家高尔顿与回归分析的起源

合集下载

概率论发展简史

概率论发展简史

一、概率论发展简史1(20世纪以前的概率论概率论起源于博弈问题。

15-16世纪,意大利数学家帕乔利(L。

Pacioli,1445—1517)、塔塔利亚(N.Tartaglia,1499-1557)和卡尔丹(G.cardano,1501—1576)的著作中都曾讨论过俩人赌博的赌金分配等概率问题。

1657年,荷兰数学家惠更斯(C.Huygens,1629-1695)发表了《论赌博中的计算》,这是最早的概率论著作。

这些数学家的著述中所出现的第一批概率论概念与定理,标志着概率论的诞生。

而概率论最为一门独立的数学分支,真正的奠基人是雅格布•伯努利(Jacob Bernoulli,1654—1705)。

他在遗著《猜度术》中首次提出了后来以“伯努利定理”著称的极限定理,在概率论发展史上占有重要地位.伯努利之后,法国数学家棣莫弗(A。

de Moivre,1667—1754)把概率论又作了巨大推进,他提出了概率乘法法则,正态分布和正态分布率的概念,并给出了概率论的一些重要结果。

之后法国数学家蒲丰(C.de Buffon,1707—1788)提出了著名的“普丰问题",引进了几何概率。

另外,拉普拉斯、高斯和泊松(S。

D。

Poisson,1781-1840)等对概率论做出了进一步奠基性工作。

特别是拉普拉斯,他是严密的、系统的科学概率论的最卓越的创建者,在1812年出版的《概率的分析理论》中,拉普拉斯以强有力的分析工具处理了概率论的基本内容,实现了从组合技巧向分析方法的过渡,使以往零散的结果系统化,开辟了概率论发展的新时期。

泊松则推广了大数定理,提出了著名的泊松分布.19世纪后期,极限理论的发展称为概率论研究的中心课题,俄国数学家切比雪夫对此做出了重要贡献。

他建立了关于独立随机变量序列的大数定律,推广了棣莫弗—拉普拉斯的极限定理。

切比雪夫的成果后被其学生马尔可夫发扬光大,影响了20世纪概率论发展的进程。

19世纪末,一方面概率论在统计物理等领域的应用提出了对概率论基本概念与原理进行解释的需要,另一方面,科学家们在这一时期发现的一些概率论悖论也揭示出古典概率论中基本概念存在的矛盾与含糊之处。

关于身高的回归分析

关于身高的回归分析

相关系数r就是对两个变量间线性相关关系紧密程度的度量。相关系数 相关系数 就是对两个变量间线性相关关系紧密程度的度量。相关系数r 就是对两个变量间线性相关关系紧密程度的度量 的计算公式为: 的计算公式为:
Cov ( X , Y ) E ( X − µ X )(Y − µ Y r = = σ X ⋅σ Y σ X ⋅σ Y
ˆ Q = ∑ei2 = 最小= ∑ Yi − Yi = ∑(Yi − bXi − a)
i=1 i=i i=1
n
n
(
)
2
n
2
要对上式求最小, 要对上式求最小,微积分的知识告诉我们要求其偏导数并令其 为零。 为零。即:
∂Q ∂a = −2
∑ (Y
i
− bX
i
− a
)=
= 0
0
∂Q = − 2 ∑ (Y i − bX ∂b
)
式中分子部分为X和 两具变量的协方差 分母部分是X和 两个变量标 两具变量的协方差, 式中分子部分为 和Y两具变量的协方差,分母部分是 和Y两个变量标 准差的乘积。由于协方差是X和 两个变量与其均值离差乘积的数学 准差的乘积。由于协方差是 和Y两个变量与其均值离差乘积的数学 期望,它受X和 两个变量度量单位大小的影响 两个变量度量单位大小的影响, 期望,它受 和Y两个变量度量单位大小的影响,因而在分母上除以 X和Y两个变量的标准差,就将相关系数r转化成从 到1之间的相对 和 两个变量的标准差,就将相关系数 转化成从-1到 之间的相对 两个变量的标准差 转化成从 数值。实际数据计算的结果为r=0.501,表明高个子的父亲会有较高 数值。实际数据计算的结果为 , 的儿子,矮身材的父亲其儿子身体也不会很高, 的儿子,矮身材的父亲其儿子身体也不会很高,但这一正相关的关 系并不十分明显。 系并不十分明显。 那么,父子身高之间有什么规律呢?经过对1078对父子身高数据的计 那么,父子身高之间有什么规律呢?经过对 对父子身高数据的计 得到: 算,得到: 父亲的平均身高=67.6英寸 英寸≈68英寸,标准差 英寸, 父亲的平均身高 英寸 英寸 标准差SX=2.74≈2.7英寸 英寸 儿子的平均身高=68.7英寸 英寸≈69英寸,标准差 英寸, 儿子的平均身高 英寸 英寸 标准差SY=2.81≈2.8英寸 英寸 英寸=2.54厘米)我们看到,儿子的平均身高比父亲高一英寸,表明 厘米) (1英寸 英寸 厘米 我们看到,儿子的平均身高比父亲高一英寸, 下一代的平均身高比上一代要高。这样,我们会自然地猜测72英寸 下一代的平均身高比上一代要高。这样,我们会自然地猜测 英寸 的父亲平均会有73英寸的儿子 英寸的儿子; 英寸的父亲平均会有 英寸的父亲平均会有65英寸的儿 的父亲平均会有 英寸的儿子;64英寸的父亲平均会有 英寸的儿 等等。那我们看一看图2中的情况 中的情况: 子,等等。那我们看一看图 中的情况:

关于身高的回归分析

关于身高的回归分析

相关系数r就是对两个变量间线性相关关系紧密程度的度量。相关系数r 的计算公式为:
r CovX ,Y EX X Y Y
X Y
X Y
式中分子部分为X和Y两具变量的协方差,分母部分是X和Y两个变量标 准差的乘积。由于协方差是X和Y两个变量与其均值离差乘积的数学 期望,它受X和Y两个变量度量单位大小的影响,因而在分母上除以 X和Y两个变量的标准差,就将相关系数r转化成从-1到1之间的相对 数值。实际数据计算的结果为r=0.501,表明高个子的父亲会有较高 的儿子,矮身材的父亲其儿子身体也不会很高,但这一正相关的关 系并不十分明显。
对于每一身高父亲所对应的虚线柱内若干儿子身
高点子的分布,回归直线是从这些点子中间穿过 的。换句话说,回归直线上的点是当给定某一Xi 值时(即父亲身高值),对应的若干Yi值(即儿 子身高值)与之(直线上点Y值记为值)离差平 方和最小的直线,即我们的回归直线是求
n
n
2n
2
Q ei2 最小 Yi Yˆi Yi bXi a
S
2 x
,Y

a Y bX
由于已知r=0.501,SX=2.74,SY=2.81,则
Cov(X Y) =r×SX×SY=0.501×2.74×2.81 =3.86
b 3.86 0.51
2.74 2
a 68.7- 0.51 67.6 34.22
父子身高的回归方程为
Yˆi 34.22 0.51Xi 该回归方程就是图2中的回归线(实线)。 当X1=58时,=63.8;当X2=64时,=66.86。 当X3=72时,=70.94。这些回归方程上的值实际上是 当Xi确定后,若干Yi的平均值。这一回归直线和回归 方程表明,矮个子父亲的儿子们平均身高会比父辈低 一些,高个子父亲的儿子们平均身高会比父辈低一 些,即儿子们的身高会向平均值回归。 我们的读者必然会问,现代人一代比一代高,为什 么高个子父亲的儿子们平均身高要比父辈低呢?细心 的读者不难发现,当时高尔顿和皮尔逊做研究时只观 察了父亲和儿子的身高,并没有考虑母亲的身高。实 际上,高个子父亲的太太可能是较高的女性,也可能 是较低的女性。反之,矮个子父亲的太太可能是矮个 子,也可能是较高的身材。而儿子的身高既受父亲传 传的影响,也受母亲遗传的影响,这就是为什么儿子 们身高会发生“回归”的原因。 类似的回归现象还有很多,比如我们连续观察一群 学生春秋两季的考试成绩,会发现春季考试得高分的 学生在秋季考试中虽然平均分还比较高,但平均分会 有所降低。反之,春季考试分数最低的学生们秋季的 平均分会有所提高。因为在考试中除了学生水平的高 低这一主要因素影响之外,临场发挥等偶然因素也会 起到一定的作用。我们在应用回归方程时若能注意回 归效应的特点,会帮助我们更好地分析和解决问题。

回归分析的基本思想及初步应用

回归分析的基本思想及初步应用

回归分析的基本思想及初步应用回归分析是一种用于研究变量之间关系的统计方法。

其基本思想是通过建立一个数学模型来描述自变量(独立变量)和因变量(依赖变量)之间的关系,并根据已有数据对模型进行拟合和估计,以了解两个变量之间的关系程度。

回归分析最早是由英国统计学家弗朗西斯·高尔顿在19世纪中叶提出的。

他注意到,人口增长与时间之间似乎存在其中一种关系,于是使用统计方法将时间作为自变量,人口数量作为因变量,建立了一个数学模型。

这个数学模型称为“回归方程”,后来成为了回归分析的基础。

在建模阶段,我们首先要确定自变量和因变量,并根据问题目标和已有数据选取适当的变量。

然后,我们需要选择一个适当的回归模型来描述自变量和因变量之间的关系。

常见的回归模型包括线性回归模型、多项式回归模型、指数回归模型等。

模型的选择通常基于对自变量和因变量之间关系的推测和理论的支持。

同时,还需要根据数据特点和拟合效果选择回归模型的阶数和形式。

在推断阶段,我们需要对模型进行估计和检验。

首先,我们使用已有数据对回归模型进行拟合,根据最小二乘法估计出回归系数的值,并计算出模型预测的因变量值。

然后,通过各种统计方法对模型的拟合程度进行评估。

常用的评估指标有残差分析、R平方和调整R平方等。

此外,还可以进行t检验和F检验来检验回归系数和模型整体的显著性。

这些检验能够帮助我们判断回归模型是否能够很好地描述自变量和因变量之间的关系,并对未来值进行预测和推断。

回归分析的应用非常广泛。

它在社会科学、经济学、医学、生态学等领域都有着重要的应用。

在经济学中,回归分析可以用于预测和解释宏观经济变量之间的关系,如GDP与就业率之间的关系。

在医学中,回归分析可以用于研究因素对疾病发生的影响,如吸烟与肺癌之间的关系。

此外,回归分析还可以用于分析市场需求、产品定价、销售预测等问题,为决策提供科学依据。

总而言之,回归分析是一种用于研究变量关系的重要统计方法。

通过建立数学模型,估计和检验回归系数,可以帮助我们了解变量之间的关系程度,并利用这种关系进行预测和推断。

线性回归模型的研究毕业论文

线性回归模型的研究毕业论文

线性回归模型的研究毕业论文1 引言回归分析最早是由19世纪末期高尔顿(Sir Francis Galton)发展的。

1855年,他发表了一篇文章名为“遗传的身高向平均数方向的回归”,分析父母与其孩子之间身高的关系,发现父母的身高越高或的其孩子也越高,反之则越矮。

他把儿子跟父母身高这种现象拟合成一种线性关系。

但是他还发现了个有趣的现象,高个子的人生出来的儿子往往比他父亲矮一点更趋向于平均身高,矮个子的人生出来的儿子通常比他父亲高一点也趋向于平均身高。

高尔顿选用“回归”一词,把这一现象叫做“向平均数方向的回归”。

于是“线形回归”的术语被沿用下来了。

回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。

此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。

按照参数估计方法可以分为主成分回归、偏最小二乘回归、和岭回归。

一般采用线性回归分析,由自变量和规定因变量来确定变量之间的因果关系,从而建立线性回归模型。

模型的各个参数可以根据实测数据解。

接着评价回归模型能否够很好的拟合实际数据;如果不能够很好的拟合,则重新拟合;如果能很好的拟合,就可以根据自变量进行下一步推测。

回归分析是重要的统计推断方法。

在实际应用中,医学、农业、生物、林业、金融、管理、经济、社会等诸多方面随着科学的发展都需要运用到这个方法。

从而推动了回归分析的快速发展。

2 回归分析的概述2.1 回归分析的定义回归分析是应用极其广泛的数据分析方法之一。

回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。

2.2 回归分析的主要容(1)从一组数据出发,确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。

估计参数的常用方法是最小二乘法。

高尔顿(Galton)

高尔顿(Galton)

高尔顿钉板
如下图中每一黑点表示钉在板上的一颗钉子,它们彼此的距离均相等,上一层的每一颗的水平位 置恰好位于下一层的两颗正中间。从入口处放进一个直径略小于两颗钉子之间的距离的小圆玻璃球, 当小圆球向下降落过程中,碰到钉子后皆以 1/2 的概率向左或向右滚下,于是又碰到下一层钉子。如 此继续下去,直到滚到底板的一个格子内为止。把许许多多同样大小的小球不断从入口处放下,只要 球的数目相当大,它们在底板将堆成近似于正态 的密度函数图形(即:中间高,两头低,呈左右对
1 2
a1,1=( )2= C 2 )0( )2—0 2 (
显然成立。 2.假设 n=k(k≥2)成立(即假设第 n 行每一个数据都成立) 。 即 ak,i= C ik ( )k—i( )i 当 n=k+1 时,ak+1,0=
1 2 1 2 1 2
ak,0=
1 2
1 2
C0 )k—0 ( )0 k(
ak+1,i= =
1 2
ak,i-1+
1 2
ak,i
1 2 1 2
1 2
C ik-1 ( )k-(i-1)( )i-1+
1 2
1 2
C ik ( )k-i( )i
1 2
1 2
=( C ik-1 + C ik ) ( )k+1 = C ik 1 ( )(k+1)-i( )i ∴在 n=k 成立的条件下,n=k+1 也成立。 3.由 1,2 得,原命题成立。 由此可知:做一个小球的高尔顿(钉)板试验落入第 i 个空的概率正好满足二项分布。 由大量小球做高尔顿(钉)板试验可知道,小球在各个空格落入的数量关系满足正态分布(已有 人发布了试验的动画在此就不做说明) 。

统计学中回归一词的由来

统计学中回归一词的由来

统计学中回归一词的由来
“回归”一词的由来
我们不必在“回归”一词上费太多脑筋。

英国著名统计学家弗朗西斯·高尔顿(Francis Galton,1822—1911)是最先应用统计方法研究两个变量之间关系问题的人。

“回归”一词就是由他引入的。

他对父母身高与儿女身高之间的关系很感兴趣,并致力于此方面的研究。

高尔顿发现,虽然有一个趋势:父母高,儿女也高;父母矮,儿女也矮,但从平均意义上说,给定父母的身高,儿女的身高却趋同于或者说回归于总人口的平均身高。

换句话说,尽管父母双亲都异常高或异常矮,儿女身高并非也普遍地异常高或异常矮,而是具有回归于人口总平均高的趋势。

更直观地解释,父辈高的群体,儿辈的平均身高低于父辈的身高;父辈矮的群体,儿辈的平均身高高于其父辈的身高。

用高尔顿的话说,儿辈身高的“回归”到中等身高。

这就是回归一词的最初由来。

回归一词的现代解释是非常简洁的:回归时研究因变量对自变量的依赖关系的一种统计分析方法,目的是通过自变量的给定值来估计或预测因变量的均值。

它可用于预测、时间序列建模以及发现各种变量之间的因果关系。

使用回归分析的益处良多,具体如下:
(1)指示自变量和因变量之间的显著关系;
(2)指示多个自变量对一个因变量的影响强度。

回归分析还可以用于比较那些通过不同计量测得的变量之间的相互影响,如价格变动与促销活动数量之间的联系。

这些益处有利于市场研究人员,数据分析人员以及数据科学家排除和衡量出一组最佳的变量,用以构建预测模型。

高尔顿(Galton)

高尔顿(Galton)

“回归”名称的由来-――高尔顿的父子身高试验 引自汪荣伟主编的《经济应用数学》高尔顿(Frramcia Galton,1882-1911)早年在剑桥大学学习医学, 但医生的职业对他并无吸引力, 后来他接受了一笔遗产, 这使他可以放弃医生的生涯, 并与 1850-1852
--------------------------------------------------------------------------------------------------------------------------------Reproduction Forbidden Page 1 of 4
高尔顿钉板
如下图中每一黑点表示钉在板上的一颗钉子,它们彼此的距离均相等,上一层的每一颗的水平位 置恰好位于下一层的两颗正中间。从入口处放进一个直径略小于两颗钉子之间的距离的小圆玻璃球, 当小圆球向下降落过程中,碰到钉子后皆以 1/2 的概率向左或向右滚下,于是又碰到下一层钉子。如 此继续下去,直到滚到底板的一个格子内为止。把许许多多同样大小的小球不断从入口处放下,只要 球的数目相当大,它们在底板将堆成近似于正态 的密度函数图形(即:中间高,两头低,呈左右对
1 2 1 2
--------------------------------------------------------------------------------------------------------------------------------Reproduction Forbidden Page 4 of 4
1 2
1 2
1 2
= C0 )(k+1)-0 ( )0 k 1 ( ak+1,k+1=
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

“回归”是由英国著名生物学家兼统计学家高尔顿(Galton)在研究人类遗传问题时提 出来的。

为了研究父代与子代身高的关系,高尔顿搜集了1078对父亲及其儿子的身高数据。

他发现这些数据的散点图大致呈直线状态,也就是说,总的趋势是父亲的身高增加时,儿子 的身高也倾向于增加。

但是,高尔顿对试验数据进行了深入的分析,发现了一个很有趣的现 象—回归效应。

因为当父亲高于平均身高时,他们的儿子身高比他更高的概率要小于比他更 矮的概率;父亲矮于平均身高时,他们的儿子身高比他更矮的概率要小于比他更高的概率。

它反映了一个规律,即这两种身高父亲的儿子的身高,有向他们父辈的平均身高回归的趋势。

对于这个一般结论的解释是:大自然具有一种约束力,使人类身高的分布相对稳定而不产生 两极分化,这就是所谓的回归效应。

1855年, 高尔顿发表《遗传的身高向平均数方向的回归》一文,他和他的学生卡尔• 皮尔逊Karl·Pearson通过观察1078对夫妇的身高数据,以每对夫妇的平均身高作为自变 量,取他们的一个成年儿子的身高作为因变量,分析儿子身高与父母身高之间的关系,发现 父母的身高可以预测子女的身高,两者近乎一条直线。

当父母越高或越矮时,子女的身高会 比一般儿童高或矮,他将儿子与父母身高的这种现象拟合出一种线形关系,分析出儿子的身 高y与父亲的身高x大致可归结为一下关系:
y=33.73+0.516*x (单位为英寸)
根据换算公式1英寸=0.0254米, 1米=39.37英寸。

所以:Y= 0.8567+0.516*X (单位为米);
这种趋势及回归方程表明父母身高每增加一个单位时,其成年儿子的身高平均增加
0.516个单位。

这就是回归一词最初在遗传学上的含义。

有趣的是,通过观察,高尔顿还注意到,尽管这是一种拟合较好的线形关系,但仍然存 在例外现象:矮个父母所生的儿子比其父要高,身材较高的父母所生子女的身高却回降到多 数人的平均身高。

换句话说,当父母身高走向极端,子女的身高不会象父母身高那样极端化, 其身高要比父母们的身高更接近平均身高,即有“回归”到平均数去的趋势,这就是统计学 上最初出现“回归”时的涵义,高尔顿把这一现象叫做“向平均数方向的回
归”(regression toward mediocrity)。

虽然这是一种特殊情况,与线形关系拟合的一般规 则无关,但“线形回归”的术语却因此沿用下来,作为根据一种变量(父母身高)预测另一种 变量(子女身高)或多种变量关系的描述方法。

它要比其原始意义广泛的多。

具体地说,回归分析的内容包括:
• 确定响应变量与预报变量间的回归模型,即变量间相关关系的数学表达式(通常称为 经验公式);
• 根据样本估计并检验回归模型及未知参数;
• 从众多的预报变量中,判断哪些变量对响应变量的影响是显著的,哪些是不显著的;
• 根据预报变量的已知值或给定值来估计或预测响应变量的平均值并给出预测精度或 根据响应变量的给定值来估计预报变量的值,即所谓的预报与控制问题。

第 1页。

相关文档
最新文档