戈塞特与t检验

合集下载

几种常见的显著性检验方法

几种常见的显著性检验方法

1.Tukey (John Wilder Tukey) test最著名的有2个:(1)Tukey test for multiple comparisons主要应用于3组或以上的多重比较。

比如说一共有4组数据,两两比较产生6个统计值,Tukey-test用于生成一个critical value来控制总体误差(Family wise error rate,FER),与Tukey test相类似的是Dunnett test,它是控制多对一比较(即3组同时和一个参照组比较)的FER。

(2)Tukey trend test主要用于检验同一药物不同剂量下和参照药物的线性关系。

Tukey trend test 简单但及其高效,是生物统计学常用的方法。

2.T-testT检验,这是1905年w.s.oosset氏首先提出的,当时他以“Student”为笔名发表,故至今有的书籍仍称之为“学生氏检验”。

t可能是倍数的意思(times),t就是样本均数SX(x)与总体均数(“)间相距几倍标准误(sx)。

t检验是用于比较两均数间相差是否显著的。

t检验过程:是对两样本均数(mean)差别的显著性进行检验。

唯t检验须知道两个总体的方差(Variances)是否相等;t检验值的计算会因方差是否相等而有所不同。

也就是说,t检验须视乎方差齐性(Equality of Variances)结果。

所以,SPSS 在进行t-test for Equality of Means的同时,也要做Levene's Test for Equality of Variances 。

3.Dunn’s multiple comparison testDunn's test calculates a P value for each pair of columns. These P values answer this question: If the data were sampled from populations with the same median, what is the chance that one or more pairs of columns would have medians as far apart as observed here? If the P value is low, you'll conclude that the difference is statistically significant. The calculation of the P value takes into account the number of comparisons you are making. If the null hypothesis is true (all data are sampled from populations with identical distributions, so all differences between groups are due to random sampling), then there is a 5% chance that at least one of the post tests will have P<0.05. The 5% chance does not apply to EACH comparison but rather to the ENTIRE family of comparisons.Dunn's test compares the difference in the sum of ranks between two columns with the expected average difference (based on the number of groups and their size). For each pair of columns, In Stat reports the P value as >0.05, <0.05, <0.01 or < 0.001. The calculation of the P value takes into account the number of comparisons you are making. If the null hypothesis is true (all data are sampled from populations with identical distributions, so all differences between groups are due to random sampling), then there is a 5% chance that at least one of the post tests will have P<0.05. The 5% chance does not apply to EACH comparison but rather to the ENTIRE family of comparisons.。

读后感

读后感

《女士品茶》读后感出于对统计学的进一步了解和认识,暑期我认真的阅读了这本统计学的经典著作—《女士品茶》,提到书名,很多人会十分疑惑,这样的书名更像是一本小说,怎么会是一本统计学方面的读物呢?带着这个疑惑我开始了我的阅读之旅,在书的第一章,作者就解决了这个疑惑,原来女士品茶是个故事,由这个故事展开了对统计学的介绍,这个故事仅仅充当了一个引子的作用。

通读全书后,带给我很多感触,主要分为下面的四个部分。

一,虽然作者不想将本书写成一本关于统计方法论发展的全面的历史书,但是不得不说在读书的过程中给予我的最大感受依旧是觉得这本书确实是一本统计学发展的历史书。

书的开头以发生在20世纪20年代后期,一位女士坚持认为把茶加进奶里,或把奶加进茶里不同的方法会使奶茶的味道品起来不同,而其他人则对此不以为然,接着他们进行了一个实验的故事。

作者第一位介绍的人物也是事件的参与者休·史密斯教授,这位教授并未得到大篇幅的介绍,只是这位教授给出了女士品茶的结果——那位女士成功的分辨出了每一杯奶茶的冲泡方法。

接着女士品茶实验的策划者罗纳德·艾尔默·费歇尔被我所认识。

费歇尔是对统计学发展有着杰出贡献的一位天才,最开始他在位于伦敦的一个农业实验站工作,并对实验站所保有的约90年肥料构成数据进行分析,并在1921年在农业科学领域的领军期刊《应用生物学年报》发表了一篇论文,作者认为这篇非凡的论文终止了一场持续20多年的科学论战。

费歇尔的著作《实验设计》中提供了几个实验设计的范例,并导出优秀设计的一般原则,可是由于其中所涉及到的数学非常复杂,多数科学家设计不了自己的实验,他们只好遵循书中提出的实验设计中的某个模式。

这种做法就我看来完全未将此书的本质内容得以发扬!但多数农业科学家认识到了《实验设计》的重要地位和杰出贡献,在大多数说英语的国家中,费氏方法很快便成为了农业科研的主流学派。

虽然费歇尔天才般的头脑使得他为统计学的发展留下了浓墨重彩的一笔,但与所有的天才一样,费歇尔恃才傲物与当时另一位统计学者奈曼二者的性格形成了极为明显的反差,在讨论吸烟是否与得肺癌有关的问题上,费歇尔也表现出了其固执己见的一面。

从啤酒酿造业走出的统计学家——戈赛特

从啤酒酿造业走出的统计学家——戈赛特

从啤酒酿造业走出的统计学家一一戈赛特陈玲玲戈赛特(Cosset )是t 检验(也叫student t 检验)的创始人。

与许多学者一样,他当时 并没有直接从事统计学的研究,毕竟,在100多年前,统计学甚至还算不上一门学 科。

他从事的是啤酒酿造行业,然而就是在这一似乎与统计无关的行业里,他做了一项研究,想弄清楚发酵时需要加多少酵母最合适。

当时戈赛特做出了结果并准备 将其发表,可惜他所在的是酿酒行业,贸然 发表的话会有泄露商业机密之嫌。

但戈赛特又确实想发表这一文章,因此采取了折中的办法:匿名发表。

他采用了一个笔名,也就是现在我们仍可以在统计学教材上见到的"student" a 戈赛特最重要的一个贡献就是提出了小样本的检验思想。

现在我们看起来似乎 并无任何出奇,但在当时,统计学几乎就是大样本的科学,一提起统计学,就想到大样 本。

当时卡尔•皮尔逊几乎所有的工作都是基于大样本的假设。

但戈赛特根据自己 的经验认为,有的情况下,大样本对于研究者来讲太过于奢侈了,必须专注于小样 本。

不过一旦用小样本分析,无可避免地 会牵扯到误差的问题。

在大样本情况下, 你可以假定没有误差或者误差很小可以忽略不计,而小样本必须考虑到这一问题。

那么小样本情况下,误差有多大呢?这就 是戈赛特所关注的。

戈赛特通过不断地演算,最终于1908 年发表了一篇极为重要的文章《77ie proba ­ble error of the mean 》,提出了 t 分布,这也是至今我们仍在广泛应用的t 检验的基础。

考虑一下当时的条件,可想而知戈赛特做出了多少次的计算才得出这一结论。

他需要一次一次地计算均数、标准误,以确定相关数据的概率分布。

现在条件下通过计算机模拟可能很快得出结果,但当时显然是很复杂的。

不管如何,戈赛特通过努力,最终发现了小样本的分析规律,并奠定了小 样本分析的基础。

现在,人们通常称其为小样本理论的鼻祖。

(作者单位:江苏省海安市李堡中学)56 I数学阅读。

第四节有限实验数据的统计处理

第四节有限实验数据的统计处理

t 分布曲线
代替正态分布u, 用t 代替正态分布 ,样本标 准偏差s代替总体标准偏差 代替总体标准偏差σ有 准偏差 代替总体标准偏差 有
tP,f
x− µ = s
P:置信度 f:自由度 f=n-1
含 义
(1) t分布曲线 见图 与正态分布曲线相似,以 分布曲线(见图 与正态分布曲线相似, 分布曲线 见图)与正态分布曲线相似 t=0为对称轴, 为对称轴, 为对称轴 (2) t分布曲线的形状与自由度 f=n-1有关 f 愈 有关, 分布曲线的形状与自由度 有关 曲线愈接近正态分布。 大,曲线愈接近正态分布。 曲线愈接近正态分布 (3) t分布曲线与正态分布曲线相似, t分布曲 分布曲线与正态分布曲线相似, 分布曲 分布曲线与正态分布曲线相似 线下面一定范围内的面积, 线下面一定范围内的面积,就是该范围内测定 值出现的概率。用置信度P表示 表示。 值出现的概率。用置信度 表示。 (4)不同置信度 和自由度 所对应的值已经由 不同置信度P和自由度 不同置信度 和自由度f 数学家计算出来,见下表。 数学家计算出来,见下表。
(一)置信区间
指在一定条件下真值µ的取值 范围称~。 范围称 。
(二) 置信度
所对应的概率称 。 真值µ所对应的概率称~。
置信区间内包含真值的概率。 置信区间内包含真值的概率。 不要理解为真值落在置信区间的概率。 不要理解为真值落在置信区间的概率。
(三) 讨论
1. 已知总体标准偏差σ时的情况 已知总体标准偏差σ
QP,n值表 n P Q0.90 O0.95
3 4 5 6 7 8 9 10
0.94 0.76 0.64 0.56 0.51 0.47 0.44 0.41 0.97 0.84 0.73 0.64 0.59 0.54 0.51 0.49

T 检验的几何解释

T 检验的几何解释

T检验的几何解释*学生t检验是威廉·戈塞特1908年所提出的,“学生”是他的笔名。

T检验有很好的几何解释,通过几何解释,我们会对t检验有更深刻的理解。

下面举一个简单例子,说明如何从几何角度来解释学生T检验。

注意,这里的几何解释并不是划分拒绝域和接受域。

划分拒绝域和接受域不属于几何解释假设我们手头有一个样本,样本中有两个观测(假定这两个观测独立,并服从相同正态分布),我们想判断该样本是否来自于标准正态分布。

这是经典的假设检验问题:单样本均值是否为0。

原假设是样本来自于均值为0方差为1的标准正态分布,备择假设是样本来自于均值大于0的正态分布(方差为1)。

我们从原假设出发考虑这个问题。

按照原假设,我们利用随机数生成器生成多组满足标准正态分布的样本。

将这些样本描绘如下图,图中每一个点代表一个样本(只含两个观测,分别对应于横轴纵轴)。

可以把每个样本看做一个二维向量,如图中红色的箭头所示。

*本文作者高磊在原假设下生成的多组样本在上图中,我们还描绘了一个单位圆(半径为1),接下来,把每一个样本所对应的向量单位化,从而变为从原点出发,终点落在单位圆上的一个向量,如下图。

不难想象,这些终点在单位圆上均匀分布。

这一点极其重要,正如t统计量服从T分布,不同的是,这里的解释更加直观。

将每个样本向量映射到单位圆上既然在原假设下,按照上述步骤,会得到在圆周上的均匀分布。

那么我们不仅要问,如过备择假设成立,仍然按照如上的步骤进行处理,会得到什么结果?以备择假设是均值为3、方差为1的正态分布为例,下图为备择假设下样本与原假设下样本的对比。

备择假设下的样本把备择假设下的样本向量也转换到单位圆上,结果如下图,由图可以发现,这些向量的终点在圆周上不再满足均匀分布,它们在一个扇形边缘分布较密,最密的地方在斜率为1的直线附近,向两侧延伸,分布变得稀疏。

备择假设下映衬到单位圆,不再是均匀分布对照备择假设下和原假设下的结果,我们可以得到如下判断方法:当我们观测到一个样本后,首先将样本向量单位化,并映射到单位圆上,然后观察其终点的位置,如果离斜率为1的直线很近,我们就有理由怀疑原假设,认为该样本更有可能来自于备择假设。

生物实验中常用的统计方法与分析工具

生物实验中常用的统计方法与分析工具

生物实验中常用的统计方法与分析工具本文介绍生物实验中常用的统计方法与分析工具。

在2023年,生物实验越来越依赖于数据分析,因此熟练掌握这些方法和工具非常重要。

一、t检验t检验常用于检测两组数据之间是否存在显著差异。

例如,我们可以使用t检验来分析两组药物治疗下患者的生存率是否有差异。

t检验的结果可以帮助我们判断差异是否显著,从而决定是否需要进一步研究。

二、方差分析方差分析是一种多变量分析方法,用于确定一组数据中不同因素之间的差异是否显著。

例如,我们可以使用方差分析来分析不同供应商提供的食品成分是否有显著差异。

方差分析可以帮助我们确定最佳供应商,从而提高食品质量。

三、回归分析回归分析是一种用于建立预测模型的方法。

例如,我们可以使用回归分析来预测不同营养成分对身体健康的影响。

回归分析可以帮助我们了解不同因素之间的关系,从而为预测更精准的结果提供基础。

四、生存分析生存分析是一种用于研究时间相关数据的统计方法。

例如,我们可以使用生存分析来研究某种疾病患者的生存率与不同治疗方法之间的关系。

生存分析可以帮助我们了解不同因素对生存率的影响,从而为制定治疗方案提供依据。

五、图形分析图形分析是一种直观的数据分析方法,可以帮助我们更好地理解数据的特点和趋势。

例如,我们可以使用散点图来展示两组数据之间的关系,使用折线图来展示时间序列数据的趋势。

图形分析可以帮助我们更好地理解数据,从而提高研究成果的准确性。

六、SPSS和R语言SPSS和R语言是当前生物实验中常用的数据分析工具。

SPSS是一款商业软件,提供了丰富的统计分析功能,易于使用。

R语言则是一种开源的统计分析语言,免费且灵活,支持自定义函数和扩展包。

使用这两款工具可以大大提高数据分析的效率和准确性。

在2023年的生物实验中,数据分析的重要性将不断提高。

熟练掌握以上统计方法和分析工具,可以帮助我们更好地理解数据,提高研究成果的准确性和可靠性。

t分布,卡方x分布,F分布

t分布,卡⽅x分布,F分布T分布:温良宽厚命名与源起“t”,是伟⼤的Fisher为之取的名字。

Fisher最早将这⼀分布命名为“Student's distribution”,并以“t”为之标记。

Student,则是William Sealy Gosset(⼽塞特)的笔名。

他当年在爱尔兰都柏林的⼀家酒⼚⼯作,设计了⼀种后来被称为t检验的⽅法来评价酒的质量。

因为⾏业机密,酒⼚不允许他的⼯作内容外泄,所以当他后来将其发表到⾄今仍⼗分著名的⼀本杂志《Biometrika》时,就署了student的笔名。

所以现在很多⼈知道student,知道t,却不知道Gosset。

(相对⽽⾔,我们常说的正态分布,在国外更多的被称为⾼斯分布……⾼斯~泉下有知的话,说不定会打出V字⼿势~欧耶!)看懂概率密度图这⼀点对于初学者尤为重要,相信还是有不少⼈对正态分布或者t分布的曲线没有确切的理解。

⾸先,我们看⼀下频率分布直⽅图,histogram:上图,最关键的就是横轴了,柱⾼,即,对于横轴上每⼀个点,发⽣的频次。

图中横轴为4处,次数最多,⼤约12次;依次类推,横坐标为10处,发⽣1次……我们做单变量的探索性数据分析,最喜欢做柱状图了,或者再额外绘制⼀条Density曲线于其上(见下图)。

很容易就可以看出数据的分布(集中趋势、离散趋势),图中,数据⼤多集中在4左右(均数、众数),有⼀点点右偏态,但基本还是正态分布。

下图,⼿绘曲线,即密度曲线,英⽂全称Probability Density Function/Curve。

实际上是对上⾯柱状图的⼀个平滑,但它的纵坐标变为了概率,区别于柱状图的频次。

但理解起来意义差不多。

以下,我们就⽤Density曲线来讲解T分布的特征。

T分布的可视化我们平常说的t分布,都是指⼩样本的分布。

但其实正态分布,可以算作t分布的特例。

也就是说,t分布,在⼤⼩样本中都是通⽤的。

之前有读者问过:“是不是样本量⼤于30或者⼤于50,就不能⽤t分布了呀”?完全不是这样的!t分布,⼤⼩通吃!具体且看下⽂分解。

T检验分为三种方法

T检验分为三种方法T检验(t-test)是一种统计分析方法,用于比较两个样本或两组数据之间的差异。

T检验根据不同的问题和数据类型有三种不同的方法,分别是独立样本T检验、配对样本T检验和单样本T检验。

1. 独立样本T检验(Independent Samples T-test):独立样本T检验用于比较两个相互独立的样本或组之间的均值差异。

它的基本假设是两个样本的均值相等,而备择假设是两个样本的均值不相等。

独立样本T检验的过程包括计算两个样本的均值、方差和样本大小,然后根据计算得到的统计量T值和自由度,进行假设检验并计算P值。

如果P值小于设定的显著性水平(通常为0.05),则可以拒绝原假设并认为两个样本的均值存在显著差异。

2. 配对样本T检验(Paired Samples T-test):配对样本T检验用于比较同一组样本或组在不同条件下的均值差异。

它的基本假设是两个条件下的均值相等,而备择假设是两个条件下的均值不相等。

配对样本T检验的过程包括计算两个条件下的均值差、方差和样本大小,然后根据计算得到的统计量T值和自由度,进行假设检验并计算P值。

如果P值小于设定的显著性水平,则可以拒绝原假设并认为两个条件下的均值存在显著差异。

3. 单样本T检验(One Sample T-test):单样本T检验用于比较一个样本或组的均值与已知的理论值之间的差异。

它的基本假设是样本均值与理论值相等,而备择假设是样本均值与理论值不相等。

单样本T检验的过程包括计算样本的均值、方差和样本大小,然后根据计算得到的统计量T值和自由度,进行假设检验并计算P值。

如果P值小于设定的显著性水平,则可以拒绝原假设并认为样本的均值与理论值存在显著差异。

T检验是一种常用的统计方法,适用于许多实验设计和数据分析场景。

它可以帮助研究人员确定两个样本或组之间是否存在显著差异,为科学研究和决策提供支持。

然而,使用T检验时需要注意样本的随机性和正态分布的假设,合理选择适当的T检验方法,同时关注P值和置信区间的解释和应用。

医学论文中常用统计分析方法的合理选择

医学论文中常用统计分析方法的合理选择目前,不少医学论文中的统计分析存在较多的问题。

有报道,经两位专家审稿认为可以发表的稿件中,其统计学误用率为90%-95%[1]。

为帮助广大医务工作者提高统计分析水平,本文将介绍医学论文中常用统计分析方法的选择原则及应用过程中的注意事项。

1.t 检验t检验是英国统计学家W.S.Gosset 1908年根据t分布原理建立起来的一种假设检验方法,常用于计量资料中两个小样本均数的比较。

理论上,t检验的应用条件是要求样本来自正态分布的总体,两样本均数比较时,还要求两总体方差相等。

但在实际工作中,与上述条件略有偏离,只要其分布为单峰且近似正态分布,也可应用[2]。

常用的t检验有如下三类:①单个样本t检验:用于推断样本均数代表的总体均数和已知总体均数有无显著性差别。

当样本例数较少(n<60)且总体标准差未知时,选用t检验;反之当样本例数较多或样本例数较少、总体标准差已知时,则可选用u检验[3]。

②配对样本t检验:适用于配对设计的两样本均数的比较,在选用时应注意两样本是否为配对设计资料。

常用的配对设计资料主要有如下三种情况:两种同质受试对象分别接受两种不同的处理;同一受试对象或同一样本的两个部分,分别接受不同的处理;同一受试对象处理前后的结果比较。

③两独立样本t检验:又称成组t检验,适用于完全随机设计的两样本均数的比较。

与配对t检验不同的是,在进行两独立样本t检验之前,还必须对两组资料进行方差齐性检验。

若为小样本且方差齐,则选用t检验;反之若方差不齐,则选用校正t检验(t’检验),或采用数据变换的方法(如取对数、开方、倒数等)使两组资料具有方差齐性后再进行t检验,或采用非参数检验[4]。

此外,当两组样本例数较多(n1、n2均>50)时,这时应用t检验的计算比较繁琐,可选用u检验[5]。

2.方差分析方差分析适用于两组以上计量资料均数的比较,其应用条件是各组资料取自正态分布的总体且各组资料具有方差齐性。

戈塞特与t检验

戈塞特与t检验戈塞特(William Sealey Gosset)(1876-1937),英国统计学家。

出生于英国肯特郡坎特伯雷市,求学于曼彻斯特学院和牛津大学,主要学习化学和数学。

1899年,戈塞特进入都柏林的A。

吉尼斯父子酿酒厂,在那里可得到一大堆有关酿造方法、原料(大麦等)特性和成品质量之间的关系的统计数据。

提高大麦质量的重要性最终促使他研究农田试验计划,并于1904年写成第一篇报告《误差法则应用》。

戈塞特是英国现代统计方法发展的先驱,由他导出的统计学T检验广泛运用于小样本平均数之间的差别测试。

他曾在伦敦大学K。

皮尔逊生物统计学验室从事研究(1906-1907),对统计理论的最显著贡献是《平均数的机误》(1908)。

这篇论文阐明,如果是小样本,那么平均数比例对其标准误差的分布不遵循正态曲线。

由于吉尼斯酿酒厂的规定禁止戈塞特发表关于酿酒过程变化性的研究成果,因此戈塞特不得不于1908年,Gosset首次以“学生”(Student)为笔名,在《生物计量学》杂志上发表了“平均数的概率误差”。

Gosset在文章中使用Z統計量來檢驗常態分配母群的平均數。

由于这篇文章提供了“学生t检验”的基础,为此,许多统计学家把1908年看作是统计推断理论发展史上的里程碑。

后来,哥塞特又连续发表了“相关系数的概率误差”(1909)、“非随机抽样的样本平均数分布”(1909)、“从无限总体随机抽样平均数的概率估算表”(1917),等等。

他在这些论文中,第一,比较了平均误差与标准误差的两种计算方法;第二,研究了泊松分布应用中的样本误差问题;第三,建立了相关系数的抽样分布;第四,导入了“学生”分布,即t分布。

这些论文的完成,为“小样本理论”奠定了基础;同时,也为以后的样本资料的统计分析与解释开创了一条崭新的路子。

由于哥塞特开创的理论使统计学开始由大样本向小样本、由描述向推断发展,因此,有人把哥塞特推崇为推断统计学的先驱者。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

戈塞特与t检验
戈塞特(William Sealey Gosset)(1876-1937),英国统计学家。

出生于英国肯特郡坎特伯雷市,求学于曼彻斯特学院和牛津大学,主要学习化学和数学。

1899年,戈塞特进入都柏林的A。

吉尼斯父子酿酒厂,在那里可得到一大堆有关酿造方法、原料(大麦等)特性和成品质量之间的关系的统计数据。

提高大麦质量的重要性最终促使他研究农田试验计划,并于1904年写成第一篇报告《误差法则应用》。

戈塞特是英国现代统计方法发展的先驱,由他导出的统计学T检验广泛运用于小样本平均数之间的差别测试。

他曾在伦敦大学K。

皮尔逊生物统计学验室从事研究(1906-1907),对统计理论的最显著贡献是《平均数的机误》(1908)。

这篇论文阐明,如果是小样本,那么平均数比例对其标准误差的分布不遵循正态曲线。

由于吉尼斯酿酒厂的规定禁止戈塞特发表关于酿酒过程变化性的研究成果,因此戈塞特不得不于1908年,Gosset首次以“学生”(Student)为笔名,在《生物计量学》杂志上发表了“平均数的概率误差”。

Gosset在文章中使用Z統計量來檢驗常態分配母群的平均數。

由于这篇文章提供了“学生t检验”的基础,为此,许多统计学家把1908年看作是统计推断理论发展史上的里程碑。

后来,哥塞特又连续发表了“相关系数的概率误差”(1909)、“非随机抽样的样本平均数分布”(1909)、“从无限总体随机抽样平均数的概率估算表”(1917),等等。

他在这些论文中,第一,比较了平均误差与标准误差的两种计算方法;第二,研究了泊松分布应用中的样本误差问题;第三,建立了相关系数的抽样分布;第四,导入了“学生”分布,即t分布。

这些论文的完成,为“小样本理论”奠定了基础;同时,也为以后的样本资料的统计分析与解释开创了一条崭新的路子。

由于哥塞特开创的理论使统计学开始由大样本向小样本、由描述向推断发展,因此,有人把哥塞特推崇为推断统计学的先驱者。

William Sealey Grosset在20世纪前三十余年是统计界的活跃人物,他的成就不限于《均》文。

同年他发表了在总体相关系数为0时,二元正态样本相关系数的精确分布,这是关于正态样本相关系数的第1个小样本结。

他对回归和试验设计方面也有相当的研究,在与费歇尔的通信中时常讨论到这些问题。

费歇尔很尊重他的意见,常把自己工作的抽印本送给William Sealey Grosset请他指教。

在当时,能受到费歇尔如此看待的学者为数不多。

William Sealey Grosset的一些思想,对他日后与奈曼合作建立其假设检验理论有着启发性的影响。

他说(引自《耐曼&frac34;现代统计学家》):“我认为现在统计学界中有非常多的成就都应归功于William Sealey Grosset……。

”。

戈塞特是小样本统计理论的开创者。

戈塞特在酿酒公司工作中发现,供酿酒的每批麦子质量相差很大,而同一批麦子中能抽样供试验的麦子又很少,每批样本在不同的温度下做实验,其结果相差很大。

这样一来,实际上取得的麦子样本,不可能是大样本,只能是小样本。

可是,从小样本来分析数据是否可靠?误差有多大?小样本理论就在这样的背景下应运而生。

1905年,戈塞特利用酒厂里大量的小样本数据写了第一篇论文《误差法则在酿酒过程中的应用》,在此基础上,1907年戈塞特决心把小样本和大样本之间的差别搞清楚。

为此,他试图把一个总体中的所有小样本的平均数的分布刻画出来。

做法是,在一个大容器里放了一批纸牌,把它们弄乱,随机地抽若干张,对这一样本做实验记录观察值,然后再把纸牌弄乱,抽出几张,对相应的样本再做实验观察,记录观察值。

大量地记录这种随机抽样的小样本观察值,就可借以获得小样本观察值的分布函数。

若观察值是平均数,戈塞特把它叫做t 分布函数。

1908年,戈塞特以“学生(Student)”为笔名在《生物计量学》杂志发表了论文《平均数的规律误差》。

这篇论文开创了小样本统计理论的先河,为研究样本分布理论奠定了重要基础。

被统计学家誉为统计推断理论发展史上的里程碑。

戈塞特这项成果,不仅不再
依靠近似计算,而且能用所谓小样本来进行推断,并且还成为使统计学的对象由集团现象转变为随机现象的转机。

换句话说,总体应理解为含有未知参数的概率分布(总体分布)所定义的概率空间;要根据样本来推断总体,还必须强调样本要从总体中随机地抽取,也就说,一定要是随机样本。

但是,应该指出:戈塞特推导t分布的方法是极不完整的,后来费希尔利用n维几何方法给出了完整的证明。

戈塞特在其论著中,引入了均值、方差、方差分析、样本等概率、统计的一些基本概念和术语。

1907-1937年间,戈塞特发表了22篇统计学论文,这些论文于1942年以《“学生”论文集》为书名重新发行。

相关文档
最新文档