正态性检验的几种方法

合集下载

总结正态性检验的几种方法

总结正态性检验的几种方法

总结正态性检验的几种方法1.1 正态性检验方法1)偏度系数样本的偏度系数(记为1g )的计算公式为()2331331(1)(2)(1)(2)n ii n n g x x n n s n n s μ==-=----∑, 其中s 为标准差,3μ为样本的3阶中心距,即()3311n i i x x n μ==-∑。

偏度系数是刻画数据的对称性指标,关于均值对称的数据其偏度系数为0,右侧更分散的数据偏度系数为正,左侧更分散的数据偏度系数为负。

(2)峰度系数样本的峰度系数(记为2g ),计算公式为()242412244(1)(1)3(1)(2)(3)(2)(3)(1)(1)3(1)(2)(3)(2)(3)n i i n n n g x x n n n s n n n n n n n n s n n μ=+-=-------+-=------∑,其中s 为标准差,4μ为样本的3阶中心距,即()4411n i i x x n μ==-∑。

当数据的总体分布为正态分布时,峰度系数近似为0,;当分布为正态分布的尾部更分散时,峰度系数为正;否则为负。

当峰度系数为正时,两侧极端数据较多,当峰度系数为负时,两侧极端数据较少。

(3)QQ 图QQ 图可以帮助我们鉴别样本的分布是否近似于某种类型的分布。

现假设总体为正态分布()2,N μσ,对于样本12,,,n x x x L ,其顺序统计量是(1)(2)(),,,n x x x L 。

设()x Φ为标准正态分布()0,1N 的分布函数,1()x -Φ是反函数,对应正态分布的QQ 图是由以下的点 1()0.375,,1,2,,0.25i i x i n n -⎛⎫-⎛⎫Φ= ⎪ ⎪+⎝⎭⎝⎭L , 构成的散点图,若样本数据近似为正态分布,在QQ 图上这些点近似地在直线上y x σμ=+,附近,此直线的斜率是标准差σ,截距式均值,μ,所以利用正态QQ 图可以做直观的正态性检验。

【学习】AD,RJ和KS-哪种正态性检验是最好的?

【学习】AD,RJ和KS-哪种正态性检验是最好的?

【学习】AD,RJ和KS-哪种正态性检验是最好的?Minitab中的正态性检验提供了三种⽅法:Anderson-Darling(AD),Ryan-Joiner(RJ)和Kolmogorov-Smirnov(KS)。

AD检验是默认的,那它在检验⾮正态的时候是不是最好的⽅法呢?对于这三种正态性检验⽅法,检验结果有时是有差异的(如下图),那么就有个问题:到底以哪种⽅法的结果为准?今天我们就来⽐较⼀下每种正态性检验在以下三种不同情形下检验⾮正态数据的能⼒。

我们将为每个情形使⽤模拟数据,但是它们反映了在分析数据以提⾼质量时可能遇到的常见情况。

三种情形情形1:⽣产过程中产⽣较⼤的离群值。

在此模拟中,从平均值= 0,标准偏差= 1的正态分布中模拟了29个值,从均值= 0,标准偏差= 4的正态分布中模拟了1个值。

情形2:制造过程发⽣了变化,从⽽导致分布发⽣变化。

创建⼀个双峰分布(如下图),⼀个是均值为10,标准差为1的正态分布;⼀个是均值为14,标准差为1的正态分布。

情形3:测量结果⾃然遵循⾮正态分布,正如我们通常会看到的失效时间数据。

对于这种情况,从Weibull(a = 1,b = 1.5)分布中模拟了30个值。

注意:此⽂中评估的三种情形并⾮旨在评估使⽤中⼼极限定理的检验(例如单样本t,双样本t和配对t检验)的正态性假设的有效性。

我们的重点是在使⽤分布估计制造有缺陷(不合格)单元的可能性时检验⾮正态性。

仿真(情形1为例)步骤1:模拟数据(即29个来⾃正态分布+ 1个来⾃具有⼤标准差的正态分布)。

步骤2:运⾏正态性检验(AD,RJ和KS),并记录P值。

步骤3:重复步骤1和2 ,N次。

步骤4:分析每个正态性检验的P值,并基于不同的alpha值绘制拒绝正态性概率的置信区间。

仿真结果⽐较在情形1中,Ryan-Joiner检验显然是赢家,仿真结果如下。

在情形2中,Anderson-Darling检验是最好的,仿真结果如下。

试验数据的正态性检验、数据的转换及卡方检验

试验数据的正态性检验、数据的转换及卡方检验

试验数据的正态检验、数据的转换和卡方检验目录一、符合正态分布的例子 (1)二、不符合正态分布的例子 (6)三、不符合正态分布数据的转换及转换后数据的方差分析 (11)四、次数分布资料的卡方检验 (14)在对试验数据进行方差分析前,应对数据的三性(即同质性、独立性和正态性)进行检验。

本文介绍对资料的正态性进行检验的方法,主要介绍3种检验方法:(1)频数检验——作频率分布图、看偏度系数和峰度系数,(2)作Q-Q图检验,(3)非参数检验——单个样本K-S检验。

下面以两个试验数据为例,例1为84头育肥猪的体重数据,通常符合正态分布。

例2为生长育肥猪7个试验处理组的腹泻率(百分数资料)统计结果,这类资料往往不符合正态,而大多数人以为是符合正态分布,进行方差分析的,因而不能得出正确的结论,却可能得出错误结论。

一、符合正态分布的例子【例1】 84头生长育肥猪的“体重”数据如表1-1,检验该数据是否呈正态分布。

表1-1 84头育肥猪的“体重”数据(排序后)检验方法一:频数检验——作频率分布图、看偏度系数和峰度系数步骤1:数据录入SPSS中,如图1-1。

图1-1 体重数据录入SPSS中步骤2:在SPSS里执行“分析—>描述统计—>频率”,然后弹出“频率”对话框(图1-2a),变量选择“体重”;再点右边的“统计量”按钮,弹出图“频率:统计量”对话框(图1-2b),选择“偏度”和“丰度”(图1-2b);再点右边的“图表”按钮,弹出图“频率:图表”对话框(图1-2c),选择“直方图”,并选中“在直方图显示正态曲线”图1-2a “频率”对话框图1-2b “频率:统计量”对话框图1-2c “频率:图表”对话框设置完后点“确定”后,就会出来一系列结果,包括2个表格和一个图,我们先来看看“统计量”表,如下:统计量体重N 有效84缺失0偏度.040偏度的标准误.263峰度-.202峰度的标准误.520偏度系数=0.040,峰度系数-0.202;两个系数都小于1,可认为近似于正态分布。

正态性检验的几种方法

正态性检验的几种方法

正态性检验的几种方法一、引言正态分布是自然界中一种最常见的也是最重要的分布。

因此,人们在实际使用统计分析时,总是乐于正态假定,但该假定是否成立,牵涉到正态性检验。

目前,正态性检验主要有三类方法:一是计算综合统计量,如动差法、Shapiro-Wilk 法(W 检验)、D ’Agostino 法(D 检验)、Shapiro-Francia 法(W ’检验)。

二是正态分布的拟合优度检验,如2χ检验、对数似然比检验、Kolmogorov-Smirov 检验。

三是图示法(正态概率图Normal Probability plot),如分位数图(Quantile Quantile plot ,简称QQ 图)、百分位数(Percent Percent plot ,简称PP 图)和稳定化概率图(Stablized Probability plot ,简称SP 图)等。

而本文从不同角度出发介绍正态性检验的几种常见的方法,并且就各种方法作了优劣比较,还进行了应用。

二、正态分布2.1 正态分布的概念定义1若随机变量X 的密度函数为()()()+∞∞-∈=--,,21222x e x f x σμπσ其中μ和σ为参数,且()0,,>+∞∞-∈σμ则称X 服从参数为μ和σ的正态分布,记为()2,~σμN X 。

另我们称1,0==σμ的正态分布为标准正态分布,记为()1,0~N X ,标准正态分布随机变量的密度函数和分布函数分别用()x ϕ和()x Φ表示。

引理1 若()2,~σμN X ,()x F 为X 的分布函数,则()⎪⎭⎫⎝⎛-Φ=σμx x F由引理可知,任何正态分布都可以通过标准正态分布表示。

2.2 正态分布的数字特征引理2 若()2,~σμN X ,则()()2,σμ==x D x E 引理3 若()2,~σμN X ,则X 的n 阶中心距为()()N k kn k k n kn ∈⎩⎨⎧=-+==2,!!1212,02σμ定义2 若随机变量的分布函数()x F 可表示为:()()()()x F x F x F 211εε+-= ()10<≤ε其中()x F 1为正态分布()21,σμN 的分布函数,()x F 2为正态分布()22,σμN 的分布函数,则称X 的分布为混合正态分布。

正态性的检验方法

正态性的检验方法

正态性的检验方法
正态性的检验方法通常有以下几种:
1. 直方图和正态概率图:绘制样本数据的直方图和正态概率图,通过目测判断数据是否符合正态分布。

2. 正态性假设检验:采用统计学中的正态性假设检验方法,比如Shapiro-Wilk 检验、Kolmogorov-Smirnov检验、Anderson-Darling检验等。

3. Q-Q图:绘制样本数据的Q-Q图(Quantile-Quantile Plot),将观测值的分位数与正态分布的理论分位数进行比较,若数据符合正态分布,点图应该沿着一条直线分布。

4. 箱线图:绘制样本数据的箱线图,通过观察异常值和离群点的数量和位置来判断数据是否符合正态分布。

5. 偏度和峰度检验:计算样本数据的偏度(Skewness)和峰度(Kurtosis),若偏度和峰度接近于0,则数据更接近于正态分布。

以上方法可以单独或者结合使用来检验数据的正态性,但需要注意的是,这些方法都是基于样本数据的,只能提供对正态性的近似判断,并不能确定样本数据是
否完全符合正态分布。

验证正态分布的方法

验证正态分布的方法

验证正态分布的方法正态分布是统计学中非常重要的一种概率分布,它在自然界和社会科学领域中广泛应用。

为了验证一个数据集是否符合正态分布,我们可以采用以下方法。

1. 直方图分析法直方图是一种将数据按照数值范围分组并展示出来的图表。

通过绘制数据集的直方图,我们可以观察数据的分布情况。

如果直方图呈现出钟形曲线,即中间高、两侧逐渐降低的形态,则可以初步判断数据集服从正态分布。

2. 正态概率图(Q-Q图)正态概率图是一种利用数据集的分位数与正态分布的分位数进行比较的图表。

将数据集的分位数作为纵坐标,对应的正态分布的分位数作为横坐标,绘制出的散点图应该近似成一条直线。

如果散点图呈现出近似直线的趋势,那么数据集可以认为近似服从正态分布。

3. 偏度和峰度检验偏度(skewness)和峰度(kurtosis)是用来描述数据分布形态的统计量。

对于正态分布来说,偏度应该接近于0,峰度应该接近于3。

因此,我们可以计算数据集的偏度和峰度,并与0和3进行比较,来判断数据集是否符合正态分布。

4. Shapiro-Wilk检验Shapiro-Wilk检验是一种常用的正态性检验方法。

该检验基于观察数据与正态分布之间的差异程度来判断数据是否符合正态分布。

在这个检验中,我们设定一个假设,即原假设(null hypothesis)为数据集符合正态分布。

然后通过计算统计量和p值,来判断是否拒绝原假设。

如果p值大于设定的显著性水平(如0.05),则可以认为数据集符合正态分布。

5. Anderson-Darling检验Anderson-Darling检验是另一种常用的正态性检验方法。

该检验也是基于观察数据与正态分布之间的差异程度来判断数据是否符合正态分布。

与Shapiro-Wilk检验类似,Anderson-Darling检验也设定一个原假设,然后计算统计量和p值,来判断是否拒绝原假设。

如果p值大于设定的显著性水平,则可以认为数据集符合正态分布。

正态检验方法

正态检验方法

正态检验方法一、前言正态检验是统计学中常用的一种方法,用于检验数据是否符合正态分布。

正态分布是指在概率论和统计学中经常出现的一种连续概率分布,其特点是对称、单峰、钟形曲线。

正态分布在实际应用中具有很重要的意义,因此对数据进行正态检验就显得尤为重要。

本文将详细介绍正态检验的方法以及如何使用R语言进行正态检验。

二、什么是正态检验?正态检验(Normality Test)是指通过某些统计量对数据样本进行假设检验,判断样本是否符合正态分布。

常见的统计量有Kolmogorov-Smirnov (K-S) 检验、Shapiro-Wilk 检验、Anderson-Darling (A-D) 检验等。

三、K-S检验K-S检验(Kolmogorov–Smirnov test)是一种非参数假设检验方法,主要用于判断一个样本是否来自某个已知分布。

在正态性检查中,我们可以使用K-S测试来比较观察值与标准正态分布之间的差异。

1. K-S测试原理在使用K-S测试时,我们首先需要确定一个假设H0:该样本来自一个已知分布。

通常情况下,该已知分布是标准正态分布。

我们可以使用样本的均值和标准差来估计标准正态分布的参数。

接下来,我们需要计算出观察值与标准正态分布之间的最大偏差(D)。

这个偏差是指在统计学上,观察值与标准正态分布之间的最大距离。

最后,我们需要根据样本大小和显著性水平确定临界值。

如果D大于临界值,则拒绝假设H0,即该样本不符合正态分布。

2. 使用R语言进行K-S检验在R语言中,我们可以使用ks.test()函数进行K-S检验。

该函数包含两个参数:x表示要检验的数据向量;y表示用于比较的已知分布。

例如:```R# 生成一个随机数向量set.seed(123)x <- rnorm(100)# 进行K-S检验ks.test(x, "pnorm")```输出结果为:```ROne-sample Kolmogorov-Smirnov testdata: xD = 0.0863, p-value = 0.4814alternative hypothesis: two-sided```其中,D表示最大偏差;p-value表示拒绝原假设的显著性水平。

误差项正态性与异方差性的检验方法

误差项正态性与异方差性的检验方法

误差项正态性与异方差性的检验方法误差项正态性与异方差性的检验方法在统计学中扮演着重要的角色。

正态性检验用于判断误差项是否符合正态分布,而异方差性检验则用于确定误差项是否具有相等的方差。

本文将介绍常用的误差项正态性检验方法和异方差性检验方法,并探讨它们在实际应用中的意义。

一、误差项正态性检验方法误差项正态性的检验是在统计模型中常见的一项前提条件,许多统计方法都要求误差项呈现正态分布。

常用的误差项正态性检验方法包括图形法、Shapiro-Wilk检验和Kolmogorov-Smirnov检验。

1. 图形法图形法是最简单直观的误差项正态性检验方法之一。

通过绘制误差项的直方图、Q-Q图或者P-P图来观察误差项是否近似正态分布。

直方图可以显示误差项的分布情况,Q-Q图对应观测值和正态分布的分位数进行比较,P-P图则是对观测值和正态分布的累积概率进行比较。

2. Shapiro-Wilk检验Shapiro-Wilk检验是一种常用的统计检验方法,用于检验小样本数据是否符合正态分布。

该检验基于观测值和理论正态分布的协方差矩阵,通过计算统计量W来判断两者的一致性。

当p值小于设定的显著性水平时,拒绝假设,即误差项不符合正态分布。

3. Kolmogorov-Smirnov检验Kolmogorov-Smirnov检验是一种常用的非参数检验方法,用于判断样本是否来自于特定的分布。

在误差项正态性检验中,可以将样本与正态分布进行比较。

通过计算累积分布函数的差值来确定两者的差异程度,当p值小于显著性水平时,拒绝假设,即误差项不符合正态分布。

二、异方差性检验方法异方差性指的是误差项具有不同的方差,即在不同自变量取值下误差项的方差不相等。

当出现异方差性时,可能会导致统计结果的偏误。

常用的异方差性检验方法包括图形法、Breusch-Pagan检验和White检验。

1. 图形法图形法是一种初步观察误差项异方差性的方法。

可以通过绘制模型残差与自变量的散点图来判断是否存在异方差性。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

正态性检验的几种方法一、引言正态分布是自然界中一种最常见的也是最重要的分布。

因此,人们在实际使用统计分析时,总是乐于正态假定,但该假定是否成立,牵涉到正态性检验。

目前,正态性检验主要有三类方法:一是计算综合统计量,如动差法、Shapiro-Wilk 法(W 检验)、D ’Agostino 法(D 检验)、Shapiro-Francia 法(W ’检验)。

二是正态分布的拟合优度检验,如2χ检验、对数似然比检验、Kolmogorov-Smirov 检验。

三是图示法(正态概率图Normal Probability plot),如分位数图(Quantile Quantile plot ,简称QQ 图)、百分位数(Percent Percent plot ,简称PP 图)和稳定化概率图(Stablized Probability plot ,简称SP 图)等。

而本文从不同角度出发介绍正态性检验的几种常见的方法,并且就各种方法作了优劣比较,还进行了应用。

二、正态分布2.1 正态分布的概念定义1若随机变量X 的密度函数为()()()+∞∞-∈=--,,21222x e x f x σμπσ其中μ和σ为参数,且()0,,>+∞∞-∈σμ则称X 服从参数为μ和σ的正态分布,记为()2,~σμN X 。

另我们称1,0==σμ的正态分布为标准正态分布,记为()1,0~N X ,标准正态分布随机变量的密度函数和分布函数分别用()x ϕ和()x Φ表示。

引理1 若()2,~σμN X ,()x F 为X 的分布函数,则()⎪⎭⎫⎝⎛-Φ=σμx x F由引理可知,任何正态分布都可以通过标准正态分布表示。

2.2 正态分布的数字特征引理2 若()2,~σμN X ,则()()2,σμ==x D x E 引理3 若()2,~σμN X ,则X 的n 阶中心距为()()N k kn k k n kn ∈⎩⎨⎧=-+==2,!!1212,02σμ定义2 若随机变量的分布函数()x F 可表示为:()()()()x F x F x F 211εε+-= ()10<≤ε其中()x F 1为正态分布()21,σμN 的分布函数,()x F 2为正态分布()22,σμN 的分布函数,则称X 的分布为混合正态分布。

注:引理1、2、3的证明见参考文献[1]和[2]。

三、几种常见的正态性检验及其应用3.1 计算综合统计量法3.1.1 Shapiro-Wilk 检验(W 检验) 1.W 检验的一般步骤Shapiro-Wilk 检验在大多数情况下具有很高的效能和综合性。

检验的基本步骤如下:1)建立原假设0H :X 服从正态分布2)把从总体中获得的n 个样本观测值按由小到大的次序排列成:()()()n x x x ≤≤≤ (21)3)选择恰当的统计量W 为:()()()[]()∑∑=-+⎥⎦⎤⎢⎣⎡=⎥⎦⎤⎢⎣⎡-⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧-=n i i i i n n i i x x x x w a W 12_2121 式中[]2/n 表示2/n 的整数部分,系数()W a i 可查W 检验的系数表,[]2/n 表示数2/n 的整数部分。

4)根据给定的检验水平α和样本容量n 查W 检验统计量W 的p 分位数得统计量W 的α分位数αW 。

5)计算并判断:给定样本值1x ,…,n x ,计算W 并与αW 比较,若αW W <则拒绝0H ,反之,则不能拒绝0H 。

注:有关W 检验的原理及W 检验的系数及分位数表见参考文献[5]。

2.W 检验的应用抽查用克矽平治疗的矽肺患者10名,得他们治疗前后血红蛋白的差(单位:克%)如下:2。

7,-1。

2,-1。

0,0,0。

7,2。

0,3。

7,-0。

6,0。

8,-0。

3,试用W 检验检验治疗前后血红单倍的差是否服从正态分布。

把题中的数据按由小到大的次序排好填入表1表1 患者血红蛋白差值表i ()i x ()i x -11 ()()i i x x --11()W α 1 -1.2 3.7 4.9 0.5733 2 -1.0 2.7 3.7 0.3291 3 -0.6 2.0 2.6 0.2141 4 -0.3 0.8 1.1 0.1224 50.70.70.0399把表的数据代入公式()()()[]()∑∑=-+⎥⎦⎤⎢⎣⎡=⎥⎦⎤⎢⎣⎡-⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧-=n i i i i n n i i x x x x w a W 12_2121,经计算得9251.0=W 。

若取05.0=α,查统计量W 的α分位数表得10=n 时,842.0=αW ,因为αW W >,所以不拒绝原假设。

虽然W 检验是一种有效地正态性检验方法,但它一般只适用于容量为3至50的样本,随着n 的增大,一般用于计算分位数的分布拟合的技术不能使用。

3.1.2 D ’Agostino 检验 (D 检验)D ’Agostino 检验适合测量次数较多的情况,检验统计量为()()∑∑==-⎪⎭⎫⎝⎛+-=ni i ni i XX n X n i D 122/3121 在零假设为真时,28209479.0)(≈D E ,n D Var /02998598.0)(=,()02998598.028209479.0n D Y -=,渐进分布为)10(,N ,但由于接近)10(,N 的速度十分慢,因而 D ’Agostino 用随机模拟法得到了Y 的分位数表,在给定了显著性水平α后,用统计量Y 进行检验的拒绝域为⎭⎬⎫⎩⎨⎧≥≤-212ααY Y Y Y 或。

注:有关D 检验的原理及D 检验的分位数表见参考文献[6]。

3.2 正态分布的拟合优度检验 3.2.1 2χ拟合优度检验法 1. 2χ拟合优度检验法的理论2χ拟合优度检验法是基于2χ分布函数来分析连续性测量数据是否遵从正态分布的问题。

并根据正态分布的理论(期望)次数(oi f )和实际分布的次数(ei f ),对次数进行假设检验,从而判断分布是否遵从正态分布。

()∑-=eiei oi f f f 22χ其中,oi f 为次数分布各区间实际次数,ei f 为正态分布各区间的理论次数。

在SPSS 中进行2χ拟合优度检验,读取检验的伴随概率(p )。

如果05.0>p ,则可以用正态分布来拟合;如果05.0<p ,则不能用正态分布来拟合。

2χ拟合优度检验法不仅适用于正态性检验,还适用于其他分布的检验,对正态性检验来说不具有特效型。

2. 2χ拟合优度检验法的应用由于考试成绩总体是一个很特殊的总体,用2χ的拟合优度检验法对其进行正态检验时存在明显缺陷。

例如,一组很低含有负值但有对称性的数据,经2χ检验后也可被认为服从正态分布,但它作为学生的考试成绩就不具有实际意义。

所以,对考试成绩总体进行正态分布检验时,仅按通常2χ拟合优度检验是不够的。

设试卷总分为W ,根据教育统计学的基本原理,在正常的教学条件下,学生成绩应该服从均值为 %70⨯W ,标准差为%10⨯W 的正态分布。

如果均值和标准差的值过低或过高,都说明我们在教学过程中出现了较大的失误,此时进行正态性检验已失去应有的实际意义。

为了能反映在正常教学条件下,教和学的具体情况,在对学生考试成绩这一特殊总体进行2χ的拟合优度检验时,合理服从正态分布的成绩应满足以下条件:①()8.05.0/,∈W X ,其中X 为学生平均成绩(样本均值) ②根据概率论中的σ3原则,标准差()155,∈σ ③按通常拟合优度的2χ检验法,检验学生成绩总体服从正态分布。

计算公式如下:样本均值∑==ni i x n X 11,样本方差()2121∑=-=n i i X x n S ,式中n 为考生人数。

判断均值和标准差是否满足条件①②,若不满足则认为成绩不服从正态分布。

若满足则利用试卷成绩的均值X 及方差2S 作为总体均值μ 及总体方差2σ的估计,用ξ表示试卷成绩总体,则作如下假设:()20,~:S X N H ξ为了检验上述假设是否正确,系统将成绩区间[]W ,0划分为k 个区间,分点为121-<<<k t t t ,从而计算试卷成绩在各区间内的频数i V ,若有),(~2S X N ξ,则可求得在各区间取值的理论概率)()(1--=i i i t F t F P ,其中()⎪⎪⎭⎫ ⎝⎛-Φ=≤=SX t t X P t F i i i )(,)(x Φ表示标准正态分布的分布函数i=1,2,…,k 。

则各区间的理论频数i i nP U = 构成统计量()∑=-=ni iI i U V V x 122。

根据皮尔森定理可知,上述统计量趋近于自由度()m k --1的2χ分布。

其中m 为总体未知参数的个数,对于正态分布m 应等于2。

设给定信度α,查2χ分布表,得()212--k x a ,若()2122--<k x x a ,则接受0H ,说明这批成绩分布服从正态分布,否则拒绝0H 。

3.2.2 Kolmogorov-Smirnov 检验 (K-S 检验)Kolmogorov-Smirnov 检验通过样本的经验分布函数与给定分布函数的比较,推断该样本是否来自给定分布函数的总体。

容量n 的样本的经验分布函数记为)(x F n ,可由样本中小于x 的数据所占的比例得到,给定分布函数记为)(x G ,构造的统计量为()))(max(x G x F D n n -=即两个分布函数之差的最大值,对于零假设: 总体服从给定的分布)(x G 及给定的α,根据n D 的极限分布 (∞→n 时的分布) 确定统计量关于是否接受零假设的数量界限。

3.3 图示法3.3.1 图示法的原理一般的二维概率图是这样一种散点图,其中一个坐标为原始数据排序后的数据,而另一个坐标来自标准分布的期望有序统计量。

如果来自某一总体的数据的分布只与标准分布仅差一位置或尺度常数,那么最终概率图将近似为一条直线,极端偏离直线表明该资料不是来自所指定的分布。

随着概率图的不断发展,目前已发展了许多新型的概率图,如SP 图等。

设)()2()1(n X X X ≤≤≤ 是分布函数)(X F 的有序随机样本,假设存在连续位置尺度函数(){}σμ/0-X F (本文假定)(0X F 为正态分布),其中μ和σ分别为总体均值和标准差,通常可用样本的极大似然估计μˆ和σˆ代替。

要检验0F F =,等价于下列散点图中点近似在一条直线上。

(1)QQ 图就是作1q 与()1X 的散点图。

(2)PP 图就是作i t 与i u 的散点图。

(3)SP 图就是作i r 与i s 的散点图。

表2 三种图形的()%-1100α接受区间计算公式图形形式 接受区间界限QQ ()[]{}{}a i d q F F X 2/arcsin sin 2/10210πσμ±+=-PP {}a d t u 2/)arcsin(sin 2/12π±=SP a d r s ±=这里QQ 图较为常用,而SP 图效率最高,因为SP 图相当于对统计量进行方差稳定化转换(反正弦变换)。

相关文档
最新文档