SPSS统计分析1:正态分布检验

合集下载

SPSS学习系列19. 正态性检验

SPSS学习系列19. 正态性检验

19. 正态性检验实际中,经常需要检验数据是否服从正态分布。

一、Kolmogorov-Smirnov(K - S) 单样本检验这是一种分布拟合优度检验,即将一个变量的累积分布函数与特定分布进行比较。

有数据文件:对“数学成绩”“英语成绩”做正态性检验。

1.【分析】——【非参数检验】——【单样本】,打开“单样本非参数检验”窗口,【目标】界面勾选“自动比较观察数据和假设数据”2.【字段】界面,勾选“使用定制字段分配”,将要检验的变量“数学成绩”“英语成绩”选入【检验字段】框,3. 【设置】界面,选择“自定义检验”,勾选“检验观察分布和假设分布(Kolmogorov-Smimov检验)”点【选项】,打开“Kolmogorov-Smimov检验选项”子窗口,选择“正态分布”,勾选“使用样本数据”,点【确定】回到原窗口,点【运行】得到结果说明:样本量大于50用Kolmogorov-Smirnov检验,样本量小于50用Shapiro-Wilk检验;原假设H0:服从正态分布;H1:不服从正态分布。

P值<0.05, 拒绝原假设H0;P值>0.05, 接受原假设H0, 即服从正态分布;本例中,“数学成绩”、“英语成绩”的P值都>0.05, 故服从正态分布。

双击上面结果可以看到更详细的检验结果:注:类似的操作也可以检验数据是否服从“二项、均匀、指数、泊松”等分布。

二、用“旧对话框”进行上述检验1.【分析】——【非参数检验】——【旧对话框】——【1-样本K-S】,打开“单样本Kolmogorov-Smirnov检验”窗口,将要检验的变量选入【检验变量列表】框,【检验分布】勾选“常规”,2.点【精确】,打开“精确检验”窗口,勾选“精确”,“仅渐进法”——只计算检验统计量的渐近分布的近似概率值,而不计算确切概率,适用用样本量较大,P值远离α=0.05,节省计算时间,否则可能结果偏差较大;“Monte Carlo”——利用模拟抽样方法求得P值的近似无偏估计,适合大样本数据,节省计算时间;“精确”——计算精确的概率值(P值)。

SPSS统计分析1:正态分布检验.

SPSS统计分析1:正态分布检验.

正态分布检验一、正态检验的必要性[1]当对样本是否服从正态分布存在疑虑时,应先进行正态检验;如果有充分的理论依据或根据以往积累的信息可以确认总体服从正态分布时,不必进行正态检验。

当然,在正态分布存疑的情况下,也就不能采用基于正态分布前提的参数检验方法,而应采用非参数检验。

二、图示法1、P-P图以样本的累计频率作为横坐标,以安装正态分布计算的相应累计概率作为纵坐标,把样本值表现为直角坐标系中的散点。

如果资料服从整体分布,则样本点应围绕第一象限的对角线分布。

2、Q-Q图以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐标,把样本表现为指教坐标系的散点。

如果资料服从正态分布,则样本点应该呈一条围绕第一象限对角线的直线。

Q-Q图为佳,效率较高。

以上两种方法以3、直方图判断方法:是否以钟形分布,同时可以选择输出正态性曲线。

4、箱式图判断方法:观测离群值和中位数。

5、茎叶图类似与直方图,但实质不同。

三、计算法1、峰度(Kurtosis)和偏度(Skewness)(1)概念解释峰度是描述总体中所有取值分布形态陡缓程度的统计量。

这个统计量需要与正态分布相比较,峰度为0表示该总体数据分布与正态分布的陡缓程度相同;峰度大于0表示该总体数据分布与正态分布相比较为陡峭,为尖顶峰;峰度小于0表示该总体数据分布与正态分布相比较为平坦,为平顶峰。

峰度的绝对值数值越大表示其分布形态的陡缓程度与正态分布的差异程度越大。

峰度的具体计算公式为:注:SD就是标准差σ。

峰度原始定义不减3,在SPSS中为分析方便减3后与0作比较。

偏度与峰度类似,它也是描述数据分布形态的统计量,其描述的是某总体取值分布的对称性。

这个统计量同样需要与正态分布相比较,偏度为0表示其数据分布形态与正态分布的偏斜程度相同;偏度大于0表示其数据分布形态与正态分布相比为正偏或右偏,即有一条长尾巴拖在右边,数据右端有较多的极端值;偏度小于0表示其数据分布形态与正态分布相比为负偏或左偏,即有一条长尾拖在左边,数据左端有较多的极端值。

spss-数据正态分布检验-Q

spss-数据正态分布检验-Q

spss 数据正态分布检验 Q-Q图学习交流 2009-02-08 14:40 阅读1378 评论9字号:大中小把自己学习spss的一点理解拿出来晒一晒,要是不对大家可以留言啊,一定要讨论啊。

要观察某一属性的一组数据是否符合正态分布,可以有两种方法(目前我知道这两种,并且这两种方法只是直观观察,不是定量的正态分布检验):1:在spss里的基本统计分析功能里的频数统计功能里有对某个变量各个观测值的频数直方图中可以选择绘制正态曲线。

具体如下:Analyze-----Descriptive Statistics-----Frequenc ies,打开频数统计对话框,在Statistics里可以选择获得各种描述性的统计量,如:均值、方差、分位数、峰度、标准差等各种描述性统计量。

在Charts里可以选择显示的图形类型,其中Histograms选项为柱状图也就是我们说的直方图,同时可以选择是否绘制该组数据的正态曲线(With norma curve),这样我们可以直观观察该组数据是否大致符合正态分布。

如下图:从上图中可以看出,该组数据基本符合正态分布。

2:正态分布的Q-Q图:在spss里的基本统计分析功能里的探索性分析里面可以通过观察数据的q-q图来判断数据是否服从正态分布。

具体步骤如下:Analyze-----Descriptive Statistics-----Explore打开对话框,选择Plots选项,选择Normality plots with tests选项,可以绘制该组数据的q-q图。

图的横坐标为改变量的观测值,纵坐标为分位数。

若该组数据服从正态分布,则图中的点应该靠近图中直线。

纵坐标为分位数,是根据分布函数公式F(x)=i/n+1得出的.i为把一组数从小到大排序后第i 个数据的位置,n为样本容量。

若该数组服从正态分布则其q-q图应该与理论的q-q图(也就是图中的直线)基本符合。

对于理论的标准正态分布,其q-q图为y=x直线。

spss判断是否符合正态分布

spss判断是否符合正态分布

如何对数据资料进行正态性检验:一、正态性检验:偏度和峰度1、偏度(Skewness):描述数据分布不对称的方向及其程度(见图1)。

当偏度≈0时,可认为分布是对称的,服从正态分布;当偏度>0时,分布为右偏,即拖尾在右边,峰尖在左边,也称为正偏态;当偏度<0时,分布为左偏,即拖尾在左边,峰尖在右边,也称为负偏态;注意:数据分布的左偏或右偏,指的是数值拖尾的方向,而不是峰的位置,容易引起误解。

2、峰度(Kurtosis):描述数据分布形态的陡缓程度(图2)。

当峰度≈0时,可认为分布的峰态合适,服从正态分布(不胖不瘦);当峰度>0时,分布的峰态陡峭(高尖);当峰度<0时,分布的峰态平缓(矮胖);利用偏度和峰度进行正态性检验时,可以同时计算其相应的Z评分(Z-score),即:偏度Z-score=偏度值/标准误,峰度Z-score=峰度值/标准误。

在α=0.05的检验水平下,若Z-score在±1.96之间,则可认为资料服从正态分布。

了解偏度和峰度这两个统计量的含义很重要,在对数据进行正态转换时,需要将其作为参考,选择合适的转换方法。

3、SPSS操作方法以分析某人群BMI的分布特征为例。

(1) 方法一选择Analyze → Descriptive Statistics → Frequencies将BMI选入Variable(s)框中→点击Statistics →在Distribution框中勾选Skewness和Kurtosis(2) 方法二选择Analyze → Descriptive Statistics → Descriptives将BMI选入Variable(s)框中→点击Options →在Distribution框中勾选Skewness和Kurtosis4、结果解读在结果输出的Descriptives部分,对变量BMI进行了基本的统计描述,同时给出了其分布的偏度值0.194(标准误0.181),Z-score = 0.194/0.181 = 1.072,峰度值0.373(标准误0.360),Z-score = 0.373/0.360 = 1.036。

spss_数据正态分布检验方法及意义

spss_数据正态分布检验方法及意义

spss 数据正态分布检验方法及意义判读要观察某一属性的一组数据是否符合正态分布,可以有两种方法(目前我知道这两种,并且这两种方法只是直观观察,不是定量的正态分布检验):1:在spss里的基本统计分析功能里的频数统计功能里有对某个变量各个观测值的频数直方图中可以选择绘制正态曲线。

具体如下:Analyze-----Descriptive S tatistics-----Frequencies,打开频数统计对话框,在Statistics里可以选择获得各种描述性的统计量,如:均值、方差、分位数、峰度、标准差等各种描述性统计量。

在Charts里可以选择显示的图形类型,其中Histograms选项为柱状图也就是我们说的直方图,同时可以选择是否绘制该组数据的正态曲线(With nor ma curve),这样我们可以直观观察该组数据是否大致符合正态分布。

如下图:从上图中可以看出,该组数据基本符合正态分布。

2:正态分布的Q-Q图:在spss里的基本统计分析功能里的探索性分析里面可以通过观察数据的q-q图来判断数据是否服从正态分布。

具体步骤如下:Analyze-----Descriptive Statistics-----Explore打开对话框,选择Plots选项,选择Normality plots with tests选项,可以绘制该组数据的q-q 图。

图的横坐标为改变量的观测值,纵坐标为分位数。

若该组数据服从正态分布,则图中的点应该靠近图中直线。

纵坐标为分位数,是根据分布函数公式F(x)=i/n+1得出的.i为把一组数从小到大排序后第i个数据的位置,n为样本容量。

若该数组服从正态分布则其q-q图应该与理论的q-q图(也就是图中的直线)基本符合。

对于理论的标准正态分布,其q-q图为y=x直线。

非标准正态分布的斜率为样本标准差,截距为样本均值。

如下图:如何在spss中进行正态分布检验1(转)(2009-07-22 11:11:57)标签:杂谈一、图示法1、P-P图以样本的累计频率作为横坐标,以安装正态分布计算的相应累计概率作为纵坐标,把样本值表现为直角坐标系中的散点。

SPSS学习笔记-正态性检验

SPSS学习笔记-正态性检验

如何在spss中进行正态分布检验一、图示法1、P-P图以样本的累计频率作为横坐标,以安装正态分布计算的相应累计概率作为纵坐标,把样本值表现为直角坐标系中的散点。

如果资料服从整体分布,则样本点应围绕第一象限的对角线分布。

2、Q-Q图以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐标,把样本表现为指教坐标系的散点。

如果资料服从正态分布,则样本点应该呈一条围绕第一象限对角线的直线。

以上两种方法以Q-Q图为佳,效率较高。

3、直方图判断方法:是否以钟形分布,同时可以选择输出正态性曲线。

4、箱式图判断方法:观测离群值和中位数。

5、茎叶图类似与直方图,但实质不同。

二、计算法1、偏度系数(Skewness)和峰度系数(Kurtosis)计算公式:g1表示偏度,g2表示峰度,通过计算g1和g2及其标准误σg1及σg2然后作U检验。

两种检验同时得出U<U0.05=1.96,即p>0.05的结论时,才可以认为该组资料服从正态分布。

由公式可见,部分文献中所说的“偏度和峰度都接近0……可以认为……近似服从正态分布”并不严谨。

2、非参数检验方法非参数检验方法包括Kolmogorov-Smirnov检验(D检验)和Shapiro- Wilk(W检验)。

SAS中规定:当样本含量n≤2000时,结果以Shapiro – Wilk(W检验)为准,当样本含量n >2000时,结果以Kolmogorov – Smirnov(D检验)为准。

SPSS中则这样规定:(1)如果指定的是非整数权重,则在加权样本大小位于3和50之间时,计算Shapiro-Wilk统计量。

对于无权重或整数权重,在加权样本大小位于3和5000之间时,计算该统计量。

由此可见,部分SPSS教材里面关于“Shapiro – Wilk适用于样本量3-50之间的数据”的说法是在是理解片面,误人子弟。

(2)单样本Kolmogorov-Smirnov检验可用于检验变量(例如income)是否为正态分布。

spss正态分布检验方法

spss正态分布检验方法

spss正态分布检验方法SPSS正态分布检验方法。

SPSS(Statistical Package for the Social Sciences)是一种统计分析软件,广泛应用于社会科学、生物医学、教育研究等领域。

在数据分析过程中,正态分布检验是一项重要的统计方法,用于检验数据是否符合正态分布。

本文将介绍在SPSS中进行正态分布检验的方法及步骤。

SPSS正态分布检验方法主要包括两种统计检验,Shapiro-Wilk 检验和Kolmogorov-Smirnov检验。

Shapiro-Wilk检验是一种较为常用的正态性检验方法,适用于样本量较小(通常小于50)的情况。

在SPSS中,进行Shapiro-Wilk检验的步骤如下:1. 打开SPSS软件,导入需要进行正态分布检验的数据文件。

2. 选择“分析”菜单中的“描述统计”选项,然后在弹出的对话框中选择“探索性数据分析”。

3. 在“探索性数据分析”对话框中,将需要进行正态性检验的变量移动到“因子”框中。

4. 点击“统计”按钮,在弹出的对话框中勾选“Shapiro-Wil k”复选框。

5. 点击“确定”按钮,SPSS将输出Shapiro-Wilk检验的结果,包括统计量W和显著性水平。

Kolmogorov-Smirnov检验适用于样本量较大的情况,其原理是通过比较累积分布函数来检验数据是否符合正态分布。

在SPSS中进行Kolmogorov-Smirnov检验的步骤如下:1. 打开SPSS软件,导入需要进行正态分布检验的数据文件。

2. 选择“分析”菜单中的“非参数检验”选项,然后在弹出的对话框中选择“单样本K-S检验”。

3. 在“单样本K-S检验”对话框中,将需要进行正态性检验的变量移动到“测试变量列表”框中。

4. 点击“确定”按钮,SPSS将输出Kolmogorov-Smirnov检验的结果,包括统计量D和显著性水平。

在进行正态分布检验时,需要注意以下几点:1. 正态性检验是基于样本数据进行的统计推断,结果受样本量的影响。

(可视化整理)spss统计分析-实例分析

(可视化整理)spss统计分析-实例分析

众数(Mode)统计学名词,在统计分布上具有 明显集中趋势点的数值,代表数据的一般水平( 众数可以不存在或多于一个)。 修正定义:是 一组数据中出现次数最多的数值,叫众数,有时 众数在一组数中有好几个。用M表示。 理性理解 :简单的说,就是一组数据中占比例最多的那个 数。
全距也称为极差,是数据的最大值与最小 值之间的绝对差。在相同样本容量情况下 的两组数据,全距大的一组数据要比全距 小的一组数据更为分散。 计算公式:最大值-最小值。
1.2 描述分析
计算基本描述统计量的操作
(1)分析—描述统计—描述 (2)将分析变量选择到变量框中 (3)单击选项按钮指定基本统计量
1.2 描述分析
1.2.2 应用例一
案例1-3:计算人均住房面积的基本描述统计量 ,并对本市户口和外地户口家庭的情况进行比较。 操作步骤:
• 调用命令Analyze\Descriptive Statistics \Descriptives
1.1频数分析
1.1频数分析
输出结果
1.1 频数分析_例1
例1-1 分析住房状况调查数据中户主的从业状况 和目前所住房屋的产权情况 思路:利用频数分布表及图形 条件:都是分类变量,直接分析 步骤:
• 调用命令:
• Analyze\Descriptive Statistics\Frequencies
常用统计量:均值、中位数、众数
1.2 描述分析
刻画离散程度的统计量
离散程度是指一组数据远离其“中心值”的程度。
如果数据都紧密地集中在“中心值”的周围,数据的离 散程度较小,说明这个“中心值”对数据的代表性好; 相反,如果数据仅是比较松散地分布在“中心值”的周 围,数据的离散程度较大,则此“中心值”说明数据特 征是不具有代表性的。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

正态分布检验
一、正态检验的必要性[1]
当对样本是否服从正态分布存在疑虑时,应先进行正态检验;如果有充分的理论依据或根据以往积累的信息可以确认总体服从正态分布时,不必进行正态检验。

当然,在正态分布存疑的情况下,也就不能采用基于正态分布前提的参数检验方法,而应采用非参数检验。

二、图示法
1、P-P图
以样本的累计频率作为横坐标,以安装正态分布计算的相应累计概率作为纵坐标,把样本值表现为直角坐标系中的散点。

如果资料服从整体分布,则样本点应围绕第一象限的对角线分布。

2、Q-Q图
以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐标,把样本表现为指教坐标系的散点。

如果资料服从正态分布,则样本点应该呈一条围绕第一象限对角线的直线。

以上两种方法以Q-Q图为佳,效率较高。

3、直方图
判断方法:是否以钟形分布,同时可以选择输出正态性曲线。

4、箱式图
判断方法:观测离群值和中位数。

5、茎叶图
类似与直方图,但实质不同。

三、计算法
1、峰度(Kurtosis)和偏度(Skewness)
(1)概念解释
峰度是描述总体中所有取值分布形态陡缓程度的统计量。

这个统计量需要与正态分布相比较,峰度为0表示该总体数据分布与正态分布的陡缓程度相同;峰度大于0表示该总体数据分布与正态分布相比较为陡峭,为尖顶峰;峰度小于0表示该总体数据分布与正态分布相比较为平坦,为平顶峰。

峰度的绝对值数值越大表示其分布形态的陡缓程度与正态分布的差异程度越大。

峰度的具体计算公式为:
注:SD就是标准差σ。

峰度原始定义不减3,在SPSS中为分析方便减3后与0作比较。

偏度与峰度类似,它也是描述数据分布形态的统计量,其描述的是某总体取值分布的对称性。

这个统计量同样需要与正态分布相比较,偏度为0表示其数据分布形态与正态分布的偏斜程度相同;偏度大于0表示其数据分布形态与正态分布相比为正偏或右偏,即有一条长尾巴拖在右边,数据右端有较多的极端值;偏度小于0表示其数据分布形态与正态分布相比为负偏或左偏,即有一条长尾拖在左边,数据左端有较多的极端值。

偏度的绝对值数值越大表示其分布形态的偏斜程度越大。

偏度的具体计算公式为:
各种正态分布,尽管μ和σ可以分别取不同的值,但偏度都等于0,峰度都等于3,它们的密度函数曲线的形状都是一样的[1]。

(SPSS中峰度减3与0比较)
(2)适用条件
样本含量应大于200。

(3)检验方法
计算得到的峰度、偏度根据正态分布的值3、0(SPSS中为0、0)来直观判断是否接近。

应对二者分别进行U检验来定量描述显著性,方法如下[2]:
峰度U检验:|峰度-3| / 峰度标准差<= U0.05 = 1.96(SPSS中将3替换为0)
偏度U检验:|偏度-0| / 偏度标准差<= U0.05 = 1.96
如果上述都成立,则可认为在0.05显著水平符合正态分布(下例偏度可判断不符合)。

2、KS检验和SW检验
非参数检验方法包括Kolmogorov-Smirnov检验(D检验)和Shapiro- Wilk(W检验)。

(1)KS检验和SW检验的区别
二者以样本量大小来区分适用范围,样本量的判定标准有以下几种不同说法:
①SAS软件规定:当样本含量n ≤2000时,结果以Shapiro – Wilk(W检验)为准,当样本含量n >2000时,结果以Kolmogorov – Smirnov(D检验)为准。

②SPSS软件规定:
a.如果指定的是非整数权重,则在加权样本大小位于3和50之间时,计算
Shapiro-Wilk统计量。

对于无权重或整数权重,在加权样本大小位于3和5000之间时,计算该统计量。

由此可见,部分SPSS教材里面关于“Shapiro –Wilk适用于样本量3-50之间的数据”的说法不准确。

b.单样本KS检验可用于检验变量(是否为正态分布。

(理解为样本5000以上)
③国标GB/T 4882-2001《数据的统计处理和解释正态性检验》:SW检验适用于样本数8≤n≤50,小样本(n<8)对偏离正态分布的检验不太有效。

(2)KS检验的使用方法
KS检验属于非参数检验,SPSS有两种方式:一是explore(探索)结果中的KS检验(如下表),二是单样本KS检验。

在KS检验中,由于未考虑已知总体参数的情形,而是直接从样本中提取参数作为总体
参数的估计值,因此它实质上是修正的正态检验,即Lilliefors修正。

因此,KS检验不适用于小样本检验,而适合大样本的连续变量。

SPSS在explore(探索)结果中会注明KS检验结果是“Lilliefors Significance Correction”,而在单样本KS检验中没有注明(根据网络资料,老版本SPSS此处未修正,新版本则进行了修正)。

因此,上述两种方式在新版本SPSS中是相同结果。

(3)SW检验的使用方法
SPSS没有专门的菜单选项,同样是在explore(探索)中给出SW检验结果(如下表)。

Tests of Normality
Kolmogorov-Smirnov a Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
焦虑得分.081 63 .200*.967 63 .090
*. This is a lower bound of the true significance.
a. Lilliefors Significance Correction
3.卡方检验
也叫Pearson卡方检验,主要用于分类变量,根据样本数据推断总体分布与期望分布是否有显著差异,或推断两个分类变量是否相关或相互独立,主要依据观察频数与期望频数的差异来判断。

注意,使用前提是样本量足够大(不小于50)[3,4],而且每个单元格中的期望频数不能太小,如果小于5则与相邻单元格合并;如果20%的单元格理论频率都小于5,卡方检验不再适用[4]。

注:SPSS中非参数检验卡方菜单只提供了均布的选项,其他分布需要手工填写分布频率,故不便于直接使用。

四、方法的比较
1. 图示法相对于其他方法而言,比较直观,方法简单,从图中可以直接判断,无需计算,但这种方法效率不是很高,它所提供的信息只是正态性检验的重要补充。

2. 经常使用的卡方拟合优度检验和Kolmogorov-Smirnov检验的检验功效较低,在许多计算机软件的Kolmogorov-Smirnov检验无论是大小样本都用大样本近似的公式,很不精准,一般使用Shapiro-Wilk检验和Lilliefor检验。

3. Kolmogorov-Smirnov检验只能检验是否一个样本来自于一个已知样本,而Lilliefor检验可以检验是否来自未知总体。

4. Shapiro-Wilk检验和Lilliefor检验都是进行大小排序后得到的,所以易受异常值的影响。

5. Shapiro-Wilk检验只适用于3-50小样本场合,其他方法的检验功效一般随样本容量的增大而增大。

6. 拟合优度检验和Kolmogorov-Smirnov检验都采用实际频数和期望频数进行检验,前者既可用于连续总体,又可用于离散总体,而Kolmogorov-Smirnov检验只适用于连续和定量数据。

7. 拟合优度检验的检验结果依赖于分组,而其他方法的检验结果与区间划分无关。

8. 偏度和峰度检验易受异常值的影响,检验功效就会降低。

9. 假设检验的目的是拒绝原假设,当p值不是很大时,应根据数据背景再作讨论。

五、大样本数据的描述
(1)正态分布
描述格式为:均数±标准差
(2)非正态分布
用中位数和四分位数来描述,格式为:M(Q1,Q3)或M(Q3-Q1)
参考文献:
[1]梁小筠.正态性检验[J].上海统计,2000(10-12)
[2]宇传华.SPSS与统计分析[M].北京:电子工业出版社,2007:256-257
[3]杨虎.应用数理统计[M].北京:清华大学出版社,2006.12:75-76
[4]谢龙汉.SPSS统计分析与数据挖掘[M].北京:电子工业出版社,2014.4:134。

相关文档
最新文档