第6章 非参数检验
第6章 非参数检验

第六章非参数检验在前面的章节中我们介绍了多种假设检验的方法,例如单个总体的t检验、基于两个独立样本的t检验、基于两个匹配样本的t检验、方差分析等。
在这些检验都需要对总体的分布特征作出某些假设(例如在t检验和方差分析中都需要假设总体服从正态分布),然后根据检验统计量的抽样分布对总体参数(如均值、比率等)进行检验。
这类检验方法称为参数检验。
我们前面强调过,在需要的假设条件不满足的情况下,特别是小样本的情况下,t检验、F检验都是不适用的。
那么,如何检验数据是否来自正态分布或者其他分布?在参数检验假设条件不满足的情况下如何对相应的问题进行分析?非参数检验方法可以帮助我们回答这类问题。
在这一章中,我们将首先简要说明非参数检验的概念和优缺点,然后介绍几种常见的非参数检验方法及其在SPSS中的实现方法。
第一节非参数检验概述非参数检验(nonparametric tests)也称为与总体分布无关的检验(distribution free tests),与参数检验相比,在非参数检验中不需要对总体分布的具体形式作出严格假设,或者只需要很弱的假设。
大部分非参数检验都是针对总体的分布进行的检验,但也可以对总体的某些参数进行检验。
与参数检验相比,非参数检验主要有以下几个方面的特点:(1)非参数检验不需要严格假设条件,因而比参数检验有更广泛的适用面。
(2)非参数检验几乎可以处理包括定类数据和定序数据在内的所有类型的数据,而参数检验通常只能用于定量数据的分析。
(3)虽然对于满足参数检验的假设条件的数据也可以采用非参数检验法进行分析,但在参数检验和非参数检验都可以使用的情况下,由于非参数检验没有充分利用样本内所有的数量信息,因此其检验的功效(power)要低于参数检验方法。
也就是说,在备择假设为真的情况下,采用参数检验方法拒绝原假设的概率要高于非参数检验的方法,从而更容易发现显著的差异。
在假设检验中,犯取伪错误的概率记为β,则1-β越大,意味着当备择假设为真时,拒绝原假设的概率越大,检验的判别能力就越好;1-β越小,意味着当备择假设为真时,拒绝原假设的概率越小,检验的判别能力就越差。
第6章 非参数检验

3 1
17
8.5
8 4
5 2
13 6
7 3
19 10
8+9 = 8.5 2
中央财经大学统计学院 37
Wilcoxon符号秩检验:基本原理 符号秩检验: 符号秩检验
分别计算出差值序列中正数的秩和以及负 数的秩和。 显然,如果零假设成立,W+与W-应该比较 接近。如果二者过大或过小,则说明零假 设不成立。 将正数的秩和或者负数的秩作为检验统计 量,根据其统计分布计算p值,从而可以得 出检验的结论。
中央财经大学统计学院 38
特别说明
符号检验在匹配数据分析应用中只用到差 值的符号,而对差值数值的大小未能考虑, 因而失去了部分信息。Wilcoxon符号秩检 验既考虑差值的符号,又考虑差值的大小, 因此在所需的假设条件满足时其功效比符 号检验高。 Wilcoxon符号秩检验也可以用于单样本中 位数的非参数检验,这时只需要将第二个 样本的值设为零假设中的数值即可。
中央财经大学统计学院 33
符号检验
对于差值序列中正数的个数和负数的个数 按照符号检验的方法进行假设检验
中央财经大学统计学院
34
Wilcoxon符号秩检验:基本原理 符号秩检验: 符号秩检验
计算差值绝对值的秩 。 将差值绝对值从小到大排序,其位次就是 的秩(rank),等于0值不参与排序。
中央财经大学统计学院
中央财经大学统计学院 18
软件操作
在SPSS软件中打开数据文件,选择“分析” “非参数检 验” “1样本K-S”,在弹出的对话框中将“时间”设定为 检验变量;检验分布为默认的“常规”(正态分布)。单 击 “确定”
中央财经大学统计学院
19
结果分析
SPSS数据分析教程-第6章-非参数

Median test
独立样本检验举例
➢ 一个公司把他们的销售代表随机分到三个 不同的组中,进行不同的培训。两个月后 对销售进行考察,我们想通过非参数检验 比较不同组别的销售代表考试得分是否有 显著性差异。这里,不同组别的考试得分 是相互独立的,因此为独立样本数据,我 们采用独立样本非参数检验。
➢
独立样本包括两个独立样本或者两个以上的独 立样本。
➢ SPSS提供的独立样本非参数检验的方法有:
两个独立样本分布的比较
Mann-Whitney U
Kolmogorov-Smimov
Wald-Wolfowitz K个独立样本分布的比较
Kruskal-Wallis
Jonckheere-Terpstra 比较全矩
➢ Wilcoxon符号秩检验用于检验样本所来自的 总体的中位数和所给的值是否有显著区别。 该检验适用于连续型数据(或者尺度数 据),它把观测值和原假设的中心位置之 差的绝对值的秩分别按照不同的符号相加 作为其检验统计量。
➢ Wilcoxon符号秩检验的假设为:
样本所来自的总体的中位数等于给定的数值。
游程检验
➢ 游程检验用于检验某一变量的两个值的出 现顺序是否随机,对于连续型变量的随机 性检验也可以转化为只有两个取值的分类 变量的随机性的检验。游程检验通过对样 本观测值的分析,用来检验该样本所来自 的总体序列是否为随机序列(又称为白噪 声序列)。它也可以用来检验一个样本的 观测值之间是否相互独立。
二项式检验
➢ SPSS的二项式检验通过样本数据检验样本 来自的总体是否服从指定的二项分布。例 如,现代社会男、女的比例是否为1.01:1; 工厂的次品率是否为1%等都可以通过二项 式检验完成。
第6章 SPSS非参数检验讲解

在【定义二分法】选项组中可以定义二元变量。 Step04:指定检验概率值
在【检验比例】选项组中可以指定二项分布的检验概率值。 系统默认的检验概率值是0.5,这意味着要检验的二项是服从均 匀分布的。如果所要检验的二项分布不是同概率分布,参数框中 要键入第一组序列的随机性,而不管这个序列是 怎样产生的;此外还可用来判断两个总体的分布是否相同,从而 检验出它们的位置中心有无显著差异。
3.软件使用方法
SPSS中利用游程数构造Z统计量,利用Z统计量的分布来检验 序列是否具有随机性。软件将自动计算出Z统计量的取值及对应 的概率P值。如果概率P值小于或等于用户设定的显著性水平,则 拒绝零假设,认为变量不具有随机性;相反的,如果概率P值大 于显著性水平,则认为变量出现是随机的。
在【期望全距】选项组中可以确定检验值的范围,对应有 两个单选项。 Step04:选择期望值
在【期望值】选项组中可以指定期望值 ,对应有两个单选 项。
Step05:选择计算精确概率
单击【精确】按钮,弹出【精确检验】对话框,该对话框用于选 择计算概率P值的方法 。
Step06:其他选项选择 单击【选项】按钮,弹出【选项】对话框,该对话框用于指定输 出内容和关于缺失值的处理方法
3.软件使用方法
SPSS会自动计算出χ2统计量及对应的相伴概率P值。
Step01:打开主菜单
选择菜单栏中的【分析】 →【非参数检验】→【旧对话框】→ 【卡方】命令,弹出【卡方检验】对话框。
Step02:选择检验变量
在【卡方检验】对话框左侧的候选变量列表框中选择一个 或几个变量,将其添加至【检验变量列表】列表框中,表示需 要进行进行卡方检验的变量。 Step03:确定检验范围
非参数检验

非参数检验的优点:
①适用范围广,不论样本来自的 总体分布形式如何,都可适用;
②某些非参数检验方法计算简便, 研究者在急需获得初步统计结果时可 采用;
的总体分布不同。 α=0.05
2.混合编秩
依据两组数值由小到大编秩,结果 见上表。
3.求秩和并确定检验统计量T
把两组秩次分别相加求出两组的秩 和值,R1=315.5,R2=149.5。因乳 酸钙组样本含量较小,故 T=R2=149.5。
4.确定P值和作出推断结论 以较小样本含量为n1,n1=14, n2n1=2,查附表6,两样本比较秩和检验 用T界值表(双侧)。
当n1>20或(n2-n1)>10时,附表6 中查不到P值,则可采用正态近似法求u 值来确定P值,其公式如下:
u T n1(N 1) / 2 0.5 n1n2(N 1) 12
上式中T为检验统计量值,n1、n2 分别为两样本含量,N=n1+n2,0.5这 连续性校正数。上式为无相同秩次时使 用或作为相同秩次较少时的近似值。当 两样本相同秩次较多(超过总样本数的 25%)时,应按下式进行校正,u经校 正后可略增大,P值则相应减小。
式中,Ri为各组的秩和,ni为各组 样本含量,N为总样本含量。
当各组相同秩次较多时,可对H值进 行校正,按下式求值。
Hc H c
C 1
(t
3 j
t
j
)
(N3 N)
4.确定P值和作出推断结论
当组数K=3,每组样本含量ni≤5时, 可查附表7(H界值表)得到P值。若 k>3或ni>5时,H值的分布近似于自 由度为k-1的χ2分布,此时可查附表 4χ2界值表得到P值。最后按P值作出 推断结论。
6非参数检验

N 100
Mean 7.284
Std. Deviation .3687
Minimum 6.6
Maximum 8.0
25th 7.000
75th 7.400
组别 Observed N Expected N 8 6.4 8 9.5 11 15.7 25 20.1 24 19.4 10 14.6 7 8.6 7 5.6 100 Re sidual 1.6 -1.5 -4.7 4.9 4.6 -4.6 -1.6 1.4
游程数太多或者太小都表明变量值不是随 机的
关于随机性的游程检验(run test)
出现0和1的的这样一个过程可以看成是参数为某未知p 的Bernoulli试验。 我们定义m和n之后,在0和1的出现是随机的零假设之 下,R的条件分布就和这个参数无关了。 根据初等概率论,R的分布可以写成 (令N=m+n)
游程检验方法是检验一个取两个值的变量的这两 个值的出现是否是随机的。 假定下面是由0和1组成的一个这种变量的样本: 0000111111001011100000000 其中相同的0(或相同的1)在一起称为一个游程 (单独的0或1也算)。 这个数据中有4个0组成的游程和3个1组成的游程。 一共是R=7个游程。其中0的个数为m=15,而1的 个数为n=10。
D0 0, K ( x) 2 2 ( 1) exp ( 2 j x ), D0 j
警告
经常有人在Kolmogorov-Smirnov检验中,当 检验不能拒绝总体分布为某分布时,来“接 受”或“证明”该样本来自该分布。这是错 误的。 比如我们有由1、2、3、4、5五个数目组成的 数据,我们分别检验该数据是否是正态分布、 均匀分布、Poisson分布或指数分布。结果归 纳为下表
第6章非参数检验

下图给出了一名目标球员连续30场比赛进球数据。试用游程检验方法研 究该球员状态,判断其发挥是否稳定。
6.3.3 课堂练习:运动员状态稳定性判断
2. 实例操作
选择菜单栏中的【分析】∣【非参数检验】∣【旧对话框】∣【游程】命令, 弹出如下图所示对话框。
在【单样本K-S检验】对话框的候选变量列表框中选择变量,将其添加至【检验 变量列表】列表框中,选择的变量就是要进行分析的观测变量。
【检验分布】对话框用于指定检验的分布类型,包括以下4个复选框。 【常规】:选择此项,则检验变量是否服从正态分布,这是系统默认选项。 【相等】:选择此项,则检验变量是否服从均匀分布。 【泊松】:选择此项,则检验变量是否服从泊松分布。 【指数分布】:选择此项,则检验变量是否服从指数分布。
0
2
10
5
Fn
(
x)
10
6
10
9
10
1
x 1 1 x 2 2 x4 4 x5 5 x 10 x 10
6.4.2 单样本K-S检验的SPSS操作详解
选择菜单栏中的【分析】∣【非参数】∣【旧对话框】∣【单样本K-S】命 令,弹出【单样本K-S检验】对话框,如下图所示。这是的主操作窗口。
6.4.3 课堂练习:考试成绩是否服从正态分布
1. 实例内容 下图给出了山东某大学某专业30名男生的百米速度。试用单样本K-S检验 方法研究其是否服从正态分布。
6.4.3 课堂练习:考试成绩是否服从正态分布
2. 实例操作 选择菜单栏中的【分析】∣【非参数】∣【旧对话框】∣【单样本
第6章 SPSS的非参数检验(共109张PPT)

0.63 0.95 0.95 0.95 0.91 没有可比
较的
6.2 SPSS 在卡方检验中的应用
1.使用目的 卡方检验〔Chi-Squar Test〕也称为卡方拟合优度检验,是K.Pearson 给出的一种最常用的非参数检验方法。它用于检验观测数据是否与某 种概率分布的理论数值相符合,进而推断观测数据是否是来自于该分 布的样本的问题。
• Step02:选择检验变量
在【Binomial Test(二项式检验)】对话框左侧的候选 变量列表框中选择一个或几个变量,将其添加至【Test Variable List(检验变量列表)】列表框中,表示需要进行 进行二项分布检验的变量。
• Step03:定义二元变量
在【Define Dichotomy(定义二分法)】选项组中可以 定义二元变量。
表6-1 参数检验和非参数检验的效率比较
应用
参数检验
非参数检 验
对正态总 体的 非参 数检 验的 效率 评价
配对样 本数 据
t检验或者 z检验
符号检验 Wilcoxon
两个独 立样 本
多个独 立样
t检验或者 z检验
方差分析 (F检验)
线性相关
无可用的
检验
Wilcoxon 检验
K-W检验 秩相关检
验
最后,单击【OHK(0确:定)样】按本钮,来操自作完的成。总体与某个指定的二项分布无显著性差异。 966227,9大70于显10著54H性9水187平:09.6样7 9本69 来967自10的01 总994体993与某个指定的二项分布有显著性差异。
P由e于rc三en种tile糖s果的S卡P路SS里会含量自独动立,计故算引入出多二独立项样分本布非参检数验检验相方应法。的检验统计量及对应的概率P值。如果概率P 3 实例分析:值糖小果中于的或卡路等里于用户设定的显著性水平,那么拒绝零假设,认为总体与某个指定的二 (提2-示ta:ile可d)以在项【分Tes布t D有istr显ibut著ion性(检验差分异布);】选相项反组中的选,择检如验果分概布类率型P;值大于显著性水平,那么接受零假设。 在【Test Distrib需uti要on(注检验意分的布)】是选,项二组中项,分用户布需检要选验择过待检程验要的理求论变分布量。必须是数值型的二元变量〔只取两个 就它单此是击数 指 【据在Op你总tio的体可量ns结不】能;论服按是从假值钮什正,的设么态在?分变变弹布出量量且的分〕不对布话。是情框假二况的不【元设明S变变时tat,i量量st用ic是,s来(统检字需计验量符要数)据】型设资选的置料项是组,断否中可点来勾自选以将同【使数一De个用据sc总r重分ip体ti假v编为e设(描码两的述个功一性类)能局】检和将部验【方其,Q法u转将。arti化大les(为于四分数断位值点数)型值】复变的选框,表示输 出根本统计量归。为一组,其余归为另一组。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在数据呈偏态分布的情况下,我们可能对 总体的中位数更感兴趣,希望对总体的中 位数作出推断,这时可以使用符号检验 (sign test)的方法。 在非正态总体小样本的情况下,如果要对 总体分布的位置进行推断,由于t检验不适 用,也可使用符号检验的方法。
中央财经大学统计学院
25
【例6.3】
在某地区随机调查了60个家庭的月收入 (数据文件:家庭月收入.sav)。根据样本 数据能否认为总体中家庭月收入的中位数 等于6000元(显著性水平a=0.05)?
中央财经大学统计学院
10
软件操作:方法设定
选择“分析”“非参数检验”“卡方”,在弹出的对 话框中将“材料”设定为检验变量;单击对话框中的“精 确…”,选中弹出对话框中的“精确”,单击“继续”、 “确定”
中央财经大学统计学院
11
软件操作:结果分析(1)
1.00 2.00 3.00 总数
观察数 期望数 残差 55 40.0 15.0 25 40.0 -15.0 40 40.0 .0 120
结c 总数
中央财经大学统计学院
37 22
1 60
31
结果(2)
家庭月收入 - Median Z -1.823 渐近显著性(双侧) .068
用正态分布进行近似计算时,Z统计量的值 为-1.823,双侧检验的p值为0.068。由于p 值大于0.05,检验的结论是不能拒绝原假设。
中央财经大学统计学院 32
中央财经大学统计学院
7
c2拟合优度检验的基本原理
如果消费者对3种材料的偏好程度是无差异的,也 就是说消费者对材料的偏好服从均匀分布,则理 论上来说,调查120名消费者,偏好每种材料的 人数应该是相等的,也就是40人。各组观测到的 人数与理论人数(期望值)之间的差异应该都是 由于抽样的随机性造成的,因此不应该太大。如 果二者之间的差异特别大,则说明我们所作的假 设(消费者对3种材料的偏好程度是无差异的)很 可能不成立。
中央财经大学统计学院 8
检验统计量
(Oi Ei ) c Ei i 1
2 k
2
k是样本分类的个数,表示实际观察到的频数,表 示理论频数。观察频数与期望频数越接近,则c2 值越小。根据皮尔逊定理,当n充分大时, c2统 计量渐近服从于k-1个自由度的c2分布。
中央财经大学统计学院 9
软件操作:数据录入
中央财经大学统计学院 4
常用的非参数检验方法
用于单个样本的c2拟合优度检验、K-S拟合 优度检验、中位数的符号检验 用于两个匹配样本的Wilcoxon符号秩检验 用于两个独立样本的Wlicoxon秩和检验 用于多个独立样本的Kruskal-Wallis检验。
中央财经大学统计学院
5
6.2单样本的非参数检验方法
c2拟合优度检验 K-S拟合优度检验 中位数的符号检验
中央财经大学统计学院
6
c2拟合优度检验
【例6.1】一种饮料的容器材料可以选择玻 璃、塑料或者金属。为了比较消费者对包 装材料的偏好,抽样调查了120名消费者发 现,最喜欢玻璃、塑料和金属容器的分别 有55、25和40人。根据调查结果,能否认 为消费者对3种材料的偏好程度是无差异的 (显著性水平a=0.05)?
符号检验
对于差值序列中正数的个数和负数的个数 按照符号检验的方法进行假设检验
中央财经大学统计学院
36
Wilcoxon符号秩检验:基本原理
计算差值绝对值的秩 。 将差值绝对值从小到大排序,其位次就是 的秩(rank),等于0值不参与排序。
中央财经大学统计学院
37
秩(rank)
秩就是该数据按照升序排列之后,每个观 测值的位置。
中央财经大学统计学院
ห้องสมุดไป่ตู้29
软件操作(2)
选择“分析”“非参数检验”“2个相关样 本”,在弹出的对话框中将“Median”和“家庭月 收入”设定检验的一对变量;选中“符号检验”, 取消选择“Wilcoxon”,单击 “确定”
中央财经大学统计学院
30
结果(1)
N
家庭月收入 负差分a - Median 正差分b
27
检验统计量
S=
min(S , S )
在原假设成立的条件下,检验统计量S服从 二项分布。 按照这个概率可以根据二项分布计算得到, 从而得出检验的结论。 当正号和负号个数之和大于25时,可以按 照正态分布进行近似计算。
中央财经大学统计学院 28
软件操作(1)
在SPSS中打开数据文件。为了对中位数进行检验,先在 SPSS中生成一个新的变量Median,取值为6000:单击 “转换”“计算变量”,在弹出的对话框中按照图6-3 进行设置,单击确定。
中央财经大学统计学院 17
SPSS K-S检验中检验统计量的计算
检验统计量
中央财经大学统计学院
18
SPSS K-S检验中p值的计算
(1) (2) 其中
(3) 其中 (4)
中央财经大学统计学院
19
【例6.2】
例4.1中有100名儿童每周看电视时间的数 据(数据文件:电视时间.sav)。检验能否 认为总体中儿童每周看电视的时间服从正 态分布(显著性水平a=0.05)。 这里K-S检验的零假设和备择假设为: H0:总体中儿童每周看电视的时间服从正 态分布。 H1:总体中儿童每周看电视的时间不服从 正态分布。
第6章 非参数检验
6.1 非参数检验概述 6.2 单样本非参数检验 6.3 两个和多个样本的非参数检 验
中央财经大学统计学院
6.1 非参数检验概述
非参数检验(nonparametric tests)也称为 与总体分布无关的检验( distribution free tests) 与参数检验相比,在非参数检验中不需要 对总体分布的具体形式作出严格假设,或 者只需要很弱的假设。 大部分非参数检验都是针对总体的分布进 行的检验,但也可以对总体的某些参数进 行检验。
H 0 : M e 6000 H 1 : M e 6000
中央财经大学统计学院 26
符号检验的基本思想
每个数据都减去零假设中的中位数,记录 其差值的符号。计算正、负符号的个数 (差值为0的不计算在任何一个中),当原 假设为真时二者应该很接近;若两者相差 太远,就有理由拒绝原假设。
中央财经大学统计学院
中央财经大学统计学院 23
特别说明
在K-S检验中如果使用的是小样本,则根据 渐进分布计算p值的误差会增大。这时应该 通过相应的设定要求软件输出精确检验的p 值,根据精确检验的p值得出检验结论。 K-S检验也可以用于对两个总体分布是否一 致的检验。
中央财经大学统计学院
24
单样本中位数的符号检验
中央财经大学统计学院
34
匹配样本的非参数检验
如果t检验的假设条件不满足,t检验就不适 用了。符号检验和Wilcoxon符号秩检验都 可以用做替代的检验方法。 用样本数据中对应的数值相减得到新的序 列: 零假设:差值总体的中位数=0; 备择假设:差值总体的中位数≠0。
中央财经大学统计学院 35
特别说明
如果样本量较小,则需要使用软件输出的 精确检验的p值进行推断 在小样本时,如果要求进行精确检验, SPSS会自动按照二项分布进行概率计算。
中央财经大学统计学院
33
6.3 两个样本和多个样本的 非参数检验
两个匹配样本的Wilcoxon符号秩检验 两个独立样本的Wlicoxon秩和检验 多个独立样本的Kruskal-Wallis检验
中央财经大学统计学院 20
软件操作
在SPSS软件中打开数据文件,选择“分析”“非参数检 验”“1样本K-S”,在弹出的对话框中将“时间”设定为 检验变量;检验分布为默认的“常规”(正态分布)。单
击 “确定”
中央财经大学统计学院
21
结果分析
时间 100 27.191 8.3728 .096 .096 -.039 .960 .315
N 正态参数a,,b 均值 标准差 最极端差别 绝对值 正 负 Kolmogorov-Smirnov Z 渐近显著性(双侧)
中央财经大学统计学院
22
检验结论
相应的p值(渐近显著性)为0.315。由于 0.315大于0.05,所以在5%的显著性水平下 不能拒绝原假设,也就是说根据样本数据 不能认为总体分布是非正态的。 注意这里并不能得出总体服从正态分布的 严格结论。总体服从正态分布的结论可能 犯第二类错误(取伪错误),这个概率是 未知的,在有些情况下可能会很大。
中央财经大学统计学院
14
特别说明
大样本、每个单元中的期望频数大于等于5 时可以使用c2分布。 小样本时应该按照精确方法计算得到的p值 得出结论。 c2检验也可以按照同样的思想对正态分布或 者任何想象的其他分布进行检验,但主要 用于对定性变量的检验。另外, c2检验也 可以用于对两个总体分布的比较。
13 6
7 3
19 10
89 8 .5 2
中央财经大学统计学院 39
Wilcoxon符号秩检验:基本原理
分别计算出差值序列中正数的秩和以及负 数的秩和。 显然,如果零假设成立,W+与W-应该比较 接近。如果二者过大或过小,则说明零假 设不成立。 将正数的秩和或者负数的秩作为检验统计 量,根据其统计分布计算p值,从而可以得 出检验的结论。