非参数检验
非参数检验课件

13.71
5
19.61
24.37
4.76
6
14.50
92.75
78.25
7
49.63
121.57
71.94
8
44.56
89.76
45.20
编秩次,求秩和 去掉d=0的对子,总的对子数也要相应减去; 用绝对值︱d︳编秩次,如果出现绝对值相等时(ties) ,则将它们的平均秩次值作为他们的秩次;
第二节 单样本资料的符号秩和检验
• 目的:推断样本中位数与已知总体中位数 (常为标准值或大量观察的稳定值)有无 差别,常用于不满足单样本t检验应用条 件的资料;其检验假设是M=M0.
• 例10-2 已知某地正常人尿氟含量的中位 数为2.15mmol/L.今在该地某厂随机抽取 12名工人,测得尿氟含量,结果见表2。 问该工厂的尿氟含量是否高于当地正常人 ?
参数检验方法
• t检验 两独立样本t检验要求:正态、方差相等、个体独立 配对t检验要求:差值正态、个体独立
• 方差分析 完全随机设计方差分析要求:正态、方差相等、个体独 立
参数检验方法
• 两组性别结构是否相同?
• 两组某种不良反应的发生率是否相同?
• 多组发生率是否相同? • 多组构成是否相同?
定性无序分 类资料
未解决的问题
• 疗效用痊愈、显效、有效、无效四级分类法进行 评价时,两组或多组如何比较?
• 对两组患者空腹胰岛素水平进行比较时,有的病 例测量结果为Ins<2.0 或Ins>300,如何处理?
未解决的问题
• 对应于多分类变量(有序) • 非正态分布 • 不完整数据:如,Ins<2.0 或Ins>300 • 正态分布但方差不相等时
非参数检验方法

非参数检验方法
1、秩和检验法的主要思想是把原始数据转化成秩,利用秩构造统计量来比较不同样本的分布。
在这里每个样本的秩是指把原始数据按从大到小的顺序排列,该数据值在原始数据中的位置。
例如:
原始数据:A组(5,7),B组(3,2)
对应的秩:A组(3,4),B组(2,1)
A组的秩和为7,B组的秩和为3,每组的秩和被用来检验两组数据是否相同。
2、中位数评分检验法的主要思想是将原始数据转换成中位数评分,利用中位数评分构造统计量比较不同样本的分布。
当计算中位数评分时,如果数据值小于等于该组数据的中位数,则中位数评分为0,如果数据值大于该组数据的中位数,则中位数评分为1。
扩展资料
非参数检验的作用:
在以前的均值T检验中,我们分析的都是连续型随机变量,并且前提条件是样本满足正态性条件。
当分析不再是连续型或者不再是正态性条件时,则应当使用非参数的方法对均值和方差进行假设检验。
在数据分析过程中,由于种种原因,人们往往无法对总体分布形态作简单假定,此时参数检验的方法就不再适用了。
非参数检验正是一类基于这种考虑,在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。
由于非参数检验方法在推断过程中不涉及有关总体分布的参数,因而得名为“非参数”检验。
第6章 非参数检验

3 1
17
8.5
8 4
5 2
13 6
7 3
19 10
8+9 = 8.5 2
中央财经大学统计学院 37
Wilcoxon符号秩检验:基本原理 符号秩检验: 符号秩检验
分别计算出差值序列中正数的秩和以及负 数的秩和。 显然,如果零假设成立,W+与W-应该比较 接近。如果二者过大或过小,则说明零假 设不成立。 将正数的秩和或者负数的秩作为检验统计 量,根据其统计分布计算p值,从而可以得 出检验的结论。
中央财经大学统计学院 38
特别说明
符号检验在匹配数据分析应用中只用到差 值的符号,而对差值数值的大小未能考虑, 因而失去了部分信息。Wilcoxon符号秩检 验既考虑差值的符号,又考虑差值的大小, 因此在所需的假设条件满足时其功效比符 号检验高。 Wilcoxon符号秩检验也可以用于单样本中 位数的非参数检验,这时只需要将第二个 样本的值设为零假设中的数值即可。
中央财经大学统计学院 33
符号检验
对于差值序列中正数的个数和负数的个数 按照符号检验的方法进行假设检验
中央财经大学统计学院
34
Wilcoxon符号秩检验:基本原理 符号秩检验: 符号秩检验
计算差值绝对值的秩 。 将差值绝对值从小到大排序,其位次就是 的秩(rank),等于0值不参与排序。
中央财经大学统计学院
中央财经大学统计学院 18
软件操作
在SPSS软件中打开数据文件,选择“分析” “非参数检 验” “1样本K-S”,在弹出的对话框中将“时间”设定为 检验变量;检验分布为默认的“常规”(正态分布)。单 击 “确定”
中央财经大学统计学院
19
结果分析
两个独立样本的4种非参数检验方法

两个独立样本的4种非参数检验方法两个独立样本的4种非参数检验方法1、两独立样本的Mann-Whitney U检验定义:两独立样本的非参数检验是在对总体分布不很了解的情况下,通过分析样本数据,推断样本来自的两个独立总体分布是否存在显著差异。
一般用来对两个独立样本的均数、中位数、离散趋势、偏度等进行差异比较检验。
Mann-Whitney U检验(Wilcoxon秩和检验)主要通过对平均秩的研究来实现推断。
秩:将数据按照升序进行排序,每一个具体数据都会有一个在整个数据中的名次或排序序号,这个名次就是该数据的秩。
相同观察值(即相同秩,ties),取平均秩。
两独立样本的Mann-Whitney U检验的零假设H0:两个样本来自的独立总体均值没有显著差异。
将两组样本(X1 X2 …… X m)(Y1 Y2…… Y n)混合升序排序,每个数据将得到一个对应的秩。
计算两组样本数据的秩和W x,W y 。
N=m+n Wx+Wy=N(N+1)/2如果H0成立,即两组分布位置相同,W x应接近理论秩和m(N+1)/2;W y 应接近理论秩和n(N+1)/2)。
如果相差较大,超出了预定的界值,则可认为H0不成立。
2、两独立样本的K-S检验两独立样本的K-S检验与单样本K-S检验类似。
其零假设H0:样本来自的两独立总体分布没有显著差异。
检验统计量D 为两个样本秩的累积分布频率的最大绝对差值。
当D较小时,两样本差异较小,两样本更有可能取自相同分布的总体;反之,当D较大时,两样本差异变大,两样本更有可能取自不同分布。
3、两独立样本的游程检验(Wald-Wolfwitz Runs)零假设是H0:为样本来自的两独立总体分布没有显著差异。
样本的游程检验中,计算游程的方法与观察值的秩有关。
首先,将两组样本混合并按照升序排列。
在数据排序时,两组样本的每个观察值对应的样本组标志值序列也随之重新排列,然后对标志值序列求游程。
SPSS将自动计算游程数得到Z统计量,并依据正态分布表给出对应的相伴概率值。
常见的几种非参数检验方法

常见的几种非参数检验方法非参数检验是一种不需要对数据进行假设检验的统计方法,它不需要满足正态分布等前提条件,因此被广泛应用于实际数据分析中。
在本文中,我们将介绍常见的几种非参数检验方法。
一、Wilcoxon符号秩检验Wilcoxon符号秩检验是一种用于比较两个相关样本之间差异的非参数检验方法。
它基于样本差异的符号和秩来计算统计量,并通过查表或使用软件进行显著性判断。
二、Mann-Whitney U检验Mann-Whitney U检验是一种用于比较两个独立样本之间差异的非参数检验方法。
它基于样本排名来计算统计量,并通过查表或使用软件进行显著性判断。
三、Kruskal-Wallis H检验Kruskal-Wallis H检验是一种用于比较多个独立样本之间差异的非参数检验方法。
它基于样本排名来计算统计量,并通过查表或使用软件进行显著性判断。
四、Friedman秩和检验Friedman秩和检验是一种用于比较多个相关样本之间差异的非参数检验方法。
它基于样本排名来计算统计量,并通过查表或使用软件进行显著性判断。
五、符号检验符号检验是一种用于比较两个相关样本之间差异的非参数检验方法。
它基于样本差异的符号来计算统计量,并通过查表或使用软件进行显著性判断。
六、秩相关检验秩相关检验是一种用于比较两个相关样本之间关系的非参数检验方法。
它基于样本排名来计算统计量,并通过查表或使用软件进行显著性判断。
七、分布拟合检验分布拟合检验是一种用于检验数据是否符合某个特定分布的非参数检验方法。
它基于样本数据与理论分布之间的差异来计算统计量,并通过查表或使用软件进行显著性判断。
八、重复测量ANOVA重复测量ANOVA是一种用于比较多个相关样本之间差异的非参数检验方法。
它基于样本方差和均值来计算统计量,并通过查表或使用软件进行显著性判断。
九、Bootstrap法Bootstrap法是一种用于估计总体参数和构建置信区间的非参数方法。
它基于自助重采样技术来生成大量虚拟样本,以此估计总体参数和构建置信区间。
8非参数检验

②正态近似法:
u | T n0 ( N 1) / 2 | n1n2 ( N 1) / 12
本例u 2.205 0.05/ 2 1.96
N3 N ; 3 3 N N (ti ti )
i
*校正公式(当相同秩次较多时)
uc u c; c
ti为第i个相同秩号的数据个数
假定:两组样本的总体分布形状相同
如果两总体 分布相同
基本思想
两样本来自同一总体 任一组秩和不应太大或太小
T 与平均秩和 n0 (1 N ) / 2 应相差不大
较小例数组的秩和, n1 n2 T min( R1 , R2 ), n1 n2
N n1 n2 n0 min( n1 , n2 )
控制 显效 有效 近控
65 18 30 13 126
107 24 53 24
1-107 108-131 132-184 185-208
54 119.5 158 196.5
编号 1 2
病情 单纯型 单纯型合并肺气肿
疗效 控制 显效
3
4 … 206 207
单纯型合并肺气肿
单纯型 … 单纯型 单纯型合并肺气肿
10 12(12 1) / 4 | R n(n 1) / 4 | u 2.275 n(n 1)(2n 1) / 24 12(12 1)(2 12 1) / 24
查标准正态分布表,得 P 值 校正公式: (当相同秩次个数较多时)
u
| R n(n 1) / 4 | n(n 1)(2n 1) / 24 (ti3 ti ) / 48 10 12(12 1) / 4
第一节 非参数检验的概念
方差分析与非参数检验

方差分析与非参数检验方差分析和非参数检验是两种常见的统计分析方法,用于比较不同组之间的差异或关联。
本文将详细介绍方差分析和非参数检验的原理、应用场景以及各自的优缺点。
方差分析(Analysis of Variance,ANOVA)是一种用于比较多个组之间均值差异的统计方法。
它基于总体均值与组内个体的个体值之间的差异,将总方差拆分为组内方差和组间方差,通过比较组间与组内方差的大小来判断组间均值是否显著不同。
方差分析一般分为单因素方差分析和多因素方差分析两种类型。
单因素方差分析适用于只有一个自变量(即因素)的情况,用于比较不同水平的因素是否对因变量(即观测值)有显著影响。
多因素方差分析适用于有多个自变量(即因素)的情况,用于比较各个因素及其交互作用对因变量的影响。
方差分析的优点主要有以下几点:1.可以同时比较多个组之间的差异,提供了一种全面且有效的统计方法。
2.可以通过比较组间与组内方差来判断差异是否显著,更加客观。
3.可以用于不同水平的因素对因变量的影响程度排名,帮助进一步探究因素的影响机制。
然而,方差分析也存在一些限制:1.方差分析对数据满足正态分布和方差齐性的要求比较严格,如果数据不满足这些要求,结果可能不准确。
2.方差分析只能对均值差异进行比较,不能揭示具体的分布差异。
3.方差分析本身不能进行推断和预测,只能判断差异是否显著。
非参数检验(Nonparametric Test)是一种不依赖于总体分布的统计方法,适用于数据不满足正态分布或方差齐性的情况。
与方差分析不同,非参数检验基于样本的秩次或次序,通过比较统计量来判断组间差异是否显著。
非参数检验包括了多种方法,如Wilcoxon秩和检验、Mann-WhitneyU检验、Kruskal-Wallis H检验等。
它们在样本较小或数据不满足正态分布的情况下具有较高的灵活性和鲁棒性。
非参数检验的优点有以下几点:1.不依赖于总体分布的参数,对数据的要求较低,尤其适用于数据不满足正态分布的情况。
非参数检验

200
取显著性水平为0.05,查 2 分布表得临界值
2 0.05
(4)
9.488
,由于
2统计量大于临界值,所以应该拒
绝原假设,即认为消费者对各种品牌茶叶的偏好是有差
别的。
二、符号检验
1. 单样本位置的符号检验
一个随机样本,有 n 个数据
x1,x2,…,xn,其实际的总体中位数为
M,假定的中位数是某个特定值,记 做 M0 。位置检验是检验真实的中位 数和假定的中位数的关系:大于、等 于还是小于。
品牌,每一种只标上A、B、C、D、E,随机抽取1000消费 者,每人都品尝五种茶叶,然后把最偏好的茶叶的字母 写下来。下表是整理后的消费者偏好的频数分布。要求 判断消费者对这几种品牌茶叶的偏好有没有差异?
各种品牌茶叶爱好者的频数分布
喜欢的品牌
A B C D E
合计
人数
220 302 175 80 223
一、 检验
属于拟合程度检验,它是利用随机 样本对总体分布与某种特定
分布拟合程度 的检验 。
检验步骤:
① 确立原假设和备择假设。 ② 按照“原假设为真”的假定,导出 一组期望频数或理论频数。 ③ 计算 2 统计量 。
2 k ( fi ei )2
i1
ei
若统计量的值较大,拒绝原假设。
【例10.14】假定有五种不同牌号的茶叶,但都未标明
市场调查
【例10.15】领导者的领导水平是可以训练的吗?
根据人的聪明程度、人品、受教育状况等,随机抽取30 人配成15对,每对中有一人随机选择受训,另一人不受 训。经过一段时间后,按被设计好的问题评价他们的领 导水平,结果如下表所示。
领导水平评价表
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
A 3 2 1 9 4 15
相应秩次 Rij B C 4 7 5.5 12.5 5.5 9 9 3 4 15 37.5
D 11 12.5 14 3 37.5
152 152 37.52 37.52 12 χ 3(14 1) 14(14 1) 4 3 4 3
4.1662
(t C 1
tj )
N3 N (263 26) (123 12) (73 7) (33 3) (4 3 4) C 1 523 52 C 0.8599
u c 4.1662/ 0.8599 4.493
三、多个独立样本比较的秩和检验 (Kruskal-Wallis test)
0.01(5,14)=22,
TU
0.01(5,14)
=78,即
99%的区间为22-78. ∵T* >TU 0.01(5,9),
∴P<0.01
正态近似法
如果n1或n2-n1超出附表的范围,可按下式 计算u值:
u | T n1 ( N 1) / 2 | 0.5 n1 n2 ( N 1) / 12
15 14 13 12 11 10
9
8
7
6
5
4
3
2
1
0
n=20时T分布
0.18 0.16 0.14 0.12
当n>25时,T值近似服从正 0.10 态分布,故可使用u检验! 0.08
0.06 0.04 0.02 0.00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
秩和组成情况 (2 )
F (3 )
1 1 1
概率 (4 )
0.03125 0.03125 0.03125 0.06250 0.06250 0.09375 0.09375 0.09375 0.09375 0.09375 0.09375 0.06250 0.06250 0.03125 0.03125 0.03125
例9-3 14名新生儿出生体重(kg)按其母亲 的吸烟习惯分组,(A组:每天吸烟大于1包; B组:
每天吸烟少于1包; C组:过去吸烟而现已戒烟;
D 组: 从不吸烟者), 原数据归纳如表9-5的左
侧部分, 试问4个吸烟组中出生体重分布是否
相同?
表 9-5 不同吸烟习惯母亲的新生儿体重分布及秩检验计算
n( n 1)(2n 1) / 24
表 9-2
n=5 时秩和 T 的分布
T( 秩和) (1 )
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0 1 2 3 4 5 1+2+3 1+2+4 1+2+5 1+3+5 1+4+5 1+2+3+5 1+2+4+5 1+3+4+5 2+3+4+5
秩和 秩次范 平均秩 围 次 合计 正常人 铅作业
26 12 7 3 4 52 1-26 27-38 39-45 46-48 49-52 13.5 32.5 42.0 47.0 50.5 243 65 108 325 294 141 202
T2=1070
+ ++ +++ ++++
合计
n1=20
T1=308
12 对双胞胎兄弟心理测试结果 后出生者得分 差 值 yi di =yi -xi (3) (4) 88 2 77 6 76 -1 64 -4 96 5 72 0 65 12 90 -1 65 -5 80 9 81 -7 72 -15 绝对差值秩次 秩次 | Ri | Ri (5) (6) 3 3 7 7 1.5 -1.5 4 -4 5.5 5.5 --10 -10 1.5 -1.5 5.5 -5.5 9 9 8 -8 11 -11
常用几种非参数假设检验
配对样本符号秩检验(Wilcoxon signed rank test) 两独立样本比较的秩和检验(Wilcoxon rank sum test) 多个独立样本比较的秩和检验(Kruskal-Wallis test) 随机区组设计资料的秩和检验(Friedman test) K组秩均值的多重比较
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 出生体重 xij 相应秩次 Rij ───────────── ────────────── A B C D A B C D ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 2.7 2.9 3.3 3.5 3 4 7 11 2.4 3.2 3.6 3.6 2 5.5 12.5 12.5 2.2 3.2 3.4 3.7 1 5.5 9 14 3.4 3.4 9 9 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ni 4 3 4 3 Ri 15 15 37.5 37.5 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
结果 (1) + ++ +++ ++++ 合计
正常人
(2 ) 18 2
n1=20
人数 铅作业工 人 (3 ) 8 10 7 3 4 n2=32
合计
(4 ) 26 12 7 3 4 52
秩次范 围 (5 ) 1-26 27-38 39-45 46-48 49-52
平均秩 次 (6 ) 13.5 32.5 42.0 47.0 50.5
1+2 1+3 1+4 1+5 2+5 3+5 4+5 2+3+5 2+4+5 3+4+5 2+3 2+4 3+4 1+3+4 2+3+4 1+2+3+4
2 2 3 3 3 3 3 3 2 2 1 1 1
Байду номын сангаас
1+2+3+4+5
合计
32
1.00000
n=5的T分布
0.10 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0.00
1、方法步骤:
建立假设
假设:H0:Md(x)= Md(y)
H1:Md(x)≠Md(y) 求差值 编秩: a. 差值按绝对值大小从小到大排序,编以秩次, 根据差值的正负号冠以正负号。 b. 编秩次时遇零舍弃,遇有差值绝对值相等, 编以平均秩次,如果符号相同可以不取平均秩次。
求秩和并确定检验统计量:任取 T+ 或 T- 作 为检验统计量T*,但常用小的秩和。 确定P值和作出推断结论。 当n≤ 25 时,查附表 9 , T 界值表。若 T* 值在上下界值范围内,其p值大于表上相应 概率水平,若 T* 值在上下界值范围外,则 其p值小于表上相应概率水平。
参数检验(parametric test):针对总 体参数进行的检验。 非参检验(nonparametric test):与 参数检验不同,非参检验不要求样本所代 表总体的分布类型,所以又称为 distribution-free test 。不考虑总体分 布型,也不针对总体的参数进行检验。
非参检验的适用范围
C
tj为第j组相同秩次的个数
在相同秩次较多时,应用下式进行校正:
uC u /
3 C 1 (t 3 t ) /( N N) j j
频数表资料(或等级资料)两样本资料比较 正常人和铅作业工人尿棕色素定性检查结果
人数 结果 铅作业 正常人 工人
18 2 8 10 7 3 4 n2=32
确定P值和作出推断结论。
若 T* 落入 TL α(n1,n2) ~ TU α(n1,n2) 区间 , 则其概率 P >α; T* 恰好等于该区间的下限值 [TL α(n1,n2) ] 或上限值 [TU α(n1,n2) ], 则其概 率P=α;若T* 落入区间之外, 则其概率P<α。
查附表10,TL
2、正态近似法
当n>25,可用u检验:
u
T n( n 1) / 4 0.5 n( n 1)( 2n 1) / 24
T n( n 1) / 4 0.5 n( n 1)( 2n 1) ( t t j ) 24 48
3 j
当相同差值较多时(不包括0),用下式校正。
偏态资料 分布类型不明的资料 等级资料 相互比较的各组变异程度相差悬殊
非参数检验的主要优缺点
优点:
a. 不受总体分布的限制,适用范围广;
非参数检验只有在参数检 方便。 验不能用的时候才使用!
缺点:
b. 可用“等级”或“符号”来评定,收集资料
造成信息的丢失,导致检验效率下降。增加犯 第二类错误的概率。
u
式中tj为第j个相同差值组的相同差值的个数。
3、本法的基本思想
配对比较符号秩和T的分布: 假定从一总体中随机抽取样本n=5的样本,则 可分别求出T+和T- ;当重复抽取所有可能组合 的样本,秩和T+的分布是对称的非连续分布。 且其均数和T的标准差为:
T n( n 1) / 4 T
二、两独立样本比较的秩和检验 (Wilcoxon Rank Sum test)
• 例9-2 在缺氧条件下, 观察4只猫与12只
兔的生存时间(分)结果示于表9-4。欲比 较猫、兔在缺氧条件下的生存时间是否 存在显著性差异。