第八讲非参数检验

合集下载

非参数检验

目录第八章非参数检验 ________________________________________________________________________ 2第一节非参数检验概述 __________________________________________________________________ 3第二节单样本非参数检验 ________________________________________________________________ 3χ拟合优度检验__________________________________________________________________ 3一、2二、单样本K-S检验___________________________________________________________________ 5三、符号检验 _________________________________________________________________________ 6四、游程检验 _________________________________________________________________________ 7χ的独立性检验_________________________________________________________ 8第三节列联表与2第四节等级相关分析 ___________________________________________________________________ 10一、Spearman等级相关系数____________________________________________________________11二、Kendall等级相关系数 _____________________________________________________________ 12英文摘要与关键词 ______________________________________________________________________ 14习题 _________________________________________________________________________________ 15第八章非参数检验通过本章的学习，我们应该知道：1.非参数检验的优缺点2.常用的单样本非参数检验方法3.列联表与卡方的独立性检验4.S pearman和Kendall 等级相关系数的计算第一节非参数检验概述非参数检验（nonparametric tests ）是相对于参数检验而言的。

第8章非参数检验

n( n 1) E (T ) 4
n( n 1)(2n 1) V (T ) 24
当n≥25时（n是正负号的总数，不包括0差值项数），
威尔科克森T统计量近似服从正态分布。这时，可构造Z统计量
Z
T E (T ) V (T )
若 n 不够大， T 的临界值可由附表 6 来确定。该表
数 1的2分布。式中，n是样本量，理论频数是由样本量乘以由理论分布确定的组格概率计算的。求和项数为组格数目。
皮尔逊2统计量的直观意义十分显然：
(n)2是各组
格的实际观测频数与理论期望频数的相对平方偏差
的总和，若(n)2值充分大，则应认为样本提供了理
论分布与统计分布不同的显著证据，即假设的总体
再次，分别对正号秩与负号秩计算秩和，所得之秩和不
带正负号，记作∑秩(+)与∑秩() 。
为检验两总体平均水平是否有差异，可建立原假设
H0: ∑秩(+)与∑秩() 这一假设表明，在差数总体D中，正差和负差不仅个数相同，而且在均值0的两侧对称分布。也就是表明，总体X与Y没有差异。两个秩中较小的一个，通常称作威尔科克森T统计量，将其作为检验统计量。在原假设成立的前提下，威尔科克森T统计量的数学期望和方差分别是：
三、分布拟合检验
在理论研究和实际应用中，常常根据所作随机试验
的特点，认定无限总体的分布符合某种概率分布模型，这时，说该无限总体具有已知的分布。但是，有许多时候，无法根据所作随机试验认定无限总体符合何种概率分布模型。这时，便需要根据统计数据提供的信息，为总体选配一个合适的概率分布模型。
0.0512
0.0803 0.1140 0.1344
17.920

非参数检验方法

非参数检验方法一、什么是非参数检验非参数检验（Nonparameteric Tests）是指检验假设（比如均值、方差、分布类型）不依赖样本参数的方法，也可以称为不参数检验，将数据的描述性统计量和判别量作为假设检验的基本工具，而不主张假设服从某个具体的概率分布。

二、非参数检验的优点1、可以使用描述性统计量作为假设检验的基本工具，而不主张数据服从某个具体的概率分布，使得检验更加简单。

2、非参数检验的统计量倪比较有针对性，无论样本量大小，无论是否假定样本服从某个具体概率分布，它都能比较有效计算统计量的有效性、准确性。

3、非参数检验的抽样复杂度较低，当数据量较小时，可以获得较精确的结果。

4、非参数检验可以应用于连续变量或离散变量检验假设，使得非参数检验成为一种常见的统计检验方法。

三、常见的非参数检验方法1、Wilcoxon符号秩检验：Wilcoxon符号秩检验是用于比较两组数据之间不同水平上的秩和的检验，它的统计量是组间的秩和比，假设多个样本的总体服从同一分布，可以用来检验两组数据间的均值或中位数的差异性，即表明两个样本的分布是否有差异。

2、Kruskal-Wallis H检验：Kruskal-Wallis H检验是一种无序秩检验，它能检验总体中多组数据间的均值或中位数的比较，即用来检验多个样本构成的总体是否服从同一分布，要求多组样本的体积相等。

3、Friedman检验：Friedman检验是一种用于多个样本比较的非参数检验，它的检验统计量是秩求和检验，可以检验多个样本构成的总体是否服从相同的分布，从而比较多个样本之间的均值，中位数或众数相对应的所有统计量。

4、Spearman秩相关系数：Spearman秩相关系数是一种测量两个变量相关性程度的方法，它不要求变量服从某种分布，仅要求变量是分类变量或连续变量。

5、Cochran Q检验：Cochran Q检验是变量若干观测值服从同一分布的依赖性检验，可以检验多组数据的差异性是否具有统计学意义，一般用于比较不同实验组间的得分或响应相对于对照组的得分或响应的差异性。

8非参数检验

②正态近似法：
u | T n0 ( N 1) / 2 | n1n2 ( N 1) / 12
本例u 2.205 0.05/ 2 1.96
N3 N ; 3 3 N N (ti ti )
i
*校正公式（当相同秩次较多时）
uc u c; c
ti为第i个相同秩号的数据个数
假定：两组样本的总体分布形状相同
如果两总体分布相同
基本思想
两样本来自同一总体任一组秩和不应太大或太小
T 与平均秩和 n0 (1 N ) / 2 应相差不大
较小例数组的秩和, n1 n2 T min( R1 , R2 ), n1 n2
N n1 n2 n0 min( n1 , n2 )
控制显效有效近控
65 18 30 13 126
107 24 53 24
1-107 108-131 132-184 185-208
54 119.5 158 196.5
编号 1 2
病情单纯型单纯型合并肺气肿
疗效控制显效
3
4 … 206 207
单纯型合并肺气肿
单纯型 … 单纯型单纯型合并肺气肿
10 12(12 1) / 4 | R n(n 1) / 4 | u 2.275 n(n 1)(2n 1) / 24 12(12 1)(2 12 1) / 24
查标准正态分布表，得 P 值校正公式：（当相同秩次个数较多时）
u
| R n(n 1) / 4 | n(n 1)(2n 1) / 24 (ti3 ti ) / 48 10 12(12 1) / 4
第一节非参数检验的概念

非参数检验

200
200
取显著性水平为0.05，查 2 分布表得临界值
2 0.05
(4)
9.488
，由于
2统计量大于临界值，所以应该拒
绝原假设，即认为消费者对各种品牌茶叶的偏好是有差
别的。
二、符号检验
1. 单样本位置的符号检验
一个随机样本，有 n 个数据
x1,x2,…,xn，其实际的总体中位数为
M，假定的中位数是某个特定值，记做 M0 。位置检验是检验真实的中位数和假定的中位数的关系：大于、等于还是小于。
品牌，每一种只标上A、B、C、D、E，随机抽取1000消费者，每人都品尝五种茶叶，然后把最偏好的茶叶的字母写下来。下表是整理后的消费者偏好的频数分布。要求判断消费者对这几种品牌茶叶的偏好有没有差异？
各种品牌茶叶爱好者的频数分布
喜欢的品牌
A B C D E
合计
人数
220 302 175 80 223
一、检验
属于拟合程度检验，它是利用随机样本对总体分布与某种特定
分布拟合程度的检验。
检验步骤：
① 确立原假设和备择假设。 ② 按照“原假设为真”的假定，导出一组期望频数或理论频数。 ③ 计算 2 统计量。
2 k ( fi ei )2
i1
ei
若统计量的值较大，拒绝原假设。
【例10.14】假定有五种不同牌号的茶叶，但都未标明
市场调查
【例10.15】领导者的领导水平是可以训练的吗？
根据人的聪明程度、人品、受教育状况等，随机抽取30 人配成15对，每对中有一人随机选择受训，另一人不受训。经过一段时间后，按被设计好的问题评价他们的领导水平，结果如下表所示。
领导水平评价表

非参数检验

例6.2的SPSS实现
例6.2的SPSS结果
二项检验
组 1 组 .35 2 合 66 1.00 计 a. 基于 Z 近似值。
生活花费指数
类别 N <=9 43 9 >99 23
观察比例 .65
检验比例 .50
渐近显著性(双侧) .019a
例6.2的SPSS结果含义
• 在二项检验的结果中，小于等于99的观测值个数有43个，大于99的有23个，共66个；所观察的比例分别是0.65和 0.35，检验的比例为0.5。 • 双侧检验的p值为0.019。 • 对于这里的左侧检验，检验的p值为 0.019 /2=0.0095，小于显著性水平 0.05，因此，拒绝零假设。
H ；，不能拒绝0 2P H0 ；，不能拒绝 P
2P • 双侧检验：，拒绝H 0 H • 单侧检验：P ，拒绝 0
• 注意：当n较大时，二项分布逼近正态分布， n n N( , 近似服从标准正态分布，我们可以4 ) 2 n n Z (K ) / 4 用Z检验量进行检验。不过，由于正态分布是连续 2 分布，所以在对离散的二项分布的近似中，要用连续性修正量： n
0

0
• ②计算 P 值作出判断
i P( K k ) P( K i ) Cn i (1 ) n i i 0 i 0 k k
1 n 2
C
i 0
k
i n
式中
1 K min( S , S ), k min( s , s ), 2
Z K 0.5 n 4 2
• 当 n 时取加号，反之取减号。对于单边检验，值为K 2 ；而对于双边检验值为 P

第八章非参数检验

例8-3 在河流监测断面优化研究中，研究者从某河流甲乙两个断面分别随机抽取10和15个样品，测得其亚硝酸盐氮(mg/L)的含量如表10-3，试比较甲乙两个河流断面亚硝酸盐氮的含量有无差别？
表 8-3 某河流甲乙断面亚硝酸盐氮含量（mg/L）监测结果
河流甲断面
河流乙断面
亚硝酸盐氮秩次
亚硝酸盐氮秩次亚硝酸盐氮秩次
11
T+=62.5 T-=3.5
由表 8-2 第 2 栏可计算观察值与已知中位数 M 0 2.15mmol/L 的差值 d ,其均数为 d 0.5975，标准差为 Sd 0.7141 对这些差值进行正态性检验，W 0.8380，P 0.03，因此，不满足t 检验关于样本来自正态分布的条件，该资料宜用 Wilcoxon 符号秩和检验。
1、求差值d xi M 0
2、检验假设 H0 ：差值的总体中位数等于零，即Md(d) 0 H1 ：差值的总体中位数不等于零，即Md (d ) # 0
0 .05
3. 编秩对差值的绝对值编秩，方法同上。
4 . 求正、负秩和并确定检验统计量本例，+ T =62.5，-T =3.5 +T 与 - T 之和为 66 表明秩和
2.20 20.5
2.30 26.5
1.60 6.5
2.20 20.5
2.30 26.5
1.70 10.0
2.30 26.5
2.40 33.5
1.70 10.0
2.30 26.5
2.40 33.5
1.70 10.0
2.30 26.5
2.40 33.5
1.70 10.0
2.66 42.5
含量

非参数检验

非参数检验非参数检验是一种利用数据的分布情况，来判断总体参数是否存在差异的统计学方法。

它通过对样本数据进行排序、秩次差分等计算，不依赖于总体的任何分布假设，从而有效地避免了假设检验的潜在问题。

非参数检验是一种不依赖于正态分布等总体分布假设的统计方法。

它常用于处理那些无法明确表达总体分布的数据，例如顺序等级或名目类别等数据。

非参数检验能够帮助研究者在不了解总体分布情况的情况下，对样本数据所代表的总体参数进行有效估计和推断。

为什么要使用非参数检验？通常情况下，研究者在进行实验或调查时，只能获得小规模样本数据，无法获得完整的总体数据。

而传统的参数检验方法可能会假设总体分布具有特定形态的分布假设，这在某些情况下可能会导致假设检验的错误推断。

因此，非参数检验成为了一个更为可靠的方法，它不需要任何对总体分布的预设，可以适用于各种数据类型的场景。

在以下情况下，非参数检验的使用是非常适合的：1. 样本数据不属于正态分布。

2. 样本数据中包含异常值。

3. 样本数据中存在较大的离散差异。

4. 样本规模较小，总体参数无法得到明确描述。

在非参数检验的应用中，根据所比较的数据类型和检验目的的不同，可以经常使用以下几种检验方法：1. Wilcoxon符号秩检验：用于检验有序对数据是否存在显著性差异。

2. Mann-Whitney U检验（也称为Wilcoxon秩和检验）：用于比较两个独立样本之间的差异。

3. Kruskal-Wallis H检验：用于比较多个独立样本之间的差异。

5. McNemar检验：用于比较配对样本之间的差异。

以上非参数检验方法的应用范围非常广泛，不同场景中的应用也有所不同。

结论总体来看，非参数检验是一种常用的在小样本数据分析中应用广泛的方法。

它不依赖于总体分布的假设，能够在多种数据类型的场景中发挥作用，并且在误差推断方面也有很好的应用前景。

虽然相比于参数检验来说，非参数检验设置较为繁琐，计算也较为耗时，但在实际操作中，它被广泛运用于各种实验、调查和模拟中。

非参数检验

组别 95-99 90-94 85-89 80-84 75-79 70-74 65-69 60-64 55-59 50-54 45-49
fo 4 12 18 28 44 72 46 40 22 18 10 314
组上限 99.5 94.5 89.5 84.5 79.5 74.5 69.5 64.5 59.5 54.5 49.5
fe 行合计数列合计数总次数
, fb , fd
( a b )( b d ) abcd ( c d )( b d ) abcd
注意：2×2列联表的自由度df=(2-1)(2-1)=1
例为比较某新药与传统药物治疗脑动脉硬化的疗效，临床试验结果见表，问两种药物的疗效有无差异？表两种药物治疗脑动脉硬化的疗效处理措施新药组有效无效合计 44 24 68
41(38.18) 3(5.82)
传统药物组 18(20.82) 6(3.18) 合计 59 9
• 4、关于2×2列联表在数据合并上应注意的问题 • 2×2列联表只是的一个特例，实际上，在很多情况下，变量的分类不止两个，当我们把各部分数据合并成2×2列联表来表达时，可能会忽略其中一些重要的变量，造成检验的失真，即可能会出现这样的情况：单独分析每一个2×2列联表所得的结果与合并成一个2×2列联表所做的分析结果相矛盾。
2

( 69 74 . 4 ) 74 . 4

(16 11 . 6 ) 11 . 6
22 . 2748
• 3、推断：
取 0 . 05 , df 5 1 4 , 查表得： 22 . 2748
2 2 0 . 05 ( 4 ) 2 0 . 05 ( 4 )

非参数检验

非参数检验非参数检验(Nonparametric tests)是统计分析方法的重要组成部分，它与参数检验共同构成统计推断的基本内容。

参数检验是在总体分布形式已知的情况下，对总体分布的参数如均值、方差等进行推断的方法。

但是，在数据分析过程中，由于种种原因，人们往往无法对总体分布形态作简单假定，此时参数检验的方法就不再适用了。

非参数检验正是一类基于这种考虑，在总体方差未知或知道甚少的情况下，利用样本数据对总体分布形态等进行推断的方法。

由于非参数检验方法在推断过程中不涉及有关总体分布的参数，因而得名为“非参数”检验。

两独立样本的非参数检验两独立样本的非参数检验是在对总体分布不甚了解的情况下，通过对两组独立样本的分析来推断样本来自的两个总体的分布等是否存在显著差异的方法。

独立样本是指在一个总体中随机抽样对在另一个总体中随机抽样没有影响的情况下所获得的样本。

简单的来说吧,参数检验其实检验的是参数也就是两个或几个统计量间的差异,而非参数检验其实检验的是分布是否相同而不是看参数或统计量的差异.计量资料一般是参数、非参数检验都是可以的。

但是对于能使用参数检验的，首选参数检验，对不能满足条件的才选用非参数检验。

参数检验一般有：T检验，方差分析，（要求：方差齐性、正态分布）一般也是用于计量资料。

选用非参数检验的情况有：①总体分布不易确定（也就是不知道是不是正态分布）②分布呈非正态而无适当的数据转换方法③等级资料④一段或两段无确定数据等（比如一段的数据是>50,是一个开区间）1，参数检验是针对参数做的假设，非参数检验是针对总体分布情况做的假设，这个是区分参数检验和非参数检验的一个重要特征。

2，二者的根本区别在于参数检验要利用到总体的信息（总体分布、总体的一些参数特征如方差），以总体分布和样本信息对总体参数作出推断；非参数检验不需要利用总体的信息（总体分布、总体的一些参数特征如方差），以样本信息对总体分布作出推断。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

二项分布检验
Analyze→Nonparametric Tests→ Binomial
发生的概率，默认值是0.50
单样本K-S检验

单样本的Kolmogorov-Smirnov检验（K-S 检验）用来检验一个数据的观测累积分布是否是已知的理论分布。这些作为零假设的理论分布在SPSS的选项中有正态分布(Normal)，泊松分布 (Poisson) ，均匀分布(Uniform)和指数分布(Exponential)

多个相关样本检验
Analyze→Nonparametric Tests→ 2 related Samples Test

两个独立样本检验
Analyze→Nonparametric Tests→ 2 independent Samples Test
Kruskal-Wallis多样本秩和检验
又名等级方差分析，目的是看多个总体的位置参数是否一样，对应于参数检验中的完全随机设计方差分析。假定有k个总体。先把从这个k个总体来的样本混合起来排序，记各个总体观测值的秩之和为Ri，i=1,…,k。显然如果这些Ri很不相同，就可以认为它们位置参数相同的零假设不妥（备选假设为各个位置参数不全相等）。
两样本分布的K-S检验
假定有分别来自两个独立总体的两个样本。要想检验它们背后的总体分布相同的零假设，可以进行两独立样本的 Kolmogorov-Smirnov检验。原理完全和单样本情况一样。只不过把检验统计量中零假设的分布换成另一个样本的经验分布即可。

Moses extreme reactions检验
Ri
15
7
9
5
18
9
3
1
17
8
8
4
5
2
13
6
7
3
19
10
下面一行数据Ri就是上面一行数据Xi的秩。利用秩的大小进行推断就避免了不知道总体分布状况的困难。这是大多数非参数检验的优点。
Wilcoxon (Mann-Whitney)秩和检验

假定第一个样本有m个观测值，第二个有n个观测值。把两个样本混合之后把这m + n个观测值升幂排序，记下每个观测值在混合排序下面的秩。之后分别把两个样本所得到的秩相加。记第一个样本观测值的秩的和为WX而第二个样本秩的和为WY。这两个值可以互相推算，称为 Wilcoxon统计量。该统计量的分布和两个总体分布无关。该检验需要的唯一假定就是两个总体的分布有类似的形状（不一定对称）。

单样本K-S检验
Analyze→Nonparametric Tests→ 1-Sample Kolmogorov-Smirnov test
秩（rank）
非参数检验中秩是最常使用的概念。什么是一个数据的秩呢？一般来说，秩就是该数据按照升序排列之后，每个观测值的位置。例如我们有下面数据：
Xi

符号等级检验法（Signed-Rank test）
又名符号秩和检验，其适用条件与符号检验法相同，但精度更高，因为它不仅考虑差值的符号，还考虑差值大小。把相关样本对应数值之差按绝对值从小到大做等级排列，在各等级前面填上原来的正负号，再分别求出带正号的秩和与带负号的秩和，检验两种符号的秩和是否存在差异。Biblioteka 中位数检验

在有数个独立样本的情况，希望知道它们的中位数是否相等。零假设是这些样本所代表的总体的中位数相等。备选假设是这些中位数不全相等。先把从多个总体来的样本混合起来排序，找出它们的中位数。再计算每个总体中小于该中位数的观测值个数和大于该中位数的观测值个数。这样就形成了一个2×k列联表。这个列联表可以用Pearson c2统计量进行检验。
最大反应检验，注重对分布范围（变异程度）进行检验。检验的零假设是两样本具有相同的全距。由于全距很容易受到极端值的影响，要求使用这种检验方法的时候样本量够大。计算的时候为防止极端值影响，自动去掉两端各5%的数据进行分析。

两样本Wald-Wolfowitz游程检验
Wald-Wolfowitz游程检验和KolmogorovSmirnov检验一样，都是看两个样本所代表的总体是否分布类似。 Wald-Wolfowitz游程检验把两个样本混合之后，按照大小次序排列，一个样本的观测值在一起的为一个游程。和单样本的游程问题类似。可以由游程个数R看出两个样本在排序中是否随机出现。
第八讲非参数检验
非参数检验的概念
是指在总体不服从正态分布且分布情况不明时，用来检验数据资料是否来自同一个总体假设的一类检验方法。由于这些方法一般不涉及总体参数故得名。这类方法的假定前提比参数性假设检验方法少的多，也容易满足，适用于计量信息较弱的资料且计算方法也简单易行，所以在实际中有广泛的应用。
多个独立样本检验
Analyze→Nonparametric Tests→ K independent Samples Test
符号检验法（sign test）
符号检验是以正负号作为资料的一种非参数检验，适用于检验两个配对样本分布的差异，与参数检验中的配对样本T检验相对应。它是将两样本每对数据之差用正负号表示，如果两样本没有显著性差异，则正差值和负差值应大致各占一半。注意：差值为0的数据对不进行分析。

非参数检验的过程
Chi-Square test 卡方检验 Binomial test 二项分布检验 1-Sample Kolmogorov-Smirnov test 单样本柯尔莫哥洛夫-斯米诺夫检验 2 independent Samples Test 两个独立样本检验 K independent Samples Test K个独立样本检验 2 related Samples Test 两个相关样本检验 K related Samples Test K个相关样本检验

两个相关样本检验
Analyze→Nonparametric Tests→ 2 related Samples Test

McNemar 检验只适用于被试内设计的二分变量，考察重点是两组间分类的差异，通常用于分析实验处理前后的变化情况。
多个相关样本检验
Friedman(弗里德曼)检验:适用于随机区组实验设计的非参数检验，数据类型为顺序或等距数据。 Kendall’s W(肯德尔和谐系数)检验：主要用于分析评判者的评判标准是否一致，数据类型必须为顺序数据。 Cochran’s Q(克科伦Q)检验，研究多个相关样本是否来自相同分布的总体，数据类型二分类数据。

第八讲 非参数检验

非参数检验

第8章 非参数检验

非参数检验方法

8非参数检验

非参数检验

非参数检验

第八章非参数检验

非参数检验

非参数检验

非参数检验

第八讲非参数检验

第8章非参数检验