第6章 非参数检验

合集下载

非参数检验的基本原理

非参数检验的基本原理

非参数检验的基本原理非参数检验是一种利用统计方法来检验假设的一种方法,与参数检验相比,非参数检验不需要对总体的分布做出假设,更为灵活。

本文将介绍非参数检验的基本原理。

一、概述非参数检验是一种统计方法,既不要求数据符合特定分布,也不对总体参数做出假设。

与之相反,参数检验通常假设数据服从特定的分布,例如正态分布。

非参数检验的主要优点是可以更全面地处理数据,更适用于复杂的情况。

然而,非参数检验的统计效率通常较低,需要更多的样本来达到相同的置信水平。

二、基本原理1. 秩次转换非参数检验通常使用秩次转换来处理数据。

所谓秩次转换是将原始的数值转换为它们在样本中的秩次,从而消除数值的大小差异。

对于同一组数据,秩次转换后,可以应用更广泛的统计方法。

2. Wilcoxon符号秩检验Wilcoxon符号秩检验是一种非参数检验方法,主要应用于配对样本或者两组独立样本之间的差异比较。

它的基本思想是对每个观测值计算它们的符号秩,然后通过比较两组样本的秩和来判断差异是否显著。

3. Mann-Whitney U检验Mann-Whitney U检验是一种非参数检验方法,用于比较两组独立样本之间的差异。

它的基本原理是将两组样本中的所有观测值汇总,然后对这些观测值进行秩次转换,并计算两组样本排名和。

通过比较两组样本排名和的大小来判断差异是否显著。

4. Kruskal-Wallis H检验Kruskal-Wallis H检验是一种非参数的方差分析方法,用于比较三组或以上独立样本之间的差异。

它的基本原理是将所有样本的观测值汇总,然后进行秩次转换,并计算各组样本排名和的平均值。

通过比较平均排名和的大小来判断差异是否显著。

三、案例研究为了更好地理解非参数检验的原理,我们以某家公司销售部门的两个月销售额作为例子进行案例研究。

假设第一个月公司销售额为[100, 80, 120, 90, 110],第二个月公司销售额为[95, 85, 115, 100, 105]。

第6章 非参数检验

第6章 非参数检验

第六章非参数检验在前面的章节中我们介绍了多种假设检验的方法,例如单个总体的t检验、基于两个独立样本的t检验、基于两个匹配样本的t检验、方差分析等。

在这些检验都需要对总体的分布特征作出某些假设(例如在t检验和方差分析中都需要假设总体服从正态分布),然后根据检验统计量的抽样分布对总体参数(如均值、比率等)进行检验。

这类检验方法称为参数检验。

我们前面强调过,在需要的假设条件不满足的情况下,特别是小样本的情况下,t检验、F检验都是不适用的。

那么,如何检验数据是否来自正态分布或者其他分布?在参数检验假设条件不满足的情况下如何对相应的问题进行分析?非参数检验方法可以帮助我们回答这类问题。

在这一章中,我们将首先简要说明非参数检验的概念和优缺点,然后介绍几种常见的非参数检验方法及其在SPSS中的实现方法。

第一节非参数检验概述非参数检验(nonparametric tests)也称为与总体分布无关的检验(distribution free tests),与参数检验相比,在非参数检验中不需要对总体分布的具体形式作出严格假设,或者只需要很弱的假设。

大部分非参数检验都是针对总体的分布进行的检验,但也可以对总体的某些参数进行检验。

与参数检验相比,非参数检验主要有以下几个方面的特点:(1)非参数检验不需要严格假设条件,因而比参数检验有更广泛的适用面。

(2)非参数检验几乎可以处理包括定类数据和定序数据在内的所有类型的数据,而参数检验通常只能用于定量数据的分析。

(3)虽然对于满足参数检验的假设条件的数据也可以采用非参数检验法进行分析,但在参数检验和非参数检验都可以使用的情况下,由于非参数检验没有充分利用样本内所有的数量信息,因此其检验的功效(power)要低于参数检验方法。

也就是说,在备择假设为真的情况下,采用参数检验方法拒绝原假设的概率要高于非参数检验的方法,从而更容易发现显著的差异。

在假设检验中,犯取伪错误的概率记为β,则1-β越大,意味着当备择假设为真时,拒绝原假设的概率越大,检验的判别能力就越好;1-β越小,意味着当备择假设为真时,拒绝原假设的概率越小,检验的判别能力就越差。

第6章 非参数检验

第6章 非参数检验
8.5
3 1
17
8.5
8 4
5 2
13 6
7 3
19 10
8+9 = 8.5 2
中央财经大学统计学院 37
Wilcoxon符号秩检验:基本原理 符号秩检验: 符号秩检验
分别计算出差值序列中正数的秩和以及负 数的秩和。 显然,如果零假设成立,W+与W-应该比较 接近。如果二者过大或过小,则说明零假 设不成立。 将正数的秩和或者负数的秩作为检验统计 量,根据其统计分布计算p值,从而可以得 出检验的结论。
中央财经大学统计学院 38
特别说明
符号检验在匹配数据分析应用中只用到差 值的符号,而对差值数值的大小未能考虑, 因而失去了部分信息。Wilcoxon符号秩检 验既考虑差值的符号,又考虑差值的大小, 因此在所需的假设条件满足时其功效比符 号检验高。 Wilcoxon符号秩检验也可以用于单样本中 位数的非参数检验,这时只需要将第二个 样本的值设为零假设中的数值即可。
中央财经大学统计学院 33
符号检验
对于差值序列中正数的个数和负数的个数 按照符号检验的方法进行假设检验
中央财经大学统计学院
34
Wilcoxon符号秩检验:基本原理 符号秩检验: 符号秩检验
计算差值绝对值的秩 。 将差值绝对值从小到大排序,其位次就是 的秩(rank),等于0值不参与排序。
中央财经大学统计学院
中央财经大学统计学院 18
软件操作
在SPSS软件中打开数据文件,选择“分析” “非参数检 验” “1样本K-S”,在弹出的对话框中将“时间”设定为 检验变量;检验分布为默认的“常规”(正态分布)。单 击 “确定”
中央财经大学统计学院
19
结果分析

第6章 SPSS的非参数检验

第6章 SPSS的非参数检验

6.1.2 非参数检验的特点
和参数方法相比,非参数检验方法的优势如下: (1)稳健性。因为对总体分布的约束条件大大放宽, 不至于因为对统计中的假设过分理想化而无法切合实际 情况,从而对个别偏离较大的数据不至于太敏感。 (2)对数据的测量尺度无约束,对数据的要求也不 严格,什么数据类型都可以做。 (3)适用于小样本、无分布样本、数据污染样本、 混杂样本等。
6.3 SPSS 在二项分布检验中的应用
6.3.1 二项分布检验的基本原理 1.方法概述 事件要服从二项分布,则应该具备下列基本的条件。 (1)各观察单位只能具有相互对立的一种结果。 (2)已知发生某一结果(阳性)的概率为π,其对立结果 的概率为1-π。 (3)n次试验在相同条件下进行,且各个观察单位的观察 结果相互独立,即每个观察单位的观察结果不会影响 到其他观察单位的结果。
• Step02:选择检验变量 在左侧的候选变量列表框中选择“time”变量作为检验 变量,将其添加至【Test Variable List(检验变量列表)】 列表框中。
• Step03:定义二元变量 在【Define Dichotomy(定义二分法)】选项组中点选 【Cut point(割点)】,以指定断点。接着在其文本框中输入 “960”,表示以它作为分界点将原始样本分为两组。 • Step04:指定检验概率值 在【Test Proportion(检验比例)】文本框中输入指定概率值 “0.05”。
6.2.2 卡方检验的SPSS操作详解
Step01:打开主菜单 选择菜单栏中的【Analyze(分析)】 →【Nonparametric Tests (非参数检验)】→【Legacy Dialogs(旧对话框)】→【Chi-Square (卡方)】命令,弹出【Chi-Square Test(卡方检验)】对话框。

非参数检验

非参数检验
200
200
取显著性水平为0.05,查 2 分布表得临界值
2 0.05
(4)
9.488
,由于
2统计量大于临界值,所以应该拒
绝原假设,即认为消费者对各种品牌茶叶的偏好是有差
别的。
二、符号检验
1. 单样本位置的符号检验
一个随机样本,有 n 个数据
x1,x2,…,xn,其实际的总体中位数为
M,假定的中位数是某个特定值,记 做 M0 。位置检验是检验真实的中位 数和假定的中位数的关系:大于、等 于还是小于。
品牌,每一种只标上A、B、C、D、E,随机抽取1000消费 者,每人都品尝五种茶叶,然后把最偏好的茶叶的字母 写下来。下表是整理后的消费者偏好的频数分布。要求 判断消费者对这几种品牌茶叶的偏好有没有差异?
各种品牌茶叶爱好者的频数分布
喜欢的品牌
A B C D E
合计
人数
220 302 175 80 223
一、 检验
属于拟合程度检验,它是利用随机 样本对总体分布与某种特定
分布拟合程度 的检验 。
检验步骤:
① 确立原假设和备择假设。 ② 按照“原假设为真”的假定,导出 一组期望频数或理论频数。 ③ 计算 2 统计量 。
2 k ( fi ei )2
i1
ei
若统计量的值较大,拒绝原假设。
【例10.14】假定有五种不同牌号的茶叶,但都未标明
市场调查
【例10.15】领导者的领导水平是可以训练的吗?
根据人的聪明程度、人品、受教育状况等,随机抽取30 人配成15对,每对中有一人随机选择受训,另一人不受 训。经过一段时间后,按被设计好的问题评价他们的领 导水平,结果如下表所示。
领导水平评价表

非参数检验

非参数检验

两种方法治疗扁平足效果观察
建立假设
病例号
原始记录 A法 B法
量化值 A法 B法
差值
秩次
H0:两法疗效差值的总体中位数
1 2
为0;
3
4
H1:差值的总体中位数不为0。
5
6
=0.05
7
8
计算检验统计量
9
10
编秩:
11
12
求秩和:T+=61.5,T-
13
=4.5
14 15
















秩和(rank sum): 同组秩次之和;在一定程度上反映了等级 的分布位置。
秩和检验:就是通过秩次的排列求出秩和,进行假设检验。
11
非参数检验 (nonparametric test )
非参数检验的最常用方法——秩和检验( rank test ) 利用秩的大小进行推断就避免了不知道背景分布的
困难。这也是非参数检验的优点。 多数非参数检验明显地或隐含地利用了秩的性质;
但也有一些非参数方法没有涉及秩的性质。 掌握对数据进行编秩的方法是学习秩和检验的基本
要求。
12
非参数检验 (nonparametric test )
非参数检验的最常用方法——秩和检验( rank test )
A组: - 、、+、+、+、+、++、++、++、++、+++、+++
适用条件: (1)上述两种设计类型的资料不满足参数检 验条件。 (2)配对设计等级资料的比较。

第6章非参数检验

第6章非参数检验

第6章非参数检验非参数检验是针对那些总体分布不能用有限个实参数来刻画,而只能对其作一些诸如分布连续、有密度、具有某阶矩等一般性假定的统计问题。

例如,检验“两个总体有相同分布”这个假设,若只假定两总体的分布为连续,此外一无所知,问题涉及的分布不能用有限个实参数刻画,这就是非参数统计问题。

又如,估计总体分布的期望,若假定总体分布为正态分布,则问题是参数性的;若只假定总体分布的期望值存在,则问题是非参数性的。

不过参数统计与非参数统计之间并没有泾渭分明的界线,有的统计问题,从不同的角度可以理解为参数性的,也可以理解为非参数性的。

例如线性回归(见回归分析)问题,若关心的是估计回归系数,它只是有限个实参数,因而可以看成是参数性的;但如果对随机误差的分布类型没有作任何假定,则从问题总体分布这个角度看,也可以看成是非参数性的。

非参数统计的一个重要特点是非参数统计问题中对总体分布的假定要求的条件很宽,因而使得针对这种问题而构造的非参数统计方法,不致于因为对总体分布的假定不当而导致重大错误,所以它往往有较好的稳健性。

但正是因为非参数统计方法需要照顾范围很广的分布,在某些情况下会导致其效率的降低。

不过,近代理论证明:当一些重要的非参数统计方法,当与相应的参数方法比较时,即使在最有利于后者的情况下,其效率上的损失也很小。

第1节符号检验符号检验是根据正、负符号个数的假设检验方法。

首先需要将原始数据按设定的规则,转换成正、负号,然后计数正、负号的个数做出检验。

该检验可用于样本中位数和总体中位数的比较,数据升降趋势检验,特别可用于总体分布不服从正态分布或分布不明的配对资料,有时当配对比较的结果只能定性的表达时,也可用本方法。

配对资料符号检验的计算步骤为:将成对数据以一定规则编码(或原始数量型数据),然后相减,得到的结果后,计数大于0的样本个数以及小于0的样本个数分别为n+和n-,当样本大小时,计算近似卡方值。

-+-+---=n n n n 22)1|(|χ其自由度df=1,根据卡方值进行统计检验。

《统计学》-第6章-习题答案

《统计学》-第6章-习题答案

第六章课后题解答1. 与参数检验相比,非参数检验有哪些优缺点?主要适用于那些场合?答:(1)非参数检验不需要严格假设条件,因而比参数检验有更广泛的适用面;非参数检验几乎可以处理包括定类数据和定序数据在内的所有类型的数据,而参数检验通常只能用于定量数据的分析;在参数检验和非参数检验都可以使用的情况下,非参数检验的功效(power)要低于参数检验方法。

(2)参数检验中的假设条件不满足;检验中涉及的数据为定类或定序数据;所涉及的问题中并不包含参数;对各种资料的初步分析。

2. 使用“学生调查.sav”文件中的数据检验:(1)能否认为总体中学生的学习兴趣呈均匀分布?(2)能否认为总体中学生的身高服从正态分布?χ拟合优度检验,计算出的2χ统计量的值为2.000,自由答:(1)利用2度为4,相应的p值(渐近显著性)为0.736。

由于0.736大于0.05,所以在5%的显著性水平下不能拒绝原假设,也就是说根据样本数据不能认为总体数据是非均匀的。

表2.1(2)利用单样本K-S检验法,计算出的D统计量的值为0.899,相应的pmax值(渐近显著性)为0.394。

由于0.394大于0.05,所以在5%的显著性水平下不能拒绝原假设,也就是说根据样本数据不能认为总体数据是非正态的。

表2.23. 某企业生产一种钢管,规定长度的中位数是l0米。

现随机地从正在生产的生产线上选取10根进行测量,结果为:9.8,10.1,9.7,9.9,9.8,10.0,9.7,10.0,9.9,9.8。

问该企业的生产过程是否需要调整。

答:单样本中位数的符号检验法检验钢管长度的中位数是否为50,各个数值与中位数比较的结果,有7个值小于10,1个值大于10,2个等于10。

样本量较少,输出双侧检验的p值(精确显著性)为0.070。

显然,这里我们的结论是不能拒绝原假设。

表3.14. 从上海证券交易所的上市公司随机抽取10家,观察其2008年年终财务报告公布前后三日的平均股价(如表6-15),试用参数和非参数方法检验:我国上市公司年报对股价是否有显著性影响?表6-15 10家公司年终财务报告公布前后三日的平均股价序号 1 2 3 4 5 6 7 8 9 10 年报公布前15 21 18 13 35 10 17 23 14 25年报公布后17 18 25 16 40 8 21 31 22 25答:表4.1是Wilcoxon符号秩检验的计算结果。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中央财经大学统计学院
2
非参数检验有什么优越性?


在总体分布未知时,如果还假定总体有诸 如正态分布那样的已知分布,在进行统计 推断就可能产生错误甚至灾难。 非参数检验总是比传统检验安全(更不容 易拒绝原假设)。 但是在总体分布形式已知时,非参数检验 不如传统方法效率高。
中央财经大学统计学院
3
非参数检验的应用场合
中央财经大学统计学院 10
检验统计量


如果M的确是总体的中位数,则每个样本 点都以0.5的概率小于(或大于)M。这显 然是一系列Bernoulli试验。大于M的样本点 的个数 S 与小于M的个数 S 都服从二项分 布 B(n,0.5),二者都可用作检验统计量。 因此,假设x服从二项分布 B(66,0.5) 在这个例子中只需要计算
中央财经大学统计学院 4
6.1 符号检验


符号检验(Sign Test):是最简单的非参 数检验方法之一,通过符号+和-的个数 来做统计推断,所以称为符号检验。 一个例子:联合国人员在世界上66个大城 市的生活花费指数(以纽约市1996年12月 为100)按由小至大的次序排列如下。
中央财经大学统计学院
第6章 非参数检验
6.1 6.2 6.3 6.4 符号检验 Wilcoxon符号秩检验 WMW秩和检验 Kruskal-Wallis检验
中央财经大学统计学院
什么是非参数检验?

和数据本身的总体分布无关的检验称为非 参数检验。 不假定总体的具体背景分布形式; 多根据数据观测值的相对大小建立检验统 计量,然后找到在零假设下这些统计量的 分布,看这些统计量的数据实现是否在零 假设下属于小概率事件。
中央财经大学统计学院 6
对均值的t检验


问题:假定这是从世界许多大城市中随机 抽样而得到的样本。 北京的指数为99,能 否认为北京市在总体平均水平之上? 分析:由于是大样本,所以不论总体是否 正态,都可以根据单个样本的t检验进行分 析,检验总体的均值是否小于99。如果能 够认为总体的均值小于99,则可以知道北 京市在总体水平之上。

以例6.1为例,检验世界花费指数的中位数是否小 于99,因此提出假设如下:
H0 : M M 0 H1 : M M 0

在SPSS17.0中,使用选项Analyze-Nonparametric Tests- Binomial,再把变量“生活花费指数”选入 Test Variable List。然后在下面Define Dichotomy 的Cut Point输入“99”,在下面Test Proportion输 入“0.50”,得到如下对话框。
14
右侧检验时的p值
H0 : M M 0 H1 : M M 0



当零假设为真时, S 不应该太大。如果 S 太大,则可以拒绝原假设。 假设x服从二项分布 B(n,0.5),则p值等 于 P( x S ) 根据给定的显著性水平得出检验结论。
中央财经大学统计学院 15
符号检验在SPSS中的实现


如果需要对定性数据做假设检验,则需要使用非 参数方法 如果需要对中位数做检验,则需要使用非参数的 方法。 如果需要对统计分布做检验,例如检验数据是否 来自正态总体,检验两个总体的统计分布是否相 同等,则需要用非参数方法。 当参数检验需要的假设不成立时, 需要采用非参 数检验方法。特别的,非正态总体、小样本的情 况下,传统的t检验是不能使用的。
5
66 84
75 85
78 85
80 86
81 86
81 86
82 86
83 87
83 87
83 88
83 88
88
91
88
91
88
92
89
93
89
93
89
96
89
96
90
96
90
97
91
91
99 100
101 102 103 103 104 104 104 105 106 109 109
110 110 110 111 113 115 116 117 118 155 192

此组数据的直方图如下,可以判断总体数 据很可能为右偏分布。 这时中位数比均值更有代表性。 下面我们来检验 能否认为总体的 中位数小于99。
中央财经大学统计学院
9
符号检验的基本原理(左侧检验)
H 0 : M 99 H1 : M 99


用M表示总体中位数。 S 表示大于中位数 的数据个数。在这个例子中,需要检验M是 否小于99。 在样本的数据中,如果原假设成立,则大 于99的数据个数 S 应该比较大。 因此,如果从总体中得到 S S样本观测值 的样本的概率非常小,则可以拒绝原假设。
中央财经大学统计学院 13
双侧检验时的p值
H0 : M M 0 H1 : M M 0


当零假设为真时,S 不应该太大或太小。 如果 S 太大或太小,则可以拒绝原假设。 p值等于 2 * P( x min{S , S }) 根据给定的显著性水平得出检验结论。
中央财经大学统计学院
中央财经大学统计学院 7
SPSS对均值 的t检验结果
H 0 : 99 H1 : 99

左侧检验时p值等于0.257/2=0.1285,因此 在5%的显著性水平下不能拒绝总体均值大 于等于99的原假设。从而,没有证据表明 北京市在总体平均水平之上。
中央财经大学统计学院 8
然而……

p P( x S )

如果p值小于a,则拒绝原假设。
中央财经大学统计学院 11
根据二项分布的计算结果




在这个例子中大于99的数据个数为23。 在Excel单元格中输入 “=BINOMDIST(23,66,0.5,1)”,可知这一 概率(p值)为0.00932863 由于p值小于a,则拒绝原假设。 结论:总体的中位数要小于99。 在这种情况下,可以认为北京的生活指数 (99)高于世界大城市的中位数
中央财经大学统计学院 12
根据正态分布的计算结果

当样本量比较大(n>20)时,可以使用正态分布近 似计算p值。 二项分布 B(n,0.5)的期望为0.5n,方差为 npq=0.25n。 x 0.5n
z
0.25n
~ N (0,1)

在这里z=-2.4618, P(z≤-2.4618)=0.0069 因此在左侧检验中拒绝原假设。 由于二项分布为离散的,正态分布是连续的,因此 二者计算结果有差异。软件中通过使用“连续性修 正”的方法可以缩小这种差异,得到更接近的结果。
相关文档
最新文档