第十一章 非参数检验
非参数检验的基本原理

非参数检验的基本原理非参数检验是一种利用统计方法来检验假设的一种方法,与参数检验相比,非参数检验不需要对总体的分布做出假设,更为灵活。
本文将介绍非参数检验的基本原理。
一、概述非参数检验是一种统计方法,既不要求数据符合特定分布,也不对总体参数做出假设。
与之相反,参数检验通常假设数据服从特定的分布,例如正态分布。
非参数检验的主要优点是可以更全面地处理数据,更适用于复杂的情况。
然而,非参数检验的统计效率通常较低,需要更多的样本来达到相同的置信水平。
二、基本原理1. 秩次转换非参数检验通常使用秩次转换来处理数据。
所谓秩次转换是将原始的数值转换为它们在样本中的秩次,从而消除数值的大小差异。
对于同一组数据,秩次转换后,可以应用更广泛的统计方法。
2. Wilcoxon符号秩检验Wilcoxon符号秩检验是一种非参数检验方法,主要应用于配对样本或者两组独立样本之间的差异比较。
它的基本思想是对每个观测值计算它们的符号秩,然后通过比较两组样本的秩和来判断差异是否显著。
3. Mann-Whitney U检验Mann-Whitney U检验是一种非参数检验方法,用于比较两组独立样本之间的差异。
它的基本原理是将两组样本中的所有观测值汇总,然后对这些观测值进行秩次转换,并计算两组样本排名和。
通过比较两组样本排名和的大小来判断差异是否显著。
4. Kruskal-Wallis H检验Kruskal-Wallis H检验是一种非参数的方差分析方法,用于比较三组或以上独立样本之间的差异。
它的基本原理是将所有样本的观测值汇总,然后进行秩次转换,并计算各组样本排名和的平均值。
通过比较平均排名和的大小来判断差异是否显著。
三、案例研究为了更好地理解非参数检验的原理,我们以某家公司销售部门的两个月销售额作为例子进行案例研究。
假设第一个月公司销售额为[100, 80, 120, 90, 110],第二个月公司销售额为[95, 85, 115, 100, 105]。
第十一章-非参数检验

本例: R=10<R0.05=14,n=12, P<0.05,拒绝H0,故认为A,B两种 照射方式造成的急性皮肤损伤程度不 同,B照射的损伤程度比A照20射24年严9月重2。1日
(ii)大样本(n>10)时, 可采用正态近似
u | R n(n 1) / 4 | 10 12(12 1) / 4 2.275 n(n 1)(2n 1) / 24 12(12 1)(2 12 1) / 24
在0.05检验水平拒绝H0,接受H1,认为三组脾淋巴 细胞对HPA刺激的增值反应不全相同。
2024年9月21日
频数表法: 属于同一组段的 观察值,一律取平均秩次(组 中值),再以该组段频数加权 ,计算Hc值。 表 分娩时孕周与乳量的关系
乳 量
早 产
足月 产
过期 产
合计
秩次 范围
平均
秩和
秩次 早产 足月产 过期产
查标准正态分布表,得 P 值 校正公式:(当相同秩次个数较多时)
| R n(n 1) / 4 |
u
n(n 1)(2n 1) / 24 (ti3 ti ) / 48
10 12(12 1) / 4 2.282
12(12 1)(212 1) / 24 [(33 3) (33 3)]/ 48
2024年9月21日
⑴ H0: 两样本来自相同总体; H1: 两样本来自不同总体(双侧)
=0.05
或H1: 样本A高于样本B(单侧)
⑵ 编秩:两样本混合编秩次,求得R1、R2.T。
相同观察值(即相同秩,ties),不同组------平均秩次。 ⑶ 确定P值作结论:
①查表法 (n0≤10,n2 n1≤10) 查附表9
第十一章非参数检验

第十一章 非参数检验前面有关章节讨论的参数检验都要求总体服从一定的分布,对总体参数的检验是建立在这种分布基础上的。
例如,两样本平均数比较的t 检验和多个样本平均数比较的F 检验,都要求总体服从正态分布,推断两个或多个总体平均数是否相等。
本章引入另一类检验——非参数检验(non-parametric test )。
非参数检验是一种与总体分布状况无关的检验方法,它不依赖于总体分布的形式,应用时可以不考虑被研究的对象为何种分布以及分布是否已知。
非参数检验主要是利用样本数据之间的大小比较及大小顺序,对两个或多个样本所属总体是否相同进行检验,而不对总体分布的参数如平均数、标准差等进行统计推断。
当样本观测值的总体分布类型未知或知之甚少,无法肯定其性质,特别是观测值明显偏离正态分布,不具备参数检验的应用条件时,常用非参数检验。
非参数检验具有计算简便、直观,易于掌握,检验速度较快等优点。
非参数检验法从实质上讲,只是检验总体分布的位置(中位数)是否相同,所以对于总体分布已知的样本也可以采用非参数检验法,但是由于它不能充分利用样本内所有的数量信息,检验的效率一般要低于参数检验方法。
例如,非配对资料的秩和检验,其效率为t 检验的86.4%,就是说以相同概率判断出差异显著,t 检验所需的样本个数要少13.6%。
非参数检验内容很多,本章只介绍常用的符号检验(sign test ),秩和检验(rank-sum test )和等级相关分析(rank correlation analysis )三种。
第一节 符号检验一、配对资料的符号检验(一)配对资料符号检验的意义 配对资料符号检验是根据样本各对数据之差的正负符号多少来检验两个总体分布位置的异同,而不去考虑差值的大小。
每对数据之差为正值用“+”表示,负值用“-”表示。
可以设想如果两个总体分布位置相同,则正或负出现的次数应该相等。
若不完全相等,至少不应相差过大,否则超过一定的临界值就认为两个样本所来自的两个总体差异显著,分布的位置不同。
第11章 非参数检验——卡方检验

2
a
n(ad bc)2
bc d a cb
d
第11章 非参数检验——卡方2检验
一、卡方检验概述 二、吻合性检验 三、独立性检验
一、卡方检验原理
(一)定义 检验频数资料的实际观测次数分布与理论次数分布之
间差异是否显著的方法。
(二)目的 检验每一组实际观察次数与理论次数是否吻合; 检验四格表中分类标志是否独立。
一、卡方检验原理
(三)公式
实际观测次数
2 ( f0 fe )2 fe
理论次数
(四)性质 1. 非负 2. 形状受df影响,当df趋近∞时,2分布为正态。 3. 实际观测次数与理论次数差异越大,2值越大;反
之,则2越小。
二、吻合性检验
实得分布与理论分布是否吻合; 判断实得分布与原有分布是否之一。 例1,例2, 例3。
三、独立性检验
检验两种分类标志下现象间是否相互独立。
2 × 2列联表
df =(r-1)(c-1)
例4
f (横行总次数) * (纵列总次数) N
2
a
n(ad bc)2
bc d a cb
d
当df=1,f<5时,采用公式校正
例5
三、独立性检验
检验两种分类标志下现象间是否相互独立。 2 × 2列联表 df =(r-1)(c-1)
非参数验课件

秩次和秩和
“秩”即按数据大小排定的次序号,又称秩次号。编秩 就是将观察值按顺序由小到大排列,并用序号代替原始 变量值本身。用秩次号代替原始数据后,所得某些秩次 号之和,即按某种顺序排列的序号之和,称为秩和。设 有以下两组数据:
A组 4.7 6.4 2.6 3.2 5.2 B组 1.7 2.6 3.6 2.3 3.7
•编秩后,按差值的正负给秩次冠上符号。
分析步骤:
(3)求差值为正或负的秩和 差值为正的秩和以T+表示 差值为负的秩和以T-表示。 T++T-=n(n+1)/2 T=min(T+,T-)
(4)确定P值和作出推断结论:
当n≤50时,查T界值表
T在界值范围内
P>α
T在界值范围外或相等 P<α
例1 临床某医生研究白癜风病人的白介素IL6水平(u/l)在白斑部位与正常部位有无差异 ,调查的资料如表1所示:
表2 尿氟含量X(1)
2.15 2.10 2.20 2.12 2.42 2.52 2.62 2.72 2.99 3.19 3.37 4.57
12名工人尿氟含量测定的结果 差值d=X-2.15 (2) 0 -0.05 0.05 -0.03 0.27 0.37 0.47 0.57 0.84 1.04 1.22 2.42
对总体的分布类型 不作任何要求
不受总体参数的影响, 比较分布或分布位置 适用范围广;可用于任 何类型资料(等级资料, 或“>50mg” )
参数检验与非参数检验比较
参数检验 要求资料服从 某种分布
检验效率高
非参检验
1. 对资料的分布没有特殊要求,总体为 偏态、总体分布未知的计量资料(尤 其在n<30的情况)
第十一章 非参数检验简述

不如参数检验。
• 两独立样本非参数检验方法
– 秩和检验法
– 中数检验法
• 两相关样本非参数检验方法
– 符号检验法 – 符号等级检验法 • 克—瓦式单向方差分析
第一节 两独立样本非参数检验方法
一、秩和检验 • 两个样本的容量都小于或等于10时
– 将所有数据由小到大赋予秩次 – 求样本容量较小的一组数据的秩次之和“T” – 将T值与临界值作比较。若 T1 < T < T2 则差异 不显著
Z T n ( n 1) / 4 n ( n 1)( 2 n 1) 24
第三节 单向秩次方差分析
• 方法:将所有样本的数据合在一起,按从 小到大编秩次,然后计算各样本的秩次和。 如果各组没有显著性差异,各组秩次和应 当相等或趋于相等;如果各组秩次和相差 较大,那么各组有显著性差异的可能性较 大。
例题
序号
1 2 3 4 5 n
甲校 128 114 103 92 85 5
原始分数 乙校 90 91 106
丙校 89 80 101
3
3
• 2.37
Z ( r 0 .5 ) n / 2 1 2 n ( 9 0 . 5 ) 31 / 2 1 2 31 2 . 16
二、符号秩次检验
• 威尔科克松(F.Wilcoxon)提出了既考虑差 数符号,又考虑差数大小的符号秩次检验 法。
• 当样本容量n<25时,可用查表法进行符 号秩次检验。 • 当样本容量n>25时,可用正态分布近似 处理。检验统计量为:
Z
( r 0 .5 ) n / 2 1 2 n
例题
• 32名被试中有1名被试对两种包装打出相 同的分数,有22名被试认为A包装比B包 装好,另有9名被试认为B包装比包装A好。 问:被试对两种包装的偏好程度有无显 著差异?
非参数检验

组别 95-99 90-94 85-89 80-84 75-79 70-74 65-69 60-64 55-59 50-54 45-49
fo 4 12 18 28 44 72 46 40 22 18 10 314
组上限 99.5 94.5 89.5 84.5 79.5 74.5 69.5 64.5 59.5 54.5 49.5
fe 行合计数 列合计数 总次数
, fb , fd
( a b )( b d ) abcd ( c d )( b d ) abcd
注意:2×2列联表的自由度df=(2-1)(2-1)=1
例 为比较某新药与传统药物治疗脑动脉硬化的疗效, 临床试验结果见表,问两种药物的疗效有无差异? 表 两种药物治疗脑动脉硬化的疗效 处理措施 新药组 有效 无效 合计 44 24 68
41(38.18) 3(5.82)
传统药物组 18(20.82) 6(3.18) 合计 59 9
• 4、关于2×2列联表在数据合并上应注意 的问题 • 2×2列联表只是 的一个特例,实际上, 在很多情况下,变量的分类不止两个,当 我们把各部分数据合并成2×2列联表来表 达时,可能会忽略其中一些重要的变量, 造成 检验的失真,即可能会出现这样的 情况:单独分析每一个2×2列联表所得的 结果与合并成一个2×2列联表所做的 分 析结果相矛盾。
2
( 69 74 . 4 ) 74 . 4
(16 11 . 6 ) 11 . 6
22 . 2748
• 3、推断:
取 0 . 05 , df 5 1 4 , 查表得: 22 . 2748
2 2 0 . 05 ( 4 ) 2 0 . 05 ( 4 )
《卫生统计学》课后思考题答案

《卫生统计学》思考题参考答案第一章绪论1、统计资料可以分为那几种类型?举例说明不同类型资料之间是如何转换的?答:(1)1定量资料(离散型变量、连续型变量)、2无序分类资料(二项分类资料、无序多项分类资料)、3有序分类资料(即等级资料);(2)例如人的健康状况可分为“非常好、较好、一般、差、非常差”5个等级,应归为等级资料,若将该五个等级赋值为5、4、3、2、1,就可按定量资料处理。
2、统计工作可分为那几个步骤?答:设计、收集资料、整理资料、分析资料四个步骤。
3、举例说明小概率事件的含义。
答:某人打靶100次,中靶次数少于等于5,那么该人一次打中靶的概率≤0.05,即可称该人一次打中靶的事件为小概率事件,可以视为很可能不发生。
第二章调查研究设计1、调查研究有何特点?答:(1)不能人为施加干预措施(2)不能随机分组(3)很难控制干扰因素(4)一般不能下因果结论2、四种常用的抽样方法各有什么特点?答:(1)单纯随机抽样:优点是操作简单,统计量的计算较简便;缺点是当总体观察单位数量庞大时,逐一编号繁复,有时难以做到。
(2)系统抽样:优点是易于理解、操作简便,被抽到的观察单位在总体中分布均匀,抽样误差较单纯随机抽样小;缺点是在某些情况下会出现偏性或周期性变化。
(3)分层抽样:优点是抽样误差小,各层可以独立进行统计分析,适合大规模统计;缺点是事先要进行分层,操作麻烦。
(4)整群抽样:优点是易于组织和操作大规模抽样调查;缺点是抽样误差大。
3、调查设计包括那些基本内容?答:(1)明确调查目的和指标(2)确定调查对象和观察单位(3)选择调查方法和技术(4)估计样本大小(5)编制调查表(6)评价问卷的信度和效度(7)制定资料的收集计划(8)指定资料的整理与分析计划(9)制定调查的组织措施4、调查表中包含那几种项目?答:(1)分析项目直接整理计算的必须的内容;(2)备查项目保证分析项目填写得完整和准确的内容;(3)其他项目大型调查表的前言和表底附注。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一节 非参数检验的基本概念及特点一、非参数检验(一)什么是“非参数”非参数模型:缺乏总体分布模式的信息。
(二)非参数检验的定义非参数检验:不需要假设总体是否为正态分布或方差是否为齐性的假设检验称非参数检验。
(三)非参数检验的优点和缺点: 1、优点:一般不涉及总体参数,其假设前提也比参数假设检验少得多,适用面较广。
计算简便。
2、缺点:统计效能远不如参数检验方法。
由于当数据满足假设条件时,参数统计检验方法能够从其中广泛地充分地提取有关信息。
非参数统计检验方法对数据的限制较为宽松,只能从中提取一般的信息,相对参数统计检验方法会浪费一些信息。
(四)非参数检验的特点: 1、它不需要严格的前提假设; 2、特别适用于顺序数据; 3、适用于小样本,且方法简单;4、最大的不足是不能充分利用资料的全部信息;5、不能处理“交互作用”,即多因素情况。
第二节 两个独立样本的非参数检验方法一、秩和检验法秩和即秩次的和或等级之和。
秩和检验法也叫Mann-Whitney-Wilcoxon 检验,它常被译为曼-惠特尼-维尔克松检验,简称M-W-W 检验,也称Mann-Whitney U 检验。
秩和检验法与参数检验法中独立样本的t 检验法相对应。
当“总体正态”这一前提不成立时,不能用t 检验,可以用秩和检验法。
(一)秩统计量秩统计量指样本数据的排序等级。
假设从总体中反复抽取样本,就能得到一个对应于样本容量1n 和2n 的秩和U 的分布。
这是一个间断而对称的分布,当1n 和2n 都大于10时,秩和T 的分布近期近似正态分布,其平均数和标准差分别为()21211++=n n n T μ ()1212121++=n n n n T σ其检验值为TTσμ-=T Z(二)计算过程1、小样本:两个样本容量均小于10(n 1≤10,n 2≤10)例11-1:在一项关于模拟训练的实验中,以技工学校的学生为对象,对5名学生用针对某一工种的模拟器进行训练,内外让6名学生下车间直接在实习中训练,经过同样的时间后对两组人进行该工种的技术操作考核,结果如下:模拟器组:56,62,42,72,76实习组:68,50,84,78,46,92假设两组学生初始水平相同,则两种训练方式有无显著差异?表11-1 两种训练方式的成绩考核成绩 成绩排列 等级 等级和模拟器组 (5人)56 42 1 251=T62 56 4 42 62 5 72 72 7 76 76 8 实习组 68 46 2 412=T(6人)50 50 3 84 68 6 78 78 9 46 84 10929211检验过程:1.建立假设0H :∑∑=21R R ,即两样本无显著差异 a H :∑∑≠21R R ,即两样本有显著差异2.计算统计量1)将数据从小到大排列,见上表。
2)混合排列等级,即将两组数据视为一组进行等级排列,见上表。
3)计算各组的秩和,并确定T 值,即 T = min (T 1,T 2)=min (25,41)=25 3.比较与决策若T 1<T <T 2,则接受虚无假设,拒绝研究假设。
若T ≤T 1,或T ≥T 2,拒绝虚无假设,接受研究假设。
查秩和检验表,当n 1=5,n 2=6, T 1=19,T 2=41, 因为 19<25<41, 即T1<T<T2, 所以接受虚无假设,拒绝研究假设,差异不显著。
说明两种训练的成绩无显著差异。
2、大样本:两个样本容量均大于10(n 1>10,n 2>10)例11-2:对某班学生进行注意稳定性实验男生与女生的实验结果如下,试检验男女生之间注意稳定性有否显著差异?男生:(n 1=14)19,32,21,34,19,25,25,31,31,27,22,26,26,29 女生:(n 2=17)25,30,28,34,23,25,27,35,30,29,29,33,35,37,24,34,32 检验过程: 1.建立假设0H :∑∑=21R R a H :∑∑≠21R R2.计算统计量1)求秩和T 。
先混合排列等级,再计算1T 和2T ,最后确定T 。
排序如下: 男生:,,,,,,,,,,,,,,17 5.11 5.11 4 5.13 5.21 5.21 5.8 5.8 5.1 27 3 5.23 5.1 女生5.23 27 6 31 5.29 25 17 17 5.19 5.29 5.13 5.8 5 27 15 5.19 5.8,,,,,,,,,,,,,,,,175.115.1145.135.215.215.85.8 5.1 273 5.23 5.1T +++++++++++++=174=2)求Z 值98.12.25224174-T Z TT-=-==σμ3.比较与决策2/05.098.1Z Z 〉=,05.0〈p ,拒绝虚无假设,差异达到显著性水平。
说明男女在注意稳定性上有显著差异。
二、中数检验法 (一)适用条件中数检验法对应着参数检验中两独立样本平均数之差的t 检验。
中数检验法的基本思想是将中数作为集中趋势的量度,检验不同的样本是否来自中位数相同的总体。
因而其虚无假设(H0)为:两个独立样本是从具有相同中数的总体中抽取的,它也可以是双侧检验或单侧检验。
双侧检验结果若有统计学意义,意味着两个总体中数有差异(并(),2242)11714(1421n n n 211T =++⨯=++=μ()2.2512)11714(1714211n n n n 2121T =++⨯⨯=++=σ没有方向);单侧检验结果若有统计学意义,则表明对立假设“一个总体中数大于另一个总体中数”成立。
(二)计算过程例题13-8:为了研究核糖核酸是否可以作为记忆的促进剂,研究者以老鼠为对象分成实验组与控制组。
实验组注射RNA ,控制组注射生理盐水,然后在同样的条件下学习走迷津,如果如下(单位:时间)。
试问两组的学习成绩有无显著差异?实验组:16.7,16.8,17.0,17.2,17.4,16.8,17.1,17.0,17.2,17.1,17.2,17.5,17.2,16.8,16.3,16.9控制组:76.6,17.2,16.0,16.2,16.8,17.1,17.0,16.0,16.2,16.5,17.1,16.2,17.1,16.8,16.51.提出假设0H :mdn mdn B A =,即两组中位数相等,或两组成绩无显著差异 a H :mdn mdn B A ≠,即两组中位数不等,或两组成绩有显著差异2.计算统计量1)求混合中数。
将数据按大小排列,确定中数。
表13-11 中数计算表16 16.2 16.3 16.5 16.6 16.7 16.8 16.9 17 17.1 17.2 17.4 17.5 f2 3 1 2 1 1 5 1 4 4 5 1 1 F2 568910151620242930319.1616213121====++X X X Mdn N2)统计多个样本在中数上下的次数,列出列联表。
表13-12 计数表实验组 控制组 ∑>Mdn 的次数 10 5 15 <Mdn 的次数5 10 15 ∑1515303)求2χ值()33.3151515155510103022=⨯⨯⨯⨯-⨯⨯=χ3.比较与决策33.32=χ<()84.3205.01=χ,p >0.05,差异不显著,接受虚无假设,拒绝研究假设。
说明实验组与控制组在迷津学习中差异不显著,即RNA 对记忆无明显的促进作用。
第三节 配对样本的非参数检验方法一、符号检验法(一)、适用条件符号检验是以正负符号作为资料的一种非参数检验程序。
它是一种简单的非参数检验方法,适用于检验两个配对样本分布的差异,与参数检验中配对样本差异显著性t 检验相对应。
符号检验也是将中数作为集中趋势的量度,虚无假设是配对资料差值来自中位数为零的总体。
它是将两样本每对数据之差(Xi —Yi )用正负号表示,若两样本没有显著性差异,理论上正负号应各占一半或不相上下。
相反,若正负个数相关较大,则可能存在差异,由此表明两个样本不是来自同一总体,并可推论两样本的总体存在差异。
(二)、计算过程1、小样本符号检验法N ≤25例11-4:用配对设计方法对9名运动员不同方法训练,每一个对子中的一名运动员按传统方法训练,另一名运动员接受新方法训练。
课程进行一段时间后对所有运动员进行同一考核,结果如下。
能否认为新训练方法显著优于传统方法配对 1 2 3 4 5 6 7 8 9 传统(X ) 85 88 87 86 82 82 70 72 80 新法(Y ) 90 84 87 85 90 94 85 88 92 符号(X-Y ) -++-----1)建立假设 单侧检验0H :+P <-P a H :+P >-P2)标记配对数据之差的符号。
见上表。
3)统计符号总数N 。
符号总数中不包含0,只包括正号和负号个数和,即-++=n n N = 2 + 6 = 84)将+n ,-n 中的较小者记为r ,即()-+=n n r ,m in 5)比较与决策根据符号总和N 及显著水平值α查符号检验临界值表,见附表15。
表中列出了符号总和与显著性水平α所对应的临界值αr ,其判断规则如下表。
表11-2 单侧符号检验法的方法的统计判断规则表r 与临界值(CR )比较P 值 差异显著性 r >r 0.05P >0.05不显著2==+nr 0.01<r ≤r 0.05r ≤r 0.010.01<P ≤0.05P ≤0.01显 著 极显著查附表15,N=8时,临界值为0(0.05水平),而实得r = n += 2> r 0.05。
所以差异不显著,接受虚无假设,不能认为新法显著优于传统方法。
2、样本容量N>25时在附表15中,虽然N 是从1到90,就是说N 在这个范围内时都可以用查附表15的方法,但是在世纪中当N>25时常常使用正态近似法。
将N 分为n+和n-两部分,为二项分布,根据二项分布的原理,有21==-+q p ,N Np 21==μ,22121N N Npq =⨯⨯==σ σμ-=r Z 22N N r -= 为了更接近正态分布,采用较正公式,即()2205.0N Nr Z -+=例11-5:在教学评价活动中,要求学生对教师的教学进行7点评价(即1-7分),下表是某班学生对一位教师期中与期末的两次评价结果,试问两次结果差异是否显著?①建立假设0H :-+=P P a H :+P ≠-P②确定正、负号数目,正负号总数N 的r 值8=+n ,19=-n ,27=+=-+n n N ,8)19,8min(==r③计算统计量92.12/272/27)5.08(-=-+=Z④比较与决策2/05.092.1Z Z 〈=p >0.05,接受虚无假设,差异不显著。