第二讲 非参数统计检验

合集下载

课件:第六章_非参数统计

课件:第六章_非参数统计
• 非参数统计的名字中的“非参数 (nonparametric)”意味着其方法不涉及 描述总体分布的有关参数;它被称为和 分布无关(distribution—free),是因为其 推断方法和总体分布无关;不应理解为
2021/11/25 与所有分布(例如有关秩的分布)无关.13
3. 参数统计与非参数统计比较
• 2. 数据的形态各异
– 定量数据
– 定序数据
– Example: Good-Better-Best
– 名义数据
– Example: Male-Female
2021/11/25
12
非参数方法
• 在不知总体分布的情况下如何利用数据 所包含的信息呢?一组数据的最基本的信 息就是次序.如果可以把数据点按大小 次序排队,每一个具体数目都有它的在 整个数据中(从最小的数起)的位置或次 序,称为该数据的秩(rank).
17
4. 非参数统计的历史
2021/11/25
18
非参数统计的历史
• 非参数统计的形成主要归功于20世纪 40年代~50年代化学家F.Wilcoxon等人 的工作。Wilcoxon于1945年提出两样 本秩和检验,1947年Mann和Whitney
二人将结果推广到两组样本量不等的 一般情况;
2021/11/25
出。 • 数据分析方法和手段不足。
2021/11/25
6
统计的方法论
• 就方法论而言,统计分析主要解决两方 面的问题:
– 寻找数据内部差异中共同的特征。 – 寻找数据之间本质的差异。
• 统计分析的目标是从数据中发现比数据 本身更为有用的知识
2021/11/25
7
2. 非参数统计方法简介
2021/11/25

统计学非参数统计PPT课件

统计学非参数统计PPT课件
• 1、计算各组平均等级数这差
dij
Ti ni
Tj nj
第17页/共28页
• 2、计算判断有无统计意义的临界值d0.05
• 自由度=n-k,d> d0.05差别有统计意义。查t值表时如有的自由度没有可 用内插法近似估计
n 1 H 1 1 2
• 3、列各
d t s 0.(0P2527)

平0均.0秩5间(的)两
第19页/共28页
第四节 等级分组资料的检验
• P228表17-10的资料,可用2检验,但只能说明:各组在疗效等级的构成上有无不同,而不能说明哪组 疗效较好,哪组较差
• 利用H检验中,相同等级可用平均秩 • 其检验步骤同H检验 • 若有显著性意义,再进行多重比较
第20页/共28页
第五节 随机区组设计 资料的检验
s2 1 (
n 1
Tij2
n(n 1)2 4
)
无相同数据时,
s2 n(n 1) /12
第15页/共28页
• 7)计算H值
无相同数据时,
H 12
Ti2 3(n 1)
n(n 1) ni
有相同数据时:
2
2
1 T n(n 1) • 8)判断结果:如果处理数3,ni5,则可查i附表17-3作判断。
• 计算时可进行连续性校正,但影响甚微,
第6页/共28页
第二节 成组资料的检验
• 一、两样本秩和检验(Wilcoxon, Mann and Whitney法) • rank sum test计算步骤:
• 1、将两组数据混合由小到大排列编秩,相同数据用平均秩 • 2、将小样本等级相加称为T • 3、计算T ': T '=n1(n1+n2+1)-T

医学统计学非参数检验秩和检验详解(ppt)

医学统计学非参数检验秩和检验详解(ppt)
T 与平均秩和应相差不大
T = 较小例数组的秩和, n1 ≠n 2 min( R1, R 2 ), n1 = n 2
4.确定P值和作出推断结论
当n1<=10或(n2-n1)<=10时,查表P值
当n1>10或(n2-n1)>10时,则可采用正 态近似法求u(Z)值来确定P值,其公式
如下:
1
T - 2 n1 (n +1) - 0.5
• 排队的优点 广泛适用于多种分布
• 排队的结果 将原始数据的比较转化为秩次的比较
秩次(rank)——将数值变量值从小到大,或等级变量值从弱到强 所排列的序号。
例1 11只大鼠存活天数: 存活天数4,10,7,50,3,15,2,9,13,>60,>60
秩次
3 6 4 9 2 8 1 5 7 10 11 10.5 10.5
应用非参数检验的情况
1.不满足正态和方差齐性条件的小样本资料; 2.总体分布类型不明的小样本资料; 3.一端或两端是不确定数值(如<0.002、>
65等)的资料(必选); 4.单向(双向)有序列联表资料; 5. 各种资料的初步分析。
方法的起点--排队与秩次
• 统计描述中排秩思想的成功应用 百分位数、中位数
• 第三步:非参数检验(2)
• 第四步:结果解读(1)
结果解读:例数、均数、标准差、中位数、四分 位间距等。标准差较大
• 第四步:结果解读(2)
结果解读: Z=3.630,P=0.000
【例2】20名正常人和32名铅作业工人尿铅定性检 查结果如表。问铅作业工人尿铅是否高于正常人?
结果
-
+
++ +++ ++++

T检验与非参数检验

T检验与非参数检验

02
t检验的种类
单样本t检验
总结词
用于检验一个样本均值与已知的某个值或某一组值的差异是否显著。
详细描述
单样本t检验是用来比较一个样本的均值与已知的某个值或某一组值的差异是否显著的统计方法。它通常用于检 验一个样本的平均值是否显著不同于某个特定的标准值,或者是否显著不同于另一个已知的样本均值。
配对样本t检验
与参数检验相比,非参数检验在假设 较少的情况下仍能提供有效的推断依 据。
非参数检验的适用范围
当总体分布未知或不符合正态分布时 ,非参数检验是一个合适的选择。
当数据不符合正态分布或总体分布未 知时,参数检验可能无法得出准确的 结论,而非参数检验不受这些限制。
非参数检验的特点
灵活性
非参数检验不依赖于特定的总体分布,因此可以应用 于多种不同类型的数据和情境。
详细描述
1. 正态分布
2. 独立性
3. 方差齐性
t检验的前提假设包括正 态分布、独立性和方差 齐性。
在应用t检验时,需要满 足以下前提假设
样本数据应来自正态分 布的总体,或至少可以 近似为正态分布。
两组样本数据应相互独 立,即一个样本的数据 不影响另一个样本的数 据。
两组样本的方差应具有 齐性,即它们的波动程 度相似。如果不能满足 方差齐性的假设,可能 需要使用其他统计方法 ,如Welch's t检验或 Satterthwaite's近似法 。
t检验的适用范围
总结词
t检验适用于检验两组独立或配对样本的均值差异,常用于小样本数据或总体分布不明 确的情况。
详细描述
t检验适用于比较两组独立样本的均值,例如在不同条件下选取的两个样本。此外,它 也适用于比较同一总体选取的两个配对样本的均值,例如同一对象在不同时间点的测量

非参数统计讲义

非参数统计讲义

第一章 绪 论本章主要内容: 1.非参数方法介绍 2.预备知识第一节 非参数方法介绍一. 非参数方法的概念和实例复习参数方法定义:设总体X 的分布函数的形式是已知的,而未知的仅仅是分布函数具体的参数值,用样本对这些未知参数进行估计或进行某种形式的假设检验,这类推断方法称为参数方法。

先来看两个实例。

例1.1 供应商供应的产品是否合格? 某工厂产品的零件由某个供应商供应。

合格零件标准长度为(8.5±0.1)cm 。

这也就是说合格零件长度的中心位置为8.5cm ,允许误差界为0.1cm ,即长度在8.4-8.6cm 之间的零件是合格的。

为评估近年来供应的零件是否合格,随机抽查了n=100个零件,它们的长度数据X 见第一章附表1.1。

解答:根据我们已学过的参数统计的方法,如何根据数据来判断这批零件合格否? 用参数数据分析方法,在参数统计中,运用得最多的是正态分布,所以考虑假设供应商供应的零件长度X 服从正态分布,即X ~),(2σμN其中两个参数均未知,但可用样本均值估计μ,样本方差估计2σ。

由已知的数据计算可得:零件的平均长度,即样本均值为x =8.4958cm ,样本标准差为s=0.1047cm 。

则零件合格的可能性近似等于)/)4.8(()/)6.8(()6.84.8(σμσμ-Φ--Φ=≤≤X P)1047.0/)4958.84.8(()1047.0/)9458.86.8((-Φ--Φ≈%66≈这个说明:约有三分之一的零件不合格,该工厂需要换另一个供销商了。

但这个结论与实际数据符不符合呢?这是我们要思考的问题。

我们可以对数据做一个描述性分析,先对这100个样本数据做一个频率分布。

观察到:在这100个零件中有91个零件的长度在8.4cm ~8.6cm 之间,所以零件合格的比例为91%,超过66%很多!统计分析的结论与数据不吻合的!这是什么原因呢?我们可以作出数据的直方图来分析数据的分布情况。

非参数统计讲义通用课件

非参数统计讲义通用课件
案例分析
通过实际案例展示如何使用Python进行非 参数统计,包括分布拟合、假设检验和模 型选择等步骤。
SPSS实现
SPSS简介
SPSS(Statistical Package for the Social Sciences) 是一款流行的社会科学统计 软件。
操作界面
SPSS的非参数统计功能通常 在“分析”菜单下的“非参 数检验”选项中,用户可以 通过直观的界面进行操作。
聚类分析方法在数据挖掘、 市场细分等领域有广泛应用, 可以帮助我们发现数据的内 在结构和模式。
异常值检测方法
• 异常值检测方法用于识别和剔除数据中的异常值,提高数据分析的准确性和可靠性。
• 常见的异常值检测方法包括基于统计的方法、基于距离的方法、基于密度的方等。 • 基于统计的方法利用统计学原理,如z分数、IQR等,判断数据是否为异常值;基于距离的方法通过计算对象与其它对象的距离来判断是否为异常值;基于密度的方法则根据对象周围的密度变化来判断是否
解释性较差
相对于参数统计,非参数统计结果通 常较为抽象,难以直接解释其具体含 义。
假设检验能力较弱
非参数统计在假设检验方面的能力相 对较弱,对于确定性的结论和预测不 如参数统计准确。
如何克服非参数统计的局限性
01
02
03
04
利用高效计算方法
采用并行计算、分布式计算等 高效计算方法,提高非参数统
计的计算效率和准确性。
描述性统计方法在数据分析中起到基 础作用,为后续的统计推断提供数据 基础和初步分析结果。
假设检验方法
假设检验方法是一种统计推断 方法,通过提出假设并对其进
行检验,判断假设是否成立。
假设检验方法包括参数检验和 非参数检验,其中非参数检验 不依赖于总体分布的具体形式,

非参数统计法PPT课件

非参数统计法PPT课件

36.2
-12.8 -8
9
44.1
45.2
-1.1
-2
10
399.8 404.1 -4.3
-4
11
25.9
39.3
-13.4 -9.5
12
535.6 544.8 -9.2
-5
T- =5.8 T+-=8
•为什么要用 非参数检验?
SPSS
6
S tati sti c s
d
N
Valid
Missing
Sk ewness
参数统计——检验效率较高,但使用条件较严格. 非参数统计——由于对资料无特殊要求,因此适用
范围广,资料收集和分析比较简便。但统计效率 较低(β较大)。 选择: 首先考虑参数检验,当条件不符,才选择非参数 统计方法。
.
3
(四) 非参数统计适用情况
(1)偏态分布资料; (2)总体分布不明资料; (3)数据一端或两端有未确定值; (4)等级资料; (5)方差不齐资料。
.
8
结果判断:
(1)查表法:当n<25时,查T界值表(符号秩和检验 用),得:
T0.05,11= 10~56,( T0.01, 11 = 5~61) 若T+或T-:落在范围内,则P>0.05;
落在范围外, 则P<0.05;
等于界值, 则P=0.05。
.
9
(2)正态近似法: 若 n>25时, 可近似认为T分布逼近正态分布。
温州医学院环境与公共卫生学院温州医学院环境与公共卫生学院一非参数统计一非参数统计不依赖于总体分布形式不须考虑被研究对象为何不依赖于总体分布形式不须考虑被研究对象为何种分布及分布是否已知不是参数间的比较而是种分布及分布是否已知不是参数间的比较而是用于分布之间的比较

秩转换的非参数检验课件.ppt

秩转换的非参数检验课件.ppt
参数统计
(parametric statistics)
已知总体分布类型,对
未知参数(μ、π)进
行统计推断
依赖于特定分布类 型,比较的是参数
非参数统计
(nonparametric statistics)
对总体的分布类 型不作任何要求
不受总体参数的影响, 比较分布或分布位置
适用范围广;可用于任何类型 资料(等级资料,或“>50mg” )
本例:本例,n=11,T=11.5,查附表9,得双侧 0.05≺P≺0.10,按α=0.05水准不拒绝H0,尚不能认
为两法测谷-丙转氨酶结果有差别。
(ii)大样本(n>50)时,可采用正态近似
Tn(n1)/4
u
n(n1)(2n1) (t3j tj)
24
48
n是对子数,tj为第j个
相同秩次的个数。
A组:- ± + + + ++
12 3 4 5 7
1 2 4.5 4.5 4.5 8.5
B组:
+ ++ ++ ++ +++ +++
6 8 9 10 11 12
4.5 8.5 8.5 8.5 11.5 11.5
秩和
A组: - 、、+、+、+、 ++ 秩和: 1 2 4.5 4.5 4.5 8.5 TA=25
1.5 3 4 5 6 7 8 9 10 11 64.5
负 秩 (4) 1.5
1.5
解: 1.检验假设和检验水准: H0:该厂工人尿氟含量的总体中位数M=45.30 H1:M>45.30 α=0.05 2.编秩、求统计量T: 所有观察值与总体中位数45.30之差,按绝对值由小到 大编秩,绝对值相同取平均秩次,然后分别计算正负秩 次之和,即表8-2第(3)、(4)栏。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第二讲 非参数检验1. 实验目的1.了解非参数假设检验基本思想;2.会用SAS 软件中的proc npar1way 过程进行非参数假设检验和proc freq 过程进行列联表的独立性检验。

2. 实验要求1.会用SAS 软件建立数据集,并进行统计分析;2.掌握proc npar1way 过程进行非参数假设检验的基本步骤;3.掌握proc freq 过程进行列联表的独立性检验的基本步骤。

3. 实验基本原理3.1 符号检验0:H 两种方法的处理效果无显著性差异令10i i I i ⎧=⎨⎩第个个体中新方法优于对照方法第个个体中新方法劣于对照方法1,2,,i N =统计量1NNi i S I ==∑N S 表示新方法的处理效果优于对照方法的配对组总数。

若新方法的处理效果显著的优于对照方法,则N S 的值应明显偏大。

因此,若对给定的置信水平α,有 {}N P S c α≥<,则拒绝0H 。

0H 为真时,(1)N S 服从二项分布1(,)2b N (),()24N N N NE S Var S ==。

拒绝域为:{}NN SS c >(2)由中心极限定理可知,当2,N N S N -→∞的零分布趋于标准正态分布。

拒绝域为:N S u α⎧⎫⎪⎪⎪⎪>⎨⎬⎪⎪⎪⎪⎩⎭3.2 Wilcoxon 秩和检验 (1)单边假设检验0:H 两种方法的处理效果无显著性差异 as 1:H :新方法优于对照方法。

用于检验0H 的统计量为:1ns i i W I ==∑若对给定的置信水平α,有{}s P W c α≥<,则拒绝0H 。

且s W 的分布列为:0#{;,}{}H s w n m P W w N n ==⎛⎫ ⎪⎝⎭根据观测结果计算s W 的观测值0s W ,计算检验的p 值:00{}{}sH s s H s k w p P W w PW k ≥=≥==∑然后将p 值与显著水平α作比较,若p α<,则拒绝0H ,否则接受0H 。

(2)双边假设检验给定的显著水平21,c c 和α应该满足:ε=≥+≤}{}{2100c W P c W P A H A H仅由上式还不能唯一确定21c c 和,当我们对两种方法谁优谁劣不得而知时,通常取2}{}{2100α=≥=≤c W P c W P A H A H若利用p 值进行检验,设A A W ω的观测值为,计算概率值}{}{00A A H A A H W P W P ωω≤≥或由对称性可知,检验的p 值为上述两概率中小于1/2的那一个的2倍。

例如21W P 0A A H 0}<{ω≥≤则}{20A A H W P p ω≥=。

求出p 值后,若p<a ,拒绝0H ,否则接受。

(3)列联表的独立性检验0:H 方法的处理效果无显著性差异ijk π:表示格子概率,ijk ijk m n π=表示三维列联表中事件发生的理论频数。

将概率用相应的频率频率去估计。

令222111ˆ()~()ˆrstijk ijk i j k ijk n m Q f m χ===-=∑∑∑ 其中:(1)()f rst =--为检验特定独立性所需要独立估计的概率数目将样本数据代入统计量进行检验。

然后将P 与显著水平α作比较,若p α<,拒绝0H ,否则接受0H 。

4. 实验相关SAS 知识(1)独立样本的秩检验——proc npar1way 过程proc npar1way 过程的基本语句形式为 proc npar1way [options];class variables;(proc npar1way 过程不可缺少的语句) exact;(求出检验的精确p 值) var variables;其中“options ”可包含以下选项的部分或全部: ①DATA=数据集名:指定要分析的数据集。

②ANOVA :对原始数据执行标准的单因素方差分析。

③WILCOXON :进行wilcoxon 型秩和检验。

当有两种处理方法时,进行的是wilcoxon 秩和检验;当有多种处理方法时,进行Kruskall-Wallis 检验。

④EDF :进行基于样本经验分布函数的非参数检验,包括Smirnov 检验。

若省略这些选项,SAS 系统将给出所有基于秩以及经验分布函数的非参数检验方法的分析结果。

(2)列联表的独立性检验proc freq 过程的基本语句形式为proc freq [options];tables variable1*variable2*……/options; weight variable;其中“options ”可包含以下选项的部分或全部: ①DATA=数据集名:指定要分析的数据集。

②chisq:要求对生成的每个二维列联表的独立性作2χ检验,并计算依赖于2χ统计量的关联度。

③cellchi2:要求输出每个格子对总2χ统计量的贡献。

④expected:在独立性假定下输出各格子的期望频数。

⑤deviation:要求输出每个格子上的频数与期望频数之差。

⑥nocol:不输出二维列联表各格子的列百分数。

⑦norow: 不输出二维列联表各格子的行百分数。

⑧nofreq:不输出格子频数。

⑨nopercent:不输出各格子的百分数。

⑩noprint:不输出列联表,但允许输出各分析结果。

5. 实验举例5.1 Wilcoxon 秩和检验(单边和双边假设检验)例 1 为了解一种新的术后护理方法和原护理方法相比是否可以显著缩短病人手术后的恢复时间,随机的将做完某种手术的18位病人分为两组,每组9人,按不同方法护理,观测到他们的恢复时间(单位:天)如下: 原方法:20,21,24,30,32,36,40,48,54 新方法:19,22,25,26,28,29,34,37,38在05.0=α下检验新方法是否显著的缩短了病人手术后的恢复时间。

Wilcoxon 秩和单边假设检验SAS 程序如下: data a1;input method $ time@@; cards ;a 20 a 21 a 24 a 30 a 32 a 36 a 40 a 48 a 54b 19 b 22 b 25 b 26 b 28 b 29 b 34 b 37 b 38 ;proc npar1way data =a1 wilcoxon ; class method; exact ; run ;结果显示α>=2181.0p ,故接受原假设0H ,即认为病人手术后采用新旧护理方法对其恢复时间无显著差异。

5.2.Smirnov 检验例2(数据见教材)SAS 程序如下:data a1;input group $ time@@; cards ;a 6.8 a 3.1 a 5.8 a 4.5 a 3.3 a 4.7 a 4.2 a 4.9b 4.4 b 2.5 b 2.8 b 2.1 b 6.6 b 0.0 b 4.8 b 2.3 ;proc npar1way data =a1 edf ; class group; exact ; var time; run ;运行结果显示p=0.0879>0.05,即认为两种止痛药效果无显著差异;但在0.1水平上可认为两者有显著差异。

5.3.Wilcoxon 符号秩检验 例3(见教材例题2.8)SAS 程序如下:data a;input id product1 product2; cards ; 1 459 414 2 367 306 3 303 321 4 392 443 5 310 281 6 342 301 7 421 353 8 446 391 9 430 405 10 412 390 ; data b;set a;diff=product1-product2;proc univariate data=b;var diff;run;运行结果显示:符号秩和检验的p值为0.1094>0.05,故认为两复合肥无显著差异;而Wilcoxon秩和检验的p值为0.0488<0.05,故认为新复合肥能显著提高小麦的产量。

5.4 多种处理方法比较的Kruskal-Wallis检验例4(见教材例题2.10)SAS程序如下:data a;input group $ weight@@;cards;a 164 a 190 a 203 a 205 a 206 a 214 a 228 a 257b 185 b 197 b 201 b 231c 187 c 212 c 215 c 220 c 248 c 265 c 281d 202 d 204 d 207 d 227 d 230 d 276;proc npar1way data=a wilcoxon;class group;(不要加入exact语句,运行非常耗时!)var weight;run;运行结果显示Pr > Chi-Square =0.2394>0.05,故认为四种食谱的营养效果无显著差异。

5.5 Friedman检验例5(见教材例题2.12)SAS程序如下:data a;input person $ emotion $ v@@;cards;p1 e1 23.1 p1 e2 22.7 p1 e3 22.5 p1 e4 22.6p2 e1 57.6 p2 e2 53.2 p2 e3 53.7 p2 e4 53.1p3 e1 10.5 p3 e2 9.7 p3 e3 10.8 p3 e4 8.3p4 e1 23.6 p4 e2 19.6 p4 e3 21.1 p4 e4 21.6p5 e1 11.9 p5 e2 13.8 p5 e3 13.7 p5 e4 13.3p6 e1 54.6 p6 e2 47.4 p6 e3 39.2 p6 e4 37.0p7 e1 21.0 p7 e2 13.6 p7 e3 13.7 p7 e4 14.8p8 e1 20.3 p8 e2 23.6 p8 e3 16.3 p8 e4 14.8;proc freq;tables person*emotion*v/scores=rank cmh noprint;run;运行结果显示p值为0.0917>0.05,故认为在催眠状态下,受试者对4种情绪状态的反应无显著差异。

5.6 列联表的独立性检验例6(数据见教材例题)SAS程序如下:data penalty;input p $ d $ count@@;cards;y w 19 y b 17 n w 141 n b 149;proc freq data=penalty;tables p*d/chisq expected nocol norow nopercent;weight count;run;6. [ 本次实验]为了研究两种化学添加剂对电池寿命的影响,对13个同类型的电池,随机的抽取6个加入甲种添加剂,其余7个加入乙种添加剂,各组电池寿命如下(单位:小时):甲组:18 24 25 27 30 35乙组:20 21 28 32 34 38 40对α=0.10,检验两种添加剂下电池的寿命是否有显著差异。

相关文档
最新文档