第十三章 非参数检验
统计学第13讲 第13章 非参数检验

13.3 单变量的χ2 检验 肥胖与健康问题有关,亚特兰大疾控中心定期进行全 国青少年危机监督调查,对11631名男女青年(9到12年 级)自身体重观的部分调查结果。
表13-1 女生的自身体重观
偏瘦 419
正常 3402
过胖 1995
合计 5816
这个问题可以使用单变量χ2 检验或拟合优度检验 (goodness-of-fit test) 观测值与虚无假设下的期望值之间是否存在差异? 观测值分布是否与理论分布相吻合?
56
2
81
=56+36-81 =11
检验步骤如下: 1. H0: U U 两组等级差异是机遇所致
2. H1: U 两组等级差异不是随机的 U 3. 统计检验:曼-惠特尼 U 检验 4. 显著水平:α=0.05 5. 抽样分布:曼-惠特尼U:N1=8 , N2=7 6. 拒绝H0的判别区域:U≤10 或 U≥46,如果U在此 范围之外,就拒绝H0,否者不拒绝H0。 因为U=11>10,所以不拒绝H0 。这种药物对反应 时没有影响。
例如:研究两男两女4位朋友看电影的情况,
电影类型 被试1 被试2 男性 男性 电影类型 男性 女性
被试3 被试4
女性 女性
喜剧 6 4 1 0
悲剧 1 0 3 2
合计
喜剧 10 1 11
悲剧 1 5 6
合计 11 6 17
4≠17,这类数据不能列成交叉表,宜用参数检验
13.5 顺序量表变量—非参数检验
df=(行数-1)(列数-1)=(2-1)(2-1)=1
表13-5 男女青年体重自我感觉的期望次数 单元格的期望次数
性别 女性 男性 合计
过轻 786.78 591.22 1378.00
非参数检验77页--非参数检验的过程

来自 中国最大的资料库下载
非参数检验的概念
知
识
是指在总体不服从正态分布且分布情况不明时,用来 检验数据资料是否来自同一个总体假设的一类检验方
改 法。由于这些方法一般不涉及总体参数故得名。
这类方法的假定前提比参数性假设检验方法少的多,
变 也容易满足,适用于计量信息较弱的资料且计算方法
认为挑边器是均匀。
实例1的数据可以组织成:两个变量(side面和number
次数),2个cases。但在二项分布检验前要求用number
加来权自。ww结w果.3同7。 中国最大的资料库下载
补充:二项分布检验实例
知 实例:为验证某批产品的一等品率是否达到90%,现从
识
该批产品中随机抽取23个样品进行检测,结果有19个一 等品(1-一等品,0-非一等品)。(变量2个:一等
运
Test Variables: a b c Test type:选一种或多种
比较有用的结果:看sig值,sig<.05, 拒绝零假设,认为
顾客对三种款式衬衫的喜爱程度是不相同的。
来自 中国最大的资料库下载
补充:非参数检验
知
识 以下的讲义是吴喜之教授有关
K-S Z:是通过对分布的研究来实现推断的
改
Moses extreme reactions:一个作为控制样本,另一个作为实验样本 Wald Wolfwitz Runs:是通过对游程的研究来实现推断的
实例 :甲乙两种安眠药服用后的效果。数据data12-06(2个变量:
变
组别zb和延长时间ycss, 20个cases)。试问这两种药物的疗效是否
运
认为该批产品的一等品率达到了90% 。
第十三章 非参数检验

相关样本
(二)大样本的检验
1、近似正态法
Z
r
1 r N 2 N 2
校正法:
1 r 0.5 N 2 Z N 2
其中
相关样本
N r : r 0.5 2 N r : r 0.5 2
检验过程
⑴ 提出假设
Ho:P+=P-,Ha:P+≠P-
相关样本
⑵ 确定符号(+,-,0)
1、符号检验法
1 2 3 4 5 6 7 8 9 10 11 12 13
期中 80 70 87 90 89 79 51 62 74 66 79 80 61 期末 86 75 87 97 81 88 67 74 72 94 96 93 85
符号 + + 0 + - + + + - + + + +
r=min(n+,n-) =n- =2 N= n++n- =10+2 =12 r=2,r0.10/2=2; r= r0.10/2,p>0.10
1 2 3 4 5 6 7 8 9 传统X 85 88 87 86 82 82 70 72 80 新法Y 90 84 87 85 90 94 85 88 92
相关样本
(一)小样本符号检验
⑴ 提出假设 ① 单侧检验: Ho:P+≤P-; Ha:P-≤P+
② 双侧检验 Ho:P+=P- (p=q=1/2)
概述 四、参数和非参数的比较 • 资料相同:两法结论的差异不太大。
适用于非参数的资料用非参数法,结果
准确; 适用于参数法的资料用参数法,结果更 准确。
五、方法
独立样本
概述
秩和检验法 中位数检验法
符号检验法 符号秩次(等级)检验法 单向秩次方差分样 双向秩次方差分析 柯尔莫哥洛夫检验 斯米尔诺夫检验
第13章非参数检验习题答案

第13章非参数检验教材习题答案13.1 为了解一种节能灯的使用寿命,随机抽取了8只灯泡,测得其使用寿命(:小时时)如命(单单位:小下:3250 3500 2850 3700 3010 2910 2980 3420 (1)检验该种节能灯的使用寿命是否服从正态分布?(a=0.05) (1)检验该种节能灯使用寿命的中位数是否等于3000小时?(a=0.05) 详细答案:(1)K—S检验结果如下表:精确双尾概率,不拒绝原假设,没有证据表明该种节能灯的使用寿命不服从正态分布。
(2)中位数的符号检验如下表:精确的双尾概率为,不拒绝原假设,没有证据表明该种节能灯的使用寿命的实际中位数与3000有显著差异。
13.2 利用13.1题的数据,采用Wilcoxon符号秩检验该种节能灯使用寿命的中位数是否等于3000小时?(a=0.05) 详细答案:检验结果如下表精确的双尾概率,不拒绝原假设。
没有证据表明该种节能灯的使用寿命的实际中位数与3000有显著差异。
13.3 为分析股票的每股收益状况,在某证券市场上随机抽取10只股票,得到2005年和2006股收益年的每股收益数据如下表,采用Wilcoxon符号秩检验分析:2007年与2006年相比,每,每股是否有显著提高?(a=0.05) 股票代码2006年每股收益(元)2007年每股收益(元)1 0.12 0.26 2 0.95 0.87 3 0.20 0.24 4 0.02 0.12 5 0.05 0.13 6 0.56 0.51 7 0.31 0.35 8 0.25 0.42 9 0.16 0.37 10 0.06 0.05 详细答案:配对样本的Wilcoxon符号秩检验如下表:精确的单尾,拒绝,2006年与2005年相比每股收益有显著提高。
13.4 某种品牌的彩电在两个城市销售,其中在A城市有6个商场销售,在B城市有8个商场销售,下表是各商场一年的销售量(单位:台)。
非参数验课件

秩次和秩和
“秩”即按数据大小排定的次序号,又称秩次号。编秩 就是将观察值按顺序由小到大排列,并用序号代替原始 变量值本身。用秩次号代替原始数据后,所得某些秩次 号之和,即按某种顺序排列的序号之和,称为秩和。设 有以下两组数据:
A组 4.7 6.4 2.6 3.2 5.2 B组 1.7 2.6 3.6 2.3 3.7
•编秩后,按差值的正负给秩次冠上符号。
分析步骤:
(3)求差值为正或负的秩和 差值为正的秩和以T+表示 差值为负的秩和以T-表示。 T++T-=n(n+1)/2 T=min(T+,T-)
(4)确定P值和作出推断结论:
当n≤50时,查T界值表
T在界值范围内
P>α
T在界值范围外或相等 P<α
例1 临床某医生研究白癜风病人的白介素IL6水平(u/l)在白斑部位与正常部位有无差异 ,调查的资料如表1所示:
表2 尿氟含量X(1)
2.15 2.10 2.20 2.12 2.42 2.52 2.62 2.72 2.99 3.19 3.37 4.57
12名工人尿氟含量测定的结果 差值d=X-2.15 (2) 0 -0.05 0.05 -0.03 0.27 0.37 0.47 0.57 0.84 1.04 1.22 2.42
对总体的分布类型 不作任何要求
不受总体参数的影响, 比较分布或分布位置 适用范围广;可用于任 何类型资料(等级资料, 或“>50mg” )
参数检验与非参数检验比较
参数检验 要求资料服从 某种分布
检验效率高
非参检验
1. 对资料的分布没有特殊要求,总体为 偏态、总体分布未知的计量资料(尤 其在n<30的情况)
非参数检验

组别 95-99 90-94 85-89 80-84 75-79 70-74 65-69 60-64 55-59 50-54 45-49
fo 4 12 18 28 44 72 46 40 22 18 10 314
组上限 99.5 94.5 89.5 84.5 79.5 74.5 69.5 64.5 59.5 54.5 49.5
fe 行合计数 列合计数 总次数
, fb , fd
( a b )( b d ) abcd ( c d )( b d ) abcd
注意:2×2列联表的自由度df=(2-1)(2-1)=1
例 为比较某新药与传统药物治疗脑动脉硬化的疗效, 临床试验结果见表,问两种药物的疗效有无差异? 表 两种药物治疗脑动脉硬化的疗效 处理措施 新药组 有效 无效 合计 44 24 68
41(38.18) 3(5.82)
传统药物组 18(20.82) 6(3.18) 合计 59 9
• 4、关于2×2列联表在数据合并上应注意 的问题 • 2×2列联表只是 的一个特例,实际上, 在很多情况下,变量的分类不止两个,当 我们把各部分数据合并成2×2列联表来表 达时,可能会忽略其中一些重要的变量, 造成 检验的失真,即可能会出现这样的 情况:单独分析每一个2×2列联表所得的 结果与合并成一个2×2列联表所做的 分 析结果相矛盾。
2
( 69 74 . 4 ) 74 . 4
(16 11 . 6 ) 11 . 6
22 . 2748
• 3、推断:
取 0 . 05 , df 5 1 4 , 查表得: 22 . 2748
2 2 0 . 05 ( 4 ) 2 0 . 05 ( 4 )
非参数检验(提纲)

非参数检验参数检验方法,尤其是对计量资料,需要对研究的总体作一些比较严格的假定。
例如t检验法要求总体分布是正态分布等。
在实际工作中的许多资料不符合这种要求,因此以上的参数检验方法的使用受到了限制。
近代统计学家发明了对总体分布不必作限制性假定的检验技术,这种技术称为非参数检验(Nonparametric tests)。
非参数检验法是指在总体不服从正态分布或分布情况不明时,用来检验数据资料是否来自相同总体假设的一类检验方法。
由于它的假定前堤比参数检验方法少的多,而且在收集资料方面也十分简单,例如可以用“等级”或“符号”来评定观察的结果等,故这类方法在实际中有着广泛的应用。
第一节两相关样本的显著性检验1.1 符号检验法在配对实验中,将每对(或同一)实验单位(或先后)给予两种不同的处理,比较两种处理的效果有无差异或比较一组实验单位处理先后有无不同。
凡配对计量资料不服从正态分布要求时,可选用符号检验法(Sign test)。
例题1 有x,y 12对数据,它们的数值及相差符号由表1给出。
表1 本例的数据资料序号 1 2 3 4 5 6 7 8 9 10 11 12X 3 1 6 3 2 1 4 7 3 8 4 5Y 2 4 4 7 2 2 2 5 3 6 2 2 问这两个序列数值的差异是否具有显著性(α=0.05)?1.2 符号秩和检验法符号检验中只考虑配对数据x i-y i的符号,计算十分简便,但因没有考虑到x i-y i 差值的大小,因此对资料的利用不够充分,检验的灵敏度也不够好。
符号秩和检验法是上述方法的改进,由于关注到了差值的大小,故效果较好。
凡配对计量或计数的资料,可选用符号秩和检验法(Wilcoxon法)。
例题2 为研究长跑运动对增强普通高校学生的心功能效果,对某学院15名男生进行实验,经过5个月的长跑锻炼后观察其晨脉变化情况。
锻炼前后的晨脉数据如下。
问锻炼前后晨脉间的差异有无显著性(α=0.05)?表2 长跑锻炼前后的晨脉数、差值及其秩次序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 前70 76 56 63 63 56 58 60 65 65 75 66 56 59 70 后46 54 60 64 48 55 54 45 51 48 56 48 64 50 54 差值22 22 -4 -1 15 1 4 15 14 17 19 18 -8 9 16 秩次14.5 14.5 –3.5 –1.5 8.5 1.5 3.5 8.5 7 11 13 12 -5 6 101.3 用spss对两相关样本进行非参数检验spss软件包的Nonparametric Tests过程为两相关样本通常提供了3种非参数检验方法,它们是:Sign 检验,用于对两相关样本的总体做符号检验。
第13章 有序分类变量的统计推断——非参数检验

第13章有序分类变量的统计推断— —非参数检验
13.1 非参数检验概述 13.2 两个配对样本的非参数检验 13.3 两个独立样本的非参数检验
13.1 非参数检验概述
13.1.1 非参数检验的意义 13.1.2 非参数检验预备知识
13.1.1 非参数检验的意义
非参数检验(nonparametric testing)是指 在总体不服从正态分布且分布情况不明 时,用来检验数据资料是否来自同一个 总体假设的一类检验方法。由于这些方 法一般不涉及总体参数故得名。 这类方法的假定前提比参数性假设检验 方法少的多,也容易满足,适用于计量 信息较弱的资料且计算方法也简单易行, 所以在实际中有广泛的应用。
13.1.2 非参数检验预备知识
例如我们有下面数据
Xi 15
Ri 7
9
5
18
9
3
1
17
8
8
4
5
2
13
6
7
3
19
10
这下面一行(记为Ri)就是上面一行数 据Xi的秩。
13.1.2 非参数检验预备知识
利用秩的大小进行推断就避免了不知道 背景分布的困难。这也是非参数检验的 优点。 多数非参数检验明显地或隐含地利用了 秩的性质;但也有一些非参数方法没有 涉及秩的性质。
13.2.2
分析实例
例13.1 一家日用化工企业拟采用两种去 污配方生产新型去污剂,于是挑选了一 系列沾染污渍物件进行测试,其中一项 是对清除不同污渍所需时间的测试,技 术人员想知道它们在这方面的功效是否 有差别。 数据见npara1.sav
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四节 中位数检验
第五节 单向秩次方差分析
第六节 双向秩次方差分析
双向秩次分析是在同一个对象(或匹配的对 象)接受k次实验处理所获得的原始数据之间 编秩次。如果各次实验导致差异不显著,各 次实验产生的秩次和应当相等或趋于相等; 如果各次实验导致秩次和相差较大,那么, 实验产生显著性差异的可能性较大。 (1)样本容量较小及实验次数较少的情况 (2)样本容量较大及实验次数较多的情况
数据类型
类别数据 等比数据 等距数据 等比数据
非参数检验的优点
适合任何类型的数据类型 不要求总体正态分布 对两个总体也没有方差齐性的要求 适合处理小样本数据
非参数检验的缺点
精确度不如参数检验
非参数检验
符号检验 符号秩次检验 秩和检验 中位数检验 单向秩次方差分析 双向秩次方差分析
第一节 符号检验(r)
符号检验是通过对两个相关样本的每对数据 之差的符号(正号或负号)进行检验,以比 较这两个样本差异的显著性。 (1)小样本的情况 (2)大样本的情况
符号检验的优点
不需要总体呈正态分布 不需要总体方差齐性 计算简单
符号检验的缺点
对同一组数据,采用符号检验的精确度只是t 检验的60%。 除小样本外,一般不采用符号检验。 除小样本外,一般不采用符号检验。
Z与t的区别
样本容量的大小
测量的两要素
参照点。就是计算的起点。 参照点。就是计算的起点。参照点的两种类型: (1)绝对零点,即0表示“无”,例如,长短、 轻重等; (2)相对零点,即人为确定的参照点, 例如,海拔高度0、温度的0度、智力年龄0岁 等。 单位。没有单位,数量的多少、大小就无法表 单位 示。理想的单位必须要有确定的意义,即同一 单位不允许有不同的解释;相邻两个单位点之 间的差别是相等的。而心理和教育测量所用的 单位不等值。即既无统一的单位,也不符合等 大学教育科学学院 郭兆明
Z、t、F检验的条件
总体为正态分布 总体方差齐性(相等) 等距数据或等比数据
t与F的区分
t为两个组的平均数的差异检验。F为多组的 平均数差异检验(单因素方差分析、多因素 方差分析)。 t通过平均数之差除以抽样分布的标准误来求t 值来判别的;而F分布是通过比较方差来求F 值。
等距量表
等距量表:对事物属性的划分是等距的,即 等距量表 它们具有单位,但没有绝对零点,只具有相 对零点。因此,等距量表测出的数据之间可 以进行加、减运算,但不能进行乘除运算 例如, 10℃-11℃、11℃-12℃之间的差别 是一样的,因为我们选择0℃与10 ℃其它温 度作为零点其差值都是一样的。但商就不一 样了。
比率量表
比率量表:具有绝对零点和单位的特性。从 比率量表 这种量表得到的数据可以进行四则运算。例 如,长度、重量、时间等。
不同类型的数据的统计方法不同
A.对分类量表进行统计分析的方法:百分 比、次数(频数)、众数。 B.适合顺序量表进行统计分析的方法:中 位数、百分位数、等级相关系数、肯德尔 和谐系数。 C.适合等距量表获得的数据的统计方法有: 平均数、标准差、积差相关系数、t检验、 F检验。 D.适合等距量表获得的数据的统计方法有: 同C+几何平均数。
样本容量较小及实验次数较少的情况
(2)编秩次 (3)求秩和 R1=11,R2=10,R3=9 (4)计算统计量
12 χ r= *(112 + 102 + 92 ) − 3*5(3 + 1) 5*3*(3 + 1) = 0.40
2
(5)统计决断 根据n=5,k=3,查表16(1),0.093显著性水平上临界值为5.2,而实际计 算值为0.40,则P大于0.093, 于是保留H0而拒绝H1,其结论为:三个学生的作文被评价的成绩无显著性 差异。
第二节 符号秩次检验
符号秩次检验
对同一组数据来说,符号秩次检验检验是t检 验的95%。 符号检验和符号秩次检验都是针对相关样本 来说的。 符号秩次检验的精确度比符号检验高
第三节 秩和检验
秩和检验
秩和检验是针对独立样本来说的。
第四节 中位数检验
次序变量的数据常以中位数作为集中量数, 以四分位距或百分位距作为差异量。对于两 个或几个独立样本中位数的比较,可以采用 非参数检验。 中位数的检验方法是将各组样本数据合在一 起找出共同的中位数,然后分别计算每个样 本在中位数上、下的频数,再进行rc表X2检 验。
四种测量水平
量表: 量表:任何可以使事物数量化的值和量的渐 进系列都可以称为量表。 进系列都可以称为量表。例如,刻度尺,天 平,弹簧称,温度计,气压计。 史蒂文斯根据对测量结果数量化描述的不同 水平,将量表分成四种水平:类别量表、 水平,将量表分成四种水平:类别量表、等 级量表、等距量表、比率量表。 级量表、等距量表、比率量表。
类别量表(分类量表) 类别量表(分类量表):
又称名称量表。只能区别不同类别;例如, 国籍、性别等。如,1代表男人, 2代表女人, 这里的1和2只是一个代号,我们不能说后者 比前者大,因为这里的1和2只有类别关系, 没有数量关系。再如:已婚、未婚;编号; 职业。
等级量表
等级量表(顺序量表、次序量表) 等级量表(顺序量表、次序量表):它根据 事物的某一特点,将事物分成等级,用数字 表示。例如,名次,等第(优、良、中、 差),工资级别,能力等级等。它能够指明 事物间的数量关系。在次序量表中,数字仅 表示等级,不能进行四则运算。例如,名次1 与2。 再如:及格、不及格;通过、未通过;录取、 未录取。
样本容量较大或实验次数较多的情况
当 k = 3 , n 〉9 ; k = 4 , n 〉 4 , 或 k 〉 4时 ,
χ r2 的 抽 样 分 布 接 近 于 d f = k - 1 的 χ
分 布 , 于 是 可 以 用 χ
2
2
近 似 处 理 。
例 如 : 根 据 身 高 、 体 重 、 健 康 状 况 等 基 本 相 同 的 原 则 , 将 四 岁 男 童 编 配 在 四 个 组 内 , 然 后 对 四 个 组 施 以 不 同 的 处 理 : 第 一 组 每 日 冬 泳 , 第 二 组 每 日 长 跑 150米 , 第 三 组 每 日 跳 绳 , 第 四 组 每 日 不 锻 炼 。 一 个 月 后 , 测 得 他 们 连 续 单 腿 向 前 跳 的 距 离 如 表 13.15第 ( 2) 至 ( 5) 列 所 示 , 如 果 以 连 续 单 腿 向 前 跳 的 距 离 长 短 作 为 体 力 好 坏 的 指 标 , 问 这 四 种 运 动 形 式 对 于 幼 儿 体 力 的 影 响 是 否 一 致 ?