第二讲非参数统计检验

第二讲非参数检验

1. 实验目的

1.了解非参数假设检验基本思想；

2.会用SAS 软件中的proc npar1way 过程进行非参数假设检验和proc freq 过程进行列联表的独立性检验。

2. 实验要求

1.会用SAS 软件建立数据集，并进行统计分析；

2.掌握proc npar1way 过程进行非参数假设检验的基本步骤；

3.掌握proc freq 过程进行列联表的独立性检验的基本步骤。

3. 实验基本原理

3.1 符号检验

0:H 两种方法的处理效果无显著性差异

令10

i i I i ?=?

?第个个体中新方法优于对照方法第个个体中新方法劣于对照方法

1,2,,i N =

统计量1

i i S I ==∑

N S 表示新方法的处理效果优于对照方法的配对组总数。若新方法的处理效果显著的优于对

照方法，则N S 的值应明显偏大。因此，若对给定的置信水平α，有 {}N P S c α≥<，

则拒绝0H 。

0H 为真时，（1）N S 服从二项分布1(,)2

b N (),()24

N N N N

E S Var S =

=。拒绝域为：

{}N

N S

S c >

（2）

由中心极限定理可知，当

N N S N -

→∞的零分布趋于标准正态分布。

拒绝域为

：N S u α??

????>????????

3.2 Wilcoxon 秩和检验（1）单边假设检验

0:H 两种方法的处理效果无显著性差异 as 1:H ：新方法优于对照方法。

用于检验0H 的统计量为：1n

s i i W I ==∑

若对给定的置信水平α，有

{}s P W c α≥<，则拒绝0H 。且s W 的分布列为：

0#{;,}{}H s w n m P W w N n ==

?? ???

根据观测结果计算s W 的观测值0s W ，计算检验的p 值：

{}{}

H s s H s k w p P W w P

W k ≥=≥=

=∑

然后将p 值与显著水平α作比较，若p α<，则拒绝0H ，否则接受0H 。

（2）双边假设检验

给定的显著水平21,c c 和α应该满足：

ε=≥+≤}{}{2100c W P c W P A H A H

仅由上式还不能唯一确定21c c 和，当我们对两种方法谁优谁劣不得而知时，通常取

}{}{2100α

≥=≤c W P c W P A H A H

若利用p 值进行检验，设A A W ω的观测值为

,计算概率值

}{}{00A A H A A H W P W P ωω≤≥或

由对称性可知，检验的p 值为上述两概率中小于1/2的那一个的2倍。例如

W P 0A A H 0｝＜｛ω≥≤则}{20

A A H W P p ω≥=。求出p 值后，若p

绝0H ,否则接受。

（3）列联表的独立性检验

0:H 方法的处理效果无显著性差异

ijk π：表示格子概率，ijk ijk m n π=表示三维列联表中事件发生的理论频数。将概率用相

ijk ijk i j k ijk n m Q f m χ===-=∑∑∑ 其中：(1)()f rst =--为检验特定独立性所需要独立估计的概率数目

将样本数据代入统计量进行检验。然后将P 与显著水平α作比较，若p α<，拒绝0H ，否则接受0H 。

4. 实验相关SAS 知识

（1）独立样本的秩检验——proc npar1way 过程

proc npar1way 过程的基本语句形式为 proc npar1way [options];

class variables;（proc npar1way 过程不可缺少的语句） exact;（求出检验的精确p 值） var variables;

其中“options ”可包含以下选项的部分或全部： ①DATA=数据集名：指定要分析的数据集。

②ANOVA ：对原始数据执行标准的单因素方差分析。

③WILCOXON ：进行wilcoxon 型秩和检验。当有两种处理方法时，进行的是wilcoxon 秩和检验；当有多种处理方法时，进行Kruskall-Wallis 检验。

④EDF ：进行基于样本经验分布函数的非参数检验，包括Smirnov 检验。

若省略这些选项，SAS 系统将给出所有基于秩以及经验分布函数的非参数检验方法的分析结果。

（2）列联表的独立性检验

proc freq 过程的基本语句形式为

proc freq [options];

tables variable1*variable2*……/options; weight variable;

其中“options ”可包含以下选项的部分或全部： ①DATA=数据集名：指定要分析的数据集。

②chisq:要求对生成的每个二维列联表的独立性作2χ检验，并计算依赖于2χ统计量的关联度。

③cellchi2:要求输出每个格子对总2χ统计量的贡献。 ④expected:在独立性假定下输出各格子的期望频数。 ⑤deviation:要求输出每个格子上的频数与期望频数之差。 ⑥nocol:不输出二维列联表各格子的列百分数。 ⑦norow: 不输出二维列联表各格子的行百分数。 ⑧nofreq:不输出格子频数。

⑨nopercent:不输出各格子的百分数。

⑩noprint:不输出列联表，但允许输出各分析结果。

5. 实验举例

5.1 Wilcoxon 秩和检验(单边和双边假设检验)

例 1 为了解一种新的术后护理方法和原护理方法相比是否可以显著缩短病人手术后的恢

复时间,随机的将做完某种手术的18位病人分为两组,每组9人,按不同方法护理,观测到他们的恢复时间(单位：天)如下：原方法：20,21,24,30,32,36,40,48,54 新方法：19,22,25,26,28,29,34,37,38

在05.0=α下检验新方法是否显著的缩短了病人手术后的恢复时间。 Wilcoxon 秩和单边假设检验SAS 程序如下： data a1;

input method $ time@@; cards ;

a 20 a 21 a 24 a 30 a 32 a 36 a 40 a 48 a 54

b 19 b 22 b 25 b 26 b 28 b 29 b 34 b 37 b 38 ;

proc npar1way data =a1 wilcoxon ; class method; exact ; run ;

结果显示α>=2181.0p ,故接受原假设0H ，即认为病人手术后采用新旧护理方法对其恢复时间无显著差异。

5.2．Smirnov 检验

例2（数据见教材）SAS 程序如下：

data a1;

input group $ time@@; cards ;

a 6.8 a 3.1 a 5.8 a 4.5 a 3.3 a 4.7 a 4.2 a 4.9

b 4.4 b 2.5 b 2.8 b 2.1 b 6.6 b 0.0 b 4.8 b 2.3 ;

proc npar1way data =a1 edf ; class group; exact ; var time; run ;

运行结果显示p=0.0879>0.05，即认为两种止痛药效果无显著差异；但在0.1水平上可认为两者有显著差异。

5.3．Wilcoxon 符号秩检验例3（见教材例题2.8）SAS 程序如下：

data a;

input id product1 product2; cards ; 1 459 414 2 367 306 3 303 321 4 392 443 5 310 281 6 342 301 7 421 353 8 446 391 9 430 405 10 412 390 ; data b;

set a;

diff=product1-product2;

proc univariate data=b;

var diff;

run;

运行结果显示：符号秩和检验的p值为0.1094>0.05，故认为两复合肥无显著差异；而Wilcoxon秩和检验的p值为0.0488<0.05，故认为新复合肥能显著提高小麦的产量。

5.4 多种处理方法比较的Kruskal-Wallis检验

例4（见教材例题2.10）SAS程序如下：

data a;

input group $ weight@@;

cards;

a 164 a 190 a 203 a 205 a 206 a 214 a 228 a 257

b 185 b 197 b 201 b 231

c 187 c 212 c 215 c 220 c 248 c 265 c 281

d 202 d 204 d 207 d 227 d 230 d 276

;

proc npar1way data=a wilcoxon;

class group;（不要加入exact语句，运行非常耗时！）

var weight;

run;

运行结果显示Pr > Chi-Square =0.2394>0.05，故认为四种食谱的营养效果无显著差异。

5.5 Friedman检验

例5（见教材例题2.12）SAS程序如下：

data a;

input person $ emotion $ v@@;

cards;

p1 e1 23.1 p1 e2 22.7 p1 e3 22.5 p1 e4 22.6

p2 e1 57.6 p2 e2 53.2 p2 e3 53.7 p2 e4 53.1

p3 e1 10.5 p3 e2 9.7 p3 e3 10.8 p3 e4 8.3

p4 e1 23.6 p4 e2 19.6 p4 e3 21.1 p4 e4 21.6

p5 e1 11.9 p5 e2 13.8 p5 e3 13.7 p5 e4 13.3

p6 e1 54.6 p6 e2 47.4 p6 e3 39.2 p6 e4 37.0

p7 e1 21.0 p7 e2 13.6 p7 e3 13.7 p7 e4 14.8

p8 e1 20.3 p8 e2 23.6 p8 e3 16.3 p8 e4 14.8

;

proc freq;

tables person*emotion*v/scores=rank cmh noprint;

run;

运行结果显示p值为0.0917>0.05，故认为在催眠状态下，受试者对4种情绪状态的反应无显著差异。

5.6 列联表的独立性检验

例6（数据见教材例题）SAS程序如下：

data penalty;

input p $ d $ count@@;

cards;

y w 19 y b 17 n w 141 n b 149

;

proc freq data=penalty;

tables p*d/chisq expected nocol norow nopercent;

weight count;

run;

6. [ 本次实验]

为了研究两种化学添加剂对电池寿命的影响,对13个同类型的电池,随机的抽取6个加入甲种添加剂,其余7个加入乙种添加剂,各组电池寿命如下(单位：小时)：

甲组：18 24 25 27 30 35

乙组：20 21 28 32 34 38 40

对α=0.10,检验两种添加剂下电池的寿命是否有显著差异。

7 . 课后练习

数据分析教材习题二中的2.3、2.7、2.12、2.14。

8.参考文献

[1]范金城，梅长林.数据分析[M].北京：科学出版社. 2005 P45-93.

参考答案: [ 本次实验]

为了研究两种化学添加剂对电池寿命的影响,对13个同类型的电池,随机的抽取6个加

入甲种添加剂,其余7个加入乙种添加剂,各组电池寿命如下(单位：小时)：甲组： 18 24 25 27 30 35 乙组： 20 21 28 32 34 38 40

对α=0.10,检验两种添加剂下电池的寿命是否有显著差异。解：

Wilcoxon 秩和双边假设检验SAS 程序如下： data a2;

input group $ lifetime@@; cards ;

a 18 a 24 a 25 a 27 a 30 a 35

b 20 b 21 b 28 b 32 b 34 b 38 b 40 ;

proc npar1way data =a2 wilcoxon ; class group; exact ; run ;

结果显示α>=366.0p ,故接受原假设0H ，即认为两种添加剂下电池的寿命无显著差异。

统计学原理

统计学原理自评报告所在院系：经济与管理学院管理学系基层组织：工商管理专业建设组

统计学原理自评报告一、课程介绍（一）课程主要内容与教学目的统计学原理是研究客观事物数量方面的方法论科学,其方法广泛适用于自然,社会,经济,科学技术等各个领域，因此统计学原理是经济管理类专业的主干课程。该课程系统阐述现代统计科学的基础理论和方法。内容包括:统计调查的组织技术,统计整理的方法原则,社会经济统计指标的理论与应用,概率论基础,参数估计和假设检验,非参数统计方法,相关与回归分析,时间序列分析,统计指数和统计决策等。通过本课程的学习,首先,使学生对统计学的学科体系有一个全面的认识,为学生进一步学习其它专业知识奠定学科基础,并使之具有较完备,合理的知识结构和实践能力。其次,使学生能明确理解统计这个认识工具的特点,作用；弄懂各种概念,范畴等基本知识；掌握运用各种基本方法。再次,培养学生理论联系实际的能力,在今后的实际工作和生活中,能将统计学的知识贯穿其中。最后,还要教会学生理论分析,使他们能够分析社会经济现象的具体事例并能以报告的形式给出分析结果和合理化建议。（二）课程建设过程与现状《统计学原理》课程在工商管理、经济学专业开设已10多年，现在已扩展到国际经济与贸易、市场营销、信息系统与信息管理等专业。10多年来，课程专任教师致力于加强优秀课程建设，从教学大纲、教学计划、教案、教学手段、教学辅导、教学实践、教学研究与改革等多方面,进行了积极有效的改革探索。特别是在本科生教育教学中，按照其规律和特点，以就业为导向、以应用能力为标准，加大课程改革力度，完善课程体系建设，强化方法和手段的应用。课程建设取得了阶段性成果。１、教学内容

非参数统计分析NonparametricTests菜单详解

非参数统计分析――Nonparametric Tests菜单详解非参数统计分析――Nonparametric Tests菜单详解平时我们使用的统计推断方法大多为参数统计方法，它们都是在已知总体分布的条件下，对相应分布的总体参数进行估计和检验。比如单样本u检验就是假定该样本所在总体服从正态分布，然后推断总体的均数是否和已知的总体均数相同。本节要讨论的统计方法着眼点不是总体参数，而是总体分布情况，即研究目标总体的分布是否与已知理论分布相同，或者各样本所在的分布位置/形状是否相同。由于这一类方法不涉及总体参数，因而称为非参数统计方法。 SPSS的的Nonparametric Tests菜单中一共提供了8种非参数分析方法，它们可以被分为两大类： 1、分布类型检验方法：亦称拟合优度检验方法。即检验样本所在总体是否服从已知的理论分布。具体包括： Chi-square test：用卡方检验来检验二项/多项分类变量的几个取值所占百分比是否和我们期望的比例有没有统计学差异。 Binomial Test：用于检测所给的变量是否符合二项分布，变量可以是两分类的，也可以使连续性变量，然后按你给出的分界点一分为二。 Runs Test：用于检验样本序列随机性。观察某变量的取值是否是围绕着某个数值随机地上下波动，该数值可以是均数、中位数、众数或人为制定。一般来说，如果该检验P值有统计学意义，则提示有其他变量对该变量的取值有影响，或该变量存在自相关。 One-Sample Kolmogorov-Smirnov Test：采用柯尔莫哥诺夫-斯米尔诺夫检验来分析变量是否符

合某种分布，可以检验的分布有正态分布、均匀分布、Poission分布和指数分布。 2、分布位置检验方法：用于检验样本所在总体的分布位置/形状是否相同。具体包括： Two-Independent-Samples Tests：即成组设计的两独立样本的秩和检验。 Tests for Several Independent Samples：成组设计的多个独立样本的秩和检验，此处不提供两两比较方法。 Two-Related-Samples Tests：配对设计的两样本秩和检验。 Tests for Several Related Samples：配伍设计的多样本秩和检验，此处同样不提供两两比较。一、分布位置检验方法 1、Two Independent Samples Test与 K Independent Samples Test 用于检验两独立样本/多独立样本所在总体是否相同。 Two-lndependent-Samples Test对话框: (1) Test Variable框，指定检验变量。 (2) Grouping Variable框，指定分组变量。Define Groups对话框，Groupl和Groupl后的栏中，可指定分组变量的值。 (3) TestType框，确定用来进行检验的方法。Mann-Whitney U：默认值，相当于两样本秩和检验。Kolmogorov-Smimov Z：K-S检验的一种。Moses extreme reactions：如果施加的处理使得某些个体出现正向效应，而另一些个体出现负向效应，就应当采用该检验方法。

学年第一学期期末试卷检查工作总结

教学督导组2010－2011学年第一学期期末试卷检查情况通报根据教务处《关于做好2010-2011学年第一学期期末考试试卷检查工作的通知》的要求，教学督导组于4月1日至4月15日对全校21个院（系、部）上学期期末考试试卷进行了检查。本次检查按各院（系、部）试卷装订数量10%的比例进行抽查，最低基数为3本，全校共抽查试卷123本。各院系抽查试卷检查情况如下：2010－2011学年第一学期各院（系、部）期末试卷抽查情况一览表

（说明：①A、B、C、D、F五个等级所对应的分数为5、4、3、2、1，总分为各等级的平均分。②公共课试卷命题错误、答案错误，责任在院（系、部），从总分中扣0.1分。）从抽查结果看，全校总平均分为3.8分，比上学期的3.61分高出0.19分，各等级所占抽查总数比重与上学期相比情况见下表： 2009－2010学年第二学期与2010－2011学年第一学期试卷抽查结果各等级比重对比表

从上表中可以看出，本学期与上学期相比，A级比重虽稍有下降，但B级比重增长较大，同时，C级、D级和F级的比重均有所减少，总体趋势表明试卷工作整体质量有所提高。虽然试卷工作整体质量有所提高，但问题仍然较多，为了便于各院(系、部)教学管理人员和全体教师，对试卷命题、批改、成绩录入、考试与试卷相关材料的填写、整理装订等环节中存在的问题有比较全面的了解，我们将本次试卷检查中存在的问题，分类整理如下：一、封面 1.封面填写的课程名称与试卷印制的课程名称不一致，如：中文系的2本试卷，封面上都是《现代汉语》，但试卷印制的课程名称，一门是《现代汉语（上）》，一门是《现代汉语（下）》，这是2门不同课程的试卷；《大学英语》有(一)、(二)、(三)、 (四)四级，因此，必须在课程名称中标明是几级大学英语。 2.课程代码填写不正确，如政治学系《社会主义市场经济理论与实践》试卷，封面填写的课程代码为“(2010-2011-1)ZJ61010-97074-1”，正确的课程代码是“ZJ61010”。 3.属于集体阅卷，应当在封面上填写“集体阅卷”，或填写每一位阅卷老师的姓名，并在第一张试卷卷首的登分栏中签写全名，以后各试卷上只要签姓即可。化学化工学院《聚合物流变学》试卷中，出现两个阅卷人，但在封面上只填写了一位阅卷教师的姓名，里面的试卷上只签了“杜”，有姓无名。

《非参数统计》与MATLAB编程第二章描述性统计

第二章描述性统计 2．1 表格法和图形法表2.1 灯丝寿命数据 107 73 68 97 76 79 94 59 98 57 73 81 54 65 71 80 84 88 62 61 79 98 63 65 66 62 79 86 68 74 61 82 65 98 63 71 62 116 65 88 64 79 78 79 77 86 89 76 74 85 73 80 68 78 89 72 58 69 82 72 92 78 88 77 103 88 63 68 88 81 64 73 75 90 62 89 71 71 74 70 74 70 85 61 65 81 75 62 94 71 85 84 83 63 92 68 81 62 79 83 93 61 65 62 92 65 64 66 83 70 70 81 77 72 84 67 59 58 73 83 78 66 66 94 77 63 66 75 68 76 73 76 90 78 71 101 78 43 59 67 61 71 77 91 96 75 64 76 72 77 74 65 82 86 79 74 66 86 96 89 81 71 85 99 59 92 94 62 68 72 77 60 87 84 75 77 51 45 63 102 85 67 87 80 84 93 69 76 89 75 59 77 83 68 72 67 92 89 82 96 a = Columns 1 through 17 107 73 68 97 76 79 94 59 98 57 73 81 54 65 71 80 84 79 98 63 65 66 62 79 86 68 74 61 82 65 98 63 71 62 64 79 78 79 77 86 89 76 74 85 73 80 68 78 89 72 58 92 78 88 77 103 88 63 68 88 81 64 73 75 90 62 89 71 74 70 85 61 65 81 75 62 94 71 85 84 83 63 92 68 81 93 61 65 62 92 65 64 66 83 70 70 81 77 72 84 67 59 78 66 66 94 77 63 66 75 68 76 73 76 90 78 71 101 78

学年第一学期期末试卷检查工作总结

学年第一学期期末试卷检查工作总结 Prepared on 21 November 2021

教学督导组2010－2011学年第一学期期末试卷检查情况通报根据教务处《关于做好2010-2011学年第一学期期末考试试卷检查工作的通知》的要求，教学督导组于4月1日至4月15日对全校21个院（系、部）上学期期末考试试卷进行了检查。本次检查按各院（系、部）试卷装订数量10%的比例进行抽查，最低基数为3本，全校共抽查试卷123本。各院系抽查试卷检查情况如下： 2010－2011学年第一学期各院（系、部）期末试卷抽查情况一览表

（说明：①A、B、C、D、F五个等级所对应的分数为5、4、3、2、1，总分为各等级的平均分。②公共课试卷命题错误、答案错误，责任在院（系、部），从总分中扣分。）从抽查结果看，全校总平均分为分，比上学期的分高出分，各等级所占抽查总数比重与上学期相比情况见下表： 2009－2010学年第二学期与2010－2011学年第一学期试卷抽查结果各等级比重对比表从上表中可以看出，本学期与上学期相比，A级比重虽稍有下降，但B级比重增长较大，同时，C级、D级和F级的比重均有所减少，总体趋势表明试卷工作整体质量有所提高。虽然试卷工作整体质量有所提高，但问题仍然较多，为了便于各院(系、部)教学管理人员和全体教师，对试卷命题、批改、成绩录入、考试与试卷相关材料的填写、整理装订等环节中存在的问题有比较全面的了解，我们将本次试卷检查中存在的问题，分类整理如下：一、封面 1.封面填写的课程名称与试卷印制的课程名称不一致，如：中文系的2本试卷，封面上都是《现代汉语》，但试卷印制的课程名称，一门是《现代汉语（上）》，一门是《现代汉语（下）》，这是2门不同课程的试卷；《大学英语》有(一)、(二)、(三)、(四)四级，因此，必须在课程名称中标明是几级大学英语。

王静龙《非参数统计分析》课后计算题参考答案

王静龙《非参数统计分析》课后习题计算题参考答案习题一 1.One Sample t-test for a Mean Sample Statistics for x N Mean Std. Dev. Std. Error ------------------------------------------------- 26 1.38 8.20 1.61 Hypothesis Test Null hypothesis: Mean of x = 0 Alternative: Mean of x ^= 0 t Statistic Df Prob > t --------------------------------- 0.861 25 0.3976 95 % Confidence Interval for the Mean Lower Limit: -1.93 Upper Limit: 4.70 则接受原假设认为一样习题二 1.描述性统计

习题三 1.1 {}+01=1339 :6500:650013=BINOMDIST(13,39,0.5,1) =0.026625957 S n H me H me P S + ==<≤ 另外：在excel2010中有公式 BINOM.INV(n,p,a) 返回一个数值，它使得累计二项式分布的函数值大于或等于临界值a 的最小整数 * **0*0+1inf :2BINOM.INV(39,0.5,0.05)=14 1sup :113 2S 1313 n m i n d i n m m i n d d m i d αα==?????? ??=≥?? ? ????????? ?????? ??≤=-=?? ? ????????? =≤=∑∑= 以上两种都拒绝原假设，即中位数低于6500 1.2

统计学原理(精编文档).doc

非参数统计分析方法总结

非参数统计分析方法一单样本问题 1，二项式检验：检验样本参数是否与整体参数有什么关系。样本量为n给定一个实数MO（代表题目给出的分位点数），和分位点口（0.25,0.5,0.75）。用S-记做样本中比M0小的数的个数，S+记做样本中比M0大的数的个数。如果原假设H0成立那么S-与n的比之应为n。 H0：M=M0 HI: M k MO或者M>M（或者M

H1 ：不是随机的（混合倾向，游程多，长度短）（成群倾向，游程少，长度长) Spss步骤：分析一非参数检验一游程得出统计量R 和p 值当p值小于0.05时拒绝原假设，没有充足理由证明该数据出现是随机的二，两个样本位置问题 1，Brown —Mood 中位数检验给出两个样本比较两个样本的中位数或者四分位数等是否相等或者有一定关系，设一个中值为M1，—个为M2 H0：M1=M2. HI: M1H M2或者M1>M或者M1

王静龙非参数统计分析课后计算题参考答案Word版

习题三 1.1 {}+01=1339 :6500:650013=BINOMDIST(13,39,0.5,1)=0.026625957 S n H me H me P S +==<≤ 另外：在excel2010中有公式 BINOM.INV(n,p,a) 返回一个数值，它使得累计二项式分布的函数值大于或等于临界值a 的最小整数 * **0*0+1inf :2BINOM.INV(39,0.5,0.05)=14 1sup :113 2S 1313 n m i n d i n m m i n d d m i d αα==?????? ??=≥?? ? ????????? ?????? ??≤=-=?? ? ????????? =≤=∑∑= 以上两种都拒绝原假设，即中位数低于6500 1.2

非参数统计部分课后习题参考答案

课后习题参考答案第一章p23-25 2、（2）有两组学生，第一组八名学生的成绩分别为x 1：100，99，99，100，99，100，99，99；第二组三名学生的成绩分别为x 2：75,87,60。我们对这两组数据作同样水平a=0.05的ｔ检验（假设总体均值为u ）：H 0：u=100 H 1：u<100。第一组数据的检验结果为：df=7，t 值为3.4157，单边p 值为0.0056，结论为“拒绝H 0：u=100。”（注意：该组均值为99.3750）；第二组数据的检验结果为：df=2，t 值为3.3290，单边ｐ值为0.0398;结论为“接受H 0：u=100。”（注意：该组均值为74.000）。你认为该问题的结论合理吗？说出你的理由，并提出该如何解决这一类问题。答：这个结论不合理（6分）。因为，第一组数据的结论是由于ｐ－值太小拒绝零假设，这时可能犯第一类错误的概率较小，且我们容易把握；而第二组数据虽不能拒绝零假设，但要做出“在水平ａ时，接受零假设”的说法时，还必须涉及到犯第二类错误的概率。（4分）然而，在实践中，犯第二类错误的概率多不易得到，这时说接受零假设就容易产生误导。实际上不能拒绝零假设的原因很多，可能是证据不足（样本数据太少），也可能是检验效率低，换一个更有效的检验之后就可以拒绝了，当然也可能是零假设本身就是对的。本题第二组数据明显是由于证据不足，所以解决的方法只有增大样本容量。（4分）第三章p68-71 3、在某保险种类中，一次关于1998年的索赔数额（单位：元）的随机抽样为（按升幂排列）： 4632，4728，5052，5064，5484，6972，7596，9480，14760，15012，18720，21240，22836，52788，67200。已知1997年的索赔数额的中位数为5064元。（1）是否1998年索赔的中位数比前一年有所变化？能否用单边检验来回答这个问题？（4分）（2）利用符号检验来回答（1）的问题（利用精确的和正态近似两种方法）。（10分）（3）找出基于符号检验的95％的中位数的置信区间。（8分）解：（1）1998年的索赔数额的中位数为9480元比1997年索赔数额的中位数5064元是有变化，但这只是从中位数的点估计值看。如果要从普遍意义上比较1998年与1997年的索赔数额是否有显著变化，还得进行假设检验，而且这个问题不能用单边检验来回答。（4分）（2）符号检验（5分）设假设组：H ０：M ＝M ０＝5064 H １：M ≠M ０＝5064 符号检验：因为n +=11，n-=3，所以k=min(n+,n-)=3 精确检验：二项分布b(14,0.5)， ∑=-=3 0287 .0)2/1,14(n b ，双边ｐ－值为0.0576,大于ａ＝0.05，所以在ａ水平下，样本数据还不足以拒绝零假设；但假若ａ＝0.1，则样本数据可拒绝零假设。查二项分布表得ａ＝0.05的临界值为（3，11），同样不足以拒绝零假设。正态近似：（5分） np=14/2=7,npq=14/4=3.5 z=(3+0.5-7)/5.3≈-1.87>Z a/2=-1.96 仍是在ａ＝0.05的水平上无法拒绝零假设。说明两年的中位数变化不大。（3）中位数95％的置信区间：（5064，21240）（8分） 7、一个监听装置收到如下的信号：0，1，0，1，1，1，0，0，1，1，0，0，0，0，1，1，1，1，1，1，1，1，1，0，1，0，0，1，1，1，0，1，0，1，0，1，0，0，0，0，0，0，0，0，1，0，1，1，0，0，1，1，1，0，1，0，1，0，0，0，1，0，0，1，0，1，0，1，0，0，0，0，0，0，0，0。能否说该信号是纯粹随机干扰？（10分）

非参数统计分析

第十三章非参数统计分析统计推断方法大体上可分为两大类。第一大类为参数统计方法。常常在已知总体分布的条件下，对相应分布的总体参数进行估计和检验。第二大类为非参数统计方法，着眼点不是总体参数，而是总体的分布情况或者样本所在总体分布的位置/形状。非参数统计方法大约有8种，可被划分为两大类，处理各种不同情形的数据。单样本情形：检验样本所在总体的位置参数或者分布是否与已知理论值相同。 ①Chi-Square过程：针对二分类或者多分类资料例题1：见书P243。检验样本分布情况是否与已知理论分布相同。运用卡方检验过程。 ②Binomial过程：针对二分类资料或者可转变为二分类问题的资料。例题2 ：见书P246。检验某一比例是否与已知比例相等，运用二项分布过程。练习：质量监督部门对商店里面出售的某厂家的西洋参片进行了抽查。对于25包写明为净重100g的西洋参片的称重结果为（单位：克），数据见非参数。Sav，人们怀疑厂家包装的西洋参片份量不足，要求进行检验。 ③Runs过程：用于检验样本序列是否是随机出现的。二分类资料和连续性资料均可。游程检验：游程的含义：假定下面是由0和1组成的一个这种变量的样本： 0 0 0 0 1 1 1 1 1 1 0 0 1 0 1 1 1 0 0 0 0 0 0 0 0 其中相同的0（或相同的1）在一起称为一个游程（单独的0或1也算）。这个数据中有4个0组成的游程和3个1组成的游程。一共是R=7个游程。其中0的个数为m=15，而1的个数为n=10。游程检验的原理判断数据序列是否是真随机序列。该检验的原假设为数据是真随机序列，备择假设为非随机序列，在原假设成立的情况下，游程的总数不应太多也不应太少。例题3：见书P247。检验样本数据是否是随机出现的。例题4：从某装瓶机出来的30盒化妆品的重量（单位克），数据见非参数.sav，为了看该装瓶机是否工作正常。提示：实际需要验证大于和小于中位数的个数是否是随机的（零假设为这种个数的出现是随机的）。 ④1-Ｓample--K –S 过程原理：单样本的Kolmogorov-Smirnov检验（K-S检验）方法主要针对连续性资料，是用来检验一个样本数据的观测累积分布是否是已知的理论分布。这些

王静龙《非参数统计分析》教案

.引言一般统计分析分为参数分析与非参数分析，参数分析是指，知道总体分布，但其中几个参数的值未知，用统计量来估计参数值，但大部分情况，总体是未知的，这时候就不能用参数分析，如果强行用可能会出现错误的结果。例如：分析下面的供应商的产品是否合格？合格产品的标准长度为（±），随即抽取n=100件零件，数据如下：表经计算，平均长度为cm x 4958.8=，非常接近中心位置，样本标准差为 () 1047.011 2 =--= ∑=n i i n x x s cm.一般产品的质量服从正态分布，),(~2δμN X 。这说明产品有接近三分之一不合格，三分之二合格，所以需要更换供应厂商，而用非参数分析却是另外一个结果。以下是100个零件长度的分布表：

这说明有90%的零件长度在)2.05.8(±cm 之间，有9%的零件不合格，所以工厂不需要换供应商。例2 哪一个企业职工的工资高？表两个企业职工的工资显然，企业1职工的工资高，倘若假设企业1与企业2的职工工资分别服从正态分布),(),,(22σσb N a N ，则这两个企业职工的工资比较问题就可以转化为一个参数的假设检验问题，原假设为b a H =:0，备择假设为b a H >:0 则 ))11(,(~2σn m b a N y x +-- 若0H 为真，则其中])()([211 212 2∑∑==-+--+= n i i m i i w y y x x n m S 拒绝域为：}325.1{)}20({90.0≥=≥t t t 检测值为：282.1=t 故不能拒绝原假设，认为两企业的工资水平无差异。也可以用值-P 检验由于1073.0)282.1)20((=≥t P 故不能拒绝原假设，认为两企业的工资水平无差异。

第六章非参数统计分析方法的SAS编程实现

第六章非参数统计分析方法的SAS编程实现作者：薛富波最终修改日期：一、npar1way过程语句格式简介二、不同类型资料的非参数检验方法 1. 两独立样本差别的秩和检验 2.配对设计资料的秩检验 3.完全随机设计多组数据分布位置差别的秩和检验三、几条重要提示非参数统计分析方法（non-parametric statistics）是相对参数统计分析方法而言的，又称为不拘分布(distribution-free statistics)的统计分析方法或无分布形式假定（assumption free statistics）的统计分析方法。其中包括Wilcoxon秩和检验、Kruskal-Wallis秩和检验、friedman秩和检验等，它们分别对应不同设计类型的资料。 SAS中对于非参数分析方法功能的实现主要由npar1way过程来完成，从过程名字就可以看出，在此过程的处理进程中，只能一次指定一个因素进行分析。下面我们先来了解一下npar1way过程的语句格式以及各语句和选项的基本功能。一、npar1way过程语句格式简介 npar1way过程属于SAS的STAT模块，对于统计学教科书上所涉及的非参数统计方法几乎都可以通过此过程来完成。Npar1way过程的基本语句格式如下。 PROC NPAR1WAY <选项> ; BY 变量名; CLASS变量名; EXACT 统计量选项 ; FREQ变量名; OUTPUT < OUT=数据集名 > < 选项 > ; VAR 变量名; RUN; QUIT; Proc npar1way语句标志npar1way过程的开始，默认情况下（不列举任何选项）：npar1way过程对最新创建的数据集进行分析，将缺失数据排除在分析过程之外；执行方差分析过程（等同于ANOVA选项），对样本分布位置的差异进行

《非参数统计》课程教学大纲

《非参数统计》课程教学大纲 Non-parametric statistics 课程代码：课程性质：专业方向理论课/选修适用专业：统计开课学期：5 总学时数：32 总学分数：2.0 编写年月：2007.5 修订年月：2007.7 执笔：孙琳一、课程的性质和目的本课程是学习非参数统计和了解统计前沿的基本课程。本课程结合S-Plus 或R 软件来讲解非参数统计方法的原理与应用。本课程的目的是使学生认识到非参数统计方法是统计中最常用的推断方法之一，理解非参数统计方法和参数统计方法的区别，理解非参数统计的基本概念，掌握非参数统计的基本方法，能应用非参数统计方法去解决实际问题。二、课程教学内容及学时分配第一章引言（2学时）本章内容：统计的概念，非参数统计的方法，参数统计与非参数统计的比较，本章要求：了解非参数统计的历史，了解非参数统计方法和参数统计方法的区别，认识非参数统计方法的必要性。第二章 S-Plus基础（6学时）本章内容：S-Plus环境，向量的定义和表示，向量的基本操作，向量的基本运算，向量的逻辑运算，S-Plus 的图形功能，本章要求：熟悉在S-Plus命令行中S-Plus基本数据处理，掌握在S-Plus命令行中进行基本数据基本运算，能编写简单的计算函数，会绘制基本图形。第三章单一样本的推断问题（6学时）本章内容：单样本推断问题，中心位置推断，符号检验，游程检验，Cox-staut趣势检验，分位数检验，Wilcoxon符号秩检验，分布检验，Kolmogorov-smirnov正态检验，Liliefor正态检验，中位数检验问题、定性数据检验问题和成对数据检验问题，秩和检验。

非参数统计

非参数统计（nonparametric statistics）

复习：参数(parameter) 参数统计:假定被检验的总体分布类型为已知的一类统计方法。例如t检验、ANOVA要求总体：正态性和方差齐性等。

非参数统计（nonparametric statistics）不依赖总体分布的类型，不对总体参数作估计或推断，只是检验分布（具体说是分布的位置）是否相同的一类统计方法。

非参数统计的优缺点优点：对资料无前提要求，应用范围广；资料的收集和统计分析简便。缺点：对符合参数检验资料用非参数检验时，因没有充分利用信息，使检验效能；历史较短，复杂的设计无对应方法； ③无概括性的数字说明总体。。

非参数统计应用范围不符合参数统计分析要求或不能通过数据变换使资料满足参数检验要求的资料可用非参数检验来分析。偏态分布或未知分布资料或例数过少(难定分布）；分布一端或两端无界：如10以下或10以上； ●不能或未加精确测量的资料：如等级资料； ?个别数值偏离过大； ?各组离散程度相差悬殊（即方差不齐）； ?不能满足参数检验要求的资料等。综上所述：资料符合参数检验时，首选参数检验

常用的秩和检验(rank sum test) 配对设计Wilcoxon signed rank test 成组设计（两组）Wilcoxon rank sum test 成组设计（多组）Kruskal – Wallis test 多个样本两两比较Nemenyi test 随机区组设计资料Friedman’s M test

非参数统计复习重点

非参数统计复习重点 1.下列哪种图能用于检验奇异值 2.用于推断总体的中心位置的检验(p90) Brown-Mood中位数检验和Mann-Whitney秩和检验 3.· 4.用于秩相关分析的检验(p181) Spearman 秩相关分析检验 5.用于推断两总体的尺度的检验 (p99) Mood方差检验和Moses方差检验￥ 6.方差分析、关联分析 Kruskal-Wallis单因素方差分析 (p115) 》 7.参数估计、非参数估计的基本思想及区别和联系基本思想：参数估计：根据先验信息和样本信息来估计总体的未知参数。非参数估计：【

8.假设检验的基本思想、依据原理及基本步骤 { 9.方差分析的基本思想和基本步骤(p109) 方差分析的基本思想是将不同因素 10.推导直方图密度估计、核估计的公式 … 11.对统计分析与数据挖掘的理解和认识、 1.下面是10个欧洲城镇每人每年平均消费的酒量（相当于纯酒精数）（单位：升）数据已经被升幂排列： .这与人们普遍认为欧洲各国人均年消费酒量的中位数相当于纯酒精8升是否相符（Wilcoxon 符号秩检验）

zi 的符号--、 +++++++ - zi的绝对值| 秩/ 312467895 5 ； T+=2+4+6+7+8+9+10 = 46 T?=5+3+1 = 9 n = 10 查表得P=<=，因此拒绝原假设，即认为欧洲各国人均年消费酒量的中位数多于8升 2.为了研究不同产品同一规格显示器在不同商场的零售价是否存在差异。收集了两种产品在不同商场的零售价格如下，试问两种产品是否存在显著差异(Brown –Mood中位数检验) A产品~ 698 688 675 656 655 648 640 639 620 B产品780 754 740 712 693 680 621 解：M xy = ，得到如下列联表： X样本Y样本总和 268观察值大于M xy的数目 718观察值小于M xy的数目总和9716 备择假设：H1：M x< M y,对应的p值为P（A≤2）=（C91C77+C92C76）/C168 = ，p值很小，因而拒绝零假设。

第二讲 非参数统计检验

第二讲非参数统计检验