第二章非参数统计的分析
王静龙《非参数统计分析》章教案

.引言一般统计分析分为参数分析与非参数分析,参数分析是指,知道总体分布,但其中几个参数的值未知,用统计量来估计参数值,但大部分情况,总体是未知的,这时候就不能用参数分析,如果强行用可能会出现错误的结果。
例如:分析下面的供应商的产品是否合格?合格产品的标准长度为(8.5±0.1),随即抽取n=100件零件,数据如下:表1.18.503 8.508 8.498 8.347 8.494 8.500 8.498 8.500 8.502 8.501 8.491 8.504 8.502 8.503 8.501 8.505 8.492 8.497 8.150 8.496 8.501 8.489 8.506 8.497 8.505 8.501 8.500 8.499 8.490 8.493 8.501 8.497 8.501 8.498 8.503 8.505 8.510 8.499 8.489 8.496 8.500 8.503 8.497 8.504 8.503 8.506 8.497 8.507 8.346 8.310 8.489 8.499 8.492 8.497 8.506 8.502 8.505 8.489 8.503 8.492 8.501 8.499 8.804 8.505 8.504 8.499 8.506 8.499 8.493 8.494 8.490 8.505 8.511 8.502 8.505 8.503 8.782 8.502 8.509 8.499 8.498 8.493 8.897 8.504 8.493 8.494 7.780 8.509 8.499 8.503 8.494 8.511 8.501 8.497 8.493 8.501 8.495 8.461 8.504 8.691经计算,平均长度为cm x 4958.8=,非常接近中心位置8.5cm ,样本标准差为()1047.0112=--=∑=ni in x x s cm.一般产品的质量服从正态分布,),(~2δμN X 。
非参数统计1

或近似概率
P值
零假设下,P(T>t)的值称为p值。
若p值很小,说明观测值的实现在零假设下为小概率 事件,故拒绝零假设。犯第一类错误的概率为p。
比如: (1)研究保险公司的索赔请求数时,可能假定索赔请求
数来自泊松分布P(a);
(2)研究化肥对农作物产量的影响效果时,平均意义 之下,每测量单元(可能是)产量服从正态分布
N(a,b).
一个典型的参数检验过程
1. 总体参数
Example: Population Mean
2. 假定数据的形态为
Whole Numbers or Fractions
Pitman于1948年回答了非参数统计方法相对于 参数方法来说的相对效率方面的问题;
非参数统计的历史(续)
60年代中后期,Cox和Ferguson最早将非参数方法 应用于生存分析。
70年代到80年代,非参数统计借助计算机技术和 大量计算获得更稳健的估计和预测,以P.J.Huber 以及 F.Hampel为代表的统计学家从计算技术的实 现角度,为衡量估计量的稳定性提出了新准则。
这里,j为求均值前删掉的最小或最大观测值的数目。
顺序统计量的分布:
设总体的分布函数F(x),则第r个顺序统计量的分布 函数为:
Fr (x)
P(X (r)
x)
P(至少
r个X
小于或等于
i
x)
n
P( X1, X 2 ,L , X n中恰好有j个小于x)
jr
n
C
非参数统计·王星_第二章课后习题答案

非参数统计 第 次作业第二章习题 2.1 解:(1)0110001000H :h H :h μ≥↔μ<建立的猜想应该与样本表现一致。
换句话说,正是样本表现使我们对总体的均值产生怀疑,进而才有了假设检验。
因此,0H 是我们就与样本想要推翻的假设,所以才要检验。
(2)由上一问,这样的假设脱离样本,样本呈现出落后于旧过程的情形,而非要用一种优于旧过程的假设,这样的假设是毫无意义的,也并不会带来好的结果。
2.2 解:(1)有问题。
假设检验在原假设条件成立下,得到拒绝域1645x .>,意思是拒绝0θ=,接受0θ≠。
而1000θ=只是其中的一种情况,故不能接受1000θ=。
改进方法:可直接提出假设对均值为1000进行检验。
即0110001000H :H :θ=↔θ≠(2)不合理。
样本2的样本量太小,不具备代表性,用其进行假设检验风险太大。
改进方法:若样本来自同一总体,独立观察,且需要对总体样本均值做出判断,可将两样本合并后再进行假设检验;若样本来自两个总体,需对两总体的均值做出比较,可取(12x x ---)作为检验统计量进行检验。
(3)t -=x -为样本均值,μ为总体均值,s 为样本标准差 01p Pr(t(n )t )=-≤,其中0t -=p 值是拒绝原假设0H 的最小显著水平。
若p α≥,则拒绝0H ;反之,接受0H(4)对总体均值进行双侧检验:00012112211111-H :|t(n )t (n )|(x t (n t (n α---αα--μ=μ↔μ≠μ⎧⎫->-⎨⎬⎩⎭α--+-拒绝域:故,置信区间为:(5)双侧检验:00101211221122''H :H :|u |u u u [x u ,x u α--αα----αα--μ=μ↔μ≠μ⎧⎫≥⎨⎬⎩⎭≤≤-+拒绝域:故置信区间为:- 当样本量很大时,依然可以用上法:222212211111_n i i _s (x x )[n(x (x ))]n n n [(x (x ))]n --=-=-=---=--∑由矩估计的相合性可知,2_x 是2E(x )的相合估计,2(x )-是2E(x )的相合估计 故2s 是2δ的相合估计。
非参数统计方法

1 2 4.5 4.5 4.5 8.5
+ ++ ++ ++ +++ +++ 6 8 9 10 11 12
4.5 8.5 8.5 8.5 11.5 11.5
秩和
A组: - 、±、+、+、+、 ++ 组 、 、 、 秩和: 秩和: 1 2 4.5 4.5 4.5 8.5 TA=25 B组: +、++、++、++、+++、+++ 组 、 、 、 、 、 秩和: 秩和: 4.5 8.5 8.5 8.5 11.5 11.5 TB=53 TA+TB=N(N+1)/2=78
秩次:在一定程度上反映了等级的高低; 秩次:在一定程度上反映了等级的高低; 秩和:在一定程度上反映了等级的分布位置。 秩和:在一定程度上反映了等级的分布位置。 对等级的分析,转化为对秩次的分析。 对等级的分析,转化为对秩次的分析。秩和检验 就是通过秩次的排列求出秩和,进行假设检验。 就是通过秩次的排列求出秩和,进行假设检验。 其特点是假设检验的结果对总体分布的形状差别 不敏感,只对总体分布的位置差别敏感。 不敏感,只对总体分布的位置差别敏感。
注
意
对于计量资料,若不满足正态和方差齐性条件, 对于计量资料,若不满足正态和方差齐性条件,这 时小样本资料选t检验或 检验是不妥的 时小样本资料选 检验或F检验是不妥的,而选秩转 检验或 检验是不妥的, 换的非参数检验是恰当的。 换的非参数检验是恰当的。 对于分布不知是否正态的小样本资料, 对于分布不知是否正态的小样本资料,为保险起见 ,宜选秩转换的非参数检验。 宜选秩转换的非参数检验。
第二章 样本非参数检验-PPT精选文档

检验假设:
H 0 : M M0 ; H1 : M M0 H 0 : M M0; H1 : M M0 H 0 : M M0; H1 : M M0
为了对假设作出判定,需要从总体中随机抽取一个样本得到 n个观察值,n个观察值记作x1,x2,…,xn
H 0 : M 99 ; H 1 : M 99
Z=-2.5725
P ( z 2.5725) =0.005
拒绝零假设 中位数小于 99
) =0.01 2 P ( z 2.5725
拒绝零假设 中位数不等于 99
注意,该例利用Wilcoxon符号秩检验所得得结论与符号检验 结论一样,但P值是符号检验的一半,这是因为Wilcoxon符号 秩检验利用符号检验没有用的信息,但Wilcoxon符号秩检验 假设分布是对称的,如果对称性不成立,则还是符号检验好。
P(K<k) 0.0000000 0.0000305 0.0004883 0.0036926 0.0175781 0.0592346
1-2×P(K<k) 1.0000000 0.9999390 0.9990234 0.9926147 0.9648438 0.8815308
置信区间 [4038,8701] [4940,8679] [5789,8546] [6161,7987] [6344,6992] [6610,6967]
H 0 : M M0 ; H 1 : M M0 H 0 : M M0 ; H 1 : M M0 H 0 : M M0; H1 : M M0
对于左侧检验 H 0 : M M 0 ; H 1 : M M 0 , 当零假设为真时, S 应该不大不小。 当 S 过小,即只有少数的观测值大于 M 0 , 则 M 0 可能太大,目前总体的中位数可能要小一些。 如果 P(S s | H0 ) ,则拒绝原假设。
非参数统计第二版教学设计

非参数统计第二版教学设计一、课程简介非参数统计学是应用数学、统计、计算机科学和其他学科的交叉领域,是计算统计方法的一种重要分支。
本课程将深入介绍非参数统计学的基本概念、基本方法和典型应用,使学生掌握基本的非参数统计学原理和方法,为实际应用提供理论和实践基础。
二、课程目标1.理解非参数统计学的基本概念,掌握常见的非参数统计方法;2.能够运用非参数统计学方法进行数据分析和实际应用;3.培养学生的科学研究能力和实践动手能力;4.培养学生的信息素养、表达能力以及团队合作精神。
三、教学内容第一章非参数统计学概述1.非参数统计学简介2.非参数统计学的基本假设3.优点和局限性第二章排序统计量1.秩和检验2.符号检验3.秩相关检验第三章核密度估计1.核密度估计的概念和方法2.带宽选择3.多核密度估计第四章非参数回归分析1.核回归和局部加权回归2.树回归3.基于支持向量机的回归第五章非参数方差分析1.基于秩的方差分析2.Kruskal-Wallis检验3.Friedmann检验四、教学方法1.讲授、案例分析和展示2.课堂练习和实践操作3.组织小组讨论和团队合作五、教学资源1.课件、教材和参考文献2.数据集和分析软件3.在线论坛和网上资源六、考核方式1.课堂练习和小组实践2.个人或小组项目研究与报告3.闭卷考试七、预期结果本课程将通过系统、深入的讲授和实践,帮助学生了解和掌握非参数统计学的基本理论和方法,提高信息素养和数据分析能力。
同时,通过小组讨论和团队合作,培养学生的科学研究能力和实践动手能力,实现理论和实践的有效结合。
常用非参数统计方法课件
案例二:秩和检验在医学研究中的应用
总结词
秩和检验用于医学研究中,可以比较不同组 别间的数据,判断是否存在显著差异。
详细描述
秩和检验是一种非参数统计方法,适用于等 级数据和连续数据混合的情况。在医学研究 中,经常需要比较不同组别间的数据,例如 比较不同药物治疗效果、不同手术方法的效 果等。秩和检验可以综合考虑数据的分布特 征和数量差异,给出更为准确的结论,判断 不同组别间是否存在显著差异。
多个独立样本比较
非参数统计方法可以用于比较多个独 立样本的分布是否存在显著差异,例 如Kruskal-Wallis H 检验。
配对样本比较
配对样本比较
非参数统计方法可以用于比较配对样 本的分布是否相同,例如Wilcoxon signed-rank 检验。
相关样本比较
非参数统计方法可以用于比较相关样 本的分布是否存在相关性,例如 Spearman秩相关系数。
采取相应措施进行调整和改进。
案例五:符号检验在金融数据分析中的应用
总结词
符号检验用于金融数据分析中,可以比较不同时间段 内的数据变化趋势,判断市场走势。
详细描述
符号检验是一种非参数统计方法,适用于分析连续数 据的变化趋势。在金融数据分析中,符号检验常用于 比较不同时间段内的股票价格、交易量等数据的变化 趋势。通过计算数据的符号变化次数和期望值,利用 符号检验进行统计分析,可以判断市场走势是否发生 显著变化,为投资者提供决策依据。
03统计
非参数统计方法可以用于描述数 据的分布、集中趋势和离散程度 ,例如中位数、四分位数、众数 等。
数据可视化
非参数统计方法可以与数据可视 化技术结合,例如直方图、箱线 图等,帮助我们直观地了解数据 分布和异常值。
统计学中的非参数统计方法及其应用
统计学中的非参数统计方法及其应用统计学是一门研究数据收集、分析和解释的学科,而统计方法则是用来处理和分析数据的工具。
在统计学中,有两种主要的统计方法:参数统计方法和非参数统计方法。
本文将着重介绍非参数统计方法及其应用。
一、什么是非参数统计方法?非参数统计方法是一种不依赖于总体分布特征的统计方法,它不对总体的分布形式做出任何假设。
相比之下,参数统计方法需要对总体的分布形式做出一定的假设,例如正态分布或均匀分布等。
非参数统计方法的优势在于它的灵活性和广泛适用性。
由于不对总体分布做出假设,非参数统计方法可以应用于各种类型的数据,包括有偏数据和离群值。
此外,非参数统计方法还可以用于小样本数据,而参数统计方法通常需要大样本才能保证结果的可靠性。
二、非参数统计方法的应用领域1. 排序检验排序检验是一种常见的非参数统计方法,用于比较两个或多个样本的中位数或分位数。
例如,Wilcoxon秩和检验可以用于比较两个独立样本的中位数是否相等,而Friedman秩和检验可以用于比较多个相关样本的中位数是否相等。
排序检验在医学研究、心理学和社会科学等领域得到广泛应用。
它可以帮助研究人员判断不同治疗方法的有效性,或者比较不同群体的特征差异。
2. 非参数回归非参数回归是一种用于建立变量之间关系的统计方法,它不依赖于线性或非线性关系的假设。
相比之下,参数回归方法通常需要对变量之间的关系形式做出假设,例如线性回归模型。
非参数回归方法可以更灵活地建立变量之间的关系,适用于各种类型的数据。
它可以帮助研究人员探索变量之间的复杂关系,发现非线性模式或异常值。
3. 生存分析生存分析是一种用于分析时间至事件发生的统计方法,例如研究患者生存时间或产品的寿命。
生存分析中常用的非参数方法包括Kaplan-Meier曲线和Log-rank检验。
生存分析在医学研究和生物统计学中得到广泛应用。
它可以帮助研究人员评估治疗方法的效果、预测患者的生存时间,以及研究风险因素对生存的影响。
非参数统计教学大纲
遵义师范学院课程教学大纲非参数统计教学大纲(试行)课程编号:280020 适用专业:统计学学时数:64 学分数: 4执笔人:黄建文审核人:系别:数学教研室:统计学教研室编印日期:二〇一五年七月课程名称:非参数统计课程编码:学分:4总学时:64课堂教学学时:64实践学时:适用专业:统计学先修课程:高等数学、线性代数、概率论、数理统计一、课程的性质与目标:(一)该课程的性质本课程属专业方向选修课程。
非参数统计形成于二十世纪四十年代,是与参数统计相比较而存在的统计学一个年轻、活跃而前沿的分支,含有丰富的统计思想并在实践中有着广泛的应用。
非参数统计方法不依赖于总体分布及其参数,适用于多种类型的数据,进行统计推断时仅需要一些非常一般性的假设,因而具有良好的稳健型,在总体分布未知的情况下往往比参数统计方法有效。
(二)该课程的教学目标本课程的教学目的是使学生了解非参数统计在推断统计体系中日益重要的作用,理解非参数统计方法和参数统计方法的区别。
要求学生掌握本课程的基本知识、基本概念、基本原理和基本方法,能应用非参数统计方法解决一些简单的实际问题;注重学生统计思维能力和实践能力的培养,进一步培养学生重视原始资料的完整性与准确性、对数据处理持严肃认真态度的专业素质。
二、教学进程安排课外学习时数原则上按课堂教学时数1:1安排。
三、教学内容与要求第一章引言【教学目标】通过本章学习,使学生清楚非参数统计的研究对象,了解非参数统计的历史,明白非参数统计方法和参数统计方法的区别,认识学习非参数统计方法的必要性,了解非参数统计的一些基本概念与基本工具;通过对初等推断统计的简单回顾,要求学生提炼并把握推断统计思想的实质,为后续章节学习非参数统计的分析技巧和主要思想打下基础。
【教学内容和要求】主要教学内容:非参数统计研究内容;非参数统计小史;初等推断统计回顾;非参数统计基本概念。
教学重点与难点:教学重点是通过与参数统计异同的比较,介绍非参数统计的研究内容与研究方法;教学难点是对检验的相对效率、秩检验统计量、U统计量等非参数统计基本概念的理解。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2021/2/22
第二章非参数统计的分析
13
第二节 Cox-Stuart趋势检验
人们经常要看某项发展的趋势.但是从图表上很难看出是 递增,递减,还是大致持平.
【例5】我国自1985年到1996年出口和进口的差额(balance) 为(以亿美元为单位)
—149.0 119.7 37.7 43.5 122.2 54.0
49.9,48.2,47.6,46,45.8,45.2,41.9,38.8,37.7,37.
5,36.5, 36.4,32.7,32.7,32.2,29.1,27.8,27.8
2021/2/22
第二章非参数统计的分析
6
Histogram of x
10
8
6
Frequency
4
2
0
20
40
60
80
100
2021/2/22
第二章非参数统计的分析
8
符号检验的思路,记
成功:X-0大于零,即大于中位数M,记为“+”; 失败:X-0小于零,即小于中位数M,记为“-”。 令 S+=得正符号的数目
S-=得负符号得数目 可以知道S+或S— 均服从二项分布B(65,0.5)。则可以 用来作检验的统计量。其假设为:
H 0 : 0 :H 1 : 0 H 0 : 0
2021/2/22
第二章非参数统计的分析
9
关于非参数检验统计量需要说明的问题
在非参数检验中,可以得到两个相互等价的统计量, 比如在符号检验中,得负号与得正好的个数,就是一对 等价的统计量,因为S++S-=N。那么我们在检验时应该 用那个呢?约定选择统计量
2021/2/22
第二章非参数统计的分析
5
有人说64应该是这种大城市花费指数的中位数,有 人说64顶多是低位数(下四分位数),进行检验。数 据如下:
122.4,109.4,105,104.6,104.1,100.6,100,99.3,9
9.1,98.2,97.5,95.2,92.8,91.8,90.8,90.3,89.5,
b(n,0.5)。由于原假设为真时,B应该不太大,也不太小,如
2果021/B2/2太2 大或太小,应该拒第绝二章原非参假数设统计。的分析
4
一、精确中位数的符号检验
精确的符号检验是指检验的p值是由精确的概率给出 的。 我们利用正号和负号的数目,来检验某假设,这是 一种最简单的非参数方法。
【例4】联合国人员在世界上71个大城市的生活花费 指数(上海是44位,数据为63.5)按自小至大的次序排列如 下。
2021/2/22
i 0第二章非参数统计的分析
11
该检验R的代码
x<c(122.4,109.4,105,104.6,104.1,100.6,100,99.3, 99.1,98.2,97.5,95.2,92.8,91.8,90.8,90.3,89.5, 89.4,86.4,86.2,85.7,82.6,81,80.9,79.1,77.9, 77.7,76.8,76.6,76.2,74.5,74.3,73.9,71.7,71.2, 67.7,66.7,66.2,65.4,65.3,65.3,65.3,64.6,63.5, 62.7,60.8,58.2,55.5,55.3,55,54.9,52.7,51.8, 49.9,48.2,47.6,46,45.8,45.2,41.9,38.8,37.7,37.5 ,36.5, 36.4,32.7,32.7,32.2,29.1,27.8,27.8)
y=sum(sign(x-64)==1)
pbinom(71-y,71,0.50)
2021/2/22
第二章非参数统计的分析
12
二、大样本的情形
当样本容量足够大,我们可以利用二项分布的正 态近似来对该问题进行检验。因为计数统计量在原 假设为真时,服从b(n,0.5)。且其均值为0.5n,方 差为0.25n。则检验的统计量为
第二章 单样本非参数检验
2021/2/22
第二章非参数统计的分析
1
思考的要点
各种检验方法的思路 各种检验方法统计量的构造 各种检验方法的应用场合 在SAS与R中如何完成
2021/2/22
第二章非参数统计的分析
2
第一节 符号检验 第二节 Cox-Stuart趋势检验 第三节 游程检验 第四节 Wilcoxon符号秩检验 第五节 正态记分检验 第六节 与参数检验相对效率比较
km in(s,s),
2021/2/22
第二章非参数统计的分析
10
假设 检验统计量
P-值 检验的结果 结论
H 0 : 6 4 :H 1 : 6 4
S-=28 是 得 负 号 的 个 数 得正号的个数43。
p (S 2 8 ) 0 .0 4 7 9 6
拒绝零假设
中位数大于64
2 8
p (S 2 8 )C 7 i1 (0 .5 )i( 1 0 .5 )7 1 i 0 .0 4 7 9 6
89.4,86.4,86.2,85.7,82.6,81,80.9,79.1,77.9,
77.7,76.8,76.6,76.2,74.5,74.3,73.9,71.7,71.2,
67.7,66.7,66.2,65.4,65.3,65.3,65.3,64.6,63.5,
62.7,60.8,58.2,55.5,55.3,55,54.9,52.7,51.8,
120
2021/2/22
第二章非参数统x 计的分析
7
通常在正态总体分布的假设下,关于总体均值的假设
检验和区间估计是用与t检验有关的方法进行的。然而,
在本例中,总体分布是未知的。为此,首先看该数据的直
方图从图中很难说这是什么分布。假定用总体中位数来表
示中间位置,这意味着样本点,取大于me的概率应该与取 小于me的概率相等。所研究的问题,可以看作是只有两种 可能“成功”或“失败”。
2021/2/22
第二章非参数统计的分析
3
第一节 符号检验
符号检验的统计量为B=得正号的个数。
符号检验。设随机变量X1,…,Xn是从某个总体 X中抽出的简单随机样本。且分布函数F(X)在X=0是
连续的。假设检验问题
H0 : F(0)=12
H1
:
F(0)
1 2
检验的统计量可以取B。
在原假设为真的条件下,B服从参数为n和0.5的二项分布