非参数统计讲义三--两样本检验

合集下载

非参数检验课件

非参数检验课件

13.71
5
19.61
24.37
4.76
6
14.50
92.75
78.25
7
49.63
121.57
71.94
8
44.56
89.76
45.20
编秩次,求秩和 去掉d=0的对子,总的对子数也要相应减去; 用绝对值︱d︳编秩次,如果出现绝对值相等时(ties) ,则将它们的平均秩次值作为他们的秩次;
第二节 单样本资料的符号秩和检验
• 目的:推断样本中位数与已知总体中位数 (常为标准值或大量观察的稳定值)有无 差别,常用于不满足单样本t检验应用条 件的资料;其检验假设是M=M0.
• 例10-2 已知某地正常人尿氟含量的中位 数为2.15mmol/L.今在该地某厂随机抽取 12名工人,测得尿氟含量,结果见表2。 问该工厂的尿氟含量是否高于当地正常人 ?
参数检验方法
• t检验 两独立样本t检验要求:正态、方差相等、个体独立 配对t检验要求:差值正态、个体独立
• 方差分析 完全随机设计方差分析要求:正态、方差相等、个体独 立
参数检验方法
• 两组性别结构是否相同?
• 两组某种不良反应的发生率是否相同?
• 多组发生率是否相同? • 多组构成是否相同?
定性无序分 类资料
未解决的问题
• 疗效用痊愈、显效、有效、无效四级分类法进行 评价时,两组或多组如何比较?
• 对两组患者空腹胰岛素水平进行比较时,有的病 例测量结果为Ins<2.0 或Ins>300,如何处理?
未解决的问题
• 对应于多分类变量(有序) • 非正态分布 • 不完整数据:如,Ins<2.0 或Ins>300 • 正态分布但方差不相等时

非参数统计讲义

非参数统计讲义

非参数统计讲义-CAL-FENGHAI.-(YICAI)-Company One1第一章 绪 论本章主要内容: 1.非参数方法介绍2.预备知识第一节 非参数方法介绍一. 非参数方法的概念和实例复习参数方法定义:设总体X 的分布函数的形式是已知的,而未知的仅仅是分布函数具体的参数值,用样本对这些未知参数进行估计或进行某种形式的假设检验,这类推断方法称为参数方法。

先来看两个实例。

例 供应商供应的产品是否合格某工厂产品的零件由某个供应商供应。

合格零件标准长度为(±)cm 。

这也就是说合格零件长度的中心位置为8.5cm ,允许误差界为0.1cm ,即长度在-8.6cm 之间的零件是合格的。

为评估近年来供应的零件是否合格,随机抽查了n=100个零件,它们的长度数据X 见第一章附表。

解答:根据我们已学过的参数统计的方法,如何根据数据来判断这批零件合格否 用参数数据分析方法,在参数统计中,运用得最多的是正态分布,所以考虑假设供应商供应的零件长度X 服从正态分布,即X ~),(2σμN其中两个参数均未知,但可用样本均值估计μ,样本方差估计2σ。

由已知的数据计算可得:零件的平均长度,即样本均值为x =8.4958cm ,样本标准差为s=0.1047cm 。

则零件合格的可能性近似等于)/)4.8(()/)6.8(()6.84.8(σμσμ-Φ--Φ=≤≤X P)1047.0/)4958.84.8(()1047.0/)9458.86.8((-Φ--Φ≈%66≈这个说明:约有三分之一的零件不合格,该工厂需要换另一个供销商了。

但这个结论与实际数据符不符合呢这是我们要思考的问题。

我们可以对数据做一个描述性分析,先对这100个样本数据做一个频率分布。

观察到:在这100个零件中有91个零件的长度在8.4cm ~8.6cm 之间,所以零件合格的比例为91%,超过66%很多!统计分析的结论与数据不吻合的!这是什么原因呢我们可以作出数据的直方图来分析数据的分布情况。

非参数统计1

非参数统计1
(1)设置零假设和备选假设; (2)构造检验统计量T(X1,X2,…Xn); (3)数值实现t= T(x1,x2,…xn); (4)计算零假设下,r.v.T落入某区间的精确概率
或近似概率
P值
零假设下,P(T>t)的值称为p值。
若p值很小,说明观测值的实现在零假设下为小概率 事件,故拒绝零假设。犯第一类错误的概率为p。
比如: (1)研究保险公司的索赔请求数时,可能假定索赔请求
数来自泊松分布P(a);
(2)研究化肥对农作物产量的影响效果时,平均意义 之下,每测量单元(可能是)产量服从正态分布
N(a,b).
一个典型的参数检验过程
1. 总体参数
Example: Population Mean
2. 假定数据的形态为
Whole Numbers or Fractions
Pitman于1948年回答了非参数统计方法相对于 参数方法来说的相对效率方面的问题;
非参数统计的历史(续)
60年代中后期,Cox和Ferguson最早将非参数方法 应用于生存分析。
70年代到80年代,非参数统计借助计算机技术和 大量计算获得更稳健的估计和预测,以P.J.Huber 以及 F.Hampel为代表的统计学家从计算技术的实 现角度,为衡量估计量的稳定性提出了新准则。
这里,j为求均值前删掉的最小或最大观测值的数目。
顺序统计量的分布:
设总体的分布函数F(x),则第r个顺序统计量的分布 函数为:
Fr (x)
P(X (r)
x)
P(至少
r个X
小于或等于
i
x)
n
P( X1, X 2 ,L , X n中恰好有j个小于x)
jr
n
C

非参数统计讲义三--两样本检验

非参数统计讲义三--两样本检验

Mood Scores for Variable x Classified by Variable g Sum of Expected Std Dev g N Scores Under H0 Under H0 ----------------------------------------------------------------1 19 2789.83333 2406.66667 355.433586 2 20 2150.16667 2533.33333 355.433586 Average scores were used for ties. Mood Two-Sample Test Statistic 2789.8333 Z 1.0780 One-Sided Pr > Z 0.1405 Two-Sided Pr > |Z| 0.2810 Mood One-Way Analysis Chi-Square 1.1621 DF 1 Pr > Chi-Square 0.2810 Mean Score 146.833333 107.508333
( )( ) k tk P(A k) ,k m mn ( ) t
当A值太大时,考虑拒绝零假设。
HYPGEOMDIST(a,m,a+b,m+n)
例:全国30个省人均GDP,中位数4690,检验 沿海省X与非沿海省Y的中位数是否有差异?
观测值大于ME 观测值大于ME 总和
X样本 A=11 1 M=12
T 0.1702 W
所以应接受 H 0 .
两样本位置和尺度检验
假设样本: (X1, X2, … ,Xn)~i.i.d.F1
(Y1, Y2, … ,Yn)~i.i.d.F2

非参数统计wilcoxon秩和检验

非参数统计wilcoxon秩和检验

Wilco ‎x on 秩和‎检验Wilco ‎x on 符号‎秩检验是由‎威尔科克森‎(F·Wilco ‎x on )于1945‎年提出的。

该方法是在‎成对观测数‎据的符号检验基础上发展‎起来的,比传统的单‎独用正负号的检验更加‎有效。

1947年‎,M ann 和‎W h itn ‎e y 对Wi ‎l coxo ‎n 秩和检验‎进行补充,得到Wil ‎c oxon ‎-Mann-Whitn ‎e y 检验,由后续的M ‎a nn-Whitn ‎e y 检验又‎继而得到M ‎a nn-Whitn ‎e y-U 检验。

一、 两样本的W ‎i lcox ‎on 秩和检‎验由Mann ‎,Whitn ‎e y 和Wi ‎l coxo ‎n 三人共同‎设计的一种‎检验,有时也称为‎W i lco ‎x on 秩和‎检验,用来决定两‎个独立样本‎是否来自相‎同的或相等‎的总体。

如果这两个‎独立样本来‎自正态分布‎和具有相同‎方差时,我们可以采‎用t 检验比‎较均值。

但当这两个‎条件都不能‎确定时,我们常替换‎t 检验法为‎W i lco ‎x on 秩和‎检验。

Wilco ‎x on 秩和‎检验是基于‎样本数据秩‎和。

先将两样本‎看成是单一‎样本(混合样本)然后由小到‎大排列观察‎值统一编秩‎。

如果原假设‎两个独立样‎本来自相同‎的总体为真‎,那么秩将大‎约均匀分布‎在两个样本‎中,即小的、中等的、大的秩值应‎该大约均匀‎被分在两个‎样本中。

如果备选假‎设两个独立‎样本来自不‎相同的总体‎为真,那么其中一‎个样本将会‎有更多的小‎秩值,这样就会得‎到一个较小‎的秩和;另一个样本‎将会有更多‎的大秩值,因此就会得‎到一个较大‎的秩和。

设两个独立‎样本为:第一个的样‎x 本容量为1n ,第二个样本‎y 容量为2n ,在容量为的‎21n n n +=混合样本(第一个和第‎二个)中,x 样本的秩和‎为x W ,y 样本的秩和‎为y W ,且有2)1(21+=+++=+n n n W W y x (1)我们定义2)1(111+-=n n W W x (2)2)1(222+-=n n W W y (3)以样本为例‎x ,若它们在混‎合样本中享‎有最小的个‎1n 秩,于是2)1(11+=n n W x ,也是可能取‎x W 的最小值;同样可能取‎y W 的最小值为‎2)1(22+n n 。

《非参数统计》教学大纲

《非参数统计》教学大纲

《非参数统计》课程教学大纲课程代码:090531007课程英文名称:Non-parametric Statistics课程总学时:40 讲课:32 实验:8 上机:0适用专业:应用统计学大纲编写(修订)时间:2017.6一、大纲使用说明(一)课程的地位及教学目标《非参数统计》是应用统计学专业的一门专业基础课,是统计学的一个重要分支。

课程主要研究非参数统计的基本概念、基本方法和基本理论。

本课程在教学内容方面除基本知识、基本理论和基本方法的教学外,着重培养学生的统计思想、统计推断和决策能力。

通过本课程的学习,学生将达到以下要求:1.掌握非参数统计方法原理、方法,具有统计分析问题的能力;2.具有根据具体情况正确选用非参数统计方法,正确运用非参数统计方法处理实际数据资料的能力;3.具有运用统计软件分析问题,对计算结果给出合理解释,从而作出科学的定论的能力;4.了解非参数统计的新发展。

(二)知识、能力及技能方面的基本要求1.基本知识:掌握符号检验、Wilcoxon符号秩检验、Cox-Stuart趋势检验、游程检验、Brown-Mood中位数检验、Wilcoxon秩和检验、Kruskal-Wallis检验、Jonckheere-Terpstra检验、Friedman检验、Page检验、Siegel-Tukey检验、Mood检验、Ansari-Bradley检验、Fligner-Killeen检验等非参数统计方法。

2.基本理论和方法:掌握单样本模型、两样本位置模型、多样本数据模型中的位置参数非参数统计检验方法,掌握检验尺度参数是否相等的各种非参数方法,掌握各种回归的方法,掌握分布检验的各种方法,要求能在真实案例中应用相应的方法。

3.基本技能:掌握非参数统计方法的计算机实现。

(三)实施说明1. 本大纲主要依据应用统计学专业2017版教学计划、应用统计学专业建设和特色发展规划和沈阳理工大学编写本科教学大纲的有关规定并根据我校实际情况进行编写。

两样本分布的Kolmogorov-Smirnov检验全

两样本分布的Kolmogorov-Smirnov检验全

TBቤተ መጻሕፍቲ ባይዱ 2
31 21 1.469 .142
12.4 一个样本柯尔莫哥洛夫-斯米诺夫检验 1-Sample Kolmogorov-Smirnov test
单样本K-S检验是利用样本数据推断总体是否服从某一理论分布,
适用于探索连续型随机变量的分布形态(判断定距变量的分布情
况):Normal正态分布、Uniform均匀分布、Poisson泊松分布、
假设认为疗效无显著性差异。
12.6 多个独立样本检验
K independent Samples Test
通过分析多个样本数据,推断它们的分布是否存在显著性差异。方 法有三种:
Median:是通过对中位数的研究来实现推断的 K-W:是通过对推广的平均秩的研究来实现推断的 J-T:与两个独立样本检验的Mann-Whitney U类似
设,认为挑边器是均匀。
实 例 1 的 数 据 可 以 组 织 成 : 两 个 变 量 ( side 面 和 number次数),2个cases。但在二项分布检验前要 求用number加权。结果同。
补充:二项分布检验实例
实例:为验证某批产品的一等品率是否达到90%,现 从该批产品中随机抽取23个样品进行检测,结果有19 个一等品(1-一等品,0-非一等品)。(变量2个: 一等品和个数,Cases 2个:1 19 和0 4) 加权:Data->Weight Cases:个数 Analyze-> Nonparametric Tests-> Binomial
Test Variables: a b c Test type:选一种或多种 比较有用的结果:看sig值,sig<.05, 拒绝零假设,
认为顾客对三种款式衬衫的喜爱程度是不相同的。

两独立样本非参数检验

两独立样本非参数检验

将两组样本(X1 X2 …… Xm)(Y1 Y2 …… Yn)混 合升序排序,每个数据将得到一个对应的秩。 计算两组样本数据的秩和Wx ,Wy 。 N=m+n Wx+Wy= N(N+1)/2 如果H0成立,即两组分布位置相同,Wx应接近 理论秩和 m(N+1)/2; Wy应接近理论秩和 n(N+1)/2)。 如果相差较大,超出了预定的界值,则可认为 H0不成立。
序号 X Y 1
1.25 1.50
2
2.00 1.00
3
-1.75 0.50
4
0.00 2.00
5
-2.00 0.25
6
3.00 -1.25
7
2.50 0.75
8
-0.75 0.00
9
1.75 2.25
10
-2.50 -0.75
11
0.00 -1.25
12
0.00 1.00
运用四种方法检验两种情况的体重变化有无显著性差异。 3.有两种方法治疗抑郁症,一种是药物疗法,另一种是药物与
13 14
秩号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
K-S D 统计量的确定过程 厂家 1 秩的 厂家 2 秩的 Di 差值序列 累积频率 累积频率 0 0 0 0 0 0.285714 0.285714 0.285714 0.428571 0.571429 0.571429 0.714286 0.857143 1 0.142857 0.285714 0.428571 0.571429 0.571429 0.714286 0.714286 0.857143 0.857143 0.857143 1 1 1 1 -0.14286 -0.28571 -0.42857 -0.57143 -0.57143 -0.42857 -0.42857 -0.57143 -0.42857 -0.28571 -0.42857 -0.28571 -0.14286 0
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
x 1 (150 145 L 148) 150.125 150.1 8
8
( Xi X )2 (150 150.1)2 (145 150.1)2 L (148 150.1)2
i 1
66.88
Y 1 (152 150 148) 149.889 149.9 9
9
(Yi Y )2 (152 149 .9)2 (150 149 .9)2 (148 149 .9)2 20.89
H0为真时的分布
1 – 2 = 1 – 2 1 – 2 1 – 2 <
T X Y
1 n
1S m
w
~ T (n m 2)
拒绝域
T t
2
T t
1 – 2 1 – 2 >
12, 22未知
12
=
2 2
T t
其中
Sw
(n 1)S12 (m 1)S22 nm2
例8-8 从两台切断机所截下的坯料(长度 按正态分布)中,分别抽取8个和9个产品, 测得长度如下(单位:mm):
统计思想:用于检验两个总体抽取的样本的中位数 是否相同。
Brown-Mood中位数检验
样本来自两个相互独立总体。
假设(X1, X2, … ,Xn)~i.i.d.F(x ) , (Y1, Y2, … ,Yn)~i.i.d.F(x - )
H0 : medx medy H1 : medx medy
原假设 备择假设 检验统计量及其在
H0
H1
H0为真时的分布
拒绝域
1 – 2 = 1 – 2 1 – 2 1 – 2 < 1 – 2 1 – 2 >
X Y
U
2 1
2 2
nm
~ N (0,1)
( 12,22 已知)
U u
2
U u
U u
原假设 备择假设 检验统计量及其在
H0
H1
N(0,1)
mnt(m n t) /(m n)3
另外可求得 Mx My 置信区间:
[Xtc'1 Yc' , Xtc Yc1]
其中c和c’满足: Phyper (A c) Phyper (A c ')
大样本卡方分布近似
2 (2a m)2 (m n) , df 1
检验基本内容
H0
Mx My
Mx My Mx My
H1
Mx My Mx My Mx My
检验统计量
P-值
A
PH0 (A a)
PH0 (A a)
A
A
2 min(PH0 (A a), PH0 (A a))
对于水平 ,如果p-值小于
,那么拒绝零假设
P(A
2)=
C C1 8-1 9 16-9 C186
甲:150, 145, 152, 155, 148, 151, 152, 148
乙:152, 150, 148, 152, 150, 150, 148, 151, 148
假定甲、乙两机床截下的长度方差相等,问 长度的期望值是否一样?
解 设甲床截下的长度为X;乙床截下
的长度为Y,由假定知21=22=2 检验假设 H0 1 2 v.s.H1 1 2
在给定m,n和t的时候,在零假设成立时,A的分布服从超
几何分布:
mn
( )( )
P(A k)
k tk mn
,k m
()
t
当A值太大时,考虑拒绝零假设。
HYPGEOMDIST(a,m,a+b,m+n)
例:全国30个省人均GDP,中位数4690,检验 沿海省X与非沿海省Y的中位数是否有差异?
观测值大于ME 观测值大于ME 总和
+
C C2 8-2 9 16-9 C186
=0.02028
HYPGEOMDIST(2,9,8,16)=0.01958
HYPGEOMDIST(1,9,8,16)=0.00699 拒绝H0,认为两品牌的价格有显著差异
大样本检验
对于大样本情况下,可以使用超几何分布 的正态近似进行检验:
Z
A mt /(m n)
H0 : 1 2 H1 : 1 2 H0 :1 2 H1 :1 2
Brown-Mood 中位数检验
Mann-Whitney 秩和检验。
Mood检验
Moses方法
两个样本检验
两个独立样本
两个成对相关样本
MINITAB非参数统计界面与功能
两个独立样本检验
Brown-Mood中位数检验
i 1
T
X Y
~ t(n m 2)
1 n
1 m
Sw
Sw
(n 1)S12 (m 1)S22 nm2
T 150.1149.9 (8 9 2) 0.2 1080 0.1702 66.88 20.89 1/ 8 1/ 9 87.77 17
对 0.05 查表得
t (n1 n2 2) t0.025(15) 2.1315 2
X样本 A=11 1 M=12
Y样本 B=4 14 N=18
总和 A+B=15
15 M+N=30
从M+N=30个中抽出A+B=15个,成功A=11个,M=12,N=18
P(A
1)=
C112C1184 C15
30

C1121C148 C15
30
P(A=11)=0.000236724 拒绝H0,认为沿海省与非沿海省的中位数有显著差异。
拒绝域为 W {| T | t /2 (15)} {| T | 2.1315}
T 0.1702W
所以应接受H 0.
两样本位置和尺度检验
假设样本: (X1, X2, … ,Xn)~i.i.d.F1
x
1
1
(Y1, Y2, … ,Yn)~i.i.d.F2
x
2
2
样本之间相互独立,1, 2 为位置参数,1, 2 称为尺 度参数。
mn
2 (ad cb)2 (m n 1) , df 1
原理:在零假设成立时,如果数据有相同中位数,那么 混合样本的中位数应该和混合前的项等。
计算和例子
首先将两个样本混合,找出混合样本中位数M xy ,将X和 Y按照在 M xy 两侧分类计数,即:
XY
总和
Mxy A B
t
Mxy C D (m n) (A B)
总和 m n m n A B C D
两个正态总体的假设检验
设 X ~ N ( 1 1 2 ቤተ መጻሕፍቲ ባይዱ, Y ~ N ( 2 2 2 )
两总体X , Y 相互独立, 样本 (X1, X2 ,…, Xn ), ( Y1, Y2 ,…, Ym ) 样本值 ( x1, x2 ,…, xn ), ( y1, y2 ,…, ym )
显著性水平
关于均值差 1 – 2 的检验
相关文档
最新文档