非参数统计第8章 列联表中的相关性测量
非参数统计讲义

绪论
§1.1 非参数统计
在初等统计学中,最基本的概念是什么 在初等统计学中,最基本的概念是什么? 总体, 如:总体,样本,随机变量,分布,估计 总体 样本,随机变量,分布, 和假设检验等 和假设检验等. 其很大一部分内容是和正态理论相关的。 正态理论相关的 其很大一部分内容是和正态理论相关的。 在那里,总体的分布形式或分布族 分布形式或分布族往往是 在那里,总体的分布形式或分布族往往是 给定的或者是假定了的, 给定的或者是假定了的,所不知道的仅仅 是一些参数的值或他们的范围。 主要工 是一些参数的值或他们的范围。(主要工 作是什么?) 作是什么
然而,在实际生活中,那种对总体的分布 的假定并不是能随便做出的。 数据并不是来自所假定分布的总体;或者, 数据根本不是来自一个总体;还有可能, 数据因为种种原因被严重污染。这样,在 假定总体分布的情况下进行推断的做法就 可能产生错误的结论。 于是,人们希望在不假定总体分布的情况 下,尽量从数据本身来获得所需要的信息。 这就是非参数统计的宗旨。
注意:非参数统计的名字中的“ 注意:非参数统计的名字中的“非参数 (nonparametric)” (nonparametric) 意味着其方法不涉及描述总 体分布的有关参数;它被称为和分布无关 体分布的有关参数;它被称为和分布无关 (distribution—free) free), (distribution free),是因为其推断方法和 总体分布无关;不应理解为与所有分布( 总体分布无关;不应理解为与所有分布(例如有 关秩的分布)无关. 关秩的分布)无关. 什么是非参数统计? 什么是非参数统计? 不假定总体分布的具体形式, 不假定总体分布的具体形式,从数据本身获得 所需要的信息, 所需要的信息,通过推断方法得到相关结论的 一种分析方法。 一种分析方法。
非参数统计

例外
例外
有的统计问题,从不同的角度,可以理解为参数性的,也可以理解为非参数性的。例如线性回归(见回归分 析)问题,若关心的是估计回归系数,它只是有限个实参数,因而可以看成是参数性的。但是,如果对随机误差 的分布类型没有作任何假定,则从问题的总体分布这个角度看,也可以看成是非参数性的。
统计方法
统计方法
谢谢观看
重要的非参数统计方法秩方法是基于秩统计量(见统计量)的一类重要的非参数统计方法。设有样本 X1,X2,…,Xn,把它们由小到大排列,若Xi在这个次序中占第Ri个位置(最小的占第1个位置),则称Xi的秩为 Ri(i=1,2,…,n)。1945年F.威尔科克森提出的"两样本秩和检验"是一个有代表性的例子。设X1,X2,…,Xm 和Y1,Y2,…,Yn分别是从分布为 F(x)和 F(x-θ)的总体中抽出的样本,F连续但未知,θ也未知,检验假设 H:θ=0,备择假设为θ>0(见假设检验)。记Yi在混合样本(X1,X2,…,Xm,Y1,Y2,…,Yn)中的秩为Ri, 且为诸秩的和,当W >C时,否定假设H,这里C决定于检验的水平。这是一个性能良好的检验。秩方法的一个早期 结果是C.斯皮尔曼于1904年提出的秩相关系数。设(X1,Y1),(X2,Y2),…,(Xn,Yn)是从二维总体(X,Y) 中抽出的样本,Ri为Xi在(X1,X2,…,Xn)中的秩,Qi为Yi在(Y1,Y2,…,Yn)中的秩,定义秩相关系数为 (Ri,Qi)(i=1,2,…n)的通常的相关系数(见相关分析)。它可以作为X、Y之间相关程度的度量,也可用于检 验关于X、Y独立性的假设。
次序统计量和U统计量在非参数统计中也有重要应用。前者可用于估计总体分布的分位数(见概率分布)、 检验两总体有相同的分布及构造连续总体分布的容忍限和容忍区间(见区间估计)等。后者主要用于构造总体分 布的数字特征的一致最小方差无偏估计(见点估计)及基于这种估计的假设检验。
非参数统计1

或近似概率
P值
零假设下,P(T>t)的值称为p值。
若p值很小,说明观测值的实现在零假设下为小概率 事件,故拒绝零假设。犯第一类错误的概率为p。
比如: (1)研究保险公司的索赔请求数时,可能假定索赔请求
数来自泊松分布P(a);
(2)研究化肥对农作物产量的影响效果时,平均意义 之下,每测量单元(可能是)产量服从正态分布
N(a,b).
一个典型的参数检验过程
1. 总体参数
Example: Population Mean
2. 假定数据的形态为
Whole Numbers or Fractions
Pitman于1948年回答了非参数统计方法相对于 参数方法来说的相对效率方面的问题;
非参数统计的历史(续)
60年代中后期,Cox和Ferguson最早将非参数方法 应用于生存分析。
70年代到80年代,非参数统计借助计算机技术和 大量计算获得更稳健的估计和预测,以P.J.Huber 以及 F.Hampel为代表的统计学家从计算技术的实 现角度,为衡量估计量的稳定性提出了新准则。
这里,j为求均值前删掉的最小或最大观测值的数目。
顺序统计量的分布:
设总体的分布函数F(x),则第r个顺序统计量的分布 函数为:
Fr (x)
P(X (r)
x)
P(至少
r个X
小于或等于
i
x)
n
P( X1, X 2 ,L , X n中恰好有j个小于x)
jr
n
C
《非参数统计》教学大纲

《非参数统计》课程教学大纲课程代码:090531007课程英文名称:Non-parametric Statistics课程总学时:40 讲课:32 实验:8 上机:0适用专业:应用统计学大纲编写(修订)时间:2017.6一、大纲使用说明(一)课程的地位及教学目标《非参数统计》是应用统计学专业的一门专业基础课,是统计学的一个重要分支。
课程主要研究非参数统计的基本概念、基本方法和基本理论。
本课程在教学内容方面除基本知识、基本理论和基本方法的教学外,着重培养学生的统计思想、统计推断和决策能力。
通过本课程的学习,学生将达到以下要求:1.掌握非参数统计方法原理、方法,具有统计分析问题的能力;2.具有根据具体情况正确选用非参数统计方法,正确运用非参数统计方法处理实际数据资料的能力;3.具有运用统计软件分析问题,对计算结果给出合理解释,从而作出科学的定论的能力;4.了解非参数统计的新发展。
(二)知识、能力及技能方面的基本要求1.基本知识:掌握符号检验、Wilcoxon符号秩检验、Cox-Stuart趋势检验、游程检验、Brown-Mood中位数检验、Wilcoxon秩和检验、Kruskal-Wallis检验、Jonckheere-Terpstra检验、Friedman检验、Page检验、Siegel-Tukey检验、Mood检验、Ansari-Bradley检验、Fligner-Killeen检验等非参数统计方法。
2.基本理论和方法:掌握单样本模型、两样本位置模型、多样本数据模型中的位置参数非参数统计检验方法,掌握检验尺度参数是否相等的各种非参数方法,掌握各种回归的方法,掌握分布检验的各种方法,要求能在真实案例中应用相应的方法。
3.基本技能:掌握非参数统计方法的计算机实现。
(三)实施说明1. 本大纲主要依据应用统计学专业2017版教学计划、应用统计学专业建设和特色发展规划和沈阳理工大学编写本科教学大纲的有关规定并根据我校实际情况进行编写。
8非参数检验

②正态近似法:
u | T n0 ( N 1) / 2 | n1n2 ( N 1) / 12
本例u 2.205 0.05/ 2 1.96
N3 N ; 3 3 N N (ti ti )
i
*校正公式(当相同秩次较多时)
uc u c; c
ti为第i个相同秩号的数据个数
假定:两组样本的总体分布形状相同
如果两总体 分布相同
基本思想
两样本来自同一总体 任一组秩和不应太大或太小
T 与平均秩和 n0 (1 N ) / 2 应相差不大
较小例数组的秩和, n1 n2 T min( R1 , R2 ), n1 n2
N n1 n2 n0 min( n1 , n2 )
控制 显效 有效 近控
65 18 30 13 126
107 24 53 24
1-107 108-131 132-184 185-208
54 119.5 158 196.5
编号 1 2
病情 单纯型 单纯型合并肺气肿
疗效 控制 显效
3
4 … 206 207
单纯型合并肺气肿
单纯型 … 单纯型 单纯型合并肺气肿
10 12(12 1) / 4 | R n(n 1) / 4 | u 2.275 n(n 1)(2n 1) / 24 12(12 1)(2 12 1) / 24
查标准正态分布表,得 P 值 校正公式: (当相同秩次个数较多时)
u
| R n(n 1) / 4 | n(n 1)(2n 1) / 24 (ti3 ti ) / 48 10 12(12 1) / 4
第一节 非参数检验的概念
第八章非参数检验

表 8-3 某河流甲乙断面亚硝酸盐氮含量(mg/L)监测结果
河流甲断面
河流乙断面
亚硝酸盐氮 秩次
亚硝酸盐氮 秩次 亚硝酸盐氮 秩次
11
T+=62.5 T-=3.5
由 表 8-2 第 2 栏 可 计 算 观 察 值 与 已 知 中 位 数 M 0 2.15mmol/L 的差值 d ,其均数为 d 0.5975,标准差为 Sd 0.7141 对这些差值进行正态性检验,W 0.8380,P 0.03, 因此,不满足t 检验关于样本来自正态分布的条件,该 资料宜用 Wilcoxon 符号秩和检验。
1、求差值d xi M 0
2、检验假设 H0 :差值的总体中位数等于零,即Md(d) 0 H1 :差值的总体中位数不等于零,即Md (d ) # 0
0 .05
3. 编秩 对差值的绝对值编秩,方法同上。
4 . 求正、负秩和并确定检验统计量 本例,+ T =62.5,-T =3.5 +T 与 - T 之和为 66 表明秩和
2.20 20.5
2.30 26.5
1.60 6.5
2.20 20.5
2.30 26.5
1.70 10.0
2.30 26.5
2.40 33.5
1.70 10.0
2.30 26.5
2.40 33.5
1.70 10.0
2.30 26.5
2.40 33.5
1.70 10.0
2.66 42.5
含量
非参数统计法PPT课件

36.2
-12.8 -8
9
44.1
45.2
-1.1
-2
10
399.8 404.1 -4.3
-4
11
25.9
39.3
-13.4 -9.5
12
535.6 544.8 -9.2
-5
T- =5.8 T+-=8
•为什么要用 非参数检验?
SPSS
6
S tati sti c s
d
N
Valid
Missing
Sk ewness
参数统计——检验效率较高,但使用条件较严格. 非参数统计——由于对资料无特殊要求,因此适用
范围广,资料收集和分析比较简便。但统计效率 较低(β较大)。 选择: 首先考虑参数检验,当条件不符,才选择非参数 统计方法。
.
3
(四) 非参数统计适用情况
(1)偏态分布资料; (2)总体分布不明资料; (3)数据一端或两端有未确定值; (4)等级资料; (5)方差不齐资料。
.
8
结果判断:
(1)查表法:当n<25时,查T界值表(符号秩和检验 用),得:
T0.05,11= 10~56,( T0.01, 11 = 5~61) 若T+或T-:落在范围内,则P>0.05;
落在范围外, 则P<0.05;
等于界值, 则P=0.05。
.
9
(2)正态近似法: 若 n>25时, 可近似认为T分布逼近正态分布。
温州医学院环境与公共卫生学院温州医学院环境与公共卫生学院一非参数统计一非参数统计不依赖于总体分布形式不须考虑被研究对象为何不依赖于总体分布形式不须考虑被研究对象为何种分布及分布是否已知不是参数间的比较而是种分布及分布是否已知不是参数间的比较而是用于分布之间的比较
非参数统计讲义五--相关性度量

6
7 8 9 10
3
10 9 8 5
350
200 260 220 385
data nc ; input x y @@; datalines;
2 6 8 400 4 280 3 220 5 360 7 350 10 385 300 1 200 9 295 260
SPEARMAN秩和相关(spearman rank correlation coefficient) Spearman等级相关分析 秩相关的Spearman等级相关分析 秩相关(rank correlation)又称等级相关
X
Y RX RY
x1
y1 Rx1 Ry1
x2
y2 Rx2 Ry2
x3
y3 Rx3 Ry3
Y
Sp earman's rho
X
Y
**. Co rrelation i s si gnificant at th e 0.01 level (2 -tailed).
一、两个分类变量的相关
二、两个顺序变量有相关
三、分类变量与顺序变量的相关
四、mobiphon
分 类 变 量
有 序 变 量
155 127 131 153 180 144 189 172 160 170 176 179 163 173
8
2 6 9 5 4
6
2 5 18 4 3
三、=SIGN(G3-1.5)
四、求符号和sum
五、组合数n(n-1)/2
六、T=Sum/(n(n-1)/2)
X
Y
=SIGN(G31.5)
=SIGN(G4-2
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十章 列联表中的相关性测量 第一节 列联表相关测量的有关问题一、交互分类和列联表抽自某个总体的样本,同时按两个或两个以上的标准进行分类。
分类的资料可以排列成一个行、列交织的表,称为列联表,也叫交互分类表。
如:妇女的教育水平与志愿愿 望(Y)教育水平(X )合计高低 幸福家庭 125 95 220 理想工作 65 105 170 合 计190200390 列联表可以清楚反映在X 变化的条件下,Y 的次数分布情况。
因此,列联表又称为条件次数表。
列和:行边缘次数 行和:列边缘次数表中的次数:条件次数,表示在自变量的每个条件,因变量各个值的数目。
1X 2X … c X 合计 1Y 11f 12f … c f 1 ∙1f 2Y21f22f… c f 2∙2f┇ …r Y1r f 2r f … rc f ∙r f 合计1∙f2∙f…c f ∙∙∙f二、条件频率妇女的教育水平与志愿(%)愿 望(Y)教育水平(X )高低幸福家庭65.79 47.50 理想工作34.21 52.50 ∑100.00 100.00愿望(Y)教育水平(X)∑高低幸福家庭56.82 43.18 100.00理想工作38.24 61.76 100.00第二节 McNmar检验这种检验方法适用于非独立样本的2*2表,即单因素两水平。
Cochran检验是该检验方法在多样本条件下的推广。
例为了评估一位政党候选人竞选活动的效果,由60个选民组成的随机样本在候选人竞选阳朔之前和之后,询问的问题是“对该候选人是投赞成还是反对”受试者演说前演说后受试者演说前演说后受试者演说前演说后1 1 1 21 0 1 41 1 12 1 1 22 1 1 42 0 03 1 0 23 0 0 43 1 14 0 1 24 1 1 44 0 05 0 1 25 0 0 45 1 16 0 0 26 1 1 46 1 17 1 1 27 0 0 47 0 18 0 1 28 1 1 48 0 09 1 1 29 0 0 49 0 110 0 1 30 1 1 50 1 111 0 0 31 1 1 51 0 012 1 1 32 0 0 52 0 113 0 1 33 1 1 53 1 114 1 1 34 0 0 54 0 015 0 1 35 1 1 55 1 116 1 0 36 0 0 56 0 017 0 1 37 1 1 57 0 018 0 1 38 0 1 58 0 019 1 1 39 1 1 59 1 120 0 0 40 0 0 60 0 0后(-) 后(+) 前(+) 2 25 前(-)2013McNmar 检验思路:在竞争演说前后有15个人改变了观点,我们分析的焦点在改变了观点的15个人。
:0H 竞争演说无效应:1H 竞争演说有效应在原假设为真的条件下,认为n 个人改变观点的人是随机的选择“+”或“-”。
可以认为,选择“+”的人数是服从B (n ,0.5)分布。
(n 为前后改变了选择的样本点)。
则检验的p 值:p =∑=--15131515)5.01(5.0i ii i C =0.000488 故拒绝原假设,竞争演说有显著的正效应。
注:当样本容量(改变观点或发生改变)大于50 时,可以将2χ检验用于McNmar 检验。
后(-)后(+) Σ前(+) aba+b 前(-) c dc+d ∑a+cb+da+b+c+d因为 ())1(~)1(2121χp np np a Q --=而 ()())1(121121p n np a np np a Q--+-=()()221212a np n dn np np np ---+=+()()221212a np d np np np --=+在原假设为真时,221d a np np+==,则上式为)1(~22222222χχda d a d da d a a +⎪⎭⎫ ⎝⎛+-++⎪⎭⎫ ⎝⎛+-=等价的公式为())1(~222χχda d a +-=当αχ<+-≥))((22da d a p ,则拒绝原假设。
第三节 列联表中的2χ检验及相关测量一、四格表资料的χ2检验 (两个样本率比较)两因素两水平,两因素是否相互独立。
1、两个样本率资料的四格表形式 x Σya b a+b cd c+d ∑a+cb+da+b+c+d如果x 与y 相互没有关系,有 a ≈[(a+b)(a+c)/(a+b+c+d)]=e 11 b ≈[(a+b)(b+d)/(a+b+c+d)]=e 12 c ≈[(a+c)(c+d)/(a+b+c+d)]=e 21 d ≈[(b+d)(c+d)/(a+b+c+d)]=e 22 故设计统计量)1(~)()()()(222222212211221211211χe e a e e c e e b e e a Q -+-+-+-=))()()(()(2a d d c cb b a bc ad n ++++-=2、χ2检验的基本思想χ2值反映了实际频数和理论频数的吻合程度。
χ2值越小,说明实际频数与理论频数越吻合,χ2值越大,说明实际频数与理论频数差异越大。
如果检验假设成立,则实际频数与理论频数之差一般不会很大,即出现大的χ2值的概率是小的。
若在无效假设下,出现了大的χ2值的概率P ≤α(检验水准),我们就怀疑假设的成立,因此拒绝它。
另外χ2值的大小,还与自由度有关。
故考虑χ2值大小的意义时要同时考虑自由度。
二、 行(r)×列(c)表资料的χ2检验 两因素多水平的情形。
1、如果x 与y 相互独立,则有)/)(/(/N f N f N f i j ij ∙∙≈ iji j ij e N f f f =/∙∙⨯≈[]∑∑==---=ri cj ij ij ijc r e e fQ 1122)1)(1(~/)(χ2. 注1)行×列表χ2检验对理论频数有要求。
一般认为不宜有1/5以上格子数的理论频数小于5,或有1个格子的理论数小于1,否则将导致分析的偏性。
2)多个样本率(或多组构成比)比较的χ2检验,若结论拒绝无效假设,只能认为各总体率(或多组构成比)之间总的来说不同,但不能说明它们彼此之间都不同,或某两者之间有差别。
3)关于单向有序资料(等级资料)的统计处理,宜用秩和检验。
χ2检验只能说明各处理组间效应在构成比上有无差别。
三、基于χ2的相关测量方法 1、ϕ相关系数nQ =ϕ例如 ))()()(()(a d d c c b b a bc ad ++++-=ϕϕ的绝对值最小的为零,为零时说明x 与y 之间无关。
2、列联相关系数Qn Q C +=3、克莱默的V 相关系数)1,1min(--=c r n QV三、三个因素的多水平的情况设有3个因素,每个因素的水平分别为r,c 和l 。
[]∑∑∑===----=r i c j lk ij ikj ijkk c r e e fQ 11212)1)(1)(1(~/)(χ其中nf nf nf n e k j i ijk ....,,⨯⨯⨯=例 对一些交通事故的保险结果表明出事故率和赔保历史与教育程度等因素有关。
有资料如下: 赔保历史教育程度小学以下初中 高中 大学及以上 从未赔过 281 130 50 50 赔过一次 256 90 10 5 赔过两次以上1073064利用该数据你可以得到什么信息。
利用你知道的检验方法进行检验。
赔保历史 * 文化程度 CrosstabulationCount2811305050511256901053611073064147644250665910191.002.003.00赔保历史Total1.002.003.004.00文化程度TotalChi-Square Tests58.368a6.00063.1376.00041.6681.0001019Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid CasesValuedfAsymp. Sig.(2-sided)0 cells (.0%) have expected count l e ss than 5. The minimum expected count is 8.51.a.第四节 熵和似然比检验一、熵从统计的观点看,一个事件A 的发生如果给人们带来了信息,则应该认为它是一个随机事件。
显而易见,一件为人们所完全预料的事件(如必然事件),不会给人们带来信息。
假定A 和B 是两个随机事件,有P (A )大于P (B ),人们的常识是概率小的事件带给人们更多的信息。
所以B 事件的信息比 A 事件多。
必然事件的信息为0。
定义熵:一个离散的随机变量ξ,⎪⎪⎭⎫⎝⎛)()()()(n na P a p a p a p a a a a321321定义1()ln()ni i i h P p ξ==-∑为ξ的熵。
i p 是随机变量ξ=a i 的概率,该概率接近1,它的“确定性”程度越大;i p 接近0,它的“确定性”程度就差。
当i p =1,则0)ln(=-i p ,当i p =0,则∞=-)ln(i p ,所以我们用1()ln()ni i i h P p ξ==-∑来反映ξ取值的分散程度,该值越大,不确定的成分越多。
两个随机变量X 和Y 的联合熵:∑∑==-=ri ij cj ijp PY X h 11)ln(),(三个随机变量X ,Y 和Z 的联合熵:∑∑∑===-=ri cj ijk lk ijkp PZ Y X h 111)ln(),,(熵反映随机变量的不确定性。
当随机变量之间相互独立时,则不确定的因素越多,则联合熵较大。
三、 似然比检验似然比是列联表中所涉及的变量相互独立时的似然函数的最大值与不相互独立时的似然函数的最大值之比。
似然比统计量常常用来检验变量间的独立性。
似然比检验的假设是是相互独立的。
和Y X H :0设有两个随机变量X 和Y ,X 取r 个值r a a a ,,,21 ,Y 取c 个值c b b b ,,,21 。
现从中抽取一个容量为n 的样本。
有),(j i b Y a X ==的频数为ij f 。
∑∑===ri cj ij n f 11。
由于当两个随机变量X 和Y 相互独立时,有)()(),(j i j i b Y P a X p b Y a X p =====则两个随机变量X 和Y 相互独立时,),(j i b Y a X p ==的极大似然估计为:nf nf p p pj i j i ij .,..ˆˆˆ⨯==两个随机变量X 和Y 不相互独立时,),(j i b Y a X p ==的极大似然估计为:nf pij ij =ˆ则似然比为: ()()∏∏===Λri cj f ijf j i ijijpp p11..ˆˆˆ似然比统计量为..1111..ˆˆˆ2ln 2ln 2ln ˆˆˆr cr ci j ij ij ij i j i j ij i j p p p f f p p p ====⎛⎫⎛⎫-Λ=-= ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭∑∑∑∑∑∑==⎪⎪⎭⎫⎝⎛=r i cj j i ijij f f nf f 11..2ln 2χ当2χ很大,说明样本更有可能来于X 和Y 相互独立的总体,其似然函数更大,故支持原假设。