统计显著性检验_问题与思考_鲍贵

统计显著性检验_问题与思考_鲍贵
统计显著性检验_问题与思考_鲍贵

第10卷 第4期

2010年12月

南京工程学院学报(社会科学版)

J o u r n a l o f N a n j i n g I n s t i t u t e o f T e c h n o l o g y (S o c i a l S c i e n c e E d i t i o n )

V o l .10,N o .4

D e c .,2010

文章编号:1671-3753(2010)04-0027-06

统计显著性检验:问题与思考

收稿日期:2010-12-03

基金项目:教育部人文社会科学研究基金项目(09Y J A Z H 044);江苏省社会科学基金项目(09Y Y B 010);江苏省高校哲学社会科学研究基金

项目(09S J B 740009);江苏省高校“青蓝工程”中青年学术带头人培养对象[苏教师(2010)27号]。

作者简介:鲍贵,博士,教授,研究方向为语言学及应用语言学。E-m a i l :b o g g y 2008@126.c o m

鲍 贵,席 雁

(南京工业大学英语系,江苏 南京,210009)

摘 要:统计显著性检验是统计推理中普遍使用的手段。但是,长期以来,对统计显著性检验热情过度,认识上夸大其在研究中的作用,造成该手段被滥用和误用的现象相当普遍,削弱了其本身应有的有效性。在定义统计显著性检验中关于样本与总体等几对基本概念的基础上认为,基于统计显著性和无显著性进行统计推理存在认识误区、重复性谬误以及统计显著性与重要性的混同现象,应使用效应量检验、统计效力检验、置信区间估计或重复性研究等手段弥补统计显著性检验之不足。

关键词:统计显著性检验;效应量;置信区间;统计效力中图分类号:O 212.1

统计显著性检验(s t a t i s t i c a l s i g n i f i c a n c e t e s t i n g ,

S S T )又称零假设显著性检验(n u l l h y p o t h e s i s s i g n i f i -c a n c e t e s t i n g ,N H S T )或假设检验(h y p o t h e s i st e s -t i n g )。J o h n A r b u t h n o t 1710年首次使用零假设显著性检验尝试证明上帝的存在,迄今为止已历时300年。在此期间,零假设显著性检验一直是科学家们使用的重要工具。20世纪初,F i s h e r 、N e y m a n 和P e a r s o n 等现代统计学的开创者论证了如何在各种各样的环境中使用这一工具[1]

。F i s h e r 研究方法是判定试验发现是否由于随机或取样误差。F i s h e r 对这一问题的处理方法是检验零假设。N e y m a n-P e a r s o n 研究方法对显著性的解释面更宽———研究者可以在零假设和备择假设(a l t e r n a t i v e h y p o t h e s i s )之间做选择,并注意第一类错误(t y p e I e r r o r )和第二类错误(t y p e I I e r r o r )[2]369

。在后来的统计学发展中,这两种方法逐渐融合到一起。但是,随着统计显著性检验的广泛使用,对统计显著性检验的滥用和误用也随之出现。不少研究者未能正确理解统计显著性检验,在本不需要该检验的研究中也生搬硬套或赋予该检验以它并不具备的特质,为统计而统计。在很多场合,统计显著性检验不是为了研究本身的需要,而是为了形式的需要,是表面上的迫不得已。N e s t e r 推测,这种“形式”上的需要有以下原因:(1)统计显著性检验似乎很客观、很准确;(2)使用统计软件进行检验,操作起来容易;(3)大家都在使用该检验,“我”也要入流;(4)学生、统计学家和科学家使用这种检验是教育使然;(5)有些期刊

的编辑和论文指导教师要求使用统计显著性检验。

为形式而形式的统计显著性检验只不过是为研究的所谓科学性披上一件伪装,不仅没有必要,而且

还抹杀了统计显著性检验的真正价值[3]

。学者们对误用和滥用统计显著性检验这一现象的批评不仅有利于我们还原该检验的本来面目,为正确使用提供指引,而且还有助于我们去探索更好、更合理的统计分析方法。

关于统计显著性检验问题的探讨有一点值得注意:统计学、心理学和社会学等学科中对这一问题开展了激烈的讨论,并提出了一些合理的建议,但在应用语言学领域,统计显著性检验似乎已不是一个问题,而是一个科学的例行程序。对这一问题不开展讨论,不形成正确的认识,不利于研究的开展和深入,也必然会给研究的结论打上一个大大的问号。

在决定使用统计显著性检验之前,需要了解该检验的使用条件和局限性。针对统计显著性检验结果,要尽说其能事,避免妄加解释,而且有必要采取其他手段弥补统计显著性检验本身之不足。这便是研究者应该采取的科学态度。

一、统计显著性检验的本质

统计显著性检验是一个系统的程序,用于判定基于样本(s a m p l e )的某项研究的结果是否支持针

对总体(p o p u l a t i o n )的某个理论或实践创新[4]115

。这是比较笼统的解释。更为准确的理解是,统计显

DOI :10.13960/j .issn .1671-3753.2010.04.006

著性检验指以随机化(包括随机取样和随机分配)为前提、在零假设为真的情况下,根据给定的样本确定出现某个结果的概率的程序[5]294。该定义涉及以下要素:(1)统计显著性检验结果是概率描述,时常根据概率是否大于或小于某个水平而表现为二元对立;(2)检验的基础是假定零假设为真;(3)随机化(r a n d o m i z a t i o n)是使用显著性检验的基本前提;(4)样本容量是关键因素,因为研究结果的统计显著性取决于它所依据的个案数[5]294-295。在最简单的意义上,统计显著性检验用于检验在零假设为真的情况下出现某个结果或更极端结果的概率。显著性检验中要用到4对基本的概念:样本与总体,零假设与备择假设,显著性水平(水平)与显著性概率(p值),第一类错误与第二类错误。

1.样本与总体

统计显著性检验的必要条件(a s s u m p t i o n,又译假设)是样本的随机性。随机性是比较研究结果所参照的取样分布的基础[5]294。如果样本不是从总体中随机取样,显著性检验也许会夸大结果的精确性,因为它没有考虑到由非随机误差(即样本选择不恰当)引起的估计偏差(b i a s)。当然,统计显著性检验不能用来评价样本对总体的代表性:样本代表性的唯一估计方法是合理选择样本。统计显著性检验只能回答:如果样本代表总体,所获结果的可能性有多大[6]。

2.零假设与备择假设

关于统计,有两大类别:一是描述性统计(d e-s c r i p t i v e s t a t i s t i c s),二是推理统计(i n f e r e n t i a l s t a t i s-t i c s)。描述性统计对数据本身进行描述,其目的是概括样本数据本身的特征,主要分析样本数据分布的集中与离散趋势,因而它不需要任何假设。描述性统计的一个主要局限在于它不能提供样本来自的总体的信息,而研究者所关心的往往是总体的特征。基于样本对总体特征进行推断是推理统计的范畴。推理统计利用描述性统计推算概率(p值),将之向前推进了一步[7]。在推理统计中,通常要确立两类假设:零假设与备择假设。零假设又称虚无假设,意为两个或多个总体之间在某个(些)变量上没有差异或在总体中两个或多个变量之间没有关系。如果样本平均数之间有差异或变量之间有关系,那只是由于取样误差(s a m p l i n g e r r o r)或随机误差。取样误差意味着,由于我们不能检查总体中的每个对象,因而我们不能十分确信选取的个体有典型性[7]。与零假设对立的是备择假设,也称研究假设(r e s e a r c h h y p o t h e s i s)。如果样本平均数差异或变量之间的关系不仅仅是由取样误差引起的,那么在其他变量和实验条件严格控制的情况下研究假设可能成立。

3.显著性水平和显著性概率

数α称为显著性水平(s i g n i f i c a n c e l e v e l);p值是显著性概率(s i g n i f i c a n c e p r o b a b i l i t y)。从历史上看,α与N e y m a n-P e a r s o n的假设检验理论相关联, p与F i s h e r的显著性检验理论相联系[8]。α水平是事先确定的、错误地拒绝零假设所承担的风险。p 值是在零假设为真的情况下,得到本研究之值或更极端之值的概率。S i g n i f i c a n t一词的常见意思是“有意义的”(m e a n i n g f u l)和“重要的”(i m p o r t a n t),但是在统计学中,s i g n i f i c a n t常译为“显著性的”或“有显著意义的”,意为“可能为真”、“非随机的”。统计量的显著性仅仅表明你对某个差异或关系的把握性程度。显著性差异可大可小,显著性关系可强可弱。它取决于样本容量的大小等因素。在研究报告中,α和p通常是并用的。假定α=0.05,p =0.04,常用的标准表述形式是,在0.05的显著性水平上,零假设被拒绝,或是p=0.04<0.05。请注意,α和p的主要区别在于,α是一个固定值,而p 值是随机变量的取值,因样本而异。因此,比较两个不同试验的p值大小,或比较同一个试验中两个变量检验的p值大小,依此判定一个结果比另一个结果更有显著意义,这是不适当的[9]。以独立样本t检验为例。两项研究的p值差异只是表明,通过测量可以得出一项研究在某对样本中发现的差异性(p值小)比另一项研究在另一对样本中发现的差异性(p值大)更极端。

4.第一类错误和第二类错误

通常情况下,α水平就是第一类错误。第一类错误是零假设为真却被错误拒绝的概率。第二类错误(β)是零假设为误却被错误接受的概率或是研究假设为真却被拒绝的概率。如果p值小于某个事先确定的α水平,理论上则拒绝零假设,反之,如果p值大于某个事先确定的水平,理论上则不拒绝零假设。常用的显著性水平是0.05,0.01和0.001。不同的水平各有优缺点。α水平越小,判定显著性的证据就越充分,但是不拒绝错误零假设的风险———犯第二类错误的可能性就越大,统计效力(s t a t i s t i c a l p o w e r)就越低。选择α水平不可避免地要在第一类错误和第二类错误之间做出权衡。如果犯第一类错误造成的后果不严重,比如在试探性研究中,我们可以将α水平定得高一些,如0.05或0.1。如果研究样本很小,为了提高统计效力,我们

28 南京工程学院学报(社会科学版) 2010年12月

在某些研究中也不妨提高α水平。但是,如果犯第一类错误造成的后果很严重,比如我们要基于某项研究发现决定是否在全国推行某项教学改革,我们则需要将α水平定得低一些,如0.01或0.001。

二、统计显著性检验的认识误区

1.统计显著性与假设判断

在统计显著性检验中,我们假定零假设为真,并以之为前提得出出现研究之值或更极端之值的概率(p),再根据概率值的大小对零假设进行反推。如果p值小于显著性水平(α),我们就有足够的证据拒绝零假设。p值反映拒绝或不拒绝零假设证据的充分程度。在统计显著性检验中,p值是反对零假设的归纳性证据(i n d u c t i v e e v i d e n c e)。小的值表示研究发现不可能是随机性的结果,表示有证据拒绝零假设。举例:假设你用一个实验组和一个对照组做一次教改试验,各组人数均为30人。经过一段时间后,你对两个组的成绩进行独立样本t检验,得到以下结果:t=2.5,d f=58,p=0.015。如果以α=0.05为统计显著性水平,你是不能得出以下结论的:

(1)你证明了零假设(即总体平均数之间没有差异)为误。

(2)你证明了备择假设(即总体平均数之间有差异)。

(3)你发现了零假设为真的概率是0.015。

(4)你可以推断出备择假设为真的概率为0.985 (1-0.015)。

(1)和(2)的错误在于显著性检验只提供统计量检验的概率信息,不能证明某个假设为真或为误。零假设要么为真,要么不为真。它不是随机的,不存在概率[10]12。对于研究假设也一样。从本质上讲,显著性检验只是表示在零假设为真的情况下,通过无数次取样某研究证据出现的可能性[2]362-363,不能给任何假设提供成立的概率,所以(3)和(4)都是错误的。H a l l e r&K r a u s s认为对显著性检验的误解可能有两个来源:一是统计学教材;二是统计学教师[11]3-4。以上错误实际上是将显著性检验(F i s h e r范式)与贝叶斯(B a y e s)统计混淆了。在F i s h e r范式中,D表示当前数据或更极端的数据,H代表零假设。根据条件概率的定义,显著性检验的结果表示为p(D H0)。该表达式表明,所指概率为数据出现的概率,是给定前提,是判定有无显著性结果必须参照的条件[11]10。只有在贝叶斯统计学中才能对假设的概率做出陈述,概率公式为p(H D),即以数据为条件,假设的概率是结果。上面提到的4个结论违背了显著性检验的前提条件———零假设为真。针对本例,可以认为,鉴于在零假设为真的情况下,出现本研究结果或更极端结果的概率很低(p=0.015<0.05),因而有充分的证据拒绝零假设。即便如此,我们仍有约0.05 (α=0.05)的概率错误地拒绝零假设。

2.统计无显著性与假设判断

如果p值大于设定的显著性水平(α),我们就没有足够的证据拒绝零假设。这里有两个认识上的误区。第一个误区是,没有足够的证据拒绝零假设等于接受零假设。其实,没有足够的证据拒绝零假设只表明零假设中的参数具有存在的合理性,不排除其他参数存在的可能性。“一次检验仅仅表明某个参数值是否合理。置信区间(c o n f i d e n c e i n t e r-v a l)显示有一系列合理之值,而不仅仅是一个”[12]449。比较妥当的说法是本研究“没有拒绝零假设”。第二个误区是,没有足够的证据拒绝零假设必然表现为对备择假设的拒绝。没有证据不是没有的证据(A b s e n c e o f e v i d e n c e i s n o t e v i d e n c e o f a b s e n c e)。在拒绝备择假设之前,需要考虑第二类错误。如果第二类错误很严重,即使备择假设实际为真,也有可能由于样本量小等原因导致基于样本的统计证据没有发现它。如果是这样,那么就不能轻易地认为零假设是合理的。

3.重复谬误

在“统计显著性与假设判断”节所举的例子中,如果该试验多次重复(r e p l i c a t i o n),认为在0.985 (1-0.015)的场合都会得到统计显著性的结果,那就犯了重复谬误(r e p l i c a t i o nf a l l a c y)。持重复谬误观点的人认为,如果某项研究重复,那么在1-p的场合会得到统计显著性的结果,或者说,研究者有1-p 的自信可以断定,如果研究重复,该结果有显著性意义。产生重复谬误的根源是把p当作零假设为真的概率。上面已经提到,p值只表示在零假设为真的条件下得到某个值或更极端值的概率,是有条件的概率。在一项研究中拒绝虚无假设的结果并不能使我们对另一项重复性研究也会得出拒绝虚无假设的结果做出任何概率推断。

4.显著性与重要性的混淆

显著性检验的一个认识误区是统计上显著性的结果总是有实际意义(i m p o r t a n c e)或在总体中有很大的效应。对于一个非常大的样本量而言,很小的差异也可能有统计上的显著意义,但是统计上的显著意义不能等同于实际意义。统计意义和实际

29

第10卷第4期 鲍 贵,等:统计显著性检验:问题与思考

意义是两个不同的概念。下面举例说明[12]447-448

。2006年美国开展了一项社会普查。调查的问题是:美国人的政治立场总体上倾向于开放还是倾向于

保守?调查采用问卷形式,为7点式量表:非常开放(1分),开放(2分),有些开放(3分),折中(4分),有些保守(5分),保守(6分)和非常保守(7分),共收集问卷4333份。描述性统计量为:x =4.12,s =1.41。本研究的零假设是美国人持中间立场(均分为4分),即H 0:μ=4。备择假设是:H a :μ瓪4。总体参数值μ<4表示美国人倾向于开放;μ>4表示美国人倾向于保守。根据公式t =x -μ0s /n

,求

得t =5.6。该统计量的双侧p 值为0.00000002,构成拒绝零假设的有力证据。如以此判断,便可得出美国人倾向于保守的结论。但是,鉴于样本平均数与零假设中的平均数差异很小,我们实际上会把平均数4.12看作是“折中的”

[12]448

!

三、统计显著性检验的不足及补充手段

统计显著性检验仅用于发现在零假设前提下出现某个统计值或更极端值的概率,并以此为证据做出拒绝或不拒绝零假设的判断。它不能回答研究发现的实际意义等其他问题。因此,在研究中,仅仅依靠显著性检验结果做出决策是有危险的。本节在指出显著性检验不足的同时,建议研究中利用效应量(e f f e c t s i z e )检验、统计效力检验、置信区间估计或重复试验等补充手段。

1.效应量检验以t 检验为例。统计显著性只能说明真正的参数值与零假设中的参数值有差异,却不能明示差异的实际意义。一个小的p 值,比如0.01,构成拒绝零假设的有力证据(α=0.05)。但是,它绝不意味着在实际意义上有一个重要的发现。尤其在样本容量很大的情况下,即便点估计值(p o i n t e s t i m a t e )接近零假设中的参数值,也有可能达到小的p 值。从“显著性与重要性的混淆”节t 检验的计算公式中可以看出,即使样本平均数x 与零假设的参数值μ0很小,如果样本容量(n )很大,t 统计量也会很大,极易达到统计上的显著性。

统计显著性只表示有效应存在。在研究中,当研究结果具有统计上的显著意义时,建议利用总体效应量(p o p u l a t i o n e f f e c t s i z e ,简称E S )来辅助判断结果的实际意义。效应量是对总体平均数差异的测量,有助于决定统计上具有显著性的差异是否具

有实际意义或重要性。在两个独立样本平均数差异检验中,估计效应量的计算公式为:d =M 1-M 2

S p o o l e d 。式中,d 是估计效应量,M 1和M 2是样本的平均数,

S p o o l e d 是总体标准差合并估计。总体标准差合并估计是总体方差合并估计(S 2

p o o l e d )的平方根。总体方差合并估计的计算公式为:S 2

p o o l e d

=

d f 1d f t o t a l

(S 2

1)+d f 2d f t o t a l (S 2

2),式中d f 1和d f 2是两个样本的自由度,d f t o t a l 是两个样本的总自由度(d f 1+d f 2),S 2

1和S 2

2

是两个样本的方差。当两个样本容量相等时,总体

方差合并估计的计算公式可简化为:S 2

p o o l e d =12

(S 21+S 2

2)。从效应量的计算公式中可以看出,样本平均数差异越大,效应就越大;总体标准差越小,效应就越大。C o h e n 提供了在独立样本平均数差异比较时检验效应量的常用操作标准:效应值为0.20时表示效应量小(s m a l l ),效应值为0.50时表示效应量适中(m e d i u m ),效应值为0.80时表示效应量大[13]157,[4]193-194

。效应量反映不同总体分布的不重合率(p e r c e n t n o n o v e r l a p )。效应值0.20、0.50和0.80意味着不同总体分布的不重合率分别为14.7%、33.0%

和47.4%[14]22

。效应量越大,不重合率就越大,总体分布的差异越大,反之亦然。研究结果的效应越大,结果的实际意义就越大,反之亦然。比如在一项对英语专业高、低水平组(n 1=n 2=36)的作文词汇复杂度(l e x i c a l s o p h i s t i c a t i o n )(即低频词在作文中的覆盖率)的研究中,得到M 低=7.4390(每100个词中约含7个低频词),S 低=2.91023,M 高=9.1470,S 高=2.35151。经t 检验发现,两组所代表的总体有显著性差异(t =-2.739,p=0.008<0.05)。那么两组的这种差异有没有实际意义呢?本研究中,总

体方差合并估计值为S 2p o o l e d =

12

(2.910232+2.351512

)≈6.9995,即S p o o l e d ≈2.6457。根据效应量的计算公式得到:d =

9.1470-7.4390

2.6457

≈0.6456。该效应值表

明,本研究的效应量中等偏上。我们据此认为,该研究的组间差异具有实际意义。以上只是举例说明针对独立样本平均数差异比较时计算效应量的方法和操作标准,关于其他统计分析方法,参见C o h e n [13]157,[14]

等。

2.统计效力检验

样本很大时,如果效应很小,统计显著性的结果可能只有理论意义,没有实际意义。样本很小

30 南京工程学院学报(社会科学版) 2010年12月

时,即便效应很大,也有可能得不到统计显著性的结果。那么,我们就没有把握认为该效应实际存在,该效应就一定大,因为样本很小时,犯第二类错误的概率就会增大,即统计效力下降。因此,即使对两个独立样本平均数差异的检验没有发现统计上的显著性,我们也不能草率地断定样本来自的总体之间就一定没有差别。

统计效力是在研究假设为真的情况下,某研究产生统计显著性结果的概率,即拒绝错误的零假设的概率。统计效力与犯第二类错误概率之间的关系是:效力=1-β。效力越大,犯第二类错误的概率就越小;效力越小,犯第二类错误的概率就越大。常用的参考规则是研究中统计的效力要达到0.80[13]156。以“效应量检验”节的作文词汇复杂度研究为例。在α=0.05(单侧检验)、n=36、d值为0.6和0.7时,查检验效力表[14]30得到的效力大小分别为0.81和0.90,因此d=0.6456对应的值为0.85左右。也可以利用M i n i t a b或G*P o w e r等软件得到该研究的统计效力,其大小近似为0.8571。这意味着,如果研究假设为真,那么本研究得到显著性结果的概率约为0.86,即表明,本研究有较高的统计效力。另一方面,如果统计效力低,犯第二类错误的概率就会很大。即使研究假设为真,也可能会得不到统计显著性结果,甚至会错误地拒绝研究假设。

统计效力的大小主要与效应量、样本容量和显著性水平等因素有关。在其他条件不变的情况下,效应越大,统计效力就越大;样本越大,统计效力就越大;显著性水平越高,统计效力就越大。由于显著性水平通常设定为0.05,因而很少用它来增加效力。通过增大效应、提高效力的方法包括加强试验的严密性或减少总体的标准差等。不过,最直接的方法是增加样本容量。以独立样本t检验为例。在α=0.05(双侧检验)、n=30、d值为0.5时,得到的统计效力仅为0.47。但是,在其他条件不变的情况下,n增大到64时,统计效力则增加到0.80,达到了统计研究的常规要求。这个例子也表明,通常选用的样本容量n=30不能保证有足够大的统计效力,因而犯第二类错误的概率可能会很大。增加统计效力的方法还包括选用单侧检验。如果将上面的例子改用单侧检验,在α=0.05、n=30、d值为0.5时,得到的统计效力则由原来的0.47提高到0.61。通常情况下,统计效力有以下用途:(1)在显著性水平和效应量给定的情况下,确定某项研究要达到某个统计效力所必须的样本量。(2)进行某项研究之后诊断该研究的统计效力的大小。(3)用于分析比较前人研究的统计效力,以便更好地开展文献综述。

3.置信区间

除了统计效力之外,置信区间也是一种补充手段。置信区间和显著性检验从两个不同的方面描述同样的东西,具有互补性:显著性检验利用p值判断零假设中的某个参数值是否合理(p l a u s i b l e),置信区间则提供一系列可信的参数值。置信区间有两个优点[4]176:其一,科学研究的目标是提供对效应量的数值估计,而不仅仅是对效应量是否不为零的决策,置信区间正好可以对效应量进行估计。其二,研究结果没有显著意义时,置信区间尤其有价值,因为它有利于了解在距离零效应(n o e f f e c t)多远的地方能够有把握找到真正的平均数。如果整个置信区间接近零效应,那么就有把握认为,即使有真正的效应存在,它也有可能很小。但是,如果置信区间虽然包含了零效应,区间的范围却很大,包含了远离零效应的平均数,那么该研究就不确定:效应既有可能很小或不存在,也有可能很大。

4.重复性试验

在一次试验中,我们不可能100%地确信某个假设为真或为假。在拒绝零假设时,我们会犯第一类型的错误,尽管我们能将错误率控制在0.05或0.01等水平上。另外,即便我们得到了显著性检验结果,那也未必就意味着是处理效应的结果,因为样本的取样(s a m p l i n g)、分配(a s s i g n m e n t)和样本量等都会影响试验结果。在接受错误的零假设时,我们会犯第二类错误。除非样本容量很大,犯第二类错误的概率通常比犯第一类错误的概率要高得多,因此,只依靠基于小样本的统计显著性检验来发现重要的科学结果,失败的可能性常常是很大的[15]127-128。因此,由于在一次试验中没有得到统计显著性结果就放弃在其他方面有吸引力的研究方向或者一次意外地拒绝零假设就认为是获得了一个重要的科学发现,这些都是错误的做法[15]127。

任何科学发现都不会仅依赖于一次实验。重复性研究是确保研究发现有效性的重要手段,因而是必要的。举个例子来说:在α=0.05时,如果试验效应实际不存在,20名研究者独立开展实验,可以预测会有1名研究者由于偶然性因素得到统计显著性的结果,因为犯第一类错误的概率是0.05。如果文献中恰好只报告了这一项研究,这就有可能会引起错误的认识。确如C a r v e r所言,如果取样误差或随机性对某个结果的推广度构成了合理的威胁,那么在重复性研究中得到近似的结果是消除这

31

第10卷第4期 鲍 贵,等:统计显著性检验:问题与思考

一威胁的最好手段[16]。重复性研究可以是一项新研究,也可以是在同一项研究中进行。譬如,把受试一分为二或按性别将受试分成两组来分别进行统计显著性检验,看结果是否一致。

四、结束语

过分依赖统计显著性检验在学界是普遍现象。“研究者们不恰当地运用统计显著性检验作为一种表明研究发现具有重要性的手段,赋之以它不具备的特征”[6]。研究中要不要使用统计显著性检验?如果是因为有诸多研究者误用和滥用该检验而主张将之废除,当然是没有道理的。统计显著性检验本身并没有错误。如果把它用作研究的指向而不是用作获得确定性答案的手段,使用它是没有问题的[17]。

任何检验方法都有适用范围,都有局限性,统计显著性检验也不例外。任何一种重要的决策都不能只依赖统计显著性检验的结果。在使用显著性检验的统计推理中,研究者需要结合效应量、统计效力等来综合判断研究发现的意义和价值。

参考文献:

[1] WA I N E RH,R O B I N S O N D H.S h a p i n gu pt h ep r a c t i c eo f n u l l

h y p o t h e s i ss i g n i f i c a n c e t e s t i n g[J].E d u c a t i o n a lR e s e a r c h e r,

2003,32(7):22.

[2] C O W G E R CD.S t a t i s t i c a l s i g n i f i c a n c e t e s t s:S c i e n t i f i cr i t u a l i s m

o rs c i e n t i f i cm e t h o d?[J].S o c i a lS e r v i c eR e v i e w,1984,58

(3).

[3] N E S T E RM R.A na p p l i e ds t a t i s t i c i a n's c r e e d[J].A p p l i e d S t a-

t i s t i c s,1996,45(4):401.

[4] A R O N A E,A R O N A,C O U P SE.S t a t i s t i c sf o rP s y c h o l o g y

[M].B e i j i n g:B e i j i n g Wo r l dP u b l i s h i n g C o r p o r a t i o n,2006.

[5] S H A V E RJ P.Wh a t s t a t i s t i c a l s i g n i f i c a n c e t e s t i n g i s,a n d w h a t i t

i s n o t[J].J o u r n a l o f E x p e r i m e n t a l E d u c a t i o n,1993,61(4).

[6] D A N I E LLG.S t a t i s t i c a l s i g n i f i c a n c et e s t i n g:Ah i s t o r i c a l o v e r-

v i e wo f m i s u s e a n d m i s i n t e r p r e t a t i o n w i t hi m p l i c a t i o n s f o r t h e e d i-

t o r i a l p o l i c i e so fe d u c a t i o n a lj o u r n a l s[J].R e s e a r c h i n t h e S c h o o l s,1998,5(2):23.

[7] G R I F F E EDT.R e s e a r c hi np r a c t i c e:U n d e r s t a n d i n g s i g n i f i c a n c e

t e s t i n g p r o g r a me v a l u a t i o n[J].J o u r n a l o f D e v e l o p m e n t a l E d u c a-

t i o n2004,27(3):29.

[8] S T A L L I N G SW M.M i n dy o u r's a n da l p h a s[J].E d u c a t i o n a l

R e s e a r c h e r,1985,14(9):19.

[9] G O O DPI,H A R D I NJ W.C o m m o n E r r o r s i n S t a t i s t i c s(a n d H o w

t o A v o i dT h e m)[M].H o b o k e n:J o h nWi l e y&S o n s,I n c.,

2003:100.

[10] L L A K O V A CV.S t a t i s t i c a l h y p o t h e s i st e s t i n ga n ds o m ep i t f a l l s

[J].B i o c h e m i aM e d i c a,2009,19(1):10-16.

[11] H A L L E R H,K R A U S SS.M i s i n t e r p r e t a t i o n s o f s i g n i f i c a n c e:A

p r o b l e m s t u d e n t ss h a r ew i t ht h e i rt e a c h e r s?[J].M e t h o d so f

P s y c h o l o g i c a l R e s e a r c h O n l i n e,2002,7(1).

[12] A G R E S T I A,F R A N K L I NC.S t a t i s t i c s:T h e A r t a n dS c i e n c e o f

L e a r n i n gf r o mD a t a[M].N J:P e a r s o n E d u c a t i o n,I n c.,2009.

[13] C O H E NJ.A p o w e r p r i m e r[J].P s y c h o l o g i c a l B u l l e t i n,1992,

112(1).

[14] C O H E NJ.S t a t i s t i c a l P o w e r A n a l y s i s f o r t h e B e h a v i o r a l S c i e n c e s

[M].H i l l s d a l e:L a w r e n c eE r l b a u m A s s o c i a t e s,I n c.1988. [15] WO O D SA,F L E T C H E RP,H U G H E S A.S t a t i s t i c s i nL a n g u a g e

S t u d i e s[M].B e i j i n g:F o r e i g n L a n g u a g e T e a c h i n g a n dR e s e a r c h

P r e s s,2000.

[16] C A R V E RRP.T h e c a s ea g a i n s t s t a t i s t i c a l s i g n i f i c a n c et e s t i n g,

r e v i s i t e d[J].J o u r n a l o f E x p e r i m e n t a l E d u c a t i o n,1993,61

(4):291.

[17] H U B E R T YCJ.O n s t a t i s t i c a l t e s t i n g[J].E d u c a t i o n a l R e s e a r c-

h e r,1987,16(8):7.

S t a t i s t i c a l S i g n i f i c a n c e T e s t i n g:P r o b l e m s a n d R e f l e c t i o n

B A OG u i,X I Y a n

(E n g l i s h D e p a r t m e n t,N a n j i n g U n i v e r s i t y o f T e c h n o l o g y,N a n j i n g210009,C h i n a)

A b s t r a c t:S t a t i s t i c a l s i g n i f i c a n c e t e s t i n g(S S T)i s a c o m m o n l y u s e dw a y o f s t a t i s t i c a l i n f e r e n c e.O w i n g t o i t s o v e r e n t h u s i a s t i c a d o p t i o n

a n da ne x a g g e r a t e dv i e wo f i t s r o l e i nr e s e a r c h,h o w e v e r,S S Th a s l o n g

b e e na b u s e da n dm i s u s e ds om u

c ht h a t i t s o w nv a l i

d i t yh a s

b e e nu n d e r m i n e d.A f t e r d e f i n i n g s u

c hb a s i c p a i r s o f c o n c e p t s i n S S Ta s s a m p l e a n dp o p u l a t i o n,t h i s p a p e r

d i s c u s s

e s s o m e m i s c o n c e p-t i o n s o

f s t a t i s t i c a l i n f e r e n c e b a s e do ns t a t i s t i c a l s i

g n i f i c a n c e a n d n o n-s i g n i f i c a n c e,r e p l i c a t i o n f a l l a c y a s w e l l a s c o n f u s i o n o f s t a t i s t i c a l s i g n i f i c a n c e.T o a d d r e s s t

h e p r o b l e m s,

i t i s e s s e n t i a l t o a p p l y w i t h e f f e c t s i z e t e s t,s t a t i s t i c a l p o w e r t e s t,c o n f i d e n c e i n t e r v a l e s t i m a t i o n o r r e p e t i t i v e r e s e a r c h.

K e y w o r d s:s t a t i s t i c a l s i g n i f i c a n c e t e s t i n g;e f f e c t s i z e;c o n f i d e n c e i n t e r v a l;s t a t i s t i c a l p o w e r

32 南京工程学院学报(社会科学版) 2010年12月

SPSS中的相关分析及假设检验

相关分析及假设检验 spss 1.概念 变量之间相关,但是又不能由一个或几个变量值去完全和唯一确定另一个变量值的这种关系称为相关关系。相关关系是普遍存在的,函数关系仅仅是相关关系的特例。事物之间有相关关系,不一定是因果关系,也可能仅是伴随关系,但是事物之间有因果关系,则两者必然相关。 相关分析用于分析两个随机变量的关系,可以检验两个变量之间的相关度或多个变量两两之间的相关程度,也可以检验 两组变量之间的相关程度 偏相关分析是指在控制了其他变量的效应以后,对两个变量相关程度的分析。、 2.皮尔逊积差相关系数pearson product-moment correlation coefficient 变量之间的相关程度由相关系数来度量,pearson相关系数是应用最广的一种。它用于检验连续型变量之间的线性相关程度 2.1前提假设 1)正态分布皮尔逊积差相关只适用于双元正态分布的变量,即两个变量都是正态分布,注意只有pearson要求正态分布 如果正态分布的前提不满足,两变量间的关系可能属于非线性相关 2)样本独立样本必须来自总体的随机样本,而且样本必须相互独立 3)替换极值变量中的极端值如极值、离群值对相关系数的影响较大,最好加以删除或代之以均值或中数 2.2相关分析的前提假设检验 一般情况下是对是否满足正态分布进行检验,对于正态分布的检验有好几种方法,总的可分为非参数检验和图形检验法 1)非参数检验法 spss中的1-sample K-S检验,检验样本数据是否服从某种特定的分布,方法有三种 a. Asymptotic only 是一种基于渐进分布的显著性水平的检验指标,通常显著性水平小于0.05则认为显著,适用于大样本。如果 样本过小或分布不好,该指标的适用性会降低 b.Monte Carlo 精确显著性水平的无偏估计,适用于样本过大无法使用渐进方法估计显著性水平的情况,可以不必依赖渐近方法的假设前提 c.Exact 精确计算观测结果的概率值,通常小于0.05即被认为显著,表明横变量和列变量之间存在相关,同时允许用户键入每次检验的最长 时间显著,可以键入1到9999999999之间的数字,但只要一次检验超过指定时间的30分钟,就应该用monte carlo 假设是服从某种分布 所以如果计算出的值比如Asymp. Sig 小于0.05,那么拒绝原假设,说明样本为非正态分布,否则值越大越服从某种分布 单样本K-S首先计算每一阶段实际值与观察值的差异值,再计算每一阶段差异值的绝对值Z,即K-S的Z值,Z值越大,样本服从理论分布的可能性越小 还有一个是2 -sample Kolmogorov—Smirnov用于检验2个样本的分布是相同的假设 2)图形法 spss中graph a.Q-Q正态检验图

统计学五几种常见的假设检验

定义 假设检验就是用来判断样本与样本,样本与总体的差异就是由抽样误差引起还就是本质差别造成的统计推断方法。其基本原理就是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还就是接受作出推断。 基本原理 (1)先假设总体某项假设成立,计算其会导致什么结果产生。若导致不合理现象产生,则拒绝原先的假设。若并不导致不合理的现象产生,则不能拒绝原先假设,从而接受原先假设。 (2)它又不同于一般的反证法。所谓不合理现象产生,并非指形式逻辑上的绝对矛盾,而就是基于小概率原理:概率很小的事件在一次试验中几乎就是不可能发生的,若发生了,就就是不合理的。至于怎样才算就是“小概率”呢?通常可将概率不超过0、05的事件称为“小概率事件”,也可视具体情形而取0、1或0、01等。在假设检验中常记这个概率为α,称为显著性水平。而把原先设定的假设成为原假设,记作H0。把与H0相反的假设称为备择假设,它就是原假设被拒绝时而应接受的假设,记作H1。 假设的形式 H0——原假设, H1——备择假设 双侧检验:H0:μ = μ0 , 单侧检验: ,H1:μ < μ0 或, H1:μ > μ0假设检验就就是根据样本观察结果对原假设(H0)进行检验,接受H0,就否定H1;拒绝H0,就接受H1。 假设检验的种类 下面介绍几种常见的假设检验 1、T检验 亦称student t检验(Student's t test),主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。 目的:比较样本均数所代表的未知总体均数μ与已知总体均数μ0。 计算公式:统计量: 自由度:v=n - 1 适用条件: (1) 已知一个总体均数; (2) 可得到一个样本均数及该样本标准误; (3) 样本来自正态或近似正态总体。 T检验的步骤 1、建立虚无假设H0:μ1= μ2,即先假定两个总体平均数之间没有显著差异; 2、计算统计量T值,对于不同类型的问题选用不同的统计量计算方法; 1)如果要评断一个总体中的小样本平均数与总体平均值之间的差异程度,其统计量T值

常用显著性检验.

常用显著性检验 1.t检验 适用于计量资料、正态分布、方差具有齐性的两组间小样本比较。包括配对资料间、样本与均数间、两样本均数间比较三种,三者的计算公式不能混淆。 2.t'检验 应用条件与t检验大致相同,但t′检验用于两组间方差不齐时,t′检验的计算公式实际上是方差不齐时t检验的校正公式。 3.U检验 应用条件与t检验基本一致,只是当大样本时用U检验,而小样本时则用t检验,t检验可以代替U检验。 4.方差分析 用于正态分布、方差齐性的多组间计量比较。常见的有单因素分组的多样本均数比较及双因素分组的多个样本均数的比较,方差分析首先是比较各组间总的差异,如总差异有显著性,再进行组间的两两比较,组间比较用q检验或LST检验等。 5.X2检验 是计数资料主要的显著性检验方法。用于两个或多个百分比(率)的比较。常见以下几种情况:四格表资料、配对资料、多于2行*2列资料及组内分组X2检验。 6.零反应检验 用于计数资料。是当实验组或对照组中出现概率为0或100%

时,X2检验的一种特殊形式。属于直接概率计算法。 7.符号检验、秩和检验和Ridit检验 三者均属非参数统计方法,共同特点是简便、快捷、实用。可用于各种非正态分布的资料、未知分布资料及半定量资料的分析。其主要缺点是容易丢失数据中包含的信息。所以凡是正态分布或可通过数据转换成正态分布者尽量不用这些方法。 8.Hotelling检验 用于计量资料、正态分布、两组间多项指标的综合差异显著性检验。 计量经济学检验方法讨论 计量经济学中的检验方法多种多样,而且在不同的假设前提之下,使用的检验统计量不同,在这里我论述几种比较常见的方法。 在讨论不同的检验之前,我们必须知道为什么要检验,到底检验什么?如果这个问题都不知道,那么我觉得我们很荒谬或者说是很模式化。检验的含义是要确实因果关系,计量经济学的核心是要说因果关系是怎么样的。那么如果两个东西之间没有什么因果联系,那么我们寻找的原因就不对。那么这样的结果是没有什么意义的,或者说是意义不大的。那么检验对于我们确认结果非常的重要,也是评价我们的结果是否拥有价值的关键因素。所以要做统计检验。 t检验,t检验主要是检验单个ols估计值或者说是参数估计值的显著性,什么是显著性?也就是给定一个容忍程度,一个我们可以犯

医学统计学 检验方法

医学统计学检验方法(转) 医学论文中统计方法的正确应用 医用统计方法是医学科研和论文撰写的一个基本工具,但是不少医学科研及临床工作者对统计方法的正确应用缺乏足够的知识,在实际应用过程中常常出现一些不妥用法甚至误用现象。正确使用统计方法,能使研究结果具有科学性和说服力;反之,如果使用不当,不仅不能准确地反映科研结果,而且可能带来错误的结论。 1、所选统计方法脱离了资料的性质不同的资料类型和不同的研究目的采用不同的统计方法。按照资料的性质测定指标的多少,确定资料是计数资料还是计量资料,应用单因素分析还是多因素分析。 1.1 多因素资料是对每个研究对象测量的多个指标同时进行的综合分析,其分析计算过程相对复杂。常用的有回归分析;相关分析以及判别分析、聚类分析、主成分分析和因子分析等。多因素分析多用于计量资料。 1.2 单因素分析应用较多,按获取资料的方法,分计数资料和计量资料。首先,计数资料主要是针对要求某现象的频率和比例,利用率或比的相应计算方法。如做不同样本间的比较则采用计数资料的显著性检验,样本率与总体率的比较用u 检验;两个样本率的比较可用u 检验或四格表的x 检验,多个样本率的比较可用行乘列的卡方检验或2XC 表的卡方检验。其次,计量资料要结合研究目的确定相应的统计方法。对于显著性检验通常有T 检验和F 检验,T 检验是用于两个均数问的比较,按研究设计与比较内容的不同又分为样本均数和总体均数的比较,两个样本均数差别的检验,配对资料的显著性检验。F 检验用于多个样本均数的比较,按设计类型分完全随机设计的方差分析、随机区组设计的方差分析和组内分组资料的方差分析。 2、根据研究目的选用统计分析方法不同的统计方法说明不同的问题,同样不同的问题要应用不同的统计方法来分析和表达。研究者在做统计分析前,首先要明确资料分析的目的、意图是什么,通过分析最终达到什么样的期望,临床工作者科研通常的目的主要有: 2.1 某现象发生的频率或比例如人群中重复癌的发生率,采用频率指标,构成指标或相对比,可计算发病、患病、感染、阳性频率或构成等。

显著性检验(Significance Testing)

显著性检验(Significance T esting) 显著性检验就是事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设(原假设)是否合理,即判断总体的真实情况与原假设是否显著地有差异。或者说,显著性检验要判断样本与我们对总体所做的假设之间的差异是纯属机会变异,还是由我们所做的假设与总体真实情况之间不一致所引起的。 显著性检验是针对我们对总体所做的假设做检验,其原理就是“小概率事件实际不可能性原理”来接受或否定假设。 抽样实验会产生抽样误差,对实验资料进行比较分析时,不能仅凭两个结果(平均数或率)的不同就作出结论,而是要进行统计学分析,鉴别出两者差异是抽样误差引起的,还是由特定的实验处理引起的。 [编辑] 显著性检验的含义 显著性检验即用于实验处理组与对照组或两种不同处理的效应之间是否有差异,以及这种差异是否显著的方法。 常把一个要检验的假设记作H0,称为原假设(或零假设) (null hypothesis) ,与H0对立的假设记作H1,称为备择假设(alternative hypothesis) 。 ⑴在原假设为真时,决定放弃原假设,称为第一类错误,其出现的概率通常记作α; ⑵在原假设不真时,决定接受原假设,称为第二类错误,其出现的概率通常记作β。 通常只限定犯第一类错误的最大概率α,不考虑犯第二类错误的概率β。这样的假设检验又称为显著性检验,概率α称为显著性水平。 最常用的α值为0.01、0.05、0.10等。一般情况下,根据研究的问题,如果犯弃真错误损失大,为减少这类错误,α取值小些,反之,α取值大些。 [编辑] 显著性检验的原理 无效假设

相关系数检验表

自由度自由度n -m -10.10 0.05 0.01 n -m -10.10 0.05 0.01 10.987690.996920.999882010.018230.010910.0028820.900000.950000.990002020.050680.043320.0258130.805380.878340.958742030.068740.066150.0518940.729300.811400.917202040.079150.080690.0725350.669440.754490.874532050.085730.090380.0880760.621490.706730.834342060.090190.097180.0998670.582210.666380.797682070.093370.102170.1089880.549360.631900.764592080.095730.105950.1161890.521400.602070.734792090.097520.108880.12197100.497260.575980.707892100.098910.111200.12670110.476160.552940.683532110.100010.113070.13062120.457500.532410.661382120.100890.114600.13390130.440860.513980.641142130.101600.115860.13667140.425900.497310.622592140.102170.116900.13903150.412360.482150.605512150.102640.117770.14106160.400030.468280.589712160.103020.118500.14281170.388730.455530.575072170.103320.119110.14432180.378340.443760.561442180.103560.119620.14564190.368740.432860.548712190.103760.120060.14679200.359830.422710.536802200.103910.120420.14780210.351530.413250.525622210.104020.120720.14869220.343780.404390.515102220.104100.120970.14946230.336520.396070.505182230.104160.121170.15015240.329700.388240.495812240.104190.121340.15075250.323280.380860.486932250.104200.121470.15127260.317220.373890.478512260.104190.121570.15173270.311490.367280.470512270.104170.121640.15214280.306060.361010.462892280.104130.121690.15249290.300900.355050.455632290.104080.121720.15279300.295990.349370.448702300.104020.121730.15306310.291320.343960.442072310.103950.121730.15328320.286860.338790.435732320.103870.121700.15348330.282590.333840.429652330.103780.121670.15364340.278520.329110.423812340.103680.121620.15377350.274610.324570.418212350.103580.121560.15388360.270860.320220.412822360.103470.121490.15396370.267270.316030.407642370.103360.121410.15403380.263810.312010.402642380.103240.121320.15407390.260480.308130.397822390.103120.121220.15409400.257280.304400.393172400.103000.121120.15410410.254190.300790.388682410.102870.121010.1541042 0.251210.297320.38434242 0.102740.120900.15408 显著性水平(a ) 显著性水平(a ) 相关系数检验临界值表

医学统计学检验方法

医学统计学检验方法(转) 医学论文中统计方法的正确应用 医用统计方法是医学科研和论文撰写的一个基本工具,但是不少医学科研及临床工作者对统计方法的正确应用缺乏足够的知识,在实际应用过程中常常出现 一些不妥用法甚至误用现象。正确使用统计方法,能使研究结果具有科学性和说服力;反之,如果使用不当,不仅不能准确地反映科研结果,而且可能带来错误的结论。 1、所选统计方法脱离了资料的性质不同的资料类型和不同的研究目的采用不同的统计方法。按照资料的性质测定指标的多少,确定资料是计数资料还是计量资料,应用单因素分析还是多因素分析。 1.1多因素资料是对每个研究对象测量的多个指标同时进行的综合分析,其分析计算过程相对复杂。常用的有回归分析;相关分析以及判别分析、聚类分析、 主成分分析和因子分析等。多因素分析多用于计量资料。 1.2单因素分析应用较多,按获取资料的方法,分计数资料和计量资料。首 先,计数资料主要是针对要求某现象的频率和比例,利用率或比的相应计算方法。如做不同样本间的比较则采用计数资料的显著性检验,样本率与总体率的比较用 u检验;两个样本率的比较可用u检验或四格表的x检验,多个样本率的比较可用行乘列的卡方检验或2XC表的卡方检验。其次,计量资料要结合研究目的确定相应的统计方法。对于显著性检验通常有T检验和F检验,T检验是用于两个均数问的比较,按研究设计与比较内容的不同又分为样本均数和总体均数的比较,两个样本均数差别的检验,配对资料的显著性检验。F检验用于多个样本均数的比较,按设计类型分完全随机设计的方差分析、随机区组设计的方差分析和组内分组资料的方差分析。 2、根据研究目的选用统计分析方法不同的统计方法说明不同的问题,同样不同的问题要应用不同的统计方法来分析和表达。研究者在做统计分析前,首先要明确资料分析的目的、意图是什么,通过分析最终达到什么样的期望,临床工作者科研通常的目的主要有: 2.1某现象发生的频率或比例如人群中重复癌的发生率,采用频率指标,构成指标或相对比,可计算发病、患病、感染、阳性频率或构成等。

显著性检验卡方检验等

第十章 研究资料的整理与分析 本章学习目标: 1.理解量化资料整理与分析中的几个基本概念。 2.掌握几种常用的量化分析方法。 3.掌握质性资料的整理分析方法。 无论采用什么研究方法进行研究,都会搜集到大量的、杂乱的、复杂的研究资料。因此,对大量的、复杂的研究资料进行科学、合理的整理和分析,就成为教育科学研究活动的必不可少的一个环节。这一环节体现着研究者的洞见,是研究者对研究资料进行理性思维加工的过程。通过这一过程,产出研究结果。 根据研究资料的性质,研究资料可以分为质性研究资料和量化研究资料。对研究资料的整理和分析就相应的分为:质性研究资料的整理与分析和量化资料的整理与分析。 第一节 定量资料的整理与分析 一、定量资料分析中的几个基本概念 1.随机变量 在相同条件下进行试验或观察,其可能结果不止一个,而且事先无法确定,这类现象称为随机现象。表示随机现象中各种可能结果(事件)的变量就称为随机变量。教育研究中的变量,大多数都是随机变量。如身高、智商、学业测验分数等。 2.总体和样本 总体是具有某种或某些共同特征的研究对象的总和。样本是总体中抽出的部分个体,是直接观测和研究的对象。例如,要研究西安市5岁儿童的智力发展问题,西安市的5岁儿童就是研究的总体,从中抽取500名儿童,这500名儿童就成为研究的样本。 3.统计量和参数 统计量:反映样本数据分布特征的量称为统计量。例如:样本平均数、样本标准差、样本相关系数等,都属于统计量,它们分别用 表示。统计 量一般是根据样本数据直接计算而得出的。 参数:反映总体数据分布特征的量称为参数。例如:总体平均数、总体标准差、总体相关系数等。它们分别用ρσμ,,等符号来表示。总体参数常常需要根据样本统计量进行估计和推断。 4.描述统计与推断统计 描述统计是指对获得的杂乱的数据进行分类、整理和概括,以揭示一组数据

统计学常用检验方法

统计中经常会用到各种检验,如何知道何时用什么检验呢,根据结合自己的工 作来说一说: t检验有单样本t检验,配对t检验和两样本t检验。单样本t检验:是用样本均数代表的未知总体均数和已知总体均数进行比较,来观察此组样本与总体的差异性。配对t检验:是采用配对设计方法观察以下几种情形,1,两个同质受试对 象分别接受两种不同的处理;2,同一受试对象接受两种不同的处理;3,同一受 试对象处理前后。 u检验:t检验和就是统计量为t,u的假设检验,两者均是常见的假设检验方法。当样本含量n较大时,样本均数符合正态分布,故可用u检验进行分析。当样 本含量n小时,若观察值x符合正态分布,则用t检验(因此时样本均数符合t 分布),当x为未知分布时应采用秩和检验。F检验又叫方差齐性检验。在两样本t检验中要用到F检验。从两研究总体中随机抽取样本,要对这两个样本进行比较的时候,首先要判断两总体方差是否相同,即方差齐性。若两总体方差相等,则直接用t检验,若不等,可采用t'检验或变量变换或秩和检验等方法。其中要判断两总体方差是否相等,就可以用F检验。 简单的说就是检验两个样本的方差是否有显著性差异这是选择何种T检验(等方差双样本检验,异方差双样本检验)的前提条件。 在t检验中,如果是比较大于小于之类的就用单侧检验,等于之类的问题就用双侧检验。 卡方检验 是对两个或两个以上率(构成比)进行比较的统计方法,在临床和医学实验中应用十分广泛,特别是临床科研中许多资料是记数资料,就需要用到卡方检验。 方差分析 用方差分析比较多个样本均数,可有效地控制第一类错误。方差分析(analysis of variance,ANOVA)由英国统计学家,以F命名其统计量,故方差分析又称F检验。其目的是推断两组或多组资料的总体均数是否相同,检验两个或多个样本均数的差异是否有统计学意义。我们要学习的主要内容包括 单因素方差分析即完全随机设计或成组设计的方差分析(one-way ANOVA): 用途:用于完全随机设计的多个样本均数间的比较,其统计推断是推断各样本所代表的各总体均数是否相等。完全随机设计(completely random design)不考虑个体差异的影响,仅涉及一个处理因素,但可以有两个或多个水平,所以亦称单因素实验设计。在实验研究中按随机化原则将受试对象随机分配到一个处理因素的多个水平中去,然后观察各组的试验效应;在观察研究(调查)中按某个研究因素的不同水平分组,比较该因素的效应。 两因素方差分析即配伍组设计的方差分析(two-way ANOVA): 用途:用于随机区组设计的多个样本均数比较,其统计推断是推断各样本所代表的各总体均数是否相等。随机区组设计考虑了个体差异的影响,可分析处理因素和个体差异对实验效应的影响,所以又称两因素实验设计,比完全随机设计的检验效率高。该设计是将受试对象先按配比条件配成配伍组(如动物实验时,可按同窝别、同性别、体重相近进行配伍),每个配伍组有三个或三个以上受试对象,再按随机化原则分别将各配伍组中的受试对象分配到各个处理组。值得注意的是,同一受试对象不同时间(或部位)重复多次测量所得到的资料称为重复测量数据

计量经济学-期末考试-简答题

计量经济学期末考试简答题 1.简述计量经济学与经济学、统计学、数理统计学学科间的关系。 2.计量经济模型有哪些应用? 3.简述建立与应用计量经济模型的主要步骤。 4.对计量经济模型的检验应从几个方面入手? 5.计量经济学应用的数据是怎样进行分类的? 6.在计量经济模型中,为什么会存在随机误差项? 7.古典线性回归模型的基本假定是什么? 8.总体回归模型与样本回归模型的区别与联系。 9.试述回归分析与相关分析的联系和区别。 10.在满足古典假定条件下,一元线性回归模型的普通最小二乘估计量有哪些统计性质?11.简述BLUE的含义。 12.对于多元线性回归模型,为什么在进行了总体显著性F检验之后,还要对每个回归系数进行是否为0的t检验? 13.给定二元回归模型:,请叙述模型的古典假定。 14.在多元线性回归分析中,为什么用修正的决定系数衡量估计模型对样本观测值的拟合优度? 15.修正的决定系数及其作用。 16.常见的非线性回归模型有几种情况? 17. 18观察下列方程并判断其变量是否呈线性,系数是否呈线性,或都是或都不是。 19.什么是异方差性?试举例说明经济现象中的异方差性。 20.产生异方差性的原因及异方差性对模型的OLS估计有何影响。 21.检验异方差性的方法有哪些? 22.异方差性的解决方法有哪些? 23.什么是加权最小二乘法?它的基本思想是什么? 24.样本分段法(即戈德菲尔特——匡特检验)检验异方差性的基本原理及其使用条件。25.简述DW检验的局限性。 26.序列相关性的后果。 27.简述序列相关性的几种检验方法。 28.广义最小二乘法(GLS)的基本思想是什么? 29.解决序列相关性的问题主要有哪几种方法? 30.差分法的基本思想是什么? 31.差分法和广义差分法主要区别是什么? 32.请简述什么是虚假序列相关。 33.序列相关和自相关的概念和范畴是否是一个意思? 34.DW值与一阶自相关系数的关系是什么? 35.什么是多重共线性?产生多重共线性的原因是什么? 36.什么是完全多重共线性?什么是不完全多重共线性? 37.完全多重共线性对OLS估计量的影响有哪些? 38.不完全多重共线性对OLS估计量的影响有哪些? 39.从哪些症状中可以判断可能存在多重共线性? 40.什么是方差膨胀因子检验法? 41.模型中引入虚拟变量的作用是什么? 42.虚拟变量引入的原则是什么? 43.虚拟变量引入的方式及每种方式的作用是什么? 44.判断计量经济模型优劣的基本原则是什么? 45.模型设定误差的类型有那些? 46.工具变量选择必须满足的条件是什么? 47.设定误差产生的主要原因是什么? 48.在建立计量经济学模型时,什么时候,为什么要引入虚拟变量? 49.估计有限分布滞后模型会遇到哪些困难 50.什么是滞后现像?产生滞后现像的原因主要有哪些? 51.简述koyck模型的特点。 52.简述联立方程的类型有哪几种 53.简述联立方程的变量有哪几种类型

统计学分析方法

统计分析方法总结 分享 胡斌 00:06分享,并说:统计 1.连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。 1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验,如Wilcoxon检验。 1.1.3 资料方差不齐,(1)采用Satterthwate 的t’检验;(2)采用非参数检验,如Wilcoxon检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布,采用配对t检验。 1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。 1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal-Wallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用成组的Wilcoxon检验。 1.4 多组随机区组样本比较 1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。 1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni 法校正P值,然后用符号配对的Wilcoxon检验。 ****需要注意的问题: (1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。 (2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。**绝不能对其中的两组直接采用t检验,这样即使得出结果也未必正确** (3)关于常用的设计方法:多组资料尽管最终分析都是采用方差分析,但不同设计会有差别。常用的设计如完全随即设计,随机区组设计,析因设计,裂区设计,嵌套设计等。 2.分类资料

显著性检验

一、计量资料的常用统计描述指标 1.平均数平均数表示的是一组观察值(变量值)的平均水平或集中趋势。平均数 计算公式: 式中:X为变量值、Σ为总和,N为观察值的个数。 2.标准差(S) 标准差表示的是一组个体变量间的变异(离散)程度的大小。S愈小,表示观察值的变异程度愈小,反之亦然,常写成。标准差计算公式: 式中:∑X2 为各变量值的平方和,(∑X)2为各变量和的平方,N-1为自由度3.标准误(S?x)标准误表示的是样本均数的标准差,用以说明样本均数的分布情况,表示和估量群体之间的差异,即各次重复抽样结果之间的差异。S?x愈小,表示抽样误差愈小,样本均数与总体均数愈接近,样本均数的可靠性也愈大,反之亦然,常写 作。标准误计算公式: 三、显著性检验 抽样实验会产生抽样误差,对实验资料进行比较分析时,不能仅凭两个结果(平均数或率)的不同就作出结论,而是要进行统计学分析,鉴别出两者差异是抽样误差引起的,还是由特定的实验处理引起的。 1.显著性检验的含义和原理显著性检验即用于实验处理组与对照组或两种不同处理的效应之间是否有差异,以及这种差异是否显著的方法。 2.无效假设显著性检验的基本原理是提出“无效假设”和检验“无效假设”成立的机率(P)水平的选择。所谓“无效假设”,就是当比较实验处理组与对照组的结果时,假设两组结果间差异不显著,即实验处理对结果没有影响或无效。经统计学分析后,如发现两组间差异系抽样引起的,则“无效假设”成立,可认为这种差异为不显著(即实验处理无效)。若两组间差异不是由抽样引起的,则“无效假设”不成立,可认为这种差异是显著的(即实验处理有效)。 3.“无效假设”成立的机率水平检验“无效假设”成立的机率水平一般定为5%(常写为p≤0.05),其含义是将同一实验重复100次,两者结果间的差异有5次以上是由抽样误差造成的,则“无效假设”成立,可认为两组间的差异为不显著,常记为p>0.05。若两者结果间的差异5次以下是由抽样误差造成的,则“无效假设”不成立,可认为两组间的差异为显著,常记为p≤0.05。如果p≤0.01,则认为两组间的差异为非常显著。 (一)计量资料的显著性检验 1.t 检验 (1)配对资料(实验前后)的比较假设配对资料差数的总体平均数为零。其计算公

相关系数显著性检验表完整版

附表11(1)相关系数界值表 P(2): 0.50 0.20 0.10 0.05 0.02 0.01 0.005 0.002 0.001 P(1): 0.25 0.10 0.05 0.025 0.01 0.005 0.0025 0.001 0.0005 1 0.707 0.951 0.988 0.997 1.000 1.000 1.000 1.000 1.000 2 0.500 0.800 0.900 0.950 0.980 0.990 0.995 0.998 0.999 3 0.40 4 0.687 0.80 5 0.878 0.934 0.959 0.974 0.98 6 0.991 4 0.347 0.603 0.729 0.811 0.882 0.917 0.942 0.963 0.974 5 0.309 0.551 0.669 0.755 0.833 0.875 0.90 6 0.935 0.951 6 0.281 0.50 7 0.621 0.707 0.789 0.834 0.870 0.905 0.925 7 0.260 0.472 0.582 0.666 0.750 0.798 0.836 0.875 0.898 8 0.242 0.443 0.549 0.632 0.715 0.765 0.805 0.847 0.872 9 0.228 0.419 0.521 0.602 0.685 0.735 0.776 0.820 0.847 10 0.216 0.398 0.497 0.576 0.658 0.708 0.750 0.795 0.823 11 0.206 0.380 0.476 0.553 0.634 0.684 0.726 0.772 0.801 12 0.197 0.365 0.457 0.532 0.612 0.661 0.703 0.750 0.780 13 0.189 0.351 0.441 0.514 0.592 0.641 0.683 0.730 0.760 14 0.182 0.338 0.426 0.497 0.574 0.623 0.664 0.711 0.742 15 0.176 0.327 0.412 0.482 0.558 0.606 0.647 0.694 0.725 16 0.170 0.317 0.400 0.468 0.542 0.590 0.631 0.678 0.708 17 0.165 0.308 0.389 0.456 0.529 0.575 0.616 0.622 0.693 18 0.160 0.299 0.378 0.444 0.515 0.561 0.602 0.648 0.679 19 0.156 0.291 0.369 0.433 0.503 0.549 0.589 0.635 0.665 20 0.152 0.284 0.360 0.423 0.492 0.537 0.576 0.622 0.652 21 0.148 0.277 0.352 0.413 0.482 0.526 0.565 0.610 0.640 22 0.145 0.271 0.344 0.404 0.472 0.515 0.554 0.599 0.629 23 0.141 0.265 0.337 0.396 0.462 0.505 0.543 0.588 0.618 24 0.138 0.260 0.330 0.388 0.453 0.496 0.534 0.578 0.607 25 0.136 0.255 0.323 0.381 0.445 0.487 0.524 0.568 0.597 26 0.133 0.250 0.317 0.374 0.437 0.479 0.515 0.559 0.588 27 0.131 0.245 0.311 0.367 0.430 0.471 0.507 0.550 0.579 28 0.128 0.241 0.306 0.361 0.423 0.463 0.499 0.541 0.570 29 0.126 0.237 0.301 0.355 0.416 0.456 0.491 0.533 0.562 30 0.124 0.233 0.296 0.349 0.409 0.449 0.484 0.526 0.554 31 0.122 0.229 0.291 0.344 0.403 0.442 0.477 0.518 0.546 32 0.120 0.226 0.287 0.339 0.397 0.436 0.470 0.511 0.539 33 0.118 0.222 0.283 0.334 0.392 0.430 0.464 0.504 0.532 34 0.116 0.219 0.279 0.329 0.386 0.424 0.458 0.498 0.525 35 0.115 0.216 0.275 0.325 0.381 0.418 0.452 0.492 0.519 36 0.113 0.213 0.271 0.320 0.376 0.413 0.446 0.486 0.513 37 0.111 0.210 0.267 0.316 0.371 0.408 0.441 0.480 0.507 38 0.110 0.207 0.264 0.312 0.367 0.403 0.435 0.474 0.501 39 0.108 0.204 0.261 0.308 0.362 0.398 0.430 0.469 0.495 40 0.107 0.202 0.257 0.304 0.358 0.393 0.425 0.463 0.490 41 0.106 0.199 0.254 0.301 0.354 0.389 0.420 0.458 0.484 42 0.104 0.197 0.251 0.297 0.350 0.384 0.416 0.453 0.479 43 0.103 0.195 0.248 0.294 0.346 0.380 0.411 0.449 0.474

01第一节 显著性检验的基本原理

第一节显著性检验的基本原理 一、显著性检验的意义 为了便于理解,我们结合一个具体例子来说明显著性检验的意义。随机抽测10头长白猪和10头大白猪经产母猪的产仔数,资料如下: 长白:11,11,9,12,10,13,13,8,10,13 大白:8,11,12,10,9,8,8,9,10,7 经计算,得长白猪10头经产母猪产仔平均数=11头,标准差S1=1.76头;大白猪10头经产母猪产仔平均数=9.2头,标准差S2=1.549头。能否仅凭这两个平均数的差值-=1.8头,立即得出长白与大白两品种经产母猪产仔数不同 的结论呢?统计学认为,这样得出的结论是不可靠的。这是因为如果我们再分别随机抽测10头长白猪和10头大白猪经产母猪的产仔数,又可得到两个样本资料。由于抽样误差的随机性,两样本平均数就不一定是11头和9.2头,其差值也不一定是1.8头。造成这种差异可能有两种原因,一是品种造成的差异,即是长白猪与大白猪本质不同所致,另一可能是试验误差(或抽样误差)。对两个样本进行比较时,必须判断样本间差异是抽样误差造成的,还是本质不同引起的。如何区分两类性质的差异?怎样通过样本来推断总体?这正是显著性检验要解决的 问题。 两个总体间的差异如何比较?一种方法是研究整个总体,即由总体中的所有个体数据计算出总体参数进行比较。这种研究整个总体的方法是很准确的,但常常是不可能进行的,因为总体往往是无限总体,或者是包含个体很多的有限总体。因此,不得不采用另一种方法,即研究样本,通过样本研究其所代表的总体。例如,设长白猪经产母猪产仔数的总体平均数为,大白猪经产母猪产仔数的总体平 均数为,试验研究的目的,就是要给、是否相同做出推断。由于总体平 均数、未知,在进行显著性检验时只能以样本平均数、作为检验对象,更确切地说,是以(-)作为检验对象。 为什么以样本平均数作为检验对象呢?这是因为样本平均数具有下述特征: 1、离均差的平方和∑(-)2最小。说明样本平均数与样本各个观测值最接近,平均数是资料的代表数。 2、样本平均数是总体平均数的无偏估计值,即E()=μ。

住院医师培训课程-常用医学科研中的统计学方法1

1、两组数据中的每个变量值减去同一常数后做两个样本均数差异的t检验() *c ? A.t值变小 ? B.t值变大 ? C.t值不变 ? D.t值变小或变大 2、作单组样本均数与一个已知的总体均数比较的t检验时,正确的理解是() *c ? A.A.统计量t越大,说明两总体均数差别越大 ? B.B.统计量t越大,说明两总体均数差别越小 ? C.C.统计量t越大,越有理由认为两总体均数不相等 ? D.D.P值就是αa 3、随机区组设计的方差分析用于() * ? A.多个样本均数间的两两比较 ? B.比较各个区组间的样本均数有无差别 ? C.比较各个区组间的总体均数有无差别 ? D.比较各个处理组间的样本均数有无差别 4、各组数据方差不齐时,可以做() *D ? A.近似检验 ? B.秩和检验 ? C.数据转换 ? D.ABC均可 5、第I类错误的概念是() *D ? A.H0是不对的,统计检验结果未拒绝H0 ? B.H0是对的,统计检验的结果未拒绝H0 ? C.H0是不对的,统计检验结果拒绝H0 ?

6、下列哪种说法是错误的() *B ? A.计算相对数尤其是率时应有足够数量的观察单位数或观察次数 ? B.分析大样本数据时可以构成代替率 ? C.应分别将分子和分母合计求合计率或平均率 ? D.相对数的比较应注意其可比性 7、配对计量资料进行假设检验时() *Dd ? A.仅能用配对t检验 ? B.仅能用成组t检验 ? C.仅能用随机区组设计的方差分析 ? D.用配比t检验和随机区组设计的方差分析均可 8、方差分析的前提条件是() *A ? A.计量资料非参数统计的 ? B.正态性 ? C.随机性 ? D.方差齐性 9、设配对设计资料的变量为X1与X2,则配对设计的符号的秩检验() *B ? A.把X1与X2的差数军队之从小到大编秩,排好后秩次保持原差数的正负号 ? B.把X1与X2的差数绝对值从小到大编秩,秩次不保存正负号 ? C.把X1与X2综合按绝对值从小到大编秩 ? D.把X1与X2的差数从小到大编秩 10、对于配对t检验和成组t检验,下列哪一种说法是错误的() *B ? A.对于配对设计资料应作配对t检验,如果作成组t检验,不但不合理,而且平均起来统计效率降低 ? B.成组设计的资料用配对t检验,不但合理,而且平均起来可以提高统计效率 ? C.成组设计的资料,无法用配对t配对t检验 ?

统计分析方法适用条件

统计分析方法适用条件 统计学方法一直以来都是我们专业的必修课,也是我们的基本功,可是现在滥用方法 的人很多,现在总结一些前人的资料供大家参考学习! 1.连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。 1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验,如Wilcoxon检验。 1.1.3 资料方差不齐,(1)采用Satterthwate 的t’检验;(2)采用非参数检验, 如Wilcoxon检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布,采用配对t检验。 1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检 验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni 法,tukey法,Scheffe法,SNK法等。 1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal- Wallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni 法校正P值,然后用成组的Wilcoxon检验。 1.4 多组随机区组样本比较 1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检 验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni 法,tukey法,Scheffe法,SNK法等。 1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon检验。 ****需要注意的问题:

相关文档
最新文档