第一节 方差分析原理

第一节 方差分析原理
第一节 方差分析原理

第一节方差分析原理

一、方差分析基本思想

方差分析(analysis of variance,或缩写ANOVA)又称变异数分析,是一种应用非常广泛的统计方法。其主要功能是检验两个或多个样本平均数的差异是否有统计学意义,用以推断它们的总体均值是否相同。它是真正用来进行上述“多组比较”问题的正确方法,从这个意义上说,它可看成是t检验等“两组比较法”的推广。理解方差分析的原理,主要在于其基本思想,而不在于数学推导。

以单因素完全随机化实验设计为例(这是最简单的多组实验设计)介绍方差分析的原理。注意下面列出的该种设计的数学模式,假设有k 个处理,每个处理下有n 个被试,一共有nk 个被试。K个处理下的数据构成比较中的k个组或k个样本。

不失一般地,其对应的图示如下:

根据测量学中的真分数理论,观测值等于真值和误差之和;据此,对照上面的数据可得到下面的数学模型:

其中:

X ij指第j 个处理下的第i 个被试的实验数据;

μ指总体均值;在图中样本数据中,即红色线表示的总平均;

μj指第j 个处理的均值;

τj称为第j 个处理的效应;通常,τj=μj–μ,也即各组均值偏离总平均的离差;

εij为随机误差(idd表示误差独立同分布);在该模型中,误差就是各组中数据偏离其组均值的离差。因为根据单因素完全随机化设计的特点,同组中的被试,其各方面条件都相同,接受的处理也相同,其观测值间的差异只能归结为随机误差。

首先对检验的零假设进行变换:

下面我们就需要构造一个统计量使得它在Ho"下无未知量且有精确的分布,以进行假设检验。由于τ2j是每个处理的平均数与总平均之差,所以我们考虑从数据的离均差的平方入手来构造统计量:

对每个观测数据:

即:任意一个数据与总平均数的离差= 该数与所在组平均数的离差+ 所在组的平均数与总平均数的离差。

我们针对第j 组中每个数据的上述分解式的平方求和得:

再对所有组求和得:

显然,上式左端的表达式就是将所有k个样本数据混在一起时所得总方差的分子部分,称总平方和,记为SSt(sum of square, total);右端第一式是在各组内计算得到的各组方差的分子部分,由于它度量的实际上是所有数据与其所在组均值的离差平方和,故称之为组内平方和,记为SSw(within group),根据上述的模型,它的含义也就是误差平方和;右端第二式度量的是各组的效应平方和,称组间平方和(之所以有n倍,是因为每组中的效应被重复累加了n次),记为SSb(between group)。

上式简记为:SSt = SSb + SSw。此公式是和上述单因素完全随机化设计的数学模型相对应的。接下来的问题实际上是利用F检验进行方差比检验,即比较组间变异(方差或均方)和组内变异的相对大小。因此,分别将上述平方和比各自的自由度得到组间方差(记为MSb)和组内方差(记为MSw或MSe)。方差分析假定各处理方差相等,则各处理样本的方差

S21、S22,…,S2m都是处理总体方差σ2的无偏估计量。各处理方差合成后估计精度更高(下式)。同时,MSb也是σ2的无偏估计量。则有:

直观地看,要检验的就是F值是否显著地大于1,若大于1,说明组间变异中尚存在随机误差之外的显著变异;否则说明组间变异和随机误差差不多,也即接受无差异零假设。

从上面的推导过程看到,方差分析实际上是将实验数据的总变异分解成若干个不同来源的分量(对于单因素完全随机化实验设计来说是分解成组间差异所引起的变异和组内误差所引起的变异),即将总的离均差平方和分解成几个不同来源的平方和,然后比较我们研究的那些因素所引起的变异与误差变异的显著性。其核心一是根据具体实验设计确定变异源分解模型;二是构造方差比进行F检验。

二、方差分析的基本条件

进行方差分析时有一定的条件限制,数据必须满足以下几个基本假定:

总体正态性。要求样本必须来自正态分布总体,而总体是否服从正态分布可以采用卡方检验中的拟合性检验进行判断(参见第八章有关内容)。不过在心理与教育研究领域中,大

多数变量是可以假定其总体服从正态分布的,因此一般在进行方差分析时并不需要去检验总体分布的正态性;而且研究表明数据正态性对于方差分析结果的影响不是太大。

方差齐性。在前面的推导过程中,将MSw 作为总体组内方差的估计值,而计算MSw 时相当于将各处理(组)方差合成,这种合成正如T 检验一节所讲一样,显然要求一个前提就是各组的方差无显著的差异。方差齐性检验有许多方法,如教材介绍的哈特莱(Hartley)法、Levene氏方差齐性检验等。

第二节两类单因数方差分析

作为方差分析的基础,首先要了解实验设计的有关知识。方差分析法的复杂之处在于不同的实验设计,其方差分析过程可能是不同的。如上所述,不同的实验设计,方差分析过程的首要区别是因变量总变异的分解方式不同,所关心的效应种类不同;而在构造方差比计算F 值时总是以被检验因素或效应的均方(如上面的组间均方)作分子,以误差均方作分母(单侧检验)。所有形式的方差分析都是如此。有几个可能的效应,就应当进行几次F检验,每次检验的F统计量中的误差均方可能不尽相同。

一、实验设计基本概念

1、自变量、因变量、无关变量、随机误差

自变量(independent variable)是研究者可以系统地改变或操纵的变量。自变量可以是被试自身的条件,如年龄、智力,也可以是外在环境的刺激,如学习材料、光线的强度、教学方法、错觉实验中的夹角,还可以是用来预测其它行为的行为——高中的学业成绩来预测大学的成绩。

在方差分析中也称自变量为因素或因子(factor),通常方差分析只能处理名义型的质量因子,如性别、教学方法等;若自变量为等距或等比类型的数量因子,如光线的强度、夹角等,通常可以在具体实验中将其人为地只取几个代表值,转化成质量因子。而对于完全连续型的数量因子则必须借助于协方差分析(analysis of covariance,ANCOVA)。

因变量(dependent variable)是实验中加以精确测量以便决定自变量效应的变量,即由自变量引起的实验体的变化。比如成绩、遗忘量、错觉量,反应时等。

无关变量(irrelevant variable)是自变量以外的其它可能引起因变量变化的变量。

随机误差(random error)在这里定义成测量或实验所得的分数与真分数之间的差异。如以同一智力测验对同一个体测量数次或对同一个体施以不同智力测验,所测结果不尽相同,在理论上该个体的真智力只有一个分数,而测得的却有数个分数,测得分数与真分数之间的差异,即为随机误差。

上述四个概念之间的关系可以表示为:因变量=F(自变量,无关变量)+随机误差。这可看成是真分数理论的推广。

2、因素的水平和实验处理

因素的水平(level)指每一个特定取值,在实验中也就是各实验组。注意:因素的水平与一个实验中因素的个数之间的区别。不能把夹角的三个水平当成实验中的三个因素。

实验处理(treatment)指实验中一个特定的、独特的实验条件,它一般是各个因素的所有水平的交叉组合。一个处理就代表一个总体,每个处理下收集的数据就是该总体的一个样本。下例是研究夹角与错觉量之间关系的实验,实验中考虑三个因素:夹角,性别,光线的强弱,一共有3×2×2=12个处理。

在实验中若只有一个因素,则水平也就是处理。

3、实验设计的分类

可以简单地以自变量的多少分:单因素、二因素和多因素;也可以按照实验控制无关变量的多少分:

①完全随机化实验设计

通过随机分配被试给各个实验处理(每个处理下的被试数最好相等,至少有2名),以期实现各个处理下的被试在统计上无差异,它不能分解出无关变量对因变量的影响,只是在理论上使所有无关变量对各处理的影响相等。

完全随机化实验设计中的“完全”指的是将被试分配给所有处理,“随机”指的是将所有被试随机分配。

②随机化完全区组设计

将被试按某一无关变量的不同水平分成若干个组,这种组就叫做区组,区组是相对于实验组而言的,各组内各被试在该无关变量上的大小相同。如要班主任不同对学生数学成绩的影响实验中,被试以前的数学成绩是一个无关变量,它会影响到实验的最终结果,因此我们可以把学生以前的数学成绩作为标准对学生进行分组。假如以前的数学成绩用四级评分来表示,则可以将被试分成四个组(最好各个组内的人数相等),然后再将每个组的被试按完全随机化实验设计那样随机地分配给各个处理。

随机化完全区组设计中的“随机”指的每个区组内的被试随机地分配各个处理,“完全”

指的是在每一个区组中的被试要分配给所有的处理,若没能分配给所有的处理,则称为不完全区组设计。随机化完全区组设计通常要求无关变量与实验中的因素无交互作用、互不影响。实际上一般的区组设计方差分析也无法分解出其与因素的交互作用。

③拉丁方设计

区组设计的推广,可以控制两个无关变量的的实验设计,被试在分给实验处理前要按照两个无关变量重新分组。

此外还可按照被试接受处理的多少来分:

①被试间实验设计(between subject design)

指每个被试只接受一个处理,即只在一个实验条件下做实验。前面所举的的例子都是被试间设计。注意,完全随机化设计必然是被试间设计,而教材上所举的区组设计的例子多半为被试内设计的特殊情况,实际上,区组设计就其本质特点而言不是被试内设计,而是强调在完全随机化设计基础上,按照另一个无关变量对原先的被试重新进行排序分组。在原先的处理组中,所有被试是不加区分的,现在则要按无关变量分组。因此它并不能像被试内设计一样节省被试。

②被试内实验设计(within subject design)

是一种控制误差非常严格的实验设计,指每个被试接受所有的处理,即相当于以单个被试为区组,可以排除许多与个体差异有关的无关变量的影响,这样实验组之间的差异除了被试在接受各处理时产生的随机波动外,就只能归因于处理的不同了。被试内设计中也存在随机化,即对每个被试接受处理的顺序进行随机化。

这种实验设计可最大限度地控制个体差异的影响,这是其相对于被试间设计的优点。但这种设计要求处理对被试没有长期影响,如学习和疲劳效应。被试内设计还有一个好处就是能最大限度节省被试(处理下重复或数据个数相同的情况下)。

③混合设计(mixed design)

在多因素设计中,可以安排某些因素作为被试间变量,另一些因素作为被试内变量,这就是混合设计。下表的设计中,每个被试接受了每种夹角下的实验,但是1-20号被试只接受强光线下的实验,21-40号被试只接受弱光线下的实验,他们都没有接受所有光线条件下的实验。

那些每个被试接受了其下所有处理的因素就是被试内因素(夹角),每个被试只接受其下一种水平的因素即被试间因素(光线强度)。

混合设计可以兼顾上述两种设计的优缺点,在使用的被试数量上也介于上面两种设计之间。

二、单因素完全随机化实验设计方差分析的步骤

上述基本原理中采用的就是单因素完全随机化的例子。这里对方差分析的步骤做一总结。假设自变量下有k 个水平,也即有k 个处理,每个水平下有n 个被试,一共有nk 个被试被随机地分配给k 个处理。

①平方和的分解和计算

其中的SSt、SSb的计算第二项叫做校正项。

②自由度的分解和计算

③计算F统计量

④根据显著性水平α,查单侧F 分布表,得到临界值,进行统计决策(F统计量>临界值则拒绝零假设)并对方差分析结果进行解释;

⑤列出方差分析表,用一个表格来反映整个计算过程与结果,尤其是标出因素效应的F 检验结果。实际上,第二步后的过程都可以在方差分析表中完成。

【例1】某心理学家为了考察训练教程对儿童创造思维能力的影响,将20名被试随机分成四个组,每组5人,每组采用一种教程进行训练,一学期后每个被试的创造思维能力评分如下表,试检验训练教程的作用是否有显著的差异。

解:

①平方和的分解和计算,采用表格计算法,首先计算出公式中需要的一些中间结果,这里主要是每个处理下所有数据的和、平方的平均以及平方和,计算如下表所示:

将表中的数据代入计算公式有:

SS t = 13309 - 4772/20 = 1932.55

SSb = 12930.2 - 4772/20= 1553.75

SSw = SSt - SSb = 378.80

②自由度的分解和计算

dft = 4·5 - 1 = 19

dfb = 4 - 1 = 3

dfw = dft - dfb =16

③计算F统计量

F = (SSb/dfb)/(SSw/dfw) = (1553.75/3)/(378.80/16) = 21.88

④查单侧F 分布表,得到临界值F0.05(3,16) = 3.24,所以F >F0.05(3,16),因此各教程的作用有显著的差异。至于这些教材到底哪些之间存在差异,哪一种效果最好,哪一种最差(换句话想了解具体差异),则应该进行方差分析事后检验(如多重比较)。

⑤列出方差分析表

注意,表中的F值必须写在组间变异源所在行,它表示的是对该效应的度量。此外,这里只介绍了各处理下被试人数相同的情况,请读者参照教材去比较一下各处理下样本容量不同时的计算在哪些地方不同。另外教材还介绍了只有各组数据的一些中间结果,如均值、方差及样本容量,而不是原始数据时该如何计算,这也是应该掌握的内容。

三、单因素随机区组实验设计方差分析的步骤

假设自变量下有k 个水平,将所有被试按某无关变量分成r 个区组,每个区组内的被试数(设为m)应是水平数k 的倍数,每个区组的被试被随机地平分给每个处理,假设每个水平下有n 个被试(显然n 一般应r 的倍数),因此一共有nk = mr 个被试。

①平方和的分解和计算

SSt = SSb + SSr + SSe

与完全随机化实验设计不同的是,这里还要分解出反映区组效应的平方和。而且,这部分平方和是从原先完全随机化设计中的SSw中分解出来的。即SSw = SSr + SSe

②自由度的分解和计算

dft = dfb + dfr + dfw

dft = nk - 1

dfb = k - 1

dfr = r - 1

dfe = (nk-1)-(k-1)-(r-1)

③计算统计量

④根据显著性水平α,查单侧F 分布表,得到临界值,做决策并对方差分析结果进行解释;

⑤列出方差分析表,用一个表格来反映整个计算过程与结果。

【例2】为研究在缪勒—莱尔错觉实验中夹角对错觉量的影响,取24名被试,由于考虑到视力可能影响实验结果,所以根据他们的视力情况分成 4 个区组,每个区组的6 名被试被随机地分配到3 种角度下进行实验,结果如下,问不同夹角对错觉量是否有显著影响。

解:

①平方和的分解和计算,采用表格计算法,首先计算出公式中需要的一些中间结果,这里主要是每个处理下与每个区组下所有数据的和以及平方和,计算如下表所示:

显然,根据题意有,k = 3, n = 8, r = 4, m = 6;将表中的数据代入计算公式有:

SS t= ∑∑X2 - (∑∑X)2/nk = 2139.75 - (225.9)2/24 = 13.47

SSb= ∑k1[(∑X)2]/n - (∑∑X)2/nk

= (80.82 + 75.42 + 69.72)/8 - (225.9)2/24 = 7.7

SSr= ∑r1[(∑R)2]/m - (∑∑R)2/mr

= (57.72 + 562 + 552 + 57.22)/6 - (225.9)2/24 = 0.74

SSe = SSt - SSb - SSr = 5.03

其中的SSr的计算,相当于把区组看成另一个处理组,其符号和SSb的计算是完全对称的。

②自由度的分解和计算

dft = 3·8 - 1 = 23

dfb = 3 - 1 = 2

dfr = 4 - 1 = 3

dfe = dft - dfb - dfr = 18

③计算F统计量

F处理= (SSb/dfb)/(SSe/dfe) = (7.7/2)/(5.03/18) = 13.78

F区组= (SSr/dfr)/(SSe/dfe) = (.74/3)/(5.03/18) = 0.88

④查单侧F 分布表,得到临界值F0.05(2,18) = 3.55,F0.05(3,18) = 3.16,所以F处理>

F0.05(2,18),F区组<F0.05(3,18),因此区组之间的差异不显著,即视力对实验结果无显著影响,实验不必按视力进行区组设计。而实验最关心的夹角对错觉量有显著的影响。

⑤列出方差分析表

多因数分差分析

多因素设计及其方差分析的特点

多因素设计中,实验条件通常为各实验因素交叉组合形成的处理。之后,可以按照处理组随机平均分配被试(多因素被试间设计),也可以设置区组。这里我们主要介绍多因素完全随机化设计及其对应方差分析过程。多因素设计中最独特的概念是主效应与交互效应。

在实验中由一个因素的不同水平单独引起的变异叫做该因素的主效应,所谓单独的效应,就是指不考虑其它因素影响时该因素的分组效应。多个因素之间联合的作用叫交互作用,

其准确定义是“若一个因素的水平在另一个因素的不同水平上变化趋势(方向和大小)不一致时,则称这两个因素有交互效应”。例如,在一个研究不同的教学方法(A)和不同的教学氛围(B)对儿童识字教学的影响的实验中,所得的识字量数据如下,其中因素A有两个水平,集中识字与分散识字,因素B也是两水平,严肃与轻松。

从上表和均值图可以看出,单独看识字方法因素(不考虑教学氛围的分组,从列平均看),集中识字与分散识字这两种教学方法之间没有多大的差异(平均数分别为24与23)。单独看教学氛围因素,严肃态度的效果比轻松态度的效果差很多(平均分别为15和32)。这就是主效应。但是分开来看时,在严肃的教学态度下,分散识字的效果要好于集中识字;而在轻松的教学态度下,集中识字的效果却好于分散识字,这说明①教学方法(A)之间的差异受到教学态度(B)的影响,此时称它们之间存在交互作用或交互效应;②两种教学方法之间并不是象从总体上来看时的那样没有差异,而是有差异的,因此有交互作用时单独从各因素的主效应来解释结果可能得到错误的结论。

实际上,均值图是判断是否存在交互作用(不考虑显著性)的直观方法,只有均值折线分段平行,才说明因素间不存在交互作用;否则都是有交互作用。而且有交互作用时,不用看主效应(因为它的结论是错误的)。只要因素间不存在交互作用时,主效应才有意义。可见,多因素实验相对多个单因素实验,最大的优势和特点就是因素之间的交互作用,只有它才能准确地反映多个因素对因变量的影响。下面以二因素为例说明方差分析的过程。

1、二因素设计平方和的分解

多因素设计与单因素设计比较,其中最主要的一个特点是要从总平方和中分解出交互作用的平方和,一般记为SSAB,A、B表示因素A与B。

完全随机设计:SSt = SSb + SSw = (SSA + SSB + SSAB) + SSw

随机区组设计:SSt = SSb + SSw = (SSA + SSB + SSAB) + (SSr + SSe)

2、二因素设计平方和的计算

主效应的平方和的计算方法是不管其它因素对数据的分类,只按该因素的分类进行计算

平方和。

区组平方和计算也是不管其它因素对数据的分组,只按区组的分类来计算平方和。可见,区组在方差分析中相当于一个因素。只是一般不用理会区组变量和其他变量的交互作用。

交互效应的平方和则通过组间平方和与各主效应平方和相减来确定。因此,平方和分解时需要先分解组间平方和。

组内平方和或残差一般是通过总平方减去以上各效应平方和及区组平方和。

3、二因素设计自由度的计算

主效应平方和的自由度总是等于该因素的水平数-1;

区组平方和的自由度等于区组数-1;

交互效应平方和等于它所涉及的两因素水平数-1相乘;

组内平方和或残差平方和等于总自由度减去上述所有平方和的自由度。

【例1】在一个研究不同的教学方法(A)和不同的教学态度(B)对儿童识字教学的影响的实验中,将20名被试随机分成四组,每组5人,每组接一种实验处理,结果如下,试分析两种因素对识字教学的影响。

解:

①平方和的计算。

首先将4个处理看成4个单因素的分组按单因素完全随机化实验设计的方式求SSt,SSb 和SSw,上面表格已经给出计算所需的大部分中间结果,只差总的平方和,对20个数据平方后求和得13309。将这些数据代入计算公式有:

SSt = 13309 - 4772/20= 1932.55

SSb = (642 + 952 + 1812 + 1372)/5 - 4772/20 = 1553.75

SSw = SSt - SSb = 378.80

下面计算主效应平方和。A 因素的主效应平方和,是在假设所有被试只按A 因素来分组,计算各组之间的平方和,此时这两组的和分别是245 和232,因为仍然是这20 个数据所以总平方和是不变的,将这些中间数据代入公式有:

SSA = (2452 + 2322)/10 - 4772/20 = 8.45

同理有:

SSB = (1592 + 3182)/10 - 4772/20 = 1264.05

最后计算交互效应平方和

SSAB = SSb - SSB - SS A = 1553.75 - 8.45 - 1264.05 = 281.25

②自由度的分解和计算

dft = 4·5 - 1 = 19

dfb = 4 - 1 = 3

dfw = dft - dfb = 16

dfA = 2 - 1 = 1

dfB = 2 - 1 = 1

dfAB = dfb - dfA - dfB = 3 - 1 - 1 = 1

③计算F统计量

FA = (SSA/dfA)/(SSw/dfw) = (8.45/1)/(378.80/16) = 0.36

FA = (SSB/dfB)/(SSw/dfw) = (1264.05/1)/(378.80/16) = 53.39

FAB = (SSAB/dfAB)/(SSw/dfw) = (281.25/1)/(378.80/16) = 11.88

二因素设计有三个可能效应,就要构造三个F统计量,进行三次F检验。这和单因素区组设计不同,后者没有两变量的交互作用项。

④查单侧F 分布表,得到临界值F0.05(1,16) = 4.49,F0.01(1,16) = 8.53,可见教学方法与教学态度之间有显著的交互作用。前面已分析了,当存在某显著的高阶交互作用时,低阶交互作用与主效应的显著性并不能代表真实情况。对于交互效应的具体含义可按照均值图进行直观解释,也可进行简单效应检验以进行解释。

简单效应检验

当有某高阶交互作用显著时,一般不用解释更低阶的交互作和主效应,因为这时的低阶交互作用与主效应所反映的情况可能是错误的。但交互作用到底是怎样的需要进行进一步的分析,这个分析就称为简单效应检验。简单效应检验的基本方法是在某一因素的每个水平上检验另一因素的各个水平之间存不存在差异。检验某一水平时就不考虑其它水平的数据。

下面用前面二因素实验设计中所举例题来介绍简单效应检验的步骤。

【例】在一个研究不同的教学方法(A)和不同的教学态度(B)对儿童识字教学的影响的实验中,将20名被试随机分成四组,每组5人,每组接一种实验处理,结果如下,试分析两种因素对识字教学的影响。

从其方差分析表可见交互作用显著,因此应该对其进行简单效应检验。

解:

A 因素在b1 水平上的组间平方和,可以反映在b1 水平上A 因素各水平之间差异的大小。

SSA(b1) = ( 642 + 952)/5 - 1592/10 = 96.1

同理可计算如下平方和:

SSA(b2) = (1812 + 1372)/5 - 3182/10 = 193.6

SSB(a1) = ( 642 + 1812)/5 - 2452/10 = 1368.9

SSB(a2) = ( 952 + 1372)/5 - 2322/10 = 176.4

列出简单效应检验方差分析表:

从上面分析的结果来看,虽然A 因素从整体上看差异不显著,但它在b2 水平上还是显著,这表明,在轻松的教学气氛中,集中识字优于分散识字,而在严肃的氛围中两种教学方法无显著差异。B 因素在a1 和a2 两个水平中都显著,这表明不管用哪种教学方法,不同的教学态度均有显著差异,而且都是轻松的教学态度优于严肃的教学态度。

根据这一检验结果可以对教学实践提出如下建议,如果是一个严肃的老师,不论他采用哪种方法进行教学,效果都差不多,但是如果是一个轻松活泼的老师,则最好采用集中识字的方法;另外,学校在选聘教师时,显然应该录用那些教态轻松活泼的老师,因为他们不管采用哪种教学方法,他们的效果都好于严肃的老师。

注意,这里的每个因素只有两个水平,进行简单效应检验之后,也就能进行彻底的解释了,但是假如A 因素,即教学方法有 3 种,进行简单效应检验仍然得到它在b2 水平下显著,此时到底是三种教学方法之间都不同,还是某两个相同而与另一个不同呢?这就得进行多重比较。

⑤列出方差分析表

阅读材料

教材:《教育与心理统计学》(修订本)前十章(张敏强主编,人民教育出版社,2004)

心理统计学的重点不在于公式的推演和证明,而在Array于如何将理论假设用量化的方式表达出来并用适当的统

计手段证实(或证伪)之,所以不同条件下使用不同的

统计方法,这是学习心理统计学的重点。心理统计学的

内容可以按照不同的标准来划分。比如,传统上一般我

们按照统计手段的功能将心理统计分为描述性统计和推

断性统计两个分支,前者是用以概括和理解研究中的数

据或者说所研究心理现象数量特征;后者主要研究如何

通过局部观察得到的数据推论全局(或总体)的情形。

这两个分支大致都是上世纪20年代产生并且并行发展

的,而最近几十年发展起来的实验设计越来越显示出其

在心理统计学乃至心理学研究中的重要性,它主要研究

如何科学、经济和有效地进行实验。尽管统计学的核心

是以不完全归纳为基础的推断,但是并不能认为推断统

计比描述统计“高级”或者实验设计并不重要,任何一个

成熟的心理研究都不能将这三者割裂。我们前面强调统计方法使用的条件性主要就是指的不同的实验设计应采用不同的方法。

心理学的一些概念在实证研究中是以变量形式出现的,即它的取值是不固定的。由于心理现象的随机性,所以大部分变量都是随机变量。数据就是变量的具体取值,一次实验的数据就是对一组变量的一次抽样。一个变量的一切可能值(在无穷多次抽样中)称为总体,而抽取其中的若干次即成为样本。在心理学中,许多变量都服从一种单峰、对称的钟形分布,称作正态(常态,normal)分布,它反映了在许多外界随机因素的影响下,某个变量取各种可能值的概率分布,即取中间值的多,离中间值越远可能性越小。由于这种分布非常普遍,所以它常常称为统计推断中对变量总体的一个基本要求,称为总体正态假设。根据是否研究的变量是否满足这个假设,统计方法又大致可以分为参数统计方法和非参数统计方法。我们主要是学习参数统计方法。

教参1:

《现代心理与教育统计学》(第2版)(张厚粲、徐建平主编,北师大出版社,2004)

本书的编写体例遵照心理与教育统计学这一学科的

基本结构和内容,同时,与时俱进,吸收了统计学发展

的新成果,增加了少量计算机应用技术,试图为学习者

提供一本脉络清晰的关于心理与教育统计学的基础教

材。内容方面每章前面都增加了“教学目标”和“学习重

点”,每章的后面都有一个“小结”,并提供了进一步延利

性读物、使用EXCEL和SPSS软件进行统计分析的一些

技巧和提示、在线资源网址、复习与思考题等。部分章

划还附加了些与章节内容相关的资料卡。希望这本书的

出版,能够为我国心理统计教学提供最基本的教学材料,

为心理学人才的培养做出应有的贡献。

本书简明目录:第一章绪论;第二章统计图表;

第三章集中量数;第四章差异量数;第五章相关关系;

第六章概率分布;第七章参数估计;第八章假设检验;

第九章方差分析;第十章卡方检验;第十一章非参数检验;第十二章线性回归;第十三章多变量统计分析简介;第十四章抽样原理及方法;主要参考文献;附录。

统计学第八章方差分析

第八章方差分析 Ⅰ.学习目的 本章介绍方差分析的理论、方法与运用。通过学习,要求:1.了解方差分析的基本概念和思想;2.理解方差分解原理;3.掌握单因素、双因素(有、无交互作用)方差分析的原理和流程;4学会针对资料提出原假设,并能利用Excel进行方差分析。 Ⅱ.课程内容要点 第一节方差分析方法引导 一、方差分析问题的提出 方差分析,简称ANOVA(analysis of variance),就是利用试验观测值总偏差的可分解性,将不同条件所引起的偏差与试验误差分解开来,按照一定的规则进行比较,以确定条件偏差的影响程度以及相对大小。当已经确认某几种因素对试验结果有显著影响时,可使用方差分析检验确定哪种因素对试验结果的影响最为显著及估计影响程度。 二、方差分析的有关术语和概念 1.试验结果:在一项试验中用来衡量试验效果的特征量,也称试验指100

101 标或指标,类似函数的因变量或者目标函数。 2.试验因素:试验中,凡是对试验指标可能产生影响的原因都称为因素,或称为因子,类似函数的自变量。试验中需要考察的因素称为试验因素,简称为因素。一般用大写字母A 、B 、C 、……表示。方差分析的目的就是分析实验因素对实验或抽样的结果有无显著影响。如果在实验中变化的因素只有一个,这时的方差分析称为单因素方差分析;如果在实验中变化的因素不止一个,这时的方差分析就称为多因素方差分析。 3.因素水平:因素在试验中所处的各种状态或者所取的不同值,称为该因素的水平,简称水平。一般用下标区分。同样因素水平有时可以取得具体的数量值,有时只能取到定性值(如好,中,差等)。 4.交互作用:当方差分析过程中的影响因素不唯一时,这种多个因素的不同水平的组合对指标的影响称为因素间的交互作用。 三、方差分析的基本原理 (一)方差分解原理 一般地,试验结果的差异性可由离差平方和表示,离差平方和又可分解为组间方差与组内方差。其中,组间方差为因素对试验结果的影响的加总;组内方差则是各组内的随机影响的加总。如果组间方差明显高于组内方差,说明样本数据波动的主要来源是组间方差,因素是引起波动的主要原因,则认为因素对试验的结果存在显著的影响;否则认为波动主要来自组内方差,即因素对试验结果的影响不显著。 (二)检验统计量 检验因素影响是否显著的统计量是F 统计量: 组内方差的自由度 组内方差组间方差的自由度 组间方差// F

spss学习系列23.协方差分析

(一)原理 一、基本思想 在实际问题中,有些随机因素是很难人为控制的,但它们又会对结果产生显著影响。如果忽略这些因素的影响,则有可能得到不正确的结论。这种影响的变量称为协变量(一般是连续变量)。 例如,研究3种不同的教学方法的教学效果的好坏。检查教学效果是通过学生的考试成绩来反映的,而学生现在考试成绩是受到他们自身知识基础的影响,在考察的时候必须排除这种影响。 协方差分析将那些难以控制的随机变量作为协变量,在分析中将其排除,然后再分析控制变量对于观察变量的影响,从而实现对控制变量效果的准确评价。 协方差分析要求协变量应是连续数值型,多个协变量间互相独立,且与控制变量之间没有交互影响。前面单因素方差分析和多因素方差分析中的控制变量都是一些定性变量,而协方差分析中既包含了定性变量(控制变量),又包含了定量变量(协变量)。 协方差分析在扣除协变量的影响后再对修正后的主效应进行方差分析,是一种把直线回归或多元线性回归与方差分析结合起来的方法,其中的协变量一般是连续性变量,并假设协变量与因变量间存在线性关系,且这种线性关系在各组一致,即各组协变量与因变量所建立的回归直线基本平行。 当有一个协变量时,称为一元协方差分析,当有两个或两个以上的协变量时,称为多元协方差分析。

二、协方差分析需要满足的条件 (1)自变量是分类变量,协变量是定距变量,因变量是连续变量;对连续变量或定距变量的协变量的测量不能有误差; (2)协变量与因变量之间的关系是线性关系,可以用协变量和因变量的散点图来检验是否违背这一假设;协变量的回归系数(即各回归线的斜率)是相同的,且不等于0,即各组的回归线是非水平的平行线。否则,就有可能犯第一类错误,即错误地接受虚无假设; (3) 自变量与协变量相互独立,若协方差受自变量的影响,那么协方差分析在检验自变量的效应之前对因变量所作的控制调整将是偏倚的,自变量对因变量的间接效应就会被排除; (4)各样本来自具有相同方差σ2的正态分布总体,即要求各组方差齐性。 三、基本理论 1. 观测值=均值+分组变量影响+协变量影响+随机误差. 即 ()ij i ij ij y u t x x βε=++-+ (1) 其中,X 为所有协变量的平均值。 注:在方差分析中,协变量影响是包含在随机误差中的,在协方差分析中需要分离出来。 用协变量进行修正,得到修正后的y ij (adj)为 (adj)()ij ij ij i ij y y x x u t βε=--=++ 就可以对y ij (adj)做方差分析了。关键问题是求出回归系数β. 2. 总离差=分组变量离差+协变量离差+随机误差,

单因素方差分析和多因素方差分析简单实例

单因素方差分析实例 [例6-8]在1990 年秋对“亚运会期间收看电视的时间”调查结果如下表所示。 问:收看电视的时间比平日减少了(第一组)、与平日无增减(第二组)、比平日增加了(第三组)的三组居民在“对亚运会的总态度得分”上有没有显著的差异?即要检验从“态度”上看,这三组居民的样本是取自同一总体还是取自不同的总体 在SPSS 中进行方差分析的步骤如下: (1)定义“居民对亚运会的总态度得分”变量为X(数值型),定义组类变量为G(数 值型),G=1、2、3 表示第一组、第二组、第三组。然后录入相应数据,如图6-66所示 图6-66 方差分析数据格式 (2)选择[Analyze]=>[Compare Means]=>[One-Way ANOVA...],打开[One-Way ANOVA]主对 话框(如图6-67所示)。从主对话框左侧的变量列表中选定X,单击按钮使之进入[Dependent List]框,再选定变量G,单击按钮使之进入[Factor]框。单击[OK]按钮完成。

图6-67 方差分析对话框 (3)分析结果如下: 因此,收看电视时间不同的三个组其对亚运会的态度是属于三个不同的总体。 多因素方差分析 [例6-11]从由五名操作者操作的三台机器每小时产量中分别各抽取1 个不同时段的产 量,观测到的产量如表6-31所示。试进行产量是否依赖于机器类型和操作者的方差分析。

SPSS 的操作步骤为: (1)定义“操作者的产量”变量为X(数值型),定义机器因素变量为G1(数值型)、操作 者因素变量为G2(数值型),G1=1、2、3 分别表示第一、二、三台机器,G2=1、2、3、4、5 分别表示第1、2、3、4、5 位操作者。录入相应数据,如图6-68所示。 图6-68 双因素方差分析数据格式 (2)选择[Analyze]=>[General Linear Model]=>[Univariate...],打开[Univariate]主对话框(如图6-69所示)。从主对话框左侧的变量列表中选定X,单击按钮使之进入[Dependent List]框,再选定变量G1 和G2,单击按钮使之进入[Fixed Factor(s)]框。单击[OK]按钮

方差分析和协方差分析,协变量和控制变量

方差分析和协方差分析,协变量和控制变量 方差分析 方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。 方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。 假定条件和假设检验? 1. 方差分析的假定条件为:(1)各处理条件下的样本是随机的。(2)各处理条件下的样本是相互独立的,否则可能出现无法解析的输出结果。(3)各处理条件下的样本分别来自正态分布总体,否则使用非参数分析。(4)各处理条件下的样本方差相同,即具有齐效性。 2. 方差分析的假设检验假设有K个样本,如果原假设H0样本均数都相同,K个样本有共同的方差σ,则K个样本来自具有共同方差σ和相同均值的总体。如果经过计算,组间均方远远大于组内均方,则推翻原假设,说明样本来自不同的正态总体,说明处理造成均值的差异有统计意义。否则承认原假设,样本来自相同总体,处理间无差异。 作用 一个复杂的事物,其中往往有许多因素互相制约又互相依存。方差分析的目的是通过数据分析找出对该事物有显著影响的因素,各因素之间的交互作用,以及显著影响因素的最佳水平等。方差分析是在可比较的数组中,把数据间的总的“变差”按各指定的变差来源进行分解的一种技术。对变差的度量,采用离差平方和。方差分析方法就是从总离差平方和分解出可追溯到指定来源的部分离差平方和,这是一个很重要的思想。经过方差分析若拒绝了检验假设,只能说

方差分析的原理

方差分析的原理 (1)方差分析的概念 方差分析的目的是推断多组资料的总体均数是否相同,也即检验多组数据之间的均数差异是否有统计意义。当我们用多个t 检验来完成这一过程时,相当于从t 分布中随机抽取多个t 值,这样落在临界范围之外的可能大大增加,从而增加了Ⅰ型错误的概率。我们可以把方差分析看作t 检验的增强版。 (2)方差的可分解性 方差分析依据的基本原理就是方差的可加性原则。作为一种统计方法,方差分析把实验数据的总变异分解为若干个不同来源的分量。数据的变异由两部分组成: 组内变异:由于实验中一些希望加以控制的非实验因素和一些未被有效控制的未知因素造成的变异,如个体差异、随机误差 组内变异是具体某一个处理水平之内的,因此在对总体变异进行估计的时候不涉及研究的处理效应。 组间差异:不仅包括组内变异的误差因素,还包括了是不同组所接受的实验处理不同造成的影响 如果研究数据的总变异是由处理效应造成的,那么组间变异在总变异中应该占较大比例。 B M S 表示组间方差,B B B SS M S df =,1B df k =-,k 表示实验条件的个数 W M S 表示组内方差,W W W SS M S df =,()1W df k n =-,n 表示每种实验条件中的被试个数

(3)方差分析的基本假定 ①样本必须来自正态分布的总体 ②每次观察得到的几组数据必须彼此独立 ③各实验处理内的方差应彼此无显著差异 为了满足这一假定,我们可采用最大F 比率法2m ax m ax 2m in s F s ,求出各样本中方差最 大值与最小值的比,通过查表判断。 文章来源:博仁教育

协方差分析

第十一节协方差分析 (analysis of covariance) 在各种试验设计中,对应变量(dependent variable)Y 研究时,常希望其他可能影响Y的变量在各组间保持基本一致,以达到均衡可比。例如:比较几种药物的降压作用,各试验组在原始血压、性别、年龄等指标应无差异。

第十一节协方差分析 有时这些变量不能控制,须在统计分析时,通过一定方法来消除这些变量的影响后,再对应变量y作出统计推断。称这些影响变量为协变量(Covariate)。 如果所控制的变量是分类变量时,可用多因素的方差分析; 当要控制的变量是连续型变量时,可用协方差分析,以消除协变量的影响,或将协变量化成相等后,对y的修正均数进行方差分析。

第十一节协方差分析 例如:比较几种不同饲料对动物体重增加的作用,可把动物的进食量作为协变量。 比较大学生和运动员的肺活量时,可把身高作为协变量。 比较治疗后二组舒张压的大小,可把治疗前的舒张压作为协变量。

第十一节协方差分析 协方差分析的基本原理: 协方差分析是把直线回归和方差分析结合起来的一种统计分析方法。当不同处理结果的y值受协变量x的影响时,先找出y与x的直线关系,求出把x值化为相等后y的修正均数,然后进行比较,这样就能消除x对y的影响,更恰当地评价各种处理的作用。

协方差分析的步骤 ±观察指标服从正态分布、方差齐性、各观察相互独立H检验分组因素与协变量x是否有交互作用。对上例,即是否雌雄羔羊进食量相同,它们的体重增加量却不相同。如检验结果分组因素与协变量x间没有交互作用,即说明雌雄羔羊进食量相同的情况下,它们的体重增加量是相同的。进行第二项检验: H检验协变量与应变量之间是否存在线性关系。如果不存在线性关系,则不能简单地运用协方差分析,因为协方差分析是利用协变量x与应变量y之间的线性回归关系扣除协变量x对y的影响。必要时可考虑进行变量转换。如果检验结果协变量与应变量之间存在线性关系,则进行第三项检验: H进一步扣除x对y影响的前提下,检验各组的修正均数差别是否有统计学意义。

多因素方差分析

多因素方差分析 1. 基本思想:用来研究两个及两个以上控制变量是否对观测变量产生显著影响。可以分析多个控制变量单独作用对观测变量的影响(这叫做主效应),也可以分析多个控制因素的交互作用对观测变量的影响(也称交互效应),还可以考虑其他随机变量是否对结果产生影响,进而最终找到利于观测变量的最优组合。 根据观测变量(即因变量)的数目,可以把多因素方差分析分为:单变量多因素方差分析(也叫一元多因素方差分析) 与多变量多因素方差分析(即多元多因素方差分析)。 一元多因素方差分析:只有一个因变量,考察多个自变量对该因变量的影响。例如,分析不同品种、不同施肥量对农作物产 量的影响时,可将农作物产量作为观测变量,品种和施肥量作为控制变量。利用多因素方差分析方法,研究不同品种、不同施肥量是如何影响农作物产量的,并进一步研究哪种品种与哪种水平的施肥量是提高农作物产量的最优组合。 多元多因素方差分析:是对一元多因素方差分析的扩展,不仅需要检验自变量的不同水平上,因变量的均值是否存在差异,而且要检验各因变量之间的均值是否存在差异。例如,用四个班级学生分别对两种教材、两种教学方法进行试验,除了要考虑着两种教材、两种教学方法的四种搭配以外,还要考虑四个班级学生的学习能力这些因素。 2. 原理:通过计算F统计量,进行F检验。F统计量是平均组间平方和与平均组内平方和的比。 尸$控制您童H 卜尸6小=的机竇量 这里,把总的影响平方和记为SST它分为两个部分,一部分是由控制变量引起的离差,记为SSA组间离差平方和),另一部分是由随机变量引起的SS(组内离差平方和)。即SST=SSA+SS组间离差平方和SSA是各水平均值和总体均值离差的平方和,反映了控制变量的影响。组内离差平方和是每个数据与本水平组平均值离差的平方和,反映了数据抽样误差的大小程度。 通过F值看出,如果控制变量的不同水平对观测变量有显著影响,那观测变量的组间离差平方和就大,F值也大;相反, 如果控制变量的不同水平没有对观测变量造成显著影响,那组内离差平方和就比较大,F值就比较小。 同时,SPSS还会依据F分布表给出相应的相伴概率值sig。如果sig小于显著性水平(一般显著性水平设为0.05、0.01、或者 0.001 ),则认为控制变量不同水平下各总体均值有显著差异,反之,则不然。一般地,F值越大,则sig值越小。 3. 具体实现步骤: 我们现在有一个公司员工的工资表,想看一下员工性别“gender”与接受教育年限“ edu”这两个控制变量对员工“当 前工资"的影响。采用多因素方差分析法,则要分别考虑“gender”、"edu"对"当前工资”的影响,称为主效应,还要考虑“gender*edu” 对“当前工资”的影响,称为交互效应。 ⑴将数据导入SPSS后,选择:分析->一般线性模型->单变量

检验和方差分析的原理和基本方法

《管理统计学》导学资料六——2χ检验和方差分析这一讲的内容包括两个部分开平方检验和方差分析,重点是方差分析,在本章的学习 χ检验的作用和用途。学会和掌握方差分析表的使用,中,同学们要了解方差分析的用途,2 了解自由度的计算和F检验的作用,记住方差分析表中的五个等式和含义。 本章的关键术语: 方差分析(Analysis of Variance, 常简称为ANOV A)是用来检验两个以上样本的均值差异的显著程度,由此判断样本究竟是否抽自具有同一均值总体的方法。 SST-总离差方和(Sum of Square in Total )为各样本观察值与总均值的离差平方和。 SSTR-组间离差方和(Sum of Square Treatment)表示不同的样本组之间,由于因素取不同的水平所产生的离差平方和。 SSE-组内离差方和(Sum of Square Error)表示同一样本组内,由于随机因素影响所产生的离差平方和,简称为组内离差平方和。 本章学完后,你应当能够: 1、掌握用2χ检验来解决独立性检验和拟合性检验的原理和基本方法,能解决最常见的这类检验问题。 2、了解和懂得单因素方差分析的原理和基本方法,能应用计算机解决最常见的方差分析问题。 一、2χ检验 2 χ检验的用途是检验两个变量之间的独立性和检验数据是否服从某个概率分布得拟合检验。 我们经常会遇到受两个或两个以上因素(变量)影响的实验或观察数据,并要求判断两个变量之间是否存在相互联系的问题。如果两个变量之间没有联系则称作是独立的,否则就是不独立的。 χ分布可以检验两个变量之间的独立性问题。此时我们首先将研究对象的观察用2 数据按两个变量分别进行分类。。例如,按行对第一个变量进行分类,按列对第二个变量进行分类。按这种方法把所有的试验观察数据排列成的表称为列联表。 2 χ独立性检验的程序和前面介绍的参数假设检验一样,首先也要建立假设,然后 χ,再根据问计算检验统计量的值。这次采用的检验统计这次采用的检验统计量就是2 χ分布表,得到当原假设成立时检验统计量允许的最大临界题规定的显著性水平查2 χ值作比较,得出接受或拒绝原假设的结论。具体步骤如下: 值,与计算所得的2 1.提出假设 H:两个变量是独立的,即相互之间没有影响,

spss协方差分析的基本原理-最棒的

协方差分析的基本原理 1.协方差分析的提出 无论是单因素方差分析还是多因素方差分析,它们都有一些人为可以控制的控制变量。在实际问题中,有些随机因素是很难人为控制的,但它们又会对结果产生显著影响。如果忽略这些因素的影响,则有可能得到不正确的结论。 例如,研究3种不同的教学方法的教学效果的好坏。检查教学效果是通过学生的考试成绩来反映的,而学生现在考试成绩是受到他们自身知识基础的影响,在考察的时候必须排除这种影响。又比如,考查受教育程度对个人工资是否有显著影响,这时必须考虑工作年限因素。一般情况下,工作年限越长,工资就越高。在研究此问题时必须排除工作年限因素的影响,才能得出正确的结论。再如,如果要了解接受不同处理的小白鼠经过一段时间饲养后体重增加量有无差别,已知体重的增加和小白鼠的进食量有关,接受不同处理的小白鼠其进食量可能不同,这时为了控制进食量对体重增加的影响,可在统计阶段利用协方差分析(Analysis of Covariance),通过统计模型的校正使得各组在“进食量”这个变量的影响上相等,即将进食量作为协变量,然后分析不同处理对小白鼠体重增加量的影响。 为了更加准确地控制变量不同水平对结果的影响,应该尽量排除其它在实验设计阶段难以控制或者是无法严格控制的因素对分析结果的影响。利用协方差分析就可以完成这样的功能。协方差分析将那些难以控制的随机变量作为协变量,在分析中将其排除,然后再分析控制变量对于观察变量的影响,从而实现对控制变量效果的准确评价。 协方差分析要求协变量应是连续数值型,多个协变量间互相独立,且与控制变量之间没有交互影响。前面单因素方差分析和多因素方差分析中的控制变量都是一些定性变量,而协方差分析中既包含了定性变量(控制变量),又包含了定量变量(协变量)。协方差分析在扣除协变量的影响后再对修正后的主效应进行方差分析,是一种把直线回归或多元线性回归与方差分析结合起来的方法,其中的协变量一般是连续性变量,并假设协变量与因变量间存在线性关系,且这种线性关系在各组一致,即各组协变量与因变量所建立的回归直线基本平行。当有一个协变量时,称为一元协方差分析,当有两个或两个以上的协变量时,称为多元协方差分析。以下将以一元协方差分析为例,讲述协方差分析的基本思想和步骤。 2.协方差分析的计算公式 以单因素协方差分析为例,总的变异平方和表示为: Q Q Q Q ++ 总控制变量协变量随机变量 = 协方差分析仍然采用F检验,其零假设 H为多个控制变量的不同水平下,各总体平均值没有显著差异。 F统计量计算公式为: 2 2 S F S 控制变量 控制变量 随机变量 =, 2 2 S F S 协变量 协变量 随机变量 = 以上F统计量服从F分布。SPSS将自动计算F值,并根据F分布表给出相应的相伴概率值。 如果F 控制变量 的相伴概率小于或等于显著性水平,则控制变量的不同水平对观察变量产生了显著的影响;如 果F 协变量 的相伴概率小于或等于显著性水平,则协变量的不同水平对观察变量产生了显著的影响。 3.协方差分析需要满足的假设条件 (1)自变量是分类变量,协变量是定距变量,因变量是连续变量; (2)对连续变量或定居变量的协变量的测量不能有误差; (3)协变量与因变量之间的关系是线性关系,可以用协变量和因变量的散点图来检验是否违背这一假设;(4)协变量的回归系数是相同的。在分类变量形成的各组中,协变量的回归系数(即各回归线的斜率)必须是相等的,即各组的回归线是平行线。如果违背了这一假设,就有可能犯第一类错误,即错误地接受虚无假设。

第一节 方差分析原理

第一节方差分析原理 一、方差分析基本思想 方差分析(analysis of variance,或缩写ANOVA)又称变异数分析,是一种应用非常广泛的统计方法。其主要功能是检验两个或多个样本平均数的差异是否有统计学意义,用以推断它们的总体均值是否相同。它是真正用来进行上述“多组比较”问题的正确方法,从这个意义上说,它可看成是t检验等“两组比较法”的推广。理解方差分析的原理,主要在于其基本思想,而不在于数学推导。 以单因素完全随机化实验设计为例(这是最简单的多组实验设计)介绍方差分析的原理。注意下面列出的该种设计的数学模式,假设有k 个处理,每个处理下有n 个被试,一共有nk 个被试。K个处理下的数据构成比较中的k个组或k个样本。 不失一般地,其对应的图示如下:

根据测量学中的真分数理论,观测值等于真值和误差之和;据此,对照上面的数据可得到下面的数学模型: 其中: X ij指第j 个处理下的第i 个被试的实验数据; μ指总体均值;在图中样本数据中,即红色线表示的总平均; μj指第j 个处理的均值; τj称为第j 个处理的效应;通常,τj=μj–μ,也即各组均值偏离总平均的离差; εij为随机误差(idd表示误差独立同分布);在该模型中,误差就是各组中数据偏离其组均值的离差。因为根据单因素完全随机化设计的特点,同组中的被试,其各方面条件都相同,接受的处理也相同,其观测值间的差异只能归结为随机误差。 首先对检验的零假设进行变换: 下面我们就需要构造一个统计量使得它在Ho"下无未知量且有精确的分布,以进行假设检验。由于τ2j是每个处理的平均数与总平均之差,所以我们考虑从数据的离均差的平方入手来构造统计量: 对每个观测数据: 即:任意一个数据与总平均数的离差= 该数与所在组平均数的离差+ 所在组的平均数与总平均数的离差。 我们针对第j 组中每个数据的上述分解式的平方求和得:

23. 协方差分析

23. 协方差分析 一、基本原理 1. 基本思想 在实际问题中,有些随机因素是很难人为控制的,但它们又会对结果产生显著影响。如果忽略这些因素的影响,则有可能得到不正确的结论。这种影响的变量称为协变量(一般是连续变量)。 例如,研究3种不同的教学方法的教学效果的好坏。检查教学效果是通过学生的考试成绩来反映的,而学生现在考试成绩是受到他们自身知识基础的影响,在考察的时候必须排除这种影响。 协方差分析将那些难以控制的随机变量作为协变量,在分析中将其排除,然后再分析控制变量对于观察变量的影响,从而实现对控制变量效果的准确评价。 协方差分析要求协变量应是连续数值型,多个协变量间互相独立,且与控制变量之间没有交互影响。前面单因素方差分析和多因素方差分析中的控制变量都是一些定性变量,而协方差分析中既包含了定性变量(控制变量),又包含了定量变量(协变量)。 协方差分析在扣除协变量的影响后再对修正后的主效应进行方差分析,是一种把直线回归或多元线性回归与方差分析结合起来的方法,其中的协变量一般是连续性变量,并假设协变量与因变量间存在线性关系,且这种线性关系在各组一致,即各组协变量与因变量所建立的回归直线基本平行。 当有一个协变量时,称为一元协方差分析,当有两个或两个以上

的协变量时,称为多元协方差分析。 2. 协方差分析需要满足的条件 (1)自变量是分类变量,协变量是定距变量,因变量是连续变量;对连续变量或定距变量的协变量的测量不能有误差; (2)协变量与因变量之间的关系是线性关系,可以用协变量和因变量的散点图来检验是否违背这一假设;协变量的回归系数(即各回归线的斜率)是相同的,且不等于0,即各组的回归线是非水平的平行线。否则,就有可能犯第一类错误,即错误地接受虚无假设; (3) 自变量与协变量相互独立,若协方差受自变量的影响,那么协方差分析在检验自变量的效应之前对因变量所作的控制调整将是偏倚的,自变量对因变量的间接效应就会被排除; (4)各样本来自具有相同方差σ2的正态分布总体,即要求各组方差齐性。 二、协方差理论 1. 观测值=均值+分组变量影响+协变量影响+随机误差. 即 ()ij i ij ij y u t x x βε=++-+ (1) 其中,X 为所有协变量的平均值。 注:在方差分析中,协变量影响是包含在随机误差中的,在协方差分析中需要分离出来。 用协变量进行修正,得到修正后的y ij (adj)为 (adj)()ij ij ij i ij y y x x u t βε=--=++

多因素方差分析

多因素方差分析 多因素方差分析是对一个独立变量是否受一个或多个因素或变量影响而进行的方差分析。SPSS调用“Univariate”过程,检验不同之间因变量均数,由于受不同因素影响是否有差异的问题。在这个过程中可以分析每一个因素的作用,也可以分析因素之间的交互作分析协方差,以及各因素变量与协变量之间的交互作用。该过程要求因变量是从多元正态总体随机采样得来,且总体中各单元的方差可以通过方差齐次性检验选择均值比较结果。因变量和协变量必须是数值型变量,协变量与因变量不彼此独立。因素变量是分类变量数值型也可以是长度不超过8的字符型变量。固定因素变量(Fixed Factor)是反应处理的因素;随机因素是随机地从总体中抽取的因 [例子] 研究不同温度与不同湿度对粘虫发育历期的影响,得试验数据如表5-7。分析不同温度和湿度对粘虫发育历期的影响是否存在着显著 表5-7 不同温度与不同湿度粘虫发育历期表 数据保存在“DATA5-2.SAV”文件中,变量格式如图5-1。

1)准备分析数据 在数据编辑窗口中输入数据。建立因变量历期“历期”变量,因素变量温度“A”,湿度为“B”变量,重复变量“重复”。然后输数值,如图5-6所示。或者打开已存在的数据文件“DATA5-2.SAV”。 图5-6 数据输入格式 2)启动分析过程 点击主菜单“Analyze”项,在下拉菜单中点击“General Linear Model”项,在右拉式菜单中点击“Univariate”项,系统打开单因素方差分析设置窗口如图5-7。

图5-7 多因素方差分析窗口 3)设置分析变量 设置因变量:在左边变量列表中选“历期”,用向右拉按钮选入到“Dependent Variable:”框中。 设置因素变量:在左边变量列表中选“a”和“b”变量,用向右拉按钮移到“Fixed Factor(s):”框中。可以选择多个因素变量存容量的限制,选择的因素水平组合数(单元数)应该尽量少。 设置随机因素变量:在左边变量列表中选“重复”变量,用向右拉按钮移到“到Random Factor(s)”框中。可以选择多个随机变量 设置协变量:如果需要去除某个变量对因素变量的影响,可将这个变量移到“Covariate(s)”框中。 设置权重变量:如果需要分析权重变量的影响,将权重变量移到“WLS Weight”框中。 4)选择分析模型 在主对话框中单击“Model”按钮,打开“Univariate Model”对话框。见图5-8。 图5-8 “Univariate Model” 定义分析模型对话框

协方差分析理论与案例

协方差分析理论与案例 假设我们有N 个个体的K 个属性在T 个不同时期的样本观测值,用it y ,it x ,…,N,t=1,…,T,k=1,…,K 表示。一般假定y 的观测值是某随机实验的结果,该实验结果在属性向量x 和参数向量θ下的条件概率分布为(,)f y x θ。使用面板数据的最终目标之一就是利用获取的信息对参数θ进行统计推断,譬如常假设假定的y 是关于x 的线性函数的简单模型。协方差分析检验是识别样本波动源时广泛采用的方法。 方差分析:常指一类特殊的线性假设,这类假设假定随机变量y 的期望值仅与所考察个体所属的类(该类由一个或多个因素决定)有关,但不包括与回归有关的检验。而协方差分析模型具有混合特征,既像回归模型一样包含真正的外生变量,同时又像通常的方差一样允许每个个体的真实关系依赖个体所属的类。 常用来分析定量因素和定性因素影响的线性模型为: *,1,,,1,,it it it it it y x u i N t T αβ'=++=???=??? 从两个方面对回归系数估计量进行检验:首先,回归斜率系数的同质性;其 次,回归截距系数的同质性。检验过程主要有三步: (1) 检验各个个体在不同时期的斜率和截距是否都相等; (2) 检验(各个体或各时期的)回归斜率(向量)是否都相等; (3) 检验各回归截距是否都相等。 显然,如果接受完全同同质性假设(1),则检验步骤中止。但如果拒绝了完全同质性性假设,则(2)将确定回归斜率是否相同。如果没有拒绝斜率系数的同质性假设,则(3)确定回归截距是否相等。(1)是从(2)、(3)分离出来的。 基本思想:在作两组或多组均数1y ,2y ,…,k y 的假设检验前,用线性回归分析方法找出协变量X 与各组Y 之间的数量关系,求得在假定X 相等时修定均数1y ',2y ',…,k y '然后用方差分析比较修正均数间的差别,这就是协方差分析的基本思想。 协方差分析的应用条件:⑴要求各组资料都来自正态总体,且各组的方差相等;(t 检验或方差分析的条件)⑵各组的总体回归系数i β相等,且都不等于0(回归方程检验)。因此,应用协方差分析前,要对资料进行方差齐性检验和回归系数的假设检验(斜率同质性检验),只有满足上述两个条件之后才能应用,否则不宜使用。 ⑴各比较组协变量X 与分析指标Y 存在线性关系(按直线回归分析方法进行判断)。 ⑵各比较组的总体回归系数i β相等,即各直线平行(绘出回归直线,看是否

多因素方差分析讲解

多因素方差分析 定义: 多因素方差分析中的控制变量在两个或两个以上,研究目的是要分析多个控制变量的作用、多个控制变量的交互作用以及其他随机变量是否对结果产生了显著影响。 前提: 1总体正态分布。当有证据表明总体分布不是正态分布时,可以将数据做正态转化。 2变异的相互独立性。 3各实验处理内的方差要一致。进行方差分析时,各实验组内部的方差批次无显著差异,这是最重要的一个假定,为满足这个假定,在做方差分析前要对各组内方差作齐性检验。 多因素方差分析的三种情况: 只考虑主效应,不考虑交互效应及协变量; 考虑主效应和交互效应,但不考虑协变量; 考虑主效应、交互效应和协变量。 一、多因素方差分析 1选择分析方法 本题要判断控制变量“组别”和“性别”是否对观察变量“数学”有显著性影响,而控制变量只有两个,即“组别”、“性别”,所以本题采用双因素分析法,但需要进行正态检验和方差齐性检验。 2建立数据文件 在SPSS17.0中建立数据文件,定义4个变量:“人名”、“数学”、“组别”、“性别”。控制变量为“组别”、“性别”,观察变量为“数学”。在数据视图输入数据,得到如下数据文件: 3正态检验(P>0.05,服从正态分布) 正态检验操作过程: “分析”→“描述统计”→“探索”,出现“探索”窗口,将因变量“成绩”放入“因变量列表”,将自变量“组别”、“性别”放入“因子列表”,将“人名”放入“标注个案”; 点击“绘制”,出现“探索:图”窗口,选中“直方图”和“带检验的正态图”,点击“继续”;点击“探索”窗口的“确定”,输出结果。 因变量是用户所研究的目标变量。因子变量是影响因变量的因素,例如分组变量。标注个案是区分每个观测量的变量。 带检验的正态图(Normality plots with test,复选框):选择此项,将进行正态性检验,并生成正态Q-Q概率图和无趋势正态Q-Q概率图。

协方差分析

协方差分析 某城市教育局在一次对全市初中一年级至高中三年级学生的调查研究中想要考察身心发展对学习成绩的影响,研究者手机了各学校初一年级至高三年级学生的学业成绩以及相关身心发展量表得分,在分析时以学生所在年级来代表年龄差异,但是由于男同学与女同学的身心发展存在差异,因此需要在结果中排除性别因素,然而无法在收集数据时只收集男同学的数据或收集女同学的数据,那么该如何排除性别因素对结果的影响呢? 在实验设计中,考虑到实际的实验情形,无法一一排除某些会影响实验结果的无关变量(干扰变量),为了排除这些不能在实验处理中所操作的变量,而其结果又会影响因变量,可以通过“统计控制”的方法来弥补实验控制的不足,为了提高实验研究的内在效率,必须将可能干扰实验结果的无关变量加以控制,不致产生严重的系统性误差。控制系统误差的方法有很多,例如以随机的方式将被试分配至不同群体;将系统误差加入实验设计,使其变成一个自变量;尽可能控制可控制的系统误差如光纤亮度、噪音等。 实验研究的优点众所周知,即其严密的逻辑性以及可以良好的控制误差,但是让一个标准的实验设计走出实验室,在社会科学领域实施通常比较困难。因此在社会科学领域中经常实施的是准实验设计,在准实验设计中无法使用实验控制法来完全控制无关的干扰变量,故经常增加实验内在效度的方法——统计控制法,最常用的便是协方差分析(analysis of covariance,ANCOV A)。 顾名思义,协方差分析是方差分析的一种,它也包括自变量与因变量,同方差分析,因变量为连续变量且需要满足方差分析关于因变量的假设条件,自变量为分类变量。不同的是,并不是实验所关注的自变量却为研究者进行控制的一类变量被加入分析,它们被称为“协变量”(covariate),要注意,协变量是连续变量。 1.协方差分析的假设 协方差分析的基本假设与方差分析相同,包括变量的正态性、观测值独立、方差齐性等,此外还有三个重要的假设: 1)因变量与协方差之间直线关系; 2)所测量的协变量不应有误差,如果选用的是多项的量表,应有高的内部一致性信度或重 测信度,α系数最好大于0.80。这一假设若被违反会造成犯一类错误的概率上升,降低统计检验力。 3)“组内回归系数同质性”(homogeneity of with in rgression),各实验处理组中一举 协变量(X)预测因变量(Y)的回归线的回归系数要相等,即斜率相等,各条回归线平行。如果斜率不等则不宜直接进行协方差分析。 2.协方差分析的方差分解 方差分析的原理是将因变量的总方差分解成自变量效果(组间)与误差效果(组内)两个部分,再进行F检验。协方差使用的也是这样的方差分析思路,将因变量的总方差先行分割为协变量可解释部分与不可解释部分,不可解释的部分再由方差分析原理进行拆解。协方差分析的方差拆解如下: 3.协方差分析的步骤 协方差分析结合了回归分析与方差分析的方法,计算方法比较复杂,由于涉及回归分析的基本思路,因此一下内容也许需要在阅读了本章第六部分“一元线性回归分析”后理解得更加透彻。 以单因素协方差分析为例说明协方差分析的步骤: 1)协方差分析的准备 (B:组间;W:组内;T:总和;n:组内样本容量;k:组间容量;x:协变量;y:因变量)

多因素方差分析资料讲解

多因素方差分析 是对一个独立变量是否受一个或多个因素或变量影响而进行的方差分析。SPSS调用“Univariate”过程,检验不同水平组合之间因变量均数,由于受不同因素影响是否有差异的问题。在这个过程中可以分析每一个因素的作用,也可以分析因素之间的交互作用,以及分析协方差,以及各因素变量与协变量之间的交互作用。该过程要求因变量是从多元正态总体随机采样得来,且总体中各单元的方差相同。但也可以通过方差齐次性检验选择均值比较结果。因变量和协变量必须是数值型变量,协变量与因变量不彼此独立。因素变量是分类变量,可以是数值型也可以是长度不超过8的字符型变量。固定因素变量(Fixed Factor)是反应处理的因素;随机因素是随机地从总体中抽取的因素。 [例子] 研究不同温度与不同湿度对粘虫发育历期的影响,得试验数据如表5-7。分析不同温度和湿度对粘虫发育历期的影响是否存在着显著性差异。 表5-7 不同温度与不同湿度粘虫发育历期表

1)准备分析数据 在数据编辑窗口中输入数据。建立因变量历期“历期”变量,因素变量温度“A”,湿度为“B”变量,重复变量“重复”。然后输入对应的数值,如图5-6所示。或者打开已存在的数据文件“DATA5-2.SAV”。 图5-6 数据输入格式 2)启动分析过程 点击主菜单“Analyze”项,在下拉菜单中点击“General Linear Model”项,在右拉式菜单中点击“Univariate”项,系统打开单因变量多因素方差分析设置窗口如图5-7。 图5-7 多因素方差分析窗口 3)设置分析变量 设置因变量:在左边变量列表中选“历期”,用向右拉按钮选入到“Dependent Variable:”框中。

第一节 方差分析的基本原理与步骤

第一节方差分析的基本原理与步骤 方差分析有很多类型,无论简单与否,其基本原理与步骤是相同的。本节结合单因素试验结果的方差分析介绍其原理与步骤。 一、线性模型与基本假定 假设某单因素试验有k个处理,每个处理有n次重复,共有nk个观测值。这类试验资料的数据模式如表6-1所示。 表6-1k个处理每个处理有n个观测值的数据模式 处理 观测值合 计 平 均 A1 x11 x12 …x1j …x 1n A2 x21 x22 …x2j …x 2n … … A i x i1 x i2 …x ij …x in … … A k x k1 x k2 …x kj …x kn xk . 合 计 表中表示第i个处理的第j个观测值(i=1,2,…,k;j=1,2,…,n); 表示第i个处理n 个观测值的和; 表示全部观测值的总和; 表示第i 个处理的平均数;表示全部观测值的总平均数;可以分解为 (6-1) 表示第i个处理观测值总体的平均数。为了看出各处理的影响大小,将再进行分解,令

(6-2) (6-3) 则 (6-4) 其中μ表示全试验观测值总体的平均数,是第i个处理的效应(treatmenteffects)表示处理i对试验结果产生的影响。显然有 (6-5) εij是试验误差,相互独立,且服从正态分布N(0,σ2)。 (6-4)式叫做单因素试验的线性模型(linearmodel)亦称数学模型。在这个模型中表示为总平均数μ、处理效应αi、试验误差εij之和。由εij相互独立且服从正态分布N(0,σ2),可知各处理Ai(i=1,2,…,k)所属总体亦应具正态性,即服从正态分布N(μi,σ2)。尽管各总体的均数可以不等或相等,σ2则必须是相等的。所以,单因素试验的数学模型可归纳为:效应的可加性(additivity)、分布的正态性(normality)、方差的同质性(homogeneity)。这也是进行其它类型方差分析的前提或基本假定。 若将表(6-1)中的观测值xij(i=1,2,…,k;j=1,2,…,n)的数据结构(模型)用样本符号来表示,则 (6-6) 与(6-4)式比较可知,、、分别是μ、(μi-μ) =、(xij-)=的估计值。 (6-4)、(6-6)两式告诉我们:每个观测值都包含处理效应(μi-μ或),与误差(或),故kn个观测值的总变异可分解为处理间的变异和处理 内的变异两部分。 二、平方和与自由度的剖分 我们知道,方差与标准差都可以用来度量样本的变异程度。因为方差在统计分析上有许多优点,而且不用开方,所以在方差分析中是用样本方差即均方(meansquares)来度量资料的变异程度的。表6-1中全部观测值的总变异可以

SPSS多因素方差分析

体育统计与SPSS读书笔记(八)—多因素方差分析(1) 具有两个或两个以上因素的方差分析称为多因素方差分析。 多因素是我们在试验中会经常遇到的,比如我们前面说的单因素方差分析的时候,如果做试验的不是一个年级,而是多个年纪,那就成了双因素了:不同教学方法的班级,不同年级。如果再加上性别上的因素,那就成了三因素了。如果我们把实验前和试验后的数据用一个时间的变量来表示,那又多了一个时间的因素。如果每个年级都是不同的老师来上,那又多了一个老师的因素,等等等等,所以我们在设计试验的时候都要进行充分考虑,并确定自己只研究哪些因素。 下面用例子的形式来说说多因素方差分析的运用。还是用前面说单因素的例子,前面的例子说了只在五年级抽三个班进行不同教学方法的试验,现在我们还要在初二和高二各抽三个班进行不同教学方法的试验。形成年级和不同教学法班级双因素。 分析: 1.根据实验方案我们划出双因素分析的表格,可以看出每个单元格都是有重复数据(也就是不只一个数据), 年级 不同教学方法的班级 定性班 定量班 定性定量班 五年级 (班级每个人) (班级每个人) (班级每个人) 初中二年级 (班级每个人) (班级每个人) (班级每个人) 高中二年级 (班级每个人) (班级每个人) (班级每个人) 2.因为有重复数据,所以存在在数据交互效应的可能。我们来看看交效应的含义:如果在A因素的不同水平上,B因素对因变量的影响不同,则说明A、B两因素间存在交互作用。交互作用是多因素实验分析的一个非常重要的内容。如因素间存在交互作用而又被忽视,则常会掩盖因素的主效应的显著性,另一方面,如果对因变量Y,因素A与B之间存在交互作用,则已说明这两个因素都Y对有影响,而不管其主效应是否具有显著性。在统计模型中考虑交互作用,是系统论思想在统计方法中的反映。在大多数场合,交互作用的信息比主效应的信息更为有用。根据上面的判断。根据上面的说法,我也无法判断是否有交互作用,不像身高和体重那么直接。这里假设他们之间有交互作用。

SPSS学习系列23. 协方差分析

23. 协方差分析 (一)原理 一、基本思想 在实际问题中,有些随机因素是很难人为控制的,但它们又会对结果产生显著影响。如果忽略这些因素的影响,则有可能得到不正确的结论。这种影响的变量称为协变量(一般是连续变量)。 例如,研究3种不同的教学方法的教学效果的好坏。检查教学效果是通过学生的考试成绩来反映的,而学生现在考试成绩是受到他们自身知识基础的影响,在考察的时候必须排除这种影响。 协方差分析将那些难以控制的随机变量作为协变量,在分析中将其排除,然后再分析控制变量对于观察变量的影响,从而实现对控制变量效果的准确评价。 协方差分析要求协变量应是连续数值型,多个协变量间互相独立,且与控制变量之间没有交互影响。前面单因素方差分析和多因素方差分析中的控制变量都是一些定性变量,而协方差分析中既包含了定性变量(控制变量),又包含了定量变量(协变量)。 协方差分析在扣除协变量的影响后再对修正后的主效应进行方差分析,是一种把直线回归或多元线性回归与方差分析结合起来的方法,其中的协变量一般是连续性变量,并假设协变量与因变量间存在线性关系,且这种线性关系在各组一致,即各组协变量与因变量所建立的回归直线基本平行。 当有一个协变量时,称为一元协方差分析,当有两个或两个以上

的协变量时,称为多元协方差分析。 二、协方差分析需要满足的条件 (1)自变量是分类变量,协变量是定距变量,因变量是连续变量;对连续变量或定距变量的协变量的测量不能有误差; (2)协变量与因变量之间的关系是线性关系,可以用协变量和因变量的散点图来检验是否违背这一假设;协变量的回归系数(即各回归线的斜率)是相同的,且不等于0,即各组的回归线是非水平的平行线。否则,就有可能犯第一类错误,即错误地接受虚无假设; (3)自变量与协变量相互独立,若协方差受自变量的影响,那么协方差分析在检验自变量的效应之前对因变量所作的控制调整将是偏倚的,自变量对因变量的间接效应就会被排除; (4)各样本来自具有相同方差σ2的正态分布总体,即要求各组方差齐性。 三、基本理论 1. 观测值=均值+分组变量影响+协变量影响+随机误差. 即 ()ij i ij ij y u t x x βε=++-+(1) 其中,X 为所有协变量的平均值。 注:在方差分析中,协变量影响是包含在随机误差中的,在协方差分析中需要分离出来。 用协变量进行修正,得到修正后的y ij (adj)为 (adj)()ij ij ij i ij y y x x u t βε=--=++ 就可以对y ij (adj)做方差分析了。关键问题是求出回归系数β.

相关文档
最新文档