第九章 方差分析

第九章 方差分析
第九章 方差分析

第九章方差分析

在生产过程和科学实验中,我们经常遇到这样的问题:影响产品产量、质量的因素很多.例如,在化工生产中,影响结果的因素有:配方、设备、温度、压力、催化剂、操作人员等.我们需要通过观察或试验来判断哪些因素对产品的产量、质量有显著的影响.方差分析(Analysis of variance)就是用来解决这类问题的一种有效方法.它是在20世纪20年代由英国统计学家费舍尔首先使用到农业试验上去的.后来发现这种方法的应用范围十分广阔,可以成功地应用在试验工作的很多方面.

第一节单因素试验的方差分析

在试验中,我们将要考察的指标称为试验指标,影响试验指标的条件称为因素.因素可分为两类,一类是人们可以控制的;一类是人们不能控制的.例如,原料成分、反应温度、溶液浓度等是可以控制的,而测量误差、气象条件等一般是难以控制的.以下我们所说的因素都是可控因素,因素所处的状态称为该因素的水平.如果在一项试验中只有一个因素在改变,这样的试验称为单因素试验,如果多于一个因素在改变,就称为多因素试验.

本节通过实例来讨论单因素试验.

1.数学模型

例9.1某试验室对钢锭模进行选材试验.其方法是将试件加热到700℃后,投入到20℃的水中急冷,这样反复进行到试件断裂为止,试验次数越多,试件质量越好.试验结果如表9-1.

表9-1

试验的目的是确定4种生铁试件的抗热疲劳性能是否有显著差异.

这里,试验的指标是钢锭模的热疲劳值,钢锭模的材质是因素,4种不同的材质表示钢锭模的4个水平,这项试验叫做4水平单因素试验.

例9.2考察一种人造纤维在不同温度的水中浸泡后的缩水率,在40℃,50℃, (90)

的水中分别进行4次试验.得到该种纤维在每次试验中的缩水率如表92.试问浸泡水的温度对缩水率有无显著的影响?

表9-2 (%)

单因素试验的一般数学模型为:因素A 有s 个水平A 1,A 2,…,A s ,在水平A j (j =1,2,…,s )下进行n j (n j ≥2)次独立试验,得到如表9-3的结果:

表9-3

… … … 假定:各水平

A j (j =1,2,…,s )下的样本x ij ~N (μj ,ζ),i =1,2,…,n j ,j =1,2,…,s ,且相互独立.

故x ij -μj 可看成随机误差,它们是试验中无法控制的各种因素所引起的,记x ij -μj =εij ,则

??

???==+=.

,

),0(~,,,2,1;,,2,1,2

相互独立各ij ij j ij j ij N s j n i x εσεεμ (9.1) 其中μj 与ζ2均为未知参数.(9.1)式称为单因素试验方差分析的数学模型.

方差分析的任务是对于模型(9.1),检验s 个总体N (μ1,ζ2),…,N (μs ,ζ2)的均值是否相等, 即检验假设

012112

:;

:,,,s s H H μμμσσσ===??

?不全相等. (9.2) 为将问题(9.2)写成便于讨论的形式,采用记号

μ=1

1s

j j j n n μ=∑,

其中n =

1

s

j

j n

=∑,μ表示μ1,μ2,…,μs 的加权平均,μ称为总平均.

δj =μj -μ, j =1,2,…,s ,

δj 表示水平Aj 下的总体平均值与总平均的差异.习惯上将δj 称为水平A j 的效应.利用这些记号,模型(9.1)可改写成:

x ij =μ+δj +εij ,

x ij 可分解成总平均、水平A j 的效应及随机误差三部分之和

1

20,~(0,),.1,2,

,;1,2,

,.

s

j j j ij

ij j n N i n j s δεσε=?=???==?∑各相互独立 (9.1)′

假设(9.2)等价于假设

012112:0;

:,,,s s H H δδδδδδ====??

?不全零.

(9.2)′ 2.平方和分解

我们寻找适当的统计量,对参数作假设检验.下面从平方和的分解着手,导出假设检验(9.2)′的检验统计量.记

S T =

211

()j

n s

ij

j i x

x ==-∑∑, (9.3)

这里11

1j

n

s ij j i x x n ===∑∑,S T 能反应全部试验数据之间的差异.又称为总变差.

A j 下的样本均值 1

1

j

n j ij

i j

x x

n ?==

∑. (9.4)

注意到

2222()()()()2()()ij ij j j ij j j ij j j x x x x x x x x x x x x x x ??????-=-+-=-+-+--,

而 1111()()()()j

j n n s

s

ij j j j ij j j i j i x x x x x x x x ????====??

--=--????

∑∑∑∑

=11()0.j n s

j ij j j j i x x x n x ??==??

--= ? ???

∑∑

记 S E =211()j

n s

ij

j j i x

x ?==-∑∑, (9.5)

S E 称为误差平方和;

记 S A =

2

211

1

()()j

n s

s

j

j j j i j x

x n x x ??===-=-∑∑∑, (9.6)

S A 称为因素A 的效应平方和.于是

S T =S E +S A . (9.7)

利用εij 可更清楚地看到S E ,S A 的含义,记

11

1j

n

s ij j i n εε===∑∑

为随机误差的总平均,

11j

n j ij

i j

n εε

?==

∑, j =1,2,…,s .

于是

S E =

2

21111

()()j

j

n n s

s

ij

j ij j j i j i x

x εε??====-=-∑∑∑∑; (9.8)

S A =

2

21

1

()()s

s

j j

j j j j j n x

x n δεε??==-=+-∑∑. (9.9)

平方和的分解公式(9.7)说明.总平方和分解成误差平方和与因素A 的效应平方和.(9.8)式说明S E 完全是由随机波动引起的.而(9.9)式说明S A 除随机误差外还含有各水平的效应δj ,当δj 不全为零时,S A 主要反映了这些效应的差异.若H 0成立,各水平的效应为零,S A 中也只含随机误差,因而S A 与S E 相比较相对于某一显著性水平来说不应太大.方差分析的目的是研究S A 相对于S E 有多大,若S A 比S E 显著地大,这表明各水平对指标的影响有显著差异.故需研究与S A /S E 有关的统计量.

3.假设检验问题

当H 0成立时,设x ij ~N (μ,ζ2)(i =1,2,…,n j ;j =1,2,…,s )且相互独立,利用抽样分布的有关定理,我们有

22

~(1)A

S s χσ

-, (9.10) 22

~()E

S n s χσ-, (9.11)

F =

()(1)A

E

n s S s S -- ~F (s -1,n -s ). (9.12)

于是,对于给定的显著性水平α(0<α<1),由于

P {F ≥F α(s -1,n -s )}=α, (9.13)

由此得检验问题(9.2)′的拒绝域为

F ≥F α(s -1,n -s ).(9.14)

由样本值计算F 的值,若F ≥F α,则拒绝H 0,即认为水平的改变对指标有显著性的影响;若F

当F ≥F 0.05(s -1,n -s )时,称为显著, 当F ≥F 0.01(s -1,n -s )时,称为高度显著.

在实际中,我们可以按以下较简便的公式来计算S T ,S A 和S E .记

T ·j =

1

j

n ij

i x

=∑, j =1,2,…,s ,

T ··=

11

j

n s

ij

j i x

==∑∑,

即有

2222

11112

222

11,,.

j j

n n s s T ij ij j i j i s s j A j j j j j E T A

T S x nx x n T T S n x nx n n S S S ??====????==?=-=-??

??=-=-??

?=-???

∑∑∑∑∑∑ (9.15) 例9.3 如上所述,在例9.1中需检验假设

H 0:μ1=μ2=μ3=μ4;H 1:μ1,μ2,μ3,μ4不全相等.

给定α=0.05,完成这一假设检验.

解 s =4,n 1=7,n 2=5,n 3=8,n 4=6,n =26.

S T =22

2

11

(4257)69895926j

n s

ij j i T x n ??==-=-

∑∑=1957.12, S A =

2

22

1

(4257)697445.4926

s

j j j T T n n ???=-=-

=443.61, S E =S T -S A =1513.51.

得方差分析表9-5.

表9-5

因 F (3,22)=2.15

例9.4 如上所述,在例9.2中需检验假设

H 0:μ1=μ2=…=μ6; H 1:μ1,μ2,…,μ6不全相等.

试取α=0.05,α=0.01,完成这一假设检验.

解 s =6, n 1=n 2=…=n 6=4,n =24.

S T =2

2

11

j

n s

ij j i T x n ??==-∑∑=112.27,

S A =

2

21

s

j j j T T n n

???=-∑

=56,

S E=S T-S A=56.27.

得方差分析表9-6.

0.050.01

由于 4.25=F0.01(5,18)>F A=3.583>F0.05(5,18)=2.77,

故浸泡水的温度对缩水率有显著影响,但不能说有高度显著的影响.

本节的方差分析是在这两项假设下,检验各个正态总体均值是否相等.一是正态性假设,假定数据服从正态分布;二是等方差性假设,假定各正态总体方差相等.由大数定律及中心极限定理,以及多年来的方差分析应用,知正态性和等方差性这两项假设是合理的.

第二节双因素试验的方差分析

进行某一项试验,当影响指标的因素不是一个而是多个时,要分析各因素的作用是否显著,就要用到多因素的方差分析.本节就两个因素的方差分析作一简介.当有两个因素时,除每个因素的影响之外,还有这两个因素的搭配问题.如表9-7中的两组试验结果,都有两个因素A和B,每个因素取两个水平.

表9-7(b)

表9-7(a)中,无论B在什么水平(B1还是B2),水平A2下的结果总比A1下的高20;同样地,无论A是什么水平,B2下的结果总比B1下的高40.这说明A和B单独地各自影响结果,互相之间没有作用.

表9-7(b)中,当B为B1时,A2下的结果比A1的高,而且当B为B2时,A1下的结果比A2的高;类似地,当A为A1时,B2下的结果比B1的高70,而A为A2时,B2下的结果比B1的高30.这表明A的作用与B所取的水平有关,而B的作用也与A所取的水平有关.即A 和B不仅各自对结果有影响,而且它们的搭配方式也有影响.我们把这种影响称作因素A和B的交互作用,记作A×B.在双因素试验的方差分析中,我们不仅要检验水平A和B的作用,还要检验它们的交互作用.

1.双因素等重复试验的方差分析

设有两个因素A,B作用于试验的指标,因素A有r个水平A1,A2,…,Ar,因素B有s个水平B1,B2,…,B s,现对因素A,B的水平的每对组合(A i,B j),i=1,2,…,r;j=1,2,…,s都作t(t≥2)次试验(称为等重复试验),得到如表9-8的结果:

表9-8

设x ijk ~N (μij ,ζ), i =1,2,…,r ; j =1,2,…,s ; k =1,2,…,t ,各x ijk 独立.这里μij ,ζ均为未知参数.或写为

?????===+=.,

,,2,1),,0(~,,,2,1;,,2,1,2

相互独立各ijk

ijk ijk ij ijk t k N s j r j x εσεεμ (9.16) 记

μ=111,r s ij i j rs μ==∑∑, 1

1s

i ij j s μμ?==∑, i =1,2,…,r ,

1

1r

j ij i r μμ?==∑, j =1,2,…,s ,

,i i αμμ?=-, i =1,2,…,r , j j βμμ?=-, j =1,2,…,s ,

ij ij i j γμμμμ??=--+.

于是 μij =μ+αi +βj +γij . (9.17)

称μ为总平均,αi 为水平A i 的效应,βj 为水平B j 的效应,γij 为水平A i 和水平B j 的交互效应,这是由A i ,B j 搭配起来联合作用而引起的.

易知

1r

i

i α

=∑=0,

1

s

j

j β

=∑=0,

1

r

ij

i γ

=∑=0, j =1,2,…,s ,

1

s

ij

j γ

=∑=0, i =1,2,…,r ,

这样(9.16)式可写成

??

???????=======++++=∑∑∑∑====.,,,2,1;,,2,1;,,2,1),,0(~,

0,0,0,0,21111

相互独立各ijk

ijk s j ij r i ij s j j r i i ijk ij j i ijk t k s j r i N x εσεγγβαεγβαμ (9.18) 其中μ,αi ,βj ,γij 及ζ2都为未知参数.

(9.18)式就是我们所要研究的双因素试验方差分析的数学模型.我们要检验因素A ,B 及交互作用A ×B 是否显著.要检验以下3个假设:

??

?=====.,,:,

0:21112101不全为零r r H H αααααα ??

?=====.,,:,

0:2

1122102不全为零s s H H ββββββ ??

?=====.

,,:,

0:121113121103不全为零rs rs H H γγγγγγ 类似于单因素情况,对这些问题的检验方法也是建立在平方和分解上的.记

111

1r s t

ijk i j k x x rst ====∑∑∑, 1

1t

ij ijk k x x t ?==∑, i =1,2,…,r ; j =1,2,…,s ,

11

1s t

i ijk j k x x st ??

===∑∑, i =1,2,…,r , 11

1r t

j ijk i k x x rt ??

===∑∑, j =1,2,…,s , S T =

2111

()r s t

ijk

i j k x

x ===-∑∑∑.

不难验证,,,i j ij x x x x ?????分别是μ,μ

i ·,μ

·j

,μij 的无偏估计.

由 ()()()()i j k i j k i j i j i j i j x x x x x x x x x x x x

??????????-=-+-+-+--+, 1≤i ≤r ,1≤j ≤s ,1≤k ≤t

得平方和的分解式:

S T =S E +S A +S B +S A ×B , (9.19)

其中

S E =

2111

()r

s

t

ijk

ij i j k x

x ?===-∑∑∑,

S A =1

()2r

i i st

x

x ??

=-∑,

S B =21

()s

j j rt

x

x ??

=-∑,

S A ×B =211

()r

s

ij i j i j t

x

x x x ?????

==--+∑∑. S E 称为误差平方和,S A ,S B 分别称为因素A ,B 的效应平方和,SA ×B 称为A ,B 交互

效应平方和.

当H 01:α1=α2=…=αr =0为真时,

F A =

[]

(1)

(1)A E

S S r rs t -- ~F (r -1,rs (t -1));

当假设H 02为真时,

F B =

[]

(1)

(1)B E

S S s rs t --~F (s -1,rs (t -1));

当假设H 03为真时,

F A ×B =

[]

(1)(1)

(1)A B

E

S S r s rs t ?--- ~F ((r -1)(s -1),rs (t -1)).

当给定显著性水平α后,假设H 01,H 02,H 03的拒绝域分别为:

(1,(1));

(1,(1));

(1)(1),(1)).

A B A B

F F r rs t F F s rs t F F r s rs t ααα?≥--??

≥--??≥---? (9.20) 经过上面的分析和计算,可得出双因素试验的方差分析表9-9.

在实际中,与单因素方差分析类似可按以下较简便的公式来计算S T ,S A ,S B ,S A ×B ,S E . 记 T ···=

111r s t

ijk

i j k x

===∑∑∑,

T ij ·=

1

t

ijk

k x

=∑, i =1,2,…,r ; j =1,2,…,s ,

T i ··=

11s t

ijk

j k x

==∑∑, i =1,2,…,r ,

T ·j ·=

11

r

t

ijk

i k x

==∑∑, j =1,2,…,s ,

即有

22

111

22

122

1

22

11,1,1,1,.

r s t

T ijk i j k r A i i s B j j r s A B ij A B i j E T A B A B T S x rst T S T st rst T S T rt rst T S T S S t rst S S S S S ???===?????=?????

=?????==??=-???=-

???

?=-???=-

--??

?=---?∑∑∑∑∑∑∑ (9.21) 例9.5 用不同的生产方法(不同的硫化时间和不同的加速剂)制造的硬橡胶的抗牵拉

强度(以kg ·cm -2为单位)的观察数据如表9-10所示.试在显著水平0.10下分析不同的硫化时间(A ),加速剂(B )以及它们的交互作用(A ×B )对抗牵拉强度有无显著影响.

表9-10

010203r =s =3, t =2, T ···,T ij ·,T i ··,T ·j ·的计算如表9-11.

表9-11

S T =

2

2

111

,r s t

ijk

i j k T x

rst

???===-∑∑∑=178.44, S A =22

11r i i T T st rst

?????=-∑=15.44,

S B =2211s j j T T rt rst ?????=-∑=30.11,

S A ×B =22

111r s ij A B i j T T S S t rst

????==---∑∑ =2.89,

S E =S T -S A -S B -S A ×B =130,

得方差分析表9-12.

由于F 0.10(2,9)=3.01>F A ,F 0.10(2,9)>F B ,F 0.10(4,9)=2.69>F A ×B ,因而接受假设H 01,H 02,H 03,即硫化时间、加速剂以及它们的交互作用对硬橡胶的抗牵拉强度的影响不显著.

2.双因素无重复试验的方差分析

在双因素试验中,如果对每一对水平的组合(A i ,B j )只做一次试验,即不重复试验,所得结果如表9-13.

这时ij x ?=x ijk ,S E =0,S E 的自由度为0,故不能利用双因素等重复试验中的公式进行方差分析.但是,如果我们认为A ,B 两因素无交互作用,或已知交互作用对试验指标影响很小,则可将S A ×B 取作S E ,仍可利用等重复的双因素试验对因素A ,B 进行方差分析.对这种情况下的数学模型及统计分析表示如下:

由(9.18)式,

1

12,0,0,~(0,),1,2,,;1,2,,,

.

ij i j ij r s

i j i j ij ijk x N i r j s μαβεαβεσε===+++???==?

??==???∑∑各相互独立 (9.22)

要检验的假设有以下两个:

??

?=====.,,:,

0:21112101不全为零r r H H αααααα ??

?=====.,,:,

0:2

1122102不全为零s s H H ββββββ 记 1111

111,,,r s s r

ij i ij j ij i j j i x x x x x x rs s r ??=======∑∑∑∑

平方和分解公式为:

S T =S A +S B +S E , (9.23)

其中 2

2

11

1

(),(),r

s

s

T ij A i i j j S x

x S s x x ?

====

-=-∑∑∑ 2

21

11

(),(),s

r s

B j E ij i j j i j S r x x S x x x x ???====-=--+∑∑∑

分别为总平方和、因素A ,B 的效应平方和和误差平方和.

取显著性水平为α,当H 01成立时,

F A =

(1)A

E

s S S - ~F ((r -1),(r -1)(s -1)), H 01拒绝域为

F A ≥F α((r -1),(r -1)(s -1)). (9.24)

当H 02成立时,

F B =

(1)B

E

r S S - ~F ((s -1),(r -1)(s -1)), H 02拒绝域为

F B ≥F α((s -1),(r -1)(s -1)). (9.25)

得方差分析表9-14.

例9.6 测试某种钢不同含铜量在各种温度下的冲击值(单位:

kg ·m ·cm ),表9-15列出了试验的数据(冲击值),问试验温度、含铜量对钢的冲击值的影响是否显著?(α=0.01)

解 由已知,r =4,s =3,需检验假设H 01,H 02,经计算得方差分析表9-16.

0.01A 01F 0.01(2,6)=10.92

检验结果表明,试验温度、含铜量对钢冲击值的影响是显著的.

第三节 正交试验设计及其方差分析

在工农业生产和科学实验中,为改革旧工艺,寻求最优生产条件等,经常要做许多试验,而影响这些试验结果的因素很多,我们把含有两个以上因素的试验称为多因素试验.前两节讨论的单因素试验和双因素试验均属于全面试验(即每一个因素的各种水平的相互搭配都要进行试验),多因素试验由于要考虑的因素较多,当每个因素的水平数较大时,若进行全面试验,则试验次数将会更大.因此,对于多因素试验,存在一个如何安排好试验的问题.正交试验设计是研究和处理多因素试验的一种科学方法,它利用一套现存规格化的表——正交表,来安排试验,通过少量的试验,获得满意的试验结果.

1.正交试验设计的基本方法

正交试验设计包含两个内容:(1)怎样安排试验方案;(2)如何分析试验结果.先介绍正交表.

正交表是预先编制好的一种表格.比如表9-17即为正交表L4(23),其中字母L表示正交,它的3个数字有3种不同的含义:

(1) L4(23)表的结构:有4行、3列,表中出现2个反映水平的数码1,2.

列数

L4 (23)

↑↑

行数水平数

(2)L4(23)表的用法:做4次试验,最多可安排2水平的因素3个.

最多能安排的因素数

L4(23)

↑↑

试验次数水平数

(3) L4(23)表的效率:3个2水平的因素.它的全面试验数为23=8次,使用正交表只需从8次试验中选出4次来做试验,效率是高的.

L4(23)

↑↑

实际试验数理论上的试验数

正交表的特点:

(1)表中任一列,不同数字出现的次数相同.如正交表L4(23)中,数字1,2在每列中均出现2次.

(2)表中任两列,其横向形成的有序数对出现的次数相同.如表L4(23)中任意两列,数字1,2间的搭配是均衡的.

凡满足上述两性质的表都称为正交表(Orthogonal table).

常用的正交表有L9(34),L8(27),L16(45)等,见附表.用正交表来安排试验的方法,就叫正交试验设计.一般正交表L p(n m)中,p=m(n-1)+1.下面通过实例来说明如何用正交表来安排试验.

例9.7 提高某化工产品转化率的试验.

某种化工产品的转化率可能与反应温度A,反应时间B,某两种原料之配比C和真空度D有关.为了寻找最优的生产条件,因此考虑对A,B,C,D这4个因素进行试验.根据以往的经验,确定各个因素的3个不同水平,如表9-18所示.

表9-18

分析各因素对产品的转化率是否产生显著影响,并指出最好生产条件.

解本题是4因素3水平,选用正交表L9(34).

将各因素的诸水平所表示的实际状态或条件代入正交表中,得到9个试验方案,如表9-20所示.

表9-20

从表9-20看出,第一行是1号试验,其试验条件是:

反应温度为60℃,反应时间为2.5小时,原料配比为1.1∶1,真空度为500毫米汞柱,记作A1B1C1D1.依此类推,第9号试验条件是A3B3C2D1.

由此可见,因素和水平可以任意排,但一经排定,试验条件也就完全确定.按正交试验表9-20安排试验,试验的结果依次记于试验方案右侧,见表9-21.

2.试验结果的直观分析

正交试验设计的直观分析就是要通过计算,将各因素、水平对试验结果指标的影响大小,通过极差分析,综合比较,以确定最优化试验方案的方法.有时也称为极差分析法.

例9.7中试验结果转化率列在表9-21中,在9次试验中,以第9次试验的指标86为最高,其生产条件是A 3B 3C 2D 1.由于全面搭配试验有81种,现只做了9次.9次试验中最好的结果是否一定是全面搭配试验中最好的结果呢?还需进一步分析. (1) 极差计算

在代表因素A 的表9-21的第1列中,将与水平“1”相对应的第1,2,3号3个试验结果相加,记作T 11,求得T 11=151.同样,将第1列中与水平“2”对应的第4,5,6号试验结果相加,记作T 21,求得T 21=183.

一般地,定义T ij 为表9-21的第j 列中,与水平i 对应的各次试验结果之和(i =1,2,3; j =1,2,3,4).记T 为9次试验结果的总和,R j 为第j 列的3个T ij 中最大值与最小值之差,称为极差.

显然T =

3

1

ij

i T

=∑,j =1,2,3,4.

此处T 11大致反映了A 1对试验结果的影响,

T 21大致反映了A 2对试验结果的影响, T 31大致反映了A 3对试验结果的影响,

T 12,T 22和T 32分别反映了B 1,B 2,B 3对试验结果的影响, T 13,T 23和T 33分别反映了C 1,C 2,C 3对试验结果的影响, T 14,T 24和T 34分别反映了D 1,D 2,D 3对试验结果的影响.

R j 反映了第j 列因素的水平改变对试验结果的影响大小,R j 越大反映第j 列因素影响越大.上述结果列表9-22.

(2) 极差分析(Analysis of range)

由极差大小顺序排出因素的主次顺序:

主→次 B ;A 、D ;C

这里,R j 值相近的两因素间用“、”号隔开,而R j 值相差较大的两因素间用“;”号隔

开.由此看出,特别要求在生产过程中控制好因素B ,即反应时间.其次是要考虑因素A 和D ,即要控制好反应温度和真空度.至于原料配比就不那么重要了.

选择较好的因素水平搭配与所要求的指标有关.若要求指标越大越好,则应选取指标大的水平.反之,若希望指标越小越好,应选取指标小的水平.例9.7中,希望转化率越高越好,所以应在第1列选最大的T 31=185;即取水平A 3,同理可选B 3C 1D 3.故例9.7中较好的因素水平搭配是A 3B 3C 1D 3.

例9.8 某试验被考察的因素有5个:A ,B ,C ,D ,E .每个因素有两个水平.选用正交表L 8(27),现分别把A ,B ,C ,D ,E 安排在表L 8(27)的第1,2,4,5,7列上,空出第3,6列仿例9.7做法,按方案试验.记下试验结果,进行极差计算,得表9-23.

试验目的要找出试验结果最小的工艺条件及因素影响的主次顺序.从表9-23的极差R j

的大小顺序排出因素的主次顺序为

主 → 次 A 、B ;D ;C 、E

最优工艺条件为A 2B 1C 1D 2E 1.

表9-23中因没有安排因素而空出了第3,6列.从理论上说,这两列的极差R j 应为0,但因存有随机误差,这两个空列的极差值实际上是相当小的.

3.方差分析

正交试验设计的极差分析简便易行,计算量小,也较直观,但极差分析精度较差,判断因素的作用时缺乏一个定量的标准.这些问题要用方差分析解决.

设有一试验,使用正交表L p (n m ),试验的p 个结果为y 1,y 2,…,y p ,记

T =1

p

i i y =∑, y =11p i i T

y p p ==∑,

S T =

2

1

()

p

i

i y y =-∑

为试验的p 个结果的总变差;

S j =2

2

2111n

n ij ij i i T T T r T r p r p ==??-=- ???

∑∑ 为第j 列上安排因素的变差平方和,其中r =p/n .可证明

S T =

1

m

i

j S

=∑

即总变差为各列变差平方和之和,且S T 的自由度为p -1,S j 的自由度为n -1.当正交表的所有

列没被排满因素时,即有空列时,所有空列的S j 之和就是误差的变差平方和S e ,这时S e 的自由度f e 也为这些空列自由度之和.当正交表的所有列都排有因素时,即无空列时,取S j 中的最小值作为误差的变差平方和S e .

从以上分析知,在使用正交表L p (n m )的正交试验方差分析中,对正交表所安排的因素选用的统计量为:

F =

1j

e

e

S S n f -.

当因素作用不显著时,

F ~F (n -1,f e ),

其中第j 列安排的是被检因素.

在实际应用时,先求出各列的S j /(n -1)及S e /f e ,若某个S j /(n -1)比S e /f e 还小时,则这第j 列就可当作误差列并入S e 中去,这样使误差S e 的自由度增大,在作F 检验时会更灵敏,将所

有可当作误差列的S j 全并入S e 后得新的误差变差平方和,记为S e Δ,其相应的自由度为f e Δ

,这时选用统计量

F =

1j

e e

S S n f

- ~F (n -1,f e Δ

).

例9.9 对例9.8的表9-23作方差分析.

解 由表9-23的最后一行的极差值R j ,利用公式S j =2

211n ij i T T r p

=-∑,得表9-24.

表9-24

表9-24中第3,6列为空列,因此S e =S 3+S 6=1.250,其中f e =1+1=2,所以S e /f e =0.625,而第7列的S 7=0.125,S 7/f 7=0.1251=0.125比S e /f e 小,故将它并入误差. S e Δ=S e +S 7=1.375,f e Δ

=3.整理成方差分析表9-25.

由于F 0.05(1,3)=10.13, F 0.01(1,3)=34.12,故因素A ,B 作用高度显著,因素C 作用不显著,因素D 作用显著,这与前面极差分析的结果是一致的.F 检验法要求选取S e ,且希望f e 要大,故在安排试验时,适当留出些空列会有好处的.前面的方差分析中,讨论因素A 和B 的交互作用A ×B .这类交互作用在正交试验设计中同样有表现,即一个因素A 的水平对试验结果指标的影响同另一个因素B 的水平选取有关.当试验考虑交互作用时,也可用前面讲的基本方法来处理.本章就不再介绍了.

小 结

本章介绍了数理统计的基本方法之一:方差分析.

在生产实践中,试验结果往往要受到一种或多种因素的影响.方差分析就是通过对试验数据进行分析,检验方差相同的多个正态总体的均值是否相等,用以判断各因素对试验结果的影响是否显著.方差分析按影响试验结果的因素的个数分为单因素方差分析、双因素方差分析和多因素方差分析.

1. 单因素方差分析的情况.试验数据总是参差不齐,我们用总偏差平方和S T =

211

()j

n s

ij

j i x

x ==-∑∑来度量数据间的离散程度.将S T 分解为试验随机误差的平方和(S E )与因

素A 的偏差平方和(S A )之和.若S A 比S E 大得较多,则有理由认为因素的各个水平对应的试验结果有显著差异,从而拒绝因素各水平对应的正态总体的均值相等这一原假设.这就是单因素方差分析法的基本思想.

2. 双因素方差分析的基本思想类似于单因素方差分析.但双因素试验的方差分析中,我们不仅要检验因素A 和B 各自的作用,还要检验它们之间的交互作用.

3. 正交试验设计及其方差分析.根据因素的个数及各个因素的水平个数,选取适当的正交表并按表进行试验.我们通过对这少数的试验数据进行分析,推断出各因素对试验结果影响的大小.对正交试验结果的分析,通常采用两种方法,一种是直观分析法(极差分析法),它通过对各因素极差R j 的排序来确定各因素对试验结果影响的大小.一种是方差分析法,它的基本思想类似于双因素的方差分析. 重要术语及主题

单因素试验方差分析的数学模型 S T =S E +S A

单因素方差分析表 双因素方差分析表 正交试验表极 差分析表

习题九

1.灯泡厂用4种不同的材料制成灯丝,检验灯线材料这一因素对灯泡寿命的影响.若灯泡寿命服从正态分布,不同材料的灯丝制成的灯泡寿命的方差相同,试根据表中试验结果记录,在显著性水平0.05下检验灯泡寿命是否因灯丝材料不同而有显著差异?

2.一个年级有三个小班,他们进行了一次数学考试,现从各个班级随机地抽取了一些学生,

试在显著性水平0.05下检验各班级的平均分数有无显著差异.设各个总体服从正态分布,且方差相等.

4.为了解3种不同配比的饲料对仔猪生长影响的差异,对3种不同品种的猪各选3头进行试验,分别测得其3个月间体重增加量如下表所示,取显著性水平α=0.05,试分析不同饲料与不同品种对猪的生长有无显著影响?假定其体重增长量服从正态分布,且各种配比的方

5.研究氯乙醇胶在各种硫化系统下的性能(油体膨胀绝对值越小越好)需要考察补强剂

第九章 方差分析

第九章 方差分析(讲义) 第一节 方差分析的基本原理和步骤 思考: 1.如果想要分析A 总体和B 总体平均数的差异,可以用什么方法来检验? 2.如果想要分析A 、B 、C 三个总体平均数的差异,又该用什么方法来证明? 如果是两个总体,用Z 和t 检验。 那是不是三个总体A 、B 、C 的比较就是拿A 和B 做比较,然后那A 与C 做比较 然后再拿B 和C 做比较? 一、方差分析的基本原理:综合的F 检验 方差分析主要处理两个以上的平均数之间的差异检查问题,需要检验的虚无 假设就是“任何一对平均数”之间是否有显著性差异,因此虚无假设为,样本 所属的所有总体的平均数都相等。 一般把这个假设称为“综合虚无假设“,表达式为: 3210:μμμ==H 方差分析最关键的步骤就是变异的分解。 看一个例子9-1:不同噪音强度下解数学题犯错频次 图9-1 数据变异示意图 (一)数据变异文字层面上的分解 从数据可知:不仅组与组之间数据存在不同,而且同一组被试内部也存在着不同。 1.前者称组间变异,因听了不同的噪音而不同。 2.后者称组内变异,因个案本身的不同而造成的不同。 3.而每个数据之间的差异叫做总变异。 2 5 13 3 6 10 2 5 12 2 5 1 4 n=4 1 4 16 无(C ) 中(50)(B ) 强(100(A) K=3 噪音

可以知道:总变异=组间变异+组内变异 一般而言: 1.组间变异是我们想要的结果,即实验条件产生了作用才会令各组之间的数值存在差异。它越大越好! 2.组内变异不是我们研究的目的,但是需要分解它,借助它分析实验是否成功。组内变异其实是实验的误差。它越小越好! 3.问题来了:组间差异多大,组内差异多小才好? (二)数据变异的数学层面的分解 1.数学上如何表示变异? 总变异的数学意义是每一原始分数( )与总平均数( )的离差,记为: 组间变异的数学意义是每一组的平均数( )与总平均数的离差,记为: 组内变异的数学意义是每一组内部的原始分数与其组平均数( )的离差,记为: 2. 先看某一个数据的情况 分析可知,任一个数据( )与总平均数的差异等于他与本组平均数( )之差加上小组平均数与总平均数( )的差。即: 例如: 3.再看总变异的分解及计算 根据变异的可加性,任何一个原始分数都有: 2 67 .6=

第9章方差分析思考与练习-带答案

第九章方差分析 【思考与练习】 一、思考题 1. 方差分析的基本思想及其应用条件是什么? 2. 在完全随机设计方差分析中SS SS SS 、、各表示什么含义? 总组间组内 3. 什么是交互效应?请举例说明。 4. 重复测量资料具有何种特点? 5. 为什么总的方差分析的结果为拒绝原假设时,若想进一步了解两两之间的差别需要进行多重比较? 二、最佳选择题 1. 方差分析的基本思想为 A. 组间均方大于组内均方 B. 误差均方必然小于组间均方 C. 总变异及其自由度按设计可以分解成几种不同来源 D. 组内方差显著大于组间方差时,该因素对所考察指标的影响显著 E. 组间方差显著大于组内方差时,该因素对所考察指标的影响显著

3. 完全随机设计的方差分析中,下列式子正确的是 4. 总的方差分析结果有P<0.05,则结论应为 A. 各样本均数全相等 B. 各总体均数全相等 C. 各样本均数不全相等 D. 各总体均数全不相等 E. 至少有两个总体均数不等 5. 对有k 个处理组,b 个随机区组的资料进行双因素方差分析,其误差的自由度为 A. kb k b -- B. 1kb k b --- C. 2kb k b --- D. 1kb k b --+ E. 2kb k b --+ 6. 2×2析因设计资料的方差分析中,总变异可分解为 A. MS MS MS =+B A 总 B. MS MS MS =+B 总误差 C. SS SS SS =+B 总误差 D. SS SS SS SS =++B A 总误差 E. SS SS SS SS SS =+++B A AB 总误差 7. 观察6只狗服药后不同时间点(2小时、4小时、8小时和24小时)血药浓度的变化,本试验应选用的统计分析方法是 A. 析因设计的方差分析

第9章方差分析与回归分析习题答案

第九章 方差分析与回归分析习题参考答案 1. 为研究不同品种对某种果树产量的影响,进行试验,得试验结果(产量)如下表,试分析果树品种对产量是否有显著影响. (0.05(2,9) 4.26F =,0.01(2,9) 8.02F =) 34 2 11 1310ij i j x ===∑∑ 【 解 : r=3, 12 444n n 321=++=++=n n , T=120 ,120012 1202 2===n T C 3 4 2 21113101200110(1)1110110T ij T i j SS x C S n s ===-=-==-=?=∑∑或S 322.1112721200724(31)429724A i A A i SS T C S s ==-=-==-=??=∑或S 38 72110=-=-=A T e SS SS SS 计算统计值 722 8.53, 389 A A A e e SS f F SS f = =≈…… 方差分析表 方差来源 、 平方和 自由度 均方 F 值 临界值 显著性 品种A ~ 36 0.050.01(2,9) 4.26(2,9)8.02 F F == ** 误差 ] 总 计 结论:由于0.018.53(2,9)8.02, A F F ≈>=故果树品种对产量有特别显著影响. 品种 试验结果 行和??=i x T i 行均值.i x A 1 10 7 、 13 10 40 10 A 2 12 13 15 12 52 ? 13 A 3 8 4 7 9 28 7

2. ^ ..180x = 43 2 11 2804ij i j x ===∑∑ 解:22..4,3,12,180122700l m n lm C x n ======= 4 3 2 211 28042700104(1)119.45 T ij T i j S x C S n s ===-=-==-=?∑∑或 : 422 .1 12790270090(1)331090 3A i A A i S x C S m l s ==-=-==-≈??=∑或322 .1 12710.5270010.5(1)8 1.312510.5 4B j B B j S x C S l m s ==-=-==-≈?=∑或1049010.5 3.5 e T A B S S S S =--=--= 计算统计值 90310.52 51.43,93.56 3.56 A A B B A B e e e e S f S f F F S f S f = =≈==≈ 方差来源 平方和 自由度 F 值 临界值 显著性 推进器A 【 0.050.01(3,6) 4.76(3,6)9.78F F == 燃料B 0.050.01(2,6) 5.14 (2,6)10.92 F F == · 误差 总 计 结论: 由以上方差分析知,进器对火箭的射程有特别显著影响;燃料对火箭的射程有显著影响. 3.为了研究某商品的需求量Y 与价格x 之间的关系,收集到下列10对数据: . 价格x i 1 2 3 4 4 ] 5 需求量y i 10 8 8 7 6 4 ^ 2 1 31,58,147,112,410.5,i i i i i i x y x y x y =====(1)求需求量Y 与价格x 之间 试验 结果 》 燃料B B 1 B 2 B 3 .i x .i x 推进器 A 《 A 1 14 13 12 39 13 A 2 18 16 ^ 14 48 16 A 3 13 12 11 36 12 A 4 20 18 19 57 19 .j x 65 59 % 56 180 .j x 14 15

第九章 方差分析

第九章方差分析 在生产过程和科学实验中,我们经常遇到这样的问题:影响产品产量、质量的因素很多.例如,在化工生产中,影响结果的因素有:配方、设备、温度、压力、催化剂、操作人员等.我们需要通过观察或试验来判断哪些因素对产品的产量、质量有显著的影响.方差分析(Analysis of variance)就是用来解决这类问题的一种有效方法.它是在20世纪20年代由英国统计学家费舍尔首先使用到农业试验上去的.后来发现这种方法的应用范围十分广阔,可以成功地应用在试验工作的很多方面. 第一节单因素试验的方差分析 在试验中,我们将要考察的指标称为试验指标,影响试验指标的条件称为因素.因素可分为两类,一类是人们可以控制的;一类是人们不能控制的.例如,原料成分、反应温度、溶液浓度等是可以控制的,而测量误差、气象条件等一般是难以控制的.以下我们所说的因素都是可控因素,因素所处的状态称为该因素的水平.如果在一项试验中只有一个因素在改变,这样的试验称为单因素试验,如果多于一个因素在改变,就称为多因素试验. 本节通过实例来讨论单因素试验. 1.数学模型 例9.1某试验室对钢锭模进行选材试验.其方法是将试件加热到700℃后,投入到20℃的水中急冷,这样反复进行到试件断裂为止,试验次数越多,试件质量越好.试验结果如表9-1. 表9-1 试验的目的是确定4种生铁试件的抗热疲劳性能是否有显著差异. 这里,试验的指标是钢锭模的热疲劳值,钢锭模的材质是因素,4种不同的材质表示钢锭模的4个水平,这项试验叫做4水平单因素试验. 例9.2考察一种人造纤维在不同温度的水中浸泡后的缩水率,在40℃,50℃, (90) 的水中分别进行4次试验.得到该种纤维在每次试验中的缩水率如表92.试问浸泡水的温度对缩水率有无显著的影响?

第九章 方差分析

第九章 方差分析 第一节 方差分析的基本原理及步骤 一、方差分析的基本原理 假设从一个实验中抽取了9名被试的学习成绩,如表9-1所示。随后又抽取了9名被试的学习成绩,如表9-2所示。你能从这些数据发现什么问题吗? 首先,从数据可知,不仅组与组之间存在不同,而且同一组内部也存在着不同。前者称组间变异,后者称组内变异。 其次,从组间变异看,表9-1组间变异大于表9-2。 表9-1 第1次抽取结果 表9-2 第2次抽取结果 方法 学生实验成绩 X t X 方法 学生实验成绩 X t X A 6 5 7 6 A 1 7 4 4 B 11 9 10 10 7 B 6 2 8 6 5 C 5 4 6 5 C 3 6 5 5 再次,从看组内变异看,表9-1比 9-2差异小。 综上所述,表10-1组间变异较大而组内变异较小,表10-2组间变异较小而组内变异较大,组间变异大小与组内变异大小并非正比关系。这表明,若组间变异与组内变异的比率越大,各组平均数的差异越大。因此,通过组间变异和组内变异比率大小来推论几个相应平均数差异显著性的思想就是方差分析的逻辑依据或基本原理。所以说,方差分析是将实验中的总变异分解为组间变异和组内变异,并通过组间变异和组内变异比率的比较来确定影响实验结果因素的数学方法,其实质是以方差来表示变异的程度。 总变异 组间变异 实验条件 随机误差 组内变异 个体差异 随机误差 实验误差 图10-1 总变异的分解图 二、方差分析的基本过程 (一)综合虚无假设与部分虚无假设 方差分析主要处理多于两个的平均数之间的差异检验问题,需要检验的虚无假设就是“任何一对平均数”之间是否有显著性差异。 综合虚无假设:样本所归属的所有总体的平均数都相等 备择假设:至少有两个总体的平均数不相等

第九章-方差分析

第9章方差分析 (Analysis of Variance) 方差分析是指把一种数据的总偏差分解为若干种成分的方法。与其中每一种成分相联系的是某一特殊偏差的来源。通过分析有可能确定每一种偏差来源对总偏差的贡献大小,即在众多的影响因素中,有些影响作用大一些,有些则小些。在现实经济生活中常常需要分析哪几种因素的影响显著,方差分析是解决这一问题的唯一有效的方法。在第八章曾经讨论过两个总体的平均数是否相等的显著性检验问题,但对2个以上的多个总体的平均数是否相等的问题,前面介绍的检验方法无法解决。对这些问题我们采用方差分析来解决。 9.1 单因子方差分析

单因子方差分析是分析一个因子的不同水平对总体的影响的方法。 比如某企业为了推销空调,做了四种不同内容的宣传广告。广告1:强调价格便宜。广告2:强调质量可靠。广告3:强调节能。广告4:强调免费安装和保修。在这个问题中广告是所要检验的因素,四个不同内容的广告可看作是该因素的四个不同的水准的试验。如果以上四种广告内容的宣传对空调销售量的影响没有显著性差异,则从四种广告中任选一种比较经济的广告即可。但是,如果这四种广告对空调销售量的影响有显著性差异,则必须选择对空调的销售量更为有利的方案。 9.1.1 单因子方差分析的资料结构

单因子方差分析是只分析一个因子的不同水平对总体影响的单纯的试验计划法。单因子方差分析至少要对两个水平以上的效果进行比较分析,检验的因子可记作A 。前面所述的四种广告为四个水平,可分别记作4 321,,,A A A A 。每个水平的观测值可以用ij Y 表示。在方 差分析中,当涉及到的因子只有一个时,称为单因子方差分析;涉及的因子有两个时称为双因子方差分析;涉及的因子有两个以上的方差分析,称作多因子方差分析。它具有两个特点; ①各水平的观测值个数不一定相等。 ②各组观测数据必须是,从具有相同方差的相互独立的总体中随机抽样的样本。单因子方差分析的资料结构如 表9-11)。 (表9-1)单因子方差分析的资料结 构 1)因为每一个观测值的个数不一定相等,所以其观测值数不能用n 表示。为了便于区别通常用n j 表示。

相关文档
最新文档