第六章 第一节方差分析基本原理
教学内容及组织安排:
教学内容及组织安排:回顾卡方检验和T检验讲授的有关知识,引进方差分析的概念。
第六章方差分析
方差分析的定义
方差分析(Analysis of variance,ANOV A):又叫变量分析,是英国著名统计学家R . A . Fisher于20世纪提出的。它是用以检验两个或多个均数间差异的假设检验方法。它是一类特定情况下的统计假设检验,或者说是平均数差异显著性检验的一种引伸。
方差分析的基本功能
t检验法适用于样本平均数与总体平均数及两样本平均数间的差异显著性检验,但在生产和科学研究中经常会遇到比较多个处理优劣的问题,即需进行多个平均数间的差异显著性检验。这时,若仍采用t检验法就不适宜了。这是因为:
1、检验过程烦琐
例如,一试验包含5个处理,采用t检验法要进行 =10次两两平均数的差异显著性检验;若有k个处理,则要作 k(k-1)/2次类似的检验。
2、无统一的试验误差,误差估计的精确性和检验的灵敏性低
对同一试验的多个处理进行比较时,应该有一个统一的试验误差的估计值。若用 t 检验法作两两比较,由于每次比较需计算一个,故使得各次比较误差的估计不统一,同时没有充分利用资料所提供的信息而使误差估计的精确性降低,从而降低检验的灵敏性。
例如,试验有5个处理,每个处理重复6次,共有30个观测值。进行t检验时,每次只能利用两个处理共12个观测值估计试验误差,误差自由度为 2(6-1)=10 ;若利用整个试验的30个观测值估计试验误差,显然估计的精确性高,且误差自由度为5(6-1)=25。可见,在用t检法进行检验时,由于估计误差的精确性低,误差自由度小,使检验的灵敏性降低,容易掩盖差异的显著性。
3、推断的可靠性低,检验的 I 型错误率大
即使利用资料所提供的全部信息估计了试验误差,若用t 检验法进行多个处理平均数间的差异显著性检验,由于没有考虑相互比较的两个平均数的秩次问题,因而会增大犯 I型错误的概率,降低推断的可靠性。
由于上述原因,多个平均数的差异显著性检验不宜用 t 检验,须采用方差分析法。
方差分析 (analysis of variance) 是由英国统计学家R.A.Fisher于1923年提出的。
这种方法是将k个处理的观测值作为一个整体看待,把观测值总变异的平方和及自由度分解为相应于不同变异来源的平方和及自由度,进而获得不同变异来源总体方差估计值;通过计算这些总体方差的估计值的适当比值,就能检验各样本所属总体平均数是否相等。
“方差分析法是一种在若干能相互比较的资料组中,把产生变异的原因加以区分开来的方法与技术” ,方差分析实质上是关于观测值变异原因的数量分析。
几个常用术语:
1、试验指标(experimental index)
为衡量试验结果的好坏或处理效应的高低,在试验中具体测定的性状或观测的项目称为试验指标。由于试验目的不同,选择的试验指标也不相同。在畜禽、水产试验中常用的试验指标有:日增重、产仔数、产奶量、产蛋率、瘦肉率、某些生理生化和体型指标(如血糖含量、体高、体重)等。
2、试验因素(experimental factor)
试验中所研究的影响试验指标的因素叫试验因素。如研究如何提高猪的日增重时,饲料的配方、猪的品种、饲养方式、环境温湿度等都对日增重有影响,均可作为试验因素来考虑。
当试验中考察的因素只有一个时,称为单因素试验;
若同时研究两个或两个以上的因素对试验指标的影响时,则称为两因素或多因素试验。试验因素常用大写字母A、B、C、…等表示。
3、因素水平(level of factor)
试验因素所处的某种特定状态或数量等级称为因素水平,简称水平。
如比较3个品种奶牛产奶量的高低,这3个品种就是奶牛品种这个试验因素的3个水平;
研究某种饲料中4种不同能量水平对肥育猪瘦肉率的影响,这4种特定的能量水平就是饲料能量这一试验因素的4个水平。
因素水平用代表该因素的字母加添足标1,2,… ,来表示。如 A1 、 A2 、… , B1 、B2、…,等。
4、试验处理(treatment)
事先设计好的实施在试验单位上的具体项目叫试验处理,简称处理。
在单因素试验中,实施在试验单位上的具体项目就是试验因素的某一水平。例如进行饲料的比较试验时,实施在试验单位(某种畜禽)上的具体项目就是喂饲某一种饲料。所以进行单因素试验时,试验因素的一个水平就是一个处理。
在多因素试验中,实施在试验单位上的具体项目是各因素的某一水平组合。例如进行3种饲料和3个品种对猪日增重影响的两因素试验,整个试验共有3×3=9个水平组合,实施在试验单位(试验猪)上的具体项目就是某品种与某种饲料的结合。所以,在多因素试验时,试验因素的一个水平组合就是一个处理。
5、试验单位(experimental unit)
在试验中能接受不同试验处理的独立的试验载体叫试验单位。
在畜禽、水产试验中,一只家禽、一头家畜、一只小白鼠、一尾鱼,即一个动物;或几只家禽、几头家畜、几只小白鼠、几尾鱼,即一组动物都可作为试验单位。试验单位往往也是观测数据的单位。
重复(repetition): 在实验中,将一个处理实施在两个或两个以上的试验单位上,称为处理有重复;一处理实施的试验单位数称为处理的重复数。例如,用某种饲料喂4头猪,就说这个处理(饲料)有4个重复。
第一节方差分析的基本原理
一、方差分析的基本思想、目的和用途
方差:又叫均方,是标准差的平方,是表示变异的量。
在一个多处理试验中,可以得出一系列不同的观测值。
方差分析的基本思想: 处理效应
总变异
试验误差
方差分析的目的 确定各种原因在总变异中所占的重要程度。
方差分析的用途
1. 用于多个样本平均数的比较
2. 分析多个因素间的交互作用
3. 回归方程的假设检验
4. 方差的同质性检验
二、数学模型
假定有k 组观测数据,每组有n 个观测值,则共有nk 个观测值
用线性模型(linear model)来描述每一观测值: xij =μ + τi +εij (i=1,2,3…,k j=1,2,3…,n)
μ -总体平均数 τi -处理效应 εij -试验误差 xij -是在第 i 次处理下的第 j 次观测值
要求εij 是相互独立的,且服从标准正态分布 N(0,σ2 ) 对于由样本估计的线性模型为:xij =x + ti +eij
x -样本平均数 ti -样本处理效应 eij -试验误差 根据的τi 不同假定,可将数学模型分为以下三种: 固定模型 随机模型 混合模型
(一)固定模型(fixed model)
指各个处理的效应值τi 是固定值,各个的平均效应τi = μi - μ是一个常量,且∑τi =0。就是说除去随机误差以后每个处理所产生的效应是固定的。
实验因素的各水平是根据试验目的事先主观选定的而不是随机选定的。
在固定模型中,除去随机误差之后的每个处理所产生的效应是固定的,试验重复时会得到相同的结果
方差分析所得到的结论只适合于选定的那几个水平,并不能将其结论扩展到未加考虑的其它水平上。
(二)随机模型(random model)
指各处理的效应值τi 不是固定的数值,而是由随机因素所引起的效应。
这里τi 是一个随机变量,是从期望均值为 0,方差为σ2 的标准正态总体中得到的随机变量。得出的结论可以推广到多个随机因素的所有水平上。
平均 T=∑x ij T k … T i … T 2 T 1 总和
x k1 x k2 … x kj … … … … … …
x i1 x i2 … x i j … … … … … … x 21 x 22 … x 2j …
x 11 x 12 … x 1j …
1 2 … j …
k … i … 2 1 处理
x x 1
x 2
x i
x k
在随机模型中,水平确定之后其处理所产生的效应并不是固定的,试验重复时也很难得到相同的结果
在随机模型中,水平确定之后其处理所产生的效应并不是固定的,试验重复时也很难得到相同的结果
方差分析所得到的结论,可以推广到这个因素的所有水平上 固定模型与随机模型的比较
1. 两者在设计思想和统计推断上有明显不同,因此进行方差分析时的公式推导也有所不同。其平方和与df 的分解公式没有区别,但在进行统计推断时假设检验构成的统计数是不同的。
2. 模型分析的侧重点也不完全相同,方差期望值也不一样,固定模型主要侧重于效应值的估计和比较,而随机模型则侧重效应方差的估计和检验
3. 对于单因素方差分析来说,两者并无多大区别
(三)混合模型(mixed model)
指多因素试验中既有固定因素又有随机因素时所用的模型.
在实际应用中,固定模型应用最多,随机模型和混合模型相对较少
三、平方和与df 的分解
方差是离均差平方和除以自由度的商
方差分析的基本思想 引起观测值出现变异分解为处理效应的变异和试验误差的变异。 要把一个试验的总变异依据变异来源分为相应的变异,首先要将总平方和和总df 分解为各个变异来源的的相应部分。
σ2
=
∑(x-μ)2
N
∑(x- x )2
s 2
=
n-1
处理间平均数的差异是由处理效应引起的:( xi – x ) 处理内的变异是由随机误差引起:(x- xi ) 每一个处理n 个观测值离均差平方和累加:
SST = SSt + SSe
总平方和=处理间平方和
+ 处理内平方和
令矫正数C =
则:
SST = ∑x2 -C
总平方和:SST = ∑x2 -C
处理间平方和: SSt = ∑ Ti2 - C 处理内平方和:SSe = SST - SSt
SS T =
∑∑ (x - x )2
1
=
∑x 2
- T 2
kn
(∑x)2
kn
= ∑x 2 -
… … 平均 T=∑xij
T k … Ti … T2 T1 总和
x k1 x k2 … x kj
…
x kn … … … … … … x i1 x i2 … x ij …
x in … … … … …
… x 21 x 22 … x 2j …
x 2n x 11 x 12 … x 1j … x 1n 1 2 … j …
n
k
… i … 2 1 处理 重复
x
x1 x2 x i xk
( x i – x )2
∑(x - x )2
= ∑
1
n
1 n
(x- x i )2
+
(x- x i ) ( x i –
x ) 2∑ 1 n +∑ 1
n
T 2
kn
总自由度也可分解为处理间自由度和处理内自由度: dfT = dft + dfe
总df 处理间df 处理内df
根据各变异部分的平方和和自由度,可求得处理间方差( st2 )和处理内方差( se2 ):
T = nk-1 s t 2
=
SS t
df t
SS e df e
s e 2
=
某猪场对4个不同品种幼猪进行4个月增重量的测定,每个品种选择体重接近的幼猪4
头,测定结果列于下表,试进行方差分析。
k=4,n=4,nk=16
课堂小结
=27.2
27.9
24.1
25.8
30.9
T=434.4 111.4 96.2 103.2 123.6 T i
27.0 30.8 29.0 22.2 23.0 26.7 24.8 25.7 26.8 31.9 24.0 31.8 1 2 3 沈花 沈黑 沈白 大白 品 种 重 复 x i
x