第六章方差分析
第六章 方差分析

6.2 单因素方差分析
• 解决的问题类型
设有k个教学方案,各个方案的效果如表6.1所示。 问:怎样判断这k个方案的效果是否有显著区别 (均值是否相同)?
所谓的单因素是指只有“方案”这个变量(因素)。 不同方案就是“方案”这个变量的不同取值。这 些不同的“取值”又称为“方案”这个因素的不 同“水平”。
受不同因素的影响,研究所得数据会不同。造成 差异的原因可分为两类:1)随机误差,如测量误差 造成的差异或个体间的差异,称为组内差异;2)实 验条件,即不同的处理造成的差异,称为组间差异。 方差分析的目的是分析分组的平均数是否相等。 如果相等,说明组间没有差别;如果不相等,说明组 间平均数有差异,这时分组(或处理)是有效的。
但其独特的地方是,它并不直接利用平均数来比 较,而是利用与方差有关的统计指标总变差(SST)、 组间变差(SSB)、组内变差(SSW)的关系来进行 判别。
收 入Biblioteka 男 女Y总=800元
Y女=800元
Y男=800元
收 Y男=1000元 入
男 女
Y总=800元
Y女=600元
收 入 Yi-
男 女
y
Yi-
表 单因素方差分析的已知条件
方案1 方案2 X11 X21 X12 X22 „ „ X1n X2n
„
方案k
„
Xk1
„
Xk2
„
„
„
Xkn
注:表中ni表示方案i的实验个数。
6.2 单因素方差分析实例
P120 研究3个组(分别接受了3种不同的教学方法)在 英语成绩上是否有显著差异,如表6.3所示。 方法1/group1 99 88 79 方法2/group2 70 72 87 方法3/group3 79 56 89
教育与心理统计学 第六章 方差分析考研笔记-精品

第六章方差分析第一节方差分析概述一.方差分析的定义[用途]定义:用途方差分析也称为变异数分析,是在教育与心理研究中最常用的变量分析方法,其主要功能在于分析测量或实验数据中不同来源的变异对总变异的贡献大小,从而确定测量或实验中因素对反应变量是否存在显著影响。
即用于置信度不变情况下的多组平均数之间的差异检验。
它既可以比较两个以上的样本平均数的差异检验,也可以应用于一个因素多种水平以及多个因素有多种水平的数据分析。
二.方差分析的作用方差分析主要应用于两种以上实验处理的数据分析,同时匕徽两个以上的样本平均数,推断多组资料的总体均数是否相同,也即检验多组数据之间的均数差异是否有统计意义。
在这个意义,也可以将其理解为平均数差异显著性检验的扩展。
当我们用多个t检验来完成这一过程时,相当于从t分布中随机抽取多个t值,这样落在临界范围之外的可能大大增加,从而增加了I型错误的概率,我们可以把方差分析看作t检验的增强版。
方差分析一次检验多组平均数的差异,降低了多次进行两组平均数检验所带来的误差。
在进行方差分析时,设定的假设是综合虚无假设,即假设样本所归属的所有总体的平均数都相等。
如果检验的结果是存在显著性差异,只能说明多组平均数之间存在显著性差异,但是无法确定究竟哪些组之间存在显著性差异,此时需要运用事后检验的方法来确定。
三.方差分析的相关概念一(一)数据的变异(1)变异:统计中的变异是普遍存在的7一般意义上的变异是指标志(包括品质标志和数量标志)在总体单位之间的不同表现。
可变标志的属性或数值表现在总体各单位之间存在的差异,统计上称之为变异,这是广义上的变异,即包括了品质标志和数量标志,有时仅指品质标志和在总体单位之间的不同表现。
注:随机性,即变异性。
(2)组间变异[组间差异]:组间变异表示处理间变异,主要指由于接受不同的实验处理(实验处理效应)而造成的各组之间的变异,可以用两个平均数之间的离差来表示,可将组间离差平方和记为SS AO组间差异可用组间方差来表征,用符号MS B表示。
第六章 方差分析

适用于样本平均数与总体平均数及两样本平 均数间的差异显著性检验。 多个处理平均数的显著 性检验该如何进行呢?
方差分析 !!!
举例说明
饲喂不同饲料的鱼的增重 (单位:10g)
饲料
鱼的增重(xij)
31.9 24.8 22.1 27.0 27.9 25.7 23.6 30.8 31.8 26.8 27.3 29.0 28.4 27.9 24.9 24.5 35.9 26.2 25.8 28.5
在计算总平方和时,资料中各观测值要受 ( xij x ) 0
i 1 j 1 k n
这一条件约束,故总自由度等于资料中观测值的总个数减 1,即 nk 1 。总自由度记为 dfT ,即 dfT nk 1 。 在计算处理间平方和时,各处理均数 x i. 要受 ( xi. x ) i 1 这一条件的约束,故处理间的自由度为处理数减1, 即 k 1 。处理间的自由度记为 dft ,即 dft k 1 。 在计算处理内平方和时要受个 条件的约束, 即 ( x x ) 0 , i 1,2,...k 。故处理内自由度为资料中观测值总 个数减k,即 nk k。处理内自由度记为 dfe , 即 dfe nk k k (n 1) ,这实际上是各处理内的自由度之和。
A1 A2 A3 A4
检验过程烦琐;
无统一的试验误差,误差估计的精确性和检验的灵敏性低;
推断的可靠性低,检验的I型错误率大。
累积 I 型错误的概率计算
当有k个均数需作两两比较时,比较的次数共有c c= k!/(2!(k-2)!)=k(k-1)/2 设每次检验所用Ⅰ类错误的概率水准为α,累积Ⅰ 类错误的概率为α´,则在对同一实验资料进行c次检验时 ,在样本彼此独立的条件下,根据概率乘法原理,其累积 Ⅰ类错误概率α´与c有下列关系:
5第六章方差分析

练习
• 以小鼠研究正常肝核糖核酸(RNA)对癌细 胞的生物学作用,试验分为对照组(生理 盐水)、水层 RNA组和酚层RNA组,分别用 此三种不同处理诱导肝细胞的FDP酶活力, 得数据如下。该三组资料均服从正态分布, 试比较三组均数有无差别?
ex_36.sas
表 6.1 对照组
2.79 2.69 3.11 3.47 1.77 2.44 2.83 2.52
复相关系数(确定系数),变异系数,均方根,总均数
对自变量的检验
R-Square:等于模型的平方和除以总 平方和,用于度量在因变量的变差 里能够由模型决定的比例有多少, 越接近1,效果越好。
检验的显著水平、自由度、 误差均方
具有相同字母的组间 均值差异没有统计学意义。
第2组具有A和B两个字母,所以 第二组和第三组,第一组均没有差异。
单因素方差分析
假设某单因素试验有k个处理,每个处理有n次重 复,共有nk个观测值。这类试验资料的数据模式
如下表所示。
(一)总平方和的分解 在上表中,反映全部观测值总变异的总平方和
是各观测值xij与总平均数的离均差平方和,记 为SST。即
kn
SST
( xij x.. ) 2
i1 j 1
nj 组内样本容量j 1,2,,n ki 组数,即水平数i 1,2,,k x.. 总平均数 xij i水平下第 j个样样本
变 差
组间 变差
总 变 差 组内 变差
组数(水平数)
(二)总自由度的剖分
在计算总平方和时,资料中的各个观测值要
kn
受 (xij x这..) 一0 条件的约束,故总自由度等于 i1 j1
资料中观测值的总个数减1,即kn-1。
dfT kn 1 df t k 1 df e dfT df t
方差分析I单向分类资料

合计 平均
X1. X1. X 2. X 2. X i. X i.
Xk. Xk. X .. X
平方和与自由度旳计算
k ni
总平方和:SST
i1 j1
X ij X
2
k i 1
ni j 1
X ij 2
X
2 ..
N
校正项(correction
factor):CF
X
2 ..
N
k
组间平方和 : SSA=
8
II 10.8 11.6 12.3 12.7 13.5 13.5 14.8
7
III 9.3 10.3 11.1 11.7 11.7 12.0 12.3 12.4 13.6 9
IV 9.5 10.3 10.5 10.5 10.5 10.9 11.0 11.5
8
32
–零假设:1= 2= 3= 4
sum 119.80
单向分类资料旳数据构造
组别 • 观察值
A1 A2
X 11 X 12 X X 21 X 22 X
1 2
j j
X X
1n1 2 n2
Ai X i1 X i2 X ij X ini
Ak X i.XXik总1jn i1X总和n1Xik平2:ijj ni1均XX ..:=ijXXikkj1= XN1i.XXkn.k.
组间(处理) 85.8563
3
28.6188 16.855
Treatment
**
组内(误差) 47.5408
28
1.6979
error
总变异
133.3972 31
total F F (3,28) 否定H0 ,
F0.01(3,28) 4.57
第六章方差分析

2se( 2 LSD检验)
x
n0
x1 x2
n0
第三节双因素方差分析
1、试验指标:衡量试验结果的标准 2、因素(factor):也叫因子,是指对试验指标有影响,在研究中加以(控制)考虑的试验
4
条件。 3、可控因子:在试验中可以人为地加以调控的因子浓度、温度等 4、非控因子:不能人为调控的因素(气象、环境等) 5、固定因素:指因素的水平是经过特意选择的 6、随机因素:指因素的水平是从该因素水平总体中随机抽出的样本 7、水平(level):每个因素的不同状态(从质或量方面分成不同的等级) (因素是一个抽象的概念,水平则是一个较为具体的概念) 8、处理:指对试验对象施以不同的措施(对单因素试验而言,水平和处理是一致的,一个 水平就是一个处理;对多因素试验而言,处理就是指水平与水平的组合) 9、固定效应(fixed effect):由固定因素所引起的效应。 10、随机效应(random effect):由随机因素引起的效应。 11、二因素方差分析:是指对试验指标同时受到两个试验因素作用的试验资料的方差分析。 12、固定模型:二因素都是固定因素 13、随机模型:二因素均为随机因素 14、混合模型:一个因素是固定因素,一个因素是随机因素 15、主效应(main effect):各试验因素的相对独立作用 16、互作(interaction):某一因素在另一因素的不同水平上所产生的效应不同。 17、因素间的交互作用显著与否关系到主效应的利用价值 如果交互作用不显著,则各因素的效应可以累加,各因素的最优水平组合起来,即为最优的 处理组合。 如果交互作用显著,则各因素的效应就不能累加,最优处理组合的选定应根据各处理组合的 直接表现选定。有时交互作用相当大,甚至可以忽略主效应。 二因素间是否存在交互作用有专门的统计判断方法,有时也可根据专业知识判断。 (一)无重复观测值的二因素方差分析 依据经验或专业知识,判断二因素无交互作用时,每个处理可只设一个观测值,即假定 A 因素有 a 各水平,B 因素有 b 个水平,每个处理组合只有一个观测值。
第六章 方差分析-

自由度和平方和的分解
总自由度DFT=组间自由度DFt+组内自由度DFe
总平方和SST=组间平方和SSt+组内平方和SSe 总的均方: MST
sT
2
(x
ij
x)
2
nk 1
处理 D B A C
平均数 xi 29 23 18 14
2. 新复极差测验(SSR法)
P SSR 0.05
3.08 3.23 3.33
SSR 0.01
4.32 4.55 4.68
LSR 0.05
4.40 4.62 4.76
LSR 0.01
6.18 6.51 6.69
A. 计算LSRα
B. 排序
C. 比较
( between group variation )变异平方和与处理内(within group variation )变异平方和两部分;
总自由度:分解为处理间自由度与处理内自由度
两部分来。
试验数据有三个不同的变异(表 5.1)
总变异: 26 只家兔的血清 ACE 浓度不尽相同, 称为总变异; 组间变异:4 组家兔血清 ACE 浓度的均数各不 相同,称为组间变异; 组内变异:即使同组内的家兔血清 ACE 浓度也 不相同,称为组内变异。
进一步的分析
由 SPSS 软件的运行输出结果还可得:
x1 x3
101.875,
158.175
x2 x4
106.95
129.775
• 由 SPSS 软件的运行输出结果还直接可得 到对各 i 的 t 检验结果如下( =0.05): • 1 2 4 • (广告宣传) 1 • (有奖销售) 2 • (买一送一) 4 * * • (特价销售) 3 * * *
第6章 方差分析

2.Dunnett-t检验
它适用于k-1个试验组与一个对照组均数差 别的多重比较。 公式为:
t
Xi X0
1 1 MS 误差 ( ) ni n0
照组的均数,MS误差为方差分析中所计算的误差均 方,ni和n0分别为第i个试验组和对照组的例数。 v=v误差
X 为第i个(i=1,2,…k-1)试验组的均数, 0 为对 X i
两两比较计算表
对比组 两均数 之差
XA XB
A与B (1) (2)
q值
(3) (2) 0.3899
组 数
a (4)
q界值
P
(3)
α=0.05 (5)
α=0.01 (6)
(7)
1与2 1与3 2与3
1.0323 2.7543 1.7220
2.65 7.06 4.42
2 3 2
2.83 3.40 2.83
方差分析
Analysis of Variance
本章内容
方差分析的基本思想 完全随机设计的单因素方差分析 随机区组设计的两因素方差分析 多个样本均数间的多重比较 变量变换
例1.某研究者为研究核黄素缺乏对尿中氨基氮的 影响,将60只Wistar大白鼠随机分为核黄素缺乏、 限食量、不限食量三组不同饲料组。每组20只 大白鼠。一周后测尿中氨基氮的三天排出量, 结果如表1。
一、方差分析的基本思想
4. 方差分析的基本思想: 根据变异的不同来源将全部观察值总的 离均差平方和与自由度分解为两个或多 个部分,除随机误差外,其余每个部分 的变异可由某个因素的作用(或某几个 因素的交互作用)加以解释,通过比较 不同变异来源的均方,借助F分布作出 统计推断,从而了解该因素对观测指标 有无影响。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(6.1.8)
W {F c}
对给定的显著性水平 ,c 应满足
P(F c)
22
例6.1.1的方差分析表
方 差 平 方 自 由 均方 F 比 P 值
来源 和
度
A
516
2
258. 9.00 0.003
e
430 15 28.67
T
946
17
P=0.003<0.05,故拒绝 H 0 24
5
在本例中我们要比较三个工厂的考分是否相同, 为此把工厂看成一个因子,记为A,它有三个工
我厂们,将就第看成i 个因工子厂A的的三第个j水个平工,人记的考A分1 、记A为2 、A3。
yij , i 1,2,3; j 1,2,, mi
在本例中 m1 m2 m3 6
由于在每个工厂选的是随机样本,(工人间的差异控
i 1
i 1
r
r
r
mi ai2 2 mi ai ( i ) mi ( i )2
i 1
i 1
i 1
r
r
r
E(S A ) mi ai2 2 mi ai E( i ) mi E( i )2
i 1
i
三、检验统计量与拒绝域
ij ~ N (0,
2 ),i 1,2,, r, j 1,2,, mi
i
~
2 N(0, ),i
mi
1,2,, r,
~
2 N(0, )
n
18
(2) 求 E(S A )
r
r
S A mi ( yi y)2 mi (ai i )2
ˆ 2 Se nr
27
§6.2 双因子方差分析
一、问题
对于双因子试验,试验间差异同样是(1)由于 各因子水平变化所引起;(2)试验误差(包括未 加控制或无法控制的因子的变化)所引起。
和单因子试验的情况一样,在双因子试验中,方 差分析的目的就是将试验误差所引起的结果差异 与试验条件的改变(即各因子不同的水平变化) 所引起的结果差异区分开,以便能抓住问题的实 质;此外,还要将试验结果的主要因子和次要因 子区分开来,以便集中力量研究几个主要因子。
6.1.4 效应与误差方差的估计
一、点估计 yij ~ N ( ai ,
2 ) 用MLE法求各效应与方差
2 的估计。
r mi
L(, a1, a2 ,ar ,
2 )
i1 j1
1 2
2
exp{
( yij
2
2
ai
)
2
}
l
(
,
a1,
a2
,ar
,
2
)
1
2
r i 1
mi
( yij
j 1
ai ) 0
l
ai
1
2
mi
( yij ai ) 0,
j 1
i 1,2,, r
l
2
n 2
2
1 2
4
r i 1
mi
( yij
j 1
ai )2
我们一般用大写字母A、B、C等表示因 子,用大写字母加下标 表示该因子的水 平,如A的水平用 A1, A2 , 等表示。
4
表6.1 员工的考分
观察值
1 2 3 4 5 6
亚特兰大 (工厂1)
A1 85
75
82
76
71
85
达拉斯 (工厂2)
A2 71
75
73
74
69
82
西雅图 (工厂3)
A3 59
64
(1)原假设H 0不真,即各水平下总体均值不同;
(2)差异是由于随机误差引起的。
mi
记 yi yij
表示水平 Ai下的数据和i
表示水平 Ai 下数据的平均值
y
1 n
r i 1
mi
yij
j 1
为所有数据的总平均值。
i
1 mi
mi
ij
简称为 Ai 的效应。
r
显然有
m iai 0
i 1
12
6.1.3 检验方法
一、误差来源
试
验
数
据
A1
y11
y12
……
y1m1
A2
y21
y22
……
y 2 m2
Ar
yr1
yr2 ……
y rmr
14
每一数据与总平均的偏差可以分解成两部分:
yij y ( yij yi ) ( yi y) (6.1.5)
i 1
r
r
miai2 E(
mi
(
2 i
2i
2 ))
i 1
i 1
r
r
miai2
mi
E
(
2 i
)
nE(
2
)
20
i 1
i 1
当原假设为真时,各 ai 相等且为 0 ,则
E(S A ) (r 1)
2
取检验统计量为:
F S A (r 1) Se (n r)
yij ai ij , i 1,2,, r. j 1,2,, mi
r
mi ai 0
i1
(6。1。4)
各 ij相互独立且服从N (0,
2 )
从而假设(6.1.1)可写成:
H 0 : a1 a2 ar 0
13
造成各 yij 差异的原因可能有两个:
j 1
i 1
则有
E(Se ) (n r)
2
19
r
r
mi ai2 E(
mi
(
2 i
2 i
2 ))
i 1
i 1
r
r
mi ai2
mi
E(
2 i
)
nE(
2
)
i 1
i 1
r i 1
mi ai2
r i 1
mi
2 mi
n
8
要比较各个总体的均值是否一致,就是要检验 各总体的均值是否相同,设第 i 个总体的均值
为 i ,那么要检验的假设为: H 0 : 1 2 r (6.1.1)
其备择假设为: H1 : 1, 2 ,, r 不全相同。 通常 H1 可以省略不写。
9
二、数据结构及统计模型
yij yi 称为组内偏差,仅反映随机误差:
yij yi (i ij ) (i i ) ij i (6.1.6)
yi y 称为组间偏差,除随机误差之外还有 第 i 个水平的效应:
yi y (i i ) ( ) ai i (6.1.7)
第六章 方差分析
§6.1 单因子方差分析
实践例子: 美国的Burke市场调查公司是一家最富经验的市场 调研机构之一。在一次研究中,一家Anon公司要评 价儿童干谷类食品的潜在的新品种。Anon产品开发 者认为可能改善食品味道的四类关键因素为:
1.食品中小麦与玉米的比例。 2.甜味剂的类型:白糖、蜂蜜或人工制剂。 3.果味香料的有无。 4.加工时间的长短。
n 2
ln(2
2
)
1 2
2
r i 1
mi
( yij ai )2
j 1
25
ui ai 的MLE为 ˆ i yi ,可以证明
ˆ , ˆ i , aˆi
均为相应参数的无偏估计。
E
(
ˆ
2 M
)
E(Se ) n
nr
n
2
2
不是
2
的无偏估计
2 的无偏估计为
*食品成分及甜味剂的类型对味道影响很大。 *果味香精事实上破坏了食品的味道。 *加工时间对味道没有影响。
这些信息帮助Anon识别出了可能产生最佳口味食 品的因素。从而在生产方案中起了很大的作用。
2
类似问题有许多,今后我们称所要比较的 地区、联营厂等为因子,因子所处的状态 称为水平,如四个地区是地区这个因子的 四个水平。
0
r
加上约束条件 mi ai 0 ,则 MLE为: i 1 ˆ y
aˆi yi y i 1,2,, r
ˆ
2 M
Se n
26
二、i 的置信水平为 1 的置信区间
我们来利用枢轴量法构造 i 的置信区间。从 i
1
在实际中常会遇到比较多个总体均值是否相 等的问题。 例如某工厂的原料来自四个不同地区, 那么用不同地区的原料生产的产品的质 量是否一致?
再如某工厂有三个联营厂,生产同一产 品,生产工艺也相同,那么这几个联营厂 的产品质量是否一致?
3
下面用一个例子来说明问题的提法。
例6.1.1 国民计算机公司(NCP)在亚 特兰大、达拉斯以及西雅图的工厂生产计 算机与传真机。为确定这些工厂中有多少 员工了解全面质量管理,从每个工厂选取 了一个由6名员工组成的随机样本,并对他 们进行质量意识考试。18名员工的考分列 在下表中。管理者想用这些数据来检验假 设:三个工厂的平均考分相同。
16
二、平方和分解
r mi
ST