第五章 方差分析
第5章方差分析

5.1.4 方差分析中的基本假定
(基本前提:独立、同分布、同方差)
一、因素中的k个水平相当于r个正态总体。 每个水平下的n个观察数据(试验结果)相当 于从正态总体中抽取的容量为n的随机样本。 (同分布) 二、r个正态总体的方差是相同。 即:σ12=σ22…….=σr2=σ2 (同方差) 三、从不同的正态总体中抽取的各个随机样 本是相互独立的。(独立)
SSE
j1 i1
r
nj
xijxj
(续前)
方差分析的优点之二:增加了稳定性 由于方差分析将所有的样本资料结合在一起, 故而增加了分析结论的稳定性。 例如:30个样本,每一个样本中包括10个观 察单位(n=10)。如果采用t检验法,则在两 两检验中,一次只能研究2个样本和20个观察 单位,而在方差分析中,则可以把30个样本 和300个样本观察单位同时放在一起、结合进 行研究。 所以,方差分析是一种实用、有效的分析方 法。
r
2
j1 i r
xij xj 2 x
j1 i1 2 r
nj
ij
xj
x
2
j
x
j1 i1
r
nj
x j x
2
j1 i1
nj
xij xj xj x SSE SSA
nj
j1 i1
2、随机误差项离差平方和(SSE)的计算 SSE反映的是水平内部或组内观察值的离散状 况。它实质上反映了除所考察因素以外的其 他随机因素的影响,反映样本数据( x i j ) 与水平均值 ( x j )之间的差异,故而称之 为随机误差项离差平方和或组内误差。计算 公式如下:
第五章方差分析

单因素方差分析单因素方差分析也称作一维方差分析。
它检验由单一因素影响的一个(或几个相互独立的)因变量由因素各水平分组的均值之间的差异是否具有统计意义。
还可以对该因素的若干水平分组中哪一组与其他各组均值间具有显著性差异进行分析,即进行均值的多重比较。
One-Way ANOVA过程要求因变量属于正态分布总体。
如果因变量的分布明显的是非正态,不能使用该过程,而应该使用非参数分析过程。
如果几个因变量之间彼此不独立,应该用Repeated Measure过程。
[例子]调查不同水稻品种百丛中稻纵卷叶螟幼虫的数量,数据如表5-1所示。
表5-1 不同水稻品种百丛中稻纵卷叶螟幼虫数数据保存在“DATA5-1.SAV”文件中,变量格式如图5-1。
图5-1分析水稻品种对稻纵卷叶螟幼虫抗虫性是否存在显著性差异。
1)准备分析数据在数据编辑窗口中输入数据。
建立因变量“幼虫”和因素水平变量“品种”,然后输入对应的数值,如图5-1所示。
或者打开已存在的数据文件“DATA5-1.SAV”。
2)启动分析过程点击主菜单“Analyze”项,在下拉菜单中点击“Compare Means”项,在右拉式菜单中点击“0ne-Way ANOVA”项,系统打开单因素方差分析设置窗口如图5-2。
图5-2 单因素方差分析窗口3)设置分析变量因变量:选择一个或多个因子变量进入“Dependent List”框中。
本例选择“幼虫”。
因素变量:选择一个因素变量进入“Factor”框中。
本例选择“品种”。
4)设置多项式比较单击“Contrasts”按钮,将打开如图5-3所示的对话框。
该对话框用于设置均值的多项式比较。
图5-3 “Contrasts”对话框定义多项式的步骤为:均值的多项式比较是包括两个或更多个均值的比较。
例如图5-3中显示的是要求计算“1.1×mean1-1×mean2”的值,检验的假设H0:第一组均值的1.1倍与第二组的均值相等。
第五章方差分析

5.1.3方差分析的原理
方差分析认为,如果控制变量的不同水平对观测变量产生了显著影 响,那么它和随机变量共同作用必然使得观测变量值显著变动;反之, 如果控制变量的不同水平没有对观测变量产生显著影响,那么观测变量 值的变动就不明显,其变动可以归结为随机变量影响造成的。 建立在观测变量各总体服从正态分布和同方差的假设之上,方差 分析的问题就转化为在控制变量不同水平上的观测变量均值是否存在显 著差异的推断问题了。 综上所述,方差分析从对观测变量的方差分解入手,通过推断控 制变量各水平下各观测变量的均值是否存在显著差异,分析控制变量是 否给观测变量带来了显著影响,进而再对控制变量各个水平对观测变量 影响的程度进行剖析。 根据控制变量的个数可将方差分析分为单因素方差分析、多因素 方差分析;根据观测变量的个数可将方差分析分为一元方差分析(单因 变量方差分析)和多元方差分析(多因变量方差分析)。
从左侧的变量列表中选择观测变量“胰岛质量”到 Dependent List框中,选择控制变量“药物组”到 Factor框中。
10
选择各组间两两比较的方法,单击“One-Way ANOVA”对 话框下方的“Post Hoc…”按钮,出现上图对话框,在Equal Variances Assumed复选框中选择“LSD”。
协变量“原工资”的相伴概率Sig为0.000,即 协变量对青年教师现工资的影响显著;“教师 级别”的相伴概率为0.997,大于0.05,即对青 年教师的工资影响不显著;“政策实施”的相 伴概率0.029,小于0.05,对青年教师工资影响 显著;两因素的交互作用的相伴概率为0.551, 大于0.05,即交互作用没有对结果造成显著影 响。
5.4.2 协方差分析的基本步骤 • 提出原假设:协变量对观测变量的线性影响是不显著的 ;在扣除协变量的影响条件下,控制变量各水平下观测 变量的各总体均值无显著差异。 • 计算检验统计量和概率P值 给定显著性水平与p值做比较:如果p值小于显著性水平 ,则应该拒绝原假设,反之就不能拒绝原假设。
第五章 方差分析

k
n
k
n
k
• 总平方和 SS T • =组内(误差)平方和 SS e • +处理平方和 SS t • 组间变异由k个 y i 的变异引起,故其自由度 • k 1 ,组间平方和为 SS : t • k k 2 2 SSt n ( y i y ) Ti n C
1 1
• 组内变异为各组内观察值与组平均数的变 异,故每组具有自由度 n 1 n • 和平方和 ( y y ) 2 ;
1 ij i
• 资料共有 k 组,故组内自由度 k (n 1) • 组内平方和 SSe 为: •
SSe [ ( y ij y i ) ] SST SSt
• 总变异是nk个观察值的变异,故其自由 度 nk 1 ,而其平方和 SST 则为:
SST ( yij y ) y C
2 1 1 2 ij nk nk
( y ) T C nk nk
2 2
•SST ( yij y) ( yij yi ) n ( yi y) 2
• [例5.10] 作一水稻施肥的盆栽试验,设5个 处理,A和B系分别施用两种不同工艺流程 的氨水,C施碳酸氢铵,D施尿素,E不施 氮肥。每处理4盆(施肥处理的施肥量每盆皆 为折合纯氮1.2克),共5×4=20盆,随机放 置于同一网室中,其稻谷产量(克/盆)列于 表6.11,试测验各处理平均数的差异显著性。
=0.01水平上否定H0,接受HA;若所得F
F分布曲线(随 1 和 2 的不同而不同)
f(F)
1.0
0.8
0.6
0.4
0.2
第五章方差分析[统计学经典理论]
![第五章方差分析[统计学经典理论]](https://img.taocdn.com/s3/m/8103707959fafab069dc5022aaea998fcc224065.png)
第五章方差分析•如果要检验两个总体的均值是否相等,我们可以用t检验。
当要检验多个总体的均值是否相等,则需要采用方差分析。
•方差分析是R.A.Fister发明的,它是通过对误差的分析研究来检验两个或多个正态总体均值间差异是否具有统计意义的一种方法。
•由于各种因素的影响,研究所得的数据呈现波动,造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果造成影响的可控因素,方差分析认为不同处理组的均值间的差异基本来源有两个:•组内差异:由随机误差造成的差异,用变量在各组的均值与该组内变量值之差平方和的总和表示,记作SSE。
•组间差异:由因素中的不同水平造成的差异,用变量在各组的均值与总均值之差平方和的总和表示,记作SSA。
•方差分析的基本思想是:通过分析研究中不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。
•方差分析的三个条件:•被检验的各总体均服从正态分布;•各总体的方差皆相等;•从每一个总体中所抽出的样本是随机且独立的;方差分析的基本步骤:建立原假设H0:两个或多个总体均值相等。
将各不同水平间的总离差分成两个部分:组间差异SSA组内差异SSE构造检验统计量: F= MSA / MSE判断:在零假设为真时,F~F[(k-l),(n-k)]的F分布。
若各样本平均数的差异很大,则分子组间差异会随之变大,而F值也随之变大,故F检验是右尾检验。
当检验统计量F大于临界值时则拒绝原假设;或者根据 p值来判断,若p<α,则拒绝原假设§5.1 单因素方差分析(One-Way ANOVA过程)One-Way ANOVA过程用于进行两组及多组样本均数的比较,即成组设计的方差分析,如果做了相应选择,还可进行随后的两两比较,甚至于在各组间精确设定哪几组和哪几组进行比较。
5.1.1 界面说明【Dependent List框】选入需要分析的变量,可选入多个结果变量(应变量)。
方差分析

假设从总体中抽取容量为 n i 的样本: X i 1 , X i 2 ,..., X in , i 1,2,3,4
i
• 假设4个样本相互独立,则 X ij相互独立, 这里 4
n ni
i 1
• 提出假设:
H0 : 1 2 3 4
原假设等价于
H0 : 1 2 ... r 0
5.4
5.1.3. 统计分析
(一)假设检验 • 构造(5.4)的统计量。 n 1 记 X X ,
i
ni
j 1 ni j 1
i
ij
1 2 Si ni
(X
ij
Xi ) ,
2
i 1,2,...,r
分别为第i个总体的样本均值和方差。
——单因素方差分析数学模型
• 假设
H 0 : 1 2 ... r
• 引入记号: n ni(总次数)
i 1 r
1 r ni i n i 1
(理论总均值)
i i
(因素对指标的效应)
•
i 之间的差异等价于 i 之间的差异,
且
n
Tests of Between-Subjects Effects Dep endent Variable: 杀 虫率 Source Corrected Model Intercept 农药 Error Total Corrected Total Type III Sum of Squares 3794.500a 95340.115 3794.500 178.000 118693.000 3972.500 df 5 1 5 12 18 17 Mean Square 758.900 95340.115 758.900 14.833 F 51.162 6427.424 51.162 Sig . .000 .000 .000
第5章 方差分析

F检验
若实际计算的F值大于 F 0 . 0 5 ( d f , d f ) ,则 F 值在 α=0.05的水平上显著,我们以95% 的可靠性推断 2 2 St代表的处理间方差大于Se 代表的处理内方差。
1 2
这种用F值出现概率的大小推断两个总体方差 是否相等的方法称为 F检验。
F检验时,是将由试验资料所算得的F值与根 ,F 据df1=dft 和df2=dfe查表所得的临界F值F 相比较作出统计推断的。
1 1
k
n
x ) n (x i x )
2 2 1
k
(x
1 1
k
n
xi )
2
上式可简写成:SST=SSt+SSe 分别表示总 平方和,处理间平方和,处理内平方和。 即:总平方和=处理间平方和+处理内平
方和。
C=T2/kn:
SST
x C
2
1 2 SS t Ti C n SS e SS T SS t
P ( F F ) 1 F ( F )
F
f (F )d F
F表列出的是不同df1和df2下, P(F≥Fα)=0.05和P(F≥Fα)=0.01时的F值, 即右尾概率α=0.05和α=0.01时的临界F 值,一般记作F0.05(df1,df2), F0.01(df1,df2) 。
所以 d f T d f t d f e 综合以上各式得:
df T kn 1 df t k 1 df e df T df t
均方差,均方(mean square,MS)
变异程度除与离均差平方和的大小有关外, 还与其自由度有关,由于各部分自由度不相等, 因此各部分离均差平方和不能直接比较,须将 各部分离均差平方和除以相应自由度,其比值 称为均方差,简称均方 (mean square , MS )。组 间均方和组内均方的计算公式为 :
第五章 方差分析和正交试验

r
i 表示组内理论均值, eij 表示随机误差, eij ~ N (0, 2 ), i 称为效应值. ni i 0.
单因素方差分析的数学模型为 : Yij i eij (i 1, 2, , r; j 1, 2, , ni ) 2 e ~ N ( 0 , ), eij 互相独立; ij n n 0. i i i 1
•步骤2:表头设计.见下表:一般至少安排有一个空列.
17
结束
•步骤3:制订试验方案, 见下表:
18
结束
•步骤4:作试验得到得率 yi .填入表中.作试验时采用随机顺序. •步骤5:计算统计量,填入表5.4.5中.
水平数r 3, 每水平在 1列中出现次数 m 3, 试验数n rm 9, 试验结果为Y1 , Y2 , , Yn , K jl为j列中水平为l (l 1,2, , r )的试验结果之和 . 这里K11 y1 y2 y3 , K 23 y3 y6 y9 . 记K K jl , 显然, K Yi , 与j无关.
l 1 i 1 n 1 2 1 r 2 2 2 P K , Q j K jl , S j Q j P, Q Yi 2 , ST Q P. n m l 1 i 1 r n
S Yi Y
2 T j 1
r
2
1 2 2 2 2 S , Y K , 这里, ST S12 S 2 S3 S4 . n j 1
EYi i , EY ,
2 总离差平方和 ST Yij Y , r ni 2 i 1 r j 1
组间差平方和 S 组内差平方和 S
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Yi1、 Yi2、 Yi3、┅ ┅ Yin ┇ ┇ ┇ ┇┇
Ӯi
Si 2
┇
┇
Ni(μi,σi2) ┇
Yk1、 Yk2、 Yk3、┅ ┅ Ykn
Ӯk
Sk 2
Nk(μk,σk2)
换一种说法,就是所得数据的来源和性质须满足以下两点要求:
①各组观察值必须是用随机方法获得的;
②各正态总体的μi与σi2无任何函数关系,或者说μi与σi2彼此独立。
方差是平均数的函数,即σi2 = piqi=μi (1-μi),服从的是二项分布;
稀有现象的次数数据,如单位面积内的某种杂草的株数或者昆虫的头数 , 某块载玻片上细菌群落的计数,每毫升溶液中某种微生物个体数,每个显微镜
2020/6/7
第四节 三个假定与数据转换
①各组观察值必须是用随机方法获得的; ②各正态总体的μi与σi2无任何函数关系,或者说μi与σi2彼此独立。 因此,首先务必明确方差分析只能用于经过随机排列(分组)设计获得的试 验数据,或者是通过随机取样得到的调查结果,不能用于顺序排列(分组)设计 获得的试验数据或者未经随机取样得到的调查结果。 二项资料的百分数或统计次数,其实质乃二项总体抽样所得,这类总体 的
这些例题所用的原始数据已从其来源和性质进行“把关”,并根据其变化特点 予
以“把握”,使方差的同质(也叫“齐性”)有了一个基本的保证,具体有三 条:
⑴根2据020数/6/7据的来源和性质,判断其是否符合方差分析的正态性假定;
第四节 三个假定与数据转换
一、正态性
指数据的各组观察值必须围绕其相应的平均数作正态分布。
例5.4 用生长素作用于豌豆,连对照共6个处理。待种子发芽后,分别在每 盆 中移植四株,每组( 一个重复 ) 分为 6 盆,每盆一个处理。试验共4 组, 排于温 室 时只保证同组各盆的环境条件一致。观察值为每盆见第一朵花时记录的四株豌豆 (试验单元)的总节间数,结果如下表,试予方差分析。
2020/6/7
第五章 方差分析(一)
• 第一节
•
• 第二节
•
• 第三节
•
• 第四节
•
方差分析原理
(一个性质、两个分布、三个假定)
单向分组数据
(各组观察值个数有相同和不相同之分)
多向分ห้องสมุดไป่ตู้数据
(含两向分组、三向分组实例)
三个假定与数据转换
(正态性、可加性、同质性)
2020/6/7
第五章要点提示 方差分析是本课程的重点,它与试验研究 联系最为密切。学习时①要从完全随机设计(单 向分组)的试验数据着手,结合显著性检验的知 识,深刻理解方差分析原理的全部内涵,即一个 性质、两个分布和 三个假定(某些情况下作数 据转换的必要性); ②区分LSR法多重比较与ttest的异同点; ③重点掌握单因素随机区组和拉 丁方试验结果的方差分析法,能熟练地运用字母
7 (6+8+7)
6 (7+8+7)
8 (7+6+7)
7 (7+6+8)
no6=.98 3
3
3
3
=
7+6
+8+7
本例说明取样调查得到的数据观察结果可按单向分组数据的模型进行方差分
析, 而不论各组取样获得的观察值个数是否相同(参见例5.1)。
实际应用中,某些完全随机试验设计即使各处理的小区个数相同,但因为自
2020/6/7
2020/6/7
2020/6/7
2020/6/7
2020/6/7
第四节 三个假定与数据转换
在显著性检验一章知,针对两个小样本的平均数进行 t-est 时,只有方差 同 质(即两个样本方差 S2 经F-test不显著)的情形才能合并方差进而求算 t 值。 在例5.1中介绍SS、df 的可加性时,对组内SSe、dfe进行分析,知其实质 就 是多个样本的合并方差,既然方差分析说到底依然是对多个样本平均数的两两 差数做若干次连续的显著性检验(SSR-test或q-test),自然也应该在多个样 本 的方差合并之前证实它们同质才行,这可是方差分析的条件问题!即使是多元 统计分析中建立生产过程的回归模型(现代生物统计技术)也少不得这个前提。 但本章从例5.1讲到例5.5,也并没有明示上述前提条件是否存在,这是因 为
然条件限制或其它原因导致个别小区无法得到观察值时,就可以参照本例按各组
观察值个数不同的数据结构进行分析。
由于取样观察所依据的原理是以概率论中定义的“随机试验”为出发点,因 此,
试验统计中讲授取样调查结果决不算“离题”,也就是说,对教材名称中的“试 验”
一词要全面理解,这是本课程简称“试验统计”比简称“生物统计”好的理由之 一。
由于区组可以不止一个方向,这就产生了两向甚至三向分组数据的分析问题 , 前者最典型的是随机区组试验数据,后者则以拉丁方试验结果为代表,两者都是 经典试验设计与统计分析内容;并且和完全随机试验一样,可以是单因素试验, 也可以是复因素试验。鉴于复因素试验要专门安排一章来讲授,本节只介绍单因 素随机区组和拉丁方试验数据的方差分析。
至20于20/6动/7 物试验研究中按交叉设计得到的数据,其方差分析因为是用二水平差
第三节 多向分组数据
试验统计过程中,象前面三例那样只需按不同试验处理( 即一个可控因素 ) 对数据进行分组是很不够的,因为农业及生物学领域所进行的试验研究由于受自 然条件的制约,导致试验所得各观察值出现差异的可控因素决不仅仅局限于试验 因素。比如在实施了局部控制的试验方案设计中,各区组之间的差别就反映了系 统因素效应,此时的试验数据除了要按不同试验处理分组之外,还必须按不同的 区组进行分组。
2020/6/7
2020/6/7
2020/6/7
2020/6/7
2020/6/7
2020/6/7
2020/6/7
2020/6/7
2020/6/7
2020/6/7
2020/6/7
2020/6/7
2020/6/7
2020/6/7
第二节 单向分组数据
n 组次数平均数 o 的另一种计算公式:
因为对多个样本平均数进行方差分析时所作的F-test是假定这些样本皆从
各自的正态总体中抽出的前提下进行的,以完全随机设计为例:
Y11、 Y12、 Y13、┅ ┅ Y1n Y21、 Y22、 Y23、┅ ┅ Y2n ┇ ┇ ┇ ┇┇
Ӯ1 Ӯ2 ┇
S12 S2 2 ┇
N1(μ1,σ12) N2(μ2,σ22) ┇