第五章 方差分析

合集下载

第5章方差分析

第5章方差分析

5.1.4 方差分析中的基本假定
(基本前提:独立、同分布、同方差)
一、因素中的k个水平相当于r个正态总体。 每个水平下的n个观察数据(试验结果)相当 于从正态总体中抽取的容量为n的随机样本。 (同分布) 二、r个正态总体的方差是相同。 即:σ12=σ22…….=σr2=σ2 (同方差) 三、从不同的正态总体中抽取的各个随机样 本是相互独立的。(独立)
SSE
j1 i1
r
nj
xijxj
(续前)
方差分析的优点之二:增加了稳定性 由于方差分析将所有的样本资料结合在一起, 故而增加了分析结论的稳定性。 例如:30个样本,每一个样本中包括10个观 察单位(n=10)。如果采用t检验法,则在两 两检验中,一次只能研究2个样本和20个观察 单位,而在方差分析中,则可以把30个样本 和300个样本观察单位同时放在一起、结合进 行研究。 所以,方差分析是一种实用、有效的分析方 法。
r
2

j1 i r
xij xj 2 x
j1 i1 2 r
nj
ij
xj
x
2
j
x
j1 i1

r
nj
x j x
2

j1 i1
nj
xij xj xj x SSE SSA
nj
j1 i1
2、随机误差项离差平方和(SSE)的计算 SSE反映的是水平内部或组内观察值的离散状 况。它实质上反映了除所考察因素以外的其 他随机因素的影响,反映样本数据( x i j ) 与水平均值 ( x j )之间的差异,故而称之 为随机误差项离差平方和或组内误差。计算 公式如下:

第五章方差分析

第五章方差分析

单因素方差分析单因素方差分析也称作一维方差分析。

它检验由单一因素影响的一个(或几个相互独立的)因变量由因素各水平分组的均值之间的差异是否具有统计意义。

还可以对该因素的若干水平分组中哪一组与其他各组均值间具有显著性差异进行分析,即进行均值的多重比较。

One-Way ANOVA过程要求因变量属于正态分布总体。

如果因变量的分布明显的是非正态,不能使用该过程,而应该使用非参数分析过程。

如果几个因变量之间彼此不独立,应该用Repeated Measure过程。

[例子]调查不同水稻品种百丛中稻纵卷叶螟幼虫的数量,数据如表5-1所示。

表5-1 不同水稻品种百丛中稻纵卷叶螟幼虫数数据保存在“DATA5-1.SAV”文件中,变量格式如图5-1。

图5-1分析水稻品种对稻纵卷叶螟幼虫抗虫性是否存在显著性差异。

1)准备分析数据在数据编辑窗口中输入数据。

建立因变量“幼虫”和因素水平变量“品种”,然后输入对应的数值,如图5-1所示。

或者打开已存在的数据文件“DATA5-1.SAV”。

2)启动分析过程点击主菜单“Analyze”项,在下拉菜单中点击“Compare Means”项,在右拉式菜单中点击“0ne-Way ANOVA”项,系统打开单因素方差分析设置窗口如图5-2。

图5-2 单因素方差分析窗口3)设置分析变量因变量:选择一个或多个因子变量进入“Dependent List”框中。

本例选择“幼虫”。

因素变量:选择一个因素变量进入“Factor”框中。

本例选择“品种”。

4)设置多项式比较单击“Contrasts”按钮,将打开如图5-3所示的对话框。

该对话框用于设置均值的多项式比较。

图5-3 “Contrasts”对话框定义多项式的步骤为:均值的多项式比较是包括两个或更多个均值的比较。

例如图5-3中显示的是要求计算“1.1×mean1-1×mean2”的值,检验的假设H0:第一组均值的1.1倍与第二组的均值相等。

第五章方差分析

第五章方差分析

5.1.3方差分析的原理
方差分析认为,如果控制变量的不同水平对观测变量产生了显著影 响,那么它和随机变量共同作用必然使得观测变量值显著变动;反之, 如果控制变量的不同水平没有对观测变量产生显著影响,那么观测变量 值的变动就不明显,其变动可以归结为随机变量影响造成的。 建立在观测变量各总体服从正态分布和同方差的假设之上,方差 分析的问题就转化为在控制变量不同水平上的观测变量均值是否存在显 著差异的推断问题了。 综上所述,方差分析从对观测变量的方差分解入手,通过推断控 制变量各水平下各观测变量的均值是否存在显著差异,分析控制变量是 否给观测变量带来了显著影响,进而再对控制变量各个水平对观测变量 影响的程度进行剖析。 根据控制变量的个数可将方差分析分为单因素方差分析、多因素 方差分析;根据观测变量的个数可将方差分析分为一元方差分析(单因 变量方差分析)和多元方差分析(多因变量方差分析)。
从左侧的变量列表中选择观测变量“胰岛质量”到 Dependent List框中,选择控制变量“药物组”到 Factor框中。
10
选择各组间两两比较的方法,单击“One-Way ANOVA”对 话框下方的“Post Hoc…”按钮,出现上图对话框,在Equal Variances Assumed复选框中选择“LSD”。
协变量“原工资”的相伴概率Sig为0.000,即 协变量对青年教师现工资的影响显著;“教师 级别”的相伴概率为0.997,大于0.05,即对青 年教师的工资影响不显著;“政策实施”的相 伴概率0.029,小于0.05,对青年教师工资影响 显著;两因素的交互作用的相伴概率为0.551, 大于0.05,即交互作用没有对结果造成显著影 响。
5.4.2 协方差分析的基本步骤 • 提出原假设:协变量对观测变量的线性影响是不显著的 ;在扣除协变量的影响条件下,控制变量各水平下观测 变量的各总体均值无显著差异。 • 计算检验统计量和概率P值 给定显著性水平与p值做比较:如果p值小于显著性水平 ,则应该拒绝原假设,反之就不能拒绝原假设。

第五章 方差分析

第五章    方差分析
2 2 i 1 j 1 i 1 j 1 i 1
k
n
k
n
k
• 总平方和 SS T • =组内(误差)平方和 SS e • +处理平方和 SS t • 组间变异由k个 y i 的变异引起,故其自由度 • k 1 ,组间平方和为 SS : t • k k 2 2 SSt n ( y i y ) Ti n C
1 1
• 组内变异为各组内观察值与组平均数的变 异,故每组具有自由度 n 1 n • 和平方和 ( y y ) 2 ;
1 ij i
• 资料共有 k 组,故组内自由度 k (n 1) • 组内平方和 SSe 为: •
SSe [ ( y ij y i ) ] SST SSt
• 总变异是nk个观察值的变异,故其自由 度 nk 1 ,而其平方和 SST 则为:
SST ( yij y ) y C
2 1 1 2 ij nk nk
( y ) T C nk nk
2 2
•SST ( yij y) ( yij yi ) n ( yi y) 2
• [例5.10] 作一水稻施肥的盆栽试验,设5个 处理,A和B系分别施用两种不同工艺流程 的氨水,C施碳酸氢铵,D施尿素,E不施 氮肥。每处理4盆(施肥处理的施肥量每盆皆 为折合纯氮1.2克),共5×4=20盆,随机放 置于同一网室中,其稻谷产量(克/盆)列于 表6.11,试测验各处理平均数的差异显著性。
=0.01水平上否定H0,接受HA;若所得F
F分布曲线(随 1 和 2 的不同而不同)
f(F)
1.0
0.8
0.6
0.4
0.2

第五章方差分析[统计学经典理论]

第五章方差分析[统计学经典理论]

第五章方差分析•如果要检验两个总体的均值是否相等,我们可以用t检验。

当要检验多个总体的均值是否相等,则需要采用方差分析。

•方差分析是R.A.Fister发明的,它是通过对误差的分析研究来检验两个或多个正态总体均值间差异是否具有统计意义的一种方法。

•由于各种因素的影响,研究所得的数据呈现波动,造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果造成影响的可控因素,方差分析认为不同处理组的均值间的差异基本来源有两个:•组内差异:由随机误差造成的差异,用变量在各组的均值与该组内变量值之差平方和的总和表示,记作SSE。

•组间差异:由因素中的不同水平造成的差异,用变量在各组的均值与总均值之差平方和的总和表示,记作SSA。

•方差分析的基本思想是:通过分析研究中不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。

•方差分析的三个条件:•被检验的各总体均服从正态分布;•各总体的方差皆相等;•从每一个总体中所抽出的样本是随机且独立的;方差分析的基本步骤:建立原假设H0:两个或多个总体均值相等。

将各不同水平间的总离差分成两个部分:组间差异SSA组内差异SSE构造检验统计量: F= MSA / MSE判断:在零假设为真时,F~F[(k-l),(n-k)]的F分布。

若各样本平均数的差异很大,则分子组间差异会随之变大,而F值也随之变大,故F检验是右尾检验。

当检验统计量F大于临界值时则拒绝原假设;或者根据 p值来判断,若p<α,则拒绝原假设§5.1 单因素方差分析(One-Way ANOVA过程)One-Way ANOVA过程用于进行两组及多组样本均数的比较,即成组设计的方差分析,如果做了相应选择,还可进行随后的两两比较,甚至于在各组间精确设定哪几组和哪几组进行比较。

5.1.1 界面说明【Dependent List框】选入需要分析的变量,可选入多个结果变量(应变量)。

方差分析

方差分析
X i ~ N (i , 2 ), i 1,2,3,4
假设从总体中抽取容量为 n i 的样本: X i 1 , X i 2 ,..., X in , i 1,2,3,4
i
• 假设4个样本相互独立,则 X ij相互独立, 这里 4
n ni
i 1
• 提出假设:
H0 : 1 2 3 4
原假设等价于
H0 : 1 2 ... r 0
5.4
5.1.3. 统计分析
(一)假设检验 • 构造(5.4)的统计量。 n 1 记 X X ,
i
ni


j 1 ni j 1
i
ij
1 2 Si ni
(X
ij
Xi ) ,
2
i 1,2,...,r
分别为第i个总体的样本均值和方差。
——单因素方差分析数学模型
• 假设
H 0 : 1 2 ... r
• 引入记号: n ni(总次数)
i 1 r
1 r ni i n i 1
(理论总均值)
i i
(因素对指标的效应)

i 之间的差异等价于 i 之间的差异,

n
Tests of Between-Subjects Effects Dep endent Variable: 杀 虫率 Source Corrected Model Intercept 农药 Error Total Corrected Total Type III Sum of Squares 3794.500a 95340.115 3794.500 178.000 118693.000 3972.500 df 5 1 5 12 18 17 Mean Square 758.900 95340.115 758.900 14.833 F 51.162 6427.424 51.162 Sig . .000 .000 .000

第5章 方差分析

第5章 方差分析

F检验
若实际计算的F值大于 F 0 . 0 5 ( d f , d f ) ,则 F 值在 α=0.05的水平上显著,我们以95% 的可靠性推断 2 2 St代表的处理间方差大于Se 代表的处理内方差。
1 2
这种用F值出现概率的大小推断两个总体方差 是否相等的方法称为 F检验。
F检验时,是将由试验资料所算得的F值与根 ,F 据df1=dft 和df2=dfe查表所得的临界F值F 相比较作出统计推断的。
1 1
k
n
x ) n (x i x )
2 2 1
k
(x
1 1
k
n
xi )
2
上式可简写成:SST=SSt+SSe 分别表示总 平方和,处理间平方和,处理内平方和。 即:总平方和=处理间平方和+处理内平
方和。
C=T2/kn:
SST

x C
2
1 2 SS t Ti C n SS e SS T SS t
P ( F F ) 1 F ( F )
F


f (F )d F
F表列出的是不同df1和df2下, P(F≥Fα)=0.05和P(F≥Fα)=0.01时的F值, 即右尾概率α=0.05和α=0.01时的临界F 值,一般记作F0.05(df1,df2), F0.01(df1,df2) 。
所以 d f T d f t d f e 综合以上各式得:
df T kn 1 df t k 1 df e df T df t
均方差,均方(mean square,MS)
变异程度除与离均差平方和的大小有关外, 还与其自由度有关,由于各部分自由度不相等, 因此各部分离均差平方和不能直接比较,须将 各部分离均差平方和除以相应自由度,其比值 称为均方差,简称均方 (mean square , MS )。组 间均方和组内均方的计算公式为 :

第五章 方差分析和正交试验

第五章 方差分析和正交试验

r
i 表示组内理论均值, eij 表示随机误差, eij ~ N (0, 2 ), i 称为效应值. ni i 0.
单因素方差分析的数学模型为 : Yij i eij (i 1, 2, , r; j 1, 2, , ni ) 2 e ~ N ( 0 , ), eij 互相独立; ij n n 0. i i i 1
•步骤2:表头设计.见下表:一般至少安排有一个空列.
17
结束
•步骤3:制订试验方案, 见下表:
18
结束
•步骤4:作试验得到得率 yi .填入表中.作试验时采用随机顺序. •步骤5:计算统计量,填入表5.4.5中.
水平数r 3, 每水平在 1列中出现次数 m 3, 试验数n rm 9, 试验结果为Y1 , Y2 , , Yn , K jl为j列中水平为l (l 1,2, , r )的试验结果之和 . 这里K11 y1 y2 y3 , K 23 y3 y6 y9 . 记K K jl , 显然, K Yi , 与j无关.
l 1 i 1 n 1 2 1 r 2 2 2 P K , Q j K jl , S j Q j P, Q Yi 2 , ST Q P. n m l 1 i 1 r n
S Yi Y
2 T j 1
r


2
1 2 2 2 2 S , Y K , 这里, ST S12 S 2 S3 S4 . n j 1
EYi i , EY ,
2 总离差平方和 ST Yij Y , r ni 2 i 1 r j 1
组间差平方和 S 组内差平方和 S
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

灯泡种类
A1
1600
A2
1580
A3
1550
A4
1510
1610 1640 1600 1520
使用寿命 1680 1700 1640 1700 1620 1640 1530 1600
1720 1750 1660 1570
1800 1750 1820 1680
和 10116 10060 9890 9410
r
E(SA ) (r 1) 2 m ai2,进一步,若H0成 i 1 立,则有SA/ 2 ~ 2(r1)
(2) SA与Se独立。
由定理2,若H0成立,则检验统计量F服从自由度为fA 和fe的F分布,因此拒绝域为W={FF 1- (fA ,fe)},通常 将上述计算过程列成一张表格,称为方差分析表。
利用(10),可算得各偏差平方和为:
11332 ST 91363 24 37876.0417,
505177 11332
SA
8
9660.0833, 24
Se ST SA 37876.0417 9660.0833 28215.9584,
fT 24 1 23
fA 31 2 fe 3(8 1) 21
➢ 各yij间总的差异大小可用总偏差平方和 rm
ST
( yij y )2
i1 j 1
表示,其自由度为fT=n1;
➢ 仅由随机误差引起的数据间的差异可以用
rm
组内偏差平方和
Se
( yij
2
yi. )
表示,
i1 j 1
也称为误差偏差平方和,其自由度为 fe=nr ;
➢ 由于组间差异除了随机误差外,还反映了
饲料A
鸡 重(克)
A1 1073 1009 1060 1001 1002 1012 1009 1028 A2 1107 1092 990 1109 1090 1074 1122 1001
A3 1093 1029 1080 1021 1022 1032 1029 1048
本例中,我们要比较的是三种饲料对鸡的增肥 作用是否相同。为此,把饲料称为因子,记为A, 三种不同的配方称为因子A的三个水平,记为A1, A2, A3,使用配方Ai下第 j 只鸡60天后的重量用yij 表示,i=1, 2, 3, j=1, 2,, 10。我们的目的是比 较三种饲料配方下鸡的平均重量是否相等,为 此,需要做一些基本假定,把所研究的问题归 结为一个统计问题,然后用方差分析的方法进 行解决。
表3 单因子方差分析表
来源 平方和 自由度 均方和
F比
因子 SA fA=r1 MSA= SA/fA F= MSA/ MSe
误差 Se fe=nr MSe= Se/fe
总和 ST fT=n1
对给定的,可作如下判断:
➢ 如果 F >F1- (fA ,fe),则认为因子A显著; ➢ 若F F1- (fA ,fe) ,则说明因子A不显著。
➢ 在构成偏差平方和Q的k个偏差y1 y , …, yk y 间
有一个恒等式
k
( yi y ) 0
,这说明在Q中独立
i 1
的偏差只有k1个。
➢ 在统计学中把平方和中独立偏差个数称为该平 方和的自由度,常记为f,如Q的自由度为 fQ=k1。自由度是偏差平方和的一个重要参数。
4、总平方和分解公式
m
ij
j 1
由于
yij yi. (i ij ) (i i ) ij i (7)
所以yij – yi仅反映组内数据与组内平均的随机误差,称为组内 偏差;而
yi. y (i i.) ( ) ai i. (8)
yi. y 除了反映随机误差外,还反映了第i个水平的效应,称为
表2中的最后二列的和与平均的含义如下:
m
Ti yij j 1
yi.
Ti m
r
T Ti i 1
y T T rm n
n r m 总试验次数
i 1, 2,L , r
表2 单因子方差分析试验数据
因子水平 A1 A2 ┆ Ar
试验数据 y11 y12 … y1m y21 y22 … y2m
┆ yr1 yr2 … yrm
2. 作出这种判断最终被归结为检验这四个行业 被投诉次数的均值是否相等
3. 如果它们的均值相等,就意味着“行业”对 投诉次数是没有影响的,即它们之间的服务 质量没有显著差异;如果均值不全相等,则 意味着“行业”对投诉次数是有影响的,它 们之间的服务质量有显著差异
MBA的起薪与专业有关吗?
一家关于MBA报考、学习、就业指导的网站 希望了解国内MBA毕业生的起薪是否与各自所学 的专业有关,为此,他们在已经在国内商学院毕 业并且获得学位的MBA学生中按照专业分别随机 抽取了10人,调查了他们的起薪情况,数据如下 表所示(单位: 万元),根据这些数据他们能否 得出专业对MBA起薪有影响的结论?
组间偏差。
3、偏差平方和及其自由度
➢ 在统计学中,把k个数据y1 , y2 , …, yk分别对其均
值 y =(y1+ …+ yk )/k 的偏差平方和
k
Q ( y1 y)2 L ( yk y)2 ( yi y )2 i 1
称为k个数据的偏差平方和,它常用来度量若干 个数据分散的程度。
在不会引起误解的情况下, H1 通常可省略不写。 如果H0成立,因子A的r个水平均值相同,称因子A的r 个水平间没有显著差异,简称因子A不显著;反之, 当H0不成立时,因子A的r个水平均值不全相同,这时 称因子A的不同水平间有显著差异,简称因子A显著。
为对假设(1)进行检验,需要从每一水平下 的总体抽取样本,设从第i个水平下的总体获 得m个试验结果,记 yij 表示第i个总体的第j次 重复试验结果。共得如下n=rm个试验结果:
观测值
1 2 3 4 5 6 7
消费者对四个行业的投诉次数
行业
零售业
旅游业
航空公司
57
68
31
66
39
49
49
29
21
40
45
34
34
56
40
53
51
44
家电制造业
44 51 65 77 58
什么是方差分析?
1. 分析四个行业之间的服务质量是否有显著差 异,也就是要判断“行业”对“投诉次数” 是否有显著影响
F=3.5948>3.47,故认为因子A(饲料)是显著的,
即三种饲料对鸡的增肥作用有明显的差别。
练习 某灯泡厂分别用四种不同材料制成灯丝,生产了四批
灯泡,它们除灯丝不同外,其他生产材料和生产工艺完 全相同。今由这四批灯泡中各随机抽取6只灯泡进行寿命 试验,结果如下表所示。根据这些数据,推断不同的灯 丝材料对灯泡的使用寿命是否有显著性影响(取显著性 水平为0.05)?
yi2j
j 1
A1 73 9 60 1 2 12 9 28 194 37636 10024
A2 107 92 -10 109 90 74 122 1 585 342225 60355
A3 93 29 80 21 22 32 29 48 354 125316 20984 1133 505177 91363
§5.1 单因子方差分析
例1 在饲料养鸡增肥的研究中,某研究所提 出三种饲料配方:A1是以鱼粉为主的饲料, A2是以槐树粉为主的饲料,A3是以苜蓿粉 为主的饲料。为比较三种饲料的效果,特 选 24 只相似的雏鸡随机均分为三组,每 组各喂一种饲料,60天后观察它们的重量。 试验结果如下表所示:
表1 鸡饲料试验数据
一 、 单因子方差分析的统计模型
在例1中我们只考察了一个因子,称其为单 因子试验。
通常,在单因子试验中,记因子为 A, 设其 有r个水平,记为A1, A2,…, Ar,在每一水平 下考察的指标可以看成一个总体 ,现有 r 个水平,故有 r 个总体, 假定:
1) 每一总体均为正态总体,记为 N(i , i 2),
效应间的差异,故由效应不同引起的数据
r
差异可用组间偏差平方和 SA m ( yi. y)2 i 1
表示,也称为因子A的偏差平方和,其自
由度为 fA=r1;
定理1 在上述符号下,总平方和ST可以分解 为因子平方和SA与误差平方和Se之和,其自 由度也有相应分解公式,具体为:
ST =SA +Se , fT =fA +fe
常用的各偏差平方和的计算公式如下:
ST
r i 1
m j 1
yi2j
T2 n
SA
1 m
r i 1
Ti 2
T2 n
Se ST SA
(10)
一般可将计算过程列表进行。
例2 采用例1的数据,将原始数据减去1000,
列表给出计算过程:
表4 例2的计算表
水 平
数据(原始数据-1000)
m
Ti
2
Ti
把上述诸平方和及其自由度填入方差分析表
表5 例2的方差分析表
来源 平方和 自由度 均方和
因子 9660.0833 2 4830.0417
F比 3.5948
误差 28215.9584 21 1343.6171
总和 37876.0417 23
若取=0.05,则F0.95 (2 ,21)=3.47 ,由于
i=1, 2,…, r ;
2)
各总体的方差相同:
1
2=
22=…=
2 r
=ቤተ መጻሕፍቲ ባይዱ
2

3) 从每一总体中抽取的样本是相互独立的,
即所有的试验结果 yij 都相互独立。
我们要比较各水平下的均值是否相同, 即要对如下的一个假设进行检验:
相关文档
最新文档