品质统计原理变异数分析
品质统计原理变异数分析 Ting Bao was revised on January 6, 20021
授课目录
第1章导论
第2章统计资料的整理与描述
第3章机率导论
第4章常用的机率分配与统计分布
第5章描样方法与描样分布
第6章统计估计
第7章统计检定
第8章变异数分析
第9章相关分析与回归模式
第10章无母数统计检定
第11章类别资料分析---列联表与卡方检定
一般统计检定系讨论两个常态母体下检定『平均值』的方法。倘对k个常态母体,欲检定其『平均值』是否一致时,采逐一比对程序检定则效率差且会增型 I 误差的机率。
变异数分析ANOVA(Analysis of Variance)的主要观念即利用各组资料平均值的差异与各组资料整体之间差异做比较,来检定平均值是否相同的方法。ANOVA可对k个母体检定其『平均值』是否一致。『ANOVA即将一组资料的总变异,依其变异来源分割成数区』,然後针对其『各区内变异与各区间变异』加以探讨分析。ANOVA依据因子的数目---One-way ANOVA,Two-way ANOVA。
实验设计与ANOVA
◎十九世纪初,英国为了改良农作物的品质与产量,由Ronald A. Fisher爵士首先提出应用ANOVA於实验设计(DOE, Design of Experiment)中。实验的目的是将不同的处理(Treatment),指定给不同的实验单位(Unit),以便观察其结果好坏。
◎实验的目的是将不同的处理,指予不同的实验单位,
1、决定何者变数x对反应y最具影响力。
2、决定这些最具影响力变数x的值,使反应y几乎永
远都是在所想要的目标值(Nominal Value) 的附近。
3、决定这些最具影响力变数x的值使反应y变异较
小。
4、决定这些最具影响力变数x的值使得不可控变数z
的影响极小。
◎以一般实验设计方法分为二大类:完全随机设计(Completely Randomized Design)与集区随机设计(Randomized Block Design),以增处理效果的可信度。
1、完全随机设计系在考虑一个因子的情况下,有n1 ,
n2 , …,n k个实验单位分别指定到k个处理上。这些实验单位的实验顺序是随机决定的。完全随机设计因为只考虑一个因子,故亦称一因变异数分析(One-way ANOVA)。可中和其他因子对实验的影响。
2、集区随机设计系事先将实验对象划分成若干同质性
的集区,即在每个集区内涵具同质性环境下,进行不同实验处理。
◎实验设计亦可以一函数表示之:
y = f(x1 , x2 , …,x k)
式中:输入x---可控因子(变数)(Control Factors
(Variables),输出y---依变量(Dependent
Variable),
一因子变异数分析(The One-way ANOVA)
倘工管系欲采三种工厂实习课程:(1)电视教学 (2)讲师讲习 (3)实地观摩,研究其对学生学习效果是否有不同的影响。此3种实习课程称之『处理(Treatment)』。於是将实习生随机分成3组,分别施以不同实习课程。兹随机抽样21位实习生进行分组,第1组有7位,第2组有8位,第3组有6位。此n1 = 7 , n2 = 8 , n3 = 6称之『实验单位(Unit)』。本研究仅以『工厂实习课程』此一因子(Factor)来对母体作分类探讨,故此称之一因子变异数分析。典型资料如下:
y ij : 第i个处理、第j个观测值
一因子变异数分析是根据变异来源:组内、组间、与总变异等统计量,建立变异数分析表(ANOVA Table),以进行检定工作。
其中:
◎总变异(Total Sum of Squared Deviation)
SS = 2
i a
1i n
1
j ij
2
a
1
i i 2
a
1i n
1
j ij
)y y ()y y (n )y y (?
==?
?=?
?
?==-∑∑+-∑=∑∑-
= SST+SSE
◎组间变异(Treatment Sum of Squares) (Between
Treatment)
SST = 2
a
1
i i )y y (n ?
?=?
-∑
◎组内变异(Error Sum of Squares) (Within Treatment)
SSE = 2
i a
1i n
1
j ij
)y y (?
==-∑∑
简化之:
SS = N /y y 2a
1i n
1j 2ij ??==∑∑-; SST = N
y y n 12
a 1i 2i ??=?-∑
SSE = SS –SST
一因子变异数分析的统计假设为
H 0: m 1= m 2 =…. = m k ;即因子对依变数无影响。
H 1: m i 不全等;即因子对依变数有影响。
上述的假设中, m 1 , m 2 ,…. , m k 分别为k 个因子水
准所造成的效果。若H 0为真,即表示k 个效果不存在,因子对依变数无影响。检定统计式:
F = MST/MSE
若各组样本均来自常态分布,则检定统计量为一F 分
布。在显着水准a下,倘
F £ F a, a-1, N-a TT Accept H0
F > F a, a-1, N-a TT Reject H0
各组样本数相等
范例、随机抽取IDF、F16、与幻象2000等三种战机各10架,测其速度,这三种战机的平均速度有差异
SOL:
(1)建立统计假设
H0: m1= m2 = m3; H1: m i不全等
(2) 显着水准a =
F(=值远大於临界值(=,且P-值为远小於显着水准
Reject H0TT
\即至少有二种战机(母体)的平均速度是有差异的。
各组样本数不等
范例、工管系欲采三种工厂实习课程:(1)电视教学 (2)讲师讲习 (3)实地观摩,其对学习效果是否有不同的影响SOL:
(1)建立统计假设
H0: m1= m2 = m3; H1: m i不全等
(2) 显着水准a =
F(=值小於临界值(=,且P-值为大於显着水准
Accept H0TT
\三种工厂实习课程对学生学习效果无差异的。
集区随机设计(The Randomized Block Design)
在任何实验中,扰动因子(Nuisance Factor)引起的变异对其结果会有影响。扰动因子之定义:一设计因子,其对反应有效果而实验者却对此效果无兴趣。未知且无法控制(Unknown and Uncontrolled)的扰动因子:不知其存在及实验进行时可能改变水准。随机化是一种设计技巧用来防范此『潜伏』的扰动因子。然而,已知但不可控制(Known but Uncontrollable)的扰动因子,倘於每次实验时会观测到此的扰动因子之值,则於ANOVA时其会被补偿。如扰动变异来源是已知且可控制(Known and Controllable)时,集区划分(Blocking)之设计将可系统化
地消除其对处理间统计比较的影响。
上节叙述一因子变异数分析,且完全随机设计,藉此中和或消弭一些非特定因子(不是我们想知道的重点)对依变量(输出y)所造成的影响。但某些情况下,非特定因子对依变量的干扰过大,甚至完全随机设计亦无法消弭这些干扰。此时依变量不只受到特定因子的影响,亦受到非特定因子的影响。
倘致远管理学院欲对6个学系有开统计学课程,采4种不同教学方式,以研究统计学对各系学生学习效果是否有不同的影响。此时,学生学习效果为依变量(输出y),教学方式为特定因子,但学生学习效果却不只受到教学方式的影响,而受到各学系的影响,因为各学系各具不同的特性。若用上节的检定方式,会将各系所导致的影响计入SSE 中,而使得SSE膨胀起来,因而影响结论的正确性。
如欲评监各系学生学习统计学的效果,则各系学生学习成绩形成一个集区(Block)。因此总变异的分解为:SS(总变异) =
SST(组间变异) + SSB(集区变异)+ SSE(随机误差)
其中:
SS =
=
= SST + SSB+ SSE
SST = 2
a
1
i i )y y (b ?
?=?
-∑
SSB = 2
j
b
1
j )y y (a ?
??=-∑
SSE = 2j
i ij
a
1i b 1
j )y y y y (?
???
==+--∑∑
简化之:
SS = N /y y 2
a
1i b
1
j 2
ij ?
?==∑∑-; SST = N /y y b 12
a
1
i 2i ?
?=?-∑
SSB = N /y y a
12
b
1
j 2
j ?
?=?-∑;SSE = SS –SST- SSB
集区随机设计的统计假设为
H 0: m 1= m 2 =…. = m k ;即因子对依变数无影响。
H 1: m i 不全等;即因子对依变数有影响。
上述的假设中,m 1 , m 2 ,…. , m k 分别为k 个因子水
准所造成的效果。若H 0为真,即表示k 个效果不存在,因子对依变数无影响。检定统计式:
F = MST/MSE
若各组样本均来自常态分布,则检定统计量为一F 分
布。在显着水准a下,倘
F £ F a, a-1, (a-1)(b-1)TT Accept H0
F > F a, a-1, (a-1)(b-1)TT Reject H0
范例、欲研究硬度实验。共有4种尖锐物和4块可供测试的金属物品。每1种尖锐物在每块金属物品上测试一次,成为一个集区随机设计。
SOL:
F(=值大於临界值(=,且P-值为小於显着水准
Reject H0 TT
\尖锐物种类的确会影响平均硬度读值(即尖锐物对平均硬度有效)。
SOL:(考虑集区)
SOL:(倘无考虑集区)
F(=值小於临界值(=。
Accept H0TT
\尖锐物种类的平均硬度读值相等,即尖锐物种类不会影响平均硬度读值(即尖锐物对平均硬度无效)。
二因子变异数分析(Two-way ANOVA)
在上述一因子变异数分析和集区随机设计中,均研究一个因子对依变量所造成的影响,将此观念扩展至二因子时,此研究架构即为二因子变异数分析。
在进行二因子变异数分析时,须考因子间是否对依变数有交互作用(Interaction),此作用不存在,则变异数分析的结构较简单,则二个因子对依变量的影响可分开研究;倘此作用存在,则变异数分析的结构较复杂,则二个
因子对依变量的影响须置於一起讨论。考虑一般情况,令y ijk为A因子在第i个水准( i = 1, 2,…,a)、B因子在第j个水准( j = 1, 2,…,b)、在第k次重复( k = 1, 2,…,n)时所观测到的反应值。如下:y2b1 , y2b2, …, y2bn
总变异 =
A因子变异+ B因子变异 + AB因子交互变异 + 随机误差
其中: SS=
2ij ijk )]y y (?-
= 2
j b
1
j 2
a
1
i i )y y (an )y y (bn ?
???
?=?
??=?
?-∑+-∑
+ ∑∑∑-++--∑∑===?
?
???
??
??
==a
1i b
1j n
1
k 2
ij ijk
2
j i ij a
1i b
1
j )y y ()y y y y (n
= SST + SSB+ SSAB+ SSE
简化之:
SS = abn /y y 2
a
1i b
1j 2
ijk n
1
k ?
??===∑∑-∑; SSA = abn /y y bn
12
a
1
i 2i ?
??=??-∑
SSB = abn /y y an
12
b
1
j 2
j ?
??=??-∑;Subtotal =abn /y y n 12
a
1
i b
1
j 2
ij ?
??==?∑∑-
SSAB = Subtotal – SSA - SSB SSE = SS – Subtotal
在进行二因子变异分析时,一般是先检定交互作用存
在与否,倘接受H 0:交互作用不存在,则二因子变异分析的架构可简化之,此时再继续进行A 、B 因子效果检定假设才有意义。若拒绝H 0,则无论A 、B 因子效果检定的结果为
何,交互作用都会保留在模式中,此已认定A、B因子会对依变量造成影响。二因子变异分析三阶段检定过程:
(1) 检定交互作用是否存在:统计假设为
H0:交互作用不存在。
H1:交互作用存在。
若H0为真,即表示A、B因子未对依变数产生交叉影响。检定统计式:
F = MSAB/MSE
倘
F £ F a, (a-1)(b-1), ab(n-1)TT Accept H0
F > F a, (a-1)(b-1), ab(n-1)TT Reject H0
(2) 检定A因子是否影响依变量:假设已作出交互作用不
存在,则分别检定二因子对依变量的影响。统计假设为H0: m1j= m2j=…= m aj, j = 1, 2,…,b;
H1: m1j , m2j ,…, m aj不全相等。