04方差分析(5)

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第五章方差分析

方差分析是质量管理中常用的统计技术之一。在实际工作中，经常会遇到需要比较多个总体均值的问题，这类问题往往可以用方差分析的方法解决。

〖例5-1〗现有甲、乙、丙三家工厂生产同一种零件，为了解不同工厂的零件强度有无明显的差异，现分别从每一个工厂随机抽取4个零件测定其强度，数据如表5-1所示，试问这三个工厂的零件的平均强度是否相同？

在这一问题中，我们遇到需要比较3个总体均值的问题。如果每一个总体的分布都服从正态分布，并且各个总体的方差相等，那么比较各个总体均值是否一致的问题可以用方差分析来解决。

注意：这里有两个假定，后面将要讲到第三个假定，即各个总体服从正态分布。在实际工作中我们不能盲目地使用这些假定（你不能未进行任何分析计算就假定你的过程符合这三个要求），在实际工作中这些假定需要证实。而《质量专业理论与实务（中级）》的知识是不能解决这个问题的，使用SPSS 可以很方便地解决这些问题。

第一节几个概念

结合上述例题讲述几个概念。

称上述从每一个工厂随机抽取4个零件测定其强度为试验，在该试验中考察的指标是零件的强度，不同工厂的零件强度不同，因此可以将工厂看成影响指标的一个因素，不同的工厂便是该因素的不同状态。

为了方便起见，将在试验中会改变状态的因素称为因子，常用大写字母A 、B 、C 等表示。在〖例5-1〗中，工厂便是一个因子，用字母A 来表示。

因子所处的状态称为因子的水平，用因子的字母加下标表示，譬如因子A 的水平用A 1、A 2、…等表示。在〖例5-1〗中，因子A 有3个水平，分别记为A 1、A 2、A 3。

试验中所考察的指标通常用Y 表示，它是一个随机变量。如果一个试验中所考察的因子只有一个，那么这是单因子试验问题，一般对数据做以下一些假设：

假定因子A 有r 个水平，在每个水平下指标的全体构成一个总体，因此共有r 个总体。假定第i 个总体服从均值为μ，方差为σ2的正泰分布，从该总体中获得一个样本量为m 的样本im i i y y y ,...,,21，其观察值便是我们观察到的数据，i=1,2,…,r ，最后假定个样本是相互独立的。

数据分析主要是要检验如下假设：

r H μμμ===...:210

H μμμ,...,,:211不全相等

检验这一对假设的统计技术便是方差分析。

当H 0不真时，表示不同水平下的指标的均值有显著差异，此时称因子A 是显著的；否则称因子A 不显著。图5-1便示意了这两种说法的含义。

图5-1 两种说法的示意图

综上所述，方差分析是在相同方差假定下检验多个正态总体均值是否相等的一种统计分析方法。具体地说，该问题的基本假定是：

⑴在水平A i 下，指标服从正态分布； ⑵在不同水平下，方差σ2相等； ⑶数据y ij 相互独立。

方差分析就是在这些基本假定下对上述一对假设（H 0对H 1）进行检验的一种统计方法。如果在一个试验中所要考察的影响指标的因子有2个，则是一个两因子试验问题，它的数据分析可以采用两因子方差分析方法（见本章第三节）。

如果在一个试验中所要考察的影响指标的因子更多，那么试验往往要事先进行设计，以便用尽可能少的试验去获得数据，再对数据进行分析，这一问题将在第六章中进行讨论。

第二节单因子方差分析

㈠、单因子方差原理分析

单因素方差分析测试某一个控制变量的不同水平是否给观察变量造成了显著的差异和变动。例如培训是否给员工的技术水平造成了显著影响；不同生产线生产的产品是否有显著的差异等。

设在一个试验中只考察一个因子A ，它有r 个水平，在每一水平下进行m 次重复试验，其结果用im i i y y y ,...,,21表示，i=1,2,…,r 。常常把全部数据列成如表5-2所示的形式。

表5-2 单因子试验数据表

其中y ij 表示因子A 在第i 个水平下的第j 次重复试验结果，i i y T ,分别表示第i 水平的

μ1=μ2=μ 3 （a ）A 显著 μ1 μ2 μ

（b ）A 不显著

数据和与数据均值。此时共有n=r ·m 个数据，这n 个数据不全相同。若用y 表示n 个数据的总平均，那么这n 个数据的差异可以用总离差平方和S T 表示：

()

∑∑==-=

r i m

j ij

T y

S 1

离差平方和在不发生混淆的情况下也称为平方和。引起数据差异的原因不外如下两个：

一是由于因子A 的水平不同引起，当假设H 0不真时，各水平下指标的均值不同，这必然会使试验结果不同，我们可以用组间平方和来表示，也称为因子A 的平方和：

(

)

∑=-=

i i A y

y m S 1

这里乘以m 是因为在每一水平下进行了m 次试验。

二是由于随机误差，即使在同一水平下获得的数据间也有差异，这是除了因子A 的水平之外的其他所有原因引起的，我们将它们归结为随机误差，可以用组内平方和表示：

()

∑∑==-=

r i m

j i

e y y

S 1

e S 也称为误差平方和。

可以证明有如下平方和分解式：

e A T S S S +=

可以设想：当H 0不真时，因子A 水平不同引起的波动相对于误差来讲是比较大的，而当假设H 0为真时，两者都可以看成都是由随机波动引起的，它们都可以作为误差方差的某种估计。由于两者所包含的误差的量有差别，所以为了进行比较，还需要将每个平方和除以各自的自由度。下面给出自由度的计算公式。e A T S S S 、、的自由度分别用e A T f f f 、、表示，它们也有分解式：

e A T

f f f +=

其中：A

T e A T f f f r f rm n f -=-=-=-=1

因子或误差平方和与相应的自由度之比，也即按自由度平均的平方和称为均方，并分别记为：

e e

A A A

f S MS

f S MS =

=误差的均方：

因子的均方：

当MS A 和MS e 相差不大时，认为因子A 不显著；而当MS A 和MS e 相差较大时，认为