方差分析举例

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

方差分析举例

一、什么是方差分析

例1:某饮料生产企业研制出一种新型饮料。饮料的颜色共有四种,分别为橘黄色、粉色、绿色和无色透明。这四种饮料的营养含量、味道、价格、包装等可能影响销售量的因素全部相同,先从地理位置相似、经营规模相仿的五家超级市场上收集了前一期该种饮料的销售量情况,见表10-1。

表10-1 该饮料在五家超市的销售情况单位:箱

问饮料的颜色是否对销售量产生影响。

解:从表10-1中看到,20个数据各不相同,其原因可能有两个方面:

一是销售地点不同的影响。

即使是相同颜色的饮料,在不同超市的销售量也是不同的。但是,由于这五个超市地理位置相似、经营规模相仿,因此,可以把不同地点产品销售量的差异看成是随机因素的影响。

二是饮料颜色不同的影响。

即使在同一个超市里,不同颜色的饮料的销售量也是不同的。哪怕它们的营养成分、味道、价格、包装等方面的因素都相同,但销售量也不相同。这种不同,有可能是由于抽样的随机性造成的,也有可能是由于人们对不同颜色的偏爱造成的。

于是,上述问题就归结为检验饮料颜色对销售量是否有影响的问题。我们可以令μ1、μ2、μ3、μ4分别为四种颜色饮料的平均销售量,检验它们是否相等。如果检验结果显示μ1、μ2、μ3、μ4不相等,则意味着不同颜色的饮料来自于不同的总体,表明饮料颜色对销售量有影响;反之,如果检验结果显示μ1、μ2、μ3、μ4

之间不存在显著性差异,则意味着不同颜色的饮料来自于相同的总体,可认为饮料颜色对销售量没有影响。

这就是一个方差分析问题。

在方差分析中常用到一些术语。

1.因素

因素是一个独立的变量,也就是方差分析研究的对象,也称为因子。如:例1中,我们要分析饮料的颜色对饮料的销售量是否有影响,在这里,“饮料的颜色”是所要检验的对象,它就是一个因素。在有的书中把因素称为“因子”。

2.水平

因素中的内容称为水平,它是因素的具体表现。如:例1中“饮料的颜色”这一因素中的水平有四个,即饮料的四种不同颜色:无色、粉色、桔黄色、绿色;它们是“饮料的颜色”这一因素的四种具体表现。

因素的每一个水平可以看作是一个总体,比如:无色、粉色、桔黄色、绿色饮料可以看作是四个总体。

3.控制变量

在方差分析中,能够人为控制的影响因素称为控制因素,或控制变量;如:例1中,“饮料的颜色”对于饮料的销售量而言,是能够人为控制的影响因素,称为控制变量。

4.随机变量

在方差分析中,人为很难控制的影响因素称为随机因素,或随机变量;如:例1中,“人们对不同颜色的偏爱”对于饮料的销售量而言,是人为很难控制的影响因素,称为随机变量。

5.观察变量与观察值

在方差分析中,受控制因素和随机因素影响的事物,称为观察变量。在每个水平下得到的样本数据称为观察值。如:例1中,销售量是观察变量,在每个饮料颜色下得到的样本数据(即表10-1中的数据)就是观察值。

二.方差分析的原理

从方差分析的目的来看,是要检验各个水平的均值μ1、μ2、…、μm是否相等(m为水平个数),而实现这个目的的手段是通过方差的比较(即考察各观察

数据的差异)。

在变量的观察值之间存在着差异。差异的产生来自于两个方面。

一个方面是由因素中的不同水平造成的,称之为系统性差异(或系统性误差)。如:饮料的不同颜色带来不同的销售量。

另一个方面是由于抽选样本的随机性而产生的差异,称之为随机性差异(或随机性误差)。如:相同颜色的饮料在不同的商场销售量也不同。

两个方面产生的差异可以用两个方差来计量。

一个叫组间方差,即水平之间的方差,是衡量不同总体下各样本之间差异的方差。在组间方差里,既包括系统性误差,也包括随机性误差。如:在例1中,不同颜色的饮料在不同地点(超市)产品销售量之间的差异既有系统性误差(即由于人们对不同颜色的偏爱造成的差异),也有随机性误差(即由于抽样的随机性造成的差异)。不同颜色的饮料在不同地点(超市)产品销售量之间的方差即为组间方差。

另一个叫组内方差,即水平内部的方差,是衡量同一个总体下样本数据的方差。在组内方差里仅包括随机性差异。如:在例1中,可以把同一个颜色的饮料在不同地点(超市)产品销售量之间的差异看成是随机因素的影响,同一个颜色的饮料在不同地点(超市)产品销售量之间的方差即为组内方差。

如果不同的水平对结果没有影响,如: 饮料的不同颜色对销售量无影响,那么在水平之间的方差中,就仅仅有随机因素影响的差异,而没有系统性因素影响的差异。这样一来,组间方差与组内方差就应该非常接近,两个方差的比值就会接近于1;反之,如果饮料的不同颜色对销售量有影响,在组间方差中就不仅包括了随机性误差,也包括了系统性误差,这时,组间方差就会大于组内方差,两个方差的比值就会大于1。当这个比值大到某种程度时,我们就可以作出判断,说不同水平之间存在着显著性差异。一次,方差分析就是通过不同方差的比较,作出接受原假设或拒绝原假设的判断。如:例1中,判断饮料的不同颜色对销售量是否有显著性影响的问题,实际上也就是检验销售量的差异主要是由于什么原因所引起的。如果这种差异主要是系统性误差,我们就说饮料的不同颜色对销售量有显著性影响。

三、单因素方差分析

为说明问题方便,我们以例2为例,阐述单因素方差分析的基本步骤如下:

例2:已知在一组给定的条件下饲养小鸡所增加的体重服从正态分布。某养鸡场欲检验四种饲料配方对小鸡增重的影响是否不相同(假定已经经过检验表明不同饲料配方下的小鸡增重方差相等)。为此,他们对四组初始条件完全相同的小鸡,在完全相同的其他饲养条件下,分别使用四种不同的饲料配方进行喂养。所得到的增重数据如表10-2。

表10-2 四种不同饲料配方下小鸡的增重情况

试分析四种饲料配方对小鸡增重的影响是否不相同。

解:在这里,“饲料”是一个因素,因素中的水平有四个,即小鸡增重的四种饲料配方。不同的饲料是小鸡饲养随机试验的不同条件,因此,四组不同的数据应分别看作四个不同总体即四个随机变量y1、y2、y3、y4各自的样本。在水平(配方)1下有4个样本水平值,n1=4;在水平(配方)2下有6个样本水平值,n2=6;在水平(配方)3下有5个样本水平值,n3=5;在水平(配方)4下有6个样本水平值,n4=6;所以,我们现在的问题是要检验方差相等的四个正态随机变量y1、y2、y3、y4的均值(期望值)μ1、μ2、μ3、μ4是否相等。

有时,人们还会使用另外的提法:增重与饲料配方是否有关。其实,回答了均值是否相等的问题,自然也就回答了增重与饲料配方是否有关的问题。因为如果试验条件的差别没有使均值产生差异,自然说明该试验条件不是变量的影响因素,即说明试验条件与变量相互独立。

对于类似本例的问题,一般地,把随机变量分组的数目记作m,本例m=4。

相关文档
最新文档