方差分析实例分析

方差分析实例分析
方差分析实例分析

方差分析实例分析

摘要:为研究货架的高度和宽度两个因素的影响,本文基于shelf 数据,分别对高度和宽度进行方差分析。首先对数据进行高度和宽度进行分组,并进行描述性统计分析。其次,利用Bartlett 检验进行方差其次性检验,以检验数据在不同的水平下方差是否相同。最后,利用aov()函数进行单因素方差分析、交互作用的双因素方差分析。其结果表明:单因素方差分析结果表明:高度的bottom 、middle 、top 三个水平设置要求不相同,宽度的reg 、wide 两个水平设置要求相同。三个高度设置的需求和两个宽度设置的要求之间的关系是一样的。

关键词:方差其次性检验;方差分析;高度;宽度;货架

1 引言

方差分析是在20世纪20年代发展起来的一种统计方法,它是由英国统计学家费希尔在进行实验设计时为解释实验数据而首先引入的。从形式上看,方差分析是比较多个总体的均值是否相等;但是其本质上是研究变量之间的相互关系。方差分析主要用于研究一个数值因变量与一个或多个分类自变量的关系。方差分析(analysis of variance ,ANOV A )就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。

本文基于shelf 数据,分别对高度和宽度进行方差分析。首先对数据进行高度和宽度进行分组,并进行描述性统计分析。其次,利用Bartlett 检验进行方差其次性检验,以检验数据在不同的水平下方差是否相同。最后,利用aov()函数进行单因素方差分析和有交互作用的双因素方差分析,以说明三个层次高度的要求是否相同,两个层次的宽度要求是否相同,以

及宽度设置的需求和高度之间的关系。

2货架数据描述性统计分析

对shelf 数据进行三个层次高度进行分组,分别分为bottom 、middle 、top 三个层次。对宽度进行reg 、wide 两个层次进行分组。表1给出了shelf 数据的原始数据表,表2给出了高度

三个层次的描述性统计结果,表3给出了宽度两个层次的描述性统计结果。

从表2可看出,bottom 的平均值为55.8,方差为6.136;middle 的平均值为77.2,方差为9.628;top 的平均值为51.5,方差为2.716。其结果表明:三个水平的货架高度平均值存在差异,但是其方差也有差别。表3可看出,reg 的平均值为60.8,方差为129.4050;wide 的平均值为62.2,方差为165.2775。货架的宽度wide 的方差较大,其说明货架的宽度wide 的波动性较大。

height width

Mean

reg wide bottom 58.20 55.70 55.8

bottom 53.70 52.50 bottom 55.80 58.90 Mean 55.90 55.70 middle 73.00 76.20 77.2

middle 78.10 78.40 middle 75.40 82.10 Mean

75.50

78.90

top 52.40 54.00 51.5

top 49.70 52.10 top 50.90 49.90 Mean 51.00 52.00 Mean

60.80 62.20

61.5

表2 高度三个层次的描述性统计结果

Height N Mean Var Sd Max Median Min bottom 6 55.8 6.136 2.477095 58.9 55.75 52.5 middle 6 77.2 9.628 3.102902 82.1 77.15 73.0 top

6

51.5

2.716

1.648029

54.0

51.50

49.7

reg

9 60.8 129.4050 11.37563 78.1 55.8 49.7 wide

9

62.2

165.2775 12.85603

82.1

55.7

49.9

下面对货架的高度和宽度数据进行绘制箱线图和柱状图,分别见图1-4。从图1-2可清晰的看出获奖的高度和宽度数据在各个水平下的变化情况。图3-4可清晰的看出,货架高度和宽度在各个水平下的平均值的变化情况。从柱状图可以看出,各水平获奖的平均分存在一定的差异,但是这种差异显著不显著,还需要进一步分析。

图1 货架高度箱线图

图2 货架宽度箱线图

图3 货架高度柱状图

图4 货架宽度柱状图

3货架高度和宽度方差分析

由以上分析可以看出,虽然各个水平的货架的平均分存在差异,但是其方差也有差别,方差分析的基本思想就是弄清楚影响因变量取值的误差来源,以判断是否是分类自变量对因变量产生影响。在上述数据中,各组数据的误差主要来源于以下几个部分。

?即使是同一组的数据,其取值也具有差别,这是因为货架数据是随机抽取的,从而它们之间的差异可以看作是随机因素的影响造成的,或者说是由抽样的随机性造成的,这种来自水平内部的误差称之为组内误差,显然,组内误差只含有随机误差。

?各组的取值不同。来自不同水平之间的误差称为组间误差,这种差异可能来自于随机误差,也可能来自于因子本身的系统性误差造成的系统误差。因此,组内误差包含有可能包含两个方面,即随机误差和系统误差。

?总误差为组内误差与组间误差之和。

这样,就把造成因变量的差异的误差分解成组内误差和组间误差。即

总误差=组内误差+组间误差

如果组内误差与组间误差相差太大,说明组间误差存在很大成分的系统误差,这时候就可以认为各水平均值显著不等。在进行货架高度和宽度方差性分析需要进行以下步骤:Step1:对货架数据按照高度三个层次和宽度两个层次进行分组;

Step2:分别为货架高度和宽度数据进行方差齐次性检验;

Step3:分别对宽度和高度进行单因素方差分析,以及宽度和高度交互作用的双因素方差分析。

3.1方差齐性Bartlett 检验

若12,,...,n x x x 是从总体中抽样得到的n 个独立的观测值,其总体方差为2σ,而样本方差为

2

21

1()

1n

i i s x x n ==--∑ 2是无偏估计。若观测值服从正太分布,则2s

22

2112:,,...,k H σσσ各不相等。

假设222

1,2,...,k s s s 为k 个样本的方差,其自由度分别为12,,...,k n n n ,并另

2

2

11k i i i s n s n ==∑,其中1k

i i n n ==∑。Bartlett 检验需计算其统计量,

2

211ln ln k

i i i B n s n s C =??=- ???

1的卡方分布,

据此可以通过卡3.2方差分析

? 单因素方差分析

方差分析所需的数据结构一般是一个数据框。进行方差分析可以使用lm()函数,也可以使用aov()函数,再利用summary()函数或者anova()函数输出最终结果。 ? 无交互作用的双因素方差分析

因变量可能受到来自一个以上的因素的影响,最典型的就是双因素方差分析。假如因素A 与因素B 没有联合效应,则称为无交互作用的双因素方差分析。 ? 有交互作用的双因素方差分析

因素之间的交互作用在现实中很常见,比如胖胖的人喜欢蓝色的衣服,南方的人更喜欢喝雪花啤酒等,前者是体重和颜色的交互作用,后者是地区和啤酒品牌的交互作用。因此,如果两个因素联合在一起对因变量有显著的影响,则称这样的方差分析为有交互作用的方差分析。 3.3 代码实现

利用R 软件进行编程,方差齐次性检验和方差分析的代表如下:

3.4 结果分析

下面给出方差齐性Bartlett检验结果的结果,其结果见表4,从表4可看出,高度的三个水平(bottom、middle、top)的方差齐性Bartlett检验中,P值为0.4216,由于P值大于常用的0.05,因此,接受原假设,即认为方差相等。宽度的两个水平(reg、wide)的的方差齐性Bartlett检验中,P值为0.7374,因此,接受原假设,即认为方差相等。

表4方差齐性Bartlett检验结果

高度Bartlett's K-squared 1.7275p-value0.4216接受原假设,方差相等

宽度Bartlett's K-squared0.11241p-value0.7374接受原假设,方差相等

根据以上分析结果,认为各个水平的货架高度和宽度的方差相等,为了说明三个层次高度的要求是否相同,两个层次的宽度要求是否相同,以及宽度设置的需求和高度之间的关系。下面利用方差性分析对不同水平的货架高度和宽度进行分析。其结果见表5所示。

表5 货架高度和宽度方差分析

类型Df Sum Sq Mean Sq F value Pr(>F)

高度22273.91136.9185.6239.42e-10***宽度18.88.8 1.4400.253

高度和宽度210.1 5.00.8230.462

Residuals1273.5 6.1

注Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

从表5可清晰的看出,高度的三个水平(bottom、middle、top)的总平方和为2273.9,平均方差和为1136.9,F统计量的值为185.623,P值为9.42e-10。由于P值小于0.05,因此

拒绝H0,则认为高度的bottom、middle、top三个水平的方差统计不相等。从而说明高度的三个水平要求不相同。

宽度的两个水平(reg、wide)的总平方和为8.8,平均方差和为8.8,F统计量的值为1.440,P值为0.253。由于P值大于0.05,因此接受H0,则认为宽度的reg、wide两个水平的均值统计相等。从而说明宽度的两个水平要求相同。

三个高度设置的需求和两个宽度设置的要求的总平方和为10.1,平均方差和为 5.0,F 统计量的值为0.823,P值为0.462。由于P值大于0.05,因此接受H0,则认为三个高度设置的需求和两个宽度设置的要求之间的关系是一样的。

4 结论

方差分析是一种常见的统计模型,用于检验样本间均值是否相等。方差分析适用于处理因素类型为分类变量、响应变量类型为连续的情形。根据因素个数,方差分析可以分为单因素方差分析与多因素方差分析。在多因素方差分析中,要特别注意判断因素间是否存在交互作用。此外,在实际应用中,可以通过设计合理的试验,在尽可能排除外部因素的干扰后,再对试验数据进行方差分析,这样结果会更准确。

单因素方差分析结果表明:高度的bottom、middle、top三个水平设置要求不相同,宽度的reg、wide两个水平设置要求相同。多因素的方差分析说明:三个高度设置的需求和两个宽度设置的要求之间的关系是一样的。

相关主题
相关文档
最新文档