第8章 方差分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2. 3.
方差齐性(homogeneity variance)。各个总体的方差必须相 同,对于分类变量的每个水平,有12=22=…=k2;
–
在例8-1中,要求不同位置超市的销售额的方差都相同;
独立性 (independence) 。每个样本数据是来自因素各水平 的独立样本(该假定不满足对结果影响较大);
1 2 : : n
x11 x12 : : x1n
x21 x22 : : x2n
… … : : …
xk1 xk2 : : xkn
提出假设
1. 一般提法: H0: 1 = 2 =…= k 自变量对因变量没有显著影响; H1: 1 ,2 ,… ,k不全相等 自变量对因变量有显著影响; 2. 要注意的是: 若拒绝原假设,只是表明至少有两个总体的均值 不相等,并不意味着所有的均值都不相等。
n x
i 1
k
i i
构造检验的统计量
(计算总离差平方和 SST) 1. 全部观测值 xij 与总平均值 x 的离差平方和; 2. 反映全部观测值的离散状况; 3. 其计算公式为:
SST xij x
k ni i 1 j 1 2
构造检验的统计量
(计算组间平方和 SSA)
方差分析的基本假定
1. 正态性(normality)。每个总体都应服从正态分布,即对于 因素的每一个水平,其观测值是来自正态分布总体的简单 随机样本;
– –
在例8-1中,要求每个位置超市的销售额必须服从正态分布; 检验总体是否服从正态分布的方法有很多,包括对样本数据作 直方图、茎叶图、箱线图、正态概率图等 ;
差平方和 (SSE) 占总平方和 (SST) 的比例大小来 反映; 自变量平方和占总平方和的比例记为R2 ,即:
SSA(组间平方和) R SST (总平方和)
2
3. 其平方根R也可以用来测量两个变量之间的关
系强度。
方差分析中的多重比较
(multiple comparison procedures)
通过分析观测数据的误差来判断各总体均值是否相等; 用方差来衡量误差的大小。
2. 研究分类型自变量对数值型因变量的影响;
一个或多个分类自变量
2个或多个 (k 个) 处理水平或分类 一个数值型因变量
3. 有单因素方差分析和双因素方差分析;
单因素方差分析:一个分类自变量 双因素方差分析:两个分类自变量
2015-1-22
方差分析的基本原理
(误差分析)
1. 方差分析的基本原理,就是要分析数据的总误差 中有没有系统误差。
– 如果超市的不同位置对销售额没有显著影响,意味着没 有系统误差。 – 这时,每种处理所对应的总体均值(i)应该相等。
2. 如果存在系统误差,每种处理所对应的总体均值 (i)至少有一对不相等; 3. 就例8-1而言,在只考虑超市位置一个因素的情况 下,方差分析也就是要检验下面的假设: H0 :1 2 3 H1 :1 , 2 , 3 不全相等
– 由于不同处理造成的误差,它反映了处理(超市位置)对观测数
据(销售额)的影响,也叫做系统误差;
3. 组内误差 (within-group
:
error) — 随机误差 (random error)
– 由于随机因素造成的误差,也简称为误差(error) ;
2015-1-22
方差分析的基本原理
(误差分解)
构造检验的统计量
• 构造统计量需要计算: 各个水平的均值; 全部观测值的总均值; 各个离差平方和; 各个均方(MS,即方差) 。
构造检验的统计量
(计算水平的均值) 1. 假定从第i个总体中抽取一个容量为 ni的简单 2.
随机样本,第i个总体的样本均值为该样本的 全部观测值总和除以观测值的个数; 计算公式为 ni
实际上,只要组间平方和SSA不等于0,就表明两个
变量之间有关系(只是是否显著的问题) ; 当组间平方和 (SSA)比组内平方和 (SSE)大,而且大 到一定程度时,就意味着两个变量之间的关系显著; 反之,就意味着两个变量之间的关系不显著。
关系强度的测量
1. 变量间关系的强度用自变量平方和 (SSA) 及残 2.
1. 各组平均值 xi (i 1,2,, k )与总平均值 x 的离差
2. 3. 4.
平方和; 反映各总体的样本均值之间的差异程度,又称水 平项平方和; 该平方和既包括随机误差,也包括系统误差; 计算公式为 :
SSA xi x ni xi x
2 i 1 j 1 i 1 k ni k 2
构造检验的统计量
(计算均方 MS)
1. 组间方差: SSA 的均方,记为 MSA ,计算公
式为:
SSA MSA k 1
2. 组内方差:SSE的均方,记为MSE,计算公式 为: SSE MSE nk
构造检验的统计量
(计算检验统计量 F ) 1. 将 MSA 和 MSE 进行对比,即得到所需要的检
Between Groups Wi thin Groups Total
–
另,使用教材介绍的GLM分析方法;
2015-1-22
用SPSS进行方差分析
(均值图)
2015-1-22
关系强度的测量
1. 拒绝原假设表明因素(自变量)与观测值之
间有关系; 2. 组间平方和 (SSA) 度量了自变量对因变量 的影响效应;
2
构造检验的统计量
(三个平方和的关系)
总离差平方和 (SST) 、误差项离差平方和 (SSE) 、
水平项离差平方和 (SSA) 之间的关系:
x
i 1 j 1
k
ni
ij
x ni xi x xij x
2 2 i 1 i 1 j 1
1. 数据的误差可以用平方和(sum of squares)来表示,常 简记为SS; • 总平方和,记为SST;
– –
反映全部数据总误差大小的平方和; 抽取的全部36家超市销售额之间的误差平方和
• 组间平方和,记为SSA;
– –
反映系统误差(处理误差) 大小的平方和; 也称为处理平方和(treatment sum of squares)
xi
x
j 1
ij
ni
(i 1,2, , k )
式中: ni为第 i 个总体的样本观测值个数 xij 为第 i 个总体的第 j 个观测值
构造检验的统计量
(计算全部观测值的总均值)
1. 全部观测值的总和除以观测值的总个数; 2. 计算公式为
x
x
i 1 j 1
k
ni
ij
n n 式中:n n1 n2 nk
构造检验的统计量
(计算组内平方和 SSE)
1. 每个水平或组的各样本数据与其组平均值的离差
2.
平方和; 反映每个样本各观测值的离散状况,又称误差项 平方和(或残差平方和); 该平方和反映的是随机误差的大小; 计算公式为 :
3. 4.
SSE xij xi
k ni i 1 j 1
wk.baidu.com
yij i ij
yij i ij
§8.2 单因素方差分析
8.2.1数据结构 8.2.2分析步骤 8.2.3关系强度的测量 8.2.4方差分析中的多重比较
单因素方差分析的数据结构
(one-way analysis of variance)
因素(A) i
观测值 ( j ) 水平A1 水平A2 … 水平Ak
2015-1-22
方差分析的基本原理
(方差比较)
1. 若不同位置对销售额没有影响,则组间方差中只包含随机
误差,没有系统误差。这时,组间方差与组内方差经过平 均后的数值就应该很接近,它们的比值就会接近1; 2. 若不同位置对销售额有影响,在组间方差中除了包含随机 误差外,还会包含有系统误差,这时组间方差平均后的数 值就会大于组内方差平均后的数值,它们之间的比值就会 大于1; – 当这个比值大到某种程度时,就可以说不同水平之间 存在着显著差异,也就是自变量对因变量有影响;
第 8 章 方差分析
§8.1 方差分析的基本原理 §8.2 单因素方差分析 §8.3 双因素方差分析
8.1
方差分析的基本原理
8.1.1 什么是方差分析? 8.1.2 误差分解 8.1.3 方差分析的基本假定
什么是方差分析(ANOVA)?
(analysis of variance)
1. 检验多个总体均值是否相等;
–
–
选择【分析 - 比较均值】,并选择【单因素方差分析 ANOVA】; 将因变量选入因变量列表框,将影响因素选入因子列 表框;点确定;
ANOVA
销 售 额 Sum of Squares 174008.0 214958.0 388966.0 df 2 33 35 Mean Square 87004.000 6513.879 F 13.357 Sig . .000
(例题分析)
拒绝H0
2015-1-22
Spss方差分析预处理
• 分析之前需要将原始 数据进行调整; • 将超市位置作为一个 单独的变量,作为spss 是一列; • 并对其取值居民区、 商业区、写字楼分别 进行赋值编码; • 保证超市位置的变量 类型为数值,度量尺 度为名义。
用SPSS进行方差分析
1. 通过对总体均值之间的配对比较来进一步检
2. 3.
验到底哪些均值之间存在差异; 可采用Fisher提出的最小显著性差异方法,简 写为LSD; LSD是对检验两个总体均值是否相等的t检验 方法的总体方差估计加以修正,即用 MSE 代 替两个总体的方差计算得到的。
2.
验统计量F; 当H0为真时,二者的比值服从分子自由度为 k-1、分母自由度为 n-k 的 F 分布,即 :
MSA F ~ F (k 1, n k ) MSE
构造检验的统计量
(F分布与拒绝域)
F 分布
拒绝H0
不拒绝H0
F
0
F(k-1,n-k)
单因素方差分析结果
(基本结构)
单因素方差分析
什么是方差分析?
(例题分析)
【 例 8-1】确定超市的位置和竞争者的数量对销售额是否 有显著影响,获得的年销售额数据(单位:万元)如下表:
因素
2015-1-22
水平或处理
样本数据
什么是方差分析?
(例题分析)
1. 分析“超市位置”和“竞争者数量”对销售额的影响; 2. 如果只分析超市位置或只分析竞争者数量一个因素对销售 额的影响,则称为单因素方差分析 (one-way analysis of variance); 3. 如果只分析超市位置和竞争者数量两个因素对销售额的单 独影响,但不考虑它们对销售额的交互效应(interaction), 则称为只考虑主效应的双因素方差分析; 4. 如果除了考虑超市位置和竞争者数量两个因素对销售额的 单独影响外,还考虑二者对销售额的交互效应,则称为考 虑交互效应的双因素方差分析。
–
在例8-1中,3个样本数据是来自不同位置超市的3个独立样本;
2015-1-22
单因素方差分析的数学模型
设因素 A 有 k 种处理 ( 比如超市位置有“居民区 ”、“商业区”、“写字楼” 3 种 ) ,单因素方 差分析可用下面的线性模型来表示 : 设总均值为 ,第 i 个处理的效应可以用第 i 个处 理的均值与总均值的差表示,记为i,即i=i- ;这样,第i个处理均值被分解成i=i+,方差 分析模型可以改写为 :
2015-1-22
8.1 方差分析的基本原理
8.1.2 误差分解
方差分析的基本原理
(误差分解)
1. 总误差(total error):
:
反映全部观测数据的误差; 所抽取的全部36家超市的销售额之间差异;
2. 组间误差(between-group error)—处理误差(treatment error)
k
k
ni
2
SST = SSA + SSE
构造检验的统计量
(计算均方MS)
1. 各误差平方和的大小与观测值的多少有关,为 2. 3.
消除观测值多少对误差平方和大小的影响,需 要将其平均,这就是均方,即方差; 计算方法是用误差平方和除以相应的自由度; 三个平方和对应的自由度分别是:
SST 的自由度为n-1,其中n为全部观测值的个数; SSA的自由度为k-1,其中k为因素水平的个数; SSE 的自由度为n-k;
•
组内平方和,记为SSE; 反映随机误差大小的平方和; 也称为误差平方和(sum of squares of error)
2015-1-22
方差分析的基本原理
(误差分解)
•
总误差
误差平方和的分解及其关系
=
系统误差
+
随机误差
总平方和 (SST)
=
组间平方和 (SSA)
+
组内平方和 (SSE)