第二十六课协方差分析

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

程序说明：定性变量 trt 的 5 个不同位置点对 y 可能有较大的影响，因此 class 语句中分组变量为 trt，先选用 anova 过程进行方差分析。然而，牡蛎的初始体重 x 对牡蛎的最后体重 y 可能也有一定的影响，故适合选用 glm 过程进行协方差分析，在 model 语句中不仅包括分组变量 trt，而且应包括协变量 x。选择项 solution 要求输出回归系数的估计值及其标准误差和假设检验等结果。means 和 lsmeans 语句要求输出分组变量 trt 各水平下 y 的未修正均值和修正后的均值，选择项 stderr 要求输出 y 的修正均值的标准误差、各修正均值与 0 比较的假设检验结果；选择项 tdiff 要求输出 y 的各修正均值之间两两比较所对应的 t 值和 p 值。 Contrast 语句是用来比较入口处底部和顶部均值之和与出口处底部和顶部均值之和是否相等。前三条 estimate 语句是用来估计入口处底部和顶部调整后的均值及它们之差，并假设检验是否为 0，后三条 estimate 语句是用来估计入口处底部和顶部未调整的均值及它们之差，并假设检验是否为 0。程序输出的主要结果见表 26.2（a）（b）（c）所示。
y ij ai ( xij x ) ij
(26.1)
其中 x 为协变量，x ij 为协变量在分类水平 i 和 j 上的记录值，x 为所有协变量的平均值，为相关的回归系数。设 0 x ，为平均截距。上式可以化简成
y ij 0 ai xij ij
表 26.2（a）单因素 trt 一元 x 的协方差分析
上海财经大学经济信息管理系IS/SHUFE Page 3 of 8
表 26.2(a)中结果分析：对分组变量 trt 的方差分析表明，即使当初始体重 x 不考虑，各分
The SAS System Analysis of Variance Procedure Dependent Variable: Y Source Model Error DF 4 15 R-Square 0.553175 Source TRT DF 4 Sum of Squares 198.40700000 160.26250000 358.66950000 C.V. 10.59706 Anova SS 198.40700000 Root MSE 3.26866436 Mean Square 49.60175000 4.64 F Value Y Mean 30.84500000 Pr > F 0.0122 Mean Square 49.60175000 10.68416667 F Value 4.64 Pr > F 0.0122
1 x 27.2 28.6 28.6 29.3 20.4 y 32.6 33.8 35.2 35.0 24.6 x 32.0 26.8 22.4 21.8 19.6
2 y 36.6 31.7 29.1 27.0 23.4 x 33.0 26.5 23.2 30.3 25.1
3 y 37.7 30.7 28.9 36.4 30.3 x 26.8 26.8 24.4 24.3 18.1
4 y 31.0 30.4 30.2 30.5 21.8
end; end; cards; 27.2 32.6 32.0 36.6 28.6 33.8 26.8 31.7 28.6 35.2 22.4 29.1 29.3 35.0 21.8 27.0 20.4 24.6 19.6 23.4 ; proc anova data=growth; class trt; model y=trt; proc glm data=growth; class trt; model y=trt x /solution; means trt; lsmeans trt /stderr tdiff; contrast 'trt12 vs trt34' trt -1 -1 1 1 0; estimate 'trt1 adj mean' intercept 1 trt 1 0 0 0 0 x 25.76; estimate 'trt2 adj mean' intercept 1 trt 0 1 0 0 0 x 25.76; estimate 'adj trt diff' trt 1 -1 0 0 0; estimate 'trt1 unadj mean' intercept 1 trt 1 0 0 0 0 x 29.75; estimate 'trt2 unadj mean' intercept 1 trt 0 1 0 0 0 x 27.175; estimate 'unadj trt diff' trt 1 -1 0 0 0 x 2.575; run; 33.0 37.7 26.5 30.7 23.2 28.9 30.3 36.4 25.1 30.3 26.8 31.0 26.8 30.4 24.4 30.2 24.3 30.5 18.1 21.8
Corrected Total 19
General Linear Models Procedure Dependent Variable: Y Source Model Error DF 5 14 R-Square 0.988228 Source TRT X Source TRT X DF 4 1 DF 4 1 Sum of Squares 354.44717675 4.22232325 358.66950000 C.V. 1.780438 Type I SS 198.40700000 156.04017675 Type III SS 12.08935928 156.04017675 T for H0: Parameter INTERCEPT Estimate 2.494859769 B Parameter=0 2.43 0.0293 Root MSE 0.54917622 Mean Square 49.60175000 156.04017675 Mean Square 3.02233982 156.04017675 Pr > |T| 164.47 517.38 F Value 10.02 517.38 F Value Y Mean 30.84500000 Pr > F 0.0001 0.0001 Pr > F 0.0005 0.0001 Mean Square 70.88943535 0.30159452 F Value 235.05 Pr > F 0.0001
class model class model class model A; X A; A B; X A B; A B; X A B A*B;
②随机区组设计的协方差分析模型
③两因素析因设计的协方差分析模型
二、实例分析
1. 一元协方差分析例 26.1 研究牡蛎在不同温度的水中不同位置上的生长情况。有人做了如下试验：分别在通向发电站的入口处（温度较低）不同位置（底部和表层）和出口处（温度较高）不同位置（底部和表层）及电站附近的深水处（底部和表层的中间）总共 5 个不同位置点上，随机地各放 4 袋牡蛎（每袋中有 10 个），共 5×4=20 袋。在将每袋牡蛎放入位置点之前，先洗干净称出每袋的初始体重，放在 5 个不同点一个月后再称出最后体重。试验结果数据见表 26.1 所示。
设 0i 0 ai ，上式可以化简成
上海财经大学经济信息管理系IS/SHUFE
(26.2)
Page 1 of 8
y ij 0i xij ij
(26.3)
很明显 0i 是第 i 组回归线的截距，等于回归线的平均截距 0 加上本组的效应 a i 。这个式揭示了，观察值 y ij 的模型可以表示成一组相似的回归线，且各组具有共同的回归系数，和各组自己的截距 0i 0 ai 。用 SAS 中的 glm 过程进行协方差分析时，要注意不同试验设计时 class 语句和 model 语句的写法。设分类变量为 A、B，协变量为 X，观察值为 Y，则有： ①单因素 k 水平设计的协方差分析模型
Corrected Total 19
Std Error of Estimate 1.02786287
组最后体重均值的区别也统计显著（B 0.0122<0.05），其中分组变量 trt 的平方和为 198.40700000。 TRT 1 -0.244459378 -0.42 0.6780 0.57658196 而在协方差分析中，分组变量 trt 的类型 1 的平方和等于方差分析中的平方和 198.40700000， 2 -0.280271345 B -0.57 0.5786 0.49290825 分组变量 trt 的类型 3 的平方和为 12.08935928 ，大大小于类型 1 的平方和，是因为类型 3 1.654757698 B 3.85 0.0018 0.42943036 3 的平方和反映了经过共同的协变量 x 调整后的平方和，减去了协变量的影响，所以平方和大幅 4 1.107113519 B 2.35 0.0342 0.47175112 减小。类型 1 是一种未经过调整的平方和，因为它的优先级高于协变量的调整。更进一步分 5 0.000000000 B . . . 析，我们注意到方差分析中均方误差为 10.68416667 ，而协方差分析中却缩小到 0.30159452， X 1.083179819 22.75 0.0001 0.04762051 相应地分组变量 trt 的 F 统计量从 4.64 10.02and ，说明包含了协变量后分组的区别更加显 NOTE: The X'X matrix has been found to增加到 be singular a generalized inverse was used to solve 著，原因是简单方差分析中，大多数的误差是由于初始体重 x 的变异造成的。 the normal equations. Estimates followed by the letter 'B' are biased, and are not unique 表中的最后一部分是选择项 estimators of the parameters. solution 的输出结果，对模型中的截距、各分组变量和协变量的回归系数进行估计和检验，在这个单因素 trt 的情况下，估计是以最后一个水平 trt5 （trt=5）为对照组，并且设置它的系数为 0，因此截距 intercept 的估计值是分组 trt5 的估计值。其他四个分组 trt 的系数估计是每一个与 trt5 进行比较而得到的。注意，出口处的 trt3 和 trt4 分组是不同与 trt5 分组。协变量 x 的系数是合并各组内 y 和 x 所得到的回归系数，即是由 5 个独立
2
②协变量与主要变量 y 间的总体回归系数不等于 0。 ③各组的回归线平等，即回归系数 1 2 。如果上述的假定满足，就作协方差分析。前述的各种试验设计，如完全随机化设计、随机区组设计、析因设计、拉丁方设计等，都可以带一个或多个协变量，按设计方案扣除协变量的影响后，对主要变量 y 的修正均值作比较，得出统计结论。 3. 协方差分析的模型最简单的单因素一元协方差分析的模型，是由单因素效应模型 y ij ai ij 加上协变量的影响因素 ( x ij x ) 而得出：
表 26.1 牡蛎在不同温度和位置上的生长数据
重复数 rep（x 为初始体重，y 为最后体重）位置 trt 1（入口底部） 2（入口顶部） 3（出口底部） 4（出口顶部） 5（附近中部）程序如下：
data growth;Fra Baidu bibliotekdo trt=1 to 5; do rep=1 to 4; input x y @@; output; 上海财经大学经济信息管理系IS/SHUFE Page 2 of 8
第二十六课协方差分析
当定量的影响因素对观察结果有难以控制的影响，甚至还有交互作用时，采用协方差分析，这些影响变量称为协变量，扣除（或消除）协变量的影响，可以得到修正后的均值估计。
一、协方差分析概述
1. 协方差分析概念协方差分析（analysis of covariance）又称带有协变量的方差分析（analysis of variance with covariates），是将回归分析与方差分析结合起来使用的一种分析方法。在各种试验设计中，对主要变量 y 研究时，常常希望其他可能影响和干扰 y 的变量保持一致以到达均衡或可比，使试验误差的估计降到最低限度，从而可以准确地获得处理因素的试验效应。但是有时，这些变量难以控制，或者根本不能控制。为此需要在试验中同时记录这些变量的值，把这些变量看作自变量，或称协变量（covariate），建立因变量 y 随协变量变化的回归方程，这样就可以利用回归分析把因变量 y 中受协变量影响的因素扣除掉，从而，能够较合理地比较定性的影响因素处在不同水平下，经过回归分析手段修正以后的因变量的总体均值之间是否有显著性的差别。简单地说，协方差分析是扣除协变量的影响，或者将这些协变量处理成相等，再对修正的 y 的均值作方差分析。 2. 协方差分析的假定协方差分析需要满足的假定为： ①各样本来自具有相同方差的正态分布总体，即要求各组方差齐性。