残差分析1

残差分析1
残差分析1

§2.3 残差分析

前面主要假设: 线性, 误差独立同正态分布. 问题1: 如何考察这些特点;

问题2: 若不满足, 如何调整使其符合或近似符合. 方法: 从残差出发,分析误差项假定的合理性等特点

1. 误差项的正态性检验

第一章中介绍的正态性检验方法可用残差的检验.

(1) 学生化残差(残差除于它的标准差的估计值) 若2

~(,)N ε0I , 则残差向量

()2?~0,()N σ-ε

I H , 其中()1

T T -=X X X X H , 由此可知 2?~(0,(1)),1~i ii N h i n ε

σ-= 这里

1()T T ii i i h -=x X X x (杠杆量)

1,1(1,,,)T i i i p x x -=x

易知2?V a r ()(1)i i i h εσ=-, 一般不等, 用

2?MSE σ

=代2σ, 标准化得

?,1~(1)i i ii r i n MSE h ε

==?-

当n 较大时, i r 近似地相互独立且服从~(0,1)N .

(2) 残差正态性的频率检验

基本思想:

在一些范围内, 学生化残差频率≈标准正态频率. 设~(0,1)N ξ, 则 ξ

(1,1)- ( 1.5,1.5)- (2,2)- P

0.68 0.87

0.95

若学生化残差i r 也有类似的结果, 则认可为正态. 例5 对例3, 检验误差正态性假定的合理性.

解 调用proc reg(example2_5)过程, 得表2.6(略) 与(0,1)N 的概率类似. 无理由拒绝误差项正态假设.

(3) 残差的正态QQ 图

1) 学生化残差的正态QQ 图的做法

(i) 将1,,n r r 由小到大排序(1)(),,n r r ;

(ii) 计算1()0.3750.25i i q n Φ--??=??+??

;

(iii) 描出点()()(,),1~i i q r i n =;

2) 直观检验法

若散点基本上在一直线上, 则认可误差为正态.

3) 相关系数检验法 若()()122()()11

()()

?1()()n

i i i n n i i i i r r q q r

r q q ρ===--=≈-?-∑∑∑ 则认可为正态.

例6 对表2.6中学生化残差,作QQ 图,并分析合理性.

解调用example2_6

得QQ图, 大致在一

直线上, 可认误差项

为正态.

2. 残差图分析

y X或某序号等.

纵坐标: 残差? ; 横坐标: ?,

j

直观地判断合理性、有无必要引入交叉项、遗漏项SAS中主调用proc plot和proc gplot过程.

(1) 以因变量Y 的拟合值为横坐标的残差图

若关系确为线性且2~(,)N σε0I , 则?=Y

HY 与 ?()=-ε

I H Y 不相关.(且相互独立),则显示为图(a).

线性关系, 误差正态 误差的等方差性不符

回归函数非线性(应有二次项) 可能遗漏了有线性关系的量

(2) 以自变量观测值为横坐标的残差图

情形与上类似.

(3) 时序残差图

较满意的仍是图2.2中的(a), 其他类似的含义.

例7 根据例3和例5, 考察模型假定条件的合理性.

都较合理

3. Box-Cox 变换

残分后,若不足,需改进,使其符“线回,独立,等方差”. 大多0Y >(或使其>0), 作

()1

Y Y λλλ-=, 待定0λ≠

对12,,,n y y y , 作上述变换, 得

()()()()12(,,,)T n y y y λλλλ=Y ,

使

()λ=+Y X βε, 2~(,)N σε0I

用最大似然法求出λ. 参见[16], 转化为使

()()1()(;)()(())T T T SSE I λλλλ-=-Z Z X X X X Z 达到最小, 其中

()()()()12(,,)T n z z z λλλλ=Z ,

1

()

()

1n n i i i i z y y λλλ-=??

=∏????,

通过取一系列的λ,计算()(;)SSE λλZ ,比大小定λ.

(注: 当0λ=时, ()ln Y

Y λ=即可).

例8 54位肝病人术前数据与术后生存时间如下表.

(1) 若用线性回归模型拟合, 考察其各假设合理性;

(2) 用Box-Cox变换,确定 ,再用“线回”的合理性? 解: 调用example2_8过程, 得

(1) 由两图知, 直接拟合为

0112244Y X X X ββββε=++++

不很恰当(且?0.8191ρ

=相差较大). (2) 对Y 作Box-Cox 变换, 从()(;)SSE λλZ

图知,取

0.07λ=, 故作

0.0710.07

Y Z -= (表2.7最后一列)

对Z 用线回拟合较好.

拟合的0112244Z X X X ββββε=++++方差分析及参数估计结果如表2.8所示.

实用中λ灵活选取. 还有其他诊断方法.

相关主题
相关文档
最新文档