方差分析及回归分析
方差分析及回归分析 Revised as of 23 November 2020
第九章 回归分析
教学要求
1.一元线性回归及线性相关显着性的检验法,利用线性回归方程进行预测。
2.可线性化的非线性回归问题及简单的多元线性回归。
?本章重点:理解线性模型,回归模型的概念,掌握线性模型中参数估计的最小二乘法估计法。
?教学手段:讲练结合 ?课时分配:6课时
§ 一元线性回归
回归分析是研究变量之间相关关系的一种统计推断法。
例如,人的血压y 与年龄x 有关,这里x 是一个普通变量,y 是随机变量。Y 与x 之间的相依关系f(x)受随机误差ε的干扰使之不能完全确定,故可设有:
ε+=)(x f y ()
式中f(x)称作回归函数,ε为随机误差或随机干扰,它是一个分布与x 无关的随机变量,我们常假定它是均值为0的正态变量。为估计未知的回归函数f(x),我们通过n 次独立观测,得x 与y 的n 对实测数据(x i ,y i )i=1,……,n ,对f(x)作估计。
实际中常遇到的是多个自变量的情形。
例如 在考察某化学反应时,发现反应速度y 与催化剂用量x 1,反应温度x 2,所加压力x 3等等多种因素有关。这里x 1,x 2,……都是可控制的普通变量,y 是随机变量,y 与诸x i 间的依存关系受随机干扰和随机误差的影响,使之不能完全确定,故可假设有:
ε+=),,,(21k x x x f y
这里ε是不可观察的随机误差,它是分布与x 1,……,x k 无关的随机变量,一般设其均值为0,这里的多元函数f(x 1,……,x k )称为回归函数,为了估计未知的回归函数,同样可作n 次独立观察,基于观测值去估计f(x 1,……,x k )。
以下的讨论中我们总称自变量x 1,x 2,……,x k 为控制变量,y 为响应变量,不难想象,如对回归函数f(x 1,……,x k )的形式不作任何假设,问题过于一般,将难以处理,所以本章将主要讨论y 和控制变量x 1,x 2,……,x k 呈现线性相关关系的情形,即假定
f(x 1,……,x k )=b 0+b 1x 1+……+b k x k 。
并称由它确定的模型 (k=1)及为线性回归模型,对于线性回归模型,估计回归函数f(x 1,……,x k )就转化为估计系数b 0、b i (i=1,……,k) 。
当线性回归模型只有一个控制变量时,称为一元线性回归模型,有多个控制变量时称为多元线性回归模型,本着由浅入深的原则,我们重点讨论一元的,在此基础上简单介绍多元的。
§9.1.1 一元线性回归
一、一元线性回归的数学模型
前面我们曾提到,在一元线性回归中,有两个变量,其中x 是可观测、可控制的普通变量,常称它为自变量或控制变量,y 为随机变量,常称其为因变量或响应变量。通过散点图或计算相关系数判定y 与x 之间存在着显着的线性相关关系,即y 与x 之间存在如下关系:
y=a+bx+ε
通常认为 ε~N (0,σ2)且假设σ2与x 无关。将观测数据(x i ,y i )(i=1,……,n)代入再注意样本为简单随机样本得:
)
,0(,)
,,1(21σεεεN n i bx a y n i i i 独立同分布 =++=
称或(又称为数据结构式)所确定的模型为一元(正态)线性回归模型。对其进行统计分析称为一元线性回归分析。
不难理解 模型中EY=a+bx ,若记y=E(Y),则y=a+bx,就是所谓的一元线性回归方程,其图象就是回归直线,b 为回归系数,a 称为回归常数,有时也通称a 、b 为回归系数。
我们对一元线性回归模型主要讨论如下的三项问题:
(1) 对参数a ,b 和σ2进行点估计,估计量b a
?,?称为样本回归系数或经验回归系数,而x b a y
???+=称为经验回归直线方程,其图形相应地称为经验回归直线。 (2) 在模型下检验y 与x 之间是否线性相关。
(3) 利用求得的经验回归直线,通过x 对y 进行预测或控制。 二、a 、b 的最小二乘估计、经验公式
现讨论如何根据观测值(x i ,y i ),i=1,2,……,n 估计模型()中回归函数f(x)=a+bx 中的回归系数。
采用最小二乘法,记平方和
∑=--=n
t t t bx a y b a 1
2)(),(Q
找使Q 达到最小的a 、b 作为其估计,即
),(min )?,?(b a b a
Q Q = 为此,令????
?????=--==--=∑∑==0)(220
][2211
n t t t t n
t t t x bx a y bx a y a 2b Q 2Q
化简得如教材所示的方程组(称为模型的正规方程) 解得???????===x b y a
L L b xx
xy ???
所示的b a ?,?分别称为a 、b 的最小二乘估计,式中 ()
∑∑∑===-=-=n i n
i n i i i i xx x n x x x L 11
212
2)(1
∑∑∑∑==-=--=n i n i n
i n
i i i i i xy y x n y x y y x x L 111
1))((1))((
称x b a y
???+=为经验回归(直线方程),或经验公式。 例1 某种合成纤维的强度与其拉伸倍数有关。下表是24个纤维样品的强度与相应的拉伸倍数的实测记录。试求这两个变量间的经验公式。
将观察值(x i ,y i ),i=1,……,24在平面直角坐标系下用点标出,所得的图称为散点图。从本例的散点图看出,强度y 与拉伸倍数x 之间大致呈现线性相关
关系,一元线性回归模型是适用y 与x 的。现用公式()求b a
?,?,这里n=24 946
.1171.11324
1
93.650756
.1301.1135.127241
6.731266.1525.127241
61.8296
.731,
93.650,
61.8291.113,5.1272222=?-==??-==?-
======∑∑∑∑∑yy xy xx i
i
i
i
i i L L L y
x y x
y x
∴15.0??859.0?=-===x b y a
L L b xx
xy 由此得强度y 与拉伸倍数x 之间的经验公式为 x y
859.015.0?+= 三、最小二乘估计b a ?,?的基本性质 定理 一元线性回归模型中,a 、b 的最小二乘估计b a ?,?满足: (1) b b
E a a E ==?,? (2) 222
1)?(,)1()?(σσxx
xx
L b
D L x
n a
D =+=
(3) 2)?,?cov(σxx
L x b a
-= 证:(1) 注意到对任意i=1,2,……,n 有
a x
b x b a b E x y E a
E b
Lxx
x x b y y x x E Lxx b E x x b y E Ey y y E Dy x b a y E bx a Ey n
i i n
i i i i i i i i i =-+=-==-=--=-=-=-=+=+=∑∑==??)())((1?)()(,,
,12
1
2
2于是σ
(2)利用∑==-n
i i x x 1
0)(,将b 、a
??表示为: ∑∑==-=--=n
i i i n i i i y x x Lxx y y x x Lxx b 1
1)(1))((1? ∑∑==--=-=n
i i i n i i y Lxx x x x n
b x y n a 11])(1[?1? 由于y 1,y 2,……,y n 相互独立,有
2
221222212
221222)1(])(1[])(1[)?()(1)?(σσσ
σσxx
n i xx i n
i i n
i i xx L x
n L x x x n Lxx x x x n a D Lxx x x L b D +=-+=--==-=∑∑∑=== 2
21
221
22
2)(])(1[)()?,?cov(σσσxx n
i xx i n i xx i xx i L x L x x x L x x x n L x x b a -=--=---=∑∑== 定理表明,a 、b 的最小二乘估计b 、a
??是无偏的,从,还知道它们又是线性的,因此所示的最小二乘估计b 、a
??分别是a 、b 的线性无偏估计。 §9.1.2 建立回归方程后进一步的统计分析
一、σ2的无偏估计
由于σ2是误差εi (i=1,……,n)的方差,如果εi 能观测,自然想到用
∑i
i n 21
ε来估计σ,然而εi 是观测不到的,能观测的是y i.。由i i i y x b a y E
????=+= (即Ey i 的估计),就应用残差i i y
y ?-来估计i ε,因此,想到用
∑∑===--=-n i i i n i i i b a Q n
x b a y n y y n 1212)?,?(1)??(1)?(1 来估计σ2,我们希望得到无偏估计,为此需求残差平方和)?,?(b a
Q 的数学期望,由定理可推出 2)2()]?,?([σ-=n b a
Q E (学员自验) 于是得∑=--=-=n i i i y y n n b a Q 1
22
)?(212)?,?(?σ为σ2的无偏估计,例如§例1中2545.0?=σ
即有 定理 令2
)?,?(?2
-=n b a Q σ,则22?σσ
=E 。 我们称2
)?,?(?-=n b a
Q σ为标准误差,它反映回归直线拟合的程度。
具体计算时可用)1()1(?)?,?(222r L L L L L L b L b a Q yy yy
xx xy yy
xx yy -=-=-=。 二、预测与控制 1、预测问题
对于一元线性回归模型?????++=)
,0(~2
σεε
N bx a y ()
我们根据观测数据(x i ,y i ),i=1,…,n ,得到经验回归方程x b a y
???+=,当控制变量x 取值x 0(x 0≠x i ,i=1,…,n ),如何估计或预测相应的y 0呢这就是所谓的预测问题,自
然我们想到用经验公式,取0
???x b a y
+=来估计实际的0
ε++=bx a y ,并称0
?y 为0y 点估计或点预测。在实际应用中,若响应变量y 比较难观测,而控制变量x 却比较容易观察或测量,那么根据观测资料得到经验公式后,只要观测x 就
能求得y 的估计和预测值,这是回归分析最重要的应用之一,例如在§例1
中,拉伸倍数x 0=,则可预测强度59.65.7859.015.0?0=?+=y
但是,上面这样的估计用来预测y 究竟好不好呢它的精度如何我们希望知
道误差,于是就有考虑给出一个类似于置信区间的预测区间的想法。
定理 对于一元(正态)线性模型
???=++=),(独立同分布2210,,),,1(σεεεN n i bx a y i
i i ()有 (1) )?,?(b a 服从二
元正态分布。
(2) )2(~?)2()?,?(22
22
--=n x n b a Q σσ
σ
(3) 2??σb y
是相互独立的随机变量。 证明:略
又,我们知道y 0是,且与y 1,y 2,……,y n 相互独立,由定理及定理知,
.),.(~???0
N x b a y
+= 且,???0
00bx a b E x a E y E +=+=
2
200
200])(1[)?,?cov(2)?()?(?σxx
L x x n b a x b D x a D y D -+=++=
由于y 0与0?y
相互独立(0?y 只与y 1,……,y n 有关),且y 0~N(a+bx 0,σ2) ∴)])(11[,0(~?2
2000σxx
L x x n N y
y -++-
由定理知,00?y
y -与22?)2(σ
σ
-n 独立,故 T=)2(~])(11[??(202
)00--++-n t L x x n y
y xx
σ () 对于给定的置信水平1-α,查自由度为n-2的T 分布表可得满足 αα-=<1)(t T P 的临界值αt ta
根据不等式的恒等变形可得0y 的置信度为1-α的置信区间为:
)])(11[??],
)(11[??(2
02
02
02
0xx
xx
L x x n t y
L x x n t y
-+++-++-σσαα
这就是0y 的置信度为1-α的预测区间,它是以0?y
为中心,长度为)(2x t δα的区间,(记])(11[?)(2
02
xx
L x x n x -++=σδ),区间的中点0
0???x b a y +=随x 0而线性变化,它的长度在x x =0处最短,x 0越远离x ,预测区间的长度就越长。预则区间的上限与下限落在关于经验回归直线对称的两条曲线上,并是喇叭形。
当n 较大,L xx 充分大时, 1)(112
0≈-++xx L x x n
可得y 0的近似预测区间:)??,??(00σσααt y t y
+- () 上式说明预测区间的长度,即预测的精度主要由σ
?确定,因此在预测中,σ?是一个基本而重要的量。
2、控制问题
在实际应用中往往还需要考虑预测的反问题,即要以不小于1-α的概率将y 0控制在(y 1,y 2)内,也就是使
α-≥<<1)(201y y y P 相应的x 0应控制在什么范围内。这类问题称为控制问题。根据前一段的讨论,若x 0满足 ),())(?))(?(2100y y x t y x t y ?+-δδαα, () 则可有α-≥<<1)(201y y y P
因此控制问题一般是找满足的x 0的范围。但求解很麻烦。一种近似的处理法是:
由),(~200σbx a N y +
将a ,b ,σ2分别用其无偏估计2?,?,?σb a
代,
有),?,?()?,??(~20200σσy N x b a
N y =+近似
从而)1.0(~??00N y y 近似σ
- 根据ασ
α-=-1)??(00u y
y P 查N 分布表确定αu ,于是y 0的置信度1-α的预测区
间可近似认为是)??,??(00σσa a u y u y
+-要解决前述问题可以从满足: )??,??(00σσααu y
u y +-),(21y y ?的x 0去寻找x 0的控制范围。显然,当12?2y y u ->σ
α时,问题无解,否则方程组 ????
?++=-+=σσαα?''???
'??21u x b a
y u x b a y 有解x x ''', 由此得x 0的控制范围是(min(x x ''',),max(x x ''',))
三、线性相关的检验
前面的讨论都是在假定y 与x 呈现线性相关关系的前提下进行的,若这个假定不成立,则我们建立的经验回归直线方程也失去意义,为此必须对y 与x 之间的线性相关关系作检验,为解决这个问题,先作手:
1、偏差平方和分解
记∑=-=n
i i y y L 12)(,称它为总偏差平方和,它反映数据y i 的总波动,易得L 有
如下分解式:∑∑∑==?
=+=-+-=-+-=n i n i n
i i i i i i i U Qe y y y y y y y y L 1
1
1
22
2
)?()?()?(
其中)?,?(b a Q Q e =就是前面提到的残差平方和,∑=-=N I i y y U 1
2)?(称为回归平方和,上
式右边的交叉项:∑=--n
i i i i y y y y 1
)?)(?(2
∑=-++-=n
i i
i i y x b a x b a y 1
]??)][??([2 ∑=----=n
i i
i i x x b x x b y y 1
)](?)][(?)[(2 ])(?))(([?21
1
2∑∑==----=n i n
i i i
i x x b x x y y b 0)?(?2=-=xx
xy L b L b 由上可知,U 越大,Qe 就越小,x 与y 间线性关系就越显着;反之,x 与y 之间的线性关系越不显着。于是,自然地考虑到检验回归方程是否有显着意义是考察U/Q 的大小,其比值大,则L 中U 占的比重大,回归方程有显着意义,反之,无显着意义。
2、线性相关的F 检验
根据上段的思想来构造检验统计量,先看下面的定理。 定理 当H 0:b=0 成立时 U/σ2~2χ(1),且Q 与U 相互独立。
证:当H 0成立时,由及知,),0(~?2
xx
L N b
σ
∴
)1.0(~?N L b xx
σ
于是
)1(~?22
22
χσσxx
L b U
=
由定理,我们还知)2(~?)2(2222-=-n Q n e χσ
σσ,且Q 与b ?相互独立,从而Q 与U=xx
L b 2?独立,由上面的定理及F 分布的构造性定理知: )21(~??2/02
2-=-=,n F L b n Q u F H xx
真σ
() 因此可选它作检验H 0:b=0 的检验统计量,当H 0为真时F 的值不应太大,故对选定的水平
α>0,由P(α-≥1F F )=α查F(1,n-2)分布表确定临界值F 1-α分位数,当观测数据代入式算出的F 值合F ≥F 1-α时,不能接受H 0,认为建立的回归方程有显着意义。
检验H 0:经验公式无显着意义(α=
选用)221(~)2(0,F Q
U n F H 真
-=
由{}αα=>F F P 查表得F α=
现计算F 值 由L =L yy =
35.112266.152859.0?22=?== xx
L b U
Q=L-U =
得375.4416
.535
.11222=?=
F
因F >F α,所以拒绝H 0,认为所得的经验回归方程有显着意义。 四、相关与回归的区别与联系 1、联系
由前面的讨论,有:
222?r Lyy Lxx Lxx Lxy Lyy Lxx b L U =??? ??== 得回归平方和U=r 2L
残差平方和 )1()?,?(2r L b a
Q Q -== 可见r 2反映了回归平方和在总偏差平方和中占的比重,该比重越大,误差
平方和在总偏差平方和中占的份量就越小。通常称r 2为拟合优度系数。r 就是变
量x 与y 的积差相关系数,另方面由 2222)1)2(()1()2()2(r
n r L r L
r n Q U n F --=--=-=
看出,在检验y 与x 是否显着线性相关时,F 检验法与相关系数T 检验法等效。
2、区别
相关关系不表明因果关系,是双向对称的,在相关分析中,对所讨论的两个变量或多个变量是平等对待的,相关系数r 反映数据(x i ,y i )所描述的散点对直线的靠拢程度。
回归分析中,变量在研究中地位不同,要求因变量(响应变量)y 是随机变量,自变量一般是可控制的普通变量(当然也可以是随机的)。在回归方程中,回归系数只反映回归直线的陡度,且它不是双向对称的。
§9.1.3 一元非线性回归
前面讨论的线性回归问题,是在回归模型为线性这一基本假定下给出的,然而在实用中还经常碰到非线性回归的情形,这里我们只讨论可以化为线性回归的非线性回归问题,仅通过对某些常见的可化为线性回归问题的讨论来阐明解决这类问题的基本思想和方法。
一、曲线改直
例1 炼纲过程中用来盛钢水的钢包,由于受钢水的浸蚀作用,容积会不断扩大。下表给出了使用次数和容积增大量的15对试验数据:
解:首先要知道Y 关于x 的回归函数是什么类型,我们先作散点图。(见教材)
从图上看,开始浸蚀速度较快,然后逐渐减缓,变化趋势呈双曲线状。 因此可选取双曲线:(设y 与x 之间具有如下双曲线关系) x
b a y 1
1+= 作为回归函数的类型,即假设y 与x 满足: ε++=x
b a y 1
1 令y
x 1
,1==ηξ,则变成2,0,σξεεξη==++=D E b a . 这是一种非线性回归,先由x 、y 的数据取倒数,可得η,ξ的数据,,……,,对得到的15对新数据,用最小二乘法可得:
线性回归方程 0823.01312.0?+=ξη
后,代回原变量得 x
x x y 0823.01312.00823.011312.01+=+=
∴1312
.00823.0?+=x x
y
为y 关于x 的经验公式(回归方程)
在例1中,假设了y 与x 之间满足双曲线回归模型,显然这是一种主观判断,因此所求得的回归曲线不一定是最佳的拟合曲线。在实用中,往往是选用不同的几种曲线进行拟合,然后分别计算相应的残差平方和
σ?)?(2或∑-=i
i i e y
y Q (标准误差)进行比较Q e (或σ?)最小者为最优拟合。 二、常见可改直的曲线
下面简介一些可通过变量替换化为线性回归的曲线回归模型。
1、双曲线x b a y +=1 作变换x
x y y 1
',1'== 则回归函数化为:y’=a+bx’
2、幂函数y=ax b (或y=ax -b ) (b >0) 对幂函数两边取对数nx b na ny +=,作变换na a nx x ny y ===',',' 则有 x b a y ''±='
3、指数函数y=ae bx 或y=ae -bx (b >0)
两边取对数bx na y n ±= 令 bx y n ny y ±'='='='ααα有 , 4、倒指数函数x
b ae y -=或x
b ae y = (b >0,a >0)
两边取对数后作变换n y ='y, na a x
x ='=',1
,
则有 x b a y ''±'='
5、对数函数,y=a+b n x
作变换n x ='x,则有y=a+b x '.
另外还有一些可化为线性回归的曲线回归,将在用“spss ”作实习操作时一并介绍。
例1(续)由例1的散点图看出,除双曲线拟合外,本例还可选择倒指数拟合:
y=ae b/x
两边取对数得:na x b ny +?=1
令x
ny 1
',=='ξη ,变为如下的回归问题:
εξη++=''B A
利用最小二乘法求得:B
?=,A ?= 因此回归直线为: 4578.2'1107.1+-='ξη
代回原变量得:x e y
/1107.16489.11?-= 经计算双曲线拟合时 Q= σ
?=,倒指数拟合时σ?=,故倒指数拟合效果更好些。
§ 多元线性回归
实际应用中,很多情况要用到多元回归的方法才能更好地描述变量间的关系,因此有必要在本节对多元线性回归做一简单介绍,就方法的实质来说,处理多元的方法与处理一元的方法基本相同,只是多元线性回归的方法复杂些,计算量也大得多,一般都用计算机进行处理。
一、数学模型和回归方程的求法。 1、多元线性回归的模型。
设因变量y 与自变量x 1,x 2,……,x k 之间有关系式: )
,0(~ (2)
110σεε
N x b x b b y k k ++++= 抽样得n 组观测数据:(y 1;x 11,x 21,……,x k1)
(y 2;x 12,x 22,……x k2) …………………… (y n ;x 1n ,x 2n ,……x kn )
其中x ij 是自变量x i 的第j 个观测值,y j 是因变量y 的第j 个值,代入()得模型的数据结构式:
?????
??
??+++++=+++++=+++++=)
,N (x b x b x b b y x b x b x b b y x b x b x b b y n n
kn k n n n
k k k k 2
2122110222211210211212111010...,...............
......σεεεε
εε独立同分布 我们称或为k 元正态线性回归模型,其中b 0,b 1,……,b k 及σ2都是未知待估的参数,对k 元线性模型,需讨论的问题与一元时相同。
需要说明的几点见教材 2、未知参数的估计
与一元时一样,采用最小二乘法估计回归系数 b 0,b 1,……,b k . 称使
21
221101,0])...([?),...,(∑=++++-=n
t kt k t t t k x b x b x b b y b b b Q 达到最小的k b b b ?,...,?,?10为参数
(b 0,b 1,……,b k )的最小二乘估计,利用微积分知识,最小二乘估计就是如下方
程组的解:
?????
??
??+++-==+++=+++=+++k
k ky
k kk k k y k k y k k x b x b x b y b L
b l b l b l L b l b l b l L b l b l b l ............
(221)
02
2112222212111212111 其中 ),...,2,1(1,
111k i x n x y n y n
t it i n t t ===∑∑== ),...,2,1,()()(11
k j i L x x x x n L ji j jt n
t i it ij ==--=∑=
),...,2,1()(,)(11
k i y y x x n L t n
t i it iy =--=∑=
通常称方程组为正规方程组,其中前k 个方程的系数矩阵记为,)(*k k ij l L ?=当L *
可逆时,正规方程组有解,便可得b 0,b 1,……b k 的最小二乘估计 k b b b ?,,?,?10 即k k y k y k x b x b y b L L L b b ---=????
??
??=?
????
? ??-...??,*)(??11
0111 代入模型,略去随机项得经验回归方程为:
k
k x b x b b y
?...???1
10
+++= 类似一元可以证明 i
b ?都是相应的b i (i=0,1,……,k )的无偏估计,且σ2’的无偏估计为:
1
)?,...,?,?(?102--=k n b b b Q k
σ·
二、回归方程的显着性检验
与一元的情形一样,上面的讨论是在y 与x 1,……,x k 之间呈现线性相关的前提下进行的,所求的经验方程是否有显着意义,还需对y 与诸x i 间是否存
在线性相关关系作显着性假设检验,与一元类似,对k
k x b x b b y
?...???1
10
+++=是否有显着意义,可通过检验H 0:b 1=b 2=…=b k =0
为了找检验H 0的检验统计量,也需将总偏差平方和L yy 作分解:
U
Q y y y y y y y
y y y L e t
t t
t t n
t t t t t n t t +=-+-=-+-=-=∑∑∑∑== 2221
2
1
)?()?()??()(
即L =U+Q e 其中L =L yy ,2
2
)?(,)?(∑∑-=-=t
t t e t
t y
y Q y y U 这里kt
k t t x b x b b y ?...???110+++=. 分别称Q e ,U 为残差平方和、回归平方和,可以证明:
∑=?
=+++=k
j jy j ky k y y l b l b l b l b U 12211??...??
利用柯赫伦定理可以证明:在H 0成立下,
)1(~)(~2222
--k n ,k U
e
χσ
χσQ 且U 与
Q e 相互独立,所以有
)1,(~)
1/(/0----=k n k F k n k
U F H 真
Q
(这里记 Q e 为Q,下同)
取F 作H 0的检验计量,对给定的水平α,查F(k, n-k-1)分布表可得满足
αα=≥)(F F p 的临介值αF ,由样本观测值代入算出统计量F 的观测值,若F ≥
αF ,则不能接受H 0,认为所建的回归方程有显着意义。
通过F 检验得到回归方程有显着意义,只能说明y 与x 1,x 2,……,x k 之间存在显着的线性相关关系,衡量经验回归方程与观测值之间拟合好坏的常用统计量有复相关系数R 及拟合优度系数R 2。仿一元线性回归的情况,定义:
L
Q
L U R -==12
L
Q
R -=1|| 可以证明R 就是观测值
y 1,……,y n 与回归值的n y y y
?,...,?,?21的相关系数。 实用中,为消除自由度的影响,又定义:
)
1/()1/(12---==n L k n Q R
为修正的似合优度系数。
三、偏回归平方和与因素主次的判别
本段内容是多元回归与一元回归有本质差异的部分。
前一节所作的检验H 0:b 1=b 2=……=b k =0被拒绝,并不能说明所有的自变量都对因变量y 有显着影响,我们希望从回归方程中剔除那些可有可无的自变量,重新建立更为简单的线性回归方程,这就需要对每个自变量x j 做显着性检验。于是考虑H 0j :b j =0的检验方法。从原有的k 个自变量中剔除x j ,余下的k-1个自变量对y 的线性影响也可由相应的偏差平方和分解式中的回归平方和U (j)反映出来,即)()()(j j j Q U L +=
记 )()(j j U U U +=?
则△U (j)反映了变量x j 在回归方程中对y 的线性影响,常称它为x j 的偏回归平方和,
可以证明 jj j c b
U j 2)(?=?
其中C jj 是矩阵 L *=(L ij )p ×p 的逆矩阵对角线上的第j 个元素,对于H 0j :b j =0
选用统计量 )1,1(~1/??022)(----=?=k n F k n Q C b U F j H e jj
j j j 真
σ
对给定的水平α,由αα=≥)(F F P j ,查F(1,n-k-1)分布表确定临介值αF ,将观测值代入算出的F j 值与αF 比较,若F j ≥αF 则拒绝H 0,认为x j 对y 的线性影响显着,否则不显着,应剔除。
但在实用中,多元回归中剔除变量的问题比上例我们做的讨论要复杂得多,因为有些变量单个讨论时,对因变量的作用很小,但它与某些自变量联合起来,共同对因变量的作用却很大,因此在剔除变量时,还应考虑变量交互作用对y 的影响,对这一问题的深入讨论太花时间,有兴趣的同志可参见有关“多元统计分析”教材。此外,关于多元性回归的预测和控制问题,类似一元不再赘述。