线性回归建模过程
模型的建立:
多元线性回归分析的模型为
1012,
~(0,),
m m y N x x εβββεσ=++++??? (3-1)
其中:210,,,,σβββm 都是与x x x m ,,,21 无关的未知参数,βββm ,,,10 称为回归系数。
现得到n 个独立观测数据[]a a b im i i ,,,1 ,其中b i 为y 的观测值, a a im i ,,1 分别为x x x m ,,,21 的观测值,m n n i >=,,,1 ,由式(1)得
1012
,
~(0,),1,,.
i im i m i y a a N i n εβββεσ=++++??=? (3-2) 记
,,1111111??????????=????
??????=n nm m n b b Y a a a a X (3-3) [],,,,,],,[101T m T n ββββεεε ==
式(6)表为
???+=),
,0(~,
2
n E N X Y σεεβ (3-4) 其中:n E 为n 阶单位矩阵。 1. 参数估计
模型(1)中的参数βββm ,,,10 用最小二乘法估计,即应选取估计值j
β?,使当m j j
j ,,1,0,? ==ββ时,误差平方和 ()2
2
210
11
1
1
?()n
n
n
i im i i i
i
m i i i Q b b b a a εβ
ββ=====-=----∑∑∑ (3-5)
达到最小。为此,令
0,0,1,2,,,j
Q
j n β?==?
得
10110
10112()0,
2()0,1,2,
,.
n
i im i m i n i im i ij m i j
Q
b a a Q b a j m a a ββββββββ==??=----
-=??????=-----==???∑∑ (3-6)
经整理化为以下正规方程组:
011221111
2
01112121111111
2
011221
1111,,
,
n n n n i i m im i i i i i n n n n n
i i i i m i im i i i i i i i n n n n n
im im i im i m im im i i i i i i n a a a b a a a a a a a b a a a a a a a b ββββββββββββ==============?
++++=?
?
?+++=????
?+++=??∑∑∑∑∑∑∑∑∑∑∑∑∑
∑ (3-7)
正规方程组的矩阵形式为
,T T X X X Y β= (3-8)
当矩阵X 列满秩时, T X 为可逆方阵,式 的解为
()1
?T T X X X Y β
-= (3-9) 将?β
代回原模型得到y 的估计值,而这组数据的拟合值为 101
????,1,,.i im i m
b i n a a βββ=---= (3-10)
记1????,
,,T
Y X b b β??==??
拟合误差?e Y Y =-称为残差,可作为随机误差ε的估计,残差平方和为
()
2
21
1
? 12.587n n
i i i
i i Q e b b ====-=∑∑
2.统计分析
不加证明地给出以下结果:
(1)β∧
是β的线性无偏最小方差估计。指的是β∧
是Y 的线性函数;β∧
的期望等于β,在β的线性无偏估计中,β∧
的方差最小。 (2)β∧
服从正态分布
21(,())T N X X β
βσ∧
- (3-11)
记1()()T ij n n X X c -?=
(3)对残差平方和Q ,2(1)EQ n m σ=--,且
22
(1)Q
n m χσ
-- (3-12)
由此得到2σ的无偏估计
221
Q
s n m σ=
=-- (3-13)
2s 是剩余方差(残差的方差),s 称为剩余标准差。
(4)对总平方和2
1
()n
i i SST y y -
==-∑进行分解,有
SST Q U =+,2
1
()n
i i U y y ∧-
==-∑ (3-14)
其中Q 残差平方和,反映随机误差对y 的影响,U 称为回归平方和,反映自变量对y 的影响。上面的分解中利用了正规方程组。 回归模型的检验,因变量y 与自变量1,,m x x 之间是否存在线性关系是需要检验的,
显然,如果所有的(1,)j j m β∧
=都很小,y 与1,
,m x x 的线性关系就不明显,所以
可令原假设为
0:0(1,
)j H j m β==
当0H 成立时由分解式(34)定义的,U Q 满足
/(,1)/(1)
U m F F m n m Q n m =
---- (3-15)
在显著性水平α下有上α分位数(,1)F m n m α--,若(,1)F F m n m α<--,接受0H ;否则,拒接。
注意 接受0H 只能说明y 与自变量1,,m x x 的线性关系不明显,可能存在非线
性关系,如平方关系。
还有一些衡量y 与自变量1,,m x x 相关程度的指标,如用回归平方和在总平方中
的比值定义复判定系数
2U
R SST
=
(3-16) R =R 越大,y 与自变量1,
,m x x 相关关系越密切,通常,R
大于0.8(或大于0.9)才认为相关关系成立。
回归系数的假设检验和区间估计
当上面的0H 被拒绝时,j β不全为零,但是不排除其中若干个等于零。所以应进行一步作如下1m +个检验(0,1,
)j m =:
0:0j j H β=
2(,)j
j jj N c ββσ∧
,jj c 是1()T X X -中的第(,)j j 元素,用2s 代替2σ,由(3-11)-(3-
13)式,当0j H 成立时
(1)j t t n m =
-- (3-17)
对给定的α,若2
(1)j t t n m α<--,接受0j H ;否则,拒绝。
(3-17)式也可以用于对j β作区间估计(0,1,)j m =,在置信水平1α-下,j β的置
信区间为
2
2
[(1)(1)j j t n m t n m ααββ∧∧
---+-- (3-18)
其中s =
3.利用回归模型进行预测
当回归模型和系数通过检验后,可由给定的0010(,)m x x x =预测0y ,0y 是随机
的,显然其预测值(点估计)为
001010m m y x x βββ∧∧
∧
=++
+ (3-19)
给定α可以算出0y 的预测区间(区间估计),结果较复杂,但当n 较大时且0i x 接近平均值i x -时,0y ∧
的预测区间可简化为
002
2
[,]y z s y z s αα∧
∧
-- (3-20)
其中2
z α是标准正态分布的上
2
α
分位数。 对0y 的区间估计方法可用于给出已知数据残差(1,...)i i i e y y i n ∧
=-=的置信区间,i e 服从均值为零的正态分布,所以若某个i e 的置信区间不包括零点,则认为这个数据是异常的,可予以剔除。