多元线性回归模型公式
二、多元线性回归模型 在多要素的地理环境系统中,多个(多于两个)要素之间也存在着相互影响、相互关联的情 况。因此,多元地理回归模型更带有普遍性的意义。 (一)多元线性回归模型的建立
假设某一因变量y 受k 个自变量x 1, x 2,..., x k 的影响,其n 组观测值为( y a , x 1a , x 2a ,..., x ka ),
a =1,2,...,n 。那么,多元线性回归模型的结构形式为:
y a =
+
1x 1a
+
2x 2a
+...+
k x ka
+
a (3.2.11)
式中:
0,
1
,...,
k 为待定参数;
a 为随机变量。
如果b 0,b 1,...,b k 分别为
,
1
,
2
...,
k 的拟合值,则回归方程为
?=b +b x +b x +...+b x (3.2.12)
式中:
b 0 为常数;
b 1,b 2,...,b k 称为偏回归系数。
偏回归系数b i (i =1,2,...,k )的意义是,当其他自变量x j ( j i )都固定时,自变量x i 每 变
化一个单位而使因变量 y 平均改变的数值。 根据最小二乘法原理,
i (
i = 0,1,2,..., k )的估计值b i ( i = 0,1,2,..., k )应该使
n
2 n 2
Q =
y a -y a
=
y a - (b 0 + b 1x 1a +b 2x 2a + ... + b k x ka )
→ min
(3.2.13) a = 1
a =1
有求极值的必要条件得
将方程组(3.2.14)式展开整理后得:
Q b 0 =
Q b =
3.2.14)
y a - y a x ja = 0( j =1,2,..., k )
y a - y a
=0
n n n n
nb 0+(
x 1a )b 1+(x 2a )b 2+...+(
x ka )b k =
y a
a =1
a =1
a =1
a =1
n n n n n
(
x 1a )b 0+(
x 12a )b 1+(
x 1a x 2a )b 2+...+(
x 1a x ka )b k =
x 1a y a
a =1 a =1
a =1
a =1
a =1
n n n n n
(x 2a )b 0+(x 1a x 2a )b 1+(
x 22
a )
b 2+...+(
x 2a x ka )b k
=
x 2a y a a =1 a =1
a =1
a =1
a =1
则正规方程组(3.2.15)式可以进一步写成矩阵形式
3.2.15)
n n n n
(
x ka )b 0 + ( x 1a x ka )b 1 + ( x 2a x ka )b 2
+...+(
x k 2a )b k a =1
a =1
a =1
a =1
n
=
x ka
y a a =1
方程组(3.2.15)式,被称为正规方程组。 如果引入一下向量和矩阵:
b 0
b 1 b
2
b =
,Y
y 1
y ,X = 1
x 11 x 12 x
13
x 21 x 22 x
23
x
k 1 x
k 2
x k 3
b
k
1
y n
1 x
1n
x
2n 1
1
A =X T X =
x
11 x
21
x 12 x
22
x
13
x
23
... x 1n
(x)
2 n
x 11 x 12 x
13
x 21 x 22 x
23
x
k 1 x
k 2 x
k 3
x
k 1
n
x
k 2
x
1n
x
2n
n
x
1a a =
1 n
x
2 a a =
1
n x
1 a a =
1
n
x 12a
a =1 n
x
1a x 2a a = 1
n x ka
a =1
n x
1a x
ka
a =1
B =X T Y =
x
11 x
21
x 12 x
22
x
k 2
n n
x
13 x
23
Ab = B (3.2.15')
求解(3.2.15')式可得:
b= A-1B=(X T X)-1X T Y (3.2.16)
如果引入记号:
n
L ij = L ji =(x ia-x i)(x ja -x j)(i, j = 1,2,..., k )
a=1 n
L iy =(x ia-x i)(y a -y)(i=1,2,...,k) a=1
则正规方程组也可以写成:
L11b1 + L12b2 + ... + L1k b k= L1y
L21b1 + L22b2 + ...+ L2k b k= L2y
.................... (3.2.15'')
L k1b1+L k2b2+...+L kk b k =L ky
b0 = y-b1x1-b2x2 -...-b k x k
(二)多元线性回归模型的显著性检验与一元线性回归模型一样,当多元线性回归模型建立以后,也需要进行显著性检验。与前面的一元线性回归分析一样,因变量y的观测值y1, y2,..., y n 之间的波动或差异,是由两个因
素引起的,一是由于自变量x1, x2,..., x k的取之不同,另一是受其他随机因素的影响而引起的。为了从y的离差平方和中把它们区分开来,就需要对回归模型进行方差分析,也就是将y的离差平方和S T或(L yy)分解成两个部分,即回归平方和U与剩余平方和Q:
S T = L yy =U + Q
在多元线性回归分析中,回归平方和表示的是所有k 个自变量对y的变差的总影响,它可以按公式
n 2 k
U =(y a- y) =b i L iy
a=1 i =1
计算,而剩余平方和为
n
2
Q = (y a - y a ) = L yy -U
a=1
以上几个公式与一元线性回归分析中的有关公式完全相似。它们所代表的意义也相似,即回归平方和越大,则剩余平方和Q 就越小,回归模型的效果就越好。不过,在多元线性回归分析中,各平方和的自由度略有不同,回归平方和U 的自由度等于自变量的个数k,而剩余平方和的自由度等于n-k -1,所以 F 统计量为:
U/k
F=
Q/(n-k -1)
当统计量F 计算出来之后,就可以查 F 分布表对模型进行显著性检验。