您的位置：360文档中心› 线性回归建模过程

线性回归建模过程

线性回归建模过程

线性回归建模过程

模型的建立：

多元线性回归分析的模型为

1012,

~(0,),

m m y N x x εβββεσ=++++??? （3-1）

其中：210,,,,σβββm 都是与x x x m ,,,21 无关的未知参数，βββm ,,,10 称为回归系数。

现得到n 个独立观测数据[]a a b im i i ,,,1 ，其中b i 为y 的观测值， a a im i ,,1 分别为x x x m ,,,21 的观测值，m n n i >=,,,1 ，由式（1）得

1012

,

~(0,),1,,.

i im i m i y a a N i n εβββεσ=++++??=? （3-2）记

,,1111111??????????=????

??????=n nm m n b b Y a a a a X （3-3） [],,,,,],,[101T m T n ββββεεε ==

式（6）表为

???+=),

,0(~,

2

n E N X Y σεεβ （3-4）其中：n E 为n 阶单位矩阵。 1. 参数估计

模型（1）中的参数βββm ,,,10 用最小二乘法估计，即应选取估计值j

β?，使当m j j

j ,,1,0,? ==ββ时，误差平方和 ()2

2

210

11

1

1

?()n

n

n

i im i i i

i

m i i i Q b b b a a εβ

ββ=====-=----∑∑∑ (3-5)

达到最小。为此，令

0,0,1,2,,,j

Q

j n β?==?

得

10110

10112()0,

2()0,1,2,

,.

n

i im i m i n i im i ij m i j

Q

b a a Q b a j m a a ββββββββ==??=----

-=??????=-----==???∑∑ (3-6)

经整理化为以下正规方程组：

011221111

2

01112121111111

2

011221

1111,,

,

n n n n i i m im i i i i i n n n n n

i i i i m i im i i i i i i i n n n n n

im im i im i m im im i i i i i i n a a a b a a a a a a a b a a a a a a a b ββββββββββββ==============?

++++=?

?

?+++=????

?+++=??∑∑∑∑∑∑∑∑∑∑∑∑∑

∑ (3-7)

正规方程组的矩阵形式为

,T T X X X Y β= (3-8)

当矩阵X 列满秩时, T X 为可逆方阵，式的解为

()1

?T T X X X Y β

-= (3-9) 将?β

代回原模型得到y 的估计值，而这组数据的拟合值为 101

????,1,,.i im i m

b i n a a βββ=---= (3-10)

记1????,

,,T

Y X b b β??==??

拟合误差?e Y Y =-称为残差，可作为随机误差ε的估计，残差平方和为

()

2

21

1

? 12.587n n

i i i

i i Q e b b ====-=∑∑

2.统计分析

不加证明地给出以下结果：

（1）β∧

是β的线性无偏最小方差估计。指的是β∧

是Y 的线性函数；β∧

的期望等于β，在β的线性无偏估计中，β∧

的方差最小。（2）β∧

服从正态分布

21(,())T N X X β

βσ∧

- (3-11)

记1()()T ij n n X X c -?=

（3）对残差平方和Q ,2(1)EQ n m σ=--，且

22

(1)Q

n m χσ

-- (3-12)

由此得到2σ的无偏估计

221

Q

s n m σ=

=-- (3-13)

2s 是剩余方差（残差的方差），s 称为剩余标准差。

（4）对总平方和2

1

()n

i i SST y y -

==-∑进行分解，有

SST Q U =+,2

1

()n

i i U y y ∧-

==-∑ (3-14)

其中Q 残差平方和，反映随机误差对y 的影响，U 称为回归平方和，反映自变量对y 的影响。上面的分解中利用了正规方程组。回归模型的检验，因变量y 与自变量1,,m x x 之间是否存在线性关系是需要检验的，

显然，如果所有的(1,)j j m β∧

=都很小，y 与1,

,m x x 的线性关系就不明显，所以

可令原假设为

0:0(1,

)j H j m β==

当0H 成立时由分解式(34)定义的,U Q 满足

/(,1)/(1)

U m F F m n m Q n m =

---- (3-15)

在显著性水平α下有上α分位数(,1)F m n m α--，若(,1)F F m n m α<--,接受0H ；否则，拒接。

注意接受0H 只能说明y 与自变量1,,m x x 的线性关系不明显，可能存在非线

性关系，如平方关系。

还有一些衡量y 与自变量1,,m x x 相关程度的指标，如用回归平方和在总平方中

的比值定义复判定系数

2U

R SST

=

(3-16) R =R 越大，y 与自变量1,

,m x x 相关关系越密切，通常，R

大于0.8（或大于0.9）才认为相关关系成立。

回归系数的假设检验和区间估计

当上面的0H 被拒绝时，j β不全为零，但是不排除其中若干个等于零。所以应进行一步作如下1m +个检验(0,1,

)j m =：

0:0j j H β=

2(,)j

j jj N c ββσ∧

,jj c 是1()T X X -中的第(,)j j 元素，用2s 代替2σ，由（3-11）-（3-

13）式,当0j H 成立时

(1)j t t n m =

-- (3-17)

对给定的α，若2

(1)j t t n m α<--，接受0j H ；否则，拒绝。

（3-17）式也可以用于对j β作区间估计(0,1,)j m =，在置信水平1α-下，j β的置

信区间为

2

2

[(1)(1)j j t n m t n m ααββ∧∧

---+-- (3-18)

其中s =

3.利用回归模型进行预测

当回归模型和系数通过检验后，可由给定的0010(,)m x x x =预测0y ，0y 是随机

的，显然其预测值（点估计）为

001010m m y x x βββ∧∧

∧

=++

+ (3-19)

给定α可以算出0y 的预测区间（区间估计），结果较复杂，但当n 较大时且0i x 接近平均值i x -时，0y ∧

的预测区间可简化为

002

2

[,]y z s y z s αα∧

∧

-- (3-20)

其中2

z α是标准正态分布的上

2

α

分位数。对0y 的区间估计方法可用于给出已知数据残差(1,...)i i i e y y i n ∧

=-=的置信区间，i e 服从均值为零的正态分布，所以若某个i e 的置信区间不包括零点，则认为这个数据是异常的，可予以剔除。

相关主题

相关文档

最新文档