线性回归建模过程

线性回归建模过程
线性回归建模过程

模型的建立:

多元线性回归分析的模型为

1012,

~(0,),

m m y N x x εβββεσ=++++??? (3-1)

其中:210,,,,σβββm 都是与x x x m ,,,21 无关的未知参数,βββm ,,,10 称为回归系数。

现得到n 个独立观测数据[]a a b im i i ,,,1 ,其中b i 为y 的观测值, a a im i ,,1 分别为x x x m ,,,21 的观测值,m n n i >=,,,1 ,由式(1)得

1012

,

~(0,),1,,.

i im i m i y a a N i n εβββεσ=++++??=? (3-2) 记

,,1111111??????????=????

??????=n nm m n b b Y a a a a X (3-3) [],,,,,],,[101T m T n ββββεεε ==

式(6)表为

???+=),

,0(~,

2

n E N X Y σεεβ (3-4) 其中:n E 为n 阶单位矩阵。 1. 参数估计

模型(1)中的参数βββm ,,,10 用最小二乘法估计,即应选取估计值j

β?,使当m j j

j ,,1,0,? ==ββ时,误差平方和 ()2

2

210

11

1

1

?()n

n

n

i im i i i

i

m i i i Q b b b a a εβ

ββ=====-=----∑∑∑ (3-5)

达到最小。为此,令

0,0,1,2,,,j

Q

j n β?==?

10110

10112()0,

2()0,1,2,

,.

n

i im i m i n i im i ij m i j

Q

b a a Q b a j m a a ββββββββ==??=----

-=??????=-----==???∑∑ (3-6)

经整理化为以下正规方程组:

011221111

2

01112121111111

2

011221

1111,,

,

n n n n i i m im i i i i i n n n n n

i i i i m i im i i i i i i i n n n n n

im im i im i m im im i i i i i i n a a a b a a a a a a a b a a a a a a a b ββββββββββββ==============?

++++=?

?

?+++=????

?+++=??∑∑∑∑∑∑∑∑∑∑∑∑∑

∑ (3-7)

正规方程组的矩阵形式为

,T T X X X Y β= (3-8)

当矩阵X 列满秩时, T X 为可逆方阵,式 的解为

()1

?T T X X X Y β

-= (3-9) 将?β

代回原模型得到y 的估计值,而这组数据的拟合值为 101

????,1,,.i im i m

b i n a a βββ=---= (3-10)

记1????,

,,T

Y X b b β??==??

拟合误差?e Y Y =-称为残差,可作为随机误差ε的估计,残差平方和为

()

2

21

1

? 12.587n n

i i i

i i Q e b b ====-=∑∑

2.统计分析

不加证明地给出以下结果:

(1)β∧

是β的线性无偏最小方差估计。指的是β∧

是Y 的线性函数;β∧

的期望等于β,在β的线性无偏估计中,β∧

的方差最小。 (2)β∧

服从正态分布

21(,())T N X X β

βσ∧

- (3-11)

记1()()T ij n n X X c -?=

(3)对残差平方和Q ,2(1)EQ n m σ=--,且

22

(1)Q

n m χσ

-- (3-12)

由此得到2σ的无偏估计

221

Q

s n m σ=

=-- (3-13)

2s 是剩余方差(残差的方差),s 称为剩余标准差。

(4)对总平方和2

1

()n

i i SST y y -

==-∑进行分解,有

SST Q U =+,2

1

()n

i i U y y ∧-

==-∑ (3-14)

其中Q 残差平方和,反映随机误差对y 的影响,U 称为回归平方和,反映自变量对y 的影响。上面的分解中利用了正规方程组。 回归模型的检验,因变量y 与自变量1,,m x x 之间是否存在线性关系是需要检验的,

显然,如果所有的(1,)j j m β∧

=都很小,y 与1,

,m x x 的线性关系就不明显,所以

可令原假设为

0:0(1,

)j H j m β==

当0H 成立时由分解式(34)定义的,U Q 满足

/(,1)/(1)

U m F F m n m Q n m =

---- (3-15)

在显著性水平α下有上α分位数(,1)F m n m α--,若(,1)F F m n m α<--,接受0H ;否则,拒接。

注意 接受0H 只能说明y 与自变量1,,m x x 的线性关系不明显,可能存在非线

性关系,如平方关系。

还有一些衡量y 与自变量1,,m x x 相关程度的指标,如用回归平方和在总平方中

的比值定义复判定系数

2U

R SST

=

(3-16) R =R 越大,y 与自变量1,

,m x x 相关关系越密切,通常,R

大于0.8(或大于0.9)才认为相关关系成立。

回归系数的假设检验和区间估计

当上面的0H 被拒绝时,j β不全为零,但是不排除其中若干个等于零。所以应进行一步作如下1m +个检验(0,1,

)j m =:

0:0j j H β=

2(,)j

j jj N c ββσ∧

,jj c 是1()T X X -中的第(,)j j 元素,用2s 代替2σ,由(3-11)-(3-

13)式,当0j H 成立时

(1)j t t n m =

-- (3-17)

对给定的α,若2

(1)j t t n m α<--,接受0j H ;否则,拒绝。

(3-17)式也可以用于对j β作区间估计(0,1,)j m =,在置信水平1α-下,j β的置

信区间为

2

2

[(1)(1)j j t n m t n m ααββ∧∧

---+-- (3-18)

其中s =

3.利用回归模型进行预测

当回归模型和系数通过检验后,可由给定的0010(,)m x x x =预测0y ,0y 是随机

的,显然其预测值(点估计)为

001010m m y x x βββ∧∧

=++

+ (3-19)

给定α可以算出0y 的预测区间(区间估计),结果较复杂,但当n 较大时且0i x 接近平均值i x -时,0y ∧

的预测区间可简化为

002

2

[,]y z s y z s αα∧

-- (3-20)

其中2

z α是标准正态分布的上

2

α

分位数。 对0y 的区间估计方法可用于给出已知数据残差(1,...)i i i e y y i n ∧

=-=的置信区间,i e 服从均值为零的正态分布,所以若某个i e 的置信区间不包括零点,则认为这个数据是异常的,可予以剔除。

相关主题
相关文档
最新文档