15 多元线性回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
7
推导得正规方程组: nb0+b1x1+b2 x2++bm xm= y b0x1+b1 x12+ b2 x1 x2 +bm x1 xm= x1y b0x2+b1 x2 x1 + b2 x22 +bm x2 xm= x2y …
b0xm+b1 xm x1+ b2 xm x2 +bm xm2= xmy m+1
1代表汉族 X2 0少数民族
1代表男性 X1 0代表女性
再如职业。
31
违背回归模型基本假设的情形
多重共线性(multicollinearity) 异方差性(variance heterogeneity) 自相关(auto-correlation)
32
多重共线性(multicollinearity)
MS回 R /m F 2 (1 R ) / (n m 1) MS剩
16
2
(四) 偏回归系数的假设检验 1. 目的 了解各偏回归系数对 Y 作用的大小, 剔除不重要的自变量,使方程“最优”。 2. 思路 对 b j 作假设检验(方差分析法或 t 检验法),无统计学意义者不能保留 在方程里,重建回归方程,直到最新方 程中所有自变量均有统计学意义而方程 外所有自变量均无统计意义止。
Var(ei ) 2
6
(二) 参数估计 1. 依最小二乘法原理,令
ˆ) Q e ( y y
2 i
2
2
[ y (b0 b1x1 b2 x2 bm xm )]
min
2. 求偏导数得正规方程组
Q Q Q 0, 0, , 0 b0 b1 bm
在其他自变量固定不变的情况下,自变量 Xj 每改变一个单位,单独引起因变量Y平均改 变 j 个单位。
由样本计算的回归方程:
ˆ b0 b1x1 b2 x2 bm xm y
4
2. 特点 多元线性回归较简单线性回归的 2 ˆ ) ,回归方程估计精度,预 ( y y 报、控制效果。
n m1
i
y 的标准差: S yi S y12m
1 1 Xg A Xg
SSe 1 A Xg) (1 X g n m 1
——样品 i 各自变量的行向量, Xg X g ——样品 i 各自变量的列向量。
30
哑变量(dummy variable)
分类变量的数量化
18
t 检验法 bj 方法一 : tb j Sb j 方法二:
,
=n-m-1
Sb j 为偏回归系数估计值 b 的标准误。 j
tb j
| bj j |
SSe /(n m 1) C jj
| bj | S y12m C jj
S y ·12m——多元回归的误差(剩余)标准差
13
(三) 回归方程的假设检验及回归效果粗评
1. 方差分析-检验回归方程有无统计学意义 H 0 : 1 = 2 = = m = 0, H 1 : 至少有一个 j 0 , 或各 j ( j = 1 , 2, , m)不全为0 ; = 0.05;
MS回 SS回 / 回 SS回 / m F MS剩 SS剩 / 剩 SS剩 / (n m 1)
y ˆ
i
ˆi t , n m1 S y y ˆi
ˆi 的标准误: y
Sy ˆi S y12m
1 XgA Xg
SS剩 1 A Xg Xg n m 1
29
描述 y 的变异度 给定 x i 后,y i 的容许区间 确定参考值范围 质量控制 y i 的 1- 的容许区间:y ˆ t , Sy
对于多元线性回归模型要求各自变量之 间不存在明显的线性相关,否则,将使 回归系数的估计发生困难,导致最小二 乘法失效。
33Hale Waihona Puke Baidu
以下问题的发生,在排除了数据质量、样本的 代表性有问题等因素后,应该考虑是由于自变 量之间的线性关系造成的,称为多重共线性。
1) 在某个检验水平α下,回归方程的统计检验P<α,而 分别各偏回归系数的检验均出现P>α的矛盾现象; 2) 偏回归系数的估计值明显地与实际情况不符,如偏回 归系数的符号与专业知识知道的情况相反,或者是偏回 归系数的绝对值大(或小)得不可信; 3) 根据专业知识,该自变量与因变量之间关系密切,而 偏回归系数的检验结果却P>α; 4) 增加(或剔除)一个变量,或者改变(或删除)一个 观察值,引起偏回归系数的估计值发生大的变化。
8
4. 求偏回归系数
方法:矩阵法 正规方程组的矩阵表达, 令:
1 x11 x1m 1 x x 21 2m X 1 xn1 xnm
y1 y 2 Y yn
xij
——原始数据。
9
系数矩阵
n x1 A x2 xm
5
3. 前提条件(LINE)
线性(linear) 应变量 与自变量的关系是线性的 。 独立性(independence) 随机误差项在不同样本点之间是独立的,无 (i j; i, j 1,, n) 自相关性。 Cov(ei , e j ) 0, 正态性(normality) 随机误差项服从正态分布; ei N 0, 方差齐性(equal variance) 随机误差项在不同的样本点的方差相同 。
17
3. 对各偏回归系数bj作假设检验的方法
SS回x / 1
j
H 0 : j = 0,H 1 : j 0, = 0.05 方差分析法
Fx j
SS剩 / (n m 1)
偏回归平方和 SSx j 是指将 x j 从回归 方程里剔除后所引起回归平方和的减少 量,它间接反映自变量 x j 对因变量的贡 献大小。
14
SS总 ( y y )2 y2 ( y)2 / n
2 ˆ SS回 ( y y ) bjl jy
SS剩 SS总 SS回
剩 总 回 (n 1) m n m 1
若 F F ( m , n-m-1 ),P ,拒绝 H 0,则 总的来说,X 与 Y 间存在线性回归关系。需由偏 回归系数的假设检验才能确定究竟是哪一个或哪几 15 个 自变量与 Y 间存在线性回归关系。
C j j —— A – 1 主对角线上的元素。
19
P315 例15-1 求得回归方程为:
ˆ =5.9433+0.1424X +0.3515X -0.2706X +0.6382X Y 1 2 3 4
回归方程检验:P<0.01 R2=0.6008 偏回归系数检验: 只有X3、X4有统计学意义。
20
4.自变量的筛选的方法 (1) 后退法 ( backward selection ) 建立含全部自变量的回归方程,剔除 方程中偏回归平方和最小且无统计学 意义的自变量; 重建回归方程,再剔除方程中偏回归 平方和最小且无统计学意义的自变量; 重复~ ,直到无自变量被剔除为 止。 此法计算量大。
1 x 11 x12 x1m
1 x21 x22 x2 m
1 x31 x32 x3m
1 xn 1 xn 2 xnm
y1 y 2 y3 yn
11
正规方程组的矩阵表达形式:
x x x x x x x x
1 2 1 2 2 1
1 2 2 2
x x x x x
m
x
m 1
x
x
m 2
x
1 m 2 m XX 2 x m
10
常数项矩阵
C
y x1 y x2 y xm
X Y y
23
5. 回归方程回归效果的评价 (自变量筛选评判标准) 确定系数:R2 校正确定系数: R2c = 1- ( 1 – R 2 ) ( n – 1 ) / ( n – m – 1 ) 剩余标准差:SY,12…m
AIC, Cp统计量等。
24
6. 评价各自变量对因变量相对贡献的大小
对已进入回归方程的自变量,因其各自的单位不 同,不能直接进行比较,需用标准偏回归系数 b'j regression coefficient) 来比较。 ( standardized partial 方法一
X XB X Y
方程回归系数(正规方程组的解):
B (X X) X Y 1 A X Y 1 A C
1
1
X 为 X 的转置矩阵,A 为 A 的逆矩阵。
12
b0 b 1 1 1 B b2 A C ( X ' X ) X ' Y b m
多元线性回归
multiple linear regression
stat9@126.com
1
复习:
一元回归:分析一个应变量与一个自变量之 间的线性关系。
其数学模型:Y=α+X + ˆ 由样本计算的回归方程: Y=a+bX
2
一、多元线性回归 (一) 概述 1. 模型 数学模型: Y=0+1X1+2X2++mXm + 即多个自变量与因变量间存在线性关系。
bj b j ( S j / S y ) b j l jj / l yy
25
方法二 将原始数据作标准正态变换后,再 ' 用变换后的变量作回归方程,得到 bj 。 标准正态变换: ' X j X j xj / S j
7. 建立 b'j 的回归方程
' j
b 愈大,X j 对 Y 的影响亦愈大。
27
(六) 多元线性回归方程的应用 1. 描述 Y 与 X i 的线性关系。 2. 表达 X i 对 Y 作用的大小,分析影响因素。 ˆi ) ˆ 预报。 3. y (已知 xi 求 y 4. 统计控制 5. 参数 y ˆi 的估计 6. y i 容许区间的估计
28
参数 y ˆi 的估计(难点) ˆi 的总体参数 给定 xi 时,相应 y 的可信区间为:
2. 粗评回归效果——确定系数 R 2 (coefficient of determination) R2 = SS回 / SS总 R 2意义:在Y的总变异中,由自变量建立的线 性回归方程所能解释的比例。 R 2的假设检验 (与回归方程假设检验等价) H0:总体的确定系数 = 0, H1:总体的确定系数 0, =0.05;
Y为因变量,随机变量,取定量观察值。 X1,X2, ,Xm为自变量,选定或随机变量。 0为常数项。 1,2,,m为偏回归系数。 为随机误差(或称残差, residual),~N(0, ),是Y变 异中不能为自变量解释的部分。
3
偏回归系数(partial regression coefficient) j (j=1,2, ,m) 的意义:
由于 没有量纲,因此可以相互比较大小, 反映自变量对应变量的相对作用大小。
26
x1 b2 x2 b ˆ b1 y p xp
pm
(五) 复相关系数 R (multiple correlation coefficient) 意义:m 个自变量共同对因变量Y 线性相关关系的密切程度。 取值:0≤ R ≤ 1 。
21
(2) 前进法 ( forward selection ) 把方程外偏回归 平方和最大且有统 计学意义的自变量引入回归方程内; 每引入一个自变量,重建一次回归 方程; 重复~ ,直到无自变量被引入为 止。 此法建立的回归方程有时不够精练。
22
(3) 逐步筛选法 ( stepwise selection ) 此法集向前引入法和向后剔除法的 优点。 向前每引入一个自变量后,都要对 方程里所有的自变量作假设检验,剔除 不显著者,再引入新的自变量,再检验, 再剔除,……,直到不能再引入和再剔 除为止。
推导得正规方程组: nb0+b1x1+b2 x2++bm xm= y b0x1+b1 x12+ b2 x1 x2 +bm x1 xm= x1y b0x2+b1 x2 x1 + b2 x22 +bm x2 xm= x2y …
b0xm+b1 xm x1+ b2 xm x2 +bm xm2= xmy m+1
1代表汉族 X2 0少数民族
1代表男性 X1 0代表女性
再如职业。
31
违背回归模型基本假设的情形
多重共线性(multicollinearity) 异方差性(variance heterogeneity) 自相关(auto-correlation)
32
多重共线性(multicollinearity)
MS回 R /m F 2 (1 R ) / (n m 1) MS剩
16
2
(四) 偏回归系数的假设检验 1. 目的 了解各偏回归系数对 Y 作用的大小, 剔除不重要的自变量,使方程“最优”。 2. 思路 对 b j 作假设检验(方差分析法或 t 检验法),无统计学意义者不能保留 在方程里,重建回归方程,直到最新方 程中所有自变量均有统计学意义而方程 外所有自变量均无统计意义止。
Var(ei ) 2
6
(二) 参数估计 1. 依最小二乘法原理,令
ˆ) Q e ( y y
2 i
2
2
[ y (b0 b1x1 b2 x2 bm xm )]
min
2. 求偏导数得正规方程组
Q Q Q 0, 0, , 0 b0 b1 bm
在其他自变量固定不变的情况下,自变量 Xj 每改变一个单位,单独引起因变量Y平均改 变 j 个单位。
由样本计算的回归方程:
ˆ b0 b1x1 b2 x2 bm xm y
4
2. 特点 多元线性回归较简单线性回归的 2 ˆ ) ,回归方程估计精度,预 ( y y 报、控制效果。
n m1
i
y 的标准差: S yi S y12m
1 1 Xg A Xg
SSe 1 A Xg) (1 X g n m 1
——样品 i 各自变量的行向量, Xg X g ——样品 i 各自变量的列向量。
30
哑变量(dummy variable)
分类变量的数量化
18
t 检验法 bj 方法一 : tb j Sb j 方法二:
,
=n-m-1
Sb j 为偏回归系数估计值 b 的标准误。 j
tb j
| bj j |
SSe /(n m 1) C jj
| bj | S y12m C jj
S y ·12m——多元回归的误差(剩余)标准差
13
(三) 回归方程的假设检验及回归效果粗评
1. 方差分析-检验回归方程有无统计学意义 H 0 : 1 = 2 = = m = 0, H 1 : 至少有一个 j 0 , 或各 j ( j = 1 , 2, , m)不全为0 ; = 0.05;
MS回 SS回 / 回 SS回 / m F MS剩 SS剩 / 剩 SS剩 / (n m 1)
y ˆ
i
ˆi t , n m1 S y y ˆi
ˆi 的标准误: y
Sy ˆi S y12m
1 XgA Xg
SS剩 1 A Xg Xg n m 1
29
描述 y 的变异度 给定 x i 后,y i 的容许区间 确定参考值范围 质量控制 y i 的 1- 的容许区间:y ˆ t , Sy
对于多元线性回归模型要求各自变量之 间不存在明显的线性相关,否则,将使 回归系数的估计发生困难,导致最小二 乘法失效。
33Hale Waihona Puke Baidu
以下问题的发生,在排除了数据质量、样本的 代表性有问题等因素后,应该考虑是由于自变 量之间的线性关系造成的,称为多重共线性。
1) 在某个检验水平α下,回归方程的统计检验P<α,而 分别各偏回归系数的检验均出现P>α的矛盾现象; 2) 偏回归系数的估计值明显地与实际情况不符,如偏回 归系数的符号与专业知识知道的情况相反,或者是偏回 归系数的绝对值大(或小)得不可信; 3) 根据专业知识,该自变量与因变量之间关系密切,而 偏回归系数的检验结果却P>α; 4) 增加(或剔除)一个变量,或者改变(或删除)一个 观察值,引起偏回归系数的估计值发生大的变化。
8
4. 求偏回归系数
方法:矩阵法 正规方程组的矩阵表达, 令:
1 x11 x1m 1 x x 21 2m X 1 xn1 xnm
y1 y 2 Y yn
xij
——原始数据。
9
系数矩阵
n x1 A x2 xm
5
3. 前提条件(LINE)
线性(linear) 应变量 与自变量的关系是线性的 。 独立性(independence) 随机误差项在不同样本点之间是独立的,无 (i j; i, j 1,, n) 自相关性。 Cov(ei , e j ) 0, 正态性(normality) 随机误差项服从正态分布; ei N 0, 方差齐性(equal variance) 随机误差项在不同的样本点的方差相同 。
17
3. 对各偏回归系数bj作假设检验的方法
SS回x / 1
j
H 0 : j = 0,H 1 : j 0, = 0.05 方差分析法
Fx j
SS剩 / (n m 1)
偏回归平方和 SSx j 是指将 x j 从回归 方程里剔除后所引起回归平方和的减少 量,它间接反映自变量 x j 对因变量的贡 献大小。
14
SS总 ( y y )2 y2 ( y)2 / n
2 ˆ SS回 ( y y ) bjl jy
SS剩 SS总 SS回
剩 总 回 (n 1) m n m 1
若 F F ( m , n-m-1 ),P ,拒绝 H 0,则 总的来说,X 与 Y 间存在线性回归关系。需由偏 回归系数的假设检验才能确定究竟是哪一个或哪几 15 个 自变量与 Y 间存在线性回归关系。
C j j —— A – 1 主对角线上的元素。
19
P315 例15-1 求得回归方程为:
ˆ =5.9433+0.1424X +0.3515X -0.2706X +0.6382X Y 1 2 3 4
回归方程检验:P<0.01 R2=0.6008 偏回归系数检验: 只有X3、X4有统计学意义。
20
4.自变量的筛选的方法 (1) 后退法 ( backward selection ) 建立含全部自变量的回归方程,剔除 方程中偏回归平方和最小且无统计学 意义的自变量; 重建回归方程,再剔除方程中偏回归 平方和最小且无统计学意义的自变量; 重复~ ,直到无自变量被剔除为 止。 此法计算量大。
1 x 11 x12 x1m
1 x21 x22 x2 m
1 x31 x32 x3m
1 xn 1 xn 2 xnm
y1 y 2 y3 yn
11
正规方程组的矩阵表达形式:
x x x x x x x x
1 2 1 2 2 1
1 2 2 2
x x x x x
m
x
m 1
x
x
m 2
x
1 m 2 m XX 2 x m
10
常数项矩阵
C
y x1 y x2 y xm
X Y y
23
5. 回归方程回归效果的评价 (自变量筛选评判标准) 确定系数:R2 校正确定系数: R2c = 1- ( 1 – R 2 ) ( n – 1 ) / ( n – m – 1 ) 剩余标准差:SY,12…m
AIC, Cp统计量等。
24
6. 评价各自变量对因变量相对贡献的大小
对已进入回归方程的自变量,因其各自的单位不 同,不能直接进行比较,需用标准偏回归系数 b'j regression coefficient) 来比较。 ( standardized partial 方法一
X XB X Y
方程回归系数(正规方程组的解):
B (X X) X Y 1 A X Y 1 A C
1
1
X 为 X 的转置矩阵,A 为 A 的逆矩阵。
12
b0 b 1 1 1 B b2 A C ( X ' X ) X ' Y b m
多元线性回归
multiple linear regression
stat9@126.com
1
复习:
一元回归:分析一个应变量与一个自变量之 间的线性关系。
其数学模型:Y=α+X + ˆ 由样本计算的回归方程: Y=a+bX
2
一、多元线性回归 (一) 概述 1. 模型 数学模型: Y=0+1X1+2X2++mXm + 即多个自变量与因变量间存在线性关系。
bj b j ( S j / S y ) b j l jj / l yy
25
方法二 将原始数据作标准正态变换后,再 ' 用变换后的变量作回归方程,得到 bj 。 标准正态变换: ' X j X j xj / S j
7. 建立 b'j 的回归方程
' j
b 愈大,X j 对 Y 的影响亦愈大。
27
(六) 多元线性回归方程的应用 1. 描述 Y 与 X i 的线性关系。 2. 表达 X i 对 Y 作用的大小,分析影响因素。 ˆi ) ˆ 预报。 3. y (已知 xi 求 y 4. 统计控制 5. 参数 y ˆi 的估计 6. y i 容许区间的估计
28
参数 y ˆi 的估计(难点) ˆi 的总体参数 给定 xi 时,相应 y 的可信区间为:
2. 粗评回归效果——确定系数 R 2 (coefficient of determination) R2 = SS回 / SS总 R 2意义:在Y的总变异中,由自变量建立的线 性回归方程所能解释的比例。 R 2的假设检验 (与回归方程假设检验等价) H0:总体的确定系数 = 0, H1:总体的确定系数 0, =0.05;
Y为因变量,随机变量,取定量观察值。 X1,X2, ,Xm为自变量,选定或随机变量。 0为常数项。 1,2,,m为偏回归系数。 为随机误差(或称残差, residual),~N(0, ),是Y变 异中不能为自变量解释的部分。
3
偏回归系数(partial regression coefficient) j (j=1,2, ,m) 的意义:
由于 没有量纲,因此可以相互比较大小, 反映自变量对应变量的相对作用大小。
26
x1 b2 x2 b ˆ b1 y p xp
pm
(五) 复相关系数 R (multiple correlation coefficient) 意义:m 个自变量共同对因变量Y 线性相关关系的密切程度。 取值:0≤ R ≤ 1 。
21
(2) 前进法 ( forward selection ) 把方程外偏回归 平方和最大且有统 计学意义的自变量引入回归方程内; 每引入一个自变量,重建一次回归 方程; 重复~ ,直到无自变量被引入为 止。 此法建立的回归方程有时不够精练。
22
(3) 逐步筛选法 ( stepwise selection ) 此法集向前引入法和向后剔除法的 优点。 向前每引入一个自变量后,都要对 方程里所有的自变量作假设检验,剔除 不显著者,再引入新的自变量,再检验, 再剔除,……,直到不能再引入和再剔 除为止。