多重共线性
第四章 多重共线性

二、产生多重共线性的背景
多重共线性产生的经济背景主要有几种情形: 1.经济变量之间具有相同的变化趋势。 2.模型中包含滞后变量。 3.利用截面数据建立模型也可能出现多重共线性。 4.样本数据的原因。
6
第二节 多重共线性的后果
一、完全多重共线性产生的后果
1.参数的估计值不确定 2.参数估计值的方差无限大
Cov( ˆ2 ,
ˆ3 )
(1
r223 )
r23 2
x22i
x32i
随着共线性增加,r23趋于1,方差将增大。同样 协方差的绝对值也增大,它们增大的速度决定于
方差扩大(膨胀)因子(variance inflation factor, VIF)
VIF
1
1 r223
这时
Var(ˆ2 )
4.多重共线性严重时,甚至可能使估计的回归系数 符号相反,得出完全错误的结论。(如引例)
18
第三节 多重共线性的检验
本节基本内容: 简单相关系数检验法 方差扩大因子法 直观判断法 病态指数检验法 逐步回归法
19
一、简单相关系数检验法 简单相关系数检验法是利用解释变量之间的线性 相关程度去判断是否存在严重多重共线性的一种 简便方法。适用于只有两个变量的情形。
2
x32i 0
同理
ˆ3
这说明完全多重共线性时,参数估计量的方差将 变成无穷大。
9
关于方差的推导
Var(ˆ2 )
x32i (x22i ) (x32i )
(x2i x3i )2
2
1 X21 X 1 X22
1 X2n
多重共线性

多重共线性多重共线性(multicollinearity )的特征● 多重共线性是指一个回归模型中的一些或全部解释变量之间存在有一种“完全”或准确的线性关系:0...2211=+++k k X X X λλλ其中k λλλ,...,,21为常数,但不同时为零。
● 0...2211≈+++k k X X X λλλ, 近似的多重共线性● 通过巴伦坦图做简单的描述。
共线性部分可用两圆圈的重叠部分来衡量。
重叠部分越大,共线性程度越高。
● 我们定义的多重共线性仅对X 变量之间的线性关系而言,它们之间的非线性关系并不违反无多重共线性的假设i i i i u X X Y +++=2210βββ多重共线性的后果●如果多重共线性是完全的,诸X变量的回归系数将是不正确的,并且它们的标准误差为无穷大●如果多重共线性是不完全的,那末,虽然回归系数可以确定,却有较大的标准误差,意思是,系数不能以很高的精确或准精确加以估计,这会导致:-参数估计不精确,也不稳定-参数估计量的标准差较大,影响系数的显著性检验●多重共线性产生的后果具有一定的不确定性●在近似的多重共线性的情况下,只要模型满足CLRM 假定,回归系数就为BLUE,但特定的样本估计量并不一定等于真值。
多重共线性的来源(1)许多经济变量在时间上由共同变动的趋势,如:收入,投资,消费(2)把一些经济变量的滞后值也作为解释变量在模型中使用,而解释变量和滞后变量通常相关,如:消费和过去的收入多重共线性一般与时间序列有关,但在横截面数据中也经常出现多重共线性的检验● 多重共线性是普遍存在的,造成的后果也比较复杂,对多重共线性的检验缺少统一的准则- 对有两个解释变量的模型,作散点图,或相 关系数,或拟和优度R平方。
- 对有多个解释变量的模型,分别用一个解释 变量对其它解释变量进行线性回归,计算拟 和优度22221,...,,k R R R- 考察参数估计值的符号,符不符合理论 - 增加或减少解释变量,考察参数估计值的变 化- 对比拟和优度和t检验值多重共线性的修正方法● 增加样本观测值,如果多重共线性是由样本引起的,可以通过收集更多的观测值增加样本容量。
计量经济学:多重共线性

计量经济学:多重共线性多重共线性52=.53085123 第四章专门讨论古典假定中⽆多重共线性假定被违反的情况,主要内容包括多重共线性的实质和产⽣的原因、多重共线性产⽣的后果、多重共线性的检测⽅法及⽆多重共线性假定违反后的处置⽅法。
第⼀节什么是多重共线性⼀、多重共线性的含义第三章讨论多元线性回归模型的估计时,强调了假定⽆多重共线性,即假定各解释变量之间不存在线性关系,或者说各解释变量的观测值之间线性⽆关。
在计量经济学中所谓的多重共线性(Multi-Collinearity),不仅包括解释变量之间精确的线性关系,还包括解释变量之间近似的线性关系。
从数学意义上去说明多重共线性,就是对于解释变量k X 、、X X 32,如果存在不全为0的数k λλλ,2,1 ,能使得n ,2, ,1i 033221 ==++++ki k i i X X X λλλλ ( 4.1 )则称解释变量k X X X ,,,32 之间存在着完全的多重共线性。
⽤矩阵表⽰,解释变量的数据矩阵为X=213112232223111k k nnkn X X X X X X X X X ??(4.2)当Rank(X )在实际经济问题中,完全的多重共线性并不多见。
常见的情形是解释变量k X X X ,,,32 之间存在不完全的多重共线性。
所谓不完全的多重共线性,是指对于解释变量k X 、、X X 32,存在不全为0的数k λλλ,2,1 ,使得n ,2, ,1i 033221 ==+++++i ki k i i u X X X λλλλ(4.3)其中,i u 为随机变量。
这表明解释变量k X 、、X X 32只是⼀种近似的线性关系。
如果k 个解释变量之间不存在完全或不完全的线性关系,则称⽆多重共线性。
若⽤矩阵4表⽰,这时X 为满秩矩阵,即Rank(X )=k 。
需要强调,解释变量之间不存在线性关系,并⾮不存在⾮线性关系,当解释变量存在⾮线性关系时,并不违反⽆多重共线性假定。
多重共线性

第二章知多元线性回归模型参数向量的最小二乘估计量为: 1 X X X Y 这一表达式成立的前提条件是解释变量X 1 , X 2 , X k 之间没有多重共线性. 如果矩阵X 不是满秩的,则X X 也不是满秩的.必有: X X 0, 从而 X X 不存在, OLS失效, 此时称该模型存在完全的多重共线性.
解释变量的精确线性组合表示,它们的相关系数的绝对值为1.
X s ,h =
Var X is Var X ih ch cs
n
Cov( X is , X ih )
n
n i 1
( X is X is )( X ih X ih )
2
i1 ( X is X is )
则:
x y x
i1 i 2 i1
, 而1与 2却无法估计.
2 在近似共线性下OLS参数估计量的方差变大
我们前面已论述, 在近似共线性下,虽然可以得到OLS估计量: ) X X 1 2 Var (
由于此时 X X 0, 引起 X X 主对角线元素较大, 即 i的方差较大.
1
对此, 如果我们合并两个(或多个)高度线性相关的变量, 可以使用OLS , 但两个(或多个)变量前的参数将无法估计. 例如,对于回归模型:Yi 0 1 X i1 2 X i 2 i i 1, 2 , n 如果有:X i 2 X i1 , 合并两变量 : Yi 0 1 2 X i1 i , 令 1 2 ,
n
( X ih X ih ) i1
n 2
2
1 X s , h 1 在近似的多重共线性下则得不到这样的精确线性组合, 它们的相关系数的绝对值近似为1.
第四章多重共线性

2
x2j VIFj
注意:R2j 是多个解释变量辅助回归的多重可决系数,
而相关系数 r223只是说明两个变量的线性关系 。
(一元回归中可决系数的数值等于相关系数的平方)
17
方差扩大因子的作用
由
R2j 越大
VIFJ 1 (1 R2j ) 多重共线性越严重
VIFj越大
VIFj的大小可以反映解释变量之间存在多重共线性的严重
1 x22i (1
r223 )
2
x22i
1 (1 r223)
2
x22i
VIF2
当 r23 增大时,VIF2 增大, Var(ˆ2 ) 也会增大 ,
思考: 当 r23 0 时 Var(ˆ2) 2
x22i
(与一元回归比较)
当 r23 1 时 Var(ˆ2 )
(见前页结论) 8
三、当多重共线性严重时,甚至可能使估计
在总体中部分或全部解释变量可能没有线性关系,但是 在具体获得的样本中仍可能有共线性关系,因此多重共线 性问题本质上是一种样本现象。
正因为如此,我们无法对多重共线性问题进行统计假设 检验,只能设法评价解释变量之间多重共线性的严重程度。
5
第二节 多重共线性产生的后果
从参数估计看,在完全无多重共线性时,各解释变量都独
Kt
Kt
ln Qt ln A ln Lt ln Kt ln u
(ln Lt 与 ln Kt 有多重共线性) ln Qt ln A ln Lt ln u
Kt
Kt 22
三、截面数据与时间序列数据的结合
有时在时间序列数据中多重共线性严重的变量,在截 面数据中不一定有严重的共线性
假定前提:截面数据估计出的参数在时间序列中变化不大
多重共线性

第四章 多重共线性第一节 什么是多重共线性一、多重共线性的含义所谓多重共线性,不仅包括解释变量之间完全(精确)的线性关系,还包括解释变量之间近似的线性关系。
对于解释变量23,,,k X X X ,如果存在不全为零的数123,,,,k λλλλ ,能使得12233i i k ki X X X λλλλ++++ =0 ,(i =1,2,,n )——即解释变量的数据矩阵的列向量组线性相关。
则称解释变量23,,,k X X X 之间存在着完全的线性关系。
用数据表示,解释变量的数据矩阵为X =213112232223111k k nnkn X X X XX X X X X ⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦当()r X <k 时,也说明解释变量23,,,k X X X 之间存在着完全的线性关系。
当存在完全共线性时,至少有一个变量(列向量)可以用其余的变量(列向量)线性表出。
在实际问题中,完全的共线性并不多见。
常见的情形是解释变量23,,,k X X X 之间存在不完全的共线性,这是指存在不全为零是数123,,,,k λλλλ ,使得12233λλλλ+++++ i i k ki i X X X v =0(i =1,2,,n )其中i v 是随机变量。
这表明此时解释变量之间只是一种近似的线性关系。
二、产生多重共线性的背景1.经济变量之间具有共同的变化趋势2.模型中包含滞后变量3.利用截面数据建立模型也可能出现共线性4. 样本数据自身的原因第二节 多重共线性产生的后果完全共线性时,矩阵X X '不可逆,参数估计式ˆβ=1()X X X Y -''不存在,OLS 无法应用。
不完全的共线性时,1()X X -'也存在,可以得到参数的估计值,但是对计量经济分析可能会产生一系列影响。
一、参数估计量的无偏性依然成立不完全共线性时ˆ()E β=1()E X X X Y -''⎡⎤⎣⎦=1()()E X X X X U β-''⎡⎤+⎣⎦=β+()1()X X X E U -''=β二、参数OLS 估计值方差扩大 如二元回归模型i Y =12233i i i X X u βββ+++中的2X 与3X 为不完全的共线性时,2X 与3X 之间的相关系数23r 可由下式给出223r=2232223()x x x x∑∑∑容易证明2ˆ()Var β=222223(1)i x r σ-∑3ˆ()Var β=222323(1)ixr σ-∑随着共线性的程度增加,23r 的绝对值趋于1,两个参数估计量的方差也增大。
第七章 多重共线性

2
X 1i 1 r 2
2
ˆ 同理:Var b2
2
X 2i 1 r 2
2
第二节
多重共线性的影响后果
2
ˆ 当完全不共线时,r=0, Var b1
X
2 1i
当不完全共线时,r越接近1,相关程度越高, bi Var ˆ 越大,参数估计值越不准确。
第四节
多重共线性的解决方法
三、逐步回归法 (1)计算因变量对每一个解释变量的回归方程,并分别 进行统计检验,从中选取最合适的基本回归方程。 (2)逐一引入其他解释变量,重新进行回归,在模型中 每个解释变量均显著,参数符号正确, R 2 值有所提高的前 提下,从中再选取最合适的二元回归方程。 (3)在选取的二元回归方程的基础上以同样的方式引 入第三解释变量;如此引入,直至无法引入新变量为止。
第四节
多重共线性的解决方法
(2)如果历年的平均收入弹性与近期的收入弹性 近似相等,就可以用 a2代替原模型中的 b2 。将原模 ln y a2 ln I b0 b1 ln P 型变为 y1 ln y a2 ln I 令:
p1 ln P 再利用时间序列数据求出价格弹性 b1 以及 b0即可。
第四节
多重共线性的解决方法
二、间接剔除重要的解释变量 1、利用已知信息 所谓已知信息,就是在建立模型之前,根据经 济理论、统计资料或经验分析,已知的解释变量之 间存在某种关系。为了克服模型的多重共线性,可 以将解释变量按已知关系加以处理。
第四节
多重共线性的解决方法
例如:柯布-道格拉斯生产函数
y aL K e
ln y / K ln a ln L / K
计量经济学(第四章多重共线性)

06
总结与展望
研究结论总结
多重共线性现象普遍存在于经济数据中,对计量 经济学模型的估计和解释产生了重要影响。
通过使用多种诊断方法,如相关系数矩阵、方差膨 胀因子(VIF)和条件指数(CI),可以有效地识别 多重共线性问题。
在存在多重共线性的情况下,普通最小二乘法 (OLS)估计量虽然仍然是无偏的,但其方差可能 变得很大,导致估计结果不稳定。
主成分分析法的优点
可以消除多重共线性的影响,同 时降低自变量的维度,简化模型。
岭回归法
岭回归法的基本思想
通过在损失函数中加入L2正则化项(即所有自变量的平方和),使得回归系数的估计更加稳定, 从而消除多重共线性的影响。
岭回归法的步骤
首先确定正则化参数λ的值,然后求解包含L2正则化项的损失函数最小化问题,得到岭回归系数的估 计值。
逐步回归法的优点
可以自动选择重要的自变量,同时消除多重共线性的影响。
主成分分析法
主成分分析法的基本思想
通过正交变换将原始自变量转换 为互不相关的主成分,然后选择 少数几个主成分进行回归分析。
主成分分析法的步骤
首先对原始自变量进行标准化处理, 然后计算相关系数矩阵并进行特征值 分解,得到主成分及其对应的特征向 量。最后,选择少数几个主成分作为 新的自变量进行回归分析。
岭回归法的优点
可以有效地处理多重共线性问题,同时避免过拟合现象的发生。此外,岭回归法还可以提供对所 有自变量的系数进行压缩估计的功能,使得模型更加简洁易懂。
05
实证研究与结果分
析
数据来源及预处理
数据来源
本研究采用的数据集来自于公开的统 计数据库,涵盖了多个经济指标和影 响因素的观测值。
数据预处理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主讲人:刘芳
liufang@
线性回归模型的基本假设
( 1)解释变量 X是确定性变量,不是随机变量; ( 2)随机误差项具有0均值和同方差正态分布: E( i)=0 i=1,2, …,n Var ( i)=2 i=1,2, …,n
中,至少有一列向量可由其他列向量(不包 括第一列)线性表出。
例如,X2=X1,这时X1与X2的相关系数 为1,解释变量X2对因变量的作用完全可由 X1代替。 注意: 完全共线性的情况并不多见,一般出现的 是在一定程度上的共线性,即近似共线性。
2、产生多重共线性的主要原因
( 1 )经济变量相关的共同趋势
I~N(0, 2 ) i=1,2, …,n ( 3)随机误差项在不同样本点之间是独立的, 不存在序列相关: Cov( i, j)=0 i ≠j i,j= 1,2, …,n
( 4)随机误差项与解释变量之间不相关:
Cov(Xi, i)=0 i=1,2, … ,n (5) 各解释变量之间互不相关
基本假定违背
不满足基本假定的情况,称为基本假 定违背。主要包括:
(1)序列相关性 随机项序列不是同方差的 (2)自相关性 随机项序列存在序列相关性 (3)多重共线性 解释变量之间存在线性相关性 (4)随机解释变量 解释变量不是固定性变量,而是随机性变量
计量经济检验
在进行计量经济的回归分析时, 必须对所研究对象是否满足OLS下 的基本假定进行检验,即检验是否 存在一种或多种违背基本假定的情 况,这种检验称为计量经济检验。
二、多重共线性的后果
1 、完全共线性下参数估计量不存在 2 、近似共线性下普通最小二乘法参数估 计量非有效
3 、参数估计量经济含义不合理
4 、变量的显著性检验失去意义 5 、模型的预测功能失效
计量经济学模型一旦出现多重共线性, 如果仍采用OLS法估计模型参数,会产生 下列不良后果: 1、完全共线性下参数估计量不存在
ˆ ) 当完全共线时, r 2 =1, var( 1
3、参数估计量经济含义不合理
如果模型中两个解释变量具有线性相关 性,例如 X1 和 X2 ,那么它们中的一个变量 可以由另一个变量表征。 这时,X1 和X2前的参数并不反映各自与 被解释变量之间的结构关系,而是反映它们 对被解释变量的共同影响。 所以各自的参数已经失去了应有的经济 含义,于是经常表现出似乎反常的现象,例 如本来应该是正的,结果恰是负的。
(2)滞后变量的引入
在经济计量模型中,往往需要引入滞 后经济变量来反映真实的经济关系。 例如,消费=f(当期收入, 前期收入) 显然,两期收入间有较强的线性相关性。
(3)样本资料的限制
由于完全符合理论模型所要求的样本数 据较难收集,在现有数据条件下,特定样本 可能存在某种程度的多重共线性。 一般经验告诉我们: 对于采用时间序列数据作样本、以简单 线性形式建立的计量经济学模型,往往存在 多重共线性。 以截面数据作样本时,问题不那么严重, 但多重共线性仍然可能是存在的。
四、克服多重共线性的方法
如果模型被检验证明存在多重共线性,则 需要发展新的方法估计模型,最常用的方法有 三类。 1 、第一类方法:排除引起共线性的变量 找出引起多重共线性的解释变量,将它排除 出去,是最为有效的克服多重共线性问题的 方法。以逐步回归法得到最广泛的应用。
注意:
剩余解释变量参数的经济含义和数值都发生了变化。
(2) 对多个解释变量的模型,采用综合统计检验法
若 在OLS 法下,模型的R2与F值较大,但各参数估 计值的t 检验值较小,说明各解释变量对Y的联合 线性作用显著,但各解释变量间存在共线性而使得 它们对Y的独立作用不能分辨,故t检验不显著。
2、判明存在多重共线性的范围
如果存在多重共线性,需进一步确定究 竟由哪些变量引起。 (1) 判定系数检验法
如果存在 c1X1i+c2X2i+…+ckXki+vi=0 i=1,2,…,n (2.6.3) 其中 ci 不全为0 , vi 为随机误差项,则称为一般 共线性(近似共线性)
在矩阵表示的线性回归模型 Y=XB+N 中,完全共线性指:秩(X)<k+1,即矩阵
1 X 11 1 X 12 X 1 X 1n X 21 X k1 X 22 X k 2 X 2 n X kn
ˆ ) 2 ( XX) 1 Cov(
可见,由于此时|X’X|0,引起(X’X) -1主 对角线元素较大,从而使参数估计值的方 差增大,OLS参数估计量非有效。
ˆ 为例, ˆ 的方差为 仍以一元模型中 1 1
ˆ ) 2 ( X X ) 1 var( 1 11
多重共线性
Multi-Collinearity
多重共线性---Multi-Collinearity
一、多重共线性的概念 二、多重共线性的后果 三、多重共线性的检验 四、克服多重共线性的方法 五、案例 六、分部回归与多重共线性
一、多重共线性的概念
1. 多重共线性
2 、产生多重共线性的主要原因
2 2 2 x x ( x x ) 1i 2i 1i 2i 2 2 x2 i
1 ( x1i x 2i ) 2
2 / x12i
2 2 x x 1i 2i
x 恰为 1 与 x 2 的线性相 关系数 的平 x x
2 1i 2 2i
( x1i x 2i ) 2
另一等价的检验是: 在模型中排除某一个解释变量Xj, 估计模型,如果拟合优度与包含Xj时 十分接近,则说明Xj与其它解释变量 之间存在共线性。
(2)逐步回归法 以Y为被解释变量,逐个引入解释变量, 构成回归模型,进行模型估计。 根据拟合优度的变化决定新引入的变量 是否可以用其它变量的线性组合代替,而 不作为独立的解释变量。 如果拟合优度变化显著,则说明新引入 的变量是一个独立解释变量; 如果拟合优度变化很不显著,则说明新 引入的变量不是一个独立解释变量,它可 以用其它变量的线性组合代替,也就是说 它与其它变量之间存在共线性关系。
1 2 2 r r 方 ,由于 1,故 1 r 2
1
。
ˆ ) 2 / x2 当完全不共线时,r =0, var( 1i 1
2
当不完全共线(近似共线)时,0 r
2 1 ˆ ) var( 1 2 2 2 x 1 r x 1i 1i
2
1
,
2
1i i 1i 2i i 2 2i 2 1i 1i 2 i 1i
2i
2i
2 2i
x y x y x x
1i i 1i 2 1i 2 1i
i
x12i 2 x12i
x12i 2 x12i
0 0
ˆ 为不定式; 1
ˆ 也为不定式,其值无法确定。 同理, 2
多元线性模型
Y X
的普通最小二乘参数估计量为:
( X X ) 1 X Y
(2.6.4)
如果存在完全共线性,则(X’X) -1不存在,无法得 到参数的估计量。
例如:对一个离差形式的二元回归模型
y 1 x1 2 x 2
如果两个解释变量完全相关,如 x 2 x1 ,则有
使模型中每一个解释变量分别以其余解释变 量为解释变量进行回归计算,并计算相应的拟合 优度,也称为判定系数。如果在某一种形式 Xji=1X1i+2X2i+LXLi
中判定系数较大,则说明在该形式中作为被解释 变量的 Xj可以用其他 X 的线性组合代替,即 Xj 与 其他X之间存在共线性。
等价的检验是对上述回归方程作F检验。
该回归模型的正规方程为 ˆ X Y ( X X)B 或
2 ˆ ˆ x 1 1i 2 x1i x 2 i x1i y i
2 ˆ ˆ x x x 1 2 i 1i 2 2i x 2i y i
解该 x x x y x x x x x x x
1、多重共线性
对于模型 Yi= 0+ 1X1i+2X2i++kXki+i i=1,2,…,n (2.6.1) 其基本假设之一是解释变量x1,x2,---xk 是互相独立的。
如果某两个或多个解释变量之间出现了相 关性,则称为多重共线性(Multicollinearity)。
如果存在 c1X1i+c2X2i+…+ckXki=0 i=1,2,…,n (2.6.2) 其中: ci不全为0,即某一个解释变量可以用 其它解释变量的线性组合表示,则称为解释变 量间存在完全共线性。
即:多重共线性使参数估计值的方差增 大,方差扩大因子(Variance Inflation Factor) 为1/(1-r2),其增大趋势见下表:
相关系 数平方 方差扩 大因子 0 1 0.5 2 0.8 5 0.9 10 0.95 0.96 0.97 0.98 0.99 0.999 20 25 33 50 100 1000
由于多重共线性表现为解释变量之间具 有相关关系,所以用于多重共线性的检验 方法主要是统计方法:如判定系数检验法、 逐步回归检验法等。 多重共线性检验的任务是: (1)检验多重共线性是否存在; (2)估计多重共线性的范围,即判断哪 些变量之间存在共线性。
1、检验多重共线性是否存在
(1) 对两个解释变量的模型,采用简单相关系数法 求出X1与X2的简单相关系数r,若|r|接近1,则 说明两变量存在较强的多重共线性。
事实上,当 x 2 x1 时,原二元回归模型退 化为一元回归模型:
y ( 1 2 ) x1
只能确定综合参数 1 2 的估计值:
ˆ ˆ x1i yi 1 2