多重共线性
第四章 多重共线性

二、产生多重共线性的背景
多重共线性产生的经济背景主要有几种情形: 1.经济变量之间具有相同的变化趋势。 2.模型中包含滞后变量。 3.利用截面数据建立模型也可能出现多重共线性。 4.样本数据的原因。
6
第二节 多重共线性的后果
一、完全多重共线性产生的后果
1.参数的估计值不确定 2.参数估计值的方差无限大
Cov( ˆ2 ,
ˆ3 )
(1
r223 )
r23 2
x22i
x32i
随着共线性增加,r23趋于1,方差将增大。同样 协方差的绝对值也增大,它们增大的速度决定于
方差扩大(膨胀)因子(variance inflation factor, VIF)
VIF
1
1 r223
这时
Var(ˆ2 )
4.多重共线性严重时,甚至可能使估计的回归系数 符号相反,得出完全错误的结论。(如引例)
18
第三节 多重共线性的检验
本节基本内容: 简单相关系数检验法 方差扩大因子法 直观判断法 病态指数检验法 逐步回归法
19
一、简单相关系数检验法 简单相关系数检验法是利用解释变量之间的线性 相关程度去判断是否存在严重多重共线性的一种 简便方法。适用于只有两个变量的情形。
2
x32i 0
同理
ˆ3
这说明完全多重共线性时,参数估计量的方差将 变成无穷大。
9
关于方差的推导
Var(ˆ2 )
x32i (x22i ) (x32i )
(x2i x3i )2
2
1 X21 X 1 X22
1 X2n
多重共线性

多重共线性多重共线性(multicollinearity )的特征● 多重共线性是指一个回归模型中的一些或全部解释变量之间存在有一种“完全”或准确的线性关系:0...2211=+++k k X X X λλλ其中k λλλ,...,,21为常数,但不同时为零。
● 0...2211≈+++k k X X X λλλ, 近似的多重共线性● 通过巴伦坦图做简单的描述。
共线性部分可用两圆圈的重叠部分来衡量。
重叠部分越大,共线性程度越高。
● 我们定义的多重共线性仅对X 变量之间的线性关系而言,它们之间的非线性关系并不违反无多重共线性的假设i i i i u X X Y +++=2210βββ多重共线性的后果●如果多重共线性是完全的,诸X变量的回归系数将是不正确的,并且它们的标准误差为无穷大●如果多重共线性是不完全的,那末,虽然回归系数可以确定,却有较大的标准误差,意思是,系数不能以很高的精确或准精确加以估计,这会导致:-参数估计不精确,也不稳定-参数估计量的标准差较大,影响系数的显著性检验●多重共线性产生的后果具有一定的不确定性●在近似的多重共线性的情况下,只要模型满足CLRM 假定,回归系数就为BLUE,但特定的样本估计量并不一定等于真值。
多重共线性的来源(1)许多经济变量在时间上由共同变动的趋势,如:收入,投资,消费(2)把一些经济变量的滞后值也作为解释变量在模型中使用,而解释变量和滞后变量通常相关,如:消费和过去的收入多重共线性一般与时间序列有关,但在横截面数据中也经常出现多重共线性的检验● 多重共线性是普遍存在的,造成的后果也比较复杂,对多重共线性的检验缺少统一的准则- 对有两个解释变量的模型,作散点图,或相 关系数,或拟和优度R平方。
- 对有多个解释变量的模型,分别用一个解释 变量对其它解释变量进行线性回归,计算拟 和优度22221,...,,k R R R- 考察参数估计值的符号,符不符合理论 - 增加或减少解释变量,考察参数估计值的变 化- 对比拟和优度和t检验值多重共线性的修正方法● 增加样本观测值,如果多重共线性是由样本引起的,可以通过收集更多的观测值增加样本容量。
多重共线性

第二章知多元线性回归模型参数向量的最小二乘估计量为: 1 X X X Y 这一表达式成立的前提条件是解释变量X 1 , X 2 , X k 之间没有多重共线性. 如果矩阵X 不是满秩的,则X X 也不是满秩的.必有: X X 0, 从而 X X 不存在, OLS失效, 此时称该模型存在完全的多重共线性.
解释变量的精确线性组合表示,它们的相关系数的绝对值为1.
X s ,h =
Var X is Var X ih ch cs
n
Cov( X is , X ih )
n
n i 1
( X is X is )( X ih X ih )
2
i1 ( X is X is )
则:
x y x
i1 i 2 i1
, 而1与 2却无法估计.
2 在近似共线性下OLS参数估计量的方差变大
我们前面已论述, 在近似共线性下,虽然可以得到OLS估计量: ) X X 1 2 Var (
由于此时 X X 0, 引起 X X 主对角线元素较大, 即 i的方差较大.
1
对此, 如果我们合并两个(或多个)高度线性相关的变量, 可以使用OLS , 但两个(或多个)变量前的参数将无法估计. 例如,对于回归模型:Yi 0 1 X i1 2 X i 2 i i 1, 2 , n 如果有:X i 2 X i1 , 合并两变量 : Yi 0 1 2 X i1 i , 令 1 2 ,
n
( X ih X ih ) i1
n 2
2
1 X s , h 1 在近似的多重共线性下则得不到这样的精确线性组合, 它们的相关系数的绝对值近似为1.
第四章多重共线性

2
x2j VIFj
注意:R2j 是多个解释变量辅助回归的多重可决系数,
而相关系数 r223只是说明两个变量的线性关系 。
(一元回归中可决系数的数值等于相关系数的平方)
17
方差扩大因子的作用
由
R2j 越大
VIFJ 1 (1 R2j ) 多重共线性越严重
VIFj越大
VIFj的大小可以反映解释变量之间存在多重共线性的严重
1 x22i (1
r223 )
2
x22i
1 (1 r223)
2
x22i
VIF2
当 r23 增大时,VIF2 增大, Var(ˆ2 ) 也会增大 ,
思考: 当 r23 0 时 Var(ˆ2) 2
x22i
(与一元回归比较)
当 r23 1 时 Var(ˆ2 )
(见前页结论) 8
三、当多重共线性严重时,甚至可能使估计
在总体中部分或全部解释变量可能没有线性关系,但是 在具体获得的样本中仍可能有共线性关系,因此多重共线 性问题本质上是一种样本现象。
正因为如此,我们无法对多重共线性问题进行统计假设 检验,只能设法评价解释变量之间多重共线性的严重程度。
5
第二节 多重共线性产生的后果
从参数估计看,在完全无多重共线性时,各解释变量都独
Kt
Kt
ln Qt ln A ln Lt ln Kt ln u
(ln Lt 与 ln Kt 有多重共线性) ln Qt ln A ln Lt ln u
Kt
Kt 22
三、截面数据与时间序列数据的结合
有时在时间序列数据中多重共线性严重的变量,在截 面数据中不一定有严重的共线性
假定前提:截面数据估计出的参数在时间序列中变化不大
多重共线性

第四章 多重共线性第一节 什么是多重共线性一、多重共线性的含义所谓多重共线性,不仅包括解释变量之间完全(精确)的线性关系,还包括解释变量之间近似的线性关系。
对于解释变量23,,,k X X X ,如果存在不全为零的数123,,,,k λλλλ ,能使得12233i i k ki X X X λλλλ++++ =0 ,(i =1,2,,n )——即解释变量的数据矩阵的列向量组线性相关。
则称解释变量23,,,k X X X 之间存在着完全的线性关系。
用数据表示,解释变量的数据矩阵为X =213112232223111k k nnkn X X X XX X X X X ⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦当()r X <k 时,也说明解释变量23,,,k X X X 之间存在着完全的线性关系。
当存在完全共线性时,至少有一个变量(列向量)可以用其余的变量(列向量)线性表出。
在实际问题中,完全的共线性并不多见。
常见的情形是解释变量23,,,k X X X 之间存在不完全的共线性,这是指存在不全为零是数123,,,,k λλλλ ,使得12233λλλλ+++++ i i k ki i X X X v =0(i =1,2,,n )其中i v 是随机变量。
这表明此时解释变量之间只是一种近似的线性关系。
二、产生多重共线性的背景1.经济变量之间具有共同的变化趋势2.模型中包含滞后变量3.利用截面数据建立模型也可能出现共线性4. 样本数据自身的原因第二节 多重共线性产生的后果完全共线性时,矩阵X X '不可逆,参数估计式ˆβ=1()X X X Y -''不存在,OLS 无法应用。
不完全的共线性时,1()X X -'也存在,可以得到参数的估计值,但是对计量经济分析可能会产生一系列影响。
一、参数估计量的无偏性依然成立不完全共线性时ˆ()E β=1()E X X X Y -''⎡⎤⎣⎦=1()()E X X X X U β-''⎡⎤+⎣⎦=β+()1()X X X E U -''=β二、参数OLS 估计值方差扩大 如二元回归模型i Y =12233i i i X X u βββ+++中的2X 与3X 为不完全的共线性时,2X 与3X 之间的相关系数23r 可由下式给出223r=2232223()x x x x∑∑∑容易证明2ˆ()Var β=222223(1)i x r σ-∑3ˆ()Var β=222323(1)ixr σ-∑随着共线性的程度增加,23r 的绝对值趋于1,两个参数估计量的方差也增大。
多重共线性

多重共线性“多重共线性”一词由R. Frisch 1934年提出,它原指模型的解释变量间存在线性关系。
1.非多重共线性假定 rk (X 'X ) = rk (X ) = k解释变量不是完全线性相关的或接近完全线性相关的。
| r x i x j | ≠1, | r x i x j | 不近似等于1。
就模型中解释变量的关系而言,有三种可能。
(1)r x i x j = 0,解释变量间非线性相关,变量间相互正交。
这时已不需要多重回归,每个参数βj 都可以通过y 对x j 的一元回归来估计。
(2)| r x i x j | = 1,解释变量间完全共线性。
此时模型参数将无法确定。
直观地看,当两变量按同一方式变化时,要区别每个解释变量对被解释变量的影响程度就非常困难。
(3)0 < | r x i x j | < 1,解释变量间存在一定程度的线性相关。
实际中常遇到的是这种情形。
随着共线性程度的加强,对参数估计值的准确性、稳定性带来影响。
因此我们关心的不是有无多重共线性,而是多重共线性的程度。
2.多重共线性的经济解释(1)经济变量在时间上有共同变化的趋势。
如在经济上升时期,收入、消费、就业率等都增长,当经济收缩期,收入、消费、就业率等又都下降。
当这些变量同时进入模型后就会带来多重共线性问题。
0.E+001.E+112.E+113.E+114.E+11808284868890929496980002GDPCONS0.E +001.E +112.E +113.E +114.E +110.0E +005.0E +101.0E +111.5E +112.0E +112.5E +11C O N SG D P o f H o n g K o n g(2)解释变量与其滞后变量同作解释变量。
0.E+001.E+112.E+113.E+114.E+11808284868890929496980002GDP0.E+001.E+112.E+113.E+114.E+110.E+001.E+112.E+113.E+114.E+11GDP(-1)GDP3.多重共线性的后果(1)当 | r x i x j | = 1,X 为降秩矩阵,则 (X 'X ) -1不存在,βˆ= (X 'X )-1 X 'Y 不可计算。
Chapter10多重共线性MultiCollinearity(计量经济学-武汉大学,彭红枫)

则称为解释变量间存在完全共线性 (perfect multicollinearity)。
2020/5/1
Hongfeng Peng Department of
3
Finance, Wuhan University
近似共线性
如果存在一组不全为0的数,使得 1X1+ 2X2+…+ kXk +vi=0 i=1,2,…,n
Chapter 10
多重共线性 MultiCollinearity
主讲:彭红枫
武汉大学经济与管理学院金融系 Copyright© Hongfeng Peng 2006 Wuhan
University
10.1 多重共线性的性质
• 定义:
– 狭义:模型中一些或全部解释变量之间存在 一种完全的线性关系(完全共线性)。
– 广义:模型中一些或全部解释变量之间存在 一种完全或非完全的线性关系(近似共线 性)。
2020/5/1
Hongfeng Peng Department of
2
Finance, Wuhan University
完全共线性
如果存在一组不全为0的数,使得 1X1+ 2X2+…+ kXk=0 i=1,2,…,n
2020/5/1
Hongfeng Peng Department of
13
Finance, Wuhan University
• 10.12 • 10.24 • 10.30
习题
2020/5/1
Hongfeng Peng Department of
14
Finance, Wuhan University
导致多重共线性的可能原因
第七章 多重共线性

2
X 1i 1 r 2
2
ˆ 同理:Var b2
2
X 2i 1 r 2
2
第二节
多重共线性的影响后果
2
ˆ 当完全不共线时,r=0, Var b1
X
2 1i
当不完全共线时,r越接近1,相关程度越高, bi Var ˆ 越大,参数估计值越不准确。
第四节
多重共线性的解决方法
三、逐步回归法 (1)计算因变量对每一个解释变量的回归方程,并分别 进行统计检验,从中选取最合适的基本回归方程。 (2)逐一引入其他解释变量,重新进行回归,在模型中 每个解释变量均显著,参数符号正确, R 2 值有所提高的前 提下,从中再选取最合适的二元回归方程。 (3)在选取的二元回归方程的基础上以同样的方式引 入第三解释变量;如此引入,直至无法引入新变量为止。
第四节
多重共线性的解决方法
(2)如果历年的平均收入弹性与近期的收入弹性 近似相等,就可以用 a2代替原模型中的 b2 。将原模 ln y a2 ln I b0 b1 ln P 型变为 y1 ln y a2 ln I 令:
p1 ln P 再利用时间序列数据求出价格弹性 b1 以及 b0即可。
第四节
多重共线性的解决方法
二、间接剔除重要的解释变量 1、利用已知信息 所谓已知信息,就是在建立模型之前,根据经 济理论、统计资料或经验分析,已知的解释变量之 间存在某种关系。为了克服模型的多重共线性,可 以将解释变量按已知关系加以处理。
第四节
多重共线性的解决方法
例如:柯布-道格拉斯生产函数
y aL K e
ln y / K ln a ln L / K
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
7
(2)滞后变量的引入 在经济计量模型中,往往需要引入滞后经济 变量来反映真实的经济关系。
例如,消费=f(当期收入, 前期收入)
显然,两期收入间有较强的线性相关性。
8
(3)样本资料的限制 由于完全符合理论模型所要求的样本数据较难收集,特定样
本可能存在某种程度的多重共线性。
一般经验:
时间序列数据样本:简单线性模型,往往存在多重共线性。
表 4.3.1 相关系数平方 方差膨胀因子 0 1 0.5 2 0.8 5 0.9 10 方差膨胀因子表 0.95 20 0.96 25 0.97 33 0.98 50 0.99 100 0.999 1000
当完全共线时, r2=1,
ˆ var( 1 )
14
3、参数估计量经济含义不合理
4
在矩阵表示的线性回归模型 Y=X+ 中,完全共线性指:秩(X)<k+1,即
1 1 X 1 X 11 X 12 X 1n X 21 X 22 X 2n X k1 X k2 | X X | 0 X kn
中,至少有一列向量可由其他列向量(不包括第 一列)线性表出。
如果模型中两个解释变量具有线性相关性,例如
X2 = X1 ,
这时,X1 和X2 前的参数 1 、 2 并不反映各自与被解释变量之间 的结构关系,而是反映它们对被解释变量的共同影响。
1、2已经失去了应有的经济含义,于是经常表现出似乎反
常的现象:例如1本来应该是正的,结果恰是负的。
经验告诉我们,在多元线性回归模型的估计中,如果出现参
21
2.直观判断法
根据经验,通常以下情况的出现可能提示存在多重共线 性的影响:
(1)当增加或删除一个解释变量,或者改变一个观测 值时,回归参数的估计值发生较大变化,回归方程可能 存在严重的多重共线性。
(2)从定性分析认为,一些重要的解释变量的回归系 数的标准误差较大,在回归方程中没有通过显著性检验 时,可初步判断可能存在严重的多重共线性。
定程度上的共线性,即近似共线性。 需要强调,解释变量之间不存在线性关系,并非不存 在非线性关系,当解释变量之间存在非线性关系时,并不违 反无多重共线性假定。
6
实际经济问题中的多重共线性
一般地,产生多重共线性的主要原因有:
(1)经济变量相关的共同趋势
时间序列样本:经济繁荣时期,各基本经济变 量(收入、消费、投资、价格)都趋于增长;衰退 时期,又同时趋于下降。 横截面数据:生产函数中,资本投入与劳动力 投入往往出现高度相关情况,大企业二者都大,小 企业都小。
2 x12i x 2 i ( x1i x 2 i ) 2
1 ( x1i x 2 i ) 2
2 / x12i
2 x12i x 2 i
x
2
2 1i
1 1 r2
x x
2 1i
( x 1i x 2 i ) 2
2 2i
恰为X1与X2的线性相关系数的平方r2 r2 1,故 1/(1- r2 )1
由于
13
当完全不共线时, r2 =0
当近似共线时, 0< r2 <1
ˆ var( 1 ) 2 / x12i
ˆ var( 1 )
2
x
2 1i
1 1 r
2
2
x12i
多重共线性使参数估计值的方差增大,1/(1-r2)为 方差膨胀因子(Variance Inflation Factor, VIF)
如:X2= X1,则X2对Y的作用可由X1代替。
5
一般来说,解释变量之间的关系可概括为三种情况:
a)情况是完全相关,即解释变量之间的相关系数为1;
b)情况是完全不相关,即解释变量之间的相关系数为0;
c)情况是不完全相关,即解释变量之间的相关系数介 于0和1之间。
注意:完全共线性的情况并不多见,一般出现的是在一
10
例:对离差形式的二元回归模型
y 1 x1 2 x 2
如果两个解释变量完全相关,如x2= x1,则
y ( 1 2 ) x1
这时,只能确定综合参数1+2的估计值:
11
2、近似共线性下OLS估计量非有效
近似共线性下,可以得到OLS参数估计量, 但参数估计量方差的表达式为
ˆ 表示,则可以证明(证明过程从略),解释变量Xj参数估计量 J 的方差可
表示为
ˆ Var( j )=
2
x
2 ji
1 1 R
2 j
2
x
2 ji
VIF j
其中,VIFj是变量Xj的方差膨胀因子,即
R2 j
j 1, 2, , k
并计算相应的拟合优度,即判定系数R2。
25
如果某一回归方程的判定系数 R
2 较大(接近于1), j
说明Xj与其他解释变量X间存在多重共线性。
如果求出的判定系数 R 2 都比较小,没有一个是接近于1的, j 则可认为模型的解释变量之间不存在严重的多重共线问题。
26
第8章
◆ 学习目的
多重共线性
了解多重共线性的概念,掌握在建立计量经济学模型时如 何避免发生多重共线性,以及在存在多重共线性情况下, 如何正确建立计量经济学模型。
◆ 基本要求
1)了解多重共线性的概念及多重共线性产生的原因; 2)存在多重共线性对计量经济学模型的影响; 3)掌握多重共线性的检验方法以及修正多重共线性的方法; 4)学会利用EViews软件进行逐步回归分析,建立正确的计量 经济学模型。
3
如果存在 c1X1i+c2X2i+…+ckXki=0
性(perfect multicollinearity)。 如果存在 c1X1i+c2X2i+…+ckXki+vi=0
i=1,2,…,n
其中: ci不全为0,则称为解释变量间存在完全共线
i=1,2,…,n
其中ci不全为0,vi为随机误差项,则称为 近似共线 性 ( approximate multicollinearity ) 或 交 互 相 关 (intercorrelated)。
1
第8章
多重共线性
◆ 多重共线性及其产生原因
◆ 多重共线性的影响
◆ 多重共线性的检验 ◆ 多重共线性的修正
2
第一节 多重共线性及其产生原因
对于模型 Yi=0+1X1i+2X2i++kXki+i i=1,2,…,n 其基本假设之一是解释变量是互相独立的。 如果某两个或多个解释变量之间出现了相 关性,则称为多重共线性(Multicollinearity)。
j
的临界值比较来进行检验,判定是否存在相关性。此时 如果
F j F ( k 1, n k ) ,拒绝 H 0 ,即认为Xj与其他解释变量X间
存在多重共线性,否则,接受 H 0 , 即认为Xj与其他解释变量X间不 存在多重共线性。
27
1.判定系数检变量 Xj ,估计模型,如果拟合优度
截面数据样本:问题不那么严重,但多重共线性仍然存在。
在模型参数的估计过程中,样本之间的相关是不可避免的,
这是造成多重共线性的客观原因。
9
第二节
多重共线性的影响
1、完全共线性下参数估计量不存在
Y Xβ μ
的OLS估计量为:
ˆ β ( X X ) 1 X Y
如果存在完全共线性,则(X’X)-1不存在,无法得 到参数的估计量。
20
一、 检验多重共线性是否存在 1.简单相关系数检验法
利用解释变量之间的线性相关程度去判断是否存在严 重多重共线性的一种简便方法。
一般而言,如果每两个解释变量的简单相关系数比较 高,如大于0.8,则可认为存在着较严重的多重共线性。
注意 较高的简单相关系数只是多重共线性存在的充分条件, 而不是必要条件。特别是在多于两个解释变量的回归模型 中,有时较低的简单相关系数也可能存在多重共线性。因 此并不能简单地依据相关系数进行多重共线性的准确判断。
不显著。
23
二、 估计多重共线性的范围 1.判定系数检验法 2.行列式检验法 3.方差膨胀(扩大)因子法 4.逐步回归法
24
1.判定系数检验法
设多元回归模型的解释变量为 X1、X2、…、Xk,为分析研究 它们之间的相关关系,需将每个解释变量与其他解释变量进 行回归,可得出k个回归方程式
X ji 0 1 X 1i j 1 X j 1 i j 1 X j 1 i k X ki i i 1, 2, , n,
预测失去意义。
由于参数估计量的方差变大,因而对样本值的反
映十分敏感,即当样本观测值稍有变化时,模型参 数就有很大差异,致使模型难以应用。
17
综上所述
严重的多重共线性常常会导致下列情形出现:
1、使得用普通最小二乘法得到的回归参数估计值很不稳定, 回归系数的方差随着多重共线性强度的增加而加速增长,对 参数难以做出精确的估计; 2、造成回归方程高度显著的情况下,有些回归系数通不过显 著性检验; 3、甚至可能出现回归系数的正负号得不到合理的经济解释。
(3)有些解释变量的回归系数所带正负号与定性分析 结果违背时,可能存在多重共线性。
(4)解释变量的相关矩阵中,解释变量之间的相关系 数较大时,可能会存在多重共线性问题。
22
3.综合统计检验法
对于多个解释变量(2个以上)的回归模型
若 在OLS法下: R2 与 F 值较大,但各参数估计量的 t 检验值较小,说 明各解释变量对Y的联合线性作用显著,但各解释变量间 存在共线性而使得它们对Y的独立作用不能分辨,故t检验