多重共线性

合集下载

第四章 多重共线性

第四章 多重共线性
5
二、产生多重共线性的背景
多重共线性产生的经济背景主要有几种情形: 1.经济变量之间具有相同的变化趋势。 2.模型中包含滞后变量。 3.利用截面数据建立模型也可能出现多重共线性。 4.样本数据的原因。
6
第二节 多重共线性的后果
一、完全多重共线性产生的后果
1.参数的估计值不确定 2.参数估计值的方差无限大
Cov( ˆ2 ,
ˆ3 )

(1

r223 )
r23 2
x22i

x32i
随着共线性增加,r23趋于1,方差将增大。同样 协方差的绝对值也增大,它们增大的速度决定于
方差扩大(膨胀)因子(variance inflation factor, VIF)
VIF

1
1 r223
这时
Var(ˆ2 )
4.多重共线性严重时,甚至可能使估计的回归系数 符号相反,得出完全错误的结论。(如引例)
18
第三节 多重共线性的检验
本节基本内容: 简单相关系数检验法 方差扩大因子法 直观判断法 病态指数检验法 逐步回归法
19
一、简单相关系数检验法 简单相关系数检验法是利用解释变量之间的线性 相关程度去判断是否存在严重多重共线性的一种 简便方法。适用于只有两个变量的情形。

2

x32i 0

同理
ˆ3
这说明完全多重共线性时,参数估计量的方差将 变成无穷大。
9
关于方差的推导
Var(ˆ2 )

x32i (x22i ) (x32i )
(x2i x3i )2

2
1 X21 X 1 X22
1 X2n

多重共线性

多重共线性

多重共线性多重共线性(multicollinearity )的特征● 多重共线性是指一个回归模型中的一些或全部解释变量之间存在有一种“完全”或准确的线性关系:0...2211=+++k k X X X λλλ其中k λλλ,...,,21为常数,但不同时为零。

● 0...2211≈+++k k X X X λλλ, 近似的多重共线性● 通过巴伦坦图做简单的描述。

共线性部分可用两圆圈的重叠部分来衡量。

重叠部分越大,共线性程度越高。

● 我们定义的多重共线性仅对X 变量之间的线性关系而言,它们之间的非线性关系并不违反无多重共线性的假设i i i i u X X Y +++=2210βββ多重共线性的后果●如果多重共线性是完全的,诸X变量的回归系数将是不正确的,并且它们的标准误差为无穷大●如果多重共线性是不完全的,那末,虽然回归系数可以确定,却有较大的标准误差,意思是,系数不能以很高的精确或准精确加以估计,这会导致:-参数估计不精确,也不稳定-参数估计量的标准差较大,影响系数的显著性检验●多重共线性产生的后果具有一定的不确定性●在近似的多重共线性的情况下,只要模型满足CLRM 假定,回归系数就为BLUE,但特定的样本估计量并不一定等于真值。

多重共线性的来源(1)许多经济变量在时间上由共同变动的趋势,如:收入,投资,消费(2)把一些经济变量的滞后值也作为解释变量在模型中使用,而解释变量和滞后变量通常相关,如:消费和过去的收入多重共线性一般与时间序列有关,但在横截面数据中也经常出现多重共线性的检验● 多重共线性是普遍存在的,造成的后果也比较复杂,对多重共线性的检验缺少统一的准则- 对有两个解释变量的模型,作散点图,或相 关系数,或拟和优度R平方。

- 对有多个解释变量的模型,分别用一个解释 变量对其它解释变量进行线性回归,计算拟 和优度22221,...,,k R R R- 考察参数估计值的符号,符不符合理论 - 增加或减少解释变量,考察参数估计值的变 化- 对比拟和优度和t检验值多重共线性的修正方法● 增加样本观测值,如果多重共线性是由样本引起的,可以通过收集更多的观测值增加样本容量。

计量经济学第四章多重共线性

计量经济学第四章多重共线性

R-squared
0.989654
Adjusted R-squared 0.986955 S.E. of regression 1437.448 Sum squared resid 47523916 Log likelihood -256.7013 Durbin-Watson stat 1.654140
4
(二)不完全的多重共线性
实际中,常见的情形是解释变量之间存在不 完全的多重共线性。
对于解释变量 X 2 , X 3, X k,存在不全为0的数
1
,

2
,
,使得
k
1 2X2 3X3 ...k Xk u 0
5
(三)解释变量的关系小节
可能表现为三种情形: r为相关系数 (1) rxixj 0 ,解释变量间毫无线性关系。这时多元
Var(ˆ2 )
9
二、不完全多重共线性产生的后果
1、参数估计值的方差增大
Var( βˆ 2 ) = σ 2
1 x22i (1-
r223 )
=
σ2
1
x22i (1 - r223 )
当 r23增大时,
^
Var( 2)
也增大
10
方差膨胀因子 (Variance Inflation Factor)
17 17
2、交叉相关系数(Cross correlation)
相关系数计算的是两组样本的同期相关程 度,交叉相关则可以表示不同期之间的相关 程度。
Eviews操作: Group窗口的view/cross correlation/输入 滞后期设定/ 输出结果阅读:看是否超出2倍标准差线
18
2倍 标准 差线
1、参数估计值有很大的偶然性。 2、参数显著性检验未通过。 3、经济意义检验未通过。 4、相关系数大。

多重共线性

多重共线性

第二章知多元线性回归模型参数向量的最小二乘估计量为: 1 X X X Y 这一表达式成立的前提条件是解释变量X 1 , X 2 , X k 之间没有多重共线性. 如果矩阵X 不是满秩的,则X X 也不是满秩的.必有: X X 0, 从而 X X 不存在, OLS失效, 此时称该模型存在完全的多重共线性.
解释变量的精确线性组合表示,它们的相关系数的绝对值为1.
X s ,h =
Var X is Var X ih ch cs
n
Cov( X is , X ih )


n
n i 1
( X is X is )( X ih X ih )
2
i1 ( X is X is )
则:
x y x
i1 i 2 i1
, 而1与 2却无法估计.
2 在近似共线性下OLS参数估计量的方差变大
我们前面已论述, 在近似共线性下,虽然可以得到OLS估计量: ) X X 1 2 Var (

由于此时 X X 0, 引起 X X 主对角线元素较大, 即 i的方差较大.
1
对此, 如果我们合并两个(或多个)高度线性相关的变量, 可以使用OLS , 但两个(或多个)变量前的参数将无法估计. 例如,对于回归模型:Yi 0 1 X i1 2 X i 2 i i 1, 2 , n 如果有:X i 2 X i1 , 合并两变量 : Yi 0 1 2 X i1 i , 令 1 2 ,
n
( X ih X ih ) i1
n 2
2
1 X s , h 1 在近似的多重共线性下则得不到这样的精确线性组合, 它们的相关系数的绝对值近似为1.

第四章多重共线性

第四章多重共线性

2
x2j VIFj
注意:R2j 是多个解释变量辅助回归的多重可决系数,
而相关系数 r223只是说明两个变量的线性关系 。
(一元回归中可决系数的数值等于相关系数的平方)
17
方差扩大因子的作用

R2j 越大
VIFJ 1 (1 R2j ) 多重共线性越严重
VIFj越大
VIFj的大小可以反映解释变量之间存在多重共线性的严重
1 x22i (1
r223 )
2
x22i
1 (1 r223)
2
x22i
VIF2
当 r23 增大时,VIF2 增大, Var(ˆ2 ) 也会增大 ,
思考: 当 r23 0 时 Var(ˆ2) 2
x22i
(与一元回归比较)
当 r23 1 时 Var(ˆ2 )
(见前页结论) 8
三、当多重共线性严重时,甚至可能使估计
在总体中部分或全部解释变量可能没有线性关系,但是 在具体获得的样本中仍可能有共线性关系,因此多重共线 性问题本质上是一种样本现象。
正因为如此,我们无法对多重共线性问题进行统计假设 检验,只能设法评价解释变量之间多重共线性的严重程度。
5
第二节 多重共线性产生的后果
从参数估计看,在完全无多重共线性时,各解释变量都独
Kt
Kt
ln Qt ln A ln Lt ln Kt ln u
(ln Lt 与 ln Kt 有多重共线性) ln Qt ln A ln Lt ln u
Kt
Kt 22
三、截面数据与时间序列数据的结合
有时在时间序列数据中多重共线性严重的变量,在截 面数据中不一定有严重的共线性
假定前提:截面数据估计出的参数在时间序列中变化不大

第七章 多重共线性

第七章 多重共线性

2
X 1i 1 r 2
2
ˆ 同理:Var b2

2
X 2i 1 r 2
2
第二节
多重共线性的影响后果
2
ˆ 当完全不共线时,r=0, Var b1
X
2 1i
当不完全共线时,r越接近1,相关程度越高, bi Var ˆ 越大,参数估计值越不准确。
第四节
多重共线性的解决方法
三、逐步回归法 (1)计算因变量对每一个解释变量的回归方程,并分别 进行统计检验,从中选取最合适的基本回归方程。 (2)逐一引入其他解释变量,重新进行回归,在模型中 每个解释变量均显著,参数符号正确, R 2 值有所提高的前 提下,从中再选取最合适的二元回归方程。 (3)在选取的二元回归方程的基础上以同样的方式引 入第三解释变量;如此引入,直至无法引入新变量为止。
第四节
多重共线性的解决方法
(2)如果历年的平均收入弹性与近期的收入弹性 近似相等,就可以用 a2代替原模型中的 b2 。将原模 ln y a2 ln I b0 b1 ln P 型变为 y1 ln y a2 ln I 令:
p1 ln P 再利用时间序列数据求出价格弹性 b1 以及 b0即可。
第四节
多重共线性的解决方法
二、间接剔除重要的解释变量 1、利用已知信息 所谓已知信息,就是在建立模型之前,根据经 济理论、统计资料或经验分析,已知的解释变量之 间存在某种关系。为了克服模型的多重共线性,可 以将解释变量按已知关系加以处理。
第四节
多重共线性的解决方法
例如:柯布-道格拉斯生产函数
y aL K e
ln y / K ln a ln L / K

多重共线性(统计累赘)的概念、特征及其测量方式和处理方式

多重共线性(统计累赘)的概念、特征及其测量方式和处理方式

试述多重共线性(统计累赘)的概念、特征及其测量方式和处理方式。

1、概念多重共线性是指自变量之间存在线性相关关。

倘若其中两个自变项的关系特别强,则在相互控制后就会使每者的效果减弱,而其他的变相的效果就会因此而增大。

2、特征3、产生原因产生多重相关性的原因主要包括四方面。

一是没有足够多的样本数据; 二是选取的自变量之间客观上就有共线性的关系; 还可能由其它因素导致, 如数据采集所用的方法, 模型设定, 一个过度决定的模型等。

但多数研究者认为共线性本质上是由于样本数据不足引起的。

4、测量方式(1)经验式的诊断方法通过观察,得到一些多重相关性严重存在的迹象。

①在自变量的简单相关系数矩阵中,有某些自变量的相关系数值较大。

②回归系数的代数符号与专业知识或一般经验相反;或者该自变量与因变量的简单相关系数符号相反。

③对重要自变量的回归系数进行t 检验,其结果不显著。

特别是当F 检验能在高精度下通过,测定系数R 2的值也很大,但自变量的t 检验却全都不显著,这时多重相关性的可能将会很大。

④如果增加或删除一个变量,或者增加或删除一个观测值,回归系数发生了明显的变化。

⑤重要自变量的回归系数置信区别明显过大。

⑥在自变量中,某一个自变量是另一部分自变量的完全或近似完全的线性组合。

⑦对于一般的观测数据,如果样本点的个数过少,比如接近于变量的个数或者少于变量的个数,样本数据中的多重相关性就会经常存在。

(2)统计检验方法共线性的诊断方法是基于对自变量的观测数据构成的矩阵X ’X 进行分析,使用各种反映自变量间相关性的指标。

共线性诊断常用的统计量有方差膨胀因子VIF 或容限TOL 、条件指数和方差比例等。

方差膨胀因子VIF 是指回归系数的估计量由于自变量的共线性使其方差增加的一个相对度量。

对于第i 个回归系数,它的方差膨胀因子定义为:VIF=1/1-R 2=1/TOL i 其中R2i 是自变量Xi 对模型中其余自变量线性回归模型的R 平方。

多重共线性讲义

多重共线性讲义
当存在不完全多重共线性时,从上面已经知道,参数的OLS估计量方差 较大,其标准误也就较大,从而使得参数估计量的精度较低。
9
3.参数估计量经济含义不合理 如果模型中两个解释变量具有线性相关性,例如 X2= X1 ,这时,X1和
X2前的参数1、2并不反映各自与被解释变量之间的结构关系,而是反映它 们对被解释变量的共同影响。1、2已经失去了应有的经济含义,于是经常 表现出似乎反常的现象:例如1本来应该是正的,结果恰是负的。
如果存在 c1X1i+c2X2i+…+ckXki+vi=0 i=1,2,…,n
其中ci不全为0,vi为随机误差项,则称为 不完全多重共线性或欠完 全多重共线性(approximate multicollinearity)。
4
7.2.产生多重共线性的原因
一般地,产生多重共线性的主要原因有以下四个方面: (1)经济变量相关的共同趋势 时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、 投资、价格)都趋于增长;衰退时期,又同时趋于下降。 横截面数据:生产函数中,资本投入与劳动力投入往往出现高度 相关情况,大企业二者都大,小企业都小。 (2)滞后变量的引入 在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济 关系。 例如,消费=f(当期收入, 前期收入),显然,两期收入间有较强的 线性相关性。
14
15
2、辅助回归法
利用模型中每一个解释变量分别以其余解释变量为解释变量进行回归, 并计算相应的拟合优度。
如果某一种回归 X j c 1X1 2 X 2 ... j1X j1 j1X j1 ... k X k
的判定系数较大,说明Xj与其他X间存在共线性。 判别的标准是回归模型是否通过F检验。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第四章 多重共线性第一节 什么是多重共线性一、多重共线性的含义所谓多重共线性,不仅包括解释变量之间完全(精确)的线性关系,还包括解释变量之间近似的线性关系。

对于解释变量23,,,k X X X ,如果存在不全为零的数123,,,,k λλλλ ,能使得12233i i k ki X X X λλλλ++++ =0 ,(i =1,2,,n )——即解释变量的数据矩阵的列向量组线性相关。

则称解释变量23,,,k X X X 之间存在着完全的线性关系。

用数据表示,解释变量的数据矩阵为X =213112232223111k k nnkn X X X XX X X X X ⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦当()r X <k 时,也说明解释变量23,,,k X X X 之间存在着完全的线性关系。

当存在完全共线性时,至少有一个变量(列向量)可以用其余的变量(列向量)线性表出。

在实际问题中,完全的共线性并不多见。

常见的情形是解释变量23,,,k X X X 之间存在不完全的共线性,这是指存在不全为零是数123,,,,k λλλλ ,使得12233λλλλ+++++ i i k ki i X X X v =0(i =1,2,,n )其中i v 是随机变量。

这表明此时解释变量之间只是一种近似的线性关系。

二、产生多重共线性的背景1.经济变量之间具有共同的变化趋势2.模型中包含滞后变量3.利用截面数据建立模型也可能出现共线性4. 样本数据自身的原因第二节 多重共线性产生的后果完全共线性时,矩阵X X '不可逆,参数估计式ˆβ=1()X X X Y -''不存在,OLS 无法应用。

不完全的共线性时,1()X X -'也存在,可以得到参数的估计值,但是对计量经济分析可能会产生一系列影响。

一、参数估计量的无偏性依然成立不完全共线性时ˆ()E β=1()E X X X Y -''⎡⎤⎣⎦=1()()E X X X X U β-''⎡⎤+⎣⎦=β+()1()X X X E U -''=β二、参数OLS 估计值方差扩大 如二元回归模型i Y =12233i i i X X u βββ+++中的2X 与3X 为不完全的共线性时,2X 与3X 之间的相关系数23r 可由下式给出223r=2232223()x x x x∑∑∑容易证明2ˆ()Var β=222223(1)i x r σ-∑3ˆ()Var β=222323(1)ixr σ-∑随着共线性的程度增加,23r 的绝对值趋于1,两个参数估计量的方差也增大。

方差扩大的速度决定于方差扩大因子VIF 。

VIF=22311r - 当223r 趋于1时,VIF 趋于无穷大;当223r 等于0时,VIF 将是1。

三、对参数进行区间估计时,置信区间变大 四、假设检验容易做出错误判断 第三节 多重共线性的检验 一、根据回归结果判别判别是否存在多重共线性的最简单(方便)方法是分析回归结果: 如果 发现参数估计值的符号不对某些重要的解释变量t 值低,而R 2不低当一个不太重要的解释变量被删除后,回归结果显著变化则可能存在多重共线性。

其中上述第二种现象是多重共线性存在的典型迹象。

二、简单相关系数检验法如果解释变量间的相关矩阵中,自变量之间的相关系数(简单相关系数)较大时,则可以认为可能存在着较严重的多重共线性。

但是要注意,简单相关系数较高只是多重共线性存在的充分条件,而不是必要条件。

三、方差膨胀因子(VIF )法VIF 是方差膨胀因子(Variance Inflation Factor )的缩写,这是一种比较正规的检验方法。

该方法通过检验指定的解释变量被回归方程中其它全部解释变量所解释的程度来检测多重共线性。

方程中每个解释变量对应一个VIF ,该VIF 是该解释变量相应的系数估计值的方差扩大了多少倍的一个估计值。

高VIF 表明多重共线性扩大了参数估计值的方差,从而产生了一个缩小了的t 值。

检验步骤如下:设原方程为i Y =12233ββββ+++++ i i k ki i X X X u我们可以计算k 个VIF ,每个Xj 对应一个。

为指定的Xj 计算VIF 涉及以下三步: (1)Xj 对原方程中其它全部解释变量进行OLS 回归,即j X =1221111--++++++++ j j j j k k a a X a X a X a X ,(j =2,, k )拟合优度为2j R 。

(2)计算ˆiβ的方差膨胀因子(VIF ) 可以证明,解释变量Xj 参数估计量jˆβ的方差可表示为 ˆ()βj Var =22211σ-∑j jx R =22σ∑j j VIF x 即 j VIF =211-jR (3)分析多重共线性的程度VIF 越高,多重共线性越严重。

没有VIF 临界值表,一般认为VIF>10作为存在严重多重共线性的标准。

需要指出的是,所有VIF 都低,并不能排除严重多重共线性的存在,这与使用相关系数的情况相似。

四、通过条件指数检验(∆)条件指数(Condition Index )是X X '矩阵的最大和最小特征根之比的平方根,指数高,表明存在多重共线性。

也没有条件指数的临界值表,通常认为,大于10即判断存在多重共线性,大于30表明存在严重多重共线性。

第四节 多重共线性的补救措施解决多重共线性问题的思路是利用额外信息或去除共线性的变量,常用的具体方法包括以下几种。

一、增加数据多重共线性实质上是样本(数据)问题。

具体数据之间高度相关的变量,理论上未必高度相关,反之亦然。

因此,用增加观测值、利用不同的数据集或采用新的样本等方法,就有可能消除或降低多重共线性的程度。

如在需求函数i Y =123βββ+++i i i X P u (i =1,2,, n )在时间序列数据中,收入X 和价格P 往往是高度相关的,用时间序列数据估计会产生多重共线性。

然而,在截面数据中则不存在这个问题,因为在某个时间点上P 为常数。

如果取一组截面样本(如5000个家庭),可先估计i Y =12αα++i i X u然后将得到的估计值2ˆα作为一个约束条件(2β=2ˆα)施加于时间序列数据的回归计算中,即估计i Y =123ˆβαβ+++i i i X P u也就是2ˆα-i i Y X =13ββ++i i P u 得到1ˆβ和3ˆβ。

二、对模型施加某些约束条件在存在多重共线性的模型中,依据经济理论施加某些约束条件,将减小参数估计值的方差,如在柯布---道格拉斯生产函数中加进规模效益不变的约束,可解决资本和劳动的高度相关而引起的多重共线性问题。

i Y = i u i i AK L e αβ,i =1,2,,nln i Y = ln ln ln i i i A K L u αβ+++假若规模报酬不变,即αβ+=1 ,将β=1α-代入模型,得到lni iY L = ln ln i i i KA u L α++三、删除一个或几个共线性变量(可用逐步回归实现)这样做,实际上就是利用给定数据估计较少的参数,从而降低对观测信息的需求,以解决多重共线性问题。

删除那些变量,可根据假设检验的结果确定。

应当注意,这样做的结果可能使先前设定的理论模型面目全非,并使得到的参数估计量产生偏倚,因此需要权衡利弊。

四、将模型适当变形 如某商品的需求函数为Q =1234ββββ*++++X P P u式中,Q 为需求量,X 为收入,P 为该商品的价格,*P 为替代商品的价格。

在实际数据中,P 和*P 之间存在高度相关,它们往往同方向变动,模型存在多重共线性。

如果我们仅要求在知道两种商品相对价格变动时对需求量进行预测,则可将需求函数变形为Q =123()γγγ*+++PX v P 就可以解决该模型的多重共线性问题。

在有滞后变量的情形i Y =1231βββ-+++i i i X X u一般而言,i X 和1-i X 往往高度相关,将模型变形为i Y =12131()βββ--'+-++i i i i X X X u 其中,3β'=3β+2β经验表明,∆i X 和1-i X 的相关程度要远远小于i X 和1-i X 的相关程度,因而这种变换有可能消除或减轻多重共线性。

模型的变换有时会不可避免的丢失一部分样本的信息。

五、主成分法(∆)可将共线性变量组合在一起形成一个综合指数(变量),用它来代替这组变量。

构造综合指数的最常用方法是主成分法,做法是对全部解释变量运用主成分分析以得到主成分,每个主成分都是全部解释变量的线性组合,如1C =2233ααα+++ k k X X X其系数23,,,ααα k 的计算涉及X X '矩阵的特征根、计算迭代过程和取值标准,这里不作介绍。

读者需要了解的是,主成分法的特点是,各主成分之间互不相关,并且用很少几个主成分就可以解释全部X 变量的绝大部分方差,因而在出现多重共线性时,可以用主成分替代原有解释变量进行回归计算,然后再将所得到的参数估计值还原成原模型中的参数估计值。

六、岭回归法(∆) (略)处理多重共线性问题时也有人总结以下原则:(1)多重共线性是普遍存在的,轻微的多重共线性问题可不采取措施。

(2)严重的多重共线性问题,一般可根据经验或通过分析回归结果发现。

例如,参数估计值的符号,重要解释变量的t值偏低。

要根据不同情况采取必要措施。

(3)如果模型仅用于预测,则只要拟合程度好,可不处理多重共线性问题。

存在多重共线性的模型用于预测时,往往不影响预测结果。

相关文档
最新文档