多重共线性
多重共线性

多重共线性多重共线性(multicollinearity )的特征● 多重共线性是指一个回归模型中的一些或全部解释变量之间存在有一种“完全”或准确的线性关系:0...2211=+++k k X X X λλλ其中k λλλ,...,,21为常数,但不同时为零。
● 0...2211≈+++k k X X X λλλ, 近似的多重共线性● 通过巴伦坦图做简单的描述。
共线性部分可用两圆圈的重叠部分来衡量。
重叠部分越大,共线性程度越高。
● 我们定义的多重共线性仅对X 变量之间的线性关系而言,它们之间的非线性关系并不违反无多重共线性的假设i i i i u X X Y +++=2210βββ多重共线性的后果●如果多重共线性是完全的,诸X变量的回归系数将是不正确的,并且它们的标准误差为无穷大●如果多重共线性是不完全的,那末,虽然回归系数可以确定,却有较大的标准误差,意思是,系数不能以很高的精确或准精确加以估计,这会导致:-参数估计不精确,也不稳定-参数估计量的标准差较大,影响系数的显著性检验●多重共线性产生的后果具有一定的不确定性●在近似的多重共线性的情况下,只要模型满足CLRM 假定,回归系数就为BLUE,但特定的样本估计量并不一定等于真值。
多重共线性的来源(1)许多经济变量在时间上由共同变动的趋势,如:收入,投资,消费(2)把一些经济变量的滞后值也作为解释变量在模型中使用,而解释变量和滞后变量通常相关,如:消费和过去的收入多重共线性一般与时间序列有关,但在横截面数据中也经常出现多重共线性的检验● 多重共线性是普遍存在的,造成的后果也比较复杂,对多重共线性的检验缺少统一的准则- 对有两个解释变量的模型,作散点图,或相 关系数,或拟和优度R平方。
- 对有多个解释变量的模型,分别用一个解释 变量对其它解释变量进行线性回归,计算拟 和优度22221,...,,k R R R- 考察参数估计值的符号,符不符合理论 - 增加或减少解释变量,考察参数估计值的变 化- 对比拟和优度和t检验值多重共线性的修正方法● 增加样本观测值,如果多重共线性是由样本引起的,可以通过收集更多的观测值增加样本容量。
第四章 多重共线性

2
( x2 i x3 i ) 2 x [1 2 x3 i
2 2i
2
2 2 x2 i (1 r23 )
ˆ Var( 3 ) 同样可得
2
2 2 x3 i (1 r23 )
ˆ ˆ Cov( 2 , 3 )
r23 2
2 2 2 (1 r23 ) x2 i x3 i
1 X X 21 X 31
1 X 22 X 32
1 X 2n X 3n
nX 3 X 2 i X 3 i 2 X 3 i
X 2 i
2 X 2 i X 2 i X 3 i
X 3 i n nX 2 2 X 2 i X 3 i nX 2 X 2 i 2 X 3 i nX 3 X 2 i X 3 i
其中vi为随机变量,则称解释变量X2、X3、 …、 Xk 之间存在着不完全的多重共线性。 注意:解释变量之间不存在线性关系,并非不存在 非线性关系,当解释变量之间存在非线性关 系时,并不违反古典假定。
5
二、产生多重共线性的背景
多重共线性产生的经济背景主要有几种情形:
1.经济变量之间具有相同的变化趋势。
10
n X X nX 2 nX 3 n 0
nX 2 X
2 2i
nX 3 X 2 i X 3 i
2 X 3 i
X 2 i X 3 i nX 2
2 2 X 2 i nX 2
X 2 i x2 i X 2 X 3 i x3 i X 3
nX 3
X 2 i X 3 i nX 2 X 3
这里r23是X2,X3的相关系数。
16
计量经济学第四章多重共线性

R-squared
0.989654
Adjusted R-squared 0.986955 S.E. of regression 1437.448 Sum squared resid 47523916 Log likelihood -256.7013 Durbin-Watson stat 1.654140
4
(二)不完全的多重共线性
实际中,常见的情形是解释变量之间存在不 完全的多重共线性。
对于解释变量 X 2 , X 3, X k,存在不全为0的数
1
,
2
,
,使得
k
1 2X2 3X3 ...k Xk u 0
5
(三)解释变量的关系小节
可能表现为三种情形: r为相关系数 (1) rxixj 0 ,解释变量间毫无线性关系。这时多元
Var(ˆ2 )
9
二、不完全多重共线性产生的后果
1、参数估计值的方差增大
Var( βˆ 2 ) = σ 2
1 x22i (1-
r223 )
=
σ2
1
x22i (1 - r223 )
当 r23增大时,
^
Var( 2)
也增大
10
方差膨胀因子 (Variance Inflation Factor)
17 17
2、交叉相关系数(Cross correlation)
相关系数计算的是两组样本的同期相关程 度,交叉相关则可以表示不同期之间的相关 程度。
Eviews操作: Group窗口的view/cross correlation/输入 滞后期设定/ 输出结果阅读:看是否超出2倍标准差线
18
2倍 标准 差线
1、参数估计值有很大的偶然性。 2、参数显著性检验未通过。 3、经济意义检验未通过。 4、相关系数大。
多重共线性

第二章知多元线性回归模型参数向量的最小二乘估计量为: 1 X X X Y 这一表达式成立的前提条件是解释变量X 1 , X 2 , X k 之间没有多重共线性. 如果矩阵X 不是满秩的,则X X 也不是满秩的.必有: X X 0, 从而 X X 不存在, OLS失效, 此时称该模型存在完全的多重共线性.
解释变量的精确线性组合表示,它们的相关系数的绝对值为1.
X s ,h =
Var X is Var X ih ch cs
n
Cov( X is , X ih )
n
n i 1
( X is X is )( X ih X ih )
2
i1 ( X is X is )
则:
x y x
i1 i 2 i1
, 而1与 2却无法估计.
2 在近似共线性下OLS参数估计量的方差变大
我们前面已论述, 在近似共线性下,虽然可以得到OLS估计量: ) X X 1 2 Var (
由于此时 X X 0, 引起 X X 主对角线元素较大, 即 i的方差较大.
1
对此, 如果我们合并两个(或多个)高度线性相关的变量, 可以使用OLS , 但两个(或多个)变量前的参数将无法估计. 例如,对于回归模型:Yi 0 1 X i1 2 X i 2 i i 1, 2 , n 如果有:X i 2 X i1 , 合并两变量 : Yi 0 1 2 X i1 i , 令 1 2 ,
n
( X ih X ih ) i1
n 2
2
1 X s , h 1 在近似的多重共线性下则得不到这样的精确线性组合, 它们的相关系数的绝对值近似为1.
第8章 多重共线性

2011.11
经济学院计统系SLZ
18
Var(βˆ 2 )
=
σ2 Σx22(1 −
γ
2 23
)
注:
由于:r223 =(ΣΣxx222Σxx3)232
因为 − 1 ≤
r23
≤ 1,
所以 1 1 − r223
≥
1
特别:x2、x3不存在共线性时,r23
=
0,
Var(βˆ 2)=
σ2 Σx22
x2 、x3存在不完全共线性时,
r23
≠
0,
Var(βˆ 2)=
σ2 Σx22
×
1
1 − r223
估计值的方差会随解释 变量共线性的高、低变 化,即随
1 增大而增大而增大。如 1 − r223
r223
=
0.5,0.9,0.99时, 1
1 − r223
= 2,10,100
2011.11
经济学院计统系SLZ
19
多重共线性的实际后果
多重共线性:值得注意的是,即使存在不完全共 线 关 系 ,OLS 估 计6).但这并不意味着其方差值也较 小.
4.统计资料的原因:样本存在某种程度的 多重共线性时,由于样本信息的匮乏,往 往也采用。
2011.11
经济学院计统系SLZ
9
四、多重共线的理论后果
β^=(X'X)-1X'Y, Var(β^)=σ2(X'X)-1
(一) 完全共线性后果
1.参数估计值不确定
例:二元线性回归模型:
Y = β1 + β2X2 + β3X3 + u
1i
i
2i
第四章多重共线性

2
x2j VIFj
注意:R2j 是多个解释变量辅助回归的多重可决系数,
而相关系数 r223只是说明两个变量的线性关系 。
(一元回归中可决系数的数值等于相关系数的平方)
17
方差扩大因子的作用
由
R2j 越大
VIFJ 1 (1 R2j ) 多重共线性越严重
VIFj越大
VIFj的大小可以反映解释变量之间存在多重共线性的严重
1 x22i (1
r223 )
2
x22i
1 (1 r223)
2
x22i
VIF2
当 r23 增大时,VIF2 增大, Var(ˆ2 ) 也会增大 ,
思考: 当 r23 0 时 Var(ˆ2) 2
x22i
(与一元回归比较)
当 r23 1 时 Var(ˆ2 )
(见前页结论) 8
三、当多重共线性严重时,甚至可能使估计
在总体中部分或全部解释变量可能没有线性关系,但是 在具体获得的样本中仍可能有共线性关系,因此多重共线 性问题本质上是一种样本现象。
正因为如此,我们无法对多重共线性问题进行统计假设 检验,只能设法评价解释变量之间多重共线性的严重程度。
5
第二节 多重共线性产生的后果
从参数估计看,在完全无多重共线性时,各解释变量都独
Kt
Kt
ln Qt ln A ln Lt ln Kt ln u
(ln Lt 与 ln Kt 有多重共线性) ln Qt ln A ln Lt ln u
Kt
Kt 22
三、截面数据与时间序列数据的结合
有时在时间序列数据中多重共线性严重的变量,在截 面数据中不一定有严重的共线性
假定前提:截面数据估计出的参数在时间序列中变化不大
多重共线性

可见,主成分回归分析解决多重共线性问题 是通过降维的处理而克服多元共线性的影响, 正确表征变量间的关系。 然而,由于PCR提取X的主成分是独立于因变 量Y而进行的,没有考虑到X对Y的解释作用, 这就增加了所建模型的不可靠性。
3、偏最小二乘回归
针对多元共线性干扰问题,S.Wold和C.Alban 在1983年提出了偏最小二乘回归(Partia Least Squares Regression,简称PLSR)方法。 PLSR方法吸取了主成分回归分析从自变量中 提取信息的思想,同时还考虑了自变量对因 变量的解释问题。
情况二: 出现强影响观测值
进入20世纪80年代后期,人们开始关注 单个或几个样本点对多重共线性的影响。 研究表明,存在两类这样的数据点或点 群:(1)导致或加剧多重共线性 (2)掩盖 存在着的多重共线性。
(a)中因异常观测值的 出现而掩盖了共线 性,(b)中因异常观测值 的出现而产生了共线性。 这样的异常观测值称为 多元共线性强影响观测 值。显然这种观测值会 对设计矩阵的性态产生 很大影响,从而影响参 数估计。
(2)特征根系统(system of eigenvalues) 主要包括条件指数和方差比。条件指数是最 大特征根与每个特征根之比的平方根。当 h j0.5 10 且对应的方差比大于 时,可认为多元共 线性严重存在。
此外,还有几种方法可以进行共线性诊断: 1、自变量的相关系数诊断法 2、多元决定系数值诊断法 3、行列式判别法 4、回归系数方差分解法(RCVD法)
Walker在1989年发展了一种多元共线影响点 的奇异值分解(SVD)的诊断技术。该法在实 践中很有效,但它依据奇异值分解计算较为 繁琐,更为严重的是对多重共线性影响点诊 断的遗漏。另外,我国学者赵进文曾提出多 重共线性影响点的主成分诊断法。
多重共线性

第四章 多重共线性第一节 什么是多重共线性一、多重共线性的含义所谓多重共线性,不仅包括解释变量之间完全(精确)的线性关系,还包括解释变量之间近似的线性关系。
对于解释变量23,,,k X X X ,如果存在不全为零的数123,,,,k λλλλ ,能使得12233i i k ki X X X λλλλ++++ =0 ,(i =1,2,,n )——即解释变量的数据矩阵的列向量组线性相关。
则称解释变量23,,,k X X X 之间存在着完全的线性关系。
用数据表示,解释变量的数据矩阵为X =213112232223111k k nnkn X X X XX X X X X ⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦当()r X <k 时,也说明解释变量23,,,k X X X 之间存在着完全的线性关系。
当存在完全共线性时,至少有一个变量(列向量)可以用其余的变量(列向量)线性表出。
在实际问题中,完全的共线性并不多见。
常见的情形是解释变量23,,,k X X X 之间存在不完全的共线性,这是指存在不全为零是数123,,,,k λλλλ ,使得12233λλλλ+++++ i i k ki i X X X v =0(i =1,2,,n )其中i v 是随机变量。
这表明此时解释变量之间只是一种近似的线性关系。
二、产生多重共线性的背景1.经济变量之间具有共同的变化趋势2.模型中包含滞后变量3.利用截面数据建立模型也可能出现共线性4. 样本数据自身的原因第二节 多重共线性产生的后果完全共线性时,矩阵X X '不可逆,参数估计式ˆβ=1()X X X Y -''不存在,OLS 无法应用。
不完全的共线性时,1()X X -'也存在,可以得到参数的估计值,但是对计量经济分析可能会产生一系列影响。
一、参数估计量的无偏性依然成立不完全共线性时ˆ()E β=1()E X X X Y -''⎡⎤⎣⎦=1()()E X X X X U β-''⎡⎤+⎣⎦=β+()1()X X X E U -''=β二、参数OLS 估计值方差扩大 如二元回归模型i Y =12233i i i X X u βββ+++中的2X 与3X 为不完全的共线性时,2X 与3X 之间的相关系数23r 可由下式给出223r=2232223()x x x x∑∑∑容易证明2ˆ()Var β=222223(1)i x r σ-∑3ˆ()Var β=222323(1)ixr σ-∑随着共线性的程度增加,23r 的绝对值趋于1,两个参数估计量的方差也增大。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六章 多重共线性问题
一、 实验目的
熟练使用EViews 软件进行计量分析,理解多重共线性的检验和估计的基本方法。
二、 基本知识点:
多重共线性的基本概念,多重共线性的后果,检验是否存在的基本方法——样本决定系数检验、参数估计值的经济检验和参数估计值的统计检验,多重共线性的解决办法——逐步回归法。
三、 实验内容及要求:
依据经济学理论,以实际数据(实验数据五)为基础,①建立反映天津市粮食市场需求状况的粮食需求函数。
②检验所建立的粮食需求函数是否存在多重共线性。
③如果存在多重共线性,使用恰当的方法加以解决。
四、 实验指导:
经分析,影响国内旅游市场收入的主要因素,除了国内旅游人数和旅游支出以外,还可能与相关基础设施有关。
为此,考虑的影响因素主要有国内旅游人数X1,城镇居民人居旅游支出X2、农村居民人均旅游支出X3、公路里程X4和铁路里程X5。
为此设定如下的对数形式的计量经济模型:t t t t t t t X X X X X Y μββββββ++++++=54321543210
Y t ——第年全国旅游收入; X1t ——国内旅游人数(万人); X2t ——城镇居民人均旅游支出(元); X3t ——农村居民人均旅游支出(元); X4t ——公路里程(万公里); X5t ——铁路里程(万公里)。
数据见实验指导数据五,来源于《中国统计年鉴年》
STEP1:参数估计
在Eviews 中点击NEW 项,建立Workfile 输入Y 、X1、X2、X3、X4、X5的数据。
点 击Quick ,选Estimate Equation 项,在OLS 对话框中,键入Y C X1 X2 X3 X4 X5,输出结果。
见图6.4.1。
Dependent Variable: Y Method: Least Squares Date: 12/12/10 Time: 08:35 Sample: 1994 2006 Included observations: 13
Variable
Coefficient Std. Error t-Statistic Prob. C 658.4612 1822.588 0.361278 0.7285 X1 0.046675 0.006842 6.821912 0.0002 X2 6.161783 1.608916 3.829772 0.0065 X3 2.372393 1.083468 2.189629 0.0647 X4 1.134097 1.417467 0.800087 0.4500 X5
-853.5124
426.8085
-1.999755
0.0857
R-squared
0.996586 Mean dependent var 3201.408 Adjusted R-squared 0.994148 S.D. dependent var 1552.189 S.E. of regression 118.7417 Akaike info criterion 12.69582 Sum squared resid 98697.10 Schwarz criterion 12.95656 Log likelihood -76.52280 F-statistic 408.7042 Durbin-Watson stat
1.368523 Prob(F-statistic)
0.000000
图6.4.1 Eviews 输出的回归结果
分析:模型R 2
=0.996586 0.9941482=R 可决系数很高,F 检验值408.7042,显著。
但当α=5%时,t 统计值=2.776,X3、X4和X5系数的t 检验不显著,同时X5的系数否好不符合实际,这表明很可能存在多重共线性。
STEP2:检验
计算各解释变量的相关系数,选择X1、X2、X3、X4、X5数据,点击“quick\group statistics\correlation ”的相关系数矩阵,见表6.4.1。
有相关系数矩阵可以看出:各解释变量相关之间的相关系数较高,证实存在严重多重共线性。
表6.4.1 自变量相关系数矩阵
STEP3:消除多重共线性
采用逐步回归的办法,检验和解决多重共线性问题。
分别作Y 对X1、X2、X3、X4、X5的一元回归,结果如表6.4.2。
表6.4.2 回归结果
以X1为基础,顺次加入其他变量逐步回归。
首先加入X5回归结果为:
t t t
X X Y 5074.134010333.0029.8814ˆ++-= t (4.3736) (3.6639) R 2=0.9752
当α=5%时,365.2)1210()1(025.02/=--=--t k n t α,X5参数的t 检验显著,不予剔除,加入X2回归得:
t t t
t X X X Y 21858.85876.104110503.04331.979ˆ+-+= t (9.7417) (-2.1023) (5.2147) R 2=0.9938
当α=5%时,447.2)1310()1(025.02/=--=--t k n t α,X5参数的t 检验不显著,剔除X5,加入X4回归得:
t t t t
X X X Y 48284.123624.510350.063.3447ˆ+++-= t (4.9483) (7.1915) (0.9468) R 2=0.9916
当α=5%时,447.2)1310()1(025.02/=--=--t k n t α,X4参数的t 检验不显著,剔除X4,加入X3回归得:
t t t t
X X X Y 37640.222690.310431.0845.29955ˆ+++-= t (15.6195) (3.1570) (2.4482) R 2=0.9916
当α=5%时,447.2)1310()1(025.02/=--=--t k n t α,X1、X2、X3参数的t 检验显著,拟合度也好,这即是消除多重共线性结果。
结论:在其他因素不变的情况下,当城镇居民人均旅游支出X2和农民居民旅游支出X3分别增长1%时,国内旅游收入Y 分别增长3.27%与2.76%。
在其他因素不变的情况下,国内旅游人数每增加1万人次,国内旅游收入Y 将增长0.043亿元。
实验数据五。